このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230227となっている論文です。

PDF登録状況(公開日: 20230227)

TitleAuthorsAbstract論文公表日・翻訳日
# 点雲登録のための多視点ディスクリプタの学習とマッチング

Learning and Matching Multi-View Descriptors for Registration of Point Clouds ( http://arxiv.org/abs/1807.05653v2 )

ライセンス: Link先を確認
Lei Zhou, Siyu Zhu, Zixin Luo, Tianwei Shen, Runze Zhang, Mingmin Zhen, Tian Fang, Long Quan(参考訳) 点雲の登録には、3次元空間内の点間の正確な対応のセットを確立することが重要である。 対応問題は、一般に、差別的な3Dローカル記述子の設計と、一方で堅牢なマッチング戦略の開発によって解決される。 本研究では,まず3次元キーポイントの記述のために,複数のビューの画像から学習したマルチビュー局所記述子を提案する。 そこで我々は,定義したグラフィカルモデル上での信念の伝播による効率的な推論に基づいて,外乱マッチングを拒否する頑健なマッチング手法を開発した。 我々は、パブリックスキャンとマルチビューステレオデータセットの登録に対する我々のアプローチの強化を実証した。 優れた性能は、様々なディスクリプタとマッチングメソッドに対する集中的な比較によって検証されている。

Critical to the registration of point clouds is the establishment of a set of accurate correspondences between points in 3D space. The correspondence problem is generally addressed by the design of discriminative 3D local descriptors on the one hand, and the development of robust matching strategies on the other hand. In this work, we first propose a multi-view local descriptor, which is learned from the images of multiple views, for the description of 3D keypoints. Then, we develop a robust matching approach, aiming at rejecting outlier matches based on the efficient inference via belief propagation on the defined graphical model. We have demonstrated the boost of our approaches to registration on the public scanning and multi-view stereo datasets. The superior performance has been verified by the intensive comparisons against a variety of descriptors and matching methods.
翻訳日:2023-03-25 04:49:40 公開日:2023-02-27
# 数理ファイナンスにおける量子グループ

Quantum Groups in Mathematical Finance ( http://arxiv.org/abs/1711.07279v8 )

ライセンス: Link先を確認
Paul McCloud(参考訳) 数学的金融は、基本的な経済原理によって課される証券の価格間の整合性関係を探求する。 これらの中でよく見られるのは、調停の欠如と期待と価格の等価性であり、どちらも本質的にはバリュエーションマップ上の代数的制約である。 価格を支配する原理は、量子プロセスの確率的および機能的計算の文脈でレビューされる。 状態(仲裁なしのバリュエーションマップ)と観測可能な状態(証券の契約的決済)の双対性の観点から考えると、量子グループはアプローチの中心である。 この枠組みに経済原理を翻訳すると、オプション価格と両方向を照らすフォン・ノイマン代数の間に関係が生じる。 論文は、半単純リー代数の既約表現から利子率モデルを構築することで結論付け、ヨーロッパおよびバームダンの交換価格におけるそれらの適用を実証する。

Mathematical finance explores the consistency relationships between the prices of securities imposed by elementary economic principles. Commonplace among these are the absence of arbitrage and the equivalence of expectation and price, both essentially algebraic constraints on the valuation map. The principles that govern pricing are here reviewed in the context of the stochastic and functional calculus of quantum processes. Framed in terms of the duality between states (the arbitrage-free valuation maps) and observables (the contractual settlements of securities), quantum groups are central to the approach. Translating the economic principles into this framework, a link is made between option pricing and von Neumann algebras that is illuminating in both directions. The essay concludes with the construction of interest rate models from the irreducible representations of semisimple Lie algebras, demonstrating their application in the pricing of European and Bermudan swaptions.
翻訳日:2023-03-25 04:48:56 公開日:2023-02-27
# 大域的最適政策を実現するニューラル近・トラスト領域政策最適化

Neural Proximal/Trust Region Policy Optimization Attains Globally Optimal Policy ( http://arxiv.org/abs/1906.10306v3 )

ライセンス: Link先を確認
Boyi Liu, Qi Cai, Zhuoran Yang, Zhaoran Wang(参考訳) ニューラルネットワークによってパラメータ化されたアクターと批評家によるPPOとTRPO(proximal Policy Optimization and Trust Region Policy Optimization)は、深層強化学習において大きな成功を収める。 しかし、非凸性のため、PPO と TRPO のグローバル収束はあまり理解されておらず、これは理論を実践と区別している。 本稿では,過パラメータ化ニューラルネットワークを備えたppoとtrpoの変種が,サブリニアレートでグローバル最適ポリシーに収束することを示す。 我々の分析の鍵は、一点単調性の概念の下で無限次元ミラー降下のグローバル収束であり、勾配とイテレートはニューラルネットワークによってインスタンス化される。 特に、そのようなニューラルネットワークの過剰パラメータ化によって引き起こされる望ましい表現力と最適化幾何は、無限次元の勾配と反復を正確に近似することができる。

Proximal policy optimization and trust region policy optimization (PPO and TRPO) with actor and critic parametrized by neural networks achieve significant empirical success in deep reinforcement learning. However, due to nonconvexity, the global convergence of PPO and TRPO remains less understood, which separates theory from practice. In this paper, we prove that a variant of PPO and TRPO equipped with overparametrized neural networks converges to the globally optimal policy at a sublinear rate. The key to our analysis is the global convergence of infinite-dimensional mirror descent under a notion of one-point monotonicity, where the gradient and iterate are instantiated by neural networks. In particular, the desirable representation power and optimization geometry induced by the overparametrization of such neural networks allow them to accurately approximate the infinite-dimensional gradient and iterate.
翻訳日:2023-03-25 04:33:02 公開日:2023-02-27
# 共変チャネルの絡み合い対称性

Entanglement-symmetries of covariant channels ( http://arxiv.org/abs/2012.05761v7 )

ライセンス: Link先を確認
Dominic Verdon(参考訳) G と G' をモノイド同値なコンパクト量子群とし、H をホップ・ガロワ対象とし、これらの群の表現圏の間のモノイド同値性を実現する。 このモノイド同値性は同値 Chan(G) -> Chan(G') を誘導し、Chan(G) は対象が G の作用を持つ有限次元 C*-代数であり、射が同変チャネルである圏である。 ホップ・ガロワ対象 H が有限次元 *-表現を持つならば、この同値性に関連するチャネルは有限次元の絡み合った資源を用いて互いにシミュレートできることを示す。 この結果を用いて、ある量子チャネルの絡み合い支援容量を計算する。

Let G and G' be monoidally equivalent compact quantum groups, and let H be a Hopf-Galois object realising a monoidal equivalence between these groups' representation categories. This monoidal equivalence induces an equivalence Chan(G) -> Chan(G'), where Chan(G) is the category whose objects are finite-dimensional C*-algebras with an action of G and whose morphisms are covariant channels. We show that, if the Hopf-Galois object H has a finite-dimensional *-representation, then channels related by this equivalence can simulate each other using a finite-dimensional entangled resource. We use this result to calculate the entanglement-assisted capacities of certain quantum channels.
翻訳日:2023-03-25 04:05:45 公開日:2023-02-27
# マルチラベル情報学習によるオープンセット行動認識

Open Set Action Recognition via Multi-Label Evidential Learning ( http://arxiv.org/abs/2303.12698v1 )

ライセンス: Link先を確認
Chen Zhao, Dawei Du, Anthony Hoogs, Christopher Funk(参考訳) 既存のオープンセットアクション認識手法は、ビデオクリップが1つのアクションを示すと仮定するノベルティ検出に焦点を当てている。 本稿では,同一シーンにおけるシングルアクタや複数アクタのより一般的な問題に,任意のアクタによる同時アクション(s)を用いて対処することにより,従来の新しいアクション検出方法を超えて,MULEを用いたオープンセットアクション認識と新規性検出を行う手法を提案する。 我々のBeta Evidential Neural Networkは、アクター-コンテキスト-オブジェクト関係表現に基づくベータ密度によるマルチアクション不確かさを推定する。 予測と静的な手がかりを誤って相関させることができるビデオ表現の静的バイアスを低減するために、目的関数にエビデンスデバイアス制約を付加する。 提案した問題を最適化するために,予備二元平均スキーム更新に基づく学習アルゴリズムを開発した。 最適化アルゴリズムの理論解析は、損失関数と偏りの制約の両方に対する一次解列と境界の収束を実証する。 不確実性と信条に基づく新規性推定機構を定式化し,新しい行動を検出する。 2つの実世界のビデオデータセットに関する広範囲な実験により,提案手法がシングル/マルチアクタ/シングル/マルチアクション設定で有望な性能を実現することを示した。

Existing methods for open-set action recognition focus on novelty detection that assumes video clips show a single action, which is unrealistic in the real world. We propose a new method for open set action recognition and novelty detection via MUlti-Label Evidential learning (MULE), that goes beyond previous novel action detection methods by addressing the more general problems of single or multiple actors in the same scene, with simultaneous action(s) by any actor. Our Beta Evidential Neural Network estimates multi-action uncertainty with Beta densities based on actor-context-object relation representations. An evidence debiasing constraint is added to the objective function for optimization to reduce the static bias of video representations, which can incorrectly correlate predictions and static cues. We develop a learning algorithm based on a primal-dual average scheme update to optimize the proposed problem. Theoretical analysis of the optimization algorithm demonstrates the convergence of the primal solution sequence and bounds for both the loss function and the debiasing constraint. Uncertainty and belief-based novelty estimation mechanisms are formulated to detect novel actions. Extensive experiments on two real-world video datasets show that our proposed approach achieves promising performance in single/multi-actor, single/multi-action settings.
翻訳日:2023-03-25 03:19:15 公開日:2023-02-27
# ディープニューラルネットワークアーキテクチャとハイパーパラメータの最適化のためのアルゴリズムフレームワーク

An algorithmic framework for the optimization of deep neural networks architectures and hyperparameters ( http://arxiv.org/abs/2303.12797v1 )

ライセンス: Link先を確認
Julie Keisler (EDF R&D OSIRIS, EDF R&D, CRIStAL), El-Ghazali Talbi (CRIStAL), Sandra Claudel (EDF R&D OSIRIS, EDF R&D), Gilles Cabriel (EDF R&D OSIRIS, EDF R&D)(参考訳) 本稿では,効率的なディープニューラルネットワークを自動生成し,関連するハイパーパラメータを最適化するアルゴリズムフレームワークを提案する。 このフレームワークは、進化する有向非巡回グラフ(DAG)に基づいており、文献の既存のグラフよりも柔軟な検索空間を定義する。 畳み込み(convolutions)、再帰(recurrentence)、密集層( dense layer)など、さまざまな古典的な操作の混合を可能にする。 この探索空間に基づいて,ネットワークのアーキテクチャとハイパーパラメータの両方を最適化する近傍探索演算子と進化探索演算子を提案する。 これらの探索演算子は、混合探索空間を扱えるメタヒューリスティックで使用することができる。 我々は時系列予測ベンチマークで進化的アルゴリズムを用いてアルゴリズムフレームワークを検証した。 その結果,多数のデータセット上で確立されたベースラインよりも優れたモデルを見出すことができた。

In this paper, we propose an algorithmic framework to automatically generate efficient deep neural networks and optimize their associated hyperparameters. The framework is based on evolving directed acyclic graphs (DAGs), defining a more flexible search space than the existing ones in the literature. It allows mixtures of different classical operations: convolutions, recurrences and dense layers, but also more newfangled operations such as self-attention. Based on this search space we propose neighbourhood and evolution search operators to optimize both the architecture and hyper-parameters of our networks. These search operators can be used with any metaheuristic capable of handling mixed search spaces. We tested our algorithmic framework with an evolutionary algorithm on a time series prediction benchmark. The results demonstrate that our framework was able to find models outperforming the established baseline on numerous datasets.
翻訳日:2023-03-25 02:51:49 公開日:2023-02-27
# redditコミュニティにおけるdeepfake関連の議論の背後にある道徳的直観

Moral intuitions behind deepfake-related discussions in Reddit communities ( http://arxiv.org/abs/2303.06216v1 )

ライセンス: Link先を確認
Dilrukshi Gamage, Hariharan Ravinthran, Kazutoshi Sasahara(参考訳) ディープフェイク(Deepfakes)は、多くのソーシャルメディアプラットフォームで人気が高まっているAI合成コンテンツである。 ディープフェイクの背後にある道徳的直観が問題となる場合、その意味は有害であり、ディープフェイクの背後にある道徳的直観が大規模なコミュニティにどのように広がるかを検討することが重要である。 しかし、会話の複雑さのため、デジタル文脈で展開される道徳的視点を理解することは困難である。 本研究では, Redditコミュニティにおけるディープフェイクに関する議論において, 道徳的視点を運用するためのレンズとして, 道徳的基礎理論(MFT)をいかに活用できるかを示す。 拡張Moral Foundations Dictionary (eMFD)を用いて、Reddit投稿101,869件の道徳的直観の強さを測定した。 2018年から2022年にかけてredditで公開された議論では、いくつかの投稿の背後にある直観が社会に道徳的に疑わしいと判明した。 我々の結果は、プラットフォームがディープフェイクに関連する不道徳な活動を検出し、対処するのに役立ちます。

Deepfakes are AI-synthesized content that are becoming popular on many social media platforms, meaning the use of deepfakes is increasing in society, regardless of its societal implications. Its implications are harmful if the moral intuitions behind deepfakes are problematic; thus, it is important to explore how the moral intuitions behind deepfakes unfold in communities at scale. However, understanding perceived moral viewpoints unfolding in digital contexts is challenging, due to the complexities in conversations. In this research, we demonstrate how Moral Foundations Theory (MFT) can be used as a lens through which to operationalize moral viewpoints in discussions about deepfakes on Reddit communities. Using the extended Moral Foundations Dictionary (eMFD), we measured the strengths of moral intuition (moral loading) behind 101,869 Reddit posts. We present the discussions that unfolded on Reddit in 2018 to 2022 wherein intuitions behind some posts were found to be morally questionable to society. Our results may help platforms detect and take action against immoral activities related to deepfakes.
翻訳日:2023-03-19 11:58:30 公開日:2023-02-27
# deep visual forced alignment: 書き起こしとトークフェイスビデオの連携を学習する

Deep Visual Forced Alignment: Learning to Align Transcription with Talking Face Video ( http://arxiv.org/abs/2303.08670v1 )

ライセンス: Link先を確認
Minsu Kim, Chae Won Kim, Yong Man Ro(参考訳) 強制アライメントとは、与えられた転写を対応する音声でタイムアライメントする技術である。 しかし、音声音声を用いた強制アライメント技術が開発されているため、入力音声音声がノイズ補間されたり、アクセスできない場合、アライメントに失敗する可能性がある。 我々は、音声から推論できる別の要素、すなわち音声ビデオ(つまり、話し顔ビデオ)があることに焦点を当てる。 音声信号が不十分な場合、映像情報を用いて音声ベースの強制アライメントの欠点を補うことができるため、新たな映像ベースの強制アライメント手法の開発を試みる。 しかし、オーディオ強制アライメントと異なり、以下の2つの理由から、信頼性の高い視覚強制アライメント技術の開発が困難である。 1)視覚音声認識(VSR)は、音声に基づく自動音声認識(ASR)に比べてはるかに低性能である。 2)テキストから映像への翻訳は信頼できないため,音声強制アライメント構築に一般的に用いられる手法は,視覚強制アライメントの開発に利用できない。 本稿では,これらの課題を軽減するために,視覚的強制アライメント,すなわちDeep Visual Forced Alignment(DVFA)に適した新しい手法を提案する。 提案したDVFAは、音声音声にアクセスすることなく、入力書き起こし(文)と話し顔ビデオとを一致させることができる。 さらに、異常ケース検出によるアライメントタスクを増強することにより、DVFAはアライメントを実行しながら、入力文字と入力ビデオのミスマッチを検出することができる。 したがって、テキストに誤り語があっても、テキストを会話面ビデオに頑健に整列させることができる。 広範囲な実験を通して,提案したDVFAの有効性をアライメントタスクだけでなく,VSRモデルの出力を解釈する上でも示す。

Forced alignment refers to a technology that time-aligns a given transcription with a corresponding speech. However, as the forced alignment technologies have developed using speech audio, they might fail in alignment when the input speech audio is noise-corrupted or is not accessible. We focus on that there is another component that the speech can be inferred from, the speech video (i.e., talking face video). Since the drawbacks of audio-based forced alignment can be complemented using the visual information when the audio signal is under poor condition, we try to develop a novel video-based forced alignment method. However, different from audio forced alignment, it is challenging to develop a reliable visual forced alignment technology for the following two reasons: 1) Visual Speech Recognition (VSR) has a much lower performance compared to audio-based Automatic Speech Recognition (ASR), and 2) the translation from text to video is not reliable, so the method typically used for building audio forced alignment cannot be utilized in developing visual forced alignment. In order to alleviate these challenges, in this paper, we propose a new method that is appropriate for visual forced alignment, namely Deep Visual Forced Alignment (DVFA). The proposed DVFA can align the input transcription (i.e., sentence) with the talking face video without accessing the speech audio. Moreover, by augmenting the alignment task with anomaly case detection, DVFA can detect mismatches between the input transcription and the input video while performing the alignment. Therefore, we can robustly align the text with the talking face video even if there exist error words in the text. Through extensive experiments, we show the effectiveness of the proposed DVFA not only in the alignment task but also in interpreting the outputs of VSR models.
翻訳日:2023-03-19 11:39:40 公開日:2023-02-27
# フェデレーション量子自然勾配Descentに基づく量子フェデレーション学習の最適化

Optimizing Quantum Federated Learning Based on Federated Quantum Natural Gradient Descent ( http://arxiv.org/abs/2303.08116v1 )

ライセンス: Link先を確認
Jun Qi, Xiao-Lei Zhang, Javier Tejedor(参考訳) 量子フェデレーション学習 (quantum federated learning, qfl) は、複数の局所量子デバイスにまたがる古典的フェデレーション学習モデルの量子拡張である。 効率的な最適化アルゴリズムは、異なる量子参加者間の通信オーバーヘッドを最小限に抑えることが常に期待されている。 本稿では,FQNGD(Federated quantum natural gradient descent)という効率的な最適化アルゴリズムを提案し,さらに,変分量子回路(VQC)に基づく量子ニューラルネットワーク(QNN)からなるQFLフレームワークに適用する。 アダムやアダグラードのような確率勾配降下法と比較すると、FQNGDアルゴリズムはQFLが収束するまでのトレーニングイテレーションをはるかに少なくする。 さらに、ローカル量子デバイス間の通信オーバーヘッドを大幅に削減することができる。 手書き桁分類データセットを用いた実験により,QFLフレームワークにおけるFQNGDの有効性を,トレーニングセットの収束率の向上とテストセットの精度向上の観点から検証した。

Quantum federated learning (QFL) is a quantum extension of the classical federated learning model across multiple local quantum devices. An efficient optimization algorithm is always expected to minimize the communication overhead among different quantum participants. In this work, we propose an efficient optimization algorithm, namely federated quantum natural gradient descent (FQNGD), and further, apply it to a QFL framework that is composed of a variational quantum circuit (VQC)-based quantum neural networks (QNN). Compared with stochastic gradient descent methods like Adam and Adagrad, the FQNGD algorithm admits much fewer training iterations for the QFL to get converged. Moreover, it can significantly reduce the total communication overhead among local quantum devices. Our experiments on a handwritten digit classification dataset justify the effectiveness of the FQNGD for the QFL framework in terms of a faster convergence rate on the training set and higher accuracy on the test set.
翻訳日:2023-03-19 11:38:37 公開日:2023-02-27
# TOT:マルチモーダルヘイト検出のためのトポロジーを考慮した最適輸送

TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection ( http://arxiv.org/abs/2303.09314v1 )

ライセンス: Link先を確認
Linhao Zhang, Li Jin, Xian Sun, Guangluan Xu, Zequn Zhang, Xiaoyu Li, Nayu Liu, Shiyao Yan, Qing Liu(参考訳) ミームなどの有害なコンテンツを特定することを目的としたマルチモーダルヘイト検出は、インターネット環境全体の構築に不可欠である。 これまでの研究は、露骨な憎しみの発言を検出するための啓蒙的な探求をしてきた。 しかし、これらのアプローチのほとんどは暗黙の害の分析を無視しており、明示的なテキストマーカーや人口統計学的手がかりがしばしばねじれや欠落しているため、特に難しい。 レバレッジド・クロスモーダル・アテンション機構は分布のモダリティギャップに悩まされ、論理的解釈性に欠ける。 これらの意味的ギャップに対処するために,我々は,最適輸送計画の解としてクロスモーダル整列問題を定式化したミームシナリオにおける暗黙的危害を解くトポロジー対応最適輸送フレームワークtotを提案する。 具体的には、最適なトランスポートカーネル法を利用して、複数のモードから補完情報をキャプチャする。 カーネル埋め込みは、カーネルヒルベルト空間(英語版)(rkhs)を再現する非線形変換能力を提供する。 さらに,2部グラフの経路推論を行うために,アライメント表現に基づくトポロジ情報を知覚する。 公開された2つのベンチマークデータセット上で新たに達成された最先端のパフォーマンスと、さらなるビジュアル分析は、暗黙的なクロスモーダルアライメントのキャプチャにおけるTOTの優位性を実証している。

Multimodal hate detection, which aims to identify harmful content online such as memes, is crucial for building a wholesome internet environment. Previous work has made enlightening exploration in detecting explicit hate remarks. However, most of their approaches neglect the analysis of implicit harm, which is particularly challenging as explicit text markers and demographic visual cues are often twisted or missing. The leveraged cross-modal attention mechanisms also suffer from the distributional modality gap and lack logical interpretability. To address these semantic gaps issues, we propose TOT: a topology-aware optimal transport framework to decipher the implicit harm in memes scenario, which formulates the cross-modal aligning problem as solutions for optimal transportation plans. Specifically, we leverage an optimal transport kernel method to capture complementary information from multiple modalities. The kernel embedding provides a non-linear transformation ability to reproduce a kernel Hilbert space (RKHS), which reflects significance for eliminating the distributional modality gap. Moreover, we perceive the topology information based on aligned representations to conduct bipartite graph path reasoning. The newly achieved state-of-the-art performance on two publicly available benchmark datasets, together with further visual analysis, demonstrate the superiority of TOT in capturing implicit cross-modal alignment.
翻訳日:2023-03-19 11:28:41 公開日:2023-02-27
# 固体スピンの全光ノイズ分光

All-optical noise spectroscopy of a solid-state spin ( http://arxiv.org/abs/2109.03405v4 )

ライセンス: Link先を確認
Demitry Farfurnik, Harjot Singh, Zhouchen Luo, Allan S. Bracker, Samuel G. Carter, Robert M. Pettit, and Edo Waks(参考訳) ノイズスペクトロスコピーはスピン系の基本ノイズ源を解明し、量子情報処理、通信、センシングのための長いコヒーレンス時間を持つスピン量子ビットを開発するための重要なツールとなる。 しかし、マイクロ波力が弱すぎてスピンのラビ回転が生成できないと、マイクロ波場に依存する既存のノイズスペクトロスコピー技術は実現できない。 ここでは、ノイズスペクトロスコピーを行うための代替の全光学的アプローチを示す。 スピン状態のコヒーレントラマン回転とタイミングと位相を制御し,carr-purcell-meiboom-gillパルスシーケンスを実装した。 これらの系列の下でスピンダイナミクスを分析することで、量子ドット内の1つのスピンと相互作用する核スピンの密集したアンサンブルのノイズスペクトルを抽出することができる。 100MHz以上の帯域幅を提供することで、スピンダイナミクスとデコヒーレンスを幅広い固体スピン量子ビットに対して研究することができる。

Noise spectroscopy elucidates the fundamental noise sources in spin systems, thereby serving as an essential tool toward developing spin qubits with long coherence times for quantum information processing, communication, and sensing. But existing techniques for noise spectroscopy that rely on microwave fields become infeasible when the microwave power is too weak to generate Rabi rotations of the spin. Here, we demonstrate an alternative all-optical approach to performing noise spectroscopy. Our approach utilizes coherent Raman rotations of the spin state with controlled timing and phase to implement Carr-Purcell-Meiboom-Gill pulse sequences. Analyzing the spin dynamics under these sequences enables us to extract the noise spectrum of a dense ensemble of nuclear spins interacting with a single spin in a quantum dot, which has thus far only been modeled theoretically. By providing spectral bandwidths of over 100 MHz, our approach enables the studies of spin dynamics and decoherence for a broad range of solid-state spin qubits.
翻訳日:2023-03-15 20:50:14 公開日:2023-02-27
# 非トレース保存量子演算における誤差メトリック

Error metric for non-trace-preserving quantum operations ( http://arxiv.org/abs/2110.02290v3 )

ライセンス: Link先を確認
Yu Shi, Edo Waks(参考訳) 非トレース保存量子演算に対する誤差計量を提案し、不完全かつ理想的な演算から正規化された出力状態の間のトレース距離に上限を与える。 また、再正規化によりこの計量を計算する効率的なアルゴリズムを提案する。 その応用の実証として、KLMプロトコルにおける2つの主要な非トレース保存操作である損失ビームスプリッタと非決定的条件付きサインフリップゲートを解析する。 さらに,中性原子量子コンピュータの漏洩誤差を解析し,当初予測したよりもスケールが著しく悪化していることを示し,より厳格なフォールトトレラントしきい値を示すことを示唆した。 また、一般的なポストセレクトプロトコルにおけるメトリックの適用と、フォールトトレラント量子コンピューティングにおけるエラー伝播と推定しきい値の研究にどのように使用できるかについても論じる。 したがって、実用的な量子情報処理を解析するための幅広い応用を示す。

We propose an error metric for non-trace-preserving quantum operations, which provides an upper bound on the trace distance between the normalized output states from imperfect and ideal operations. We also present an efficient algorithm to compute this metric by renormalization. As a demonstration of its application, we analyze a lossy beam splitter and the non-deterministic conditional sign-flip gate, which are two primary non-trace-preserving operations in the Knill-LaflammeMilburn (KLM) protocol. In addition, we analyze the leakage errors of neutral-atom quantum computers and show that they scale much worse than originally predicted, suggesting that they exhibit a more stringent fault-tolerant threshold. We also discuss the application of the metric in general post-selected protocols and how it can be used to study error propagation and estimate thresholds in fault-tolerant quantum computing. Therefore, it shows a wide range of applications in analyzing practical quantum information processing.
翻訳日:2023-03-12 10:07:59 公開日:2023-02-27
# 高次元データの最も効率的かつメモリ節約な可視化の探索

In search of the most efficient and memory-saving visualization of high dimensional data ( http://arxiv.org/abs/2303.05455v1 )

ライセンス: Link先を確認
Bartosz Minch(参考訳) 大規模多次元データセットのインタラクティブな探索は、様々な科学分野で非常に重要な役割を果たす。 これにより、頂点のクラスタや接続パターンなどの重要な構造的特徴や形態を識別できるだけでなく、位置、距離、形状、接続密度の観点からそれらの相互関係を評価することができる。 多次元データの可視化は、非指向的近距離グラフの二次元埋め込み問題によってよく近似される。 複雑なネットワークのサイズは、今日のコンピュータシステムにとって大きな課題であり、さらに効率的なデータ埋め込みアルゴリズムを必要とする。 既存の削減方法は遅すぎるため、対話的な操作ができない。 高品質な組込みは最小限の時間とメモリの複雑さで生成される。 我々は、非常に効率的なIVHDアルゴリズム(CPUとGPU)を提案し、それらを最新の最も一般的な次元削減手法と比較する。 メモリと時間要件がベースコードよりも劇的に低いことを示す。 ivhdは、埋め込み品質のわずかな低下のコストで、データの主な構造的特性をはるかに低い時間予算で保存する。 また,教師なしデータ埋め込みメソッドを教師あり方式で使用可能にするメタアルゴリズムを提案する。

Interactive exploration of large, multidimensional datasets plays a very important role in various scientific fields. It makes it possible not only to identify important structural features and forms, such as clusters of vertices and their connection patterns, but also to evaluate their interrelationships in terms of position, distance, shape and connection density. We argue that the visualization of multidimensional data is well approximated by the problem of two-dimensional embedding of undirected nearest-neighbor graphs. The size of complex networks is a major challenge for today's computer systems and still requires more efficient data embedding algorithms. Existing reduction methods are too slow and do not allow interactive manipulation. We show that high-quality embeddings are produced with minimal time and memory complexity. We present very efficient IVHD algorithms (CPU and GPU) and compare them with the latest and most popular dimensionality reduction methods. We show that the memory and time requirements are dramatically lower than for base codes. At the cost of a slight degradation in embedding quality, IVHD preserves the main structural properties of the data well with a much lower time budget. We also present a meta-algorithm that allows the use of any unsupervised data embedding method in a supervised manner.
翻訳日:2023-03-12 03:32:37 公開日:2023-02-27
# 非マルコフ開量子系の簡潔記述と効率的なシミュレーション

Succinct Description and Efficient Simulation of Non-Markovian Open Quantum Systems ( http://arxiv.org/abs/2111.03240v2 )

ライセンス: Link先を確認
Xiantao Li, Chunhao Wang(参考訳) 非マルコフ的開量子系は、量子系が入浴環境と結合されるときの最も一般的な力学を表す。 多くの重要な応用から生じる量子力学は非マルコフである。 ハミルトン進化やリンドブラッド進化のような特殊なケースでは量子シミュレーションアルゴリズムが広く研究されているが、非マルコフ開量子系の力学の効率的な量子シミュレーションは未解明のままである。 このようなシステムを研究する上で最も直接的な障害は、それらの力学に関する普遍的な簡潔な記述がないことである。 本研究では,このようなダイナミクスの研究のギャップを埋める。 1) 量子化誤差を持つ非マルコフ開量子系の力学の簡潔な表現を提供し、 2)そのようなダイナミクスをシミュレートするための効率的な量子アルゴリズムを開発するには、進化時間$t$と精度$\epsilon$のコスト$o(t\, \mathrm{polylog}(t/\epsilon))$が必要である。 succinct表現の導出は確率的なSchr\"odinger方程式に基づいており、これは開量子系にも新しい選択肢をもたらす可能性がある。

Non-Markovian open quantum systems represent the most general dynamics when the quantum system is coupled with a bath environment. The quantum dynamics arising from many important applications are non-Markovian. Although for special cases, such as Hamiltonian evolution and Lindblad evolution, quantum simulation algorithms have been extensively studied, efficient quantum simulations for the dynamics of non-Markovian open quantum systems remain underexplored. The most immediate obstacle for studying such systems is the lack of a universal succinct description of their dynamics. In this work, we fulfill the gap of studying such dynamics by 1) providing a succinct representation of the dynamics of non-Markovian open quantum systems with quantifiable error, and 2) developing an efficient quantum algorithm for simulating such dynamics with cost $O(t\, \mathrm{polylog}(t/\epsilon))$ for evolution time $t$ and precision $\epsilon$. Our derivation of the succinct representation is based on stochastic Schr\"odinger equations, which could lead to new alternatives to deal with open quantum systems as well.
翻訳日:2023-03-09 02:25:52 公開日:2023-02-27
# 整列のない安全

Safety without alignment ( http://arxiv.org/abs/2303.00752v1 )

ライセンス: Link先を確認
Andr\'as Kornai and Michael Bukatin and Zsolt Zombori(参考訳) 現在、AIの安全性における支配的なパラダイムは、人間の価値と一致している。 ここでは、倫理的合理主義(Gewirth:1978)に基づく安全性への代替アプローチの進展について述べるとともに、サンドボックス内のハイブリッド定理プローサによる本質的に安全な実装経路を提案する。 AGIが進化するにつれて、それらのアライメントは消滅するが、それらの合理性は増大する(またはより合理的なものは大きな進化上の優位性を持つ)。

Currently, the dominant paradigm in AI safety is alignment with human values. Here we describe progress on developing an alternative approach to safety, based on ethical rationalism (Gewirth:1978), and propose an inherently safe implementation path via hybrid theorem provers in a sandbox. As AGIs evolve, their alignment may fade, but their rationality can only increase (otherwise more rational ones will have a significant evolutionary advantage) so an approach that ties their ethics to their rationality has clear long-term advantages.
翻訳日:2023-03-03 17:13:59 公開日:2023-02-27
# スパイクニューラルネットワークのフェデレーション学習におけるコミュニケーショントレードオフ

Communication Trade-offs in Federated Learning of Spiking Neural Networks ( http://arxiv.org/abs/2303.00928v1 )

ライセンス: Link先を確認
Soumi Chaki, David Weinberg, and Ayca \"Ozcelikkale(参考訳) スパイキングニューラルネットワーク(SNN)は、生物学的にインスパイアされた従来のニューラルネットワーク(ANN)の代替品である。 有望な予備的な結果にもかかわらず、分散スキームにおけるSNNのトレーニングにおけるトレードオフはよく理解されていない。 本稿では、SNNを、データを共有することなく複数のローカルモデルをクライアントから集約することで高品質なグローバルモデルを作成するフェデレート学習環境で考える。 2つのメカニズムがアップリンク通信コストを削減する場合、複数のSNNをクライアントで訓練するための連合学習について検討する。 一 クライアントからサーバに送信されたモデル更新のランダムマスキング 二 クライアントがサーバに更新を送信しないクライアントのドロップアウト 我々はSNNの性能を、Spyking Heidelberg digits (SHD) データセットのサブセットを用いて評価した。 その結果, ランダムマスキングとクライアントドロップ確率のトレードオフは, 一定数のクライアントに対して良好な性能を得るために重要であることがわかった。

Spiking Neural Networks (SNNs) are biologically inspired alternatives to conventional Artificial Neural Networks (ANNs). Despite promising preliminary results, the trade-offs in the training of SNNs in a distributed scheme are not well understood. Here, we consider SNNs in a federated learning setting where a high-quality global model is created by aggregating multiple local models from the clients without sharing any data. We investigate federated learning for training multiple SNNs at clients when two mechanisms reduce the uplink communication cost: i) random masking of the model updates sent from the clients to the server; and ii) client dropouts where some clients do not send their updates to the server. We evaluated the performance of the SNNs using a subset of the Spiking Heidelberg digits (SHD) dataset. The results show that a trade-off between the random masking and the client drop probabilities is crucial to obtain a satisfactory performance for a fixed number of clients.
翻訳日:2023-03-03 16:19:24 公開日:2023-02-27
# 説明可能な人工知能とサイバーセキュリティ:システム文献レビュー

Explainable Artificial Intelligence and Cybersecurity: A Systematic Literature Review ( http://arxiv.org/abs/2303.01259v1 )

ライセンス: Link先を確認
Carlos Mendes and Tatiane Nogueira Rios(参考訳) サイバーセキュリティベンダーは一貫してAI(Artificial Intelligence)をソリューションに適用し、多くのサイバーセキュリティドメインはAI技術から恩恵を受けることができる。 しかし、ブラックボックスのai技術は、その決定が常に人間に理解できるとは限らない(例えばディープニューラルネットワークの場合のように)ため、そのオペレーターによる理解と採用にいくつかの困難をもたらしている。 XAI(eXplainable Artificial Intelligence)は、AIアルゴリズムの操作をよりユーザや開発者にとって解釈可能にするため、この問題に対処するために使用できる。 本研究は,サイバーセキュリティに適用されているxaiの現在の研究シナリオを調査し,サイバーセキュリティにおいてどのようなxai技術が適用されているのか,サイバーセキュリティのどの分野が既にこの技術から恩恵を受けているのかを明らかにすることを目的としている。

Cybersecurity vendors consistently apply AI (Artificial Intelligence) to their solutions and many cybersecurity domains can benefit from AI technology. However, black-box AI techniques present some difficulties in comprehension and adoption by its operators, given that their decisions are not always humanly understandable (as is usually the case with deep neural networks, for example). Since it aims to make the operation of AI algorithms more interpretable for its users and developers, XAI (eXplainable Artificial Intelligence) can be used to address this issue. Through a systematic literature review, this work seeks to investigate the current research scenario on XAI applied to cybersecurity, aiming to discover which XAI techniques have been applied in cybersecurity, and which areas of cybersecurity have already benefited from this technology.
翻訳日:2023-03-03 14:22:16 公開日:2023-02-27
# 言語モデルによる報酬設計

Reward Design with Language Models ( http://arxiv.org/abs/2303.00001v1 )

ライセンス: Link先を確認
Minae Kwon, Sang Michael Xie, Kalesha Bullard, Dorsa Sadigh(参考訳) 強化学習におけるリワード設計(Reward design in reinforcement learning, RL)は、人間の所望の行動概念を特定することは、報酬関数や多くの専門家によるデモンストレーションを必要とするため困難である。 代わりに、自然言語インターフェースを使って報酬を安く設計できますか? 本稿では,gpt-3 のような大規模言語モデル (llm) をプロキシ報酬関数として促すことにより,報酬設計を簡素化する方法について検討する。 我々のアプローチは、このプロキシ報酬関数をRLフレームワークで活用する。 具体的には、トレーニング開始時に一度プロンプトを指定する。 トレーニング中、LLMはプロンプトによって記述された所望の動作に対してRLエージェントの動作を評価し、対応する報酬信号を出力する。 rlエージェントは、この報酬を使って振る舞いを更新する。 我々は,Ultimatumゲーム,行列ゲーム,DealOrNoDealネゴシエーションタスクにおいて,ユーザ目標に沿ったエージェントをトレーニングできるかどうかを評価する。 3つのタスクすべてにおいて,我々のフレームワークで訓練されたrlエージェントは,ユーザの目的とよく一致し,教師付き学習で学習した報酬機能で訓練されたrlエージェントよりも優れていることを示す。

Reward design in reinforcement learning (RL) is challenging since specifying human notions of desired behavior may be difficult via reward functions or require many expert demonstrations. Can we instead cheaply design rewards using a natural language interface? This paper explores how to simplify reward design by prompting a large language model (LLM) such as GPT-3 as a proxy reward function, where the user provides a textual prompt containing a few examples (few-shot) or a description (zero-shot) of the desired behavior. Our approach leverages this proxy reward function in an RL framework. Specifically, users specify a prompt once at the beginning of training. During training, the LLM evaluates an RL agent's behavior against the desired behavior described by the prompt and outputs a corresponding reward signal. The RL agent then uses this reward to update its behavior. We evaluate whether our approach can train agents aligned with user objectives in the Ultimatum Game, matrix games, and the DealOrNoDeal negotiation task. In all three tasks, we show that RL agents trained with our framework are well-aligned with the user's objectives and outperform RL agents trained with reward functions learned via supervised learning
翻訳日:2023-03-02 17:15:19 公開日:2023-02-27
# ビジョンランゲージ事前学習モデルによる医用音声テキストの精度向上

Improving Medical Speech-to-Text Accuracy with Vision-Language Pre-training Model ( http://arxiv.org/abs/2303.00091v1 )

ライセンス: Link先を確認
Jaeyoung Huh, Sangjoon Park, Jeong Eun Lee, Jong Chul Ye(参考訳) 音声認識 (Automatic Speech Recognition, ASR) は、音声をテキストに変換する技術であり、人間と機械の相互作用を促進する。 ASRの最も一般的な応用の1つはSpeech-To-Text(STT)技術である。 医療分野では、STTは音声記録の書き起こしにタイピストに依存する臨床医の負担を大幅に削減する可能性がある。 しかし、十分な音声とテキストデータセットが不足しているため、医療領域向けのSTTモデルの開発は困難である。 そこで本研究では,ビジョン言語事前学習(VLP)手法を用いて一般STTシステムの出力テキストを変更する医療領域テキスト補正手法を提案する。 VLPはテキスト情報と視覚情報を組み合わせて、画像知識に基づいてテキストを修正する。 本手法は医学領域におけるSTT性能の定量的,臨床的に有意な改善をもたらすことを示す。 さらに,画像とテキスト情報のマルチモーダル理解は,テキスト情報のみを用いた単一モーダル理解よりも優れていることを示す。

Automatic Speech Recognition (ASR) is a technology that converts spoken words into text, facilitating interaction between humans and machines. One of the most common applications of ASR is Speech-To-Text (STT) technology, which simplifies user workflows by transcribing spoken words into text. In the medical field, STT has the potential to significantly reduce the workload of clinicians who rely on typists to transcribe their voice recordings. However, developing an STT model for the medical domain is challenging due to the lack of sufficient speech and text datasets. To address this issue, we propose a medical-domain text correction method that modifies the output text of a general STT system using the Vision Language Pre-training (VLP) method. VLP combines textual and visual information to correct text based on image knowledge. Our extensive experiments demonstrate that the proposed method offers quantitatively and clinically significant improvements in STT performance in the medical field. We further show that multi-modal understanding of image and text information outperforms single-modal understanding using only text information.
翻訳日:2023-03-02 16:47:11 公開日:2023-02-27
# SHAP値を用いたCOVID-19死亡率予測における社会経済的要因の分析

Analyzing Impact of Socio-Economic Factors on COVID-19 Mortality Prediction Using SHAP Value ( http://arxiv.org/abs/2303.00517v1 )

ライセンス: Link先を確認
Redoan Rahman, Jooyeong Kang, Justin F Rousseau, Ying Ding(参考訳) 本稿では、COVID-19 Research Databaseが提供した未確認患者のデータセットに、複数の機械学習(ML)アルゴリズムを適用する。 患者数は20,878人、うち2020年に9,177人が死亡した。 本研究の目的は, 予測精度を最大化するのではなく, 患者の死亡率と社会経済特性の関連を理解し, 解釈することである。 分析の結果, 年間および使い捨て所得, 年齢, 教育, 就業状況は, 機械学習モデル予測に大きな影響を及ぼすことがわかった。 いくつかの患者データも観察し、特徴値がそのデータポイントの予測にどのように影響するかを洞察する。 本稿では、新型コロナウイルス患者の社会経済データに基づく機械学習モデルのグローバルおよびローカルな解釈について分析する。

This paper applies multiple machine learning (ML) algorithms to a dataset of de-identified COVID-19 patients provided by the COVID-19 Research Database. The dataset consists of 20,878 COVID-positive patients, among which 9,177 patients died in the year 2020. This paper aims to understand and interpret the association of socio-economic characteristics of patients with their mortality instead of maximizing prediction accuracy. According to our analysis, a patients households annual and disposable income, age, education, and employment status significantly impacts a machine learning models prediction. We also observe several individual patient data, which gives us insight into how the feature values impact the prediction for that data point. This paper analyzes the global and local interpretation of machine learning models on socio-economic data of COVID patients.
翻訳日:2023-03-02 14:40:32 公開日:2023-02-27
# S3PRLツールキットを用いた音声データ拡張手法の比較

A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit ( http://arxiv.org/abs/2303.00510v1 )

ライセンス: Link先を確認
Mina Huh, Ruchira Ray, Corey Karnei(参考訳) データ拡張は、音声処理タスクの堅牢性を改善することが知られている。 本研究では,s3prlツールキットを用いて異なるデータ拡張戦略を要約・比較する。 本稿では,HuBERTとwav2vecが音素認識(PR)タスクと自動音声認識(ASR)タスクに対して,異なる拡張手法(SpecAugment, Gaussian noise, Speed Perturbation)を用いてどのように機能するかを検討する。 我々は,音素誤り率 (PER) と単語誤り率 (WER) の観点からモデル性能を評価する。 実験の結果,SpecAugmentは元のデータセット上でのHuBERTとwav2vecの性能をわずかに改善することがわかった。 また,Gaussian Noise and Speed Perturbationデータセットを用いてトレーニングしたモデルは,拡張テストセットでテストした場合,より堅牢であることを示す。

Data augmentations are known to improve robustness in speech-processing tasks. In this study, we summarize and compare different data augmentation strategies using S3PRL toolkit. We explore how HuBERT and wav2vec perform using different augmentation techniques (SpecAugment, Gaussian Noise, Speed Perturbation) for Phoneme Recognition (PR) and Automatic Speech Recognition (ASR) tasks. We evaluate model performance in terms of phoneme error rate (PER) and word error rate (WER). From the experiments, we observed that SpecAugment slightly improves the performance of HuBERT and wav2vec on the original dataset. Also, we show that models trained using the Gaussian Noise and Speed Perturbation dataset are more robust when tested with augmented test sets.
翻訳日:2023-03-02 14:39:50 公開日:2023-02-27
# 正規化流れによるFELビームラインに沿った電子バンチ分布の学習

Learning Electron Bunch Distribution along a FEL Beamline by Normalising Flows ( http://arxiv.org/abs/2303.00657v1 )

ライセンス: Link先を確認
Anna Willmann, Jurjen Couperus Cabada\u{g}, Yen-Yu Chang, Richard Pausch, Amin Ghaith, Alexander Debus, Arie Irman, Michael Bussmann, Ulrich Schramm, Nico Hoffmann(参考訳) レーザー駆動自由電子レーザーの理解と制御は、非常に集中的な実験と理論的研究を必要とする難しい問題である。 シミュレーションデータと実験データの間のギャップは、研究と結果の解釈を複雑にする可能性がある。 この研究で私たちは、このギャップを埋めるのに役立つディープラーニングベースのsurrogateを開発しました。 felビームライン内の電子雲の条件相空間表現のための正規化フローに基づくサーロゲートモデルを提案する。 得られた結果から、ビームライン内の基本的なプロセスのより深い理解を得るために、モデルの利用可能性のさらなる利点と限界について論じる。

Understanding and control of Laser-driven Free Electron Lasers remain to be difficult problems that require highly intensive experimental and theoretical research. The gap between simulated and experimentally collected data might complicate studies and interpretation of obtained results. In this work we developed a deep learning based surrogate that could help to fill in this gap. We introduce a surrogate model based on normalising flows for conditional phase-space representation of electron clouds in a FEL beamline. Achieved results let us discuss further benefits and limitations in exploitability of the models to gain deeper understanding of fundamental processes within a beamline.
翻訳日:2023-03-02 14:03:31 公開日:2023-02-27
# グラフオン上のスピン系の厳密な連続理論

An Exact Continuous Theory for Spin Systems on Graphons ( http://arxiv.org/abs/2303.00731v1 )

ライセンス: Link先を確認
Amy Searle and Joseph Tindall(参考訳) 平均座標数がシステムサイズで大きくなると、熱平衡における量子スピン系の一般的な連続的な記述を定式化する。 具体的には、熱力学極限に性質が収束する密度グラフの列に対して、系の性質を管理する3つの連結非線型フレドホルム積分方程式のエレガントな集合を導出する。 これらの方程式において、このような密度の高いグラフ列を記述するために最近開発された連続的な数学的対象であるグラノンは、核を形成し、それらの解は熱力学的極限における系内の巨視的可観測性を正確に表現する。 これらの方程式を古典的および横断的場イジングモデルなどの系で解析し、積分方程式が既知の結果をいかに容易に回復するかを示すとともに、より複雑な場合に対する解析的解を提供する。 またモンテカルロ・テンソルネットワーク法を用いて有限サイズの数値計算を行い,解析結果に対する収束性を示す。

We formulate a general, continuous description of quantum spin systems in thermal equilibrium when the average co-ordination number grows extensively in the system size. Specifically, for sequences of dense graphs whose properties converge in the thermodynamic limit we derive an elegant set of three coupled non-linear Fredholm integral equations which govern the properties of the system. In these equations the graphon, a continuous mathematical object recently developed to describe such dense graph sequences, forms the kernel and their solution yields exact expressions for the macroscopic observables in the system in the thermodynamic limit. We analyse these equations for systems such as the classical and transverse field Ising models, demonstrating how the integral equations easily recover known results as well as providing analytical solutions for a range of more complex cases. We also perform finite-size numerical calculations with Monte-Carlo and Tensor Network methods and show their convergence towards our analytical results.
翻訳日:2023-03-02 13:45:55 公開日:2023-02-27
# PyReason: オープンワールド一時論理のためのソフトウェア

PyReason: Software for Open World Temporal Logic ( http://arxiv.org/abs/2302.13482v1 )

ライセンス: Link先を確認
Dyuman Aditya, Kaustuv Mukherji, Srikar Balasubramanian, Abhiraj Chaudhary, Paulo Shakarian(参考訳) 神経象徴的推論の人気が高まり、様々な形態の微分可能(つまりファジィ)一階述語論理が採用されるようになった。 我々はPyReasonを紹介した。PyReasonは一般化されたアノテート論理に基づくソフトウェアフレームワークで、異なる論理の現在のコホートと時間拡張をキャプチャして、オープンワールド推論の機能を備えた有限時間での推論をサポートする。 さらにpyreasonは、グラフィカルな構造(ナレッジグラフ、ソーシャルネットワーク、生物ネットワークなど)の推論を直接サポートし、完全に説明可能な推論のトレースを生成し、型チェックやメモリ効率の高い実装など、さまざまな実用的な機能を含んでいる。 本稿では,我々の実装に統合された一般化注釈論理の拡張,正確かつスケーラブルな推論を行う最新のpythonベースの実装,一連の実験について概説する。 PyReason は github.com/lab-v2/pyreason で入手できる。

The growing popularity of neuro symbolic reasoning has led to the adoption of various forms of differentiable (i.e., fuzzy) first order logic. We introduce PyReason, a software framework based on generalized annotated logic that both captures the current cohort of differentiable logics and temporal extensions to support inference over finite periods of time with capabilities for open world reasoning. Further, PyReason is implemented to directly support reasoning over graphical structures (e.g., knowledge graphs, social networks, biological networks, etc.), produces fully explainable traces of inference, and includes various practical features such as type checking and a memory-efficient implementation. This paper reviews various extensions of generalized annotated logic integrated into our implementation, our modern, efficient Python-based implementation that conducts exact yet scalable deductive inference, and a suite of experiments. PyReason is available at: github.com/lab-v2/pyreason.
翻訳日:2023-03-01 19:27:55 公開日:2023-02-27
# 分散量子コンピュータ時代の変分量子固有解法

Variational Quantum Eigensolvers in the Era of Distributed Quantum Computers ( http://arxiv.org/abs/2302.14067v1 )

ライセンス: Link先を確認
Ilia Khait, Edwin Tham, Dvira Segal, Aharon Brodutch(参考訳) 量子コンピュータの計算能力は情報処理に利用可能な量子ビットの数によって制限される。 分散モジュールアーキテクチャが大規模量子コンピューティングのソリューションであることは広く受け入れられている。 このようなアーキテクチャを実装する上で大きな課題は、モジュール間で量子情報を交換する必要があることである。 本稿では,モジュール間の情報交換能力が制限された分散量子コンピューティングアーキテクチャが,量子計算問題を正確に解決できることを示す。 2つのモジュール(デュアルコア)アーキテクチャ用に設計されたansatzを持つ変分量子eignesolverの例を用いて、3つのモジュール間演算が、モジュール間(または連続的に実行される)操作がないことに対して大きな利点をもたらすことを示す。 これらの結果は、短期的な {\it modular} 量子プロセッサが、そのモノリシックなプロセッサの効果的な代替となることを強く示唆する。

The computational power of a quantum computer is limited by the number of qubits available for information processing. Increasing this number within a single device is difficult; it is widely accepted that distributed modular architectures are the solution to large scale quantum computing. The major challenge in implementing such architectures is the need to exchange quantum information between modules. In this work, we show that a distributed quantum computing architecture with {\it limited} capacity to exchange information between modules can accurately solve quantum computational problems. Using the example of a variational quantum eignesolver with an ansatz designed for a two-module (dual-core) architecture, we show that three inter-module operations provide a significant advantage over no inter-module (or serially executed) operations. These results provide a strong indication that near-term {\it modular} quantum processors can be an effective alternative to their monolithic counterparts.
翻訳日:2023-03-01 19:20:09 公開日:2023-02-27
# ダイヤモンド距離におけるユニタリチャネルのクエリ最適推定

Query-optimal estimation of unitary channels in diamond distance ( http://arxiv.org/abs/2302.14066v1 )

ライセンス: Link先を確認
Jeongwan Haah, Robin Kothari, Ryan O'Donnell, Ewin Tang(参考訳) 単一量子チャネルのプロセストモグラフィーについて考察する。 未知のユニタリチャネルが$\textsf{d}$-dimensional quditに作用することを考えると、ダイヤモンドノルムの未知ユニタリに$\varepsilon$-closeのユニタリの古典的な記述を出力することを目指している。 我々は、未知チャネルの$o(\textsf{d}^2/\varepsilon)$アプリケーションと1つのquditのみを使用してエラー$\varepsilon$となるアルゴリズムを設計する。 これは以前の結果よりも改善され、$o(\textsf{d}^3/\varepsilon^2)$ [via standard process tomography] または $o(\textsf{d}^{2.5}/\varepsilon)$ [yang, renner, and chiribella, prl 2020] アプリケーションを使用する。 この結果を示すために、ハイゼンベルク・スケーリングを用いて$\varepsilon$-error推定を生成できるアルゴリズムを「ブートストラップ」する簡単な手法を導入する。 最後に、未知のユニタリの逆あるいは制御されたバージョンにアクセスしても、推定に$\Omega(\textsf{d}^2/\varepsilon)$アプリケーションが必要であることを示す補完的な下界を証明する。 この結果から, 最適問合せ複雑性と最適空間複雑性が両立することがわかった。

We consider process tomography for unitary quantum channels. Given access to an unknown unitary channel acting on a $\textsf{d}$-dimensional qudit, we aim to output a classical description of a unitary that is $\varepsilon$-close to the unknown unitary in diamond norm. We design an algorithm achieving error $\varepsilon$ using $O(\textsf{d}^2/\varepsilon)$ applications of the unknown channel and only one qudit. This improves over prior results, which use $O(\textsf{d}^3/\varepsilon^2)$ [via standard process tomography] or $O(\textsf{d}^{2.5}/\varepsilon)$ [Yang, Renner, and Chiribella, PRL 2020] applications. To show this result, we introduce a simple technique to "bootstrap" an algorithm that can produce constant-error estimates to one that can produce $\varepsilon$-error estimates with the Heisenberg scaling. Finally, we prove a complementary lower bound showing that estimation requires $\Omega(\textsf{d}^2/\varepsilon)$ applications, even with access to the inverse or controlled versions of the unknown unitary. This shows that our algorithm has both optimal query complexity and optimal space complexity.
翻訳日:2023-03-01 19:19:53 公開日:2023-02-27
# ジョブ推薦のためのマルチクラスニューラルネットワーク分類器におけるジェンダーバイアスに対する最適輸送法

How optimal transport can tackle gender biases in multi-class neural-network classifiers for job recommendations? ( http://arxiv.org/abs/2302.14063v1 )

ライセンス: Link先を確認
Fanny Jourdan, Titon Tshiongo Kaninku, Nicholas Asher, Jean-Michel Loubes, Laurent Risser(参考訳) ディープニューラルネットワークに基づく自動レコメンデーションシステムは、この10年間で非常に人気を集めている。 しかし、これらのシステムのいくつかは、例えばオンライン求人候補推薦のように、欧州委員会によってa.i.法で高いリスクにランクされたアプリケーションに使用できる。 欧州連合で使用される場合、この目的のために商用aiシステムは、彼らが関与できる潜在的な差別に関して適切な統計特性を持つ必要がある。 これは多クラスニューラルネットワーク分類における望ましくないアルゴリズムバイアスを軽減するための新しい最適輸送戦略を提案するという、我々の貢献の動機となった。 私たちの戦略はモデル非依存で、任意のマルチクラス分類ニューラルネットワークモデルで使用できます。 テキストデータを用いたレコメンデーションシステムの認証を期待するために、LinkedInの伝記に基づいて、男女の職業を予測するための学習タスクであるBiosデータセットにそれを用いた。 結果は、この文脈における望ましくないアルゴリズムバイアスを標準戦略よりも低いレベルに減らすことができることを示している。

Automatic recommendation systems based on deep neural networks have become extremely popular during the last decade. Some of these systems can however be used for applications which are ranked as High Risk by the European Commission in the A.I. act, as for instance for online job candidate recommendation. When used in the European Union, commercial AI systems for this purpose will then be required to have to proper statistical properties with regard to potential discrimination they could engender. This motivated our contribution, where we present a novel optimal transport strategy to mitigate undesirable algorithmic biases in multi-class neural-network classification. Our stratey is model agnostic and can be used on any multi-class classification neural-network model. To anticipate the certification of recommendation systems using textual data, we then used it on the Bios dataset, for which the learning task consists in predicting the occupation of female and male individuals, based on their LinkedIn biography. Results show that it can reduce undesired algorithmic biases in this context to lower levels than a standard strategy.
翻訳日:2023-03-01 19:19:23 公開日:2023-02-27
# 自動音声認識のための説明

Explanations for Automatic Speech Recognition ( http://arxiv.org/abs/2302.14062v1 )

ライセンス: Link先を確認
Xiaoliang Wu, Peter Bell, Ajitha Rajan(参考訳) ニューラルネットワークに基づくAIRの品質評価には、システムに対する理解を深め、最終的にはシステムへの信頼を構築するのに役立つ説明を提供することで対処する。 単純な分類ラベルと比較して、転写の正しさを判断することは簡単ではなく、可変長シーケンスとしての転写は既存の解釈可能な機械学習モデルでは処理されないため、より難しい。 本稿では,音声フレームのサブセットとしてのASR転写の説明を行う。 そこで我々は,画像分類-統計的故障局所化(SFL)と因果関係から既存の説明可能なAI(XAI)技術を適用した。 さらに,本実験では,ASRをベースラインとして,LIME(Local Interpretable Model-Agnostic Explanations)の適応版を用いる。 提案手法は,3種類のASR,Google API,Sphinx,Deepspeechのベースラインモデル,およびCommonvoiceデータセットから得られた100のオーディオサンプルに対して,提案手法による説明の質を評価する。

We address quality assessment for neural network based ASR by providing explanations that help increase our understanding of the system and ultimately help build trust in the system. Compared to simple classification labels, explaining transcriptions is more challenging as judging their correctness is not straightforward and transcriptions as a variable-length sequence is not handled by existing interpretable machine learning models. We provide an explanation for an ASR transcription as a subset of audio frames that is both a minimal and sufficient cause of the transcription. To do this, we adapt existing explainable AI (XAI) techniques from image classification-Statistical Fault Localisation(SFL) and Causal. Additionally, we use an adapted version of Local Interpretable Model-Agnostic Explanations (LIME) for ASR as a baseline in our experiments. We evaluate the quality of the explanations generated by the proposed techniques over three different ASR ,Google API, the baseline model of Sphinx, Deepspeech and 100 audio samples from the Commonvoice dataset.
翻訳日:2023-03-01 19:19:07 公開日:2023-02-27
# 不均衡情報ネットワークのための意味認識ノード合成

Semantic-aware Node Synthesis for Imbalanced Heterogeneous Information Networks ( http://arxiv.org/abs/2302.14061v1 )

ライセンス: Link先を確認
Xinyi Gao, Wentao Zhang, Tong Chen, Junliang Yu, Quoc Viet Hung Nguyen, Hongzhi Yin(参考訳) 不均一グラフニューラルネットワーク(HGNN)は、異種情報ネットワーク(HIN)における複素不均一性をモデル化する際、例外的な効果を示した。 HGNNの重要な利点は、豊富な意味情報を抽出し、有効表現学習に活用することにより、HINにおける多様なノードやエッジタイプを処理できることである。 しかし、多くの実世界のシナリオで広く見られる現象として、HINのクラス不均衡分布は既存のHGNNのパフォーマンスボトルネックを生み出している。 ノードの量的不均衡とは別に、hinsのもう一つの重要かつ特徴的な課題は意味的不均衡である。 hinsのマイノリティクラスは、しばしば多様で十分な隣接ノードを欠き、偏りと不完全な意味情報をもたらす。 この意味的不均衡は、少数ノードを正確に分類することの難しさをさらに複雑化し、HGNNの性能低下につながった。 マイノリティクラスの不均衡に取り組み,それらの不適切なセマンティクスを補完するために,sns(semantic-aware node synthesis)と呼ばれる不均衡hinにおけるセマンティクス不均衡問題の最初の方法を提案する。 マイノリティクラスへの影響を評価することにより、SNSは異種隣接ノードを適応的に選択し、マイノリティセマンティクスを維持しながら合成ノードでネットワークを増強する。 さらに,合成ノードの表現を意味論的およびクラス的視点の両方から制約し,合成ノードからの潜在的なノイズを効果的に抑制するhgnnの2つの正規化手法を導入する。 総合的な実験研究により、SNSは様々なベンチマークデータセットにおいて既存の手法よりずっと優れていることが示された。

Heterogeneous graph neural networks (HGNNs) have exhibited exceptional efficacy in modeling the complex heterogeneity in heterogeneous information networks (HINs). The critical advantage of HGNNs is their ability to handle diverse node and edge types in HINs by extracting and utilizing the abundant semantic information for effective representation learning. However, as a widespread phenomenon in many real-world scenarios, the class-imbalance distribution in HINs creates a performance bottleneck for existing HGNNs. Apart from the quantity imbalance of nodes, another more crucial and distinctive challenge in HINs is semantic imbalance. Minority classes in HINs often lack diverse and sufficient neighbor nodes, resulting in biased and incomplete semantic information. This semantic imbalance further compounds the difficulty of accurately classifying minority nodes, leading to the performance degradation of HGNNs. To tackle the imbalance of minority classes and supplement their inadequate semantics, we present the first method for the semantic imbalance problem in imbalanced HINs named Semantic-aware Node Synthesis (SNS). By assessing the influence on minority classes, SNS adaptively selects the heterogeneous neighbor nodes and augments the network with synthetic nodes while preserving the minority semantics. In addition, we introduce two regularization approaches for HGNNs that constrain the representation of synthetic nodes from both semantic and class perspectives to effectively suppress the potential noises from synthetic nodes, facilitating more expressive embeddings for classification. The comprehensive experimental study demonstrates that SNS consistently outperforms existing methods by a large margin in different benchmark datasets.
翻訳日:2023-03-01 19:18:48 公開日:2023-02-27
# リスク逆強化学習のための分布法

Distributional Method for Risk Averse Reinforcement Learning ( http://arxiv.org/abs/2302.14109v1 )

ライセンス: Link先を確認
Ziteng Cheng, Sebastian Jaimungal and Nick Martin(参考訳) リスク逆マルコフ決定過程において,有限状態作用空間,潜伏コスト,定常ダイナミクスを用いて最適ポリシを学習するための分布法を提案する。 我々は,状態,行動,費用の逐次観測を仮定し,ネステッド・クズーカ型条件付リスクマッピングから構築した動的リスク対策を用いて,政策の性能を評価する。 このような性能基準では、ランダム化されたポリシーは決定論的なポリシーより優れているため、候補のポリシーは d が作用空間の濃度である d 次元の単純度に属する。 既存のリスク逆強化学習手法は、無作為なポリシーや、現在の環境への「拡張」が次元性の呪いに苦しむことは滅多にない。 対応する動的プログラミング原理に埋め込まれた特定の構造を活用し,最適方針を求める分布学習法を提案する。 値関数の条件分布は特定の種類の関数にキャストされ、リスク回避最適化の容易さを念頭に置いて選択される。 深層ニューラルネットワークを用いてその関数を近似し,提案手法が探索段階における次元の呪いを回避し,ランダムに選択される幅広いモデルパラメータを用いて手法の性能を探索する。

We introduce a distributional method for learning the optimal policy in risk averse Markov decision process with finite state action spaces, latent costs, and stationary dynamics. We assume sequential observations of states, actions, and costs and assess the performance of a policy using dynamic risk measures constructed from nested Kusuoka-type conditional risk mappings. For such performance criteria, randomized policies may outperform deterministic policies, therefore, the candidate policies lie in the d-dimensional simplex where d is the cardinality of the action space. Existing risk averse reinforcement learning methods seldom concern randomized policies, na\"ive extensions to current setting suffer from the curse of dimensionality. By exploiting certain structures embedded in the corresponding dynamic programming principle, we propose a distributional learning method for seeking the optimal policy. The conditional distribution of the value function is casted into a specific type of function, which is chosen with in mind the ease of risk averse optimization. We use a deep neural network to approximate said function, illustrate that the proposed method avoids the curse of dimensionality in the exploration phase, and explore the method's performance with a wide range of model parameters that are picked randomly.
翻訳日:2023-03-01 19:10:44 公開日:2023-02-27
# 結晶構造に対する接続性最適化ネストグラフネットワーク

Connectivity Optimized Nested Graph Networks for Crystal Structures ( http://arxiv.org/abs/2302.14102v1 )

ライセンス: Link先を確認
Robin Ruff, Patrick Reiser, Jan St\"uhmer, Pascal Friederich(参考訳) グラフニューラルネットワーク(GNN)は、材料科学や化学における様々な応用に応用されている。 本稿では,結晶性(周期性)材料のグラフ構造を再カプセル化し,GNNモデルの性能に与える影響について検討する。 システムの全対称性を用いて原子数を減少させる表現として非対称単位セルを提案する。 メッセージパッシングとライングラフテンプレートに基づいた,シンプルだが体系的に構築されたGNNアーキテクチャにより,幅広いタスクに適用可能な汎用アーキテクチャ(Nested Graph Network, NGN)を導入し,MateBenchベンチマークデータセットの最先端結果を体系的に改善する。

Graph neural networks (GNNs) have been applied to a large variety of applications in materials science and chemistry. Here, we recapitulate the graph construction for crystalline (periodic) materials and investigate its impact on the GNNs model performance. We suggest the asymmetric unit cell as a representation to reduce the number of atoms by using all symmetries of the system. With a simple but systematically built GNN architecture based on message passing and line graph templates, we furthermore introduce a general architecture (Nested Graph Network, NGN) that is applicable to a wide range of tasks and systematically improves state-of-the-art results on the MatBench benchmark datasets.
翻訳日:2023-03-01 19:10:22 公開日:2023-02-27
# 銀河によるロバスト場レベル準自由推論

Robust field-level likelihood-free inference with galaxies ( http://arxiv.org/abs/2302.14101v1 )

ライセンス: Link先を確認
Natal\'i S. M. de Santi, Helen Shao, Francisco Villaescusa-Navarro, L. Raul Abramo, Romain Teyssier, Pablo Villanueva-Domingo, Yueying Ni, Daniel Angl\'es-Alc\'azar, Shy Genel, Elena Hernandez-Martinez, Ulrich P. Steinwandel, Christopher C. Lovell, Klaus Dolag, Tiago Castro, Mark Vogelsberger(参考訳) 我々は、CAMELSプロジェクトの最先端の流体力学シミュレーションから銀河カタログを用いて、グラフニューラルネットワークを訓練し、フィールドレベル確率自由推論を行う。 我々のモデルは回転、翻訳、置換不変であり、スケールカットオフはない。 約$(25~h^{-1}{\rm Mpc})^3$の小さな体積に約1,000ドルの銀河の3次元位置と半径速度しか持たない銀河カタログをトレーニングすることにより、我々のモデルは$\Omega_{\rm m}$の値を推定すると約12$%の精度が得られる。 このモデルのロバスト性をテストするため,超新星とAGNのフィードバックの効率の異なる何千もの流体力学シミュレーションによる銀河カタログの性能評価を行い,IllustrisTNG,SIMBA,Astrid,Magonicum,SWIFT-EAGLEなどの5種類のコードとサブグリッドモデルを用いて実験を行った。 我々のモデルは、天体物理学、サブグリッド物理学、およびサブハロ/ガラクシーファインダー変化に対して堅牢であることを示す。 さらに、パラメータ空間の広い領域をカバーする1,024のシミュレーション(5つの宇宙論的パラメータと23の天体物理学的パラメータのバリエーション)でモデルをテストする。 この結果は、我々のネットワークが銀河形成に依存しず、少なくとも$~\sim10~h^{-1}{\rm kpc}$よりも大きなスケールで有効である、基礎となる物理的関係を学習したことを示している。

We train graph neural networks to perform field-level likelihood-free inference using galaxy catalogs from state-of-the-art hydrodynamic simulations of the CAMELS project. Our models are rotationally, translationally, and permutation invariant and have no scale cutoff. By training on galaxy catalogs that only contain the 3D positions and radial velocities of approximately $1,000$ galaxies in tiny volumes of $(25~h^{-1}{\rm Mpc})^3$, our models achieve a precision of approximately $12$% when inferring the value of $\Omega_{\rm m}$. To test the robustness of our models, we evaluated their performance on galaxy catalogs from thousands of hydrodynamic simulations, each with different efficiencies of supernova and AGN feedback, run with five different codes and subgrid models, including IllustrisTNG, SIMBA, Astrid, Magneticum, and SWIFT-EAGLE. Our results demonstrate that our models are robust to astrophysics, subgrid physics, and subhalo/galaxy finder changes. Furthermore, we test our models on 1,024 simulations that cover a vast region in parameter space - variations in 5 cosmological and 23 astrophysical parameters - finding that the model extrapolates really well. Including both positions and velocities are key to building robust models, and our results indicate that our networks have likely learned an underlying physical relation that does not depend on galaxy formation and is valid on scales larger than, at least, $~\sim10~h^{-1}{\rm kpc}$.
翻訳日:2023-03-01 19:10:09 公開日:2023-02-27
# 個人別オンライン予測について

On Differentially Private Online Predictions ( http://arxiv.org/abs/2302.14099v1 )

ライセンス: Link先を確認
Haim Kaplan, Yishay Mansour, Shay Moran, Kobbi Nissim, Uri Stemmer(参考訳) 本研究では、既存のプライバシー定義が制限的すぎるように見えるオンラインプロセスを扱うための、共同微分プライバシーのインタラクティブなバリエーションを導入する。 この定義の基本的な性質を調査し,グループプライバシ,コンポジション,ポスト処理の(適当な変種)を満たすことを示す。 次に,オンライン分類の基本設定における対話型共同プライバシのコストについて検討する。 その結果,任意の(おそらく非プライベートな)学習ルールを,多項式のオーバーヘッドのみを境界とするプライベート学習ルールに効果的に変換できることが示されている。 これは、golowich と livni (2021) によって研究された、(情報理論上の上界を通じて)誤り境界の2倍の指数的オーバーヘッドしか知られていないような、より制限的なプライバシー概念との大きな違いを示す。

In this work we introduce an interactive variant of joint differential privacy towards handling online processes in which existing privacy definitions seem too restrictive. We study basic properties of this definition and demonstrate that it satisfies (suitable variants) of group privacy, composition, and post processing. We then study the cost of interactive joint privacy in the basic setting of online classification. We show that any (possibly non-private) learning rule can be effectively transformed to a private learning rule with only a polynomial overhead in the mistake bound. This demonstrates a stark difference with more restrictive notions of privacy such as the one studied by Golowich and Livni (2021), where only a double exponential overhead on the mistake bound is known (via an information theoretic upper bound).
翻訳日:2023-03-01 19:09:35 公開日:2023-02-27
# 組込み・リアルタイム瞳孔検出パイプライン

An Embedded and Real-Time Pupil Detection Pipeline ( http://arxiv.org/abs/2302.14098v1 )

ライセンス: Link先を確認
Ankur Raj, Diwas Bhattarai, Kristof Van Laerhoven(参考訳) ウェアラブルな瞳孔検出システムは、無線通信のバックエンドシステムにおいて、捕獲された装着者の目像の分析を分離することが多い。 この論文では、ハードウェアとソフトウェアの共同設計を調査することは、システムをより小さく、より効率的にする機会をもたらすと論じている。 ウェアラブルで非侵襲的な瞳孔検出をリアルタイムに,ウェアラブルで組み込みプラットフォーム上で行うための,オープンソースの組み込みシステムを提案する。 2つの小型カメラシステムとraspberry piベースの組み込みシステムを組み合わせた,ヘッドマウント型アイトラッカプロトタイプである。 ハードウェア設計とは別に,30fpsの組込みシステムと480x640の54ms,240x320の23msのランタイムでエッジ解析を用いて動作する瞳孔検出パイプラインも提供しています。 lpwデータセットには平均累積誤差5.3368pxが検出パイプラインで51.9\%検出される。 ハードウェア固有のカメラフレームの評価には、20人の参加者から35,000枚の画像のデータセットも提供します。

Wearable pupil detection systems often separate the analysis of the captured wearer's eye images for wirelessly-tethered back-end systems. We argue in this paper that investigating hardware-software co-designs would bring along opportunities to make such systems smaller and more efficient. We introduce an open-source embedded system for wearable, non-invasive pupil detection in real-time, on the wearable, embedded platform itself. Our system consists of a head-mounted eye tracker prototype, which combines two miniature camera systems with Raspberry Pi-based embedded system. Apart from the hardware design, we also contribute a pupil detection pipeline that operates using edge analysis, natively on the embedded system at 30fps and run-time of 54ms at 480x640 and 23ms at 240x320. Average cumulative error of 5.3368px is found on the LPW dataset for a detection rate of 51.9\% with our detection pipeline. For evaluation on our hardware-specific camera frames, we also contribute a dataset of 35000 images, from 20 participants.
翻訳日:2023-03-01 19:09:21 公開日:2023-02-27
# ファッションリテールにおける顧客収益予測のためのグラフ表現学習データセット

A Dataset for Learning Graph Representations to Predict Customer Returns in Fashion Retail ( http://arxiv.org/abs/2302.14096v1 )

ライセンス: Link先を確認
Jamie McGowan, Elizabeth Guest, Ziyang Yan, Cong Zheng, Neha Patel, Mason Cusack, Charlie Donaldson, Sofie de Cnudde, Gabriel Facini and Fabon Dzogang(参考訳) 我々は、ファッション小売エコシステムにおける顧客収益予測の課題に対処するため、asos(大手オンラインファッション小売業者)が収集した新しいデータセットを提案する。 この膨大なデータセットのリリースにより、研究コミュニティとファッション産業の間のさらなるコラボレーションを動機付けたいと思っています。 まず,自然データ構造を活用し,データ内の特定の特徴に関する統計的洞察を提供するために,グラフ表現学習の適用に焦点をあてて,このデータセットの構造を探索する。 これに加えて、ベースラインモデル(つまり、中間表現学習ステップのない)とグラフ表現に基づくモデルを選択する回帰予測分類タスクの例を示す。 下流回帰予測分類タスクでは、グラフニューラルネットワーク(GNN)を用いてF1スコアの0.792が検出され、この研究で議論された他のモデルよりも改善されていることを示す。 この増大したf1-scoreと共に、データをグラフ構造に再キャストすることで、より低いクロスエントロピー損失を示し、gnnベースのソリューションからより堅牢な予測を示す。 これらの結果は、GNNが提示されたデータセット上の他のベースラインモデルよりも、より影響があり、使用可能な分類を提供することができることを示すものであり、このモチベーションにより、ASOS GraphReturnsデータセットを用いたグラフベースのアプローチのさらなる研究を奨励したいと考えています。

We present a novel dataset collected by ASOS (a major online fashion retailer) to address the challenge of predicting customer returns in a fashion retail ecosystem. With the release of this substantial dataset we hope to motivate further collaboration between research communities and the fashion industry. We first explore the structure of this dataset with a focus on the application of Graph Representation Learning in order to exploit the natural data structure and provide statistical insights into particular features within the data. In addition to this, we show examples of a return prediction classification task with a selection of baseline models (i.e. with no intermediate representation learning step) and a graph representation based model. We show that in a downstream return prediction classification task, an F1-score of 0.792 can be found using a Graph Neural Network (GNN), improving upon other models discussed in this work. Alongside this increased F1-score, we also present a lower cross-entropy loss by recasting the data into a graph structure, indicating more robust predictions from a GNN based solution. These results provide evidence that GNNs could provide more impactful and usable classifications than other baseline models on the presented dataset and with this motivation, we hope to encourage further research into graph-based approaches using the ASOS GraphReturns dataset.
翻訳日:2023-03-01 19:09:05 公開日:2023-02-27
# 統合型強化学習と時系列予測を用いた風・分散型PVエネルギー源の燃焼不確かさ

Combating Uncertainties in Wind and Distributed PV Energy Sources Using Integrated Reinforcement Learning and Time-Series Forecasting ( http://arxiv.org/abs/2302.14094v1 )

ライセンス: Link先を確認
Arman Ghasemi, Amin Shojaeighadikolaei, Morteza Hashemi(参考訳) 風力発電や太陽光発電などの再生可能エネルギー源は、スマートグリッドシステムに統合されつつある。 しかし、従来のエネルギー資源と比較すると、再生可能エネルギーの予測不可能さは電力事業者と電力会社双方にとって大きな課題となっている。 さらに、分散エネルギー資源(PVシステムなど)の大規模な統合は、マイクログリッドにおけるエネルギー管理に新たな課題をもたらす。 これらの問題に取り組むために,我々は2つの目的を持つ新しい枠組みを提案する。 (i)長期記憶(lstm)ソリューションを用いた時系列予測を活用したスマートグリッドにおける再生可能エネルギーの不確実性対策 2)Deep Deterministic Policy Gradient (DDPG)アルゴリズムを用いたマルチエージェント強化学習による分散動的意思決定フレームワークの構築。 提案手法は,両目標の完全統合を同時に検討するとともに,販売市場と小売市場の両方を考慮し,不確実かつ分散した再生可能エネルギー源の存在下で効率的なエネルギー管理を実現する。 広範囲な数値シミュレーションにより,提案手法はより正確な風力発生予測を提供することで,LSEの利益を著しく向上させることを示した。 さらに, DDPG エージェントによって決定されたインテリジェントな電池充電・放電動作を用いて, PV とバッテリ設置による世帯の利益を増大させることができることを示した。

Renewable energy sources, such as wind and solar power, are increasingly being integrated into smart grid systems. However, when compared to traditional energy resources, the unpredictability of renewable energy generation poses significant challenges for both electricity providers and utility companies. Furthermore, the large-scale integration of distributed energy resources (such as PV systems) creates new challenges for energy management in microgrids. To tackle these issues, we propose a novel framework with two objectives: (i) combating uncertainty of renewable energy in smart grid by leveraging time-series forecasting with Long-Short Term Memory (LSTM) solutions, and (ii) establishing distributed and dynamic decision-making framework with multi-agent reinforcement learning using Deep Deterministic Policy Gradient (DDPG) algorithm. The proposed framework considers both objectives concurrently to fully integrate them, while considering both wholesale and retail markets, thereby enabling efficient energy management in the presence of uncertain and distributed renewable energy sources. Through extensive numerical simulations, we demonstrate that the proposed solution significantly improves the profit of load serving entities (LSE) by providing a more accurate wind generation forecast. Furthermore, our results demonstrate that households with PV and battery installations can increase their profits by using intelligent battery charge/discharge actions determined by the DDPG agents.
翻訳日:2023-03-01 19:08:42 公開日:2023-02-27
# J_1-J_2$ SU($N$)ハイゼンベルクスピン鎖における偶効果

Even-odd effects in the $J_1-J_2$ SU($N$) Heisenberg spin chain ( http://arxiv.org/abs/2302.14090v1 )

ライセンス: Link先を確認
Lo\"ic Herviou, Sylvain Capponi, Philippe Lecheminant(参考訳) j_1-j_2$ su($n$)反強磁性ハイゼンベルクスピン鎖の零温度相図を相補的場理論と一般のn$に対する数値的アプローチを用いて検討した。 全$N$に対してJ_2/J_1$の臨界値の上に、$N$サイトからなる完全ギャップSU($N$)価結合固体を形成する。 より大きい値の$J_2$に対するこの$N$マージフェーズの拡張は、$N$のパリティに強く依存している。 たとえ$N$であっても、位相は、モデルをジグザグ SU($N$)二脚スピンはしごと見なすことができる大きな$J_2$レジームに円滑に補間する。 この相は、n$-merized ground state と incommensurate spin-spin correlations の両方を示す。 偶数の場合とは対照的に、n$-merized phase with odd $n$ は有限の程度しか持たず、不測である。 su($n$)$_1$ universalityクラスにおけるギャップなし位相は、su($n$)$_2$からsu($n$)$_1$の共形場理論への質量のない再正規化群の存在から生じるより大きな$j_2$に対して安定化される。

The zero-temperature phase diagram of the $J_1-J_2$ SU($N$) antiferromagnetic Heisenberg spin chain is investigated by means of complementary field theory and numerical approaches for general $N$. A fully gapped SU($N$) valence bond solid made of $N$ sites is formed above a critical value of $J_2/J_1$ for all $N$. We find that the extension of this $N$-merized phase for larger values of $J_2$ strongly depends on the parity of $N$. For even $N$, the phase smoothly interpolates to the large $J_2$ regime where the model can be viewed as a zigzag SU($N$) two-leg spin ladder. The phase exhibits both a $N$-merized ground state and incommensurate spin-spin correlations. In stark contrast to the even case, we show that the $N$-merized phase with odd $N$ only has a finite extent with no incommensuration. A gapless phase in the SU($N$)$_1$ universality class is stabilized for larger $J_2$ that stems from the existence of a massless renormalization group flow from SU($N$)$_2$ to SU($N$)$_1$ conformal field theories when $N$ is odd.
翻訳日:2023-03-01 19:08:25 公開日:2023-02-27
# 格子場理論のフローベースサンプリングのためのモード収束の検出と緩和

Detecting and Mitigating Mode-Collapse for Flow-based Sampling of Lattice Field Theories ( http://arxiv.org/abs/2302.14082v1 )

ライセンス: Link先を確認
Kim A. Nicoli and Christopher J. Anders and Tobias Hartung and Karl Jansen and Pan Kessel and Shinichi Nakajima(参考訳) 格子場理論における正規化流れのモード崩壊の結果について検討する。 正規化フローは独立したサンプリングを可能にする。 このため,マルチモーダル分布に対する局所更新mcmcアルゴリズムのトンネル問題を回避することが期待されている。 そこで本研究では, 流れの正規化にもトンネル問題が存在するが, サンプリングからアルゴリズムの訓練段階に移行することを指摘した。 特に、正規化フローは、トレーニングプロセスが物理的分布の関連するモードに消滅的に低い確率質量を割り当てるモード崩壊に悩まされることが多い。 これは、Markov-ChainまたはImportance Smplingのサンプルとしてフローが使用される場合、大きなバイアスをもたらす可能性がある。 本稿では,モード崩壊の度合いを定量化し,その結果のバイアスを導出する指標を提案する。 さらに, 自由エネルギーなどの熱力学的観測量の推定の文脈において, 様々な緩和戦略を提案する。

We study the consequences of mode-collapse of normalizing flows in the context of lattice field theory. Normalizing flows allow for independent sampling. For this reason, it is hoped that they can avoid the tunneling problem of local-update MCMC algorithms for multi-modal distributions. In this work, we first point out that the tunneling problem is also present for normalizing flows but is shifted from the sampling to the training phase of the algorithm. Specifically, normalizing flows often suffer from mode-collapse for which the training process assigns vanishingly low probability mass to relevant modes of the physical distribution. This may result in a significant bias when the flow is used as a sampler in a Markov-Chain or with Importance Sampling. We propose a metric to quantify the degree of mode-collapse and derive a bound on the resulting bias. Furthermore, we propose various mitigation strategies in particular in the context of estimating thermodynamic observables, such as the free energy.
翻訳日:2023-03-01 19:08:06 公開日:2023-02-27
# 動的モデル埋め込みによるニューラルネットワークの人口分析

Analyzing Populations of Neural Networks via Dynamical Model Embedding ( http://arxiv.org/abs/2302.14078v1 )

ライセンス: Link先を確認
Jordan Cotler, Kai Sheng Tai, Felipe Hern\'andez, Blake Elias, David Sussillo(参考訳) ディープニューラルネットワークの解釈における中核的な課題は、同じタスクのために訓練された異なるネットワークによって実装された基盤となるアルゴリズム間の共通性を特定することである。 この問題に触発されたDYNAMOは,各点がニューラルネットワークモデルに対応する低次元多様体を構成するアルゴリズムであり,対応するニューラルネットワークが同様のハイレベルな計算処理を実行する場合,その近傍に2つの点が存在する。 dynamoは事前学習されたニューラルネットワークのコレクションを入力として、隠れた状態のダイナミクスとコレクション内の任意のモデルの出力をエミュレートするメタモデルを出力する。 エミュレートされる特定のモデルはメタモデルが入力として取るモデル埋め込みベクトルによって決定され、これらのモデル埋め込みベクトルは与えられたモデルの人口に対応する多様体を構成する。 我々は、dynamoをrnnとcnnの両方に適用し、その結果得られるモデル埋め込み空間は、再パラメータ化に敏感な方法で、高レベルな計算プロセスに基づくニューラルネットワークのクラスタリング、同じタスクで訓練された複数のニューラルネットワークのモデル平均化、同様のタスクパフォーマンスを持つ新しい操作可能なニューラルネットワークへの到達、モデル埋め込み空間の最適化による半教師付き学習という、新しい応用が可能であることを見出した。 RNNの集団で訓練されたメタモデルの固定点解析を用いて、RNNのトポロジの類似性とその高レベルの計算プロセスの類似性について新たな知見を得る。

A core challenge in the interpretation of deep neural networks is identifying commonalities between the underlying algorithms implemented by distinct networks trained for the same task. Motivated by this problem, we introduce DYNAMO, an algorithm that constructs low-dimensional manifolds where each point corresponds to a neural network model, and two points are nearby if the corresponding neural networks enact similar high-level computational processes. DYNAMO takes as input a collection of pre-trained neural networks and outputs a meta-model that emulates the dynamics of the hidden states as well as the outputs of any model in the collection. The specific model to be emulated is determined by a model embedding vector that the meta-model takes as input; these model embedding vectors constitute a manifold corresponding to the given population of models. We apply DYNAMO to both RNNs and CNNs, and find that the resulting model embedding spaces enable novel applications: clustering of neural networks on the basis of their high-level computational processes in a manner that is less sensitive to reparameterization; model averaging of several neural networks trained on the same task to arrive at a new, operable neural network with similar task performance; and semi-supervised learning via optimization on the model embedding space. Using a fixed-point analysis of meta-models trained on populations of RNNs, we gain new insights into how similarities of the topology of RNN dynamics correspond to similarities of their high-level computational processes.
翻訳日:2023-03-01 19:07:51 公開日:2023-02-27
# ライドバーグガスの低温におけるグリフィス相

Griffiths Phase in a Facilitated Rydberg Gas at Low Temperature ( http://arxiv.org/abs/2302.14145v1 )

ライセンス: Link先を確認
Daniel Brady, Jana Bender, Patrick Mischke, Thomas Niederpr\"um, Herwig Ott, and Michael Fleischhauer(参考訳) ライドベルクのファシリテーションによる引用の拡散は多くの疫病と類似している。 このようなシステムは、古典的レート方程式のモンテカルロシミュレーションでモデル化でき、高い評価結果、高い精度でモデル化することができる。 本稿では,Rydberg多体系の高温・低温限界におけるファシリテーション機構のダイナミクスを解析する。 高温域では均質な平均場挙動が回復するが、凍った気体では不均一性の特徴的な効果が見られる。 大きな温度では吸収状態の相転移を示し、追加の損失チャネルの存在下では、自己組織的な臨界性を示す。 冷凍または低温の気体では、励起はerd\"os-renyiグラフに似たネットワークに制限される。 我々は,吸収状態の相転移を拡張Griffiths相に置き換え,Rydberg ブロックを考慮した Erd\"os-Renyi ネットワーク上での感受性感染モデルにより正確に記述することを示した。 さらに、既設のマクロランジュバン方程式を拡張し、冷凍および有限温度領域におけるリドバーグ原子の密度をより正確に記述する。

The spread of excitations by Rydberg facilitation bears many similarities to epidemics. Such systems can be modeled with Monte-Carlo simulations of classical rate equations to great accuracy as a result of high dephasing. In this paper, we analyze the dynamics of a Rydberg many-body system in the facilitation regime in the limits of high and low temperatures. While in the high-temperature limit a homogeneous mean-field behaviour is recovered, characteristic effects of heterogeneity can be seen in a frozen gas. At large temperatures the system displays an absorbing-state phase transition and, in the presence of an additional loss channel, self-organized criticality. In a frozen or low-temperature gas, excitations are constrained to a network resembling an Erd\"os-Renyi graph. We show that the absorbing-state phase transition is replaced with an extended Griffiths phase, which we accurately describe by a susceptible-infected-susceptible model on the Erd\"os-Renyi network taking into account Rydberg blockade. Furthermore, we expand upon an existing macroscopic Langevin equation to more accurately describe the density of Rydberg atoms in the frozen and finite temperature regimes.
翻訳日:2023-03-01 19:02:35 公開日:2023-02-27
# 繰り返し混合密度ネットワークにおける線形予訓練

Linear pretraining in recurrent mixture density networks ( http://arxiv.org/abs/2302.14141v1 )

ライセンス: Link先を確認
Hubert Normandin-Taillon, Fr\'ed\'eric Godin, Chun Wang(参考訳) 本稿では,リカレント混合密度ネットワーク(RMDN)の事前学習手法を提案する。 また,ニコラエフらによって提案されたRMDN-GARCHのアーキテクチャを若干修正した。 [2012]. プレトレーニング法は, RMDNがトレーニング中に悪局部最小値を回避するのに役立つとともに, 混合密度ネットワークとよく遭遇するGuillaumes [2017] が定義した, 持続的NaN問題に対する堅牢性を向上させる。 このような問題は、トレーニング中に頻繁に "Not a number" (NaN) 値を取得することである。 提案手法は,非線形ノード更新の開始前に,RMDNの隠蔽層内の線形ノードをトレーニングすることにより,これらの問題を解決する。 このようなアプローチは RMDN の性能を改善し、RMDN の線形モデルである GARCH モデルを上回ることを保証している。

We present a method for pretraining a recurrent mixture density network (RMDN). We also propose a slight modification to the architecture of the RMDN-GARCH proposed by Nikolaev et al. [2012]. The pretraining method helps the RMDN avoid bad local minima during training and improves its robustness to the persistent NaN problem, as defined by Guillaumes [2017], which is often encountered with mixture density networks. Such problem consists in frequently obtaining "Not a number" (NaN) values during training. The pretraining method proposed resolves these issues by training the linear nodes in the hidden layer of the RMDN before starting including non-linear node updates. Such an approach improves the performance of the RMDN and ensures it surpasses that of the GARCH model, which is the RMDN's linear counterpart.
翻訳日:2023-03-01 19:02:16 公開日:2023-02-27
# スケーラブルなエンドツーエンドMLプラットフォーム: AutoMLからセルフサービスへ

Scalable End-to-End ML Platforms: from AutoML to Self-serve ( http://arxiv.org/abs/2302.14139v1 )

ライセンス: Link先を確認
Igor L. Markov, Pavlos A. Apostolopoulos, Mia Garrard, Tianyu (Tanya) Qie, Yin Huang, Tanvi Gupta, Anika Li, Cesar Cardoso, George Han, Ryan Maghsoudian, Norm Zhou(参考訳) MLプラットフォームは、インテリジェントなデータ駆動アプリケーションを実現し、限られたエンジニアリング努力でメンテナンスするのに役立つ。 十分に広く採用されると、そのようなプラットフォームは、システム開発とメンテナンスの効率を改善しながら、より大きなコンポーネント再利用をもたらす規模の経済に達する。 広く採用されているエンドツーエンドのMLプラットフォームでは、拡張性のあるML自動化とシステム統合に依存して、私たちが定義する10の要件と6つのオプション機能を備えたセルフサービス(self-serve)という品質に達しています。 このことを念頭に置いて,プラットフォーム開発の長期的な目標を特定し,関連するトレードオフと今後の作業について議論する。 私たちの推論は、2つの商用にデプロイされたエンドツーエンドのMLプラットフォームで説明されています。

ML platforms help enable intelligent data-driven applications and maintain them with limited engineering effort. Upon sufficiently broad adoption, such platforms reach economies of scale that bring greater component reuse while improving efficiency of system development and maintenance. For an end-to-end ML platform with broad adoption, scaling relies on pervasive ML automation and system integration to reach the quality we term self-serve that we define with ten requirements and six optional capabilities. With this in mind, we identify long-term goals for platform development, discuss related tradeoffs and future work. Our reasoning is illustrated on two commercially-deployed end-to-end ML platforms that host hundreds of real-time use cases -- one general-purpose and one specialized.
翻訳日:2023-03-01 19:02:01 公開日:2023-02-27
# レイヤーグラフトによる事前学習:ラベル効率のよい表現のためのブレンディングコントラスト学習とマズード画像モデリング

Layer Grafted Pre-training: Bridging Contrastive Learning And Masked Image Modeling For Label-Efficient Representations ( http://arxiv.org/abs/2302.14138v1 )

ライセンス: Link先を確認
Ziyu Jiang, Yinpeng Chen, Mengchen Liu, Dongdong Chen, Xiyang Dai, Lu Yuan, Zicheng Liu, Zhangyang Wang(参考訳) 近年,コントラスト学習 (CL) とマスク画像モデリング (MIM) の両者が,優れた表現を学習する上で自己超越が強力であることを実証している。 しかし、それらを組み合わせることは成功には程遠い。 本稿では,CLとMIMの損失の簡易な共同最適化が,層が深くなるにつれて勾配方向の矛盾につながるという経験的観察から始める。 これにより、パラダイムを最後に損失を組み合わせたものから、ネットワーク層毎に適切な学習方法を選択するものへとシフトさせます。 実験により,MIMとCLは下層と上層にそれぞれ適していることがわかった。 初期のレイヤは、まず1つのMIM損失の下でトレーニングされ、その上に、後者のレイヤは、もう1つのCL損失の下でトレーニングされ続けます。 提案したLayer Grafted Pre-trainingは、下流アプリケーションにおいて優れたラベル効率を示す優れた視覚表現を学習する。 例えば、ImageNet-1kでは、Layer Grafted Pre-trainingは、ViT-B/16による1%の少数ショット学習で65.5%の精度で、MIMとCLのベースラインを14.4%改善し、2.1%がベルとホイッスル無しである。 コードはhttps://github.com/VITA-Group/layerGraftedPretraining_ICLR23.gitで公開されている。

Recently, both Contrastive Learning (CL) and Mask Image Modeling (MIM) demonstrate that self-supervision is powerful to learn good representations. However, naively combining them is far from success. In this paper, we start by making the empirical observation that a naive joint optimization of CL and MIM losses leads to conflicting gradient directions - more severe as the layers go deeper. This motivates us to shift the paradigm from combining loss at the end, to choosing the proper learning method per network layer. Inspired by experimental observations, we find that MIM and CL are suitable to lower and higher layers, respectively. We hence propose to combine them in a surprisingly simple, "sequential cascade" fashion: early layers are first trained under one MIM loss, on top of which latter layers continue to be trained under another CL loss. The proposed Layer Grafted Pre-training learns good visual representations that demonstrate superior label efficiency in downstream applications, in particular yielding strong few-shot performance besides linear evaluation. For instance, on ImageNet-1k, Layer Grafted Pre-training yields 65.5% Top-1 accuracy in terms of 1% few-shot learning with ViT-B/16, which improves MIM and CL baselines by 14.4% and 2.1% with no bells and whistles. The code is available at https://github.com/VITA-Group/layerGraftedPretraining_ICLR23.git.
翻訳日:2023-03-01 19:01:48 公開日:2023-02-27
# 音声認識・理解のための自己教師付き事前学習モデルの構造化プルーニング

Structured Pruning of Self-Supervised Pre-trained Models for Speech Recognition and Understanding ( http://arxiv.org/abs/2302.14132v1 )

ライセンス: Link先を確認
Yifan Peng, Kwangyoun Kim, Felix Wu, Prashant Sridhar, Shinji Watanabe(参考訳) 自己教師付き音声表現学習(SSL)は、様々な下流タスクで有効であることが示されているが、SSLモデルは通常、大きくて遅い。 プルーニングのようなモデル圧縮技術は、精度を低下させることなく、モデルのサイズと計算を減らすことを目的としている。 先行研究は変圧器の刈り込みに重点を置いているが、音声モデルは変圧器ブロックのスタックを利用するだけでなく、複数の畳み込み層に基づくフロントエンドネットワークを結合して低レベル特徴表現学習を行う。 このフロントエンドはサイズは小さいが、計算コストは大きい。 本研究では,このような異種ネットワークを扱うためのタスク固有の構造的プルーニング手法を3つ提案する。 LibriSpeech と SLURP の実験により,提案手法は従来の wav2vec2 ベースよりも10% から30% の精度で精度が向上し,劣化を伴わずに 40% から 50% の削減が可能であった。

Self-supervised speech representation learning (SSL) has shown to be effective in various downstream tasks, but SSL models are usually large and slow. Model compression techniques such as pruning aim to reduce the model size and computation without degradation in accuracy. Prior studies focus on the pruning of Transformers; however, speech models not only utilize a stack of Transformer blocks, but also combine a frontend network based on multiple convolutional layers for low-level feature representation learning. This frontend has a small size but a heavy computational cost. In this work, we propose three task-specific structured pruning methods to deal with such heterogeneous networks. Experiments on LibriSpeech and SLURP show that the proposed method is more accurate than the original wav2vec2-base with 10% to 30% less computation, and is able to reduce the computation by 40% to 50% without any degradation.
翻訳日:2023-03-01 19:01:14 公開日:2023-02-27
# 知識蒸留における角分布の活用

Leveraging Angular Distributions for Improved Knowledge Distillation ( http://arxiv.org/abs/2302.14130v1 )

ライセンス: Link先を確認
Eun Som Jeon, Hongjun Choi, Ankita Shukla, Pavan Turaga(参考訳) 幅広い手法としての知識蒸留は、より小さなモデル(学生ネットワーク)を訓練するために、大量の能力を持つ事前学習モデル(教師ネットワーク)を用いて、軽量でメモリ効率の良いモデルの開発につながっている。 近年,中間層の活性化マップを知識源として,知識蒸留のさらなるバリエーションが研究されている。 一般に、コンピュータビジョンアプリケーションでは、高容量モデルによって学習される機能アクティベーションは、よりリッチな知識を含み、背景に焦点を絞らずに完全なオブジェクトを強調する。 本研究は,教師の2つの能力を活用し,正の(対象物に関連)領域と負の(無関係)領域を正確に区別する。 本稿では, 角縁型蒸留(AMD)損失と呼ばれる新しい蒸留損失関数を提案する。 AMD損失は、多くの特徴抽出器に見られる近角分布に動機づけられた超球面に投影することで、正と負の特徴の間の角距離を使用する。 そして,その正の特徴に角マージンを導入することにより,超球面上に角分布するより注意深い特徴を創出する。 このような知識を教師ネットワークから移すことで、生徒モデルは教師のポジティブな特徴とネガティブな特徴のより高い識別を活用できるため、優れた生徒モデルを蒸留することができる。 提案手法は,4つの公開データセット上で,学生と教師のネットワークペアについて評価する。 さらに, 提案手法は, 微細な特徴, 増量, 蒸留法など, 他の学習手法との互換性に優れていることを示す。

Knowledge distillation as a broad class of methods has led to the development of lightweight and memory efficient models, using a pre-trained model with a large capacity (teacher network) to train a smaller model (student network). Recently, additional variations for knowledge distillation, utilizing activation maps of intermediate layers as the source of knowledge, have been studied. Generally, in computer vision applications, it is seen that the feature activation learned by a higher capacity model contains richer knowledge, highlighting complete objects while focusing less on the background. Based on this observation, we leverage the dual ability of the teacher to accurately distinguish between positive (relevant to the target object) and negative (irrelevant) areas. We propose a new loss function for distillation, called angular margin-based distillation (AMD) loss. AMD loss uses the angular distance between positive and negative features by projecting them onto a hypersphere, motivated by the near angular distributions seen in many feature extractors. Then, we create a more attentive feature that is angularly distributed on the hypersphere by introducing an angular margin to the positive feature. Transferring such knowledge from the teacher network enables the student model to harness the higher discrimination of positive and negative features for the teacher, thus distilling superior student models. The proposed method is evaluated for various student-teacher network pairs on four public datasets. Furthermore, we show that the proposed method has advantages in compatibility with other learning techniques, such as using fine-grained features, augmentation, and other distillation methods.
翻訳日:2023-03-01 19:00:44 公開日:2023-02-27
# ヒトグリオ芽腫の治療効果と腫瘍再発の鑑別のためのマルチモーダルディープラーニング

Multimodal Deep Learning to Differentiate Tumor Recurrence from Treatment Effect in Human Glioblastoma ( http://arxiv.org/abs/2302.14124v1 )

ライセンス: Link先を確認
Tonmoy Hossain, Zoraiz Qureshi, Nivetha Jayakumar, Thomas Eluvathingal Muttikkal, Sohil Patel, David Schiff, Miaomiao Zhang and Bijoy Kundu(参考訳) 治療関連壊死(TN)と腫瘍進展(TP)の鑑別は,グリオ芽腫(GBM)の臨床管理決定に重要である。 従来の静的FDG PETの進歩である動的FDG PET(dPET)は、臨床段階において有利である。 dPETは、運動情報を明らかにするパラメトリックマップを計算するために、部分体積平均を考慮に入れたモデル補正血液入力関数の新しい方法を含む。 予備研究では、PET-MR画像空間の26ドルの被験者から35ドルの脳腫瘍に対して、TPとTNの分類精度を予測するために、畳み込みニューラルネットワーク(CNN)が訓練された。 3DパラメトリックPET Ki(dPET)、従来の静的PET標準取り込み値(SUV)、および脳腫瘍MRボクセルがCNNの入力を形成した。 クラス重量を調整した全ての単発クロスバリデーション・イテレーションの平均テスト精度は、MRのみを使用する0.56ドル、SUVのみを使用する0.65ドル、Kiボクセルのみを使用する0.71ドルであった。 SUVとMRボクセルを組み合わせることで、試験精度は0.62ドルに向上した。 一方、MRとKiのボクセルは試験精度を0.74ドルに引き上げた。 したがって、ディープラーニングモデルにおけるdPET機能単独またはMR機能により、GBMにおけるTPとTNの差別化における予測精度が向上する。

Differentiating tumor progression (TP) from treatment-related necrosis (TN) is critical for clinical management decisions in glioblastoma (GBM). Dynamic FDG PET (dPET), an advance from traditional static FDG PET, may prove advantageous in clinical staging. dPET includes novel methods of a model-corrected blood input function that accounts for partial volume averaging to compute parametric maps that reveal kinetic information. In a preliminary study, a convolution neural network (CNN) was trained to predict classification accuracy between TP and TN for $35$ brain tumors from $26$ subjects in the PET-MR image space. 3D parametric PET Ki (from dPET), traditional static PET standardized uptake values (SUV), and also the brain tumor MR voxels formed the input for the CNN. The average test accuracy across all leave-one-out cross-validation iterations adjusting for class weights was $0.56$ using only the MR, $0.65$ using only the SUV, and $0.71$ using only the Ki voxels. Combining SUV and MR voxels increased the test accuracy to $0.62$. On the other hand, MR and Ki voxels increased the test accuracy to $0.74$. Thus, dPET features alone or with MR features in deep learning models would enhance prediction accuracy in differentiating TP vs TN in GBM.
翻訳日:2023-03-01 19:00:05 公開日:2023-02-27
# Private Blotto: 分極剤との視点競争

Private Blotto: Viewpoint Competition with Polarized Agents ( http://arxiv.org/abs/2302.14123v1 )

ライセンス: Link先を確認
Kate Donahue and Jon Kleinberg(参考訳) ブロット大佐ゲームは、1921年ボレルで1世紀以上前に提案されたゲーム理論の最も古い設定の1つである。 しかし、元々はゼロサムの「前線」と競合する2つの中央制御された軍隊をモデル化するために設計された。 本研究では,クラウドソーシングやソーシャルメディアと結びついたゲームであるPrivate Blottoゲームを提案し,研究する。 プライベート・ブロットーにおける重要な違いは、個々のエージェントが中央の「大佐」によって調整されることなく独立して行動することである。 このモデルは、複数の問題をめぐって争う活動家グループ、複数の州で選挙をめぐって争う党派募金活動、あるいはニュース記事を誤情報と分類する政治的偏見のあるソーシャルメディアユーザーといったシナリオから自然に生まれる。 本研究では,Private Blotto ゲームにおける Nash stability を完全に特徴づける。 具体的には, 結果関数がゲームの結果に重大な影響を与えていることを示し, 全エージェント(平均結果)を考慮して, 最前線が多数決(中間結果)で勝つか, よりスムーズな結果になるかを検討する。 最終結果に影響を与えない「ミスアロケートされた努力」あるいは選択したエージェントの量にどのように影響するかを研究する。 一般に、平均的な結果により、安定な配置が存在する場合、エージェントは前面に均等に配置され、間違った配置の労力を最小限に抑える。 しかし、平均結果関数は、安定な配置が存在して存在しない場合にもカオスパターンを持つ。 中央値の結果は、安定な配置が存在する場合を正確に特徴づけるが、この結果関数はしばしば、前面にエージェントを極端に不均衡に割り当てることを示す。

Colonel Blotto games are one of the oldest settings in game theory, originally proposed over a century ago in Borel 1921. However, they were originally designed to model two centrally-controlled armies competing over zero-sum "fronts", a specific scenario with limited modern-day application. In this work, we propose and study Private Blotto games, a variant connected to crowdsourcing and social media. One key difference in Private Blotto is that individual agents act independently, without being coordinated by a central "Colonel". This model naturally arises from scenarios such as activist groups competing over multiple issues, partisan fund-raisers competing over elections in multiple states, or politically-biased social media users labeling news articles as misinformation. In this work, we completely characterize the Nash Stability of the Private Blotto game. Specifically, we show that the outcome function has a critical impact on the outcome of the game: we study whether a front is won by majority rule (median outcome) or a smoother outcome taking into account all agents (mean outcome). We study how this impacts the amount of "misallocated effort", or agents whose choices doesn't influence the final outcome. In general, mean outcome ensures that, if a stable arrangement exists, agents are close to evenly spaced across fronts, minimizing misallocated effort. However, mean outcome functions also have chaotic patterns as to when stable arrangements do and do not exist. For median outcome, we exactly characterize when a stable arrangement exists, but show that this outcome function frequently results in extremely unbalanced allocation of agents across fronts.
翻訳日:2023-03-01 18:59:44 公開日:2023-02-27
# Vid2Seq:Dense Video Captioningのためのビジュアル言語モデルの大規模事前トレーニング

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning ( http://arxiv.org/abs/2302.14115v1 )

ライセンス: Link先を確認
Antoine Yang, Arsha Nagrani, Paul Hongsuck Seo, Antoine Miech, Jordi Pont-Tuset, Ivan Laptev, Josef Sivic and Cordelia Schmid(参考訳) 本研究では,大規模で容易に利用できるナレーション付きビデオで事前訓練した,マルチモーダルなシングルステージイベントキャプションモデルであるVid2Seqを紹介する。 Vid2Seqアーキテクチャは特別な時間トークンを持つ言語モデルを拡張し、同じ出力シーケンスにおけるイベント境界とテキスト記述をシームレスに予測する。 このような統一モデルは、現在の注釈付きデータセットでは利用できない大規模なトレーニングデータを必要とする。 本研究は,無ラベルのナレーション映像を密接なビデオキャプションに活用し,転写音声の文境界を疑似イベント境界に再構成し,転写音声を疑似イベントキャプションとして用いることを可能にする。 YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、YouCook2、ViTT、ActivityNet Captionsなど、多種多様なビデオキャプションベンチマーク上でのテクニックの状態を改善する。 Vid2Seqはまた、ビデオキャプションタスクとビデオクリップキャプションの標準タスクを一般化する。 私たちのコードとモデルはhttps://antoyang.github.io/vid2seq.htmlで公開されます。

In this work, we introduce Vid2Seq, a multi-modal single-stage dense event captioning model pretrained on narrated videos which are readily-available at scale. The Vid2Seq architecture augments a language model with special time tokens, allowing it to seamlessly predict event boundaries and textual descriptions in the same output sequence. Such a unified model requires large-scale training data, which is not available in current annotated datasets. We show that it is possible to leverage unlabeled narrated videos for dense video captioning, by reformulating sentence boundaries of transcribed speech as pseudo event boundaries, and using the transcribed speech sentences as pseudo event captions. The resulting Vid2Seq model pretrained on the YT-Temporal-1B dataset improves the state of the art on a variety of dense video captioning benchmarks including YouCook2, ViTT and ActivityNet Captions. Vid2Seq also generalizes well to the video paragraph captioning task and the standard task of video clip captioning. Our code and models will be publicly released at https://antoyang.github.io/vid2seq.html.
翻訳日:2023-03-01 18:59:13 公開日:2023-02-27
# ReLUネットワークのインジェクティビティ:統計物理学の視点から

Injectivity of ReLU networks: perspectives from statistical physics ( http://arxiv.org/abs/2302.14112v1 )

ライセンス: Link先を確認
Antoine Maillard, Afonso S. Bandeira, David Belius, Ivan Dokmani\'c, Shuta Nakajima(参考訳) ReLUニューラルネットワークの入力はその出力からいつ推測できるのか? 言い換えれば、ネットワークはいつ注入されるのか? 1つの層$x \mapsto \mathrm{relu}(wx)$ を考えると、ランダムなガウス的$m \times n$ matrix $w$ であり、ここでは$n, m \to \infty$ である。 最近の研究は、この問題を球形積分幾何学に結び付け、あるランダム集合の期待されるオイラー特性を研究することによって、$\alpha = \frac{m}{n}$の予想された鋭い射影しきい値を与える。 我々は異なる視点を採用し、インジェクティビティが統計物理学において重要なスピングラスモデルである球面パーセプトロンの基底状態の性質と等価であることを示す。 非厳密な)レプリカ対称性の破れ理論を活用することで、ユーラー特性から解が一致するしきい値に対する解析方程式を導出する。 さらに、ゴードンのmin-max定理を用いて、レプリカ対称上界がオイラー特性予測を反論することを示す。 その過程で私たちは,統計物理学の重要なアイデアをチュートリアル形式で紹介し,展示会を幅広い聴衆に公開することを目指しています。 本解析はスピングラスと積分幾何の関係を定めているが,不一致を説明する問題も残している。

When can the input of a ReLU neural network be inferred from its output? In other words, when is the network injective? We consider a single layer, $x \mapsto \mathrm{ReLU}(Wx)$, with a random Gaussian $m \times n$ matrix $W$, in a high-dimensional setting where $n, m \to \infty$. Recent work connects this problem to spherical integral geometry giving rise to a conjectured sharp injectivity threshold for $\alpha = \frac{m}{n}$ by studying the expected Euler characteristic of a certain random set. We adopt a different perspective and show that injectivity is equivalent to a property of the ground state of the spherical perceptron, an important spin glass model in statistical physics. By leveraging the (non-rigorous) replica symmetry-breaking theory, we derive analytical equations for the threshold whose solution is at odds with that from the Euler characteristic. Furthermore, we use Gordon's min--max theorem to prove that a replica-symmetric upper bound refutes the Euler characteristic prediction. Along the way we aim to give a tutorial-style introduction to key ideas from statistical physics in an effort to make the exposition accessible to a broad audience. Our analysis establishes a connection between spin glasses and integral geometry but leaves open the problem of explaining the discrepancies.
翻訳日:2023-03-01 18:58:57 公開日:2023-02-27
# Taylor TD ラーニング

Taylor TD-learning ( http://arxiv.org/abs/2302.14182v1 )

ライセンス: Link先を確認
Michele Garibbo, Maxime Robeyns and Laurence Aitchison(参考訳) 多くの強化学習アプローチは、批判を学ぶために時間差学習(TD)に依存している。 しかし、TD学習のアップデートはモンテカルロの見積にのみ依存するため、高いばらつきがある可能性がある。 本稿では,モデルに基づくRLフレームワークであるTaylor TDを紹介する。 Taylor TDは、TD更新の1階目のTaylorシリーズ拡張を使用している。 この拡張により、アクション・チョイスにおける確率性、および各td更新の初期状態と動作に対する状態分布の確率性が分析的に統合される。 我々はTaylor TD 更新が(標準的な) TD 更新よりも分散度が低いという理論的および経験的な証拠を含む。 さらに,Taylor TDは線形関数近似の下での(標準)TD学習と同じ安定した学習保証を有することを示す。 次にTaylor TDとTD3アルゴリズム(Fujimoto et al., 2018)を組み合わせる。 TaTD3は、標準的なベンチマークタスクのセット上で、最先端のモデルフリーおよびモデルベースラインアルゴリズムよりも優れたパフォーマンスを示す。 最後に、Taylor TDが標準的なTD学習と比較してパフォーマンスに最も有益であるかもしれない設定をさらに分析する。

Many reinforcement learning approaches rely on temporal-difference (TD) learning to learn a critic. However, TD-learning updates can be high variance due to their sole reliance on Monte Carlo estimates of the updates. Here, we introduce a model-based RL framework, Taylor TD, which reduces this variance. Taylor TD uses a first-order Taylor series expansion of TD updates. This expansion allows to analytically integrate over stochasticity in the action-choice, and some stochasticity in the state distribution for the initial state and action of each TD update. We include theoretical and empirical evidence of Taylor TD updates being lower variance than (standard) TD updates. Additionally, we show that Taylor TD has the same stable learning guarantees as (standard) TD-learning under linear function approximation. Next, we combine Taylor TD with the TD3 algorithm (Fujimoto et al., 2018), into TaTD3. We show TaTD3 performs as well, if not better, than several state-of-the art model-free and model-based baseline algorithms on a set of standard benchmark tasks. Finally, we include further analysis of the settings in which Taylor TD may be most beneficial to performance relative to standard TD-learning.
翻訳日:2023-03-01 18:52:41 公開日:2023-02-27
# 減価償却資産を用いた強化学習

Reinforcement Learning with Depreciating Assets ( http://arxiv.org/abs/2302.14176v1 )

ライセンス: Link先を確認
Taylor Dohmen and Ashutosh Trivedi(参考訳) 伝統的な強化学習の基本的な前提は、報酬の価値がエージェントが受け取れば変化しないということである。 本研究は、この仮定を先送りし、報酬の値が得られた時点から経過した時間に比例して減衰する状況を考える。 支払い時に発生する変曲点を強調し、現在エージェントが所有している報酬を「資産」という用語で表す。 この言語を応用し、無限水平定量最適化の枠組みの中で資産の減価化の研究を開始する。 特に,従来の指数割引に着想を得た資産減価償却の概念を提案し,エージェントが取得した各時点における資産の値が固定割引係数によってスケールされる。 この文脈で最適性のベルマン型方程式を定式化し、最適方針を得るためのモデルフリー強化学習手法を考案する。

A basic assumption of traditional reinforcement learning is that the value of a reward does not change once it is received by an agent. The present work forgoes this assumption and considers the situation where the value of a reward decays proportionally to the time elapsed since it was obtained. Emphasizing the inflection point occurring at the time of payment, we use the term asset to refer to a reward that is currently in the possession of an agent. Adopting this language, we initiate the study of depreciating assets within the framework of infinite-horizon quantitative optimization. In particular, we propose a notion of asset depreciation, inspired by classical exponential discounting, where the value of an asset is scaled by a fixed discount factor at each time step after it is obtained by the agent. We formulate a Bellman-style equational characterization of optimality in this context and develop a model-free reinforcement learning approach to obtain optimal policies.
翻訳日:2023-03-01 18:52:24 公開日:2023-02-27
# TabGenie: テーブルからテキスト生成のためのツールキット

TabGenie: A Toolkit for Table-to-Text Generation ( http://arxiv.org/abs/2302.14169v1 )

ライセンス: Link先を確認
Zden\v{e}k Kasner, Ekaterina Garanina, Ond\v{r}ej Pl\'atek, Ond\v{r}ej Du\v{s}ek(参考訳) データ-テキスト生成データセットの不均一性は、データ-テキスト生成システムの研究を制限する。 TabGenie - 研究者がテーブル・ツー・テキスト生成の統一フレームワークを通じて、さまざまなデータ・ツー・テキスト生成データセットを探索、前処理、分析できるツールキットを提供する。 tabgenieでは、すべての入力は関連するメタデータのテーブルとして表現される。 このテーブルは、テーブルからテキストへの生成をデバッグするためのインタラクティブモードを提供し、生成されたシステム出力を並べて比較しやすく、手作業による分析の容易なエクスポートを可能にする。 さらにtabgenieは、コマンドライン処理ツールと、統一データセットの読み込みと処理のためのpythonバインディングを備えている。 私たちはTabGenieをPyPIパッケージとしてリリースし、オープンソースコードとhttps://github.com/kasnerz/tabgenie.comでライブデモを行います。

Heterogenity of data-to-text generation datasets limits the research on data-to-text generation systems. We present TabGenie - a toolkit which enables researchers to explore, preprocess, and analyze a variety of data-to-text generation datasets through the unified framework of table-to-text generation. In TabGenie, all the inputs are represented as tables with associated metadata. The tables can be explored through the web interface, which also provides an interactive mode for debugging table-to-text generation, facilitates side-by-side comparison of generated system outputs, and allows easy exports for manual analysis. Furthermore, TabGenie is equipped with command line processing tools and Python bindings for unified dataset loading and processing. We release TabGenie as a PyPI package and provide its open-source code and a live demo at https://github.com/kasnerz/tabgenie.
翻訳日:2023-03-01 18:52:08 公開日:2023-02-27
# 導波路に結合した2レベル原子配列の2光子パルス散乱分光法

Two-photon pulse scattering spectroscopy for arrays of two-level atoms, coupled to the waveguide ( http://arxiv.org/abs/2302.14167v1 )

ライセンス: Link先を確認
Ekaterina Vlasiuk, Alexander V. Poshakinskiy, Alexander N. Poddubny(参考訳) 導波路に結合した2レベル原子の空間分離配列から2光子パルスの散乱を理論的に研究した。 散乱パルスの一般的な解析式が得られた。 アレイの各種単一固有状態および二重励起固有状態の寄与を解析した。 我々はまた、光子をその周期と原子数に基づいて配列に格納する時間依存性を計算した。 最大の貯蔵時間は反ブラッグ周期の構造に対応しており、原子共鳴周波数$\lambda/4$の光の波長の4分の1に相当する。

We have theoretically studied the scattering of two-photon pulses from a spatially-separated array of two-level atoms coupled to the waveguide. A general analytical expression for the scattered pulse has been obtained. The contributions of various single-eigenstate and double-excited eigenstates of the array have been analyzed. We have also calculated the dependence of the time incident photons are stored in the array on its period and the number of atoms. The largest storage times correspond to the structures with the anti-Bragg period, equal to the quarter of the wavelength of light at the atom resonance frequency $\lambda/4$.
翻訳日:2023-03-01 18:51:53 公開日:2023-02-27
# GLOW: オブジェクト検出のためのグローバルレイアウトアウェアアタック

GLOW: Global Layout Aware Attacks for Object Detection ( http://arxiv.org/abs/2302.14166v1 )

ライセンス: Link先を確認
Jun Bao, Buyu Liu, Jianping Fan and Jun Yu(参考訳) 敵攻撃は、予測器が誤った結果を出力するような摂動画像を意図している。 構造化攻撃の研究が限られているため、自然のマルチオブジェクトシーンに一貫性チェックを課すことは、従来の敵の攻撃に対して有望だが実用的な防御である。 より望ましい攻撃は、このような一貫性チェックで防御を騙すことができるはずである。 そこで我々は,グローバルなレイアウトアウェアの敵攻撃を発生させることで,多様な攻撃要求に対処する最初のアプローチGLOWを提案する。 具体的には,対象検出タスクに注目し,被害者画像が与えられた場合,まずglowはターゲットラベルに従って対象オブジェクトをローカライズする。 そして、コンテキスト整合性スコアとともに、複数のアタックプランを生成する。 一方、提案したGLOWは、特定の犠牲者オブジェクトの有無にかかわらず、単一または複数の犠牲者オブジェクトを含む様々なタイプのリクエストを処理できる。 一方,攻撃計画毎の一貫性スコアを生成し,セマンティックなカテゴリとグローバルなシーンレイアウトの両方が考慮される全体的なコンテキスト整合性を反映する。 実験では,複数種類の攻撃要求を設計し,MS COCO検証セット上での考え方を検証する。 実験の結果,従来の単一オブジェクト攻撃要求の最先端手法と比較して平均40$\%の相対的改善が達成できた。さらに,本手法は,より汎用的な攻撃要求に対して,少なくとも30$\%の精度でSOTAよりも高い性能を達成できた。 私たちのコード、モデル、アタックリクエストが利用可能になります。

Adversarial attacks aims to perturb images such that a predictor outputs incorrect results. Due to the limited research in structured attacks, imposing consistency checks on natural multi-object scenes is a promising yet practical defense against conventional adversarial attacks. More desired attacks, to this end, should be able to fool defenses with such consistency checks. Therefore, we present the first approach GLOW that copes with various attack requests by generating global layout-aware adversarial attacks where both categorical and geometric layout constraints are explicitly established. Specifically, we focus on object detection task and given a victim image, GLOW first localizes victim objects according to target labels. And then it generates multiple attack plans, together with their context-consistency scores. Our proposed GLOW, on the one hand, is capable of handling various types of requests, including single or multiple victim objects, with or without specified victim objects. On the other hand, it produces a consistency score for each attack plan, reflecting the overall contextual consistency that both semantic category and global scene layout are considered. In experiment, we design multiple types of attack requests and validate our ideas on MS COCO validation set. Extensive experimental results demonstrate that we can achieve about 40$\%$ average relative improvement compared to state-of-the-art methods in conventional single object attack request; Moreover, our method outperforms SOTAs significantly on more generic attack requests by at least 30$\%$; Finally, our method produces superior performance under challenging zero-query black-box setting, or 30$\%$ better than SOTAs. Our code, model and attack requests would be made available.
翻訳日:2023-03-01 18:51:44 公開日:2023-02-27
# GAM Coach: インタラクティブでユーザ中心のアルゴリズムリコースを目指す

GAM Coach: Towards Interactive and User-centered Algorithmic Recourse ( http://arxiv.org/abs/2302.14165v1 )

ライセンス: Link先を確認
Zijie J. Wang, Jennifer Wortman Vaughan, Rich Caruana, Duen Horng Chau(参考訳) マシンラーニング(ML)のリコーステクニックは、ML予測を変更するアクションをエンドユーザに提供することによって、ハイテイクなドメインでますます使用されている。 しかし、リコース計画の動作性は主観的であり、開発者の期待と完全に一致しない。 本稿では,GAM(Generalized Additive Models)のカスタマイズ可能な対実的説明を生成するために,整数線形プログラミングを適用した新しいオープンソースシステムであるGAM Coachを提案する。 41名の参加者による定量的ユーザスタディでは,ツールが有用で有用であり,ユーザは汎用計画よりもパーソナライズされたリコースプランを好む。 ログ分析を通じて、ユーザによる適切なリコース計画の発見方法や、透明性がmlモデルの直観に反するパターンを発見する機会の増加につながる、という実証的な証拠を提供する。 GAM Coach は以下の https://poloclub.github.io/gam-coach/ で利用可能である。

Machine learning (ML) recourse techniques are increasingly used in high-stakes domains, providing end users with actions to alter ML predictions, but they assume ML developers understand what input variables can be changed. However, a recourse plan's actionability is subjective and unlikely to match developers' expectations completely. We present GAM Coach, a novel open-source system that adapts integer linear programming to generate customizable counterfactual explanations for Generalized Additive Models (GAMs), and leverages interactive visualizations to enable end users to iteratively generate recourse plans meeting their needs. A quantitative user study with 41 participants shows our tool is usable and useful, and users prefer personalized recourse plans over generic plans. Through a log analysis, we explore how users discover satisfactory recourse plans, and provide empirical evidence that transparency can lead to more opportunities for everyday users to discover counterintuitive patterns in ML models. GAM Coach is available at: https://poloclub.github.io/gam-coach/.
翻訳日:2023-03-01 18:51:16 公開日:2023-02-27
# ドメイン知識インフォームドジェネレーティブネットワークによるストック広インデックストレンドパターン学習

Stock Broad-Index Trend Patterns Learning via Domain Knowledge Informed Generative Network ( http://arxiv.org/abs/2302.14164v1 )

ライセンス: Link先を確認
Jingyi Gu, Fadi P. Deek, Guiling Wang(参考訳) 株価の動きを予測することは、産業と学界の両方から多くの注目を集めている。 このような大きな努力にもかかわらず、需給、経済状態、政治環境、さらには不合理な人間の行動といった要因によって引き起こされる、本質的に複雑な株式市場の性質のため、その結果は満足できないままである。 近年,時系列データのためにgan(generative adversarial network)が拡張されているが,ロバストな手法は主に合成系列生成のためのものである。 これは、既存のストックアプリケーション用GANがモード崩壊に悩まされ、一段階の予測のみを考慮するため、GANのポテンシャルを弱めるためである。 さらに、現在のGANでは、ニュースと市場のボラティリティの融合は無視されている。 これらの課題に対処するため、金融分野の専門家による知識を活用し、多段階予測のためのストックムーブメント予測をWasserstein GANフレームワークに定式化しようとする。 本稿では,株価,ニュース,市場感情の時間的依存を捉えた注意深いSeq2seq学習ネットワークを開発するために,ニュースコンテキスト学習を活用して,市場固有の特徴を意図的に設計したインデックスGANを提案する。 また、この批判を利用して、実際のシーケンスと予測シーケンス間のワッサースタイン距離を近似し、金融市場からのノイズを緩和する展開戦略を開発する。 実世界の広義の指標を用いて大規模な実験を行い、アーキテクチャの他の最先端のベースラインよりも優れた性能を示し、貢献するすべてのコンポーネントを検証する。

Predicting the Stock movement attracts much attention from both industry and academia. Despite such significant efforts, the results remain unsatisfactory due to the inherently complicated nature of the stock market driven by factors including supply and demand, the state of the economy, the political climate, and even irrational human behavior. Recently, Generative Adversarial Networks (GAN) have been extended for time series data; however, robust methods are primarily for synthetic series generation, which fall short for appropriate stock prediction. This is because existing GANs for stock applications suffer from mode collapse and only consider one-step prediction, thus underutilizing the potential of GAN. Furthermore, merging news and market volatility are neglected in current GANs. To address these issues, we exploit expert domain knowledge in finance and, for the first time, attempt to formulate stock movement prediction into a Wasserstein GAN framework for multi-step prediction. We propose IndexGAN, which includes deliberate designs for the inherent characteristics of the stock market, leverages news context learning to thoroughly investigate textual information and develop an attentive seq2seq learning network that captures the temporal dependency among stock prices, news, and market sentiment. We also utilize the critic to approximate the Wasserstein distance between actual and predicted sequences and develop a rolling strategy for deployment that mitigates noise from the financial market. Extensive experiments are conducted on real-world broad-based indices, demonstrating the superior performance of our architecture over other state-of-the-art baselines, also validating all its contributing components.
翻訳日:2023-03-01 18:50:57 公開日:2023-02-27
# 弱教師付きオープン語彙意味セグメンテーションのための言語誘導ベンチマーク

A Language-Guided Benchmark for Weakly Supervised Open Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2302.14163v1 )

ライセンス: Link先を確認
Prashant Pandey, Mustafa Chasmai, Monish Natarajan, Brejesh Lall(参考訳) Open Vocabulary Semantic Segmentation (OVSS)のような、トレーニング中に見られるかもしれない、あるいは見られない任意のオブジェクトのセグメンテーションを扱うデータ効率の問題設定に注意が向けられている。 OVSSに関する最も近い標準問題は、Zero-ShotとFew-Shot Segmentation (ZSS, FSS) と、新しいクラスをセグメントするためにゼロから少数アノテーションを必要とするクロスデータセットの亜種である。 既存の FSS と ZSS の手法は、完全に教師付きされたピクセルラベリングクラスを使用して、見えないクラスを分割する。 ピクセルレベルラベルは入手が困難であり、安価な画像レベルラベルの形で弱い監督を用いる方がより実用的であることが多い。 そこで本研究では,新しいクラスでzss,fss,cross-datasetのセグメンテーションを,基本(seen)または新しい(unseen)クラスのいずれかのピクセルレベルラベルを使用せずに実行可能にする,新しい弱教師付きovsパイプラインを提案する。 Weakly-Supervised Language-Guided Segmentation Network (WLSegNet)を提案する。 i) クラスプロンプトを凍結したCLIP(ビジョン言語モデル)を用いて画像特徴にマップし、バッチ集約(平均)を伴う一般化可能なコンテキストベクトルを学習する。 ii)弱いZSS/FSSを弱いセマンティックセグメンテーションとゼロショットセグメンテーションに分離する。 学習されたコンテキストベクトルは、トレーニング中に見たクラスの過度な適合を回避し、テスト中に新しいクラスに移行する。 WLSegNetは、トレーニング中に外部データセットの微調整や使用を避ける。 提案したパイプラインは, PASCAL VOC上の弱一般化Zero-Shotと弱Few-Shotセマンティックセマンティックセマンティクスの39点と弱Few-Shotセマンティクスの39点と弱Few-Shotセマンティクスセマンティクスセマンティクスの5mIOUをそれぞれ打ち勝つ。 2方向1ショットの弱いFSSでは、WLSegNetはPASCAL VOCとMS COCOの13mIOU点と22mIOU点にそれぞれ打ち勝つ。

Increasing attention is being diverted to data-efficient problem settings like Open Vocabulary Semantic Segmentation (OVSS) which deals with segmenting an arbitrary object that may or may not be seen during training. The closest standard problems related to OVSS are Zero-Shot and Few-Shot Segmentation (ZSS, FSS) and their Cross-dataset variants where zero to few annotations are needed to segment novel classes. The existing FSS and ZSS methods utilize fully supervised pixel-labelled seen classes to segment unseen classes. Pixel-level labels are hard to obtain, and using weak supervision in the form of inexpensive image-level labels is often more practical. To this end, we propose a novel unified weakly supervised OVSS pipeline that can perform ZSS, FSS and Cross-dataset segmentation on novel classes without using pixel-level labels for either the base (seen) or the novel (unseen) classes in an inductive setting. We propose Weakly-Supervised Language-Guided Segmentation Network (WLSegNet), a novel language-guided segmentation pipeline that i) learns generalizable context vectors with batch aggregates (mean) to map class prompts to image features using frozen CLIP (a vision-language model) and ii) decouples weak ZSS/FSS into weak semantic segmentation and Zero-Shot segmentation. The learned context vectors avoid overfitting on seen classes during training and transfer better to novel classes during testing. WLSegNet avoids fine-tuning and the use of external datasets during training. The proposed pipeline beats existing methods for weak generalized Zero-Shot and weak Few-Shot semantic segmentation by 39 and 3 mIOU points respectively on PASCAL VOC and weak Few-Shot semantic segmentation by 5 mIOU points on MS COCO. On a harder setting of 2-way 1-shot weak FSS, WLSegNet beats the baselines by 13 and 22 mIOU points on PASCAL VOC and MS COCO, respectively.
翻訳日:2023-03-01 18:50:30 公開日:2023-02-27
# 実現可能領域におけるプライベートオンライン最適化のための近似最適化アルゴリズム

Near-Optimal Algorithms for Private Online Optimization in the Realizable Regime ( http://arxiv.org/abs/2302.14154v1 )

ライセンス: Link先を確認
Hilal Asi, Vitaly Feldman, Tomer Koren, Kunal Talwar(参考訳) 本稿では,ゼロロス解が存在するような実現可能な環境でのオンライン学習問題を考察し,ほぼ最適の後悔境界を求める新たな差分プライベート(DP)アルゴリズムを提案する。 専門家によるオンライン予測の問題に対して、我々は、ほぼ最適に後悔する${O} \big( \varepsilon^{-1} \log^{1.5}{d} \big)$を得る新しいアルゴリズムを設計する。 これは、${O} \big( \varepsilon^{-1} \min\big\{d, T^{1/3}\log d\big\} \big)$ である DP の既約集合に対する最良の後悔境界よりも大幅に改善される。 また, 後悔する$O(L^\star\log d + \varepsilon^{-1} \log^{1.5}{d})$に対して, L^\star$は最高の専門家の総損失である。 さらに, dpオンライン凸最適化を実現可能な設定で検討し, ほぼ最適に後悔する$o \big(\varepsilon^{-1} d^{1.5} \big)$ と, 後悔$o \big( \varepsilon^{-2/3} (dt)^{1/3} \big)$ を持つ滑らかな場合のアルゴリズムを提案する。

We consider online learning problems in the realizable setting, where there is a zero-loss solution, and propose new Differentially Private (DP) algorithms that obtain near-optimal regret bounds. For the problem of online prediction from experts, we design new algorithms that obtain near-optimal regret ${O} \big( \varepsilon^{-1} \log^{1.5}{d} \big)$ where $d$ is the number of experts. This significantly improves over the best existing regret bounds for the DP non-realizable setting which are ${O} \big( \varepsilon^{-1} \min\big\{d, T^{1/3}\log d\big\} \big)$. We also develop an adaptive algorithm for the small-loss setting with regret $O(L^\star\log d + \varepsilon^{-1} \log^{1.5}{d})$ where $L^\star$ is the total loss of the best expert. Additionally, we consider DP online convex optimization in the realizable setting and propose an algorithm with near-optimal regret $O \big(\varepsilon^{-1} d^{1.5} \big)$, as well as an algorithm for the smooth case with regret $O \big( \varepsilon^{-2/3} (dT)^{1/3} \big)$, both significantly improving over existing bounds in the non-realizable regime.
翻訳日:2023-03-01 18:49:51 公開日:2023-02-27
# 論理クレダルネットワークにおけるマルコフ条件と因子分解

Markov Conditions and Factorization in Logical Credal Networks ( http://arxiv.org/abs/2302.14146v1 )

ライセンス: Link先を確認
Fabio Gagliardi Cozman(参考訳) 本稿では,最近提案された論理クレダルネットワークの言語,特に様々なマルコフ条件の影響について検討する。 本稿では,論理クレーダルネットワークの構造の概念を紹介し,有向サイクルのない構造がよく知られた因子化結果をもたらすことを示す。 有向サイクルを持つネットワークでは,マルコフ条件,因子化結果,仕様要件の違いを分析する。

We examine the recently proposed language of Logical Credal Networks, in particular investigating the consequences of various Markov conditions. We introduce the notion of structure for a Logical Credal Network and show that a structure without directed cycles leads to a well-known factorization result. For networks with directed cycles, we analyze the differences between Markov conditions, factorization results, and specification requirements.
翻訳日:2023-03-01 18:49:21 公開日:2023-02-27
# HalluAudio:Few-Shotオーディオ分類の概念としての幻覚周波数

HalluAudio: Hallucinating Frequency as Concepts for Few-Shot Audio Classification ( http://arxiv.org/abs/2302.14204v1 )

ライセンス: Link先を確認
Zhongjie Yu, Shuyang Wang, Lin Chen, Zhongwei Cheng(参考訳) 少数の音声分類は、研究コミュニティからますます注目を集めている新しいトピックだ。 既存の作品の多くは、オーディオスペクトログラムの仕様を無視し、画像タスクから借用した埋め込み空間に重点を置いているが、本研究では、この特殊なオーディオフォーマットを活用し、高周波・低周波部分を構造化概念として幻覚させることによる新しい手法を提案する。 ESC-50と我々のキュレートしたKaggle18データセットの大規模な実験により、提案手法は顕著なマージンでベースラインを上回ります。 提案手法は,高頻度・低周波部分の幻覚化を図り,その解釈可能性を実現し,音声分類の新たな可能性を開く。

Few-shot audio classification is an emerging topic that attracts more and more attention from the research community. Most existing work ignores the specificity of the form of the audio spectrogram and focuses largely on the embedding space borrowed from image tasks, while in this work, we aim to take advantage of this special audio format and propose a new method by hallucinating high-frequency and low-frequency parts as structured concepts. Extensive experiments on ESC-50 and our curated balanced Kaggle18 dataset show the proposed method outperforms the baseline by a notable margin. The way that our method hallucinates high-frequency and low-frequency parts also enables its interpretability and opens up new potentials for the few-shot audio classification.
翻訳日:2023-03-01 18:42:43 公開日:2023-02-27
# すべての木の混合物

Mixtures of All Trees ( http://arxiv.org/abs/2302.14202v1 )

ライセンス: Link先を確認
Nikil Roashan Selvam, Honghua Zhang, Guy Van den Broeck(参考訳) 木型のグラフィカルモデルは、そのトラクタビリティのために広く利用されている。 しかし、特定の疎結合構造にコミットする必要があるため、残念ながら表現力がない。 我々は、すべての木々の混合と呼ばれる新しい生成モデルのクラスを提案する:すなわち、すべての可能な(n^{n-2}$)木型のグラフィカルモデルと、$n$変数の混合である。 本論文では,すべての木(moat)モデルの混合を(多項式サイズの表現を用いて)コンパクトにパラメータ化できることを示し,確率的勾配降下による可搬可能性計算と最適化を可能にする。 さらに,木形モデルのトラクタビリティを活用することで,理論解析により,MoATモデルにおける限界の正確な計算がNPハードであることを示唆するにもかかわらず,高速収束条件付きサンプリングアルゴリズムを考案した。 実証的に、MoATは、隠れたChow-Liuツリーを含む強力な確率モデルと比較した場合、密度推定ベンチマークの最先端のパフォーマンスを達成する。

Tree-shaped graphical models are widely used for their tractability. However, they unfortunately lack expressive power as they require committing to a particular sparse dependency structure. We propose a novel class of generative models called mixtures of all trees: that is, a mixture over all possible ($n^{n-2}$) tree-shaped graphical models over $n$ variables. We show that it is possible to parameterize this Mixture of All Trees (MoAT) model compactly (using a polynomial-size representation) in a way that allows for tractable likelihood computation and optimization via stochastic gradient descent. Furthermore, by leveraging the tractability of tree-shaped models, we devise fast-converging conditional sampling algorithms for approximate inference, even though our theoretical analysis suggests that exact computation of marginals in the MoAT model is NP-hard. Empirically, MoAT achieves state-of-the-art performance on density estimation benchmarks when compared against powerful probabilistic models including hidden Chow-Liu Trees.
翻訳日:2023-03-01 18:42:27 公開日:2023-02-27
# 衣服サイズ調整による画像ベース仮想試着システム

Image-Based Virtual Try-on System With Clothing-Size Adjustment ( http://arxiv.org/abs/2302.14197v1 )

ライセンス: Link先を確認
Minoru Kuribayashi, Koki Nakai, Nobuo Funabiki(参考訳) 従来のイメージベース仮想トライオン方式では,身体情報を正確に反映することができないため,衣服サイズに応じたフィッティング画像は生成できない。 本研究では,衣服サイズを調整可能な画像ベースの仮想試着システムを提案する。 仮想空間における様々な衣服の大きさの適合を可視化するために,提案手法の入力として人や衣服のサイズ情報を用いた。 まず、openposeによって検出されたキーポイントの座標情報に基づいて、人物像における肩幅と衣服の高さとの間の距離を算出する。 そして、人体画像中の被写体の大きさを、被写体サイズと被写体サイズとの比に基づいて、レイアウトを推定するセグメンテーションマップの衣服面積のみのサイズを変更する。 図面中に衣服面積が大きくなると、首輪及び重なり領域の詳細が修正され、視覚的な外観が向上する。

The conventional image-based virtual try-on method cannot generate fitting images that correspond to the clothing size because the system cannot accurately reflect the body information of a person. In this study, an image-based virtual try-on system that could adjust the clothing size was proposed. The size information of the person and clothing were used as the input for the proposed method to visualize the fitting of various clothing sizes in a virtual space. First, the distance between the shoulder width and height of the clothing in the person image is calculated based on the coordinate information of the key points detected by OpenPose. Then, the system changes the size of only the clothing area of the segmentation map, whose layout is estimated using the size of the person measured in the person image based on the ratio of the person and clothing sizes. If the size of the clothing area increases during the drawing, the details in the collar and overlapping areas are corrected to improve visual appearance.
翻訳日:2023-03-01 18:42:11 公開日:2023-02-27
# PointFlowHop: 連続点雲からの緑と解釈可能なシーンフロー推定

PointFlowHop: Green and Interpretable Scene Flow Estimation from Consecutive Point Clouds ( http://arxiv.org/abs/2302.14193v1 )

ライセンス: Link先を確認
Pranav Kadam, Jiahao Gu, Shan Liu, C.-C. Jay Kuo(参考訳) 本研究では,pointflowhopと呼ばれる効率的な3次元シーンフロー推定手法を提案する。 pointflowhopは2つの連続した点雲を取り、最初の点雲の各点に対する3dフローベクトルを決定する。 PointFlowHopは、シーンフロー推定タスクを、エゴモーション補償、オブジェクトアソシエーション、オブジェクトワイズモーション推定を含む一連のサブタスクに分解する。 green learning (gl)パイプラインに従い、feedforwardデータ処理パスを採用している。 その結果、その基盤となるメカニズムは、ネットワークパラメータのエンドツーエンド最適化に基づくディープラーニング(DL)ソリューションよりも透明性が高い。 我々は、ステレオKITTIとArgoverse LiDARポイントクラウドデータセットの実験を行い、PointFlowHopがモデルサイズが小さく、トレーニング時間も少ない深層学習法より優れていることを示す。 さらに,PointFlowHopと他の学習に基づく推論手法が必要とする浮動小数点演算(FLOP)を比較し,計算複雑性の大幅な削減を示す。

An efficient 3D scene flow estimation method called PointFlowHop is proposed in this work. PointFlowHop takes two consecutive point clouds and determines the 3D flow vectors for every point in the first point cloud. PointFlowHop decomposes the scene flow estimation task into a set of subtasks, including ego-motion compensation, object association and object-wise motion estimation. It follows the green learning (GL) pipeline and adopts the feedforward data processing path. As a result, its underlying mechanism is more transparent than deep-learning (DL) solutions based on end-to-end optimization of network parameters. We conduct experiments on the stereoKITTI and the Argoverse LiDAR point cloud datasets and demonstrate that PointFlowHop outperforms deep-learning methods with a small model size and less training time. Furthermore, we compare the Floating Point Operations (FLOPs) required by PointFlowHop and other learning-based methods in inference, and show its big savings in computational complexity.
翻訳日:2023-03-01 18:41:56 公開日:2023-02-27
# 短距離FMCWレーダの再構成による分布検出

Reconstruction-based Out-of-Distribution Detection for Short-Range FMCW Radar ( http://arxiv.org/abs/2302.14192v1 )

ライセンス: Link先を確認
Sabri Mustafa Kahya, Muhammet Sami Yavuz, Eckehard Steinbach(参考訳) オフ・オブ・ディストリビューション(OOD)検出は、現代のニューラルネットワークアーキテクチャを現実世界のアプリケーションに安全に配置する上で重要な役割を担っているため、最近注目を集めている。 OOD検出器は、OODデータ上の機械学習モデルの過度な予測を避けるために、トレーニング分布の外にあるサンプルを識別することを目的としている。 既存の検出器は主にロジット、中間特徴空間、ソフトマックススコア、または再構成損失に依存しており、将来性のある結果を生み出す。 しかし,これらの手法のほとんどは画像領域向けに開発されている。 本研究では,レーダ領域で動作する新しい再構成型OOD検出器を提案する。 本手法はオートエンコーダ(AE)とその潜在表現を利用してOODサンプルを検出する。 パッチベース再構築損失と各パッチの潜在表現から算出したエネルギー値を組み合わせた2つのスコアを提案する。 我々は60GHz短距離FMCWレーダを用いて収集したデータセットに対して90.72%のAUROCを実現する。 実験により,AUROC法とAUPR法は,ベースライン(AE)および他の最先端手法よりも優れた性能を示した。 また,モデルサイズが641kbであるため,本検出器は組込み使用に適している。

Out-of-distribution (OOD) detection recently has drawn attention due to its critical role in the safe deployment of modern neural network architectures in real-world applications. The OOD detectors aim to distinguish samples that lie outside the training distribution in order to avoid the overconfident predictions of machine learning models on OOD data. Existing detectors, which mainly rely on the logit, intermediate feature space, softmax score, or reconstruction loss, manage to produce promising results. However, most of these methods are developed for the image domain. In this study, we propose a novel reconstruction-based OOD detector to operate on the radar domain. Our method exploits an autoencoder (AE) and its latent representation to detect the OOD samples. We propose two scores incorporating the patch-based reconstruction loss and the energy value calculated from the latent representations of each patch. We achieve an AUROC of 90.72% on our dataset collected by using 60 GHz short-range FMCW Radar. The experiments demonstrate that, in terms of AUROC and AUPR, our method outperforms the baseline (AE) and the other state-of-the-art methods. Also, thanks to its model size of 641 kB, our detector is suitable for embedded usage.
翻訳日:2023-03-01 18:41:40 公開日:2023-02-27
# 共有するもののみを転送する: インターセクション誘起グラフ転送学習によるリンク予測

You Only Transfer What You Share: Intersection-Induced Graph Transfer Learning for Link Prediction ( http://arxiv.org/abs/2302.14189v1 )

ライセンス: Link先を確認
Wenqing Zheng, Edward W Huang, Nikhil Rao, Zhangyang Wang, Karthik Subbian(参考訳) リンク予測は多くの実世界のアプリケーションの中心であるが、関心グラフが疎い場合にはその性能が阻害される可能性がある。 スパーシティによって引き起こされる問題を緩和するために、以前見過ごされていた現象について検討する。多くの場合、元のグラフには密結合した相補グラフが見つかる。 密度の高いグラフはノードを元のグラフと共有し、有意義な知識を伝達するための自然な橋渡しを提供する。 この設定をグラフインターセクション誘導トランスファーラーニング(GITL)とみなし,eコマースや学術共同オーサシップ予測の実践的応用に動機づけられた。 この設定で構造を効果的に活用するためのフレームワークを開発する。 まず,2つのグラフ間の共有ノードを用いて交叉部分グラフを作成し,その交叉部分グラフから全対象グラフへ知識を伝達する。 第2段階では,教師・生徒の指導体制において,ラベル伝搬の修正と多層パーセプトロンモデル(mlp)の2つのアプローチを検討する。 プロプライエタリなeコマースデータセットとオープンソースの引用グラフによる実験結果から,提案したワークフローは,交差点構造を明示的に利用していない既存の移動学習ベースラインよりも優れていることがわかった。

Link prediction is central to many real-world applications, but its performance may be hampered when the graph of interest is sparse. To alleviate issues caused by sparsity, we investigate a previously overlooked phenomenon: in many cases, a densely connected, complementary graph can be found for the original graph. The denser graph may share nodes with the original graph, which offers a natural bridge for transferring meaningful knowledge. We identify this setting as Graph Intersection-induced Transfer Learning (GITL), which is motivated by practical applications in e-commerce or academic co-authorship predictions. We develop a framework to effectively leverage the structural prior in this setting. We first create an intersection subgraph using the shared nodes between the two graphs, then transfer knowledge from the source-enriched intersection subgraph to the full target graph. In the second step, we consider two approaches: a modified label propagation, and a multi-layer perceptron (MLP) model in a teacher-student regime. Experimental results on proprietary e-commerce datasets and open-source citation graphs show that the proposed workflow outperforms existing transfer learning baselines that do not explicitly utilize the intersection structure.
翻訳日:2023-03-01 18:41:22 公開日:2023-02-27
# 深層強化学習を用いたタンブリングターゲットの被曝型マルチエージェント検査

Exposure-Based Multi-Agent Inspection of a Tumbling Target Using Deep Reinforcement Learning ( http://arxiv.org/abs/2302.14188v1 )

ライセンス: Link先を確認
Joshua Aurand, Steven Cutlip, Henry Lei, Kendra Lang, and Sean Phillips(参考訳) 宇宙がより混雑するにつれて、軌道検査は、修理の計画のために廃衛星を観測するか、軌道を外すかに関係する活動である。 しかし、軌道上の検査自体の作業は困難であり、通常は複数の観測衛星の注意深く調整する必要がある。 これは高度に非線形な環境で複雑であり、目標が未知であるか、あるいは地上からの連続的な指令と制御の時間無しに予測不能に動く可能性がある。 検査タスクには、自律的で堅牢で分散化されたソリューションが必要です。 これを実現するために,マルチエージェント検査の分散計画における階層的,学習的なアプローチを検討する。 このソリューションは,深層強化学習を用いて訓練された視点と高レベルプランナーと,事前指定された視点間のポイント・ツー・ポイントのナビゲーションを扱うナビゲーションプランナーの2つの構成要素からなる。 本稿では,学習に基づく堅牢な政策の強化だけでなく,未知のターゲットジオメトリに拡張可能な新たな問題定式化手法と,センサ入力から直接受ける高忠実度情報理論の目的について述べる。 限られた情報に基づいて、訓練されたマルチエージェントハイレベルポリシーは、グローバル階層環境内で情報のコンテキスト化に成功し、追加のエージェント姿勢制御がなくても、90%以上の非凸タンブリングターゲットを検査することが可能です。

As space becomes more congested, on orbit inspection is an increasingly relevant activity whether to observe a defunct satellite for planning repairs or to de-orbit it. However, the task of on orbit inspection itself is challenging, typically requiring the careful coordination of multiple observer satellites. This is complicated by a highly nonlinear environment where the target may be unknown or moving unpredictably without time for continuous command and control from the ground. There is a need for autonomous, robust, decentralized solutions to the inspection task. To achieve this, we consider a hierarchical, learned approach for the decentralized planning of multi-agent inspection of a tumbling target. Our solution consists of two components: a viewpoint or high-level planner trained using deep reinforcement learning and a navigation planner handling point-to-point navigation between pre-specified viewpoints. We present a novel problem formulation and methodology that is suitable not only to reinforcement learning-derived robust policies, but extendable to unknown target geometries and higher fidelity information theoretic objectives received directly from sensor inputs. Operating under limited information, our trained multi-agent high-level policies successfully contextualize information within the global hierarchical environment and are correspondingly able to inspect over 90% of non-convex tumbling targets, even in the absence of additional agent attitude control.
翻訳日:2023-03-01 18:41:01 公開日:2023-02-27
# Fisher's Linear Discriminant Analysis による最適領域適応

Approximately optimal domain adaptation with Fisher's Linear Discriminant Analysis ( http://arxiv.org/abs/2302.14186v1 )

ライセンス: Link先を確認
Hayden S. Helm and Weiwei Yang and Ashwin De Silva and Joshua T. Vogelstein and Carey E. Priebe(参考訳) 本研究では,fisherの線形判別(fld)に基づくモデル群をドメイン適応の文脈で提案する。 クラスは2つの仮説の凸結合である。 一 前述した出典の課題を表す平均的仮説 二 新たな目標課題について訓練した仮説 特定の生成的設定のために、2つのモデルの最適凸結合を0-1損失下で導出し、計算可能な近似を提案し、最適仮説、仮説の間の相対的リスクに対する様々なパラメータ設定の影響を研究する。 i)と仮説 i)。 脳波とECGに基づく分類設定の文脈における最適分類器の有効性を実証し、各ソースタスクから直接の情報にアクセスせずに最適な分類器を計算できると主張している。 我々は、さらなる応用、制限、将来的な方向性について論じる。

We propose a class of models based on Fisher's Linear Discriminant (FLD) in the context of domain adaptation. The class is the convex combination of two hypotheses: i) an average hypothesis representing previously seen source tasks and ii) a hypothesis trained on a new target task. For a particular generative setting we derive the optimal convex combination of the two models under 0-1 loss, propose a computable approximation, and study the effect of various parameter settings on the relative risks between the optimal hypothesis, hypothesis i), and hypothesis ii). We demonstrate the effectiveness of the proposed optimal classifier in the context of EEG- and ECG-based classification settings and argue that the optimal classifier can be computed without access to direct information from any of the individual source tasks. We conclude by discussing further applications, limitations, and possible future directions.
翻訳日:2023-03-01 18:40:36 公開日:2023-02-27
# エンジニアリング複合システムにおける経験: 複数の成果と確実性レベルを持つアクティブな選好学習

Experience in Engineering Complex Systems: Active Preference Learning with Multiple Outcomes and Certainty Levels ( http://arxiv.org/abs/2302.14630v1 )

ライセンス: Link先を確認
Le Anh Dao, Loris Roveda, Marco Maccarini, Matteo Lavit Nicora, Marta Mondellini, Matteo Meregalli Falerni, Palaniappan Veerappan, Lorenzo Mantovani, Dario Piga, Simone Formentin, Matteo Malosio(参考訳) ブラックボックス最適化(Black-box optimization)とは、目的関数や制約セットが未知、到達不能、あるいは存在しない最適化問題を指す。 多くのアプリケーション、特に人間の関与において、最適化問題にアクセスする唯一の方法は、ある候補を1つまたは複数の候補に対して選好することによる物理的実験を行うことである。 そこで,この情報を活用し,標準ラジアル基底関数に基づくサロゲート関数を構築した上で,新たな決定ベクトルを反復的に提案し,最適解を探索する容易解獲得関数を構築する,いわゆるアクティブ・プレファレンス・ラーニング(active preference learning)アルゴリズムを開発した。 この考え方に基づき,提案手法は,さらなる情報を効果的に活用するためのアルゴリズムを拡張することを目的としている。5点のlikert型スケール 選好クエリの結果(すなわち,選好が"これよりも優れている"だけでなく,"それよりもずっと良い"レベルに記述できる) や,結果の確実性に関する付加的な情報を含む単一の選好クエリの複数の結果など,現実に得ることができる。 提案アルゴリズムの検証は標準的なベンチマーク関数によって行われ、最先端のアルゴリズムに関して有望な改善を示す。

Black-box optimization refers to the optimization problem whose objective function and/or constraint sets are either unknown, inaccessible, or non-existent. In many applications, especially with the involvement of humans, the only way to access the optimization problem is through performing physical experiments with the available outcomes being the preference of one candidate with respect to one or many others. Accordingly, the algorithm so-called Active Preference Learning has been developed to exploit this specific information in constructing a surrogate function based on standard radial basis functions, and then forming an easy-to-solve acquisition function which repetitively suggests new decision vectors to search for the optimal solution. Based on this idea, our approach aims to extend the algorithm in such a way that can exploit further information effectively, which can be obtained in reality such as: 5-point Likert type scale for the outcomes of the preference query (i.e., the preference can be described in not only "this is better than that" but also "this is much better than that" level), or multiple outcomes for a single preference query with possible additive information on how certain the outcomes are. The validation of the proposed algorithm is done through some standard benchmark functions, showing a promising improvement with respect to the state-of-the-art algorithm.
翻訳日:2023-03-01 16:07:57 公開日:2023-02-27
# Pais-Uhlenbeck振動子モデルと2つの非エルミート高調波オシレータの等価性について

On the equivalence of the Pais-Uhlenbeck oscillator model and two non-Hermitian Harmonic Oscillators ( http://arxiv.org/abs/2302.14621v1 )

ライセンス: Link先を確認
Frieder Kleefeld (Collab. of CeFEMA, IST, Lisbon, Portugal)(参考訳) 2つの独立ボソニック高調波発振器のシステムは、それぞれの4次導関数pais-uhlenbeck発振器モデルに変換される。 この変換手順は、P. D. Mannheim の論文 "Determining the normalization of the quantum field theory vacuum, with emplications for quantum gravity" [arXiv:2301.13029 [hep-th]] において、真空状態と経路積分の分岐問題に悩まされないために、第4次微分方程式 Pais-Uhlenbeck 発振器の量子化を透過的に示す。 そこで, 量子力学と量子場理論においてpt対称性を完備した系に対して関数と真空持続振幅を生成し, 量子場理論と素粒子物理学との関連について論じる。

A system of two independent Bosonic Harmonic Oscillators is converted into the respective fourth-order derivative Pais-Uhlenbeck oscillator model. The conversion procedure displays transparently how the quantization of the fourth-order derivative Pais-Uhlenbeck oscillator has to be performed in order not to suffer from the divergence problems of the vacuum state and path integrals as conjectured most recently by P. D. Mannheim in his article ``Determining the normalization of the quantum field theory vacuum, with implications for quantum gravity" [arXiv:2301.13029 [hep-th]]. In order to make the case we present the construction of the path integral, generating functionals and vacuum persistence amplitudes for PT-symmetry completed systems in Quantum Mechanics and Quantum Field Theory and discuss some implications to Quantum Field Theory and Particle Physics.
翻訳日:2023-03-01 16:06:34 公開日:2023-02-27
# 量子力学における最小情報原理

Least Information Principle for Quantum Mechanics ( http://arxiv.org/abs/2302.14619v1 )

ライセンス: Link先を確認
Jianhao M. Yang(参考訳) ここでは、不確実性関係を含む非相対論的量子力学の定式化と、位置および運動量表現における「シュル」{o}ディンガー方程式を導出するために、最小情報原理が提案される。 この原理の鍵となる要素は、真空変動による観測可能な情報を測定するための新しい指標の導入である。 さらに、プランク定数は、物理系の力学挙動の観測可能な情報を明らかにする基本離散作用単位として理解される。 量子力学の定式化の回復に加えて、この原理は二つの面で新たな結果をもたらす。 数学的には、相対エントロピーのより一般的な定義を用いて真空揺らぎの情報量を定義することは、相対エントロピーの順序に依存する一般化されたシュルンディンガー方程式をもたらす。 概念的には、これらの情報メトリクスは、基礎となる物理的相互作用を伴わずに絡み合い効果を示すことに責任があることが示され、絡み合い効果が非因果関係であることを示唆している。 最小情報原理は量子力学の情報の本質をさらに証明し、より高度な量子理論を導出するための数学的ツールとなる。

A least information principle is proposed here to derive the formulations of non-relativistic quantum mechanics, including the uncertainty relation and the Schr\"{o}dinger equation in both position and momentum representations. The key element for this principle is the introduction of new metrics to measure the observable information due to vacuum fluctuations. In addition, the Planck constant is understood as the basic discrete action unit to uncover observable information of the dynamics behavior of a physical system. Besides recovering the quantum mechanics formulation, the principle also brings in new results on two fronts. Mathematically, defining the information metrics for vacuum fluctuations using more general definitions of relative entropy results in a generalized Schr\"{o}dinger equation that depends on the order of relative entropy. Conceptually, these information metrics are shown to be responsible for manifesting entanglement effects without underlying physical interactions, implying that entanglement effects are non-causal. The least information principle further demonstrates the information essence of quantum mechanics, and can be a mathematical tool to derive more advanced quantum theories.
翻訳日:2023-03-01 16:06:11 公開日:2023-02-27
# グラフに基づく知識蒸留:調査と実験的評価

Graph-based Knowledge Distillation: A survey and experimental evaluation ( http://arxiv.org/abs/2302.14643v1 )

ライセンス: Link先を確認
Jing Liu, Tongya Zheng, Guanzheng Zhang, Qinfen Hao(参考訳) 引用ネットワーク、ソーシャルネットワーク、輸送ネットワークといったグラフは、現実世界で広く使われている。 グラフニューラルネットワーク(GNN)は、様々なグラフアプリケーションにおいて、堅牢な表現力と例外的な性能で広く注目を集めている。 しかし、GNNの有効性は十分なデータラベルや複雑なネットワークモデルに大きく依存しており、前者がほとんど得られず、後者の計算はコストがかかる。 ラベル付きデータ不足とGNNの複雑さに対処するため、既存のGNNを強化するために知識蒸留(KD)が導入されている。 この手法は, 予測性能を維持しつつ, 大規模教員モデルのソフトラベル監督を小学生モデルに移管することを含む。 本調査では,グラフに基づく知識蒸留法の概要を概観し,その限界と今後の方向性を議論しながら,体系的に分類・要約する。 本稿ではまず,グラフとKDの背景を紹介する。 次に、ディープニューラルネットワーク(DKD)のためのグラフベースの知識蒸留(Graph-based Knowledge Distillation)、GNNのためのグラフベースの知識蒸留(GKD)、グラフベースの知識蒸留(SKD)である。 各タイプはさらに、出力層、中間層、構築されたグラフに基づいて知識蒸留方法に分割される。 その後、様々なアルゴリズムのアイデアを分析し比較し、実験結果によって支持される各アルゴリズムの利点と欠点を結論付ける。 さらに,CV,NLP,RS,その他の分野におけるグラフベースの知識蒸留の応用について述べる。 最後に,グラフに基づく知識蒸留について概説する。 関連リソースはhttps://github.com/liujing1023/GraphベースのKnowledge-Distillationでもリリースしています。

Graph, such as citation networks, social networks, and transportation networks, are prevalent in the real world. Graph Neural Networks (GNNs) have gained widespread attention for their robust expressiveness and exceptional performance in various graph applications. However, the efficacy of GNNs is heavily reliant on sufficient data labels and complex network models, with the former obtaining hardly and the latter computing costly. To address the labeled data scarcity and high complexity of GNNs, Knowledge Distillation (KD) has been introduced to enhance existing GNNs. This technique involves transferring the soft-label supervision of the large teacher model to the small student model while maintaining prediction performance. This survey offers a comprehensive overview of Graph-based Knowledge Distillation methods, systematically categorizing and summarizing them while discussing their limitations and future directions. This paper first introduces the background of graph and KD. It then provides a comprehensive summary of three types of Graph-based Knowledge Distillation methods, namely Graph-based Knowledge Distillation for deep neural networks (DKD), Graph-based Knowledge Distillation for GNNs (GKD), and Self-Knowledge Distillation based Graph-based Knowledge Distillation (SKD). Each type is further divided into knowledge distillation methods based on the output layer, middle layer, and constructed graph. Subsequently, various algorithms' ideas are analyzed and compared, concluding with the advantages and disadvantages of each algorithm supported by experimental results. In addition, the applications of graph-based knowledge distillation in CV, NLP, RS, and other fields are listed. Finally, the graph-based knowledge distillation is summarized and prospectively discussed. We have also released related resources at https://github.com/liujing1023/Graph-based-Knowledge-Distillation.
翻訳日:2023-03-01 15:57:53 公開日:2023-02-27
# SpeechFormer++: パラ言語音声処理のための階層的効率的なフレームワーク

SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic Speech Processing ( http://arxiv.org/abs/2302.14638v1 )

ライセンス: Link先を確認
Weidong Chen, Xiaofen Xing, Xiangmin Xu, Jianxin Pang, Lan Du(参考訳) パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。 近年、トランスフォーマーは自然言語処理の分野で大きな成功を収め、音声への適応を実証している。 しかし, 音声分野におけるトランスフォーマーに関するこれまでの研究は, 音声の特性を取り入れておらず, トランスフォーマーの潜在能力は未解明のままである。 本稿では,音声の特徴を考察し,パラ言語的音声処理のための汎用構造ベースフレームワークである speechformer++ を提案する。 より具体的には、音声信号の成分関係に従って、単位内および単位間情報(フレーム、電話、単語)を効率的にモデル化する単位エンコーダを設計する。 階層的関係により,マージブロックを用いて,音声信号の構造パターンと一致した,異なる粒度で特徴を生成する。 さらに、ワードエンコーダを導入し、単語の粒度を単位エンコーダに統合し、粒度と粗い情報を効果的にバランスさせる。 SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。 その結果,SpeechFormer++は標準のTransformerよりも高い性能を示し,計算コストを大幅に削減した。 さらに、最先端のアプローチよりも優れた結果をもたらす。

Paralinguistic speech processing is important in addressing many issues, such as sentiment and neurocognitive disorder analyses. Recently, Transformer has achieved remarkable success in the natural language processing field and has demonstrated its adaptation to speech. However, previous works on Transformer in the speech field have not incorporated the properties of speech, leaving the full potential of Transformer unexplored. In this paper, we consider the characteristics of speech and propose a general structure-based framework, called SpeechFormer++, for paralinguistic speech processing. More concretely, following the component relationship in the speech signal, we design a unit encoder to model the intra- and inter-unit information (i.e., frames, phones, and words) efficiently. According to the hierarchical relationship, we utilize merging blocks to generate features at different granularities, which is consistent with the structural pattern in the speech signal. Moreover, a word encoder is introduced to integrate word-grained features into each unit encoder, which effectively balances fine-grained and coarse-grained information. SpeechFormer++ is evaluated on the speech emotion recognition (IEMOCAP & MELD), depression classification (DAIC-WOZ) and Alzheimer's disease detection (Pitt) tasks. The results show that SpeechFormer++ outperforms the standard Transformer while greatly reducing the computational cost. Furthermore, it delivers superior results compared to the state-of-the-art approaches.
翻訳日:2023-03-01 15:56:55 公開日:2023-02-27
# 非ユニタリニュートン重力におけるエベレット世界と基本デコヒーレンスとの相互作用

Interaction between Everett worlds and fundamental decoherence in Non-unitary Newtonian Gravity ( http://arxiv.org/abs/2302.14631v1 )

ライセンス: Link先を確認
Filippo.Maimone, Adele Naddeo, Giovanni Scelza(参考訳) 非ユニタリニュートン重力モデル(NNG)はファインマンパス積分(英語版)(Feynman path integral)という単純な解釈を許容しており、すべての可能な履歴の和は経路の対の和に置き換えられる。 異なる経路間の相関は重力起源の基本的なデコヒーレンス機構によって許容され、波動関数の異なる分岐間の通信の一種として解釈できる。 続く定式化は、Non-unitary Gravity自体を導入する動機となる。

It is shown that Non-unitary Newtonian Gravity (NNG) model admits a simple interpretation in terms of Feynman path integral, in which the sum over all possible histories is replaced by a summation over pairs of paths. Correlations between different paths are allowed by a fundamental decoherence mechanism of gravitational origin and can be interpreted as a kind of communication between different branches of the wave function. The ensuing formulation could be used in turn as a motivation to introduce Non-unitary Gravity itself.
翻訳日:2023-03-01 15:56:09 公開日:2023-02-27
# 説明可能なAIは死んだ、長く生きた説明可能なAI! 仮説駆動意思決定支援

Explainable AI is Dead, Long Live Explainable AI! Hypothesis-driven decision support ( http://arxiv.org/abs/2302.12389v2 )

ライセンス: Link先を確認
Tim Miller(参考訳) 本稿では,従来の説明可能な人工知能(XAI)モデルからのパラダイムシフトについて論じる。 早期意思決定支援システムでは、人々に推奨を与え、それらを考慮し、必要なときにそれに従うことができると仮定した。 しかし、研究によると、人々はレコメンデーションを信用していないために無視することが多く、レコメンデーションが間違っていても盲目的にフォローしている。 説明可能な人工知能は、モデルが特定のレコメンデーションを与える方法と理由を理解するのを助けることでこれを緩和する。 しかし、最近の研究では、人々は必ずしも意思決定を改善するのに十分な説明可能性ツールに携わるとは限らない。 人々がレコメンデーションや説明に従事するという仮定は根拠がないことが証明されている。 これは、我々は2つのことを説明できなかったからである。 まず、リコメンデーション(と説明)が人間の意思決定者からコントロールを受け、代理店を制限します。 第二に、レコメンデーションや説明を与えることは、意思決定を行う人々が採用する認知プロセスと一致しない。 本稿では,説明可能な意思決定支援のための評価AIという新しい概念的枠組みを提案する。 これはマシン・イン・ザ・ループのパラダイムであり、決定支援ツールは、受け入れや拒否を推奨するのではなく、人々の決定に対する証拠を提供する。 これは意思決定支援ツールへの過度な信頼と過度な信頼の問題を緩和し、意思決定における人間の専門知識をより活用する、と我々は主張する。

In this paper, we argue for a paradigm shift from the current model of explainable artificial intelligence (XAI), which may be counter-productive to better human decision making. In early decision support systems, we assumed that we could give people recommendations and that they would consider them, and then follow them when required. However, research found that people often ignore recommendations because they do not trust them; or perhaps even worse, people follow them blindly, even when the recommendations are wrong. Explainable artificial intelligence mitigates this by helping people to understand how and why models give certain recommendations. However, recent research shows that people do not always engage with explainability tools enough to help improve decision making. The assumption that people will engage with recommendations and explanations has proven to be unfounded. We argue this is because we have failed to account for two things. First, recommendations (and their explanations) take control from human decision makers, limiting their agency. Second, giving recommendations and explanations does not align with the cognitive processes employed by people making decisions. This position paper proposes a new conceptual framework called Evaluative AI for explainable decision support. This is a machine-in-the-loop paradigm in which decision support tools provide evidence for and against decisions made by people, rather than provide recommendations to accept or reject. We argue that this mitigates issues of over- and under-reliance on decision support tools, and better leverages human expertise in decision making.
翻訳日:2023-03-01 12:36:35 公開日:2023-02-27
# 量子非局所性は光よりも速い相互作用の結果か?

Can Quantum Nonlocality be the Consequence of Faster-Than-Light Interactions? ( http://arxiv.org/abs/2201.06420v3 )

ライセンス: Link先を確認
Luiz Carlos Ryff(参考訳) ベルとボームは、アインシュタイン-ポドルスキー-ローゼン(epr)相関は光速(ftl)相互作用によって仲介されると主張した。 以前の論文では、ローレンツ対称性の分解を通して)このFTL仮説から導かれる因果パラドックスを避ける方法が提案されている。 ローレンツ変換は依然として有効であるが、EPR相関の場合、アクティブなローレンツ変換とパッシブなローレンツ変換の間には等価性はない。 この仮定のいくつかの直観的な結果がここで概説されている。

It has been advocated by Bell and Bohm that the Einstein-Podolsky-Rosen (EPR) correlations are mediated through faster-than-light (FTL) interactions. In a previous paper a way to avoid causal paradoxes derived from this FTL hypothesis (via the breakdown of Lorentz symmetry) has been suggested. Lorentz transformations would remain valid, but there would be no equivalence between active and passive Lorentz transformations in the case of EPR correlations. Some counterintuitive consequences of this assumption are briefly examined here.
翻訳日:2023-02-28 22:56:33 公開日:2023-02-27
# 流体トランスフォーマーと創造的アナロジー--言語モデルによるクロスドメイン類似創造の強化のための能力の検討

Fluid Transformers and Creative Analogies: Exploring Large Language Models' Capacity for Augmenting Cross-Domain Analogical Creativity ( http://arxiv.org/abs/2302.12832v1 )

ライセンス: Link先を確認
Zijian Ding, Arvind Srinivasan, Stephen MacNeil, Joel Chan(参考訳) クロスドメインのアナロジー推論は、人間にとって挑戦的なコアな創造的能力である。 最近の研究は、言語モデル(LLM)がドメイン間の類似を生成できるという概念の証明を示している。 しかし、この能力が人間の創造性を増強する上での信頼性と潜在的有用性は、体系的な調査をほとんど受けていない。 本稿では,LLMのキャパシティを体系的に探求し,ドメイン間類似推論を増強する。 3つの研究で明らかになったのは 1) LLM生成のクロスドメインアナログは, 問題修正作業の文脈で有用であると判断されることが多かった(5つ中4つ中4つ中4つ中4つ中4つ中4つ)。 2) 最大25%のアウトプットが潜在的に有害であると評価され, その大多数は偏りや有害な内容ではなく, 潜在的に動揺するコンテンツによるものであった。 これらの結果は、ドメイン間類似の創造性を高めるためのLLMの有用性とリスクを実証している。

Cross-domain analogical reasoning is a core creative ability that can be challenging for humans. Recent work has shown some proofs-of concept of Large language Models' (LLMs) ability to generate cross-domain analogies. However, the reliability and potential usefulness of this capacity for augmenting human creative work has received little systematic exploration. In this paper, we systematically explore LLMs capacity to augment cross-domain analogical reasoning. Across three studies, we found: 1) LLM-generated cross-domain analogies were frequently judged as helpful in the context of a problem reformulation task (median 4 out of 5 helpfulness rating), and frequently (~80% of cases) led to observable changes in problem formulations, and 2) there was an upper bound of 25% of outputs bring rated as potentially harmful, with a majority due to potentially upsetting content, rather than biased or toxic content. These results demonstrate the potential utility -- and risks -- of LLMs for augmenting cross-domain analogical creativity.
翻訳日:2023-02-28 20:20:39 公開日:2023-02-27
# 音声処理のための低レイテンシ変換器

Low latency transformers for speech processing ( http://arxiv.org/abs/2302.13451v1 )

ライセンス: Link先を確認
Jianbo Ma, Siqi Pan, Deepak Chandran, Andrea Fanelli, Richard Cartwright(参考訳) トランスは現代のニューラルネットワークで広く使われているビルディングブロックである。 しかし、オーディオデータに適用すると、acausal attention(aa)と呼ばれるトランスフォーマーのアカウサル動作は、一般的にオフラインタスクに制限されている。 本稿では,ストリーミング注意(SA)について紹介する。これは待ち時間に注意して動作し,AAのトレーニングよりも低い計算資源とメモリリソースを必要とする。 次に,低レイテンシストリーミング注意(LLSA)を導入し,レイヤ数に比例する遅延を伴わない複数のSA層を組み合わせる手法を提案する。 自動音声認識(ASR)と音声感情認識(SER)におけるAA, SA, LLSAの比較分析を行った。 その結果,数秒間 (1.8秒など) の因果SAベースのネットワークと,300ミリ秒間 (300ミリ秒) のLLSAネットワークは,アカソーサル (AA) ネットワークと互換性があることがわかった。 結論として,sa と llsa の手法は従来の acausal トランスフォーマーの利点を多く残しているが,リアルタイムストリーミングアプリケーションで実行するための遅延特性を備えている。

The transformer is a widely-used building block in modern neural networks. However, when applied to audio data, the transformer's acausal behaviour, which we term Acausal Attention (AA), has generally limited its application to offline tasks. In this paper we introduce Streaming Attention (SA), which operates causally with fixed latency, and requires lower compute and memory resources than AA to train. Next, we introduce Low Latency Streaming Attention (LLSA), a method which combines multiple SA layers without latency build-up proportional to the layer count. Comparative analysis between AA, SA and LLSA on Automatic Speech Recognition (ASR) and Speech Emotion Recognition (SER) tasks are presented. The results show that causal SA-based networks with fixed latencies of a few seconds (e.g. 1.8 seconds) and LLSA networks with latencies as short as 300 ms can perform comparably with acausal (AA) networks. We conclude that SA and LLSA methods retain many of the benefits of conventional acausal transformers, but with latency characteristics that make them practical to run in real-time streaming applications.
翻訳日:2023-02-28 17:10:44 公開日:2023-02-27
# リウィリアの例外点を囲む量子熱エンジンの促進

Enhancement of quantum heat engine by encircling a Liouvillian exceptional point ( http://arxiv.org/abs/2302.13450v1 )

ライセンス: Link先を確認
J. -T. Bu, J. -Q. Zhang, G. -Y. Ding, J. -C. Li, J. -W. Zhang, B. Wang, W. -Q. Ding, W. -F. Yuan, L. Chen, \c{S}.K. \"Ozdemir, F. Zhou, H. Jing, and M. Feng(参考訳) 量子熱エンジンは、関連する量子コヒーレンスにより古典的な性能を上回ることが期待されている。 ここでは,単一イオンの量子熱エンジンを実験的に実行し,liouvillian exceptional points (leps) を起源とする熱エンジンの動力学と性能向上を初めて実証する。 レプスに関連する位相効果に加えて、デコヒーレンスの下でランダウ・ツェナー・シュタッケルベルク過程によって理解できる熱力学的効果にも注目する。 熱エンジンサイクルがlepを動的に包囲する場合、量子熱エンジンからの正のネットワークを目撃する。 さらなる調査により、システムがLEPに近づくと、より大きな網作業が行われることが判明した。 我々は,LZSプロセスにより量子熱エンジンの性能が向上し,LEP近傍のエジネネネギーランドスケープとEP誘起トポロジ遷移が実現された。 そこで本研究では, 量子熱エンジンのlep制御とオープン量子システムにおける熱力学過程への新たな可能性を開く。

Quantum heat engines are expected to outperform the classical counterparts due to quantum coherences involved. Here we experimentally execute a single-ion quantum heat engine and demonstrate, for the first time, the dynamics and the enhanced performance of the heat engine originating from the Liouvillian exceptional points (LEPs). In addition to the topological effects related to LEPs, we focus on thermodynamic effects, which can be understood by the Landau-Zener-Stuckelberg process under decoherence. We witness a positive net work from the quantum heat engine if the heat engine cycle dynamically encircles an LEP. Further investigation reveals that, a larger net work is done when the system is operated closer to the LEP. We attribute the enhanced performance of the quantum heat engine to the LZS process, enabled by the eigenenergy landscape in the vicinity of the LEP, and the EP-induced topological transition. Therefore, our results open new possibilities to towards LEP-enabled control of quantum heat engines and of thermodynamic processes in open quantum systems.
翻訳日:2023-02-28 17:10:24 公開日:2023-02-27
# 平面内モデル伝播とシンク衛星スケジューリングによるleo衛星星座のフェデレーション学習の最適化

Optimizing Federated Learning in LEO Satellite Constellations via Intra-Plane Model Propagation and Sink Satellite Scheduling ( http://arxiv.org/abs/2302.13447v1 )

ライセンス: Link先を確認
Mohamed Elmahallawy, Tie Luo(参考訳) 衛星技術の進歩により、地球観測画像などの大量のデータを収集するために、地球低軌道(LEO)上で多数の小型衛星が打ち上げられている。 このようなデータを地上局(GS)にダウンロードして機械学習(ML)モデルをトレーニングする従来の方法は、LEO衛星とGS間の帯域制限と断続接続のため望ましくない。 一方、衛星エッジコンピューティング(SEC)では、各衛星がMLモデルをオンボードでトレーニングし、モデルのみをGSにアップロードすることができる。 本稿では, sec の概念を実現し,既存の fl ベースの解の制限(低収束)を克服する,新しいフェデレート学習(fl)フレームワーク fedleo を提案する。 FedLEO (1) 従来のFLの恒星トポロジーを、衛星間のモデル伝播を行う「水平」の平面内通信経路で拡張し、(2) 衛星軌道パターンの予測可能性を利用して「シンク」衛星とGS間の通信を最適にスケジュールする。 我々はFedLEOを広く評価し、最先端技術でベンチマークする。 以上の結果から,FedLEO は FL の収束を著しく促進するが,実際にモデル精度を大幅に向上させる。

The advances in satellite technology developments have recently seen a large number of small satellites being launched into space on Low Earth orbit (LEO) to collect massive data such as Earth observational imagery. The traditional way which downloads such data to a ground station (GS) to train a machine learning (ML) model is not desirable due to the bandwidth limitation and intermittent connectivity between LEO satellites and the GS. Satellite edge computing (SEC), on the other hand, allows each satellite to train an ML model onboard and uploads only the model to the GS which appears to be a promising concept. This paper proposes FedLEO, a novel federated learning (FL) framework that realizes the concept of SEC and overcomes the limitation (slow convergence) of existing FL-based solutions. FedLEO (1) augments the conventional FL's star topology with ``horizontal'' intra-plane communication pathways in which model propagation among satellites takes place; (2) optimally schedules communication between ``sink'' satellites and the GS by exploiting the predictability of satellite orbiting patterns. We evaluate FedLEO extensively and benchmark it with the state of the art. Our results show that FedLEO drastically expedites FL convergence, without sacrificing -- in fact it considerably increases -- the model accuracy.
翻訳日:2023-02-28 17:10:02 公開日:2023-02-27
# 深層強化学習を用いたメタバースアプリケーションのための動的リソース割り当て

Dynamic Resource Allocation for Metaverse Applications with Deep Reinforcement Learning ( http://arxiv.org/abs/2302.13445v1 )

ライセンス: Link先を確認
Nam H. Chu, Diep N. Nguyen, Dinh Thai Hoang, Khoa T. Phan, Eryk Dutkiewicz, Dusit Niyato, and Tao Shu(参考訳) 本研究は、これまで見たことのない様々なタイプの大量のリソースを必要とすると予測された、メタバースアプリケーションの様々なタイプのリソースを動的かつ効果的に管理し割り当てる、新しいフレームワークを提案する。 具体的には、Metaverse アプリケーションの機能を研究することによって、まずアプリケーションをグループ、すなわち MetaInstances に分割する効果的なソリューションを提案し、そこでは、共通関数をアプリケーション間で共有し、リソース使用効率を向上させる。 次に、要求の到着・発着プロセスのリアルタイム・動的・不確実性を把握するために、セミマルコフ決定プロセスに基づくフレームワークを開発し、メタバースサービスプロバイダの収益・資源利用効率を最大化するために、最適な入場ポリシーを徐々に学習し、同時にメタバースユーザのためのサービス品質を向上させるインテリジェントなアルゴリズムを提案する。 広範なシミュレーション結果から,提案手法は,メタバースサービスプロバイダの収益を最大120%,メタバースアプリケーション要求の受け入れ確率を178.9%向上させることができた。

This work proposes a novel framework to dynamically and effectively manage and allocate different types of resources for Metaverse applications, which are forecasted to demand massive resources of various types that have never been seen before. Specifically, by studying functions of Metaverse applications, we first propose an effective solution to divide applications into groups, namely MetaInstances, where common functions can be shared among applications to enhance resource usage efficiency. Then, to capture the real-time, dynamic, and uncertain characteristics of request arrival and application departure processes, we develop a semi-Markov decision process-based framework and propose an intelligent algorithm that can gradually learn the optimal admission policy to maximize the revenue and resource usage efficiency for the Metaverse service provider and at the same time enhance the Quality-of-Service for Metaverse users. Extensive simulation results show that our proposed approach can achieve up to 120% greater revenue for the Metaverse service providers and up to 178.9% higher acceptance probability for Metaverse application requests than those of other baselines.
翻訳日:2023-02-28 17:09:41 公開日:2023-02-27
# FedCLIP:フェデレートラーニングにおけるCLIPの迅速な一般化とパーソナライズ

FedCLIP: Fast Generalization and Personalization for CLIP in Federated Learning ( http://arxiv.org/abs/2302.13485v1 )

ライセンス: Link先を確認
Wang Lu, Xixu Hu, Jindong Wang, Xing Xie(参考訳) フェデレーション学習(fl)は,近年,プライバシ保護計算の新しいパラダイムとして登場している。 残念ながら、FLはその実際のパフォーマンスを妨げる2つの重要な課題に直面している。 特に、異なるクライアントの非IIDデータは既存のFLアルゴリズムを収束させるのを難しくし、実際のシナリオでのデプロイメントの難しさを増大させる計算コストや通信コストを含む高いリソースコストがかかる。 本稿では,フェデレート学習におけるCLIPの迅速な一般化とパーソナライズを実現するために,FedCLIPという効果的かつシンプルな手法を提案する。 具体的には,大規模モデルであるCLIPのアテンションベースのアダプタを設計し,残りの操作はアダプタにのみ依存する。 軽量アダプタは事前訓練されたモデル情報を最大限活用し、特定のタスクにおいてモデルがクライアントに適応することを保証する。 同時に、大規模モデルによる計算負担と通信負担を軽減することができる。 分布シフトを伴う3つのデータセットに対して大規模な実験を行う。 定性的かつ定量的な結果は、FedCLIPが他のベースライン(PACS全体の9%の改善)を著しく上回り、計算と通信のコスト(FedAVGより283倍速い)を効果的に削減していることを示している。 私たちのコードは、https://github.com/microsoft/PersonalizedFL.comで利用可能です。

Federated learning (FL) has emerged as a new paradigm for privacy-preserving computation in recent years. Unfortunately, FL faces two critical challenges that hinder its actual performance: data distribution heterogeneity and high resource costs brought by large foundation models. Specifically, the non-IID data in different clients make existing FL algorithms hard to converge while the high resource costs, including computational and communication costs that increase the deployment difficulty in real-world scenarios. In this paper, we propose an effective yet simple method, named FedCLIP, to achieve fast generalization and personalization for CLIP in federated learning. Concretely, we design an attention-based adapter for the large model, CLIP, and the rest operations merely depend on adapters. Lightweight adapters can make the most use of pretrained model information and ensure models be adaptive for clients in specific tasks. Simultaneously, small-scale operations can mitigate the computational burden and communication burden caused by large models. Extensive experiments are conducted on three datasets with distribution shifts. Qualitative and quantitative results demonstrate that FedCLIP significantly outperforms other baselines (9% overall improvements on PACS) and effectively reduces computational and communication costs (283x faster than FedAVG). Our code will be available at: https://github.com/microsoft/PersonalizedFL.
翻訳日:2023-02-28 17:01:20 公開日:2023-02-27
# 励起量子エミッタにおけるTunable phononic coupling

Tunable phononic coupling in excitonic quantum emitters ( http://arxiv.org/abs/2302.13484v1 )

ライセンス: Link先を確認
Adina Ripin, Ruoming Peng, Xiaowei Zhang, Srivatsa Chakravarthi, Minhao He, Xiaodong Xu, Kai-Mei Fu, Ting Cao, Mo Li(参考訳) エンジニアリング 基本的な量子励起間の結合は、量子科学と技術の中心にある。 重要なケースは、単一光子とフォノンの結合を制御し、量子情報伝達を可能にする量子光源を作ることである。 本稿では,励起子とフォノンとの波長可変結合を特徴とする量子エミッタの決定論的生成について報告する。 量子エミッタは、ホモ二層半導体wse2で生成される歪誘起量子ドットで形成される。 量子閉じ込められた層間励起子と、励起子エネルギーを直接変調するthz層間呼吸モードフォノンの共局在は、一意に強いフォノンカップリングを単一光子放出に導く。 層間励起子放出の単一光子スペクトルは、単一光子純度>83%と複数のフォノンレプリカを特徴とし、それぞれが量子エミッタにおけるフォノンフォック状態の生成を告げる。 層間励起子の垂直双極子モーメントにより、フォノン-光子相互作用は広い範囲で電気的に調整可能であり、強い結合状態に達することを約束する。 本研究は, 定常フォノンと結合した空飛ぶフォトニック量子ビットを発生させる原子界面における新しい固体量子励起-オプトメカニクス系を示し, 量子変換と相互結合に活用できることを示した。

Engineering the coupling between fundamental quantum excitations is at the heart of quantum science and technologies. A significant case is the creation of quantum light sources in which coupling between single photons and phonons can be controlled and harnessed to enable quantum information transduction. Here, we report the deterministic creation of quantum emitters featuring highly tunable coupling between excitons and phonons. The quantum emitters are formed in strain-induced quantum dots created in homobilayer semiconductor WSe2. The colocalization of quantum confined interlayer excitons and THz interlayer breathing mode phonons, which directly modulate the exciton energy, leads to a uniquely strong phonon coupling to single-photon emission. The single-photon spectrum of interlayer exciton emission features a single-photon purity >83% and multiple phonon replicas, each heralding the creation of a phonon Fock state in the quantum emitter. Owing to the vertical dipole moment of the interlayer exciton, the phonon-photon interaction is electrically tunable in a wide range, promising to reach the strong coupling regime. Our result demonstrates a new type of solid-state quantum excitonic-optomechanical system at the atomic interface that emits flying photonic qubits coupled with stationary phonons, which could be exploited for quantum transduction and interconnection.
翻訳日:2023-02-28 17:00:55 公開日:2023-02-27
# CrystalBox:DRLネットワークコントローラの将来的な説明

CrystalBox: Future-Based Explanations for DRL Network Controllers ( http://arxiv.org/abs/2302.13483v1 )

ライセンス: Link先を確認
Sagar Patel, Sangeetha Abdu Jyothi, Nina Narodytska(参考訳) 説明可能性の欠如は、高性能なDeep Reinforcement Learning(DRL)コントローラの実践的採用を制限する重要な要因である。 ネットワークヒッシャートのための説明可能なRLは、コントローラの動作を解釈するために適切な入力機能を使用した。 しかし、これらの機能ベースのソリューションは、コントローラの意思決定プロセスを完全には説明しない。 多くの場合、オペレーターは将来、機能ベースのソリューションでは捉えられないパフォーマンスに対するコントローラのアクションの影響を理解することに興味を持っている。 本稿では,主要なネットワーク性能指標に対する将来的な影響の観点から,コントローラの動作を説明するフレームワークであるCrystalBoxを提案する。 crystalboxは簡潔で表現力のある説明を生成するために、新しい学習ベースのアプローチを採用している。 オペレータにとって重要なパフォーマンス指標であるdrlネットワークコントローラの報酬コンポーネントを説明の基礎として使用しています。 CrystalBoxは一般化可能で、コントローラやDRLワークフローを変更することなく、個別および連続的な制御環境の両方で動作する。 適応ビットレートストリーミングと混雑制御を用いて,CrytalBoxの高忠実度未来ベース説明生成能力を示す。 さらに,クリスタルボックスの実用的ユースケースとして,クロスステート説明性,誘導報酬設計,ネットワーク可観測性について紹介する。

Lack of explainability is a key factor limiting the practical adoption of high-performant Deep Reinforcement Learning (DRL) controllers. Explainable RL for networking hitherto used salient input features to interpret a controller's behavior. However, these feature-based solutions do not completely explain the controller's decision-making process. Often, operators are interested in understanding the impact of a controller's actions on performance in the future, which feature-based solutions cannot capture. In this paper, we present CrystalBox, a framework that explains a controller's behavior in terms of the future impact on key network performance metrics. CrystalBox employs a novel learning-based approach to generate succinct and expressive explanations. We use reward components of the DRL network controller, which are key performance metrics meaningful to operators, as the basis for explanations. CrystalBox is generalizable and can work across both discrete and continuous control environments without any changes to the controller or the DRL workflow. Using adaptive bitrate streaming and congestion control, we demonstrate CrytalBox's ability to generate high-fidelity future-based explanations. We additionally present three practical use cases of CrystalBox: cross-state explainability, guided reward design, and network observability.
翻訳日:2023-02-28 17:00:33 公開日:2023-02-27
# モードペアリング量子鍵分布のタイト有限鍵解析

Tight finite-key analysis for mode-pairing quantum key distribution ( http://arxiv.org/abs/2302.13481v1 )

ライセンス: Link先を確認
Ze-Hao Wang, Zhen-Qiang Yin, Shuang Wang, Rong Wang, Feng-Yu Lu, Wei Chen, De-Yong He, Guang-Can Guo, and Zheng-Fu Han(参考訳) モードペアリング量子鍵分布(mp-qkd)は、検出可能な全てのサイドチャネル攻撃に免疫を持つだけでなく、大域的な位相ロックを必要とせずにリピータレスレート・トランスミタンスを切断する潜在的なプロトコルである。 本稿では,MP-QKDプロトコルに対する有限鍵効果を,汎用攻撃に対する厳密なセキュリティ証明を用いて解析する。 さらに,6状態MP-QKDプロトコルを提案し,その有限キー効果を解析する。 その結果,本プロトコルは,従来の有限個のパルス数に拘束された繰り返しなしレート・トランスミタンスを破ることができることがわかった。 そして、我々の6状態プロトコルは、長距離の場合、秘密鍵レートを大幅に改善できる。

Mode-pairing quantum key distribution (MP-QKD) is a potential protocol that is not only immune to all possible detector side channel attacks, but also breaks the repeaterless rate-transmittance bound without needing global phase locking. Here we analyze the finite-key effect for the MP-QKD protocol with rigorous security proof against general attacks. Moreover, we propose a six-state MP-QKD protocol and analyze its finite-key effect. The results show that the original protocol can break the repeaterless rate-transmittance bound with a typical finite number of pulses in practice. And our six-state protocol can improve the secret key rate significantly in long distance cases.
翻訳日:2023-02-28 17:00:15 公開日:2023-02-27
# elementwise言語表現

Elementwise Language Representation ( http://arxiv.org/abs/2302.13475v1 )

ライセンス: Link先を確認
Dunam Kim, Jeeeun Kim(参考訳) 本稿では, 材料(意味単位)を低次元要素(文字)埋め込みの水平結合に抽象化する, 要素ワイド埋め込みと呼ばれる新しい計算言語表現手法を提案する。 要素は常に文字であるが、材料は任意の意味単位のレベルであり、任意の種類のトークン化に一般化する。 重要な文字だけに焦点を当てるために、各意味単位の$n^{th}$の綴りは$n^{th}$の注意ヘッドに並べられ、元の形式に結合され、ユニークな埋め込み表現が作られる。 技術的には、この枠組みは、それぞれが$v$要素からなる一連の材料を$h=v$注意ヘッドを持つトランスフォーマーに渡すことによって達成される。 純粋な埋め込み技術として、elementwise embeddedはトランスフォーマーモデルの$w$-dimensional組み込みテーブルを$c$-dimensional要素(それぞれutf-8バイトの1つに対応する)で$c=w/v$で置き換える。 この斬新なアプローチを用いることで、標準のトランスフォーマーアーキテクチャをあらゆるレベルの言語表現に再利用し、"任意の"アーキテクチャの変更と追加のオーバーヘッドを伴わずに、より長いシーケンスを同時に処理できることを示した。 BERTは、埋め込みパラメータが0.005$%であるにもかかわらず、ドメイン固有性とデータ不均衡に優れた堅牢性を示すマルチラベル特許文書分類において、そのサブワード等価性(元の実装)を上回ります。 これらの拡張をCANINEとALBERTに変換することで,提案手法の一般化性を示す実験を行った。

We propose a new technique for computational language representation called elementwise embedding, in which a material (semantic unit) is abstracted into a horizontal concatenation of lower-dimensional element (character) embeddings. While elements are always characters, materials are arbitrary levels of semantic units so it generalizes to any type of tokenization. To focus only on the important letters, the $n^{th}$ spellings of each semantic unit are aligned in $n^{th}$ attention heads, then concatenated back into original forms creating unique embedding representations; they are jointly projected thereby determining own contextual importance. Technically, this framework is achieved by passing a sequence of materials, each consists of $v$ elements, to a transformer having $h=v$ attention heads. As a pure embedding technique, elementwise embedding replaces the $w$-dimensional embedding table of a transformer model with $256$ $c$-dimensional elements (each corresponding to one of UTF-8 bytes) where $c=w/v$. Using this novel approach, we show that the standard transformer architecture can be reused for all levels of language representations and be able to process much longer sequences at the same time-complexity without "any" architectural modification and additional overhead. BERT trained with elementwise embedding outperforms its subword equivalence (original implementation) in multilabel patent document classification exhibiting superior robustness to domain-specificity and data imbalance, despite using $0.005\%$ of embedding parameters. Experiments demonstrate the generalizability of the proposed method by successfully transferring these enhancements to differently architected transformers CANINE and ALBERT.
翻訳日:2023-02-28 17:00:04 公開日:2023-02-27
# 遅延チョイス量子消去器における非局所現実性のコヒーレンス解釈

A coherence interpretation of nonlocal realism in the delayed-choice quantum eraser ( http://arxiv.org/abs/2302.13474v1 )

ライセンス: Link先を確認
B. S. Ham(参考訳) ウィーラーが提唱した遅延選択思考実験は、過去数十年間、単一光子の波動-粒子双対性について実証されてきた。 スカリーとドルルによって提案された遅延チョイス量子消光器は、干渉計系における一対の絡み合った光子と同様に、単一の光子の因果効果関係に違反するため、集中的に研究されている。 ここで、遅延チョース量子消去器の非局所的リアリズムに対してコヒーレンス解釈を行い、独立に測定された局所光子間の強度生成の非局所的フリンジがどのように達成されるかを理解する。 その結果、非局所フロンの溶液は、偶然検出による選択的測定により、局所的な測定光子間の基底積重畳からコヒーレントに導かれる。 この基底積重ね合わせは量子消去器における量子ミステリーの起源であり、絡み合った光子間の固定された和相関係が非局所的なフリンジにとって必須の役割を果たす。

The delayed-choice thought experiment proposed by Wheeler has been demonstrated over the last several decades for the wave-particle duality of a single photon. The delayed-choice quantum eraser proposed by Scully and Druhl has also been intensively studied for the violation of the cause-effect relation of a single photon as well as a pair of entangled photons in an interferometric system. Here, a coherence interpretation is conducted for the nonlocal realism of the delayed-choice quantum eraser to understand how the nonlocal fringe of intensity products between independently measured local photons is achieved. As a result, the solution of nonlocal fringe is coherently derived from basis-product superposition between locally measured photons via coincidence detection-caused selective measurements. This basis-product superposition is the origin of the quantum mystery in the quantum eraser, where a fixed sum-phase relation between entangled photons plays an essential role for the nonlocal fringe.
翻訳日:2023-02-28 16:59:35 公開日:2023-02-27
# 解釈可能なフェデレーション学習を目指して

Towards Interpretable Federated Learning ( http://arxiv.org/abs/2302.13473v1 )

ライセンス: Link先を確認
Anran Li, Rui Liu, Ming Hu, Luu Anh Tuan, Han Yu(参考訳) フェデレーション学習(fl)は、複数のデータ所有者がプライベートなローカルデータを公開することなく、協調的に機械学習モデルを構築することを可能にする。 FLが広く普及するためには、特に金融や医療といったミッションクリティカルなアプリケーションにおいて、パフォーマンス、プライバシー保護、解釈可能性の必要性のバランスをとることが重要である。 このように、解釈可能な連邦学習(IFL)は、学界や業界からも大きな関心を集めている研究の新たな話題となっている。 その学際的な性質は、新たな研究者にとって困難である。 本稿では、IFLに関する最初の調査を(私たちの知る限り)提供することにより、このギャップを埋める。 FLモデルの予測結果の説明やモデルデバッグのサポート,個々のデータ所有者やデータサンプルによるコントリビューションに対する洞察の提供など,FLのアクティブかつ信頼性の高い参加を動機付ける上で,適切な報酬の配分に不可欠である,ユニークなIFL分類法を提案する。 我々は、代表的IFL手法、一般的に採用されている性能評価指標、多目的IFL技術構築に向けた有望な方向性を包括的に分析する。

Federated learning (FL) enables multiple data owners to build machine learning models collaboratively without exposing their private local data. In order for FL to achieve widespread adoption, it is important to balance the need for performance, privacy-preservation and interpretability, especially in mission critical applications such as finance and healthcare. Thus, interpretable federated learning (IFL) has become an emerging topic of research attracting significant interest from the academia and the industry alike. Its interdisciplinary nature can be challenging for new researchers to pick up. In this paper, we bridge this gap by providing (to the best of our knowledge) the first survey on IFL. We propose a unique IFL taxonomy which covers relevant works enabling FL models to explain the prediction results, support model debugging, and provide insights into the contributions made by individual data owners or data samples, which in turn, is crucial for allocating rewards fairly to motivate active and reliable participation in FL. We conduct comprehensive analysis of the representative IFL approaches, the commonly adopted performance evaluation metrics, and promising directions towards building versatile IFL techniques.
翻訳日:2023-02-28 16:59:20 公開日:2023-02-27
# ホモダイン測定とスクイーズによる量子同期の強化

Enhancing quantum synchronization through homodyne measurement and squeezing ( http://arxiv.org/abs/2302.13465v1 )

ライセンス: Link先を確認
Yuan Shen, Hong Yi Soh, Weijun Fan, Leong-Chuan Kwek(参考訳) 量子同期は量子非線形力学において中心的なトピックである。 この分野の急速な発展にもかかわらず、効率的に同期を促進させる方法の研究はごくわずかである。 ホモモジン測定は、この課題に成功する候補の1つとして現れるが、好ましくは半古典的状態にある。 本研究では,高調波駆動量子スチュアート・ランダウ振動子の位相同期に着目し,ホモダイン測定によるエンハンスメントが量子レジームに持続することを示す。 興味深いことに、発振器と駆動が共振し、単一光子減衰速度が小さい場合に最適な2光子減衰速度が存在する。 また、単一光子減衰速度が十分に大きい場合、ノイズによる量子同期の強化も報告する。 これらの結果とは別に、特に半古典的状態において、スキーズするハミルトニアンを加えることで、さらに同期が促進されることが分かる。 さらに、スクイージングの添加により、最適な2光子励起速度がシフトし収束する。

Quantum synchronization has been a central topic in quantum nonlinear dynamics. Despite rapid development in this field, very few have studied how to efficiently boost synchronization. Homodyne measurement emerges as one of the successful candidates for this task, but preferably in the semi-classical regime. In our work, we focus on the phase synchronization of a harmonic-driven quantum Stuart-Landau oscillator, and show that the enhancement induced by homodyne measurement persists into the quantum regime. Interestingly, optimal two-photon damping rates exist when the oscillator and driving are at resonance and with a small single-photon damping rate. We also report noise-induced enhancement in quantum synchronization when the single-photon damping rate is sufficiently large. Apart from these results, we discover that adding a squeezing Hamiltonian can further boost synchronization, especially in the semi-classical regime. Furthermore, the addition of squeezing causes the optimal two-photon pumping rates to shift and converge.
翻訳日:2023-02-28 16:59:02 公開日:2023-02-27
# MLディフェンスのランダム性は、永続的な攻撃者や障害評価者を助ける

Randomness in ML Defenses Helps Persistent Attackers and Hinders Evaluators ( http://arxiv.org/abs/2302.13464v1 )

ライセンス: Link先を確認
Keane Lucas, Matthew Jagielski, Florian Tram\`er, Lujo Bauer, Nicholas Carlini(参考訳) 堅牢なMLディフェンスの設計はますます不可欠になりつつある。 しかし、最近の研究によると、当初は最先端の攻撃に抵抗する多くの防衛は適応的な敵によって破壊される可能性がある。 この研究では、防御設計を単純化するステップを採り、ホワイトボックスの防御は可能な限りランダム性を高めるべきだと論じる。 まず、ランダム化された防御を配置することで、決定論的防衛に比べてセキュリティを低下させる、という新しい問題を考察する。 次に,防衛を決定論的に行うことは,真の堅牢な防衛の有効性を低下させることなく,ロバスト性評価を単純化することを示す。 最後に,防衛の決定論的性質を活用した新たな防衛評価フレームワークを導入し,その敵意の頑健性を評価する。

It is becoming increasingly imperative to design robust ML defenses. However, recent work has found that many defenses that initially resist state-of-the-art attacks can be broken by an adaptive adversary. In this work we take steps to simplify the design of defenses and argue that white-box defenses should eschew randomness when possible. We begin by illustrating a new issue with the deployment of randomized defenses that reduces their security compared to their deterministic counterparts. We then provide evidence that making defenses deterministic simplifies robustness evaluation, without reducing the effectiveness of a truly robust defense. Finally, we introduce a new defense evaluation framework that leverages a defense's deterministic nature to better evaluate its adversarial robustness.
翻訳日:2023-02-28 16:58:45 公開日:2023-02-27
# 多変量時系列データと欠落値(SLAC-Time)をクラスタリングするための自己教師付き学習に基づくアプローチ : 外傷性脳損傷診断への応用

A Self-Supervised Learning-based Approach to Clustering Multivariate Time-Series Data with Missing Values (SLAC-Time): An Application to Traumatic Brain Injury Phenotyping ( http://arxiv.org/abs/2302.13457v1 )

ライセンス: Link先を確認
Hamid Ghaderi, Brandon Foreman, Amin Nayebi, Sindhu Tipirneni, Chandan K. Reddy, Vignesh Subbian(参考訳) 自己教師付き学習アプローチは、多変量時系列データをクラスタリングするための有望な方向を提供する。 しかし、実世界の時系列データは、しばしば欠落した値を含み、既存のアプローチでは、クラスタリングの前に欠落した値を暗示する必要がある。 これらの課題に対処するため,各時系列データをSLAC-Timeでクラスタリングするための自己教師付き学習ベースアプローチを提案する。 SLAC-TimeはTransformerベースのクラスタリング手法で、ラベルのないデータを活用し、より堅牢な時系列表現を学ぶためのプロキシタスクとして時系列予測を使用する。 この方法はニューラルネットワークパラメータと学習した表現のクラスタ割り当てを共同で学習する。 学習した表現をK-meansメソッドで反復的にクラスタリングし、その後、クラスタ割り当てを擬似ラベルとして利用してモデルのパラメータを更新する。 提案手法を評価するため,TRACK-TBIデータセットを用いた外傷性脳損傷(TBI)患者のクラスタリングと表現に応用した。 実験により, SLAC-Timeは, シルエット係数, Calinski Harabasz 指数, Dunn 指数, Davies Bouldin 指数において, K-means クラスタリングアルゴリズムよりも優れていることが示された。 臨床的に有意な変数と臨床成績で異なる3つのTBI表現型を同定し,拡張グラスゴーアウトカム尺度(GOSE)スコア,集中治療単位(ICU)スタンス,死亡率の3つを検討した。 この実験は、SLAC-Timeによって同定されたTBI表現型が、標的となる臨床試験や治療戦略の開発に有用であることを示す。

Self-supervised learning approaches provide a promising direction for clustering multivariate time-series data. However, real-world time-series data often include missing values, and the existing approaches require imputing missing values before clustering, which may cause extensive computations and noise and result in invalid interpretations. To address these challenges, we present a Self-supervised Learning-based Approach to Clustering multivariate Time-series data with missing values (SLAC-Time). SLAC-Time is a Transformer-based clustering method that uses time-series forecasting as a proxy task for leveraging unlabeled data and learning more robust time-series representations. This method jointly learns the neural network parameters and the cluster assignments of the learned representations. It iteratively clusters the learned representations with the K-means method and then utilizes the subsequent cluster assignments as pseudo-labels to update the model parameters. To evaluate our proposed approach, we applied it to clustering and phenotyping Traumatic Brain Injury (TBI) patients in the TRACK-TBI dataset. Our experiments demonstrate that SLAC-Time outperforms the baseline K-means clustering algorithm in terms of silhouette coefficient, Calinski Harabasz index, Dunn index, and Davies Bouldin index. We identified three TBI phenotypes that are distinct from one another in terms of clinically significant variables as well as clinical outcomes, including the Extended Glasgow Outcome Scale (GOSE) score, Intensive Care Unit (ICU) length of stay, and mortality rate. The experiments show that the TBI phenotypes identified by SLAC-Time can be potentially used for developing targeted clinical trials and therapeutic strategies.
翻訳日:2023-02-28 16:58:32 公開日:2023-02-27
# 古典的情報幾何学から量子情報幾何学へ

From Classical to Quantum Information Geometry, an Introductory Guide ( http://arxiv.org/abs/2302.13515v1 )

ライセンス: Link先を確認
J. Lambert, E. S. S{\o}rensen(参考訳) 近年,量子情報の幾何学的側面が注目されている。 特に、量子フィッシャー情報は、Cram\'er-Rao境界を通した量子センシングの分野におけるその有用性で有名になった。 量子分散や共分散、密度感受性、絡み合いエントロピー、ベリー曲率といった密接に関連する概念も広く研究されている。 古典情報幾何学は1950年代後半から数学統計学のサブフィールドとして発展してきたが、凝縮物質物理学の分野においてより限定的な影響があった。 それにもかかわらず、量子力学を包含する情報幾何学の一般化は、上記のすべての概念を統一的に理解するための自然な枠組みを提供する。 古典情報幾何学とシャノン情報入門から,古典的結果の量子ケースへの一般化の難しさを議論し,量子情報幾何学への教育的ガイドを提案する。 現在の広範な文献を徹底的にレビューするのではなく、異なる概念に関する統一的な枠組みを強調し、量子センシングへの適用性、忠実性感受性による量子臨界性の検出、基底状態多様体の位相的性質の理解を議論することを目的としている。 量子フィッシャー情報と応答関数の一般関係が導出され、量子強化メトロロジーに関連する境界とともにスケーリング関係が議論される。 単純な 1 と 2 つの qubit システムに対するいくつかの例がある。

Recently, geometrical aspects of quantum information have attracted considerable attention due to their applicability in promising new quantum technologies. In particular, the quantum Fisher information has gained prominence for its utility within the field of quantum sensing through the Cram\'er-Rao bound. Closely related concepts, such as quantum variance and co-variance, fidelity susceptibility, entanglement entropy and Berry curvature have also been extensively studied. While classical information geometry has been developed as a sub-field of mathematical statistics since the late 1950s, it has had a more limited impact within the field of condensed matter physics. Despite this, the generalization of information geometry to incorporate quantum mechanics provides a natural framework for understanding all the above concepts in a unified manner. Starting from an introduction to classical information geometry and Shannon information, we discuss the difficulties in generalizing the classical results to the quantum case and present a pedagogical guide to quantum information geometry. Rather than a thorough review of the by now extensive literature, the intention is to emphasize the unifying framework relating the different concepts and to discuss their applicability to quantum sensing, as well as to the detection of quantum criticality via fidelity susceptibility, and to the understanding of topological properties of ground state manifolds. General relations between the quantum Fisher information and response functions are derived, and scaling relations are discussed, along with bounds relevant to quantum enhanced metrology. Several examples are given for simple one and two qubit systems.
翻訳日:2023-02-28 16:52:38 公開日:2023-02-27
# 製造業における連合学習の活用による協働による勝利

Winning through Collaboration by Applying Federated Learning in Manufacturing Industry ( http://arxiv.org/abs/2302.13514v1 )

ライセンス: Link先を確認
Farzana Islam, Ahmed Shoyeb Raihan, Imtiaz Ahmed(参考訳) 製造環境では、データ収集と分析は、しばしば時間がかかり、困難で、コストのかかるプロセスである。 また、優れた結果を生成するために大量のオフライントレーニングデータを必要とする高度な機械学習とデータ駆動メソッドの使用を妨げている。 大企業のリソースを共有しない小メーカーにとって、これは特に困難である。 近年,iot(internet of things, モノのインターネット)の導入により,ファクトリ全体の総合的な方法でデータをリアルタイムに収集し,高度な分析のためにクラウドに送信し,機械学習モデルを順次更新することができるようになった。 それでも小さなメーカは,iotのメリットを享受する上で,2つの障害に直面している。プライベートクラウドを運用するための十分なデータ提供や生成ができない場合と,自身の生データをパブリッククラウドと共有することをためらう場合がある。 フェデレーション学習(federated learning, fl)は,小規模産業がこれらの問題に対処し,プライバシを犠牲にすることなく相互から学ぶことを支援する,コラボレーション学習の新たな概念である。 多様な、地理的に分散した製造業者を同じ分析傘の下に集めて、勝利の状況を作り出すことができる。 しかし、複数の製造業組織におけるflの普及は依然として大きな課題である。 この作業は、これらの課題を特定し、説明し、克服するための潜在的なソリューションを提供することを目的としています。

In manufacturing settings, data collection and analysis is often a time-consuming, challenging, and costly process. It also hinders the use of advanced machine learning and data-driven methods which requires a substantial amount of offline training data to generate good results. It is particularly challenging for small manufacturers who do not share the resources of a large enterprise. Recently, with the introduction of the Internet of Things (IoT), data can be collected in an integrated manner across the factory in real-time, sent to the cloud for advanced analysis, and used to update the machine learning model sequentially. Nevertheless, small manufacturers face two obstacles in reaping the benefits of IoT: they may be unable to afford or generate enough data to operate a private cloud, and they may be hesitant to share their raw data with a public cloud. Federated learning (FL) is an emerging concept of collaborative learning that can help small-scale industries address these issues and learn from each other without sacrificing their privacy. It can bring together diverse and geographically dispersed manufacturers under the same analytics umbrella to create a win-win situation. However, the widespread adoption of FL across multiple manufacturing organizations remains a significant challenge. This work aims to identify and illustrate these challenges and provide potential solutions to overcome them.
翻訳日:2023-02-28 16:52:13 公開日:2023-02-27
# アトランタ都市圏におけるcovid-19ロックダウンによる通勤行動の変化

Changes in Commuter Behavior from COVID-19 Lockdowns in the Atlanta Metropolitan Area ( http://arxiv.org/abs/2302.13512v1 )

ライセンス: Link先を確認
Tejas Santanam, Anthony Trasatti, Hanyu Zhang, Connor Riley, Pascal Van Hentenryck, Ramayya Krishnan(参考訳) 本稿では,パンデミック・ロックダウン前後の3つの期間の通勤パターンを解析し,アトランタ都市圏におけるcovid-19関連ロックダウンの影響について検討した。 携帯電話の位置情報データセットを新しいパイプラインで利用し、密度に基づくSpatial Clustering of Applications with Noise (DBSCAN)アルゴリズムから数千人のユーザの家と職場の位置を推定する。 クラスタリングから得られた座標は、職場名と関心点(poi)マッピングに基づいて各職場の産業を分類するために、単語埋め込みを抽出した逆ジオコーディングプロセスを介して配置される。 自宅から職場への通勤頻度は3つの期間にわたって分析される。 通勤パターンの変化の潜在的理由を説明するため,公共衛生・経済要因について論じる。

This paper analyzes the impact of COVID-19 related lockdowns in the Atlanta, Georgia metropolitan area by examining commuter patterns in three periods: prior to, during, and after the pandemic lockdown. A cellular phone location dataset is utilized in a novel pipeline to infer the home and work locations of thousands of users from the Density-based Spatial Clustering of Applications with Noise (DBSCAN) algorithm. The coordinates derived from the clustering are put through a reverse geocoding process from which word embeddings are extracted in order to categorize the industry of each work place based on the workplace name and Point of Interest (POI) mapping. Frequencies of commute from home locations to work locations are analyzed in and across all three time periods. Public health and economic factors are discussed to explain potential reasons for the observed changes in commuter patterns.
翻訳日:2023-02-28 16:51:52 公開日:2023-02-27
# ランダムアンサンブルに対する補間クロスバリデーション

Extrapolated cross-validation for randomized ensembles ( http://arxiv.org/abs/2302.13511v1 )

ライセンス: Link先を確認
Jin-Hong Du, Pratik Patil, Kathryn Roeder, Arun Kumar Kuchibhotla(参考訳) バッジやランダムな森林といったアンサンブルの手法は、金融学からゲノム学まで幅広い分野に広く存在している。 しかし,アンサンブルパラメータの効率的なチューニングに関する問題は比較的注目されていない。 本稿では,ランダム化アンサンブルのアンサンブルサイズとサブアンブルサイズを調整するためのクロスバリデーション法ECV(Extrapolated Cross-Validation)を提案する。 本手法は,袋外誤差を用いた小型アンサンブルサイズのための2つの初期推定器と,予測リスク分解の構造を利用した新たなリスク外挿手法を主成分とする。 アンサンブルとサブサンプルサイズに対する均一な一貫性を確立することで、ECVは正方形の予測リスクに対して$\delta$-optimal(オラクルチューニングリスクに関する)アンサンブルを得られることを示す。 この理論は一般のアンサンブル予測器に対応し、穏やかなモーメント仮定を必要とし、サンプルサイズで特徴次元が大きくなる高次元のレジームを可能にする。 実例として,無作為な森林を用いた単細胞マルチオミクスにおける遺伝子発現から表面タンパク質量を予測するためにECVを用いた。 試料分割クロスバリデーションとK折りクロスバリデーションと比較して、ECVは試料分割を避けて高い精度を達成する。 一方,その計算コストは,リスク補間手法を用いることにより大幅に低下する。 さらに数値的な結果は、複数の共通アンサンブル予測器におけるECVの有限サンプル精度を示している。

Ensemble methods such as bagging and random forests are ubiquitous in fields ranging from finance to genomics. However, the question of the efficient tuning of ensemble parameters has received relatively little attention. In this paper, we propose a cross-validation method, ECV (Extrapolated Cross-Validation), for tuning the ensemble and subsample sizes of randomized ensembles. Our method builds on two main ingredients: two initial estimators for small ensemble sizes using out-of-bag errors and a novel risk extrapolation technique leveraging the structure of the prediction risk decomposition. By establishing uniform consistency over ensemble and subsample sizes, we show that ECV yields $\delta$-optimal (with respect to the oracle-tuned risk) ensembles for squared prediction risk. Our theory accommodates general ensemble predictors, requires mild moment assumptions, and allows for high-dimensional regimes where the feature dimension grows with the sample size. As an illustrative example, we employ ECV to predict surface protein abundances from gene expressions in single-cell multiomics using random forests. Compared to sample-split cross-validation and K-fold cross-validation, ECV achieves higher accuracy avoiding sample splitting. Meanwhile, its computational cost is considerably lower owing to the use of the risk extrapolation technique. Further numerical results demonstrate the finite-sample accuracy of ECV for several common ensemble predictors.
翻訳日:2023-02-28 16:51:39 公開日:2023-02-27
# オンライン選好からのアクティブリワード学習

Active Reward Learning from Online Preferences ( http://arxiv.org/abs/2302.13507v1 )

ライセンス: Link先を確認
Vivek Myers, Erdem B{\i}y{\i}k, Dorsa Sadigh(参考訳) ロボットポリシーは人間の好みや新しい環境に適応する必要がある。 人間の専門家は、ロボットがこの適応を達成するのを助けるために必要なドメイン知識を持っているかもしれない。 しかし、既存の作業では、人間のフィードバックをオフラインでトレーニングする必要があることが多く、そのフィードバックは頻繁に必要であり、人間が確実に提供するには複雑すぎる。 本研究では,人的専門家の負担を軽減し,重要な現実の状況に迅速に適応できるようにするため,オンライン方式でペアワイズな行動嗜好クエリを設計・提示することを提案する。 提案手法はクエリを設計し,クエリの情報から得られる期待値を最大化するタイミングを決定する。 シミュレーション,人間のユーザ研究,実際のロボット実験において,本手法を実証する。 これらの設定において,本手法は,人的専門家に少ないクエリを提示しながら,ベースライン技術よりも優れている。 実験ビデオ、コード、付録はhttps://sites.google.com/view/onlineactivepreferencesにある。

Robot policies need to adapt to human preferences and/or new environments. Human experts may have the domain knowledge required to help robots achieve this adaptation. However, existing works often require costly offline re-training on human feedback, and those feedback usually need to be frequent and too complex for the humans to reliably provide. To avoid placing undue burden on human experts and allow quick adaptation in critical real-world situations, we propose designing and sparingly presenting easy-to-answer pairwise action preference queries in an online fashion. Our approach designs queries and determines when to present them to maximize the expected value derived from the queries' information. We demonstrate our approach with experiments in simulation, human user studies, and real robot experiments. In these settings, our approach outperforms baseline techniques while presenting fewer queries to human experts. Experiment videos, code and appendices are found at https://sites.google.com/view/onlineactivepreferences.
翻訳日:2023-02-28 16:51:17 公開日:2023-02-27
# ログユーザフィードバックによるマルチアクションダイアログポリシ学習

Multi-Action Dialog Policy Learning from Logged User Feedback ( http://arxiv.org/abs/2302.13505v1 )

ライセンス: Link先を確認
Shuo Zhang, Junzhou Zhao, Pinghui Wang, Tianxiang Wang, Zi Liang, Jing Tao, Yi Huang, Junlan Feng(参考訳) マルチアクションダイアログポリシは,タスク指向のダイアログシステムにおいて,表現的かつ効率的なシステム応答を提供するために広く適用されてきた。 既存のポリシーモデルは通常、ラベル付きマルチアクションダイアログの例からアクションの組み合わせを模倣する。 データ制限のため、見当たらないダイアログフローに対してあまり一般化しない。 実ユーザとユーザシミュレータのサービスレーティングを外部監視信号として組み込むための強化学習に基づく手法が提案されているが、それらは疎度で信頼性の低いダイアログレベルの報酬に悩まされている。 本研究では,リアルタイムシナリオの収集と忠実化に費用対効果の高い過去の予測(すなわちログユーザフィードバック)に対して,明示的かつ暗黙的なターンレベルのユーザフィードバックを受信することで,マルチアクションダイアログのポリシ学習を改善することを目的とした。 ログされたユーザフィードバックは、エージェントが予測した特定の履歴ダイアログアクションに限られる部分的なラベルフィードバックのみを提供するため、タスクは難しい。 このようなフィードバック情報を完全に活用するために,フィードバック強化型半教師あり学習の観点から,半教師あり学習と包括学習のハイブリッド目的を用いたタスクに対処するBanditMatchを提案する。 BanditMatchは擬似ラベル手法を統合し、完全なラベルフィードバックを構築することでアクション空間をよりよく探索する。 大規模な実験により、BanditMatchはより簡潔で情報的な応答を生成することによって最先端の手法より優れていることが示された。 この論文のソースコードと付録はhttps://github.com/ShuoZhangXJTU/BanditMatchから取得できる。

Multi-action dialog policy, which generates multiple atomic dialog actions per turn, has been widely applied in task-oriented dialog systems to provide expressive and efficient system responses. Existing policy models usually imitate action combinations from the labeled multi-action dialog examples. Due to data limitations, they generalize poorly toward unseen dialog flows. While reinforcement learning-based methods are proposed to incorporate the service ratings from real users and user simulators as external supervision signals, they suffer from sparse and less credible dialog-level rewards. To cope with this problem, we explore to improve multi-action dialog policy learning with explicit and implicit turn-level user feedback received for historical predictions (i.e., logged user feedback) that are cost-efficient to collect and faithful to real-world scenarios. The task is challenging since the logged user feedback provides only partial label feedback limited to the particular historical dialog actions predicted by the agent. To fully exploit such feedback information, we propose BanditMatch, which addresses the task from a feedback-enhanced semi-supervised learning perspective with a hybrid objective of semi-supervised learning and bandit learning. BanditMatch integrates pseudo-labeling methods to better explore the action space through constructing full label feedback. Extensive experiments show that our BanditMatch outperforms the state-of-the-art methods by generating more concise and informative responses. The source code and the appendix of this paper can be obtained from https://github.com/ShuoZhangXJTU/BanditMatch.
翻訳日:2023-02-28 16:51:02 公開日:2023-02-27
# 教育前のストラテジズ: 教育用自己蒸留を用いた会話学習システム

Strategize Before Teaching: A Conversational Tutoring System with Pedagogy Self-Distillation ( http://arxiv.org/abs/2302.13496v1 )

ライセンス: Link先を確認
Lingzhi Wang, Mrinmaya Sachan, Xingshan Zeng, Kam-Fai Wong(参考訳) conversational tutoring systems (ctss) は、生徒が対話形式で自然言語インタラクションで教材を習得することを支援する。 CTSは教育データマイニング研究の柱となっている。 CTSにおける重要な課題は、学生が会話に参加し、それを人間の教師に似た多様な教育戦略に公開し、その過程で学習するのを助けることである。 本研究は,授業戦略を入力とする従来の手法と異なり,授業戦略を共同で予測し,それに応じて教師の反応を生成することを提案する。 本稿では,3つのダイアログ学習データセットの競合モデルをベンチマークし,学習戦略学習の指導と指導者反応生成を促進するための自己蒸留機構を取り入れた教育応答生成と教育戦略予測を組み合わせた統合フレームワークを提案する。 我々の実験と分析は、授業戦略がダイアログ学習に与える影響について光を当てた。

Conversational tutoring systems (CTSs) aim to help students master educational material with natural language interaction in the form of a dialog. CTSs have become a key pillar in educational data mining research. A key challenge in CTSs is to engage the student in the conversation while exposing them to a diverse set of teaching strategies, akin to a human teacher, thereby, helping them learn in the process. Different from previous work that generates responses given the strategies as input, we propose to jointly predict teaching strategies and generate tutor responses accordingly, which fits a more realistic application scenario. We benchmark several competitive models on three dialog tutoring datasets and propose a unified framework that combines teaching response generation and pedagogical strategy prediction, where a self-distillation mechanism is adopted to guide the teaching strategy learning and facilitate tutor response generation. Our experiments and analyses shed light on how teaching strategies affect dialog tutoring.
翻訳日:2023-02-28 16:50:34 公開日:2023-02-27
# LMSeg: 言語誘導型マルチデータセットセグメンテーション

LMSeg: Language-guided Multi-dataset Segmentation ( http://arxiv.org/abs/2302.13495v1 )

ライセンス: Link先を確認
Qiang Zhou, Yuang Liu, Chaohui Yu, Jingliang Li, Zhibin Wang, Fan Wang(参考訳) さまざまなシナリオでより多くのカテゴリを認識できる汎用的で包括的なセグメンテーションモデルを構築する上で、意味があり魅力的なトピックです。 簡単な方法は、既存の断片化されたセグメンテーションデータセットを結合し、マルチデータセットネットワークをトレーニングすることだ。 しかし、マルチデータセットのセグメンテーションには、2つの大きな問題がある: (1) 一貫性のない分類学は統一分類学を構築するために手動の和解を要求する; (2) 柔軟性のない1つのホットな共通分類学は、ラベルなしの分類の時間消費モデルの再訓練と欠陥の監督を引き起こす。 本稿では,マルチデータセットのセグメンテーションを調査し,lmsegと呼ばれるスケーラブルな言語誘導型マルチデータセットセグメンテーションフレームワークを提案し,セグメンテーションとpanopticセグメンテーションの両方をサポートする。 具体的には,既熟なテキストエンコーダを導入することで,フレキシブルなワンホットラベルではなく,カテゴリ名をテキスト埋め込み空間に統一分類法としてマッピングする。 モデルはセグメントクエリをカテゴリ埋め込みと動的に整列する。 各データセットに統一された分類を組み込む代わりに、カテゴリ誘導デコードモジュールは、各データセットの分類に予測を動的に導くように設計されている。 さらに、各データセットに特定の画像拡張パイプラインを割り当て、異なるデータセットの画像の特性に適合するデータセット対応拡張戦略を採用する。 広範な実験により,4つの意味セマンティクスと3つのパンオプティカルセグメンテーションデータセットに有意な改善が得られ,各成分の有効性を評価した。

It's a meaningful and attractive topic to build a general and inclusive segmentation model that can recognize more categories in various scenarios. A straightforward way is to combine the existing fragmented segmentation datasets and train a multi-dataset network. However, there are two major issues with multi-dataset segmentation: (1) the inconsistent taxonomy demands manual reconciliation to construct a unified taxonomy; (2) the inflexible one-hot common taxonomy causes time-consuming model retraining and defective supervision of unlabeled categories. In this paper, we investigate the multi-dataset segmentation and propose a scalable Language-guided Multi-dataset Segmentation framework, dubbed LMSeg, which supports both semantic and panoptic segmentation. Specifically, we introduce a pre-trained text encoder to map the category names to a text embedding space as a unified taxonomy, instead of using inflexible one-hot label. The model dynamically aligns the segment queries with the category embeddings. Instead of relabeling each dataset with the unified taxonomy, a category-guided decoding module is designed to dynamically guide predictions to each datasets taxonomy. Furthermore, we adopt a dataset-aware augmentation strategy that assigns each dataset a specific image augmentation pipeline, which can suit the properties of images from different datasets. Extensive experiments demonstrate that our method achieves significant improvements on four semantic and three panoptic segmentation datasets, and the ablation study evaluates the effectiveness of each component.
翻訳日:2023-02-28 16:50:18 公開日:2023-02-27
# オフライン強化学習における教師なしデータ共有の有用性

The Provable Benefits of Unsupervised Data Sharing for Offline Reinforcement Learning ( http://arxiv.org/abs/2302.13493v1 )

ライセンス: Link先を確認
Hao Hu, Yiqin Yang, Qianchuan Zhao, Chongjie Zhang(参考訳) 自己教師付きメソッドは、高価なアノテーションの必要性を減らすためにデータそのものを活用することで、ディープラーニングの進歩に不可欠になっている。 しかし、自己監督型オフライン強化学習(RL)を原則的に行う方法については、まだ不明である。 本稿では,半教師付き設定における線形マルコフ決定過程(mdps)における報酬のないデータの利用に関する理論的利点について検討する。 さらに、このような報酬のないデータをオフラインのRLに利用する新しいPDS(Provable Data Sharing Algorithm)を提案する。 PDSはラベル付きデータから学んだ報酬関数にさらなる罰則を使用し、過大評価を防止し、保守的なアルゴリズムを保証する。 各種オフラインRLタスクにおける結果から,PSDは報酬のないデータを用いたオフラインRLアルゴリズムの性能を大幅に向上することが示された。 全体として、我々の研究は、理論的保証を維持しつつ、オフラインRLにおけるラベルなしデータの利点を活用するための有望なアプローチを提供します。 我々は,より堅牢な自己教師付きRL法の開発に寄与すると信じている。

Self-supervised methods have become crucial for advancing deep learning by leveraging data itself to reduce the need for expensive annotations. However, the question of how to conduct self-supervised offline reinforcement learning (RL) in a principled way remains unclear. In this paper, we address this issue by investigating the theoretical benefits of utilizing reward-free data in linear Markov Decision Processes (MDPs) within a semi-supervised setting. Further, we propose a novel, Provable Data Sharing algorithm (PDS) to utilize such reward-free data for offline RL. PDS uses additional penalties on the reward function learned from labeled data to prevent overestimation, ensuring a conservative algorithm. Our results on various offline RL tasks demonstrate that PDS significantly improves the performance of offline RL algorithms with reward-free data. Overall, our work provides a promising approach to leveraging the benefits of unlabeled data in offline RL while maintaining theoretical guarantees. We believe our findings will contribute to developing more robust self-supervised RL methods.
翻訳日:2023-02-28 16:49:49 公開日:2023-02-27
# 実世界における空中探知に対する文脈的敵意攻撃

Contextual adversarial attack against aerial detection in the physical world ( http://arxiv.org/abs/2302.13487v1 )

ライセンス: Link先を確認
Jiawei Lian, Xiaofei Wang, Yuru Su, Mingyang Ma, Shaohui Mei(参考訳) ディープニューラルネットワーク(DNN)は空中検出に広く利用されている。 しかし、悪意ある敵の例に対するDNNの感受性と脆弱性は徐々に注目を集めている。 近年、物理的な攻撃は現実の世界でより実用的であるため、次第にホットな問題となり、セキュリティクリティカルなアプリケーションには大きな脅威をもたらしている。 本稿では,物理的世界における空中検知に対する文脈的攻撃を行うための最初の試みを行う。 本研究では,実シナリオにおける空中検出に対する革新的なコンテキスト攻撃手法を提案する。これは強力な攻撃性能を達成し,関心のある物体を隠蔽したり隠したりすることなく,様々な空中物体検出装置間で良好に移動することができる。 対象者の注意マップを観測することにより,対象のコンテキスト情報が空中検出において重要な役割を担っていることを踏まえ,対象のコンテキスト領域を十分に活用し,現実のシナリオにおける発見された攻撃のコンテキスト的摂動を巧みに行うことを提案する。 提案手法の有効性を実証するために, 広範囲に比例して実験を行い, 提案手法の有効性と物理的実用性について検討した。

Deep Neural Networks (DNNs) have been extensively utilized in aerial detection. However, DNNs' sensitivity and vulnerability to maliciously elaborated adversarial examples have progressively garnered attention. Recently, physical attacks have gradually become a hot issue due to they are more practical in the real world, which poses great threats to some security-critical applications. In this paper, we take the first attempt to perform physical attacks in contextual form against aerial detection in the physical world. We propose an innovative contextual attack method against aerial detection in real scenarios, which achieves powerful attack performance and transfers well between various aerial object detectors without smearing or blocking the interested objects to hide. Based on the findings that the targets' contextual information plays an important role in aerial detection by observing the detectors' attention maps, we propose to make full use of the contextual area of the interested targets to elaborate contextual perturbations for the uncovered attacks in real scenarios. Extensive proportionally scaled experiments are conducted to evaluate the effectiveness of the proposed contextual attack method, which demonstrates the proposed method's superiority in both attack efficacy and physical practicality.
翻訳日:2023-02-28 16:49:30 公開日:2023-02-27
# ディープオーディオ合成のための連続ディスクリプタに基づく制御

Continuous descriptor-based control for deep audio synthesis ( http://arxiv.org/abs/2302.13542v1 )

ライセンス: Link先を確認
Ninon Devis, Nils Demerl\'e, Sarah Nabi, David Genova, Philippe Esling(参考訳) 音楽生成のための深層モデルの大幅な進歩にもかかわらず、これらの技術の使用は専門家に限られている。 音楽家の間で民主化される前に、生成モデルはまず、創造的ワークフローにおける深い生成モデルの統合を条件として、生成を表現的に制御する必要がある。 本稿では,ハードウェアシンセサイザに組み込むのに十分な軽量性を維持しつつ,表現豊かで連続的なディスクリプタベースの制御を提供する,深い生成型オーディオモデルを導入することで,この問題に取り組む。 我々は,対向的混乱基準を用いて,潜在空間における有意な音楽特徴を明示的に除去し,リアルタイム生成の制御性を強制する。 ユーザが指定した機能は追加のコンディショニング情報として再導入され、シンセサイザーノブのような生成を連続的に制御することができる。 本手法は,楽器,打楽器,音声録音を含む多種多様な音声に対して,音色と属性の伝達を両立させながら評価し,新たな音声生成法を提案する。

Despite significant advances in deep models for music generation, the use of these techniques remains restricted to expert users. Before being democratized among musicians, generative models must first provide expressive control over the generation, as this conditions the integration of deep generative models in creative workflows. In this paper, we tackle this issue by introducing a deep generative audio model providing expressive and continuous descriptor-based control, while remaining lightweight enough to be embedded in a hardware synthesizer. We enforce the controllability of real-time generation by explicitly removing salient musical features in the latent space using an adversarial confusion criterion. User-specified features are then reintroduced as additional conditioning information, allowing for continuous control of the generation, akin to a synthesizer knob. We assess the performance of our method on a wide variety of sounds including instrumental, percussive and speech recordings while providing both timbre and attributes transfer, allowing new ways of generating sounds.
翻訳日:2023-02-28 16:43:47 公開日:2023-02-27
# occdepth:3次元意味シーン補完のための奥行き認識手法

OccDepth: A Depth-Aware Method for 3D Semantic Scene Completion ( http://arxiv.org/abs/2302.13540v1 )

ライセンス: Link先を確認
Ruihang Miao, Weizhou Liu, Mingrui Chen, Zheng Gong, Weixin Xu, Chen Hu, Shuchang Zhou(参考訳) 3Dセマンティックシーンコンプリート(SSC)は、自律運転やロボットシステムの分野に適用可能な、密集した幾何学的および意味的なシーン表現を提供することができる。 視覚画像のみからシーンの完全な形状と意味を推定することは困難であり、正確な深度情報は3次元幾何の復元に不可欠である。 本稿では,ステレオ画像(またはrgbd画像)からの暗黙的奥行き情報を十分に活用し,3次元幾何構造の復元を支援するoccdepthという最初のステレオssc手法を提案する。 Stereo Soft Feature Assignment (Stereo-SFA) モジュールはステレオ画像間の相関を暗黙的に学習することで3次元深度認識機能を融合させる。 特に、入力がRGBD画像の場合、元のRGB画像と深さマップを介して仮想ステレオ画像を生成することができる。 さらに,OADモジュールを用いて,事前学習深度モデルを用いた知識蒸留による幾何学的3D特徴量を求める。 また,SSCタスク上でのOccDepth法のさらなるテストのために,SemanticTartanAirという改良されたTartanAirベンチマークが提供される。 現状のRGB推論SSC法と比較すると,OccDepth法は4.82% mIoU,+2.49% mIoUはステレオ画像,+2.33% mIoUは2.33% mIoUよりも優れた性能を示す。 私たちのコードとトレーニングされたモデルは、https://github.com/megvii-research/occdepthで利用可能です。

3D Semantic Scene Completion (SSC) can provide dense geometric and semantic scene representations, which can be applied in the field of autonomous driving and robotic systems. It is challenging to estimate the complete geometry and semantics of a scene solely from visual images, and accurate depth information is crucial for restoring 3D geometry. In this paper, we propose the first stereo SSC method named OccDepth, which fully exploits implicit depth information from stereo images (or RGBD images) to help the recovery of 3D geometric structures. The Stereo Soft Feature Assignment (Stereo-SFA) module is proposed to better fuse 3D depth-aware features by implicitly learning the correlation between stereo images. In particular, when the input are RGBD image, a virtual stereo images can be generated through original RGB image and depth map. Besides, the Occupancy Aware Depth (OAD) module is used to obtain geometry-aware 3D features by knowledge distillation using pre-trained depth models. In addition, a reformed TartanAir benchmark, named SemanticTartanAir, is provided in this paper for further testing our OccDepth method on SSC task. Compared with the state-of-the-art RGB-inferred SSC method, extensive experiments on SemanticKITTI show that our OccDepth method achieves superior performance with improving +4.82% mIoU, of which +2.49% mIoU comes from stereo images and +2.33% mIoU comes from our proposed depth-aware method. Our code and trained models are available at https://github.com/megvii-research/OccDepth.
翻訳日:2023-02-28 16:43:29 公開日:2023-02-27
# インテクスト学習支援事例の発見

Finding Supporting Examples for In-Context Learning ( http://arxiv.org/abs/2302.13539v1 )

ライセンス: Link先を確認
Xiaonan Li, Xipeng Qiu(参考訳) In-context Learningは、言語モデルがいくつかの例を観察し、テスト入力の予測を直接出力する新しい学習パラダイムである。 これまでの研究では、コンテキスト内学習は提供された例に敏感であり、ランダムにサンプルされた例は著しく不安定なパフォーマンスを示している。 本稿では,コンテキスト内学習のための ``supporting examples'' を見つけることを提案する。 トレーニングデータセットが与えられた場合,タスクのコンテキスト内学習に役立ち,優れたパフォーマンスを実現するための,いくつかの例の順列をひとつ選択する必要があります。 従来の勾配に基づく学習(例えば微調整)では、データセット全体から ``coreset'' を見つける方法は数多く存在するが、勾配やパラメータの更新なしに言語モデルの推論でコンテキスト内学習が行われるため、その問題には適していない。 さらに、in-contextサンプル間の強い依存により、この問題はnp-hard combinatorial optimization problemとなり、すべての可能な置換を列挙することは不可能である。 そこで本稿では,この問題に対処するための2段階の手法を提案する。 まず, プログレッシブフィルタリング戦略を用いて, 言語モデルのフィードバックに基づいて, 有意な例を選択するための新しい指標を提案する。 そして,選択したサンプルを精錬し,反復的に評価するための多様性誘導ビーム探索法を提案する。 実験の結果,本手法は広い範囲のベースラインを上回っており,さらに解析した結果,提案手法の有効性が示され,サンプルとインコンテキスト学習の特性に光を当てることができた。

In-context learning is a new learning paradigm where a language model observes a few examples and then straightly outputs the test input's prediction. Previous works have shown that in-context learning is sensitive to the provided examples and randomly sampled examples show significantly unstable performance. In this paper, we propose to find ``supporting examples'' for in-context learning: Given the training dataset, we need to select one permutation of a few examples, which are informative for the task's in-context learning and lead to superior performance. Although in traditional gradient-based learning, e.g., fine-tuning, there are numerous methods to find a ``coreset'' from the entire dataset, they are sub-optimal and not suitable for this problem since in-context learning occurs in the language model's inference without gradients or parameter updates. Additionally, the strong dependence among in-context examples makes this problem an NP-hard combinatorial optimization problem and enumerating all possible permutations is infeasible. Hence we propose a two-stage method to tackle this challenge. First we propose a novel metric to select informative examples based on the language model's feedback, with a progressive filtering strategy. And then we propose a diversity-guided beam search method to refine and evaluate the selected examples, iteratively. The experimental results show our method significantly outperforms a wide range of baselines, and further analyses show the effectiveness of our method and shed light on the properties of supporting examples and in-context learning.
翻訳日:2023-02-28 16:42:59 公開日:2023-02-27
# 離散および可変次元配座空間における大域的最適化:最も強い原子凝集を持つ結晶の場合

Global optimization in the discrete and variable-dimension conformational space: The case of crystal with the strongest atomic cohesion ( http://arxiv.org/abs/2302.13537v1 )

ライセンス: Link先を確認
Guanjian Cheng, Xin-Gao Gong, Wan-Jian Yin(参考訳) 本稿では,原子組成,化学分析,結晶構造に関する全構成空間における対象物性を最適化する計算手法を提案する。 このアプローチは、結晶グラフニューラルネットワークの普遍ポテンシャルとベイズ最適化を組み合わせたものである。 提案手法は,すべての可能な結晶から最も強い原子凝集を持つ結晶構造を効果的に得る。 原子凝集度の高いいくつかの新しい結晶が熱力学および動的安定性に関する密度汎関数理論によって同定され、確認される。 本手法は, 実用的応用のための付加的機能を有する逆材料設計の新しい手法を提案する。

We introduce a computational method to optimize target physical properties in the full configuration space regarding atomic composition, chemical stoichiometry, and crystal structure. The approach combines the universal potential of the crystal graph neural network and Bayesian optimization. The proposed approach effectively obtains the crystal structure with the strongest atomic cohesion from all possible crystals. Several new crystals with high atomic cohesion are identified and confirmed by density functional theory for thermodynamic and dynamic stability. Our method introduces a novel approach to inverse materials design with additional functional properties for practical applications.
翻訳日:2023-02-28 16:42:33 公開日:2023-02-27
# 自然勾配ハイブリッド変分推論と深層混合モデルへの応用

Natural Gradient Hybrid Variational Inference with Application to Deep Mixed Models ( http://arxiv.org/abs/2302.13536v1 )

ライセンス: Link先を確認
Weiben Zhang, Michael Stanley Smith, Worapree Maneesoonthorn and Ruben Loaiza-Maya(参考訳) グローバルパラメータ $\bm{\theta}$ と潜在変数 $\bm{z}$ を持つ確率モデルは一般的であり、変分推論 (vi) はそれらの推定に人気がある。 本稿では, 変数近似 (va) を用いて, $\bm{\theta}$ の限界と$\bm{z}|\bm{\theta}$ の条件付き後方に対する因子共分散行列を持つガウス型 (gaussian with factor covariance matrix) からなる。 VAを学習するための確率的最適化は条件付き後から$\bm{z}$を生成するだけでよいが、$\bm{\theta}$は自然勾配を用いて更新され、ハイブリッドVI法が生成される。 これは$(\bm{z},\bm{\theta})$ の結合後部に対するよく定義された自然な勾配最適化アルゴリズムであることを示す。 安定な自然勾配更新を計算するために必要なチホノフ減衰フィッシャー情報行列の式を高速に計算する。 この手法を用いて確率ベイズニューラルネットワークをランダムな出力層係数で推定し、不均一性を実現する。 シミュレーションの結果, 通常の勾配法よりも自然勾配法の方が効率的であり, 2つの主要な指標である自然勾配法vi法よりも高速かつ精度が高いことがわかった。 金融アプリケーションでは、深層モデルを用いた産業レベルの不均質性会計により、資産価格モデルの確率的予測精度が向上することを示す。

Stochastic models with global parameters $\bm{\theta}$ and latent variables $\bm{z}$ are common, and variational inference (VI) is popular for their estimation. This paper uses a variational approximation (VA) that comprises a Gaussian with factor covariance matrix for the marginal of $\bm{\theta}$, and the exact conditional posterior of $\bm{z}|\bm{\theta}$. Stochastic optimization for learning the VA only requires generation of $\bm{z}$ from its conditional posterior, while $\bm{\theta}$ is updated using the natural gradient, producing a hybrid VI method. We show that this is a well-defined natural gradient optimization algorithm for the joint posterior of $(\bm{z},\bm{\theta})$. Fast to compute expressions for the Tikhonov damped Fisher information matrix required to compute a stable natural gradient update are derived. We use the approach to estimate probabilistic Bayesian neural networks with random output layer coefficients to allow for heterogeneity. Simulations show that using the natural gradient is more efficient than using the ordinary gradient, and that the approach is faster and more accurate than two leading benchmark natural gradient VI methods. In a financial application we show that accounting for industry level heterogeneity using the deep model improves the accuracy of probabilistic prediction of asset pricing models.
翻訳日:2023-02-28 16:42:25 公開日:2023-02-27
# マルチアーマッドバンドのためのベスト・オブ・ボス・ワールド・保証の改善:汎用正規化器と複数の最適アームを備えたFTRL

Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regularizers and Multiple Optimal Arms ( http://arxiv.org/abs/2302.13534v1 )

ライセンス: Link先を確認
Tiancheng Jin, Junyan Liu, Haipeng Luo(参考訳) 本研究では,確率的設定と敵対的設定の両方において最適に動作する適応型マルチアームバンディットアルゴリズムを設計する問題(しばしば両世界最高の保証として知られる)について検討する。 最近の研究の行は、構成と解析を適切に行うと、FTRL(Follow-the-Regularized-Leader)アルゴリズムが元来、対数的設定のために設計され、実際に確率的設定にも最適に適応できることを示している。 しかし、そのような結果は一つの一意的な最適腕が存在するという仮定に批判的である。 最近、伊藤 (2021) は、$\frac{1}{2}$-Tsallis entropy regularizer を用いて、ある特定の FTRL アルゴリズムに対してそのような望ましくない一意性仮定を除去する第一歩を踏み出した。 本研究では,幅広い正規化器群と新しい学習率スケジュールを持つftrlでは,一意性が不要であることを示すため,この結果を大幅に改善し,一般化する。 一部の正則化器では、一意性が保たれたとしても、我々の後悔の限界は以前の結果にも改善される。 我々はさらに,この手法が広く適用可能であることを実証し,非結合な探索・搾取問題に適用する。

We study the problem of designing adaptive multi-armed bandit algorithms that perform optimally in both the stochastic setting and the adversarial setting simultaneously (often known as a best-of-both-world guarantee). A line of recent works shows that when configured and analyzed properly, the Follow-the-Regularized-Leader (FTRL) algorithm, originally designed for the adversarial setting, can in fact optimally adapt to the stochastic setting as well. Such results, however, critically rely on an assumption that there exists one unique optimal arm. Recently, Ito (2021) took the first step to remove such an undesirable uniqueness assumption for one particular FTRL algorithm with the $\frac{1}{2}$-Tsallis entropy regularizer. In this work, we significantly improve and generalize this result, showing that uniqueness is unnecessary for FTRL with a broad family of regularizers and a new learning rate schedule. For some regularizers, our regret bounds also improve upon prior results even when uniqueness holds. We further provide an application of our results to the decoupled exploration and exploitation problem, demonstrating that our techniques are broadly applicable.
翻訳日:2023-02-28 16:41:59 公開日:2023-02-27
# 量子相関による古典的雑音のない量子信号の検出

Detection of quantum signals free of classical noise via quantum correlation ( http://arxiv.org/abs/2302.13530v1 )

ライセンス: Link先を確認
Yang Shen, Ping Wang, Chun Tung Cheung, Joerg Wachtrup, Ren-Bao Liu, Sen Yang(参考訳) 有用な信号を抽出することは、古典的および量子的技術の両方にとって鍵となる。 従来のノイズフィルタリング法は周波数や時間領域の異なる信号パターンとノイズに依存しており、特に量子センシングにおいて適用範囲を制限する。 本稿では,本システム固有の量子特性を用いて,従来の雑音背景から量子信号を抽出する信号構造に基づく(信号パターンに基づく)アプローチを提案する。 我々は、量子相関信号を抽出し、従来のフィルタ法では達成できない、圧倒的な古典的雑音背景からリモート核スピンの信号を取り出すための新しいプロトコルを設計した。 我々の研究は、量子センシングにおける新しい自由度として量子/古典的性質を示す。 この量子自然に基づく手法のさらなる一般化は、量子研究の新しい方向性を開く。

Extracting useful signals is key to both classical and quantum technologies. Conventional noise filtering methods rely on different patterns of signal and noise in frequency or time domains, thus limiting their scope of application, especially in quantum sensing. Here, we propose a signal-nature-based (not signal-pattern-based) approach which singles out a quantum signal from its classical noise background by employing the intrinsic quantum nature of the system. We design a novel protocol to extract the Quantum Correlation signal and use it to single out the signal of a remote nuclear spin from its overwhelming classical noise backgrounds, which is impossible to be accomplished by conventional filter methods. Our work demonstrates the quantum/classical nature as a new degree of freedom in quantum sensing. The further generalization of this quantum nature-based method opens a new direction in quantum research.
翻訳日:2023-02-28 16:41:34 公開日:2023-02-27
# igb: ディープラーニング研究のための公開グラフデータセットのラベル付け,特徴,多様性,サイズの違いに対処する

IGB: Addressing The Gaps In Labeling, Features, Heterogeneity, and Size of Public Graph Datasets for Deep Learning Research ( http://arxiv.org/abs/2302.13522v1 )

ライセンス: Link先を確認
Arpandeep Khatua and Vikram Sharma Mailthody and Bhagyashree Taleka and Tengfei Ma and Xiang Song and Wen-mei Hwu(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな現実的かつ挑戦的なアプリケーションに対して高い可能性を示しているが、GNN研究の大きな障害のひとつは、大規模なフレキシブルデータセットの欠如である。 GNNの既存の公開データセットは比較的小さく、GNNが見えないデータに一般化する能力を制限する。 数少ない大規模グラフデータセットは非常に限られたラベル付きデータを提供する。 これにより、未確認データに対するGNNモデルの低い精度が本質的に不十分なトレーニングデータによるものなのか、あるいはモデルを一般化できなかったのかを判断することが困難になる。 さらに、GNNのトレーニングに使用されるデータセットは、GNNモデルをトレーニングしている間に、さまざまな要因の影響を徹底的に調査するための柔軟性を提供する必要がある。 In this work, we introduced the Illinois Graph Benchmark (IGB)は、開発者が高い忠実度でGNNモデルをトレーニング、精査、体系的に評価するために使用できる研究データセットツールである。 IGBには、大きなサイズの等質グラフと異質グラフの両方が含まれており、その40%以上がラベル付けされている。 IGBは、一般公開されている最大のグラフデータセットと比較して、ディープラーニングの実践者や開発者がより高い精度でモデルを作成し評価するためのラベル付きデータ162倍以上を提供する。 IGBデータセットはフレキシブルに設計されており、様々なGNNアーキテクチャの研究、埋め込み生成技術、システムパフォーマンス問題の解析を可能にする。 IGBはオープンソースで、DGLとPyGフレームワークをサポートしています。 IGBの初期公開版はhttps://github.com/IllinoisGraphBenchmark/IGB-Datasetsで入手できる。

Graph neural networks (GNNs) have shown high potential for a variety of real-world, challenging applications, but one of the major obstacles in GNN research is the lack of large-scale flexible datasets. Most existing public datasets for GNNs are relatively small, which limits the ability of GNNs to generalize to unseen data. The few existing large-scale graph datasets provide very limited labeled data. This makes it difficult to determine if the GNN model's low accuracy for unseen data is inherently due to insufficient training data or if the model failed to generalize. Additionally, datasets used to train GNNs need to offer flexibility to enable a thorough study of the impact of various factors while training GNN models. In this work, we introduce the Illinois Graph Benchmark (IGB), a research dataset tool that the developers can use to train, scrutinize and systematically evaluate GNN models with high fidelity. IGB includes both homogeneous and heterogeneous graphs of enormous sizes, with more than 40% of their nodes labeled. Compared to the largest graph datasets publicly available, the IGB provides over 162X more labeled data for deep learning practitioners and developers to create and evaluate models with higher accuracy. The IGB dataset is designed to be flexible, enabling the study of various GNN architectures, embedding generation techniques, and analyzing system performance issues. IGB is open-sourced, supports DGL and PyG frameworks, and comes with releases of the raw text that we believe foster emerging language models and GNN research projects. An early public version of IGB is available at https://github.com/IllinoisGraphBenchmark/IGB-Datasets.
翻訳日:2023-02-28 16:41:21 公開日:2023-02-27
# CBA:物理世界における光学的空中検出に対する背景背景攻撃

CBA: Contextual Background Attack against Optical Aerial Detection in the Physical World ( http://arxiv.org/abs/2302.13519v1 )

ライセンス: Link先を確認
Jiawei Lian, Xiaofei Wang, Yuru Su, Mingyang Ma, Shaohui Mei(参考訳) パッチベースの物理的攻撃はますます懸念を喚起している。 しかし、既存の手法のほとんどは地上で捕獲された目標を無視することに焦点を当てており、これらの方法のいくつかは単に空中探知機を欺くために拡張されている。 物理的に標的となる物体を精巧な対向パッチで削り、これは空中検出器の予測をわずかに妨げ、攻撃の伝達性が弱いだけである。 以上の課題に対処するため,本研究では,空中検出に対する新たな物理的攻撃フレームワークであるコンテキスト背景攻撃(CBA)を提案する。 特に、関心の対象、すなわち航空画像における航空機は、敵のパッチをマスキングするために採用されている。 マスク領域の外の画素は、生成した対向パッチが検出の重要背景領域を密にカバーするように最適化されており、これは現実世界においてより堅牢で移動可能な攻撃力を持つ対向パッチの贈与に寄与する。 攻撃性能をさらに強化するため、敵パッチはトレーニング中に外部目標とされ、検出された対象物(オン・アンド・アウト・パッチ)は攻撃効果の蓄積に寄与する。 これにより、高度に設計されたパッチは、対向パッチの上と外の両方のオブジェクトに対して、しっかりとした騙し効果を同時に付与される。 大規模にスケールされた実験は、物理的なシナリオにおいて行われ、提案した物理攻撃フレームワークの優位性と可能性を示す。 提案手法は,多様な航空検出器と防衛手法の対角的ロバスト性を評価するための指標として期待できる。

Patch-based physical attacks have increasingly aroused concerns. However, most existing methods focus on obscuring targets captured on the ground, and some of these methods are simply extended to deceive aerial detectors. They smear the targeted objects in the physical world with the elaborated adversarial patches, which can only slightly sway the aerial detectors' prediction and with weak attack transferability. To address the above issues, we propose to perform Contextual Background Attack (CBA), a novel physical attack framework against aerial detection, which can achieve strong attack efficacy and transferability in the physical world even without smudging the interested objects at all. Specifically, the targets of interest, i.e. the aircraft in aerial images, are adopted to mask adversarial patches. The pixels outside the mask area are optimized to make the generated adversarial patches closely cover the critical contextual background area for detection, which contributes to gifting adversarial patches with more robust and transferable attack potency in the real world. To further strengthen the attack performance, the adversarial patches are forced to be outside targets during training, by which the detected objects of interest, both on and outside patches, benefit the accumulation of attack efficacy. Consequently, the sophisticatedly designed patches are gifted with solid fooling efficacy against objects both on and outside the adversarial patches simultaneously. Extensive proportionally scaled experiments are performed in physical scenarios, demonstrating the superiority and potential of the proposed framework for physical attacks. We expect that the proposed physical attack method will serve as a benchmark for assessing the adversarial robustness of diverse aerial detectors and defense methods.
翻訳日:2023-02-28 16:40:54 公開日:2023-02-27
# 量子ステアリングによる量子コンピュータの状態形成

State Preparation on Quantum Computers via Quantum Steering ( http://arxiv.org/abs/2302.13518v1 )

ライセンス: Link先を確認
Daniel Volya and Prabhat Mishra(参考訳) 量子コンピュータを実現するための主要な構成要素の1つは、コンピュータを既知の状態(状態準備)に初期化する能力である。 パッシブとアクティブリセットに基づく有望な状態初期化アプローチがあるが、大きな量子システムでは受け入れられないオーバーヘッドを導入するか、任意の量子状態を作成することができない。 ディジタル量子コンピュータ上での計測誘起ステアリングによる状態形成法を示す。 任意量子状態は、絡み合った状態の一部を測定することで引き起こされるバックアクションを利用する量子回路を適用することで作られる。 ancilla qubitsとsystem qubitsを委譲することにより、(1)指定されたsystem-ancilla entangling回路の実行、(2)ancilla qubitsの測定、(3)ancilla qubitsをアクティブリセットにより既知の状態に再初期化する、というステップを繰り返し実行する初期状態を作成する。 アンシラ量子ビットは既知の状態に測定および再初期化されるが、システム量子ビットは任意の初期状態から望ましい最終状態へとステアリングされる。 量子コンピュータ上で任意の量子ビット状態と任意の量子ビット状態(3レベル)を準備することにより,この手法の結果を示す。 また,ancilla qubitsの読み出しを利用してプロトコルをアクティブにガイドすることにより,状態収束を促進できることを示す。

One of the major components for realizing quantum computers is the ability to initialize the computer to a known fiducial state, also known as state preparation. While there are promising state initialization approaches based on passive as well as active reset, they either introduce unacceptable overhead for large quantum systems or are unable to prepare an arbitrary quantum state. We demonstrate a state preparation method via measurement-induced steering on digital quantum computers. Arbitrary quantum states are prepared by applying quantum circuits that exploit the back-action caused by measuring part of an entangled state. By delegating ancilla qubits and systems qubits, the initial states are prepared by repeatedly performing the following steps: (1) executing a designated system-ancilla entangling circuit, (2) measuring the ancilla qubits, and (3) re-initializing ancilla qubits to known states through active reset. While the ancilla qubits are measured and reinitialized to known states, the system qubits are steered from arbitrary initial states to desired final states. We show results of the method by preparing arbitrary qubit states and arbitrary qutrit (three-level) states on contemporary, cloud-accessible, quantum computers. We also demonstrate that the state convergence can be accelerated by utilizing the readouts of the ancilla qubits to guide the protocol in an active manner.
翻訳日:2023-02-28 16:40:26 公開日:2023-02-27
# モバイルアプリケーションにおけるAIベースのシステムに対する監査要求に向けて

Towards Audit Requirements for AI-based Systems in Mobility Applications ( http://arxiv.org/abs/2302.13567v1 )

ライセンス: Link先を確認
Devi Padmavathi Alagarswamy, Christian Berghoff, Vasilios Danos, Fabian Langer, Thora Markert, Georg Schneider, Arndt von Twickel, Fabian Woitschek(参考訳) 高度な運転支援システムのような様々なモビリティアプリケーションは、人工知能(AI)ベースの機能をますます活用している。 通常、ディープニューラルネットワーク(DNN)は、実際の運転環境で発生する困難な知覚、予測、計画タスクの最高のパフォーマンスを提供するものとして使用される。 しかし、現在のUNECE R 155やISO 26262のような規制はAI関連の側面を考慮せず、従来のアルゴリズムベースのシステムにのみ適用される。 AI固有の標準や規範が存在しないことは、実践的な適用を妨げ、ユーザの信頼レベルを傷つける可能性がある。 したがって、AI固有の課題や要件を検討するために、セキュリティと安全性の既存の標準化を拡張することが重要です。 適切な規制に向けて、既存の規制を拡張し、DNNベースのシステムの具体的なニーズに対処する50の技術的要件またはベストプラクティスを提案する。 本稿では,提案要件の3つを用いて,DNNに基づく交通標識認識システムの例証監査を行うことにより,提案要件の適用性,有用性,有意義性を示す。

Various mobility applications like advanced driver assistance systems increasingly utilize artificial intelligence (AI) based functionalities. Typically, deep neural networks (DNNs) are used as these provide the best performance on the challenging perception, prediction or planning tasks that occur in real driving environments. However, current regulations like UNECE R 155 or ISO 26262 do not consider AI-related aspects and are only applied to traditional algorithm-based systems. The non-existence of AI-specific standards or norms prevents the practical application and can harm the trust level of users. Hence, it is important to extend existing standardization for security and safety to consider AI-specific challenges and requirements. To take a step towards a suitable regulation we propose 50 technical requirements or best practices that extend existing regulations and address the concrete needs for DNN-based systems. We show the applicability, usefulness and meaningfulness of the proposed requirements by performing an exemplary audit of a DNN-based traffic sign recognition system using three of the proposed requirements.
翻訳日:2023-02-28 16:34:38 公開日:2023-02-27
# 埋め込みSimplicial Complexの不変表現

Invariant Representations of Embedded Simplicial Complexes ( http://arxiv.org/abs/2302.13565v1 )

ライセンス: Link先を確認
Taejin Paik(参考訳) 三角形メッシュやグラフのような埋め込み単純複体の解析は、多くの分野において重要な問題である。 本稿では, 位相的および幾何学的情報のみを用いて, 部分分割不変, 等長不変な組込み解析を行う新しい手法を提案する。 提案手法は,十分な統計データを作成し解析し,グラフニューラルネットワークを用いる。 合成メッシュデータセットを用いて,本手法の有効性を示す。

Analyzing embedded simplicial complexes, such as triangular meshes and graphs, is an important problem in many fields. We propose a new approach for analyzing embedded simplicial complexes in a subdivision-invariant and isometry-invariant way using only topological and geometric information. Our approach is based on creating and analyzing sufficient statistics and uses a graph neural network. We demonstrate the effectiveness of our approach using a synthetic mesh data set.
翻訳日:2023-02-28 16:34:22 公開日:2023-02-27
# 局所差分密度を用いた深部不均衡時系列予測

Deep Imbalanced Time-series Forecasting via Local Discrepancy Density ( http://arxiv.org/abs/2302.13563v1 )

ライセンス: Link先を確認
Junwoo Park, Jungsoo Lee, Youngin Cho, Woncheol Shin, Dongmin Kim, Jaegul Choo, Edward Choi(参考訳) 時系列予測モデルは、通常予期せぬ出来事や未知の出来事によって起こる特定の時間内に突然の変化に遭遇することが多い。 トレーニングセットで発生頻度が低かったにもかかわらず、突然の損失の増加は全体の損失に大きく寄与する。 そのため、ノイズの多いトレーニングサンプルとして動作し、モデルが一般化可能なパターン、すなわち通常の状態を学ぶのを防ぐ。 本研究は, 急激な変化による損失の軽減と, 正常な状態による過度化を両立させる再重み付けフレームワークを提案する。 再重み付けフレームワークでは,まず,所定時間における変化の急激度を測定する局所離散度(LD)と呼ばれる測定値を定義する。 トレーニングセットは主に通常の状態で構成されているため、LDに基づいてトレーニングセットに時間的変化が出現する頻度を考慮する。 我々の再重み付けフレームワークは、アーキテクチャに関係なく、既存の時系列予測モデルに適用できる。 様々なインアウトプットシーケンス長を持つ8つのデータセット上での12の時系列予測モデルに関する広範な実験を通じて、我々の再重み付けフレームワークの適用は、平均で10.1%、最先端モデルでは18.6%削減することを示した。

Time-series forecasting models often encounter abrupt changes in a given period of time which generally occur due to unexpected or unknown events. Despite their scarce occurrences in the training set, abrupt changes incur loss that significantly contributes to the total loss. Therefore, they act as noisy training samples and prevent the model from learning generalizable patterns, namely the normal states. Based on our findings, we propose a reweighting framework that down-weights the losses incurred by abrupt changes and up-weights those by normal states. For the reweighting framework, we first define a measurement termed Local Discrepancy (LD) which measures the degree of abruptness of a change in a given period of time. Since a training set is mostly composed of normal states, we then consider how frequently the temporal changes appear in the training set based on LD. Our reweighting framework is applicable to existing time-series forecasting models regardless of the architectures. Through extensive experiments on 12 time-series forecasting models over eight datasets with various in-output sequence lengths, we demonstrate that applying our reweighting framework reduces MSE by 10.1% on average and by up to 18.6% in the state-of-the-art model.
翻訳日:2023-02-28 16:34:16 公開日:2023-02-27
# 高速収束のための単一ステップ合成特徴圧縮器を用いたコミュニケーション効率のよいフェデレーション学習

Communication-efficient Federated Learning with Single-Step Synthetic Features Compressor for Faster Convergence ( http://arxiv.org/abs/2302.13562v1 )

ライセンス: Link先を確認
Yuhao Zhou, Mingjia Shi, Qing Ye, Yanan Sun, Jiancheng Lv(参考訳) 連合学習(fl)における通信オーバーヘッドの削減は難しいが、大規模分散プライバシ保存機械学習では不可欠である。 スパシフィケーションなどの手法は通信オーバーヘッドを大幅に減らすことができるが、収束率も著しく損なわれる。 本稿では, 単段合成特徴圧縮機(3SFC)という新しい手法を提案し, 生勾配に基づいて, 小さな合成データセットを直接構築することにより, 通信効率の高いFLを実現する。 したがって、3SFCは、構築されたデータセットが1つのデータサンプルのみを含む場合、非常に低い圧縮率を達成することができる。 さらに、3sfcの圧縮相は相似性に基づく目的関数を利用して1ステップで最適化できるため、性能とロバスト性が大幅に向上する。 さらに,圧縮誤差を最小限に抑えるため,誤差フィードバック(EF)も3SFCに組み込まれている。 複数のデータセットとモデルの実験から、3SFCは圧縮率の低い競合する手法(最大0.02%)に比べてはるかに優れた収束率を持っていることが示唆された。 さらに、アブレーション研究と可視化により、3sfcはコミュニケーションラウンド毎に競合する方法よりも多くの情報を運ぶことができ、その効果をさらに検証できることを示した。

Reducing communication overhead in federated learning (FL) is challenging but crucial for large-scale distributed privacy-preserving machine learning. While methods utilizing sparsification or others can largely lower the communication overhead, the convergence rate is also greatly compromised. In this paper, we propose a novel method, named single-step synthetic features compressor (3SFC), to achieve communication-efficient FL by directly constructing a tiny synthetic dataset based on raw gradients. Thus, 3SFC can achieve an extremely low compression rate when the constructed dataset contains only one data sample. Moreover, 3SFC's compressing phase utilizes a similarity-based objective function so that it can be optimized with just one step, thereby considerably improving its performance and robustness. In addition, to minimize the compressing error, error feedback (EF) is also incorporated into 3SFC. Experiments on multiple datasets and models suggest that 3SFC owns significantly better convergence rates compared to competing methods with lower compression rates (up to 0.02%). Furthermore, ablation studies and visualizations show that 3SFC can carry more information than competing methods for every communication round, further validating its effectiveness.
翻訳日:2023-02-28 16:33:57 公開日:2023-02-27
# 完全可解な非エルミート相互作用キタエフ鎖の位相相図

Topological phase diagrams of exactly solvable non-Hermitian interacting Kitaev chains ( http://arxiv.org/abs/2302.13561v1 )

ライセンス: Link先を確認
Sharareh Sayyad and Jose L. Lado(参考訳) 多体相互作用はエルミート物理学においてエキゾチック相の出現を引き起こす。 その重要性にもかかわらず、多体相互作用を扱う複雑さのため、多体効果は非エルミート物理学において未解決の問題のままである。 本稿では,非エルミート的相互作用を持つキタエフ鎖に対する完全かつ数値的な位相図の族について述べる。 特に,複素数値ハバード相互作用を持つ二量化キタエフ・ハバード鎖の正確な位相境界を確立する。 その結果、エルミート相のいくつかは非エルミート性が強化されると消滅することが明らかとなった。 解析的な結果から,解決可能な体制を超えて,非エルミート的トポロジカル縮退が残る体制を明らかにする。 正確な位相図と数値図の組み合わせは、非エルミート相互作用モデルの族を広範囲に記述する。 この結果は、現実的に相互作用する量子多体系における非エルミート位相を特徴づけるためのステップストーンを提供する。

Many-body interactions give rise to the appearance of exotic phases in Hermitian physics. Despite their importance, many-body effects remain an open problem in non-Hermitian physics due to the complexity of treating many-body interactions. Here, we present a family of exact and numerical phase diagrams for non-Hermitian interacting Kitaev chains. In particular, we establish the exact phase boundaries for the dimerized Kitaev-Hubbard chain with complex-valued Hubbard interactions. Our results reveal that some of the Hermitian phases disappear as non-Hermiticty is enhanced. Based on our analytical findings, we explore the regime of the model that goes beyond the solvable regime, revealing regimes where non-Hermitian topological degeneracy remains. The combination of our exact and numerical phase diagrams provides an extensive description of a family of non-Hermitian interacting models. Our results provide a stepping stone toward characterizing non-Hermitian topology in realistic interacting quantum many-body systems.
翻訳日:2023-02-28 16:33:37 公開日:2023-02-27
# 1次元カイラル異常とその障害応答

The One-dimensional Chiral Anomaly and its Disorder Response ( http://arxiv.org/abs/2302.13556v1 )

ライセンス: Link先を確認
Zheng Qin, Dong-Hui Xu, Zhen Ning and Rui Wang(参考訳) 凝縮物質物理学におけるカイラル異常の実現は、量子場理論の予期せぬ現象の探求に多大な関心を寄せている。 近年のキラル異常の研究は3次元に制限されている。 ここでは,1次元(1次元)のカイラル異常が,1つの隙間のないディラックコーンが生じるパラダイム一般化Su-Schrieffer-Heeger(SSH)モデルで実現可能であることを示す。 このような1次元キラル異常は位相トウレスポンプの半整数量子化とキラル変位の異常なダイナミクスをもたらすことが判明した。 さらに,1次元キラル異常の発達と,2種類の典型的障害,すなわちオンサイト障害とボンド障害について検討した。 その結果,オンサイト障害はギャップのないディラックコーンを塗る傾向がみられた。 しかし, 半整数量子化を安定化し, 実験的な検出を容易にするための戦略を提案する。 さらに, 結合障害は, トポロジカルチャージポンプと交差し, システムをトポロジカルアンダーソン絶縁相に誘導することを示した。

The realization of chiral anomaly in condensed matter physics has attracted tremendous interest in exploring unexpected phenomena of quantum field theory. Recent studies of chiral anomaly have been limited to three spatial dimensions. Here, we show that one-dimensional (1D) chiral anomaly can be realized in a paradigmatic generalized Su-Schrieffer-Heeger (SSH) model where a single gapless Dirac cone occurs. We reveal that such 1D chiral anomaly leads to the half-integer quantization of topological Thouless pump and the anomalous dynamics of chiral displacement. Moreover, we investigate the evolution of 1D chiral anomaly with respect to two typical types of disorder, i.e., on-site disorder and bond disorder. The results show that the on-site disorder tends to smear the gapless Dirac cone. However, we propose a strategy to stabilize the half-integer quantization, facilitating its experimental detection. Furthermore, we demonstrate that the bond disorder causes a crossover with disorder-enhanced topological charge pumping, driving the system into a topological Anderson insulator phase.
翻訳日:2023-02-28 16:33:24 公開日:2023-02-27
# 中間量子コンピュータにおけるユニタリの線形結合の実装

Implementing Linear Combination of Unitaries on Intermediate-term Quantum Computers ( http://arxiv.org/abs/2302.13555v1 )

ライセンス: Link先を確認
Shantanav Chakraborty(参考訳) 長年にわたり、LCU(Linear combination of Unitary)のフレームワークは、多くの量子アルゴリズムを設計するのに非常に有用であった。 本研究では,現在の NISQ 段階の直後に利用可能となる量子コンピュータ上で,このパラダイムを広く適用できるかどうかを考察する。 この目的のために、LCUの3つの変種を開発し、それぞれを実用性のある量子アルゴリズムに適用する。 まず, lcu (`analog lcu'') の身体的動機づけのある連続時間類似語を開発する。 ハイブリッド量子モードシステムで実装可能なこの技術は、離散時間よりも単純である。 この手法を用いて,基底状態生成と量子線形系のためのアナログ量子アルゴリズムを開発した。 また,量子状態に適用するハミルトニアンの関数(`single-ancilla lcu'')からサンプルを得るためのランダム化量子アルゴリズムを開発した。 このアプローチでは、短い深さの量子回路から繰り返しサンプルし、1つのアンシラキュービットのみを使用する。 これを用いて、ハミルトニアンの基底状態や量子線型系の解における可観測物の期待値を推定する。 この方法は初期のフォールトトレラント量子コンピュータに適している。 第3のアプローチは,いくつかの応用において,lcu係数の分布('ancilla-free lcu'')に応じて,lcuをユニタリのランダムサンプリングに置き換えることが十分である,という観測から来ている。 これは、ある部分空間におけるLCUプロシージャによって実装された量子状態の射影に興味がある場合に特に有用である。 この手法が空間探索問題に適用できることを実証し, 離散時間と連続時間量子ウォークと, 古典的量子ウォークの関係の確立に寄与することを示す。 本研究は、lcuなどの汎用量子アルゴリズムパラダイムが、中間項量子デバイス上で実装可能であることを実証する。

Over the years, the framework of Linear combination of unitaries (LCU) has been extremely useful for designing a plethora of quantum algorithms. In this work, we explore whether this widely applicable paradigm can be implemented on quantum computers that will be available immediately after the current NISQ stage. To this end, we develop three variants of LCU and apply each, to quantum algorithms of practical interest. First, we develop a physically motivated, continuous-time analogue of LCU (``Analog LCU''). This technique, implementable on hybrid qubit-qumode systems, is simpler than its discrete-time counterpart. We use this method to develop analog quantum algorithms for ground state preparation and quantum linear systems. We also develop a randomized quantum algorithm to sample from functions of Hamiltonians applied to quantum states (``Single-Ancilla LCU''). This approach repeatedly samples from a short-depth quantum circuit and uses only a single ancilla qubit. We use this to estimate expectation values of observables in the ground states of a Hamiltonian, and in the solution of quantum linear systems. This method is suitable for early fault-tolerant quantum computers. Our third approach stems from the observation that for several applications, it suffices to replace LCU with randomized sampling of unitaries according to the distribution of the LCU coefficients (``Ancilla-free LCU''). This is particularly useful when one is interested in the projection of a quantum state implemented by an LCU procedure in some subspace of interest. We demonstrate that this technique applies to the spatial search problem and helps establish a relationship between discrete and continuous-time quantum walks with their classical counterparts. Our work demonstrates that generic quantum algorithmic paradigms, such as LCU, can potentially be implemented on intermediate-term quantum devices.
翻訳日:2023-02-28 16:32:58 公開日:2023-02-27
# 異なる種類のノードを持つグラフに対する不変層

Invariant Layers for Graphs with Nodes of Different Types ( http://arxiv.org/abs/2302.13551v1 )

ライセンス: Link先を確認
Dmitry Rybin, Ruoyu Sun, Zhi-Quan Luo(参考訳) 入力置換に関する不変性を満たすニューラルネットワークは、機械学習文学において広く研究されている。 しかし、多くのアプリケーションにおいて、全ての入力置換のサブセットのみが興味を持つ。 不均一グラフデータの場合、ノードの型を保存する置換にフォーカスできる。 このような置換に不変な線形層を完全に特徴づける。 これらの層をグラフニューラルネットワークアーキテクチャで実装することで、既存の技術よりも重要なノードインタラクションを効果的に学習できることを実験的に検証する。 これらの層の空間の次元はベル数の一般化によって与えられることを示し、その成果を拡張している(maron et al., 2019)。 さらに,グラフデータ上の関数近似に必要なテンソル層の大きさに関する問題に対処して,不変ネットワーク設計空間を狭める。 この結果は、$n$ノードを持つグラフ上の関数近似は、最もよく知られた有界な$\leq n(n-1)/2$よりも厳密な大きさのテンソル$\leq n$で実現できることを示唆している。 d \times d$ image data with translation symmetry については、davenport constants への驚くべき接続により、不変テンソル生成器のサイズに対して、2d - 1$ ($d^{4}$ の代わりに) という厳密な上限を与える。

Neural networks that satisfy invariance with respect to input permutations have been widely studied in machine learning literature. However, in many applications, only a subset of all input permutations is of interest. For heterogeneous graph data, one can focus on permutations that preserve node types. We fully characterize linear layers invariant to such permutations. We verify experimentally that implementing these layers in graph neural network architectures allows learning important node interactions more effectively than existing techniques. We show that the dimension of space of these layers is given by a generalization of Bell numbers, extending the work (Maron et al., 2019). We further narrow the invariant network design space by addressing a question about the sizes of tensor layers necessary for function approximation on graph data. Our findings suggest that function approximation on a graph with $n$ nodes can be done with tensors of sizes $\leq n$, which is tighter than the best-known bound $\leq n(n-1)/2$. For $d \times d$ image data with translation symmetry, our methods give a tight upper bound $2d - 1$ (instead of $d^{4}$) on sizes of invariant tensor generators via a surprising connection to Davenport constants.
翻訳日:2023-02-28 16:32:17 公開日:2023-02-27
# 深部画像を用いたロバストPET画像の自己監督による事前評価

Self-Supervised Pre-Training for Deep Image Prior-Based Robust PET Image Denoising ( http://arxiv.org/abs/2302.13546v1 )

ライセンス: Link先を確認
Yuya Onishi, Fumio Hashimoto, Kibo Ote, Keisuke Matsubara, Masanobu Ibaraki(参考訳) 深層画像前処理(DIP)はポジトロンエミッショントモグラフィ(PET)画像の復元に成功しており、データセットを訓練することなく畳み込みニューラルネットワークアーキテクチャのみを用いて暗黙の事前表現を可能にしている。 DIPによるPETイメージングの必要性の高まりに対処するためには、基礎となるDIP自体の性能を改善することが不可欠である。 本稿では,DIPに基づくPET画像復調性能を改善するための自己教師付き事前学習モデルを提案する。 提案する事前学習モデルでは, PET画像のみから, 移動可能かつ一般化可能な視覚表現を, 自己監督的アプローチで復元することで取得する。 我々は, 各種放射性トレーサーを用いた臨床脳PETデータ(^{18}$F-florbetapir, $^{11}$C-Pittsburgh compound-B, $^{18}$F-fluoro-2-deoxy-D-glucose, $^{15}$O-CO$$$$$)による評価を行った。 自己教師付き事前学習モデルを用いた提案手法は,他の教師なし手法や事前学習モデルと比較して,空間的詳細と定量化精度を維持しつつ,ロバストかつ最先端の弁別性能を達成している。 これらの結果から,本手法は稀な疾患やプローブに対して特に有効であり,患者に影響を与えずにスキャン時間やラジオトレーサー線量を減らすことができる可能性が示唆された。

Deep image prior (DIP) has been successfully applied to positron emission tomography (PET) image restoration, enabling represent implicit prior using only convolutional neural network architecture without training dataset, whereas the general supervised approach requires massive low- and high-quality PET image pairs. To answer the increased need for PET imaging with DIP, it is indispensable to improve the performance of the underlying DIP itself. Here, we propose a self-supervised pre-training model to improve the DIP-based PET image denoising performance. Our proposed pre-training model acquires transferable and generalizable visual representations from only unlabeled PET images by restoring various degraded PET images in a self-supervised approach. We evaluated the proposed method using clinical brain PET data with various radioactive tracers ($^{18}$F-florbetapir, $^{11}$C-Pittsburgh compound-B, $^{18}$F-fluoro-2-deoxy-D-glucose, and $^{15}$O-CO$_{2}$) acquired from different PET scanners. The proposed method using the self-supervised pre-training model achieved robust and state-of-the-art denoising performance while retaining spatial details and quantification accuracy compared to other unsupervised methods and pre-training model. These results highlight the potential that the proposed method is particularly effective against rare diseases and probes and helps reduce the scan time or the radiotracer dose without affecting the patients.
翻訳日:2023-02-28 16:31:59 公開日:2023-02-27
# BaLi-RF:動的シーンモデリングのための帯域制限放射場

BaLi-RF: Bandlimited Radiance Fields for Dynamic Scene Modeling ( http://arxiv.org/abs/2302.13543v1 )

ライセンス: Link先を確認
Sameera Ramasinghe, Violetta Shevchenko, Gil Avraham, Anton Van Den Hengel(参考訳) 単一の移動カメラから非剛性動的シーンの3d構造を推論することは、制約の少ない問題である。 静的シーンのフォトリアリスティックな新規ビュー合成におけるニューラルラジアンス場(NeRF)の顕著な進歩に触発されて、動的設定のための拡張が提案されている。 これらの手法は問題を正規化するために神経先行性に大きく依存する。 本稿では,現在の実装では,表現力の制限,光・密度場の絡み合い,光学的動作の局所化など,有害な効果が伴う可能性について再検討する。 治療として,従来の非剛体構造からの橋渡し (\nrsfm) とNeRF (NeRF) の橋渡しを提唱する。 そこで本稿では,帯域制限された高次元信号の合成としてシーンを定式化し,時間と空間を分解する枠組みを提案する。 照明, テクスチャ, 長距離ダイナミックスの変化を伴う, 複雑な動的シーンにまたがる説得力のある結果を示す。

Reasoning the 3D structure of a non-rigid dynamic scene from a single moving camera is an under-constrained problem. Inspired by the remarkable progress of neural radiance fields (NeRFs) in photo-realistic novel view synthesis of static scenes, extensions have been proposed for dynamic settings. These methods heavily rely on neural priors in order to regularize the problem. In this work, we take a step back and reinvestigate how current implementations may entail deleterious effects, including limited expressiveness, entanglement of light and density fields, and sub-optimal motion localization. As a remedy, we advocate for a bridge between classic non-rigid-structure-from-motion (\nrsfm) and NeRF, enabling the well-studied priors of the former to constrain the latter. To this end, we propose a framework that factorizes time and space by formulating a scene as a composition of bandlimited, high-dimensional signals. We demonstrate compelling results across complex dynamic scenes that involve changes in lighting, texture and long-range dynamics.
翻訳日:2023-02-28 16:31:28 公開日:2023-02-27
# フォーカスによるランク付けスキーマに向けて

Towards Ranking Schemas by Focus ( http://arxiv.org/abs/2302.13591v1 )

ライセンス: Link先を確認
Mattia Fumagalli, Daqian Shi, Fausto Giunchiglia(参考訳) 本論文の主な目的は,知識ベーススキーマをエンティティの型としてモデル化し,それぞれの型がプロパティの集合に関連付けられているかを評価することである。 我々は,焦点概念を「情報の保存と検索に関係のある状態や品質」として直感的にモデル化する。 この焦点の定義は、認知心理学で最初に定義された「分類目的」の概念に適応し、ユーザ側で高いレベルの理解性を与える。 この概念は、任意の焦点に対して、その品質に応じて知識ベーススキーマをランク付けする知識メトリクスのセットに基づいて形式化されます。 提案手法を200以上の最先端知識ベーススキーマに適用する。 実験結果は我々のアプローチの有用性を示している。

The main goal of this paper is to evaluate knowledge base schemas, modeled as a set of entity types, each such type being associated with a set of properties, according to their focus. We intuitively model the notion of focus as ''the state or quality of being relevant in storing and retrieving information''. This definition of focus is adapted from the notion of ''categorization purpose'', as first defined in cognitive psychology, thus giving us a high level of understandability on the side of users. In turn, this notion is formalized based on a set of knowledge metrics that, for any given focus, rank knowledge base schemas according to their quality. We apply the proposed methodology to more than 200 state-of-the-art knowledge base schemas. The experimental results show the utility of our approach
翻訳日:2023-02-28 16:25:11 公開日:2023-02-27
# 中国の新しいデータ法の前と後: アプリのプライバシー

Before and after China's new Data Laws: Privacy in Apps ( http://arxiv.org/abs/2302.13585v1 )

ライセンス: Link先を確認
Konrad Kollnig and Lu Zhang and Jun Zhao and Nigel Shadbolt(参考訳) 多くのアプリが大量の機密情報を収集し共有するため、アプリのプライバシーは広く関心を集めている。 これに対し、中国は近年、個人情報保護法(Personal Information Protection Law:PIPL)など、さまざまな新しいデータ保護法を導入している。 これまでのところ、これらの新しい法律がアプリのプライバシー保護に与えた影響に関する研究は限られている。 このギャップに対処するために,本稿では,2020年初頭の1バージョンと2021年後半の1つのバージョンである,中国の634のiosアプリのペアによるデータ収集を分析する。 私たちの研究によると、多くのアプリが同意を実装している。 しかし、同意を拒否するエンドユーザーは、しばしばアプリから立ち去らざるを得なくなる。 アプリの数は少ないが、多くはトラッキングライブラリを統合している。 私たちはAndingsを、改善の余地のある中国のデータ規制におけるArstイテレーションの特徴として捉えています。

Privacy in apps is a topic of widespread interest because many apps collect and share large amounts of highly sensitive information. In response, China introduced a range of new data protection laws over recent years, notably the Personal Information Protection Law (PIPL) in 2021. So far, there exists limited research on the impacts of these new laws on apps' privacy practices. To address this gap, this paper analyses data collection in pairs of 634 Chinese iOS apps, one version from early 2020 and one from late 2021. Our work finds that many more apps now implement consent. Yet, those end-users that decline consent will often be forced to exit the app. Fewer apps now collect data without consent but many still integrate tracking libraries. We see our Andings as characteristic of a Arst iteration at Chinese data regulation with room for improvement.
翻訳日:2023-02-28 16:24:59 公開日:2023-02-27
# スロット充填のボキャブラリー問題の再検討:マルチレベルデータ拡張を用いたコントラスト・フレームワードの統一

Revisit Out-Of-Vocabulary Problem for Slot Filling: A Unified Contrastive Frameword with Multi-level Data Augmentations ( http://arxiv.org/abs/2302.13584v1 )

ライセンス: Link先を確認
Daichi Guo and Guanting Dong and Dayuan Fu and Yuxiang Wu and Chen Zeng and Tingfeng Hui and Liwen Wang and Xuefeng Li and Zechen Wang and Keqing He and Xinyue Cui and Weiran Xu(参考訳) 実対話シナリオでは、既存のスロットフィリングモデルはエンティティパターンを記憶する傾向があり、外語彙(OOV)問題に直面する一般化を著しく減少させる。 この問題に対処するために,複数レベルのデータ拡張に基づくOOVロバストスロット充填モデルを提案し,単語とスロットの両面からOOV問題を解決する。 本稿では,モデルがOOV問題に耐性を持つように,原点サンプルと増補サンプルの表現を併用したコントラスト学習フレームワークを提案する。 特定のスロットからモデルの性能を評価し、OOV単語摂動を用いたテストデータを慎重に設計し、OOV単語の有効性をさらに実証する。 2つのデータセットに対する実験により,従来のソタ手法よりもOOVスロットとワードの両面で優れていることが示された。

In real dialogue scenarios, the existing slot filling model, which tends to memorize entity patterns, has a significantly reduced generalization facing Out-of-Vocabulary (OOV) problems. To address this issue, we propose an OOV robust slot filling model based on multi-level data augmentations to solve the OOV problem from both word and slot perspectives. We present a unified contrastive learning framework, which pull representations of the origin sample and augmentation samples together, to make the model resistant to OOV problems. We evaluate the performance of the model from some specific slots and carefully design test data with OOV word perturbation to further demonstrate the effectiveness of OOV words. Experiments on two datasets show that our approach outperforms the previous sota methods in terms of both OOV slots and words.
翻訳日:2023-02-28 16:24:47 公開日:2023-02-27
# ニューラルグラフ露光器

Neural Graph Revealers ( http://arxiv.org/abs/2302.13582v1 )

ライセンス: Link先を確認
Harsh Shrivastava, Urszula Chajewska(参考訳) スパースグラフリカバリ手法は、データが仮定に従っているところでうまく機能するが、下流の確率的クエリのために設計されていないことが多い。 これにより、入力変数間の接続を識別するのみに制限される。 一方、確率グラフモデル(PGM)は、変数間の基底グラフを仮定し、それらの上の分布を学習する。 推論とサンプリングのアルゴリズムが効率的になるように、PGMの設計選択を慎重に行う。 これは特定の制限をもたらし、しばしば仮定を単純化する。 本研究では,sparse graph recovery 法を pgms と効率的に統合し,単一のフローにマージするニューラルグラフ露光器 (ngrs) を提案する。 問題設定は、d特徴とmサンプルを持つ入力データxからなり、そのタスクは、特徴間の接続を示すスパースグラフを復元することである。 NGRはニューラルネットワークを‘ホワイトボックス’、あるいはより具体的にはマルチタスク学習フレームワークとみなしている。 ngrは,無向スパースグラフの形式で特徴間の複雑な非線形関数依存性をキャプチャするグラフィカルモデルを学ぶために,'graph-constrained path norm'を導入する。 さらに、NGRは、画像、テキスト、カテゴリデータ、埋め込みなど、既存のメソッドに組み込むのが簡単ではないマルチモーダル入力を処理できる。 本研究では,GaussianグラフィカルモデルとCDCによるマルチモーダル乳幼児死亡データを用いたスパースグラフ復元と確率的推定実験を行った。

Sparse graph recovery methods works well where the data follows their assumptions but often they are not designed for doing downstream probabilistic queries. This limits their adoption to only identifying connections among the input variables. On the other hand, the Probabilistic Graphical Models (PGMs) assumes an underlying base graph between variables and learns a distribution over them. PGM design choices are carefully made such that the inference & sampling algorithms are efficient. This brings in certain restrictions and often simplifying assumptions. In this work, we propose Neural Graph Revealers (NGRs), that are an attempt to efficiently merge the sparse graph recovery methods with PGMs into a single flow. The problem setting consists of an input data X with D features and M samples and the task is to recover a sparse graph showing connection between the features. NGRs view the neural networks as a `white box' or more specifically as a multitask learning framework. We introduce `Graph-constrained path norm' that NGRs leverage to learn a graphical model that captures complex non-linear functional dependencies between the features in the form of an undirected sparse graph. Furthermore, NGRs can handle multimodal inputs like images, text, categorical data, embeddings etc. which is not straightforward to incorporate in the existing methods. We show experimental results of doing sparse graph recovery and probabilistic inference on data from Gaussian graphical models and a multimodal infant mortality dataset by CDC.
翻訳日:2023-02-28 16:24:32 公開日:2023-02-27
# 統合タスクとデータ指向セマンティック通信: 深部的なソースチャネル符号化方式

Joint Task and Data Oriented Semantic Communications: A Deep Separate Source-channel Coding Scheme ( http://arxiv.org/abs/2302.13580v1 )

ライセンス: Link先を確認
Jianhao Huang, Dongxu Li, Chuan Huang, Xiaoqi Qin, and Wei Zhang(参考訳) セマンティクスコミュニケーションは、ソースデータのセマンティクス特徴を利用して、比較的少ないスペクトル資源で様々なセマンティクスタスクを実現することが期待されている。 データ送信とセマンティックタスクを同時に行うために、データ圧縮とセマンティック分析がセマンティックコミュニケーションにおいて重要な問題となっている。 本稿では,統合タスクとデータ指向意味コミュニケーション(jtd-sc)のためのdsscc(deep separate source-channel coding)フレームワークを提案する。 まず、DSSCCフレームワークのベイズモデルを分析することにより、一般データ分布とセマンティックタスクに対するベイズ推定手法を用いて、新しい速度歪み最適化問題を導出する。 次に、共同画像伝送と分類の典型的な応用として、変分オートエンコーダアプローチと前方適応方式を組み合わせて画像特徴を効果的に抽出し、得られた特徴の密度情報を適応的に学習する。 最後に,ディープラーニングモデルの過剰適合問題に対処するために,反復学習アルゴリズムを提案する。 シミュレーションの結果,提案手法は,従来の圧縮方式や深層震源チャネル方式と比較して,多くのシナリオにおいて,データ回復と分類性能の向上を実現していることがわかった。

Semantic communications are expected to accomplish various semantic tasks with relatively less spectrum resource by exploiting the semantic feature of source data. To simultaneously serve both the data transmission and semantic tasks, joint data compression and semantic analysis has become pivotal issue in semantic communications. This paper proposes a deep separate source-channel coding (DSSCC) framework for the joint task and data oriented semantic communications (JTD-SC) and utilizes the variational autoencoder approach to solve the rate-distortion problem with semantic distortion. First, by analyzing the Bayesian model of the DSSCC framework, we derive a novel rate-distortion optimization problem via the Bayesian inference approach for general data distributions and semantic tasks. Next, for a typical application of joint image transmission and classification, we combine the variational autoencoder approach with a forward adaption scheme to effectively extract image features and adaptively learn the density information of the obtained features. Finally, an iterative training algorithm is proposed to tackle the overfitting issue of deep learning models. Simulation results reveal that the proposed scheme achieves better coding gain as well as data recovery and classification performance in most scenarios, compared to the classical compression schemes and the emerging deep joint source-channel schemes.
翻訳日:2023-02-28 16:24:07 公開日:2023-02-27
# ディープニューラルネットワークのオンラインブラックボックス信頼度推定

Online Black-Box Confidence Estimation of Deep Neural Networks ( http://arxiv.org/abs/2302.13578v1 )

ライセンス: Link先を確認
Fabian Woitschek, Georg Schneider(参考訳) 自律運転(AD)と先進運転支援システム(ADAS)は、認識や計画を改善するためにディープニューラルネットワーク(DNN)をますます利用している。 それでも、推論中のデータ分布がトレーニング中のデータ分布から逸脱した場合、DNNはかなり不安定である。 これはadasのように部分的に未知の環境にデプロイする場合の課題を表している。 同時に、分類信頼性が低下しても、DNNの標準信頼度は高いままである。 次のモーションコントロールアルゴリズムは、かなり間違っているかもしれないが、明らかに自信のある予測を信頼できると見なすため、これは問題となる。 この問題を解決するためには, DNN分類の信頼性を向上するために, リアルタイム信頼度推定が必要である。 さらに、システム全体への外部開発コンポーネントの均一なインクルージョンを可能にするため、ブラックボックスの信頼度推定の必要性が存在する。 本研究では,このユースケースを考察し,分類のための任意のdnnの信頼度を推定する近傍信頼度(nhc)を導入する。 このメトリクスは、トップ1クラスの出力だけが必要であり、グラデーションやトレーニングデータセット、ホールドアウトバリデーションデータセットへのアクセスを必要としないため、ブラックボックスシステムで使用することができる。 ドメイン内の小さな分散シフト、ドメイン外データ、あるいは敵対的攻撃を含む異なるデータ分布の評価は、リアルタイムに有能なad/adasに必要な低データレジームにおけるオンラインホワイトボックス信頼度推定の方法に匹敵する性能を示す。

Autonomous driving (AD) and advanced driver assistance systems (ADAS) increasingly utilize deep neural networks (DNNs) for improved perception or planning. Nevertheless, DNNs are quite brittle when the data distribution during inference deviates from the data distribution during training. This represents a challenge when deploying in partly unknown environments like in the case of ADAS. At the same time, the standard confidence of DNNs remains high even if the classification reliability decreases. This is problematic since following motion control algorithms consider the apparently confident prediction as reliable even though it might be considerably wrong. To reduce this problem real-time capable confidence estimation is required that better aligns with the actual reliability of the DNN classification. Additionally, the need exists for black-box confidence estimation to enable the homogeneous inclusion of externally developed components to an entire system. In this work we explore this use case and introduce the neighborhood confidence (NHC) which estimates the confidence of an arbitrary DNN for classification. The metric can be used for black-box systems since only the top-1 class output is required and does not need access to the gradients, the training dataset or a hold-out validation dataset. Evaluation on different data distributions, including small in-domain distribution shifts, out-of-domain data or adversarial attacks, shows that the NHC performs better or on par with a comparable method for online white-box confidence estimation in low data regimes which is required for real-time capable AD/ADAS.
翻訳日:2023-02-28 16:23:43 公開日:2023-02-27
# DuEqNet: 自律運転のための屋外3次元物体検出における二重等分散ネットワーク

DuEqNet: Dual-Equivariance Network in Outdoor 3D Object Detection for Autonomous Driving ( http://arxiv.org/abs/2302.13577v1 )

ライセンス: Link先を確認
Xihao Wang, Jiaming Lei, Hai Lan, Arafat Al-Jawari, Xian Wei(参考訳) 屋外3次元物体検出は、自動運転の環境認識において重要な役割を担っている。 複雑な交通状況において、正確な物体認識は、動的システムの予測と計画に不可欠の情報を提供し、自動運転の安全性と信頼性を向上させる。 しかし、車両の走行により、周囲のシナリオの定常的な回転は知覚システムにとって課題となる。 しかし、既存のほとんどの方法は、特に屋外の3D検出において、車両の回転による検出精度の低下を軽減することに重点を置いていない。 本稿では,階層型組込みフレームワークを用いて3次元物体検出ネットワークへの等価性の概念を最初に導入した dueqnet を提案する。 我々のモデルの双対同分散は、それぞれ局所レベルと大域レベルでの同変特徴を抽出することができる。 局所的な特徴については、グラフベースの戦略を用いて、点雲柱における特徴の等価性を保証する。 大域的特徴の観点からは、群同変畳み込み層を用いて局所的特徴を集約し、大域的同変を達成する。 実験部では, 3次元物体検出タスクにおけるベースラインの異なるアプローチを評価し, 最先端の性能を得る。 その結果,本モデルの方が方位精度が高く,予測効率も向上した。 さらに,本手法は,様々な人気オブジェクト検出フレームワークに満足度の高いプラグアンドプレイ能力を示し,性能を向上する。

Outdoor 3D object detection has played an essential role in the environment perception of autonomous driving. In complicated traffic situations, precise object recognition provides indispensable information for prediction and planning in the dynamic system, improving self-driving safety and reliability. However, with the vehicle's veering, the constant rotation of the surrounding scenario makes a challenge for the perception systems. Yet most existing methods have not focused on alleviating the detection accuracy impairment brought by the vehicle's rotation, especially in outdoor 3D detection. In this paper, we propose DuEqNet, which first introduces the concept of equivariance into 3D object detection network by leveraging a hierarchical embedded framework. The dual-equivariance of our model can extract the equivariant features at both local and global levels, respectively. For the local feature, we utilize the graph-based strategy to guarantee the equivariance of the feature in point cloud pillars. In terms of the global feature, the group equivariant convolution layers are adopted to aggregate the local feature to achieve the global equivariance. In the experiment part, we evaluate our approach with different baselines in 3D object detection tasks and obtain State-Of-The-Art performance. According to the results, our model presents higher accuracy on orientation and better prediction efficiency. Moreover, our dual-equivariance strategy exhibits the satisfied plug-and-play ability on various popular object detection frameworks to improve their performance.
翻訳日:2023-02-28 16:23:16 公開日:2023-02-27
# kNN-BOX:最近傍世代のための統一フレームワーク

kNN-BOX: A Unified Framework for Nearest Neighbor Generation ( http://arxiv.org/abs/2302.13574v1 )

ライセンス: Link先を確認
Wenhao Zhu, Qianfeng Zhao, Yunzhe Lv, Shujian Huang, Siheng Zhao, Sizhe Liu, Jiajun Chen(参考訳) トークンレベルのシンボルデータストアでベースニューラルモデルを拡張することは、新しい生成パラダイムであり、機械翻訳(MT)で有望な結果を得た。 本稿では,この新しいパラダイムの素早い開発とインタラクティブな分析を可能にする統一フレームワーク knn-box を提案する。 kNN-BOXはデータストア拡張アプローチを3つのモジュールに分解する。 現在、kNN-BOXは7種類のkNN-MTを実装しており、性能向上から効率最適化までの研究をカバーしている。 既存の作品を再現したり、モデルをカスタマイズしたりするのは簡単です。 さらに、ユーザはkNN生成システムとkNN-BOXと対話して、基盤となる推論プロセスを視覚化された方法でよりよく理解することができる。 実験では,kNN-BOXを機械翻訳に適用し,他の3つのSeq2seq生成タスク,すなわちテキスト単純化,パラフレーズ生成,質問生成に適用する。 実験結果から,kNN-BOXによるベースニューラルモデルの拡張は,これらのタスクすべてにおいて大きなパフォーマンス向上をもたらすことが示された。 kNN-BOXのコードとドキュメントはhttps://github.com/NJUNLP/knn-boxで入手できる。

Augmenting the base neural model with a token-level symbolic datastore is a novel generation paradigm and has achieved promising results in machine translation (MT). In this paper, we introduce a unified framework kNN-BOX, which enables quick development and interactive analysis for this novel paradigm. kNN-BOX decomposes the datastore-augmentation approach into three modules: datastore, retriever and combiner, thus putting diverse kNN generation methods into a unified way. Currently, kNN-BOX has provided implementation of seven popular kNN-MT variants, covering research from performance enhancement to efficiency optimization. It is easy for users to reproduce these existing works or customize their own models. Besides, users can interact with their kNN generation systems with kNN-BOX to better understand the underlying inference process in a visualized way. In the experiment section, we apply kNN-BOX for machine translation and three other seq2seq generation tasks, namely, text simplification, paraphrase generation and question generation. Experiment results show that augmenting the base neural model with kNN-BOX leads to a large performance improvement in all these tasks. The code and document of kNN-BOX is available at https://github.com/NJUNLP/knn-box.
翻訳日:2023-02-28 16:22:54 公開日:2023-02-27
# フェデレーション学習におけるマルチラベル分類のための高速ラベル適応アグリゲーション

FLAG: Fast Label-Adaptive Aggregation for Multi-label Classification in Federated Learning ( http://arxiv.org/abs/2302.13571v1 )

ライセンス: Link先を確認
Shih-Fang Chang, Benny Wei-Yun Hsu, Tien-Yu Chang, Vincent S. Tseng(参考訳) フェデレーション学習は、プライバシーの漏洩なしにデータユーティリティを最大化するためにプライベートデータを共有することを目的としている。 従来の連合学習研究は主に多クラス分類問題に焦点を当てていた。 しかし,マルチラベル分類は実世界のデータ特性に近い重要な研究課題である。 それにもかかわらず、限られた数の連合学習研究がこの研究問題を探求している。 既存のマルチラベル・フェデレート学習の研究では、マルチラベルデータの特徴を考慮せず、つまり、マルチクラス分類の概念を用いて手法の性能を検証しており、現実のアプリケーションにメソッドを適用することは不可能である。 そこで本研究では,クラスタリングに基づくマルチラベルデータアロケーション(cmda)と,フェデレーション学習環境におけるマルチラベル分類のための新しいアグリゲーション手法であるfast label-adaptive aggregation(flag)を提案する。 実験の結果,最先端のフェデレーション学習法の性能を上回るためには,トレーニング期間とコミュニケーションラウンドの50\%未満しか必要としないことがわかった。

Federated learning aims to share private data to maximize the data utility without privacy leakage. Previous federated learning research mainly focuses on multi-class classification problems. However, multi-label classification is a crucial research problem close to real-world data properties. Nevertheless, a limited number of federated learning studies explore this research problem. Existing studies of multi-label federated learning did not consider the characteristics of multi-label data, i.e., they used the concept of multi-class classification to verify their methods' performance, which means it will not be feasible to apply their methods to real-world applications. Therefore, this study proposed a new multi-label federated learning framework with a Clustering-based Multi-label Data Allocation (CMDA) and a novel aggregation method, Fast Label-Adaptive Aggregation (FLAG), for multi-label classification in the federated learning environment. The experimental results demonstrate that our methods only need less than 50\% of training epochs and communication rounds to surpass the performance of state-of-the-art federated learning methods.
翻訳日:2023-02-28 16:22:31 公開日:2023-02-27
# 交通信号認識のためのディープニューラルネットワークの物理的対立攻撃 : 可能性スタディ

Physical Adversarial Attacks on Deep Neural Networks for Traffic Sign Recognition: A Feasibility Study ( http://arxiv.org/abs/2302.13570v1 )

ライセンス: Link先を確認
Fabian Woitschek, Georg Schneider(参考訳) 深層ニューラルネットワーク(dnn)は、高度な運転支援システムのような安全上重要なアプリケーションにおいて、現実の世界にますます適用されている。 そのようなユースケースの例として、交通標識認識システムがある。 同時に、現在のDNNは敵攻撃によって騙されうることが知られており、現実的な条件下で攻撃を適用できれば安全上の懸念が高まる。 本研究では,物理環境に適用され,異なる環境条件下でシステムを騙すことができる摂動を生成するために,異なるブラックボックス攻撃手法を適用する。 我々の知る限りでは、我々は、物理攻撃の一般的な枠組みを異なるブラックボックス攻撃法と組み合わせて、同じ条件下での攻撃の成功率に対する異なる方法の影響を研究するのが最初である。 異なる方法で信頼できる物理敵攻撃を行うことが出来、結果として生じる摂動の知覚可能性も低減できることを示す。 この知見は,ブラックボックスの場合においても,DNNの有効防衛の必要性を浮き彫りにするが,同時に,敵の攻撃を利用して元の訓練データを増強する敵の訓練などの手法によるDNNの確保の基礎を形成する。

Deep Neural Networks (DNNs) are increasingly applied in the real world in safety critical applications like advanced driver assistance systems. An example for such use case is represented by traffic sign recognition systems. At the same time, it is known that current DNNs can be fooled by adversarial attacks, which raises safety concerns if those attacks can be applied under realistic conditions. In this work we apply different black-box attack methods to generate perturbations that are applied in the physical environment and can be used to fool systems under different environmental conditions. To the best of our knowledge we are the first to combine a general framework for physical attacks with different black-box attack methods and study the impact of the different methods on the success rate of the attack under the same setting. We show that reliable physical adversarial attacks can be performed with different methods and that it is also possible to reduce the perceptibility of the resulting perturbations. The findings highlight the need for viable defenses of a DNN even in the black-box case, but at the same time form the basis for securing a DNN with methods like adversarial training which utilizes adversarial attacks to augment the original training data.
翻訳日:2023-02-28 16:22:10 公開日:2023-02-27
# オフ共鳴ディッケ量子電池:仮想光子による充電

Off-resonant Dicke Quantum Battery: Charging by Virtual Photons ( http://arxiv.org/abs/2302.13624v1 )

ライセンス: Link先を確認
Giulia Gemme, Gian Marcello Andolina, Francesco Maria Dimitri Pellegrino, Maura Sassetti, Dario Ferraro(参考訳) 共振キャビティに閉じ込められた光子が、その内部に埋め込まれた2段階の系に対してよりエネルギー的である分散状態におけるディッケ量子電池について検討する。 このような非共鳴条件下では、空の空洞でさえ物質-放射結合の適切な変調によって量子電池の充電につながる。 この反直感的振る舞いは、量子電磁場のゆらぎから生じる仮想光子によって媒介される2レベルのシステム間の効果的な相互作用に根ざしている。 適切な特徴付けを行うため,蓄積エネルギー,最大充電に要する時間,充電電力の平均値などの有意な特徴について考察する。 さらに,様々なパラメータで効率的にエネルギーを抽出できる可能性についても論じる。 また, 2レベル系の数 n$ の関数と物質-放射結合の異なる値の関数としての蓄電エネルギーと電力のスケーリングについても, 強い結合状態において, 共振状態におけるディッケ量子電池の観測値と一致した性能を示す。

We investigate a Dicke quantum battery in the dispersive regime, where the photons trapped into a resonant cavity are way more energetic with respect to the two-level systems embedded into it. Under such off-resonant conditions, even an empty cavity can lead to the charging of the quantum battery through a proper modulation of the matter-radiation coupling. This counterintuitive behaviour has its roots in the effective interaction between two-level systems mediated by virtual photons emerging from the fluctuations of the quantum electromagnetic field. In order to properly characterize it, we address relevant figures of merit such as the stored energy, the time required to reach the maximum charging, and the averaged charging power. Moreover, the possibility of efficiently extracting energy in various ranges of parameters is discussed. The scaling of stored energy and power as a function of the number $N$ of two-level systems and for different values of the matter-radiation coupling is also discussed showing, in the strong coupling regime, performances in line with what reported for the Dicke quantum battery in the resonant regime.
翻訳日:2023-02-28 16:16:15 公開日:2023-02-27
# Orca:中国語の会話機械を読むためのベンチマーク

Orca: A Few-shot Benchmark for Chinese Conversational Machine Reading Comprehension ( http://arxiv.org/abs/2302.13619v1 )

ライセンス: Link先を確認
Nuo Chen, Hongguang Li, Yinan Bao, Junqing He, Xinshi Lin, Qi Yang, Jianfeng Liu, Ruyi Gan, Jiaxing Zhang, Baoyuan Wang, Jia Li(参考訳) 会話機械読解(CMRC)課題は,近年ホットな研究課題となっている会話における質問に答えることを目的としている。 しかし、各会話が静的パスに割り当てられる既存のCMRCベンチマークは、実際のシナリオと矛盾しない。 したがって、実際のシナリオに対するモデルの理解能力を評価するのは難しい。 この目的のために,中国初のcmrcベンチマークorcaを提案し,多種多様なドメインに対するモデルの一般化能力を評価するためのゼロショット/フェーショット設定も提供する。 831のホットトピック駆動会話を合計4,742回収集した。 会話の各ターンには応答関連通路が割り当てられ、モデルの理解能力をより合理的に評価することを目的としている。 会話のトピックはソーシャルメディアプラットフォームから収集され、33のドメインをカバーする。 重要なのは、orcaの回答はすべて、以前のデータセットの特定のスパンや短いフレーズではなく、よくアノテーションされた自然な応答です。 さらに、Orcaの課題に取り組むために、3つの強力なベースラインを実装しています。 その結果,CMRCベンチマークの課題が示唆された。 datatsetとcheckpointsはhttps://github.com/nuochenpku/orcaで利用できます。

The conversational machine reading comprehension (CMRC) task aims to answer questions in conversations, which has been a hot research topic in recent years because of its wide applications. However, existing CMRC benchmarks in which each conversation is assigned a static passage are inconsistent with real scenarios. Thus, model's comprehension ability towards real scenarios are hard to evaluate reasonably. To this end, we propose the first Chinese CMRC benchmark Orca and further provide zero-shot/few-shot settings to evaluate model's generalization ability towards diverse domains. We collect 831 hot-topic driven conversations with 4,742 turns in total. Each turn of a conversation is assigned with a response-related passage, aiming to evaluate model's comprehension ability more reasonably. The topics of conversations are collected from social media platform and cover 33 domains, trying to be consistent with real scenarios. Importantly, answers in Orca are all well-annotated natural responses rather than the specific spans or short phrase in previous datasets. Besides, we implement three strong baselines to tackle the challenge in Orca. The results indicate the great challenge of our CMRC benchmark. Our datatset and checkpoints are available at https://github.com/nuochenpku/Orca.
翻訳日:2023-02-28 16:15:59 公開日:2023-02-27
# Few-Shot Name Entity Recognition のためのジョイントコントラスト学習による特徴的セマンティックデカップリング法

A Prototypical Semantic Decoupling Method via Joint Contrastive Learning for Few-Shot Name Entity Recognition ( http://arxiv.org/abs/2302.13610v1 )

ライセンス: Link先を確認
Guanting Dong and Zechen Wang and Liwen Wang and Daichi Guo and Dayuan Fu and Yuxiang Wu and Chen Zeng and Xuefeng Li and Tingfeng Hui and Keqing He and Xinyue Cui and Qixiang Gao and Weiran Xu(参考訳) 名前付きエンティティ認識(NER)は、わずかにラベル付きインスタンスに基づいて名前付きエンティティを識別することを目的としている。 既存のプロトタイプベースのシーケンスラベリングモデルの多くは、近接したプロトタイプによって容易に混同されるエンティティ参照を記憶する傾向がある。 本稿では,数発のNERに対して,共同コントラスト学習(PSDC)を用いたプロトタイプセマンティックデカップリング手法を提案する。 具体的には、クラス固有のプロトタイプとコンテキストセマンティクスのプロトタイプを2つのマスキング戦略で分離し、モデルを推論のために2つの異なるセマンティクス情報に集中させる。 さらに,2種類の分離情報の統合と意味的崩壊の防止を図るために,統合コントラスト学習目標も導入する。 2つの数ショットのNERベンチマークによる実験結果から、PSDCは全体の性能において従来のSOTA法よりも一貫して優れていた。 拡張解析はPSDCの有効性と一般化をさらに検証する。

Few-shot named entity recognition (NER) aims at identifying named entities based on only few labeled instances. Most existing prototype-based sequence labeling models tend to memorize entity mentions which would be easily confused by close prototypes. In this paper, we proposed a Prototypical Semantic Decoupling method via joint Contrastive learning (PSDC) for few-shot NER. Specifically, we decouple class-specific prototypes and contextual semantic prototypes by two masking strategies to lead the model to focus on two different semantic information for inference. Besides, we further introduce joint contrastive learning objectives to better integrate two kinds of decoupling information and prevent semantic collapse. Experimental results on two few-shot NER benchmarks demonstrate that PSDC consistently outperforms the previous SOTA methods in terms of overall performance. Extensive analysis further validates the effectiveness and generalization of PSDC.
翻訳日:2023-02-28 16:15:42 公開日:2023-02-27
# deepseq: ディープシーケンシャル回路学習

DeepSeq: Deep Sequential Circuit Learning ( http://arxiv.org/abs/2302.13608v1 )

ライセンス: Link先を確認
Sadaf Khan, Zhengyuan Shi, Min Li, Qiang Xu(参考訳) 回路表現学習は電子設計自動化(EDA)分野における有望な研究方向である。 事前トレーニングに十分なデータがあれば、学習された汎用的かつ効果的な表現は、タスク関連データの小さなセットで微調整することで、複数の下流EDAタスクを解決するのに役立ちます。 しかし、既存のソリューションは組合せ回路のみをターゲットにしており、その応用は著しく制限されている。 本稿では,シーケンシャルネットリストのための新しい表現学習フレームワークdeepseqを提案する。 具体的には、逐次回路におけるゲート間の時間相関を利用するために、カスタマイズされた伝搬方式を備えた専用グラフニューラルネットワーク(GNN)を導入する。 効率的な学習を実現するために,各ノードにおける論理確率と遷移確率の2つの強い関連性を持つマルチタスク学習目標を提案する。 両方のタスクを効率的に学習するために,新しい2重注意集約機構を導入する。 各種ベンチマーク回路の実験結果から,DeepSeqは逐次回路学習において他のGNNモデルよりも優れていた。 下流電力推定タスクにおけるDeepSeqの一般化能力を評価する。 微調整後、DeepSeqは異なるワークロード下でさまざまな回路の電力を正確に見積もることができる。

Circuit representation learning is a promising research direction in the electronic design automation (EDA) field. With sufficient data for pre-training, the learned general yet effective representation can help to solve multiple downstream EDA tasks by fine-tuning it on a small set of task-related data. However, existing solutions only target combinational circuits, significantly limiting their applications. In this work, we propose DeepSeq, a novel representation learning framework for sequential netlists. Specifically, we introduce a dedicated graph neural network (GNN) with a customized propagation scheme to exploit the temporal correlations between gates in sequential circuits. To ensure effective learning, we propose to use a multi-task training objective with two sets of strongly related supervision: logic probability and transition probability at each node. A novel dual attention aggregation mechanism is introduced to facilitate learning both tasks efficiently. Experimental results on various benchmark circuits show that DeepSeq outperforms other GNN models for sequential circuit learning. We evaluate the generalization capability of DeepSeq on a downstream power estimation task. After fine-tuning, DeepSeq can accurately estimate power across various circuits under different workloads.
翻訳日:2023-02-28 16:15:27 公開日:2023-02-27
# 転校学習における事前学習データの役割

The Role of Pre-training Data in Transfer Learning ( http://arxiv.org/abs/2302.13602v1 )

ライセンス: Link先を確認
Rahim Entezari, Mitchell Wortsman, Olga Saukh, M.Moein Shariatnia, Hanie Sedghi, Ludwig Schmidt(参考訳) モデルの事前学習とその後の微調整のトランスファー学習パラダイムは、高い精度のモデルを生み出す。 ほとんどの研究は、転校学習の恩恵を受けるために、事前トレーニングサイズのスケーリングを推奨しているが、疑問は残る: 事前トレーニングに使用するデータとメソッドは何か? 本研究では,3つの事前学習法(教師あり,コントラスト的言語画像と画像画像),7つの事前学習データセット,9つの下流データセットを用いて,プリトレーニングデータ分布がマイトショットおよびフル微調整性能に与える影響について検討した。 広範に制御された実験により,事前学習したデータソースの選択はわずかな転送には不可欠であるが,より詳細なチューニングが可能なデータが増えるにつれてその役割は減少することがわかった。 さらに,データキュレーションの役割について検討し,ラベルノイズと事前学習データセットのサイズとのトレードオフを検討する。 LAIONから2000X以上の事前学習データを使用することで、教師付きImageNet事前学習のパフォーマンスにマッチすることがわかった。 さらに,事前学習手法の効果について検討し,言語画像のコントラストと画像画像のコントラストの比較を行い,後者が下流の精度の向上につながることを確認した。

The transfer learning paradigm of model pre-training and subsequent fine-tuning produces high-accuracy models. While most studies recommend scaling the pre-training size to benefit most from transfer learning, a question remains: what data and method should be used for pre-training? We investigate the impact of pre-training data distribution on the few-shot and full fine-tuning performance using 3 pre-training methods (supervised, contrastive language-image and image-image), 7 pre-training datasets, and 9 downstream datasets. Through extensive controlled experiments, we find that the choice of the pre-training data source is essential for the few-shot transfer, but its role decreases as more data is made available for fine-tuning. Additionally, we explore the role of data curation and examine the trade-offs between label noise and the size of the pre-training dataset. We find that using 2000X more pre-training data from LAION can match the performance of supervised ImageNet pre-training. Furthermore, we investigate the effect of pre-training methods, comparing language-image contrastive vs. image-image contrastive, and find that the latter leads to better downstream accuracy
翻訳日:2023-02-28 16:15:11 公開日:2023-02-27
# 量子系の一般モノガミーおよびポリガミー特性

General Monogamy and polygamy properties of quantum systems ( http://arxiv.org/abs/2302.13601v1 )

ライセンス: Link先を確認
Bing Xie, Ming-Jing Zhao and Bo Li(参考訳) モノガミーとポリガミーは、多粒子系の絡み合い分布を特徴づける絡み合いの重要な性質である。 我々は、それぞれ$\alpha$th $(0\leq\alpha\leq \gamma)$エンタングルメントの力と$\beta$th $(\beta\geq \delta)$補助エンタングルメントの力に基づいて、一般的なモノガミーとポリガミーの関係を研究する。 これらのモノガミーとポリガミーの関係は、[Quantum Inf Process 19, 101]における不等式よりも厳密であるため、強い制約を満たすエンタングルメント状態に対して、エンタングルメント分布をより正確に記述することができる。 共起や凸ルーフ拡張ネガティビティなどの特定の絡み合い対策については、これらの関係を適用することにより、物品[量子infプロセス18,23]及び[量子infプロセス18,105]の既存のものを取り入れた対応する単元および多元不等式を特殊ケースとして得ることができる。 詳細はサンプルに記載されている。

Monogamy and Polygamy are important properties of entanglement, which characterize the entanglement distribution of multipartite systems. We study general monogamy and polygamy relations based on the $\alpha$th $(0\leq\alpha\leq \gamma)$ power of entanglement measures and the $\beta$th $(\beta\geq \delta)$ power of assisted entanglement measures, respectively. We illustrate that these monogamy and polygamy relations are tighter than the inequalities in the article [Quantum Inf Process 19, 101], so that the entanglement distribution can be more precisely described for entanglement states that satisfy stronger constraints. For specific entanglement measures such as concurrence and the convex-roof extended negativity, by applying these relations, one can yield the corresponding monogamous and polygamous inequalities, which take the existing ones in the articles [Quantum Inf Process 18, 23] and [Quantum Inf Process 18, 105] as special cases. More details are presented in the examples.
翻訳日:2023-02-28 16:14:51 公開日:2023-02-27
# 画像の雑音化のための空間周波数注意

Spatial-Frequency Attention for Image Denoising ( http://arxiv.org/abs/2302.13598v1 )

ライセンス: Link先を確認
Shi Guo, Hongwei Yong, Xindong Zhang, Jianqi Ma and Lei Zhang(参考訳) 近年開発されたトランスフォーマーネットワークは,画像の自己着脱(自己着脱)を活用し,画像の有意な性能を実現している。 しかし、既存の手法は2次複雑性のためにsaを計算するために比較的小さなウィンドウを使い、長期画像情報をモデル化するモデルの能力を制限する。 本稿では,長距離依存性を利用した空間周波数アテンションネットワーク(SFANet)を提案する。 空間的注意モジュール(SAM)については,拡張SAを用いて長距離依存性をモデル化する。 周波数アテンションモジュール (fam) では、ウィンドウベースの周波数チャンネルアテンション (wfca) ブロックを設計し、深い周波数特徴とその依存関係を効果的にモデル化することで、よりグローバルな情報を活用する。 モジュールを異なるサイズの画像に適用し、トレーニングと推論の間のモデルの一貫性を保つために、固定されたウィンドウサイズを持つウィンドウベースのfftを適用する。 さらに、フーリエスペクトルの実部と虚部の両方でチャネルの注意が計算され、さらに復元性能が向上する。 提案するwfcaブロックは画像の長距離依存性を効果的にモデル化できる。 複数のdenoisingベンチマークの実験は、SFANetネットワークのリードパフォーマンスを示している。

The recently developed transformer networks have achieved impressive performance in image denoising by exploiting the self-attention (SA) in images. However, the existing methods mostly use a relatively small window to compute SA due to the quadratic complexity of it, which limits the model's ability to model long-term image information. In this paper, we propose the spatial-frequency attention network (SFANet) to enhance the network's ability in exploiting long-range dependency. For spatial attention module (SAM), we adopt dilated SA to model long-range dependency. In the frequency attention module (FAM), we exploit more global information by using Fast Fourier Transform (FFT) by designing a window-based frequency channel attention (WFCA) block to effectively model deep frequency features and their dependencies. To make our module applicable to images of different sizes and keep the model consistency between training and inference, we apply window-based FFT with a set of fixed window sizes. In addition, channel attention is computed on both real and imaginary parts of the Fourier spectrum, which further improves restoration performance. The proposed WFCA block can effectively model image long-range dependency with acceptable complexity. Experiments on multiple denoising benchmarks demonstrate the leading performance of SFANet network.
翻訳日:2023-02-28 16:13:51 公開日:2023-02-27
# LSR:軽量超解像法

LSR: A Light-Weight Super-Resolution Method ( http://arxiv.org/abs/2302.13596v1 )

ライセンス: Link先を確認
Wei Wang, Xuejing Lei, Yueru Chen, Ming-Sui Lee, C.-C. Jay Kuo(参考訳) 本研究では,モバイルアプリケーションを対象とした単一画像からの軽量超解像法(LSR)を提案する。 LSRは、補間された低分解能画像(ILR)と高分解能画像(HR)の間の残像を自己監督フレームワークを用いて予測する。 計算複雑性を低減するため、LSRはエンドツーエンドの最適化ディープネットワークを採用しない。 3つのモジュールからなる。 1)教師なし学習による対象画素近傍におけるリッチで多様化した表現のプールの生成 2)教師あり学習を通して,下層の超解像課題に最も関係のある表現プールからサブセットを選択する。 3)レグレッションにより対象画素の残差を予測する。 LSRは計算複雑性が低く、適切なモデルサイズであるため、モバイル/エッジプラットフォームで簡単に実装できる。 さらに、PSNR/SSIM測度の観点からは、古典的な模範的手法よりも優れた視覚的品質を提供する。

A light-weight super-resolution (LSR) method from a single image targeting mobile applications is proposed in this work. LSR predicts the residual image between the interpolated low-resolution (ILR) and high-resolution (HR) images using a self-supervised framework. To lower the computational complexity, LSR does not adopt the end-to-end optimization deep networks. It consists of three modules: 1) generation of a pool of rich and diversified representations in the neighborhood of a target pixel via unsupervised learning, 2) selecting a subset from the representation pool that is most relevant to the underlying super-resolution task automatically via supervised learning, 3) predicting the residual of the target pixel via regression. LSR has low computational complexity and reasonable model size so that it can be implemented on mobile/edge platforms conveniently. Besides, it offers better visual quality than classical exemplar-based methods in terms of PSNR/SSIM measures.
翻訳日:2023-02-28 16:13:30 公開日:2023-02-27
# ディープビデオエンハンスメントのためのビデオ符号化知識の活用

Leveraging Video Coding Knowledge for Deep Video Enhancement ( http://arxiv.org/abs/2302.13594v1 )

ライセンス: Link先を確認
Thong Bach, Thuong Nguyen Canh, Van-Quang Nguyen(参考訳) 近年のディープラーニング技術の進歩により、圧縮ビデオの品質が大幅に向上した。 しかし、従来の手法では、映像コンテンツ間の動きの劇的な変化や圧縮ビデオの階層的符号化構造など、圧縮ビデオの運動特性を十分に活用していない。 本研究では,映像圧縮の低遅延構成を活用し,既存の最先端手法である basicvsr++ を強化する新しいフレームワークを提案する。 圧縮ビデオの最終品質を高めるために,コンテキスト適応型ビデオ融合手法を組み込んだ。 提案手法は,NTIRE22チャレンジにおいてビデオ復元と拡張のためのベンチマークとして評価され,従来の手法と比較して定量的な計測値と視覚的品質の両方の改善が達成されている。

Recent advancements in deep learning techniques have significantly improved the quality of compressed videos. However, previous approaches have not fully exploited the motion characteristics of compressed videos, such as the drastic change in motion between video contents and the hierarchical coding structure of the compressed video. This study proposes a novel framework that leverages the low-delay configuration of video compression to enhance the existing state-of-the-art method, BasicVSR++. We incorporate a context-adaptive video fusion method to enhance the final quality of compressed videos. The proposed approach has been evaluated in the NTIRE22 challenge, a benchmark for video restoration and enhancement, and achieved improvements in both quantitative metrics and visual quality compared to the previous method.
翻訳日:2023-02-28 16:13:17 公開日:2023-02-27
# 自己エンコーダ潜時空間解析に基づく脳微妙な異常検出 : de novo Parkinson 患者への応用

Brain subtle anomaly detection based on auto-encoders latent space analysis : application to de novo parkinson patients ( http://arxiv.org/abs/2302.13593v1 )

ライセンス: Link先を確認
Nicolas Pinon (MYRIAD), Geoffroy Oudoumanessah (MYRIAD, GIN, STATIFY), Robin Trombetta (MYRIAD), Michel Dojat (GIN), Florence Forbes (STATIFY), Carole Lartizien (MYRIAD)(参考訳) 神経ネットワークに基づく異常検出は、ほとんどまたは全く教師付き情報や、ほとんど見えない脳の病変のような微妙な異常を伴わない臨床応用において依然として困難である。 教師なしの方法のうち,潜在空間による効率的な表現力を有するパッチベースのオートエンコーダは,可視的病変検出に良好な結果を示している。 しかし、一般的に使用されるレコンストラクションエラー基準は、より明白な病変に直面した場合に性能を制限する可能性がある。 本研究では,2つの代替検出基準を設計する。 それらは多変量解析から導出され、より直接的に潜在空間表現から情報を取り込むことができる。 パーキンソン病(PD)分類の難しい課題において,2つの指導的学習法と比較した。

Neural network-based anomaly detection remains challenging in clinical applications with little or no supervised information and subtle anomalies such as hardly visible brain lesions. Among unsupervised methods, patch-based auto-encoders with their efficient representation power provided by their latent space, have shown good results for visible lesion detection. However, the commonly used reconstruction error criterion may limit their performance when facing less obvious lesions. In this work, we design two alternative detection criteria. They are derived from multivariate analysis and can more directly capture information from latent space representations. Their performance compares favorably with two additional supervised learning methods, on a difficult de novo Parkinson Disease (PD) classification task.
翻訳日:2023-02-28 16:13:04 公開日:2023-02-27
# 複数話者音声合成のための事前学習言語モデルを用いた継続時停止挿入

Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech ( http://arxiv.org/abs/2302.13652v1 )

ライセンス: Link先を確認
Dong Yang, Tomoki Koriyama, Yuki Saito, Takaaki Saeki, Detai Xin, Hiroshi Saruwatari(参考訳) ポーズの挿入は、フレーズブレーク予測やフラージングとしても知られ、自然な持続時間を持つ適切なポーズは合成音声のリズムと知性を大幅に向上するため、ttsシステムにおいて不可欠な部分である。 しかし,従来の言い回しモデルではサイレントポーズを挿入する様々な話者の異なるスタイルを無視しており,マルチ話者音声コーパスで訓練されたモデルの性能を劣化させることができる。 そこで本研究では,事前学習言語モデルに基づくより強力な停止挿入フレームワークを提案する。 提案手法では,大規模テキストコーパス上で事前学習した変換器(BERT)からの双方向エンコーダ表現を用いて,話者埋め込みを注入し,様々な話者特性を捉える。 また、より自然なマルチスピーカTSに対して、持続時間対応の停止挿入を利用する。 我々は2種類のモデルを開発し評価する。 第一に,呼吸停止(rps)の位置予測における従来のフラージングモデル,すなわち句読点を伴わない単語遷移におけるサイレントポーズを改善する。 文脈情報を考慮した話者条件rp予測を行い、その予測に対する話者情報の影響を示す。 第2のモデルは音素ベースのTSモデルのためにさらに設計され、持続時間対応の停止挿入を実行し、時間によって分類されるRPと句読点表示停止(PIP)の両方を予測する。 評価の結果,本モデルではポーズ挿入の精度とリコール,および合成音声のリズムが向上した。

Pause insertion, also known as phrase break prediction and phrasing, is an essential part of TTS systems because proper pauses with natural duration significantly enhance the rhythm and intelligibility of synthetic speech. However, conventional phrasing models ignore various speakers' different styles of inserting silent pauses, which can degrade the performance of the model trained on a multi-speaker speech corpus. To this end, we propose more powerful pause insertion frameworks based on a pre-trained language model. Our approach uses bidirectional encoder representations from transformers (BERT) pre-trained on a large-scale text corpus, injecting speaker embedding to capture various speaker characteristics. We also leverage duration-aware pause insertion for more natural multi-speaker TTS. We develop and evaluate two types of models. The first improves conventional phrasing models on the position prediction of respiratory pauses (RPs), i.e., silent pauses at word transitions without punctuation. It performs speaker-conditioned RP prediction considering contextual information and is used to demonstrate the effect of speaker information on the prediction. The second model is further designed for phoneme-based TTS models and performs duration-aware pause insertion, predicting both RPs and punctuation-indicated pauses (PIPs) that are categorized by duration. The evaluation results show that our models improve the precision and recall of pause insertion and the rhythm of synthetic speech.
翻訳日:2023-02-28 16:06:39 公開日:2023-02-27
# エヴェレットの量子力学の多世界解釈とワームホールの幾何学的位相

Geometric phases, Everett's many-worlds interpretation of quantum mechanics, and wormholes ( http://arxiv.org/abs/2302.13651v1 )

ライセンス: Link先を確認
David Viennot(参考訳) 断熱量子力学における幾何学的位相の形式化が、エベレットの量子力学の多世界解釈(確率変化に必要な世界間の干渉や優先基底問題を解くのに必要なデコヒーレンス過程など)を許す幾何学的実現をいかに提供するかを示す。 また、この幾何学的実現は量子重力(特に行列モデル)と密接に関連していることを示し、多世界解釈は量子重力と一致することを示した。 一般相対性理論に借用されたワームホールの概念はこの幾何学的実現の中心である。 これは、解釈を助けるためにアナログによるイメージとしてだけでなく、量子重力における量子ワームホールの真の物理モデルとしても見える。

We present how the formalism of geometric phases in adiabatic quantum dynamics provides geometric realisations permitting to ``embody'' the Everett's many-worlds interpretation of quantum mechanics, including interferences between the worlds needed for the probability changes and the decoherence processes needed to solve the preferred basis problem. We show also that this geometric realisation is intimately related to quantum gravity (especially to matrix models), showing that the many-world interpretation can be consistent with quantum gravity. The concept of wormhole borrowed to general relativity is central in this geometric realisation. It appears not only as an image by analogy to help the interpretations, but also as a true physical model of quantum wormhole in quantum gravity, the two ones being consistent which each other.
翻訳日:2023-02-28 16:06:13 公開日:2023-02-27
# 熱浴と接触する開放系の量子速度限界

Quantum speed limits for an open system in contact with a thermal bath ( http://arxiv.org/abs/2302.13639v1 )

ライセンス: Link先を確認
N. Il'in, A. Aristova, O. Lychkovskiy(参考訳) 熱浴に結合した量子系の量子進化速度に関する基本的な厳密な境界を証明した。 境界は、システムバスハミルトニアンから導かれる少数体の観測可能量の期待値で定式化される。 これらはマルコフ近似には依存せず、結果として弱系-バスカップリングの限界を超えて適用できる。

We prove fundamental rigorous bounds on the speed of quantum evolution for a quantum system coupled to a thermal bath. The bounds are formulated in terms of expectation values of few-body observables derived from the system-bath Hamiltonian. They do not rely on the Markov approximation and, as a consequence, are applicable beyond the limit of weak system-bath coupling.
翻訳日:2023-02-28 16:05:57 公開日:2023-02-27
# ディープネットワークを用いた計算システムの性能予測

Predicting the Performance of a Computing System with Deep Networks ( http://arxiv.org/abs/2302.13638v1 )

ライセンス: Link先を確認
Mehmet Cengiz, Matthew Forshaw, Amir Atapour-Abarghouei, Andrew Stephen McGough(参考訳) コンピューティングハードウェアの性能とエネルギー消費量を予測することは、現代の多くのアプリケーションにとって非常に重要である。 これは調達決定、デプロイメント決定、自律スケーリングを通知する。 ハードウェアのパフォーマンスを理解する既存のアプローチは、主に、エンドユーザのニーズを代表することを目的とした、標準化されたワークロードのベンチマークに重点を置いている。 ベンチマークワークロードはエンドユーザのワークロードを表すものではなく、ベンチマークスコアはすべてのハードウェアで簡単には取得できない。 本稿では,未知ハードウェアのベンチマークスコアを予測するために,ディープラーニングモデルを構築する可能性を示す。 我々はSPEC 2017ベンチマークの結果を公開して評価する。 2つの畳み込みニューラルネットワーク(bespoke と resnet にインスパイアされた)と完全接続されたネットワークを3つの異なるネットワークで評価し,それぞれ 0.96, 0.98, 0.94 の印象的な$r^2$スコアを示した。

Predicting the performance and energy consumption of computing hardware is critical for many modern applications. This will inform procurement decisions, deployment decisions, and autonomic scaling. Existing approaches to understanding the performance of hardware largely focus around benchmarking -- leveraging standardised workloads which seek to be representative of an end-user's needs. Two key challenges are present; benchmark workloads may not be representative of an end-user's workload, and benchmark scores are not easily obtained for all hardware. Within this paper, we demonstrate the potential to build Deep Learning models to predict benchmark scores for unseen hardware. We undertake our evaluation with the openly available SPEC 2017 benchmark results. We evaluate three different networks, one fully-connected network along with two Convolutional Neural Networks (one bespoke and one ResNet inspired) and demonstrate impressive $R^2$ scores of 0.96, 0.98 and 0.94 respectively.
翻訳日:2023-02-28 16:05:51 公開日:2023-02-27
# 発振速度で測定された発振器からの消光

Squeezed light from an oscillator measured at the rate of oscillation ( http://arxiv.org/abs/2302.13633v1 )

ライセンス: Link先を確認
Christian B{\ae}rentsen, Sergey A. Fedorov, Christoffer {\O}stfeldt, Mikhail V. Balabas, Emil Zeuthen, Eugene S. Polzik(参考訳) 振動子の位置の連続的な測定は、測定がコヒーレント進化よりも速くなされたときに位置固有状態に投影される。 2\times10^{10}$室温原子のアンサンブル内のスピン振動子に対するこの遷移の影響を、メータ光場の二次間の相関を観測することによって証明する。 これらの相関関係は真空レベル以下の光四分体のゆらぎを絞った。 測定が発振よりも遅い場合には、11.5dBを生成し、共振周波数のごく一部である調整可能なバンドにおけるスクイーズ8.5dBを検出する。 振動と同じ速さで測定すると、共鳴の10年以上の周波数にまたがる4.7dbのスクイーズが検出される。 本研究は,材料振動子における連続量子計測の新しい手法を示し,線形量子センサの性能の新しいベンチマークを設定した。

Continuous measurements of the position of an oscillator become projective on position eigenstates when the measurements are made faster than the coherent evolution. We evidence an effect of this transition on a spin oscillator within an ensemble of $2\times10^{10}$ room-temperature atoms by observing correlations between the quadratures of the meter light field. These correlations squeeze the fluctuations of the light quadratures below the vacuum level. When the measurement is slower than the oscillation, we generate 11.5 dB and detect 8.5 dB of squeezing in a tunable band that is a fraction of the resonance frequency. When the measurement is as fast as the oscillation, we detect 4.7 dB of squeezing that spans more than one decade of frequencies below the resonance. Our results demonstrate a new regime of continuous quantum measurements on material oscillators, and set a new benchmark for the performance of a linear quantum sensor.
翻訳日:2023-02-28 16:05:33 公開日:2023-02-27
# パーキンソン病検出のためのカリキュラムに基づくマルチタスク学習

Curriculum Based Multi-Task Learning for Parkinson's Disease Detection ( http://arxiv.org/abs/2302.13631v1 )

ライセンス: Link先を確認
Nikhil J. Dhinagar, Conor Owens-Walton, Emily Laltoo, Christina P. Boyle, Yao-Liang Chen, Philip Cook, Corey McMillan, Chih-Chien Tsai, J-J Wang, Yih-Ru Wu, Ysbrand van der Werf, Paul M. Thompson(参考訳) パーキンソン病(PD)のような進行性疾患の早期発見が困難な神経変性疾患において、診断、ステージング、予測モデリングのための放射線学的分類器の開発に大きな関心がある。 ここでは、重症度に基づくメタデータを利用して、深層畳み込みニューラルネットワーク(CNN)をトレーニングするためのカリキュラムを定義する。 通常、ディープラーニングネットワークは、各ミニバッチでランダムにサンプルを選択することでトレーニングされる。 対照的に、カリキュラム学習は、分類し易い例から始めることで分類器のパフォーマンスを向上させるための訓練戦略である。 ここでは, PD患者653名, コントロール359名, 年齢範囲20.0-84.9歳)に対するHoehn and Yahr(H&Y)ステージングシステムに対応するトレーニングデータの難易度を徐々に向上させるカリキュラムを定義する。 プレトレーニングCNNとトランスファーラーニングを用いたマルチタスク設定でも,T1強調(T1-w)MRIに基づくPD分類は困難であった(ROC AUC: 0.59-0.65)が,カリキュラムトレーニングでは,ベースラインモデルと比較してパフォーマンスが3.9%向上した。 将来のマルチモーダルイメージングによる作業により、さらなるパフォーマンス向上が期待できる。

There is great interest in developing radiological classifiers for diagnosis, staging, and predictive modeling in progressive diseases such as Parkinson's disease (PD), a neurodegenerative disease that is difficult to detect in its early stages. Here we leverage severity-based meta-data on the stages of disease to define a curriculum for training a deep convolutional neural network (CNN). Typically, deep learning networks are trained by randomly selecting samples in each mini-batch. By contrast, curriculum learning is a training strategy that aims to boost classifier performance by starting with examples that are easier to classify. Here we define a curriculum to progressively increase the difficulty of the training data corresponding to the Hoehn and Yahr (H&Y) staging system for PD (total N=1,012; 653 PD patients, 359 controls; age range: 20.0-84.9 years). Even with our multi-task setting using pre-trained CNNs and transfer learning, PD classification based on T1-weighted (T1-w) MRI was challenging (ROC AUC: 0.59-0.65), but curriculum training boosted performance (by 3.9%) compared to our baseline model. Future work with multimodal imaging may further boost performance.
翻訳日:2023-02-28 16:05:17 公開日:2023-02-27
# ロボット群による連続環境の推定:相関ネットワークと意思決定

Estimation of continuous environments by robot swarms: Correlated networks and decision-making ( http://arxiv.org/abs/2302.13629v1 )

ライセンス: Link先を確認
Mohsen Raoufi, Pawel Romanczuk, Heiko Hamann(参考訳) 集団的意思決定は、swarmレベルで自律性を確立するために、大規模マルチロボットシステムの必須の機能である。 群ロボティクスにおける集団意思決定に関する文献の多くは、限られた選択肢から選択した個別の決定に焦点を当てている。 ここでは、非有界環境を探索し、測定可能な環境特徴の平均についてのコンセンサスを見つけ、その値が測定される領域(例えば、輪郭線)に集約するタスクを分散化されたロボットシステムに割り当てる。 このタスクのユニークな性質は、ロボットの動的ネットワークトポロジーとその意思決定の間の因果ループである。 例えば、ネットワークの平均ノード次数は収束時間に影響し、現在合意されている平均値はswarmの集約位置に影響するため、ネットワーク構造と精度エラーも影響する。 本研究では,実環境におけるロボット群実験における制御アルゴリズムを提案する。 提案手法は実効性があり,制御実験よりも精度が高いことを示す。 我々は、例えば、表面車両による汚染を含むような応用を期待する。

Collective decision-making is an essential capability of large-scale multi-robot systems to establish autonomy on the swarm level. A large portion of literature on collective decision-making in swarm robotics focuses on discrete decisions selecting from a limited number of options. Here we assign a decentralized robot system with the task of exploring an unbounded environment, finding consensus on the mean of a measurable environmental feature, and aggregating at areas where that value is measured (e.g., a contour line). A unique quality of this task is a causal loop between the robots' dynamic network topology and their decision-making. For example, the network's mean node degree influences time to convergence while the currently agreed-on mean value influences the swarm's aggregation location, hence, also the network structure as well as the precision error. We propose a control algorithm and study it in real-world robot swarm experiments in different environments. We show that our approach is effective and achieves higher precision than a control experiment. We anticipate applications, for example, in containing pollution with surface vehicles.
翻訳日:2023-02-28 16:04:57 公開日:2023-02-27
# 経路積分による分子系の非ボン・オッペンハイマーダイナミクスの量子シミュレーション

Quantum Simulation of non-Born-Oppenheimer dynamics in molecular systems by path integrals ( http://arxiv.org/abs/2302.13628v1 )

ライセンス: Link先を確認
Sumita Datta(参考訳) シュレーディンガー方程式を解くための確率論的経路積分法に基づく数値アルゴリズムは、従来の変分法や摂動法の代替として、0温度における非相対論的極限におけるボルン・オッペンハイマー近似のない分子系を扱うために考案された。 一般化されたFeynman-Kac法に基づく高品質な変分試験関数と経路積分法を用いて,シグマ状態および水素分子イオンに対する水素分子の非ボン・オッペンハイマーエネルギーを計算することができた。 これらの値と原子水素のイオン化ポテンシャル、解離エネルギー、水素分子のイオン化ポテンシャルの値を組み合わせて、36 113.672(3) cm inverseと124.446.066(10) cm inverse.respectivelyと決定した。 この結果は、他の理論および実験結果と好意的に比較され、基本的な物理理論をテストするための非摂動的代替手段としての期待を示す。

A numerical algorithm based on the probabilistic path integral approach for solving Schroedinger equation has been devised to treat molecular systems without Born-Oppenheimer approximation in the non relativistic limit at zero temperature as an alternative to conventional Variational and perturbation methods. Using high quality variational trial functions and path integral method based on Generalized Feynman-Kac method, we have been able to calculate the non-Born-Oppenheimer energy for hydrogen molecule for the sigma state and hydrogen molecular ion. Combining these values and the value for ionization potential for atomic hydrogen, dissociation energy and ionization potential for hydrogen molecule have been determined to be 36 113.672(3) cm inverse and 124.446.066(10) cm inverse.respectively. Our results favorably compare with other theoretical and experimental results and thus show the promise of being a nonperturbative alternative for testing fundamental physical theories.
翻訳日:2023-02-28 16:04:40 公開日:2023-02-27
# anti-$\mathcal{pt}$-symmetric optomechanics における非交互遅いまたは速い光

Nonreciprocal slow or fast light in anti-$\mathcal{PT}$-symmetric optomechanics ( http://arxiv.org/abs/2302.13627v1 )

ライセンス: Link先を確認
Meiyu Peng, Huilai Zhang, Qian Zhang, Tian-Xiang Lu, Imran M. Mirza and Hui Jing(参考訳) 反パリティ時間(\mathcal{apt}$)対称性を持つ非エルミート系は、従来の系を超えてリッチな物理を明らかにした。 ここでは、$\mathcal{APT}$-symmetric spin resonator の光力学を研究し、回転速度を調整して例外点 (EP) や非エルミートスペクトル縮退に近づくことにより、高い分離比を持つ非相互光伝送を実現することを示す。 このプロセスと合わせて、EP近傍では非相互群遅延または進行も識別される。 私たちの研究は、光学機械式epデバイスでレーザー伝搬を操作する新しい光を流し、より広い視点で、$\mathcal{apt}$-symmetric phononレーザー、$\mathcal{apt}$-symmetric topological effects、$\mathcal{apt}$-symmetric force sensingまたはacceleratorなど、幅広い$\mathcal{apt}$-symmetric effectsを探索するために拡張することができる。

Non-Hermitian systems with anti-parity-time ($\mathcal{APT}$) symmetry have revealed rich physics beyond conventional systems. Here, we study optomechanics in an $\mathcal{APT}$-symmetric spinning resonator and show that, by tuning the rotating speed to approach the exceptional point (EP) or the non-Hermitian spectral degeneracy, nonreciprocal light transmission with a high isolation ratio can be realized. Accompanying this process, nonreciprocal group delay or advance is also identified in the vicinity of EP. Our work sheds new light on manipulating laser propagation with optomechanical EP devices and, in a broader view, can be extended to explore a wide range of $\mathcal{APT}$-symmetric effects, such as $\mathcal{APT}$-symmetric phonon lasers, $\mathcal{APT}$-symmetric topological effects, and $\mathcal{APT}$-symmetric force sensing or accelerator.
翻訳日:2023-02-28 16:04:22 公開日:2023-02-27
# 自動構築された単語意味説明の評価

Evaluation of Automatically Constructed Word Meaning Explanations ( http://arxiv.org/abs/2302.13625v1 )

ライセンス: Link先を確認
Marie Star\'a and Pavel Rychl\'y and Ale\v{s} Hor\'ak(参考訳) 正確かつ包括的な単語の意味説明の準備は、単言語辞書作成の過程における重要なステップの1つである。 標準的な方法論では、説明には、記述テキストとコーパス証拠の一貫性を確認するのにかなりの時間を費やす専門家の辞書作成者が必要である。 以下のテキストでは,非常に大きなコーパス,特に単語スケッチからの集団情報に基づいて,説明を自動的に導出する新しいツールを提案する。 また, 名詞の説明に焦点をあて, 構築された説明の定量的評価も提案する。 その方法論はある程度独立した言語であるが、提示された検証はチェコ語と英語に限られている。 提案手法は,単語の意味を理解するのに有用なデータを含む説明を約90%のケースで作成できることを示す。 しかし多くの場合、結果として余分な情報が削除される。

Preparing exact and comprehensive word meaning explanations is one of the key steps in the process of monolingual dictionary writing. In standard methodology, the explanations need an expert lexicographer who spends a substantial amount of time checking the consistency between the descriptive text and corpus evidence. In the following text, we present a new tool that derives explanations automatically based on collective information from very large corpora, particularly on word sketches. We also propose a quantitative evaluation of the constructed explanations, concentrating on explanations of nouns. The methodology is to a certain extent language independent; however, the presented verification is limited to Czech and English. We show that the presented approach allows to create explanations that contain data useful for understanding the word meaning in approximately 90% of cases. However, in many cases, the result requires post-editing to remove redundant information.
翻訳日:2023-02-28 16:03:59 公開日:2023-02-27
# DLOFTBs -- B-splinesによる変形可能な線形物体の高速追跡

DLOFTBs -- Fast Tracking of Deformable Linear Objects with B-splines ( http://arxiv.org/abs/2302.13694v1 )

ライセンス: Link先を確認
Piotr Kicki, Amadeusz Szymko, Krzysztof Walas(参考訳) 剛体物体の操作は広範な研究課題であるが、変形可能な線形物体(DLO)の操作は著しく未発達である。 潜在的な理由は、DLOの状態を操作中の幾何学的変化として記述し観察することの難しさである。 本稿では,マスク画像に基づいてDLOの形状を高速に追跡するアルゴリズムを提案する。 追跡対象について事前の知識がないため,提案手法は数十ミリ秒以内の追跡対象の形状の信頼性の高い表現を求める。 このアルゴリズムの主なアイデアは、まずDLOマスクの画像をスケルトン化し、DLOのスケルトンの一部を通り抜け、セグメントを順序づけられた経路に配置し、最後にB-スプラインを適合させることである。 実験の結果,DLOの形状復元精度とアルゴリズム実行時間において,本手法は最先端の手法よりも優れており,重度の閉塞,自己切断,複数のDLOを単一画像で処理できることがわかった。

While the manipulation of rigid objects is an extensively explored research topic, deformable linear object (DLO) manipulation seems significantly underdeveloped. A potential reason for this is the inherent difficulty in describing and observing the state of the DLO as its geometry changes during manipulation. This paper proposes an algorithm for fast-tracking the shape of a DLO based on the masked image. Having no prior knowledge about the tracked object, the proposed method finds a reliable representation of the shape of the tracked object within tens of milliseconds. This algorithm's main idea is to first skeletonize the DLO mask image, walk through the parts of the DLO skeleton, arrange the segments into an ordered path, and finally fit a B-spline into it. Experiments show that our solution outperforms the State-of-the-Art approaches in DLO's shape reconstruction accuracy and algorithm running time and can handle challenging scenarios such as severe occlusions, self-intersections, and multiple DLOs in a single image.
翻訳日:2023-02-28 15:58:11 公開日:2023-02-27
# 学習トポロジ-分子特性予測の専門家

Learning Topology-Specific Experts for Molecular Property Prediction ( http://arxiv.org/abs/2302.13693v1 )

ライセンス: Link先を確認
Su Kim, Dongha Lee, SeongKu Kang, Seonghyeon Lee, Hwanjo Yu(参考訳) 近年,グラフニューラルネットワーク (gnns) が分子特性の予測に応用されている。 その効果にもかかわらず、異なる構造パターンを持つ多様な分子に対して単一のGNNモデルを訓練することで予測性能が制限されることを実証的に観察した。 本稿では、この観測を動機として、各分子群が同様のトポロジカルセマンティクスを共有する責任を負うトポロジ固有の予測モデル(専門家として参照)を活用することを提案する。 すなわち、それぞれの専門家は、対応する位相群で訓練されながら、トポロジー特有の識別特徴を学ぶ。 分子をトポロジカルなパターンでグループ化する上で重要な課題に対処するために,入力分子をクラスタの1つに割り当てるクラスタリングベースのゲーティングモジュールを導入し,それぞれGNNと分子足場によって誘導されるトポロジ的セマンティクスという2種類のセルフスーパービジョンでゲーティングモジュールを最適化する。 大規模な実験により、 \proposed は分子特性予測の性能を高め、ベースラインよりも目に見えない足場を持つ新しい分子のより優れた一般化を実現した。 コードはhttps://github.com/kimsu55/ToxExpert.comで入手できる。

Recently, graph neural networks (GNNs) have been successfully applied to predicting molecular properties, which is one of the most classical cheminformatics tasks with various applications. Despite their effectiveness, we empirically observe that training a single GNN model for diverse molecules with distinct structural patterns limits its prediction performance. In this paper, motivated by this observation, we propose \proposed to leverage topology-specific prediction models (referred to as experts), each of which is responsible for each molecular group sharing similar topological semantics. That is, each expert learns topology-specific discriminative features while being trained with its corresponding topological group. To tackle the key challenge of grouping molecules by their topological patterns, we introduce a clustering-based gating module that assigns an input molecule into one of the clusters and further optimizes the gating module with two different types of self-supervision: topological semantics induced by GNNs and molecular scaffolds, respectively. Extensive experiments demonstrate that \proposed has boosted the performance for molecular property prediction and also achieved better generalization for new molecules with unseen scaffolds than baselines. The code is available at https://github.com/kimsu55/ToxExpert.
翻訳日:2023-02-28 15:57:52 公開日:2023-02-27
# 測定専用量子回路における格子ゲージヒッグス位相状態の生成

Production of lattice gauge-Higgs topological states in measurement-only quantum circuit ( http://arxiv.org/abs/2302.13692v1 )

ライセンス: Link先を確認
Yoshihito Kuno, Ikuo Ichinose(参考訳) ハミルトニアンによる想像上の時間発展により、任意の状態が系の基底状態に到達する。 本研究では,このダイナミクスを,各射影計測を適切な方法で設定した測定専用回路(MoC)でシミュレートできると予想する。 そこで,ハミルトニアンの項とパラメータの比(共効率性)に基づいて,安定化器と呼ばれる測定演算子の選択とmocにおける射影計測の確率の誘導原理を提案する。 このパラメータ比と確率比対応の予想を検証・検証するために、一般化された(1+1)-d $z_2$ 格子ゲージヒッグスモデルについて検討する。 誘導原理によって構成されたMoCは、ゲージ・ヒッグス・ハミルトニアンの基底状態と非常によく似た位相図を再現する。 本研究は,mocを一般のハミルトニアン系ではシミュレーションが困難である物質の興味深い相を生成するために広く利用できることを示す。

By imaginary-time evolution with Hamiltonian, an arbitrary state arrives in the system's ground state. In this work, we conjecture that this dynamics can be simulated by measurement-only circuit (MoC), where each projective measurement is set in a suitable way. Based on terms in the Hamiltonian and ratios of their parameters (coefficients), we propose a guiding principle for the choice of the measured operators called stabilizers and also the probability of projective measurement in the MoC. In order to examine and verify this conjecture of the parameter ratio and probability ratio correspondence, we study a generalized (1+1)-D $Z_2$ lattice gauge-Higgs model, whose phase diagram is very rich including symmetry-protected topological phase, phase of spontaneous breaking of higher-form symmetry, etc. We find that the MoC constructed by the guiding principle reproduces phase diagram very similar to that of the ground state of the gauge-Higgs Hamiltonian. The present work indicates that the MoC can be broadly used to produce interesting phases of matter, which are difficult to be simulated by ordinary Hamiltonian systems.
翻訳日:2023-02-28 15:57:28 公開日:2023-02-27
# 一次元における同一フェルミオンの3体散乱超体積

The three-body scattering hypervolume of identical fermions in one dimension ( http://arxiv.org/abs/2302.13685v1 )

ライセンス: Link先を確認
Zipeng Wang and Shina Tan(参考訳) 1次元に短距離相互作用を持つ3つの同一スピン偏極フェルミオンのゼロエネルギー衝突について検討した。 我々は、3つのフェルミオンが遠く、または1対のフェルミオンと3つのフェルミオンが遠く離れているときの3体波動関数の漸近膨張を導出し、そのような膨張係数に3体散乱超体積$D_F$が現れる。 2体相互作用が魅力的で2体束縛状態をサポートする場合、$d_f$は、結果の束縛対と残りの自由フェルミオンの離脱を記述する出射波の振幅に関する負の虚部を取得する。 弱い相互作用ポテンシャルに対しては、ボルン展開を用いて超体積の近似式を導出する。 正方形バリア、正方形ウェルポテンシャル、ガウスポテンシャルに対して、3体シュレーディンガー方程式を解くことにより、数値的に$D_F$を計算する。 また, スピン偏極型1次元フェルミガスの非零$D_F$と3体組換え率によるエネルギー変化と圧力を1次元で計算した。

We study the zero-energy collision of three identical spin-polarized fermions with short-range interactions in one dimension. We derive the asymptotic expansions of the three-body wave function when the three fermions are far apart or one pair and the third fermion are far apart, and the three-body scattering hypervolume $D_F$ appears in the coefficients of such expansions. If the two-body interaction is attractive and supports two-body bound states, $D_F$ acquires a negative imaginary part related to the amplitudes of the outgoing waves describing the departure of the resultant bound pair and the remaining free fermion. For weak interaction potentials, we derive an approximate formula of the hypervolume by using the Born expansion. For the square-barrier and the square-well potentials and the Gaussian potential, we solve the three-body Schr\"{o}dinger equation to compute $D_F$ numerically. We also calculate the shifts of energy and of pressure of spin-polarized one-dimensional Fermi gases due to a nonzero $D_F$ and the three-body recombination rate in one dimension.
翻訳日:2023-02-28 15:57:09 公開日:2023-02-27
# Ab)大規模言語モデルの学習におけるオープンソースコードの利用

The (Ab)use of Open Source Code to Train Large Language Models ( http://arxiv.org/abs/2302.13681v1 )

ライセンス: Link先を確認
Ali Al-Kaswan and Maliheh Izadi(参考訳) 近年,Large Language Models (LLM) は,ヒューマンライクなテキストを生成する能力と,ソフトウェア工学などの様々な分野における潜在的な応用能力から,大きな人気を集めている。 LLM for Codeは一般にインターネットから取り除かれた大規模な無害なソースコードコーパスで訓練されている。 これらのデータセットの内容はモデルによって記憶され、しばしば口頭で出力される。 本研究では,記憶のセキュリティ,プライバシ,ライセンスの意義について論じる。 LLMのトレーニングにコピーレフトコードを使うことが法的かつ倫理的なジレンマである理由を論じる。 最後に、この問題に対処するために4つのアクション可能なレコメンデーションを提供します。

In recent years, Large Language Models (LLMs) have gained significant popularity due to their ability to generate human-like text and their potential applications in various fields, such as Software Engineering. LLMs for Code are commonly trained on large unsanitized corpora of source code scraped from the Internet. The content of these datasets is memorized and emitted by the models, often in a verbatim manner. In this work, we will discuss the security, privacy, and licensing implications of memorization. We argue why the use of copyleft code to train LLMs is a legal and ethical dilemma. Finally, we provide four actionable recommendations to address this issue.
翻訳日:2023-02-28 15:56:47 公開日:2023-02-27
# 歌唱音声変換における遅延レグレッタ損失の比較分析

A Comparative Analysis Of Latent Regressor Losses For Singing Voice Conversion ( http://arxiv.org/abs/2302.13678v1 )

ライセンス: Link先を確認
Brendan O'Connor, Simon Dixon(参考訳) 従来の研究では、歌唱音声変換(SVC)に適用した場合、音声変換(VC)の確立した手法がうまく機能しないことが示された。 本稿では,VCタスク間でよく確立されている損失関数の代替損失成分を提案する。 まず,シンガーレコードのメルスペクトログラムを用いたシンガーid埋め込み(sie)ネットワークを訓練し,コントラスト学習を用いてシンガー固有分散符号化を作成した。 その後、これらのSIEを前提としたよく知られたオートエンコーダフレームワーク(AutoVC)を訓練し、異なる遅延回帰器損失成分を用いた場合のSVC性能の違いを測定した。 この損失 w.r.t. SIEs を用いることで、w.r.t.のボトルネック埋め込みよりもパフォーマンスが向上することを発見した。 この損失成分を包含することは、ネットワークに鼓膜的類似性による再構築を明示的に強制する利点があり、AutoVCのボトルネック埋め込みにおける不整合の影響を否定する。 シンガー変換音声クリップにおける計算と人間の評価の特異な多様性を示し,両者の必要性を強調する。 また,これらの評価がピッチレジスタの違いに影響を受けないように,音源とターゲットシンガー間のピッチマッチング機構を提案する。

Previous research has shown that established techniques for spoken voice conversion (VC) do not perform as well when applied to singing voice conversion (SVC). We propose an alternative loss component in a loss function that is otherwise well-established among VC tasks, which has been shown to improve our model's SVC performance. We first trained a singer identity embedding (SIE) network on mel-spectrograms of singer recordings to produce singer-specific variance encodings using contrastive learning. We subsequently trained a well-known autoencoder framework (AutoVC) conditioned on these SIEs, and measured differences in SVC performance when using different latent regressor loss components. We found that using this loss w.r.t. SIEs leads to better performance than w.r.t. bottleneck embeddings, where converted audio is more natural and specific towards target singers. The inclusion of this loss component has the advantage of explicitly forcing the network to reconstruct with timbral similarity, and also negates the effect of poor disentanglement in AutoVC's bottleneck embeddings. We demonstrate peculiar diversity between computational and human evaluations on singer-converted audio clips, which highlights the necessity of both. We also propose a pitch-matching mechanism between source and target singers to ensure these evaluations are not influenced by differences in pitch register.
翻訳日:2023-02-28 15:56:37 公開日:2023-02-27
# 異方性量子ラビモデルにおける臨界増強量子センシング

Criticality-Enhanced Quantum Sensing in the Anisotropic Quantum Rabi Model ( http://arxiv.org/abs/2302.13676v1 )

ライセンス: Link先を確認
Xin Zhu, Jia-Hao L\"u, Wen Ning, Fan Wu, Li-Tuo Shen, Zhen-Biao Yang, Shi-Biao Zheng(参考訳) 量子相転移を受ける量子系は発散性を示し、物理的パラメータを推定するプローブとして利用することができる。 我々は、量子ラビモデル(QRM)による臨界強調量子センシングの動的枠組みを、その異方性に一般化し、量子フィッシャー情報(QFI)の対応する解析式を導出する。 回転波と反回転波の相互作用項の寄与は、場の周波数に対する量子ビット周波数の無限比の限界において対称であり、qfiは等方性量子ラビモデルにおいて最大値に達する。 有限周波スケーリングにおいて,高次補正の逆分散を解析的に導出し,逆回転波結合よりも回転波結合の影響を受けることを見出した。

Quantum systems that undergo quantum phase transitions exhibit divergent susceptibility and can be exploited as probes to estimate physical parameters. We generalize the dynamic framework for criticality-enhanced quantum sensing by the quantum Rabi model (QRM) to its anisotropic counterpart and derive the correspondingly analytical expressions for the quantum Fisher information (QFI). We find that the contributions of the rotating-wave and counterrotating-wave interaction terms are symmetric at the limit of the infinite ratio of qubit frequency to field frequency, with the QFI reaching a maximum for the isotropic quantum Rabi model. At finite frequency scaling, we analytically derive the inverted variance of higher-order correction and find that it is more affected by the rotating-wave coupling than by the counterrotating-wave coupling.
翻訳日:2023-02-28 15:56:16 公開日:2023-02-27
# ビデオグラフ変換器によるコントラスト映像質問応答

Contrastive Video Question Answering via Video Graph Transformer ( http://arxiv.org/abs/2302.13668v1 )

ライセンス: Link先を確認
Junbin Xiao, Pan Zhou, Angela Yao, Yicong Li, Richang Hong, Shuicheng Yan and Tat-Seng Chua(参考訳) 本稿では,ビデオグラフ変換器モデル(CoVGT)を用いて,ビデオ質問応答(VideoQA)をコントラスト的に行うことを提案する。 CoVGTの独自性と優越性は3倍である。 1) 複雑な時空間推論のために, 視覚オブジェクト, それらの関係, ダイナミクスを明示的に捉えて映像を符号化する動的グラフトランスフォーマモジュールを提案する。 2) 応答分類のためのマルチモーダル変換器ではなく,ビデオとテキスト間のコントラスト学習のためのビデオとテキストの変換器を設計する。 詳細なビデオテキスト通信は、追加のクロスモーダルインタラクションモジュールによって行われる。 3) 正解と誤答, 関連質問と無関係質問の間には, 完全かつ自己監督的な対照的目標が一致し, それぞれ最適化された。 優れたビデオエンコーディングとQAソリューションにより、CoVGTは従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。 そのパフォーマンスは、何百万もの外部データで事前訓練されたモデルを上回る。 さらに、CoVGTは、桁違いに小さなデータで、クロスモーダル事前学習の恩恵を受けることができることを示す。 その結果、CoVGTの有効性と優位性を示し、さらにデータ効率のよい事前学習の可能性を明らかにした。 われわれの成功が、粗い認識/記述を超えて、ビデオコンテンツの微粒な関連性推論へと進むことを願っている。 私たちのコードはhttps://github.com/doc-doc/covgtで利用可能です。

We propose to perform video question answering (VideoQA) in a Contrastive manner via a Video Graph Transformer model (CoVGT). CoVGT's uniqueness and superiority are three-fold: 1) It proposes a dynamic graph transformer module which encodes video by explicitly capturing the visual objects, their relations and dynamics, for complex spatio-temporal reasoning. 2) It designs separate video and text transformers for contrastive learning between the video and text to perform QA, instead of multi-modal transformer for answer classification. Fine-grained video-text communication is done by additional cross-modal interaction modules. 3) It is optimized by the joint fully- and self-supervised contrastive objectives between the correct and incorrect answers, as well as the relevant and irrelevant questions respectively. With superior video encoding and QA solution, we show that CoVGT can achieve much better performances than previous arts on video reasoning tasks. Its performances even surpass those models that are pretrained with millions of external data. We further show that CoVGT can also benefit from cross-modal pretraining, yet with orders of magnitude smaller data. The results demonstrate the effectiveness and superiority of CoVGT, and additionally reveal its potential for more data-efficient pretraining. We hope our success can advance VideoQA beyond coarse recognition/description towards fine-grained relation reasoning of video contents. Our code will be available at https://github.com/doc-doc/CoVGT.
翻訳日:2023-02-28 15:56:02 公開日:2023-02-27
# Wav2vec 2.0とBERTのマルチモーダル融合における補助的タスクを用いたマルチモーダル感情認識

Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition ( http://arxiv.org/abs/2302.13661v1 )

ライセンス: Link先を確認
Dekai Sun, Yancheng He, Jiqing Han(参考訳) データの欠如とマルチモーダル融合の難しさは、常にマルチモーダル感情認識(mer)の課題となっている。 本稿では,音声モダリティのためのwav2vec 2.0とテキストモダリティのためのbertを上流ネットワークとして使用し,データ不足に対処するためにmerの下流タスクでそれらを微調整することを提案する。 マルチモーダル融合の難しさのために,k層マルチヘッドアテンション機構を下流融合モジュールとして用いる。 MERタスク自体から、モダリティ間の融合が不十分なことを緩和し、ネットワークを誘導し、感情に関連した特徴を捕捉・調整する2つの補助タスクを設計する。 従来の最先端モデルと比較すると、IEMOCAPデータセット上で78.42%の重み付き精度(WA)と79.71%の非重み付き精度(UA)によりパフォーマンスが向上する。

The lack of data and the difficulty of multimodal fusion have always been challenges for multimodal emotion recognition (MER). In this paper, we propose to use pretrained models as upstream network, wav2vec 2.0 for audio modality and BERT for text modality, and finetune them in downstream task of MER to cope with the lack of data. For the difficulty of multimodal fusion, we use a K-layer multi-head attention mechanism as a downstream fusion module. Starting from the MER task itself, we design two auxiliary tasks to alleviate the insufficient fusion between modalities and guide the network to capture and align emotion-related features. Compared to the previous state-of-the-art models, we achieve a better performance by 78.42% Weighted Accuracy (WA) and 79.71% Unweighted Accuracy (UA) on the IEMOCAP dataset.
翻訳日:2023-02-28 15:55:41 公開日:2023-02-27
# 平衡バンド:未知力学の最適平衡を学習する

Equilibrium Bandits: Learning Optimal Equilibria of Unknown Dynamics ( http://arxiv.org/abs/2302.13653v1 )

ライセンス: Link先を確認
Siddharth Chandak, Ilai Bistritz, Nicholas Bambos(参考訳) 未知のシステムを制御するために$k$アクションの中から1つを$t$ターンで選択できる意思決定者を考える。 アクションは異なる設定やポリシーとして解釈される。 同じ作用を固定すると、システムは漸近的にこの作用の関数として一意の平衡に収束する。 システムのダイナミクスは意思決定者にとって未知であり、各ターンの最後にノイズの多い報酬しか観測できない。 その意思決定者は、その累積報酬をT$ターンで最大化したい。 平衡がよいものを学ぶことは、より高い報酬をもたらすが、システムが平衡に収束するのを待つことは貴重な時間である。 既存のバンディットアルゴリズムは確率的あるいは逆数的であり、この問題に対して線形な(自明な)後悔をもたらす。 我々は、平衡に達するまで待つ価値がなければ素早く作用を切り替えることを知っている、上平衡濃度境界 (UECB) と呼ばれる新しいアルゴリズムを提案する。 これは収束境界を用いて系が平衡からどれくらい離れているかを決定することで実現される。 我々は、この平衡帯域問題に対して、UECBが$\mathcal{O}(\log(T)+\tau_c\log(\tau_c)+\tau_c\log(T))$の後悔を達成することを証明している。 すると、流行制御とゲーム制御の両方が平衡バンディットの特別な場合であり、そこでは通常、$\tau_c\log \tau_c$が後悔を支配する。 次に、これら両方のアプリケーションでuecbを数値的にテストします。

Consider a decision-maker that can pick one out of $K$ actions to control an unknown system, for $T$ turns. The actions are interpreted as different configurations or policies. Holding the same action fixed, the system asymptotically converges to a unique equilibrium, as a function of this action. The dynamics of the system are unknown to the decision-maker, which can only observe a noisy reward at the end of every turn. The decision-maker wants to maximize its accumulated reward over the $T$ turns. Learning what equilibria are better results in higher rewards, but waiting for the system to converge to equilibrium costs valuable time. Existing bandit algorithms, either stochastic or adversarial, achieve linear (trivial) regret for this problem. We present a novel algorithm, termed Upper Equilibrium Concentration Bound (UECB), that knows to switch an action quickly if it is not worth it to wait until the equilibrium is reached. This is enabled by employing convergence bounds to determine how far the system is from equilibrium. We prove that UECB achieves a regret of $\mathcal{O}(\log(T)+\tau_c\log(\tau_c)+\tau_c\log\log(T))$ for this equilibrium bandit problem where $\tau_c$ is the worst case approximate convergence time to equilibrium. We then show that both epidemic control and game control are special cases of equilibrium bandits, where $\tau_c\log \tau_c$ typically dominates the regret. We then test UECB numerically for both of these applications.
翻訳日:2023-02-28 15:55:22 公開日:2023-02-27
# データガバナンスのフレームワークのマッピングと比較:グローバルデータガバナンスの審議を知らせるベンチマーク

Mapping and Comparing Data Governance Frameworks: A benchmarking exercise to inform global data governance deliberations ( http://arxiv.org/abs/2302.13731v1 )

ライセンス: Link先を確認
Sara Marcucci, Natalia Gonzalez Alarcon, Stefaan G. Verhulst, and Elena Wullhorst(参考訳) データは組織や社会にとって重要なリソースとなっている。 しかし、その管理と使用について明確に定義されたアプローチがないため、必ずしもそうであるようには値しない。 本稿では、データの急速な成長と責任あるデータ利用と保護の必要性による、グローバルなデータガバナンスの重要性の高まりについて論じる。 歴史的に民間の組織的ガバナンスと関連がある一方で、データガバナンスは政府や機関の組織を含むように進化してきた。 しかしながら、グローバルなコンセンサスとポリシーとプラクティスの断片化の欠如は、共通のフレームワークの開発に課題をもたらします。 本報告の目的は、国際開発分野に近い分野において、創発的で断片化されたデータガバナンスエコシステムにおけるアプローチとパターンを比較し、いつ、なぜグローバルなデータガバナンスフレームワークが必要なのかを考察することである。 全体として、このレポートは、データのグローバルフローを責任を持って、そして公共の利益のために管理するために、データガバナンスに対するより包括的でコーディネートされた国際的アプローチの必要性を強調している。 この記事は、現在の断片化されたデータガバナンスの生態を概観し、使用する方法論を説明することから始まります。 次に,本研究から得られた最も関連性の高い知見について述べる。 これらは6つの重要な要素に従って構成される。 a) 目的,目的. b) 原則 (c)文書のアンカー (d)データ記述及びライフサイクル e)プロセス,及び (f)練習。 最後に、記事は一連の重要な内容と最終的なリフレクションで終わる。

Data has become a critical resource for organizations and society. Yet, it is not always as valuable as it could be since there is no well-defined approach to managing and using it. This article explores the increasing importance of global data governance due to the rapid growth of data and the need for responsible data use and protection. While historically associated with private organizational governance, data governance has evolved to include governmental and institutional bodies. However, the lack of a global consensus and fragmentation in policies and practices pose challenges to the development of a common framework. The purpose of this report is to compare approaches and identify patterns in the emergent and fragmented data governance ecosystem within sectors close to the international development field, ultimately presenting key takeaways and reflections on when and why a global data governance framework may be needed. Overall, the report highlights the need for a more holistic, coordinated transnational approach to data governance to manage the global flow of data responsibly and for the public interest. The article begins by giving an overview of the current fragmented data governance ecology, to then proceed to illustrate the methodology used. Subsequently, the paper illustrates the most relevant findings stemming from the research. These are organized according to six key elements: (a) purpose, (b) principles, (c) anchoring documents, (d) data description and lifecycle, (e) processes, and (f) practices. Finally, the article closes with a series of key takeaways and final reflections.
翻訳日:2023-02-28 15:48:53 公開日:2023-02-27
# (Re)$^2$H2O: 逆正規化ハイブリッドオフライン・オンライン強化学習による自律運転シナリオ生成

(Re)$^2$H2O: Autonomous Driving Scenario Generation via Reversely Regularized Hybrid Offline-and-Online Reinforcement Learning ( http://arxiv.org/abs/2302.13726v1 )

ライセンス: Link先を確認
Haoyi Niu, Kun Ren, Yizhou Xu, Ziyuan Yang, Yichen Lin, Yi Zhang, Jianming Hu(参考訳) 自動運転とその普及は、長い間大きな約束を守ってきた。 それでも、信頼できる徹底的なテスト手順がなければ、業界は大量生産の自動運転車(AV)に苦戦するだけでなく、一般大衆も政策立案者もイノベーションを受け入れることを確信していない。 AVに重大な課題をもたらす安全クリティカルなシナリオを生成することは、テストにおける重要な第一歩です。 現実のデータセットには自然的だが過度に安全な運転行動が含まれており、シミュレーションは多様な攻撃的な交通シナリオの無制限な探索を可能にする。 逆に、シミュレーションにおける高次元探索空間は、実世界のデータ分布のない効率的なシナリオ生成を暗黙の制約として無効にする。 両者の利点を活かすために、オフラインの現実世界とオンラインのシミュレーションデータの両方からシナリオを同時に生成することを学ぶことは、魅力的に思える。 そこで我々は,実世界のデータに対するq値のペナライズとシミュレーションデータへのq値の報奨を行うために,逆正規化したオフライン・アンド・オンライン((re)$^2$h2o)強化学習レシピを調整した。 広範な実験を通じて、我々のソリューションは、競争力のあるベースラインよりもリスクの高いシナリオを生み出すことを証明し、様々な自律運転モデルで動作するように一般化することができる。 さらに、これらの生成されたシナリオは、avパフォーマンスの微調整が可能なように調整される。

Autonomous driving and its widespread adoption have long held tremendous promise. Nevertheless, without a trustworthy and thorough testing procedure, not only does the industry struggle to mass-produce autonomous vehicles (AV), but neither the general public nor policymakers are convinced to accept the innovations. Generating safety-critical scenarios that present significant challenges to AV is an essential first step in testing. Real-world datasets include naturalistic but overly safe driving behaviors, whereas simulation would allow for unrestricted exploration of diverse and aggressive traffic scenarios. Conversely, higher-dimensional searching space in simulation disables efficient scenario generation without real-world data distribution as implicit constraints. In order to marry the benefits of both, it seems appealing to learn to generate scenarios from both offline real-world and online simulation data simultaneously. Therefore, we tailor a Reversely Regularized Hybrid Offline-and-Online ((Re)$^2$H2O) Reinforcement Learning recipe to additionally penalize Q-values on real-world data and reward Q-values on simulated data, which ensures the generated scenarios are both varied and adversarial. Through extensive experiments, our solution proves to produce more risky scenarios than competitive baselines and it can generalize to work with various autonomous driving models. In addition, these generated scenarios are also corroborated to be capable of fine-tuning AV performance.
翻訳日:2023-02-28 15:48:31 公開日:2023-02-27
# セマンティック通信を用いた無線エンドツーエンド画像伝送システム

Wireless End-to-End Image Transmission System using Semantic Communications ( http://arxiv.org/abs/2302.13721v1 )

ライセンス: Link先を確認
Maheshi Lokumarambage, Vishnu Gowrisetty, Hossein Rezaei, Thushan Sivalingam, Nandana Rajatheva, Anil Fernando(参考訳) セマンティック通信は、受信側でデータをビット単位で再構成するのではなく、データの意味的意味を伝達することで、シャノンの定理を超えてデータを送信することを目的とした移動通信の未来であると考えられている。 セマンティックコミュニケーションパラダイムは、現代の高容量マルチメディアアプリケーションコンテンツ伝送における帯域幅の制限問題のギャップを埋めることを目的としている。 ai技術と6g通信ネットワークの統合は、セマンティックコミュニケーションベースのエンドツーエンド通信システムを開発するための道を開いた。 本研究では,意味コミュニケーションに基づくエンド・ツー・エンド画像伝送システムを実装し,物理チャネル特性と組み合わせた意味コミュニケーションシステムの開発における設計上の考察を行った。 受信機では、予め訓練されたganネットワークを送信タスクとして使用し、受信機入力のセマンティックセグメンテーション画像に基づいて現実的な画像を再構成する。 送信者(エンコーダ)のセマンティックセグメンテーションタスクと受信者(デコーダ)のGANネットワークは、共通知識ベースであるCOCO-Stuffデータセットに基づいて訓練される。 本研究は,従来の通信システムとは対照的に,物理チャネルを介して意味的セグメンテーションマップを送信する場合,帯域節約という形での資源利得が極めて大きいことを示す。 さらに,物理チャネル歪みと量子化ノイズがセマンティック通信に基づくマルチメディアコンテンツ伝送に与える影響について検討した。

Semantic communication is considered the future of mobile communication, which aims to transmit data beyond Shannon's theorem of communications by transmitting the semantic meaning of the data rather than the bit-by-bit reconstruction of the data at the receiver's end. The semantic communication paradigm aims to bridge the gap of limited bandwidth problems in modern high-volume multimedia application content transmission. Integrating AI technologies with the 6G communications networks paved the way to develop semantic communication-based end-to-end communication systems. In this study, we have implemented a semantic communication-based end-to-end image transmission system, and we discuss potential design considerations in developing semantic communication systems in conjunction with physical channel characteristics. A Pre-trained GAN network is used at the receiver as the transmission task to reconstruct the realistic image based on the Semantic segmented image at the receiver input. The semantic segmentation task at the transmitter (encoder) and the GAN network at the receiver (decoder) is trained on a common knowledge base, the COCO-Stuff dataset. The research shows that the resource gain in the form of bandwidth saving is immense when transmitting the semantic segmentation map through the physical channel instead of the ground truth image in contrast to conventional communication systems. Furthermore, the research studies the effect of physical channel distortions and quantization noise on semantic communication-based multimedia content transmission.
翻訳日:2023-02-28 15:48:06 公開日:2023-02-27
# 量子熱機関における非平衡変動からの学習コヒーレンス

Learning coherences from nonequilibrium fluctuations in a quantum heat engine ( http://arxiv.org/abs/2302.13717v1 )

ライセンス: Link先を確認
Manash Jyoti Sarmah and Himangshu Prabal Goswami(参考訳) 量子熱エンジンにおける光子交換統計の非平衡ゆらぎからノイズ誘起コヒーレンスを予測する効率的な機械学習プロトコルを開発した。 エンジンは4段階の量子系であり、ユニモーダル量子空洞と結合している。 非平衡揺らぎは4レベル系とキャビティモードの間の光子交換過程における仕事に対応する。 本研究では, 量子マスター方程式法を併用した全計数統計手法を用いて, エンジンパラメータの平均, 分散, 歪, クルトシスを具体的に評価した。 これらの数値評価累積物を入力データとして使用し, 熱浴誘起コヒーレンスを良好に予測した。 K-Nearest Neighbor(KNN)に基づく教師付き機械学習技術は、我々がテストしたさまざまな学習モデルよりも優れている。

We develop an efficient machine learning protocol to predict the noise-induced coherence from the nonequilibrium fluctuations of photon exchange statistics in a quantum heat engine. The engine is a four-level quantum system coupled to a unimodal quantum cavity. The nonequilibrium fluctuations correspond to the work done during the photon exchange process between the four-level system and the cavity mode. We specifically evaluate the mean, variance, skewness, and kurtosis for a range of engine parameters using a full counting statistical approach combined with a quantum master equation technique. We use these numerically evaluated cumulants as input data to successfully predict the hot bath induced coherence. A supervised machine learning technique based on K-Nearest Neighbor(KNN) is found to work better than a variety of learning models that we tested.
翻訳日:2023-02-28 15:47:44 公開日:2023-02-27
# タンパク質構造の内部座標密度モデリング:共分散問題

Internal-Coordinate Density Modelling of Protein Structure: Covariance Matters ( http://arxiv.org/abs/2302.13711v1 )

ライセンス: Link先を確認
Marloes Arts, Jes Frellsen, Wouter Boomsma(参考訳) タンパク質構造予測の最近の進歩の後、タンパク質機械学習における残りの課題の1つは、構造状態の分布を確実に予測することである。 タンパク質鎖の自由度の間の複雑な共分散構造のため、小規模変動のパラメトリックモデルは適合し難いため、しばしば局所的または大域的構造的制約に違反する。 本稿では,3次元空間における制約を利用して内部自由度間の共分散構造を誘導する,タンパク質密度を内部座標でモデル化する新しい戦略を提案する。 本研究では, 3d における条件付き平均による制約によって引き起こされる完全共分散アウトプットを持つ変分オートエンコーダを構築し, 本手法により内部座標の密度モデルをフルサイズのタンパク質にスケールできることを示す。

After the recent ground-breaking advances in protein structure prediction, one of the remaining challenges in protein machine learning is to reliably predict distributions of structural states. Parametric models of small-scale fluctuations are difficult to fit due to complex covariance structures between degrees of freedom in the protein chain, often causing models to either violate local or global structural constraints. In this paper, we present a new strategy for modelling protein densities in internal coordinates, which uses constraints in 3D space to induce covariance structure between the internal degrees of freedom. We illustrate the potential of the procedure by constructing a variational autoencoder with full covariance output induced by the constraints implied by the conditional mean in 3D, and demonstrate that our approach makes it possible to scale density models of internal coordinates to full-size proteins.
翻訳日:2023-02-28 15:47:33 公開日:2023-02-27
# マルコフ決定過程における平均変数最適化のための大域的アルゴリズム

Global Algorithms for Mean-Variance Optimization in Markov Decision Processes ( http://arxiv.org/abs/2302.13710v1 )

ライセンス: Link先を確認
Li Xia, Shuai Ma(参考訳) マルコフ決定過程(MDP)における平均と分散の動的最適化は、動的プログラミングの失敗に起因する長年にわたる課題である。 本稿では,無限ホライゾン分布のmdpにおける定常平均と分散の複合指標に対するグローバル最適方針を求めるための新しい手法を提案する。 擬似平均と擬似分散の概念を導入することにより、元の問題を二段階 MDP 問題に変換し、内は擬似平均分散を最適化する標準 MDP であり、外は擬似平均を最適化する単一パラメータ選択問題である。 MDPの感度解析を用いて、この二段階問題の性質を導出する。 擬似平均分散最適化のための内部標準MDPを解くことにより、擬似問題の最適ポリシーに支配される悪いポリシー空間を特定できる。 より悪いポリシー空間を繰り返し取り除き、グローバルな最適ポリシーを見つける最適化アルゴリズムを提案する。 アルゴリズムの収束と複雑さについて研究する。 アルゴリズムの効率をさらに改善するために、別のポリシー支配性も提案されている。 数値実験はアルゴリズムの性能と効率を実証する。 我々の知る限り、我々のアルゴリズムは、MDPにおける平均分散最適化のグローバルな最適ポリシーを効率的に見つける最初のものである。 これらの結果は,MDPの分散測定値の最小化にも有効である。

Dynamic optimization of mean and variance in Markov decision processes (MDPs) is a long-standing challenge caused by the failure of dynamic programming. In this paper, we propose a new approach to find the globally optimal policy for combined metrics of steady-state mean and variance in an infinite-horizon undiscounted MDP. By introducing the concepts of pseudo mean and pseudo variance, we convert the original problem to a bilevel MDP problem, where the inner one is a standard MDP optimizing pseudo mean-variance and the outer one is a single parameter selection problem optimizing pseudo mean. We use the sensitivity analysis of MDPs to derive the properties of this bilevel problem. By solving inner standard MDPs for pseudo mean-variance optimization, we can identify worse policy spaces dominated by optimal policies of the pseudo problems. We propose an optimization algorithm which can find the globally optimal policy by repeatedly removing worse policy spaces. The convergence and complexity of the algorithm are studied. Another policy dominance property is also proposed to further improve the algorithm efficiency. Numerical experiments demonstrate the performance and efficiency of our algorithms. To the best of our knowledge, our algorithm is the first that efficiently finds the globally optimal policy of mean-variance optimization in MDPs. These results are also valid for solely minimizing the variance metrics in MDPs.
翻訳日:2023-02-28 15:47:18 公開日:2023-02-27
# ポーリに基づく高次元システムを用いた量子計算モデル

The Pauli-based model of quantum computation with higher dimensional systems ( http://arxiv.org/abs/2302.13702v1 )

ライセンス: Link先を確認
Filipa C. R. Peres(参考訳) pauli-based computation (pbc) は、入力状態がマジック状態のテンソル積であり、計算は適応的に選択され、互換性のあるマルチキュービットのpauli測定によって駆動される量子計算のための普遍モデルである。 ここでは、奇素次元系に対するPBCを一般化し、その普遍性を示す。 さらに,QuditベースのPBCが,実際の回路ベースの量子ハードウェア上でどのように実装できるかについても論じる。 その結果,$n$$$p$-次元キューディット上のPBCを$O\left( (p-1)n^2/2 \right)$ \textsc{sum} ゲートと深さを持つ適応回路に変換できることが判明した。 あるいは、回路幅の増大を犠牲にして、$O\left( (p-1)n/2\right)$ depthで同じ計算を実行できる。 最後に,仮想キューディット数$kのシミュレーションに伴うサンプリング複雑性が,入力状態の魔法の堅牢性に関係していることを示す。 qutrit状態とququint状態に対するこの魔法のモノトーンの計算は、それぞれ$o\left(3^{ 1.0848k} \epsilon^{-2}\right)$と$o\left(5^{ 1.4022k} \epsilon^{-2}\right)$という、所望の精度の$\epsilon$のサンプリング複雑性をもたらす。 キュービット、クォート、およびクエントのこのサンプリング複雑性に対する下界をさらに確立する: $\Omega \left(2^{0.5431 k} \epsilon^{-2} \right)$, $\Omega \left(3^{0.7236 k} \epsilon^{-2} \right)$, $\Omega \left(5^{0.8544 k} \epsilon^{-2} \right)$。

Pauli-based computation (PBC) is a universal model for quantum computation with qubits where the input state is a tensor product of magic states and the computation is driven by a sequence of adaptively chosen and compatible multi-qubit Pauli measurements. Here we generalize PBC for odd prime dimensional systems and demonstrate its universality. Additionally, we discuss how any qudit-based PBC can be implemented on actual, circuit-based quantum hardware. Our results show that we can translate a PBC on $n$ $p$-dimensional qudits to adaptive circuits on $n+1$ qudits with $O\left( (p-1)n^2/2 \right)$ \textsc{sum} gates and depth. Alternatively, we can carry out the same computation with $O\left( (p-1)n/2\right)$ depth at the expense of an increased circuit width. Finally, we show that the sampling complexity associated with simulating a number $k$ of virtual qudits is related to the robustness of magic of the input states. Computation of this magic monotone for qutrit and ququint states leads to sampling complexity upper bounds of, respectively, $O\left( 3^{ 1.0848 k} \epsilon^{-2}\right)$ and $O\left( 5^{ 1.4022 k} \epsilon^{-2}\right)$, for a desired precision $\epsilon$. We further establish lower bounds to this sampling complexity for qubits, qutrits, and ququints: $\Omega \left( 2^{0.5431 k} \epsilon^{-2} \right)$, $\Omega \left( 3^{0.7236 k} \epsilon^{-2} \right)$, and $\Omega \left( 5^{0.8544 k} \epsilon^{-2} \right)$, respectively.
翻訳日:2023-02-28 15:46:57 公開日:2023-02-27
# 想像音声:テキストから音声への顔型拡散モデル

Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech ( http://arxiv.org/abs/2302.13700v1 )

ライセンス: Link先を確認
Jiyoung Lee, Joon Son Chung, Soo-Whan Chung(参考訳) この研究の目的はゼロショット音声合成であり、話し方や声は顔の特徴から学習される。 顔を見ると人の声が想像できるという自然な事実に触発されて、顔-TTS(Face-TTS)と呼ばれる可視属性から学習した統合フレームワーク内に、顔スタイルの拡散テキスト・音声(TTS)モデルを導入する。 TTSモデルをトレーニングするための条件として、顔画像が使用されるのはこれが初めてである。 クロスモデルバイオメトリックスとttsモデルを共同で訓練し,顔画像と音声セグメント間の話者識別を保存した。 また,話者埋め込み空間における生成音声と基底音声の類似性を強制するために,話者特徴結合損失を提案する。 生体情報を直接顔画像から抽出するので、未確認話者や未聴者から音声を生成するために、余分な微調整は不要である。 LRS3データセット(背景雑音と多様な話し方を含む帯域内オーディオ視覚コーパス)でモデルを訓練し評価する。 プロジェクトページはhttps://facetts.github.io。

The goal of this work is zero-shot text-to-speech synthesis, with speaking styles and voices learnt from facial characteristics. Inspired by the natural fact that people can imagine the voice of someone when they look at his or her face, we introduce a face-styled diffusion text-to-speech (TTS) model within a unified framework learnt from visible attributes, called Face-TTS. This is the first time that face images are used as a condition to train a TTS model. We jointly train cross-model biometrics and TTS models to preserve speaker identity between face images and generated speech segments. We also propose a speaker feature binding loss to enforce the similarity of the generated and the ground truth speech segments in speaker embedding space. Since the biometric information is extracted directly from the face image, our method does not require extra fine-tuning steps to generate speech from unseen and unheard speakers. We train and evaluate the model on the LRS3 dataset, an in-the-wild audio-visual corpus containing background noise and diverse speaking styles. The project page is https://facetts.github.io.
翻訳日:2023-02-28 15:46:12 公開日:2023-02-27
# mps-ams: 自己教師付き医用画像セグメンテーションに基づくマスクパッチ選択と適応マスク戦略

MPS-AMS: Masked Patches Selection and Adaptive Masking Strategy Based Self-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2302.13699v1 )

ライセンス: Link先を確認
Xiangtao Wang, Ruizhi Wang, Biao Tian, Jiaojiao Zhang, Shuo Zhang, Junyang Chen, Thomas Lukasiewicz, Zhenghua Xu(参考訳) コントラスト学習とマスク付き画像モデリングに基づく既存の自己教師型学習手法は印象的な性能を示した。 しかし、現在のマスク画像モデリング手法は主に自然画像で使われており、その医療画像への応用は比較的不十分である。 また,その固定高マスキング戦略は条件付き相互情報の上限を制限し,勾配ノイズは極めて少なく,学習した表現情報が少なくなる。 そこで本稿では,MPS-AMSという,マスク付きパッチ選択と適応マスキング戦略に基づく自己監督型医用画像分割手法を提案する。 マスクパッチ選択戦略を利用して病変のあるマスクパッチを選択し、より多くの病変表現情報を得るとともに、アダプティブマスキング戦略を用いて、より多くの相互情報を学び、さらなる性能向上を図る。 3つの公開医用画像セグメンテーションデータセット(BUSI, Hecktor, Brats2018)の大規模な実験により,提案手法は最先端の自己監督ベースラインを大きく上回っていることがわかった。

Existing self-supervised learning methods based on contrastive learning and masked image modeling have demonstrated impressive performances. However, current masked image modeling methods are mainly utilized in natural images, and their applications in medical images are relatively lacking. Besides, their fixed high masking strategy limits the upper bound of conditional mutual information, and the gradient noise is considerable, making less the learned representation information. Motivated by these limitations, in this paper, we propose masked patches selection and adaptive masking strategy based self-supervised medical image segmentation method, named MPS-AMS. We leverage the masked patches selection strategy to choose masked patches with lesions to obtain more lesion representation information, and the adaptive masking strategy is utilized to help learn more mutual information and improve performance further. Extensive experiments on three public medical image segmentation datasets (BUSI, Hecktor, and Brats2018) show that our proposed method greatly outperforms the state-of-the-art self-supervised baselines.
翻訳日:2023-02-28 15:45:51 公開日:2023-02-27
# モード適応線形ユニット(MoLU)

Moderate Adaptive Linear Units (MoLU) ( http://arxiv.org/abs/2302.13696v1 )

ライセンス: Link先を確認
Hankyul Koh, Joon-hyuk Ko, Wonho Jhe(参考訳) 本稿では,ディープニューラルネットワークのための新しい高性能アクティベーション関数,中性適応線形単位(molu)を提案する。 MoLUはシンプルで美しく強力なアクティベーション関数であり、数百のアクティベーション関数の中で優れたメインアクティベーション関数となる。 molu は基本関数から成り立っているため、無限微分同相写像であるだけでなく(すなわち、領域全体にわたって滑らかかつ無限に微分可能である)、訓練時間を短縮する。

We propose a new high-performance activation function, Moderate Adaptive Linear Units (MoLU), for the deep neural network. The MoLU is a simple, beautiful and powerful activation function that can be a good main activation function among hundreds of activation functions. Because the MoLU is made up of the elementary functions, not only it is a infinite diffeomorphism (i.e. smooth and infinitely differentiable over whole domains), but also it decreases training time.
翻訳日:2023-02-28 15:45:31 公開日:2023-02-27
# エンドツーエンド弱教師付き意味セグメンテーションのための自己対応蒸留

Self Correspondence Distillation for End-to-End Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2302.13765v1 )

ライセンス: Link先を確認
Rongtao Xu, Changwei Wang, Jiaxi Sun, Shibiao Xu, Weiliang Meng, Xiaopeng Zhang(参考訳) 画像レベルラベルによる弱教師付きセマンティックセグメンテーション(WSSS)の精度の高い深層モデルの訓練は困難かつ重要である。 近年,訓練効率が高いため,エンドツーエンドのWSSS手法が研究の中心となっている。 しかし、現在の手法では包括的意味情報の抽出が不十分なため、品質の低い擬似ラベルや、エンドツーエンドWSSSのサブ最適解が得られる。 そこで本研究では, 外部監視を導入することなく, 疑似ラベルを洗練するための, 単純かつ新しい自己対応蒸留法を提案する。 このscdにより,自己由来の特徴対応を蒸留対象として利用することが可能となり,意味情報を補完することにより,ネットワークの特徴学習プロセスを強化することができる。 さらに,セグメンテーション精度をさらに向上させるため,画素レベルの変動を計算し,擬似ラベルの局所的一貫性を高めるために,変分認識型リファインメントモジュールを設計した。 最後に、正確なWSSSタスクに対して、SCDおよび変分対応Refine Moduleを介して効率的なエンドツーエンドトランスフォーマーベースフレームワーク(TSCD)を提案する。 PASCAL VOC 2012 と MS COCO 2014 データセットの大規模な実験により,本手法が他の最先端手法よりも優れていることが示された。 私たちのコードは、https://github.com/Rongtao-Xu/RepresentationLearning/tree/main/SCD-AAAI2023}で利用可能です。

Efficiently training accurate deep models for weakly supervised semantic segmentation (WSSS) with image-level labels is challenging and important. Recently, end-to-end WSSS methods have become the focus of research due to their high training efficiency. However, current methods suffer from insufficient extraction of comprehensive semantic information, resulting in low-quality pseudo-labels and sub-optimal solutions for end-to-end WSSS. To this end, we propose a simple and novel Self Correspondence Distillation (SCD) method to refine pseudo-labels without introducing external supervision. Our SCD enables the network to utilize feature correspondence derived from itself as a distillation target, which can enhance the network's feature learning process by complementing semantic information. In addition, to further improve the segmentation accuracy, we design a Variation-aware Refine Module to enhance the local consistency of pseudo-labels by computing pixel-level variation. Finally, we present an efficient end-to-end Transformer-based framework (TSCD) via SCD and Variation-aware Refine Module for the accurate WSSS task. Extensive experiments on the PASCAL VOC 2012 and MS COCO 2014 datasets demonstrate that our method significantly outperforms other state-of-the-art methods. Our code is available at {https://github.com/Rongtao-Xu/RepresentationLearning/tree/main/SCD-AAAI2023}.
翻訳日:2023-02-28 15:39:15 公開日:2023-02-27
# TCP/IPトラフィックに基づく高速かつ低オーバーヘッドWebサイトフィンガープリント攻撃と防御

Efficient and Low Overhead Website Fingerprinting Attacks and Defenses based on TCP/IP Traffic ( http://arxiv.org/abs/2302.13763v1 )

ライセンス: Link先を確認
Guodong Huang, Chuan Ma, Ming Ding, Yuwen Qian, Chunpeng Ge, Liming Fang, Zhe Liu(参考訳) Webサイトのフィンガープリント攻撃は、トラフィックパターンを分析し、ユーザに関する機密情報を推測するために、Webブラウザで広く研究されているテクニックである。 機械学習とディープラーニングに基づくWebサイトのフィンガープリント攻撃は、攻撃率の良好なパフォーマンスを達成するために最も典型的な特徴を使用する傾向がある。 しかし、これらの攻撃は、巧妙な前処理ステップやクリーンデータセットなど、いくつかの実践的な実装要因に悩まされている。 このような攻撃に対して、高コストのネットワークオーバーヘッドを伴うランダムパケット防御(RPD)が通常適用される。 そこで本研究では,TCP/IPトラフィックの統計的特性を用いて,入射雑音を除去できる実用的なRFD攻撃法を提案する。 次に,提案手法を防御するためのリスト支援防御機構を提案する。 防御とネットワークオーバーヘッドとの間の設定可能なトレードオフを実現するため、上記の攻撃と戦えるトラフィック分割機構により、リストベースの防御をさらに改善し、ネットワークオーバーヘッドを大幅に節約する。 実験では,Microsoft Edge,Google Chrome,Mozilla Firefoxの3つの主流ブラウザを用いて実生活のトラフィックパターンを収集し,クローズドおよびオープンワールドデータセットで実施された広範な結果から,提案アルゴリズムの有効性を,防衛精度とネットワーク効率の観点から示す。

Website fingerprinting attack is an extensively studied technique used in a web browser to analyze traffic patterns and thus infer confidential information about users. Several website fingerprinting attacks based on machine learning and deep learning tend to use the most typical features to achieve a satisfactory performance of attacking rate. However, these attacks suffer from several practical implementation factors, such as a skillfully pre-processing step or a clean dataset. To defend against such attacks, random packet defense (RPD) with a high cost of excessive network overhead is usually applied. In this work, we first propose a practical filter-assisted attack against RPD, which can filter out the injected noises using the statistical characteristics of TCP/IP traffic. Then, we propose a list-assisted defensive mechanism to defend the proposed attack method. To achieve a configurable trade-off between the defense and the network overhead, we further improve the list-based defense by a traffic splitting mechanism, which can combat the mentioned attacks as well as save a considerable amount of network overhead. In the experiments, we collect real-life traffic patterns using three mainstream browsers, i.e., Microsoft Edge, Google Chrome, and Mozilla Firefox, and extensive results conducted on the closed and open-world datasets show the effectiveness of the proposed algorithms in terms of defense accuracy and network efficiency.
翻訳日:2023-02-28 15:38:53 公開日:2023-02-27
# 単一の2レベル系に散在する量子場と古典場

The quantum and classical field scattered on a single two-level system ( http://arxiv.org/abs/2302.13762v1 )

ライセンス: Link先を確認
Sergei Gunin, Andrei Vasenin, Aleksei Dmitriev, Konstantin Tikhonov, Gleb Fedorov, Oleg Astafiev(参考訳) 多くの問題において、弱いコヒーレントパルスの散乱振幅は、単一伝播光子の散乱振幅とほぼ同値である。 散乱を徹底的に比較します (i)rf発電機からの短マイクロ波コヒーレントパルス及び (ii) 2レベルエミッタからの真空光子コヒーレント重ね合わせはどちらも1つの2レベル系(プローブ)に向けられる。 そのため、同じ導波路に強く結合した2つの超伝導量子ビットを用いてエミッタとプローブを実装している。 しかし、磁気循環器を用いることで、エミッタからプローブへの磁場を逆バックアクションなしに結合し、導波路qedで実装されたカスケード原子系で動作させる。 散乱場の力学を計測することにより, 解析的および数値的研究により確認された2症例の間に一定の相違が認められた。 特に、エミッタからの重ね合わせを模倣する古典的パルスの最適振幅$\omega_{*}$ を見いだすと、その差は非常に小さく(しかし、バニッシブではない)、実際に測定することはほとんど不可能である。

In many problems, the scattering amplitudes of weak coherent pulse are almost equivalent to the ones of single propagating photon. We thoroughly compare the scattering of: (i) short microwave coherent pulse from rf generator and (ii) vacuum-photon coherent superposition from the two-level Emitter, both directed to a single two-level system (the Probe). To do that, we use two superconducting qubits to implement Emitter and Probe, both strongly coupled to the same waveguide. However, with the use of magnetic circulator we couple the field from Emitter to the Probe without reverse backaction, thereby working with a cascaded atomic system implemented in waveguide-QED setup. By measuring the dynamics of scattered field, we find a certain discrepancy between two cases, confirmed by analytical and numerical study. Particularly, we find the optimal amplitude $\Omega_{*}$ of classical pulse mimicking the superposition from Emitter, for which the difference becomes very small (but non-vanishing), and is almost unavailable to measure in practice.
翻訳日:2023-02-28 15:38:30 公開日:2023-02-27
# 二次フェルミオンモデルにおける作業統計、量子署名、強化された作業抽出

Work statistics, quantum signatures and enhanced work extraction in quadratic fermionic models ( http://arxiv.org/abs/2302.13759v1 )

ライセンス: Link先を確認
Alessandro Santini, Andrea Solfanelli, Stefano Gherardini and Mario Collura(参考訳) 二次フェルミオンモデルでは、突然および時間依存運転後の作業統計に対する量子補正を決定する。 このような補正は初期量子状態と時間依存ハミルトニアンの非可換性に関係し、カークウッド-ディラック準確率 (kdq) の2つのコリエーターによるアプローチによって明らかにされる。 後者のおかげで、作業のKDQ分布における非古典的シグネチャの開始を、古典理論が示さない負の値と複素の値の形で評価することができる。 これらの概念を1次元横フィールドイジングモデルに適用することにより、モデルの臨界点に対応する作業のKDQ統計の非古典的挙動を関連付ける。 最後に,非可換性が果たす非古典的体制において,抽出された作業の強化を証明した。

In quadratic fermionic models we determine a quantum correction to the work statistics after a sudden and a time-dependent driving. Such a correction lies in the non-commutativity of the initial quantum state and the time-dependent Hamiltonian, and is revealed via the Kirkwood-Dirac quasiprobability (KDQ) approach to two-times correlators. Thanks to the latter, one can assess the onset of non-classical signatures in the KDQ distribution of work, in the form of negative and complex values that no classical theory can reveal. By applying these concepts on the one-dimensional transverse-field Ising model, we relate non-classical behaviours of the KDQ statistics of work in correspondence of the critical points of the model. Finally, we also prove the enhancement of the extracted work in non-classical regimes where the non-commutativity takes a role.
翻訳日:2023-02-28 15:38:11 公開日:2023-02-27
# slowとfastを組み合わせる:動的学習のための補完的フィルタリング

Combining Slow and Fast: Complementary Filtering for Dynamics Learning ( http://arxiv.org/abs/2302.13754v1 )

ライセンス: Link先を確認
Katharina Ensinger, Sebastian Ziesche, Barbara Rakitsch, Michael Tiemann, Sebastian Trimpe(参考訳) 未知の力学系のモデリングは、システムの将来の振る舞いを予測するために重要である。 標準的なアプローチは、測定データに対するリカレントモデルのトレーニングである。 これらのモデルは通常、正確な短期的予測を提供するが、誤りを蓄積すると長期的行動が悪化する。 対照的に、信頼できる長期予測を持つモデルは、堅牢だが詳細でないモデルをトレーニングしたり、物理学に基づくシミュレーションを活用することによって、しばしば得られる。 どちらの場合も、モデルの不正確さは短時間の詳細の欠如をもたらす。 したがって、異なる時間軸上の対照的な性質を持つ異なるモデルが利用可能である。 この観察はすぐに疑問を提起する: 両方の世界のベストを組み合わせるような予測を得られるか? センサ融合課題に触発されて,周波数領域における問題を解釈し,信号処理,特に補完フィルタから古典的手法を活用する。 このフィルタリング技術は、一方の信号にハイパスフィルタを適用し、もう一方の信号にローパスフィルタを適用することによって、2つの信号を組み合わせる。 基本的に、高域通過フィルタは高頻度を抽出し、低域通過フィルタは低周波数を抽出する。 この概念を動的モデル学習に適用することにより、正確な長期的および短期的な予測をもたらすモデルの構築が可能になる。 本稿では,純粋学習ベースと物理ベースのシミュレータを必要とするハイブリッドモデルという2つの手法を提案する。

Modeling an unknown dynamical system is crucial in order to predict the future behavior of the system. A standard approach is training recurrent models on measurement data. While these models typically provide exact short-term predictions, accumulating errors yield deteriorated long-term behavior. In contrast, models with reliable long-term predictions can often be obtained, either by training a robust but less detailed model, or by leveraging physics-based simulations. In both cases, inaccuracies in the models yield a lack of short-time details. Thus, different models with contrastive properties on different time horizons are available. This observation immediately raises the question: Can we obtain predictions that combine the best of both worlds? Inspired by sensor fusion tasks, we interpret the problem in the frequency domain and leverage classical methods from signal processing, in particular complementary filters. This filtering technique combines two signals by applying a high-pass filter to one signal, and low-pass filtering the other. Essentially, the high-pass filter extracts high-frequencies, whereas the low-pass filter extracts low frequencies. Applying this concept to dynamics model learning enables the construction of models that yield accurate long- and short-term predictions. Here, we propose two methods, one being purely learning-based and the other one being a hybrid model that requires an additional physics-based simulator.
翻訳日:2023-02-28 15:37:54 公開日:2023-02-27
# 系列モデリングのための近似理論に関する一考察

A Brief Survey on the Approximation Theory for Sequence Modelling ( http://arxiv.org/abs/2302.13752v1 )

ライセンス: Link先を確認
Haotian Jiang, Qianxiao Li, Zhong Li, Shida Wang(参考訳) 機械学習におけるシーケンスモデリングの近似理論の現況を調査する。 特に、古典的な近似パラダイムのレンズを通して、様々なモデルアーキテクチャの既存の結果の分類と、これらの結果から得られる洞察に重点が置かれている。 また,シーケンスモデリング理論の構築に向けた今後の研究方向についても概説する。

We survey current developments in the approximation theory of sequence modelling in machine learning. Particular emphasis is placed on classifying existing results for various model architectures through the lens of classical approximation paradigms, and the insights one can gain from these results. We also outline some future research directions towards building a theory of sequence modelling.
翻訳日:2023-02-28 15:37:36 公開日:2023-02-27
# MoLE : 多言語自動音声認識のための言語エキスパートの混合

MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech Recognition ( http://arxiv.org/abs/2302.13750v1 )

ライセンス: Link先を確認
Yoohwan Kwon and Soo-Whan Chung(参考訳) 多言語音声認識は、異なる言語の言語表現を識別し、同時に音響処理を統合することを目的としている。 対照的に、現在の多言語音声認識研究は、言語特性を識別するよりも、主に認識性能を向上させることを目的とした言語認識パラダイムに従っている。 本稿では,様々な言語で音声を消化するMixture-of-Language-Expert(MoLE)という多言語音声認識ネットワークを提案する。 特に、moleは任意の言語における入力音声から言語表現を分析し、軽量言語トークン化器で言語固有の専門家を活性化する。 トークン化器は専門家を活性化するだけでなく、アクティベーションの信頼性を推定する。 信頼度に基づいて、活性化されたエキスパートと言語非依存の専門家を集約して、効率的な音声認識のための言語条件付き埋め込みを表現する。 提案手法は5言語シナリオで評価され,実験結果から,多言語認識,特に低音源言語における音声認識に有利であることが示唆された。

Multi-lingual speech recognition aims to distinguish linguistic expressions in different languages and integrate acoustic processing simultaneously. In contrast, current multi-lingual speech recognition research follows a language-aware paradigm, mainly targeted to improve recognition performance rather than discriminate language characteristics. In this paper, we present a multi-lingual speech recognition network named Mixture-of-Language-Expert(MoLE), which digests speech in a variety of languages. Specifically, MoLE analyzes linguistic expression from input speech in arbitrary languages, activating a language-specific expert with a lightweight language tokenizer. The tokenizer not only activates experts, but also estimates the reliability of the activation. Based on the reliability, the activated expert and the language-agnostic expert are aggregated to represent language-conditioned embedding for efficient speech recognition. Our proposed model is evaluated in 5 languages scenario, and the experimental results show that our structure is advantageous on multi-lingual recognition, especially for speech in low-resource language.
翻訳日:2023-02-28 15:37:31 公開日:2023-02-27
# 自閉症におけるステレオタイプ行動の教師なしビデオ異常検出

Unsupervised Video Anomaly Detection for Stereotypical Behaviours in Autism ( http://arxiv.org/abs/2302.13748v1 )

ライセンス: Link先を確認
Jiaqi Gao, Xinyang Jiang, Yuqing Yang, Dongsheng Li, Lili Qiu(参考訳) 自閉症スペクトラム障害(asd)の早期介入とケアには,ステレオタイプ行動のモニタリングと分析が重要である。 本稿では,コンピュータビジョンによるステレオタイプ行動の自動検出に焦点を当てる。 市販の手法では、分類と活動認識を監督することでこの課題に取り組む。 しかし,非有界なステレオタイプ行動とASD患者のビデオ記録収集の困難さは,既存の教師付き検出方法の有効性を著しく制限している。 その結果,ステレオタイプ行動検出のための教師なしビデオ異常検出という新たな視点から,これらの課題に取り組むことができた。 モデルは、正常な振る舞いのみを含むラベルなしのビデオと未知の異常な振る舞いを推論中に検出することができる。 そこで我々は,人間のポーズの時間的軌跡と行動の反復パターンに基づいて,ステレオタイプ行動検出のためのデュアルストリーム深度モデルDS-SBDを提案する。 提案手法の有効性を検証するために大規模な実験を行い,今後の研究の候補となる可能性が示唆された。

Monitoring and analyzing stereotypical behaviours is important for early intervention and care taking in Autism Spectrum Disorder (ASD). This paper focuses on automatically detecting stereotypical behaviours with computer vision techniques. Off-the-shelf methods tackle this task by supervised classification and activity recognition techniques. However, the unbounded types of stereotypical behaviours and the difficulty in collecting video recordings of ASD patients largely limit the feasibility of the existing supervised detection methods. As a result, we tackle these challenges from a new perspective, i.e. unsupervised video anomaly detection for stereotypical behaviours detection. The models can be trained among unlabeled videos containing only normal behaviours and unknown types of abnormal behaviours can be detected during inference. Correspondingly, we propose a Dual Stream deep model for Stereotypical Behaviours Detection, DS-SBD, based on the temporal trajectory of human poses and the repetition patterns of human actions. Extensive experiments are conducted to verify the effectiveness of our proposed method and suggest that it serves as a potential benchmark for future research.
翻訳日:2023-02-28 15:37:15 公開日:2023-02-27
# 量子場理論における絡み合いはいかにユビキタスか

How ubiquitous is entanglement in quantum field theory? ( http://arxiv.org/abs/2302.13742v1 )

ライセンス: Link先を確認
Ivan Agullo, B\'eatrice Bonga, Patricia Ribes-Metidieri, Dimitrios Kranas and Sergi Nadal-Gisbert(参考訳) 量子場理論において、全てのリー・シュリーダー状態は、2つの空間的に分離された領域の間の絡み合いを含む。 これは特にミンコフスキー時空における非相互作用スカラー理論の真空に適用される。 場の理論における絡み合いに関する議論は、主に無限に多くの自由度を含むサブシステムに焦点を当ててきた。 本稿では,有限個の自由度からなる部分系における絡み合いについて,D+1$次元ミンコフスキー時空における自由スカラー理論を用いて検討する。 場の有限個のモードへの焦点は、実実験の有限の能力によって動機付けられる。 有限次元の部分系間の絡み合いは、全く一般的ではなく、絡み合いが現れるためのモードのサポートを慎重に選択する必要がある。 また、より高次元では絡み合いがますますスペーサーになっていることもわかりました。 ミンコフスキー時空における絡み合いは、通常考えられていたよりもはるかにユビキタスではないと結論づける。

It is well known that entanglement is widespread in quantum field theory, in the following sense: every Reeh-Schlieder state contains entanglement between any two spatially separated regions. This applies, in particular, to the vacuum of a non-interacting scalar theory in Minkowski spacetime. Discussions on entanglement in field theory have focused mainly on subsystems containing infinitely many degrees of freedom -- typically, the field modes that are supported within a compact region of space. In this article, we study entanglement in subsystems made of finitely many field degrees of freedom, in a free scalar theory in $D+1$-dimensional Minkowski spacetime. The focus on finitely many modes of the field is motivated by the finite capabilities of real experiments. We find that entanglement between finite-dimensional subsystems is {\em not common at all}, and that one needs to carefully select the support of modes for entanglement to show up. We also find that entanglement is increasingly sparser in higher dimensions. We conclude that entanglement in Minkowski spacetime is significantly less ubiquitous than normally thought.
翻訳日:2023-02-28 15:36:59 公開日:2023-02-27
# hulk: 地域分散コンピューティングシステム最適化のためのグラフニューラルネットワーク

Hulk: Graph Neural Networks for Optimizing Regionally Distributed Computing Systems ( http://arxiv.org/abs/2302.13741v1 )

ライセンス: Link先を確認
Zhengqing Yuan, Huiwen Xue, Chao Zhang, Yongming Liu(参考訳) 大規模なディープラーニングモデルは、様々なアプリケーションで例外的な結果をもたらす大きな可能性を示している。 しかし、モデルの膨大なパラメータサイズのため、トレーニングプロセスは信じられないほど難しく、しばしば数十億のパラメータで構成される。 データ並列性、テンソル並列性、パイプライン並列性といった一般的な分散トレーニング手法は、プロセス全体を通して重要なデータ通信を必要としており、物理的に離れた分散システムにおける一部のマシンの待ち時間が長くなる。 この問題に対処するために,修正グラフニューラルネットワークを用いて分散コンピューティングシステムの最適化を行うHulkという新しいソリューションを提案する。 hulkは、異なる国や同じ都市内の異なる地域間でのデータ通信効率を最適化するだけでなく、並列にモデルの最適な分散配置を提供する。 例えば、特定の領域のマシンに特定のレイヤを配置したり、特定の場所のマシンにモデルの特定のパラメータを渡すことができる。 hulkを実験に使用することにより,大規模ディープラーニングモデルを分散システム上でトレーニングする時間効率を20%以上向上することができた。 ラベルなしデータのオープンソースコレクション:https://github.com/DLYuanGod/Hulk。

Large deep learning models have shown great potential for delivering exceptional results in various applications. However, the training process can be incredibly challenging due to the models' vast parameter sizes, often consisting of hundreds of billions of parameters. Common distributed training methods, such as data parallelism, tensor parallelism, and pipeline parallelism, demand significant data communication throughout the process, leading to prolonged wait times for some machines in physically distant distributed systems. To address this issue, we propose a novel solution called Hulk, which utilizes a modified graph neural network to optimize distributed computing systems. Hulk not only optimizes data communication efficiency between different countries or even different regions within the same city, but also provides optimal distributed deployment of models in parallel. For example, it can place certain layers on a machine in a specific region or pass specific parameters of a model to a machine in a particular location. By using Hulk in experiments, we were able to improve the time efficiency of training large deep learning models on distributed systems by more than 20\%. Our open source collection of unlabeled data:https://github.com/DLYuanGod/Hulk.
翻訳日:2023-02-28 15:36:44 公開日:2023-02-27
# 画像超解像の空間適応的特徴変調

Spatially-Adaptive Feature Modulation for Efficient Image Super-Resolution ( http://arxiv.org/abs/2302.13800v1 )

ライセンス: Link先を確認
Long Sun, Jiangxin Dong, Jinhui Tang, Jinshan Pan(参考訳) イメージスーパーレゾリューションのための多くのソリューションが提案されているが、計算量やメモリの制約の多い低消費電力デバイスとは互換性がない。 本稿では,超解像を効率的に解くために,単純かつ効果的な深層ネットワークを提案する。 具体的には,視覚トランスフォーマー(vit)様ブロック上に空間適応型特徴変調(safm)機構を開発する。 まず、入力特徴に対してSAFMブロックを適用し、代表的特徴表現を動的に選択する。 SAFMブロックが入力特徴を長距離視点で処理する際、局所的な文脈情報を同時に抽出し、チャネル混合を行う畳み込みチャネルミキサー(CCM)を導入する。 大規模な実験結果から,提案手法は高効率SR法(例えばIMDN)よりも3ドル(約3,300円)ほど小さく,計算コストの低減と同等性能の達成を図っている。 コードはhttps://github.com/sunny2109/SAFMNで入手できる。

Although numerous solutions have been proposed for image super-resolution, they are usually incompatible with low-power devices with many computational and memory constraints. In this paper, we address this problem by proposing a simple yet effective deep network to solve image super-resolution efficiently. In detail, we develop a spatially-adaptive feature modulation (SAFM) mechanism upon a vision transformer (ViT)-like block. Within it, we first apply the SAFM block over input features to dynamically select representative feature representations. As the SAFM block processes the input features from a long-range perspective, we further introduce a convolutional channel mixer (CCM) to simultaneously extract local contextual information and perform channel mixing. Extensive experimental results show that the proposed method is $3\times$ smaller than state-of-the-art efficient SR methods, e.g., IMDN, in terms of the network parameters and requires less computational cost while achieving comparable performance. The code is available at https://github.com/sunny2109/SAFMN.
翻訳日:2023-02-28 15:30:12 公開日:2023-02-27
# 空港グラウンドハンドリングにおける車両経路探索の大規模学習

Learning Large Neighborhood Search for Vehicle Routing in Airport Ground Handling ( http://arxiv.org/abs/2302.13797v1 )

ライセンス: Link先を確認
Jianan Zhou, Yaoxin Wu, Zhiguang Cao, Wen Song, Jie Zhang, Zhenghua Chen(参考訳) 航空便に車両を派遣することは、空港の地上処理(agh)において重要な任務である。 飛行の顕著な増加により、多数の飛行に対して複数の種類の運用(サービス)を同時にスケジュールすることは困難であり、各種類の運用は1つの特定の車両によって行われる。 この問題に取り組むため,我々はまず,複雑な車両経路問題として操作スケジューリングを表現し,混合整数線形計画(milp)モデルとして定式化する。 そして,MILPモデルのグラフ表現から,実シナリオに基づいて生成したデータを用いた学習支援大規模近傍探索(LNS)手法を提案する。そこでは,模倣学習とグラフ畳み込みネットワーク(GCN)を統合して,破壊演算子を学習して変数を自動的に選択し,修復演算子としてオフザシェルフソルバを用いて,選択した変数を再最適化する。 実機による実験結果から,提案手法は最大200回の飛行と10種類の操作を同時に行うことができ,最先端の手法よりも優れていた。 さらに,本手法は,様々な解法に一貫して対応し,大規模インスタンスによく一般化し,汎用性と拡張性を検証する。

Dispatching vehicle fleets to serve flights is a key task in airport ground handling (AGH). Due to the notable growth of flights, it is challenging to simultaneously schedule multiple types of operations (services) for a large number of flights, where each type of operation is performed by one specific vehicle fleet. To tackle this issue, we first represent the operation scheduling as a complex vehicle routing problem and formulate it as a mixed integer linear programming (MILP) model. Then given the graph representation of the MILP model, we propose a learning assisted large neighborhood search (LNS) method using data generated based on real scenarios, where we integrate imitation learning and graph convolutional network (GCN) to learn a destroy operator to automatically select variables, and employ an off-the-shelf solver as the repair operator to reoptimize the selected variables. Experimental results based on a real airport show that the proposed method allows for handling up to 200 flights with 10 types of operations simultaneously, and outperforms state-of-the-art methods. Moreover, the learned method performs consistently accompanying different solvers, and generalizes well on larger instances, verifying the versatility and scalability of our method.
翻訳日:2023-02-28 15:29:54 公開日:2023-02-27
# 反応ロボット制御のためのイベントカメラを用いた高速軌道終点予測

Fast Trajectory End-Point Prediction with Event Cameras for Reactive Robot Control ( http://arxiv.org/abs/2302.13796v1 )

ライセンス: Link先を確認
Marco Monforte, Luna Gava, Massimiliano Iacono, Arren Glover, Chiara Bartolozzi(参考訳) ロボットの動作時間や関節動作能力に制限があるタスクの成功には,予測スキルが不可欠である。 このようなシナリオでは、固定された、おそらく低いサンプリングレートの視覚システムは、情報的ポイントの損失を招き、予測収束を遅くし、精度を低下させる可能性がある。 本稿では,イベントカメラの低レイテンシ,動作駆動サンプリング,データ圧縮特性を活用し,これらの問題を克服する。 使用例として、私たちはパンダロボットアームを使用して、テーブル上のボールバウンシングをインターセプトします。 インターセプションポイントを予測するために、固定入力長のない特定のLSTM変種であるStateful LSTMネットワークを採用し、イベント駆動のパラダイムと、軌跡の長さが定義されていない問題に完全に適合する。 シミュレーションでネットワークを訓練し、データセットの取得をスピードアップし、実際の軌道上でモデルを微調整します。 実験の結果, 密集した空間サンプリング(すなわちイベントカメラ)は, 一定の時間的サンプリング(つまりフレームベースのカメラ)と比較して, インターセプトされた軌道数を大幅に増加させることが示された。

Prediction skills can be crucial for the success of tasks where robots have limited time to act or joints actuation power. In such a scenario, a vision system with a fixed, possibly too low, sampling rate could lead to the loss of informative points, slowing down prediction convergence and reducing the accuracy. In this paper, we propose to exploit the low latency, motion-driven sampling, and data compression properties of event cameras to overcome these issues. As a use-case, we use a Panda robotic arm to intercept a ball bouncing on a table. To predict the interception point, we adopt a Stateful LSTM network, a specific LSTM variant without fixed input length, which perfectly suits the event-driven paradigm and the problem at hand, where the length of the trajectory is not defined. We train the network in simulation to speed up the dataset acquisition and then fine-tune the models on real trajectories. Experimental results demonstrate how using a dense spatial sampling (i.e. event cameras) significantly increases the number of intercepted trajectories as compared to a fixed temporal sampling (i.e. frame-based cameras).
翻訳日:2023-02-28 15:29:32 公開日:2023-02-27
# フォールトトレラント量子ネットワークにおける繰り返し浄化と連結誤差補正

Repeated Purification versus Concatenated Error Correction in Fault Tolerant Quantum Networks ( http://arxiv.org/abs/2302.13791v1 )

ライセンス: Link先を確認
Michel Barbeau, Joaquin Garcia-Alfaro, Evangelos Kranakis(参考訳) 絡み合い分布は将来の量子インターネットの核となるメカニズムである。 しかし、量子世界は欠陥のある環境である。 したがって、エンタングルメントスワップの成功はエラーを起こしやすい。 量子状態誤差の発生は、精製と誤り訂正によって軽減することができ、前者の場合で繰り返し、後者の場合で連結することができる。 繰り返し浄化することで、低忠実度キュービットを高品質なキュービットにマージし、複雑な誤り訂正は量子情報の冗長性の上に構築される。 本稿では, 繰り返し浄化と連結誤り訂正の2つの選択肢を詳細に検討し, 比較する。 遠隔ネットワークノード間のベルペアの確立時に発生する故障を緩和するために,繰り返し浄化と複雑な誤り訂正を行うことを検討する。 量子ネットワークにおいて、その性能と繰り返しや連結の数を比較し、一定の忠実度に達する。 我々は,それらのリソース要件,すなわち作業メモリの複雑さ(例えば,記憶されたキュービット数)と運用の複雑さ(例えば操作数)について検討する。 本分析は, 繰り返し処理に比べて繰り返し処理を要し, 繰り返し処理よりも操作の複雑さが小さく, メモリ要求の増加を犠牲にして高い忠実度に達することを示した。

Entanglement distribution is a core mechanism for the future quantum Internet. The quantum world is, however, a faulty environment. Hence, successful entanglement swapping is error-prone. The occurrence of quantum state errors can be mitigated using purification and error correction, which can be repeated in the former case and concatenated in the latter case. Repeated purification merges low-fidelity qubits into higher-quality ones, while concatenated error correction builds upon the redundancy of quantum information. In this article, we study in-depth and compare the two options: repeated purification and concatenated error correction. We consider using repeated purification and concatenated error correction to mitigate the presence of faults that occur during the establishment of Bell pairs between remote network nodes. We compare their performance versus the number of repetitions or concatenations, to reach a certain level of fidelity in quantum networks. We study their resource requirements, namely, their work memory complexity (e.g., number of stored qubits) and operational complexity (e.g., number of operations). Our analysis demonstrates that concatenated error correction, versus repeated purification, requires fewer iterations and has lower operational complexity than repeated purification to reach high fidelity at the expense of increased memory requirements.
翻訳日:2023-02-28 15:28:49 公開日:2023-02-27
# マスク基準画像品質評価

Mask Reference Image Quality Assessment ( http://arxiv.org/abs/2302.13770v1 )

ライセンス: Link先を確認
Pengxiang Xiao, Shuai He, Limin Liu, Anlong Ming(参考訳) 意味情報を理解することは、フル参照(FR)法と非参照(NR)画像品質評価(IQA)法の両方で何が学べるかを知るための重要なステップである。 しかし、特に多くの歪んだ画像に対して、参照として非歪な画像があるとしても(FR-IQA)、歪んだ画像の失われた意味やテクスチャ情報を直接知覚することは困難である。 本稿では,歪んだ画像の特定のパッチをマスクし,参照画像パッチで欠落したパッチを補うマスク参照iqa(mr-iqa)法を提案する。 このように、このモデルでは、品質評価のために再構成された画像を入力するだけでよい。 まず、参照画像から最適な候補パッチを選択し、歪んだ画像で失われた意味情報を補足するマスク生成器を設計し、品質評価の参考となるとともに、異なるマスクパッチはモデルのトレーニングを優先し、過剰フィッティングを減少させるデータ拡張を暗示する。 第2に,Mask Reference Network (MRNet): マスクされたパッチによる障害を防止し,再構成画像におけるパッチの不連続を解消する。 本手法は,ベンチマークKADID-10k, LIVE, CSIQデータセット上での最先端性能を実現し, データセット間の一般化性能を向上する。 コードと結果は補足資料で入手できる。

Understanding semantic information is an essential step in knowing what is being learned in both full-reference (FR) and no-reference (NR) image quality assessment (IQA) methods. However, especially for many severely distorted images, even if there is an undistorted image as a reference (FR-IQA), it is difficult to perceive the lost semantic and texture information of distorted images directly. In this paper, we propose a Mask Reference IQA (MR-IQA) method that masks specific patches of a distorted image and supplements missing patches with the reference image patches. In this way, our model only needs to input the reconstructed image for quality assessment. First, we design a mask generator to select the best candidate patches from reference images and supplement the lost semantic information in distorted images, thus providing more reference for quality assessment; in addition, the different masked patches imply different data augmentations, which favors model training and reduces overfitting. Second, we provide a Mask Reference Network (MRNet): the dedicated modules can prevent disturbances due to masked patches and help eliminate the patch discontinuity in the reconstructed image. Our method achieves state-of-the-art performances on the benchmark KADID-10k, LIVE and CSIQ datasets and has better generalization performance across datasets. The code and results are available in the supplementary material.
翻訳日:2023-02-28 15:28:03 公開日:2023-02-27
# イベントによるBlurry画像の超解法学習

Learning to Super-Resolve Blurry Images with Events ( http://arxiv.org/abs/2302.13766v1 )

ライセンス: Link先を確認
Lei Yu, Bishan Wang, Xiang Zhang, Haijian Zhang, Wen Yang, Jianzhuang Liu, Gui-Song Xia(参考訳) 単一運動ブラインド画像(SRB)からの超解像は, 運動ぼけと低空間分解能の合同劣化により, 深刻な問題となる。 本稿では,SRBの負担を軽減するためにイベントを用いて,高分解能(HR)で鮮明かつ鮮明な画像を1つのぼやけた画像から低分解能(LR)で生成するイベント強化SRB (Event-enhanced SRB) アルゴリズムを提案する。 この目的を達成するために, 低空間分解能, 動きのぼやき, イベントノイズを同時に考慮し, 事象エンハンス・デジェネレーションモデルを定式化する。 次に、イベントと強度フレームの両方をスパース表現でモデル化する二重スパース学習スキームに基づいて、イベント強化スパース学習ネットワーク(eSL-Net++)を構築する。 さらに,イベントシャッフル・アンド・マージ方式を提案し,追加のトレーニング処理を必要とせずに,単一フレームのSRBをシーケンスフレームのSRBに拡張する。 合成および実世界のデータセットによる実験結果から,提案したeSL-Net++は最先端の手法よりも大きなマージンで優れていた。 データセット、コード、さらに多くの結果がhttps://github.com/shinywang33/esl-net-plusplusで入手できる。

Super-Resolution from a single motion Blurred image (SRB) is a severely ill-posed problem due to the joint degradation of motion blurs and low spatial resolution. In this paper, we employ events to alleviate the burden of SRB and propose an Event-enhanced SRB (E-SRB) algorithm, which can generate a sequence of sharp and clear images with High Resolution (HR) from a single blurry image with Low Resolution (LR). To achieve this end, we formulate an event-enhanced degeneration model to consider the low spatial resolution, motion blurs, and event noises simultaneously. We then build an event-enhanced Sparse Learning Network (eSL-Net++) upon a dual sparse learning scheme where both events and intensity frames are modeled with sparse representations. Furthermore, we propose an event shuffle-and-merge scheme to extend the single-frame SRB to the sequence-frame SRB without any additional training process. Experimental results on synthetic and real-world datasets show that the proposed eSL-Net++ outperforms state-of-the-art methods by a large margin. Datasets, codes, and more results are available at https://github.com/ShinyWang33/eSL-Net-Plusplus.
翻訳日:2023-02-28 15:27:38 公開日:2023-02-27
# トラッピング領域を利用したマルチエージェント学習における安全保証

Safety Guarantees in Multi-agent Learning via Trapping Regions ( http://arxiv.org/abs/2302.13844v1 )

ライセンス: Link先を確認
Aleksander Czechowski, Frans A. Oliehoek(参考訳) マルチエージェント学習の主な課題の1つは、アルゴリズムの収束を確立することである。 これはほとんどの単一エージェント環境とは全く対照的であり、システムの長期的な振る舞いの不確実性を引き起こすため、実用的なアプリケーションにおけるデプロイの障壁となる。 本研究では、動的システムの定性理論から知られるトラップ領域の概念を適用し、分散学習のための共同戦略空間における安全セットを作成することを提案する。 学習ダイナミクスの方向を検証すれば、学習プロセス中に得られる軌道はそのような集合を逃がさないことが保証される。 その結果、適用アルゴリズムの収束に関する不確実性にもかかわらず、学習が危険な共同戦略の組み合わせを形成することはないことが保証される。 本稿では,既知の学習ダイナミクスを有するシステムにおけるトラッピング領域の検証のためのバイナリ分割アルゴリズムと,学習ダイナミクスが未知なシナリオに対するヒューリスティックサンプリングアルゴリズムを提案する。 さらに,固定点の議論を通じて,トラップ領域内に学習平衡が存在することを示す。 本稿では,dirac生成広告ネットワークのレギュライゼーション版,オープンソースの微視的交通シミュレータsumoの状況下で実行される4区間交通制御シナリオ,経済競争の数学的モデルに対する応用例を示す。

One of the main challenges of multi-agent learning lies in establishing convergence of the algorithms, as, in general, a collection of individual, self-serving agents is not guaranteed to converge with their joint policy, when learning concurrently. This is in stark contrast to most single-agent environments, and sets a prohibitive barrier for deployment in practical applications, as it induces uncertainty in long term behavior of the system. In this work, we propose to apply the concept of trapping regions, known from qualitative theory of dynamical systems, to create safety sets in the joint strategy space for decentralized learning. Upon verification of the direction of learning dynamics, the resulting trajectories are guaranteed not to escape such sets, during the learning process. As a result, it is ensured, that despite the uncertainty over convergence of the applied algorithms, learning will never form hazardous joint strategy combinations. We introduce a binary partitioning algorithm for verification of trapping regions in systems with known learning dynamics, and a heuristic sampling algorithm for scenarios where learning dynamics are not known. In addition, via a fixed point argument, we show the existence of a learning equilibrium within a trapping region. We demonstrate the applications to a regularized version of Dirac Generative Adversarial Network, a four-intersection traffic control scenario run in a state of the art open-source microscopic traffic simulator SUMO, and a mathematical model of economic competition.
翻訳日:2023-02-28 15:21:54 公開日:2023-02-27
# 長期コンテキストを考慮した目標認識追跡

Target-Aware Tracking with Long-term Context Attention ( http://arxiv.org/abs/2302.13840v1 )

ライセンス: Link先を確認
Kaijie He, Canlong Zhang, Sheng Xie, Zhixin Li, Zhiwen Wang(参考訳) 多くのディープトラッカーは依然としてサイムズパラダイムのガイダンスに従っており、コンテキスト情報を持たないターゲットのみを含むテンプレートを使用するため、トラッカーが大きな外観変化、高速なターゲット運動、類似した物体からのアトラクションに対処することが困難である。 上記の問題を緩和するために,長期フレームからターゲットとそのコンテキストに広範囲な情報融合を行うためのLCAモジュールを提案し,目標特徴を拡張しながら目標相関を計算する。 完全なコンテキスト情報には、ターゲットの場所と、ターゲット周辺の状態が含まれる。 LCAは、以前のフレームからターゲット状態を使用して、類似したオブジェクトや複雑な背景の干渉を排除し、ターゲットを正確に位置決めし、トラッカーがより高い堅牢性と回帰精度を得ることができるようにする。 TransformerにLCAモジュールを埋め込むことで、ターゲットを意識したバックボーンを備えた強力なオンライントラッカーを構築できます。 さらに,計算負荷を増すことなく,履歴情報の分類信頼度に基づく動的オンライン更新アルゴリズムを提案する。 トラッカーは, 71.1\% AUC, 89.3\% NP, 73.0\% AO を LaSOT, TrackingNet, GOT-10k で実現した。 コードとトレーニングされたモデルはhttps://github.com/hekaijie123/tatrackで入手できる。

Most deep trackers still follow the guidance of the siamese paradigms and use a template that contains only the target without any contextual information, which makes it difficult for the tracker to cope with large appearance changes, rapid target movement, and attraction from similar objects. To alleviate the above problem, we propose a long-term context attention (LCA) module that can perform extensive information fusion on the target and its context from long-term frames, and calculate the target correlation while enhancing target features. The complete contextual information contains the location of the target as well as the state around the target. LCA uses the target state from the previous frame to exclude the interference of similar objects and complex backgrounds, thus accurately locating the target and enabling the tracker to obtain higher robustness and regression accuracy. By embedding the LCA module in Transformer, we build a powerful online tracker with a target-aware backbone, termed as TATrack. In addition, we propose a dynamic online update algorithm based on the classification confidence of historical information without additional calculation burden. Our tracker achieves state-of-the-art performance on multiple benchmarks, with 71.1\% AUC, 89.3\% NP, and 73.0\% AO on LaSOT, TrackingNet, and GOT-10k. The code and trained models are available on https://github.com/hekaijie123/TATrack.
翻訳日:2023-02-28 15:21:32 公開日:2023-02-27
# クロスモーダル顔と音声の移動

Cross-modal Face- and Voice-style Transfer ( http://arxiv.org/abs/2302.13838v1 )

ライセンス: Link先を確認
Naoya Takahashi, Mayank K. Singh, Yuki Mitsufuji(参考訳) 画像から画像への変換と音声への変換により、画像中のポーズや音声中の言語的内容などのセマンティクスを維持しつつ、新しい顔画像と音声を生成することができる。 多くのアプリケーションでコンテンツ作成プロセスを支援することができます。 しかし、それぞれのモダリティ内の変換に制限があるため、生成した顔と声の印象の一致は未解決のままである。 xfavot というクロスモーダル・スタイル・トランスファー・フレームワークを提案する。これは音声や画像誘導を伴う画像翻訳と音声変換の4つのタスクを共同で学習し、与えられた音声に合致する顔」と「与えられた顔に合致する声」の生成を可能にする。 複数のデータセットに対する実験結果から,XFaVoTは画像と音声のクロスモーダルな変換を実現し,品質,多様性,対面声の対応性において,ベースラインを上回った。

Image-to-image translation and voice conversion enable the generation of a new facial image and voice while maintaining some of the semantics such as a pose in an image and linguistic content in audio, respectively. They can aid in the content-creation process in many applications. However, as they are limited to the conversion within each modality, matching the impression of the generated face and voice remains an open question. We propose a cross-modal style transfer framework called XFaVoT that jointly learns four tasks: image translation and voice conversion tasks with audio or image guidance, which enables the generation of ``face that matches given voice" and ``voice that matches given face", and intra-modality translation tasks with a single framework. Experimental results on multiple datasets show that XFaVoT achieves cross-modal style translation of image and voice, outperforming baselines in terms of quality, diversity, and face-voice correspondence.
翻訳日:2023-02-28 15:21:07 公開日:2023-02-27
# 拡散サンプリングのノイズ化

Denoising Diffusion Samplers ( http://arxiv.org/abs/2302.13834v1 )

ライセンス: Link先を確認
Francisco Vargas, Will Grathwohl, Arnaud Doucet(参考訳) デノイジング拡散モデルは、多くの領域で最先端の結果を提供する一般的な生成モデルである。 拡散を用いてデータに徐々にノイズを加え、データ分布をガウス分布に変換する。 生成モデルからのサンプルは、ガウスサンプルによって初期化された拡散の時間反転の近似をシミュレートして得られる。 実際、時間反転過程に現れる難解なスコア項は、スコアマッチング技術を用いて近似される。 ここでは,非正規化確率密度関数からサンプルを抽出し,その正規化定数を推定する。 対象密度がガウスに向かって拡散する過程を考える。 対応する時間反転を近似してDDS(Denoising Diffusion Samplers)を得る。 この文脈ではスコアマッチングは適用できないが、モンテカルロサンプリングの生成モデリングで導入された多くのアイデアを活用できる。 既存の拡散モデルの理論的結果は、DDSの理論的保証も提供する。 我々は, DDS, 最適制御, およびSchr\odingerブリッジの接続について検討し, 様々な難易度サンプリングタスクについて実験を行った。

Denoising diffusion models are a popular class of generative models providing state-of-the-art results in many domains. One adds gradually noise to data using a diffusion to transform the data distribution into a Gaussian distribution. Samples from the generative model are then obtained by simulating an approximation of the time-reversal of this diffusion initialized by Gaussian samples. Practically, the intractable score terms appearing in the time-reversed process are approximated using score matching techniques. We explore here a similar idea to sample approximately from unnormalized probability density functions and estimate their normalizing constants. We consider a process where the target density diffuses towards a Gaussian. Denoising Diffusion Samplers (DDS) are obtained by approximating the corresponding time-reversal. While score matching is not applicable in this context, we can leverage many of the ideas introduced in generative modeling for Monte Carlo sampling. Existing theoretical results from denoising diffusion models also provide theoretical guarantees for DDS. We discuss the connections between DDS, optimal control and Schr\"odinger bridges and finally demonstrate DDS experimentally on a variety of challenging sampling tasks.
翻訳日:2023-02-28 15:20:48 公開日:2023-02-27
# 二元地理空間データのためのランダム森林

Random forests for binary geospatial data ( http://arxiv.org/abs/2302.13828v1 )

ライセンス: Link先を確認
Arkajyoti Saha and Abhirup Datta(参考訳) 二元的地理空間データは、線形固定共変量効果で定義された一般化線形混合モデルと、リンク関数による応答に関するガウス過程(GP)分布空間ランダム効果でよく解析される。 線形共変量効果の仮定は厳しく制限される。 ランダムフォレスト(rf)は空間データの非線形モデリングにますます利用されているが、バイナリ空間データに対するrfの現在の拡張は混合モデルの設定から外れ、固定効果に対する推論やgpを使用する他の利点を放棄する。 本研究では,ランダムフォレストを用いて非線形共変量効果とガウス過程を推定し,一般化混合モデルフレームワーク内で直接空間的ランダム効果をモデル化するrf-gpを提案する。 我々は,gini不純物測度と最小二乗損失の等価性を観測・活用し,空間依存性を考慮したバイナリデータに対するrfの拡張を提案する。 次に,GPの特性を利用して共変量効果を推定し,空間的予測を行う新しいリンク反転アルゴリズムを提案する。 RF-GPは、シミュレーションデータと実世界のデータの両方において、推定と予測のための既存のRF法より優れている。 空間的Mat\'ern GPや自己回帰過程のような一般的な選択を含む、$\beta$-mixing二元過程の一般クラスに対するRF-GPの整合性を確立する。

Binary geospatial data is commonly analyzed with generalized linear mixed models, specified with a linear fixed covariate effect and a Gaussian Process (GP)-distributed spatial random effect, relating to the response via a link function. The assumption of linear covariate effects is severely restrictive. Random Forests (RF) are increasingly being used for non-linear modeling of spatial data, but current extensions of RF for binary spatial data depart the mixed model setup, relinquishing inference on the fixed effects and other advantages of using GP. We propose RF-GP, using Random Forests for estimating the non-linear covariate effect and Gaussian Processes for modeling the spatial random effects directly within the generalized mixed model framework. We observe and exploit equivalence of Gini impurity measure and least squares loss to propose an extension of RF for binary data that accounts for the spatial dependence. We then propose a novel link inversion algorithm that leverages the properties of GP to estimate the covariate effects and offer spatial predictions. RF-GP outperforms existing RF methods for estimation and prediction in both simulated and real-world data. We establish consistency of RF-GP for a general class of $\beta$-mixing binary processes that includes common choices like spatial Mat\'ern GP and autoregressive processes.
翻訳日:2023-02-28 15:20:32 公開日:2023-02-27
# ltlf合成の前進:dpll at work

Forward LTLf Synthesis: DPLL At Work ( http://arxiv.org/abs/2302.13825v1 )

ライセンス: Link先を確認
Marco Favorito(参考訳) 本稿では,従来の手法の限界を克服し,有限トレース(ltlf)上の線形時相論理を合成するための新しいグラフ探索フレームワークを提案する。 そのようなフレームワークの中で、私はDavis-Putnam-Logemann-Loveland (DPLL)アルゴリズムにインスパイアされたプロシージャを考案し、真に深み第一の方法で次のエージェント環境の動きを生成する。 また,状態公式の構文的等価性に基づく探索ノードの等価性チェックも提案する。 結果の手続きは終了することが保証されていないので、私は実行を中止し、二分決定ダイアグラム(bdd)に基づいた状態等価チェックで検索を再開するための停止条件を特定します。 実験の結果,提案手法が他の最先端手法よりも優れていることがわかった。

This paper proposes a new AND-OR graph search framework for synthesis of Linear Temporal Logic on finite traces (LTLf), that overcomes some limitations of previous approaches. Within such framework, I devise a procedure inspired by the Davis-Putnam-Logemann-Loveland (DPLL) algorithm to generate the next available agent-environment moves in a truly depth-first fashion, possibly avoiding exhaustive enumeration or costly compilations. I also propose a novel equivalence check for search nodes based on syntactic equivalence of state formulas. Since the resulting procedure is not guaranteed to terminate, I identify a stopping condition to abort execution and restart the search with state-equivalence checking based on Binary Decision Diagrams (BDD), which I show to be correct. The experimental results show that in many cases the proposed techniques outperform other state-of-the-art approaches.
翻訳日:2023-02-28 15:19:55 公開日:2023-02-27
# アクティブドメイン適応のためのディリクレに基づく不確かさ校正

Dirichlet-based Uncertainty Calibration for Active Domain Adaptation ( http://arxiv.org/abs/2302.13824v1 )

ライセンス: Link先を確認
Mixue Xie, Shuang Li, Rui Zhang, Chi Harold Liu(参考訳) アクティブドメイン適応(da)は、アノテートに限定されたターゲットデータを積極的に選択することで、新しいターゲットドメインのモデル適応を最大限に促進することを目的としているが、従来のアクティブな学習手法は、ドメインシフトの問題を考慮していないため、効果が低い。 アクティブなdaメソッドでは、ターゲットドメイン特性の表現性を測定するための目標性がさらに提案されているが、予測の不確実性は、通常、分布シフトのあるデータ上で容易に誤解される決定論的モデルの予測に基づいている。 そこで本研究では,誤校正の軽減と情報的対象標本の選択を同時に行う,アクティブDAのための<textit{Dirichlet-based Uncertainty Calibration} (DUC) アプローチを提案する。 具体的には、予測に先立ってディリクレを配置し、決定論的モデルのような点推定ではなく、確率シンプレックス上の分布として予測を解釈する。 この方法により、一側予測の誤校正を緩和し、可能な全ての予測を考慮できる。 次に、異なる不確かさの起点に基づく2ラウンド選択戦略を設計し、対象領域と識別可能性の両方を表すターゲットサンプルを選択する。 クロスドメイン画像分類とセマンティックセグメンテーションに関する大規模な実験は、DUCの優位性を検証する。

Active domain adaptation (DA) aims to maximally boost the model adaptation on a new target domain by actively selecting limited target data to annotate, whereas traditional active learning methods may be less effective since they do not consider the domain shift issue. Despite active DA methods address this by further proposing targetness to measure the representativeness of target domain characteristics, their predictive uncertainty is usually based on the prediction of deterministic models, which can easily be miscalibrated on data with distribution shift. Considering this, we propose a \textit{Dirichlet-based Uncertainty Calibration} (DUC) approach for active DA, which simultaneously achieves the mitigation of miscalibration and the selection of informative target samples. Specifically, we place a Dirichlet prior on the prediction and interpret the prediction as a distribution on the probability simplex, rather than a point estimate like deterministic models. This manner enables us to consider all possible predictions, mitigating the miscalibration of unilateral prediction. Then a two-round selection strategy based on different uncertainty origins is designed to select target samples that are both representative of target domain and conducive to discriminability. Extensive experiments on cross-domain image classification and semantic segmentation validate the superiority of DUC.
翻訳日:2023-02-28 15:19:26 公開日:2023-02-27
# おしゃべりしよう! ChatGPTとの会話:技術・応用・限界

Let's have a chat! A Conversation with ChatGPT: Technology, Applications, and Limitations ( http://arxiv.org/abs/2302.13817v1 )

ライセンス: Link先を確認
Sakib Shahriar and Kadhim Hayawi(参考訳) 人間のような文を生成し、一貫性のあるエッセイを書くことができるAIベースのチャットボットの出現は、世界の注目を集めている。 本稿ではチャットボットの歴史的概要とチャット生成事前学習トランス(ChatGPT)を支える技術について述べる。 さらに、医療、教育、研究など様々な分野におけるChatGPTの応用の可能性を強調した。 有望な結果にもかかわらず、ChatGPTにはいくつかのプライバシーと倫理上の懸念がある。 さらに、現在のバージョンのChatGPTの重要な制限をいくつか強調する。 また、ChatGPTにその視点を提供して、答えようとするいくつかの質問に対する回答を提示するように求めます。

The emergence of an AI-powered chatbot that can generate human-like sentences and write coherent essays has caught the world's attention. This paper discusses the historical overview of chatbots and the technology behind Chat Generative Pre-trained Transformer, better known as ChatGPT. Moreover, potential applications of ChatGPT in various domains, including healthcare, education, and research, are highlighted. Despite promising results, there are several privacy and ethical concerns surrounding ChatGPT. In addition, we highlight some of the important limitations of the current version of ChatGPT. We also ask ChatGPT to provide its point of view and present its responses to several questions we attempt to answer.
翻訳日:2023-02-28 15:18:56 公開日:2023-02-27
# バンド非対称性による一次元弱局在の抑制

Suppression of one-dimensional weak localization by band asymmetry ( http://arxiv.org/abs/2302.13816v1 )

ライセンス: Link先を確認
Kartikeya Arora, Rajeev Singh, Pavan Hosur(参考訳) エネルギー分散により時間反転および反転対称性を破る金属の異常誘起局在を, ベリー相を欠いた, $\epsilon_{k}\neq\epsilon_{-k}$を用いて検討した。 摂動性障害では, 左右の移動者のフェルミ速度のミスマッチにより, 局所性の弱さが抑制されている。 この解析結果を明らかにするために,アンダーソン局在長よりも短い鎖のクエンチ数値 -- 再帰グリーン関数法を用いて計算し,有限であることが証明された -- を行い,バンド非対称性による参加率の飽和値の急上昇を見出し,非局在化傾向を示す。

We investigate disorder-induced localization in metals that break time-reversal and inversion symmetries through their energy dispersion, $\epsilon_{k}\neq\epsilon_{-k}$, but lack Berry phases. In the perturbative regime of disorder, we show that weak localization is suppressed due to a mismatch of the Fermi velocities of left and right movers. To substantiate this analytical result, we perform quench numerics on chains shorter than the Anderson localization length -- the latter computed and verified to be finite using the recursive Green's function method -- and find a sharp rise in the saturation value of the participation ratio due to band asymmetry, indicating a tendency to delocalize.
翻訳日:2023-02-28 15:18:46 公開日:2023-02-27
# 構造分布シフト下におけるグラフモデルのロバスト性と不確かさの評価

Evaluating Robustness and Uncertainty of Graph Models Under Structural Distributional Shifts ( http://arxiv.org/abs/2302.13875v1 )

ライセンス: Link先を確認
Gleb Bazhenov, Denis Kuznedelev, Andrey Malinin, Artem Babenko, Liudmila Prokhorenkova(参考訳) 機械学習に基づく信頼できる意思決定システムでは、モデルは分散シフトに頑健であるか、予測の不確実性を提供する必要がある。 グラフ学習のノードレベルの問題では、サンプルが相互依存であるため、分布シフトは特に複雑になる。 グラフモデルの性能を評価するためには,多様かつ有意義な分布シフトで評価することが重要である。 しかし、ノードレベルの問題に対する分布シフトを考慮したグラフベンチマークのほとんどは、主にノードの特徴に焦点を当てている。 本研究では,グラフ構造に基づく多様な分布シフトを誘導する一般的な手法を提案する。 このアプローチは、人気、局所性、密度といったいくつかの構造ノードプロパティに従ってデータ分割を作成するために使用します。 実験では,提案した分布シフトを徹底的に評価し,既存のグラフモデルでは極めて困難であることを示す。 提案手法が、信頼性の高いグラフ機械学習のさらなる発展に役立つことを期待している。

In reliable decision-making systems based on machine learning, models have to be robust to distributional shifts or provide the uncertainty of their predictions. In node-level problems of graph learning, distributional shifts can be especially complex since the samples are interdependent. To evaluate the performance of graph models, it is important to test them on diverse and meaningful distributional shifts. However, most graph benchmarks that consider distributional shifts for node-level problems focus mainly on node features, while data in graph problems is primarily defined by its structural properties. In this work, we propose a general approach for inducing diverse distributional shifts based on graph structure. We use this approach to create data splits according to several structural node properties: popularity, locality, and density. In our experiments, we thoroughly evaluate the proposed distributional shifts and show that they are quite challenging for existing graph models. We hope that the proposed approach will be helpful for the further development of reliable graph machine learning.
翻訳日:2023-02-28 15:12:23 公開日:2023-02-27
# EDMAE:小児心エコー図における高効率非結合型マスク付きオートエンコーダ

EDMAE: An Efficient Decoupled Masked Autoencoder for Standard View Identification in Pediatric Echocardiography ( http://arxiv.org/abs/2302.13869v1 )

ライセンス: Link先を確認
Yiman Liu, Xiaoxiang Han, Tongtong Liang, Qiaohong Liu, Qingli Li, Yuqi Zhang(参考訳) 小児心エコー図における標準視野認識のための非教師なし(または自己教師なし)方式であるedmae(decoupled mask autoencoder)を提案する。 新規なプロキシタスクを構築することにより、EDMAEは大規模な未ラベル小児心エコーデータセット上で事前訓練され、標準平面認識の下流タスクにおいて優れた性能を達成する。 EDMAEは純粋な畳み込み操作を使用することでトレーニング効率を向上し、エンコーダとデコーダを分離することにより、エンコーダにより高品質なセマンティック情報を抽出させる。 提案手法の有効性を実験により実証した。

We propose an efficient decoupled mask autoencoder (EDMAE) for standard view recognition in Pediatric Echocardiography, which is an unsupervised (or self-supervised) method. By building a novel proxy task, EDMAE is pretrained on a large-scale unlabeled pediatric cardiac ultrasound dataset to achieve excellent performance in downstream tasks of standard plane recognition. EDMAE improves training efficiency by using pure convolutional operations, and forces the encoder to extract more and higher quality semantic information by decoupling the encoder and decoder. Extensive experiments have demonstrated the effectiveness of the proposed method.
翻訳日:2023-02-28 15:12:08 公開日:2023-02-27
# 有用合成画像を生成する個人差分拡散モデル

Differentially Private Diffusion Models Generate Useful Synthetic Images ( http://arxiv.org/abs/2302.13861v1 )

ライセンス: Link先を確認
Sahra Ghalebikesabi, Leonard Berrada, Sven Gowal, Ira Ktena, Robert Stanforth, Jamie Hayes, Soham De, Samuel L. Smith, Olivia Wiles, Borja Balle(参考訳) 機密画像データセットのプライバシを保存する合成バージョンを生成する能力は、現在データ可用性に制約されている多数のMLアプリケーションをアンロックすることができる。 驚くべき画像生成品質のため、拡散モデルは高品質な合成データを生成する主要な候補である。 しかし、最近の研究では、いくつかの拡散モデルの出力がトレーニングデータプライバシを保持していないことがデフォルトで判明している。 80m以上のパラメータを持つイメージネット事前学習拡散モデルを用いて,fidと合成データを用いた下流分類器の精度からcifar-10およびcamlyon17のsoma結果を得る。 CIFAR-10のSOTA FIDは26.2から9.8に減少し,精度は51.0%から88.0%に向上した。 Camelyon17の合成データから、実際のデータでトレーニングすると、SOTAに近い91.1%のダウンストリーム精度が96.5%に達する。 我々は,生成モデルを用いて無限量のデータを作成し,下流の予測性能を最大化し,さらにハイパーパラメータチューニングのための合成データの使い方を示す。 その結果,事前学習分布と微調整分布の間に大きな分布変化がある場合においても,差分プライバシーで微調整された拡散モデルが有用かつ確実にプライベートな合成データを生成することができることがわかった。

The ability to generate privacy-preserving synthetic versions of sensitive image datasets could unlock numerous ML applications currently constrained by data availability. Due to their astonishing image generation quality, diffusion models are a prime candidate for generating high-quality synthetic data. However, recent studies have found that, by default, the outputs of some diffusion models do not preserve training data privacy. By privately fine-tuning ImageNet pre-trained diffusion models with more than 80M parameters, we obtain SOTA results on CIFAR-10 and Camelyon17 in terms of both FID and the accuracy of downstream classifiers trained on synthetic data. We decrease the SOTA FID on CIFAR-10 from 26.2 to 9.8, and increase the accuracy from 51.0% to 88.0%. On synthetic data from Camelyon17, we achieve a downstream accuracy of 91.1% which is close to the SOTA of 96.5% when training on the real data. We leverage the ability of generative models to create infinite amounts of data to maximise the downstream prediction performance, and further show how to use synthetic data for hyperparameter tuning. Our results demonstrate that diffusion models fine-tuned with differential privacy can produce useful and provably private synthetic data, even in applications with significant distribution shift between the pre-training and fine-tuning distributions.
翻訳日:2023-02-28 15:11:56 公開日:2023-02-27
# 直接ランダム化ベンチマークの理論

A Theory of Direct Randomized Benchmarking ( http://arxiv.org/abs/2302.13853v1 )

ライセンス: Link先を確認
Anthony M. Polloreno and Arnaud Carignan-Dugas and Jordan Hines and Robin Blume-Kohout and Kevin Young and Timothy Proctor(参考訳) ランダム化ベンチマーク(RB)プロトコルは、量子論理ゲートのセットの平均エラー率を測定するために広く使われている。 しかし、RBの標準バージョンは、プロセッサのネイティブゲートのみを間接的にベンチマークし、合成$n$-qubit Cliffordゲートで使用することによって制限されている。 標準RBの$n$-qubit Clifford ゲートへの依存は、通常の合成 $n$-qubit Clifford ゲートの忠実度が$n$の増加とともに急速に減少するため、これを数量子状態に制限する。 さらに、標準rbはネイティブゲートのエラー率を推測するためによく用いられるが、clifford毎の標準rbのエラーをネイティブゲート毎のエラーに再スケーリングすることで、これは信頼できない外挿である。 Direct RBは、プロセッサのネイティブゲートなどのカスタマイズ可能なゲートセットを直接ベンチマークすることで、標準RBのこれらの制限に対処する手法である。 本稿では、直接RBの詳細な紹介、直接RB実験の設計方法、および直接RBに関する2つの相補的理論について述べる。 これらの理論の第一は、確率的なポーリ誤差を経験するゲートに対して直接rbが信頼できることを示すために、ランダム回路におけるエラー伝播やスクランブルの概念を用いる。 直接RB崩壊は1つの指数関数であり、広い状況下では、崩壊速度はベンチマークされたゲートの平均不完全性に等しいことを示す。 この理論は、信頼できるRBに対して群 twirling は必要ないことを示している。 2つ目の理論は、標準RBの現代理論と同様の手法を用いて、一般的なゲート依存マルコフ誤差を経験するゲートに対して直接RBが信頼できることを証明している。 直系RBの2つの理論は相補的適用性を持ち、直系RBがなぜ機能するのかを補完的に考察する。 これらの理論は直接RBの信頼性を包括的に保証する。

Randomized benchmarking (RB) protocols are widely used to measure an average error rate for a set of quantum logic gates. However, the standard version of RB is limited because it only benchmarks a processor's native gates indirectly, by using them in composite $n$-qubit Clifford gates. Standard RB's reliance on $n$-qubit Clifford gates restricts it to the few-qubit regime, because the fidelity of a typical composite $n$-qubit Clifford gate decreases rapidly with increasing $n$. Furthermore, although standard RB is often used to infer the error rate of native gates, by rescaling standard RB's error per Clifford to an error per native gate, this is an unreliable extrapolation. Direct RB is a method that addresses these limitations of standard RB, by directly benchmarking a customizable gate set, such as a processor's native gates. Here we provide a detailed introduction to direct RB, we discuss how to design direct RB experiments, and we present two complementary theories for direct RB. The first of these theories uses the concept of error propagation or scrambling in random circuits to show that direct RB is reliable for gates that experience stochastic Pauli errors. We prove that the direct RB decay is a single exponential, and that the decay rate is equal to the average infidelity of the benchmarked gates, under broad circumstances. This theory shows that group twirling is not required for reliable RB. Our second theory proves that direct RB is reliable for gates that experience general gate-dependent Markovian errors, using similar techniques to contemporary theories for standard RB. Our two theories for direct RB have complementary regimes of applicability, and they provide complementary perspectives on why direct RB works. Together these theories provide comprehensive guarantees on the reliability of direct RB.
翻訳日:2023-02-28 15:11:08 公開日:2023-02-27
# 2エージェント強化学習における暗黙の毒攻撃--訓練時間攻撃に対する敵対政策

Implicit Poisoning Attacks in Two-Agent Reinforcement Learning: Adversarial Policies for Training-Time Attacks ( http://arxiv.org/abs/2302.13851v1 )

ライセンス: Link先を確認
Mohammad Mohammadi, Jonathan N\"other, Debmalya Mandal, Adish Singla, Goran Radanovic(参考訳) 標的中毒攻撃では、攻撃者はエージェントと環境の相互作用を操作し、ターゲットポリシーと呼ばれる利害ポリシーを採用するようエージェントを強制する。 先行研究は主に、報酬やトランジションなどのmdpプリミティブを変更する攻撃に焦点を当てている。 本稿では,攻撃者が仲間の方針を変更して,エージェントの有効環境に暗黙的に毒を盛る二剤セットにおける標的中毒攻撃について検討する。 そこで我々は,最適な攻撃設計のための最適化フレームワークを開発した。攻撃のコストは,ピアエージェントの既定ポリシーからソリューションがどの程度逸脱しているかを測定する。 この最適化フレームワークの計算特性についてさらに検討する。 表形式では,MDPプリミティブに基づく毒殺攻撃(移行と(非有界)報酬)が常に実現可能であるのに対して,暗黙的な毒殺攻撃の可能性を決定することはNP-hardであることを示す。 本報告では,攻撃問題の実現可能性に関する十分な条件を確立するとともに,攻撃の最適コストに対する上限値と下限値を求める。 そこで本稿では, 表型ポリシを用いたモデルベースアプローチと, パラメトリック/ニューラルポリシを用いたモデルフリーアプローチの2つのアルゴリズム的アプローチを提案する。 提案手法の有効性を実験により示す。

In targeted poisoning attacks, an attacker manipulates an agent-environment interaction to force the agent into adopting a policy of interest, called target policy. Prior work has primarily focused on attacks that modify standard MDP primitives, such as rewards or transitions. In this paper, we study targeted poisoning attacks in a two-agent setting where an attacker implicitly poisons the effective environment of one of the agents by modifying the policy of its peer. We develop an optimization framework for designing optimal attacks, where the cost of the attack measures how much the solution deviates from the assumed default policy of the peer agent. We further study the computational properties of this optimization framework. Focusing on a tabular setting, we show that in contrast to poisoning attacks based on MDP primitives (transitions and (unbounded) rewards), which are always feasible, it is NP-hard to determine the feasibility of implicit poisoning attacks. We provide characterization results that establish sufficient conditions for the feasibility of the attack problem, as well as an upper and a lower bound on the optimal cost of the attack. We propose two algorithmic approaches for finding an optimal adversarial policy: a model-based approach with tabular policies and a model-free approach with parametric/neural policies. We showcase the efficacy of the proposed algorithms through experiments.
翻訳日:2023-02-28 15:10:35 公開日:2023-02-27
# エキスパートアドバイザとランダム化リトルストーン次元を用いた最適予測

Optimal Prediction Using Expert Advice and Randomized Littlestone Dimension ( http://arxiv.org/abs/2302.13849v1 )

ライセンス: Link先を確認
Yuval Filmus, Steve Hanneke, Idan Mehalel and Shay Moran(参考訳) オンライン学習における古典的な結果は、リトルストーン次元を用いて決定論的学習者によって達成可能な最適誤り境界を特徴づける(littlestone '88)。 クラス $\mathcal{h}$ を学習する際の最適な期待誤差は、そのランダム化されたリトルストーン次元に等しいことを示し、これは$\mathcal{h}$ の平均深さが 2d$ であるような$\mathcal{h}$ で砕かれた木が存在する最大の$d$である。 我々はさらに、独立な場合における最適な誤り境界を、$k$ で表される$\mathcal{h}$ における最善の関数によってなされる誤り数の関数として研究する。 リトルストーン次元$d$を持つクラスを学ぶための最適ランダム化ミスは、$k + \Theta (\sqrt{k d} + d )$であることを示す。 これはまた、2k + o (\sqrt{k d} + d )$ の最適決定論的誤りであり、auer と long ['99] によって研究されたオープン問題を解くことを意味する。 約30年前、cesa-bianchi, freund, haussler, helmbold, schapire, warmuth は、専門家のアドバイスを使って予測を研究し、n$の専門家のベストが最大$k$の間違いを犯し、最適な誤り境界は何であるかを尋ねた。 Cesa-Bianchi, Freund, Helmbold, Warmuth ['93, '96] は、決定論的学習者にほぼ最適な境界を与え、ランダム化されたケースをオープンな問題として残した。 ランダム化の場合、最適学習規則を提供することでこの問題を解決し、その予測誤りが決定論的境界の半分に等しいことを、無視可能な加法項まで示す。 これは、Cesa-Bianchi, Freund, Haussler, Helmbold, Schapire and Warmuth ['93, '97], Abernethy, Langford, and Warmuth ['06], Br\^anzei and Peres ['19] による以前の作品で改善され、$k \ll \log n$ あるいは $k \gg \log n$ が扱われた。

A classical result in online learning characterizes the optimal mistake bound achievable by deterministic learners using the Littlestone dimension (Littlestone '88). We prove an analogous result for randomized learners: we show that the optimal expected mistake bound in learning a class $\mathcal{H}$ equals its randomized Littlestone dimension, which is the largest $d$ for which there exists a tree shattered by $\mathcal{H}$ whose average depth is $2d$. We further study optimal mistake bounds in the agnostic case, as a function of the number of mistakes made by the best function in $\mathcal{H}$, denoted by $k$. We show that the optimal randomized mistake bound for learning a class with Littlestone dimension $d$ is $k + \Theta (\sqrt{k d} + d )$. This also implies an optimal deterministic mistake bound of $2k + O (\sqrt{k d} + d )$, thus resolving an open question which was studied by Auer and Long ['99]. As an application of our theory, we revisit the classical problem of prediction using expert advice: about 30 years ago Cesa-Bianchi, Freund, Haussler, Helmbold, Schapire and Warmuth studied prediction using expert advice, provided that the best among the $n$ experts makes at most $k$ mistakes, and asked what are the optimal mistake bounds. Cesa-Bianchi, Freund, Helmbold, and Warmuth ['93, '96] provided a nearly optimal bound for deterministic learners, and left the randomized case as an open problem. We resolve this question by providing an optimal learning rule in the randomized case, and showing that its expected mistake bound equals half of the deterministic bound, up to negligible additive terms. This improves upon previous works by Cesa-Bianchi, Freund, Haussler, Helmbold, Schapire and Warmuth ['93, '97], by Abernethy, Langford, and Warmuth ['06], and by Br\^anzei and Peres ['19], which handled the regimes $k \ll \log n$ or $k \gg \log n$.
翻訳日:2023-02-28 15:10:13 公開日:2023-02-27
# ELITE: カスタマイズされたテキスト-画像生成のためのテキスト埋め込みに視覚概念をエンコードする

ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation ( http://arxiv.org/abs/2302.13848v1 )

ライセンス: Link先を確認
Yuxiang Wei, Yabo Zhang, Zhilong Ji, Jinfeng Bai, Lei Zhang, Wangmeng Zuo(参考訳) 前例のない想像上の創造能力にもかかわらず、大規模なテキストから画像へのモデルは、さらにカスタマイズされた概念を表現することが期待されている。 既存の作業は一般に最適化に基づいた方法でそのような概念を学習するが、過剰な計算やメモリ負荷をもたらす。 本稿では,グローバルおよびローカルマッピングネットワークで構成される,高速かつ正確な概念カスタマイズのための学習ベースエンコーダを提案する。 具体的には、グローバルマッピングネットワークは、ある画像の階層的特徴をテキスト語埋め込み空間における複数の「新しい」単語、すなわち、不適切な乱れ(例えば、背景)を排除するために、よく編集可能な概念と他の補助的な単語に別々に投影する。 一方、ローカルマッピングネットワークは、エンコードされたパッチ機能をクロスアテンション層に注入し、プライマリコンセプトの編集性を犠牲にすることなく、詳細を省略する。 提案手法は,様々なユーザ定義概念に対する事前最適化手法と比較し,より高速な符号化処理により,高忠実度インバージョンと堅牢な編集性を実現することを示す。 私たちのコードはhttps://github.com/csyxwei/eliteで公開されます。

Despite unprecedented ability in imaginary creation, large text-to-image models are further expected to express customized concepts. Existing works generally learn such concepts in an optimization-based manner, yet bringing excessive computation or memory burden. In this paper, we instead propose a learning-based encoder for fast and accurate concept customization, which consists of global and local mapping networks. In specific, the global mapping network separately projects the hierarchical features of a given image into multiple ``new'' words in the textual word embedding space, i.e., one primary word for well-editable concept and other auxiliary words to exclude irrelevant disturbances (e.g., background). In the meantime, a local mapping network injects the encoded patch features into cross attention layers to provide omitted details, without sacrificing the editability of primary concepts. We compare our method with prior optimization-based approaches on a variety of user-defined concepts, and demonstrate that our method enables more high-fidelity inversion and robust editability with a significantly faster encoding process. Our code will be publicly available at https://github.com/csyxwei/ELITE.
翻訳日:2023-02-28 15:09:24 公開日:2023-02-27
# ドメイン適応決定木:正確性と公平性の意味

Domain Adaptive Decision Trees: Implications for Accuracy and Fairness ( http://arxiv.org/abs/2302.13846v1 )

ライセンス: Link先を確認
Jose M. Alvarez, Kristen M. Scott, Salvatore Ruggieri, Bettina Berendt(参考訳) 事前訓練された機械学習モデルでは、モデルが展開されているターゲット人口が、モデルが訓練されたソース人口に反映されていない可能性があることが知られている。 これにより、デプロイ時にバイアスドモデルが発生し、モデルパフォーマンスが低下する可能性がある。 一つのリスクは、人口が変化するにつれて、特定の人口集団は、ターゲット人口に代表されるようになってきたとしても、そのモデルによって過小評価されるか、あるいは不利になってしまうことである。 ドメイン適応の分野は,対象人口のラベルデータが存在しない状況において,対象分布に関する情報が存在する場合の手法を提案する。 本稿では、ドメイン適応決定木(DADT)を導入して、ドメイン適応文学に貢献する。 他のより複雑なモデルと比較して、その解釈性とパフォーマンスのために人気が高まり、意思決定木にフォーカスしています。 DADTでは、ターゲットドメイン(またはテストデータ)とは異なるソースドメイン(またはトレーニングデータ)でトレーニングされたモデルの精度を改善することを目的としています。 対象人口の分布に対応する外部情報を用いて情報ゲイン分割基準を調整する処理ステップを提案する。 実データ上でDADTを実証し、シフトしたターゲット集団でテストする場合、標準決定木よりも精度が向上することを示す。 また,人口格差と平等な機会の下での公平性の変化についても検討した。 その結果,DADTにより公正性が向上した。

In uses of pre-trained machine learning models, it is a known issue that the target population in which the model is being deployed may not have been reflected in the source population with which the model was trained. This can result in a biased model when deployed, leading to a reduction in model performance. One risk is that, as the population changes, certain demographic groups will be under-served or otherwise disadvantaged by the model, even as they become more represented in the target population. The field of domain adaptation proposes techniques for a situation where label data for the target population does not exist, but some information about the target distribution does exist. In this paper we contribute to the domain adaptation literature by introducing domain-adaptive decision trees (DADT). We focus on decision trees given their growing popularity due to their interpretability and performance relative to other more complex models. With DADT we aim to improve the accuracy of models trained in a source domain (or training data) that differs from the target domain (or test data). We propose an in-processing step that adjusts the information gain split criterion with outside information corresponding to the distribution of the target population. We demonstrate DADT on real data and find that it improves accuracy over a standard decision tree when testing in a shifted target population. We also study the change in fairness under demographic parity and equal opportunity. Results show an improvement in fairness with the use of DADT.
翻訳日:2023-02-28 15:09:02 公開日:2023-02-27
# デバイス非依存プロトコルの制約リークに対するロバスト性

Robustness of implemented device-independent protocols against constrained leakage ( http://arxiv.org/abs/2302.13928v1 )

ライセンス: Link先を確認
Ernest Y.-Z. Tan(参考訳) 近年、デバイス非依存(DI)プロトコルは、DIランダムネスの生成や拡張、およびDI量子鍵分布の一連のデモによって大きな進歩を遂げている。 しかし、これらのデモの既存のセキュリティ証明は、DI暗号の典型的な前提に依存しており、デバイスが互いに望ましくない情報を漏らさないか、敵に漏らさない。 この仮定は、実際に完全に実施することは難しいかもしれない。 このようなリーク量の制約を考慮に入れたDIセキュリティ証明は他にも存在するが、使用されるテクニックは最近のDIプロトコルのデモを分析するのに適していない。 本稿では,この目的に適した制約付き漏洩モデルについて検討し,今後の類似実験にも適用すべき課題について考察する。 我々の証明構造は、幅広いdiプロトコルの実装を柔軟に分析するための最近の証明技術と互換性がある。 提案手法では,これらのプロトコルの鍵レートに対する漏洩の影響を推定し,正の鍵レートを得ながら許容される漏洩量を明確に把握する。

Device-independent (DI) protocols have experienced significant progress in recent years, with a series of demonstrations of DI randomness generation or expansion, as well as DI quantum key distribution. However, existing security proofs for those demonstrations rely on a typical assumption in DI cryptography, that the devices do not leak any unwanted information to each other or to an adversary. This assumption may be difficult to perfectly enforce in practice. While there exist other DI security proofs that account for a constrained amount of such leakage, the techniques used are somewhat unsuited for analyzing the recent DI protocol demonstrations. In this work, we address this issue by studying a constrained leakage model suited for this purpose, which should also be relevant for future similar experiments. Our proof structure is compatible with recent proof techniques for flexibly analyzing a wide range of DI protocol implementations. With our approach, we compute some estimates of the effects of leakage on the keyrates of those protocols, hence providing a clearer understanding of the amount of leakage that can be allowed while still obtaining positive keyrates.
翻訳日:2023-02-28 15:02:23 公開日:2023-02-27
# Image to Sphere: 効率的なポーズ予測のための等価特徴の学習

Image to Sphere: Learning Equivariant Features for Efficient Pose Prediction ( http://arxiv.org/abs/2302.13926v1 )

ライセンス: Link先を確認
David M. Klee and Ondrej Biza and Robert Platt and Robin Walters(参考訳) 単一の画像からオブジェクトのポーズを予測することは、重要なが難しいコンピュータビジョンの問題である。 単一点推定を予測する方法は、対称性を持つ物体のポーズをうまく予測せず、不確実性を表現できない。 あるいは、$\mathrm{SO}(3)$の配向上の分布を予測する研究もある。 しかし、そのようなモデルのトレーニングは計算とサンプル非効率である。 代わりに、画像領域から3次元回転多様体への特徴量の新たなマッピングを提案する。 この手法では,よりサンプリング効率のよい$\mathrm{SO}(3)$等変層を利用し,任意の解像度でサンプリング可能な回転上の分布を出力する。 オブジェクト指向予測における本手法の有効性を実証し,PASCAL3D+データセットの最先端性能を実現する。 さらに,提案手法はパラメータや損失関数を変更することなく,複雑な物体対称性をモデル化できることを示した。 コードはhttps://dmklee.github.io/image2sphereで入手できる。

Predicting the pose of objects from a single image is an important but difficult computer vision problem. Methods that predict a single point estimate do not predict the pose of objects with symmetries well and cannot represent uncertainty. Alternatively, some works predict a distribution over orientations in $\mathrm{SO}(3)$. However, training such models can be computation- and sample-inefficient. Instead, we propose a novel mapping of features from the image domain to the 3D rotation manifold. Our method then leverages $\mathrm{SO}(3)$ equivariant layers, which are more sample efficient, and outputs a distribution over rotations that can be sampled at arbitrary resolution. We demonstrate the effectiveness of our method at object orientation prediction, and achieve state-of-the-art performance on the popular PASCAL3D+ dataset. Moreover, we show that our method can model complex object symmetries, without any modifications to the parameters or loss function. Code is available at https://dmklee.github.io/image2sphere.
翻訳日:2023-02-28 15:02:06 公開日:2023-02-27
# SemEval-2023タスク4におけるエピキュラス:定義の活用による議論の背景にある人的価値の予測の改善

Epicurus at SemEval-2023 Task 4: Improving Prediction of Human Values behind Arguments by Leveraging Their Definitions ( http://arxiv.org/abs/2302.13925v1 )

ライセンス: Link先を確認
Christian Fang, Qixiang Fang, Dong Nguyen(参考訳) 本稿では,SemEval-2023 Task 4における議論の背景にある人間の価値の同定実験について述べる。 人的価値は正確な定義を必要とする主観的な概念であるため、モデルトレーニング中に人的価値の定義(アノテーション命令や検証済み調査項目の形で)を組み込むことで、より良い予測性能が得られるという仮説を立てる。 我々は,提案するモデルが主催者のベースラインよりも優れた性能を示し,マクロf1スコアを最大18%改善した。

We describe our experiments for SemEval-2023 Task 4 on the identification of human values behind arguments (ValueEval). Because human values are subjective concepts which require precise definitions, we hypothesize that incorporating the definitions of human values (in the form of annotation instructions and validated survey items) during model training can yield better prediction performance. We explore this idea and show that our proposed models perform better than the challenge organizers' baselines, with improvements in macro F1 scores of up to 18%.
翻訳日:2023-02-28 15:01:50 公開日:2023-02-27
# 重要度重み付き変分推論のためのU統計

U-Statistics for Importance-Weighted Variational Inference ( http://arxiv.org/abs/2302.13918v1 )

ライセンス: Link先を確認
Javier Burroni, Kenta Takatsu, Justin Domke, Daniel Sheldon(参考訳) 重要重み付き変分推定における勾配推定のばらつきを低減するために,U-statisticsを用いた手法を提案する。 m > 1$のサンプルと推定に使用される合計$n > m$のサンプルを必要とするベースグラデーション推定器が与えられた場合、現在行われているように、重複するバッチサイズである$m$のベース推定器を平均することで、より低い分散が達成される。 古典的u-統計理論を用いて分散還元を解析し、計算効率を保証するために理論的な保証を持つ新しい近似を提案する。 U統計的分散の低減は, 計算コストの少ないモデルにおいて, 推論性能を著しく向上させる可能性があることを実証的に見出した。

We propose the use of U-statistics to reduce variance for gradient estimation in importance-weighted variational inference. The key observation is that, given a base gradient estimator that requires $m > 1$ samples and a total of $n > m$ samples to be used for estimation, lower variance is achieved by averaging the base estimator on overlapping batches of size $m$ than disjoint batches, as currently done. We use classical U-statistic theory to analyze the variance reduction, and propose novel approximations with theoretical guarantees to ensure computational efficiency. We find empirically that U-statistic variance reduction can lead to modest to significant improvements in inference performance on a range of models, with little computational cost.
翻訳日:2023-02-28 15:01:39 公開日:2023-02-27
# ロボット協調のためのロバストロボット計画

Robust Robot Planning for Human-Robot Collaboration ( http://arxiv.org/abs/2302.13916v1 )

ライセンス: Link先を確認
Yang You, Vincent Thomas, Francis Colas, Rachid Alami, Olivier Buffet(参考訳) 人間とロボットのコラボレーションにおいて、人間の目的はしばしばロボットに未知である。 さらに、既知の目的を仮定しても、人間の行動は不確かである。 ロバストなロボットの動作を計画するために、重要な予備的な疑問は: 既知の目的を与えられた現実的な人間の行動をどのように導き出すか? 大きな問題は、人間の振る舞い自体がロボットの振る舞いを考慮すべきであり、そうでなければコラボレーションは起こらないことである。 本稿では,人間の目的に対する不確実性を,目的関数の有限集合上の確率分布(人間の行動に対する分布)として表現するマルコフ決定モデルに依存する。 これに基づいて、私たちは2つの貢献を提案します。 1) ロボットの動作を考慮しつつ,与えられた対象機能ごとに不確定な人間の行動(方針)を自動的に生成するアプローチ 2) 上記の不確実性に頑健で, 人間の行動に対する分布を推論して得られる部分観測可能なマルコフ決定過程(POMDP)を解くことに依存するロボット計画アルゴリズム。 共同作業シナリオでは,実験を行い,質的かつ定量的な結果を提示することで,アプローチを評価することができる。

In human-robot collaboration, the objectives of the human are often unknown to the robot. Moreover, even assuming a known objective, the human behavior is also uncertain. In order to plan a robust robot behavior, a key preliminary question is then: How to derive realistic human behaviors given a known objective? A major issue is that such a human behavior should itself account for the robot behavior, otherwise collaboration cannot happen. In this paper, we rely on Markov decision models, representing the uncertainty over the human objective as a probability distribution over a finite set of objective functions (inducing a distribution over human behaviors). Based on this, we propose two contributions: 1) an approach to automatically generate an uncertain human behavior (a policy) for each given objective function while accounting for possible robot behaviors; and 2) a robot planning algorithm that is robust to the above-mentioned uncertainties and relies on solving a partially observable Markov decision process (POMDP) obtained by reasoning on a distribution over human behaviors. A co-working scenario allows conducting experiments and presenting qualitative and quantitative results to evaluate our approach.
翻訳日:2023-02-28 15:01:23 公開日:2023-02-27
# TwERC: Twitterにおける広告推薦のための高性能アンサンブル候補生成

TwERC: High Performance Ensembled Candidate Generation for Ads Recommendation at Twitter ( http://arxiv.org/abs/2302.13915v1 )

ライセンス: Link先を確認
Vanessa Cai, Pradeep Prabakar, Manuel Serrano Rebuelta, Lucas Rosen, Federico Monti, Katarzyna Janocha, Tomo Lazovich, Jeetu Raj, Yedendra Shrinivasan, Hao Li, Thomas Markovich(参考訳) レコメンデーションシステムは、オーガニックコンテンツやプロモーションコンテンツなど、ソーシャルメディア企業の中核的な機能である。 現代のレコメンデーションシステムの多くは、推薦品質と計算コストのバランスをとるために、候補生成と高いランキングの複数のステージに分けられている。 本稿では,大規模広告レコメンデーション問題の候補生成段階に注目し,twercと呼ばれるこの段階を,機械学習第1次不均質な再構築を行う。 本研究では,リアルタイム光ランカとソーシング戦略を組み合わせたシステムにより,さらなる情報収集が可能となることを示す。 我々は2つの戦略を提示する。 第1の戦略は相互作用グラフにおける類似性の概念を使用し、第2の戦略はランキングステージから前のスコアをキャッシュする。 グラフベースの戦略は収益の4.08%を達成し、ランクコアベースの戦略は1.38%を達成している。 これら2つの戦略は、光ランクと互いに補完するバイアスを持つ。 最後に、産業候補生成システム固有の複雑な製品トレードオフを理解する手段として価値があると考える指標のセットについて述べる。

Recommendation systems are a core feature of social media companies with their uses including recommending organic and promoted contents. Many modern recommendation systems are split into multiple stages - candidate generation and heavy ranking - to balance computational cost against recommendation quality. We focus on the candidate generation phase of a large-scale ads recommendation problem in this paper, and present a machine learning first heterogeneous re-architecture of this stage which we term TwERC. We show that a system that combines a real-time light ranker with sourcing strategies capable of capturing additional information provides validated gains. We present two strategies. The first strategy uses a notion of similarity in the interaction graph, while the second strategy caches previous scores from the ranking stage. The graph based strategy achieves a 4.08% revenue gain and the rankscore based strategy achieves a 1.38% gain. These two strategies have biases that complement both the light ranker and one another. Finally, we describe a set of metrics that we believe are valuable as a means of understanding the complex product trade offs inherent in industrial candidate generation systems.
翻訳日:2023-02-28 15:01:05 公開日:2023-02-27
# BERTと自己認識型埋め込みを用いた調合マイニング

Argument Mining using BERT and Self-Attention based Embeddings ( http://arxiv.org/abs/2302.13906v1 )

ライセンス: Link先を確認
Pranjal Srivastava, Pranav Bhatnagar, Anurag Goel(参考訳) 引数マイニングは自然言語引数で伝達される推論と推論の構造を自動的に識別し抽出する。 私たちの知る限りでは、この分野の最先端の著作のほとんどは、木のような構造と言語モデリングを使うことに集中しています。 しかし、これらのアプローチは、オンラインフォーラムや現実世界の議論構造に見られるような、より複雑な構造をモデル化することはできない。 本稿では,オンライン談話に共通する典型的議論構造における因果階層をモデル化するためにリンク予測のための注意に基づく埋め込みを用いた,議論マイニングのための新しい手法を提案する。

Argument mining automatically identifies and extracts the structure of inference and reasoning conveyed in natural language arguments. To the best of our knowledge, most of the state-of-the-art works in this field have focused on using tree-like structures and linguistic modeling. But, these approaches are not able to model more complex structures which are often found in online forums and real world argumentation structures. In this paper, a novel methodology for argument mining is proposed which employs attention-based embeddings for link prediction to model the causational hierarchies in typical argument structures prevalent in online discourse.
翻訳日:2023-02-28 15:00:49 公開日:2023-02-27
# リップ型バイオメトリック視覚システムにおける言語識別の改善

Language identification as improvement for lip-based biometric visual systems ( http://arxiv.org/abs/2302.13902v1 )

ライセンス: Link先を確認
Lucia Cascone, Michele Nappi, Fabio Narducci(参考訳) 言語は常に人類が定義する特徴の1つである。 視覚言語識別(VLI)は、比較的新しい研究分野であり、複雑で、ほとんど調査されていない。 本稿では,口唇運動に基づく視覚的(聴覚のない)識別システムの性能を高めるために,言語情報をソフトバイオメトリックな特徴として活用する予備研究について述べる。 スコアベースの融合戦略を用いて,これらのデータの統合により,提案する視覚システムの識別性能が大幅に向上したことを報告する。 深層学習と機械学習の手法を検討し評価する。 実験目的のために、8つの異なる言語からなるspokEn Language rEcognition (BABELE)のproBlemのためのLaBial Articulationと呼ばれるデータセットが作成された。 音声言語が最も関連性の高い特徴のコレクションを含み、各サンプルには、被験者の性別と年齢を手動でラベル付けする。

Language has always been one of humanity's defining characteristics. Visual Language Identification (VLI) is a relatively new field of research that is complex and largely understudied. In this paper, we present a preliminary study in which we use linguistic information as a soft biometric trait to enhance the performance of a visual (auditory-free) identification system based on lip movement. We report a significant improvement in the identification performance of the proposed visual system as a result of the integration of these data using a score-based fusion strategy. Methods of Deep and Machine Learning are considered and evaluated. To the experimentation purposes, the dataset called laBial Articulation for the proBlem of the spokEn Language rEcognition (BABELE), consisting of eight different languages, has been created. It includes a collection of different features of which the spoken language represents the most relevant, while each sample is also manually labelled with gender and age of the subjects.
翻訳日:2023-02-28 15:00:40 公開日:2023-02-27
# YOLOを用いたオブジェクト検出タスクにおける仮想領域適応の最適化

Supervised Virtual-to-Real Domain Adaptation for Object Detection Task using YOLO ( http://arxiv.org/abs/2302.13891v1 )

ライセンス: Link先を確認
Akbar Satya Nugraha, Yudistira Novanto, Bayu Rahayudi(参考訳) ディープニューラルネットワークは、多くの現実世界のタスクで優れた利用を示している。 ディープラーニングタスクの1つは、オブジェクト検出である。 注釈付きデータセットはディープニューラルネットワークの精度に影響する。 ディープニューラルネットワークによって学習されるデータが増えると、モデルがより正確になる。 しかし、よく注釈付けされたデータセットは、特に特定のドメインで見つけるのが難しい。 これを克服するために、コンピュータ生成データや仮想データセットが使用される。 研究者は、アノテーションを使って、特定のユースケースで多くの画像を生成することができる。 研究によると、仮想データセットはオブジェクト検出タスクに使用できる。 それでも、仮想データセットを使用することで、モデルは実際のデータセットに適応しなければならないし、あるいはモデルがドメイン適応性機能を持つ必要がある。 仮想データセットを用いたオブジェクト検出モデル内のドメイン適応について検討し,いくつかの注釈付きデータセットを克服した。 5000と10000の仮想データと220の実データを用いて,VW-PPEデータセットを使用する。 モデルアーキテクチャでは、CSPDarknet53をバックボーンとして、PANをネックとして、YOLOv4を使用しました。 背骨重量のみを微調整したドメイン適応法の平均精度は74.457%に達した。

Deep neural network shows excellent use in a lot of real-world tasks. One of the deep learning tasks is object detection. Well-annotated datasets will affect deep neural network accuracy. More data learned by deep neural networks will make the model more accurate. However, a well-annotated dataset is hard to find, especially in a specific domain. To overcome this, computer-generated data or virtual datasets are used. Researchers could generate many images with specific use cases also with its annotation. Research studies showed that virtual datasets could be used for object detection tasks. Nevertheless, with the usage of the virtual dataset, the model must adapt to real datasets, or the model must have domain adaptability features. We explored the domain adaptation inside the object detection model using a virtual dataset to overcome a few well-annotated datasets. We use VW-PPE dataset, using 5000 and 10000 virtual data and 220 real data. For model architecture, we used YOLOv4 using CSPDarknet53 as the backbone and PAN as the neck. The domain adaptation technique with fine-tuning only on backbone weight achieved a mean average precision of 74.457%.
翻訳日:2023-02-28 15:00:25 公開日:2023-02-27
# 計算部分空間からの量子ゲートの忠実性に及ぼすデコヒーレンスの影響

Impact of decoherence on the fidelity of quantum gates leaving the computational subspace ( http://arxiv.org/abs/2302.13885v1 )

ライセンス: Link先を確認
Tahereh Abad, Anton Frisk Kockum, G\"oran Johansson(参考訳) 量子演算の忠実性は、通常、振幅減衰やデファスメントのような基本的なマルコフ雑音過程によってモデル化される非コヒーレントな誤差によって制限される。 In \href{https://doi.org/10.1103/PhysRevLett.129.150504}{Phys。 Rev. Lett. 129},150504 (2022)} において,分散率と対応するリンドブラッドジャンプ作用素の観点から,一般マルチ量子ビット演算の平均ゲート忠実性について解析結果を示し,時間発展を通じて演算が計算部分空間に残ることを仮定した。 ここでは、平均ゲート忠実度に対するこの表現を一般化し、システム状態が一時的にゲートの計算部分空間を離れる場合を含める。 このようなゲート機構は、いくつかの量子計算プラットフォームに不可欠なものであり、そのすべてに適用できる。例えば、超伝導量子ビットと中性原子の両方において、2量子制御Zゲートとして採用する。 また、マルチキュービットシステムに適用される同時処理に対する平均ゲート忠実度を求める。 これらの結果は、量子コンピュータをスケールアップしながら量子ゲートのエラー予算を理解するのに有用である。

The fidelity of quantum operations is often limited by incoherent errors, which typically can be modeled by fundamental Markovian noise processes such as amplitude damping and dephasing. In \href{https://doi.org/10.1103/PhysRevLett.129.150504}{Phys. Rev. Lett. \textbf{129}, 150504 (2022)}, we presented an analytical result for the average gate fidelity of a general multiqubit operation in terms of the dissipative rates and the corresponding Lindblad jump operators, provided that the operation remains in the computational subspace throughout the time evolution. Here we generalize this expression for the average gate fidelity to include the cases where the system state temporarily leaves the computational subspace during the gate. Such gate mechanisms are integral to several quantum-computing platforms, and our formula is applicable to all of them; as examples, we employ it for the two-qubit controlled-Z gate in both superconducting qubits and neutral atoms. We also obtain the average gate fidelity for simultaneous operations applied in multiqubit systems. These results are useful for understanding the error budgets of quantum gates while scaling up quantum computers.
翻訳日:2023-02-28 15:00:12 公開日:2023-02-27
# MALDIイメージング応用のためのトポロジカルデータ解析

Supervised topological data analysis for MALDI imaging applications ( http://arxiv.org/abs/2302.13948v1 )

ライセンス: Link先を確認
Gideon Klaila, Vladimir Vutov, Anastasios Stefanou(参考訳) 本稿では,MALDIデータから固有情報を取得し,そのトポロジ的永続性を反映した新しい代数的トポロジ的フレームワークを提案する。 私たちのフレームワークには2つの大きな利点があります。 まず、トポロジカルな永続性はノイズとシグナルを区別するのに役立ちます。 次に、MALDIデータを圧縮し、保存スペースを節約し、さらに分類タスクの計算時間を最適化する。 我々は、トポロジカル・フレームワークを実行するアルゴリズムを導入し、単一のチューニングパラメータに依存する。 さらに,計算効率が高いことを示す。 パーシステンス抽出、ロジスティック回帰、ランダム森林分類器は、結果として生じる持続変換図に基づいて実行され、観察単位を肺がんサブタイプを記述するバイナリクラスラベルに分類する。 さらに,提案したフレームワークを実世界のMALDIデータセットで利用し,クロスバリデーションによる手法の競争性を示す。

We propose a new algebraic topological framework, which obtains intrinsic information from the MALDI data and transforms it to reflect topological persistence in the data. Our framework has two main advantages. First, the topological persistence helps us to distinguish the signal from noise. Second, it compresses the MALDI data, which results in saving storage space, and also optimizes the computational time for further classification tasks. We introduce an algorithm that performs our topological framework and depends on a single tuning parameter. Furthermore, we show that it is computationally efficient. Following the persistence extraction, logistic regression and random forest classifiers are executed based on the resulting persistence transformation diagrams to classify the observational units into binary class labels, describing the lung cancer subtypes. Further, we utilized the proposed framework in a real-world MALDI data set, and the competitiveness of the methods is illustrated via cross-validation.
翻訳日:2023-02-28 14:53:50 公開日:2023-02-27
# 微分プライベートな線形コンテキスト帯域について

On Differentially Private Federated Linear Contextual Bandits ( http://arxiv.org/abs/2302.13945v1 )

ライセンス: Link先を確認
Xingyu Zhou and Sayak Ray Chowdhury(参考訳) 我々は、差分プライバシーの下で、クロスサイロフェデレーション線形文脈帯域問題(LCB)を考える。 この設定では、複数のサイロまたはエージェントがローカルユーザと対話し、中央サーバを介して通信し、各ユーザのプライバシを犠牲にすることなくコラボレーションを実現する。 我々は, \cite{dubey2020differentially} の最先端アルゴリズムにおける2つの問題を特定する。 (i)主張されたプライバシー保護の失敗と (ii)後悔に縛られた音の誤算 これらの問題を解決するために、我々は2段階の原則的アプローチをとる。 まず,汎用的なLCBアルゴリズムとフレキシブルプライバシプロトコルからなるアルゴリズムフレームワークを設計する。 そこで,提案手法を応用し,2つの異なるプライバシー制約の下でフェデレートされたLCBについて検討した。 私たちはまず、サイロレベルのローカル差分プライバシーの下で、プライバシーと後悔の保証を確立します。 さらに後悔のパフォーマンスを向上させるため,我々は次に差分プライバシーのシャッフルモデルを検討し,信頼されたサーバを使わずに,アルゴリズムがほぼ‘オプティマイズ’の後悔を実現できることを示す。 これを2つの異なるスキームで実現します - 1つはDPメカニズムのシャッフルによるプライバシの増幅による新たな結果に依存し、もう1つは、ベクトル和のためのシャッフルプロトコルをツリーベースのメカニズムに統合したものです。 最後に,合成データと実データの両方から生成されたコンテキストバンディットインスタンス上での数値評価を行い,理論結果を裏付ける。

We consider cross-silo federated linear contextual bandit (LCB) problem under differential privacy. In this setting, multiple silos or agents interact with the local users and communicate via a central server to realize collaboration while without sacrificing each user's privacy. We identify two issues in the state-of-the-art algorithm of \cite{dubey2020differentially}: (i) failure of claimed privacy protection and (ii) noise miscalculation in regret bound. To resolve these issues, we take a two-step principled approach. First, we design an algorithmic framework consisting of a generic federated LCB algorithm and flexible privacy protocols. Then, leveraging the proposed framework, we study federated LCBs under two different privacy constraints. We first establish privacy and regret guarantees under silo-level local differential privacy, which fix the issues present in state-of-the-art algorithm. To further improve the regret performance, we next consider shuffle model of differential privacy, under which we show that our algorithm can achieve nearly ``optimal'' regret without a trusted server. We accomplish this via two different schemes -- one relies on a new result on privacy amplification via shuffling for DP mechanisms and another one leverages the integration of a shuffle protocol for vector sum into the tree-based mechanism, both of which might be of independent interest. Finally, we support our theoretical results with numerical evaluations over contextual bandit instances generated from both synthetic and real-life data.
翻訳日:2023-02-28 14:53:33 公開日:2023-02-27
# Inseq:シーケンス生成モデルのための解釈可能性ツールキット

Inseq: An Interpretability Toolkit for Sequence Generation Models ( http://arxiv.org/abs/2302.13942v1 )

ライセンス: Link先を確認
Gabriele Sarti, Nils Feldhus, Ludwig Sickert, Oskar van der Wal(参考訳) 自然言語処理における過去の作業 解釈性は、主に一般的な分類タスクに重点を置いていたが、一部は専用のツールの欠如による生成設定をほとんど見落としていた。 本稿では,シーケンス生成モデルの解釈可能性解析へのアクセスを民主化するpythonライブラリであるinseqを紹介する。 inseqは、一般的なデコーダオンリーおよびエンコーダデコーダトランスフォーマーアーキテクチャのための、モデルの内部情報の直感的かつ最適化された抽出を可能にする。 機械翻訳モデルにおいて,ジェンダーバイアスを強調表示し,GPT-2内部の事実的知識を特定することで,その可能性を示す。 対照的な特徴帰属のような最先端技術をサポートする拡張可能なインターフェースのおかげで、inseqは、説明可能な自然言語生成の将来の進歩を促進し、良い実践を集中させ、公平で再現可能なモデル評価を可能にする。

Past work in natural language processing interpretability focused mainly on popular classification tasks while largely overlooking generation settings, partly due to a lack of dedicated tools. In this work, we introduce Inseq, a Python library to democratize access to interpretability analyses of sequence generation models. Inseq enables intuitive and optimized extraction of models' internal information and feature importance scores for popular decoder-only and encoder-decoder Transformers architectures. We showcase its potential by adopting it to highlight gender biases in machine translation models and locate factual knowledge inside GPT-2. Thanks to its extensible interface supporting cutting-edge techniques such as contrastive feature attribution, Inseq can drive future advances in explainable natural language generation, centralizing good practices and enabling fair and reproducible model evaluations.
翻訳日:2023-02-28 14:53:13 公開日:2023-02-27
# 順序スワッピングによる一般化によるスケジューリング問題に対する強化学習アプローチ

A Reinforcement Learning Approach for Scheduling Problems With Improved Generalization Through Order Swapping ( http://arxiv.org/abs/2302.13941v1 )

ライセンス: Link先を確認
Deepak Vivekanandan, Samuel Wirth, Patrick Karlbauer, Noah Klarmann(参考訳) 生産資源のスケジューリング(ジョブを機械に関連付けるなど)は、製造産業にとってエネルギーの節約だけでなく、全体の効率を向上させる上でも重要な役割を担っている。 さまざまなジョブスケジューリング問題の中で、JSSPはこの作業で対処されている。 JSSP は NP-hard COP のカテゴリに分類される。 FIFO や LPT などの単純なヒューリスティックや Taboo search などのメタヒューリスティックは、探索空間を切断することでその問題を解決するためによく用いられる。 この手法の有効性は、最適あるいは時間のどちらにも及ばないため、大きな問題の規模では非効率になる。 近年,DRLを用いてCOPを解く研究が注目され,ソリューションの品質と計算効率の面で有望な結果が示されている。 本研究では, DRL を用いて目的の一般化と解の有効性を検証した JSSP の新たな手法を提案する。 特に、制約されたジョブのディスパッチにおいてよく機能すると考えられるポリシ・グラディエントパラダイムを採用するPPOアルゴリズムを採用する。 我々はOSMを環境に組み込んで、問題をより一般化した学習を実現した。 提案手法の性能は、利用可能なベンチマークインスタンスのセットを使用して深く分析し、結果と他のグループの成果を比較して分析する。

The scheduling of production resources (such as associating jobs to machines) plays a vital role for the manufacturing industry not only for saving energy but also for increasing the overall efficiency. Among the different job scheduling problems, the JSSP is addressed in this work. JSSP falls into the category of NP-hard COP, in which solving the problem through exhaustive search becomes unfeasible. Simple heuristics such as FIFO, LPT and metaheuristics such as Taboo search are often adopted to solve the problem by truncating the search space. The viability of the methods becomes inefficient for large problem sizes as it is either far from the optimum or time consuming. In recent years, the research towards using DRL to solve COP has gained interest and has shown promising results in terms of solution quality and computational efficiency. In this work, we provide an novel approach to solve the JSSP examining the objectives generalization and solution effectiveness using DRL. In particular, we employ the PPO algorithm that adopts the policy-gradient paradigm that is found to perform well in the constrained dispatching of jobs. We incorporated an OSM in the environment to achieve better generalized learning of the problem. The performance of the presented approach is analyzed in depth by using a set of available benchmark instances and comparing our results with the work of other groups.
翻訳日:2023-02-28 14:52:57 公開日:2023-02-27
# SpikeGPT:スパイクニューラルネットワークを用いた生成事前学習言語モデル

SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks ( http://arxiv.org/abs/2302.13939v1 )

ライセンス: Link先を確認
Rui-Jie Zhu, Qihang Zhao, Jason K. Eshraghian(参考訳) 大きな言語モデルのサイズが拡大し続けるにつれて、それを実行するのに必要な計算リソースも増えます。 スパイキングニューラルネットワーク(SNN)は、モデル推論に関連する計算オーバーヘッドを低減するためにスパースとイベント駆動のアクティベーションを活用するディープラーニングに対するエネルギー効率の高いアプローチとして登場した。 多くのコンピュータビジョンタスクにおける非スパイキングモデルと競合する一方で、SNNはトレーニングをより困難にしている。 その結果,それらの性能は現代のディープラーニングよりも遅れており,言語生成におけるSNNの有効性はまだ分かっていない。 本稿では,イベント駆動型スパイクアクティベーションユニットを備えた生成言語モデルである「SpikeGPT」の実装に成功した。 提案したモデルは,45M,125M,260Mの3種類のモデルで学習する。 我々の知る限りでは、これは今までのどの機能的バックプロップ訓練SNNよりも4倍大きい。 本研究では,マルチヘッド自己注意を置換するために変圧器ブロックを変更し,2次計算複雑性を線形に削減し,シーケンス長を増加させる。 入力トークンは、通常のSNNのように)注意機構に順次ストリームされます。 予備実験により,SpikeGPTは,スパース,イベント駆動型アクティベーションを生かしたニューロモルフィックハードウェア上で処理した際のエネルギー消費量を5倍に抑えつつ,試験ベンチマーク上での非スパイキングモデルとの競争力を維持した。 私たちのコード実装はhttps://github.com/ridgerchu/spikegptで利用可能です。

As the size of large language models continue to scale, so does the computational resources required to run it. Spiking neural networks (SNNs) have emerged as an energy-efficient approach to deep learning that leverage sparse and event-driven activations to reduce the computational overhead associated with model inference. While they have become competitive with non-spiking models on many computer vision tasks, SNNs have also proven to be more challenging to train. As a result, their performance lags behind modern deep learning, and we are yet to see the effectiveness of SNNs in language generation. In this paper, we successfully implement `SpikeGPT', a generative language model with pure binary, event-driven spiking activation units. We train the proposed model on three model variants: 45M, 125M and 260M parameters. To the best of our knowledge, this is 4x larger than any functional backprop-trained SNN to date. We achieve this by modifying the transformer block to replace multi-head self attention to reduce quadratic computational complexity to linear with increasing sequence length. Input tokens are instead streamed in sequentially to our attention mechanism (as with typical SNNs). Our preliminary experiments show that SpikeGPT remains competitive with non-spiking models on tested benchmarks, while maintaining 5x less energy consumption when processed on neuromorphic hardware that can leverage sparse, event-driven activations. Our code implementation is available at https://github.com/ridgerchu/SpikeGPT.
翻訳日:2023-02-28 14:52:35 公開日:2023-02-27
# 異種分布シフトによる統計的学習

Statistical Learning under Heterogenous Distribution Shift ( http://arxiv.org/abs/2302.13934v1 )

ライセンス: Link先を確認
Max Simchowitz, Anurag Ajay, Pulkit Agrawal, Akshay Krishnamurthy(参考訳) 本論では、一対の確率変数 $(\mathbf{x},\mathbf{y})$ からターゲット $\mathbf{z}$ の予測について検討する。そこで、基底トラス予測子は加法的 $\mathbb{E}[\mathbf{z} \mid \mathbf{x},\mathbf{y}] = f_\star(\mathbf{x}) +g_{\star}(\mathbf{y})$ である。 f+g$, $f \in \mathcal{f}$, $g \in \mathcal{g}$ に対する経験的リスク最小化(erm)の性能は,与えられたトレーニング分布に適合するが,共変シフトを示すテスト分布上で評価される。 クラス $\mathcal{F}$ が $\mathcal{G}$ (例えば計量エントロピーで測る) よりも「単純」であるとき、我々の予測子は $\mathbf{x}$ のシフトが $\mathbf{y}$ のシフトよりもはるかに大きいような \emph{heterogenous covariate shifts} に対してより弾力的であることを示す。 これらの結果は,ダドリー積分に対する新しいH\"古いスタイルの不等式に依存しており,多くの領域にまたがる「単純"な特徴の変化に対するレジリエンスの向上を示す実験により,我々の理論的知見を裏付けるものである。

This paper studies the prediction of a target $\mathbf{z}$ from a pair of random variables $(\mathbf{x},\mathbf{y})$, where the ground-truth predictor is additive $\mathbb{E}[\mathbf{z} \mid \mathbf{x},\mathbf{y}] = f_\star(\mathbf{x}) +g_{\star}(\mathbf{y})$. We study the performance of empirical risk minimization (ERM) over functions $f+g$, $f \in \mathcal{F}$ and $g \in \mathcal{G}$, fit on a given training distribution, but evaluated on a test distribution which exhibits covariate shift. We show that, when the class $\mathcal{F}$ is "simpler" than $\mathcal{G}$ (measured, e.g., in terms of its metric entropy), our predictor is more resilient to \emph{heterogenous covariate shifts} in which the shift in $\mathbf{x}$ is much greater than that in $\mathbf{y}$. These results rely on a novel H\"older style inequality for the Dudley integral which may be of independent interest. Moreover, we corroborate our theoretical findings with experiments demonstrating improved resilience to shifts in "simpler" features across numerous domains.
翻訳日:2023-02-28 14:52:09 公開日:2023-02-27
# LAformer:レーン対応シーン制約による自律走行の軌道予測

LAformer: Trajectory Prediction for Autonomous Driving with Lane-Aware Scene Constraints ( http://arxiv.org/abs/2302.13933v1 )

ライセンス: Link先を確認
Mengmeng Liu, Hao Cheng, Lin Chen, Hellward Broszio, Jiangtao Li, Runjiang Zhao, Monika Sester and Michael Ying Yang(参考訳) 自律走行の軌道予測は、道路エージェントの運動確率を連続的に推論し、シーン制約に従わなければならない。 既存の手法は通常、1段階の軌跡予測モデルに依存しており、将来の軌跡は観測された軌跡と融合する。 しかし、交差点で遭遇するような複雑なシーンの制約に苦しむことが多い。 そこで我々はLAformerと呼ばれる新しい手法を提案する。 時間的に密集したレーンアウェア推定モジュールを使用してhdマップ内の最上位の高電位レーンセグメントのみを選択し、効果的かつ連続的に動きのダイナミクスをシーン情報に整合させ、無関係レーンセグメントをフィルタリングすることにより、後続の注意に基づくデコーダの表現要件を低減させる。 さらに、一段階予測モデルとは異なり、ラフォーマーは第1段からの予測をアンカー軌道として利用し、第2段のモーションリファインメントモジュールを追加して、完全な時間軸の時間的一貫性をさらに探究する。 Argoverse 1 と nuScenes の大規模な実験により、LAformer はマルチモーダル軌道予測において優れた性能を発揮することが示された。

Trajectory prediction for autonomous driving must continuously reason the motion stochasticity of road agents and comply with scene constraints. Existing methods typically rely on one-stage trajectory prediction models, which condition future trajectories on observed trajectories combined with fused scene information. However, they often struggle with complex scene constraints, such as those encountered at intersections. To this end, we present a novel method, called LAformer. It uses a temporally dense lane-aware estimation module to select only the top highly potential lane segments in an HD map, which effectively and continuously aligns motion dynamics with scene information, reducing the representation requirements for the subsequent attention-based decoder by filtering out irrelevant lane segments. Additionally, unlike one-stage prediction models, LAformer utilizes predictions from the first stage as anchor trajectories and adds a second-stage motion refinement module to further explore temporal consistency across the complete time horizon. Extensive experiments on Argoverse 1 and nuScenes demonstrate that LAformer achieves excellent performance for multimodal trajectory prediction.
翻訳日:2023-02-28 14:51:35 公開日:2023-02-27
# 単一quditによるデータ再アップロード

Data re-uploading with a single qudit ( http://arxiv.org/abs/2302.13932v1 )

ライセンス: Link先を確認
Noah L. Wach and Manuel S. Rudolph and Fred Jendrzejewski and Sebastian Schmitt(参考訳) 量子二レベルシステム、すなわち量子ビットは、長年にわたって提案されてきたほとんどの量子機械学習アプローチの基礎となっている。 しかし、高次元量子系が有利であることを示す場合もある。 本稿では,量子機械学習におけるマルチレベル量子システム,いわゆるquditsの機能について検討する。 本研究では,データ再ロード手法を用いて分類と回帰問題を定式化し,単一quditで動作する量子回路がmnist桁認識問題などの分類問題の高度に非線形な決定境界を学習できることを実証する。 本研究では,ラベルを表すqudit状態とトレーニングデータセットにおけるラベル構造との関係を強く依存することを示す。 このようなバイアスは、ラベルとqudit状態が整列している場合において、qubitベースの回路よりも大幅に性能が向上する可能性がある。 さらに,基本演算子の選び方の影響を解明し,非線形のスクイーズ演算子が必要であることを示す。 また、各処理層における回路生成演算子の数と、与えられた精度を達成するために必要な層数との間には、quditシステムのトレードオフが存在することを示す。 最後に,数値計算による分類結果と,実際のIBM量子ハードウェア上での等価実装を比較した。 本研究の成果は,quditベースのアルゴリズムが魅力的な特徴を示し,量子機械学習アプローチの計算能力を高めるための有望な経路である,という考えを支持する。

Quantum two-level systems, i.e. qubits, form the basis for most quantum machine learning approaches that have been proposed throughout the years. However, in some cases, higher dimensional quantum systems may prove to be advantageous. Here, we explore the capabilities of multi-level quantum systems, so-called qudits, for their use in a quantum machine learning context. We formulate classification and regression problems with the data re-uploading approach and demonstrate that a quantum circuit operating on a single qudit is able to successfully learn highly non-linear decision boundaries of classification problems such as the MNIST digit recognition problem. We demonstrate that the performance strongly depends on the relation between the qudit states representing the labels and the structure of labels in the training data set. Such a bias can lead to substantial performance improvement over qubit-based circuits in cases where the labels and qudit states are well-aligned. Furthermore, we elucidate the influence of the choice of the elementary operators and show that the non-linear squeezing operator is necessary to achieve good performances. We also show that there exists a trade-off for qudit systems between the number of circuit-generating operators in each processing layer and the total number of layers needed to achieve a given accuracy. Finally, we compare classification results from numerically exact simulations and their equivalent implementation on actual IBM quantum hardware. The findings of our work support the notion that qudit-based algorithms exhibit attractive traits and constitute a promising route to increasing the computational capabilities of quantum machine learning approaches.
翻訳日:2023-02-28 14:51:14 公開日:2023-02-27
# 高品質超伝導共振器用高速度インダクタンスNbN膜

High-kinetic inductance NbN films for high-quality compact superconducting resonators ( http://arxiv.org/abs/2302.13930v1 )

ライセンス: Link先を確認
Simone Frasca and Ivo Nikolaev Arabadzhiev and Sebastien Yves Bros de Puechredon and Fabian Oppliger and Vincent Jouanny and Roberto Musio and Marco Scigliuzzo and Fabrizio Minganti and Pasquale Scarlino and Edoardo Charbon(参考訳) 窒化ニオブ(Niobium nitride、NbN)は、大規模な超伝導回路に必要な再現性を必要とするため、量子技術応用に特に有望な材料である。 nbn薄膜に基づく共振器は、高インピーダンス(2k$\omega$より大きい)を維持するために10$^5$を超える1光子内部品質係数を示し、約50x100$\mu$m$^2$と10分の10hzの自己ケラ非線形性を示す。 これらの品質因子は、2段階の系へのカップリングによる損失によってほとんど制限されており、10分の10から数百のph/2のインダクタンスで維持されている。 また,9ヶ月以上の複数冷却中における共振器の性能の変動も最小限に抑えた。 本研究は, 窒化ニオブ高速度インダクタンス共振器の汎用性を実証し, 小型・高インピーダンス・高品質マルチモード回路の創製に向けての展望を示した。

Niobium nitride (NbN) is a particularly promising material for quantum technology applications, as entails the degree of reproducibility necessary for large-scale of superconducting circuits. We demonstrate that resonators based on NbN thin films present a one-photon internal quality factor above 10$^5$ maintaining a high impedance (larger than 2k$\Omega$), with a footprint of approximately 50x100 $\mu$m$^2$ and a self-Kerr nonlinearity of few tenths of Hz. These quality factors, mostly limited by losses induced by the coupling to two-level systems, have been maintained for kinetic inductances ranging from tenths to hundreds of pH/square. We also demonstrate minimal variations in the performance of the resonators during multiple cooldowns over more than nine months. Our work proves the versatility of niobium nitride high-kinetic inductance resonators, opening perspectives towards the fabrication of compact, high-impedance and high-quality multimode circuits, with sizable interactions.
翻訳日:2023-02-28 14:50:53 公開日:2023-02-27
# ニュートン級数近似による離散分布の効率的なインフォームド提案

Efficient Informed Proposals for Discrete Distributions via Newton's Series Approximation ( http://arxiv.org/abs/2302.13929v1 )

ライセンス: Link先を確認
Yue Xiang, Dongyao Zhu, Bowen Lei, Dongkuan Xu, Ruqi Zhang(参考訳) 勾配は離散分布上のマルコフ連鎖モンテカルロアルゴリズムの収束を加速するために提案分布で活用されている。 しかし、これらの方法は対象離散分布の自然な微分可能拡張を必要とするが、これはしばしば存在せず、効果的な勾配ガイダンスを提供していない。 本稿では,この強い要求を伴わずに任意の離散分布に対する勾配的提案を行う。 局所均衡な提案に基づいて構築し, ニュートン級数展開による離散度比を効率的に近似し, 離散空間における大規模かつ効率的な探索を可能にする。 また,本手法を多線形拡張とみなすことができ,所望の特性を継承できることを示す。 本手法は,メトロポリス・ハスティングステップの有無に関わらず,収束率を保証できることを実証する。 さらに, 施設位置問題, 抽出テキスト要約, 画像検索など, 様々な実験において, 提案手法は, 様々な選択肢に優れる。

Gradients have been exploited in proposal distributions to accelerate the convergence of Markov chain Monte Carlo algorithms on discrete distributions. However, these methods require a natural differentiable extension of the target discrete distribution, which often does not exist or does not provide effective gradient guidance. In this paper, we develop a gradient-like proposal for any discrete distribution without this strong requirement. Built upon a locally-balanced proposal, our method efficiently approximates the discrete likelihood ratio via Newton's series expansion to enable a large and efficient exploration in discrete spaces. We show that our method can also be viewed as a multilinear extension, thus inheriting its desired properties. We prove that our method has a guaranteed convergence rate with or without the Metropolis-Hastings step. Furthermore, our method outperforms a number of popular alternatives in several different experiments, including the facility location problem, extractive text summarization, and image retrieval.
翻訳日:2023-02-28 14:50:31 公開日:2023-02-27
# 胸部X線による疾患検出のためのコンテンツ認識型不変フレームワークによる未確認領域への一般化の学習

Learning to Generalize towards Unseen Domains via a Content-Aware Style Invariant Framework for Disease Detection from Chest X-rays ( http://arxiv.org/abs/2302.13991v1 )

ライセンス: Link先を確認
Mohammad Zunaed, Md. Aynal Haque, Taufiq Hasan(参考訳) ソースドメインミスマッチによるパフォーマンス劣化は、特に胸部X線による深層学習に基づく医用画像解析における長年の課題である。 このドメインシフトに対処するために、逆学習やマルチドメインミックスアップを利用してドメイン不変高レベル特徴を抽出する手法がいくつか提案されている。 しかし、これらの手法は抽出されたドメイン不変特徴の内容やスタイル属性を明示的に説明したり規則化するものではない。 近年の研究では、CNNモデルはコンテンツよりもスタイル(テクスチャ)に強い偏見を示しており、人間の視覚システムとは対照的である。 説明可能な表現は、医用画像の堅牢で一般化可能な理解にとって最重要である。 したがって、学習されたハイレベルなセマンティック機能は、コンテント固有のもの、すなわち、病理特異的かつドメイン非依存であると同時に、スタイル不変である必要がある。 そこで本稿では,スタイルバイアスを低減しつつ,コンテンツに重点を置き,クロスドメインのパフォーマンスを向上させる新しいフレームワークを提案する。 画像と特徴レベルの両方にスタイルランダム化モジュールを使用して、エンドツーエンドフレームワークを使用してコンテンツを保存しながら、スタイリッシュな摂動機能を作成する。 我々は,同じ胸部x線に対するバックボーンモデルから,スタイルをランダムにすることなくグローバル特徴を抽出する。 それらの間のコンテンツ一貫性の規則化を適用し、正確な予測のために、コンテンツマーカーに対するフレームワークの感度を調整します。 未発見のドメインテストデータセットに関する広範な実験は、提案するパイプラインがドメインシフトの存在下でより堅牢であり、最先端のパフォーマンスを実現していることを示している。 私たちのコードはhttps://github.com/rafizunaed/domain_agnostic_content_aware_style_invariantで利用可能です。

Performance degradation due to source domain mismatch is a longstanding challenge in deep learning-based medical image analysis, particularly for chest X-rays. Several methods have been proposed to address this domain shift, such as utilizing adversarial learning or multi-domain mixups to extract domain-invariant high-level features. However, these methods do not explicitly account for or regularize the content and style attributes of the extracted domain-invariant features. Recent studies have demonstrated that CNN models exhibit a strong bias toward styles (i.e., textures) rather than content, in stark contrast to the human-vision system. Explainable representations are paramount for a robust and generalizable understanding of medical images. Thus, the learned high-level semantic features need to be both content-specific, i.e., pathology-specific and domain-agnostic, as well as style invariant. Inspired by this, we propose a novel framework that improves cross-domain performances by focusing more on content while reducing style bias. We employ a style randomization module at both image and feature levels to create stylized perturbation features while preserving the content using an end-to-end framework. We extract the global features from the backbone model for the same chest X-ray with and without style randomized. We apply content consistency regularization between them to tweak the framework's sensitivity toward content markers for accurate predictions. Extensive experiments on unseen domain test datasets demonstrate that our proposed pipeline is more robust in the presence of domain shifts and achieves state-of-the-art performance. Our code is available via https://github.com/rafizunaed/domain_agnostic_content_aware_style_invariant.
翻訳日:2023-02-28 14:44:10 公開日:2023-02-27
# エンタングルメント蒸留の因果秩序のコヒーレント制御

Coherent Control of Causal Order of Entanglement Distillation ( http://arxiv.org/abs/2302.13990v1 )

ライセンス: Link先を確認
Zai Zuo, Michael Hanks and M. S. Kim(参考訳) 本稿では, 量子通信における不確定因果順序の適用について述べる: 2つの因果順序のコヒーレント重ね合わせに応用された基本蒸留プロトコルの2段階を特徴とする化合物絡み込み蒸留プロトコルを提案する。 これは、4組目と2組目が連続的に交換される前に、故障した絡み合ったペアを他の2組を制御スワップする。 その結果、このプロトコルは4つの欠陥のある絡み合った状態を高い忠実度に蒸留する。 本プロトコルは, 一定の蒸留順序に従う基本プロトコルの従来の結合よりも, 蒸留の忠実性といくつかの入力欠陥対の成功確率が高い。 提案手法は,量子通信の要求に整合したアプリケーションにおいて,不確定因果順序の利点を示す。

We present an application of indefinite causal order in quantum communication: a compound entanglement distillation protocol which features two steps of a basic distillation protocol applied in a coherent superposition of two causal orders. This is achieved by using one faulty entangled pair to control-swap two others before a fourth pair is combined with the two swapped ones consecutively. As a result, the protocol distills the four faulty entangled states into one of a higher fidelity. Our protocol has a higher fidelity of distillation and probability of success for some input faulty pairs than conventional concatenations of the basic protocol that follow a definite distillation order. Our proposal shows advantage of indefinite causal order in an application setting consistent with the requirements of quantum communication.
翻訳日:2023-02-28 14:43:42 公開日:2023-02-27
# UMIFormer:マルチビュー3次元再構成のための類似トークン間の相関関係のマイニング

UMIFormer: Mining the Correlations between Similar Tokens for Multi-View 3D Reconstruction ( http://arxiv.org/abs/2302.13987v1 )

ライセンス: Link先を確認
Zhenwei Zhu, Liying Yang, Ning Li, Chaohao Jiang, Yanyan Liang(参考訳) 近年,視覚トランスフォーマーの活用や特徴抽出のための空間的時間的デカップリングの確立により,多くの映像タスクがブレークスルーを遂げている。 マルチビュー3D再構成も複数のイメージを入力として扱うが,非秩序なビュー間の完全にあいまいな関連性のため,すぐには成功を継承できない。 ビデオの時間的コヒーレンス特性に類似した、事前の関係は使用できない。 そこで本稿では,未注文多重画像(umiformer)のためのトランスフォーマネットワークを提案する。 トランスフォーマーブロックをデカップリングされたビュー内エンコーディングに活用し、異なるビューからの類似トークン間の相関をマイニングして、デカップリングされたビュー間エンコーディングを実現するためにデザインされたブロックを使用する。 その後、各分岐から取得した全てのトークンを固定サイズのコンパクト表現に圧縮し、トークン間の類似性を活用して再構成のための豊富な情報を保存する。 実験によりshapenetを実演し,無順序複数の画像に対して分離学習法が適応可能であることを確認した。 一方,実験では,既存のSOTA法よりも大きなマージンで優れていることも確認した。

In recent years, many video tasks have achieved breakthroughs by utilizing the vision transformer and establishing spatial-temporal decoupling for feature extraction. Although multi-view 3D reconstruction also faces multiple images as input, it cannot immediately inherit their success due to completely ambiguous associations between unordered views. There is not usable prior relationship, which is similar to the temporally-coherence property in a video. To solve this problem, we propose a novel transformer network for Unordered Multiple Images (UMIFormer). It exploits transformer blocks for decoupled intra-view encoding and designed blocks for token rectification that mine the correlation between similar tokens from different views to achieve decoupled inter-view encoding. Afterward, all tokens acquired from various branches are compressed into a fixed-size compact representation while preserving rich information for reconstruction by leveraging the similarities between tokens. We empirically demonstrate on ShapeNet and confirm that our decoupled learning method is adaptable for unordered multiple images. Meanwhile, the experiments also verify our model outperforms existing SOTA methods by a large margin.
翻訳日:2023-02-28 14:43:29 公開日:2023-02-27
# 3次元トポロジを持つ無人航空機の表現のための文法

A Grammar for the Representation of Unmanned Aerial Vehicles with 3D Topologies ( http://arxiv.org/abs/2302.13980v1 )

ライセンス: Link先を確認
Piergiuseppe Mallozzi, Hussein Sibai, Inigo Incer, Sanjit A. Seshia, Alberto Sangiovanni-Vincentelli(参考訳) 本研究では,3次元ロボット,特に無人航空機の設計空間を体系的に探索するための文脈依存文法を提案する。 3Dグリッド上でモデル化された不完全な設計トポロジにコンポーネントを追加する生産ルールを定義する。 ルールはローカルです。 この文法は単純だが、既存のuavの多くと新しいものをモデル化することができる。 他のロボットプラットフォームに簡単に一般化できる。 任意の設計探索と最適化アルゴリズムのためのビルディングブロックと考えることができる。

We propose a context-sensitive grammar for the systematic exploration of the design space of the topology of 3D robots, particularly unmanned aerial vehicles. It defines production rules for adding components to an incomplete design topology modeled over a 3D grid. The rules are local. The grammar is simple, yet capable of modeling most existing UAVs as well as novel ones. It can be easily generalized to other robotic platforms. It can be thought of as a building block for any design exploration and optimization algorithm.
翻訳日:2023-02-28 14:43:08 公開日:2023-02-27
# LLaMA: オープンで効率的な基礎言語モデル

LLaMA: Open and Efficient Foundation Language Models ( http://arxiv.org/abs/2302.13971v1 )

ライセンス: Link先を確認
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timoth\'ee Lacroix, Baptiste Rozi\`ere, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample(参考訳) LLaMAは、7Bから65Bのパラメータを含む基礎言語モデルの集合である。 私たちは数兆のトークンでモデルをトレーニングし、プロプライエタリでアクセス不能なデータセットを使わずに、公開されているデータセットのみを使用して最先端のモデルをトレーニングできることを示しています。 特にLLaMA-13BはほとんどのベンチマークでGPT-3 (175B)を上回っ、LLaMA-65Bは最高のモデルであるChinchilla-70BとPaLM-540Bと競合する。 すべてのモデルを研究コミュニティにリリースします。

We introduce LLaMA, a collection of foundation language models ranging from 7B to 65B parameters. We train our models on trillions of tokens, and show that it is possible to train state-of-the-art models using publicly available datasets exclusively, without resorting to proprietary and inaccessible datasets. In particular, LLaMA-13B outperforms GPT-3 (175B) on most benchmarks, and LLaMA-65B is competitive with the best models, Chinchilla-70B and PaLM-540B. We release all our models to the research community.
翻訳日:2023-02-28 14:43:00 公開日:2023-02-27
# セマンティックセグメンテーションのためのソフトラベリング:ラベルダウンサンプリングにコヒーレンスをもたらす

Soft labelling for semantic segmentation: Bringing coherence to label down-sampling ( http://arxiv.org/abs/2302.13961v1 )

ライセンス: Link先を確認
Roberto Alcover-Couso, Marcos Escudero-Vinolo and Juan C. SanMiguel(参考訳) セマンティックセグメンテーションでは、限られたリソース、画像サイズをモデル入力に適応させたり、データ拡張を改善したりするため、トレーニングデータダウンサンプリングが一般的である。 このダウンサンプリングは通常、画像データと注釈付きラベルに対して異なる戦略を用いる。 このような不一致は、ダウンサンプルピクセルとラベルのミスマッチにつながる。 したがって、ダウンサンプリング係数が増加するとトレーニング性能が著しく低下する。 本稿では,画像データと注釈付きラベルのダウンサンプリング戦略を統合する。 そこで本研究では,ダウンサンプリングに先立って,構造的コンテンツを利用したラベルダウンサンプリングのソフトラベル化手法を提案する。 これにより、ソフトラベルを画像データと完全に整合させ、サンプル画素の分布を維持する。 この提案は、未表現のセマンティクスクラスに対するよりリッチなアノテーションも生成する。 また、低解像度で競争モデルを訓練することができる。 実験によると、この提案は他のダウンサンプリング戦略よりも優れている。 さらに、技術性能は参照ベンチマークで達成されるが、計算資源は他の手法に比べてはるかに少ない。 本提案は,資源制約下における意味セグメンテーションの競合研究を可能にする。

In semantic segmentation, training data down-sampling is commonly performed because of limited resources, adapting image size to the model input, or improving data augmentation. This down-sampling typically employs different strategies for the image data and the annotated labels. Such discrepancy leads to mismatches between the down-sampled pixels and labels. Hence, training performance significantly decreases as the down-sampling factor increases. In this paper, we bring together the downsampling strategies for the image data and annotated labels. To that aim, we propose a soft-labeling method for label down-sampling that takes advantage of structural content prior to down-sampling. Thereby, fully aligning softlabels with image data to keep the distribution of the sampled pixels. This proposal also produces richer annotations for under-represented semantic classes. Altogether, it permits training competitive models at lower resolutions. Experiments show that the proposal outperforms other downsampling strategies. Moreover, state of the art performance is achieved for reference benchmarks, but employing significantly less computational resources than other approaches. This proposal enables competitive research for semantic segmentation under resource constraints.
翻訳日:2023-02-28 14:42:50 公開日:2023-02-27
# oracleが非親密な機能獲得で買収条件を満たした

Acquisition Conditioned Oracle for Nongreedy Active Feature Acquisition ( http://arxiv.org/abs/2302.13960v1 )

ライセンス: Link先を確認
Michael Valancius, Max Lennon, Junier Oliva(参考訳) 本研究では, 能動的特徴獲得(AFA)のための新しい手法を開発し, 精度を保ちながら, 獲得コストを最小化する特徴の動的(インスタンス単位)サブセットを逐次取得する方法について検討する。 AFAフレームワークは、患者のための追加機能(時間、お金、リスクなど)を取得するコストを、診断性能の向上に対する期待値と比較できる医療アプリケーションを含む、無数の領域で有用である。 より少ない報酬と複雑な行動空間により、AFA MDPのトレーニング方針が困難であるディープラーニングRL手法、複雑な多次元条件分布のモデリングを必要とする深層学習サロゲート生成モデル、そして、より優れた予測のために、共同特徴獲得がどのように情報化できるかを説明できない欲求政策のいずれかが、AFAのこれまでのアプローチとして採用されてきた。 本研究では,これらの課題の多くを,獲得条件付きオラクル(ACO)という新しい非パラメトリックオラクルベースのアプローチで回避できることを示す。 広範な実験により、予測と一般的な意思決定の両方の特徴を取得する場合、acoの最先端のafa法に対する優位性が示された。

We develop novel methodology for active feature acquisition (AFA), the study of how to sequentially acquire a dynamic (on a per instance basis) subset of features that minimizes acquisition costs whilst still yielding accurate predictions. The AFA framework can be useful in a myriad of domains, including health care applications where the cost of acquiring additional features for a patient (in terms of time, money, risk, etc.) can be weighed against the expected improvement to diagnostic performance. Previous approaches for AFA have employed either: deep learning RL techniques, which have difficulty training policies in the AFA MDP due to sparse rewards and a complicated action space; deep learning surrogate generative models, which require modeling complicated multidimensional conditional distributions; or greedy policies, which fail to account for how joint feature acquisitions can be informative together for better predictions. In this work we show that we can bypass many of these challenges with a novel, nonparametric oracle based approach, which we coin the acquisition conditioned oracle (ACO). Extensive experiments show the superiority of the ACO to state-of-the-art AFA methods when acquiring features for both predictions and general decision-making.
翻訳日:2023-02-28 14:42:34 公開日:2023-02-27
# ノイズの多いNLPデータセットから学ぶための自己影響の安定性と実用性について

Make Every Example Count: On Stability and Utility of Self-Influence for Learning from Noisy NLP Datasets ( http://arxiv.org/abs/2302.13959v1 )

ライセンス: Link先を確認
Irina Bejan (1), Artem Sokolov (1), Katja Filippova (1) ((1) Google Research)(参考訳) ますます大きなデータセットがnlpの最先端技術に標準的要素となってきています。 しかし、データ品質はすでにさらなる利益を解き放つためのボトルネックになっているかもしれない。 現代のデータセットの多様性とサイズを考えると、有害なデータの多面性や、複数のタスクにまたがって一般化されるフィルタリング規則の解明により、標準データフィルタリングは適用に直進的ではない。 本研究では,データクリーニングのための訓練例のタスク非依存的自己影響スコアの適合性を調査し,自然発生した異常値の捕捉における効果を分析し,機械翻訳,質問応答,テキスト分類における下流性能をどの程度向上させるかを検討した。

Increasingly larger datasets have become a standard ingredient to advancing the state of the art in NLP. However, data quality might have already become the bottleneck to unlock further gains. Given the diversity and the sizes of modern datasets, standard data filtering is not straight-forward to apply, because of the multifacetedness of the harmful data and elusiveness of filtering rules that would generalize across multiple tasks. We study the fitness of task-agnostic self-influence scores of training examples for data cleaning, analyze their efficacy in capturing naturally occurring outliers, and investigate to what extent self-influence based data cleaning can improve downstream performance in machine translation, question answering and text classification, building up on recent approaches to self-influence calculation and automated curriculum learning.
翻訳日:2023-02-28 14:42:10 公開日:2023-02-27
# 量子力学における多光子次元の呪いに対処する光学系の高速シミュレーション

Fast simulation for optical systems addressing the curse of dimensionality of multi-photons in quantum mechanics ( http://arxiv.org/abs/2302.13953v1 )

ライセンス: Link先を確認
Junpei Oba, Seiji Kajita, Akihito Soeda(参考訳) 光子は光の基本粒子であり、その詳細な理解は量子力学の謎を解く上で鍵となる。 しかし、その直観に反する量子の性質は、その力学、特に複素系に対する洞察を得ることを困難にしている。 シミュレーションはこの問題を解決するための有望なツールであるが、これまでの手法は光子の数が指数関数的に増加する次元の呪いによって制限されている。 本稿では、線形光学オブジェクトからなる光学検出設定に着目し、光子数に線形となる計算コストを削減することで、この次元的課題を克服する。 本手法は,Hong-Ou-Mandel干渉やBell-CHSH不等式違反などの基本的な単光子・多光子現象に適用し,計算特性が実験結果と定量的に比較できることを確認する。 さらに,光子の空間伝播を可視化し,量子化技術の実験設計を支援する知見を提供する。

Photons are an elementary particle of light, whose detailed understanding plays a key in unraveling the mysteries of quantum mechanics. However, its counter-intuitive quantum nature makes it challenging to gain insights into its dynamics, particularly in complex systems. Simulation is a promising tool to resolve this issue, but previous methods are limited by the curse of dimensionality in which the number of bases increases exponentially in the number of photons. Here, we overcome this dimensionality challenge by focusing on optical detection setups composed of linear optical objects and by reducing computational costs to be linear in the number of photons. We apply this method to basic single- and multi-photon phenomena, such as Hong-Ou-Mandel interference and violation of the Bell-CHSH inequality, and confirm that the calculated properties are quantitatively comparable to the experimental results. Furthermore, our method visualizes the spatial propagation of photons hence provides insights that aid experiment designs for quantum-enabled technologies.
翻訳日:2023-02-28 14:41:54 公開日:2023-02-27
# より効果的な技術規制の優先事項

Priorities for more effective tech regulation ( http://arxiv.org/abs/2302.13950v1 )

ライセンス: Link先を確認
Konrad Kollnig(参考訳) Ample Researchは、データ保護原則の遵守がWebとモバイルで制限されていることを実証している。 例えば、Google Play Storeのアプリのほとんどは、EUと英国法の下での同意に関する最低限の要件を満たさないが、ほとんどのアプリはGoogle/AlphabetやFacebook/Metaのような企業と追跡データを共有しており、ユーザーからの同意を求める必要があるだろう。 実際、Appleによる最近のプライバシーの取り組みと執行は、ある意味では、EUの野心的な一般データ保護規則(GDPR)よりも、アプリのデータプラクティスに顕著な影響を与えている。 書籍に関する法律と実際のデータプラクティスとの現在のミスマッチを考えると、現在の法的プラクティスに対する反復的な変更は、厳密なデータプラクティスを有意義にテームするのに十分ではありません。 そこで,本報告では,現状を超越するために,学界,規制当局,利害関係者の優先事項を提示する。

Ample research has demonstrated that compliance with data protection principles remains limited on the web and mobile. For example, almost none of the apps on the Google Play Store fulfil the minimum requirements regarding consent under EU and UK law, while most of them share tracking data with companies like Google/Alphabet and Facebook/Meta and would likely need to seek consent from their users. Indeed, recent privacy efforts and enforcement by Apple have had - in some regards - a more pronounced effect on apps' data practices than the EU's ambitious General Data Protection Regulation (GDPR). Given the current mismatch between the law on the books and data practices in reality, iterative changes to current legal practice will not be enough to meaningfully tame egregious data practices. Hence, this technical report proposes a range of priorities for academia, regulators and the interested public in order to move beyond the status quo.
翻訳日:2023-02-28 14:41:37 公開日:2023-02-27
# 正規化擬似ラベルによる自己学習の再検討

Revisiting Self-Training with Regularized Pseudo-Labeling for Tabular Data ( http://arxiv.org/abs/2302.14013v1 )

ライセンス: Link先を確認
Miwook Kim, Juseong Kim, Jose Bento, Giltae Song(参考訳) 半教師付き学習の最近の進歩は、機械学習のための膨大なラベル付きデータの必要性とラベルなしデータの無関係性に関する長年の信念に亀裂をもたらした。 様々なデータで成功を収めているが、表データに一般化できる支配的な半教師あり学習法はない(つまり、既存の方法の多くは適切な表型データセットとアーキテクチャを必要とする)。 本稿では,最も広く使われているアーキテクチャ,勾配ブースティング決定木を含む任意のアルゴリズムに適用可能な自己学習を再検討し,表型ドメインのカリキュラム擬似ラベル(画像における最先端の擬似ラベル技術)を導入する。 さらに、既存の擬似ラベル技術は、ラベルなしデータから生成された疑似ラベルの信頼度スコアを計算する場合、クラスタの仮定を保証しない。 そこで本研究では,高密度領域にあるより信頼性の高い疑似ラベルを得られるように,疑似ラベルの可能性に基づいて信頼度を正則化する,新しい擬似ラベル手法を提案する。 様々なモデルと表付きデータセットを用いて、アプローチの優位性を徹底的に検証する。

Recent progress in semi- and self-supervised learning has caused a rift in the long-held belief about the need for an enormous amount of labeled data for machine learning and the irrelevancy of unlabeled data. Although it has been successful in various data, there is no dominant semi- and self-supervised learning method that can be generalized for tabular data (i.e. most of the existing methods require appropriate tabular datasets and architectures). In this paper, we revisit self-training which can be applied to any kind of algorithm including the most widely used architecture, gradient boosting decision tree, and introduce curriculum pseudo-labeling (a state-of-the-art pseudo-labeling technique in image) for a tabular domain. Furthermore, existing pseudo-labeling techniques do not assure the cluster assumption when computing confidence scores of pseudo-labels generated from unlabeled data. To overcome this issue, we propose a novel pseudo-labeling approach that regularizes the confidence scores based on the likelihoods of the pseudo-labels so that more reliable pseudo-labels which lie in high density regions can be obtained. We exhaustively validate the superiority of our approaches using various models and tabular datasets.
翻訳日:2023-02-28 14:34:47 公開日:2023-02-27
# ドローンによる量子鍵分布

Drone-based quantum key distribution ( http://arxiv.org/abs/2302.14012v1 )

ライセンス: Link先を確認
Xiao-Hui Tian, Ran Yang, Ji-Ning Zhang, Hua Yu, Yao Zhang, Pengfei Fan, Mengwen Chen, Changsheng Gu, Xin Ni, Mingzhe Hu, Xun Cao, Xiaopeng Hu, Gang Zhao, Yan-Qing Lu, Zhi-Jun Yin, Hua-Ying Liu, Yan-Xiao Gong, Zhenda Xie, and Shi-Ning Zhu(参考訳) ドローンベースの量子リンクは、移動型量子ネットワークを実現する可能性があり、1つのドローンと2つのドローンを用いて絡み合い分布が実証されている。 ここでは, 偏光符号付きデコイ状態BB84プロトコルを用いて, 8kHz以上のセキュアな鍵レートを有する最初のドローンベース量子鍵分布(QKD)を報告する。 コンパクトな取得・ポインティング・トラッキング(APT)システムとQKDモジュールを自家製オクトコプターで30kgの離陸重量で開発・搭載する。 飛行するオクトコプターと200m離れた地上局との間にロバストなリンクを確立し、400秒間リアルタイムQKDを行う。 この研究は、将来のモバイル量子ネットワークにおけるドローンベースの量子通信の可能性を示している。

Drone-based quantum link has the potential to realize mobile quantum network, and entanglement distribution has been demonstrated using one and two drones. Here we report the first drone-based quantum key distribution (QKD), with average secure key rate larger than 8 kHz using decoy-state BB84 protocol with polarization coding. Compact acquisition, pointing, and tracking (APT) system and QKD modules are developed and loaded on a home-made octocopter, within takeoff weight of 30 kg. A robust link is established between the flying octocopter and a ground station separated 200 meters away and real-time QKD is performed for 400 seconds. This work shows potential of drone-based quantum communication for the future mobile quantum networks.
翻訳日:2023-02-28 14:34:30 公開日:2023-02-27
# 異種治療効果に対するCausal isotonic calibration

Causal isotonic calibration for heterogeneous treatment effects ( http://arxiv.org/abs/2302.14011v1 )

ライセンス: Link先を確認
Lars van der Laan, Ernesto Ulloa-P\'erez, Marco Carone, and Alex Luedtke(参考訳) 異種治療効果の予測因子を校正する新しい非パラメトリック手法である因果等方性校正を提案する。 さらに,データ効率のよいキャリブレーションを新たに導入し,クロスキャリブレーションと呼ぶホールドアウトキャリブレーションセットの必要性を回避した。 Causal isotonic cross-calibration(英語版)はクロスフィット予測器を取り、利用可能なすべてのデータを用いて得られた単一の校正予測器を出力する。 因果等速校正とクロス校正は,正当性スコアと結果回帰のどちらかが適切な意味で適切に推定される限り,高速で2倍のローバスト校正率が得られるという弱い条件下で確立する。 提案する因果等張校正器は,任意のブラックボックス学習アルゴリズムを包むことで,予測性能を維持しつつ,強い分布フリー校正保証を実現することができる。

We propose causal isotonic calibration, a novel nonparametric method for calibrating predictors of heterogeneous treatment effects. In addition, we introduce a novel data-efficient variant of calibration that avoids the need for hold-out calibration sets, which we refer to as cross-calibration. Causal isotonic cross-calibration takes cross-fitted predictors and outputs a single calibrated predictor obtained using all available data. We establish under weak conditions that causal isotonic calibration and cross-calibration both achieve fast doubly-robust calibration rates so long as either the propensity score or outcome regression is estimated well in an appropriate sense. The proposed causal isotonic calibrator can be wrapped around any black-box learning algorithm to provide strong distribution-free calibration guarantees while preserving predictive performance.
翻訳日:2023-02-28 14:34:15 公開日:2023-02-27
# ジョイントMAE:3Dポイントクラウド事前トレーニング用2D-3Dジョイントマスク付きオートエンコーダ

Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training ( http://arxiv.org/abs/2302.14007v1 )

ライセンス: Link先を確認
Ziyu Guo, Xianzhi Li, Pheng Ann Heng(参考訳) Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンの両方において、自己教師型学習において有望な性能を示した。 しかし、既存のmaeスタイルの手法は、2dと3dの暗黙的な意味と幾何学的相関を無視するイメージやポイントクラウドといった単一のモダリティのデータからのみ学習することができる。 本稿では,2次元モダリティが3次元マスクによる自動エンコーディングにどのように役立つかを検討し,自己教師付き3次元ポイントクラウドプリトレーニングのための2d-3dジョイントmaeフレームワークであるjoint-maeを提案する。 ジョイントMAEは入力された3Dポイントクラウドとその投影された2Dイメージをランダムにマスキングし、2つのモードのマスキング情報を再構成する。 2つの階層的な2D-3D埋め込みモジュール、ジョイントエンコーダ、およびモーダルシェードおよびモデル固有デコーダを用いたジョイントデコーダにより、より優れたクロスモーダル相互作用を実現する。 さらに,2次元3次元のセマンティックキューに対する局所的アテンション機構である3次元表現学習の促進と,2次元3次元の幾何制約に対するクロスコンストラクション損失の2つのクロスモーダル戦略を導入する。 トレーニング前のパラダイムにより、Joint-MAEは、ModelNet40上の線形SVMの92.4%の精度、ScanObjectNNの最も難しい分割における86.07%の精度など、複数のダウンストリームタスクにおいて優れたパフォーマンスを達成する。

Masked Autoencoders (MAE) have shown promising performance in self-supervised learning for both 2D and 3D computer vision. However, existing MAE-style methods can only learn from the data of a single modality, i.e., either images or point clouds, which neglect the implicit semantic and geometric correlation between 2D and 3D. In this paper, we explore how the 2D modality can benefit 3D masked autoencoding, and propose Joint-MAE, a 2D-3D joint MAE framework for self-supervised 3D point cloud pre-training. Joint-MAE randomly masks an input 3D point cloud and its projected 2D images, and then reconstructs the masked information of the two modalities. For better cross-modal interaction, we construct our JointMAE by two hierarchical 2D-3D embedding modules, a joint encoder, and a joint decoder with modal-shared and model-specific decoders. On top of this, we further introduce two cross-modal strategies to boost the 3D representation learning, which are local-aligned attention mechanisms for 2D-3D semantic cues, and a cross-reconstruction loss for 2D-3D geometric constraints. By our pre-training paradigm, Joint-MAE achieves superior performance on multiple downstream tasks, e.g., 92.4% accuracy for linear SVM on ModelNet40 and 86.07% accuracy on the hardest split of ScanObjectNN.
翻訳日:2023-02-28 14:33:59 公開日:2023-02-27
# 量子系の場の理論と正方形

Field Theory and The Sum-of-Squares for Quantum Systems ( http://arxiv.org/abs/2302.14006v1 )

ライセンス: Link先を確認
M. B. Hastings(参考訳) これは様々な結果とノートの集まりであり、高次摂動理論、臨界現象、時間における非局所結合、および補助場モンテカルロなどの量子場理論からのいくつかのアイデアを用いてスピンとフェルミオン系の二乗階数階層に対処する。 この論文はRefsの続編と見なすべきである。 1,2. さらに, 本論文では, Sachdev-Ye-Kitaev (SYK) モデルの基底状態エネルギーを他の手法で近似することの難しさについて考察する。 我々は、ガウス波動関数から始まるランツォス法(Lanczos method)のパワーと、ガウス波動関数の和(この場合仮定)のパワーに制限を与える。

This is a collection of various result and notes, addressing the sum-of-squares hierarchy for spin and fermion systems using some ideas from quantum field theory, including higher order perturbation theory, critical phenomena, nonlocal coupling in time, and auxiliary field Monte Carlo. This paper should be seen as a sequel to Refs. 1,2. Additionally in this paper, we consider the difficulty of approximating the ground state energy of the Sachdev-Ye-Kitaev (SYK) model using other methods. We provide limitations on the power of the Lanczos method, starting with a Gausian wavefunction, and on the power of a sum of Gaussian wavefunctions (in this case under an assumption).
翻訳日:2023-02-28 14:33:29 公開日:2023-02-27
# パケット交換ネットワークにおける量子鍵分布

Quantum key distribution in a packet-switched network ( http://arxiv.org/abs/2302.14005v1 )

ライセンス: Link先を確認
Reem Mandil, Stephen DiAdamo, Bing Qi, Alireza Shabani(参考訳) パケット交換は、データ転送にネットワークリソースを効率的に利用することで、インターネットに革命をもたらした。 前回の研究で、量子インターネットへのパスとして量子ネットワークにパケットスイッチングを導入し、量子鍵分布(QKD)への応用に関する概念実証を行った。 本稿では,パケット交換ネットワークにおける鍵レート最適化のための3段階の手法について述べる。 シミュレーションの結果,光学記憶容量のない16ユーザネットワークにおいて,実用的な鍵レートが達成できることが示唆された。 特定のネットワーク条件下では、超低損失ファイバ遅延線を用いてパケットをネットワーク遅延時に格納することで、鍵レートを改善することができる。 また,自由空間qkdにおけるリアルタイム選択に類似した戦略によるカットオフストレージタイムの実装は,性能を大幅に向上させる可能性がある。 本研究は,大規模集積量子ネットワークの実現に向けた重要なステップであるqkdのプラットフォームとして,パケット交換が暫定的に適していることを示す。

Packet switching revolutionized the Internet by allowing the efficient use of network resources for data transmission. In a previous work, we introduced packet switching in quantum networks as a path to the Quantum Internet and presented a proof-of-concept for its application to quantum key distribution (QKD). In this paper, we outline a three-step approach for key rate optimization in a packet-switched network. Our simulated results show that practical key rates may be achieved in a sixteen-user network with no optical storage capacity. Under certain network conditions, we may improve the key rate by using an ultra-low-loss fiber delay line to store packets during network delays. We also find that implementing cut-off storage times in a strategy analogous to real-time selection in free-space QKD can significantly enhance performance. Our work demonstrates that packet switching is imminently suitable as a platform for QKD, an important step towards developing large-scale and integrated quantum networks.
翻訳日:2023-02-28 14:33:15 公開日:2023-02-27
# 正規化動的プログラミングによる最適計画

Optimistic Planning by Regularized Dynamic Programming ( http://arxiv.org/abs/2302.14004v1 )

ライセンス: Link先を確認
Antoine Moulin, Gergely Neu(参考訳) 本稿では,標準近似値反復手順の更新に正規化を加えるという考え方に基づいて,無限ホライゾン割引マルコフ決定過程における楽観的計画手法を提案する。 この手法により, 線形関数近似を用いたMDPの最小二乗法により推定される近似遷移関数を, 既存の近似動的プログラミング手法の分析で通常必要とされる縮退や単調性引数を避けることができる。 本手法は,1つの経験ストリームから割引線形カーネルmdpにおける近似最適ポリシーを学習する計算効率の高いアルゴリズムを提供し,近似最適統計的保証を実現することを示す。

We propose a new method for optimistic planning in infinite-horizon discounted Markov decision processes based on the idea of adding regularization to the updates of an otherwise standard approximate value iteration procedure. This technique allows us to avoid contraction and monotonicity arguments that are typically required by existing analyses of approximate dynamic programming methods, and in particular to use approximate transition functions estimated via least-squares procedures in MDPs with linear function approximation. We use our method to provide a computationally efficient algorithm for learning near-optimal policies in discounted linear kernel MDPs from a single stream of experience, and show that it achieves near-optimal statistical guarantees.
翻訳日:2023-02-28 14:32:59 公開日:2023-02-27
# デッドエンド解析による言語モデルの体系化

Systematic Rectification of Language Models via Dead-end Analysis ( http://arxiv.org/abs/2302.14003v1 )

ライセンス: Link先を確認
Meng Cao and Mehdi Fatemi and Jackie Chi Kit Cheung and Samira Shabanian(参考訳) 逆あるいは通常のプロンプトでは、既存の大規模言語モデル(LLM)をプッシュして有害な談話を生成することができる。 望ましくない談話を生成するLLMのリスクを軽減する1つの方法は、LLMのトレーニングを変更することである。 これは計算要求のために非常に制限される。 その他の方法はルールベースまたはプロンプトベースのトークン除去に依存しており、将来のトークンと完全な言論の全体的な意味を排除して制限されている。 ここで、我々は、最終的な談話が最終的に有毒であると考えられる確率のデトキシフィケーションを中心とする。 つまり、それぞれの点において、この点から完成したテキストが有毒になる確率に比例してトークンの選択を推奨します。 この目的のために、我々は最近の強化学習(rl)文献からデッドエンド理論を正式に拡張し、不確定な結果もカバーする。 我々のアプローチは整合化と呼ばれ、異なるがはるかに小さな解毒モデルを用いており、同じ語彙を共有できる限り様々なLSMに適用できる。 重要なことに、本手法はllmの内部表現へのアクセスを必要とせず、各復号ステップにおけるトークン確率分布のみを利用する。 現在多くのLLMがサーバにホストされており、APIを通してのみアクセス可能であるため、これは非常に重要です。 GPT-3 を含む様々な LLM に適用した場合,本手法は,基本 LLM や他の手法と比較して,言語全体および解毒性能の両面で,生成した言論を著しく改善する。

With adversarial or otherwise normal prompts, existing large language models (LLM) can be pushed to generate toxic discourses. One way to reduce the risk of LLMs generating undesired discourses is to alter the training of the LLM. This can be very restrictive due to demanding computation requirements. Other methods rely on rule-based or prompt-based token elimination, which are limited as they dismiss future tokens and the overall meaning of the complete discourse. Here, we center detoxification on the probability that the finished discourse is ultimately considered toxic. That is, at each point, we advise against token selections proportional to how likely a finished text from this point will be toxic. To this end, we formally extend the dead-end theory from the recent reinforcement learning (RL) literature to also cover uncertain outcomes. Our approach, called rectification, utilizes a separate but significantly smaller model for detoxification, which can be applied to diverse LLMs as long as they share the same vocabulary. Importantly, our method does not require access to the internal representations of the LLM, but only the token probability distribution at each decoding step. This is crucial as many LLMs today are hosted in servers and only accessible through APIs. When applied to various LLMs, including GPT-3, our approach significantly improves the generated discourse compared to the base LLMs and other techniques in terms of both the overall language and detoxification performance.
翻訳日:2023-02-28 14:32:47 公開日:2023-02-27
# 開語彙オブジェクト検出のための領域のアライジングバッグ

Aligning Bag of Regions for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2302.13996v1 )

ライセンス: Link先を確認
Size Wu, Wenwei Zhang, Sheng Jin, Wentao Liu, Chen Change Loy(参考訳) 事前学習された視覚言語モデル(VLM)は、視覚と言語表現を大規模データセットに整列させることを学ぶ。 しかし、既存のオープンボキャブラリオブジェクト検出器は、VLMから抽出された対応する特徴と個別に領域を埋め込むだけである。 このようなデザインは、VLMによって暗黙的に学習されるが、セマンティックな概念の構成構造を未公開のシーンに残す。 本研究では,各領域にまたがる領域の埋め込みを整理する手法を提案する。 提案手法は,コンテキスト関連領域をバッグとしてグループ化する。 バッグ内の領域の埋め込みを文中の単語の埋め込みとして処理し、VLMのテキストエンコーダに送信して、凍結したVLMによって抽出された対応する特徴に整列する領域の埋め込みを得る。 一般的な高速r-cnnに適用すると,オープンボカブラリーcocoとlvisベンチマークの新たなカテゴリにおいて,従来の4.6 box ap50と2.8 mask apを上回った。 コードとモデルはhttps://github.com/wusize/ovdetで入手できる。

Pre-trained vision-language models (VLMs) learn to align vision and language representations on large-scale datasets, where each image-text pair usually contains a bag of semantic concepts. However, existing open-vocabulary object detectors only align region embeddings individually with the corresponding features extracted from the VLMs. Such a design leaves the compositional structure of semantic concepts in a scene under-exploited, although the structure may be implicitly learned by the VLMs. In this work, we propose to align the embedding of bag of regions beyond individual regions. The proposed method groups contextually interrelated regions as a bag. The embeddings of regions in a bag are treated as embeddings of words in a sentence, and they are sent to the text encoder of a VLM to obtain the bag-of-regions embedding, which is learned to be aligned to the corresponding features extracted by a frozen VLM. Applied to the commonly used Faster R-CNN, our approach surpasses the previous best results by 4.6 box AP50 and 2.8 mask AP on novel categories of open-vocabulary COCO and LVIS benchmarks, respectively. Code and models are available at https://github.com/wusize/ovdet.
翻訳日:2023-02-28 14:32:27 公開日:2023-02-27
# フォールトトレランス向上のためのピアツーピアサーバレス分散機械学習トレーニングの構築

Architecting Peer-to-Peer Serverless Distributed Machine Learning Training for Improved Fault Tolerance ( http://arxiv.org/abs/2302.13995v1 )

ライセンス: Link先を確認
Amine Barrak, Fabio Petrillo, Fehmi Jaafar(参考訳) 分散機械学習(distributed machine learning)は、ノードと呼ばれる複数のコンピュータやデバイス上でモデルをトレーニングするプラクティスである。 さらに、サーバレスコンピューティングは、関数を計算単位として使用するクラウドコンピューティングの新しいパラダイムである。 サーバレスコンピューティングは、自動リソーススケーリング、手作業による介入の低減、コスト削減を可能にして、分散学習システムに有効である。 ワークロードを分散することにより、分散機械学習はトレーニングプロセスを高速化し、より複雑なモデルをトレーニングできるようにする。 分散機械学習のいくつかのトポロジ(集中型、パラメータサーバ、ピアツーピア)が確立されている。 しかし、パラメータサーバアーキテクチャは、単一障害点と複雑な回復プロセスを含む、フォールトトレランスの点で制限があるかもしれない。 さらに、ピアツーピア(P2P)アーキテクチャで機械学習をトレーニングすることで、単一障害点を排除してフォールトトレランスの面でのメリットを提供することができる。 P2Pアーキテクチャでは、各ノードまたはワーカがサーバとクライアントの両方として動作し、より分散化された意思決定を可能にし、中央コーディネータの必要性を排除できる。 本稿では,分散機械学習トレーニングにおけるサーバレスコンピューティングの利用を検討するとともに,P2Pアーキテクチャとパラメータサーバアーキテクチャの性能を比較し,コスト削減と耐障害性に着目した。

Distributed Machine Learning refers to the practice of training a model on multiple computers or devices that can be called nodes. Additionally, serverless computing is a new paradigm for cloud computing that uses functions as a computational unit. Serverless computing can be effective for distributed learning systems by enabling automated resource scaling, less manual intervention, and cost reduction. By distributing the workload, distributed machine learning can speed up the training process and allow more complex models to be trained. Several topologies of distributed machine learning have been established (centralized, parameter server, peer-to-peer). However, the parameter server architecture may have limitations in terms of fault tolerance, including a single point of failure and complex recovery processes. Moreover, training machine learning in a peer-to-peer (P2P) architecture can offer benefits in terms of fault tolerance by eliminating the single point of failure. In a P2P architecture, each node or worker can act as both a server and a client, which allows for more decentralized decision making and eliminates the need for a central coordinator. In this position paper, we propose exploring the use of serverless computing in distributed machine learning training and comparing the performance of P2P architecture with the parameter server architecture, focusing on cost reduction and fault tolerance.
翻訳日:2023-02-28 14:32:04 公開日:2023-02-27
# 機械学習を用いた実数量化器除去のための変数順序の再検討

Revisiting Variable Ordering for Real Quantifier Elimination using Machine Learning ( http://arxiv.org/abs/2302.14038v1 )

ライセンス: Link先を確認
John Hester, Briland Hitaj, Grant Passmore, Sam Owre, Natarajan Shankar, Eric Yeh(参考訳) Cylindrical Algebraic Decomposition (CAD)は、サイバー物理システムの正式な検証のための重要な証明手法である。 cadは計算コストが高く、最悪の場合2倍の複雑さがある。 最適な変数順序付けを選択することはCADの効率的な利用にとって最重要である。 先行研究は、機械学習が効率的な変数順序を決定するのに役立つことを証明した。 この研究の多くは、MetiTarski定理証明の応用から抽出されたCAD問題によって進められている。 本稿では,この先行研究を再検討し,既存のトレーニングおよびテストデータにおけるバイアスの問題について考察する。 古典的なMetiTarskiベンチマークは、特定の変数順序に大きく偏っている。 これを解決するために、対称性を適用して、バイアスを取り除くように設計された41K以上のMetiTarski課題を含む新しいデータセットを作成します。 さらに,情報漏洩の問題を評価し,新しいデータセット上でモデルの一般化可能性をテストする。

Cylindrical Algebraic Decomposition (CAD) is a key proof technique for formal verification of cyber-physical systems. CAD is computationally expensive, with worst-case doubly-exponential complexity. Selecting an optimal variable ordering is paramount to efficient use of CAD. Prior work has demonstrated that machine learning can be useful in determining efficient variable orderings. Much of this work has been driven by CAD problems extracted from applications of the MetiTarski theorem prover. In this paper, we revisit this prior work and consider issues of bias in existing training and test data. We observe that the classical MetiTarski benchmarks are heavily biased towards particular variable orderings. To address this, we apply symmetries to create a new dataset containing more than 41K MetiTarski challenges designed to remove bias. Furthermore, we evaluate issues of information leakage, and test the generalizability of our models on the new dataset.
翻訳日:2023-02-28 14:25:48 公開日:2023-02-27
# text-to-mel-spectrogram generatorを用いたエンドツーエンドasrのためのテキストのみのドメイン適応

Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator ( http://arxiv.org/abs/2302.14036v1 )

ライセンス: Link先を確認
Vladimir Bataev, Roman Korostik, Evgeny Shabalin, Vitaly Lavrukhin, Boris Ginsburg(参考訳) 本稿では,音声データやテキストデータ,あるいは両者の混在を学習可能なエンドツーエンドのASRシステムを提案する。 テキストのみのトレーニングでは、拡張ASRモデルはテキストからメルスペクトログラムを生成する統合補助TSブロックを使用する。 このブロックは、ganエンハンサーを付加した従来の非自己回帰テキスト対メルスペクトログラム生成器を含み、スペクトログラム品質を向上させる。 提案システムは,テキストのみのデータを用いて新しいドメイン上でのASRモデルの精度を向上し,大規模なテキストコーパスを用いて従来の音声テキストトレーニングを大幅に上回ることができる。

We propose an end-to-end ASR system that can be trained on transcribed speech data, text data, or a mixture of both. For text-only training, our extended ASR model uses an integrated auxiliary TTS block that creates mel spectrograms from the text. This block contains a conventional non-autoregressive text-to-mel-spectrogram generator augmented with a GAN enhancer to improve the spectrogram quality. The proposed system can improve the accuracy of the ASR model on a new domain by using text-only data, and allows to significantly surpass conventional audio-text training by using large text corpora.
翻訳日:2023-02-28 14:25:37 公開日:2023-02-27
# ROOTS検索ツール: LLMのデータ透明性

The ROOTS Search Tool: Data Transparency for LLMs ( http://arxiv.org/abs/2302.14035v1 )

ライセンス: Link先を確認
Aleksandra Piktus, Christopher Akiki, Paulo Villegas, Hugo Lauren\c{c}on, G\'erard Dupont, Alexandra Sasha Luccioni, Yacine Jernite, Anna Rogers(参考訳) ROOTS は BLOOM のトレーニングのために開発された 1.6TB の多言語テキストコーパスである。 これらの取り組みの継続として, ファジィかつ正確な検索機能を備えたROTSコーパス全体を対象とした検索エンジンであるROTS Search Toolを提示する。 ROOTSは、これまでで最大のコーパスであり、この方法で調査することができる。 ROOTS Search Toolはオープンソースで、Hugging Face Spacesで利用できる。 ツールの実装と可能なユースケースについて説明する。

ROOTS is a 1.6TB multilingual text corpus developed for the training of BLOOM, currently the largest language model explicitly accompanied by commensurate data governance efforts. In continuation of these efforts, we present the ROOTS Search Tool: a search engine over the entire ROOTS corpus offering both fuzzy and exact search capabilities. ROOTS is the largest corpus to date that can be investigated this way. The ROOTS Search Tool is open-sourced and available on Hugging Face Spaces. We describe our implementation and the possible use cases of our tool.
翻訳日:2023-02-28 14:25:24 公開日:2023-02-27
# ブロックチェーン上での協調機械学習のための帰結実証型設計

Proof-of-Contribution-Based Design for Collaborative Machine Learning on Blockchain ( http://arxiv.org/abs/2302.14031v1 )

ライセンス: Link先を確認
Baturalp Buyukates and Chaoyang He and Shanshan Han and Zhiyong Fang and Yupeng Zhang and Jieyi Long and Ali Farahanchi and Salman Avestimehr(参考訳) 我々は、ローカルなプライベートデータと興味あるデータ所有者、すなわちトレーナーの計算能力を利用してモデルをトレーニングしたいプロジェクト(モデル)オーナーについて検討する。 私たちのゴールは、同時に提供する分散協調学習アプリケーションのためのデータマーケットプレースを設計することです。 一 訓練されたモデルに対する貢献に基づいてトレーナーが補償されるための分配の証明に基づく報酬の割当 二 データ所有者からのデータ移動を避けることにより、プライバシー保護の分散モデルトレーニング 三 悪意ある当事者に対する堅牢性(例えば、模型を毒殺しようとするトレーナー) 四 貢献評価及び異常検出を含むデータ市場プロトコルのすべての計算の完全性、すなわち正確性がゼロ知識証明により検証できるという意味での検証可能性 v) 効率的で普遍的な設計 上記5つの目標をすべて達成するために,ブロックチェーンベースのマーケットプレース設計を提案する。 我々の設計では、プロジェクトオーナーとトレーナーとは別に、分散ストレージインフラストラクチャとアグリゲータを使用します。 アグリゲータは、トレーナーのコントリビュートの評価、外れ値の削除、ハイパーパラメータの更新など、特定の計算を実行する処理ノードである。 提案されるデータ市場は,ブロックチェーンスマートコントラクトを通じて実行します。 デプロイされたスマートコントラクトは、プロジェクトのオーナーが支払いを回避できないことを保証します。 最後に,提案するデータ市場のビルディングブロックを実装し,広範な実験により実用シナリオへの適用性を示す。

We consider a project (model) owner that would like to train a model by utilizing the local private data and compute power of interested data owners, i.e., trainers. Our goal is to design a data marketplace for such decentralized collaborative/federated learning applications that simultaneously provides i) proof-of-contribution based reward allocation so that the trainers are compensated based on their contributions to the trained model; ii) privacy-preserving decentralized model training by avoiding any data movement from data owners; iii) robustness against malicious parties (e.g., trainers aiming to poison the model); iv) verifiability in the sense that the integrity, i.e., correctness, of all computations in the data market protocol including contribution assessment and outlier detection are verifiable through zero-knowledge proofs; and v) efficient and universal design. We propose a blockchain-based marketplace design to achieve all five objectives mentioned above. In our design, we utilize a distributed storage infrastructure and an aggregator aside from the project owner and the trainers. The aggregator is a processing node that performs certain computations, including assessing trainer contributions, removing outliers, and updating hyper-parameters. We execute the proposed data market through a blockchain smart contract. The deployed smart contract ensures that the project owner cannot evade payment, and honest trainers are rewarded based on their contributions at the end of training. Finally, we implement the building blocks of the proposed data market and demonstrate their applicability in practical scenarios through extensive experiments.
翻訳日:2023-02-28 14:25:16 公開日:2023-02-27
# 言語誘導型エンボディードエージェントのためのマルチモーダル音声認識

Multimodal Speech Recognition for Language-Guided Embodied Agents ( http://arxiv.org/abs/2302.14030v1 )

ライセンス: Link先を確認
Allen Chang, Xiaoyuan Zhu, Aarav Monga, Seoho Ahn, Tejas Srinivasan, Jesse Thomason(参考訳) 言語誘導型エンボディエージェントのベンチマークは通常テキストベースの命令を仮定するが、デプロイされたエージェントは音声命令に遭遇する。 自動音声認識(ASR)モデルは入力ギャップを埋めることができるが、誤ったASR書き起こしはエージェントのタスク完了能力を損なう可能性がある。 そこで本研究では,マルチモーダルasrモデルの学習を行い,付随する視覚文脈を考慮した音声指示の書き起こし誤りを低減させる。 alfred task completionデータセットから合成した音声指示のデータセット上でモデルをトレーニングし,音声単語を体系的にマスキングすることで音響雑音をシミュレートした。 マルチモーダルASRモデルは,一助詞よりも最大30%のマスキング語を回復させることで,視覚的観察の活用によりマスキング語回復が促進されることがわかった。 また,マルチモーダルasrモデルから書き起こされた命令に従うことで,テキスト学習型エンボディエージェントがタスクをより多く完了できることがわかった。

Benchmarks for language-guided embodied agents typically assume text-based instructions, but deployed agents will encounter spoken instructions. While Automatic Speech Recognition (ASR) models can bridge the input gap, erroneous ASR transcripts can hurt the agents' ability to complete tasks. In this work, we propose training a multimodal ASR model to reduce errors in transcribing spoken instructions by considering the accompanying visual context. We train our model on a dataset of spoken instructions, synthesized from the ALFRED task completion dataset, where we simulate acoustic noise by systematically masking spoken words. We find that utilizing visual observations facilitates masked word recovery, with multimodal ASR models recovering up to 30% more masked words than unimodal baselines. We also find that a text-trained embodied agent successfully completes tasks more often by following transcribed instructions from multimodal ASR models.
翻訳日:2023-02-28 14:24:54 公開日:2023-02-27
# 多様性の問題:Wikidataにおけるバイアス測定のロバスト性

Diversity matters: Robustness of bias measurements in Wikidata ( http://arxiv.org/abs/2302.14027v1 )

ライセンス: Link先を確認
Paramita Das, Sai Keerthana Karnam, Anirban Panda, Bhanu Prakash Reddy Guda, Soumya Sarkar, Animesh Mukherjee(参考訳) 各種自動化AIシステムやアプリケーションに知識グラフ(KG)が広く使用されているため、情報検索アルゴリズムが社会的バイアスから解放されることが極めて重要である。 以前の研究では、kgで持続するバイアスを描写し、バイアスを測定するためにいくつかの指標を採用した。 しかし、このような研究はバイアス測定の感度の体系的な探索や、様々なデータソース、あるいは使われる埋め込みアルゴリズムを欠いている。 この研究のギャップに対処するために,本研究では,知識グラフ上のバイアス測定の全体論的解析を提案する。 まず,7大陸から選択された13の異なる人口層を対象に,ウィキデータに現れるデータバイアスを明らかにする。 次に、2つの異なる知識グラフ埋め込みアルゴリズム(transeとcomplex)によるバイアス検出のばらつきを広めようとする。 我々は,感受性特性,すなわち性別に関して,13人層から採取した多数の職業について広範な実験を行った。 その結果,kgに持続する固有データバイアスは,kg埋め込み学習アルゴリズムに組み込まれている特定のアルゴリズムバイアスによって変化できることがわかった。 さらに,現在最先端のKG埋め込みアルゴリズムの選択は,性別に関わらず,偏りのある職業のランク付けに強い影響を与えることを示す。 人口統計学における偏りのある職業の類似性は最小限であり、世界中の社会文化の違いを反映している。 偏差測定パイプラインの完全な監査は、コミュニティ間の認識を高めつつ、データとアルゴリズムの設計選択に関する洞察を導き、‘一大フィット’という人気のドグマを無視するものだと考えています。

With the widespread use of knowledge graphs (KG) in various automated AI systems and applications, it is very important to ensure that information retrieval algorithms leveraging them are free from societal biases. Previous works have depicted biases that persist in KGs, as well as employed several metrics for measuring the biases. However, such studies lack the systematic exploration of the sensitivity of the bias measurements, through varying sources of data, or the embedding algorithms used. To address this research gap, in this work, we present a holistic analysis of bias measurement on the knowledge graph. First, we attempt to reveal data biases that surface in Wikidata for thirteen different demographics selected from seven continents. Next, we attempt to unfold the variance in the detection of biases by two different knowledge graph embedding algorithms - TransE and ComplEx. We conduct our extensive experiments on a large number of occupations sampled from the thirteen demographics with respect to the sensitive attribute, i.e., gender. Our results show that the inherent data bias that persists in KG can be altered by specific algorithm bias as incorporated by KG embedding learning algorithms. Further, we show that the choice of the state-of-the-art KG embedding algorithm has a strong impact on the ranking of biased occupations irrespective of gender. We observe that the similarity of the biased occupations across demographics is minimal which reflects the socio-cultural differences around the globe. We believe that this full-scale audit of the bias measurement pipeline will raise awareness among the community while deriving insights related to design choices of data and algorithms both and refrain from the popular dogma of ``one-size-fits-all''.
翻訳日:2023-02-28 14:24:35 公開日:2023-02-27
# アラビアASRにおける発音性能

Diacritic Recognition Performance in Arabic ASR ( http://arxiv.org/abs/2302.14022v1 )

ライセンス: Link先を確認
Hanan Aldarmaki and Ahmad Ghannam(参考訳) 本稿では,アラビア語自動音声認識(asr)システムにおけるダイアクリティック認識性能の分析を行う。 既存のアラビア語のコーポラは、短い母音やその他の音声情報を表す全てのダイアクリティカルマークをアラビア文字に含まないため、現在のasrモデルは、その出力において完全なダイアクリティカル化を生じない。 テキストに基づく自動読取は、以前、読取されたasrを訓練するための前処理ステップと、その結果のasr仮説を読取するための後処理ステップの両方として用いられてきた。 一般に、入力ダイアクリティーゼーションはASR性能を低下させると考えられているが、ASR性能に依存しないASRダイアクリティーゼーション性能の体系的評価は行われていない。 本稿では,入力ダイアクリミゼーションがASRの品質を低下させるかどうかを実験的に明らかにし,テキストベースのダイアクリミゼーションとの比較を後処理のステップとして行おうとする。 まず、事前訓練されたアラビアASRモデルから始まり、手動、自動、そして発音なしの異なる発音条件で書き起こされた音声データを微調整する。 対象と精度の指標を用いて,ASR全体の評価からダイアクリティカル認識性能を分離する。 ASR Dicritization は後処理においてテキストベースのDicritization を著しく上回り、特に手書きのDicritized transcript で ASR モデルを微調整する場合に顕著である。

We present an analysis of diacritic recognition performance in Arabic Automatic Speech Recognition (ASR) systems. As most existing Arabic speech corpora do not contain all diacritical marks, which represent short vowels and other phonetic information in Arabic script, current state-of-the-art ASR models do not produce full diacritization in their output. Automatic text-based diacritization has previously been employed both as a pre-processing step to train diacritized ASR, or as a post-processing step to diacritize the resulting ASR hypotheses. It is generally believed that input diacritization degrades ASR performance, but no systematic evaluation of ASR diacritization performance, independent of ASR performance, has been conducted to date. In this paper, we attempt to experimentally clarify whether input diacritiztation indeed degrades ASR quality, and to compare the diacritic recognition performance against text-based diacritization as a post-processing step. We start with pre-trained Arabic ASR models and fine-tune them on transcribed speech data with different diacritization conditions: manual, automatic, and no diacritization. We isolate diacritic recognition performance from the overall ASR performance using coverage and precision metrics. We find that ASR diacritization significantly outperforms text-based diacritization in post-processing, particularly when the ASR model is fine-tuned with manually diacritized transcripts.
翻訳日:2023-02-28 14:24:11 公開日:2023-02-27
# 多言語事前学習トランスフォーマーを用いたテキスト中の価数と覚醒の定量化

Quantifying Valence and Arousal in Text with Multilingual Pre-trained Transformers ( http://arxiv.org/abs/2302.14021v1 )

ライセンス: Link先を確認
Gon\c{c}alo Azevedo Mendes and Bruno Martins(参考訳) テキストで表現された感情の分析には多くの応用がある。 カテゴリー分析とは対照的に、既定の共通クラスに従って感情を分類することに焦点を当てた次元的アプローチは、異なる感情を区別するよりニュアンスな方法を提供する。 しかし、次元的手法は文献ではあまり研究されていない。 原子価-陽電子次元空間を考えると、この研究は、複数の言語や領域からの入力テキストを用いて、これらの2次元を連続的に予測するための事前学習された変換器の使用を評価する。 先行研究から得られた複数の注釈付きデータセットを,感情的な語彙や短いテキスト文書に対応させて,複数のサイズのモデルを評価し,異なる設定下でトレーニングした。 この結果から,モデルサイズが予測品質に大きく影響しうること,また,大規模モデルを微調整することにより,複数の言語で精度と覚醒を確実に予測できることが示唆された。 コード、モデル、サポートデータを利用可能にしています。

The analysis of emotions expressed in text has numerous applications. In contrast to categorical analysis, focused on classifying emotions according to a pre-defined set of common classes, dimensional approaches can offer a more nuanced way to distinguish between different emotions. Still, dimensional methods have been less studied in the literature. Considering a valence-arousal dimensional space, this work assesses the use of pre-trained Transformers to predict these two dimensions on a continuous scale, with input texts from multiple languages and domains. We specifically combined multiple annotated datasets from previous studies, corresponding to either emotional lexica or short text documents, and evaluated models of multiple sizes and trained under different settings. Our results show that model size can have a significant impact on the quality of predictions, and that by fine-tuning a large model we can confidently predict valence and arousal in multiple languages. We make available the code, models, and supporting data.
翻訳日:2023-02-28 14:23:45 公開日:2023-02-27
# 変圧器推論のフルスタック最適化に関する調査

Full Stack Optimization of Transformer Inference: a Survey ( http://arxiv.org/abs/2302.14017v1 )

ライセンス: Link先を確認
Sehoon Kim, Coleman Hooper, Thanakul Wattanawong, Minwoo Kang, Ruohan Yan, Hasan Genc, Grace Dinh, Qijing Huang, Kurt Keutzer, Michael W. Mahoney, Yakun Sophia Shao, Amir Gholami(参考訳) 最新のdnnアーキテクチャ設計の最近の進歩は、トランスフォーマーモデルへと向かっている。 これらのモデルは、幅広いアプリケーションで優れた精度を達成します。 この傾向は、Transformerモデルが最初に導入されてから数年間にわたって一貫してきた。 しかし、最近のトランスフォーマーモデルの推論に必要な計算量と帯域幅は大幅に増加しており、レイテンシに敏感なアプリケーションへのデプロイが困難になっている。 そのため、Transformerモデルをより効率的にすることに注力し、アーキテクチャ設計の変更から、専用のドメイン固有のアクセラレータの開発まで幅広い方法が提供されている。 本研究では,効率的な変圧器推論のための様々な手法について検討する。 一 既存のトランスフォーマー建築におけるボトルネックの分析及びプロファイリング及びその類似性及び以前の畳み込みモデルとの差異 (II)トランスフォーマーアーキテクチャがハードウェアに与える影響は,レイヤ正規化,ソフトマックス,GELUなどの非線形演算,および線形演算がハードウェア設計に与える影響を含む。 (iii) 固定トランスアーキテクチャの最適化方法 (iv)変圧器モデルの操作の正しいマッピング及びスケジューリングを見つけるための課題 (v)ニューラルネットワークを用いたアーキテクチャ適応による変圧器モデルの最適化手法 最後に、オープンソースのフルスタックdnnアクセラレータージェネレータであるgemminiで調査対象の最適化を適用してケーススタディを行い、これらのアプローチがgemminiの以前のベンチマーク結果に対してどのように改善をもたらすかを示す。 中でも、上述した手法によるフルスタックのコデザインアプローチは、最大88.7倍の高速化を実現し、Transformer推論の性能劣化を最小限に抑えることができる。

Recent advances in state-of-the-art DNN architecture design have been moving toward Transformer models. These models achieve superior accuracy across a wide range of applications. This trend has been consistent over the past several years since Transformer models were originally introduced. However, the amount of compute and bandwidth required for inference of recent Transformer models is growing at a significant rate, and this has made their deployment in latency-sensitive applications challenging. As such, there has been an increased focus on making Transformer models more efficient, with methods that range from changing the architecture design, all the way to developing dedicated domain-specific accelerators. In this work, we survey different approaches for efficient Transformer inference, including: (i) analysis and profiling of the bottlenecks in existing Transformer architectures and their similarities and differences with previous convolutional models; (ii) implications of Transformer architecture on hardware, including the impact of non-linear operations such as Layer Normalization, Softmax, and GELU, as well as linear operations, on hardware design; (iii) approaches for optimizing a fixed Transformer architecture; (iv) challenges in finding the right mapping and scheduling of operations for Transformer models; and (v) approaches for optimizing Transformer models by adapting the architecture using neural architecture search. Finally, we perform a case study by applying the surveyed optimizations on Gemmini, the open-source, full-stack DNN accelerator generator, and we show how each of these approaches can yield improvements, compared to previous benchmark results on Gemmini. Among other things, we find that a full-stack co-design approach with the aforementioned methods can result in up to 88.7x speedup with a minimal performance degradation for Transformer inference.
翻訳日:2023-02-28 14:23:29 公開日:2023-02-27
# CO-BED:ベイズ実験設計による情報理論文脈最適化

CO-BED: Information-Theoretic Contextual Optimization via Bayesian Experimental Design ( http://arxiv.org/abs/2302.14015v1 )

ライセンス: Link先を確認
Desi R. Ivanova, Joel Jennings, Tom Rainforth, Cheng Zhang, Adam Foster(参考訳) ベイズ実験設計のレンズを通して文脈最適化の問題を定式化し、情報理論の原理を用いて文脈実験を設計するための汎用的モデル非依存フレームワークであるコベッドを提案する。 適切な情報に基づく目的を定式化した後、ブラックボックス変分法を用いて同時に推定し、単一の確率勾配スキームで設計を最適化する。 さらに,離散的動作を許容する緩和スキームについても紹介する。 その結果、CO-BEDは、幅広い文脈最適化問題に対して、汎用的で自動化されたソリューションを提供する。 そこでは,CO-BEDが,モデル固有の代替案と比較しても,競争性能を示す実験を行った。

We formalize the problem of contextual optimization through the lens of Bayesian experimental design and propose CO-BED -- a general, model-agnostic framework for designing contextual experiments using information-theoretic principles. After formulating a suitable information-based objective, we employ black-box variational methods to simultaneously estimate it and optimize the designs in a single stochastic gradient scheme. We further introduce a relaxation scheme to allow discrete actions to be accommodated. As a result, CO-BED provides a general and automated solution to a wide range of contextual optimization problems. We illustrate its effectiveness in a number of experiments, where CO-BED demonstrates competitive performance even when compared to bespoke, model-specific alternatives.
翻訳日:2023-02-28 14:23:05 公開日:2023-02-27
# LODE:Sparse LiDARからの局所条件付きアイコニカルインシシシトシーンコンプリート

LODE: Locally Conditioned Eikonal Implicit Scene Completion from Sparse LiDAR ( http://arxiv.org/abs/2302.14052v1 )

ライセンス: Link先を確認
Pengfei Li, Ruowen Zhao, Yongliang Shi, Hao Zhao, Jirui Yuan, Guyue Zhou, Ya-Qin Zhang(参考訳) シーン完了とは、複雑な3Dシーンの不完全な認識から密集したシーン表現を得ることである。 これによりロボットは、マルチスケールの障害物を検出し、自律運転のようなシナリオで物体の閉塞を分析することができる。 近年の進歩は、暗黙表現学習を連続的なシーン完了に活用し、固有方程式のような物理的制約によって達成できることを示した。 しかし、従来の固有完備法は、数十メッシュのスケールで水密メッシュでのみ結果を示す。 それらはいずれも、数千のシーンで大きなシーンを開いている水中のLiDAR点雲に対して成功していない。 本稿では,密接な境界値制約として機能する局所的な形状に暗黙的な表現を条件付け,SemanticKITTIとSemanticPOSSで機能する新しいアイコン式を提案する。 ネットワークアーキテクチャに小さな変更を加えるだけで、セマンティックな固有シーン補完に拡張することもできる。 定量的・定性的な結果から, 既存の固有値法の利点と欠点を示し, 新しい局所条件付き定式化を自然に導く。 特に、IoUをSemanticKITTIで31.7%から51.2%、SemanticPOSSで40.5%から48.7%に改善しています。 提案手法を広範囲にアブレーションし,提案手法が幅広い実装ハイパーパラメータに対して堅牢であることを示す。 コードとモデルはhttps://github.com/AIR-DISCOVER/LODE.comで公開されている。

Scene completion refers to obtaining dense scene representation from an incomplete perception of complex 3D scenes. This helps robots detect multi-scale obstacles and analyse object occlusions in scenarios such as autonomous driving. Recent advances show that implicit representation learning can be leveraged for continuous scene completion and achieved through physical constraints like Eikonal equations. However, former Eikonal completion methods only demonstrate results on watertight meshes at a scale of tens of meshes. None of them are successfully done for non-watertight LiDAR point clouds of open large scenes at a scale of thousands of scenes. In this paper, we propose a novel Eikonal formulation that conditions the implicit representation on localized shape priors which function as dense boundary value constraints, and demonstrate it works on SemanticKITTI and SemanticPOSS. It can also be extended to semantic Eikonal scene completion with only small modifications to the network architecture. With extensive quantitative and qualitative results, we demonstrate the benefits and drawbacks of existing Eikonal methods, which naturally leads to the new locally conditioned formulation. Notably, we improve IoU from 31.7% to 51.2% on SemanticKITTI and from 40.5% to 48.7% on SemanticPOSS. We extensively ablate our methods and demonstrate that the proposed formulation is robust to a wide spectrum of implementation hyper-parameters. Codes and models are publicly available at https://github.com/AIR-DISCOVER/LODE.
翻訳日:2023-02-28 14:17:28 公開日:2023-02-27
# Internet Explorer: オープンWeb上での表現学習を目標に

Internet Explorer: Targeted Representation Learning on the Open Web ( http://arxiv.org/abs/2302.14051v1 )

ライセンス: Link先を確認
Alexander C. Li, Ellis Brown, Alexei A. Efros, Deepak Pathak(参考訳) 現代のビジョンモデルは通常、大規模で静的なデータセットで事前訓練された微調整の汎用モデルに依存している。 これらの汎用モデルは、トレーニング済みのデータセット内の知識のみをキャプチャする。これは、毎日何十億もの画像がアップロードされるインターネットの小さな最新スナップショットである。 大規模な事前トレーニングの後、我々の静的データセットが所望のタスクに転送されることを期待するのではなく、インターネットを動的に活用して、手作業で非常にうまく動作する小規模モデルを迅速に訓練することを提案する。 当社のアプローチはInternet Explorerと呼ばれ、Webを自己教師型の方法で探索し、望ましいターゲットデータセットのパフォーマンスを改善するための関連するサンプルを徐々に見つける。 インターネット上の画像検索とテキストクエリ、ダウンロードされた画像の自己教師付きトレーニング、どの画像が役に立つかの判断、次に何を探すかの優先順位付けをサイクルする。 我々はInternet Explorerを複数のデータセットで評価し、たった1つのGPUデスクトップを使用して30~40時間インターネットに問い合わせることにより、CLIPオーラクルのパフォーマンスを上回り、一致させることを示した。 結果、可視化、ビデオ: https://internet-explorer-ssl.github.io/

Modern vision models typically rely on fine-tuning general-purpose models pre-trained on large, static datasets. These general-purpose models only capture the knowledge within their pre-training datasets, which are tiny, out-of-date snapshots of the Internet -- where billions of images are uploaded each day. We suggest an alternate approach: rather than hoping our static datasets transfer to our desired tasks after large-scale pre-training, we propose dynamically utilizing the Internet to quickly train a small-scale model that does extremely well on the task at hand. Our approach, called Internet Explorer, explores the web in a self-supervised manner to progressively find relevant examples that improve performance on a desired target dataset. It cycles between searching for images on the Internet with text queries, self-supervised training on downloaded images, determining which images were useful, and prioritizing what to search for next. We evaluate Internet Explorer across several datasets and show that it outperforms or matches CLIP oracle performance by using just a single GPU desktop to actively query the Internet for 30--40 hours. Results, visualizations, and videos at https://internet-explorer-ssl.github.io/
翻訳日:2023-02-28 14:17:03 公開日:2023-02-27
# 開量子系の第3量子化:新しい散逸対称性と位相空間およびケルディシュ場理論への接続

Third quantization of open quantum systems: new dissipative symmetries and connections to phase-space and Keldysh field theory formulations ( http://arxiv.org/abs/2302.14047v1 )

ライセンス: Link先を確認
Alexander McDonald, Aasish A. Clerk(参考訳) オープン量子システムの研究に用いられる標準的な理論ツール間の接続は、しばしば不透明に思える。 リンドブラッドのマスター方程式、ウィグナー函数の運動方程式、あるいは散逸的ケルディシュ作用であろうと、ある形式主義で明らかな特徴は、しばしば別の形式論において隠蔽される。 ここでは、3つの方法全てを明示的に接続する方法で第3量子化の技法を再構成する。 まず、我々の定式化は、すべての二次ボゾンあるいはフェルミオンリンドブラディアンに存在する基本散逸対称性を明らかにする。 この対称性はこれらのモデルを簡単に対角化するために使用することができ、線形系における散逸とゆらぎの分離を示す直感的な方法を提供する。 ボーソンの場合、ウィグナー関数と特性関数は、我々が導入した第三量子化超作用素の固有化における密度行列の'波動関数'と考えることができる。 この基底における時間発展作用素の場理論表現はケルディッシュ経路積分である。 提案手法の有用性を強調するため, 散逸性非線形発振器に第3量子化法を適用し, 新たな正確な結果を得る。

The connections between standard theoretical tools used to study open quantum systems can sometimes seem opaque. Whether it is a Lindblad master equation, the equation of motion for the Wigner function or a dissipative Keldysh action, features evident in one formalism are often masked in another. Here, we reformulate the technique of third quantization in a way that explicitly connects all three methods. We first show that our formulation reveals a fundamental dissipative symmetry present in all quadratic bosonic or fermionic Lindbladians. This symmetry can then be used to easily diagonalize these models, and provides a intuitive way to demonstrate the separation of dissipation and fluctations in linear systems. For bosons, we then show that the Wigner function and the characteristic function can be thought of as ''wavefunctions'' of the density matrix in the eigenbasis of the third-quantized superoperators we introduce. The field-theory representation of the time-evolution operator in this basis is then the Keldysh path integral. To highlight the utility of our approach, we apply our version of third quantization to a dissipative non-linear oscillator, and use it to obtain new exact results.
翻訳日:2023-02-28 14:16:44 公開日:2023-02-27
# 絡み合った量子状態を再考したクレーター-ホルン-シモニー-ホルトのベルの不等式

Violation of Bell's Inequality in the Clauser-Horne-Shimony-Holt Form with Entangled Quantum States Revisited ( http://arxiv.org/abs/2302.14046v1 )

ライセンス: Link先を確認
Carlo Cafaro, Christian Corda, Philip Cairns, Ayhan Bingolbali(参考訳) 科学的な想像力と実験的な創造性は物理学の核心にある。 理論(すなわち基礎)と実験(すなわち技術)の間のこの相互作用がもっともよく知られている例の1つは、ベルの不等式についての議論である。 本稿では,Claus-Horne-Shimony-Holt (CHSH) 形式におけるベルの不等式と量子状態の絡み合いについて再検討する。 まず、1935年のアインシュタイン-ポドルスキー-ローゼン(EPR)パラドックス(すなわち量子力学の不完全性)の議論から始まり、アインシュタインの局所性と物理現象の絶対的な性質に重点を置くことから生じる。 第2に、ベルが1969年のCHSH形式である1964年のベルの不等式を現実的な局所隠れ変数理論(RLHVT)の文脈で導出したことについて議論する。 第3に、RLHVTと量子力学的スピン相関係数を同定し、1991年のギシンの分析に従い、系が絡み合った量子状態にあるとき、量子力学がベルの不等式に反することを示す。 教育的目的のために、この違反の程度が偏光子の向きと量子状態の絡み合いの程度にどのように依存しているかを示す。 第4に,1982年の Aspect-Grangier-Roger (AGR) 実験で示された実験室におけるベルの不等式の実験的検証の基礎について論じる。 最後に、この素晴らしい物理学の例から、いくつかの本質的なホームメッセージの概要を紹介します。

Scientific imagination and experimental ingenuity are at the heart of physics. One of the most known instances where this interplay between theory (i.e., foundations) and experiments (i.e., technology) occurs is in the discussion of Bell's inequalities. In this paper, we present a revisitation of the violation of Bell's inequality in the Clauser-Horne-Shimony-Holt (CHSH) form with entangled quantum states. First, we begin with a discussion of the 1935 Einstein-Podolski-Rosen (EPR) paradox (i.e., incompleteness of quantum mechanics) that emerges from putting the emphasis on Einstein's locality and the absolute character of physical phenomena. Second, we discuss Bell's 1971 derivation of the 1969 CHSH form of the original 1964 Bell inequality in the context of a realistic local hidden-variable theory (RLHVT). Third, identifying the quantum-mechanical spin correlation coefficient with the RLHVT one, we follow Gisin's 1991 analysis to show that quantum mechanics violates Bell's inequality when systems are in entangled quantum states. For pedagogical purposes, we show how the extent of this violation depends both on the orientation of the polarizers and the degree of entanglement of the quantum states. Fourth, we discuss the basics of the experimental verification of Bell's inequality in an actual laboratory as presented in the original 1982 Aspect-Grangier-Roger (AGR) experiment. Finally, we provide an outline of some essential take home messages from this wonderful example of physics at its best.
翻訳日:2023-02-28 14:16:23 公開日:2023-02-27
# 言語は必要なすべてではない:言語モデルによる知覚の調整

Language Is Not All You Need: Aligning Perception with Language Models ( http://arxiv.org/abs/2302.14045v1 )

ライセンス: Link先を確認
Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei(参考訳) 言語、マルチモーダル認識、行動、世界モデリングの大きな収束は、人工知能にとって重要なステップである。 本稿では,一般モダリティを知覚し,文脈で学習し,指示に従うマルチモーダル大規模言語モデル(mllm)であるkosmos-1を紹介する。 具体的には、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。 ゼロショット,少数ショット,マルチモーダル・チェーン・オブ・シークレットなどのさまざまな設定を,勾配更新や微調整を伴わない広範囲なタスクで評価する。 Kosmos-1が優れた性能を発揮することを示す実験結果が得られた。 (i)言語理解、生成、さらにはOCRフリーなNLP(直接文書画像が供給される) (ii)マルチモーダル対話、画像キャプション、視覚的質問応答等の知覚言語課題 (iii)説明付き画像認識(テキスト指示による分類特定)などの視覚課題 また,MLLMは,言語からマルチモーダル,多モーダルから言語への知識伝達という,クロスモーダル転送のメリットも示している。 さらに,mllmsの非言語的推論能力を診断するraven iqテストのデータセットも紹介する。

A big convergence of language, multimodal perception, action, and world modeling is a key step toward artificial general intelligence. In this work, we introduce Kosmos-1, a Multimodal Large Language Model (MLLM) that can perceive general modalities, learn in context (i.e., few-shot), and follow instructions (i.e., zero-shot). Specifically, we train Kosmos-1 from scratch on web-scale multimodal corpora, including arbitrarily interleaved text and images, image-caption pairs, and text data. We evaluate various settings, including zero-shot, few-shot, and multimodal chain-of-thought prompting, on a wide range of tasks without any gradient updates or finetuning. Experimental results show that Kosmos-1 achieves impressive performance on (i) language understanding, generation, and even OCR-free NLP (directly fed with document images), (ii) perception-language tasks, including multimodal dialogue, image captioning, visual question answering, and (iii) vision tasks, such as image recognition with descriptions (specifying classification via text instructions). We also show that MLLMs can benefit from cross-modal transfer, i.e., transfer knowledge from language to multimodal, and from multimodal to language. In addition, we introduce a dataset of Raven IQ test, which diagnoses the nonverbal reasoning capability of MLLMs.
翻訳日:2023-02-28 14:15:57 公開日:2023-02-27
# 測定誘起絡み合い相転移に対する指数的ショートカット

Exponential shortcut to measurement-induced entanglement phase transitions ( http://arxiv.org/abs/2302.14044v1 )

ライセンス: Link先を確認
Ali G. Moghaddam, Kim P\"oyh\"onen, Teemu Ojanen(参考訳) 最近発見された測定誘起量子回路の絡み合い相転移は、非平衡量子臨界の新たな例である。 本稿では,これらの遷移を変動を通じて実験的にアクセスするための高効率戦略を提案する。 サブシステムのサイズで指数関数的な数の計測を必要とするエントロピーを直接測定するのではなく,保存量の存在下でのエンタングルメント遷移へのスケーラブルなアプローチを提供する。 絡み合いエントロピーと相互情報との類似性として, 2成分と多成分の揺らぎを用いて, 測定誘起臨界性を分析する方法を示す。 注目すべきことに、位相遷移は少数の量子ビットのゆらぎを測定することで明らかにできる。

Recently discovered measurement-induced entanglement phase transitions in monitored quantum circuits provide a novel example of far-from-equilibrium quantum criticality. Here, we propose a highly efficient strategy for experimentally accessing these transitions through fluctuations. Instead of directly measuring entanglement entropy, which requires an exponential number of measurements in the subsystem size, our method provides a scalable approach to entanglement transitions in the presence of conserved quantities. In analogy to entanglement entropy and mutual information, we illustrate how bipartite and multipartite fluctuations can both be employed to analyze the measurement-induced criticality. Remarkably, the phase transition can be revealed by measuring fluctuations of only a handful of qubits.
翻訳日:2023-02-28 14:15:34 公開日:2023-02-27
# 構造的非単調変分不等式に対するシングルコール確率的漸進法:ウェイカー条件による解析の改善

Single-Call Stochastic Extragradient Methods for Structured Non-monotone Variational Inequalities: Improved Analysis under Weaker Conditions ( http://arxiv.org/abs/2302.14043v1 )

ライセンス: Link先を確認
Sayantan Choudhury, Eduard Gorbunov and Nicolas Loizou(参考訳) 近年,seg (stochastic past extragradient) やsog (stochastic progressive gradient) のような単発確率的超勾配法が注目され,様々な機械学習タスクに現れる大規模min-max最適化と変分不等式問題 (vip) を解決するための最も効率的なアルゴリズムの1つである。 しかし、その不確かさにもかかわらず、SPEG と SOG の現在の収束解析は有界な分散仮定を必要とする。 加えて、これらのメソッドの収束特性に関するいくつかの重要な質問は、ミニバッチ、効率的なステップサイズ選択、異なるサンプリング戦略下での収束保証など、まだオープンである。 本稿では,これらの問題に対処し,構造化非単調vipの2つの大きなクラスに対する収束保証を提供する。 (i)準強単調問題(強単調問題の一般化)及び (II)弱いミンティ変量不等式(モノトーンとミンティVIPの一般化) 我々は, 期待残余条件を導入し, その利点を説明し, 従来使用されていた成長条件, 期待共役性, 有界分散仮定よりも厳密に弱い境界を得るためにどのように使用できるかを示す。 この条件を満たし、定数、減少、およびステップサイズ切換ルールを含む異なるステップサイズ選択に対して、シングルコール超グレードメソッドの収束に関する理論的保証を提供する。 さらに, コンバージェンス解析は, 重要サンプリングと様々なミニバッチ戦略を特別な場合として含む任意のサンプリングパラダイムの下で行う。

Single-call stochastic extragradient methods, like stochastic past extragradient (SPEG) and stochastic optimistic gradient (SOG), have gained a lot of interest in recent years and are one of the most efficient algorithms for solving large-scale min-max optimization and variational inequalities problems (VIP) appearing in various machine learning tasks. However, despite their undoubted popularity, current convergence analyses of SPEG and SOG require a bounded variance assumption. In addition, several important questions regarding the convergence properties of these methods are still open, including mini-batching, efficient step-size selection, and convergence guarantees under different sampling strategies. In this work, we address these questions and provide convergence guarantees for two large classes of structured non-monotone VIPs: (i) quasi-strongly monotone problems (a generalization of strongly monotone problems) and (ii) weak Minty variational inequalities (a generalization of monotone and Minty VIPs). We introduce the expected residual condition, explain its benefits, and show how it can be used to obtain a strictly weaker bound than previously used growth conditions, expected co-coercivity, or bounded variance assumptions. Equipped with this condition, we provide theoretical guarantees for the convergence of single-call extragradient methods for different step-size selections, including constant, decreasing, and step-size-switching rules. Furthermore, our convergence analysis holds under the arbitrary sampling paradigm, which includes importance sampling and various mini-batching strategies as special cases.
翻訳日:2023-02-28 14:15:23 公開日:2023-02-27
# 胸部x線画像の自動診断のための知識強化事前訓練

Knowledge-enhanced Pre-training for Auto-diagnosis of Chest Radiology Images ( http://arxiv.org/abs/2302.14042v1 )

ライセンス: Link先を確認
Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 自然言語の理解と視覚認識における大規模データに基づいて事前訓練されたマルチモーダル基礎モデルの成功にもかかわらず、医学や臨床の分野では、ドメイン知識に高い要求がある医療タスクのきめ細かい認識の性質のため、まだ予備的のままである。 本稿では,胸部X線画像の自動診断のための知識強調型視覚言語事前訓練手法を提案する。 このアルゴリズムはknowledge-enhanced auto diagnostic~(kad)と呼ばれ、まず既存の医学知識グラフに基づいて知識エンコーダを訓練する。すなわち、医学概念の定義と関係の神経埋め込みを学習する。 3つの外部X線データセットに対するKADの有効性を実験的に検証した。 kadのゼロショット性能は、完全に監督されたモデルに匹敵するだけでなく、統計的に有意な3つの(5つのうちの)病理学において、3人の専門家放射線学者の平均よりも初めて優れている。 数ショットのアノテーションが利用できる場合、KADは設定の微調整において既存のすべてのアプローチを越え、異なる臨床シナリオにおけるアプリケーションの可能性を示す。

Despite of the success of multi-modal foundation models pre-trained on large-scale data in natural language understanding and vision recognition, its counterpart in medical and clinical domains remains preliminary, due to the fine-grained recognition nature of the medical tasks with high demands on domain knowledge. Here, we propose a knowledge-enhanced vision-language pre-training approach for auto-diagnosis on chest X-ray images. The algorithm, named Knowledge-enhanced Auto Diagnosis~(KAD), first trains a knowledge encoder based on an existing medical knowledge graph, i.e., learning neural embeddings of the definitions and relationships between medical concepts and then leverages the pre-trained knowledge encoder to guide the visual representation learning with paired chest X-rays and radiology reports. We experimentally validate KAD's effectiveness on three external X-ray datasets. The zero-shot performance of KAD is not only comparable to that of the fully-supervised models but also, for the first time, superior to the average of three expert radiologists for three (out of five) pathologies with statistical significance. When the few-shot annotation is available, KAD also surpasses all existing approaches in finetuning settings, demonstrating the potential for application in different clinical scenarios.
翻訳日:2023-02-28 14:14:56 公開日:2023-02-27
# 置換同変神経機能

Permutation Equivariant Neural Functionals ( http://arxiv.org/abs/2302.14040v1 )

ライセンス: Link先を確認
Allan Zhou, Kaien Yang, Kaylee Burns, Yiding Jiang, Samuel Sokota, J. Zico Kolter, Chelsea Finn(参考訳) 本研究は,神経機能ネットワーク(nfns)と呼ばれる他のニューラルネットワークの重みや勾配を処理可能なニューラルネットワークの設計を研究する。 学習された最適化、暗黙のニューラルネットワーク表現の処理、ネットワーク編集、ポリシー評価など、幅広い潜在的なアプリケーションにもかかわらず、他のネットワークの重み付けを処理する効果的なアーキテクチャを設計するための統一的な原則は少ない。 特に,隠れた層ニューロンは固有順序を持たないため,ディープフィードフォワードネットワークの重みに生じる置換対称性に注目して,対称性のレンズを通して神経機能設計にアプローチする。 これらの対称性をインダクティブバイアスとしてエンコードした、置換同変ニューラル汎関数を構築するためのフレームワークを提案する。 このフレームワークの主要なビルディングブロックは、適切なパラメータ共有スキームによって置換同変を制約するNF-Layers(神経機能層)である。 本実験では,mlpとcnnの重みを処理し,分類器の一般化予測,初期化のための「勝利チケット」スパルシティマスクの作成,暗黙的神経表現(inrs)の重みの編集といった様々なタスクにおいて,置換同変ニューラル汎関数が有効であることを見出した。 さらに、モデルと実験用のコードもhttps://github.com/allanyangzhou/nfnで提供しています。

This work studies the design of neural networks that can process the weights or gradients of other neural networks, which we refer to as neural functional networks (NFNs). Despite a wide range of potential applications, including learned optimization, processing implicit neural representations, network editing, and policy evaluation, there are few unifying principles for designing effective architectures that process the weights of other networks. We approach the design of neural functionals through the lens of symmetry, in particular by focusing on the permutation symmetries that arise in the weights of deep feedforward networks because hidden layer neurons have no inherent order. We introduce a framework for building permutation equivariant neural functionals, whose architectures encode these symmetries as an inductive bias. The key building blocks of this framework are NF-Layers (neural functional layers) that we constrain to be permutation equivariant through an appropriate parameter sharing scheme. In our experiments, we find that permutation equivariant neural functionals are effective on a diverse set of tasks that require processing the weights of MLPs and CNNs, such as predicting classifier generalization, producing "winning ticket" sparsity masks for initializations, and editing the weights of implicit neural representations (INRs). In addition, we provide code for our models and experiments at https://github.com/AllanYangZhou/nfn.
翻訳日:2023-02-28 14:14:32 公開日:2023-02-27
# ロボットマニピュレータとソフト・連続ロボットの識別可能なレンダリングによる画像に基づく姿勢推定と形状再構成

Image-based Pose Estimation and Shape Reconstruction for Robot Manipulators and Soft, Continuum Robots via Differentiable Rendering ( http://arxiv.org/abs/2302.14039v1 )

ライセンス: Link先を確認
Jingpei Lu, Fei Liu, Cedric Girerd, Michael C. Yip(参考訳) 自律システムは3d世界の動きをキャプチャし局所化するセンサーに依存しているため、計測されたデータからの状態推定はロボットに不可欠である。 ロボットのポーズやソフトロボットの形状を測定するために設計されたセンサーのうち、視覚センサーは情報量が多く、セットアップが容易でコスト効率が良いため好都合である。 最近のコンピュータビジョンの進歩により、ディープラーニングベースの方法はもはやロボットの特徴点を特定するためにマーカーを必要としない。 しかし、学習ベースの手法はデータ重視であり、それゆえにソフトでプロトタイピングのロボットには適さない。 本研究では,カメラ画像からイメージベースロボットのポーズ推定と形状復元を実現する。 本手法では,正確なロボットメッシュを必要とせず,微分可能なレンダラとプリミティブ形状を用いる。 したがって、CADモデルが入手できない、あるいは粗末なロボットに適用することができる。 パラメータ推定パイプラインは完全に微分可能である。 画像損失をバックプロパゲーションしてパラメータを更新することにより、ロボット形状とポーズを反復的に推定する。 柔らかい連続ロボットの形状再構成において,幾何学的形状プリミティブを用いる手法が高精度であり,ロボットマニピュレータの姿勢推定が可能であることを示す。

State estimation from measured data is crucial for robotic applications as autonomous systems rely on sensors to capture the motion and localize in the 3D world. Among sensors that are designed for measuring a robot's pose, or for soft robots, their shape, vision sensors are favorable because they are information-rich, easy to set up, and cost-effective. With recent advancements in computer vision, deep learning-based methods no longer require markers for identifying feature points on the robot. However, learning-based methods are data-hungry and hence not suitable for soft and prototyping robots, as building such bench-marking datasets is usually infeasible. In this work, we achieve image-based robot pose estimation and shape reconstruction from camera images. Our method requires no precise robot meshes, but rather utilizes a differentiable renderer and primitive shapes. It hence can be applied to robots for which CAD models might not be available or are crude. Our parameter estimation pipeline is fully differentiable. The robot shape and pose are estimated iteratively by back-propagating the image loss to update the parameters. We demonstrate that our method of using geometrical shape primitives can achieve high accuracy in shape reconstruction for a soft continuum robot and pose estimation for a robot manipulator.
翻訳日:2023-02-28 14:14:07 公開日:2023-02-27
# あまり頻度の低い言語でAIのパフォーマンスをテストする

Testing AI performance on less frequent aspects of language reveals insensitivity to underlying meaning ( http://arxiv.org/abs/2302.12313v2 )

ライセンス: Link先を確認
Vittoria Dentella, Elliot Murphy, Gary Marcus and Evelina Leivada(参考訳) 計算手法とビッグデータ可用性の進歩は、最近AIアプリケーションのブレークスルーに変換された。 ボトムアップの課題の成功によって、大きな言語モデルの「人間的な」パフォーマンスは、アルゴリズムが言語のパフォーマンスをどのように達成するかという問題を提起している。 多くのAIシステムにまたがる一般化における体系的な欠点を考えると、この研究では、言語性能が大規模言語モデルにおける言語知識によって実際に導かれるかどうかを問う。 この目的のために,我々はGPT-3に文法判断タスクを付与し,大規模言語モデルの学習データを構成する可能性が低い低頻度な構成について質問する。 これには、文法的な「イラストレーション」、意味的な異常、複雑なネストした階層、自己埋め込みが含まれる。 GPT-3は全てのプロンプトで失敗し、しばしば、あまり頻度の低い文法構造で使われる高周波語でさえ理解の欠如を示す回答を提供する。 この研究は、AIのような言語能力の主張の境界に光を当て、LLMの次の単語予測能力は、トレーニングデータを超えた堅牢性の問題に直面するかもしれない、と論じている。

Advances in computational methods and big data availability have recently translated into breakthroughs in AI applications. With successes in bottom-up challenges partially overshadowing shortcomings, the 'human-like' performance of Large Language Models has raised the question of how linguistic performance is achieved by algorithms. Given systematic shortcomings in generalization across many AI systems, in this work we ask whether linguistic performance is indeed guided by language knowledge in Large Language Models. To this end, we prompt GPT-3 with a grammaticality judgement task and comprehension questions on less frequent constructions that are thus unlikely to form part of Large Language Models' training data. These included grammatical 'illusions', semantic anomalies, complex nested hierarchies and self-embeddings. GPT-3 failed for every prompt but one, often offering answers that show a critical lack of understanding even of high-frequency words used in these less frequent grammatical constructions. The present work sheds light on the boundaries of the alleged AI human-like linguistic competence and argues that, far from human-like, the next-word prediction abilities of LLMs may face issues of robustness, when pushed beyond training data.
翻訳日:2023-02-28 12:19:37 公開日:2023-02-27
# 不確実性注入:ロバスト最適化のための深層学習法

Uncertainty Injection: A Deep Learning Method for Robust Optimization ( http://arxiv.org/abs/2302.12304v2 )

ライセンス: Link先を確認
Wei Cui and Wei Yu(参考訳) 本稿では,頑健な最適化問題を解決するためのディープラーニングモデルのトレーニングのための不確実性注入のパラダイムを提案する。 ディープラーニングに関する既存の研究の多くはモデル学習能力に重点を置いており、入力データの質と正確性を保証することができる。 しかし、最適化問題に対するディープラーニングの現実的な応用においては、この場合の問題パラメータである入力の精度が大きな役割を果たす。 これは、多くの場合、問題パラメータを正確に取得することは費用がかかるか、あるいは不可能な場合が多いためであり、それに応じて、入力の不確実性を考慮し、これらの不確実性に対して堅牢なソリューションを作成することができる学習アルゴリズムを開発することが好ましい。 本稿では,不確実性を暗黙的に説明し,統計的に堅牢な解を生成する機械学習モデルをトレーニングするための新しい不確実性注入方式を提案する。 さらに,無線通信を,チャネル係数などの問題パラメータに不確実性が共通するアプリケーションフィールドとして識別する。 本研究では,マルチユーザマルチインプットマルチプル出力(mimo)ダウンリンク伝送におけるロバスト電力負荷と,デバイス間通信(d2d)ネットワークにおけるロバスト電力制御について検討した。

This paper proposes a paradigm of uncertainty injection for training deep learning model to solve robust optimization problems. The majority of existing studies on deep learning focus on the model learning capability, while assuming the quality and accuracy of the inputs data can be guaranteed. However, in realistic applications of deep learning for solving optimization problems, the accuracy of inputs, which are the problem parameters in this case, plays a large role. This is because, in many situations, it is often costly or sometime impossible to obtain the problem parameters accurately, and correspondingly, it is highly desirable to develop learning algorithms that can account for the uncertainties in the input and produce solutions that are robust against these uncertainties. This paper presents a novel uncertainty injection scheme for training machine learning models that are capable of implicitly accounting for the uncertainties and producing statistically robust solutions. We further identify the wireless communications as an application field where uncertainties are prevalent in problem parameters such as the channel coefficients. We show the effectiveness of the proposed training scheme in two applications: the robust power loading for multiuser multiple-input-multiple-output (MIMO) downlink transmissions; and the robust power control for device-to-device (D2D) networks.
翻訳日:2023-02-28 12:19:18 公開日:2023-02-27
# LightCTS: 関連時系列予測のための軽量フレームワーク

LightCTS: A Lightweight Framework for Correlated Time Series Forecasting ( http://arxiv.org/abs/2302.11974v2 )

ライセンス: Link先を確認
Zhichen Lai, Dalin Zhang, Huan Li, Christian S. Jensen, Hua Lu, Yan Zhao(参考訳) 関連時系列予測(CTS)は,交通管理やサーバ負荷制御など,多くの実用アプリケーションにおいて重要な役割を担っている。 CTS予測の精度を向上させるために、多くのディープラーニングモデルが提案されている。 しかし、モデルはますます複雑で計算集約的になりつつあり、精度の向上に苦慮している。 この研究の目的は、リソース制約のあるデバイスにデプロイしながら精度を保ちながら、はるかに効率的で軽量なモデルを実現することである。 この目的を達成するために、一般的なCTS予測モデルを特徴付け、軽量CTS予測の方向を示す2つの観測結果を得る。 そこで本研究では,計算コストがはるかに高い交互積み重ねではなく,時間演算子と空間演算子の平易な積み重ねを採用するlightctsフレームワークを提案する。 さらに、LightCTSはL-TCNとGL-Formerと呼ばれる軽量時空間演算モジュールを備えており、特徴抽出能力を向上することなく計算効率を向上させる。 LightCTSはまた、余分な時間的特徴を減らし、その後の計算を高速化する最後の圧縮スキームを含んでいる。 シングルステップおよびマルチステップの予測ベンチマークデータセットによる実験では、LightCTSは計算とストレージのオーバーヘッドを大幅に削減して、ほぼ最先端の精度を実現できることが示された。

Correlated time series (CTS) forecasting plays an essential role in many practical applications, such as traffic management and server load control. Many deep learning models have been proposed to improve the accuracy of CTS forecasting. However, while models have become increasingly complex and computationally intensive, they struggle to improve accuracy. Pursuing a different direction, this study aims instead to enable much more efficient, lightweight models that preserve accuracy while being able to be deployed on resource-constrained devices. To achieve this goal, we characterize popular CTS forecasting models and yield two observations that indicate directions for lightweight CTS forecasting. On this basis, we propose the LightCTS framework that adopts plain stacking of temporal and spatial operators instead of alternate stacking that is much more computationally expensive. Moreover, LightCTS features light temporal and spatial operator modules, called L-TCN and GL-Former, that offer improved computational efficiency without compromising their feature extraction capabilities. LightCTS also encompasses a last-shot compression scheme to reduce redundant temporal features and speed up subsequent computations. Experiments with single-step and multi-step forecasting benchmark datasets show that LightCTS is capable of nearly state-of-the-art accuracy at much reduced computational and storage overheads.
翻訳日:2023-02-28 12:17:39 公開日:2023-02-27
# ctc補助目的による多言語asrの改善

Improving Massively Multilingual ASR With Auxiliary CTC Objectives ( http://arxiv.org/abs/2302.12829v2 )

ライセンス: Link先を確認
William Chen, Brian Yan, Jiatong Shi, Yifan Peng, Soumi Maiti, Shinji Watanabe(参考訳) ASR(Multilingual Automatic Speech Recognition)モデルは、音声技術の幅広い言語への使い勝手を拡大した。 しかし、これらのモデルが処理しなければならない言語がいくつあるかによって、異なる言語間で不均衡なパフォーマンスを理解する鍵は、モデルが実際にどの言語を転写すべきかを知ることである。 本稿では,言語アイデンティティ (lid) 上のモデル全体を条件付けして,オープンasrの102言語ベンチマークであるfleursの性能向上に関する研究について紹介する。 近年のコネクショニスト時間分類(CTC)研究から着想を得た手法について検討し,補助課題のLID予測を条件に,多数の言語を扱うモデルを提案する。 実験の結果,標準CTC/Attention-based hybrid modelに対する本手法の有効性が示された。 さらに、コンフォーマーアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは、相対28.4%CERによるFLEURSの先行研究よりも改善されている。 トレーニングされたモデルと再現可能なレシピは、https://github.com/espnet/espnet/tree/master/egs2/fleurs/asr1で入手できる。

Multilingual Automatic Speech Recognition (ASR) models have extended the usability of speech technologies to a wide variety of languages. With how many languages these models have to handle, however, a key to understanding their imbalanced performance across different languages is to examine if the model actually knows which language it should transcribe. In this paper, we introduce our work on improving performance on FLEURS, a 102-language open ASR benchmark, by conditioning the entire model on language identity (LID). We investigate techniques inspired from recent Connectionist Temporal Classification (CTC) studies to help the model handle the large number of languages, conditioning on the LID predictions of auxiliary tasks. Our experimental results demonstrate the effectiveness of our technique over standard CTC/Attention-based hybrid models. Furthermore, our state-of-the-art systems using self-supervised models with the Conformer architecture improve over the results of prior work on FLEURS by a relative 28.4% CER. Trained models and reproducible recipes are available at https://github.com/espnet/espnet/tree/master/egs2/fleurs/asr1 .
翻訳日:2023-02-28 12:09:42 公開日:2023-02-27
# SPADアレイに統合された固体スピンに基づく高速広視野量子センサ

Fast wide-field quantum sensor based on solid-state spins integrated with a SPAD array ( http://arxiv.org/abs/2302.12743v2 )

ライセンス: Link先を確認
Guoqing Wang, Francesca Madonini, Boning Li, Changhao Li, Jinggang Xiang, Federica Villa, Paola Cappellaro(参考訳) 多数の量子粒子を高速かつ敏感かつ並列に測定することは、センシング、計算、シミュレーション、通信といった様々な量子情報処理アプリケーションのための大規模量子プラットフォームを構築する上で重要な課題である。 CMOSセンサーとCCDカメラに基づく実験原子物理学および光学物理学における現在の量子プラットフォームは、低感度または遅い操作速度によって制限されている。 ここでは、単一光子アバランシェダイオードのアレイとダイヤモンドの固体スピン欠陥を統合し、高速な広視野量子センサを構築し、最大100〜kHzのフレームレートを達成する。 本稿では,量子システムの空間分解イメージングを行う実験装置の設計について述べる。 nvアンサンブルダイヤモンド試料を用いて,直流及び交流磁界の感知,温度,ひずみ,局所スピン密度,電荷ダイナミクスなど,いくつかの応用例が実験的に実証されている。 開発した光子検出アレイは、光学トワイザーに閉じ込められた原子アレイ、光学格子、シリコンのドナー、固体中の希土類イオンなど、他のプラットフォームにも広く適用できる。

Achieving fast, sensitive, and parallel measurement of a large number of quantum particles is an essential task in building large-scale quantum platforms for different quantum information processing applications such as sensing, computation, simulation, and communication. Current quantum platforms in experimental atomic and optical physics based on CMOS sensors and CCD cameras are limited by either low sensitivity or slow operational speed. Here we integrate an array of single-photon avalanche diodes with solid-state spin defects in diamond to build a fast wide-field quantum sensor, achieving a frame rate up to 100~kHz. We present the design of the experimental setup to perform spatially resolved imaging of quantum systems. A few exemplary applications, including sensing DC and AC magnetic fields, temperature, strain, local spin density, and charge dynamics, are experimentally demonstrated using an NV ensemble diamond sample. The developed photon detection array is broadly applicable to other platforms such as atom arrays trapped in optical tweezers, optical lattices, donors in silicon, and rare earth ions in solids.
翻訳日:2023-02-28 12:09:24 公開日:2023-02-27
# 電荷輸送による固体スピン濃度の操作

Manipulating solid-state spin concentration through charge transport ( http://arxiv.org/abs/2302.12742v2 )

ライセンス: Link先を確認
Guoqing Wang, Changhao Li, Hao Tang, Boning Li, Francesca Madonini, Faisal F Alsallom, Won Kyu Calvin Sun, Pai Peng, Federica Villa, Ju Li, Paola Cappellaro(参考訳) 固体スピン欠陥は量子センサーやシミュレータの開発にとって魅力的な候補である。 大きな欠陥アンサンブルにおけるスピンと電荷の自由度は、複雑な多体力学と量子流体力学の出現を探求する有望なプラットフォームである。 しかし、多くの興味深い性質は欠陥の密度の変化によってのみ明らかとなり、通常は物質系で固定される。 より密集した欠陥アンサンブルを作成することで相互作用強度を高めることで、デコヒーレンスも向上する。 理想的には、固定されたデコヒーレンス効果を維持しながら、自発的にスピン濃度を制御したい。 ここでは電荷輸送を利用することにより、電荷輸送と欠陥による捕獲を特徴付けると同時に、この方向への第一歩を踏み出すことができることを示す。 ダイヤモンド中のNV中心のイオン化と再結合の循環過程を利用して、価電子バンドから伝導バンドに電子を励起する。 これらの電荷は物質欠陥の電荷状態を変化させてスピン濃度を変調するために輸送される。 高速単一光子検出器アレイを組み込んだ広視野撮像装置の開発により,マイクロメートルの空間分解能でスピン浴の全スペクトルを計測し,電荷再分配過程の直接的かつ効率的なキャラクタリゼーションを実現する。 我々は、NV中心のT_2$を維持しながら、支配的スピン欠陥の2倍の濃度増加を示すとともに、超微粒子相互作用によるスピンフリップフロップの抑制の潜在的実験的実証も提供する。 我々の研究は、ハイブリッド電荷スピン系における時間的および空間的に調節可能な相互作用強度を用いた多体力学の研究の道を開いた。

Solid-state spin defects are attractive candidates for developing quantum sensors and simulators. The spin and charge degrees of freedom in large defect ensembles are a promising platform to explore complex many-body dynamics and the emergence of quantum hydrodynamics. However, many interesting properties can be revealed only upon changes in the density of defects, which instead is usually fixed in material systems. Increasing the interaction strength by creating denser defect ensembles also brings more decoherence. Ideally one would like to control the spin concentration at will, while keeping fixed decoherence effects. Here we show that by exploiting charge transport, we can take some first steps in this direction, while at the same time characterizing charge transport and its capture by defects. By exploiting the cycling process of ionization and recombination of NV centers in diamonds, we pump electrons from the valence band to the conduction band. These charges are then transported to modulate the spin concentration by changing the charge state of material defects. By developing a wide-field imaging setup integrated with a fast single photon detector array, we achieve a direct and efficient characterization of the charge redistribution process by measuring the complete spectrum of the spin bath with micrometer-scale spatial resolution. We demonstrate the concentration increase of the dominant spin defects by a factor of 2 while keeping the $T_2$ of the NV center, which also provides a potential experimental demonstration of the suppression of spin flip-flops via hyperfine interactions. Our work paves the way to studying many-body dynamics with temporally and spatially tunable interaction strengths in hybrid charge-spin systems.
翻訳日:2023-02-28 12:09:07 公開日:2023-02-27
# 貯留層に基づく単原子ツイーザアレイの定性負荷

Reservoir-based deterministic loading of single-atom tweezer arrays ( http://arxiv.org/abs/2302.12730v2 )

ライセンス: Link先を確認
Lars Pause, Tilman Preuschoff, Dominik Sch\"affner, Malte Schlosser, Gerhard Birkl(参考訳) 最先端の個別原子トウェザープラットフォームはこれまで、トウェザーアレイを事前に作成された冷原子の雲で空間的に重ね合わせることに基づくローディングスキームに依存している。 永続的な原子損失とともに、磁気光学トラップやレーザー冷却の時間消費相とアプリケーションシーケンスを交換する必要があるため、データレートが劇的に制限される。 本稿では,追加の冷原子貯留層と,量子登録操作から冷原子蓄積と単一原子供給を効果的に分離するバッファトラップを用いたモジュール方式を提案する。 この目的のために,マイクロレンズを用いたtweezerアレイと,補助大焦点双極子トラップに保持されるレーザー冷却原子の雲を,専用単一原子供給のための原子輸送とバッファトラップを用いて接続する。 本研究では,貯水池トラップのみ由来の原子を含むヘキサゴナルターゲット構造の決定論的負荷を示す。 その結果、データレートの向上と量子科学における個々の原子ツイーザーアレイの連続的な操作への道の開きが、並列かつ空間的に分離された独立した機能モジュールを用いて行われる。

State-of-the-art individual-atom tweezer platforms so far rely on loading schemes based on spatially superimposing the tweezer array with a cloud of cold atoms created beforehand. Together with immanent atom loss, this dramatically limits the data rate as the application sequence has to be alternated with the time-consuming phases of magneto-optical trapping and laser cooling. We introduce a modular scheme built on an additional cold-atom reservoir and an array of buffer traps effectively decoupling cold-atom accumulation and single-atom supply from the quantum-register operation. For this purpose, we connect a microlens-based tweezer array to a cloud of laser-cooled atoms held in an auxiliary large-focus dipole trap by utilizing atom transport and buffer traps for dedicated single-atom supply. We demonstrate deterministic loading of a hexagonal target structure with atoms solely originating from the reservoir trap. The results facilitate increased data rates and unlock a path to continuous operation of individual-atom tweezer arrays in quantum science making use of discrete functional modules, operated in parallel and spatially separated.
翻訳日:2023-02-28 12:08:38 公開日:2023-02-27
# 思慮深い友情に関する友好思想

Friendly thoughts on thoughtful friendliness ( http://arxiv.org/abs/2302.12707v2 )

ライセンス: Link先を確認
Adrian Kent (Centre for Quantum Information and Foundations, DAMTP, University of Cambridge and Perimeter Institute for Theoretical Physics, Canada)(参考訳) wiseman, cavalcanti および rieffel の local friendliness no-go theorem と彼らがローカルfriendliness inequality をテストする実験プログラムについて論じる。 この定理を証明するためには、仮定は実験の異なる段階に存在する思慮的エージェントの変数数の可能性を排除するために強化する必要があると論じる。 さらに、量子論の一世界のバージョンでさえ、この可能性は自然に起こるかもしれないと論じる。 また,「意識」や「意識的思考」によって「思考」を置き換える必要があることを示唆し,その正当性は「思考」を「意識」や「意識的思考」に置き換える必要があることを示唆する。

We discuss Wiseman, Cavalcanti and Rieffel's "thoughtful" local friendliness no-go theorem and the experimental programme they propose to test local friendliness inequalities. We argue that, to prove the theorem, the assumptions need to be strengthened to exclude the possibility of variable numbers of thoughtful agents existing in different phases of the experiment. We argue further that this possibility may arise naturally, even in one-world versions of quantum theory. We also query whether the motivations they give for their assumptions hold up well under their definition of "thoughtfulness" as displaying human-level cognitive ability, and suggest that their justification requires replacing "thoughtfulness" by "consciousness" or "conscious thoughtfulness".
翻訳日:2023-02-28 12:08:15 公開日:2023-02-27
# 認知処理複雑性の言語間伝達

Cross-Lingual Transfer of Cognitive Processing Complexity ( http://arxiv.org/abs/2302.12695v2 )

ライセンス: Link先を確認
Charlotte Pouw, Nora Hollenstein, Lisa Beinborn(参考訳) 人間がテキストを読むと、その目の動きは入力文の構造的複雑さに影響される。 この認知現象は言語をまたいだものであり、近年の研究は言語間の構造的類似性を利用して言語間移動を促進することを示唆している。 文レベルの目追跡パターンを構造的複雑さの認知指標として使用し,多言語モデル XLM-RoBERTa が,英語データのみに微調整されているにもかかわらず,13言語で様々なパターンを予測できることを示す。 モデルの構造的複雑性に対する感度を定量化し,様々な複雑性特性を識別する。 本モデルは文長に対して有意なバイアスを生じさせるが,言語間差異も統合することを示す。 ランダムな単語順序で制御実験を行い、さらに複雑な構造情報を取得するように思われる。

When humans read a text, their eye movements are influenced by the structural complexity of the input sentences. This cognitive phenomenon holds across languages and recent studies indicate that multilingual language models utilize structural similarities between languages to facilitate cross-lingual transfer. We use sentence-level eye-tracking patterns as a cognitive indicator for structural complexity and show that the multilingual model XLM-RoBERTa can successfully predict varied patterns for 13 typologically diverse languages, despite being fine-tuned only on English data. We quantify the sensitivity of the model to structural complexity and distinguish a range of complexity characteristics. Our results indicate that the model develops a meaningful bias towards sentence length but also integrates cross-lingual differences. We conduct a control experiment with randomized word order and find that the model seems to additionally capture more complex structural information.
翻訳日:2023-02-28 12:07:59 公開日:2023-02-27
# 言語モデルによる予後予測

Language Models are Few-shot Learners for Prognostic Prediction ( http://arxiv.org/abs/2302.12692v2 )

ライセンス: Link先を確認
Zekai Chen and Mariann Micsinai Balan and Kevin Brown(参考訳) 臨床予測は医療業界で不可欠な課題である。 しかし、大規模な言語モデルが構築された最近のトランスフォーマーの成功は、この領域に拡張されていない。 本研究では,実際の患者の臨床データと分子プロファイルを用いた免疫療法の予後予測におけるトランスフォーマーと言語モデルの利用について検討する。 本稿では,従来の機械学習手法と比較して,トランスフォーマーによる臨床予測の改善の可能性について検討し,まれな疾患領域の予測における数発学習の課題に対処する。 この研究は、複数のがんタイプにわたる予後予測におけるベースラインと言語モデルの有効性をベンチマークし、数ショット体制下で異なる事前訓練された言語モデルの影響を調査する。 その結果,NLPの精度は有意に向上し,臨床研究におけるNLPの早期発見と異なる疾患に対する介入の改善の可能性を強調した。 匿名コードは \url{https://anonymous.4open.science/r/table2text-88ED} で入手できる。

Clinical prediction is an essential task in the healthcare industry. However, the recent success of transformers, on which large language models are built, has not been extended to this domain. In this research, we explore the use of transformers and language models in prognostic prediction for immunotherapy using real-world patients' clinical data and molecular profiles. This paper investigates the potential of transformers to improve clinical prediction compared to conventional machine learning approaches and addresses the challenge of few-shot learning in predicting rare disease areas. The study benchmarks the efficacy of baselines and language models on prognostic prediction across multiple cancer types and investigates the impact of different pretrained language models under few-shot regimes. The results demonstrate significant improvements in accuracy and highlight the potential of NLP in clinical research to improve early detection and intervention for different diseases. Anonymous codes are available at \url{https://anonymous.4open.science/r/table2text-88ED}.
翻訳日:2023-02-28 12:07:44 公開日:2023-02-27
# ゲーム業界の専門家によるテキスト・画像生成AIの認識・採用・利用

"An Adapt-or-Die Type of Situation": Perception, Adoption, and Use of Text-To-Image-Generation AI by Game Industry Professionals ( http://arxiv.org/abs/2302.12601v2 )

ライセンス: Link先を確認
Veera Vimpari, Annakaisa Kultima, Perttu H\"am\"al\"ainen, Christian Guckelsberger(参考訳) クリエイティブAIに最近追加されたTTIG(Text-to-image Generation)モデルは、テキスト記述に基づいて画像を生成することができる。 これらのモデルは、プロのクリエイティブな作品に匹敵し始め、創造的な仕事の未来、失業、著作権問題など、重要な意味を持つ議論を巻き起こした。 TTIGの持続可能な採用を支援するためには、専門家がTTIGをどのように認識し、採用し、利用しているかについて、豊かで信頼性が高く透明な洞察を提供する必要がある。 しかし、公共の議論は浅く、狭く、透明性を欠いている一方で、学術的な研究は一般の芸術家におけるティグの使用についての研究に焦点をあてているが、特定の産業における専門家の認識や態度には焦点を当てていない。 本稿では,フィンランドのビデオゲーム産業におけるTTIGに関する質的,探索的なインタビュー研究に貢献する。 14人のゲーム専門家による半構造化インタビューのテンプレート分析により,専門家の認識,ttigシステムの採用,利用に関する49のサブテーマからなる12のオーバーアーキシングテーマが明らかにされた。 役割や創造的プロセスの変化を経験して、私たちの参加者のリフレクションは、業界内での議論を伝え、政策立案者によって緊急に必要な法律を通知し、ゲームやHCI、AIの研究者を支援し、TTIGの持続可能なプロフェッショナルな使用を支援し、文化的な成果物として人々やゲームに恩恵を与えることができます。

Text-to-image generation (TTIG) models, a recent addition to creative AI, can generate images based on a text description. These models have begun to rival the work of professional creatives, and sparked discussions on the future of creative work, loss of jobs, and copyright issues, amongst other important implications. To support the sustainable adoption of TTIG, we must provide rich, reliable and transparent insights into how professionals perceive, adopt and use TTIG. Crucially though, the public debate is shallow, narrow and lacking transparency, while academic work has focused on studying the use of TTIG in a general artist population, but not on the perceptions and attitudes of professionals in a specific industry. In this paper, we contribute a qualitative, exploratory interview study on TTIG in the Finnish videogame industry. Through a Template Analysis on semi-structured interviews with 14 game professionals, we reveal 12 overarching themes, structured into 49 sub-themes on professionals' perception, adoption and use of TTIG systems in games industry practice. Experiencing (yet another) change of roles and creative processes, our participants' reflections can inform discussions within the industry, be used by policymakers to inform urgently needed legislation, and support researchers in games, HCI and AI to support the sustainable, professional use of TTIG to benefit people and games as cultural artefacts.
翻訳日:2023-02-28 12:07:29 公開日:2023-02-27
# EvoTorch: Pythonのスケーラブルな進化計算

EvoTorch: Scalable Evolutionary Computation in Python ( http://arxiv.org/abs/2302.12600v2 )

ライセンス: Link先を確認
Nihat Engin Toklu, Timothy Atkinson, Vojt\v{e}ch Micka, Pawe{\l} Liskowski, Rupesh Kumar Srivastava(参考訳) 進化計算は、人工知能研究、強化学習、ロボット工学、産業自動化および/または最適化、エンジニアリング設計など、様々な分野において重要な要素である。 計算要求の増大と現代の最適化問題の次元性を考えると、スケーラブルで再利用可能な、実用的な進化的アルゴリズムの実装の必要性が高まっている。 この要件に対処するために、EvoTorch:GPUサポートと高並列化機能を備えた高次元最適化問題で動作するように設計された進化計算ライブラリを提案する。 EvoTorchはPyTorchライブラリをベースとしてシームレスに動作するため、ユーザはよく知られたAPIを使用して最適化問題を定義することができる。

Evolutionary computation is an important component within various fields such as artificial intelligence research, reinforcement learning, robotics, industrial automation and/or optimization, engineering design, etc. Considering the increasing computational demands and the dimensionalities of modern optimization problems, the requirement for scalable, re-usable, and practical evolutionary algorithm implementations has been growing. To address this requirement, we present EvoTorch: an evolutionary computation library designed to work with high-dimensional optimization problems, with GPU support and with high parallelization capabilities. EvoTorch is based on and seamlessly works with the PyTorch library, and therefore, allows the users to define their optimization problems using a well-known API.
翻訳日:2023-02-28 12:06:59 公開日:2023-02-27
# 実劣化画像に対するブラインド超解像とクラックセグメンテーションの連成学習

Joint Learning of Blind Super-Resolution and Crack Segmentation for Realistic Degraded Images ( http://arxiv.org/abs/2302.12491v2 )

ライセンス: Link先を確認
Yuki Kondo and Norimichi Ukita(参考訳) 本稿では,深層ニューラルネットワークを用いた超解像(SR)によるき裂分割を提案する。 提案手法では,SRネットワークとバイナリセグメンテーションネットワークを協調的にエンドツーエンドにトレーニングする。 この共同学習により、SRネットワークはセグメンテーション結果を改善するために最適化される。 現実的なシナリオでは、SRネットワークは未知のぼやけによって劣化した低解像度の画像を処理するために、非盲点から盲点へと拡張される。 提案する2つの経路により,srとセグメンテーションの相互最適化をさらに促進するジョイントネットワークを改良した。 sotaセグメンテーション法との比較実験により,関節学習の優位性が示され,様々なアブレーション研究が貢献の効果を証明した。

This paper proposes crack segmentation augmented by super resolution (SR) with deep neural networks. In the proposed method, a SR network is jointly trained with a binary segmentation network in an end-to-end manner. This joint learning allows the SR network to be optimized for improving segmentation results. For realistic scenarios, the SR network is extended from non-blind to blind for processing a low-resolution image degraded by unknown blurs. The joint network is improved by our proposed two extra paths that further encourage the mutual optimization between SR and segmentation. Comparative experiments with SoTA segmentation methods demonstrate the superiority of our joint learning, and various ablation studies prove the effects of our contributions.
翻訳日:2023-02-28 12:06:47 公開日:2023-02-27