このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20230212)

# 効率的な種検出のためのLiT調整モデル

LiT Tuned Models for Efficient Species Detection ( http://arxiv.org/abs/2302.10281v1 )

ライセンス: Link先を確認
Andre Nakkab, Benjamin Feuer, Chinmay Hegde(参考訳) 近年の視覚言語モデルの訓練は、前例のない堅牢性と伝達学習の有効性を示したが、標準的なコンピュータビジョンデータセットは画像のみであり、そのためそのような訓練方法には適していない。 本稿では,分散視覚言語事前学習のための細粒度画像分類データセットを適用するための簡易な手法を提案する。 この手法を1万クラスにまたがる約270万枚のマクロ組織画像からなる挑戦的なinaturalist-2021データセットに実装し,ゼロショット分類精度の観点から新たな最先端技術モデルを実現する。 驚くべきことに、我々のモデル(ロックイメージテキストチューニングと呼ばれる新しい手法を用いてトレーニングされた)は、事前訓練された凍結された視覚表現を使用し、言語アライメントだけで、フラクチャリで長い尾のデータセットでさえ、強力なトランスファー学習性能を達成できることを証明する。 本手法は, 高品質な視覚言語事前学習モデルを, 種検出に関わる農業関連応用に活用するための扉を開く。

Recent advances in training vision-language models have demonstrated unprecedented robustness and transfer learning effectiveness; however, standard computer vision datasets are image-only, and therefore not well adapted to such training methods. Our paper introduces a simple methodology for adapting any fine-grained image classification dataset for distributed vision-language pretraining. We implement this methodology on the challenging iNaturalist-2021 dataset, comprised of approximately 2.7 million images of macro-organisms across 10,000 classes, and achieve a new state-of-the art model in terms of zero-shot classification accuracy. Somewhat surprisingly, our model (trained using a new method called locked-image text tuning) uses a pre-trained, frozen vision representation, proving that language alignment alone can attain strong transfer learning performance, even on fractious, long-tailed datasets. Our approach opens the door for utilizing high quality vision-language pretrained models in agriculturally relevant applications involving species detection.
翻訳日:2023-02-26 14:27:07 公開日:2023-02-12
# コントラスト学習と属性・アソシエーションの創発

Contrastive Learning and the Emergence of Attributes Associations ( http://arxiv.org/abs/2302.10763v1 )

ライセンス: Link先を確認
Daniel N. Nissani (Nissensohn)(参考訳) オブジェクトの提示に対して、教師付き学習スキームは概して同義的なラベルで応答する。 同様のプレゼンテーションを行うと、人間はラベルで再び反応するが、同時に無数の関連によって浸水する。 これらの大部分は、提示されたオブジェクト属性から成っている。 コントラスト学習(Contrastive Learning)は、オブジェクトの入力表現に対するID保存変換の適用に基づく半教師付き学習方式である。 この研究において、これらの同じ応用変換は、提示された対象の同一性に加えて、意味論的に意味のある属性の同一性を保持すると推測されている。 このような対照的な学習スキームの出力表現は、提示された対象の分類だけでなく、興味のある属性の存在や不在の判断のための貴重な情報を含む。 このアイデアとこの予想の実現可能性を示すシミュレーション結果が提示される。

In response to an object presentation, supervised learning schemes generally respond with a parsimonious label. Upon a similar presentation we humans respond again with a label, but are flooded, in addition, by a myriad of associations. A significant portion of these consist of the presented object attributes. Contrastive learning is a semi-supervised learning scheme based on the application of identity preserving transformations on the object input representations. It is conjectured in this work that these same applied transformations preserve, in addition to the identity of the presented object, also the identity of its semantically meaningful attributes. The corollary of this is that the output representations of such a contrastive learning scheme contain valuable information not only for the classification of the presented object, but also for the presence or absence decision of any attribute of interest. Simulation results which demonstrate this idea and the feasibility of this conjecture are presented.
翻訳日:2023-02-26 14:07:28 公開日:2023-02-12
# 回折型光ニューラルネットワークによる科学計算

Scientific Computing with Diffractive Optical Neural Networks ( http://arxiv.org/abs/2302.10905v1 )

ライセンス: Link先を確認
Ruiyang Chen, Yingheng Tang, Jianzhu Ma, Weilu Gao(参考訳) DNN(Diffractive Optical Neural Network)は、全光学機械学習(ML)をマシンビジョンシステムで実行する、高スループットでエネルギー効率のハードウェアプラットフォームとして登場している。 しかし、現在実証されているDONNの応用は、画像分類タスクがほとんどで、このようなハードウェアを他のMLアプリケーションで開発・活用する可能性を損なう。 本稿では,2次元量子物質合成の導出,ナノマテリアルと小分子癌薬の特性の予測,ナノパターン集積型フォトニックパワースプリッタのデバイス応答の予測,強化学習による倒立振子の動的安定化など,科学計算のための全光再構成DONNシステムの導入を数値解析および実験的に実証する。 入力データ構造は多種多様であるが,donnシステムで処理可能な画像にカテゴリ的入力特徴を変換するための普遍的特徴工学的手法を開発した。 この結果から,幅広いMLアプリケーションにDONNシステムを採用する新たな機会が開けた。

Diffractive optical neural networks (DONNs) have been emerging as a high-throughput and energy-efficient hardware platform to perform all-optical machine learning (ML) in machine vision systems. However, the current demonstrated applications of DONNs are largely straightforward image classification tasks, which undermines the prospect of developing and utilizing such hardware for other ML applications. Here, we numerically and experimentally demonstrate the deployment of an all-optical reconfigurable DONNs system for scientific computing, including guiding two-dimensional quantum material synthesis, predicting the properties of nanomaterials and small molecular cancer drugs, predicting the device response of nanopatterned integrated photonic power splitters, and the dynamic stabilization of an inverted pendulum with reinforcement learning. Despite a large variety of input data structures, we develop a universal feature engineering approach to convert categorical input features to the images that can be processed in the DONNs system. Our results open up new opportunities of employing DONNs systems for a broad range of ML applications.
翻訳日:2023-02-26 13:41:52 公開日:2023-02-12
# 医療における深層学習 : 深層分析

Deep Learning in Healthcare: An In-Depth Analysis ( http://arxiv.org/abs/2302.10904v1 )

ライセンス: Link先を確認
Farzan Shenavarmasouleh, Farid Ghareh Mohammadi, Khaled M. Rasheed, Hamid R. Arabnia(参考訳) ディープラーニング(DL)と計算処理とクラウド技術の進歩は、過去10年間に私たちを強力な分析ツールや技術として与え、それらをさまざまな分野の研究に利用し、応用することを可能にしました。 健康情報学は例外ではなく、逆に、今日の時代に最も多くのデータを生成し、DLから最も恩恵を受けることができる分野である。 大量の生データから機能を抽出し、複雑なパターンを見つけ、それらを知識に変えることは難しい作業です。 さらに、長年にわたって異なる問題に取り組むために様々なDLアーキテクチャが提案されてきた。 本稿では,dlモデルとそのアーキテクチャによって分類されたバイオインフォマティクスと医療への応用について概観する。 さらに、dl研究の実施中にまだ存在する重要な課題のいくつかについても取り上げています。

Deep learning (DL) along with never-ending advancements in computational processing and cloud technologies have bestowed us powerful analyzing tools and techniques in the past decade and enabled us to use and apply them in various fields of study. Health informatics is not an exception, and conversely, is the discipline that generates the most amount of data in today's era and can benefit from DL the most. Extracting features and finding complex patterns from a huge amount of raw data and transforming them into knowledge is a challenging task. Besides, various DL architectures have been proposed by researchers throughout the years to tackle different problems. In this paper, we provide a review of DL models and their broad application in bioinformatics and healthcare categorized by their architecture. In addition, we also go over some of the key challenges that still exist and can show up while conducting DL research.
翻訳日:2023-02-26 13:41:33 公開日:2023-02-12
# ビシミュレーションメトリクスを用いたクラスタリングによるロバスト表現学習 : 注意をそらす視覚強化学習

Robust Representation Learning by Clustering with Bisimulation Metrics for Visual Reinforcement Learning with Distractions ( http://arxiv.org/abs/2302.12003v1 )

ライセンス: Link先を確認
Qiyuan Liu, Qi Zhou, Rui Yang, Jie Wang(参考訳) 近年の研究では、ピクセルからのサンプル効率強化学習(rl)において、表現学習が重要な役割を果たすことが示されている。 残念ながら、現実のシナリオでは、表象学習は通常、背景や視点の変化のようなタスク非関連の注意散らしに対して脆弱であり、この問題に対処するために、潜時空間における視覚的観察をグループ化することで、堅牢な表現を学習する、新しいクラスタリングベースのアプローチ、すなわち、シミュレーションメトリックによるクラスタリング(CBM)を提案する。 特にCBMは,(1)バイシミュレート距離を測定して観測をグループ化すること,(2)現在のクラスタ割り当てに従ってプロトタイプの集合を学習すること,の2つのステップを交互に行う。 バイシミュレーションメトリクスを用いたクラスタ割り当ての計算により、CBMは、バイシミュレーションメトリクスが観察間の振る舞いの類似性を定量化するので、タスク関連情報をキャプチャできる。 さらに、CBMは各グループ内の表現の一貫性を奨励し、タスク関連情報をフィルタリングし、乱れに対して堅牢な表現を誘導する。 実験により、CBMは一般的な視覚的RLアルゴリズムのサンプル効率を著しく改善し、複数対1の散逸設定で最先端の性能を達成できることが示された。 コードはhttps://github.com/MIRALab-USTC/RL-CBMで入手できる。

Recent work has shown that representation learning plays a critical role in sample-efficient reinforcement learning (RL) from pixels. Unfortunately, in real-world scenarios, representation learning is usually fragile to task-irrelevant distractions such as variations in background or viewpoint.To tackle this problem, we propose a novel clustering-based approach, namely Clustering with Bisimulation Metrics (CBM), which learns robust representations by grouping visual observations in the latent space. Specifically, CBM alternates between two steps: (1) grouping observations by measuring their bisimulation distances to the learned prototypes; (2) learning a set of prototypes according to the current cluster assignments. Computing cluster assignments with bisimulation metrics enables CBM to capture task-relevant information, as bisimulation metrics quantify the behavioral similarity between observations. Moreover, CBM encourages the consistency of representations within each group, which facilitates filtering out task-irrelevant information and thus induces robust representations against distractions. An appealing feature is that CBM can achieve sample-efficient representation learning even if multiple distractions exist simultaneously.Experiments demonstrate that CBM significantly improves the sample efficiency of popular visual RL algorithms and achieves state-of-the-art performance on both multiple and single distraction settings. The code is available at https://github.com/MIRALab-USTC/RL-CBM.
翻訳日:2023-02-26 13:12:09 公開日:2023-02-12
# 原子-光コヒーレントカップリングによる材料の光浄化

Optical purification of materials based on atom-light coherent coupling ( http://arxiv.org/abs/2204.02867v3 )

ライセンス: Link先を確認
Wenxi Lai(参考訳) 本稿では, 化学元素の精密精製のための光学的手法について紹介する。 これらの物質は、浄化中に外部の進行光とコヒーレントに結合したガスビームの状態にあると考えられている。 デコヒーレンスが起こる前に、原子は周期的に光の中を移動し、質量や光遷移波の長さに依存する。 速度勾配は異なる方向の異なる原子の偏向をもたらす。 このモデルは解析結果を持つschr\"{o}dinger方程式によって記述される。 この方法は、原子コヒーレント時間の状態に応じて、分離しにくい原子や同位体に使用できる。 本研究は、低温原子技術の原子や分子の浄化への応用のためのプラットフォームを開く。

An optical method for precise purification of chemical elements is introduced in this paper. The materials are supposed to be in the states of gaseous beams, which are coherently coupled to an external traveling light during purification. Before decoherence occurs, atoms periodically move in the light with different speeds that depends on masses and optical transition wave lengths of these atoms. The speed gradient leads to deflections of different atoms in different directions. The model is described by Schr\"{o}dinger equations with analytical results. This method could be used for some hardly separable atoms and isotopes depending on the condition of atom coherent time. The present work opens a platform for applications of cold atom technology in the purification of atoms and molecules.
翻訳日:2023-02-18 02:52:18 公開日:2023-02-12
# 単一進行波光による光シュテルン・ガーラッハ効果

Optical Stern-Gerlach effect via a single traveling-wave light ( http://arxiv.org/abs/2204.02864v5 )

ライセンス: Link先を確認
Haihu Cui and Wenxi Lai(参考訳) 本稿では,アルカリ-地球単一原子の時計遷移と進行波光とのコヒーレント結合に基づく光スターン-ゲルラッハ効果の簡易モデルを提案する。 原子偏向におけるスピン軌道結合誘起キラル運動は、強い原子-光相互作用下で現れることが示されている。 強い光駆動は、コヒーレントシステムにアクセスするためにドップラー効果とバックアクション効果から摂動を除去する。 このプロセスでは、原子内部状態の任意の分布に接続された遠方物質波の重畳を予測することができ、原子干渉法や量子状態演算の実現に重要である。 原子緩和と原子-原子相互作用の影響について述べる。 本研究の最後には, 実験設計の基本条件について述べる。

In this paper, we propose a simplified model of optical Stern-Gerlach effect based on coherent coupling between clock transition of alkaline-earth single atoms and a traveling-wave light. It is demonstrated that spin-orbit coupling induced chiral motion in atom deflection appears under the strong atom-light interaction. The strong optical driving removes perturbation from the Doppler effect and back action effect to access the coherent system. In this process, superposition of distant matter waves connected to the arbitrary distribution of atom internal state could be predicted, which is important for the realization of atom interferometry and quantum state operation. The influence from atom relaxation and atom-atom interactions are discussed. Basic conditions of experimental design are given in the end of this work.
翻訳日:2023-02-18 02:52:09 公開日:2023-02-12
# 仮想ダイナミクスによる3次元分子生成

3D Molecular Generation via Virtual Dynamics ( http://arxiv.org/abs/2302.05847v1 )

ライセンス: Link先を確認
Shuqi Lu, Lin Yao, Xi Chen, Hang Zheng, Di He, Guolin Ke(参考訳) 構造に基づく薬物設計、すなわち標的タンパク質ポケットに高い親和性を持つ分子を見つけることは、薬物発見において最も重要な課題の1つである。 仮想スクリーニングのような従来のソリューションでは、大きな分子データベースを徹底的に検索する必要があるが、これは非効率であり、データベースを超えて新しい分子を返すことはできない。 ポケットベースの3d分子生成モデル、すなわち、ポケットに3d構造と結合位置を持つ分子を直接生成することは、この問題に対処する新しい有望な方法である。 本稿では,ポケットベースの新しい3D分子生成パイプラインであるVD-Genを提案する。 VD-Genは、ポケットキャビティの終端に結合位置を持つ微細な3D分子を生成するために、慎重に設計されたいくつかの段階で構成されている。 VD-Genでは、最初にポケット内の多くの仮想粒子をランダムに初期化し、次にこれらの仮想粒子を反復的に移動させ、仮想粒子の分布を分子原子の分布に近似させる。 仮想粒子が3d空間で安定化した後、3d分子を抽出する。 最後に, 抽出した分子中の原子を反復移動により再精製し, 高品質な3D分子を得るとともに, その信頼性を推算する。 ポケットベースの分子生成に関する大規模な実験により、VD-Genは標的のポケット腔を高い結合親和性で満たす新しい3D分子を生成できることが示された。

Structure-based drug design, i.e., finding molecules with high affinities to the target protein pocket, is one of the most critical tasks in drug discovery. Traditional solutions, like virtual screening, require exhaustively searching on a large molecular database, which are inefficient and cannot return novel molecules beyond the database. The pocket-based 3D molecular generation model, i.e., directly generating a molecule with a 3D structure and binding position in the pocket, is a new promising way to address this issue. Herein, we propose VD-Gen, a novel pocket-based 3D molecular generation pipeline. VD-Gen consists of several carefully designed stages to generate fine-grained 3D molecules with binding positions in the pocket cavity end-to-end. Rather than directly generating or sampling atoms with 3D positions in the pocket like in early attempts, in VD-Gen, we first randomly initialize many virtual particles in the pocket; then iteratively move these virtual particles, making the distribution of virtual particles approximate the distribution of molecular atoms. After virtual particles are stabilized in 3D space, we extract a 3D molecule from them. Finally, we further refine atoms in the extracted molecule by iterative movement again, to get a high-quality 3D molecule, and predict a confidence score for it. Extensive experiment results on pocket-based molecular generation demonstrate that VD-Gen can generate novel 3D molecules to fill the target pocket cavity with high binding affinities, significantly outperforming previous baselines.
翻訳日:2023-02-16 16:45:24 公開日:2023-02-12
# トランスフォーマーモデル:導入とカタログ

Transformer models: an introduction and catalog ( http://arxiv.org/abs/2302.07730v1 )

ライセンス: Link先を確認
Xavier Amatriain(参考訳) ここ数年、私たちはTransformerファミリーの何十ものモデルの隕石が出現しているのを見てきました。 本稿の目的は,最もポピュラーなトランスフォーマーモデルの包括的かつ単純なカタログと分類を提供することである。 論文には、Transformerモデルにおける最も重要な側面とイノベーションの紹介も含まれている。

In the past few years we have seen the meteoric appearance of dozens of models of the Transformer family, all of which have funny, but not self-explanatory, names. The goal of this paper is to offer a somewhat comprehensive but simple catalog and classification of the most popular Transformer models. The paper also includes an introduction to the most important aspects and innovation in Transformer models.
翻訳日:2023-02-16 14:40:25 公開日:2023-02-12
# AIDA: 部分整合ドメイン適応による非専門的ファクト記述に対する法的判断予測

AIDA: Legal Judgment Predictions for Non-Professional Fact Descriptions via Partial-and-Imbalanced Domain Adaptation ( http://arxiv.org/abs/2302.07728v1 )

ライセンス: Link先を確認
Guangyi Xiao, Xinlong Liu, Hao Chen, Jingzhi Guo and Zhiguo Gong(参考訳) 本稿では,不均衡なソースドメインから部分的ターゲットドメインへの法的ドメイン適応問題について検討する。 本課題は,非専門的事実記述に対する法的判断の予測を改善することである。 我々はこのタスクを部分不均衡領域適応問題として定式化する。 ディープドメイン適応は多くの教師なしドメイン適応タスクで最先端の性能を達成している。 しかし、非共有クラスにおけるサンプルの負の転送のため、現在のドメイン適応モデルが部分的不均衡な転送問題を解決することは困難である。 本研究では、この制限に対処するために階層重み付け適応を用いたソース領域における大規模非共有クラスデータについて検討する。 本稿では,非共有クラスから共有クラスへの共有クラスへの共有クラス知識を共同で借用し,さらにソースドメインから対象ドメインへの共有クラス知識の伝達を可能にする,新しいpArtial Im Balanced Domain Adaptation Technique (AIDA) をディープラーニングモデルに組み込むことを提案する。 実験の結果,我々のモデルは最先端のアルゴリズムよりも優れていた。

In this paper, we study the problem of legal domain adaptation problem from an imbalanced source domain to a partial target domain. The task aims to improve legal judgment predictions for non-professional fact descriptions. We formulate this task as a partial-and-imbalanced domain adaptation problem. Though deep domain adaptation has achieved cutting-edge performance in many unsupervised domain adaptation tasks. However, due to the negative transfer of samples in non-shared classes, it is hard for current domain adaptation model to solve the partial-and-imbalanced transfer problem. In this work, we explore large-scale non-shared but related classes data in the source domain with a hierarchy weighting adaptation to tackle this limitation. We propose to embed a novel pArtial Imbalanced Domain Adaptation technique (AIDA) in the deep learning model, which can jointly borrow sibling knowledge from non-shared classes to shared classes in the source domain and further transfer the shared classes knowledge from the source domain to the target domain. Experimental results show that our model outperforms the state-of-the-art algorithms.
翻訳日:2023-02-16 14:39:40 公開日:2023-02-12
# チームトリプルチェック factify 2:マルチモーダルファクト検証のための特徴表現を備えたパラメータ効率の高い大規模ファンデーションモデル

Team Triple-Check at Factify 2: Parameter-Efficient Large Foundation Models with Feature Representations for Multi-Modal Fact Verification ( http://arxiv.org/abs/2302.07740v1 )

ライセンス: Link先を確認
Wei-Wei Du, Hong-Wei Wu, Wei-Yao Wang, Wen-Chih Peng(参考訳) 近年,ニュースコンテンツの誤報におけるテキストと画像のミスマッチにより,マルチモーダルな事実検証がソーシャルメディア上で重要だが難しい問題となっている。 本稿では,細粒度テキストと入力埋め込みを軽量化パラメータでモデル化する新たなパラメータ効率の高い基礎モデルと,異なるモーダリティと異なるタイプ(クレームとドキュメント)の関係をキャプチャするマルチモーダルマルチタイプの融合と,各サンプルにメタデータを明示的に提供するための特徴表現を備えた,プレコファクトv2フレームワークを提案する。 また,各モデルの重要性を重みだけでなくパワーも調整することにより,モデル性能を向上させる統一的なアンサンブル手法を提案する。 大規模な実験により、Pre-CoFactv2はPre-CoFactを大きなマージンで上回り、AAAI 2023のFactifyチャレンジで新しい最先端の結果を得た。 さらに,様々なコンポーネントの相対的貢献を検証するために,モデルのバリエーションについて述べる。 私たちのチームは最初の賞(F1スコア:81.82%)を獲得し、コードをhttps://github.com/wwweiwei/Pre-CoFactv2-AAAI-2023で公開しました。

Multi-modal fact verification has become an important but challenging issue on social media due to the mismatch between the text and images in the misinformation of news content, which has been addressed by considering cross-modalities to identify the veracity of the news in recent years. In this paper, we propose the Pre-CoFactv2 framework with new parameter-efficient foundation models for modeling fine-grained text and input embeddings with lightening parameters, multi-modal multi-type fusion for not only capturing relations for the same and different modalities but also for different types (i.e., claim and document), and feature representations for explicitly providing metadata for each sample. In addition, we introduce a unified ensemble method to boost model performance by adjusting the importance of each trained model with not only the weights but also the powers. Extensive experiments show that Pre-CoFactv2 outperforms Pre-CoFact by a large margin and achieved new state-of-the-art results at the Factify challenge at AAAI 2023. We further illustrate model variations to verify the relative contributions of different components. Our team won the first prize (F1-score: 81.82%) and we made our code publicly available at https://github.com/wwweiwei/Pre-CoFactv2-AAAI-2023.
翻訳日:2023-02-16 14:29:36 公開日:2023-02-12
# koopman-based bound for generalization: 非線形ノイズフィルタリングに関するニューラルネットの新しい側面

Koopman-Based Bound for Generalization: New Aspect of Neural Networks Regarding Nonlinear Noise Filtering ( http://arxiv.org/abs/2302.05825v1 )

ライセンス: Link先を確認
Yuka Hashimoto, Sho Sonoda, Isao Ishikawa, Atsushi Nitanda, Taiji Suzuki(参考訳) クープマン演算子を用いたニューラルネットワークの一般化のための新しい境界を提案する。 既存の作品と異なり、ネットワークの最終的な非線形変換の役割に焦点を当てている。 この境界は、重み行列の行列式の逆数によって記述され、重み行列が小さい特異値を持たないとき、既存のノルムに基づく境界よりもタイトである。 重み行列の低ランク性に関する既存の理論によれば、重み行列の特異値が小さくない場合に焦点を合わせることは直観に反するかもしれない。 しかし、最終的な非線形変換に動機づけられた結果から、ニューラルネットワークのノイズフィルタリング特性に関する新たな視点に光を当てることができた。 我々の境界はkoopman演算子から来ているので、この研究は演算子理論解析とニューラルネットワークの一般化の間の接続も提供する。 数値結果は我々の理論結果の妥当性を支持する。

We propose a new bound for generalization of neural networks using Koopman operators. Unlike most of the existing works, we focus on the role of the final nonlinear transformation of the networks. Our bound is described by the reciprocal of the determinant of the weight matrices and is tighter than existing norm-based bounds when the weight matrices do not have small singular values. According to existing theories about the low-rankness of the weight matrices, it may be counter-intuitive that we focus on the case where singular values of weight matrices are not small. However, motivated by the final nonlinear transformation, we can see that our result sheds light on a new perspective regarding a noise filtering property of neural networks. Since our bound comes from Koopman operators, this work also provides a connection between operator-theoretic analysis and generalization of neural networks. Numerical results support the validity of our theoretical results.
翻訳日:2023-02-14 18:26:37 公開日:2023-02-12
# ニューラルネットワークの原子間ポテンシャルにおけるデータ効率と外挿傾向

Data efficiency and extrapolation trends in neural network interatomic potentials ( http://arxiv.org/abs/2302.05823v1 )

ライセンス: Link先を確認
Joshua A. Vita, Daniel Schwalbe-Koda(参考訳) 近年,nnips(neural network interatomic potentials)において,メッセージパッシングネットワーク,等価性,多体拡張といった重要なアーキテクチャ上の進歩が提案されている。 現代のNNIPモデルは、エネルギー/力の誤差のほとんど無視できる違いを示すが、新しいNNIPアーキテクチャを開発する際には、精度の改善が主要なターゲットであると考えられている。 本研究では,nnipsのトレーサビリティと一般化誤差にアーキテクチャの選択が与える影響について検討し,外挿,データ効率,ロスランドスケープの傾向を明らかにする。 まず、現代のNNIPアーキテクチャは、ラベルの劣化を訓練しても、トレーニングデータの基盤となるポテンシャルエネルギー面(PES)を回復することを示す。 第2に、3BPAデータセットからの高温試料の誤差などの一般化メトリクスを、様々なモデルのスケーリング関係に従うように示す。 したがって、精度指標の改善はNNIPの堅牢な一般化に関する独立した情報をもたらすものではない。 この問題を回避するため、データセットをまたいだモデル一般化にロスランドスケープを関連付ける。 このプローブを用いて、類似の精度測定値を持つNNIPが外挿能力が異なる理由と、モデルの最適化環境を改善するためのトレーニング方法を説明する。 例として,5つのデータポイントにトレーニングされた後に,適切な誤りでPSEを予測できることを示し,PSEを学習するための「ファウショット」モデルの例を示す。 一方、NequIPのような類似の精度の指標を持つモデルでは、この極めて低いデータ構造で外挿する能力は小さくなっている。 我々の研究は、多くの共通NNIPの性能に関する深い学習の正当性を提供し、次世代モデルの開発を知らせるために使用できる精度測定以上のツールを導入しています。

Over the last few years, key architectural advances have been proposed for neural network interatomic potentials (NNIPs), such as incorporating message-passing networks, equivariance, or many-body expansion terms. Although modern NNIP models exhibit nearly negligible differences in energy/forces errors, improvements in accuracy are still considered the main target when developing new NNIP architectures. In this work, we investigate how architectural choices influence the trainability and generalization error in NNIPs, revealing trends in extrapolation, data efficiency, and loss landscapes. First, we show that modern NNIP architectures recover the underlying potential energy surface (PES) of the training data even when trained to corrupted labels. Second, generalization metrics such as errors on high-temperature samples from the 3BPA dataset are demonstrated to follow a scaling relation for a variety of models. Thus, improvements in accuracy metrics may not bring independent information on the robust generalization of NNIPs. To circumvent this problem, we relate loss landscapes to model generalization across datasets. Using this probe, we explain why NNIPs with similar accuracy metrics exhibit different abilities to extrapolate and how training to forces improves the optimization landscape of a model. As an example, we show that MACE can predict PESes with reasonable error after being trained to as few as five data points, making it an example of a "few-shot" model for learning PESes. On the other hand, models with similar accuracy metrics such as NequIP show smaller ability to extrapolate in this extremely low-data regime. Our work provides a deep learning justification for the performance of many common NNIPs, and introduces tools beyond accuracy metrics that can be used to inform the development of next-generation models.
翻訳日:2023-02-14 18:26:23 公開日:2023-02-12
# 解釈可能な多様性分析:低コストアンサンブルにおける特徴表現の可視化

Interpretable Diversity Analysis: Visualizing Feature Representations In Low-Cost Ensembles ( http://arxiv.org/abs/2302.05822v1 )

ライセンス: Link先を確認
Tim Whitaker, Darrell Whitley(参考訳) 多様性はロバストなニューラルネットワークアンサンブルの構築において重要な考慮事項である。 十分に訓練されたモデルの集合は、応答するパターンや予測が多様であれば、より一般化されるでしょう。 なぜなら、メンバーは、複数の独立したモデルをスクラッチからトレーニングすることを避けるために、しばしばネットワーク構造を共有するためである。 多様性は伝統的にモデルの出力間の差を測定することによって分析される。 しかし、これは知識表現がアンサンブルメンバー間でどのように異なるかについての洞察をほとんど与えない。 本稿では,多様性を定性的に分析できるいくつかの解釈可能性手法を提案する。 本研究では,2つの低コストアンサンブルアルゴリズムであるSnapshot Ensembles と Prune と Tune Ensembles を用いて,子ネットワーク間の特徴表現の多様性を比較することによって,これらの手法を実証する。 両方のメソッドの出発点として、同じ事前学習された親ネットワークを使用し、機能表現が時間とともにどのように進化するかを探求できます。 多様性分析へのこのアプローチは、アンサンブル手法における多様性の計測と促進のための貴重な洞察と新しい視点をもたらす可能性がある。

Diversity is an important consideration in the construction of robust neural network ensembles. A collection of well trained models will generalize better if they are diverse in the patterns they respond to and the predictions they make. Diversity is especially important for low-cost ensemble methods because members often share network structure in order to avoid training several independent models from scratch. Diversity is traditionally analyzed by measuring differences between the outputs of models. However, this gives little insight into how knowledge representations differ between ensemble members. This paper introduces several interpretability methods that can be used to qualitatively analyze diversity. We demonstrate these techniques by comparing the diversity of feature representations between child networks using two low-cost ensemble algorithms, Snapshot Ensembles and Prune and Tune Ensembles. We use the same pre-trained parent network as a starting point for both methods which allows us to explore how feature representations evolve over time. This approach to diversity analysis can lead to valuable insights and new perspectives for how we measure and promote diversity in ensemble methods.
翻訳日:2023-02-14 18:25:57 公開日:2023-02-12
# OAMatcher: 正確な局所特徴マッチングのための重複エリアベースのネットワーク

OAMatcher: An Overlapping Areas-based Network for Accurate Local Feature Matching ( http://arxiv.org/abs/2302.05846v1 )

ライセンス: Link先を確認
Kun Dai, Tao Xie, Ke Wang, Zhiqiang Jiang, Ruifeng Li, Lijun Zhao(参考訳) ローカルな特徴マッチングは多くのビジュアルアプリケーションにおいて重要なコンポーネントである。 本研究では,人間の行動を模倣して高密度で正確なマッチングを生成する,トランフォーマーベースの検出器フリーな手法であるoamatcherを提案する。 まず、OAMatcherは重なり合う領域を予測して、効果的でクリーンなグローバルなコンテキストアグリゲーションを促進する。 技術的には、まずすべてのキーポイントにまたがるグローバル情報統合を行い、特徴マッチングの開始時に画像全体を観察する人間の行動を模倣します。 そこで本研究では,共可視領域におけるキーポイントをキャプチャし,特徴拡張を行うオーバラップ領域予測モジュール(oapm)を提案し,画像全体からオーバラップ領域への焦点領域の移動をシミュレーションし,非重複領域におけるキーポイントからの干渉を伴わずに効果的な情報交換を実現する。 また、人間はマッチラベルが正しいかどうかを判断するために確率を利用する傾向があるため、データからの計測ノイズの影響を緩和しながら、接地ラベルの信頼性を評価するために使用される係数を生成するマッチラベル重み戦略(mlws)を提案する。 さらに,OAMatcherが局所的特徴表現とグローバル的特徴表現を同時に抽出することを保証するために,Tranformerエンコーダ層に奥行きの畳み込みを組み込む。 総合的な実験では、OAMatcherはいくつかのベンチマークで最先端の手法よりも優れており、極端な外観のバリエーションに対して優れた堅牢性を示している。 ソースコードはhttps://github.com/DK-HU/OAMatcherで入手できる。

Local feature matching is an essential component in many visual applications. In this work, we propose OAMatcher, a Tranformer-based detector-free method that imitates humans behavior to generate dense and accurate matches. Firstly, OAMatcher predicts overlapping areas to promote effective and clean global context aggregation, with the key insight that humans focus on the overlapping areas instead of the entire images after multiple observations when matching keypoints in image pairs. Technically, we first perform global information integration across all keypoints to imitate the humans behavior of observing the entire images at the beginning of feature matching. Then, we propose Overlapping Areas Prediction Module (OAPM) to capture the keypoints in co-visible regions and conduct feature enhancement among them to simulate that humans transit the focus regions from the entire images to overlapping regions, hence realizeing effective information exchange without the interference coming from the keypoints in non overlapping areas. Besides, since humans tend to leverage probability to determine whether the match labels are correct or not, we propose a Match Labels Weight Strategy (MLWS) to generate the coefficients used to appraise the reliability of the ground-truth match labels, while alleviating the influence of measurement noise coming from the data. Moreover, we integrate depth-wise convolution into Tranformer encoder layers to ensure OAMatcher extracts local and global feature representation concurrently. Comprehensive experiments demonstrate that OAMatcher outperforms the state-of-the-art methods on several benchmarks, while exhibiting excellent robustness to extreme appearance variants. The source code is available at https://github.com/DK-HU/OAMatcher.
翻訳日:2023-02-14 18:18:02 公開日:2023-02-12
# グラフマッチング最適化に基づくポイントクラウド登録

Point Cloud Registration Based on Graph Matching Optimization ( http://arxiv.org/abs/2302.05844v1 )

ライセンス: Link先を確認
Qianliang Wu, Yaqi Shen, Guofeng Mei, Yaqing Ding, Lei Luo, Jin Xie, Jian Yang(参考訳) ポイントクラウドの登録は、3dコンピュータビジョンにおける基本的かつ困難な問題である。 等尺変換は、剛点雲の登録において不可欠な性質であるが、既存の手法では、降圧拒絶段階においてのみ用いられる。 本稿では,登録品質向上のための特徴学習段階において,等尺変換が重要であることも強調する。 本稿では,グラフマッチング法を用いて,点特徴学習段階で制約を保存し,ポイント表現を%再定義する手法を明示的に適用した,\underline{g}raph \underline{m}atching \underline{o}ptimizationベースの\underline{net}work(略してgmonet)を提案する。 具体的には、部分グラフマッチング制約を利用してスーパーポイント(例えば、ダウンサンプリングキーポイント)とフルグラフマッチングの重複領域検出能力を向上し、詳細な重複領域での登録精度を向上する。 一方,ミニバッチサンプリングを活用し,全グラフマッチング最適化の効率を向上させる。 評価段階における高い識別点の特徴を考慮し、RANSACアプローチを用いてスキャンしたペア間の変換を推定する。 提案手法は3DMatch/3DLoMatchベンチマークとKITTIベンチマークで評価されている。 実験の結果,本手法は既存のベースラインと比較して性能が向上することが示された。

Point Clouds Registration is a fundamental and challenging problem in 3D computer vision. It has been shown that the isometric transformation is an essential property in rigid point cloud registration, but the existing methods only utilize it in the outlier rejection stage. In this paper, we emphasize that the isometric transformation is also important in the feature learning stage for improving registration quality. We propose a \underline{G}raph \underline{M}atching \underline{O}ptimization based \underline{Net}work (denoted as GMONet for short), which utilizes the graph matching method to explicitly exert the isometry preserving constraints in the point feature learning stage to improve %refine the point representation. Specifically, we %use exploit the partial graph matching constraint to enhance the overlap region detection abilities of super points ($i.e.,$ down-sampled key points) and full graph matching to refine the registration accuracy at the fine-level overlap region. Meanwhile, we leverage the mini-batch sampling to improve the efficiency of the full graph matching optimization. Given high discriminative point features in the evaluation stage, we utilize the RANSAC approach to estimate the transformation between the scanned pairs. The proposed method has been evaluated on the 3DMatch/3DLoMatch benchmarks and the KITTI benchmark. The experimental results show that our method achieves competitive performance compared with the existing state-of-the-art baselines.
翻訳日:2023-02-14 18:17:32 公開日:2023-02-12
# ランダムにアングルをランダムに選び、アングル数から回転数、演算数、逆数を選択する

Randomly Choose an Angle from an Immense Number of Angles to Rotate Qubits, Compute and Reverse ( http://arxiv.org/abs/2302.05841v1 )

ライセンス: Link先を確認
Dor Bitan and Shlomi Dolev(参考訳) 本稿では,古典的データの量子同相暗号(QHE)方式について考察する。 情報理論的に安全なQHEスキーム(Childs'05、Liang'13など)に関する以前の研究は、通常、アムバイニスらによる量子ワンタイムパッド(QOTP)アプローチに基づいている。 [amtdw'00] ここで、ビットの暗号化はクビットであり、4つの可能なクビットの集合からランダムに選択される。 本稿では,RBE(Random-Basis Encryption)方式と,ビットの暗号化が量子ビットであるQHE方式を,膨大な数の量子ビットの集合からランダムに選択する手法を提案する。 第2に,弱測定(wm)を研究し,従来のqotpベースの量子鍵分散(qkd)プロトコルに対するwmに基づく攻撃を提案する。 そして、RDEスキームを用いてQKDプロトコルを構築し、このプロトコルはそのようなWMベースの攻撃に対して耐性があると主張する。 最後に,本論文は以下の疑問を提起する。 絡み合いは量子情報や量子計算研究において重要な資源である。 したがって、一度生成すれば、その所有者はどうやって量子ビットの絡み合ったシステムを保護できるのか? 我々は、QOTPベースのソリューションを検証し、RDEベースのソリューションを提案し、後者の利点について論じる。

This paper studies information-theoretically secure quantum homomorphic encryption (QHE) schemes of classical data. Previous works on information-theoretically secure QHE schemes (like Childs'05, Liang'13, and others) are typically based on the Quantum-One-Time-Pad (QOTP) approach of Ambainis et al. [AMTdW'00]. There, the encryption of a bit is a qubit, randomly selected from a set of four possible qubits. This paper takes a different approach and presents the RBE (Random-Basis Encryption) scheme -- a QHE scheme in which the encryption of a bit is a qubit, randomly selected from a set of an immense number of qubits. Second, this paper studies weak measurements (WM) and presents a WM-based attack on legacy QOTP-based Quantum Key Distribution (QKD) protocols. Then, we use the RBE scheme to construct a QKD protocol and argue that this protocol is resilient to such WM-based attacks. Finally, this paper raises the following question. Entanglement is an essential resource in quantum information and quantum computation research. Hence, once generated, how can its owner secure entangled systems of qubits? We inspect possible QOTP-based solutions, suggest an RBE-based solution, and discuss some of the benefits of the latter.
翻訳日:2023-02-14 18:17:07 公開日:2023-02-12
# 高等教育における意思決定アルゴリズムの人間中心レビュー

A Human-Centered Review of Algorithms in Decision-Making in Higher Education ( http://arxiv.org/abs/2302.05839v1 )

ライセンス: Link先を確認
Kelly McConvey, Shion Guha, Anastasia Kuzminykh(参考訳) 高等教育における意思決定のためのアルゴリズムの利用は着実に増加しており、機関にコスト削減を約束し、学生向けにパーソナライズされたサービスを提供している。 これらのアルゴリズムが現在どのように設計されているかという体系的な理解の欠如に対処するため、高等教育における意思決定のためのアルゴリズムを提案する論文の広範なコーパスをレビューした。 入力データ,計算方法,対象とする結果に基づいて分類し,これらの要因を理論的,参加的,投機的デザインといった人間中心レンズの応用による相互関係について検討した。 その結果,モデルが深層学習に傾き,学生の個人データや保護属性の利用が増加し,対象範囲が自動意思決定へと拡大していることがわかった。 しかし、解釈性や説明性が低下しているにもかかわらず、現在の発展は主に人間中心レンズを組み込むことに失敗している。 これらの傾向と課題を議論し,人間中心のアプローチを提唱する。

The use of algorithms for decision-making in higher education is steadily growing, promising cost-savings to institutions and personalized service for students but also raising ethical challenges around surveillance, fairness, and interpretation of data. To address the lack of systematic understanding of how these algorithms are currently designed, we reviewed an extensive corpus of papers proposing algorithms for decision-making in higher education. We categorized them based on input data, computational method, and target outcome, and then investigated the interrelations of these factors with the application of human-centered lenses: theoretical, participatory, or speculative design. We found that the models are trending towards deep learning, and increased use of student personal data and protected attributes, with the target scope expanding towards automated decisions. However, despite the associated decrease in interpretability and explainability, current development predominantly fails to incorporate human-centered lenses. We discuss the challenges with these trends and advocate for a human-centered approach.
翻訳日:2023-02-14 18:16:45 公開日:2023-02-12
# カリキュラム学習とスパースリワードによる強化学習による自律空気コンバットのマニキュア決定

Maneuver Decision-Making For Autonomous Air Combat Through Curriculum Learning And Reinforcement Learning With Sparse Rewards ( http://arxiv.org/abs/2302.05838v1 )

ライセンス: Link先を確認
Yu-Jie Wei, Hong-Peng Zhang, Chang-Qiang Huang(参考訳) 強化学習は意思決定問題を解決する効果的な方法である。 強化学習に基づく自律航空戦闘機動決定法を調査する上で,意義があり,貴重な方向である。 しかし, 航空戦闘演習による意思決定などの疎度な報奨による意思決定問題を解決するために強化学習を用いることで, 訓練に要する時間が多くなり, 訓練エージェントの性能が満足できない場合がある。 これらの問題を解決するために,カリキュラム学習に基づく手法を提案する。 第一に、航空戦闘演習決定の3つのカリキュラムは、角度カリキュラム、距離カリキュラム、ハイブリッドカリキュラムである。 これらのコースは、それぞれ航空戦闘エージェントの訓練に使用され、カリキュラムなしでオリジナルの方法と比較される。 トレーニングの結果,アングルカリキュラムはトレーニングの速度と安定性を高め,エージェントの性能を向上させること,遠隔カリキュラムはエージェントトレーニングの速度と安定性を向上させること,ハイブリッドカリキュラムはエージェントを局所的最適に停止させるため,トレーニングに悪影響を及ぼすことを示した。 シミュレーションの結果, エージェントは訓練後, 目標が異なる方向から来る状況に対処でき, 機動決定結果はミサイルの特性と一致していることがわかった。

Reinforcement learning is an effective way to solve the decision-making problems. It is a meaningful and valuable direction to investigate autonomous air combat maneuver decision-making method based on reinforcement learning. However, when using reinforcement learning to solve the decision-making problems with sparse rewards, such as air combat maneuver decision-making, it costs too much time for training and the performance of the trained agent may not be satisfactory. In order to solve these problems, the method based on curriculum learning is proposed. First, three curricula of air combat maneuver decision-making are designed: angle curriculum, distance curriculum and hybrid curriculum. These courses are used to train air combat agents respectively, and compared with the original method without any curriculum. The training results show that angle curriculum can increase the speed and stability of training, and improve the performance of the agent; distance curriculum can increase the speed and stability of agent training; hybrid curriculum has a negative impact on training, because it makes the agent get stuck at local optimum. The simulation results show that after training, the agent can handle the situations where targets come from different directions, and the maneuver decision results are consistent with the characteristics of missile.
翻訳日:2023-02-14 18:16:30 公開日:2023-02-12
# 連続学習の忘れと一般化の理論

Theory on Forgetting and Generalization of Continual Learning ( http://arxiv.org/abs/2302.05836v1 )

ライセンス: Link先を確認
Sen Lin, Peizhong Ju, Yingbin Liang, Ness Shroff(参考訳) 一連のタスクの学習を目的とした連続学習(cl)が近年注目されている。 しかし、ほとんどの研究はCLの実験的な性能に焦点を当てており、CLの理論的研究はまだ限られている。 特に、どの要因が重要か、それらが「破滅的忘れ」と一般化性能にどのように影響するかについて、理解の欠如がある。 このギャップを埋めるために、我々の理論解析は、過度パラメータ化された線形モデルの下で、期待される忘れと一般化の誤差の最初の明らかな形式を提供する。 このような重要な結果のさらなる分析は、CLの過度パラメータ化、タスク類似性、タスク順序付けが忘れと一般化の誤りにどのように影響するかに関する多くの理論的説明をもたらす。 さらに興味深いことに、ディープニューラルネットワーク(DNN)を用いた実際のデータセットの実験を行うことで、これらの洞察のいくつかが線形モデルを超えていて、実用的な設定に受け継がれることを示す。 特に,本研究では,最近の研究で興味深い経験的観察結果を説明するだけでなく,CLの実用的なアルゴリズム設計の動機付けも行なっている。

Continual learning (CL), which aims to learn a sequence of tasks, has attracted significant recent attention. However, most work has focused on the experimental performance of CL, and theoretical studies of CL are still limited. In particular, there is a lack of understanding on what factors are important and how they affect "catastrophic forgetting" and generalization performance. To fill this gap, our theoretical analysis, under overparameterized linear models, provides the first-known explicit form of the expected forgetting and generalization error. Further analysis of such a key result yields a number of theoretical explanations about how overparameterization, task similarity, and task ordering affect both forgetting and generalization error of CL. More interestingly, by conducting experiments on real datasets using deep neural networks (DNNs), we show that some of these insights even go beyond the linear models and can be carried over to practical setups. In particular, we use concrete examples to show that our results not only explain some interesting empirical observations in recent studies, but also motivate better practical algorithm designs of CL.
翻訳日:2023-02-14 18:16:10 公開日:2023-02-12
# スパース変異分解:サブスペース進化を伴う微調整深層ニューラルネットワーク

Sparse Mutation Decompositions: Fine Tuning Deep Neural Networks with Subspace Evolution ( http://arxiv.org/abs/2302.05832v1 )

ライセンス: Link先を確認
Tim Whitaker, Darrell Whitley(参考訳) 神経進化は進化アルゴリズムとニューラルネットワークを組み合わせた、有望な研究分野である。 進化戦略と呼ばれる神経進化的手法の一般的なサブクラスは、ネットワークを変異させるために密集したノイズ摂動に依存している。 低次元部分空間に高密度な突然変異を分解することでこの問題を軽減するアプローチを導入する。 このように変異を制限することは、ネットワークがパフォーマンスを維持しながらより強い摂動を処理できるため、分散を著しく減少させる。 このアプローチは、ネットワークのサイズが拡大し、オープンソースモデルがより広く利用可能になるにつれて、研究の貴重な領域である事前訓練モデルの微調整作業に一意に有効である。 さらに、この研究が、スパース変異が子どもの多様性を促進するアンサンブル学習と自然にどのように結びついているかを示し、それらの組み合わせによる予測が性能を確実に向上させることを示す。 我々は、神経進化の微調整とimagenetデータセットのセンセンシングに関する最初の大規模な調査を行い、ほぼ12種類のディープニューラルネットワークアーキテクチャを使用して、単一の進化生成で小さな一般化を実現した。

Neuroevolution is a promising area of research that combines evolutionary algorithms with neural networks. A popular subclass of neuroevolutionary methods, called evolution strategies, relies on dense noise perturbations to mutate networks, which can be sample inefficient and challenging for large models with millions of parameters. We introduce an approach to alleviating this problem by decomposing dense mutations into low-dimensional subspaces. Restricting mutations in this way can significantly reduce variance as networks can handle stronger perturbations while maintaining performance, which enables a more controlled and targeted evolution of deep networks. This approach is uniquely effective for the task of fine tuning pre-trained models, which is an increasingly valuable area of research as networks continue to scale in size and open source models become more widely available. Furthermore, we show how this work naturally connects to ensemble learning where sparse mutations encourage diversity among children such that their combined predictions can reliably improve performance. We conduct the first large scale exploration of neuroevolutionary fine tuning and ensembling on the notoriously difficult ImageNet dataset, where we see small generalization improvements with only a single evolutionary generation using nearly a dozen different deep neural network architectures.
翻訳日:2023-02-14 18:15:49 公開日:2023-02-12
# NephroNet: 腎細胞癌を同定し、畳み込みニューラルネットワークと拡散モデルを用いた合成訓練画像を生成する新しいプログラム

NephroNet: A Novel Program for Identifying Renal Cell Carcinoma and Generating Synthetic Training Images with Convolutional Neural Networks and Diffusion Models ( http://arxiv.org/abs/2302.05830v1 )

ライセンス: Link先を確認
Yashvir Sabharwal(参考訳) 腎細胞癌(英: Renal cell carcinoma, RCC)は、腎に起源を持つがんの一種で、成人の腎臓がんの中で最も多い。 いくつかのサブタイプ(clear cell rcc、papillary rcc、chromophobe rcc)に分類される。 本研究では,画像分類タスクに広く用いられている畳み込みニューラルネットワークResNet-18を用いて,RCCの異なるサブタイプを分類するための人工知能モデルを開発した。 このモデルはRCCの病理組織像のデータセットに基づいて訓練され、RCCの外科的切除スライドのデジタル画像とそれに対応するサブタイプラベルをアノテートした。 モデルの性能は、精度、精度、リコールなど、いくつかの指標を用いて評価された。 さらに, 外科的切除スライドの原画像生成に使用される拡散モデルを用いて, 新たな合成画像生成ツールNephroNetを開発した。 拡散モデルは、ノイズから高品質な画像を合成できる生成モデルの一種である。 安定拡散,dreamboothテキストから画像への変換,テキストインバージョンといった複数のディフューザが,rcc画像のデータセット上で訓練され,rcc外科手術スライドに類似した一連のオリジナル画像を生成するために,すべて4秒以内の間隔で使用された。 生成された画像は視覚的に現実的であり、新しいトレーニングデータセットの作成、画像分析アルゴリズムのパフォーマンスのテスト、医療専門家のトレーニングに使用できる。 NephroNetはオープンソースソフトウェアパッケージとして提供されており、データ前処理、トレーニング、視覚化のためのファイルを含んでいる。 本研究では,RCC画像の分類と生成における人工知能と拡散モデルの可能性を示す。 これらの方法はRCCの診断や治療の改善に有用である。

Renal cell carcinoma (RCC) is a type of cancer that originates in the kidneys and is the most common type of kidney cancer in adults. It can be classified into several subtypes, including clear cell RCC, papillary RCC, and chromophobe RCC. In this study, an artificial intelligence model was developed and trained for classifying different subtypes of RCC using ResNet-18, a convolutional neural network that has been widely used for image classification tasks. The model was trained on a dataset of RCC histopathology images, which consisted of digital images of RCC surgical resection slides that were annotated with the corresponding subtype labels. The performance of the trained model was evaluated using several metrics, including accuracy, precision, and recall. Additionally, in this research, a novel synthetic image generation tool, NephroNet, is developed on diffusion models that are used to generate original images of RCC surgical resection slides. Diffusion models are a class of generative models capable of synthesizing high-quality images from noise. Several diffusers such as Stable Diffusion, Dreambooth Text-to-Image, and Textual Inversion were trained on a dataset of RCC images and were used to generate a series of original images that resembled RCC surgical resection slides, all within the span of fewer than four seconds. The generated images were visually realistic and could be used for creating new training datasets, testing the performance of image analysis algorithms, and training medical professionals. NephroNet is provided as an open-source software package and contains files for data preprocessing, training, and visualization. Overall, this study demonstrates the potential of artificial intelligence and diffusion models for classifying and generating RCC images, respectively. These methods could be useful for improving the diagnosis and treatment of RCC and more.
翻訳日:2023-02-14 18:15:29 公開日:2023-02-12
# 太いPAC-Bayesがコインベッティングでバウンド

Tighter PAC-Bayes Bounds Through Coin-Betting ( http://arxiv.org/abs/2302.05829v1 )

ライセンス: Link先を確認
Kyoungseok Jang, Kwang-Sung Jun, Ilja Kuzborskij, Francesco Orabona(参考訳) ランダム要素の平均値を推定する問題は、$f(X_1, \theta)$$, \ldots, $$f(X_n, \theta)$ ここで、$f$は固定スカラー関数、$S=(X_1, \ldots, X_n)$は独立確率変数、$\theta$はおそらく$S$依存パラメータである。 そのような問題の例として、$f$ が損失関数である$n$ でトレーニングされたニューラルネットワークの一般化エラーを推定することがある。 古典的には、この問題はラデマッハやvc型分析のような関数のコンパクトなパラメータ集合に対して一様に保たれる濃度不等式によって解決される。 しかし、多くの問題において、そのような不等式はしばしば数値的に空虚な推定をもたらす。 最近では、数値的に空でない境界をしばしば与える能力のために、このクラスの問題に対してより良い代替として \emph{PAC-Bayes} フレームワークが提案されている。 本稿では,pac-bayes境界の証明戦略を洗練し,emph{even tighter}保証を達成する方法を示す。 我々のアプローチは、オンラインギャンブルアルゴリズムの残念な保証から、最も厳密な時間一様濃度の不等式を導出する 'emph{coin-betting} フレームワークに基づいている。 特に,全ての試料サイズを同時に保持するコインベッティング法に基づいて,最初のPAC-Bayes濃度の不等式を導出した。 その厳密さは、ベルヌーイ-kl や経験的ベルンシュタインの不等式を含む閉形式で多くの先行結果が得られることを示している。 最後に, 最先端のPAC-Bayes境界とは異なり, 1つのサンプルであっても, しばしば非空の信頼境界を生成する, 境界からの信頼系列を数値的に計算する効率的なアルゴリズムを提案する。

We consider the problem of estimating the mean of a sequence of random elements $f(X_1, \theta)$ $, \ldots, $ $f(X_n, \theta)$ where $f$ is a fixed scalar function, $S=(X_1, \ldots, X_n)$ are independent random variables, and $\theta$ is a possibly $S$-dependent parameter. An example of such a problem would be to estimate the generalization error of a neural network trained on $n$ examples where $f$ is a loss function. Classically, this problem is approached through concentration inequalities holding uniformly over compact parameter sets of functions $f$, for example as in Rademacher or VC type analysis. However, in many problems, such inequalities often yield numerically vacuous estimates. Recently, the \emph{PAC-Bayes} framework has been proposed as a better alternative for this class of problems for its ability to often give numerically non-vacuous bounds. In this paper, we show that we can do even better: we show how to refine the proof strategy of the PAC-Bayes bounds and achieve \emph{even tighter} guarantees. Our approach is based on the \emph{coin-betting} framework that derives the numerically tightest known time-uniform concentration inequalities from the regret guarantees of online gambling algorithms. In particular, we derive the first PAC-Bayes concentration inequality based on the coin-betting approach that holds simultaneously for all sample sizes. We demonstrate its tightness showing that by \emph{relaxing} it we obtain a number of previous results in a closed form including Bernoulli-KL and empirical Bernstein inequalities. Finally, we propose an efficient algorithm to numerically calculate confidence sequences from our bound, which often generates nonvacuous confidence bounds even with one sample, unlike the state-of-the-art PAC-Bayes bounds.
翻訳日:2023-02-14 18:14:56 公開日:2023-02-12
# 半教師付き学習におけるガウス過程のグラフニューラルネットワークインスパイアされたカーネル

Graph Neural Network-Inspired Kernels for Gaussian Processes in Semi-Supervised Learning ( http://arxiv.org/abs/2302.05828v1 )

ライセンス: Link先を確認
Zehao Niu, Mihai Anitescu, Jie Chen(参考訳) ガウス過程(GP)は、より複雑なベイズモデルの構築ブロックとしての単純さと柔軟性のため、機械学習モデルの魅力的なクラスである。 一方、グラフニューラルネットワーク(gnns)は、半教師付き学習などのグラフ構造化データの有望なクラスとして最近登場した。 彼らの競争性能は、しばしばグラフ帰納バイアスを適切に捉えることに起因する。 本研究では,このインダクティブバイアスをGPに導入し,グラフ構造化データの予測性能を向上させる。 グラフ畳み込みネットワークであるGNNの顕著な例は、その層が無限に広いときのGPと等価であることを示し、カーネルの普遍性と制限挙動を深く分析する。 さらに,この等価性に触発された共分散カーネルを構成するプログラム可能な手続きと,gnnファミリーのいくつかの興味深いメンバーに対応するサンプルカーネルを提案する。 また、大規模データを用いたスケーラブルな後続推論のための共分散行列の計算効率の良い近似も提案する。 これらのグラフベースのカーネルは,各GNNと比較して,計算時間と競合する分類と回帰性能をもたらすことを示した。

Gaussian processes (GPs) are an attractive class of machine learning models because of their simplicity and flexibility as building blocks of more complex Bayesian models. Meanwhile, graph neural networks (GNNs) emerged recently as a promising class of models for graph-structured data in semi-supervised learning and beyond. Their competitive performance is often attributed to a proper capturing of the graph inductive bias. In this work, we introduce this inductive bias into GPs to improve their predictive performance for graph-structured data. We show that a prominent example of GNNs, the graph convolutional network, is equivalent to some GP when its layers are infinitely wide; and we analyze the kernel universality and the limiting behavior in depth. We further present a programmable procedure to compose covariance kernels inspired by this equivalence and derive example kernels corresponding to several interesting members of the GNN family. We also propose a computationally efficient approximation of the covariance matrix for scalable posterior inference with large-scale data. We demonstrate that these graph-based kernels lead to competitive classification and regression performance, as well as advantages in computation time, compared with the respective GNNs.
翻訳日:2023-02-14 18:14:19 公開日:2023-02-12
# USER: 教師なし構造エントロピーに基づくロバストグラフニューラルネットワーク

USER: Unsupervised Structural Entropy-based Robust Graph Neural Network ( http://arxiv.org/abs/2302.05889v1 )

ライセンス: Link先を確認
Yifei Wang, Yupan Wang, Zeyu Zhang, Song Yang, Kaiqi Zhao, Jiamou Liu(参考訳) 教師なし・自己教師付きグラフニューラルネットワーク(GNN)は、下流タスクにおけるモデルの性能に大きな影響を及ぼす入力グラフデータ固有のランダム性に対して脆弱である。 本稿では,グラフランダム性の干渉を緩和し,ラベル情報のないノードの適切な表現を学習する。 この目的のために,構造エントロピーに基づくグラフニューラルネットワークの教師なしロバストバージョンであるUSERを提案する。 我々は本質的接続性の性質を分析し,本質的接続性グラフを定義する。 また、隣接行列の階数は、内在接続グラフと同じ埋め込みを提供するグラフを明らかにする上で重要な要素である。 次に、そのようなグラフをキャプチャする目的関数に構造エントロピーを導入する。 3つのデータセットに対するランダムノイズおよびメタアタックによるクラスタリングおよびリンク予測タスクの大規模な実験は、USERがベンチマークより優れ、重いランダム性に対して堅牢であることを示している。

Unsupervised/self-supervised graph neural networks (GNN) are vulnerable to inherent randomness in the input graph data which greatly affects the performance of the model in downstream tasks. In this paper, we alleviate the interference of graph randomness and learn appropriate representations of nodes without label information. To this end, we propose USER, an unsupervised robust version of graph neural networks that is based on structural entropy. We analyze the property of intrinsic connectivity and define intrinsic connectivity graph. We also identify the rank of the adjacency matrix as a crucial factor in revealing a graph that provides the same embeddings as the intrinsic connectivity graph. We then introduce structural entropy in the objective function to capture such a graph. Extensive experiments conducted on clustering and link prediction tasks under random-noises and meta-attack over three datasets show USER outperforms benchmarks and is robust to heavier randomness.
翻訳日:2023-02-14 18:08:19 公開日:2023-02-12
# ポジションが重要! 知識接地対話における秩序効果の実証的研究

Position Matters! Empirical Study of Order Effect in Knowledge-grounded Dialogue ( http://arxiv.org/abs/2302.05888v1 )

ライセンス: Link先を確認
Hsuan Su, Shachi H Kumar, Sahisnu Mazumder, Wenda Chen, Ramesh Manuvinakurike, Eda Okur, Saurav Sahay, Lama Nachman, Shang-Tse Chen, Hung-yi Lee(参考訳) 大規模な事前学習言語モデルの力により、様々な研究が対話システムに知識を取り入れている。 従来の手法では、知識を対話システムの入力シーケンスの一部として扱い、対話履歴の前に一連の知識文を前倒しする。 しかし、そのようなメカニズムは知識集合を順序づけられた方法で連結させ、モデルがトレーニング中に集合に不均衡な注意を払うようにする。 本稿では,まず,知識集合の順序が自己回帰対話システムの応答に与える影響について検討する。 我々は,2種類のトランスフォーマーモデルを用いた2種類の対話データセットの実験を行い,モデルが入力知識を不平等に見ることを発見した。 そこで本研究では,これらのモデルにおける知識入力の位置埋め込みを変更することにより,順序効果を緩和する簡便で新しい手法を提案する。 提案手法により,実験結果から,各知識文が一様に応答すると考えられることがわかった。

With the power of large pretrained language models, various research works have integrated knowledge into dialogue systems. The traditional techniques treat knowledge as part of the input sequence for the dialogue system, prepending a set of knowledge statements in front of dialogue history. However, such a mechanism forces knowledge sets to be concatenated in an ordered manner, making models implicitly pay imbalanced attention to the sets during training. In this paper, we first investigate how the order of the knowledge set can influence autoregressive dialogue systems' responses. We conduct experiments on two commonly used dialogue datasets with two types of transformer-based models and find that models view the input knowledge unequally. To this end, we propose a simple and novel technique to alleviate the order effect by modifying the position embeddings of knowledge input in these models. With the proposed position embedding method, the experimental results show that each knowledge statement is uniformly considered to generate responses.
翻訳日:2023-02-14 18:08:06 公開日:2023-02-12
# 気象パターンを用いた風力発電力と下流流路予測のための教師なし学習手法

An unsupervised learning approach for predicting wind farm power and downstream wakes using weather patterns ( http://arxiv.org/abs/2302.05886v1 )

ライセンス: Link先を確認
Mariana C A Clare and Simon C Warder and Robert Neal and B Bhaskaran and Matthew D Piggott(参考訳) 風力エネルギー資源評価は通常、数値モデルを必要とするが、そのようなモデルは計算集約的すぎるため、多年の時間スケールを考慮することができない。 教師なし機械学習技術は、長期的振る舞いをシミュレートするために、少数の代表的な気象パターンを特定するために使われる。 ここでは、教師なしクラスタリング手法から得られた気象パターンと数値気象予測モデル(以下、WAF)を初めて組み合わせて、風力発電所全体の電力及び下流流速の効率的かつ正確な長期予測を行う風力エネルギーワークフローを開発する。 ERA5の再解析データクラスタリングは,低気圧だけでなく,風速のより関連性の高い変数にも初めて用いられる。 また、クラスタリングにおける大規模および局所的なドメインの使用についても比較する。 wrfシミュレーションは、各クラスタセンタで実行され、その結果は、新しいポストプロセッシング技術を用いて集約される。 2つの異なる領域にワークフローを適用することで、我々の長期予測は1年間のWRFシミュレーションと一致するが、計算時間は2%未満であることを示す。 最も正確な結果は風速をクラスタリングする際に得られる。 さらに、ヨーロッパ全体でのクラスタリングは、風力発電の出力を予測するのに十分であるが、下流のウェイク予測は、より小さなドメインの使用の恩恵を受ける。 最後に、これらの下流流路が局地的な気象パターンに影響を及ぼすことを示す。 本手法は,あらゆる地域に適用可能な高速で正確で柔軟な方法論を提供することにより,電力出力と下流農業のウェイクの複数年予測を促進する。 さらに、これらの正確な下流流速の長期予測は、最適な風力発電場所を決定するために使用できるため、風力発電所下流での風力損失の影響を緩和する最初の手段となる。

Wind energy resource assessment typically requires numerical models, but such models are too computationally intensive to consider multi-year timescales. Increasingly, unsupervised machine learning techniques are used to identify a small number of representative weather patterns to simulate long-term behaviour. Here we develop a novel wind energy workflow that for the first time combines weather patterns derived from unsupervised clustering techniques with numerical weather prediction models (here WRF) to obtain efficient and accurate long-term predictions of power and downstream wakes from an entire wind farm. We use ERA5 reanalysis data clustering not only on low altitude pressure but also, for the first time, on the more relevant variable of wind velocity. We also compare the use of large-scale and local-scale domains for clustering. A WRF simulation is run at each of the cluster centres and the results are aggregated using a novel post-processing technique. By applying our workflow to two different regions, we show that our long-term predictions agree with those from a year of WRF simulations but require less than 2% of the computational time. The most accurate results are obtained when clustering on wind velocity. Moreover, clustering over the Europe-wide domain is sufficient for predicting wind farm power output, but downstream wake predictions benefit from the use of smaller domains. Finally, we show that these downstream wakes can affect the local weather patterns. Our approach facilitates multi-year predictions of power output and downstream farm wakes, by providing a fast, accurate and flexible methodology that is applicable to any global region. Moreover, these accurate long-term predictions of downstream wakes provide the first tool to help mitigate the effects of wind energy loss downstream of wind farms, since they can be used to determine optimum wind farm locations.
翻訳日:2023-02-14 18:07:51 公開日:2023-02-12
# 超音波と人工知能を用いた道路建設における炭酸塩骨材の探索

Exploration of carbonate aggregates in road construction using ultrasonic and artificial intelligence approaches ( http://arxiv.org/abs/2302.05884v1 )

ライセンス: Link先を確認
Mohamed Abdelhedi, Rateb Jabbar, Chedly Abbes(参考訳) 新型コロナウイルスのパンデミックは、経済サイクルに敏感な建設セクターに大きな影響を与えている。 この分野での価値と効率を高めるために、材料研究における超音波や人工知能といった革新的な探査技術の利用がますます重要になっている。 本研究では,ロサンゼルス (LA) とマイクロデバル (MDE) 係数を予測するための2つのモデルを開発した。 これらの係数は、凝集体のフラグメンテーションと摩耗に対する抵抗を記述する。 マルチレグレッションと人工ニューラルネットワークを用いた予測モデルを構築するための入力として, 超音波速度, ポロシティ, 岩石密度を測定した。 これらのモデルは、退屈な実験室分析を必要とせずに、探査段階での岩石骨材の品質を評価するために用いられる。

The COVID-19 pandemic has significantly impacted the construction sector, which is sensitive to economic cycles. In order to boost value and efficiency in this sector, the use of innovative exploration technologies such as ultrasonic and Artificial Intelligence techniques in building material research is becoming increasingly crucial. In this study, we developed two models for predicting the Los Angeles (LA) and Micro Deval (MDE) coefficients, two important geotechnical tests used to determine the quality of rock aggregates. These coefficients describe the resistance of aggregates to fragmentation and abrasion. The ultrasound velocity, porosity, and density of the rocks were determined and used as inputs to develop prediction models using multiple regression and an artificial neural network. These models may be used to assess the quality of rock aggregates at the exploration stage without the need for tedious laboratory analysis.
翻訳日:2023-02-14 18:07:22 公開日:2023-02-12
# 高次元および平均場力学から無次元ODEへ:二層ネットワークにおけるSGDへの統一的アプローチ

From high-dimensional & mean-field dynamics to dimensionless ODEs: A unifying approach to SGD in two-layers networks ( http://arxiv.org/abs/2302.05882v1 )

ライセンス: Link先を確認
Luca Arnaboldi, Ludovic Stephan, Florent Krzakala, Bruno Loureiro(参考訳) 本論文は、ガウスデータに基づいて訓練された2層ニューラルネットワークの1パス確率勾配降下(sgd)ダイナミクスと、類似するが必ずしも同一ではない標的関数によって生成されたラベルについて検討する。 我々は, 人口リスクに対する十分な統計量の観点から, 決定論的かつ低次元的な記述を通じて, 限界ダイナミクスを厳格に解析する。 この統一分析は,学習速度を消失させる古典的勾配流制御,大入力次元の高次元制御,大ネットワーク幅の超パラメータ「平均場」制御,およびこれらの行動間の相互作用によって制限ダイナミクスが決定される中間機構など,異なる関心のレジームを橋渡しする。 特に、高次元の極限において、無限幅のダイナミクスは、対象の主方向で広がる低次元の部分空間に近づいたままである。 そこで,本研究では合成データを用いた限界sgdダイナミクスの統一像を提供する。

This manuscript investigates the one-pass stochastic gradient descent (SGD) dynamics of a two-layer neural network trained on Gaussian data and labels generated by a similar, though not necessarily identical, target function. We rigorously analyse the limiting dynamics via a deterministic and low-dimensional description in terms of the sufficient statistics for the population risk. Our unifying analysis bridges different regimes of interest, such as the classical gradient-flow regime of vanishing learning rate, the high-dimensional regime of large input dimension, and the overparameterised "mean-field" regime of large network width, covering as well the intermediate regimes where the limiting dynamics is determined by the interplay between these behaviours. In particular, in the high-dimensional limit, the infinite-width dynamics is found to remain close to a low-dimensional subspace spanned by the target principal directions. Our results therefore provide a unifying picture of the limiting SGD dynamics with synthetic data.
翻訳日:2023-02-14 18:07:09 公開日:2023-02-12
# 一般化cp分解と非負整数テンソル補完を用いた低ランクテンソル補完

Low-Rank Tensor Completion With Generalized CP Decomposition and Nonnegative Integer Tensor Completion ( http://arxiv.org/abs/2302.05881v1 )

ライセンス: Link先を確認
Shiran Yuan(参考訳) テンソル完備化の問題は、コンピュータビジョン、データ分析、信号処理など、多くの分野において重要である。 従来は低ランクテンソル完備化(low-rank tensor completion)と呼ばれる手法のカテゴリが提案され、完成テンソルに低ランク構造を適用した。 このような方法は常に改善されてきたが、これまではテンソル要素の数値的性質を活用することを考慮していなかった。 本研究はGCDTC(Generalized CP Decomposition Tensor Completion)と呼ばれる新しい方法論の枠組みを構築しようとするものである。 新たに導入されたフレームワークでは、CP分解は最大類似度推定(MLE)問題として再構成され、異なる損失関数の導入によって一般化される。 一般化分解はその後低ランクテンソル完全化に適用される。 このような損失関数は、滑らかさや標準化など、完了における追加の要因を考えるために容易に調整できる。 ポアソンCP分解による非負整数テンソル分解の例は、新しい方法論のポテンシャルを示すために与えられる。 実生活データを用いた実験により, 現状の手法よりも優れた結果が得られることを確認した。 提案された概念は、分解の一般化に基づく新しいテンソル完備化法を刺激し、関連する分野に寄与することが期待される。

The problem of tensor completion is important to many areas such as computer vision, data analysis, signal processing, etc. Previously, a category of methods known as low-rank tensor completion has been proposed and developed, involving the enforcement of low-rank structures on completed tensors. While such methods have been constantly improved, none have previously considered exploiting the numerical properties of tensor elements. This work attempts to construct a new methodological framework called GCDTC (Generalized CP Decomposition Tensor Completion) based on these properties. In this newly introduced framework, the CP Decomposition is reformulated as a Maximum Likelihood Estimate (MLE) problem, and generalized via the introduction of differing loss functions. The generalized decomposition is subsequently applied to low-rank tensor completion. Such loss functions can also be easily adjusted to consider additional factors in completion, such as smoothness, standardization, etc. An example of nonnegative integer tensor decomposition via the Poisson CP Decomposition is given to demonstrate the new methodology's potentials. Through experimentation with real-life data, it is confirmed that this method could produce results superior to current state-of-the-art methodologies. It is expected that the proposed notion would inspire a new set of tensor completion methods based on the generalization of decompositions, thus contributing to related fields.
翻訳日:2023-02-14 18:06:52 公開日:2023-02-12
# I$^2$SB: Image-to-Image Schr\"odinger Bridge

I$^2$SB: Image-to-Image Schr\"odinger Bridge ( http://arxiv.org/abs/2302.05872v1 )

ライセンス: Link先を確認
Guan-Horng Liu, Arash Vahdat, De-An Huang, Evangelos A. Theodorou, Weili Nie, Anima Anandkumar(参考訳) 本研究では,2つの分布間の非線形拡散過程を直接学習する新しい条件拡散モデルであるschr\"odinger bridge (i$^2$sb)を提案する。 これらの拡散橋は、劣化した画像がクリーンな画像の再構築に構造的に有益であるため、画像復元に特に有用である。 I$^2$SBは、スコアベースモデルへの非線形拡張であるSchr\"odinger Bridgeの抽出可能なクラスに属し、その限界分布は解析的に与えられた境界対を計算できる。 これにより、I$^2$SBトレーニングが標準拡散モデルで使用される実践的手法を採用することにより、非線形拡散のシミュレーション不要なフレームワークがスケーラブルになる。 I$^2$SB は、画像Net 256x256 上での塗り絵、超解像、デブロアリング、JPEG 復元などの様々な画像復元タスクの解決において有効であり、I$^2$SB は、より解釈可能な生成過程を持つ標準条件拡散モデルを超えることを示す。 さらに、I$^2$SBは、汚職演算子の知識を必要とする逆メソッドのパフォーマンスと一致する。 我々の研究は、大規模に効率的な非線形拡散モデルを開発するための新しいアルゴリズムの機会を開く。 スケール。 プロジェクトページ: https://i2sb.github.io/

We propose Image-to-Image Schr\"odinger Bridge (I$^2$SB), a new class of conditional diffusion models that directly learn the nonlinear diffusion processes between two given distributions. These diffusion bridges are particularly useful for image restoration, as the degraded images are structurally informative priors for reconstructing the clean images. I$^2$SB belongs to a tractable class of Schr\"odinger bridge, the nonlinear extension to score-based models, whose marginal distributions can be computed analytically given boundary pairs. This results in a simulation-free framework for nonlinear diffusions, where the I$^2$SB training becomes scalable by adopting practical techniques used in standard diffusion models. We validate I$^2$SB in solving various image restoration tasks, including inpainting, super-resolution, deblurring, and JPEG restoration on ImageNet 256x256 and show that I$^2$SB surpasses standard conditional diffusion models with more interpretable generative processes. Moreover, I$^2$SB matches the performance of inverse methods that additionally require the knowledge of the corruption operators. Our work opens up new algorithmic opportunities for developing efficient nonlinear diffusion models on a large scale. scale. Project page: https://i2sb.github.io/
翻訳日:2023-02-14 18:06:31 公開日:2023-02-12
# flag aggregator: convex最適化による障害と損失拡大時のスケーラブルな分散トレーニング

Flag Aggregator: Scalable Distributed Training under Failures and Augmented Losses using Convex Optimization ( http://arxiv.org/abs/2302.05865v1 )

ライセンス: Link先を確認
Hamidreza Almasi, Harsh Mishra, Balajee Vamanan, Sathya N. Ravi(参考訳) 現代のMLアプリケーションは、ますます複雑なディープラーニングモデルと大規模なデータセットに依存している。 最大のモデルを訓練するために必要な計算量が指数関数的に増加した。 したがって、計算とデータをスケールするために、これらのモデルはノードのクラスタ内で分散的に訓練され、それらの更新はモデルに適用される前に集約される。 しかし、分散セットアップは個々のノード、コンポーネント、ソフトウェアのビザンチン障害を起こしやすい。 これらの設定にデータ拡張を加えることで、堅牢で効率的なアグリゲーションシステムが必要である。 本稿では,現在進行中のアグリゲータを拡張し,最近導入されたフラグ中央値問題を利用して,ペアワイズ距離を二次関数としてモデル化し,最適化に基づく部分空間推定器を提案する。 損失関数の推定子は差分ベクトルのノルムを保存する対を好む。 理論的には、我々のアプローチは最先端のビザンチンレジリエントアグリゲータの堅牢性を高める。 また,パラメータサーバアーキテクチャを用いた分散環境におけるタスクの異なる手法の評価を行い,同様の精度を維持しながら通信効率を示す。 コードはhttps://github.com/hamidralmasi/FlagAggregatorで公開されている。

Modern ML applications increasingly rely on complex deep learning models and large datasets. There has been an exponential growth in the amount of computation needed to train the largest models. Therefore, to scale computation and data, these models are inevitably trained in a distributed manner in clusters of nodes, and their updates are aggregated before being applied to the model. However, a distributed setup is prone to byzantine failures of individual nodes, components, and software. With data augmentation added to these settings, there is a critical need for robust and efficient aggregation systems. We extend the current state-of-the-art aggregators and propose an optimization-based subspace estimator by modeling pairwise distances as quadratic functions by utilizing the recently introduced Flag Median problem. The estimator in our loss function favors the pairs that preserve the norm of the difference vector. We theoretically show that our approach enhances the robustness of state-of-the-art byzantine resilient aggregators. Also, we evaluate our method with different tasks in a distributed setup with a parameter server architecture and show its communication efficiency while maintaining similar accuracy. The code is publicly available at https://github.com/hamidralmasi/FlagAggregator
翻訳日:2023-02-14 18:06:06 公開日:2023-02-12
# 「なぜこの誤解を招くのか?」:解説によるニュース見出しの幻覚の検出

"Why is this misleading?": Detecting News Headline Hallucinations with Explanations ( http://arxiv.org/abs/2302.05852v1 )

ライセンス: Link先を確認
Jiaming Shen, Jialu Liu, Dan Finnie, Negar Rahmati, Michael Bendersky, Marc Najork(参考訳) 自動見出し生成は,現在進行中のニュースイベントを素早く理解し,Webマイニングや自然言語処理において重要なタスクとなっている。 With the growing need for news headline generation, we argue that the hallucination issue, namely the generated headlines being not supported by the original news stories, is a critical challenge for the deployment of this feature in web-scale systems Meanwhile, due to the infrequency of hallucination cases and the requirement of careful reading for raters to reach the correct consensus, it is difficult to acquire a large dataset for training a model to detect such hallucinations through human curation. 本稿では,ヘッドライン幻覚検出の課題に対処するため,ExHalderという新しいフレームワークを提案する。 ExHalderは、公開自然言語推論データセットからの知識をニュースドメインに適応させ、幻覚検出結果を説明するために自然言語文を生成することを学ぶ。 モデル性能を評価するために,6万以上のラベル付き<article,headline>ペアのデータセットを注意深く収集する。 このデータセットと他の6つの公開実験は、ExHalderが幻覚した見出しを正確に識別し、その予測を人間が読める自然言語の説明で正当化できることを示しています。

Automatic headline generation enables users to comprehend ongoing news events promptly and has recently become an important task in web mining and natural language processing. With the growing need for news headline generation, we argue that the hallucination issue, namely the generated headlines being not supported by the original news stories, is a critical challenge for the deployment of this feature in web-scale systems Meanwhile, due to the infrequency of hallucination cases and the requirement of careful reading for raters to reach the correct consensus, it is difficult to acquire a large dataset for training a model to detect such hallucinations through human curation. In this work, we present a new framework named ExHalder to address this challenge for headline hallucination detection. ExHalder adapts the knowledge from public natural language inference datasets into the news domain and learns to generate natural language sentences to explain the hallucination detection results. To evaluate the model performance, we carefully collect a dataset with more than six thousand labeled <article, headline> pairs. Extensive experiments on this dataset and another six public ones demonstrate that ExHalder can identify hallucinated headlines accurately and justifies its predictions with human-readable natural language explanations.
翻訳日:2023-02-14 18:05:49 公開日:2023-02-12
# 分散次元を持つ非パラメトリック相互作用モデルのためのディープニューラルネットワーク

Deep Neural Networks for Nonparametric Interaction Models with Diverging Dimension ( http://arxiv.org/abs/2302.05851v1 )

ライセンス: Link先を確認
Sohom Bhattacharya, Jianqing Fan and Debarghya Mukherjee(参考訳) ディープニューラルネットワークは、その表現力と低次元構造への適応によって大きな成功を収めた。 構造化回帰関数を推定する可能性は最近文献で確立されている。 しかし、ほとんどの研究は入力次元を固定し、従って収束率に対する次元の影響を無視し、その応用を高次元の現代ビッグデータに適用することを要求している。 本稿では,拡大次元シナリオ(d$は$n$で成長するが,遅いレートで成長する)と高次元(d$gtrsim n$)の両方において,k^{th}$の非パラメトリック相互作用モデルを分析することにより,このギャップを埋める。 後者の場合、最適収束率を得るためにスパーシティ仮定と関連する正規化が必要である。 次元変化の新たな課題は平均二乗誤差の計算であり、推定加法成分間の共分散項は、分散の次数よりも大きく、適切な注意なしに統計的性質を劣化させることができる。 我々はこの問題を修正するために批判的デバイアス手法を導入する。 特定の標準仮定の下では、デバイアスドディープニューラルネットワークは、どちらも$(n, d)$という条件で、最小値の最適値を達成する。 提案手法は, 平均二乗誤差計算において加法成分の共分散を無視できる新しいデバイアス手法に依存している。 さらに、一致した下界を確立する。

Deep neural networks have achieved tremendous success due to their representation power and adaptation to low-dimensional structures. Their potential for estimating structured regression functions has been recently established in the literature. However, most of the studies require the input dimension to be fixed and consequently ignore the effect of dimension on the rate of convergence and hamper their applications to modern big data with high dimensionality. In this paper, we bridge this gap by analyzing a $k^{th}$ order nonparametric interaction model in both growing dimension scenarios ($d$ grows with $n$ but at a slower rate) and in high dimension ($d \gtrsim n$). In the latter case, sparsity assumptions and associated regularization are required in order to obtain optimal rates of convergence. A new challenge in diverging dimension setting is in calculation mean-square error, the covariance terms among estimated additive components are an order of magnitude larger than those of the variances and they can deteriorate statistical properties without proper care. We introduce a critical debiasing technique to amend the problem. We show that under certain standard assumptions, debiased deep neural networks achieve a minimax optimal rate both in terms of $(n, d)$. Our proof techniques rely crucially on a novel debiasing technique that makes the covariances of additive components negligible in the mean-square error calculation. In addition, we establish the matching lower bounds.
翻訳日:2023-02-14 18:05:31 公開日:2023-02-12
# 文法的誤り訂正のための拡張シーケンスタグ付け語彙

An Extended Sequence Tagging Vocabulary for Grammatical Error Correction ( http://arxiv.org/abs/2302.05913v1 )

ライセンス: Link先を確認
Stuart Mesham, Christopher Bryant, Marek Rei, Zheng Yuan(参考訳) 我々は,SymSpell と LemmInflect アルゴリズムを用いて,スペル補正と形態的インフレクションのための特別なタグを導入することで,現在のシーケンスタグ手法を文法誤差補正 (GEC) に拡張する。 提案する新しいタグセットは、より少ない数のタグで、より広い範囲のエラーを修正することができる。 その結果、全体的なエラーカテゴリとターゲットエラーカテゴリの両方でパフォーマンスが向上した。 さらに、私たちの新しいタグセットでトレーニングされたアンサンブルは、パブリックBEAベンチマークでトレーニングされたベースラインタグセットよりも優れています。

We extend a current sequence-tagging approach to Grammatical Error Correction (GEC) by introducing specialised tags for spelling correction and morphological inflection using the SymSpell and LemmInflect algorithms. Our approach improves generalisation: the proposed new tagset allows a smaller number of tags to correct a larger range of errors. Our results show a performance improvement both overall and in the targeted error categories. We further show that ensembles trained with our new tagset outperform those trained with the baseline tagset on the public BEA benchmark.
翻訳日:2023-02-14 17:59:15 公開日:2023-02-12
# liplearner: モバイルデバイス上のサイレント音声インタラクションをカスタマイズする

LipLearner: Customizable Silent Speech Interactions on Mobile Devices ( http://arxiv.org/abs/2302.05907v1 )

ライセンス: Link先を確認
Zixiong Su, Shitao Fang, Jun Rekimoto(参考訳) silent speech interfaceは、自然言語でプライベートなコミュニケーションを可能にする有望な技術である。 しかし、以前のアプローチでは、小さく柔軟性のない語彙しかサポートしておらず、表現力に制限がある。 コントラスト学習を活用して効率の良いリップリーディング表現を学習し、最小限のユーザ労力で数ショットのコマンドのカスタマイズを可能にします。 本モデルでは, 照明, 姿勢, ジェスチャー条件の異なるデータセットに対して高いロバスト性を示す。 25コマンドの分類では、f1-score 0.8947は1ショットのみを使用して達成可能であり、より多くのデータから適応的に学習することで性能をさらに向上させることができる。 この一般化により、デバイス上での微調整と視覚的キーワードスポッティングによるモバイルサイレント音声インタフェースの開発が可能となった。 ユーザ調査によれば、liplearnerを使えば、オンラインのインクリメンタルな学習方式によって、信頼性の高い独自のコマンドを定義することができる。 主観的フィードバックは,高いユーザビリティと学習性を備えた音声対話をカスタマイズする上で,本システムは必須の機能であることを示した。

Silent speech interface is a promising technology that enables private communications in natural language. However, previous approaches only support a small and inflexible vocabulary, which leads to limited expressiveness. We leverage contrastive learning to learn efficient lipreading representations, enabling few-shot command customization with minimal user effort. Our model exhibits high robustness to different lighting, posture, and gesture conditions on an in-the-wild dataset. For 25-command classification, an F1-score of 0.8947 is achievable only using one shot, and its performance can be further boosted by adaptively learning from more data. This generalizability allowed us to develop a mobile silent speech interface empowered with on-device fine-tuning and visual keyword spotting. A user study demonstrated that with LipLearner, users could define their own commands with high reliability guaranteed by an online incremental learning scheme. Subjective feedback indicated that our system provides essential functionalities for customizable silent speech interactions with high usability and learnability.
翻訳日:2023-02-14 17:59:03 公開日:2023-02-12
# データバイアス下における公正分類器のテストと比較について

On Testing and Comparing Fair classifiers under Data Bias ( http://arxiv.org/abs/2302.05906v1 )

ライセンス: Link先を確認
Mohit Sharma, Amit Deshpande, Rajiv Ratn Shah(参考訳) 本稿では,データバイアス,すなわち自己表現とラベルバイアス(blum & stangl, 2019)を注入するための理論的モデルを検討する。 公平な分類器の精度と公平性に対するその効果を理論的に実証的に研究する。 理論的には、ベイズ最適群対応公正分類器は、バイアス注入分布における慎重に選択された相対損失を最小限に抑えることで、元のデータ分布を復元できることを示す。 合成および実世界のデータセット(例えば、アダルト、ドイツ信用、銀行マーケティング、CompAS)の広範な実験を通じて、トレーニングデータ(ただし、テストデータではなく)に様々な量の下位表現とラベルバイアスを注入することにより、標準フェアネスツールキットから、事前、内、後処理の公正分類を実証的に監査する。 Our main observations are: (1) The fairness and accuracy of many standard fair classifiers degrade severely as the bias injected in their training data increases, (2) A simple logistic regression model trained on the right data can often outperform, in both accuracy and fairness, most fair classifiers trained on biased training data, and (3) A few, simple fairness techniques (e.g., reweighing, exponentiated gradients) seem to offer stable accuracy and fairness guarantees even when their training data is injected with under-representation and label bias. 我々の実験は、既存のフェアネスダッシュボードにデータバイアスリスクの尺度を統合する方法も示している。

In this paper, we consider a theoretical model for injecting data bias, namely, under-representation and label bias (Blum & Stangl, 2019). We theoretically and empirically study its effect on the accuracy and fairness of fair classifiers. Theoretically, we prove that the Bayes optimal group-aware fair classifier on the original data distribution can be recovered by simply minimizing a carefully chosen reweighed loss on the bias-injected distribution. Through extensive experiments on both synthetic and real-world datasets (e.g., Adult, German Credit, Bank Marketing, COMPAS), we empirically audit pre-, in-, and post-processing fair classifiers from standard fairness toolkits for their fairness and accuracy by injecting varying amounts of under-representation and label bias in their training data (but not the test data). Our main observations are: (1) The fairness and accuracy of many standard fair classifiers degrade severely as the bias injected in their training data increases, (2) A simple logistic regression model trained on the right data can often outperform, in both accuracy and fairness, most fair classifiers trained on biased training data, and (3) A few, simple fairness techniques (e.g., reweighing, exponentiated gradients) seem to offer stable accuracy and fairness guarantees even when their training data is injected with under-representation and label bias. Our experiments also show how to integrate a measure of data bias risk in the existing fairness dashboards for real-world deployments
翻訳日:2023-02-14 17:58:44 公開日:2023-02-12
# 単一運動拡散

Single Motion Diffusion ( http://arxiv.org/abs/2302.05905v1 )

ライセンス: Link先を確認
Sigal Raab, Inbal Leibovitch, Guy Tevet, Moab Arar, Amit H. Bermano, and Daniel Cohen-Or(参考訳) 人間、動物、さらには想像上の生き物のリアルなアニメーションを合成することは、アーティストやコンピュータグラフィックスの専門家にとって長年の目標だった。 利用可能なデータセットが豊富にある画像領域と比較して、動き領域のデータインスタンスの数は限られており、特にユニークな骨格と動きパターンを持つ動物やエキゾチックな生物(例えばドラゴン)のアニメーションに限られている。 本研究では,SinMDMと呼ばれる単一運動拡散モデルを提案する。これは,任意の位相を持つ単一運動列の内部モチーフを学習し,それらに忠実な任意の長さの運動を合成するモデルである。 拡散モデルのパワーを活用し、単一の入力動作から学習するタスク用に特別に設計された分節ネットワークを提案する。 変換器をベースとしたアーキテクチャは,受動的場を狭める局所的な注意層を用いることで過度な適合を回避し,相対的な位置埋め込みを用いて動きの多様性を促進する。 SinMDMは、空間的および時間的相互関係、モーション展開、スタイル転送、群衆アニメーションなど、さまざまな状況に適用することができる。 以上の結果から,SinMDMは品質と時間空間効率の両方で既存手法よりも優れていた。 さらに、現在のアプローチでは、異なるアプリケーションのための追加のトレーニングが必要ですが、私たちの作業は推論時にこれらのアプリケーションを容易にします。 私たちのコードとトレーニングされたモデルはhttps://sinmdm.github.io/sinmdm-pageで利用可能です。

Synthesizing realistic animations of humans, animals, and even imaginary creatures, has long been a goal for artists and computer graphics professionals. Compared to the imaging domain, which is rich with large available datasets, the number of data instances for the motion domain is limited, particularly for the animation of animals and exotic creatures (e.g., dragons), which have unique skeletons and motion patterns. In this work, we present a Single Motion Diffusion Model, dubbed SinMDM, a model designed to learn the internal motifs of a single motion sequence with arbitrary topology and synthesize motions of arbitrary length that are faithful to them. We harness the power of diffusion models and present a denoising network designed specifically for the task of learning from a single input motion. Our transformer-based architecture avoids overfitting by using local attention layers that narrow the receptive field, and encourages motion diversity by using relative positional embedding. SinMDM can be applied in a variety of contexts, including spatial and temporal in-betweening, motion expansion, style transfer, and crowd animation. Our results show that SinMDM outperforms existing methods both in quality and time-space efficiency. Moreover, while current approaches require additional training for different applications, our work facilitates these applications at inference time. Our code and trained models are available at https://sinmdm.github.io/SinMDM-page.
翻訳日:2023-02-14 17:58:17 公開日:2023-02-12
# 構造アダプタを用いたAMR-テキスト生成における相対的位置埋め込みの効果の検討

Investigating the Effect of Relative Positional Embeddings on AMR-to-Text Generation with Structural Adapters ( http://arxiv.org/abs/2302.05900v1 )

ライセンス: Link先を確認
Sebastien Montella, Alexis Nasr, Johannes Heinecke, Frederic Bechet, Lina M. Rojas-Barahona(参考訳) AMR(Abstract Meaning Representation)によるテキスト生成は、広く普及しているPLM(Pretrained Language Models)の恩恵を受けている。 マイリアッドアプローチは、PLMトークン化要求に適合するトークンの列として入力グラフを線形化している。 しかし、この変換はグラフの構造的整合性を損なうため、結果として得られる表現に有害である。 この問題を解決するため、Ribeiroらは最近、Graph Neural Networks (GNN)を使用してPLM内に入力グラフ接続を注入する構造対応アダプタであるStructAdaptを提案した。 本稿では,AMR-to-Textにおける相対的位置埋め込み(RPE)の影響について検討し,StructAdaptのロバスト性について検討する。 アブレーション研究、グラフアタック、リンク予測を通じて、RPEが部分的に入力グラフを符号化していることを明らかにする。 RPEの役割に関するさらなる研究は、グラフからテキストへの生成に有用な洞察を提供するだろう。

Text generation from Abstract Meaning Representation (AMR) has substantially benefited from the popularized Pretrained Language Models (PLMs). Myriad approaches have linearized the input graph as a sequence of tokens to fit the PLM tokenization requirements. Nevertheless, this transformation jeopardizes the structural integrity of the graph and is therefore detrimental to its resulting representation. To overcome this issue, Ribeiro et al. have recently proposed StructAdapt, a structure-aware adapter which injects the input graph connectivity within PLMs using Graph Neural Networks (GNNs). In this paper, we investigate the influence of Relative Position Embeddings (RPE) on AMR-to-Text, and, in parallel, we examine the robustness of StructAdapt. Through ablation studies, graph attack and link prediction, we reveal that RPE might be partially encoding input graphs. We suggest further research regarding the role of RPE will provide valuable insights for Graph-to-Text generation.
翻訳日:2023-02-14 17:57:55 公開日:2023-02-12
# 不確かさを減らす方法としての絡み合い

Entanglement as a Method to Reduce Uncertainty ( http://arxiv.org/abs/2302.05898v1 )

ライセンス: Link先を確認
Diederik Aerts, Jonito Aerts Arg\"elles, Lester Beltran, Suzette Geriente and Sandro Sozzo(参考訳) 物理学では、エントロピーのエントロピー(von neumann)、例えば、純粋なエントロピー状態における複合二成分のエントロピーは、成分サブエントロピーのエントロピーよりも体系的に低いため、エントロピーのエントロピーは「減少」する。 この「構成の結果、エントロピーの非古典的還元」は、2つの概念が人間の認知に結合するたびにも成立し、より一般的には人間文化において有効であることを示す。 これらの結果を利用し, 絡み合いの性質に基づく「新しい仮説」を導出する。すなわち, 合成実体の合成における絡み合いの生成は, 合成実体が純粋な状態であり, 純度が非純度, 密度, 状態であることから, 「不確実性を低減するための部分実体間の協調の力学的過程」と見なすことができる。 この絡み合いの性質の中で、コンテキスト更新のメカニズムを特定し、分析した例でそのメカニズムを説明する。 この仮説は、ベル型相関によるように、いくつかの量子論理接続の「非古典的性質」を自然に説明できる。

In physics, entanglement 'reduces' the entropy of an entity, because the (von Neumann) entropy of, e.g., a composite bipartite entity in a pure entangled state is systematically lower than the entropy of the component sub-entities. We show here that this 'genuinely non-classical reduction of entropy as a result of composition' also holds whenever two concepts combine in human cognition and, more generally, it is valid in human culture. We exploit these results and make a 'new hypothesis' on the nature of entanglement, namely, the production of entanglement in the preparation of a composite entity can be seen as a 'dynamical process of collaboration between its sub-entities to reduce uncertainty', because the composite entity is in a pure state while its sub-entities are in a non-pure, or density, state, as a result of the preparation. We identify within the nature of this entanglement a mechanism of contextual updating and illustrate the mechanism in the example we analyze. Our hypothesis naturally explains the 'non-classical nature' of some quantum logical connectives, as due to Bell-type correlations.
翻訳日:2023-02-14 17:57:39 公開日:2023-02-12
# 対話における事前学習および微調整言語モデルからの談話構造抽出

Discourse Structure Extraction from Pre-Trained and Fine-Tuned Language Models in Dialogues ( http://arxiv.org/abs/2302.05895v1 )

ライセンス: Link先を確認
Chuyuan Li, Patrick Huber, Wen Xiao, Maxime Amblard, Chlo\'e Braud, Giuseppe Carenini(参考訳) 談話処理は、特に対話において、データのスパーシティに苦しむ。 その結果,事前学習言語モデル(PLM)の注意行列に基づいて対話のための談話構造を構築する手法を検討した。 微調整のための複数のタスクを調査し,対話対応文順序付けタスクが最良であることを示す。 PLMにおける談話情報の発見と活用を目的として,教師なし,半教師なしの手法を提案する。 提案手法はSTACコーパスにおいて,F1スコアが57.2と59.3であり,教師なしおよび半教師なしの手法である。 投射木に限定すると, スコアは63.3と68.1に改善した。

Discourse processing suffers from data sparsity, especially for dialogues. As a result, we explore approaches to build discourse structures for dialogues, based on attention matrices from Pre-trained Language Models (PLMs). We investigate multiple tasks for fine-tuning and show that the dialogue-tailored Sentence Ordering task performs best. To locate and exploit discourse information in PLMs, we propose an unsupervised and a semi-supervised method. Our proposals achieve encouraging results on the STAC corpus, with F1 scores of 57.2 and 59.3 for unsupervised and semi-supervised methods, respectively. When restricted to projective trees, our scores improved to 63.3 and 68.1.
翻訳日:2023-02-14 17:57:16 公開日:2023-02-12
# マルチモーダル融合法を用いた認知症診断のためのニューラルアーキテクチャ探索

Neural Architecture Search with Multimodal Fusion Methods for Diagnosing Dementia ( http://arxiv.org/abs/2302.05894v1 )

ライセンス: Link先を確認
Michail Chatzianastasis, Loukas Ilias, Dimitris Askounis, Michalis Vazirgiannis(参考訳) アルツハイマー認知症(ad)は記憶、思考、言語に影響を与え、人の生活を悪化させる。 早期診断は、医療援助を受け、生活の質を確保するために非常に重要である。 そこで,AD患者認識のための機械学習手法と併用した自然発話の活用が注目されている。 以前の研究のほとんどは、入力信号を処理するために畳み込みニューラルネットワーク(cnns)を使用している。 しかし、CNNアーキテクチャを見つけるのは時間を要するプロセスであり、ドメインの専門知識を必要とする。 さらに, 異なるモーダルを融合させたり, 訓練中に異なるモーダルの表現を結合させたりするために, 早期および後期の融合アプローチを導入する。 これらの制限に対処するために、まず、ニューラルネットワークサーチ(NAS)手法を使用して、高性能CNNアーキテクチャを自動的に見つける。 次に,マルチモーダル因子化バイリニアポーリングやタッカー分解などの融合手法を用いて,音声とテキストの両モードを組み合わせる。 我々の知る限り、自然発話による認知症検出作業におけるNASアプローチとこれらの融合手法を利用した先行研究は存在しない。 我々はADReSS Challengeデータセット上で広範な実験を行い、最先端手法に対するアプローチの有効性を示す。

Alzheimer's dementia (AD) affects memory, thinking, and language, deteriorating person's life. An early diagnosis is very important as it enables the person to receive medical help and ensure quality of life. Therefore, leveraging spontaneous speech in conjunction with machine learning methods for recognizing AD patients has emerged into a hot topic. Most of the previous works employ Convolutional Neural Networks (CNNs), to process the input signal. However, finding a CNN architecture is a time-consuming process and requires domain expertise. Moreover, the researchers introduce early and late fusion approaches for fusing different modalities or concatenate the representations of the different modalities during training, thus the inter-modal interactions are not captured. To tackle these limitations, first we exploit a Neural Architecture Search (NAS) method to automatically find a high performing CNN architecture. Next, we exploit several fusion methods, including Multimodal Factorized Bilinear Pooling and Tucker Decomposition, to combine both speech and text modalities. To the best of our knowledge, there is no prior work exploiting a NAS approach and these fusion methods in the task of dementia detection from spontaneous speech. We perform extensive experiments on the ADReSS Challenge dataset and show the effectiveness of our approach over state-of-the-art methods.
翻訳日:2023-02-14 17:57:04 公開日:2023-02-12
# TextDefense:単語の重要度エントロピーに基づく逆テキスト検出

TextDefense: Adversarial Text Detection based on Word Importance Entropy ( http://arxiv.org/abs/2302.05892v1 )

ライセンス: Link先を確認
Lujia Shen, Xuhong Zhang, Shouling Ji, Yuwen Pu, Chunpeng Ge, Xing Yang, Yanghe Feng(参考訳) 現在、自然言語処理(NLP)モデルは様々なシナリオで広く使われている。 しかし、nlpモデルは全ての深層モデルと同様に、敵対的に生成されたテキストに対して脆弱である。 敵の攻撃から脆弱性を緩和する研究が数多く行われている。 しかし、既存の作業では、各作業が特定の攻撃カテゴリをターゲットにしているか、あるいは、適応攻撃とは無関係な計算オーバーヘッドの制限に悩まされているような包括的な防御は存在しない。 本稿では,NLPにおける逆攻撃アルゴリズムを徹底的に検討し,本手法がテキスト中の単語の重要性の分布を阻害することを発見した。 よく訓練されたモデルは、クリーンテキストと逆テキストの微妙な重要性分布の違いを区別することができる。 この直感に基づくTextDefenseは,先行知識を必要とせず,敵の攻撃を防御するターゲットモデルの能力を利用した,新たな敵のサンプル検出フレームワークである。 テキスト防御は、ターゲットモデルを検出に利用し、攻撃タイプに依存しない以前のアプローチと異なる。 我々の広範な実験により、テキスト防御は異なるアーキテクチャ、データセット、攻撃メソッドに適用でき、既存のメソッドよりも優れています。 また,TextDefenseの性能に影響を及ぼす要因が対象モデルの一般化可能であることも確認した。 対象モデルの特性と敵の例の性質を分析することで、我々はnlpにおける敵の攻撃と我々の防御方法の原則に関する洞察を提供する。

Currently, natural language processing (NLP) models are wildly used in various scenarios. However, NLP models, like all deep models, are vulnerable to adversarially generated text. Numerous works have been working on mitigating the vulnerability from adversarial attacks. Nevertheless, there is no comprehensive defense in existing works where each work targets a specific attack category or suffers from the limitation of computation overhead, irresistible to adaptive attack, etc. In this paper, we exhaustively investigate the adversarial attack algorithms in NLP, and our empirical studies have discovered that the attack algorithms mainly disrupt the importance distribution of words in a text. A well-trained model can distinguish subtle importance distribution differences between clean and adversarial texts. Based on this intuition, we propose TextDefense, a new adversarial example detection framework that utilizes the target model's capability to defend against adversarial attacks while requiring no prior knowledge. TextDefense differs from previous approaches, where it utilizes the target model for detection and thus is attack type agnostic. Our extensive experiments show that TextDefense can be applied to different architectures, datasets, and attack methods and outperforms existing methods. We also discover that the leading factor influencing the performance of TextDefense is the target model's generalizability. By analyzing the property of the target model and the property of the adversarial example, we provide our insights into the adversarial attacks in NLP and the principles of our defense method.
翻訳日:2023-02-14 17:56:42 公開日:2023-02-12
# Digging Deeper: ブール関数の非線形性を最適化する演算子解析

Digging Deeper: Operator Analysis for Optimizing Nonlinearity of Boolean Functions ( http://arxiv.org/abs/2302.05890v1 )

ライセンス: Link先を確認
Marko Djurasevic, Domagoj Jakobovic, Luca Mariot, Stjepan Picek(参考訳) ブール関数(boolean function)は、符号理論、暗号、通信といった分野に多くの応用がある数学的対象である。 特定の性質を持つブール関数を見つけることは複素組合せ最適化問題であり、探索空間は入力変数の数で超指数的に増加する。 共通の性質の一つはブール函数の非線形性である。 高非線形ブール関数の構築は、実際にどの非線形性値に到達できるかが常に分かっていないため困難である。 本稿では,ビットストリング符号化における遺伝的演算子の非線形性を最適化する効果について検討する。 いくつかの突然変異と交叉操作が一般的に用いられているが、それらが操作する遺伝子型と結果として生じる表現型の変化の関連性はほとんど不明である。 操作者が目的空間における特定の遷移の相対的確率と同様に、可能な変化の範囲を観測することで、この情報を利用してより効果的な遺伝的操作者の組み合わせを設計することができる。 解析は演算子の有効性に関する興味深い知見を示し、演算子非依存の遺伝的アルゴリズムと比較してアルゴリズム設計が収束性をどのように改善するかを示す。

Boolean functions are mathematical objects with numerous applications in domains like coding theory, cryptography, and telecommunications. Finding Boolean functions with specific properties is a complex combinatorial optimization problem where the search space grows super-exponentially with the number of input variables. One common property of interest is the nonlinearity of Boolean functions. Constructing highly nonlinear Boolean functions is difficult as it is not always known what nonlinearity values can be reached in practice. In this paper, we investigate the effects of the genetic operators for bit-string encoding in optimizing nonlinearity. While several mutation and crossover operators have commonly been used, the link between the genotype they operate on and the resulting phenotype changes is mostly obscure. By observing the range of possible changes an operator can provide, as well as relative probabilities of specific transitions in the objective space, one can use this information to design a more effective combination of genetic operators. The analysis reveals interesting insights into operator effectiveness and indicates how algorithm design may improve convergence compared to an operator-agnostic genetic algorithm.
翻訳日:2023-02-14 17:56:20 公開日:2023-02-12
# $\mathbb{R}$上のワイドニューラルネットワークの一般化能力

Generalization Ability of Wide Neural Networks on $\mathbb{R}$ ( http://arxiv.org/abs/2302.05933v1 )

ライセンス: Link先を確認
Jianfa Lai, Manyun Xu, Rui Chen and Qian Lin(参考訳) 広帯域2層ReLUニューラルネットワークの一般化能力について,$\mathbb{R}$上で検討する。 まず、神経接核(NTK):$a)$$K_{d}$、$\mathbb{R}^{d}$で定義されるNTKは正定値、$b)$$$\lambda_{i}(K_{1})$、$K_{1}$の$i$-最大の固有値は$i^{-2}$に比例する。 i)$ 幅$m\rightarrow\infty$ ニューラルネットワークカーネル (nnk) が ntk に一様に収束する; $ii)$k_{1}$ に関連する rkhs 上の最小回帰率 (minimax rate) が $n^{-2/3}$; $iii)$ 広いニューラルネットワークのトレーニングで早期停止戦略を採用すると、結果のニューラルネットワークがminimaxレートを達成する; $iv)$ データを満たすまでニューラルネットワークをトレーニングすれば、ニューラルネットワークはうまく一般化できない。 最後に、我々の理論と広く観察されている「良性過剰適合現象」を解明するための説明を与える。

We perform a study on the generalization ability of the wide two-layer ReLU neural network on $\mathbb{R}$. We first establish some spectral properties of the neural tangent kernel (NTK): $a)$ $K_{d}$, the NTK defined on $\mathbb{R}^{d}$, is positive definite; $b)$ $\lambda_{i}(K_{1})$, the $i$-th largest eigenvalue of $K_{1}$, is proportional to $i^{-2}$. We then show that: $i)$ when the width $m\rightarrow\infty$, the neural network kernel (NNK) uniformly converges to the NTK; $ii)$ the minimax rate of regression over the RKHS associated to $K_{1}$ is $n^{-2/3}$; $iii)$ if one adopts the early stopping strategy in training a wide neural network, the resulting neural network achieves the minimax rate; $iv)$ if one trains the neural network till it overfits the data, the resulting neural network can not generalize well. Finally, we provide an explanation to reconcile our theory and the widely observed ``benign overfitting phenomenon''.
翻訳日:2023-02-14 17:50:38 公開日:2023-02-12
# ショット対話状態追跡のための事前学習言語モデルによる文脈内安定化学習

Stabilized In-Context Learning with Pre-trained Language Models for Few Shot Dialogue State Tracking ( http://arxiv.org/abs/2302.05932v1 )

ライセンス: Link先を確認
Derek Chen, Kun Qian, Zhou Yu(参考訳) 大規模事前学習型言語モデル(PLM)を用いたプロンプトベースの手法は,多くのNLPタスクにおいて顕著な性能を示した。 これらのモデルは、出力生成をガイドするためにいくつかのラベル付きインコンテキストの例を付加することでさらに改善される。 しかし、対話状態追跡(dst)のようなより複雑なタスクの場合、望ましい意図を確実に伝達するプロンプトの設計は非自明であり、不安定な結果をもたらす。 さらに,会話の文脈が長く,入力長が比較的短いため,対話タスクのコンテキスト内例を構築することは困難である。 これらの問題を克服するために,まず,対話領域にメタ学習方式を適用し,様々なプロンプトでモデルの性能を安定させる。 また,バニラ検索機構の改善のための新しいトレーニング手法を設計し,理想的なインコンテキストの例を見つける。 最後に,対話文の長さを制限し,クエリ毎により多くのexemplarsを含めるように,サリエンシーモデルを導入する。 事実上,MultiWOZ上でのDSTにおいて,非常に競争力のある結果が得られる。

Prompt-based methods with large pre-trained language models (PLMs) have shown impressive unaided performance across many NLP tasks. These models improve even further with the addition of a few labeled in-context exemplars to guide output generation. However, for more complex tasks such as dialogue state tracking (DST), designing prompts that reliably convey the desired intent is nontrivial, leading to unstable results. Furthermore, building in-context exemplars for dialogue tasks is difficult because conversational contexts are long while model input lengths are relatively short. To overcome these issues we first adapt a meta-learning scheme to the dialogue domain which stabilizes the ability of the model to perform well under various prompts. We additionally design a novel training method to improve upon vanilla retrieval mechanisms to find ideal in-context examples. Finally, we introduce a saliency model to limit dialogue text length, allowing us to include more exemplars per query. In effect, we are able to achieve highly competitive results for few-shot DST on MultiWOZ.
翻訳日:2023-02-14 17:50:10 公開日:2023-02-12
# SCLIFD:限られた断層データに基づくインクリメンタル断層診断のための改良された比較知識蒸留法

SCLIFD:Supervised Contrastive Knowledge Distillation for Incremental Fault Diagnosis under Limited Fault Data ( http://arxiv.org/abs/2302.05929v1 )

ライセンス: Link先を確認
Peng Peng, Hanrong Zhang, Mengxuan Li, Gongzhuang Peng, Hongwei Wang, Weiming Shen(参考訳) インテリジェント障害診断は、現在非常に進歩している。 それにもかかわらず、限られた断層データ、すなわち不均衡と長い尾の故障診断の下での断層診断のためのクラスインクリメンタルな学習に取り組む研究はほとんどない。 当初、限定された障害データから識別的特徴を抽出することは困難である。 さらに、十分に訓練されたモデルをスクラッチから再トレーニングし、新しいクラスからサンプルを分類する必要があるため、高い計算負荷と時間消費を引き起こす。 さらに、モデルは漸進的に訓練されたときに破滅的な忘れ込みに悩まされることがある。 最後に、モデル決定はクラスの不均衡のために新しいクラスに偏りがある。 その結果,故障診断モデルの性能低下につながる可能性がある。 そこで本研究では,これらの問題に対処するため,SCLIFDフレームワークに基づくインクリメンタル・フォールト診断のための教師付きコントラスト知識蒸留を導入し,古典的インクリメンタル・クラシファイアと表現学習(iCaRL)フレームワークを3つの観点から拡張した。 主に,kd(supervised contrastive knowledge distillation)を採用し,限定的障害データ下での表現学習能力を高める。 さらに, 計算負荷の増大を抑制するために, また, KDと組み合わせることで, 破滅的な忘れを緩和する, 適応型Hedding (AdaHerding) を優先的に提案する。 さらに,クラス不均衡の悪影響を軽減するために,コサイン分類器を採用する。 異なる不均衡率の下でシミュレーションおよび実世界の産業プロセスに関する広範な実験を行う。 実験結果から, SCLIFDは既存の手法よりも高い性能を示した。

Intelligent fault diagnosis has made extraordinary advancements currently. Nonetheless, few works tackle class-incremental learning for fault diagnosis under limited fault data, i.e., imbalanced and long-tailed fault diagnosis, which brings about various notable challenges. Initially, it is difficult to extract discriminative features from limited fault data. Moreover, a well-trained model must be retrained from scratch to classify the samples from new classes, thus causing a high computational burden and time consumption. Furthermore, the model may suffer from catastrophic forgetting when trained incrementally. Finally, the model decision is biased toward the new classes due to the class imbalance. The problems can consequently lead to performance degradation of fault diagnosis models. Accordingly, we introduce a supervised contrastive knowledge distillation for incremental fault diagnosis under limited fault data (SCLIFD) framework to address these issues, which extends the classical incremental classifier and representation learning (iCaRL) framework from three perspectives. Primarily, we adopt supervised contrastive knowledge distillation (KD) to enhance its representation learning capability under limited fault data. Moreover, we propose a novel prioritized exemplar selection method adaptive herding (AdaHerding) to restrict the increase of the computational burden, which is also combined with KD to alleviate catastrophic forgetting. Additionally, we adopt the cosine classifier to mitigate the adverse impact of class imbalance. We conduct extensive experiments on simulated and real-world industrial processes under different imbalance ratios. Experimental results show that our SCLIFD outperforms the existing methods by a large margin.
翻訳日:2023-02-14 17:49:53 公開日:2023-02-12
# ベイズ最適化のための転送学習:調査

Transfer Learning for Bayesian Optimization: A Survey ( http://arxiv.org/abs/2302.05927v1 )

ライセンス: Link先を確認
Tianyi Bai, Yang Li, Yu Shen, Xinyi Zhang, Wentao Zhang, and Bin Cui(参考訳) パラメータチューニング、A/Bテスト、薬物設計を含む幅広い設計と決定の問題は、本質的にブラックボックス最適化の例である。 ベイズ最適化(BO)は、このような高価なブラックボックス機能をモデル化し最適化する強力なツールである。 しかし、最適化の開始時、バニラ・ベイズ最適化法は、少数の試行に基づく不正確なモデリングのために、しばしば収束の遅い問題に苦しむ。 この問題に対処するため、BOコミュニティの研究者らは、転送学習の精神を取り入れて最適化プロセスを加速し、過去のタスク(ソースタスク)から強みを借りて現在の最適化問題(ターゲットタスク)を加速させることを提案する。 本稿ではまず,ベイズ最適化のための移動学習手法について,初期点設計,探索空間設計,代理モデル,獲得関数の4点から要約する。 次に、それぞれのアプローチの方法論的側面と技術的な詳細を強調する。 最後に、幅広いアプリケーションを紹介し、将来的な方向性を示唆する。

A wide spectrum of design and decision problems, including parameter tuning, A/B testing and drug design, intrinsically are instances of black-box optimization. Bayesian optimization (BO) is a powerful tool that models and optimizes such expensive "black-box" functions. However, at the beginning of optimization, vanilla Bayesian optimization methods often suffer from slow convergence issue due to inaccurate modeling based on few trials. To address this issue, researchers in the BO community propose to incorporate the spirit of transfer learning to accelerate optimization process, which could borrow strength from the past tasks (source tasks) to accelerate the current optimization problem (target task). This survey paper first summarizes transfer learning methods for Bayesian optimization from four perspectives: initial points design, search space design, surrogate model, and acquisition function. Then it highlights its methodological aspects and technical details for each approach. Finally, it showcases a wide range of applications and proposes promising future directions.
翻訳日:2023-02-14 17:49:26 公開日:2023-02-12
# 物理情報WNO

Physics informed WNO ( http://arxiv.org/abs/2302.05925v1 )

ライセンス: Link先を確認
Navaneeth N and Tapas Tripura and Souvik Chakraborty(参考訳) ディープニューラル演算子は、複素偏微分方程式(pdes)の解演算子を学習するための有効なツールとして認識される。 精巧な分析ツールや計算ツールと比較して、1つのニューラル演算子は、初期条件や境界条件の異なる入力に対するPDEの解を予測できる。 最近提案されたウェーブレットニューラル演算子(WNO)は、ウェーブレットの時間周波数の局所化を利用して空間領域の多様体を効果的に捕捉する演算子である。 WNOは演算子学習の有望な方法であることが証明されているが、フレームワークのデータ不足は大きな欠点である。 本研究では,パラメトリックPDEのファミリーの解演算子をラベル付きトレーニングデータなしで学習するための物理インフォームドWNOを提案する。 この枠組みの有効性は, 工学・科学の様々な分野に関連する4つの非線形時空間系を用いて検証し, 実証した。

Deep neural operators are recognized as an effective tool for learning solution operators of complex partial differential equations (PDEs). As compared to laborious analytical and computational tools, a single neural operator can predict solutions of PDEs for varying initial or boundary conditions and different inputs. A recently proposed Wavelet Neural Operator (WNO) is one such operator that harnesses the advantage of time-frequency localization of wavelets to capture the manifolds in the spatial domain effectively. While WNO has proven to be a promising method for operator learning, the data-hungry nature of the framework is a major shortcoming. In this work, we propose a physics-informed WNO for learning the solution operators of families of parametric PDEs without labeled training data. The efficacy of the framework is validated and illustrated with four nonlinear spatiotemporal systems relevant to various fields of engineering and science.
翻訳日:2023-02-14 17:49:10 公開日:2023-02-12
# 変分3次元物体検出による不確かさ認識AB3DMOT

Uncertainty-Aware AB3DMOT by Variational 3D Object Detection ( http://arxiv.org/abs/2302.05923v1 )

ライセンス: Link先を確認
Illia Oleksiienko and Alexandros Iosifidis(参考訳) 自動運転は、世界の安全なナビゲーションを確保するために高品質な3Dオブジェクト検出に依存する必要がある。 不確実性推定は統計的に正確な予測を提供する効果的なツールであり、関連する検出不確実性はより安全なナビゲーションプロトコルの実装やループにユーザを含めるために使用できる。 本稿では,変分ニューラルネットワークを用いたTANet 3Dオブジェクト検出器を提案し,不確実性のある3Dオブジェクト検出を実現し,不確実性を考慮したAB3DMOTトラッカーに導入する。 これは、推定不確実性行列に線形変換を適用し、その後、採用したカルマンフィルタの測定ノイズとして使用される。 我々は,cnns出力の分散を計算し,その後処理を通じて不確実性を伝播し,外部に異なるサンプルの最終予測を関連付け,各予測ボックスの共分散を計算することにより,出力の不確実性を推定する2つの方法を実装した。 実験では,外的不確実性推定は,内部不確実性推定と古典的追跡手法の両方より優れた結果をもたらすことを示した。 さらに, 事前訓練されたTANetモデルを用いて, 変動型3次元物体検出器を初期化する手法を提案する。

Autonomous driving needs to rely on high-quality 3D object detection to ensure safe navigation in the world. Uncertainty estimation is an effective tool to provide statistically accurate predictions, while the associated detection uncertainty can be used to implement a more safe navigation protocol or include the user in the loop. In this paper, we propose a Variational Neural Network-based TANet 3D object detector to generate 3D object detections with uncertainty and introduce these detections to an uncertainty-aware AB3DMOT tracker. This is done by applying a linear transformation to the estimated uncertainty matrix, which is subsequently used as a measurement noise for the adopted Kalman filter. We implement two ways to estimate output uncertainty, i.e., internally, by computing the variance of the CNNs outputs and then propagating the uncertainty through the post-processing, and externally, by associating the final predictions of different samples and computing the covariance of each predicted box. In experiments, we show that the external uncertainty estimation leads to better results, outperforming both internal uncertainty estimation and classical tracking approaches. Furthermore, we propose a method to initialize the Variational 3D object detector with a pretrained TANet model, which leads to the best performing models.
翻訳日:2023-02-14 17:48:57 公開日:2023-02-12
# ディープブースティング決定木を用いた効率的な不正検出

Efficient Fraud Detection using Deep Boosting Decision Trees ( http://arxiv.org/abs/2302.05918v1 )

ライセンス: Link先を確認
Biao Xu, Yao Wang, Xiuwu Liao, Kaidong Wang(参考訳) 不正検出とは、複雑なデータから潜在的な不正行為を特定し、監視し、防止することである。 ai、特に機械学習の最近の開発と成功は、不正に対処する新しいデータ駆動方式を提供する。 方法論的観点から、機械学習に基づく不正検出は、従来の方法(決定木、強化木)とディープラーニングの2つのカテゴリに分けられる。 さらに, 検出された不正事件の頻度が高いため, 関連データは通常不均衡であり, 分類アルゴリズムの性能が著しく低下する。 本稿では,勾配ブースティングとニューラルネットワークに基づく不正検出の新しい手法として,DBDT(Deep boosting decision tree)を提案する。 従来の手法とディープラーニングの両方の利点を組み合わせるために,まず,ニューラルネットワークをノードとする決定木構造モデルであるソフト決定木(SDT)を構築し,さらに勾配向上のアイデアを用いてSDTをアンサンブルする。 このようにして、ニューラルネットワークを勾配向上に組み込んで表現学習能力を向上させるとともに、解釈可能性を維持する。 さらに,検出された不正事件の希少性に着目し,モデル学習段階において,アルゴリズムレベルでのデータ不均衡を扱うためのAUC最大化手法を提案する。 いくつかの実生活における不正検出データセットに対する大規模な実験により、DBDTは性能を大幅に改善し、高い解釈可能性を維持することができることが示された。 私たちのコードはhttps://github.com/freshmanxb/dbdtで利用可能です。

Fraud detection is to identify, monitor, and prevent potentially fraudulent activities from complex data. The recent development and success in AI, especially machine learning, provides a new data-driven way to deal with fraud. From a methodological point of view, machine learning based fraud detection can be divided into two categories, i.e., conventional methods (decision tree, boosting...) and deep learning, both of which have significant limitations in terms of the lack of representation learning ability for the former and interpretability for the latter. Furthermore, due to the rarity of detected fraud cases, the associated data is usually imbalanced, which seriously degrades the performance of classification algorithms. In this paper, we propose deep boosting decision trees (DBDT), a novel approach for fraud detection based on gradient boosting and neural networks. In order to combine the advantages of both conventional methods and deep learning, we first construct soft decision tree (SDT), a decision tree structured model with neural networks as its nodes, and then ensemble SDTs using the idea of gradient boosting. In this way we embed neural networks into gradient boosting to improve its representation learning capability and meanwhile maintain the interpretability. Furthermore, aiming at the rarity of detected fraud cases, in the model training phase we propose a compositional AUC maximization approach to deal with data imbalances at algorithm level. Extensive experiments on several real-life fraud detection datasets show that DBDT can significantly improve the performance and meanwhile maintain good interpretability. Our code is available at https://github.com/freshmanXB/DBDT.
翻訳日:2023-02-14 17:48:35 公開日:2023-02-12
# ベクトル量子化ワッサースタインオートエンコーダ

Vector Quantized Wasserstein Auto-Encoder ( http://arxiv.org/abs/2302.05917v1 )

ライセンス: Link先を確認
Tung-Long Vuong, Trung Le, He Zhao, Chuanxia Zheng, Mehrtash Harandi, Jianfei Cai, Dinh Phung(参考訳) 深い離散的な潜伏的なプレゼンテーションを学ぶことは、より優れたシンボリックで要約された抽象化を提供する。 量子化変分オートエンコーダ(VQ-VAE)にインスパイアされた深部離散表現の学習の多くは、元々のVQ-VAE形式の改善に重点を置いており、生成的視点から深部離散表現を学ぶことはほとんどない。 本研究では,生成的視点から深層離散表現を学習する。 具体的には、コードワードのシーケンス上の離散分布を付与し、それらの間のws距離を最小化することにより、コードワードのシーケンス上の分布をデータ分布に輸送する決定論的デコーダを学習する。 WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。 最後に,本手法をいくつかのよく知られたベンチマークで実証的に評価し,コードブックの利用率や画像再構成・生成率の観点から,他のVQ-VAE変種よりも質的,定量的な性能が得られることを示した。

Learning deep discrete latent presentations offers a promise of better symbolic and summarized abstractions that are more useful to subsequent downstream tasks. Inspired by the seminal Vector Quantized Variational Auto-Encoder (VQ-VAE), most of work in learning deep discrete representations has mainly focused on improving the original VQ-VAE form and none of them has studied learning deep discrete representations from the generative viewpoint. In this work, we study learning deep discrete representations from the generative viewpoint. Specifically, we endow discrete distributions over sequences of codewords and learn a deterministic decoder that transports the distribution over the sequences of codewords to the data distribution via minimizing a WS distance between them. We develop further theories to connect it with the clustering viewpoint of WS distance, allowing us to have a better and more controllable clustering solution. Finally, we empirically evaluate our method on several well-known benchmarks, where it achieves better qualitative and quantitative performances than the other VQ-VAE variants in terms of the codebook utilization and image reconstruction/generation.
翻訳日:2023-02-14 17:48:09 公開日:2023-02-12
# 運転場面における時空間融合による映像水滴除去

Video Waterdrop Removal via Spatio-Temporal Fusion in Driving Scenes ( http://arxiv.org/abs/2302.05916v1 )

ライセンス: Link先を確認
Qiang Wen, Yue Wu, Qifeng Chen(参考訳) 運転中のフロントガラスの水滴は、視覚障害を引き起こし、自動車事故を引き起こす可能性がある。 一方、水滴は自律運転におけるコンピュータビジョンシステムの性能を低下させることもできる。 そこで本研究では,複数のフレームから時空間表現を融合し,水滴による視覚情報を復元する注意に基づくフレームワークを提案する。 映像水滴除去のためのトレーニングデータがないことから,雨天時の複雑な運転シーンにおける水滴シミュレーションを用いた大規模合成データセットを提案する。 提案手法の汎用性を向上させるため,合成ビデオと実世界の画像を組み合わせたクロスモーダルトレーニング戦略を採用した。 提案手法は,複雑な実世界の運転シーンにおいて,優れた水滴除去性能を実現することができることを示す。

The waterdrops on windshields during driving can cause severe visual obstructions, which may lead to car accidents. Meanwhile, the waterdrops can also degrade the performance of a computer vision system in autonomous driving. To address these issues, we propose an attention-based framework that fuses the spatio-temporal representations from multiple frames to restore visual information occluded by waterdrops. Due to the lack of training data for video waterdrop removal, we propose a large-scale synthetic dataset with simulated waterdrops in complex driving scenes on rainy days. To improve the generality of our proposed method, we adopt a cross-modality training strategy that combines synthetic videos and real-world images. Extensive experiments show that our proposed method can generalize well and achieve the best waterdrop removal performance in complex real-world driving scenes.
翻訳日:2023-02-14 17:47:48 公開日:2023-02-12
# 変分ボクセル擬似画像追跡

Variational Voxel Pseudo Image Tracking ( http://arxiv.org/abs/2302.05914v1 )

ライセンス: Link先を確認
Illia Oleksiienko, Paraskevi Nousi, Nikolaos Passalis, Anastasios Tefas and Alexandros Iosifidis(参考訳) 不確実性推定は、統計的に優れた知覚モデルを作成し、決定方法や人間の監督者への予測におけるモデルの確実性を示すことができるため、ロボット工学や自律運転といった重要な問題にとって重要なタスクである。 本稿では,3次元物体追跡のためのVoxel Pseudo Image Tracking(VPIT)法の変分ニューラルネットワークによるバージョンを提案する。 提案した変分VPITの変分特徴生成ネットワークは、ターゲット領域と対応する不確実性の特徴を計算し、その後、不確実性を認識した相互相関モジュールを用いて、対応する不確実性間の類似性を計算し、通常の相互相関値に追加することにより、不確実性チャネルをペナルティ化し、特定の特徴の影響を増大させる。 実験では,両手法が追跡性能を向上し,不確実な特徴のペナル化が最良の不確実性をもたらすことを示した。

Uncertainty estimation is an important task for critical problems, such as robotics and autonomous driving, because it allows creating statistically better perception models and signaling the model's certainty in its predictions to the decision method or a human supervisor. In this paper, we propose a Variational Neural Network-based version of a Voxel Pseudo Image Tracking (VPIT) method for 3D Single Object Tracking. The Variational Feature Generation Network of the proposed Variational VPIT computes features for target and search regions and the corresponding uncertainties, which are later combined using an uncertainty-aware cross-correlation module in one of two ways: by computing similarity between the corresponding uncertainties and adding it to the regular cross-correlation values, or by penalizing the uncertain feature channels to increase influence of the certain features. In experiments, we show that both methods improve tracking performance, while penalization of uncertain features provides the best uncertainty quality.
翻訳日:2023-02-14 17:47:35 公開日:2023-02-12
# マルチホップ質問応答における推論課題の有効性の分析

Analyzing the Effectiveness of the Underlying Reasoning Tasks in Multi-hop Question Answering ( http://arxiv.org/abs/2302.05963v1 )

ライセンス: Link先を確認
Xanh Ho, Anh-Khoa Duong Nguyen, Saku Sugawara, and Akiko Aizawa(参考訳) 予測された回答を説明し、モデルの推論能力を評価するために、複数の研究がマルチホップ質問応答(QA)データセットの基盤となる推論(UR)タスクを活用している。 しかし、両タスクのモデルをエンドツーエンドでトレーニングする場合、urタスクがQAタスクにどの程度有効であるかについては、未解決の疑問が残る。 本研究では,(1)QA性能,(2)推論ショートカット,(3)ロバストネスの3つの側面において,URタスク(文レベルと実体レベルの両方を含む)の有効性を分析することで,この問題に対処する。 前のモデルはエンティティレベルの推論予測タスクで明示的に訓練されていないが、文レベルのサポートファクト予測、エンティティレベルの推論予測、応答予測という3つのタスクを同時に実行するマルチタスクモデルを構築している。 2WikiMultiHopQA と HotpotQA の小さなデータセットによる実験結果から,(1) UR タスクによりQA のパフォーマンスが向上することが示された。 新たに作成された4つのデバイアス付きデータセットを用いて、(2)URタスクがマルチホップQAタスクの推論ショートカットを防ぐのに役立つことを示した。 しかし,(3) URタスクは,サブクエストや逆問題などの逆問題において,モデルの堅牢性向上に寄与しないことがわかった。 我々は,自然言語質問(サブクエストフォームなど)の形で,エンティティレベルの推論の有効性を検討するために,今後の研究を奨励する。

To explain the predicted answers and evaluate the reasoning abilities of models, several studies have utilized underlying reasoning (UR) tasks in multi-hop question answering (QA) datasets. However, it remains an open question as to how effective UR tasks are for the QA task when training models on both tasks in an end-to-end manner. In this study, we address this question by analyzing the effectiveness of UR tasks (including both sentence-level and entity-level tasks) in three aspects: (1) QA performance, (2) reasoning shortcuts, and (3) robustness. While the previous models have not been explicitly trained on an entity-level reasoning prediction task, we build a multi-task model that performs three tasks together: sentence-level supporting facts prediction, entity-level reasoning prediction, and answer prediction. Experimental results on 2WikiMultiHopQA and HotpotQA-small datasets reveal that (1) UR tasks can improve QA performance. Using four debiased datasets that are newly created, we demonstrate that (2) UR tasks are helpful in preventing reasoning shortcuts in the multi-hop QA task. However, we find that (3) UR tasks do not contribute to improving the robustness of the model on adversarial questions, such as sub-questions and inverted questions. We encourage future studies to investigate the effectiveness of entity-level reasoning in the form of natural language questions (e.g., sub-question forms).
翻訳日:2023-02-14 17:40:14 公開日:2023-02-12
# 位相ヘリカルエッジモードのプローブとしての有限温度量子ノイズ相関

Finite temperature quantum noise correlations as a probe for topological helical edge modes ( http://arxiv.org/abs/2302.05961v1 )

ライセンス: Link先を確認
Sachiraj Mishra, Colin Benjamin(参考訳) キラル、自明ヘリカル、トポロジカルヘリカルエッジモードの区別は、有限温度での量子ノイズ測定によって効果的に行うことができる。 クロス(またはハンベリー・ブラウン・ツイツ)相関と自己相関の両方の量子ノイズの使用は、熱ゆらぎによる熱のようなノイズと電荷粒子の量子的性質からのショットノイズの2つの寄与を通してこれらのエッジモードを区別することができる。 有限温度でのこれらのエッジモードの研究は、実際の実験の条件をより正確に反映するため重要である。

The distinction between chiral, trivial helical, and topological helical edge modes can be effectively made using quantum noise measurements at finite temperatures. The use of quantum noise, both the cross (or the Hanbury-Brown Twiss) correlation and the autocorrelation can differentiate between these edge modes via the two contributions: thermal-like noise from thermal fluctuations and shot noise from the quantum nature of charge particles. The study of these edge modes at finite temperatures is important as it more accurately reflects the conditions in real-world experiments.
翻訳日:2023-02-14 17:39:48 公開日:2023-02-12
# 条件付きカーネル平均埋め込みの再帰的推定

Recursive Estimation of Conditional Kernel Mean Embeddings ( http://arxiv.org/abs/2302.05955v1 )

ライセンス: Link先を確認
Ambrus Tam\'as and Bal\'azs Csan\'ad Cs\'aji(参考訳) カーネルとは、機械学習で広く使われる技術である埋め込みを意味し、確率分布を再生されたカーネルヒルベルト空間(RKHS)の要素にマッピングする。 入出力対が観察される教師付き学習問題では、入力が与えられた出力の条件分布が鍵となる。 出力の入力依存条件分布は、条件付きカーネル平均マップであるrkhs値関数で符号化することができる。 本稿では, ヒルベルト空間における条件付きカーネル平均写像を, ボホナー空間における$l_2$空間で推定する新しい再帰的アルゴリズムを提案する。 我々は、穏やかな条件下で再帰的推定器の弱く強い$l_2$一貫性を証明する。 この考え方は、局所コンパクトポーランド空間におけるヒルベルト空間値回帰に対するストーンの定理を一般化するものである。 条件付き核平均埋め込みに関する新たな知見を示し,提案手法の収束に関して強い漸近境界を与える。 最後に、結果は3つの応用領域で示される:ユークリッド空間、リーマン多様体および関数空間の局所コンパクト部分集合からの入力。

Kernel mean embeddings, a widely used technique in machine learning, map probability distributions to elements of a reproducing kernel Hilbert space (RKHS). For supervised learning problems, where input-output pairs are observed, the conditional distribution of outputs given the inputs is a key object. The input dependent conditional distribution of an output can be encoded with an RKHS valued function, the conditional kernel mean map. In this paper we present a new recursive algorithm to estimate the conditional kernel mean map in a Hilbert space valued $L_2$ space, that is in a Bochner space. We prove the weak and strong $L_2$ consistency of our recursive estimator under mild conditions. The idea is to generalize Stone's theorem for Hilbert space valued regression in a locally compact Polish space. We present new insights about conditional kernel mean embeddings and give strong asymptotic bounds regarding the convergence of the proposed recursive method. Finally, the results are demonstrated on three application domains: for inputs coming from Euclidean spaces, Riemannian manifolds and locally compact subsets of function spaces.
翻訳日:2023-02-14 17:39:38 公開日:2023-02-12
# 2次コーンプログラミングによる畳み込みニューラルネットワークのアンサンブルの自動選択

Autoselection of the Ensemble of Convolutional Neural Networks with Second-Order Cone Programming ( http://arxiv.org/abs/2302.05950v1 )

ライセンス: Link先を確認
Buse \c{C}isil G\"uldo\u{g}u\c{s}, Abdullah Nazhat Abdullah, Muhammad Ammar Ali, S\"ureyya \"Oz\"o\u{g}\"ur-Aky\"uz(参考訳) エンサンブル技術は、異なるモデルを組み合わせて最適な予測解を生成するため、機械学習や工学的な問題でしばしば発生する。 アンサンブルの概念は、堅牢性と信頼性を提供するためにディープラーニングモデルに適用することができる。 深層学習におけるモデルの成長により、エンサンブルプルーニングの使用は計算複雑性を扱う上で非常に重要である。 そこで本研究では,2次円錐最適化モデルと並行して精度と多様性を最大化する,異なる深さと層からなる畳み込みニューラルネットワーク(CNN)のアンサンブルを推定する数学的モデルを提案する。 提案手法は, CIFAR-10, CIFAR-100, MNISTデータセットで検証され, モデル複雑性を著しく低減し, 有望な結果が得られる。

Ensemble techniques are frequently encountered in machine learning and engineering problems since the method combines different models and produces an optimal predictive solution. The ensemble concept can be adapted to deep learning models to provide robustness and reliability. Due to the growth of the models in deep learning, using ensemble pruning is highly important to deal with computational complexity. Hence, this study proposes a mathematical model which prunes the ensemble of Convolutional Neural Networks (CNN) consisting of different depths and layers that maximizes accuracy and diversity simultaneously with a sparse second order conic optimization model. The proposed model is tested on CIFAR-10, CIFAR-100 and MNIST data sets which gives promising results while reducing the complexity of models, significantly.
翻訳日:2023-02-14 17:39:21 公開日:2023-02-12
# SpReME:マルチ環境動的システムのためのスパース回帰

SpReME: Sparse Regression for Multi-Environment Dynamic Systems ( http://arxiv.org/abs/2302.05942v1 )

ライセンス: Link先を確認
MoonJeong Park, Youngbin Choi, Namhoon Lee and Dongwoo Kim(参考訳) 力学系の学習は科学的発見にとって有望な道のりである。 モデルベースのアプローチは単一の環境における仮定の忠実さに依存しているのに対して、ニューラルネットワークに基づくデータ駆動アプローチは、未来への外挿において脆弱であることが多い。 本研究では,複数の環境を基盤とする主要ダイナミクスを発見するために,spremeと呼ばれる疎回帰法を開発した。 具体的には、spreme は異なる環境にまたがる常微分方程式 (ode) のスパース構造を共有し、各環境は ode 項の係数を独立に保つことができる。 提案モデルでは,予測性能を向上した4つの動的システム上で,複数の環境から正しいダイナミクスを捉える。

Learning dynamical systems is a promising avenue for scientific discoveries. However, capturing the governing dynamics in multiple environments still remains a challenge: model-based approaches rely on the fidelity of assumptions made for a single environment, whereas data-driven approaches based on neural networks are often fragile on extrapolating into the future. In this work, we develop a method of sparse regression dubbed SpReME to discover the major dynamics that underlie multiple environments. Specifically, SpReME shares a sparse structure of ordinary differential equation (ODE) across different environments in common while allowing each environment to keep the coefficients of ODE terms independently. We demonstrate that the proposed model captures the correct dynamics from multiple environments over four different dynamic systems with improved prediction performance.
翻訳日:2023-02-14 17:39:08 公開日:2023-02-12
# 合成aiの急速な発展

Rapid Development of Compositional AI ( http://arxiv.org/abs/2302.05941v1 )

ライセンス: Link先を確認
Lee Martie, Jessie Rosenberg, Veronique Demers, Gaoyuan Zhang, Onkar Bhardwaj, John Henning, Aditya Prasad, Matt Stallone, Ja Young Lee, Lucy Yip, Damilola Adesina, Elahe Paikari, Oscar Resendiz, Sarah Shaw, David Cox(参考訳) 複数の人工知能コンポーネントを他のアプリケーションコンポーネントと組み合わせて、より大きな問題を解決する合成AIシステムは、開発パターンが知られておらず、しばしば好奇的でアドホックなスタイルでアプローチされる。 これにより開発が遅くなり、将来のアプリケーションの再利用が難しくなる。 構成型AIアプリケーションの完全な開発サイクルをサポートするため、我々は(Bee)*(正規表現として書かれ、"beestar"と発音される)と呼ばれる新しいフレームワークを開発した。 私たちは(bee)*が統合的でスケーラブルでインタラクティブなコンポジションaiアプリケーションの構築をサポートする方法を説明します。

Compositional AI systems, which combine multiple artificial intelligence components together with other application components to solve a larger problem, have no known pattern of development and are often approached in a bespoke and ad hoc style. This makes development slower and harder to reuse for future applications. To support the full rapid development cycle of compositional AI applications, we have developed a novel framework called (Bee)* (written as a regular expression and pronounced as "beestar"). We illustrate how (Bee)* supports building integrated, scalable, and interactive compositional AI applications with a simplified developer experience.
翻訳日:2023-02-14 17:38:55 公開日:2023-02-12
# SemanticAC: 音声分類のためのセマンティック支援フレームワーク

SemanticAC: Semantics-Assisted Framework for Audio Classification ( http://arxiv.org/abs/2302.05940v1 )

ライセンス: Link先を確認
Yicheng Xiao and Yue Ma and Shuyan Li and Hantao Zhou and Ran Liao and Xiu Li(参考訳) 本稿では,セマンティックACを提案する。セマンティックACは,セマンティック情報を活用するためのセマンティック分類支援フレームワークである。 クラスラベルを離散ベクトルとして扱う従来の音声分類法とは異なり、ラベルから豊富な意味を抽出し、音声信号とそのラベル間の意味的一貫性を最適化するために言語モデルを用いる。 ラベルからの単純なテキスト情報と高度な事前学習モデルにより、より豊富な意味的監督が可能となり、パフォーマンスが向上することを検証した。 具体的には,ラベルのテキスト拡張から意味情報をキャプチャするために,テキストエンコーダを設計する。 次に、オーディオエンコーダと類似度算出モジュールを介して、対応するクラスラベルのセマンティクスと整合するようにオーディオ信号をマッピングし、セマンティクス一貫性を強制する。 ESC-50とUS8Kの2つのオーディオデータセットに対する大規模な実験により,提案手法が比較した音声分類法より一貫して優れていることが示された。

In this paper, we propose SemanticAC, a semantics-assisted framework for Audio Classification to better leverage the semantic information. Unlike conventional audio classification methods that treat class labels as discrete vectors, we employ a language model to extract abundant semantics from labels and optimize the semantic consistency between audio signals and their labels. We verify that simple textual information from labels and advanced pretraining models enable more abundant semantic supervision for better performance. Specifically, we design a text encoder to capture the semantic information from the text extension of labels. Then we map the audio signals to align with the semantics of corresponding class labels via an audio encoder and a similarity calculation module so as to enforce the semantic consistency. Extensive experiments on two audio datasets, ESC-50 and US8K demonstrate that our proposed method consistently outperforms the compared audio classification methods.
翻訳日:2023-02-14 17:38:45 公開日:2023-02-12
# フィッシャー情報による平均場最適化問題

Mean Field Optimization Problem Regularized by Fisher Information ( http://arxiv.org/abs/2302.05938v1 )

ライセンス: Link先を確認
Julien Claisse, Giovanni Conforti, Zhenjie Ren, Songbo Wang(参考訳) 近年、平均場最適化の研究への関心が高まっており、特にニューラルネットワークのトレーニングの分析にその役割があるためである。 本稿では,フィッシャー情報を正規化子として加えることにより,正規化平均場最適化問題を,いわゆる平均場シュロディンガーダイナミクスに関連付ける。 我々は, 平均場シュロディンガーダイナミクスの限界分布が, 正規化最適化問題の極小化に向けて指数関数的に収束することを示すエネルギー散逸法を開発した。 注目すべきことに、平均場のシュロディンガー力学は相対エントロピーに関して確率測度空間上の勾配流であることが証明される。 最後に,平均場シュロディンガーダイナミクスの限界分布をサンプリングするモンテカルロ法を提案する。

Recently there is a rising interest in the research of mean field optimization, in particular because of its role in analyzing the training of neural networks. In this paper by adding the Fisher Information as the regularizer, we relate the regularized mean field optimization problem to a so-called mean field Schrodinger dynamics. We develop an energy-dissipation method to show that the marginal distributions of the mean field Schrodinger dynamics converge exponentially quickly towards the unique minimizer of the regularized optimization problem. Remarkably, the mean field Schrodinger dynamics is proved to be a gradient flow on the probability measure space with respect to the relative entropy. Finally we propose a Monte Carlo method to sample the marginal distributions of the mean field Schrodinger dynamics.
翻訳日:2023-02-14 17:38:30 公開日:2023-02-12
# アダプタのコントラスト混合による一般化Few-Shot連続学習

Generalized Few-Shot Continual Learning with Contrastive Mixture of Adapters ( http://arxiv.org/abs/2302.05936v1 )

ライセンス: Link先を確認
Yawen Cui, Zitong Yu, Rizhao Cai, Xun Wang, Alex C. Kot, Li Liu(参考訳) Few-Shot Continual Learning (FSCL)の目標は、限定されたラベル付きサンプルで新しいタスクを段階的に学習し、以前の機能を同時に保持することにある。 さらに、FSCLソリューションの評価は、遭遇した全てのタスクの累積的な性能に過ぎず、領域一般化能力の探索は行わない。 ドメインの一般化は、訓練ドメインを超えて一般化することを目的とした、難しいが実用的なタスクである。 本稿では,クラスおよびドメインインクリメンタルな状況とドメイン一般化評価を含む一般FSCL(Generalized FSCL)プロトコルを構築した。 まず、2つのベンチマークデータセットとプロトコルを新たにアレンジし、この未調査の設定について詳細なベースラインを提供する。 共用連続学習法は,未熟な領域における一般化能力に乏しく,非経験的課題における破滅的忘れ去れ問題にうまく対処できないことが判明した。 このようにして、視覚変換器(ViT)に基づくリハーサルフリーフレームワークであるContrastive Mixture of Adapters(CMoA)を提案する。 クラスインクリメントとドメインインクリメントの異なる最適化目標のため、CMoAは2つの部分を含む: (1) クラスインクリメンタルな問題に対して、Mixture of Adapters (MoA)モジュールはViTに組み込まれ、コサイン類似性正規化と動的重み付けは、各アダプタが特定の知識を学び、特定のクラスに集中するように設計されている。 2)ドメイン関連問題やドメイン不変表現学習では,プロトタイプ校正型コントラスト学習による内部クラス変動を緩和する。 コードとプロトコルはhttps://github.com/yawencui/cmoaで入手できる。

The goal of Few-Shot Continual Learning (FSCL) is to incrementally learn novel tasks with limited labeled samples and preserve previous capabilities simultaneously, while current FSCL methods are all for the class-incremental purpose. Moreover, the evaluation of FSCL solutions is only the cumulative performance of all encountered tasks, but there is no work on exploring the domain generalization ability. Domain generalization is a challenging yet practical task that aims to generalize beyond training domains. In this paper, we set up a Generalized FSCL (GFSCL) protocol involving both class- and domain-incremental situations together with the domain generalization assessment. Firstly, two benchmark datasets and protocols are newly arranged, and detailed baselines are provided for this unexplored configuration. We find that common continual learning methods have poor generalization ability on unseen domains and cannot better cope with the catastrophic forgetting issue in cross-incremental tasks. In this way, we further propose a rehearsal-free framework based on Vision Transformer (ViT) named Contrastive Mixture of Adapters (CMoA). Due to different optimization targets of class increment and domain increment, the CMoA contains two parts: (1) For the class-incremental issue, the Mixture of Adapters (MoA) module is incorporated into ViT, then cosine similarity regularization and the dynamic weighting are designed to make each adapter learn specific knowledge and concentrate on particular classes. (2) For the domain-related issues and domain-invariant representation learning, we alleviate the inner-class variation by prototype-calibrated contrastive learning. The codes and protocols are available at https://github.com/yawencui/CMoA.
翻訳日:2023-02-14 17:38:18 公開日:2023-02-12
# 量子カオスとレベルダイナミクス

Quantum chaos and level dynamics ( http://arxiv.org/abs/2302.05934v1 )

ライセンス: Link先を確認
Jakub Zakrzewski(参考訳) 量子カオス系のスペクトルに対するレベルダイナミクスの適用について概説する。 統計力学手法により、積分力学とカオス力学の中間のレベル統計について予測できることを示す。 次に,非可逆性と制限性の両方を示すレベル分布のレベル回避交叉分布,傾斜および曲率などのレベルダイナミクスを含む,異なる統計指標を詳細に議論する。 まもなくこれらの理論の実験的な確証が述べられる。 我々は、忠実度感受性やより一般に幾何学的テンソル行列要素などの量子情報アプローチから抽出された測度に、いくつかの詳細に集中する。 オープンな問題の可能性を示唆する。

We review application of level dynamics to spectra of quantally chaotic systems. We show that statistical mechanics approach gives us predictions about level statistics intermediate between integrable and chaotic dynamics. Then we discuss in detail different statistical measures involving level dynamics such as level avoided-crossing distributions, slope and curvature of level distributions showing both the postulate of unversality and its limitations. We mention shortly the experimental confirmations of these theories. We concentrate in some detail on measures imported from quantum information approach such as the fidelity susceptibility and more generally geometric tensor matrix elements. The possible open problems are suggested.
翻訳日:2023-02-14 17:37:47 公開日:2023-02-12
# 法と機械学習における多次元識別 -- 比較概要

Multi-dimensional discrimination in Law and Machine Learning -- A comparative overview ( http://arxiv.org/abs/2302.05995v1 )

ライセンス: Link先を確認
Arjun Roy, Jan Horstmann, Eirini Ntoutsi(参考訳) AIによる意思決定は、人種、性別、年齢といった保護された特徴や属性に基づいて、特定の個人や社会グループに対する差別につながる可能性がある。 公正を意識した機械学習の領域は、AI/MLモデルにおけるバイアスの理解、緩和、説明のための方法とアルゴリズムに焦点を当てている。 それでも、提案された方法の大多数は、性別や人種など、単一の保護された属性に基づいて公正さを評価する。 しかし実際には、人間のアイデンティティは多次元であり、識別は複数の保護された特徴に基づいて起こり、いわゆる「多次元識別」や「多次元公平」の問題に繋がる。 法律文献ではよく説明されているが、差別の多次元性は機械学習のコミュニティではあまり研究されていない。 この方向の最近のアプローチは、主に法域からのいわゆる交叉フェアネスの定義に従うが、加法やシーケンシャルな差別といった他の概念は研究されていないか、これまで考えられていない。 本稿では,法領域における多次元識別/フェアネスの異なる定義と,フェアネスを意識した機械学習領域においてどのように移行/運用されたか(if)について概説する。 これら2つのドメインを並べ合わせることで、接続を描き、限界を特定し、オープンな研究の方向性を指摘する。

AI-driven decision-making can lead to discrimination against certain individuals or social groups based on protected characteristics/attributes such as race, gender, or age. The domain of fairness-aware machine learning focuses on methods and algorithms for understanding, mitigating, and accounting for bias in AI/ML models. Still, thus far, the vast majority of the proposed methods assess fairness based on a single protected attribute, e.g. only gender or race. In reality, though, human identities are multi-dimensional, and discrimination can occur based on more than one protected characteristic, leading to the so-called ``multi-dimensional discrimination'' or ``multi-dimensional fairness'' problem. While well-elaborated in legal literature, the multi-dimensionality of discrimination is less explored in the machine learning community. Recent approaches in this direction mainly follow the so-called intersectional fairness definition from the legal domain, whereas other notions like additive and sequential discrimination are less studied or not considered thus far. In this work, we overview the different definitions of multi-dimensional discrimination/fairness in the legal domain as well as how they have been transferred/ operationalized (if) in the fairness-aware machine learning domain. By juxtaposing these two domains, we draw the connections, identify the limitations, and point out open research directions.
翻訳日:2023-02-14 17:32:28 公開日:2023-02-12
# digital twin tracking dataset (dttd): 長距離オブジェクト追跡アプリケーションのための新しいrgb+depth 3dデータセット

Digital Twin Tracking Dataset (DTTD): A New RGB+Depth 3D Dataset for Longer-Range Object Tracking Applications ( http://arxiv.org/abs/2302.05991v1 )

ライセンス: Link先を確認
Weiyu Feng, Seth Z. Zhao, Chuanyu Pan, Adam Chang, Yichen Chen, Zekun Wang, Allen Y. Yang(参考訳) デジタルツイン(Digital twin)は、実際のオブジェクトをデジタルオブジェクトで拡張する問題である。 拡張現実(AR)、自律性、UI/UXにおいて、幅広いアプリケーションを支えることができる。 優れたデジタルツインシステムにおける重要なコンポーネントは、リアルタイムで正確な3Dオブジェクト追跡である。 既存の作品の多くは、ロボットの把持レンズを通して3dオブジェクトを追跡し、古い世代の深度センサーを使用し、arのような他のデジタル双生児アプリケーションには適用できないパフォーマンスメトリクスを測定する。 本研究では,この問題をさらに研究し,より長い範囲とmm位置推定精度に向けて潜在的なソリューションを拡張するために,新しいrgb-dデータセットであるdigital-twin tracking dataset(dttd)を作成した。 入力源から点雲ノイズを低減するため、最新のMicrosoft Azure Kinectを最先端の飛行時間(ToF)カメラとして選択する。 総計103シーンは、多彩なテクスチャを持つ共通オフザシェルフオブジェクト103シーンを記録し、各フレームに画素ごとのセマンティックセグメンテーションと、商用モーションキャプチャーシステムによって提供される接地トラスポーズを付加する。 実験により,DTTDは将来の物体追跡手法の開発や新たな課題の解明に有効であることが示された。 データセット、データ生成、アノテーション、モデル評価パイプラインをオープンソースコードとして提供します。

Digital twin is a problem of augmenting real objects with their digital counterparts. It can underpin a wide range of applications in augmented reality (AR), autonomy, and UI/UX. A critical component in a good digital twin system is real-time, accurate 3D object tracking. Most existing works solve 3D object tracking through the lens of robotic grasping, employ older generations of depth sensors, and measure performance metrics that may not apply to other digital twin applications such as in AR. In this work, we create a novel RGB-D dataset, called Digital-Twin Tracking Dataset (DTTD), to enable further research of the problem and extend potential solutions towards longer ranges and mm localization accuracy. To reduce point cloud noise from the input source, we select the latest Microsoft Azure Kinect as the state-of-the-art time-of-flight (ToF) camera. In total, 103 scenes of 10 common off-the-shelf objects with rich textures are recorded, with each frame annotated with a per-pixel semantic segmentation and ground-truth object poses provided by a commercial motion capturing system. Through experiments, we demonstrate that DTTD can help researchers develop future object tracking methods and analyze new challenges. We provide the dataset, data generation, annotation, and model evaluation pipeline as open source code at: https://github.com/augcog/DTTDv1.
翻訳日:2023-02-14 17:31:50 公開日:2023-02-12
# マルチドメインレコメンデーションのためのグラフ構造化クロスドメイン表現のエクスプロイト

Exploiting Graph Structured Cross-Domain Representation for Multi-Domain Recommendation ( http://arxiv.org/abs/2302.05990v1 )

ライセンス: Link先を確認
Alejandro Ariza-Casabona, Bartlomiej Twardowski, Tri Kurniawan Wijaya(参考訳) マルチドメインレコメンダシステムは、クロスドメイン表現学習とポジティブな知識伝達の恩恵を受ける。 どちらも、入力データの特定のモデリング(例えば、解離履歴)を導入するか、あるいは専用のトレーニング体制を試すことで達成できる。 同時に、ドメインを独立した入力源として扱うことは、ドメイン間に存在する自然な相互作用をキャプチャしないため制限となる。 本研究では,グラフニューラルネットワークを用いて逐次ユーザインタラクションのマルチドメイン表現を効率的に学習する。 我々は、MAGRec(Multi-domAin Graph-based Recommender)と呼ばれる手法のコンテキスト情報として、時間内およびドメイン間相互作用を用いる。 マルチドメイン環境でのすべての関係をよりよく把握するために、グラフベースのシーケンシャル表現を2つ同時に学習する。 このアプローチは、複数のドメインから負の知識伝達問題を緩和し、全体的な表現を改善するのに役立つ。 我々は、MAGRecが最先端の手法を一貫して上回る様々なシナリオで、公開データセットで実験を行う。 さらに, アブレーション研究を行い, 本手法のさらなる拡張について考察する。

Multi-domain recommender systems benefit from cross-domain representation learning and positive knowledge transfer. Both can be achieved by introducing a specific modeling of input data (i.e. disjoint history) or trying dedicated training regimes. At the same time, treating domains as separate input sources becomes a limitation as it does not capture the interplay that naturally exists between domains. In this work, we efficiently learn multi-domain representation of sequential users' interactions using graph neural networks. We use temporal intra- and inter-domain interactions as contextual information for our method called MAGRec (short for Multi-domAin Graph-based Recommender). To better capture all relations in a multi-domain setting, we learn two graph-based sequential representations simultaneously: domain-guided for recent user interest, and general for long-term interest. This approach helps to mitigate the negative knowledge transfer problem from multiple domains and improve overall representation. We perform experiments on publicly available datasets in different scenarios where MAGRec consistently outperforms state-of-the-art methods. Furthermore, we provide an ablation study and discuss further extensions of our method.
翻訳日:2023-02-14 17:31:09 公開日:2023-02-12
# 量子ニューロン選択:量子アルゴリズムによる高性能サブネットワークの探索

Quantum Neuron Selection: Finding High Performing Subnetworks With Quantum Algorithms ( http://arxiv.org/abs/2302.05984v1 )

ライセンス: Link先を確認
Tim Whitaker(参考訳) 勾配降下法は、深層ニューラルネットワークのトレーニングのデファクトスタンダードである。 何百万ものトレーニングサンプルが、数十億のパラメータを持つモデルに供給され、数百エポックにわたって徐々に更新される。 近年、大規模でランダムに初期化されたニューラルネットワークには、完全に訓練されたモデルと同様に機能するサブネットワークが含まれていることが示されている。 この洞察は、大きなランダムモデルから重みを抽出するだけで、将来のニューラルネットワークをトレーニングするための有望な道を提供する。 しかし、この問題は組合せ的に困難であり、古典的なアルゴリズムは最良のサブネットワークを見つけるのに効率的ではない。 本稿では,量子アルゴリズムの定式化とニューロン選択問題への応用について検討する。 本稿では,大規模ニューロン選択が必要とする絡み合いの複雑さを低減するために,局所的な量子ニューロン選択法をいくつか導入する。

Gradient descent methods have long been the de facto standard for training deep neural networks. Millions of training samples are fed into models with billions of parameters, which are slowly updated over hundreds of epochs. Recently, it's been shown that large, randomly initialized neural networks contain subnetworks that perform as well as fully trained models. This insight offers a promising avenue for training future neural networks by simply pruning weights from large, random models. However, this problem is combinatorically hard and classical algorithms are not efficient at finding the best subnetwork. In this paper, we explore how quantum algorithms could be formulated and applied to this neuron selection problem. We introduce several methods for local quantum neuron selection that reduce the entanglement complexity that large scale neuron selection would require, making this problem more tractable for current quantum hardware.
翻訳日:2023-02-14 17:30:52 公開日:2023-02-12
# 半導体量子ドットからの光子の超微細相互作用制限偏光絡み

Hyperfine-interaction limits polarization entanglement of photons from semiconductor quantum dots ( http://arxiv.org/abs/2302.05983v1 )

ライセンス: Link先を確認
Christian Schimpf, Francesco Basso Basset, Maximilian Aigner, Wolfgang Atteneder, Laia G\'ines, Gabriel Undeutsch, Marcus Reindl, Daniel Huber, Dorian Gangloff, Evgeny Chekhovich, Christian Schneider, Sven H\"ofling, Ana Predojevi\^c, Rinaldo Trotta and Armando Rastelli(参考訳) 量子ドットの励起子は偏光子対の優れた源であるが、核スピン浴との相互作用の定量的な理解はまだ欠けている。 本稿では,実験的なパラメータを用いた超微細エネルギーシフトの役割について検討し,達成可能な絡み合いへの上限を導出する。 我々の結果はすべての文献と一致しており、スピンノイズがInGaAs量子ドットの絡み合いを制限する支配的な過程であることを示し、その効果を緩和するための経路を提案する。

Excitons in quantum dots are excellent sources of polarization-entangled photon pairs, but a quantitative understanding of their interaction with the nuclear spin bath is still missing. Here we investigate the role of hyperfine energy shifts using experimentally accessible parameters and derive an upper limit to the achievable entanglement fidelity. Our results are consistent with all available literature, indicate that spin-noise is often the dominant process limiting the entanglement in InGaAs quantum dots, and suggest routes to alleviate its effect.
翻訳日:2023-02-14 17:30:37 公開日:2023-02-12
# MarioGPT: 大規模言語モデルによるオープンソースのText2Level生成

MarioGPT: Open-Ended Text2Level Generation through Large Language Models ( http://arxiv.org/abs/2302.05981v1 )

ライセンス: Link先を確認
Shyam Sudhakaran, Miguel Gonz\'alez-Duque, Claire Glanois, Matthias Freiberger, Elias Najarro, Sebastian Risi(参考訳) 手続き型コンテンツ生成(PCG)アルゴリズムは、複雑で多様な環境を自動生成する技術を提供する。 しかし、PCGメソッドでコンテンツを生成することは多くの場合簡単であるが、特定の意図や制約を反映した意味のあるコンテンツを生成することは困難である。 さらに、多くのPCGアルゴリズムは、オープンな方法でコンテンツを生成する能力に欠ける。 最近、Large Language Models (LLMs) は多くの多様なドメインで驚くほど効果的であることが示されている。 これらの訓練されたLSMは微調整され、情報を再利用し、新しいタスクのトレーニングを加速することができる。 本研究は,スーパーマリオブラザーズレベルにおいて,タイルベースのゲームレベルを生成するための微調整GPT2モデルであるMarioGPTを紹介する。 我々はMarioGPTが多様なレベルを生成できるだけでなく、制御可能なレベル生成のためにテキストプロンプトが可能であることを示し、現在のPCG技術における重要な課題の1つに対処する。 私たちの知る限り、MarioGPTは最初のテキスト・ツー・レベルのモデルです。 また、MarioGPTとノベルティ検索を組み合わせることで、様々なプレイスタイルのダイナミックス(すなわちプレイヤーパス)で様々なレベルを生成できる。 この組み合わせにより、ますます多様なコンテンツのオープンな生成が可能になる。

Procedural Content Generation (PCG) algorithms provide a technique to generate complex and diverse environments in an automated way. However, while generating content with PCG methods is often straightforward, generating meaningful content that reflects specific intentions and constraints remains challenging. Furthermore, many PCG algorithms lack the ability to generate content in an open-ended manner. Recently, Large Language Models (LLMs) have shown to be incredibly effective in many diverse domains. These trained LLMs can be fine-tuned, re-using information and accelerating training for new tasks. In this work, we introduce MarioGPT, a fine-tuned GPT2 model trained to generate tile-based game levels, in our case Super Mario Bros levels. We show that MarioGPT can not only generate diverse levels, but can be text-prompted for controllable level generation, addressing one of the key challenges of current PCG techniques. As far as we know, MarioGPT is the first text-to-level model. We also combine MarioGPT with novelty search, enabling it to generate diverse levels with varying play-style dynamics (i.e. player paths). This combination allows for the open-ended generation of an increasingly diverse range of content.
翻訳日:2023-02-14 17:30:27 公開日:2023-02-12
# エクストリームマルチラベル分類の概観

Review of Extreme Multilabel Classification ( http://arxiv.org/abs/2302.05971v1 )

ライセンス: Link先を確認
Arpan Dasgupta, Siddhant Katyan, Shrutimoy Das, Pawan Kumar(参考訳) 要するに、極端にマルチラベルの分類(XML)は、機械学習に対する新たなサブトピックとして登場した。 従来のマルチラベル分類と比較すると、このラベルの数は極めて多いため、極端なマルチラベル分類の名称である。 この場合、古典的な分類と全ての分類は、多くのラベルのためにスケールしないが、他の分類器も同様である。 ラベルと、より小さなラベル空間に機能を組み込むことは、重要な第一歩です。 さらに、尾のラベルが与えられたサンプルの数が少ないラベルである頭と尾のラベルが存在することも問題となる。 テールラベルの存在は埋め込み中に問題を引き起こす。 この領域では、圧縮センシングによるビット圧縮、木ベースの埋め込み、注意重みの使用を含むディープラーニングベースの潜在空間埋め込み、SVD、クラスタリング、ハッシュなどの線形代数ベースの埋め込みなど、幅広いアプローチが採用されている。 コミュニティは、ヘッドラベルやテールラベルの予測を正確に識別するための有用なメトリクスセットを考案した。

Extreme multilabel classification or XML, in short, has emerged as a new subtopic of interest in machine learning. Compared to traditional multilabel classification, here the number of labels is extremely large, hence the name extreme multilabel classification. Using classical one versus all classification wont scale in this case due to large number of labels, same is true for any other classifiers. Embedding of labels as well as features into smaller label space is an essential first step. Moreover, other issues include existance of head and tail labels, where tail labels are labels which exist in relatively smaller number of given samples. The existence of tail labels creates issues during embedding. This area has invited application of wide range of approaches ranging from bit compression motivated from compressed sensing, tree based embeddings, deep learning based latent space embedding including using attention weights, linear algebra based embeddings such as SVD, clustering, hashing, to name a few. The community has come up with a useful set of metrics to identify the correctly the prediction for head or tail labels.
翻訳日:2023-02-14 17:30:08 公開日:2023-02-12
# マスクセルの自己制御擬似色化

Self-supervised Pseudo-colorizing of Masked Cells ( http://arxiv.org/abs/2302.05968v1 )

ライセンス: Link先を確認
Royden Wagner, Carlos Fernandez Lopez, Christoph Stiller(参考訳) 知識のダークマターと呼ばれる自己教師型学習は、深層学習の生体医学的応用において注目されている。 本稿では,生体顕微鏡画像における細胞分析のための新しい自己スーパービジョン目標を提案する。 マスク細胞を擬似色化する深層学習モデルを提案する。 我々は、細胞トポロジーの着色に適した物理インフォームド擬似スペクトルカラーマップを使用する。 擬似色化によるセグメンテーションの近似は,細胞検出の微調整に有用である。 最近のマスク画像モデリングの成功に触発されて、私たちはさらにセルのパーツをマスクアウトし、これらのパーツを再構築して学習した表現をさらに豊かにする訓練を行いました。 我々は,事前学習手法を,コントラスト学習(SimCLR),マスク付きオートエンコーダ(MAE),エッジベースのセルフスーパービジョンなど,自己指導型フレームワークと比較した。 我々は、これまでの研究に基づいて、畳み込みと視覚変換モジュールを含む細胞検出のためのハイブリッドモデルを訓練する。 我々の事前学習法は,6種類の蛍光顕微鏡データセットを用いた事前学習において,SimCLR,MAE様マスク画像モデリング,エッジベースセルフスーパービジョンよりも優れる。 コードは、https://github.com/roydenwa/cell-centroid-formerで入手できる。

Self-supervised learning, which is strikingly referred to as the dark matter of intelligence, is gaining more attention in biomedical applications of deep learning. In this work, we introduce a novel self-supervision objective for the analysis of cells in biomedical microscopy images. We propose training deep learning models to pseudo-colorize masked cells. We use a physics-informed pseudo-spectral colormap that is well suited for colorizing cell topology. Our experiments reveal that approximating semantic segmentation by pseudo-colorization is beneficial for subsequent fine-tuning on cell detection. Inspired by the recent success of masked image modeling, we additionally mask out cell parts and train to reconstruct these parts to further enrich the learned representations. We compare our pre-training method with self-supervised frameworks including contrastive learning (SimCLR), masked autoencoders (MAEs), and edge-based self-supervision. We build upon our previous work and train hybrid models for cell detection, which contain both convolutional and vision transformer modules. Our pre-training method can outperform SimCLR, MAE-like masked image modeling, and edge-based self-supervision when pre-training on a diverse set of six fluorescence microscopy datasets. Code is available at: https://github.com/roydenwa/cell-centroid-former
翻訳日:2023-02-14 17:29:50 公開日:2023-02-12
# 強い相互作用を持つ光子の量子渦

Quantum vortices of strongly interacting photons ( http://arxiv.org/abs/2302.05967v1 )

ライセンス: Link先を確認
Lee Drori, Bankim Chandra Das, Tomer Danino Zohar, Gal Winer, Eilon Poem, Alexander Poddubny, Ofer Firstenberg(参考訳) 渦は非線形物理学におけるトポロジカルに非自明なダイナミクスの指標であり、宇宙や大気から凝縮物質や量子気体まで、様々なシステムで発生する。 光学では、渦は電磁場の位相ねじれとして現れ、一般的には光と物質の相互作用によって形成される。 光とそれ自身との効果的な相互作用による渦の形成は強い光学的非線形性を必要とし、それゆえこれまで古典的体制に拘束されてきた。 本稿では,量子非線形光学媒体における強い光子-光子相互作用による量子渦の実現について報告する。 この相互作用は、共伝播光子のより速い位相蓄積を引き起こす。 板状の押し水と同様に、局所相の蓄積は2光子波動関数内で量子渦-反渦対を生成する。 3つの光子に対して、渦線と中心渦輪の形成は真の3光子相互作用を示す。 波動関数トポロジーは、2光と3光のバウンド状態によって支配され、決定論的量子論理演算の潜在的資源である$\pi$per-photonの条件相シフトを課す。

Vortices are a hallmark of topologically nontrivial dynamics in nonlinear physics and arise in a huge variety of systems, from space and atmosphere to condensed matter and quantum gases. In optics, vortices manifest as phase twists of the electromagnetic field, commonly formed by the interaction of light and matter. Formation of vortices by effective interaction of light with itself requires strong optical nonlinearity and has therefore been confined, until now, to the classical regime. Here we report on the realization of quantum vortices resulting from a strong photon-photon interaction in a quantum nonlinear optical medium. The interaction causes faster phase accumulation for co-propagating photons. Similarly to a plate pushing water, the local phase accumulation produces a quantum vortex-antivortex pair within the two-photon wavefunction. For three photons, the formation of vortex lines and a central vortex ring attests to a genuine three-photon interaction. The wavefunction topology, governed by two- and three-photon bound states, imposes a conditional phase shift of $\pi$-per-photon, a potential resource for deterministic quantum logic operations.
翻訳日:2023-02-14 17:29:28 公開日:2023-02-12
# テキストからSQLへのスケルトン解析とスキーマリンクの分離

Decoupling the Skeleton Parsing and Schema Linking for Text-to-SQL ( http://arxiv.org/abs/2302.05965v1 )

ライセンス: Link先を確認
Haoyang Li, Jing Zhang, Cuiping Li, Hong Chen(参考訳) Text-to-SQLの最近のベストプラクティスの1つは、事前訓練された言語モデルである。 SQLクエリの構造的特性のため、Seq2seqモデルはスキーマ項目(テーブルと列)とスケルトン(SQLキーワード)の両方を解析する責任を負う。 このような結合されたターゲットは、特に多くのスキーマアイテムやロジック演算子を含む場合、正しいSQLクエリを解析することが困難になる。 本稿では,スキーマリンクとスケルトン解析を分離するランク付けエンコードおよびスケルトン認識復号フレームワークを提案する。 特に、seq2seqエンコーダ-デコーダモデルでは、エンコーダは、順序のないもの全体ではなく、最も関連性の高いスキーマアイテムによって注入され、SQLパース中のスキーマリンクの労力を軽減し、デコーダはまずスケルトンを生成し、次にSQLパースを暗黙的に制限する実際のSQLクエリを生成する。 提案手法はスパイダー・dk,スパイダー・シン,スパイダー・リアリスティックの3種類のロバスト性について評価した。 実験の結果,我々のフレームワークは有望な性能と堅牢性を提供することがわかった。 私たちのコードはhttps://github.com/RUCKBReasoning/RESDSQLで利用可能です。

One of the recent best attempts at Text-to-SQL is the pre-trained language model. Due to the structural property of the SQL queries, the seq2seq model takes the responsibility of parsing both the schema items (i.e., tables and columns) and the skeleton (i.e., SQL keywords). Such coupled targets increase the difficulty of parsing the correct SQL queries especially when they involve many schema items and logic operators. This paper proposes a ranking-enhanced encoding and skeleton-aware decoding framework to decouple the schema linking and the skeleton parsing. Specifically, for a seq2seq encoder-decode model, its encoder is injected by the most relevant schema items instead of the whole unordered ones, which could alleviate the schema linking effort during SQL parsing, and its decoder first generates the skeleton and then the actual SQL query, which could implicitly constrain the SQL parsing. We evaluate our proposed framework on Spider and its three robustness variants: Spider-DK, Spider-Syn, and Spider-Realistic. The experimental results show that our framework delivers promising performance and robustness. Our code is available at https://github.com/RUCKBReasoning/RESDSQL.
翻訳日:2023-02-14 17:29:10 公開日:2023-02-12
# 2次元ホールガス・マイクロキャビティ系におけるスピン選択型強光マター結合

Spin-selective strong light-matter coupling in a 2D hole gas-microcavity system ( http://arxiv.org/abs/2302.06023v1 )

ライセンス: Link先を確認
Daniel G. Suarez-Forero, Deric Weston Session, Mahmoud Jalali Mehrabad, Patrick Knuppel, Stefan Faelt, Werner Wegscheider, Mohammad Hafezi(参考訳) 2次元気体における時間反転対称性の破れと強い光・物質結合の相互作用は、ポーラリトン物理学に興味深い側面をもたらす。 この組み合わせは強い結合状態において偏光/スピン選択光-物質相互作用をもたらす。 本研究では, マイクロキャビティに結合した量子ホール状態の2次元気体を用いて, 選択的に強い光・物質相互作用を報告した。 具体的には,真空ラビ分裂の円偏極依存性を磁場と孔密度の関数として示す。 ランダウ準位とマイクロキャビティ間の光遷移のカップリングをモデル化することにより,この現象を定量的に理解する。 この方法は、偏光性半導体系におけるスピン自由度に対する制御ツールを導入し、光物質ハイブリッドの新たな実験可能性を実現する。

The interplay between time-reversal symmetry breaking and strong light-matter coupling in 2D gases brings intriguing aspects to polariton physics. This combination can lead to polarization/spin selective light-matter interaction in the strong coupling regime. In this work, we report such a selective strong light-matter interaction by harnessing a 2D gas in the quantum Hall regime coupled to a microcavity. Specifically, we demonstrate circular-polarization dependence of the vacuum Rabi splitting, as a function of magnetic field and hole density. We provide a quantitative understanding of the phenomenon by modeling the coupling of optical transitions between Landau levels to the microcavity. This method introduces a control tool over the spin degree of freedom in polaritonic semiconductor systems, paving the way for new experimental possibilities in light-matter hybrids.
翻訳日:2023-02-14 17:12:02 公開日:2023-02-12
# Ensemble Self-Training を用いた自己監督型オブジェクト空間推定器の正当性検証手法

A Correct-and-Certify Approach to Self-Supervise Object Pose Estimators via Ensemble Self-Training ( http://arxiv.org/abs/2302.06019v1 )

ライセンス: Link先を確認
Jingnan Shi and Rajat Talak and Dominic Maggio and Luca Carlone(参考訳) 現実世界のロボットアプリケーションは、さまざまなシナリオで確実に機能するオブジェクトポーズ推定メソッドを要求する。 現代の学習ベースのアプローチでは、大きなラベル付きデータセットが必要となり、トレーニングドメイン外ではパフォーマンスが低下する傾向がある。 私たちの最初の貢献は、深さ情報を使用してポーズ推定を補正し、既存のメソッドを新しいテストドメインにより良い一般化を可能にする堅牢な補正モジュールを開発することです。 第2の貢献は、複数のポーズ推定器を自己監督的に同時に訓練するアンサンブル自己学習アプローチである。 我々のアンサンブル自己学習アーキテクチャは、頑健な修正器を用いて各ポーズ推定器の出力を洗練し、観測可能な正確性証明を用いて出力の品質を評価する。 付加的な貢献として、リグレッションベースのキーポイント検出アーキテクチャの小さな改善を提案し、その堅牢性を高めるために、ロバストなプーリングスキームとロバストなセントロイド計算を含む。 ycbvおよびtlessデータセットにおける実験では、実データに3dアノテーションを必要とせず、完全に教師付きベースラインを満たしている。

Real-world robotics applications demand object pose estimation methods that work reliably across a variety of scenarios. Modern learning-based approaches require large labeled datasets and tend to perform poorly outside the training domain. Our first contribution is to develop a robust corrector module that corrects pose estimates using depth information, thus enabling existing methods to better generalize to new test domains; the corrector operates on semantic keypoints (but is also applicable to other pose estimators) and is fully differentiable. Our second contribution is an ensemble self-training approach that simultaneously trains multiple pose estimators in a self-supervised manner. Our ensemble self-training architecture uses the robust corrector to refine the output of each pose estimator; then, it evaluates the quality of the outputs using observable correctness certificates; finally, it uses the observably correct outputs for further training, without requiring external supervision. As an additional contribution, we propose small improvements to a regression-based keypoint detection architecture, to enhance its robustness to outliers; these improvements include a robust pooling scheme and a robust centroid computation. Experiments on the YCBV and TLESS datasets show the proposed ensemble self-training outperforms fully supervised baselines while not requiring 3D annotations on real data.
翻訳日:2023-02-14 17:11:49 公開日:2023-02-12
# yahoo ad exchange:最初の価格オークションでフロアを最適化

Yahoo Ad Exchange: Optimizing Floors in First Price Auctions ( http://arxiv.org/abs/2302.06018v1 )

ライセンス: Link先を確認
Miguel Alcobendas, Amado Diaz, Oriol Diaz, Hermakumar Gokulakannan, Jonathan Ji, Boris Kapchits, Rabi Kavoori, Maria Rosario Levy Roman, Emilien Pouradier-Duteil, Korby Satow, Swarna Veerapaneni, Dawit Wami(参考訳) 本稿では,yahooディスプレイとビデオ広告交換におけるフロア最適化の方法論と効果について概説する。 このマーケットプレイスは、最初の価格オークションメカニズムを使って広告を割り当てる。 その結果、最も高い入札者が競売に勝ち、勝者がその入札に支払う。 これは、これまで使用されていた第2価格の競売ルールと異なり、最も高い入札者が競売に勝つが、勝者は第2価格の競売とフロアの最大額を支払う。 当社のソリューションは、需要側のプラットフォームが入札要求に囲まれたフロアに対する応答として入札行動を変更するように誘導し、yahooのサイトが広告収入を増やすのに役立ちます。 2021年6月、米国北部にあるYahooの店舗のディスプレイ広告在庫にDynamic Floors機能を導入しました。 その後、他の市場や店舗でもこの機能を提供し、2022年10月にはYahooのビデオ広告の在庫を最適化し始めた。 この機能の影響は、yahooディスプレイの年間インクリメンタル収益の+1.3%、ビデオ広告インベントリの2.5%と見積もられている。 これはyahooの広告ビジネスにおける無視できない数字だ。

In this paper we outline the methodology and impact of optimizing floors in Yahoo display and video ad exchange. This marketplace uses a first price auction mechanism to allocate ads. As a result, the highest bid wins the auction and the winner pays its bid. This is different from the previously used second price auction rule, where the highest bid also wins the auction but the winner pays the maximum of the second highest bid and the floor. Our solution induces Demand Side Platforms to change their bidding behavior as a response to the floors enclosed in the bid request, helping Yahoo properties to increase their ad revenue. In June 2021, we deployed the Dynamic Floors feature to production on display ad inventory in Yahoo properties located in North-America. Afterwards, we rolled out the feature in other markets and properties, and in October 2022 we started optimizing floors on Yahoo video ad inventory. The impact of this feature is estimated at +1.3% in annualized incremental revenue on Yahoo Display inventory, and +2.5% on video ad inventory. These are non-negligible numbers in a multi-million Yahoo ad business.
翻訳日:2023-02-14 17:11:26 公開日:2023-02-12
# 浅部視覚トランスフォーマの理論的理解--学習・一般化・サンプル複雑性

A Theoretical Understanding of shallow Vision Transformers: Learning, Generalization, and Sample Complexity ( http://arxiv.org/abs/2302.06015v1 )

ライセンス: Link先を確認
Hongkang Li, Meng Wang, Sijia Liu, Pin-yu Chen(参考訳) 自己着脱モジュールを備えた視覚トランスフォーマー(vits)は、近年多くの視覚タスクで大きな成功を収めている。 しかし、層間の非凸相互作用のため、理論的な学習と一般化分析がほとんどである。 本稿では,ラベル関連トークンとラベル関連トークンの両方を特徴付けるデータモデルに基づいて,浅いvit,すなわち1つの自己付着層と2層パーセプトロンを分類タスクとして訓練する最初の理論的解析を行う。 サンプルの複雑さを特徴付け、ゼロ一般化誤差を実現する。 私たちのサンプル複雑性境界は、ラベル関連トークンの分数、トークンノイズレベル、初期モデルエラーの逆と正の相関がある。 また,確率的勾配降下 (sgd) を用いた学習プロセスが,注意度マップのスパース化につながることを証明し,注意度の成功に関する一般直観の形式的検証を行った。 さらに, 適切なトークンスペーシフィケーションは, 相関関係を含むラベル不関連トークンやノイズトークンを除去することにより, テスト性能を向上させることができることを示す。 合成データとCIFAR-10データセットに関する実証実験は、我々の理論結果を正当化し、より深いViTに一般化する。

Vision Transformers (ViTs) with self-attention modules have recently achieved great empirical success in many vision tasks. Due to non-convex interactions across layers, however, theoretical learning and generalization analysis is mostly elusive. Based on a data model characterizing both label-relevant and label-irrelevant tokens, this paper provides the first theoretical analysis of training a shallow ViT, i.e., one self-attention layer followed by a two-layer perceptron, for a classification task. We characterize the sample complexity to achieve a zero generalization error. Our sample complexity bound is positively correlated with the inverse of the fraction of label-relevant tokens, the token noise level, and the initial model error. We also prove that a training process using stochastic gradient descent (SGD) leads to a sparse attention map, which is a formal verification of the general intuition about the success of attention. Moreover, this paper indicates that a proper token sparsification can improve the test performance by removing label-irrelevant and/or noisy tokens, including spurious correlations. Empirical experiments on synthetic data and CIFAR-10 dataset justify our theoretical results and generalize to deeper ViTs.
翻訳日:2023-02-14 17:11:05 公開日:2023-02-12
# 分散型適応選好エージェントに対するオンライン勧告

Online Recommendations for Agents with Discounted Adaptive Preferences ( http://arxiv.org/abs/2302.06014v1 )

ライセンス: Link先を確認
Arpit Agarwal, William Brown(参考訳) レコメンデータが繰り返しコンテンツの提案を提供するドメインでは、エージェントの好みは事前のレコメンデーションの関数として時間とともに進化し、アルゴリズムはこれを長期の最適化のために考慮しなければならない。 最近、agarwal and brown (2022) はエージェントの好みが適応している場合のレコメンデーションを研究するモデルを導入し、エージェントの好みが過去の選択の歴史に一様に依存する場合に一連の結果を与えた。 ここで、レコメンダは、各ラウンドのエージェントに$k$-itemメニュー($n$)を表示し、履歴に依存した“it preference model”を介して$k$アイテムの1つを選択し、レコメンダに対して1項目あたりの広告報酬を与える。 この設定を "it non-uniform} に拡張し、 {\gamma$-discounted} 履歴の一連の結果を与える。 この問題に対して、実行可能な後悔ベンチマークは、様々な条件に大きく依存することができる。 大きめの$\gamma$'' では、以前検討されたベンチマークである ``eird set''' が任意の {\it smooth} モデルに対して達成可能であり、一様記憶の場合から ``local learnability''' 要求を緩和する。 そこで我々は,「擬似的増加」の選好モデルを導入し,一様ノイズの少ない任意のアイテム分布と競合するアルゴリズムを提案する(「擬似的単純度」)。 各症例において, NP-hardness の結果を, より大きな後悔ベンチマークで示す。 我々は、任意の$\gamma$ に対して機能し、$\gamma$ が十分小さい場合にはより高速である擬似インクリエーションモデルに対する別のアルゴリズム(報酬関数の敵対的性質の制限の下で)を与え、``small$\gamma$'' 理論における一般モデルに対するeirdに対する超多項的後悔の下限を示す。 メモリレスケースに対するアルゴリズムのペアを結論付けます。

For domains in which a recommender provides repeated content suggestions, agent preferences may evolve over time as a function of prior recommendations, and algorithms must take this into account for long-run optimization. Recently, Agarwal and Brown (2022) introduced a model for studying recommendations when agents' preferences are adaptive, and gave a series of results for the case when agent preferences depend {\it uniformly} on their history of past selections. Here, the recommender shows a $k$-item menu (out of $n$) to the agent at each round, who selects one of the $k$ items via their history-dependent {\it preference model}, yielding a per-item adversarial reward for the recommender. We expand this setting to {\it non-uniform} preferences, and give a series of results for {\it $\gamma$-discounted} histories. For this problem, the feasible regret benchmarks can depend drastically on varying conditions. In the ``large $\gamma$'' regime, we show that the previously considered benchmark, the ``EIRD set'', is attainable for any {\it smooth} model, relaxing the ``local learnability'' requirement from the uniform memory case. We introduce ``pseudo-increasing'' preference models, for which we give an algorithm which can compete against any item distribution with small uniform noise (the ``smoothed simplex''). We show NP-hardness results for larger regret benchmarks in each case. We give another algorithm for pseudo-increasing models (under a restriction on the adversarial nature of the reward functions), which works for any $\gamma$ and is faster when $\gamma$ is sufficiently small, and we show a super-polynomial regret lower bound with respect to EIRD for general models in the ``small $\gamma$'' regime. We conclude with a pair of algorithms for the memoryless case.
翻訳日:2023-02-14 17:10:45 公開日:2023-02-12
# ポリシーによる自己監督による視覚RLの表現微細化の改善

Policy-Induced Self-Supervision Improves Representation Finetuning in Visual RL ( http://arxiv.org/abs/2302.06009v1 )

ライセンス: Link先を確認
S\'ebastien M. R. Arnold, Fei Sha(参考訳) 視覚的知覚に基づくRLにおける目標タスクに対して、ソースタスクで事前訓練された表現を転送する方法を検討する。 我々は、事前訓練された表現を凍結または微調整する2つの一般的なアプローチを分析する。 一般的なタスクの集合に関する実証的研究は、事前訓練された表現のいくつかの特性を明らかにする。 まず、事前訓練された表現が目標タスクの解決に必要な情報を完璧に捉えた場合でも、微調整が必要となる。 第二に、微調整された表現は学習性を改善し、ノイズに対してより堅牢である。 第3に、事前トレーニングされたボトムレイヤはタスクに依存しず、新しいタスクに簡単に転送できる。 これらの知見に基づいて,政策非依存(ユークリッドノルム,コサイン類似性など)の伝統的な表現類似性尺度とは対照的に,彼らが誘導する政策に従って表現をクラスター化する自己教師付き目標を提案する。 底層を凍結させることで、この目的は幅広いベンチマークで凍結、微調整、自己監督の代替よりもはるかに優れた表現をもたらす。

We study how to transfer representations pretrained on source tasks to target tasks in visual percept based RL. We analyze two popular approaches: freezing or finetuning the pretrained representations. Empirical studies on a set of popular tasks reveal several properties of pretrained representations. First, finetuning is required even when pretrained representations perfectly capture the information required to solve the target task. Second, finetuned representations improve learnability and are more robust to noise. Third, pretrained bottom layers are task-agnostic and readily transferable to new tasks, while top layers encode task-specific information and require adaptation. Building on these insights, we propose a self-supervised objective that clusters representations according to the policy they induce, as opposed to traditional representation similarity measures which are policy-agnostic (e.g. Euclidean norm, cosine similarity). Together with freezing the bottom layers, this objective results in significantly better representation than frozen, finetuned, and self-supervised alternatives on a wide range of benchmarks.
翻訳日:2023-02-14 17:10:06 公開日:2023-02-12
# ASR Bundestag: ドイツの大規模な政治討論データセット

ASR Bundestag: A Large-Scale political debate dataset in German ( http://arxiv.org/abs/2302.06008v1 )

ライセンス: Link先を確認
Johannes Wirth, Ren\'e Peinl(参考訳) 本稿では,ドイツ語の自動音声認識のためのデータセットであるASR Bundestagについて,教師あり学習のための610時間のアライメントされた音声書き起こしペアと,独議会のレナールセッションと委員会会議の生音声データと書き起こしに基づいて,自己教師あり学習のための1,038時間の音声スニペットを提示する。 さらに,音声データセットの自動作成のための活用手法について検討し,事前学習したアートモデルの評価と微調整に基づいて,得られたデータセットの品質を評価する。 すべてのサブセットを含むデータセットを公開しています。

We present ASR Bundestag, a dataset for automatic speech recognition in German, consisting of 610 hours of aligned audio-transcript pairs for supervised training as well as 1,038 hours of unlabeled audio snippets for self-supervised learning, based on raw audio data and transcriptions from plenary sessions and committee meetings of the German parliament. In addition, we discuss utilized approaches for the automated creation of speech datasets and assess the quality of the resulting dataset based on evaluations and finetuning of a pre-trained state of the art model. We make the dataset publicly available, including all subsets.
翻訳日:2023-02-14 17:09:50 公開日:2023-02-12
# 平均h\"older smoothnessを用いた近最適学習

Near-optimal learning with average H\"older smoothness ( http://arxiv.org/abs/2302.06005v1 )

ライセンス: Link先を確認
Steve Hanneke, Aryeh Kontorovich, Guy Kornowski(参考訳) 我々は,ashlagi et al. (colt 2021) が提案した平均リプシッツ平滑性の概念を h\"older smoothness に拡張することで一般化する。 函数の「有効滑らかさ」のこの測度は、下層の分布に敏感であり、古典的な ``worst-case'' H\"older constant よりも劇的に小さい。 我々は, 平均H\"高齢者の滑らか度の観点から, 平均リプシッツ・スムースネスの特殊な場合においても, ログファクタに設定された再現可能な回帰設定において, 最小値の値を確立することによって, 平均H\"高齢者のスムースネスにおいて, ほぼ厳密な上限と低いリスク境界を証明した。 アルゴリズムの観点からは, 平均滑らか性の概念は未知のサンプリング分布に対して定義されるため, 学習者は関数クラスの明示的な表現を持たないため, ERMの実行は不可能である。 それにもかかわらず、我々は(ほぼ)最適学習率を達成する学習アルゴリズムを提供する。 我々の結果は任意の完全有界距離空間を持ち、その内在幾何学の観点で述べられている。 総じて,h\"older smoothness の古典的な最悪ケース概念は,本質的に平均値に置き換えられ,よりシャープな保証が得られることを示した。

We generalize the notion of average Lipschitz smoothness proposed by Ashlagi et al. (COLT 2021) by extending it to H\"older smoothness. This measure of the ``effective smoothness'' of a function is sensitive to the underlying distribution and can be dramatically smaller than its classic ``worst-case'' H\"older constant. We prove nearly tight upper and lower risk bounds in terms of the average H\"older smoothness, establishing the minimax rate in the realizable regression setting up to log factors; this was not previously known even in the special case of average Lipschitz smoothness. From an algorithmic perspective, since our notion of average smoothness is defined with respect to the unknown sampling distribution, the learner does not have an explicit representation of the function class, hence is unable to execute ERM. Nevertheless, we provide a learning algorithm that achieves the (nearly) optimal learning rate. Our results hold in any totally bounded metric space, and are stated in terms of its intrinsic geometry. Overall, our results show that the classic worst-case notion of H\"older smoothness can be essentially replaced by its average, yielding considerably sharper guarantees.
翻訳日:2023-02-14 17:09:37 公開日:2023-02-12
# 不確実性関係の統一導出とその飽和条件

Unified Derivation of Uncertainty Relations and Their Saturation Conditions ( http://arxiv.org/abs/2302.06002v1 )

ライセンス: Link先を確認
Chi-Kwong Li and Mikio Nakahara(参考訳) 我々は、Kennard, Robertson, Schr\odinger, Maccone, Pati による不確実性関係を、行列論の観点から統一的に解析する。 これらの不確実性関係に対する短い証明と飽和条件の特性を与える。

We analyze uncertainty relations due to Kennard, Robertson, Schr\"odinger, Maccone and Pati in a unified way from matrix theory point of view. Short proofs are given to these uncertainty relations and characterizations of the saturation conditions are given.
翻訳日:2023-02-14 17:09:16 公開日:2023-02-12
# G4CMP:Geant4 Toolkitを用いた凝縮物質物理シミュレーション

G4CMP: Condensed Matter Physics Simulation Using the Geant4 Toolkit ( http://arxiv.org/abs/2302.05998v1 )

ライセンス: Link先を確認
M. H. Kelsey, R. Agnese, Y. F. Alam, I. Ataee Langroudy, E. Azadbakht, D. Brandt, R. Bunker, B. Cabrera, Y.-Y. Chang, H. Coombes, R. M. Cormier, M. D. Diamond, E. R. Edwards, E. Figueroa-Feliciano, J. Gao, P. M. Harrington, Z. Hong, M. Hui, N. A. Kurinsky, R. E. Lawrence, B. Loer, M. G. Masten, E. Michaud, E. Michielin, J. Miller, V. Novati, N. S. Oblath, J. L. Orrell, W. L. Perry, P. Redl, T. Reynolds, T. Saab, B. Sadoulet, K. Serniak, J. Singh, Z. Speaks, C. Stanford, J. R. Stevens, J. Strube, D. Toback, J. N. Ullom, B. A. VanDevender, M. R. Vissers, M. J. Wilson, J. S. Wilson, B. Zatschler, S. Zatschler(参考訳) G4CMPはGeant4ツールキットを用いて低温半導体結晶のフォノンと電荷輸送をシミュレートする。 トランスポートコードは、電子およびホール電荷キャリアと同様に音響フォノンの伝搬をシミュレートすることができる。 加速電荷キャリアによる異方性フォノン伝搬、斜め電荷キャリア伝播、フォノン放出のプロセスを含む。 このシミュレーションは、フォノン因果、熱パルス伝播時間、平均電荷キャリアドリフト速度などの理論予測と実験観測を再現する。 G4CMPがサポートする物理と特徴の提示に加えて、ダークマターや量子情報科学のコミュニティからの応用例を概説する。 これらのコミュニティは、シリコン基板やゲルマニウム基板上に配置された超伝導機器や回路の性能にフォノンや電荷担体によって輸送されるエネルギーがドイツ語である装置をモデル化し設計するためにG4CMPを適用している。 G4CMPパッケージはGitHubからダウンロードできる: github.com/kelseymh/G4CMP。

G4CMP simulates phonon and charge transport in cryogenic semiconductor crystals using the Geant4 toolkit. The transport code is capable of simulating the propagation of acoustic phonons as well as electron and hole charge carriers. Processes for anisotropic phonon propagation, oblique charge-carrier propagation, and phonon emission by accelerated charge carriers are included. The simulation reproduces theoretical predictions and experimental observations such as phonon caustics, heat-pulse propagation times, and mean charge-carrier drift velocities. In addition to presenting the physics and features supported by G4CMP, this report outlines example applications from the dark matter and quantum information science communities. These communities are applying G4CMP to model and design devices for which the energy transported by phonons and charge carriers is germane to the performance of superconducting instruments and circuits placed on silicon and germanium substrates. The G4CMP package is available to download from GitHub: github.com/kelseymh/G4CMP.
翻訳日:2023-02-14 17:09:11 公開日:2023-02-12
# 磁気固体を用いた拡張ディックモデルの量子シミュレーション

Quantum Simulation of an Extended Dicke Model with a Magnetic Solid ( http://arxiv.org/abs/2302.06028v1 )

ライセンス: Link先を確認
Nicolas Marquez Peraca, Xinwei Li, Jaime M. Moya, Kenji Hayashida, Xiaoxuan Ma, Kelly J. Neubauer, Diego Fallas Padilla, Chien-Lung Huang, Pengcheng Dai, Andriy H. Nevidomskyy, Han Pu, Emilia Morosan, Shixun Cao, Motoaki Bamba, and Junichiro Kono(参考訳) ディックモデルは、2層原子のアンサンブルと1モードのフォトニック場との協調相互作用を記述し、光-物質結合強度の関数として量子相転移を示す。 Extending this model by incorporating short-range atom--atom interactions makes the problem intractable but is expected to produce new phases. Here, we simulate such an extended Dicke model using a crystal of ErFeO$_3$, where the role of atoms (photons) is played by Er$^{3+}$ spins (Fe$^{3+}$ magnons). Through magnetocaloric effect and terahertz magnetospectroscopy measurements, we demonstrated the existence of a novel atomically ordered phase in addition to the superradiant and normal phases that are expected from the standard Dicke model. Further, we elucidated the nature of the phase boundaries in the temperature--magnetic-field phase diagram, identifying both first-order and second-order phase transitions. これらの結果は、多体凝縮物質系を用いた多原子量子光学モデルの研究の基礎となった。

The Dicke model describes the cooperative interaction of an ensemble of two-level atoms with a single-mode photonic field and exhibits a quantum phase transition as a function of light--matter coupling strength. Extending this model by incorporating short-range atom--atom interactions makes the problem intractable but is expected to produce new phases. Here, we simulate such an extended Dicke model using a crystal of ErFeO$_3$, where the role of atoms (photons) is played by Er$^{3+}$ spins (Fe$^{3+}$ magnons). Through magnetocaloric effect and terahertz magnetospectroscopy measurements, we demonstrated the existence of a novel atomically ordered phase in addition to the superradiant and normal phases that are expected from the standard Dicke model. Further, we elucidated the nature of the phase boundaries in the temperature--magnetic-field phase diagram, identifying both first-order and second-order phase transitions. These results lay the foundation for studying multiatomic quantum optics models using well-characterized many-body condensed matter systems.
翻訳日:2023-02-14 17:00:30 公開日:2023-02-12
# beyond ucb:非線形リッジバンドに対する統計的複雑性と最適アルゴリズム

Beyond UCB: Statistical Complexity and Optimal Algorithms for Non-linear Ridge Bandits ( http://arxiv.org/abs/2302.06025v1 )

ライセンス: Link先を確認
Nived Rajaraman, Yanjun Han, Jiantao Jiao, Kannan Ramchandran(参考訳) 平均結果が選択された行動の非線形関数である逐次意思決定問題を考える。 線形モデルと比較すると、2つの興味深い現象が非線形モデルに現れる: 第一に、推定または後悔のための標準パラメトリックレートの「学習フェーズ」に加えて、非線形関数によって決定される固定コストの「バーンイン期間」が存在し、第二に、最小のバーンインコストを達成するためには新しい探索アルゴリズムが必要である。 文献におけるリッジ関数と呼ばれる非線形関数の特別な族について、最適なバーンインコストの上限と下限を導出し、さらに微分方程式を用いてバーンイン期間の学習軌跡全体を導出する。 特に、2段階のアルゴリズムはまず良い初期作用を見つけ、その問題を局所線型として扱うことは統計的に最適である。 対照的に、UTBや回帰オラクルに依存するアルゴリズムのような古典的なアルゴリズムは、明らかに準最適である。

We consider the sequential decision-making problem where the mean outcome is a non-linear function of the chosen action. Compared with the linear model, two curious phenomena arise in non-linear models: first, in addition to the "learning phase" with a standard parametric rate for estimation or regret, there is an "burn-in period" with a fixed cost determined by the non-linear function; second, achieving the smallest burn-in cost requires new exploration algorithms. For a special family of non-linear functions named ridge functions in the literature, we derive upper and lower bounds on the optimal burn-in cost, and in addition, on the entire learning trajectory during the burn-in period via differential equations. In particular, a two-stage algorithm that first finds a good initial action and then treats the problem as locally linear is statistically optimal. In contrast, several classical algorithms, such as UCB and algorithms relying on regression oracles, are provably suboptimal.
翻訳日:2023-02-14 17:00:16 公開日:2023-02-12
# UniPC: 拡散モデルの高速サンプリングのための統一予測コレクタフレームワーク

UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models ( http://arxiv.org/abs/2302.04867v2 )

ライセンス: Link先を確認
Wenliang Zhao, Lujia Bai, Yongming Rao, Jie Zhou, Jiwen Lu(参考訳) 拡散確率モデル(DPM)は高分解能画像合成において非常に有望な能力を示した。 しかしながら、事前訓練されたDPMからのサンプリングは通常、数百のモデル評価を必要とする。 dpmの高次ソルバの設計は近年進展しているが、特に非常に少ないステップ(例えば5〜10ステップ)では、さらなるスピードアップの余地がある。 ODEソルバの予測器コレクタにインスパイアされ,既存のDPMサンプリング器の後に適用可能な統一補正器(UniC)を開発し,モデル評価を余分に行わずに精度を高めるとともに,任意の順序を副生成物としてサポートする統一予測器(UniP)を導出する。 そこで,unip と unic を組み合わせることで,dpms の高速サンプリングのための統一予測子補正フレームワーク unipc を提案する。 我々は,画素空間と潜在空間DPMを用いた非条件サンプリングと条件サンプリングの両方を含む広範囲な実験により評価を行った。 我々のUniPCは、CIFAR10(unconditional)で3.87 FID、ImageNet 256$\times$256(conditional)で7.51 FIDを達成できる。 コードはhttps://github.com/wl-zhao/UniPCで入手できる。

Diffusion probabilistic models (DPMs) have demonstrated a very promising ability in high-resolution image synthesis. However, sampling from a pre-trained DPM usually requires hundreds of model evaluations, which is computationally expensive. Despite recent progress in designing high-order solvers for DPMs, there still exists room for further speedup, especially in extremely few steps (e.g., 5~10 steps). Inspired by the predictor-corrector for ODE solvers, we develop a unified corrector (UniC) that can be applied after any existing DPM sampler to increase the order of accuracy without extra model evaluations, and derive a unified predictor (UniP) that supports arbitrary order as a byproduct. Combining UniP and UniC, we propose a unified predictor-corrector framework called UniPC for the fast sampling of DPMs, which has a unified analytical form for any order and can significantly improve the sampling quality over previous methods. We evaluate our methods through extensive experiments including both unconditional and conditional sampling using pixel-space and latent-space DPMs. Our UniPC can achieve 3.87 FID on CIFAR10 (unconditional) and 7.51 FID on ImageNet 256$\times$256 (conditional) with only 10 function evaluations. Code is available at https://github.com/wl-zhao/UniPC
翻訳日:2023-02-14 11:31:43 公開日:2023-02-12
# 知識は微調整言語モデルのための重み空間の領域である

Knowledge is a Region in Weight Space for Fine-tuned Language Models ( http://arxiv.org/abs/2302.04863v2 )

ライセンス: Link先を確認
Almog Gueta, Elad Venezian, Colin Raffel, Noam Slonim, Yoav Katz, Leshem Choshen(参考訳) ニューラルネットワークの研究は、単一のデータセットでトレーニングされた単一のモデルを理解することに集中してきた。 しかしながら、異なるモデル、特に異なるデータセットでトレーニングまたはテストされたモデル間の関係について、比較的知られていない。 我々は、異なるモデルの重量空間と下層の損失景観がどのように相互に関連付けられているかを研究することでこの問題に対処する。 具体的には、ハイパフォーマンスに最適化された微調整されたモデルが、重み空間内の明確に定義された領域に存在し、その逆もまた、これらの領域に存在するモデルがハイパフォーマンスであることを示す。 具体的には、同じデータセットに微調整された言語モデルが重み空間の密クラスタを形成し、同じタスクから異なるデータセットに微調整されたモデルがより緩いクラスタを形成することを示す。 さらに、モデル間の領域を横切ると、元のモデルが微調整されていないタスクであっても、微調整によって発見されたモデルと同等あるいはそれ以上の性能を持つ新しいモデルに到達します。 本研究は, モデル間の関係を考察し, 2つの類似モデルの間に配置されたモデルが両者の知識を得られることを示した。 この発見と設計を利用して、効率的な微調整のためのより良いモデルを選択する。 具体的には、12のデータセットのうち11のトレーニング済みモデルよりも、リージョンの中心から始める方が良いか良いかを示し、平均で3.06の精度向上を示す。

Research on neural networks has largely focused on understanding a single model trained on a single dataset. However, relatively little is known about the relationships between different models, especially those trained or tested on different datasets. We address this by studying how the weight space and underlying loss landscape of different models are interconnected. Specifically, we demonstrate that fine-tuned models that were optimized for high performance, reside in well-defined regions in weight space, and vice versa -- that any model that resides anywhere in those regions also has high performance. Specifically, we show that language models that have been fine-tuned on the same dataset form a tight cluster in the weight space and that models fine-tuned on different datasets from the same underlying task form a looser cluster. Moreover, traversing around the region between the models reaches new models that perform comparably or even better than models found via fine-tuning, even on tasks that the original models were not fine-tuned on. Our findings provide insight into the relationships between models, demonstrating that a model positioned between two similar models can acquire the knowledge of both. We leverage this finding and design a method to pick a better model for efficient fine-tuning. Specifically, we show that starting from the center of the region is as good or better than the pre-trained model in 11 of 12 datasets and improves accuracy by 3.06 on average.
翻訳日:2023-02-14 11:31:16 公開日:2023-02-12
# 報酬の読み書き:指導マニュアルの助けを借りてatariをプレイすることを学ぶ

Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals ( http://arxiv.org/abs/2302.04449v2 )

ライセンス: Link先を確認
Yue Wu, Yewen Fan, Paul Pu Liang, Amos Azaria, Yuanzhi Li, Tom M. Mitchell(参考訳) 高いサンプルの複雑さは、長い間RLにとって課題だった。 一方、人間は対話やデモンストレーションだけでなく、構造化されていないテキスト文書(例えば指示マニュアル)を読むことでタスクを実行することを学ぶ。 インストラクションマニュアルやwikiページは、貴重な機能やポリシー、タスク固有の環境ダイナミクスや報酬構造をエージェントに知らせる最も豊富なデータである。 そこで本研究では,人手による指導マニュアルを活用すれば,特定のタスクの学習方針を支援する能力が,より効率的で優れたエージェントとなると仮定する。 我々は read and reward framework を提案する。 read and rewardは、atari game developersがリリースしたマニュアルを読むことで、atari gamesのrlアルゴリズムを高速化する。 本フレームワークは,手動から関連情報を抽出・要約するQA抽出モジュールと,手動からの情報に基づいてオブジェクトとエージェントのインタラクションを評価するReasoningモジュールから構成される。 相互作用が検出されると、補助報酬が標準A2C RLエージェントに提供される。 我々の設計によりA2Cは、アタリ環境での4つのゲームの改善に成功し、アタリで最も難しいゲームであるスキーのSOTAエージェント57と比べて1000倍少ないトレーニングフレームを必要とする。

High sample complexity has long been a challenge for RL. On the other hand, humans learn to perform tasks not only from interaction or demonstrations, but also by reading unstructured text documents, e.g., instruction manuals. Instruction manuals and wiki pages are among the most abundant data that could inform agents of valuable features and policies or task-specific environmental dynamics and reward structures. Therefore, we hypothesize that the ability to utilize human-written instruction manuals to assist learning policies for specific tasks should lead to a more efficient and better-performing agent. We propose the Read and Reward framework. Read and Reward speeds up RL algorithms on Atari games by reading manuals released by the Atari game developers. Our framework consists of a QA Extraction module that extracts and summarizes relevant information from the manual and a Reasoning module that evaluates object-agent interactions based on information from the manual. Auxiliary reward is then provided to a standard A2C RL agent, when interaction is detected. When assisted by our design, A2C improves on 4 games in the Atari environment with sparse rewards, and requires 1000x less training frames compared to the previous SOTA Agent 57 on Skiing, the hardest game in Atari.
翻訳日:2023-02-14 11:30:51 公開日:2023-02-12