このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211027となっている論文です。

PDF登録状況(公開日: 20211027)

TitleAuthorsAbstract論文公表日・翻訳日
# 人工知能と小児科におけるインフルエンシャルペーパー : 専門家レビューによるRPYSの評価

Influential Papers in Artificial Intelligence and Paediatrics: Assessing RPYS by Experts Review ( http://arxiv.org/abs/2111.06852v1 )

ライセンス: Link先を確認
Peter Kokol, Jernej Zavr\v{s}nik, Helena Bla\v{z}un Vo\v{s}ner(参考訳) 小児科における人工知能の利用はここ数年で大幅に増加している。 興味深いことに、この特定の小児科領域における知識開発に関する文献学的研究はまだ行われておらず、このギャップを埋めることを目的としている。 参考文献 Publication Years Spectrography (RPYS)、より正確には CitedReferenceExplor er (CRE) ソフトウェアツールがこの目的を達成するために使用された。 筆者らは28紙を同定し, PRYS法とCRE法の両方が同定過程において適切に機能することが確認された。

The use of artificial intelligence in paediatrics has vastly increased in the last few years. Interestingly, no historical bibliometric study analysing the knowledge development in this specific paediatric field has been performed yet, thus our study aimed to close this gap. References Publication Years Spectrography (RPYS), more precisely CitedReferenceExplor er (CRE) software tool was employed to achieve this aim. We identified 28 influential papers and domain experts validation showed that both, the RPYS method and CRE tool performed adequately in the identification process.
翻訳日:2021-11-21 15:07:46 公開日:2021-10-27
# (参考訳) マルチタスク学習に基づく最適化手法による所望の特性を有する多種多様な材料微細構造の探索とテクスチャ最適化への応用

A multi-task learning-based optimization approach for finding diverse sets of material microstructures with desired properties and its application to texture optimization ( http://arxiv.org/abs/2111.00916v1 )

ライセンス: CC BY 4.0
Tarek Iraki, Lukas Morand, Johannes Dornheim, Norbert Link, Dirk Helm(参考訳) チェーン処理-構造-プロパティー-パフォーマンスに沿った最適化は、データ駆動材料科学における中核的な目標の1つである。 この意味では、プロセスは、ターゲットとなる材料の微細構造を持つワークピースを製造すべきである。 これらの微細構造は、興味のある材料特性によって定義され、それらを特定することは材料設計の問題である。 本稿では,この問題に対処し,汎用的なマルチタスク学習に基づく最適化手法を提案する。 このアプローチにより、与えられた望ましい特性と対応する耐性のために、高度に多様なミクロ組織の集合を識別することができる。 基本的にこのアプローチは、マルチタスク学習とシアムニューラルネットワークを組み合わせた機械学習モデルと相互作用する最適化アルゴリズムで構成されている。 得られたモデル(1)は, 微構造と特性, (2) 再現可能な微細構造の可能性を推定し, (3) より低次元の潜在特徴空間を生成し, 効率的な最適化を実現するために, 微細構造の特徴抽出を行う。 本手法は, 所望特性を有する圧延鋼板の結晶組織最適化問題に適用できる。

The optimization along the chain processing-structure -properties-performa nce is one of the core objectives in data-driven materials science. In this sense, processes are supposed to manufacture workpieces with targeted material microstructures. These microstructures are defined by the material properties of interest and identifying them is a question of materials design. In the present paper, we addresse this issue and introduce a generic multi-task learning-based optimization approach. The approach enables the identification of sets of highly diverse microstructures for given desired properties and corresponding tolerances. Basically, the approach consists of an optimization algorithm that interacts with a machine learning model that combines multi-task learning with siamese neural networks. The resulting model (1) relates microstructures and properties, (2) estimates the likelihood of a microstructure of being producible, and (3) performs a distance preserving microstructure feature extraction in order to generate a lower dimensional latent feature space to enable efficient optimization. The proposed approach is applied on a crystallographic texture optimization problem for rolled steel sheets given desired properties.
翻訳日:2021-11-07 12:04:21 公開日:2021-10-27
# MEMOBERT:マルチモーダル感情認識のためのプロンプト学習による事前学習モデル

MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal Emotion Recognition ( http://arxiv.org/abs/2111.00865v1 )

ライセンス: Link先を確認
Jinming Zhao, Ruichen Li, Qin Jin, Xinchao Wang, Haizhou Li(参考訳) マルチモーダル感情認識研究は、高いアノテーションコストとラベルあいまいさのため、スケールと多様性の観点からコーパスのラベルがないことが妨げられている。 本稿では,マルチモーダルな感情認識のための事前学習モデルである「textbf{MEmoBERT}」を提案する。 さらに,従来の"pre-train, finetune"パラダイムとは異なり,下流感情分類タスクをマスキングテキスト予測タスクとして再構成し,下流タスクを事前学習に近づけるプロンプトベース手法を提案する。 IEMOCAPとMSP-IMPROVの2つのベンチマークデータセットに対する大規模な実験により,提案したMEMOBERTは感情認識性能を大幅に向上することが示された。

Multimodal emotion recognition study is hindered by the lack of labelled corpora in terms of scale and diversity, due to the high annotation cost and label ambiguity. In this paper, we propose a pre-training model \textbf{MEmoBERT} for multimodal emotion recognition, which learns multimodal joint representations through self-supervised learning from large-scale unlabeled video data that come in sheer volume. Furthermore, unlike the conventional "pre-train, finetune" paradigm, we propose a prompt-based method that reformulates the downstream emotion classification task as a masked text prediction one, bringing the downstream task closer to the pre-training. Extensive experiments on two benchmark datasets, IEMOCAP and MSP-IMPROV, show that our proposed MEmoBERT significantly enhances emotion recognition performance.
翻訳日:2021-11-07 11:46:04 公開日:2021-10-27
# 投資家/企業マッチングのパラメータ化説明

Parameterized Explanations for Investor / Company Matching ( http://arxiv.org/abs/2111.01911v1 )

ライセンス: Link先を確認
Simerjot Kaur, Ivan Brugere, Andrea Stefanucci, Armineh Nourbakhsh, Sameena Shah, Manuela Veloso(参考訳) 企業と投資家のマッチングは通常、高度に専門的な意思決定プロセスとみなされる。 このようなレコメンデーションプロセスを自動化可能なaiエージェントの開発は、コスト削減と人間のバイアスとエラーの排除に大きく寄与する。 しかし、金融データセットのサンプルサイズが限られており、良いレコメンデーションの必要性だけでなく、なぜ特定のレコメンデーションが行われるのかを説明する必要があるため、これは難しい問題である。 本研究では,小さなデータセットと非常にうまく連携する表現学習型レコメンデーションエンジンを提案し,パラメータ化説明生成エンジンと組み合わせることで,投資家と企業のマッチングのための説明可能なレコメンデーションシステムを構築する方法を示す。 システムの性能を人為的な提案と比較し,この課題に対してアルゴリズムが極めて優れた性能を発揮することを示す。 我々はまた、説明可能性が実際のシステム導入にどのように役立つかを強調する。

Matching companies and investors is usually considered a highly specialized decision making process. Building an AI agent that can automate such recommendation process can significantly help reduce costs, and eliminate human biases and errors. However, limited sample size of financial data-sets and the need for not only good recommendations, but also explaining why a particular recommendation is being made, makes this a challenging problem. In this work we propose a representation learning based recommendation engine that works extremely well with small datasets and demonstrate how it can be coupled with a parameterized explanation generation engine to build an explainable recommendation system for investor-company matching. We compare the performance of our system with human generated recommendations and demonstrate the ability of our algorithm to perform extremely well on this task. We also highlight how explainability helps with real-life adoption of our system.
翻訳日:2021-11-07 11:45:15 公開日:2021-10-27
# (参考訳) LSTM-RPA:音楽人気予測のための単純だが効果的な長周期予測アルゴリズム [全文訳有]

LSTM-RPA: A Simple but Effective Long Sequence Prediction Algorithm for Music Popularity Prediction ( http://arxiv.org/abs/2110.15790v1 )

ライセンス: CC BY 4.0
Kun Li, Meng Li, Yanling Li, and Min Lin(参考訳) 音楽の歴史に関するビッグデータには、時間とユーザーの行動に関する情報が含まれている。 このデータを分析すれば、人気曲の傾向を正確に予測できる。 従来の傾向予測モデルは、長い傾向よりも短い傾向を予測できる。 本稿では,LSTM履歴入力と現在の予測結果をモデル入力とする改良型LSTM転がり予測アルゴリズム(LSTM-RPA)を提案する。 一方、このアルゴリズムは、長いトレンド予測タスクを複数の短いトレンド予測タスクに変換する。 LSTM, BiLSTM, GRU, RNNと比較して, LSTM-RPAモデルではFスコアが13.03%, 16.74%, 11.91%, 18.52%増加した。 また、本手法は、arimaおよびsmaであるtradi-tional sequence modelを10.67%、fスコアを3.43%改善した。

The big data about music history contains information about time and users' behavior. Researchers could predict the trend of popular songs accurately by analyzing this data. The traditional trend prediction models can better predict the short trend than the long trend. In this paper, we proposed the improved LSTM Rolling Prediction Algorithm (LSTM-RPA), which combines LSTM historical input with current prediction results as model input for next time prediction. Meanwhile, this algorithm converts the long trend prediction task into multiple short trend prediction tasks. The evaluation results show that the LSTM-RPA model increased F score by 13.03%, 16.74%, 11.91%, 18.52%, compared with LSTM, BiLSTM, GRU and RNN. And our method outperforms tradi-tional sequence models, which are ARIMA and SMA, by 10.67% and 3.43% improvement in F score.Code: https://github.com/m aliaosaide/lstm-rpa
翻訳日:2021-11-02 02:42:19 公開日:2021-10-27
# データセンターにおけるインテリジェントロードバランシングを目指して

Towards Intelligent Load Balancing in Data Centers ( http://arxiv.org/abs/2110.15788v1 )

ライセンス: Link先を確認
Zhiyuan Yao, Yoann Desmouceaux, Mark Townsley, Thomas Heide Clausen(参考訳) ネットワークロードバランサは,スケーラブルなサービスを提供する上で,データセンタの重要なコンポーネントである。 ワークロード分散アルゴリズムは、例えば、Equal-Cost Multi-Path (ECMP)、Weighted-Cost Multi-Path (WCMP)、Naive Machine Learning (ML)アルゴリズムなどのヒューリスティックスに基づいている。 高度なMLベースのアプローチは、さまざまなネットワークやシステム問題のパフォーマンス向上に役立つ。 しかし,実生活システムにおけるネットワーク問題にmlアルゴリズムを適用することは困難である。 動的で異質な低レイテンシ、高スループット、スケーラブルなネットワークシステムから機能を集めるには、ドメイン知識が必要です。 本稿では,mlとネットワークシステムのギャップを橋渡しするaquariusを提案し,ネットワークロードバランサの文脈での利用例を示す。 本稿では,実システムにおけるオフラインデータ解析とオンラインモデル展開の両立を実証する。 その結果、Aquariusを使用してトレーニングおよびデプロイされたMLモデルは、ロードバランシング性能を改善する一方で、ネットワークシステムにMLを適用する上で解決すべき課題も明らかにした。

Network load balancers are important components in data centers to provide scalable services. Workload distribution algorithms are based on heuristics, e.g., Equal-Cost Multi-Path (ECMP), Weighted-Cost Multi-Path (WCMP) or naive machine learning (ML) algorithms, e.g., ridge regression. Advanced ML-based approaches help achieve performance gain in different networking and system problems. However, it is challenging to apply ML algorithms on networking problems in real-life systems. It requires domain knowledge to collect features from low-latency, high-throughput, and scalable networking systems, which are dynamic and heterogenous. This paper proposes Aquarius to bridge the gap between ML and networking systems and demonstrates its usage in the context of network load balancers. This paper demonstrates its ability of conducting both offline data analysis and online model deployment in realistic systems. The results show that the ML model trained and deployed using Aquarius improves load balancing performance yet they also reveals more challenges to be resolved to apply ML for networking systems.
翻訳日:2021-11-01 15:07:59 公開日:2021-10-27
# 変分推論による非単調自己回帰順序の発見

Discovering Non-monotonic Autoregressive Orderings with Variational Inference ( http://arxiv.org/abs/2110.15797v1 )

ライセンス: Link先を確認
Xuanlin Li, Brandon Trabucco, Dong Huk Park, Michael Luo, Sheng Shen, Trevor Darrell, Yang Gao(参考訳) 言語モデリングの主要なアプローチは、シーケンスを左から右に処理することだが、これは、シーケンスが生成される順序である情報のソースを排除している。 この情報を復元するための1つの戦略は、トークンの内容と順序の両方をデコードすることである。 既存のアプローチでは、問題固有の損失関数を設計し、事前選択した順序で事前トレーニングすることで、コンテンツと順序を監督する。 その他の最近の研究では、反復探索を用いて、トレーニングのための問題固有の順序を見つけるが、高い時間の複雑さに苦しめられ、効率的に並列化できない。 これらの制限に対処するため、教師なしの並列化可能な学習者が、訓練データから純粋に高品質な生成順序を発見する。 学習者は、遅延変数として自己回帰順序(置換行列として表される)で変分推論を行うエンコーダネットワークとデコーダ言語モデルを含む。 対応するELBOは微分可能ではないため,ポリシー勾配を用いたエンドツーエンド最適化のための実用的なアルゴリズムを開発した。 エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。 置換は挿入ベースのTransformer言語モデルをトレーニングするためのターゲット生成命令として機能する。 言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つける。

The predominant approach for language modeling is to process sequences from left to right, but this eliminates a source of information: the order by which the sequence was generated. One strategy to recover this information is to decode both the content and ordering of tokens. Existing approaches supervise content and ordering by designing problem-specific loss functions and pre-training with an ordering pre-selected. Other recent works use iterative search to discover problem-specific orderings for training, but suffer from high time complexity and cannot be efficiently parallelized. We address these limitations with an unsupervised parallelizable learner that discovers high-quality generation orders purely from training data -- no domain knowledge required. The learner contains an encoder network and decoder language model that perform variational inference with autoregressive orders (represented as permutation matrices) as latent variables. The corresponding ELBO is not differentiable, so we develop a practical algorithm for end-to-end optimization using policy gradients. We implement the encoder as a Transformer with non-causal attention that outputs permutations in one forward pass. Permutations then serve as target generation orders for training an insertion-based Transformer language model. Empirical results in language modeling tasks demonstrate that our method is context-aware and discovers orderings that are competitive with or even better than fixed orders.
翻訳日:2021-11-01 13:42:38 公開日:2021-10-27
# (参考訳) 学習予測-焦点混合について [全文訳有]

On Learning Prediction-Focused Mixtures ( http://arxiv.org/abs/2110.13221v2 )

ライセンス: CC BY 4.0
Abhishek Sharma, Catherine Zeng, Sanjana Narayanan, Sonali Parbhoo and Finale Doshi-Velez(参考訳) 確率的モデルは、データモデリングと理想的には特定の下流タスクに有用な遅延構造をエンコードするのに役立ちます。 これらのうち、混合モデルとその時系列モデル、隠れマルコフモデルは、データの個々のコンポーネントを識別する。 本研究では、比較的少数のコンポーネント(解釈可能性の目的など)でモデルを学習したいという制約付きキャパシティ設定に焦点を当てる。 予測性能を維持するために,予測タスクに関連する次元を自動的に選択する混合モデルを提案する。 提案手法は,入力からの関連信号を特定し,予測に焦点を絞らず,最適化が容易なモデルより優れており,予測に焦点を絞ったモデルが機能することが期待できる場合にも特徴付ける。

Probabilistic models help us encode latent structures that both model the data and are ideally also useful for specific downstream tasks. Among these, mixture models and their time-series counterparts, hidden Markov models, identify discrete components in the data. In this work, we focus on a constrained capacity setting, where we want to learn a model with relatively few components (e.g. for interpretability purposes). To maintain prediction performance, we introduce prediction-focused modeling for mixtures, which automatically selects the dimensions relevant to the prediction task. Our approach identifies relevant signal from the input, outperforms models that are not prediction-focused, and is easy to optimize; we also characterize when prediction-focused modeling can be expected to work.
翻訳日:2021-10-31 13:44:23 公開日:2021-10-27
# (参考訳) 睡眠自動ステージングのための自己教師付き脳波表現学習 [全文訳有]

Self-supervised EEG Representation Learning for Automatic Sleep Staging ( http://arxiv.org/abs/2110.15278v1 )

ライセンス: CC BY 4.0
Chaoqi Yang, Danica Xiao, M. Brandon Westover, Jimeng Sun(参考訳) 目的:本論文では,学習した表象が睡眠ステージングタスクの生信号を置き換えるのに十分な表現性を持つように,eeg信号からロバストなベクトル表現を学習することを目的として,(2)少ないラベルとノイズサンプルのシナリオにおいて教師ありモデルよりも優れた予測性能を提供する。 資料と方法:本研究では,脳波信号表現学習のための世界表現(contrawr)と対比する自己教師付きモデルを提案する。 ContraWRモデルは、実世界の3つのEEGデータセットで評価される。 結果: contrawr は,最近の自己教師あり学習法,moco,simclr,byol,si msiam を,3つのデータセットにわたる睡眠ステージングタスクで上回っている。 ContraWRはまた、トレーニングラベルが少ない場合(例えば、2%以下のデータがラベル付けされた場合、4%の精度向上)に教師あり学習を破る。 さらに、モデルは2次元射影における情報表現を提供する。 考察: 提案モデルは他の教師なしの生理的シグナル学習タスクに一般化することができる。 今後の方向性としては,タスク固有のデータ拡張の探索,教師付き手法による自己教師付き学習の結合,自己教師付き学習の初期成功などが挙げられる。 結論:ContraWRはノイズに対して堅牢であり,下流予測タスクに高品質なEEG表現を提供できることを示す。 低ラベルのシナリオ(例えば、2%のデータにラベルがある)では、contrawrは教師付きベースラインよりもはるかに優れた予測能力(例えば、睡眠ステージング精度の4%改善)を示している。

Objective: In this paper, we aim to learn robust vector representations from massive unlabeled Electroencephalogram (EEG) signals, such that the learned representations (1) are expressive enough to replace the raw signals in the sleep staging task; and (2) provide better predictive performance than supervised models in scenarios of fewer labels and noisy samples. Materials and Methods: We propose a self-supervised model, named Contrast with the World Representation (ContraWR), for EEG signal representation learning, which uses global statistics from the dataset to distinguish signals associated with different sleep stages. The ContraWR model is evaluated on three real-world EEG datasets that include both at-home and in-lab recording settings. Results: ContraWR outperforms recent self-supervised learning methods, MoCo, SimCLR, BYOL, SimSiam on the sleep staging task across three datasets. ContraWR also beats supervised learning when fewer training labels are available (e.g., 4% accuracy improvement when less than 2% data is labeled). Moreover, the model provides informative representations in 2D projection. Discussion: The proposed model can be generalized to other unsupervised physiological signal learning tasks. Future directions include exploring task-specific data augmentations and combining self-supervised with supervised methods, building upon the initial success of self-supervised learning in this paper. Conclusions: We show that ContraWR is robust to noise and can provide high-quality EEG representations for downstream prediction tasks. In low-label scenarios (e.g., only 2% data has labels), ContraWR shows much better predictive power (e.g., 4% improvement on sleep staging accuracy) than supervised baselines.
翻訳日:2021-10-31 09:23:50 公開日:2021-10-27
# テクノロジー・フィットネスの展望とイノベーションの未来

Technology Fitness Landscape and the Future of Innovation ( http://arxiv.org/abs/2110.13624v2 )

ライセンス: Link先を確認
Shuo Jiang, Jianxi Luo(参考訳) 我々は,1,757のテクノロジードメインのニューラルネットワーク埋め込み空間と,それぞれの改善率に基づいて,ディープラーニングベースの技術フィットネスランドスケープを提示する。 技術埋め込み空間は、特許データに神経埋め込み技術を適用することで訓練された高次元ベクトル空間である。 各技術領域の改善率は、先行研究から導かれる。 テクノロジー・フィットネス・ランドスケープは情報通信技術(ICT)に関連する高い丘と、残りの領域の広大な低地を示す。 テクノロジー・フィットネスの展望は、テクノロジー全体の空間の構造を鳥の視点で見ること、生物学的アナロジーでテクノロジーの進化を解釈する新しい方法、そして次のイノベーションに生物学的にインスパイアされた推論を示す。

We present a deep learning-based technology fitness landscape premised on a neural embedding space of 1,757 technology domains and their respective improvement rates. The technology embedding space is a high-dimensional vector space trained via applying neural embedding techniques to patent data. The improvement rates of respective technology domains are drawn from a prior study. The technology fitness landscape exhibits a high hill related to information and communication technologies (ICT) and a vast low plain of the remaining domains. The technology fitness landscape presents a bird's eye view of the structure of the total technology space, a new way to interpret technology evolution with a biological analogy, and a biologically-inspire d inference to next innovation.
翻訳日:2021-10-31 09:10:28 公開日:2021-10-27
# Illiterate DALL-E Learns to Compose

Illiterate DALL-E Learns to Compose ( http://arxiv.org/abs/2110.11405v2 )

ライセンス: Link先を確認
Gautam Singh, Fei Deng and Sungjin Ahn(参考訳) DALL-Eは、画像生成において合成に基づく体系的一般化の印象的な能力を示しているが、テキストイメージペアのデータセットが必要であり、その構成性はテキストによって提供される。 対照的に、Slot Attentionモデルのようなオブジェクト中心の表現モデルは、テキストプロンプトなしで構成可能な表現を学ぶ。 しかし、DALL-Eとは異なり、ゼロショット生成のために体系的に一般化する能力は著しく制限されている。 本稿では,テキストを使わずにゼロショット画像生成を体系的に一般化するオブジェクト中心表現を学習する,SLATEと呼ばれる,単純だが斬新なスロットベースの自動符号化アーキテクチャを提案する。 したがって、このモデルはイルミネートDALL-Eモデルと見なすこともできる。 既存のオブジェクト中心表現モデルの画素混合デコーダとは異なり、スロットに条件付き画像GPTデコーダを用いて、スロットとピクセル間の複雑な相互作用をキャプチャする。 実験では,テキストプロンプトを必要とせず,簡単に実装できるこのアーキテクチャは,非分配性および非分配性(ゼロショット)画像生成の大幅な向上と,混合デコーダに基づくモデルよりも定性的に同等あるいは優れたスロットアテンション構造を実現する。

Although DALL-E has shown an impressive ability of composition-based systematic generalization in image generation, it requires the dataset of text-image pairs and the compositionality is provided by the text. In contrast, object-centric representation models like the Slot Attention model learn composable representations without the text prompt. However, unlike DALL-E its ability to systematically generalize for zero-shot generation is significantly limited. In this paper, we propose a simple but novel slot-based autoencoding architecture, called SLATE, for combining the best of both worlds: learning object-centric representations that allows systematic generalization in zero-shot image generation without text. As such, this model can also be seen as an illiterate DALL-E model. Unlike the pixel-mixture decoders of existing object-centric representation models, we propose to use the Image GPT decoder conditioned on the slots for capturing complex interactions among the slots and pixels. In experiments, we show that this simple and easy-to-implement architecture not requiring a text prompt achieves significant improvement in in-distribution and out-of-distribution (zero-shot) image generation and qualitatively comparable or better slot-attention structure than the models based on mixture decoders.
翻訳日:2021-10-31 09:07:56 公開日:2021-10-27
# (参考訳) 感情分析のためのEmoGraph2vecモデルを用いた絵文字認識型コアテンションネットワーク [全文訳有]

Emoji-aware Co-attention Network with EmoGraph2vec Model for Sentiment Anaylsis ( http://arxiv.org/abs/2110.14636v1 )

ライセンス: CC BY 4.0
Xiaowei Yuan, Jingyuan Hu, Xiaodan Zhang, Honglei Lv, and Hao Liu(参考訳) ソーシャルメディアプラットフォームでは、絵文字はコンピュータによるコミュニケーションにおいて極めて高い頻度で発生する。 多くの絵文字は感情表現の強化に使われており、文章に共通する絵文字も強い感情関係を持っている。 しかし、絵文字表現学習に関しては、ほとんどの研究はUnicodeコンソーシアムが提供する固定的な記述を実際の使用シナリオを考慮せずに利用しているのみである。 感情分析タスクについては、テキストと絵文字の相互作用が感情に与える影響を無視する研究者が多い。 その結果、絵文字の感情的意味論は十分に解明できない。 本研究では,emograph2vecと呼ばれる絵文字表現を学習し,ソーシャルメディアの短いテキスト上で,テキストと絵文字の相互感情意味を学習する絵文字認識協調ネットワークを設計する手法を提案する。 EmoGraph2vecでは、実際のソーシャルデータ上に絵文字共起ネットワークを形成し、外部知識ベースEmojiNetに基づいて意味情報を強化し、絵文字ノードの埋め込みを得る。 我々のモデルは、テキストと絵文字を組み込むコアテンション機構を設計し、圧縮と励起(SE)ブロックを畳み込みニューラルネットワークに分類器として組み込む。 最後に,転送学習法を用いて収束速度を高め,高い精度を実現する。 実験結果から,提案モデルがベンチマークデータセットの感情分析において,いくつかのベースラインより優れていることが示された。 さらに, モデルの有効性を検討するため, 一連のアブレーション実験および比較実験を行った。

In social media platforms, emojis have an extremely high occurrence in computer-mediated communications. Many emojis are used to strengthen the emotional expressions and the emojis that co-occurs in a sentence also have a strong sentiment connection. However, when it comes to emoji representation learning, most studies have only utilized the fixed descriptions provided by the Unicode Consortium, without consideration of actual usage scenario. As for the sentiment analysis task, many researchers ignore the emotional impact of the interaction between text and emojis. It results that the emotional semantics of emojis cannot be fully explored. In this work, we propose a method to learn emoji representations called EmoGraph2vec and design an emoji-aware co-attention network that learns the mutual emotional semantics between text and emojis on short texts of social media. In EmoGraph2vec, we form an emoji co-occurrence network on real social data and enrich the semantic information based on an external knowledge base EmojiNet to obtain emoji node embeddings. Our model designs a co-attention mechanism to incorporate the text and emojis, and integrates a squeeze-and-excitati on (SE) block into a convolutional neural network as a classifier. Finally, we use the transfer learning method to increase converge speed and achieve higher accuracy. Experimental results show that the proposed model can outperform several baselines for sentiment analysis on benchmark datasets. Additionally, we conduct a series of ablation and comparison experiments to investigate the effectiveness of our model.
翻訳日:2021-10-31 09:04:47 公開日:2021-10-27
# (参考訳) マルチエージェント強化学習における反復対数法則 [全文訳有]

A Law of Iterated Logarithm for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2110.15092v1 )

ライセンス: CC BY-SA 4.0
Gugan Thoppe, Bhumesh Kumar(参考訳) マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)では、複数のエージェントが共通の環境と相互作用し、シーケンシャルな意思決定において共有問題を解く。 ゲーム、ロボティクス、ファイナンスなどの分野に幅広く応用されている。 本研究では, marl において有用な分散非線形確率近似スキームの族に対する反復対数の新しい法則を導出する。 特にこの結果は,アルゴリズムが収束するほぼすべてのサンプルパス上の収束率を記述する。 この結果は分散セットアップにおける最初のものであり、期待やCLTの意味での収束率のみを議論する既存のものよりも深い洞察を提供する。 重要なことに、我々の結果はより弱い仮定で成り立つ: ゴシップ行列は二重確率的でも、段数乗算可能でもない。 応用として、次数$n^{-\gamma}$と$\gamma \in (0, 1)に対して、線形関数近似を持つ分散TD(0)アルゴリズムは、$O(\sqrt{n^{-\gamma} \ln n })$ a.s.; 1/n$型ステップサイズの場合、$O(\sqrt{n^{-1} \ln \ln n})$ a.s. これらの崩壊率は、異なるエージェント間の相互作用を記述するグラフに依存しない。

In Multi-Agent Reinforcement Learning (MARL), multiple agents interact with a common environment, as also with each other, for solving a shared problem in sequential decision-making. It has wide-ranging applications in gaming, robotics, finance, etc. In this work, we derive a novel law of iterated logarithm for a family of distributed nonlinear stochastic approximation schemes that is useful in MARL. In particular, our result describes the convergence rate on almost every sample path where the algorithm converges. This result is the first of its kind in the distributed setup and provides deeper insights than the existing ones, which only discuss convergence rates in the expected or the CLT sense. Importantly, our result holds under significantly weaker assumptions: neither the gossip matrix needs to be doubly stochastic nor the stepsizes square summable. As an application, we show that, for the stepsize $n^{-\gamma}$ with $\gamma \in (0, 1),$ the distributed TD(0) algorithm with linear function approximation has a convergence rate of $O(\sqrt{n^{-\gamma} \ln n })$ a.s.; for the $1/n$ type stepsize, the same is $O(\sqrt{n^{-1} \ln \ln n})$ a.s. These decay rates do not depend on the graph depicting the interactions among the different agents.
翻訳日:2021-10-31 08:48:52 公開日:2021-10-27
# (参考訳) 新しいデータ処理トリックを用いた効率的なニューラルネットワーク探索によるcnnによる新しい睡眠ステージ分類 [全文訳有]

A Novel Sleep Stage Classification Using CNN Generated by an Efficient Neural Architecture Search with a New Data Processing Trick ( http://arxiv.org/abs/2110.15277v1 )

ライセンス: CC BY 4.0
Yu Xue, Ziming Yuan and Adam Slowik(参考訳) 自動睡眠ステージ分類(ASSC)技術の発展に伴い、k-means、決定木、SVMなどの古典的手法が自動睡眠ステージ分類に用いられている。 しかし、ASSCの深層学習を探求する手法はほとんどない。 一方,多くの深層学習手法では高度な専門知識が必要であり,特にマルチクラス化タスクの処理に時間を要する手作り作業の多さに悩まされている。 本稿では,新しいデータ処理手法を用いた畳み込みニューラルネットワーク(CNN)を用いた効率的な5段階分類手法を提案し,遺伝的アルゴリズム(GA)に基づくニューラルネットワーク探索(NAS)手法を設計し,最適なCNNアーキテクチャを探索する。 まず、各カーネルに適応係数を付加することで、入力の信号処理を向上させる。 これにより、情報的特徴の伝播を高め、ネットワークの初期段階における無駄な特徴の伝播を抑制することができる。 そこで我々は,GAのヒューリスティック検索をフル活用し,CNNの最高のアーキテクチャを探すための勾配を不要にする利点を生かした。 これにより、少ないコストで、大きな検索空間で手作りのものよりも優れたパフォーマンスでcnnを実現することができる。 我々は,データ処理トリックの収束性を検証するとともに,従来のCNNの性能をそのトリックの前後で比較する。 一方,NAS-Gにより生成されたCNNと従来のCNNのパフォーマンスを,我々のトリックと比較した。 実験により,データ処理トリックによるCNNの収束は,データ処理トリックを伴わないよりも高速であることが示され,NAS-Gが生成したデータ処理トリックによるCNNは,データ処理トリックを用いた手作りの手法よりも優れていた。

With the development of automatic sleep stage classification (ASSC) techniques, many classical methods such as k-means, decision tree, and SVM have been used in automatic sleep stage classification. However, few methods explore deep learning on ASSC. Meanwhile, most deep learning methods require extensive expertise and suffer from a mass of handcrafted steps which are time-consuming especially when dealing with multi-classification tasks. In this paper, we propose an efficient five-sleep-stage classification method using convolutional neural networks (CNNs) with a novel data processing trick and we design neural architecture search (NAS) technique based on genetic algorithm (GA), NAS-G, to search for the best CNN architecture. Firstly, we attach each kernel with an adaptive coefficient to enhance the signal processing of the inputs. This can enhance the propagation of informative features and suppress the propagation of useless features in the early stage of the network. Then, we make full use of GA's heuristic search and the advantage of no need for the gradient to search for the best architecture of CNN. This can achieve a CNN with better performance than a handcrafted one in a large search space at the minimum cost. We verify the convergence of our data processing trick and compare the performance of traditional CNNs before and after using our trick. Meanwhile, we compare the performance between the CNN generated through NAS-G and the traditional CNNs with our trick. The experiments demonstrate that the convergence of CNNs with data processing trick is faster than without data processing trick and the CNN with data processing trick generated by NAS-G outperforms the handcrafted counterparts that use the data processing trick too.
翻訳日:2021-10-31 08:27:55 公開日:2021-10-27
# (参考訳) テルペンの化学空間:データサイエンスとAIからの洞察 [全文訳有]

The chemical space of terpenes: insights from data science and AI ( http://arxiv.org/abs/2110.15047v1 )

ライセンス: CC BY 4.0
Morteza Hosseini, David M. Pereira(参考訳) テルペンは、化学や生物学的にかなりの多様性を持つ幅広い種類の天然物であり、これらの分子の多くは既に薬品化されている。 既に説明されている何千もの分子を考えると、この化学空間の完全なキャラクタリゼーションは、古典的なアプローチに依存すると難しい課題となる。 この研究では、現在体系的な方法で知られているテルペンの多様性を特定し、コンパイルし、特徴づけるために、データサイエンスに基づくアプローチを採用しています。 私たちは、天然製品データベースであるCOCONUTで作業を行い、そこから60000テルペンの情報を抽出しました。 これらの分子についてサブクラス・バイ・サブクラス分析を行い, 天然物化学, 医薬化学, 創薬など, 様々な分野に関連する化学的・物理的性質を明らかにした。 また、このデータのクラスタリングや分類タスクの可能性を評価することにも興味がありました。 クラスタリングでは,k-meansと凝集クラスタリングを,元のデータと次元減少のステップの両方に適用し,比較した。 この目的のために、PCA、FastICA、Kernel PCA、t-SNE、UMAPを使用してベンチマークを行った。 また, テルペンサブクラスを物理化学的記述子を用いて分類する手法を多数導入した。 光勾配上昇装置、k-アネレスト隣接地、ランダム森林、ガウスの内在ベイズおよび多層受容器は, 精度, F1スコア, 精度, その他の測定値が0.9以上であり, テルペンサブクラスの分類にこれらの手法が有効であることを示す。

Terpenes are a widespread class of natural products with significant chemical and biological diversity and many of these molecules have already made their way into medicines. Given the thousands of molecules already described, the full characterization of this chemical space can be a challenging task when relying in classical approaches. In this work we employ a data science-based approach to identify, compile and characterize the diversity of terpenes currently known in a systematic way. We worked with a natural product database, COCONUT, from which we extracted information for nearly 60000 terpenes. For these molecules, we conducted a subclass-by-subclass analysis in which we highlight several chemical and physical properties relevant to several fields, such as natural products chemistry, medicinal chemistry and drug discovery, among others. We were also interested in assessing the potential of this data for clustering and classification tasks. For clustering, we have applied and compared k-means with agglomerative clustering, both to the original data and following a step of dimensionality reduction. To this end, PCA, FastICA, Kernel PCA, t-SNE and UMAP were used and benchmarked. We also employed a number of methods for the purpose of classifying terpene subclasses using their physico-chemical descriptors. Light gradient boosting machine, k-nearest neighbors, random forests, Gaussian naiive Bayes and Multilayer perceptron, with the best-performing algorithms yielding accuracy, F1 score, precision and other metrics all over 0.9, thus showing the capabilities of these approaches for the classification of terpene subclasses.
翻訳日:2021-10-31 08:12:29 公開日:2021-10-27
# (参考訳) Mosaicking to Distill: ドメイン外のデータからの知識蒸留 [全文訳有]

Mosaicking to Distill: Knowledge Distillation from Out-of-Domain Data ( http://arxiv.org/abs/2110.15094v1 )

ライセンス: CC BY 4.0
Gongfan Fang, Yifan Bao, Jie Song, Xinchao Wang, Donglin Xie, Chengchao Shen, Mingli Song(参考訳) knowledge distillation~(kd)の目的は、対象領域で事前訓練された教師の行動を模倣するコンパクトな学生モデルを作ることである。 これまでのKDアプローチは、満足な結果にもかかわらず、知識伝達を行うために \emph{in- domain} データが利用できるという前提に大きく依存していた。 このような仮定は、多くの場合、元々のトレーニングデータやデータドメインでさえ、プライバシや著作権上の理由から取得できないことが多いため、現実的な設定に反する。 本稿では,OODデータのみを用いて,極めて低コストで容易に得られるKDを実現できる「emph{out-of-domain} knowledge distillation~(OOD-KD )」と呼ばれる野心的な課題に取り組むことを試みる。 必然的に、OOD-KDは本質的に、非依存的なドメインギャップのために非常に困難なタスクである。 この目的のために、我々は~\textit{MosaicKD} と呼ばれる便利だが驚くほど効果的なアプローチを導入する。 MosaicKDの背景にある重要な洞察は、様々なドメインのサンプルが共通の局所パターンを共有していることだが、そのグローバルな意味は様々であるが、これらの共有された局所パターンはモザイクのタイリングと類似して再組み立てされ、ドメイン内のデータを近似し、ドメイン間の差を緩和することができる。 モザイクKDでは、予習教師の指導の下、発電機、判別器、学生ネットワークを対角的に総合的に訓練する4人プレイのmin-maxゲームによってこれを達成している。 各種ベンチマークにおける分類とセマンティックセグメンテーションタスクよりもMosaicKDを検証し,OODデータの最先端データよりもはるかに優れた結果が得られることを示した。 我々のコードは \url{https://github.com/z ju-vipa/MosaicKD} で入手できる。

Knowledge distillation~(KD) aims to craft a compact student model that imitates the behavior of a pre-trained teacher in a target domain. Prior KD approaches, despite their gratifying results, have largely relied on the premise that \emph{in-domain} data is available to carry out the knowledge transfer. Such an assumption, unfortunately, in many cases violates the practical setting, since the original training data or even the data domain is often unreachable due to privacy or copyright reasons. In this paper, we attempt to tackle an ambitious task, termed as \emph{out-of-domain} knowledge distillation~(OOD-KD ), which allows us to conduct KD using only OOD data that can be readily obtained at a very low cost. Admittedly, OOD-KD is by nature a highly challenging task due to the agnostic domain gap. To this end, we introduce a handy yet surprisingly efficacious approach, dubbed as~\textit{MosaicKD}. The key insight behind MosaicKD lies in that, samples from various domains share common local patterns, even though their global semantic may vary significantly; these shared local patterns, in turn, can be re-assembled analogous to mosaic tiling, to approximate the in-domain data and to further alleviating the domain discrepancy. In MosaicKD, this is achieved through a four-player min-max game, in which a generator, a discriminator, a student network, are collectively trained in an adversarial manner, partially under the guidance of a pre-trained teacher. We validate MosaicKD over {classification and semantic segmentation tasks} across various benchmarks, and demonstrate that it yields results much superior to the state-of-the-art counterparts on OOD data. Our code is available at \url{https://github.com/z ju-vipa/MosaicKD}.
翻訳日:2021-10-31 08:03:11 公開日:2021-10-27
# (参考訳) 有限水平Q-ラーニング:安定性,収束性,シミュレーション [全文訳有]

Finite Horizon Q-learning: Stability, Convergence and Simulations ( http://arxiv.org/abs/2110.15093v1 )

ライセンス: CC BY 4.0
Vivek VP, Dr.Shalabh Bhatnagar(参考訳) Q-learningは一般的な強化学習アルゴリズムである。 しかし、このアルゴリズムは主に無限地平線設定で研究され、分析されている。 有限地平線マルコフ決定過程の枠組みでモデル化できるいくつかの重要な応用がある。 有限地平面マルコフ決定過程(MDP)のためのQ-ラーニングアルゴリズムのバージョンを開発し、その安定性と収束性の完全な証明を提供する。 有限地平線q-ラーニングの安定性と収束性の解析は、常微分方程式(o.d.e)法に基づく。 また、ランダムなMDPの設定において、アルゴリズムの性能を実証する。

Q-learning is a popular reinforcement learning algorithm. This algorithm has however been studied and analysed mainly in the infinite horizon setting. There are several important applications which can be modeled in the framework of finite horizon Markov decision processes. We develop a version of Q-learning algorithm for finite horizon Markov decision processes (MDP) and provide a full proof of its stability and convergence. Our analysis of stability and convergence of finite horizon Q-learning is based entirely on the ordinary differential equations (O.D.E) method. We also demonstrate the performance of our algorithm on a setting of random MDP.
翻訳日:2021-10-31 06:53:32 公開日:2021-10-27
# (参考訳) シミュレーションに基づく校正によるガウス過程モデルの検証 [全文訳有]

Validating Gaussian Process Models with Simulation-Based Calibration ( http://arxiv.org/abs/2110.15049v1 )

ライセンス: CC BY 4.0
John Mcleod and Fergus Simpson(参考訳) ガウス過程の先行は回帰問題のベイズ解析において一般的な選択である。 しかし、これらのモデルの実装は複雑であり、実装が正しいことを保証することは困難である。 本稿では,ガウスのプロセスモデルの実装を検証する手法であるガウスのプロセスシミュレーションに基づくキャリブレーションを紹介し,既存のコードのバグを識別する手法の有効性を実証する。 また,モデルハイパーパラメータの限界化がいつ必要かを特定するための新しい手法を提案する。

Gaussian process priors are a popular choice for Bayesian analysis of regression problems. However, the implementation of these models can be complex, and ensuring that the implementation is correct can be challenging. In this paper we introduce Gaussian process simulation-based calibration, a procedure for validating the implementation of Gaussian process models and demonstrate the efficacy of this procedure in identifying a bug in existing code. We also present a novel application of this procedure to identify when marginalisation of the model hyperparameters is necessary.
翻訳日:2021-10-31 06:40:53 公開日:2021-10-27
# (参考訳) VACA: インターベンショナルおよび非現実的クエリのための変分グラフオートエンコーダの設計

VACA: Design of Variational Graph Autoencoders for Interventional and Counterfactual Queries ( http://arxiv.org/abs/2110.14690v1 )

ライセンス: CC BY 4.0
Pablo Sanchez-Martin, Miriam Rateike and Isabel Valera(参考訳) 本稿では,隠れた共同創設者がいない場合に因果推論のための変分グラフオートエンコーダであるVACAについて,観察データと因果グラフのみが利用可能である場合に紹介する。 VACAはパラメトリックな仮定をせずに、構造因果モデル(Structure Causal Model, SCM)の必要な性質を模倣し、介入(do-operator)を近似するための柔軟で実用的なフレームワークを提供する。 その結果, VACAは多種多様なSCMの介入分布と反事実分布を正確に近似した。 最後に,公平な分類問題における対実的公正性を評価するためにVACAを適用し,性能を損なうことなく公平な分類法を学ぶ。

In this paper, we introduce VACA, a novel class of variational graph autoencoders for causal inference in the absence of hidden confounders, when only observational data and the causal graph are available. Without making any parametric assumptions, VACA mimics the necessary properties of a Structural Causal Model (SCM) to provide a flexible and practical framework for approximating interventions (do-operator) and abduction-action-pre diction steps. As a result, and as shown by our empirical results, VACA accurately approximates the interventional and counterfactual distributions on diverse SCMs. Finally, we apply VACA to evaluate counterfactual fairness in fair classification problems, as well as to learn fair classifiers without compromising performance.
翻訳日:2021-10-30 12:24:41 公開日:2021-10-27
# (参考訳) ニューラル表現における一般化形状計量

Generalized Shape Metrics on Neural Representations ( http://arxiv.org/abs/2110.14739v1 )

ライセンス: CC BY 4.0
Alex H. Williams and Erin Kunz and Simon Kornblith and Scott W. Linderman(参考訳) 生物学的および人工ネットワークの運用を理解することは、依然として困難かつ重要な課題である。 一般的な原則を特定するため、研究者は、同様のタスクでトレーニングされたり、生物学的に適応されたネットワークの大規模なコレクションの調査にますます関心を寄せている。 ネットワークレベルの共変量(アーキテクチャ、解剖学的脳領域、モデル生物など)がどのように神経表現(隠れ層活性化)に影響を与えるかを特定するには、標準化された分析ツールセットが必要である。 ここでは、表現的異質性を定量化する広い距離空間の族を定義することにより、これらの解析の厳密な基礎を提供する。 このフレームワークを用いて、正準相関解析に基づく既存の表現類似度尺度を修正して、三角形の不等式を満足させ、畳み込み層の帰納バイアスを尊重する新しい計量を定式化し、ネットワーク表現を本質的に既成の機械学習手法に組み込むことができる近似ユークリッド埋め込みを同定する。 生物学(アレン研究所脳観測所)と深層学習(nas-bench-101)の大規模データセットでこれらの手法を実証する。 そこで我々は、解剖学的特徴とモデル性能の観点から解釈可能な神経表現の関係を同定する。

Understanding the operation of biological and artificial networks remains a difficult and important challenge. To identify general principles, researchers are increasingly interested in surveying large collections of networks that are trained on, or biologically adapted to, similar tasks. A standardized set of analysis tools is now needed to identify how network-level covariates -- such as architecture, anatomical brain region, and model organism -- impact neural representations (hidden layer activations). Here, we provide a rigorous foundation for these analyses by defining a broad family of metric spaces that quantify representational dissimilarity. Using this framework we modify existing representational similarity measures based on canonical correlation analysis to satisfy the triangle inequality, formulate a novel metric that respects the inductive biases in convolutional layers, and identify approximate Euclidean embeddings that enable network representations to be incorporated into essentially any off-the-shelf machine learning method. We demonstrate these methods on large-scale datasets from biology (Allen Institute Brain Observatory) and deep learning (NAS-Bench-101). In doing so, we identify relationships between neural representations that are interpretable in terms of anatomical features and model performance.
翻訳日:2021-10-30 12:21:00 公開日:2021-10-27
# (参考訳) mutformer:病原性ミスセンス変異を予測するコンテキスト依存トランスフォーマモデル [全文訳有]

MutFormer: A context-dependent transformer-based model to predict pathogenic missense mutations ( http://arxiv.org/abs/2110.14746v1 )

ライセンス: CC BY 4.0
Theodore Jiang, Li Fang, Kai Wang(参考訳) ミスセンス突然変異(missense mutation)は、タンパク質配列内のアミノ酸を置換する点突然変異である。 現在、ミスセンス変異はヒトの遺伝病の原因となる既知の変異の約半数を占めるが、ミスセンス変異の病原性の正確な予測はまだ難しい。 ディープラーニングの最近の進歩は、トランスフォーマーモデルが特にシーケンスのモデリングに強力であることを示している。 本研究では,トランスフォーマーを用いた病原性ミスセンス変異の予測モデルであるmutformerを提案する。 遺伝子変異から得られた参照タンパク質配列と代替タンパク質配列についてMutFormerを事前訓練した。 病原性予測のための異なる微調整法を試験した。 私たちの結果は、MutFormerが既存のツールより優れていることを示している。 mutformerとpre-computed variant scoreはgithubのhttps://github.com/w glab/mutformer.comで公開されている。

A missense mutation is a point mutation that results in a substitution of an amino acid in a protein sequence. Currently, missense mutations account for approximately half of the known variants responsible for human inherited diseases, but accurate prediction of the pathogenicity of missense variants is still challenging. Recent advances in deep learning show that transformer models are particularly powerful at modeling sequences. In this study, we introduce MutFormer, a transformer-based model for prediction of pathogenic missense mutations. We pre-trained MutFormer on reference protein sequences and alternative protein sequences result from common genetic variants. We tested different fine-tuning methods for pathogenicity prediction. Our results show that MutFormer outperforms a variety of existing tools. MutFormer and pre-computed variant scores are publicly available on GitHub at https://github.com/W GLab/mutformer.
翻訳日:2021-10-30 11:25:41 公開日:2021-10-27
# (参考訳) 動的レビューに基づくレコメンダ [全文訳有]

Dynamic Review-based Recommenders ( http://arxiv.org/abs/2110.14747v1 )

ライセンス: CC BY 4.0
Kostadin Cvejoski, Ramses J. Sanchez, Christian Bauckhage, Cesar Ojeda(参考訳) ユーザの好みが時間とともに変わるのと同じように、アイテムレビューも同じ好みの変化を反映している。 一言で言えば、レビューコンテンツの知識をレコメンダシステムにシーケンシャルに組み込む場合、自然にテキストの動的モデルに導かれる。 本研究では、レビューの既知の力を活用し、評価予測を強化する。 (i)レビュー生成の因果性を尊重し、 (ii) 双方向の手法で、評定が言語レビューモデルや、エンドツーエンドの評定の予測に役立つ言語表現を通知する能力を含んでいる。 さらに、我々の表現は時間的相互関係を意識しており、従ってダイナミクスの連続時間表現となる。 実世界のデータセットの実験を行い、我々の方法論がいくつかの最先端モデルより優れていることを示す。 すべてのモデルのソースコードは[1]で確認できる。

Just as user preferences change with time, item reviews also reflect those same preference changes. In a nutshell, if one is to sequentially incorporate review content knowledge into recommender systems, one is naturally led to dynamical models of text. In the present work we leverage the known power of reviews to enhance rating predictions in a way that (i) respects the causality of review generation and (ii) includes, in a bidirectional fashion, the ability of ratings to inform language review models and vice-versa, language representations that help predict ratings end-to-end. Moreover, our representations are time-interval aware and thus yield a continuous-time representation of the dynamics. We provide experiments on real-world datasets and show that our methodology is able to outperform several state-of-the-art models. Source code for all models can be found at [1].
翻訳日:2021-10-30 11:15:40 公開日:2021-10-27
# (参考訳) 高密度CRFのための正規化Frank-Wolfe:平均場と向こう側

Regularized Frank-Wolfe for Dense CRFs: Generalizing Mean Field and Beyond ( http://arxiv.org/abs/2110.14759v1 )

ライセンス: CC BY 4.0
{\DJ}.Khu\^e L\^e-Huu and Karteek Alahari(参考訳) 本稿では,高次条件付き乱数場(CRF)の推論と学習のための汎用的で効果的なアルゴリズムである正規化Frank-Wolfeを紹介する。 このアルゴリズムは、正規化エネルギー関数の最小化と等価な近似更新を持つバニラフランクウルフを用いて、CRF推論問題の非凸連続緩和を最適化する。 提案手法は,平均場や凹凸法などの既存アルゴリズムの一般化である。 この観点は、これらのアルゴリズムの統一的な分析を提供するだけでなく、より良いパフォーマンスをもたらす可能性のある様々な変種を簡単に探索する方法を提供する。 我々はこれを、標準セマンティックセグメンテーションデータセットの実証的な結果で説明し、正規化されたFrank-Wolfeのいくつかのインスタンスは、ニューラルネットワークのスタンドアロンコンポーネントとエンドツーエンドのトレーニング可能なレイヤの両方として、平均場推論を上回ります。 また、高密度CRFと新しいアルゴリズムが組み合わさって、強力なCNNベースラインよりも大幅に改善されていることを示す。

We introduce regularized Frank-Wolfe, a general and effective algorithm for inference and learning of dense conditional random fields (CRFs). The algorithm optimizes a nonconvex continuous relaxation of the CRF inference problem using vanilla Frank-Wolfe with approximate updates, which are equivalent to minimizing a regularized energy function. Our proposed method is a generalization of existing algorithms such as mean field or concave-convex procedure. This perspective not only offers a unified analysis of these algorithms, but also allows an easy way of exploring different variants that potentially yield better performance. We illustrate this in our empirical results on standard semantic segmentation datasets, where several instantiations of our regularized Frank-Wolfe outperform mean field inference, both as a standalone component and as an end-to-end trainable layer in a neural network. We also show that dense CRFs, coupled with our new algorithms, produce significant improvements over strong CNN baselines.
翻訳日:2021-10-30 11:02:41 公開日:2021-10-27
# (参考訳) TRAIL: 準最適データを用いた準最適模倣学習 [全文訳有]

TRAIL: Near-Optimal Imitation Learning with Suboptimal Data ( http://arxiv.org/abs/2110.14770v1 )

ライセンス: CC BY 4.0
Mengjiao Yang, Sergey Levine, Ofir Nachum(参考訳) 模倣学習の目的は、準最適専門家による実演を利用して効果的な政策を学ぶことである。 しかし、人間の専門家による高品質なデモンストレーションは、大量に得るには高価である。 一方で、直接模倣には役に立たないが、環境の動的構造についての洞察を提供することができ、たとえ何をすべきでなくても、環境において何ができるのかを示すことができる。 このような最適化されたオフラインデータセットを使うことで、下流の模倣学習が確実に改善できるだろうか? 本稿では,この質問に肯定的に答え,オフラインデータセットを用いて潜在アクション空間の抽出を可能にする構造を持つ因子付き遷移モデルを学ぶためのトレーニング目標を提案する。 理論的解析により,学習された潜在活動空間は下流の模倣学習のサンプル効率を向上し,補助的非専門家データを用いることで,大規模に最適に近いエキスパートデータセットの必要性を効果的に低減できることが示された。 実際の潜在動作空間を学習するために,エネルギーベースの遷移モデルを対比的に学習するアルゴリズムである trail (transition-reparame trized actions for imitation learning) を提案する。 ナビゲーションタスクとロコモーションタスクのセットに関する実験を通じて,目的の実用性を評価する。 提案手法の利点を検証し,TRAILが最大4倍の性能でベースライン模倣学習を向上できることを示す。

The aim in imitation learning is to learn effective policies by utilizing near-optimal expert demonstrations. However, high-quality demonstrations from human experts can be expensive to obtain in large numbers. On the other hand, it is often much easier to obtain large quantities of suboptimal or task-agnostic trajectories, which are not useful for direct imitation, but can nevertheless provide insight into the dynamical structure of the environment, showing what could be done in the environment even if not what should be done. We ask the question, is it possible to utilize such suboptimal offline datasets to facilitate provably improved downstream imitation learning? In this work, we answer this question affirmatively and present training objectives that use offline datasets to learn a factored transition model whose structure enables the extraction of a latent action space. Our theoretical analysis shows that the learned latent action space can boost the sample-efficiency of downstream imitation learning, effectively reducing the need for large near-optimal expert datasets through the use of auxiliary non-expert data. To learn the latent action space in practice, we propose TRAIL (Transition-Reparame trized Actions for Imitation Learning), an algorithm that learns an energy-based transition model contrastively, and uses the transition model to reparametrize the action space for sample-efficient imitation learning. We evaluate the practicality of our objective through experiments on a set of navigation and locomotion tasks. Our results verify the benefits suggested by our theory and show that TRAIL is able to improve baseline imitation learning by up to 4x in performance.
翻訳日:2021-10-30 11:00:58 公開日:2021-10-27
# (参考訳) 深層学習と迷路検出の併用によるフェイクニュースの識別 [全文訳有]

Combining Vagueness Detection with Deep Learning to Identify Fake News ( http://arxiv.org/abs/2110.14780v1 )

ライセンス: CC BY 4.0
Paul Gu\'elorget, Benjamin Icard, Guillaume Gadek, Souhir Ghabiche, Sylvain Gatepaille, Ghislain Atemezing, Paul \'Egr\'e(参考訳) 本稿では,テキスト中の曖昧さと主観性を測定するために,VAGOアルゴリズムとNLP手法を組み合わせたセマンティックルールを併用し,FAKE-CLFは畳み込みニューラルネットワークの分類と教師付きディープラーニングによるテキストの偏りや正当性の分類を行う。 2つの方法の結果を4つのコーパスで比較した。 VAGOによる曖昧さと主観性尺度とFAKE-CLFによるテキストの分類との間には,正の相関関係が認められた。 VAGOはFAKE-CLFの結果を説明するのに役立つ。 逆にFAKE-CLFはVAGOのデータベースの協調と拡張に役立ちます。 2つの補完的手法(ルールベースとデータ駆動)を使用することは、フェイクニュースを特定するという難しい問題に対して、実りあるアプローチである。

In this paper, we combine two independent detection methods for identifying fake news: the algorithm VAGO uses semantic rules combined with NLP techniques to measure vagueness and subjectivity in texts, while the classifier FAKE-CLF relies on Convolutional Neural Network classification and supervised deep learning to classify texts as biased or legitimate. We compare the results of the two methods on four corpora. We find a positive correlation between the vagueness and subjectivity measures obtained by VAGO, and the classification of text as biased by FAKE-CLF. The comparison yields mutual benefits: VAGO helps explain the results of FAKE-CLF. Conversely FAKE-CLF helps us corroborate and expand VAGO's database. The use of two complementary techniques (rule-based vs data-driven) proves a fruitful approach for the challenging problem of identifying fake news.
翻訳日:2021-10-30 10:06:36 公開日:2021-10-27
# (参考訳) BERTマルチ言語はいつ? 言語間伝達における重要な成分の単離 [全文訳有]

When is BERT Multilingual? Isolating Crucial Ingredients for Cross-lingual Transfer ( http://arxiv.org/abs/2110.14782v1 )

ライセンス: CC BY 4.0
Ameet Deshpande, Partha Talukdar, Karthik Narasimhan(参考訳) 多言語言語モデルに関する最近の研究では、下流タスクでのクロスリンガルゼロショット転送能力が実証されているが、言語間のプロパティの共有がどのような転送を可能にするかについて、コミュニティのコンセンサスが欠如している。 自然言語のペアを含む分析は、多くの言語面において言語が同時に異なるため、しばしば決定的で矛盾する。 本稿では,4つの多様な自然言語とその対応言語間のゼロショット移動をスクリプト,単語順,構文などの側面を修飾して測定することにより,様々な言語特性の影響を分離する大規模実証研究を行う。 実験の結果,単語順が異なる場合,サブワード重複の欠如はゼロショット転送に大きく影響し,言語間の単語埋め込みアライメント(例えば,NLIのタスクにおけるR=0.94)と転送性能との間には強い相関関係があることが判明した。 本研究は,暗黙の出現に頼らず,言語間の単語埋め込みアライメントを明示的に改善することに着目し,多言語モデルに焦点をあてる。

While recent work on multilingual language models has demonstrated their capacity for cross-lingual zero-shot transfer on downstream tasks, there is a lack of consensus in the community as to what shared properties between languages enable such transfer. Analyses involving pairs of natural languages are often inconclusive and contradictory since languages simultaneously differ in many linguistic aspects. In this paper, we perform a large-scale empirical study to isolate the effects of various linguistic properties by measuring zero-shot transfer between four diverse natural languages and their counterparts constructed by modifying aspects such as the script, word order, and syntax. Among other things, our experiments show that the absence of sub-word overlap significantly affects zero-shot transfer when languages differ in their word order, and there is a strong correlation between transfer performance and word embedding alignment between languages (e.g., R=0.94 on the task of NLI). Our results call for focus in multilingual models on explicitly improving word embedding alignment between languages rather than relying on its implicit emergence.
翻訳日:2021-10-30 09:47:55 公開日:2021-10-27
# (参考訳) 時系列数に対するワープ動的線形モデル

Warped Dynamic Linear Models for Time Series of Counts ( http://arxiv.org/abs/2110.14790v1 )

ライセンス: CC BY 4.0
Brian King and Daniel R. Kowal(参考訳) 動的線形モデル(DLM)は、その汎用構造、単純な再帰的更新、確率予測により時系列解析に一般的に用いられる。 ガウス的DLMは連続データを必要とするが、ポアソンベースの代替は十分なモデリングの柔軟性に欠けることが多い。 ガウスDLMをワープすることで時系列をカウントする新しい手法を提案する。 ワーピング関数には2つのコンポーネントがある: 分散柔軟性を提供する変換演算子と、離散データ生成プロセスに対する正しいサポートを保証する丸め演算子である。 重要なことは、状態空間のフィルタリングとスムーズな分布に対する解析的および再帰的な更新を可能にする、歪んだDLMの共役推論を開発することである。 オフライン解析のためのモンテカルロシミュレーションや、オンライン推論のための最適粒子フィルタを含む、推論と予測のためのカスタマイズされた効率的な計算戦略を作成する。 このフレームワークは様々な離散時系列モデルを統一し拡張し、自然数、丸い値、多変量観測に有効である。 シミュレーション研究は、歪んだDLMの優れた予測能力を示している。 提案手法は, 日々の過剰摂取回数の多変量時系列に適用し, モデル化と計算成功の両立を実証する。

Dynamic Linear Models (DLMs) are commonly employed for time series analysis due to their versatile structure, simple recursive updating, and probabilistic forecasting. However, the options for count time series are limited: Gaussian DLMs require continuous data, while Poisson-based alternatives often lack sufficient modeling flexibility. We introduce a novel methodology for count time series by warping a Gaussian DLM. The warping function has two components: a transformation operator that provides distributional flexibility and a rounding operator that ensures the correct support for the discrete data-generating process. Importantly, we develop conjugate inference for the warped DLM, which enables analytic and recursive updates for the state space filtering and smoothing distributions. We leverage these results to produce customized and efficient computing strategies for inference and forecasting, including Monte Carlo simulation for offline analysis and an optimal particle filter for online inference. This framework unifies and extends a variety of discrete time series models and is valid for natural counts, rounded values, and multivariate observations. Simulation studies illustrate the excellent forecasting capabilities of the warped DLM. The proposed approach is applied to a multivariate time series of daily overdose counts and demonstrates both modeling and computational successes.
翻訳日:2021-10-30 09:29:53 公開日:2021-10-27
# (参考訳) masked lark: マスク学習、集約、レポートワークフロー [全文訳有]

Masked LARk: Masked Learning, Aggregation and Reporting worKflow ( http://arxiv.org/abs/2110.14794v1 )

ライセンス: CC BY 4.0
Joseph J. Pfeiffer III and Denis Charles and Davis Gilton and Young Hun Jung and Mehul Parsana and Erik Anderson(参考訳) 今日、多くのウェブ広告データフローは、ユーザーの受動的クロスサイト追跡を伴う。 このようなメカニズムをサードパーティ追跡クッキー(3PC)の使用によって実現することで,機密性の高いユーザデータを多数のパーティに公開することが可能になる。 したがって、ほとんどのブラウザは、その後のブラウザイテレーションで3PCの削除に向かっている。 エンドユーザのプライバシーを大幅に改善し、サイトが広告資金を通じてビジネスを継続できるようにするためには、新たなプライバシー保護プリミティブを導入する必要がある。 本稿では,ユーザエンゲージメント計測とモデルトレーニングを集約し,サイト間トラッキングを防止し,残ることを目的とした新しい提案である masked lark について述べる。 (a)フレキシブルで、技術開発及び保守のため。 b) クロスサイト追跡とトレースがブロックされるという意味では、セキュアである c) モデル開発とトレーニングを継続し、広告主が関連する広告を興味のあるユーザーに提供できるようにする。 本稿では,"ヘルパー"パーティをモデルに利用するセキュアなマルチパーティ計算(mpc)プロトコルを導入することで,データがブラウザから出ると,ダウンストリームシステムがユーザアクティビティの全体像を個別に構築できないようにする。 トレーニングのための重要なイノベーションは、マスキング(マスキング)や真のラベルの難読化(obfuscation of the true labels)によるものです。 我々のプロトコルは光暗号のみを利用しており、興味のない読者がコアアルゴリズムを理解することができる。 このシステムを実装するヘルパーエンドポイントを開発し、PyTorchでのトレーニングの例を示す。

Today, many web advertising data flows involve passive cross-site tracking of users. Enabling such a mechanism through the usage of third party tracking cookies (3PC) exposes sensitive user data to a large number of parties, with little oversight on how that data can be used. Thus, most browsers are moving towards removal of 3PC in subsequent browser iterations. In order to substantially improve end-user privacy while allowing sites to continue to sustain their business through ad funding, new privacy-preserving primitives need to be introduced. In this paper, we discuss a new proposal, called Masked LARk, for aggregation of user engagement measurement and model training that prevents cross-site tracking, while remaining (a) flexible, for engineering development and maintenance, (b) secure, in the sense that cross-site tracking and tracing are blocked and (c) open for continued model development and training, allowing advertisers to serve relevant ads to interested users. We introduce a secure multi-party compute (MPC) protocol that utilizes "helper" parties to train models, so that once data leaves the browser, no downstream system can individually construct a complete picture of the user activity. For training, our key innovation is through the usage of masking, or the obfuscation of the true labels, while still allowing a gradient to be accurately computed in aggregate over a batch of data. Our protocol only utilizes light cryptography, at such a level that an interested yet inexperienced reader can understand the core algorithm. We develop helper endpoints that implement this system, and give example usage of training in PyTorch.
翻訳日:2021-10-30 09:28:50 公開日:2021-10-27
# (参考訳) MedMNIST v2: 2次元および3次元生体画像分類のための大規模軽量ベンチマーク [全文訳有]

MedMNIST v2: A Large-Scale Lightweight Benchmark for 2D and 3D Biomedical Image Classification ( http://arxiv.org/abs/2110.14795v1 )

ライセンス: CC BY 4.0
Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister, Bingbing Ni(参考訳) MedMNIST v2は,MNISTライクなバイオメディカル画像の大規模データセットコレクションであり,12のデータセットを2D,6のデータセットを3Dで導入する。 すべての画像は28x28(2d)または28x28x28(3d)の小さなサイズに事前処理されるため、ユーザには背景知識が不要である。 MedMNIST v2は、バイオメディカル画像の一次データモダリティをカバーし、様々なデータセットスケール(100~10000)と多様なタスク(バイナリ/マルチクラス、順序回帰、マルチラベル)で軽量2Dおよび3D画像の分類を行うように設計されている。 結果として得られたデータセットは708,069枚の2D画像と10,214個の3D画像で構成され、バイオメディカル画像分析、コンピュータビジョン、機械学習における多くの研究と教育の目的をサポートすることができる。 2D/3Dニューラルネットワークやオープンソース/商用AutoMLツールなど、MedMNIST v2のベースラインメソッドをベンチマークします。 データとコードはhttps://medmnist.com /で公開されている。

We introduce MedMNIST v2, a large-scale MNIST-like dataset collection of standardized biomedical images, including 12 datasets for 2D and 6 datasets for 3D. All images are pre-processed into a small size of 28x28 (2D) or 28x28x28 (3D) with the corresponding classification labels so that no background knowledge is required for users. Covering primary data modalities in biomedical images, MedMNIST v2 is designed to perform classification on lightweight 2D and 3D images with various dataset scales (from 100 to 100,000) and diverse tasks (binary/multi-class, ordinal regression, and multi-label). The resulting dataset, consisting of 708,069 2D images and 10,214 3D images in total, could support numerous research / educational purposes in biomedical image analysis, computer vision, and machine learning. We benchmark several baseline methods on MedMNIST v2, including 2D / 3D neural networks and open-source / commercial AutoML tools. The data and code are publicly available at https://medmnist.com /.
翻訳日:2021-10-30 09:12:24 公開日:2021-10-27
# (参考訳) あなた自身の論文のベストレビュアー: オーナ支援スコアリングメカニズム [全文訳有]

You Are the Best Reviewer of Your Own Papers: An Owner-Assisted Scoring Mechanism ( http://arxiv.org/abs/2110.14802v1 )

ライセンス: CC BY-SA 4.0
Weijie J. Su(参考訳) 質の高いもの(例えば、大規模な会議手続のピアレビュー)の選択に関して、レビュー担当者が非常に騒々しいスコアを提示するのに対して、これらの項目の所有者は真の基盤となるスコアを知っていますが、この情報は提供しないでください。 情報の保持を抑えるため,本稿では,オーナーが提供にインセンティブを与える情報を活用することで,不正確な生のスコアを改善するためのシンプルかつ効率的なアプローチである「textit{Isotonic Mechanism}」を紹介します。 このメカニズムは、レビュアーが提供する生のスコアに加えて、オーナーが提供した最善から最悪の項目のランキングを入力します。 凸最適化問題を解くことで項目の調整点を報告する。 ある条件下では, 所有者の最適戦略は, 期待する実用性を最大化するために, 商品の真のランク付けを最良知識に正直に報告することである。 また,この所有者支援機構による調整スコアは,レビュアーが提供した生スコアよりも有意に精度が高いことを証明した。 本稿では、等張機構のいくつかの拡張と、実際的考察のための機構のいくつかの改良によって結論づける。

I consider the setting where reviewers offer very noisy scores for a number of items for the selection of high-quality ones (e.g., peer review of large conference proceedings) whereas the owner of these items knows the true underlying scores but prefers not to provide this information. To address this withholding of information, in this paper, I introduce the \textit{Isotonic Mechanism}, a simple and efficient approach to improving on the imprecise raw scores by leveraging certain information that the owner is incentivized to provide. This mechanism takes as input the ranking of the items from best to worst provided by the owner, in addition to the raw scores provided by the reviewers. It reports adjusted scores for the items by solving a convex optimization problem. Under certain conditions, I show that the owner's optimal strategy is to honestly report the true ranking of the items to her best knowledge in order to maximize the expected utility. Moreover, I prove that the adjusted scores provided by this owner-assisted mechanism are indeed significantly more accurate than the raw scores provided by the reviewers. This paper concludes with several extensions of the Isotonic Mechanism and some refinements of the mechanism for practical considerations.
翻訳日:2021-10-30 08:57:48 公開日:2021-10-27
# (参考訳) 創造的な物語を創発的な視覚支援で語る [全文訳有]

Telling Creative Stories Using Generative Visual Aids ( http://arxiv.org/abs/2110.14810v1 )

ライセンス: CC BY 4.0
Safinah Ali, Devi Parikh(参考訳) 生成的ビジュアルアルゴリズムを用いたビジュアルアートワークは、ストーリーテリングにおいて人間の創造性を刺激できるだろうか? 私たちはライターに、開始プロンプトからクリエイティブなストーリーを書くように頼み、同じプロンプトから生成するAIモデルによって生成されたビジュアルを提供した。 コントロールグループと比較すると、ストーリーライティングの補助としてビジュアルを使ったライターは、より創造的で、オリジナルで、完全で、視覚化可能なストーリーを書き、タスクをより楽しいと感じた。 生成アルゴリズム(BigGAN, VQGAN, DALL-E, CLIPDraw)のうち、VQGANが最も好まれていた。 視覚を観察しなかったコントロールグループは、開始プロンプトの統合において有意に改善した。 AIによる横断的モダリティ入力は、人間とAIの共同創造において創造性の異なる側面に利益をもたらすが、収束する思考を妨げる。

Can visual artworks created using generative visual algorithms inspire human creativity in storytelling? We asked writers to write creative stories from a starting prompt, and provided them with visuals created by generative AI models from the same prompt. Compared to a control group, writers who used the visuals as story writing aid wrote significantly more creative, original, complete and visualizable stories, and found the task more fun. Of the generative algorithms used (BigGAN, VQGAN, DALL-E, CLIPDraw), VQGAN was the most preferred. The control group that did not view the visuals did significantly better in integrating the starting prompts. Findings indicate that cross modality inputs by AI can benefit divergent aspects of creativity in human-AI co-creation, but hinders convergent thinking.
翻訳日:2021-10-30 08:42:29 公開日:2021-10-27
# 強化学習による粘性拡大流れの安定化

Stabilising viscous extensional flows using Reinforcement Learning ( http://arxiv.org/abs/2110.14677v1 )

ライセンス: Link先を確認
Marco Vona and Eric Lauga(参考訳) 4つの同一のシリンダーが同じ大きさで交互に回転する四ロールミルは、元来ギ・テイラーによって局所的な延長流れを作り、小さな液滴を変形させる能力を研究するために提案された。 伸縮流は不安定な固有方向を持つので、流れの停滞点に位置する滴は脱出する傾向にある。 この不安定な力学は、例えばシリンダーの回転率の変調を用いて安定化することができる。 ここでは、4ロールミルフローの安定化アルゴリズムを考案するために、累積報酬に基づくアクションの最適選択に特化した機械学習の分野である強化学習を用いる。 流れは4つの2次元ローターの線形重ね合わせとしてモデル化され、液滴は他の全ての長さスケールよりも小さい固い球状粒子として扱われる。 制御を考案しようとする従来の試みとは違って,Actor-Critic法と呼ばれる勾配上昇の形で時間とともに形状が改善された確率密度関数から,速度調整を導出する確率論的アプローチをとる。 十分なトレーニングを積んで、我々のアルゴリズムはドロップを正確に制御し、必要に応じて停滞点に近づき続けることができる。 本研究では,物理・学習パラメータが制御の有効性に与える影響について検討し,熱雑音に対するアルゴリズムの堅牢性を示す。 最後に,強化学習はすべての初期位置に対して効果的な制御アルゴリズムを提供し,落下位置近傍の流量拡大の大きさを制限できることを示す。

The four-roll mill, wherein four identical cylinders undergo rotation of identical magnitude but alternate signs, was originally proposed by GI Taylor to create local extensional flows and study their ability to deform small liquid drops. Since an extensional flow has an unstable eigendirection, a drop located at the flow stagnation point will have a tendency to escape. This unstable dynamics can however be stabilised using, e.g., a modulation of the rotation rates of the cylinders. Here we use Reinforcement Learning, a branch of Machine Learning devoted to the optimal selection of actions based on cumulative rewards, in order to devise a stabilisation algorithm for the four-roll mill flow. The flow is modelled as the linear superposition of four two-dimensional rotlets and the drop is treated as a rigid spherical particle smaller than all other length scales in the problem. Unlike previous attempts to devise control, we take a probabilistic approach whereby speed adjustments are drawn from a probability density function whose shape is improved over time via a form of gradient ascent know as Actor-Critic method. With enough training, our algorithm is able to precisely control the drop and keep it close to the stagnation point for as long as needed. We explore the impact of the physical and learning parameters on the effectiveness of the control and demonstrate the robustness of the algorithm against thermal noise. We finally show that Reinforcement Learning can provide a control algorithm effective for all initial positions and that can be adapted to limit the magnitude of the flow extension near the position of the drop.
翻訳日:2021-10-29 16:56:05 公開日:2021-10-27
# 並列MRI応用における変分ネットワークとアンダーサンプリングパターンの交互学習アプローチ

Alternating Learning Approach for Variational Networks and Undersampling Pattern in Parallel MRI Applications ( http://arxiv.org/abs/2110.14703v1 )

ライセンス: Link先を確認
Marcelo V. W. Zibetti, Florian Knoll, and Ravinder R. Regatte(参考訳) 目的: 高速並列磁気共鳴画像(MRI)において, サンプリングパターン(SP)と変動ネットワーク(VN)のパラメータを学習するための交互学習手法を提案する。 方法: この手法は,SPの改良,偏差加速サブセット選択の活用,および単調性検証のADAMを用いてVNのパラメータの改善とを交互に行う。 アルゴリズムは有効なペアを学習し、VN再構成によって除去されるアンダーサンプリングアーティファクトを生成する、少ないkスペースサンプルをキャプチャするSPである。 提案手法は,異なる初期SPを考慮し,安定性と収束性について検討した。 VNとSPの質は,2つの異なるデータセットと異なるアクセラレーション因子(AF)を用いて,共同学習法や可変密度ポアソンディスクSPを用いたVN学習など,他の手法と比較した。 結果: 根平均二乗誤差 (rmse) の改善は, 脳および膝関節データセットのafを他のアプローチと比較した場合, 14.9%から51.2%に変化した。 提案手法は安定収束を示し、異なる初期条件下で同じRMSEを持つ類似のSPを得る。 結論: 提案手法は安定であり,他の手法よりも優れた画質で画像を生成するVNパラメータを持つ有効SPを学習し,並列MRIの高速化を実現した。

Purpose: To propose an alternating learning approach to learn the sampling pattern (SP) and the parameters of variational networks (VN) in accelerated parallel magnetic resonance imaging (MRI). Methods: The approach alternates between improving the SP, using bias-accelerated subset selection, and improving parameters of the VN, using ADAM with monotonicity verification. The algorithm learns an effective pair: an SP that captures fewer k-space samples generating undersampling artifacts that are removed by the VN reconstruction. The proposed approach was tested for stability and convergence, considering different initial SPs. The quality of the VNs and SPs was compared against other approaches, including joint learning methods and VN learning with fixed variable density Poisson-disc SPs, using two different datasets and different acceleration factors (AF). Results: The root mean squared error (RMSE) improvements ranged from 14.9% to 51.2% considering AF from 2 to 20 in the tested brain and knee joint datasets when compared to the other approaches. The proposed approach has shown stable convergence, obtaining similar SPs with the same RMSE under different initial conditions. Conclusion: The proposed approach was stable and learned effective SPs with the corresponding VN parameters that produce images with better quality than other approaches, improving accelerated parallel MRI applications.
翻訳日:2021-10-29 16:55:40 公開日:2021-10-27
# 分子動力学シミュレーションをソフトラベルとした機械学習サロゲートの設計

Designing Machine Learning Surrogates using Outputs of Molecular Dynamics Simulations as Soft Labels ( http://arxiv.org/abs/2110.14714v1 )

ライセンス: Link先を確認
J.C.S. Kadupitiya, Nasim Anousheh, Vikram Jadhao(参考訳) 分子動力学シミュレーションは、軟質材料の特性を特徴づける顕微鏡機構を抽出する強力なツールである。 最近,ソフトマテリアルの分子動力学シミュレーションのための機械学習サーロゲートを導入し,ニューラルネットワークを用いた回帰モデルが入力材料属性とシミュレーション出力の関係をうまく予測できることを実証した。 本稿では,分子動力学シミュレーションのアウトプットに関連する統計的不確かさを,ニューラルネットワークのトレーニングや,高い精度と一般化性を備えた機械学習サーロゲートの設計に利用できることを示す。 推定平均出力量の不確かさを組み込んだシミュレーション出力用ソフトラベルの設計を行い、これらのソフトラベルをトレーニング中に活用した修正損失関数を導入し、未取得のテストデータにおける入力システムのサロゲート予測誤差を大幅に低減する。 このアプローチは、入力電解質特性と出力イオン構造との複雑な関係を予測するために、閉じ込められた電解質の分子動力学シミュレーションのためのサーロゲートの設計で示される。 イオン密度プロファイルの代理予測は分子動力学シミュレーションにより得られた基底真理結果と良好な一致を示した。 サロゲート予測に関連する高精度かつ小さな推論時間は、数密度プロファイルを用いて導出される量に素早くアクセスでき、迅速な感度解析が容易である。

Molecular dynamics simulations are powerful tools to extract the microscopic mechanisms characterizing the properties of soft materials. We recently introduced machine learning surrogates for molecular dynamics simulations of soft materials and demonstrated that artificial neural network based regression models can successfully predict the relationships between the input material attributes and the simulation outputs. Here, we show that statistical uncertainties associated with the outputs of molecular dynamics simulations can be utilized to train artificial neural networks and design machine learning surrogates with higher accuracy and generalizability. We design soft labels for the simulation outputs by incorporating the uncertainties in the estimated average output quantities, and introduce a modified loss function that leverages these soft labels during training to significantly reduce the surrogate prediction error for input systems in the unseen test data. The approach is illustrated with the design of a surrogate for molecular dynamics simulations of confined electrolytes to predict the complex relationship between the input electrolyte attributes and the output ionic structure. The surrogate predictions for the ionic density profiles show excellent agreement with the ground truth results produced using molecular dynamics simulations. The high accuracy and small inference times associated with the surrogate predictions provide quick access to quantities derived using the number density profiles and facilitate rapid sensitivity analysis.
翻訳日:2021-10-29 16:55:16 公開日:2021-10-27
# L2ight: 最適部分空間最適化による光ニューラルネットワークのオンチップ学習の実現

L2ight: Enabling On-Chip Learning for Optical Neural Networks via Efficient in-situ Subspace Optimization ( http://arxiv.org/abs/2110.14807v1 )

ライセンス: Link先を確認
Jiaqi Gu, Hanqing Zhu, Chenghao Feng, Zixuan Jiang, Ray T. Chen, David Z. Pan(参考訳) シリコンフォトニクスベースの光ニューラルネットワーク(ONN)は、CMOS互換性、柔軟性、超低実行レイテンシ、高エネルギー効率で効率的なAIのパラダイムシフトを表現できる、有望なハードウェアプラットフォームである。 オンラインプログラマブルフォトニックチップのトレーニングは魅力的だが、オンチップ実装性、スケーラビリティ、効率の面での課題に直面している。 そこで本研究では,スケーラブルなONNマッピングと効率的なin-situ学習を実現するための,閉ループONNオンチップ学習フレームワークL2ightを提案する。 L2ightは3段階の学習フローを採用し、まず複雑なフォトニック回路状態のキャリブレーションを行い、次に解析的解法とゼロ階最適化を組み合わせたフォトニックコアマッピングを実行する。 マルチレベル間隔のサブスペース学習手順をL2ightに統合し、その場での勾配評価と高速適応を実現し、実際のオンチップインテリジェンスのための光学のパワーを解放する。 提案するl2ightは,様々なモデルや学習タスクでベンチマークを行った場合,従来のonnトレーニングプロトコルよりも3次元のスケーラビリティと30倍以上の効率で優れていた。 このシナジスティックなフレームワークは、この新興分野を難解からスケーラブルにし、次世代の自己学習型フォトニックニューラルチップの効率を高める、最初のスケーラブルなオンチップ学習ソリューションである。 共同設計の観点から、L2ightはハードウェア制限されたユニタリ部分空間最適化と効率的なスパーストレーニングのための重要な洞察を提供する。 私たちはフレームワークをhttps://github.com/J eremieMelo/L2ight.co mでオープンソース化しました。

Silicon-photonics-ba sed optical neural network (ONN) is a promising hardware platform that could represent a paradigm shift in efficient AI with its CMOS-compatibility, flexibility, ultra-low execution latency, and high energy efficiency. In-situ training on the online programmable photonic chips is appealing but still encounters challenging issues in on-chip implementability, scalability, and efficiency. In this work, we propose a closed-loop ONN on-chip learning framework L2ight to enable scalable ONN mapping and efficient in-situ learning. L2ight adopts a three-stage learning flow that first calibrates the complicated photonic circuit states under challenging physical constraints, then performs photonic core mapping via combined analytical solving and zeroth-order optimization. A subspace learning procedure with multi-level sparsity is integrated into L2ight to enable in-situ gradient evaluation and fast adaptation, unleashing the power of optics for real on-chip intelligence. Extensive experiments demonstrate our proposed L2ight outperforms prior ONN training protocols with 3-order-of-magnitude higher scalability and over 30X better efficiency, when benchmarked on various models and learning tasks. This synergistic framework is the first scalable on-chip learning solution that pushes this emerging field from intractable to scalable and further to efficient for next-generation self-learnable photonic neural chips. From a co-design perspective, L2ight also provides essential insights for hardware-restricted unitary subspace optimization and efficient sparse training. We open-source our framework at https://github.com/J eremieMelo/L2ight.
翻訳日:2021-10-29 16:54:53 公開日:2021-10-27
# フロンティア探査における意味マッピングのための効率的なプラカード探索

Efficient Placard Discovery for Semantic Mapping During Frontier Exploration ( http://arxiv.org/abs/2110.14742v1 )

ライセンス: Link先を確認
David Balaban, Harshavardhan Jagannathan, Henry Liu, Justin Hart(参考訳) セマンティックマッピング(Semantic Mapping)とは、従来のSLAMアルゴリズムのオープンでナビゲート可能な空間を越えて、セマンティックなセマンティックスを位置情報にアタッチすることで、環境の地図を提供するタスクである。 この作業で提示されたシステムは、オフィスの位置をアノテートするためのドアプラカードを読み取る。 このシステムは手作りの検出器を開発したが、検出にはYOLOv2、セグメンテーションにはセグメンテーションネットワークを利用している。 プラカードは、セグメンテーションされた四角形輪郭から計算されたホモグラフィからそのポーズを計算することで局所化される。 この研究はまた、割り込み可能なフロンティア探索アルゴリズムを導入し、このプロセス中に観察されたプラカードを検査しながら、ロボットがスラムマップを構築することができるようにした。 これにより、ロボットは人間の介入なしに部屋のプラカードを自律的に発見できる。

Semantic mapping is the task of providing a robot with a map of its environment beyond the open, navigable space of traditional Simultaneous Localization and Mapping (SLAM) algorithms by attaching semantics to locations. The system presented in this work reads door placards to annotate the locations of offices. Whereas prior work on this system developed hand-crafted detectors, this system leverages YOLOv2 for detection and a segmentation network for segmentation. Placards are localized by computing their pose from a homography computed from a segmented quadrilateral outline. This work also introduces an Interruptable Frontier Exploration algorithm, enabling the robot to explore its environment to construct its SLAM map while pausing to inspect placards observed during this process. This allows the robot to autonomously discover room placards without human intervention while speeding up significantly over previous autonomous exploration methods.
翻訳日:2021-10-29 16:06:35 公開日:2021-10-27
# スペクトルヘドラル回帰

Spectrahedral Regression ( http://arxiv.org/abs/2110.14779v1 )

ライセンス: Link先を確認
Eliza O'Reilly and Venkat Chandrasekaran(参考訳) 凸回帰は、入出力対からなるデータセットに凸関数を適合させる問題である。 我々は、この問題に対する新しいアプローチとして、データにスペクトル関数、すなわち入力のアフィン行列表現の最大固有値である関数を適合させる、スペクトル回帰(spectrahedral regression)を提案する。 この方法は、データに多面体関数(固定数のアフィン関数の最大値)が適合する多面体回帰(マックス・アフィン(max-affine)レグレッション)の著しい一般化を表している。 スペクトルヘドラル関数が統計的リスク解析によって任意の凸関数を近似できるかどうかの境界を証明した。 また,与えられたデータセットに最良スペクトルヘドラル関数を適合させる非凸最適化問題に対する交互最小化アルゴリズムの解析を行う。 このアルゴリズムは, 良好な初期化を与えられた最適パラメータの周りの小球に対して, 幾何的に高い確率で収束することを示す。 最後に, 合成データセット実験や, 経済学や工学設計などの応用で発生する実データを用いて, 提案手法の有用性を実証する。

Convex regression is the problem of fitting a convex function to a data set consisting of input-output pairs. We present a new approach to this problem called spectrahedral regression, in which we fit a spectrahedral function to the data, i.e. a function that is the maximum eigenvalue of an affine matrix expression of the input. This method represents a significant generalization of polyhedral (also called max-affine) regression, in which a polyhedral function (a maximum of a fixed number of affine functions) is fit to the data. We prove bounds on how well spectrahedral functions can approximate arbitrary convex functions via statistical risk analysis. We also analyze an alternating minimization algorithm for the non-convex optimization problem of fitting the best spectrahedral function to a given data set. We show that this algorithm converges geometrically with high probability to a small ball around the optimal parameter given a good initialization. Finally, we demonstrate the utility of our approach with experiments on synthetic data sets as well as real data arising in applications such as economics and engineering design.
翻訳日:2021-10-29 16:03:49 公開日:2021-10-27
# シャープ-GAN: 病理画像合成のための正規化GAN

Sharp-GAN: Sharpness Loss Regularized GAN for Histopathology Image Synthesis ( http://arxiv.org/abs/2110.14709v1 )

ライセンス: Link先を確認
Sujata Butte, Haotian Wang, Min Xian, Aleksandar Vakanski(参考訳) 既存の深層学習に基づく組織像解析手法は、優れたパフォーマンスを達成するために大量の注釈付きトレーニングセットを必要とするが、注釈付き病理像は遅く、資源集約的である。 コンディショナル・ジェネレーティブ・逆境ネットワークは、この問題を緩和するために合成組織像を生成するために応用されてきたが、現在のアプローチでは重なり合う原子核と接触する原子核の明確な輪郭を生成できない。 本研究では,現実の病理組織像を合成するためのシャープネス損失正規化生成逆ネットワークを提案する。 提案ネットワークは、二乗マスクではなく正規化された核距離マップを用いて、核輪郭情報を符号化する。 提案するシャープネス損失は、核輪郭画素のコントラストを高める。 提案手法は,2つの公開データセットの4つの画像品質指標とセグメンテーション結果を用いて評価する。 定量的および定性的な結果から,提案手法が明瞭な核輪郭を持つ現実的な病理組織像を生成できることが証明された。

Existing deep learning-based approaches for histopathology image analysis require large annotated training sets to achieve good performance; but annotating histopathology images is slow and resource-intensive. Conditional generative adversarial networks have been applied to generate synthetic histopathology images to alleviate this issue, but current approaches fail to generate clear contours for overlapped and touching nuclei. In this study, We propose a sharpness loss regularized generative adversarial network to synthesize realistic histopathology images. The proposed network uses normalized nucleus distance map rather than the binary mask to encode nuclei contour information. The proposed sharpness loss enhances the contrast of nuclei contour pixels. The proposed method is evaluated using four image quality metrics and segmentation results on two public datasets. Both quantitative and qualitative results demonstrate that the proposed approach can generate realistic histopathology images with clear nuclei contours.
翻訳日:2021-10-29 16:03:11 公開日:2021-10-27
# グラフベーススパースPCAネットワークを用いた病理組織像における肺癌病変の検出

Lung Cancer Lesion Detection in Histopathology Images Using Graph-Based Sparse PCA Network ( http://arxiv.org/abs/2110.14728v1 )

ライセンス: Link先を確認
Sundaresh Ram, Wenfei Tang, Alexander J. Bell, Cara Spencer, Alexander Buschhaus, Charles R. Hatt, Marina Pasca diMagliano, Jeffrey J. Rodriguez, Stefanie Galban, Craig J. Galban(参考訳) 肺癌の早期発見は患者の生存を改善する上で重要である。 効果的な治療の必要性に対処するため、遺伝子組み換えマウスモデル(gemm)は、治療標的として利用される可能性のあるこの複雑な疾患の分子基盤を同定し、評価するのに不可欠なものとなっている。 手動検査による病理組織学的部位のGEMM腫瘍負担の評価には,時間的・主観的バイアスが伴う。 したがって、これらの病理組織像の正確かつ効率的な解析のために、コンピュータ支援診断ツールのニーズと課題の相互作用が存在する。 本稿では,ヘマトキシリンとエオシン(H&E)で染色した組織学的肺スライドの癌病変の自動検出のための,グラフベーススパース成分分析(GS-PCA)ネットワークと呼ばれる単純な機械学習手法を提案する。 方法には4つのステップがある。 1)カスケードグラフに基づくスパースpca, 2)PCAバイナリハッシュ 3)ブロックワイドヒストグラム,及び 4) ベクトルマシン (SVM) の分類をサポートする。 提案アーキテクチャでは,畳み込みネットワークの複数段階のフィルタバンクを学習するために,グラフベースのスパースPCAを用いている。 続いてPCAハッシュとブロックヒストグラムがインデックス化とプールに使用される。 このGS-PCAから抽出された意味のある特徴はSVM分類器に送られる。 提案手法は,誘導型k-rasg12d肺がんマウスモデルから得られたh&eスライド上で,受信者特性(roc)の曲線下(auc)の精度/リコール率,f-score,谷本係数,領域を用いて評価し,本アルゴリズムが効率的であることを示し,既存のアルゴリズムと比較して検出精度が向上した。

Early detection of lung cancer is critical for improvement of patient survival. To address the clinical need for efficacious treatments, genetically engineered mouse models (GEMM) have become integral in identifying and evaluating the molecular underpinnings of this complex disease that may be exploited as therapeutic targets. Assessment of GEMM tumor burden on histopathological sections performed by manual inspection is both time consuming and prone to subjective bias. Therefore, an interplay of needs and challenges exists for computer-aided diagnostic tools, for accurate and efficient analysis of these histopathology images. In this paper, we propose a simple machine learning approach called the graph-based sparse principal component analysis (GS-PCA) network, for automated detection of cancerous lesions on histological lung slides stained by hematoxylin and eosin (H&E). Our method comprises four steps: 1) cascaded graph-based sparse PCA, 2) PCA binary hashing, 3) block-wise histograms, and 4) support vector machine (SVM) classification. In our proposed architecture, graph-based sparse PCA is employed to learn the filter banks of the multiple stages of a convolutional network. This is followed by PCA hashing and block histograms for indexing and pooling. The meaningful features extracted from this GS-PCA are then fed to an SVM classifier. We evaluate the performance of the proposed algorithm on H&E slides obtained from an inducible K-rasG12D lung cancer mouse model using precision/recall rates, F-score, Tanimoto coefficient, and area under the curve (AUC) of the receiver operator characteristic (ROC) and show that our algorithm is efficient and provides improved detection accuracy compared to existing algorithms.
翻訳日:2021-10-29 16:02:54 公開日:2021-10-27
# SCALP -- 患者メタデータを用いた胸部X線における心肺疾患分類と局所化のためのコントラスト学習

SCALP -- Supervised Contrastive Learning for Cardiopulmonary Disease Classification and Localization in Chest X-rays using Patient Metadata ( http://arxiv.org/abs/2110.14787v1 )

ライセンス: Link先を確認
Ajay Jaiswal, Tianhao Li, Cyprian Zander, Yan Han, Justin F. Rousseau, Yifan Peng, Ying Ding(参考訳) コンピュータ診断は、よりアクセスしやすく正確な心肺疾患の分類と胸部x線撮影における局在において重要な役割を果たす。 何百万人もの人々が、正確でタイムリーな診断なしに、これらの病気によって影響を受けて死にます。 最近提案されたコントラスト学習は、データ拡張、特にポジティブなデータ拡張に大きく依存している。 しかし, シャープ, ぼやけ, 作物操作などのコンピュータビジョンにおける一般的なデータ拡張手法は, 医用画像の臨床的設定を著しく変えうるため, 医療用画像の精度の高いデータ拡張を生成することは極めて困難である。 本稿では,患者メタデータと教師付き知識に基づく新規でシンプルなデータ拡張手法を提案し,胸部X線に対する臨床的に正確な正負の増悪を創出する。 そこで我々は,自己監督型コントラストアプローチを教師付き設定に拡張する,エンドツーエンドフレームワークであるSCALPを紹介した。 特にSCALPは、同じ患者(陽性キー)から胸部X線を抽出し、異なる患者(陰キー)から胸部X線を分離する。 さらに、ResNet-50とトリプルトアテンション機構を使って心肺疾患を識別し、Grad-CAM++は異常領域をハイライトする。 大規模な実験により、SCALPは、分類タスクとローカライゼーションタスクの両方において、有意な差で既存のベースラインを上回ります。 具体的には、平均分類AUCは82.8%(DenseNet-121)でSOTA)から83.9%(ResNet-50でSCALP)に改善され、ローカライゼーション結果は異なるIoU閾値で平均3.7%改善された。

Computer-aided diagnosis plays a salient role in more accessible and accurate cardiopulmonary diseases classification and localization on chest radiography. Millions of people get affected and die due to these diseases without an accurate and timely diagnosis. Recently proposed contrastive learning heavily relies on data augmentation, especially positive data augmentation. However, generating clinically-accurate data augmentations for medical images is extremely difficult because the common data augmentation methods in computer vision, such as sharp, blur, and crop operations, can severely alter the clinical settings of medical images. In this paper, we proposed a novel and simple data augmentation method based on patient metadata and supervised knowledge to create clinically accurate positive and negative augmentations for chest X-rays. We introduce an end-to-end framework, SCALP, which extends the self-supervised contrastive approach to a supervised setting. Specifically, SCALP pulls together chest X-rays from the same patient (positive keys) and pushes apart chest X-rays from different patients (negative keys). In addition, it uses ResNet-50 along with the triplet-attention mechanism to identify cardiopulmonary diseases, and Grad-CAM++ to highlight the abnormal regions. Our extensive experiments demonstrate that SCALP outperforms existing baselines with significant margins in both classification and localization tasks. Specifically, the average classification AUCs improve from 82.8% (SOTA using DenseNet-121) to 83.9% (SCALP using ResNet-50), while the localization results improve on average by 3.7% over different IoU thresholds.
翻訳日:2021-10-29 16:02:23 公開日:2021-10-27
# ABIDES-Gym:マルチエージェント離散イベントシミュレーションのためのガイム環境と金融市場への応用

ABIDES-Gym: Gym Environments for Multi-Agent Discrete Event Simulation and Application to Financial Markets ( http://arxiv.org/abs/2110.14771v1 )

ライセンス: Link先を確認
Selim Amrouni, Aymeric Moulin, Jared Vann, Svitlana Vyetrenko, Tucker Balch and Manuela Veloso(参考訳) モデルフリー強化学習(RL)は、元の問題環境やそのシミュレーションバージョンで行動をとることで軌道をサンプリングする能力を必要とする。 RLの分野におけるブレークスルーは、OpenAI GymやAtari環境など、簡単に使えるフレームワークを備えた専用のオープンソースシミュレータの開発によって、大きく促進されている。 本稿では,離散イベント時間に基づく離散イベントマルチエージェントシミュレーション(DEMAS)におけるOpenAI Gymフレームワークの利用を提案する。 本稿では,DEMASシミュレータをGymフレームワークにラップする一般的な手法を紹介する。 我々は,この手法を詳細に公開し,シミュレータをベースとして実装する。 本研究は、ABIDES、ABIDES-Marketsの市場拡張を具体的に利用し、日々の投資家および実行エージェントを訓練するための2つのベンチマーク金融市場OpenAI Gym環境を開発する。 その結果、これらの2つの環境は、実験エージェントの行動に対する複雑な市場行動応答を伴う古典的な金融問題を記述する。

Model-free Reinforcement Learning (RL) requires the ability to sample trajectories by taking actions in the original problem environment or a simulated version of it. Breakthroughs in the field of RL have been largely facilitated by the development of dedicated open source simulators with easy to use frameworks such as OpenAI Gym and its Atari environments. In this paper we propose to use the OpenAI Gym framework on discrete event time based Discrete Event Multi-Agent Simulation (DEMAS). We introduce a general technique to wrap a DEMAS simulator into the Gym framework. We expose the technique in detail and implement it using the simulator ABIDES as a base. We apply this work by specifically using the markets extension of ABIDES, ABIDES-Markets, and develop two benchmark financial markets OpenAI Gym environments for training daily investor and execution agents. As a result, these two environments describe classic financial problems with a complex interactive market behavior response to the experimental agent's action.
翻訳日:2021-10-29 16:00:29 公開日:2021-10-27
# 最も近い隣の過程:弱収束と非漸近境界

Nearest neighbor process: weak convergence and non-asymptotic bound ( http://arxiv.org/abs/2110.15083v1 )

ライセンス: Link先を確認
Fran\c{c}ois Portier(参考訳) 最寄りの近傍から与えられた点(最寄りの測度)に結果をもたらす経験的尺度を導入し、中央統計量として研究する。 まず、得られた経験的過程は、基礎となる関数のクラス上の(局所的な)ブラケットエントロピー条件の下で一様中心極限定理を満たすことが示される(近傍アルゴリズムの局所化の性質を反映する)。 第2に、一様非漸近境界はよく知られた条件下で確立され、しばしば一様エントロピー数に基づいてvapnik-chervonenkisと呼ばれる。

An empirical measure that results from the nearest neighbors to a given point - the nearest neighbor measure - is introduced and studied as a central statistical quantity. First, the resulting empirical process is shown to satisfy a uniform central limit theorem under a (local) bracketing entropy condition on the underlying class of functions (reflecting the localizing nature of nearest neighbor algorithm). Second a uniform non-asymptotic bound is established under a well-known condition, often refereed to as Vapnik-Chervonenkis, on the uniform entropy numbers.
翻訳日:2021-10-29 16:00:12 公開日:2021-10-27
# トランスダクションによるニューラルネットワークのロバスト性評価に向けて

Towards Evaluating the Robustness of Neural Networks Learned by Transduction ( http://arxiv.org/abs/2110.14735v1 )

ライセンス: Link先を確認
Jiefeng Chen, Xi Wu, Yang Guo, Yingyu Liang, Somesh Jha(参考訳) 対向的堅牢性のためのトランスダクティブ学習(Goldwasser et al., NeurIPS 2020, Wu et al., ICML 2020, Wang et al., ArXiv 2021)への関心が高まっている。 従来の防御機構と比較して、これらの防御機構はテスト時間入力に基づいてモデルを「動的に学習」し、理論的には、これらの防御を攻撃することで二段階最適化の問題が解決される。 本稿では,これらの防御機構を原理的脅威分析の観点から検討する。 我々は、トランスダクティブ学習に基づく防御のための脅威モデルを定式化し分析し、重要な微妙さを指摘する。 本稿では,二段階攻撃目標を解決するためのモデル空間攻撃の原理と,トランスダクティブ・ラーニングに基づく防御を評価するための新たなベースラインとなる攻撃フレームワークであるgreedy model space attack(gmsa)を提案する。 系統的評価により, GMSAは, 弱いインスタンス化であっても, AutoAttack (Croce and Hein, ICML 2020) など, 過去の攻撃に対して耐性のある, 従来のトランスダクティブ・ラーニング・ベース・ディフェンスを破ることができることを示した。 テスト時に新しいランダム性を用いてモデルを再トレーニングすることで、私たちが検討する攻撃に対するロバスト性が大幅に向上します。

There has been emerging interest in using transductive learning for adversarial robustness (Goldwasser et al., NeurIPS 2020; Wu et al., ICML 2020; Wang et al., ArXiv 2021). Compared to traditional defenses, these defense mechanisms "dynamically learn" the model based on test-time input; and theoretically, attacking these defenses reduces to solving a bilevel optimization problem, which poses difficulty in crafting adaptive attacks. In this paper, we examine these defense mechanisms from a principled threat analysis perspective. We formulate and analyze threat models for transductive-learnin g based defenses, and point out important subtleties. We propose the principle of attacking model space for solving bilevel attack objectives, and present Greedy Model Space Attack (GMSA), an attack framework that can serve as a new baseline for evaluating transductive-learnin g based defenses. Through systematic evaluation, we show that GMSA, even with weak instantiations, can break previous transductive-learnin g based defenses, which were resilient to previous attacks, such as AutoAttack (Croce and Hein, ICML 2020). On the positive side, we report a somewhat surprising empirical result of "transductive adversarial training": Adversarially retraining the model using fresh randomness at the test time gives a significant increase in robustness against attacks we consider.
翻訳日:2021-10-29 15:42:06 公開日:2021-10-27
# 線形mdpにおける強化学習 : 後悔と表現の選択

Reinforcement Learning in Linear MDPs: Constant Regret and Representation Selection ( http://arxiv.org/abs/2110.14798v1 )

ライセンス: Link先を確認
Matteo Papini, Andrea Tirinzoni, Aldo Pacchiano, Marcello Restelli, Alessandro Lazaric and Matteo Pirotta(参考訳) 線形構造を持つ有限水平マルコフ決定過程(MDPs)における後悔最小化における状態-作用値関数の表現の役割について検討する。 まず,線形報酬関数を持つ任意のMDPにおいて,一貫した後悔を実現するために,Universally spaning optimal features (UNISOFT) と呼ばれる表現に必要条件を導出する。 この結果は、低ランク MDP のよく知られた設定や、より一般的にはゼロ固有ベルマン誤差(ベルマン閉包仮定とも呼ばれる)を含む。 次に、この条件は、2つの楽観的アルゴリズム(LSVI-UCB と ELEANOR )に対して一定の後悔を導出することで、これらの問題のクラスに十分であることを示す。 最後に, 表現選択のためのアルゴリズムを提案し, 与えられた表現の1つ, あるいは適切な組み合わせがUNISOFT条件を満たす場合, 常に後悔することを示す。

We study the role of the representation of state-action value functions in regret minimization in finite-horizon Markov Decision Processes (MDPs) with linear structure. We first derive a necessary condition on the representation, called universally spanning optimal features (UNISOFT), to achieve constant regret in any MDP with linear reward function. This result encompasses the well-known settings of low-rank MDPs and, more generally, zero inherent Bellman error (also known as the Bellman closure assumption). We then demonstrate that this condition is also sufficient for these classes of problems by deriving a constant regret bound for two optimistic algorithms (LSVI-UCB and ELEANOR). Finally, we propose an algorithm for representation selection and we prove that it achieves constant regret when one of the given representations, or a suitable combination of them, satisfies the UNISOFT condition.
翻訳日:2021-10-29 15:41:37 公開日:2021-10-27
# グラフ学習データセットの分類に向けて

Towards a Taxonomy of Graph Learning Datasets ( http://arxiv.org/abs/2110.14809v1 )

ライセンス: Link先を確認
Renming Liu, Semih Cant\"urk, Frederik Wenkel, Dylan Sandfelder, Devin Kreuzer, Anna Little, Sarah McGuire, Leslie O'Bray, Michael Perlmutter, Bastian Rieck, Matthew Hirn, Guy Wolf and Ladislav Ramp\'a\v{s}ek(参考訳) グラフニューラルネットワーク(gnns)は、基盤となるデータの固有ジオメトリを活用できるため、多くの注目を集めている。 多くの異なるタイプのGNNモデルが開発され、GNNモデルが他のモデルよりも優れていることを示す多くのベンチマーク手順が開発されているが、基盤となるベンチマークデータセットの体系的な理解が欠如しており、そのモデルのどの側面がテストされているかが分かっていない。 本稿では,グラフの摂動の集合を慎重に設計し,GNNモデルが予測に利用する重要なデータ特性を探索することにより,グラフベンチマークデータセットを分類する手法を提案する。 グラフデータセットのデータ駆動分類は、より優れたモデル評価とより専門的なGNNモデルの開発を可能にする重要なデータセット特性の新たな理解を提供する。

Graph neural networks (GNNs) have attracted much attention due to their ability to leverage the intrinsic geometries of the underlying data. Although many different types of GNN models have been developed, with many benchmarking procedures to demonstrate the superiority of one GNN model over the others, there is a lack of systematic understanding of the underlying benchmarking datasets, and what aspects of the model are being tested. Here, we provide a principled approach to taxonomize graph benchmarking datasets by carefully designing a collection of graph perturbations to probe the essential data characteristics that GNN models leverage to perform predictions. Our data-driven taxonomization of graph datasets provides a new understanding of critical dataset characteristics that will enable better model evaluation and the development of more specialized GNN models.
翻訳日:2021-10-29 15:41:20 公開日:2021-10-27
# 乳房超音波画像分類のための視覚トランスフォーマ

Vision Transformer for Classification of Breast Ultrasound Images ( http://arxiv.org/abs/2110.14731v1 )

ライセンス: Link先を確認
Behnaz Gheflati and Hassan Rivaz(参考訳) 医用超音波(us)画像は, 使いやすさ, 安価, 安全性から, 乳がん画像診断の特長となっている。 過去10年間で、畳み込みニューラルネットワーク(CNN)が視覚応用の方法として登場し、米国の画像の自動分類において優れた可能性を示している。 彼らの成功にもかかわらず、その制限された局所受容領域は、グローバルな文脈情報を学ぶ能力を制限する。 近年,画像パッチ間の自己アテンションに基づく視覚変換器 (ViT) の設計は,CNNの代替として大きな可能性を示している。 本研究では,ViTを用いて乳房画像の分類を行った。 結果は、分類精度とAUC(Area Under the Curve)メトリクスとして提供され、その性能は最先端のCNNと比較される。 以上の結果から,vitモデルは乳房画像分類においてcnnと同等かそれ以上の効率を示した。

Medical ultrasound (US) imaging has become a prominent modality for breast cancer imaging due to its ease-of-use, low-cost and safety. In the past decade, convolutional neural networks (CNNs) have emerged as the method of choice in vision applications and have shown excellent potential in automatic classification of US images. Despite their success, their restricted local receptive field limits their ability to learn global context information. Recently, Vision Transformer (ViT) designs that are based on self-attention between image patches have shown great potential to be an alternative to CNNs. In this study, for the first time, we utilize ViT to classify breast US images using different augmentation strategies. The results are provided as classification accuracy and Area Under the Curve (AUC) metrics, and the performance is compared with the state-of-the-art CNNs. The results indicate that the ViT models have comparable efficiency with or even better than the CNNs in classification of US breast images.
翻訳日:2021-10-29 15:28:25 公開日:2021-10-27
# SiamPolar:極性表現による半教師付きリアルタイムビデオオブジェクトセグメンテーション

SiamPolar: Semi-supervised Realtime Video Object Segmentation with Polar Representation ( http://arxiv.org/abs/2110.14773v1 )

ライセンス: Link先を確認
Yaochen Li, Yuhui Hong, Yonghong Song, Chao Zhu, Ying Zhang, Ruihao Wang(参考訳) ビデオオブジェクトセグメンテーション(vos)は自動運転車のナビゲーションの重要な部分である。 リアルタイムの速度は、自動運転車のアルゴリズムと精度指標にとって非常に重要である。 本稿では,新たな極性表現を用いたsiameseネットワークに基づく半教師付きリアルタイム手法を提案する。 境界ボックスの入力はオブジェクトマスクではなく初期化され、ビデオオブジェクト検出タスクに適用される。 極性表現はマスクの符号化パラメータを微妙な精度の損失で減少させ、アルゴリズムの速度を大幅に向上させることができる。 異なる空間スケールから特徴を抽出するために、非対称なシャムネットワークも開発されている。 さらに, 極性頭部の枝間の対角性を低減するために, 剥離畳み込みを提案する。 相互相関と半FPNは、この考えに基づいて設計されている。 DAVIS-2016データセットや他の公開データセットに対する実験結果から,提案手法の有効性が示された。

Video object segmentation (VOS) is an essential part of autonomous vehicle navigation. The real-time speed is very important for the autonomous vehicle algorithms along with the accuracy metric. In this paper, we propose a semi-supervised real-time method based on the Siamese network using a new polar representation. The input of bounding boxes is initialized rather than the object masks, which are applied to the video object detection tasks. The polar representation could reduce the parameters for encoding masks with subtle accuracy loss so that the algorithm speed can be improved significantly. An asymmetric siamese network is also developed to extract the features from different spatial scales. Moreover, the peeling convolution is proposed to reduce the antagonism among the branches of the polar head. The repeated cross-correlation and semi-FPN are designed based on this idea. The experimental results on the DAVIS-2016 dataset and other public datasets demonstrate the effectiveness of the proposed method.
翻訳日:2021-10-29 15:28:09 公開日:2021-10-27
# メタラーニング ばらばらな暗黙の神経表現

Meta-Learning Sparse Implicit Neural Representations ( http://arxiv.org/abs/2110.14678v1 )

ライセンス: Link先を確認
Jaeho Lee, Jihoon Tack, Namhoon Lee, Jinwoo Shin(参考訳) 暗黙的神経表現は、ニューラルネットワークとしてパラメータ化され、信号の領域をそのコドメインにマッピングする連続関数、例えば画像の空間座標からピクセル値へのマッピングを学習することによって、一般的な信号を表現する、有望な新しい方法である。 暗黙的な神経表現は、その領域の無界な高次元信号で細部を伝達できるため、従来の離散表現よりも多くの利点がある。 しかし、多くの信号やデータセットに対して、ニューラルネットワークの表現を学習することは、個々の信号に対して個別に多くのメモリと計算を必要とするため、現在のアプローチではスケールアップが困難である。 この問題に対処するため,我々は,疎度制約下でのネットワーク圧縮と組み合わせたメタラーニング手法を提案する。 同数のパラメータを持つ高密度なメタ学習モデルよりも、同じ数の最適化ステップを用いて各信号に適合するように訓練した場合に、メタ学習されたスパースニューラル表現がはるかに少ない損失を達成できることを実証的に示す。

Implicit neural representations are a promising new avenue of representing general signals by learning a continuous function that, parameterized as a neural network, maps the domain of a signal to its codomain; the mapping from spatial coordinates of an image to its pixel values, for example. Being capable of conveying fine details in a high dimensional signal, unboundedly of its domain, implicit neural representations ensure many advantages over conventional discrete representations. However, the current approach is difficult to scale for a large number of signals or a data set, since learning a neural representation -- which is parameter heavy by itself -- for each signal individually requires a lot of memory and computations. To address this issue, we propose to leverage a meta-learning approach in combination with network compression under a sparsity constraint, such that it renders a well-initialized sparse parameterization that evolves quickly to represent a set of unseen signals in the subsequent training. We empirically demonstrate that meta-learned sparse neural representations achieve a much smaller loss than dense meta-learned models with the same number of parameters, when trained to fit each signal using the same number of optimization steps.
翻訳日:2021-10-29 15:21:57 公開日:2021-10-27
# 最適性の異なる実演による自信認識模倣学習

Confidence-Aware Imitation Learning from Demonstrations with Varying Optimality ( http://arxiv.org/abs/2110.14754v1 )

ライセンス: Link先を確認
Songyuan Zhang, Zhangjie Cao, Dorsa Sadigh, Yanan Sui(参考訳) 既存の模倣学習のアプローチのほとんどは、デモが最適な専門家から引き出されたものであると仮定しているが、この仮定を緩和することで、より広い範囲のデータの使用が可能になる。 標準模倣学習は、様々な最適性を持つデモンストレーションから準最適方針を学ぶことができる。 以前の作品では、信頼スコアやランキングを使用して、様々な最適性を持つデモンストレーションから有益な情報を収集するが、手動のアノテートされた信頼スコアやデモの平均最適度といった多くの制限に悩まされている。 本稿では,信頼度と良好な政策を共同で学習する,様々な最適性を持つ実演から学ぶための一般的な枠組みを提案する。 提案手法では,信頼度認識模倣学習 (CAIL) は,信頼度重み付けによる実証から,モデルの性能の追跡と信頼性の学習に外的損失を用いながら,良好な評価政策を学習する。 本稿では,CAILの収束に関する理論的保証と,シミュレーションおよび実ロボット実験における性能評価を行う。 以上の結果から,CAILは様々な最適性を持つ実演から他の模倣学習方法よりも優れていた。 さらに、最適なデモンストレーションにアクセスしなくても、CAILは成功したポリシーを学習でき、事前の作業よりも優れています。

Most existing imitation learning approaches assume the demonstrations are drawn from experts who are optimal, but relaxing this assumption enables us to use a wider range of data. Standard imitation learning may learn a suboptimal policy from demonstrations with varying optimality. Prior works use confidence scores or rankings to capture beneficial information from demonstrations with varying optimality, but they suffer from many limitations, e.g., manually annotated confidence scores or high average optimality of demonstrations. In this paper, we propose a general framework to learn from demonstrations with varying optimality that jointly learns the confidence score and a well-performing policy. Our approach, Confidence-Aware Imitation Learning (CAIL) learns a well-performing policy from confidence-reweighte d demonstrations, while using an outer loss to track the performance of our model and to learn the confidence. We provide theoretical guarantees on the convergence of CAIL and evaluate its performance in both simulated and real robot experiments. Our results show that CAIL significantly outperforms other imitation learning methods from demonstrations with varying optimality. We further show that even without access to any optimal demonstrations, CAIL can still learn a successful policy, and outperforms prior work.
翻訳日:2021-10-29 14:52:37 公開日:2021-10-27
# 量子機械学習モデルの学習能力の微妙さ

Subtleties in the trainability of quantum machine learning models ( http://arxiv.org/abs/2110.14753v1 )

ライセンス: Link先を確認
Supanut Thanasilp, Samson Wang, Nhat A. Nghiem, Patrick J. Coles, M. Cerezo(参考訳) データサイエンスの新しいパラダイムが出現し、量子データ、量子モデル、量子計算デバイスが登場した。 この分野はQuantum Machine Learning (QML)と呼ばれ、従来の機械学習によるデータ分析の高速化を目指している。 しかしながら、その成功は通常、量子ニューラルネットワークのパラメータを効率的にトレーニングすることに集中しており、QMLの分野はトレーニング容易性に関する理論的スケーリング結果に欠けている。 いくつかのトレーサビリティの結果は、変分量子アルゴリズム(vqas)と呼ばれる密接に関連する分野で証明されている。 どちらの分野もパラメトリズド量子回路の訓練を伴うが、一方の設定の結果を他方に容易に適用できない重要な違いがある。 本稿では,2つのフレームワークをブリッジし,VQAの勾配スケーリング結果をQMLモデルの勾配スケーリングに応用できることを示す。 以上の結果から,VQAトレーサビリティの低下がQMLのバレンプラトーなどの問題を引き起こす可能性が示唆された。 その結果,本研究は文献におけるいくつかのQML提案に影響を及ぼす。 さらに,QMLモデルがトレーニングデータセットの使用によって生じる,VQAに存在しない更なるトレーニング可能性の問題を示すという理論的および数値的な証拠を提供する。 我々はこれらをデータセット誘導バレン台地と呼ぶ。 これらの結果は古典データを扱う際に最も重要であり、ここでは埋め込みスキームの選択(つまり、古典データと量子状態の間の写像)が勾配スケーリングに大きく影響する。

A new paradigm for data science has emerged, with quantum data, quantum models, and quantum computational devices. This field, called Quantum Machine Learning (QML), aims to achieve a speedup over traditional machine learning for data analysis. However, its success usually hinges on efficiently training the parameters in quantum neural networks, and the field of QML is still lacking theoretical scaling results for their trainability. Some trainability results have been proven for a closely related field called Variational Quantum Algorithms (VQAs). While both fields involve training a parametrized quantum circuit, there are crucial differences that make the results for one setting not readily applicable to the other. In this work we bridge the two frameworks and show that gradient scaling results for VQAs can also be applied to study the gradient scaling of QML models. Our results indicate that features deemed detrimental for VQA trainability can also lead to issues such as barren plateaus in QML. Consequently, our work has implications for several QML proposals in the literature. In addition, we provide theoretical and numerical evidence that QML models exhibit further trainability issues not present in VQAs, arising from the use of a training dataset. We refer to these as dataset-induced barren plateaus. These results are most relevant when dealing with classical data, as here the choice of embedding scheme (i.e., the map between classical data and quantum states) can greatly affect the gradient scaling.
翻訳日:2021-10-29 14:45:53 公開日:2021-10-27
# メタアテンション層を用いた超解像性能の向上

Improving Super-Resolution Performance using Meta-Attention Layers ( http://arxiv.org/abs/2110.14638v1 )

ライセンス: Link先を確認
Matthew Aquilina, Christian Galea, John Abela, Kenneth P. Camilleri, Reuben A. Farrugia(参考訳) 畳み込みニューラルネットワーク(CNN)は多くの超解像(SR)と画像復元タスクで素晴らしい結果を得た。 このようなネットワークの多くは、生のピクセルレベルの情報のみを用いて、低解像度(LR)画像をアップスケールすることができるが、SRの不正な性質は、複数の異なる劣化を経た画像を正確に超解き出すのを難しくする。 劣化過程を記述した追加情報(例えば、ぼやけたカーネル、圧縮レベルなど)は、元のソースに対して高い忠実度で高解像度のLR画像にネットワークを誘導することができる。 SRネットワークに劣化パラメータをインフォームする以前の試みは、多くのシナリオで性能を改善することができた。 しかし、多くのSRネットワークの完全な畳み込みの性質のため、これらのメタデータの融合手法の多くは完全なアーキテクチャ変更を必要とするか、あるいは追加の複雑さを追加する必要がある。 したがって、設計変更を伴わずに任意のSRネットワークを導入することは困難である。 本稿では、任意のSR CNNが関連する劣化パラメータで利用可能な情報を利用するためのシンプルなメカニズムであるメタアテンションを紹介する。 このメカニズムは、メタデータをチャネルアテンションベクトルに翻訳することで機能し、ネットワークの特徴マップを選択的に変調する。 SRネットワークにメタアテンションを組み込むことは、正確に機能する特定のタイプのアーキテクチャを必要としないため、簡単である。 拡張テストにより、メタアテンションは関連する劣化メタデータが提供されると、最新技術(SOTA)ネットワークのピクセルレベルの精度を一貫して改善できることが示された。 PSNRでは、ぼやけた/ダウンサンプル(X4)画像のゲインはそれぞれ0.2969dB(平均)と0.3320dB(SOTA一般モデルと顔SRモデル)である。

Convolutional Neural Networks (CNNs) have achieved impressive results across many super-resolution (SR) and image restoration tasks. While many such networks can upscale low-resolution (LR) images using just the raw pixel-level information, the ill-posed nature of SR can make it difficult to accurately super-resolve an image which has undergone multiple different degradations. Additional information (metadata) describing the degradation process (such as the blur kernel applied, compression level, etc.) can guide networks to super-resolve LR images with higher fidelity to the original source. Previous attempts at informing SR networks with degradation parameters have indeed been able to improve performance in a number of scenarios. However, due to the fully-convolutional nature of many SR networks, most of these metadata fusion methods either require a complete architectural change, or necessitate the addition of significant extra complexity. Thus, these approaches are difficult to introduce into arbitrary SR networks without considerable design alterations. In this paper, we introduce meta-attention, a simple mechanism which allows any SR CNN to exploit the information available in relevant degradation parameters. The mechanism functions by translating the metadata into a channel attention vector, which in turn selectively modulates the network's feature maps. Incorporating meta-attention into SR networks is straightforward, as it requires no specific type of architecture to function correctly. Extensive testing has shown that meta-attention can consistently improve the pixel-level accuracy of state-of-the-art (SOTA) networks when provided with relevant degradation metadata. For PSNR, the gain on blurred/downsampled (X4) images is of 0.2969 dB (on average) and 0.3320 dB for SOTA general and face SR models, respectively.
翻訳日:2021-10-29 14:44:49 公開日:2021-10-27
# テキストアウトレイラ検出のための異常注入型Deep Support Vectorデータ記述

Anomaly-Injected Deep Support Vector Data Description for Text Outlier Detection ( http://arxiv.org/abs/2110.14729v1 )

ライセンス: Link先を確認
Zeyu You, Yichu Zhou, Tao Yang, Wei Fan(参考訳) 異常検出や異常検出は様々な領域で一般的な課題であり、近年は大きな研究努力が続けられている。 既存の研究は主に数値データやカテゴリデータなどの構造化データに焦点を当てているが、非構造化テキストデータに対する異常検出は少ない。 本研究では,テキスト異常検出問題を対象として,深層異常注入支援ベクトルデータ記述(AI-SVDD)フレームワークを提案する。 ai-svddはデータの超球面のよりコンパクトな表現を学ぶだけでなく、少数の既知の異常を利用して識別能力を高める。 テキスト入力に対処するために、BERTと協調して多層パーセプトロン(MLP)ネットワークを使用し、リッチなテキスト表現を得る。 複数のデータセットを用いた3つのテキスト異常検出アプリケーションの実験を行った。 実験の結果,提案したAI-SVDDは既存の成果よりも有望であり,優れていた。

Anomaly detection or outlier detection is a common task in various domains, which has attracted significant research efforts in recent years. Existing works mainly focus on structured data such as numerical or categorical data; however, anomaly detection on unstructured textual data is less attended. In this work, we target the textual anomaly detection problem and propose a deep anomaly-injected support vector data description (AI-SVDD) framework. AI-SVDD not only learns a more compact representation of the data hypersphere but also adopts a small number of known anomalies to increase the discriminative power. To tackle text input, we employ a multilayer perceptron (MLP) network in conjunction with BERT to obtain enriched text representations. We conduct experiments on three text anomaly detection applications with multiple datasets. Experimental results show that the proposed AI-SVDD is promising and outperforms existing works.
翻訳日:2021-10-29 14:22:58 公開日:2021-10-27
# ランダムデータインプテーションに欠落した識別可能な生成モデル

Identifiable Generative Models for Missing Not at Random Data Imputation ( http://arxiv.org/abs/2110.14708v1 )

ライセンス: Link先を確認
Chao Ma and Cheng Zhang(参考訳) 実世界のデータセットは、欠落の原因を完全に観察できない複雑な生成プロセスに関連する値が欠落していることが多い。 これはランダム(MNAR)データの欠落として知られている。 しかし、多くのインプテーション法は欠落機構を考慮せず、mnarデータが存在するとバイアス付きインプテーション値となる。 MNARのシナリオを考慮した手法はいくつかあるが、MNARにおけるモデルの識別性は一般に保証されていない。 すなわち、無限のデータサンプルであってもモデルパラメータは一意に決定できないため、そのようなモデルによって与えられる計算結果にはバイアスがある。 この問題は、現代の多くの深層生成モデルでは特に見過ごされている。 本研究では,MNARに基づく生成モデルの識別可能性を体系的に解析することにより,このギャップを埋める。 さらに,様々なMNAR機構に対して,軽微な仮定の下で識別可能性を保証する実用的な深層生成モデルを提案する。 本手法は, 合成データとMNARデータを用いた複数の実世界のシナリオの両方において, タスクに対して明らかな優位性を示す。

Real-world datasets often have missing values associated with complex generative processes, where the cause of the missingness may not be fully observed. This is known as missing not at random (MNAR) data. However, many imputation methods do not take into account the missingness mechanism, resulting in biased imputation values when MNAR data is present. Although there are a few methods that have considered the MNAR scenario, their model's identifiability under MNAR is generally not guaranteed. That is, model parameters can not be uniquely determined even with infinite data samples, hence the imputation results given by such models can still be biased. This issue is especially overlooked by many modern deep generative models. In this work, we fill in this gap by systematically analyzing the identifiability of generative models under MNAR. Furthermore, we propose a practical deep generative model which can provide identifiability guarantees under mild assumptions, for a wide range of MNAR mechanisms. Our method demonstrates a clear advantage for tasks on both synthetic data and multiple real-world scenarios with MNAR data.
翻訳日:2021-10-29 14:19:13 公開日:2021-10-27
# 畳み込み深い指数関数族

Convolutional Deep Exponential Families ( http://arxiv.org/abs/2110.14800v1 )

ライセンス: Link先を確認
Chengkuan Hong, Christian R. Shelton(参考訳) 本稿では, 畳み込み型ディープ指数族(CDEF)について述べる。 CDEFは、潜伏変数間の階層的依存を捉える深い指数族、深い確率モデルに基づいて構築される。 CDEF は DEF の重み付けによって自由パラメータの数を大幅に削減する。 実験の結果,CDEFは少量のデータと時間相関を明らかにすることができることがわかった。

We describe convolutional deep exponential families (CDEFs) in this paper. CDEFs are built based on deep exponential families, deep probabilistic models that capture the hierarchical dependence between latent variables. CDEFs greatly reduce the number of free parameters by tying the weights of DEFs. Our experiments show that CDEFs are able to uncover time correlations with a small amount of data.
翻訳日:2021-10-29 14:17:21 公開日:2021-10-27
# ルート対数正規化器による最小量子と半対数レグレット

Minimax Optimal Quantile and Semi-Adversarial Regret via Root-Logarithmic Regularizers ( http://arxiv.org/abs/2110.14804v1 )

ライセンス: Link先を確認
Jeffrey Negrea, Blair Bilodeau, Nicol\`o Campolongo, Francesco Orabona, Daniel M. Roy(参考訳) 通常のHedge(Chaudhuri、Freund、Hsu 2009)やその変種(Hsu 2009)によって達成されたような(そしてより一般的にはKL)後悔の限界は、最も優れた個人専門家と競合する目標を緩和し、敵対的なデータに関して多くの専門家と競合するのみである。 最近では、半対人パラダイム(Bilodeau、Negrea、Roy 2020)は、完全な対人的でも確率的でもないデータ(すなわちd)を考慮して、対人的オンライン学習の代替緩和を提供する。 分離された新規な根対数正規化器を持つftrlを用いて,両方のパラダイムにおいて最小の最適後悔を達成し,どちらも正規化の変種と解釈できる。 既存のkl 後悔上限を目標分布に対して均一に保持し、任意の事前を持つ非可算なエキスパートクラスに拡張し、有限のエキスパートクラス(厳密なクラス)に対する量的後悔に対する最初の全情報下限を提供し、真の未知の制約に適応し、既存のメソッドに対して一様に改善される半敵パラダイムに対して適応的に最小化された最適アルゴリズムを提供する。

Quantile (and, more generally, KL) regret bounds, such as those achieved by NormalHedge (Chaudhuri, Freund, and Hsu 2009) and its variants, relax the goal of competing against the best individual expert to only competing against a majority of experts on adversarial data. More recently, the semi-adversarial paradigm (Bilodeau, Negrea, and Roy 2020) provides an alternative relaxation of adversarial online learning by considering data that may be neither fully adversarial nor stochastic (i.i.d.). We achieve the minimax optimal regret in both paradigms using FTRL with separate, novel, root-logarithmic regularizers, both of which can be interpreted as yielding variants of NormalHedge. We extend existing KL regret upper bounds, which hold uniformly over target distributions, to possibly uncountable expert classes with arbitrary priors; provide the first full-information lower bounds for quantile regret on finite expert classes (which are tight); and provide an adaptively minimax optimal algorithm for the semi-adversarial paradigm that adapts to the true, unknown constraint faster, leading to uniformly improved regret bounds over existing methods.
翻訳日:2021-10-29 14:17:17 公開日:2021-10-27
# NERのための現実的なシングルタスク連続学習研究に向けて

Towards Realistic Single-Task Continuous Learning Research for NER ( http://arxiv.org/abs/2110.14694v1 )

ライセンス: Link先を確認
Justin Payan, Yuval Merhav, He Xie, Satyapriya Krishna, Anil Ramakrishna, Mukund Sridhar, Rahul Gupta(参考訳) データプライバシが現実の機械学習アプリケーションにとって最優先事項になりつつあるため、継続的学習(CL)への関心が高まっている。 一方、現実的なCL設定に適用可能な学術的なNLPベンチマークがまだ存在しないため、この分野の発展の大きな課題である。 本稿では、公開データセットの非現実的なデータ特性について論じ、現実的な単一タスク連続学習の課題と、精度損失を軽減する手段としてのデータリハーサルの有効性について考察する。 我々は、既存の公開データセットからCL NERデータセットを構築し、コードとともに研究コミュニティにリリースする。

There is an increasing interest in continuous learning (CL), as data privacy is becoming a priority for real-world machine learning applications. Meanwhile, there is still a lack of academic NLP benchmarks that are applicable for realistic CL settings, which is a major challenge for the advancement of the field. In this paper we discuss some of the unrealistic data characteristics of public datasets, study the challenges of realistic single-task continuous learning as well as the effectiveness of data rehearsal as a way to mitigate accuracy loss. We construct a CL NER dataset from an existing publicly available dataset and release it along with the code to the research community.
翻訳日:2021-10-29 13:43:25 公開日:2021-10-27
# 潜在的ハザードとしての異常検出:データセットとベンチマーク

Sensing Anomalies as Potential Hazards: Datasets and Benchmarks ( http://arxiv.org/abs/2110.14706v1 )

ライセンス: Link先を確認
Dario Mantegazza (1), Carlos Redondo (2), Fran Espada (2), Luca M. Gambardella (1), Alessandro Giusti (1) and J\'er\^ome Guzzi (1) ((1) Dalle Molle Institute for Artificial Intelligence (IDSIA), USI-SUPSI, Lugano, Switzerland,(2) Hovering Solutions Ltd, Madrid, Spain)(参考訳) 我々は,自律移動ロボットの視覚センシングデータストリームにおいて,類似環境におけるロボットのこれまでの経験に対して異常な意味的パターン(すなわち異常)を検出する問題を考える。 これらの異常は予期せぬ危険を示し、失敗がコストがかかるシナリオでは、回避行動を引き起こすために使用することができる。 ロボット探索のシナリオで得られた3つの新しい画像ベースのデータセットを,200万以上のラベル付きフレームで構成され,さまざまな種類の異常にまたがる。 これらのデータセットを用いて,異なるスケールで動作するオートエンコーダに基づく異常検出手法の性能について検討した。

We consider the problem of detecting, in the visual sensing data stream of an autonomous mobile robot, semantic patterns that are unusual (i.e., anomalous) with respect to the robot's previous experience in similar environments. These anomalies might indicate unforeseen hazards and, in scenarios where failure is costly, can be used to trigger an avoidance behavior. We contribute three novel image-based datasets acquired in robot exploration scenarios, comprising a total of more than 200k labeled frames, spanning various types of anomalies. On these datasets, we study the performance of an anomaly detection approach based on autoencoders operating at different scales.
翻訳日:2021-10-29 13:43:15 公開日:2021-10-27
# セルフ・スーパービジョンとFew-Shot物体検出に関する調査

A Survey of Self-Supervised and Few-Shot Object Detection ( http://arxiv.org/abs/2110.14711v1 )

ライセンス: Link先を確認
Gabriel Huang, Issam Laradji, David Vazquez, Simon Lacoste-Julien, Pau Rodriguez(参考訳) 画像の濃密なラベル付けを必要とするオブジェクト検出やインスタンスセグメンテーションといったタスクにおいて、ラベル付けデータは高価で時間を要することが多い。 少数ショットのオブジェクト検出は、少ないデータで新しい(未熟な)オブジェクトクラスでモデルをトレーニングすることですが、それでもベース(seen)クラスのラベル付き例の多くの事前トレーニングが必要です。 一方、自己教師型手法は、オブジェクト検出などの下流タスクにうまく転送されるラベルのないデータから表現を学習することを目的としている。 少数ショットと自己監督型オブジェクト検出の組み合わせは、有望な研究方向である。 本調査では, 少数ショットおよび自己監督型物体検出における最新のアプローチをレビューし, 特徴付ける。 そして、まず第一に、今後の研究の方向性について論じる。

Labeling data is often expensive and time-consuming, especially for tasks such as object detection and instance segmentation, which require dense labeling of the image. While few-shot object detection is about training a model on novel (unseen) object classes with little data, it still requires prior training on many labeled examples of base (seen) classes. On the other hand, self-supervised methods aim at learning representations from unlabeled data which transfer well to downstream tasks such as object detection. Combining few-shot and self-supervised object detection is a promising research direction. In this survey, we review and characterize the most recent approaches on few-shot and self-supervised object detection. Then, we give our main takeaways and discuss future research directions.
翻訳日:2021-10-29 13:42:41 公開日:2021-10-27
# 保護特性のアルゴリズム的符号化とその部分群間の差異への影響

Algorithmic encoding of protected characteristics and its implications on disparities across subgroups ( http://arxiv.org/abs/2110.14755v1 )

ライセンス: Link先を確認
Ben Glocker and Stefan Winzeck(参考訳) 臨床意思決定におけるAIの使用は、健康格差を増幅する可能性があると、正しく強調されている。 機械学習モデルは、例えば患者の人種的アイデンティティと臨床結果との間の望ましくない相関関係を拾うことができる。 このような相関は、モデル開発に使用される(歴史的)データにしばしば存在する。 患者サブグループ間で疾患検出モデルのバイアスを報告している研究が増えている。 人口不足によるデータの不足に加えて、これらのバイアスがどのようにコード化され、どのように異なるパフォーマンスを減らしたり、あるいは取り除いたりするかについては、ほとんど分かっていない。 アルゴリズムは、生物学的性や人種的アイデンティティなどの患者の特徴を認識し、予測を行う際に直接的または間接的にこの情報を使用するのではないかという憶測がある。 しかし、その情報が実際にどのように使われているかは定かではない。 本稿は、画像に基づく疾患検出のための機械学習モデルの内部動作を直感的に検査できる新しい方法論を探求することで、これらの問題に光を当てることを目的としている。 また,患者特性の自動予測を活用し,サブグループ間での真偽陽性率と偽陽性率を比較検討した。 我々の発見は、AIの安全と倫理的利用に関する議論を刺激するかもしれない。

It has been rightfully emphasized that the use of AI for clinical decision making could amplify health disparities. A machine learning model may pick up undesirable correlations, for example, between a patient's racial identity and clinical outcome. Such correlations are often present in (historical) data used for model development. There has been an increase in studies reporting biases in disease detection models across patient subgroups. Besides the scarcity of data from underserved populations, very little is known about how these biases are encoded and how one may reduce or even remove disparate performance. There is some speculation whether algorithms may recognize patient characteristics such as biological sex or racial identity, and then directly or indirectly use this information when making predictions. But it remains unclear how we can establish whether such information is actually used. This article aims to shed some light on these issues by exploring new methodology allowing intuitive inspections of the inner working of machine learning models for image-based detection of disease. We also evaluate an effective yet debatable technique for addressing disparities leveraging the automatic prediction of patient characteristics, resulting in models with comparable true and false positive rates across subgroups. Our findings may stimulate the discussion about safe and ethical use of AI.
翻訳日:2021-10-29 13:42:28 公開日:2021-10-27
# トランスフォーマーを用いた音声・書き起こしからの認知症検出

Detecting Dementia from Speech and Transcripts using Transformers ( http://arxiv.org/abs/2110.14769v1 )

ライセンス: Link先を確認
Loukas Ilias, Dimitris Askounis, John Psarras(参考訳) アルツハイマー病(英語: Alzheimer's disease, AD)は、治療法がないため早期に診断されない場合、日常生活に深刻な影響を与える神経変性疾患である。 認知症診断のための検査コスト、すなわち磁気共鳴画像(mri)、脳波(eeg)信号など、現在の研究は、認知症を自発的な言語から診断することに焦点を当てている。 しかし、Log-Melスペクトルとメル周波数ケプストラム係数(MFCC)への音声データの変換や事前訓練されたモデルの使用についてはほとんど研究されていない。 同時に、トランスフォーマーネットワークの使用法と、音声と文字起こしという2つのモダリティを1つのニューラルネットワークで組み合わせる方法については、ほとんど研究されていない。 これらの制限に対処するために,まずは視覚トランスフォーマー (vit) を用いて事前学習したモデルをいくつか採用し,最も高い評価結果を得た。 次に,マルチモーダルモデルを提案する。 より具体的には、最終分類に対する各モードの影響を制御し、2つのモード間の関係を効果的に把握するために、Gated Multimodal Unitを含む。 ADReSS Challengeデータセットで実施された大規模な実験は、提案したモデルの有効性と最先端アプローチよりも優れていることを実証している。

Alzheimer's disease (AD) constitutes a neurodegenerative disease with serious consequences to peoples' everyday lives, if it is not diagnosed early since there is no available cure. Because of the cost of examinations for diagnosing dementia, i.e., Magnetic Resonance Imaging (MRI), electroencephalogram (EEG) signals etc., current work has been focused on diagnosing dementia from spontaneous speech. However, little work has been done regarding the conversion of speech data to Log-Mel spectrograms and Mel-frequency cepstral coefficients (MFCCs) and the usage of pretrained models. Concurrently, little work has been done in terms of both the usage of transformer networks and the way the two modalities, i.e., speech and transcripts, are combined in a single neural network. To address these limitations, first we employ several pretrained models, with Vision Transformer (ViT) achieving the highest evaluation results. Secondly, we propose multimodal models. More specifically, our introduced models include Gated Multimodal Unit in order to control the influence of each modality towards the final classification and crossmodal attention so as to capture in an effective way the relationships between the two modalities. Extensive experiments conducted on the ADReSS Challenge dataset demonstrate the effectiveness of the proposed models and their superiority over state-of-the-art approaches.
翻訳日:2021-10-29 13:40:40 公開日:2021-10-27
# BI-GCN:バイオメディカルイメージセグメンテーションのための境界対応入力依存グラフ畳み込みネットワーク

BI-GCN: Boundary-Aware Input-Dependent Graph Convolution Network for Biomedical Image Segmentation ( http://arxiv.org/abs/2110.14775v1 )

ライセンス: Link先を確認
Yanda Meng, Hongrun Zhang, Dongxu Gao, Yitian Zhao, Xiaoyun Yang, Xuesheng Qian, Xiaowei Huang, Yalin Zheng(参考訳) セグメンテーションは画像処理の重要な操作である。 畳み込み操作は限られた受容領域に苦しむが、グローバルモデリングはセグメンテーションタスクの基本である。 本稿では,グラフ畳み込みをセグメンテーションタスクに適用し,改良された \textit{laplacian} を提案する。 既存の方法とは違って,データ依存型であり,2つの注意対角行列を導入して,より良い頂点関係を学習する。 さらに、グラフベースの情報伝達を行う際に、領域情報と境界情報の両方を利用する。 具体的には,様々な領域にまたがる長距離意味的推論を操作できるグラフ表現を学習することで,異なるクラスの境界を認識できる領域的相関をモデル化し,推論する。 本モデルは,局所空間境界特性を同時に備えつつ,グローバルな意味領域情報を得るのに適したモデルである。 2種類の挑戦的データセットの実験により,大腸内視鏡像におけるポリープのセグメンテーション,およびカラーフロス画像における光学ディスクと光学カップの最先端のアプローチよりも優れた結果が得られた。

Segmentation is an essential operation of image processing. The convolution operation suffers from a limited receptive field, while global modelling is fundamental to segmentation tasks. In this paper, we apply graph convolution into the segmentation task and propose an improved \textit{Laplacian}. Different from existing methods, our \textit{Laplacian} is data-dependent, and we introduce two attention diagonal matrices to learn a better vertex relationship. In addition, it takes advantage of both region and boundary information when performing graph-based information propagation. Specifically, we model and reason about the boundary-aware region-wise correlations of different classes through learning graph representations, which is capable of manipulating long range semantic reasoning across various regions with the spatial enhancement along the object's boundary. Our model is well-suited to obtain global semantic region information while also accommodates local spatial boundary characteristics simultaneously. Experiments on two types of challenging datasets demonstrate that our method outperforms the state-of-the-art approaches on the segmentation of polyps in colonoscopy images and of the optic disc and optic cup in colour fundus images.
翻訳日:2021-10-29 13:40:15 公開日:2021-10-27
# モーメントコントラスト型自己監督学習における中間層

Intermediate Layers Matter in Momentum Contrastive Self Supervised Learning ( http://arxiv.org/abs/2110.14805v1 )

ライセンス: Link先を確認
Aakash Kaku, Sahana Upadhya, Narges Razavian(参考訳) 自己教師付き学習において,画像の2つの拡張版を中間層で表現することで,モーメントコントラスト(MoCo)法の改善が期待できることを示す。 この目的のために、コントラスト損失に加えて、中間層表現間の平均二乗誤差を最小化し、それらの相互相関行列を等式行列に近づける。 どちらの損失目標も標準のMoCoより優れているか、NIH-Chest Xrays、乳癌組織学、糖尿病網膜症という3つの多様な医療画像データセットで同様のパフォーマンスを達成する。 改良されたMoCoのゲインは、低ラベルのデータレギュレーション(例えば1%ラベル付きデータ)において特に大きく、3つのデータセットの平均ゲインは5%である。 我々は,特徴類似性解析と層間探索により,新しい手法で学習したモデルを解析した。 分析の結果,本手法によりトレーニングしたモデルは,標準的なMoCoに比べて高い機能再利用率を示し,ネットワークの早期に情報的特徴を学習する。 最後に,小・大規模ラベル付きデータに微調整されたモデルの出力確率分布を比較することにより,提案手法が標準MoCoと比較してコルモゴロフ-スミルノフ距離を低くすることを示した。 これにより,提案手法は,低ラベルデータ方式で活用可能な事前学習フェーズにおいて,より情報的な特徴を学習できることを示す。

We show that bringing intermediate layers' representations of two augmented versions of an image closer together in self-supervised learning helps to improve the momentum contrastive (MoCo) method. To this end, in addition to the contrastive loss, we minimize the mean squared error between the intermediate layer representations or make their cross-correlation matrix closer to an identity matrix. Both loss objectives either outperform standard MoCo, or achieve similar performances on three diverse medical imaging datasets: NIH-Chest Xrays, Breast Cancer Histopathology, and Diabetic Retinopathy. The gains of the improved MoCo are especially large in a low-labeled data regime (e.g. 1% labeled data) with an average gain of 5% across three datasets. We analyze the models trained using our novel approach via feature similarity analysis and layer-wise probing. Our analysis reveals that models trained via our approach have higher feature reuse compared to a standard MoCo and learn informative features earlier in the network. Finally, by comparing the output probability distribution of models fine-tuned on small versus large labeled data, we conclude that our proposed method of pre-training leads to lower Kolmogorov-Smirnov distance, as compared to a standard MoCo. This provides additional evidence that our proposed method learns more informative features in the pre-training phase which could be leveraged in a low-labeled data regime.
翻訳日:2021-10-29 13:39:54 公開日:2021-10-27
# (参考訳) BioGrad:スパイクニューラルネットワークのための生物学的にプラズブルな勾配学習 [全文訳有]

BioGrad: Biologically Plausible Gradient-Based Learning for Spiking Neural Networks ( http://arxiv.org/abs/2110.14092v1 )

ライセンス: CC BY 4.0
Guangzhi Tang, Neelesh Kumar, Ioannis Polykretis, Konstantinos P. Michmizos(参考訳) スパイキングニューラルネットワーク(SNN)は、新たなニューロモルフィックチップによって促進される、AI問題に対するエネルギー効率、大規模並列、低レイテンシソリューションを提供する。 これらの計算の利点を利用するには、SNNは脳にインスパイアされたニューロモルフィックの原則、すなわちイベントベース、ローカル、オンラインの計算に準拠する学習アルゴリズムによって訓練される必要がある。 しかし、最先端のSNNトレーニングアルゴリズムは、上記の原則に従わないバックプロップに基づいている。 生物学的確率が限られているため、バックプロップをSNNに適用するには、連続的な値の誤差を伝達するために非局所的なフィードバック経路が必要である。 バックプロップの生物学的に妥当な修正の導入は、いくつかの制限を克服する助けとなったが、バックプロップが近似される程度が制限され、性能が損なわれた。 本稿では,3つの神経型原理を順守しつつ,機能的にバックプロップと等価なSNNのための生物学的に妥当な勾配に基づく学習アルゴリズムを提案する。 学習に必要な勾配を計算するために,局所的適性トレースを持つマルチコンパートメントスパイキングニューロンと,局所的なヘビアン則がフィードバックとフィードフォワードウェイトを整合するバックプロップの近似をさらに改善するための周期的"スリープ"フェーズを導入した。 mnist (98.13%) とイベントベースのn-mnist (97.59%) データセット上でのマルチ層完全接続snnとバックプロップと同等の性能を達成した。 学習アルゴリズムをIntelのLoihiにデプロイし、MNIST用の1層ネットワークをトレーニングし、93.32%のテスト精度を得たが、GPU上のBioGradの400倍のエネルギーを消費した。 我々の研究は、ニューロモルフィックコンピューティングにおいて最適な学習が実現可能であることを示し、その生物学的な妥当性を追求することで、この新興コンピューティングパラダイムの利点をよりよく捉えることができることを示した。

Spiking neural networks (SNN) are delivering energy-efficient, massively parallel, and low-latency solutions to AI problems, facilitated by the emerging neuromorphic chips. To harness these computational benefits, SNN need to be trained by learning algorithms that adhere to brain-inspired neuromorphic principles, namely event-based, local, and online computations. Yet, the state-of-the-art SNN training algorithms are based on backprop that does not follow the above principles. Due to its limited biological plausibility, the application of backprop to SNN requires non-local feedback pathways for transmitting continuous-valued errors, and relies on gradients from future timesteps. The introduction of biologically plausible modifications to backprop has helped overcome several of its limitations, but limits the degree to which backprop is approximated, which hinders its performance. We propose a biologically plausible gradient-based learning algorithm for SNN that is functionally equivalent to backprop, while adhering to all three neuromorphic principles. We introduced multi-compartment spiking neurons with local eligibility traces to compute the gradients required for learning, and a periodic "sleep" phase to further improve the approximation to backprop during which a local Hebbian rule aligns the feedback and feedforward weights. Our method achieved the same level of performance as backprop with multi-layer fully connected SNN on MNIST (98.13%) and the event-based N-MNIST (97.59%) datasets. We deployed our learning algorithm on Intel's Loihi to train a 1-hidden-layer network for MNIST, and obtained 93.32% test accuracy while consuming 400 times less energy per training sample than BioGrad on GPU. Our work shows that optimal learning is feasible in neuromorphic computing, and further pursuing its biological plausibility can better capture the benefits of this emerging computing paradigm.
翻訳日:2021-10-29 06:42:17 公開日:2021-10-27
# (参考訳) 学習によるk$-meansクラスタリング

Learning-Augmented $k$-means Clustering ( http://arxiv.org/abs/2110.14094v1 )

ライセンス: CC BY 4.0
Jon Ergun, Zhili Feng, Sandeep Silwal, David P. Woodruff, Samson Zhou(参考訳) k$-meansクラスタリングは広く適用可能なため、よく研究されている問題である。 残念なことに、最悪の入力に対する$k$-means問題に対するアルゴリズムの性能には強い理論的制限がある。 この障壁を克服するために、クラスタリングの実行を支援する"アドバイス"を提供するシナリオを検討します。 特に、k$-means問題は、任意の時点において、そのクラスタラベルをほぼ最適のクラスタリングで返却する(おそらくは逆)という予測子によって拡張されている。 高精度予測器に追従したna\"{i}velyがクラスタリングコストを上昇させる可能性があるが,予測器の精度とともに性能が向上するアルゴリズムを提案する。 したがって、予測器が十分正確であれば、ほぼ最適な実行時間で、そのようなアドバイスにアクセスできないアルゴリズムの既知の計算障壁を破り、最適なクラスタリングを得られる。 アルゴリズムを実際のデータセット上で評価し,クラスタリングのクオリティが大幅に向上したことを示す。

$k$-means clustering is a well-studied problem due to its wide applicability. Unfortunately, there exist strong theoretical limits on the performance of any algorithm for the $k$-means problem on worst-case inputs. To overcome this barrier, we consider a scenario where "advice" is provided to help perform clustering. Specifically, we consider the $k$-means problem augmented with a predictor that, given any point, returns its cluster label in an approximately optimal clustering up to some, possibly adversarial, error. We present an algorithm whose performance improves along with the accuracy of the predictor, even though na\"{i}vely following the accurate predictor can still lead to a high clustering cost. Thus if the predictor is sufficiently accurate, we can retrieve a close to optimal clustering with nearly optimal runtime, breaking known computational barriers for algorithms that do not have access to such advice. We evaluate our algorithms on real datasets and show significant improvements in the quality of clustering.
翻訳日:2021-10-29 06:26:56 公開日:2021-10-27
# (参考訳) eigencurve:歪ヘッシアンスペクトルを持つ二次目的に対するsgdの最適学習率スケジュール

Eigencurve: Optimal Learning Rate Schedule for SGD on Quadratic Objectives with Skewed Hessian Spectrums ( http://arxiv.org/abs/2110.14109v1 )

ライセンス: CC BY 4.0
Rui Pan, Haishan Ye, Tong Zhang(参考訳) 学習速度スケジューラはディープニューラルネットワークのトレーニングに広く採用されている。 その実践的重要性にもかかわらず、その実践と理論分析の間には相違点がある。 例えば、二次目的の最適化のような単純な問題であっても、sgdのスケジュールが最良の収束を達成するかは分かっていない。 これまでのところ、ステップ減衰はこの設定下で最も強力な候補の1つであり、$\co(\log t)$ gap とほぼ最適であることが証明されている。 しかし、我々の分析によれば、このギャップは幅広い設定で$\omega(\log t)$であることが判明し、スケジュールの最適性の問題が再びオープン質問になってしまう。 そこで本稿では,2次対象に対するsgdの最適収束率(定数まで)を最小化できる最初の学習率スケジュールであるeigencurveを提案する。 その状態は実際は非常に一般的です。 実験の結果,特にエポック数が少ない場合には,CIFAR-10上の画像分類タスクにおいて,Eigencurveはステップ崩壊を著しく上回ることがわかった。 さらに、この理論はEigencurveを近似できる実用的な応用のための2つの単純な学習率スケジューラを刺激する。 いくつかの問題に対して、提案されたスケジューラの最適形状はコサイン崩壊の形状に似ており、コサイン崩壊の成功に光を当てている。 他の状況では、提案したスケジューラはコサイン崩壊よりも優れている。

Learning rate schedulers have been widely adopted in training deep neural networks. Despite their practical importance, there is a discrepancy between its practice and its theoretical analysis. For instance, it is not known what schedules of SGD achieve best convergence, even for simple problems such as optimizing quadratic objectives. So far, step decay has been one of the strongest candidates under this setup, which is proved to be nearly optimal with a $\cO(\log T)$ gap. However, according to our analysis, this gap turns out to be $\Omega(\log T)$ in a wide range of settings, which throws the schedule optimality problem into an open question again. Towards answering this reopened question, in this paper, we propose Eigencurve, the first family of learning rate schedules that can achieve minimax optimal convergence rates (up to a constant) for SGD on quadratic objectives when the eigenvalue distribution of the underlying Hessian matrix is skewed. The condition is quite common in practice. Experimental results show that Eigencurve can significantly outperform step decay in image classification tasks on CIFAR-10, especially when the number of epochs is small. Moreover, the theory inspires two simple learning rate schedulers for practical applications that can approximate Eigencurve. For some problems, the optimal shape of the proposed schedulers resembles that of cosine decay, which sheds light to the success of cosine decay for such situations. For other situations, the proposed schedulers are superior to cosine decay.
翻訳日:2021-10-29 06:26:04 公開日:2021-10-27
# (参考訳) マイニング周波数に基づくシーケンシャルトラジェクトリーコクラスタ [全文訳有]

Mining frequency-based sequential trajectory co-clusters ( http://arxiv.org/abs/2110.14110v1 )

ライセンス: CC BY 4.0
Yuri Santos, J\^onata Tyska, Vania Bogorny(参考訳) 共クラスタリング(co-clustering)は、すべての属性を考慮せずに、オブジェクトのグループを見つける問題に対処する、特定のタイプのクラスタリングである。 この手法は、従来のクラスタリングよりも高次元スパースデータにおいてより一貫性のある結果を示す。 トラジェクトリ・コクラスタリング(英語版)において、文献に見られる方法には2つの主な制限がある: 第一に、空間と時間次元は、ユーザ定義のしきい値によって制約されなければならない;第二に、要素(軌道点)は、それぞれの点が独立であると仮定して、トラジェクトリ・シーケンスを無視してクラスタ化される。 上記の制約に対処するために, 意味軌道共クラスタをマイニングするための新しい軌道共クラスタ化手法を提案する。 同時に、それらが現れる順序を考慮に入れた軌道とその要素をまとめる。 本手法では,候補クラスタの同定に要素周波数を用いる。 さらに、共クラスタプロセスを自動的に駆動する客観的コスト関数を使用し、次元を制約する必要性を回避する。 提案手法を実世界の公開データセットを用いて評価する。 実験の結果,本提案手法は移動パターンを明らかにするために,頻繁かつ有意義な連続配列を見出した。

Co-clustering is a specific type of clustering that addresses the problem of finding groups of objects without necessarily considering all attributes. This technique has shown to have more consistent results in high-dimensional sparse data than traditional clustering. In trajectory co-clustering, the methods found in the literature have two main limitations: first, the space and time dimensions have to be constrained by user-defined thresholds; second, elements (trajectory points) are clustered ignoring the trajectory sequence, assuming that the points are independent among them. To address the limitations above, we propose a new trajectory co-clustering method for mining semantic trajectory co-clusters. It simultaneously clusters the trajectories and their elements taking into account the order in which they appear. This new method uses the element frequency to identify candidate co-clusters. Besides, it uses an objective cost function that automatically drives the co-clustering process, avoiding the need for constraining dimensions. We evaluate the proposed approach using real-world a publicly available dataset. The experimental results show that our proposal finds frequent and meaningful contiguous sequences revealing mobility patterns, thereby the most relevant elements.
翻訳日:2021-10-29 06:24:32 公開日:2021-10-27
# (参考訳) 頭部衝撃の異なる種類の主成分分析による脳動力学のデータ駆動分解 [全文訳有]

Data-driven decomposition of brain dynamics with principal component analysis in different types of head impacts ( http://arxiv.org/abs/2110.14116v1 )

ライセンス: CC BY 4.0
Xianghao Zhan, Yuzhe Liu, Nicholas J. Cecchi, Olivier Gevaert, Michael M. Zeineh, Gerald A. Grant, David B. Camarillo(参考訳) ひずみとひずみ速度は外傷性脳損傷の予測因子である。 これらのメトリクスを推定するキネマティクスベースのモデルは、キネマティクスと頭部衝撃タイプのケガメトリクスの両方のかなり異なる分布に苦しむ。 これに対処するために、以前の研究はキネマティックスにフォーカスしているが、ケガの指標ではない。 運動学的特徴は頭部の衝撃の種類によって大きく異なり、脳の変形のパターンも様々である。 本研究では,脳の変形の空間分布を分析し,損傷指標(MPS),MPS速度(MPSR),MPSXMPSR)を4種類のインパクトタイプ(シミュレーション,フットボール,混合格闘技,カークラッシュ)で抽出するために主成分分析(PCA)を適用した。 本研究はPCAを用いて、各衝撃の種類ごとの損傷指標のパターンを分解し、第1主成分(PC1)を用いて脳領域の分布を調査する。 さらに,pc1を予測し,すべての脳要素を逆変換して予測するdeep learning head model(dlhm)を開発した。 PC1はデータセットの80%のばらつきを説明した。 PC1係数に基づいて、コーパスカロサムとミドルブレインは全てのデータセットに高いばらつきを示す。 以上の結果から,MPSXMPSRが最も敏感な測定値であり,重度影響の上位5%が平均値から逸脱し,重度影響のばらつきが大きいことがわかった。 最後に、DLHMはMPSでは0.018、MPSRでは<3.7 (1/s)、MPSXMPSRでは<1.1 (1/s)の絶対誤差に達した。 データセットの脳損傷測定値は平均成分に分解でき、PC1は説明可能なばらつきが高い。 脳のダイナミックス分解は、脳損傷メトリクスのパターンのより良い解釈と、脳損傷メトリクスの衝撃タイプに対する感度を可能にします。 この分解によりDLHMの次元性も低下する。

Strain and strain rate are effective traumatic brain injury predictors. Kinematics-based models estimating these metrics suffer from significant different distributions of both kinematics and the injury metrics across head impact types. To address this, previous studies focus on the kinematics but not the injury metrics. We have previously shown the kinematic features vary largely across head impact types, resulting in different patterns of brain deformation. This study analyzes the spatial distribution of brain deformation and applies principal component analysis (PCA) to extract the representative patterns of injury metrics (maximum principal strain (MPS), MPS rate (MPSR) and MPSXMPSR) in four impact types (simulation, football, mixed martial arts and car crashes). We apply PCA to decompose the patterns of the injury metrics for all impacts in each impact type, and investigate the distributions among brain regions using the first principal component (PC1). Furthermore, we developed a deep learning head model (DLHM) to predict PC1 and then inverse-transform to predict for all brain elements. PC1 explained >80% variance on the datasets. Based on PC1 coefficients, the corpus callosum and midbrain exhibit high variance on all datasets. We found MPSXMPSR the most sensitive metric on which the top 5% of severe impacts further deviates from the mean and there is a higher variance among the severe impacts. Finally, the DLHM reached mean absolute errors of <0.018 for MPS, <3.7 (1/s) for MPSR and <1.1 (1/s) for MPSXMPSR, much smaller than the injury thresholds. The brain injury metric in a dataset can be decomposed into mean components and PC1 with high explained variance. The brain dynamics decomposition enables better interpretation of the patterns in brain injury metrics and the sensitivity of brain injury metrics across impact types. The decomposition also reduces the dimensionality of DLHM.
翻訳日:2021-10-29 06:10:09 公開日:2021-10-27
# (参考訳) ScaleCert: 少ない表面層を持つ敵パッチに対するスケーラブルな認証防御 [全文訳有]

ScaleCert: Scalable Certified Defense against Adversarial Patches with Sparse Superficial Layers ( http://arxiv.org/abs/2110.14120v1 )

ライセンス: CC BY 4.0
Husheng Han, Kaidi Xu, Xing Hu, Xiaobing Chen, Ling Liang, Zidong Du, Qi Guo, Yanzhi Wang, Yunji Chen(参考訳) 入力画像の限られた領域にピクセルを描画する敵パッチ攻撃は、ノイズや変形があっても物理的環境において強力な攻撃効果を示す。 既存の敵パッチ攻撃に対する認証された防御は、MNISTやCIFAR-10データセットのような小さなイメージではうまく機能するが、ImageNetのような高解像度画像では、非常に低い精度で達成できる。 業界レベルの大きな画像に対して、このような実用的かつ有害な攻撃に対して、堅牢かつ効果的な防御をデザインすることが急務である。 本研究では,高精細度画像の堅牢性を実現し,その実用性を大幅に向上させる認証防衛手法を提案する。 我々の研究の基本的な洞察は、敵のパッチが局所的な表面重要なニューロン(SIN)を利用して予測結果を操作することである。 そこで我々は,SINに基づくDNN圧縮技術を利用して,逆領域探索のオーバーヘッドを低減し,予測ノイズをフィルタリングすることにより,認証精度を大幅に向上する。 実験の結果、認証精度は、ImageNetデータセット上で36.3%(最先端の認証検出)から60.4%に向上し、認証された防御を実用化するために大きく推し進めた。

Adversarial patch attacks that craft the pixels in a confined region of the input images show their powerful attack effectiveness in physical environments even with noises or deformations. Existing certified defenses towards adversarial patch attacks work well on small images like MNIST and CIFAR-10 datasets, but achieve very poor certified accuracy on higher-resolution images like ImageNet. It is urgent to design both robust and effective defenses against such a practical and harmful attack in industry-level larger images. In this work, we propose the certified defense methodology that achieves high provable robustness for high-resolution images and largely improves the practicality for real adoption of the certified defense. The basic insight of our work is that the adversarial patch intends to leverage localized superficial important neurons (SIN) to manipulate the prediction results. Hence, we leverage the SIN-based DNN compression techniques to significantly improve the certified accuracy, by reducing the adversarial region searching overhead and filtering the prediction noises. Our experimental results show that the certified accuracy is increased from 36.3% (the state-of-the-art certified detection) to 60.4% on the ImageNet dataset, largely pushing the certified defenses for practical use.
翻訳日:2021-10-29 05:45:39 公開日:2021-10-27
# (参考訳) SAR画像分類のための物理的説明可能なCNN [全文訳有]

Physically Explainable CNN for SAR Image Classification ( http://arxiv.org/abs/2110.14144v1 )

ライセンス: CC BY 4.0
Zhongling Huang, Xiwen Yao, Corneliu Octavian Dumitru, Mihai Datcu, Junwei Han(参考訳) 深層ニューラルネットワークにおけるSAR(Synthetic Aperture Radar)の特殊電磁特性の統合は、深層学習の説明可能性と物理認識を高めるために不可欠である。 本稿ではまず,SAR画像分類のための新しい物理誘導型ニューラルネットワークを提案する。 提案フレームワークは,(1)既存の説明可能なモデルを用いて物理誘導信号を生成すること,(2)物理誘導ネットワークを用いた物理認識特徴を学習すること,(3)従来の分類深層学習モデルに適応的に物理認識特徴を注入すること,からなる。 本稿では,SAR画像パッチのセマンティックラベルを理解する上で,より理解しやすい物理認識特徴の形で,SARの物理散乱特性を深部ニューラルネットワークに注入する。 ハイブリッド画像物理SARデータセットフォーマットを提案し,Sentinel-1とGaofen-3のSARデータを用いて評価を行った。 実験の結果,提案手法はcnnに比べて分類性能が大幅に向上することがわかった。 また, 説明可能な物理信号の指導は, 物理認識特性の説明可能性をもたらし, 特徴の物理一貫性も予測に残されている。 提案手法は,SAR画像解釈分野における物理的に説明可能な深層学習の開発を促進すると考えられる。

Integrating the special electromagnetic characteristics of Synthetic Aperture Radar (SAR) in deep neural networks is essential in order to enhance the explainability and physics awareness of deep learning. In this paper, we firstly propose a novel physics guided and injected neural network for SAR image classification, which is mainly guided by explainable physics models and can be learned with very limited labeled data. The proposed framework comprises three parts: (1) generating physics guided signals using existing explainable models, (2) learning physics-aware features with physics guided network, and (3) injecting the physics-aware features adaptively to the conventional classification deep learning model for prediction. The prior knowledge, physical scattering characteristic of SAR in this paper, is injected into the deep neural network in the form of physics-aware features which is more conducive to understanding the semantic labels of SAR image patches. A hybrid Image-Physics SAR dataset format is proposed, and both Sentinel-1 and Gaofen-3 SAR data are taken for evaluation. The experimental results show that our proposed method substantially improve the classification performance compared with the counterpart data-driven CNN. Moreover, the guidance of explainable physics signals leads to explainability of physics-aware features and the physics consistency of features are also preserved in the predictions. We deem the proposed method would promote the development of physically explainable deep learning in SAR image interpretation field.
翻訳日:2021-10-29 05:27:33 公開日:2021-10-27
# (参考訳) dream to explore: 自律システムのための適応シミュレーション [全文訳有]

Dream to Explore: Adaptive Simulations for Autonomous Systems ( http://arxiv.org/abs/2110.14157v1 )

ライセンス: CC BY 4.0
Zahra Sheikhbahaee, Dongshu Luo, Blake VanBerlo, S. Alex Yun, Adam Safron, Jesse Hoey(参考訳) 監督なしに世界の生成モデルを学ぶ能力は、経験を一般化する抽象的な知識表現を構築することができる程度に依存する。 この目的のために、観測データから正確な統計構造を捉えることは、新しい環境に転送できる有用な誘導バイアスを与える。 本稿では,視覚サーボタスクの解法としてベイズ非パラメトリック法を適用することで,力学系を制御するための学習の問題に取り組む。 これは、まず状態空間の表現を学習し、次に環境力学を推論し、将来の想像軌道を通じてポリシーを改善することで達成される。 ベイズ非パラメトリックモデルは自動的なモデル適応を提供するため、戦闘が不適合で過度に適合するだけでなく、モデルの非有界次元を柔軟かつ計算的に牽引できる。 潜時世界力学の発見にガウス過程を用いることで、強化学習で観測される共通データ効率問題を緩和し、システムの力学を記述することで明確なモデルバイアスを発生させない。 本アルゴリズムは, 期待自由エネルギー最小化目的関数に対して, 対数同値の変分下限を最適化することにより, 世界モデルと政策を共同で学習する。 最後に,本モデルの性能をシミュレーション環境における連続制御タスクの最先端の代替品と比較する。

One's ability to learn a generative model of the world without supervision depends on the extent to which one can construct abstract knowledge representations that generalize across experiences. To this end, capturing an accurate statistical structure from observational data provides useful inductive biases that can be transferred to novel environments. Here, we tackle the problem of learning to control dynamical systems by applying Bayesian nonparametric methods, which is applied to solve visual servoing tasks. This is accomplished by first learning a state space representation, then inferring environmental dynamics and improving the policies through imagined future trajectories. Bayesian nonparametric models provide automatic model adaptation, which not only combats underfitting and overfitting, but also allows the model's unbounded dimension to be both flexible and computationally tractable. By employing Gaussian processes to discover latent world dynamics, we mitigate common data efficiency issues observed in reinforcement learning and avoid introducing explicit model bias by describing the system's dynamics. Our algorithm jointly learns a world model and policy by optimizing a variational lower bound of a log-likelihood with respect to the expected free energy minimization objective function. Finally, we compare the performance of our model with the state-of-the-art alternatives for continuous control tasks in simulated environments.
翻訳日:2021-10-29 05:02:43 公開日:2021-10-27
# (参考訳) 糖尿病網膜症におけるresnet-50の主要成分の同定 : 組織学的検討 [全文訳有]

Identifying the key components in ResNet-50 for diabetic retinopathy grading from fundus images: a systematic investigation ( http://arxiv.org/abs/2110.14160v1 )

ライセンス: CC BY 4.0
Yijin Huang, Li Lin, Pujin Cheng, Junyan Lyu, Xiaoying Tang(参考訳) 深層学習に基づく糖尿病網膜症(DR)分類法は通常、畳み込みニューラルネットワークのよく設計されたアーキテクチャの恩恵を受けるが、トレーニング設定は予測性能に無視できない影響を及ぼす。 トレーニング設定は、客観的機能、データサンプリング戦略、データ拡張アプローチなど、さまざまな相互依存コンポーネントを含む。 DRグレーディングのための標準ディープラーニングフレームワーク(ResNet-50)の主要なコンポーネントを特定するために,いくつかの主要コンポーネントの影響を系統的に解析する。 公開データセットEyePACSで大規模な実験を行う。 We demonstrate that (1) the ResNet-50 framework for DR grading is sensitive to input resolution, objective function, and composition of data augmentation, (2) using mean square error as the loss function can effectively improve the performance with respect to a task-specific evaluation metric, namely the quadratically-weight ed Kappa, (3) utilizing eye pairs boosts the performance of DR grading and (4) using data resampling to address the problem of imbalanced data distribution in EyePACS hurts the performance. これらの観測と研究対象コンポーネントの最適組み合わせに基づき,ネットワーク設計を一切行わずに画像レベルラベルのみのeyepacsテストセット(合計42670眼底画像)の最先端結果(kappa用0.8631)を達成する。 私たちのコードと事前訓練済みモデルはhttps://github.com/Y ijinHuang/pytorch-cl assificationで利用可能です。

Although deep learning based diabetic retinopathy (DR) classification methods typically benefit from well-designed architectures of convolutional neural networks, the training setting also has a non-negligible impact on the prediction performance. The training setting includes various interdependent components, such as objective function, data sampling strategy and data augmentation approach. To identify the key components in a standard deep learning framework (ResNet-50) for DR grading, we systematically analyze the impact of several major components. Extensive experiments are conducted on a publicly-available dataset EyePACS. We demonstrate that (1) the ResNet-50 framework for DR grading is sensitive to input resolution, objective function, and composition of data augmentation, (2) using mean square error as the loss function can effectively improve the performance with respect to a task-specific evaluation metric, namely the quadratically-weight ed Kappa, (3) utilizing eye pairs boosts the performance of DR grading and (4) using data resampling to address the problem of imbalanced data distribution in EyePACS hurts the performance. Based on these observations and an optimal combination of the investigated components, our framework, without any specialized network design, achieves the state-of-the-art result (0.8631 for Kappa) on the EyePACS test set (a total of 42670 fundus images) with only image-level labels. Our codes and pre-trained model are available at https://github.com/Y ijinHuang/pytorch-cl assification
翻訳日:2021-10-29 03:48:14 公開日:2021-10-27
# (参考訳) フェデレーション線形コンテキストバンディット

Federated Linear Contextual Bandits ( http://arxiv.org/abs/2110.14177v1 )

ライセンス: CC BY 4.0
Ruiquan Huang, Weiqiang Wu, Jing Yang, Cong Shen(参考訳) 本稿では,各クライアントが共通のグローバルパラメータを組み合わさったK$の確率的バンディットに直面する,新しい線形コンテキストバンドイットモデルを提案する。 線形報酬の幾何学的構造を利用して、局所特徴ベクトルや生データを交換することなく、クライアント間の不均一性に対処するFed-PEと呼ばれる協調アルゴリズムを提案する。 fed-peは、新しいマルチクライアントg-optimal設計に依存し、対数通信コストを伴う非結合および共有パラメータケースの両方に対して、ほぼ最適に後悔する。 さらに、コリニアリ依存ポリシーと呼ばれる新しい概念が導入され、この不連続パラメータケースに対する狭いミニマックスの後悔の下限が導出される。 実験は、合成データと実世界のデータセットの両方における提案アルゴリズムの有効性を実証する。

This paper presents a novel federated linear contextual bandits model, where individual clients face different $K$-armed stochastic bandits coupled through common global parameters. By leveraging the geometric structure of the linear rewards, a collaborative algorithm called Fed-PE is proposed to cope with the heterogeneity across clients without exchanging local feature vectors or raw data. Fed-PE relies on a novel multi-client G-optimal design, and achieves near-optimal regrets for both disjoint and shared parameter cases with logarithmic communication costs. In addition, a new concept called collinearly-dependen t policies is introduced, based on which a tight minimax regret lower bound for the disjoint parameter case is derived. Experiments demonstrate the effectiveness of the proposed algorithms on both synthetic and real-world datasets.
翻訳日:2021-10-29 03:34:08 公開日:2021-10-27
# (参考訳) QU-net++:3次元医用画像スタックのセグメンテーションのための画像品質検出フレームワーク [全文訳有]

QU-net++: Image Quality Detection Framework for Segmentation of 3D Medical Image Stacks ( http://arxiv.org/abs/2110.14181v1 )

ライセンス: CC BY 4.0
Sohini Roychowdhury(参考訳) 病理領域の自動セグメンテーションは予後と治療に有効であることが示されている。 しかし、正確な病理的区分は、生成するのにコストと時間の両方を要しうる注釈付きデータの質が高い。 そこで本研究では,u-net++モデルを用いて,医用画像スタックから医用画像の品質を評価するための2段階自動化手法を提案する。 検出された画像は、セマンティックセグメンテーションのためにU-net++モデルをさらに微調整するために使用することができる。 提案したQU-net++モデルでは,3Dスタックあたりの画像の約10\%を分離し,OCT画像中の嚢胞の分画やDiceコアが0.56-0.72の範囲のLung CT画像のグラウンドガラス不透明度に拡大することができる。 そこで,提案手法は病理学のマルチモーダルバイナリセグメンテーションに適用できる。

Automated segmentation of pathological regions of interest has been shown to aid prognosis and follow up treatment. However, accurate pathological segmentations require high quality of annotated data that can be both cost and time intensive to generate. In this work, we propose an automated two-step method that evaluates the quality of medical images from 3D image stacks using a U-net++ model, such that images that can aid further training of the U-net++ model can be detected based on the disagreement in segmentations produced from the final two layers. Images thus detected can then be used to further fine tune the U-net++ model for semantic segmentation. The proposed QU-net++ model isolates around 10\% of images per 3D stack and can scale across imaging modalities to segment cysts in OCT images and ground glass opacity in Lung CT images with Dice cores in the range 0.56-0.72. Thus, the proposed method can be applied for multi-modal binary segmentation of pathology.
翻訳日:2021-10-29 03:32:55 公開日:2021-10-27
# (参考訳) 縮小意味論を用いた負のサンプルを用いたロバストコントラスト学習 [全文訳有]

Robust Contrastive Learning Using Negative Samples with Diminished Semantics ( http://arxiv.org/abs/2110.14189v1 )

ライセンス: CC BY 4.0
Songwei Ge, Shlok Mishra, Haohan Wang, Chun-Liang Li, David Jacobs(参考訳) 教師なし学習は、より効果的なコントラスト学習手法の開発により、最近は例外的な進歩を遂げている。 しかし、CNNは人間が非意味とみなす低レベルの特徴に依存しやすい。 この依存は、画像摂動や領域シフトに対する堅牢性の欠如を引き起こすと推測されている。 本稿では,注意深く設計した負のサンプルを生成することで,これらの特徴に依存せず,より頑健な表現を学習できることを示す。 コントラスト学習は、訓練画像の表層的特徴を摂動しながら意味情報を保存する正のペアを利用する。 同様に,意味的特徴に代えて超流動のみを保存し,逆さまに負のサンプルを生成することを提案する。 我々は,テクスチャベースとパッチベースによる増補法という2つの手法を開発し,負のサンプルを生成する。 これらのサンプルは、特にドメイン外の設定下で、より良い一般化を実現する。 また,提案手法と生成したテクスチャベースサンプルを分析し,テクスチャ機能は特定のimagenetクラス,特により細かいクラスを分類するのに不可欠であることを示した。 また,モデルバイアスがテスト設定によって異なるテクスチャやシェイプ機能を好んでいることも示している。 私たちのコード、トレーニングされたモデル、ImageNet-Textureデータセットはhttps://github.com/S ongweiGe/Contrastive -Learning-with-Non-S emantic-Negativesで確認できます。

Unsupervised learning has recently made exceptional progress because of the development of more effective contrastive learning methods. However, CNNs are prone to depend on low-level features that humans deem non-semantic. This dependency has been conjectured to induce a lack of robustness to image perturbations or domain shift. In this paper, we show that by generating carefully designed negative samples, contrastive learning can learn more robust representations with less dependence on such features. Contrastive learning utilizes positive pairs that preserve semantic information while perturbing superficial features in the training images. Similarly, we propose to generate negative samples in a reversed way, where only the superfluous instead of the semantic features are preserved. We develop two methods, texture-based and patch-based augmentations, to generate negative samples. These samples achieve better generalization, especially under out-of-domain settings. We also analyze our method and the generated texture-based samples, showing that texture features are indispensable in classifying particular ImageNet classes and especially finer classes. We also show that model bias favors texture and shape features differently under different test settings. Our code, trained models, and ImageNet-Texture dataset can be found at https://github.com/S ongweiGe/Contrastive -Learning-with-Non-S emantic-Negatives.
翻訳日:2021-10-29 03:26:04 公開日:2021-10-27
# (参考訳) マスク先行移動と意味的類似性による混在物体検出 [全文訳有]

Mixed Supervised Object Detection by Transferring Mask Prior and Semantic Similarity ( http://arxiv.org/abs/2110.14191v1 )

ライセンス: CC BY-SA 4.0
Yan Liu, Zhijie Zhang, Li Niu, Junjie Chen, Liqing Zhang(参考訳) オブジェクト検出は有望な成功を収めましたが、大規模な完全注釈付きデータが必要です。 そこで本研究では,既存のベースオブジェクトカテゴリの完全アノテーションを用いて,弱いアノテーションを用いて新しいオブジェクトカテゴリを学習する混合監督によるオブジェクト検出を考える。 混合監督を用いた以前の作品は、主に完全な注釈付きカテゴリからクラスに依存しないオブジェクト性を学び、弱いアノテーションを新しいカテゴリの擬似完全アノテーションにアップグレードすることができる。 本稿では,新しいカテゴリと基本カテゴリのギャップを埋めるために,マスクの事前性と意味的類似性をさらに転送する。 具体的には、オブジェクトの検出に先立ってマスクを使用する能力は、ベースカテゴリから学び、新しいカテゴリに転送される。 さらに、ベースカテゴリから学習したオブジェクト間の意味的類似性は、新しいカテゴリの擬似フルアノテーションを識別するために転送される。 3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。 コードはhttps://github.com/b cmi/TraMaS-Weak-Shot -Object-Detectionで公開されている。

Object detection has achieved promising success, but requires large-scale fully-annotated data, which is time-consuming and labor-extensive. Therefore, we consider object detection with mixed supervision, which learns novel object categories using weak annotations with the help of full annotations of existing base object categories. Previous works using mixed supervision mainly learn the class-agnostic objectness from fully-annotated categories, which can be transferred to upgrade the weak annotations to pseudo full annotations for novel categories. In this paper, we further transfer mask prior and semantic similarity to bridge the gap between novel categories and base categories. Specifically, the ability of using mask prior to help detect objects is learned from base categories and transferred to novel categories. Moreover, the semantic similarity between objects learned from base categories is transferred to denoise the pseudo full annotations for novel categories. Experimental results on three benchmark datasets demonstrate the effectiveness of our method over existing methods. Codes are available at https://github.com/b cmi/TraMaS-Weak-Shot -Object-Detection.
翻訳日:2021-10-29 03:04:03 公開日:2021-10-27
# (参考訳) 仮想現実応用のためのスムースヘッドトラッキング [全文訳有]

Smooth head tracking for virtual reality applications ( http://arxiv.org/abs/2110.14193v1 )

ライセンス: CC BY 4.0
Abdenour Amamra(参考訳) 本研究では,仮想3次元環境と人間と機械のリアルタイムインタラクションのための新しいヘッドトラッキングソリューションを提案する。 このソリューションでは、rgbdデータを利用してユーザーの頭の動きに応じて仮想カメラのポーズを計算する。 このプロセスは、センサーが撮影した画像から一連の顔の特徴を抽出することから始まる。 このような特徴は、現在の頭部姿勢の計算のための基準画像において、それぞれの特徴と一致する。 その後、予測アプローチを使用して、最も可能性の高い次の頭部の動き(最終ポーズ)を推測する。 ピタゴラスのホドグラフの補間は、2つのポーズの間の経路と局所的なフレームを決定するために適応される。 その結果、ユーザーの視線に応じてカメラを仮想シーンに設定するための入力として機能するスムーズな頭部軌跡が得られた。 結果として得られた動きモデルは、次のような利点がある: 連続的、任意のフレームレートのレンダリングに適応する; エルゴノミクス的であり、ユーザがトラッキングマーカーを身に着けることから解放される; 滑らかで、ごまかしのない; そして、最小の曲げエネルギーを持つ経路を生成するために、ねじれと曲率を最小化する。

In this work, we propose a new head-tracking solution for human-machine real-time interaction with virtual 3D environments. This solution leverages RGBD data to compute virtual camera pose according to the movements of the user's head. The process starts with the extraction of a set of facial features from the images delivered by the sensor. Such features are matched against their respective counterparts in a reference image for the computation of the current head pose. Afterwards, a prediction approach is used to guess the most likely next head move (final pose). Pythagorean Hodograph interpolation is then adapted to determine the path and local frames taken between the two poses. The result is a smooth head trajectory that serves as an input to set the camera in virtual scenes according to the user's gaze. The resulting motion model has the advantage of being: continuous in time, it adapts to any frame rate of rendering; it is ergonomic, as it frees the user from wearing tracking markers; it is smooth and free from rendering jerks; and it is also torsion and curvature minimizing as it produces a path with minimum bending energy.
翻訳日:2021-10-29 02:35:46 公開日:2021-10-27
# (参考訳) 画像からイムゲへ:免疫画像生成 [全文訳有]

From Image to Imuge: Immunized Image Generation ( http://arxiv.org/abs/2110.14196v1 )

ライセンス: CC BY 4.0
Qichao Ying, Zhenxing Qian, Hang Zhou, Haisheng Xu, Xinpeng Zhang and Siyi Li(参考訳) 我々は,画像自己回復のための画像改ざん耐性生成手法であるImugeを紹介する。 画像内の画像内容を隠蔽する従来の方法は、多様なデジタルアタック、すなわち画像のトリミングとJPEG圧縮に対して柔軟で脆弱である。 この問題に対処するため,u-netバックボーンエンコーダ,タンパー局在化ネットワーク,画像復元のためのデコーダを共同で訓練する。 原画像が与えられると、エンコーダは視覚的に識別不能な免疫画像を生成する。 受信側において、検証ネットワークは悪意のある修正をローカライズし、攻撃の有無にかかわらず、元のコンテンツはデコーダによってほぼ復元される。 訓練効率を高めるためのいくつかの戦略が提案されている。 本手法は,様々な攻撃が存在するにもかかわらず,改ざんされた領域の細部を高い品質で復元できることを実証する。 ネットワーク設計を検証するため,包括的アブレーション研究を行った。

We introduce Imuge, an image tamper resilient generative scheme for image self-recovery. The traditional manner of concealing image content within the image are inflexible and fragile to diverse digital attack, i.e. image cropping and JPEG compression. To address this issue, we jointly train a U-Net backboned encoder, a tamper localization network and a decoder for image recovery. Given an original image, the encoder produces a visually indistinguishable immunized image. At the recipient's side, the verifying network localizes the malicious modifications, and the original content can be approximately recovered by the decoder, despite the presence of the attacks. Several strategies are proposed to boost the training efficiency. We demonstrate that our method can recover the details of the tampered regions with a high quality despite the presence of various kinds of attacks. Comprehensive ablation studies are conducted to validate our network designs.
翻訳日:2021-10-29 02:24:57 公開日:2021-10-27
# (参考訳) ラテン文字作者属性のリズム特徴としての音節量パターン [全文訳有]

Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship Attribution ( http://arxiv.org/abs/2110.14203v1 )

ライセンス: CC BY 4.0
Silvia Corbara, Alejandro Moreo, Fabrizio Sebastiani(参考訳) ラテン語の文章の制作において、独特のメートル法が詩作だけでなく、多くの散文作品にも取り入れられたことはよく知られている。 そのような計量パターンは、いわゆる音節量、すなわち、関係する音節の長さに基づいており、ある著者が他の著者よりも特定の計量パターンを好むことを示す実質的な証拠がある。 本研究では,ラテン文字テキストの計算的オーサシップ帰属作業におけるリズミカル特徴の導出基盤として,音節量を用いる可能性を検討する。 これらの特徴が他のトピックに依存しない特徴と組み合わせて著者帰属タスクに与える影響を検証した。 2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。

It is well known that, within the Latin production of written text, peculiar metric schemes were followed not only in poetic compositions, but also in many prose works. Such metric patterns were based on so-called syllabic quantity, i.e., on the length of the involved syllables, and there is substantial evidence suggesting that certain authors had a preference for certain metric patterns over others. In this research we investigate the possibility to employ syllabic quantity as a base for deriving rhythmic features for the task of computational authorship attribution of Latin prose texts. We test the impact of these features on the authorship attribution task when combined with other topic-agnostic features. Our experiments, carried out on three different datasets, using two different machine learning methods, show that rhythmic features based on syllabic quantity are beneficial in discriminating among Latin prose authors.
翻訳日:2021-10-29 02:12:34 公開日:2021-10-27
# (参考訳) EMNLP 2019のコーヒーはいくらだったか? fermi問題:aiのための新しい推論チャレンジ [全文訳有]

How Much Coffee Was Consumed During EMNLP 2019? Fermi Problems: A New Reasoning Challenge for AI ( http://arxiv.org/abs/2110.14207v1 )

ライセンス: CC BY 4.0
Ashwin Kalyan, Abhinav Kumar, Arjun Chandrasekaran, Ashish Sabharwal, Peter Clark(参考訳) 多くの現実世界の問題は、適切な抽象化、常識知識、問題解決戦略の創造的な合成を用いた複数の推論能力の組み合わせを必要とする。 このような能力に向けてaiシステムを前進させるため,我々は,その正確な計算が現実的でも不可能でも,その答えが推定できない問題であるフェルミ問題(fermi problem,fps)を提案する。 例えば、「世界のすべての氷が溶けたら、海面はどれくらい上昇しますか? FPは、人間の創造的な推論能力を持ち出し評価するために、クイズやインタビューで一般的に使用される。 AIシステムでも同じことをするために、私たちは2つのデータセットを提示します。 1)クイズ及びオリンピアードから得られた1k個の現実世界FPの収集 2) より複雑な10kの合成FPのバンクは, より難しい現実的課題のサンドボックスとして機能する。 質問応答ペアに加えて、データセットには実行可能プログラムの形式で詳細なソリューションが含まれており、中間ステップの監督と評価を支援する。 大規模に調整された大規模言語モデルでさえ、これらのデータセットではパフォーマンスが悪く、平均すると2桁もオフになっている。 私たちの貢献は、未解決のAI問題の結晶化を、理にかなうシステム構築のさらなる進歩を後押ししたいと思っています。

Many real-world problems require the combined application of multiple reasoning abilities employing suitable abstractions, commonsense knowledge, and creative synthesis of problem-solving strategies. To help advance AI systems towards such capabilities, we propose a new reasoning challenge, namely Fermi Problems (FPs), which are questions whose answers can only be approximately estimated because their precise computation is either impractical or impossible. For example, "How much would the sea level rise if all ice in the world melted?" FPs are commonly used in quizzes and interviews to bring out and evaluate the creative reasoning abilities of humans. To do the same for AI systems, we present two datasets: 1) A collection of 1k real-world FPs sourced from quizzes and olympiads; and 2) a bank of 10k synthetic FPs of intermediate complexity to serve as a sandbox for the harder real-world challenge. In addition to question answer pairs, the datasets contain detailed solutions in the form of an executable program and supporting facts, helping in supervision and evaluation of intermediate steps. We demonstrate that even extensively fine-tuned large scale language models perform poorly on these datasets, on average making estimates that are off by two orders of magnitude. Our contribution is thus the crystallization of several unsolved AI problems into a single, new challenge that we hope will spur further advances in building systems that can reason.
翻訳日:2021-10-29 01:29:47 公開日:2021-10-27
# (参考訳) 3次元ポーズの半教師付き少数ショット学習のためのニューラルビュー合成とマッチング [全文訳有]

Neural View Synthesis and Matching for Semi-Supervised Few-Shot Learning of 3D Pose ( http://arxiv.org/abs/2110.14213v1 )

ライセンス: CC BY 4.0
Angtian Wang, Shenxiao Mei, Alan Yuille, Adam Kortylewski(参考訳) 本稿では,ラベル付きサンプルと非ラベル付きデータの集合から3次元オブジェクトのポーズを推定する学習問題を考察する。 学習フレームワークであるneural view synthesis and matching(ニューラルビュー合成とマッチング)は、目立たない3dビューとオブジェクトの形状、テクスチャ、照明、シーンコンテキストといった微妙なバリエーションにもかかわらず、ラベル付き画像から確実に3dポーズアノテーションを転送できます。 私たちのアプローチでは、オブジェクトは各メッシュ頂点で特徴ベクトルからなる3d立方体メッシュとして表現されます。 モデルはラベル付き画像から初期化され、その後、見えない3Dビューの特徴表現を合成するために使用される。 合成されたビューは、未ラベル画像の特徴表現と一致し、3Dポーズの擬似ラベルを生成する。 擬似ラベル付きデータは、各メッシュ頂点の特徴がオブジェクトのさまざまな3dビューでより不変になるように、特徴抽出器を訓練するために使用される。 本モデルでは,特徴抽出器の3次元ポーズ不変度の増加と,ニューラルビュー合成とマッチングによるアノテートのないデータのアノテートとを,EM方式で学習する。 PASCAL3D+およびKITTIデータセットにおける3次元ポーズ推定のための半教師付き学習フレームワークの有効性を示す。 我々のアプローチは、特に7つの注釈付き画像のみを付与する極端な数ショット設定において、すべてのベースラインを幅広いマージンで上回ります。 注目すべきは、我々のモデルが部分閉塞を含む配布外シナリオにおいて、例外的な堅牢性を達成することである。

We study the problem of learning to estimate the 3D object pose from a few labelled examples and a collection of unlabelled data. Our main contribution is a learning framework, neural view synthesis and matching, that can transfer the 3D pose annotation from the labelled to unlabelled images reliably, despite unseen 3D views and nuisance variations such as the object shape, texture, illumination or scene context. In our approach, objects are represented as 3D cuboid meshes composed of feature vectors at each mesh vertex. The model is initialized from a few labelled images and is subsequently used to synthesize feature representations of unseen 3D views. The synthesized views are matched with the feature representations of unlabelled images to generate pseudo-labels of the 3D pose. The pseudo-labelled data is, in turn, used to train the feature extractor such that the features at each mesh vertex are more invariant across varying 3D views of the object. Our model is trained in an EM-type manner alternating between increasing the 3D pose invariance of the feature extractor and annotating unlabelled data through neural view synthesis and matching. We demonstrate the effectiveness of the proposed semi-supervised learning framework for 3D pose estimation on the PASCAL3D+ and KITTI datasets. We find that our approach outperforms all baselines by a wide margin, particularly in an extreme few-shot setting where only 7 annotated images are given. Remarkably, we observe that our model also achieves an exceptional robustness in out-of-distribution scenarios that involve partial occlusion.
翻訳日:2021-10-29 01:13:33 公開日:2021-10-27
# (参考訳) マイクロブログ感情分析のための絵文字に基づくコアテンションネットワーク [全文訳有]

Emoji-based Co-attention Network for Microblog Sentiment Analysis ( http://arxiv.org/abs/2110.14227v1 )

ライセンス: CC BY 4.0
Xiaowei Yuan, Jingyuan Hu, Xiaodan Zhang, Honglei Lv and Hao Liu(参考訳) オンラインソーシャルネットワークでは感情、態度、意見を表現するために絵文字が広く使われている。 感情指向の文字として、絵文字は感情分析のために受け手に対する感情の重要な特徴としてモデル化することができる。 しかし、既存の手法では、絵文字をあいまいさの問題を解決するのに失敗するヒューリスティックな情報として捉えている。 最近の研究では、絵文字を独立した入力としてテキスト感情を分類しているが、テキストと絵文字の相互作用の感情的影響を無視している。 その結果、絵文字の感情的意味論は十分に解明できない。 本稿では,マイクロブログ上でテキストと絵文字の相互感情的意味を学習する,絵文字に基づくコアテンションネットワークを提案する。 本モデルでは,テキストと絵文字を併用した双方向長期記憶に基づくコアテンション機構を採用し,畳み込みニューラルネットワーク分類器にスクイーズ・アンド・エクスシジョンブロックを統合し,感情的意味的特徴に対する感受性を高める。 実験の結果,提案手法はソーシャルメディアの短文に対する感情分析のベースライン数を有意に上回ることがわかった。

Emojis are widely used in online social networks to express emotions, attitudes, and opinions. As emotional-oriented characters, emojis can be modeled as important features of emotions towards the recipient or subject for sentiment analysis. However, existing methods mainly take emojis as heuristic information that fails to resolve the problem of ambiguity noise. Recent researches have utilized emojis as an independent input to classify text sentiment but they ignore the emotional impact of the interaction between text and emojis. It results that the emotional semantics of emojis cannot be fully explored. In this paper, we propose an emoji-based co-attention network that learns the mutual emotional semantics between text and emojis on microblogs. Our model adopts the co-attention mechanism based on bidirectional long short-term memory incorporating the text and emojis, and integrates a squeeze-and-excitati on block in a convolutional neural network classifier to increase its sensitivity to emotional semantic features. Experimental results show that the proposed method can significantly outperform several baselines for sentiment analysis on short texts of social media.
翻訳日:2021-10-29 00:57:07 公開日:2021-10-27
# (参考訳) 読み上げ音声における特徴検出のための深層学習 [全文訳有]

Deep Learning For Prominence Detection In Children's Read Speech ( http://arxiv.org/abs/2110.14273v1 )

ライセンス: CC BY-SA 4.0
Mithilesh Vaidya, Kamini Sabu, Preeti Rao(参考訳) 言語知識に基づく音響特徴の設計から、ピッチや強度輪郭などの上層特性からの自動特徴学習まで、音声における知覚的特徴の検出が注目されている。 本稿では, 幼児の口臭度評価に際し, 単語検出に関連する特徴を学習するために, セグメント音声波形を直接操作するシステムについて述べる。 単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、最初の畳み込み層として知覚的に動機付けられたSincNetフィルタの恩恵を受ける。 さらに,語句境界の韻律的事象と,異なるマルチタスクアーキテクチャによる発音の言語的関連性についても検討する。 注意深い手作り音響特徴を訓練したランダムフォレストアンサンブル予測器の同一データセットにおける先行報告性能を一致させ,手作り音響特徴と事前学習された語彙特徴の補完的情報をさらに評価した。

The detection of perceived prominence in speech has attracted approaches ranging from the design of linguistic knowledge-based acoustic features to the automatic feature learning from suprasegmental attributes such as pitch and intensity contours. We present here, in contrast, a system that operates directly on segmented speech waveforms to learn features relevant to prominent word detection for children's oral fluency assessment. The chosen CRNN (convolutional recurrent neural network) framework, incorporating both word-level features and sequence information, is found to benefit from the perceptually motivated SincNet filters as the first convolutional layer. We further explore the benefits of the linguistic association between the prosodic events of phrase boundary and prominence with different multi-task architectures. Matching the previously reported performance on the same dataset of a random forest ensemble predictor trained on carefully chosen hand-crafted acoustic features, we evaluate further the possibly complementary information from hand-crafted acoustic and pre-trained lexical features.
翻訳日:2021-10-29 00:50:01 公開日:2021-10-27
# (参考訳) TopicNet: セマンティックグラフによるトピック発見 [全文訳有]

TopicNet: Semantic Graph-Guided Topic Discovery ( http://arxiv.org/abs/2110.14286v1 )

ライセンス: CC BY 4.0
Zhibin Duan, Yishi Xu, Bo Chen, Dongsheng Wang, Chaojie Wang, Mingyuan Zhou(参考訳) 既存の深層的トピックモデルでは、テキストコーパスから意味的に意味のあるトピックを教師なしの方法で抽出し、自動的にトピック階層にまとめることができる。 しかし,トピック階層の学習を導くために,知識グラフなどの事前の信念をどのように組み込むかは定かではない。 この問題に対処するため,TopicNetを階層的なトピックモデルとして導入し,事前構造的知識を学習に影響を与える帰納的バイアスとして注入する。 TopicNetは、各トピックをガウス分布埋め込みベクトルとして表現し、すべてのレイヤのトピックを共有埋め込み空間に投影し、ガウス埋め込みベクトル間の対称的および非対称的類似性を調べて、先行的な意味階層を組み込む。 自動エンコード変分推論ネットワークでは、確率勾配勾配による証拠下限と正規化項の最小化によりモデルパラメータを最適化する。 広く使用されているベンチマークの実験によると、TopicNetは、深い解釈可能なトピックを発見し、より良いドキュメントをマイニングすることで、関連するディープトピックモデルを上回っている。

Existing deep hierarchical topic models are able to extract semantically meaningful topics from a text corpus in an unsupervised manner and automatically organize them into a topic hierarchy. However, it is unclear how to incorporate prior beliefs such as knowledge graph to guide the learning of the topic hierarchy. To address this issue, we introduce TopicNet as a deep hierarchical topic model that can inject prior structural knowledge as an inductive bias to influence learning. TopicNet represents each topic as a Gaussian-distributed embedding vector, projects the topics of all layers into a shared embedding space, and explores both the symmetric and asymmetric similarities between Gaussian embedding vectors to incorporate prior semantic hierarchies. With an auto-encoding variational inference network, the model parameters are optimized by minimizing the evidence lower bound and a regularization term via stochastic gradient descent. Experiments on widely used benchmarks show that TopicNet outperforms related deep topic models on discovering deeper interpretable topics and mining better document~representat ions.
翻訳日:2021-10-29 00:37:14 公開日:2021-10-27
# (参考訳) 衛生マップの正当性チェックの再検討 [全文訳有]

Revisiting Sanity Checks for Saliency Maps ( http://arxiv.org/abs/2110.14297v1 )

ライセンス: CC BY 4.0
Gal Yona, Daniel Greenfeld(参考訳) Saliencyメソッドは、モデルデバッギングと説明可能性のための一般的なアプローチである。 しかし、正しい地図が何であるかの正確なデータがない場合、異なるアプローチを評価し比較することは長年の課題である。 Adebayoら[Neurips 2018]の健全性チェック手法はこの課題に対処しようと試みている。 彼らは、それらが生成するマップが説明すべき基礎モデルに敏感でないため、説明可能性のためにいくつかの一般的なサリエンシ手法は使用すべきでないと主張している。 彼らの目的の因果的再フレーミングを通じて、それらの経験的評価は、彼らが評価したタスクによって引き起こされる欠点の形で、これらの結論を完全には確立していないと論じる。 単純なカスタムタスクに関する様々な実験を通じて、これらの結論のいくつかは、サルマンシーメソッド自体に対する批判以上のタスクの成果物である可能性があることを実証する。 より広範に、我々の研究は、衛生チェック手法の活用に挑戦し、さらに、アドホックな視覚検査以外の唾液マップ評価が根本的な課題であることを示している。

Saliency methods are a popular approach for model debugging and explainability. However, in the absence of ground-truth data for what the correct maps should be, evaluating and comparing different approaches remains a long-standing challenge. The sanity checks methodology of Adebayo et al [Neurips 2018] has sought to address this challenge. They argue that some popular saliency methods should not be used for explainability purposes since the maps they produce are not sensitive to the underlying model that is to be explained. Through a causal re-framing of their objective, we argue that their empirical evaluation does not fully establish these conclusions, due to a form of confounding introduced by the tasks they evaluate on. Through various experiments on simple custom tasks we demonstrate that some of their conclusions may indeed be artifacts of the tasks more than a criticism of the saliency methods themselves. More broadly, our work challenges the utility of the sanity check methodology, and further highlights that saliency map evaluation beyond ad-hoc visual examination remains a fundamental challenge.
翻訳日:2021-10-29 00:17:56 公開日:2021-10-27
# (参考訳) 弱教師付きセマンティックセグメンテーションのためのクラス条件応答マップの推定 [全文訳有]

Inferring the Class Conditional Response Map for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2110.14309v1 )

ライセンス: CC BY 4.0
Weixuan Sun, Jing Zhang, Nick Barnes(参考訳) 画像レベルの弱い教師付きセマンティックセグメンテーション(WSSS)は、擬似ラベル生成のためのクラスアクティベーションマップ(CAM)に依存している。 camはオブジェクトの最も識別的な領域のみを強調するため、生成された擬似ラベルは通常、直接監視することができない。 これを解決するために、既存のほとんどのアプローチは、次のような擬似ラベルを改善するためにCAMを洗練するためのマルチトレーニングパイプラインに従っている。 1) CAMを生成するために分類モデルを再訓練すること。 2 擬似ラベルを取得するための後処理CAM 3) 得られた擬似ラベルを用いて意味セグメンテーションモデルを訓練する。 しかし、このマルチトレーニングパイプラインは複雑な調整と追加時間を必要とする。 そこで本研究では,分類器を再訓練することなく,より優れた擬似ラベルを生成するための,クラス条件推論戦略とアクティベーション対応マスク精錬損失関数を提案する。 クラス条件推論時間アプローチは別々に提示され、分類ネットワークの隠れオブジェクトアクティベーションを反復的に明らかにし、より完全な応答マップを生成する。 さらに,このアクティベーション認識マスク改良損失関数は,セグメンテーショントレーニング中にサリエンシーマップを活用し,背景オブジェクトを抑圧することなくフォアグラウンドオブジェクトマスクを洗練する新しい方法を導入する。 本手法は,分類器の再学習を必要とせず,優れたWSSS結果が得られる。

Image-level weakly supervised semantic segmentation (WSSS) relies on class activation maps (CAMs) for pseudo labels generation. As CAMs only highlight the most discriminative regions of objects, the generated pseudo labels are usually unsatisfactory to serve directly as supervision. To solve this, most existing approaches follow a multi-training pipeline to refine CAMs for better pseudo-labels, which includes: 1) re-training the classification model to generate CAMs; 2) post-processing CAMs to obtain pseudo labels; and 3) training a semantic segmentation model with the obtained pseudo labels. However, this multi-training pipeline requires complicated adjustment and additional time. To address this, we propose a class-conditional inference strategy and an activation aware mask refinement loss function to generate better pseudo labels without re-training the classifier. The class conditional inference-time approach is presented to separately and iteratively reveal the classification network's hidden object activation to generate more complete response maps. Further, our activation aware mask refinement loss function introduces a novel way to exploit saliency maps during segmentation training and refine the foreground object masks without suppressing background objects. Our method achieves superior WSSS results without requiring re-training of the classifier.
翻訳日:2021-10-29 00:05:06 公開日:2021-10-27
# (参考訳) グラフニューラルネットワークのノードワイズ局在化 [全文訳有]

Node-wise Localization of Graph Neural Networks ( http://arxiv.org/abs/2110.14322v1 )

ライセンス: CC0 1.0
Zemin Liu, Yuan Fang, Chenghao Liu and Steven C.H. Hoi(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上の表現学習モデルの強力なファミリーとして出現する。 ノード表現を導出するために、近隣ノードから情報を再帰的に集約するグローバルモデルを利用する。 しかし、異なるノードは、異なるローカルコンテキストのグラフの異なる部分に存在するため、その分布はグラフ全体で異なる。 理想的には、ノードが近傍情報を受信する方法は、すべてのノードが共有するグローバルgnnモデルから逸脱するために、そのローカルコンテキストの関数であるべきである。 ノードの局所性を過剰に利用するために,グラフの全体的および局所的な側面を考慮し,gnnのノード的局在化を提案する。 グローバルに、グラフ上のすべてのノードは、グラフ全体の一般的なパターンをエンコードするために、基礎となるグローバルgnnに依存している。 最後に,4つのベンチマークグラフについて広範な実験を行い,現状のGNNを超える有望な性能を得る。

Graph neural networks (GNNs) emerge as a powerful family of representation learning models on graphs. To derive node representations, they utilize a global model that recursively aggregates information from the neighboring nodes. However, different nodes reside at different parts of the graph in different local contexts, making their distributions vary across the graph. Ideally, how a node receives its neighborhood information should be a function of its local context, to diverge from the global GNN model shared by all nodes. To utilize node locality without overfitting, we propose a node-wise localization of GNNs by accounting for both global and local aspects of the graph. Globally, all nodes on the graph depend on an underlying global GNN to encode the general patterns across the graph; locally, each node is localized into a unique model as a function of the global model and its local context. Finally, we conduct extensive experiments on four benchmark graphs, and consistently obtain promising performance surpassing the state-of-the-art GNNs.
翻訳日:2021-10-28 23:45:01 公開日:2021-10-27
# (参考訳) MixSeq: 顕微鏡時系列データによるマクロ時系列予測の接続 [全文訳有]

MixSeq: Connecting Macroscopic Time Series Forecasting with Microscopic Time Series Data ( http://arxiv.org/abs/2110.14354v1 )

ライセンス: CC BY 4.0
Zhibo Zhu, Ziqi Liu, Ge Jin, Zhiqiang Zhang, Lei Chen, Jun Zhou, Jianyong Zhou(参考訳) 時系列予測は、例えば株価の予測、販売、データトレンドの分析を助けるなど、ビジネスインテリジェンスで広く使われている。 ほとんどの時系列は、顕微鏡データから集約されたマクロな時系列である。 しかし, 巨視的時系列を直接モデル化する代わりに, 微視的レベルでのデータを活用することで, 巨視的時系列の予測を研究した。 本稿では,顕微鏡時系列が未知の混合確率分布に従うことを仮定する。 理論的には, 基底真理潜在混合成分の同定により, 各成分からの時系列推定が低分散化によって改善され, マクロな時系列推定も可能となることを示した。 時系列データのモデリングにおけるseq2seqのパワーとその変種に着想を得て,各成分が異なるパラメータでパラメータ化されたseq2seqモデル群から得られる,クラスタミクロな時系列に対するエンドツーエンドの混合モデルであるseq2seq (mixseq) の混合を提案する。 合成データと実世界のデータの両方に対する大規模な実験は、我々のアプローチの優位性を示している。

Time series forecasting is widely used in business intelligence, e.g., forecast stock market price, sales, and help the analysis of data trend. Most time series of interest are macroscopic time series that are aggregated from microscopic data. However, instead of directly modeling the macroscopic time series, rare literature studied the forecasting of macroscopic time series by leveraging data on the microscopic level. In this paper, we assume that the microscopic time series follow some unknown mixture probabilistic distributions. We theoretically show that as we identify the ground truth latent mixture components, the estimation of time series from each component could be improved because of lower variance, thus benefitting the estimation of macroscopic time series as well. Inspired by the power of Seq2seq and its variants on the modeling of time series data, we propose Mixture of Seq2seq (MixSeq), an end2end mixture model to cluster microscopic time series, where all the components come from a family of Seq2seq models parameterized by different parameters. Extensive experiments on both synthetic and real-world data show the superiority of our approach.
翻訳日:2021-10-28 23:25:19 公開日:2021-10-27
# (参考訳) ConAM: 畳み込みニューラルネットワークのための信頼性注意モジュール [全文訳有]

ConAM: Confidence Attention Module for Convolutional Neural Networks ( http://arxiv.org/abs/2110.14369v1 )

ライセンス: CC BY 4.0
Yu Xue, Ziming Yuan and Ferrante Neri(参考訳) いわゆる ‘attention' は畳み込みニューラルネットワークの性能を改善する効率的なメカニズムである。 文脈情報を用いて入力を校正し、情報的特徴の伝播を強化する。 しかし,注目メカニズムの大部分は,特徴抽出に特異な局所的・大域的文脈情報のみを考慮したものである。 さらに、既存の多くのメカニズムは、文脈情報を直接使用して入力を再調整し、一方的に情報的特徴の伝播を増大させるが、役に立たないものを抑圧しない。 本稿では,局所的文脈情報とグローバル的文脈情報の相関に基づく新しい注意機構モジュールを提案し,この相関を信頼度と呼ぶ。 新しい注意機構は、ローカルとグローバルのコンテキスト情報を同時に抽出し、それらの間の信頼度を算出し、この信頼度を用いて入力画素を再調整する。 局所的・グローバルな文脈情報の抽出は特徴の多様性を高める。 信頼度のある校正は、情報的情報を少ないパラメータで強化しつつ、無駄な情報を抑制する。 我々は,CIFAR-10とCIFAR-100を実験に使用し,十分なアブレーション実験により本手法のコンポーネントの性能について検討した。 最後に,本手法を最先端の畳み込みニューラルネットワークと比較し,本手法がこれらモデルを完全に超越していることを示す。 我々はpythonライブラリ、pytorchでconamを実装しており、コードとモデルは公開される予定だ。

The so-called ``attention'' is an efficient mechanism to improve the performance of convolutional neural networks. It uses contextual information to recalibrate the input to strengthen the propagation of informative features. However, the majority of the attention mechanisms only consider either local or global contextual information, which is singular to extract features. Moreover, many existing mechanisms directly use the contextual information to recalibrate the input, which unilaterally enhances the propagation of the informative features, but does not suppress the useless ones. This paper proposes a new attention mechanism module based on the correlation between local and global contextual information and we name this correlation as confidence. The novel attention mechanism extracts the local and global contextual information simultaneously, and calculates the confidence between them, then uses this confidence to recalibrate the input pixels. The extraction of local and global contextual information increases the diversity of features. The recalibration with confidence suppresses useless information while enhancing the informative one with fewer parameters. We use CIFAR-10 and CIFAR-100 in our experiments and explore the performance of our method's components by sufficient ablation studies. Finally, we compare our method with a various state-of-the-art convolutional neural networks and the results show that our method completely surpasses these models. We implement ConAM with the Python library, Pytorch, and the code and models will be publicly available.
翻訳日:2021-10-28 23:09:13 公開日:2021-10-27
# (参考訳) 知覚スコア:あなたのモデルはどんなデータモダリティを知覚しますか。 [全文訳有]

Perceptual Score: What Data Modalities Does Your Model Perceive? ( http://arxiv.org/abs/2110.14375v1 )

ライセンス: CC BY 4.0
Itai Gat, Idan Schwartz, Alexander Schwing(参考訳) 過去10年間の機械学習の進歩は、拡大を続ける大規模なデータセットに大きく依存している。 これらのデータセットには、さまざまなデータモダリティも含まれている。 しかし、大規模なマルチモーダルデータセットはアノテーションが難しいので、アノテーションにはよく知らないバイアスが含まれます。 ディープネットベースの分類器は、それらのバイアスを利用してショートカットを見つける傾向がある。 この問題を研究・定量化するために、モデルが入力特徴の異なる部分集合、すなわちモダリティに依存する度合いを評価する指標である知覚スコア(Perceptual score)を導入する。 視覚的質問回答や視覚的ダイアログのための最新の、より正確なマルチモーダルモデルでは、前者よりも視覚的データを知覚する傾向があります。 この傾向は、回答がテキストのみから推測されるようになっているため、関係している。 知覚スコアを使用すると、スコアをデータサブセットのコントリビュートに分割することで、モデルのバイアスを分析するのに役立つ。 我々は,マルチモーダルモデルの知覚性に関する議論を促すとともに,コミュニティがマルチモーダル分類器に取り組み,提案する知覚スコアを通じて知覚性を定量化することを促すことを望んでいる。

Machine learning advances in the last decade have relied significantly on large-scale datasets that continue to grow in size. Increasingly, those datasets also contain different data modalities. However, large multi-modal datasets are hard to annotate, and annotations may contain biases that we are often unaware of. Deep-net-based classifiers, in turn, are prone to exploit those biases and to find shortcuts. To study and quantify this concern, we introduce the perceptual score, a metric that assesses the degree to which a model relies on the different subsets of the input features, i.e., modalities. Using the perceptual score, we find a surprisingly consistent trend across four popular datasets: recent, more accurate state-of-the-art multi-modal models for visual question-answering or visual dialog tend to perceive the visual data less than their predecessors. This trend is concerning as answers are hence increasingly inferred from textual cues only. Using the perceptual score also helps to analyze model biases by decomposing the score into data subset contributions. We hope to spur a discussion on the perceptiveness of multi-modal models and also hope to encourage the community working on multi-modal classifiers to start quantifying perceptiveness via the proposed perceptual score.
翻訳日:2021-10-28 22:53:00 公開日:2021-10-27
# (参考訳) WenLan 2.0: マルチモーダルファンデーションモデルによるAIイマジネーションの実現 [全文訳有]

WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model ( http://arxiv.org/abs/2110.14378v1 )

ライセンス: CC BY 4.0
Nanyi Fei, Zhiwu Lu, Yizhao Gao, Guoxing Yang, Yuqi Huo, Jingyuan Wen, Haoyu Lu, Ruihua Song, Xin Gao, Tao Xiang, Hao Sun and Ji-Rong Wen(参考訳) 人工知能(AI)の基本的な目標は、知覚、記憶、推論を含む人間の中核的な認知活動を模倣することである。 様々なai研究分野(コンピュータビジョンや自然言語処理など)で大きな成功を収めているが、既存の作品の大部分は単一の認知能力(画像分類、読み理解、視覚常識推論など)を獲得することだけに焦点を当てている。 この制限を克服し、人工知能(AGI)への確かな一歩を踏み出すため、大規模なマルチモーダル(視覚的・テキスト的)データで事前訓練された新しい基礎モデルを開発し、幅広い下流認知タスクに迅速に適応することができる。 このようなモデルは、一般的に強い意味的相関関係を仮定し、事前学習データにおける画像とテキストのモダリティの正確なアライメントを期待する文献で最近提案されたマルチモーダル基礎モデルと根本的に異なる。 この問題を解決するために,インターネットから収集した弱い意味的相関データを用いた自己教師型学習による基礎モデルの事前学習を提案し,下流タスク(単一モーダルとクロスモーダルの両方)で最先端の結果が得られることを示す。 特に,本研究で開発された新しいモデル解釈ツールを用いて,強い想像力(常識のヒントを伴っても)が基礎モデルによって所有されていることを実証する。 私たちは、我々の研究がAGIに変革をもたらすと信じており、様々なAI+分野(神経科学や医療など)に幅広い影響を与えるだろうと考えています。

The fundamental goal of artificial intelligence (AI) is to mimic the core cognitive activities of human including perception, memory, and reasoning. Although tremendous success has been achieved in various AI research fields (e.g., computer vision and natural language processing), the majority of existing works only focus on acquiring single cognitive ability (e.g., image classification, reading comprehension, or visual commonsense reasoning). To overcome this limitation and take a solid step to artificial general intelligence (AGI), we develop a novel foundation model pre-trained with huge multimodal (visual and textual) data, which is able to be quickly adapted for a broad class of downstream cognitive tasks. Such a model is fundamentally different from the multimodal foundation models recently proposed in the literature that typically make strong semantic correlation assumption and expect exact alignment between image and text modalities in their pre-training data, which is often hard to satisfy in practice thus limiting their generalization abilities. To resolve this issue, we propose to pre-train our foundation model by self-supervised learning with weak semantic correlation data crawled from the Internet and show that state-of-the-art results can be obtained on a wide range of downstream tasks (both single-modal and cross-modal). Particularly, with novel model-interpretabili ty tools developed in this work, we demonstrate that strong imagination ability (even with hints of commonsense) is now possessed by our foundation model. We believe our work makes a transformative stride towards AGI and will have broad impact on various AI+ fields (e.g., neuroscience and healthcare).
翻訳日:2021-10-28 22:36:42 公開日:2021-10-27
# (参考訳) 交通移動スニペットの交通予測 [全文訳有]

Traffic Forecasting on Traffic Moving Snippets ( http://arxiv.org/abs/2110.14383v1 )

ライセンス: CC BY 4.0
Nina Wiedemann, Martin Raubal(参考訳) 交通予測技術の進歩は都市移動に大きな影響を与える。 traffic4castコンペティションでは、短期的なトラフィック予測のタスクは前例のない詳細に取り組まれ、トラフィックボリュームと速度情報は5分間隔と高い空間分解能で利用可能である。 2021年の拡張チャレンジで要求されるように、未知の都市への一般化を改善するために、我々は、フルシティラスターを一度に処理するのではなく、小さな二次都市セクションを予測することを提案する。 テスト時には、1つのセルをカバーする複数のパッチを独立に処理できるため、テストデータを空間的に重なり合うスニペットに分割することで最終予測の安定性と堅牢性を向上させる。 traffic4castテストデータのパフォーマンスと検証セットのさらなる実験により、パッチワイズ予測が実際に精度を向上させることが示されている。 unet++アーキテクチャとテスト時に処理されるサンプル毎のパッチ数の増加によって、さらなる利点を得ることができる。 我々のスニペットベースの手法は、競争で提案された他の成功したネットワークアーキテクチャと組み合わせることで、特に見えない都市でパフォーマンスを活用することができると結論付けている。 すべてのソースコードはhttps://github.com/N inaWie/NeurIPS2021-t raffic4castで入手できる。

Advances in traffic forecasting technology can greatly impact urban mobility. In the traffic4cast competition, the task of short-term traffic prediction is tackled in unprecedented detail, with traffic volume and speed information available at 5 minute intervals and high spatial resolution. To improve generalization to unknown cities, as required in the 2021 extended challenge, we propose to predict small quadratic city sections, rather than processing a full-city-raster at once. At test time, breaking down the test data into spatially-cropped overlapping snippets improves stability and robustness of the final predictions, since multiple patches covering one cell can be processed independently. With the performance on the traffic4cast test data and further experiments on a validation set it is shown that patch-wise prediction indeed improves accuracy. Further advantages can be gained with a Unet++ architecture and with an increasing number of patches per sample processed at test time. We conclude that our snippet-based method, combined with other successful network architectures proposed in the competition, can leverage performance, in particular on unseen cities. All source code is available at https://github.com/N inaWie/NeurIPS2021-t raffic4cast.
翻訳日:2021-10-28 22:09:15 公開日:2021-10-27
# (参考訳) 複雑な変遷を伴う計画に関する予備的事例研究:プロット [全文訳有]

A Preliminary Case Study of Planning With Complex Transitions: Plotting ( http://arxiv.org/abs/2110.14397v1 )

ライセンス: CC BY-SA 4.0
Jordi Coll, Joan Espasa, Ian Miguel, and Mateu Villaret(参考訳) プロット (プロット) は、1989年にタイトーが発売したパズルゲームである。 その目的は、与えられた色付きブロックのグリッドを目標数以下に減らすことである。 これは、グリッドに保持するブロックを繰り返し発射するアバターキャラクタによって達成される。 計画上の問題は、環境のモデルが与えられたら、いくつかの制約を尊重しながら、環境の初期状態から与えられた目標状態へと導く一連のアクションを見つけるように要求する。 プロットのモデル化における重要な難点は、各ショットの後にパズルの状態が変化する様子を捉えることである。 単発は複数のタイルに直接影響し、グリッドは重力の影響を受け、他の多くのタイルを間接的に影響させることができる。 この複雑性を捉えたプロット問題の制約モデルを提示し,評価する。 また,特定AIプランナへの入力に使用される標準言語PDDLにおけるPlottingのモデル化の困難さと非効率性についても論じる。 AIプランニングはよりリッチなモデリング言語から恩恵を受けることができる、と我々は結論付けている。

Plotting is a tile-matching puzzle video game published by Taito in 1989. Its objective is to reduce a given grid of coloured blocks down to a goal number or fewer. This is achieved by the avatar character repeatedly shooting the block it holds into the grid. Plotting is an example of a planning problem: given a model of the environment, a planning problem asks us to find a sequence of actions that can lead from an initial state of the environment to a given goal state while respecting some constraints. The key difficulty in modelling Plotting is in capturing the way the puzzle state changes after each shot. A single shot can affect multiple tiles directly, and the grid is affected by gravity so numerous other tiles can be affected indirectly. We present and evaluate a constraint model of the Plotting problem that captures this complexity. We also discuss the difficulties and inefficiencies of modelling Plotting in PDDL, the standard language used for input to specialised AI planners. We conclude by arguing that AI planning could benefit from a richer modelling language.
翻訳日:2021-10-28 22:00:53 公開日:2021-10-27
# (参考訳) 言語距離は言語分類に役立つか? ハフラミザザとクルマンジソラーニの鑑定 [全文訳有]

Can Linguistic Distance help Language Classification? Assessing Hawrami-Zaza and Kurmanji-Sorani ( http://arxiv.org/abs/2110.14398v1 )

ライセンス: CC BY 4.0
Hossein Hassani(参考訳) ヘラミ語とザザ語(ザザキ語)は、イラン語の研究に活発な言語学者の間で、しばらくの間議論され議論されてきた。 これらの言語/方言がクルド語に属するのか、イラン語の子孫なのかという疑問はマッケンジー (1961) によって答えられた。 しかし、方言を話す人の大多数はその答えに反対している。 彼らの不承認は主に方言話者間の社会学的、文化的、歴史的関係に基づいているようである。 ハフラミ語とザザ語は未調査で未検討のままであるが、クルマンジ語とソラニ語をクルド語の方言として分類することに関してほぼ一致している。 上記の事例に対処する関連する研究は主に質的である。 しかし、計算言語学は定量的観点からその問題にアプローチすることができる。 本研究では,言語的距離の観点から3つの疑問を考察する。 まず、hawramiとzazaの類似点や相違点について、両者の地理的共存を考慮に入れる。 次に、地理的に重複するクルマンジとソラニについてはどうか。 最後に、これらの方言間の距離は、ペア対ですか? 我々は,これらの方言(言語)の音声表現に基づく計算を行い,ペア間の言語距離を算出した。 データを分析して結果について議論する。

To consider Hawrami and Zaza (Zazaki) standalone languages or dialects of a language have been discussed and debated for a while among linguists active in studying Iranian languages. The question of whether those languages/dialects belong to the Kurdish language or if they are independent descendants of Iranian languages was answered by MacKenzie (1961). However, a majority of people who speak the dialects are against that answer. Their disapproval mainly seems to be based on the sociological, cultural, and historical relationship among the speakers of the dialects. While the case of Hawrami and Zaza has remained unexplored and under-examined, an almost unanimous agreement exists about the classification of Kurmanji and Sorani as Kurdish dialects. The related studies to address the mentioned cases are primarily qualitative. However, computational linguistics could approach the question from a quantitative perspective. In this research, we look into three questions from a linguistic distance point of view. First, how similar or dissimilar Hawrami and Zaza are, considering no common geographical coexistence between the two. Second, what about Kurmanji and Sorani that have geographical overlap. Finally, what is the distance among all these dialects, pair by pair? We base our computation on phonetic presentations of these dialects (languages), and we calculate various linguistic distances among the pairs. We analyze the data and discuss the results to conclude.
翻訳日:2021-10-28 21:31:52 公開日:2021-10-27
# (参考訳) U-NetとMR-CNNを用いた前景画像の局所超解像 [全文訳有]

Localized Super Resolution for Foreground Images using U-Net and MR-CNN ( http://arxiv.org/abs/2110.14413v1 )

ライセンス: CC BY 4.0
Umashankar Kumaravelan and Nivedita M(参考訳) 画像は視覚的表現を通じてデータを理解する上で重要な役割を果たす。 これはコンテキストにおけるオブジェクトの明確な表現を与える。 しかし、もしこの画像が明確でなければ、あまり役に立たないかもしれない。 そこで、画像スーパーレゾリューションの話題が生まれ、多くの研究者が画像の品質を高めるためにコンピュータビジョンとディープラーニング技術の適用に取り組んできた。 Super Resolutionの応用の1つは、ポートレート画像の品質を高めることである。 ポートレートイメージは、主にフレーム内のメインオブジェクトのエッセンスをキャプチャすることに焦点を当てたイメージであり、コンテキスト内のオブジェクトがハイライトされ、背景がオクルードされる。 スーパーレゾリューションを実行するとき、モデルは画像全体の解像度を高めようとします。 しかし肖像画では、背景よりも前景の解像度が重要である。 本稿では,U-Net for Super ResolutionとMask Region Based CNN(MR-CNN)を組み合わせた畳み込みニューラルネットワーク(CNN)アーキテクチャの性能について述べる。 この分析は、局所化超分解能、すなわち、LRイメージを事前訓練された画像分割モデル(MR-CNN)に渡して、前景または分割画像の超分解能推論を行い、比較のために構造類似度指数(SSIM)とピーク信号-雑音比(PSNR)のメトリクスを計算する。

Images play a vital role in understanding data through visual representation. It gives a clear representation of the object in context. But if this image is not clear it might not be of much use. Thus, the topic of Image Super Resolution arose and many researchers have been working towards applying Computer Vision and Deep Learning Techniques to increase the quality of images. One of the applications of Super Resolution is to increase the quality of Portrait Images. Portrait Images are images which mainly focus on capturing the essence of the main object in the frame, where the object in context is highlighted whereas the background is occluded. When performing Super Resolution the model tries to increase the overall resolution of the image. But in portrait images the foreground resolution is more important than that of the background. In this paper, the performance of a Convolutional Neural Network (CNN) architecture known as U-Net for Super Resolution combined with Mask Region Based CNN (MR-CNN) for foreground super resolution is analysed. This analysis is carried out based on Localized Super Resolution i.e. We pass the LR Images to a pre-trained Image Segmentation model (MR-CNN) and perform super resolution inference on the foreground or Segmented Images and compute the Structural Similarity Index (SSIM) and Peak Signal-to-Noise Ratio (PSNR) metrics for comparisons.
翻訳日:2021-10-28 21:27:20 公開日:2021-10-27
# (参考訳) TransformerはDeepSetsを一般化し、グラフとハイパーグラフに拡張できる [全文訳有]

Transformers Generalize DeepSets and Can be Extended to Graphs and Hypergraphs ( http://arxiv.org/abs/2110.14416v1 )

ライセンス: CC BY 4.0
Jinwoo Kim, Saeyoon Oh, Seunghoon Hong(参考訳) 本稿では,任意の順序置換不変データ(集合,グラフ,ハイパーグラフ)に対する変換器の一般化を提案する。 まず、トランスフォーマーがdeepsetまたはfirst-order (set-input) permutation invariant mlpを一般化することを観察する。 そして、最近特徴付けられた高次不変MPPに基づいて、高次への自己アテンションの概念を拡張し、高次変換器をオーダー$k$データ(グラフはk=2$、ハイパーグラフは$k>2$)に提案する。 残念ながら、高階変換器は、入力ノード数$n$に対して$\mathcal{O}(n^{2k})$が禁じられていることが判明した。 この問題に対処するために,入力ハイパーエッジ数に2次複雑性を持つ低次高次変換器を提案し,さらにカーネルアテンションアプローチを採用して,複雑性を線形に低減する。 特に,カーネルに注意を向けた疎二階トランスは,漸近的に同一の複雑性を持ちながら,理論的にメッセージパッシング操作よりも表現力が高いことを示す。 本モデルでは,大規模グラフ回帰およびセット・トゥ・(ハイパー)グラフ予測タスクにおいて,不変mlpおよびメッセージパッシンググラフニューラルネットワークの性能向上を実現する。 私たちの実装はhttps://github.com/j w9730/hotで利用可能です。

We present a generalization of Transformers to any-order permutation invariant data (sets, graphs, and hypergraphs). We begin by observing that Transformers generalize DeepSets, or first-order (set-input) permutation invariant MLPs. Then, based on recently characterized higher-order invariant MLPs, we extend the concept of self-attention to higher orders and propose higher-order Transformers for order-$k$ data ($k=2$ for graphs and $k>2$ for hypergraphs). Unfortunately, higher-order Transformers turn out to have prohibitive complexity $\mathcal{O}(n^{2k})$ to the number of input nodes $n$. To address this problem, we present sparse higher-order Transformers that have quadratic complexity to the number of input hyperedges, and further adopt the kernel attention approach to reduce the complexity to linear. In particular, we show that the sparse second-order Transformers with kernel attention are theoretically more expressive than message passing operations while having an asymptotically identical complexity. Our models achieve significant performance improvement over invariant MLPs and message-passing graph neural networks in large-scale graph regression and set-to-(hyper)graph prediction tasks. Our implementation is available at https://github.com/j w9730/hot.
翻訳日:2021-10-28 21:19:38 公開日:2021-10-27
# (参考訳) 自己教師付き韻律表現学習によるゼロショット音声変換

Zero-shot Voice Conversion via Self-supervised Prosody Representation Learning ( http://arxiv.org/abs/2110.14422v1 )

ライセンス: CC BY 4.0
Shijun Wang, Dimche Kostadinov, Damian Borth(参考訳) 目に見えない話者のためのVoice Conversion(VC、ゼロショットVC)は、実際のユースケースシナリオで有用であることから、魅力的なトピックである。 この分野での最近の研究は、発話内容と話者特性を分離する分節法によって進展した。 重要ではあるが、未知話者に対する不連続な韻律的特徴の抽出は未解決の問題である。 本稿では,プロソディ特性を効果的に学習するための新しい自己教師付きアプローチを提案する。 そして、学習した韻律表現を用いて、ゼロショット変換のためにVCモデルをトレーニングします。 評価の結果,不規則な韻律表現を効率的に抽出できることが示される。 また,最先端のゼロショットVCモデルと比較して性能が向上した。

Voice Conversion (VC) for unseen speakers, also known as zero-shot VC, is an attractive topic due to its usefulness in real use-case scenarios. Recent work in this area made progress with disentanglement methods that separate utterance content and speaker characteristics. Although crucial, extracting disentangled prosody characteristics for unseen speakers remains an open issue. In this paper, we propose a novel self-supervised approach to effectively learn the prosody characteristics. Then, we use the learned prosodic representations to train our VC model for zero-shot conversion. Our evaluation demonstrates that we can efficiently extract disentangled prosody representation. Moreover, we show improved performance compared to the state-of-the-art zero-shot VC models.
翻訳日:2021-10-28 20:27:45 公開日:2021-10-27
# (参考訳) ゲージ同変射影核によるリーマン多様体上のベクトル値ガウス過程 [全文訳有]

Vector-valued Gaussian Processes on Riemannian Manifolds via Gauge Equivariant Projected Kernels ( http://arxiv.org/abs/2110.14423v1 )

ライセンス: CC BY 4.0
Michael Hutchinson, Alexander Terenin, Viacheslav Borovitskiy, So Takao, Yee Whye Teh, Marc Peter Deisenroth(参考訳) ガウス過程は未知の関数を不確実性を表す方法で学習し、最適な意思決定システムの構築を容易にする機械学習モデルである。 科学の新たな領域にガウス過程を展開したいという願望によって、急速に成長する研究のラインは、球面やトーラスのようなリーマン多様体を含む非ユークリッド領域を扱うためにこれらのモデルを建設的に拡張することに焦点を当てている。 このクラスをリーマン多様体上のベクトル場をモデル化するために一般化する手法を提案する。 そこで本稿では,ガウスベクトル場,すなわちスカラー値リーマン核から幾何学と整合するベクトル値ガウス過程を誘導するゲージ同変核の構成法を提案する。 我々は,変分推論などの標準ガウスプロセストレーニング手法を,この設定に拡張する。 これにより、リーマン多様体上のベクトル値ガウス過程を標準手法で訓練することができ、機械学習の実践者が利用できる。

Gaussian processes are machine learning models capable of learning unknown functions in a way that represents uncertainty, thereby facilitating construction of optimal decision-making systems. Motivated by a desire to deploy Gaussian processes in novel areas of science, a rapidly-growing line of research has focused on constructively extending these models to handle non-Euclidean domains, including Riemannian manifolds, such as spheres and tori. We propose techniques that generalize this class to model vector fields on Riemannian manifolds, which are important in a number of application areas in the physical sciences. To do so, we present a general recipe for constructing gauge equivariant kernels, which induce Gaussian vector fields, i.e. vector-valued Gaussian processes coherent with geometry, from scalar-valued Riemannian kernels. We extend standard Gaussian process training methods, such as variational inference, to this setting. This enables vector-valued Gaussian processes on Riemannian manifolds to be trained using standard methods and makes them accessible to machine learning practitioners.
翻訳日:2021-10-28 20:23:59 公開日:2021-10-27
# (参考訳) 局所微分的プライベートベイズ推論 [全文訳有]

Locally Differentially Private Bayesian Inference ( http://arxiv.org/abs/2110.14426v1 )

ライセンス: CC BY 4.0
Tejas Kulkarni, Joonas J\"alk\"o, Samuel Kaski, Antti Honkela(参考訳) 近年、アグリゲータが信頼できないいくつかのシナリオにおいて、プライバシー保護データ収集の選択手法として、ローカルディファレンシャルプライバシ(LDP)が出現している。 LDPは、ユーザの端にノイズを加えることによって、クライアント側のプライバシを提供する。 したがって、クライアントはアグリゲータの信頼性に頼る必要はない。 本研究では,局所摂動観測に基づいて,LDPの下でのプライバシーに付加される雑音をベイジアン推論で考慮し,雑音を考慮した確率的モデリングフレームワークを提案する。 LDPプロトコルが提供する強力なプライバシ保護(中央モデルと比較)は、より厳格なプライバシユーティリティトレードオフをもたらす。 ベイズ条件下での正確な不確かさの定量化のために, ldpが提起した計算と統計の課題に取り組む。 本稿では,不定値分布および多変量分布に対するパラメータ推定とロジスティック回帰および線形回帰の枠組みの有効性を示す。

In recent years, local differential privacy (LDP) has emerged as a technique of choice for privacy-preserving data collection in several scenarios when the aggregator is not trustworthy. LDP provides client-side privacy by adding noise at the user's end. Thus, clients need not rely on the trustworthiness of the aggregator. In this work, we provide a noise-aware probabilistic modeling framework, which allows Bayesian inference to take into account the noise added for privacy under LDP, conditioned on locally perturbed observations. Stronger privacy protection (compared to the central model) provided by LDP protocols comes at a much harsher privacy-utility trade-off. Our framework tackles several computational and statistical challenges posed by LDP for accurate uncertainty quantification under Bayesian settings. We demonstrate the efficacy of our framework in parameter estimation for univariate and multi-variate distributions as well as logistic and linear regression.
翻訳日:2021-10-28 19:28:14 公開日:2021-10-27
# (参考訳) 確率近似と強化学習における漸近統計量のODE法

The ODE Method for Asymptotic Statistics in Stochastic Approximation and Reinforcement Learning ( http://arxiv.org/abs/2110.14427v1 )

ライセンス: CC BY 4.0
Vivek Borkar, Shuhang Chen, Adithya Devraj, Ioannis Kontoyiannis and Sean Meyn(参考訳) この論文はマルコフ雑音によって引き起こされる確率近似の収束と漸近統計に関するものである:$$ \theta_{n+1}= \theta_n + \alpha_{n + 1} f(\theta_n, \Phi_{n+1}) \,,,\quad n\ge 0, $$$ in where each $\theta_n\in\Re^d$, $ \{ \Phi_n \}$は定常分布が$\pi$, $f:\Re^d\times \text{X} \to\Re^d$。 標準的なリプシッツ束の$f$と消滅するステップサイズ列 $\{\alpha_n\}$ の条件に加えて、関連するODE が大域的に漸近的に安定であり、固定点が $\theta^*$ と書かれ、$\bar f(\theta)=E[f(\theta,\Phi)]$ が$\Phi\sim\pi$ と表される。 さらに、ベクトル場に関して定義されるODE@$\infty$, $$ \bar f_\infty(\theta):= \lim_{r\to\infty} r^{-1} \bar f(r\theta) \,,,\qquad \theta\in\Re^d, $$は漸近安定である。 主な貢献は以下のとおりである。 (i) 列 $\theta$ が収束するのは、$\Phi$ が幾何学的にエルゴード的であり、$f$ 上の互換境界を持つときである。 残りの結果はマルコフ連鎖のより強い仮定の下で確立され、ドンスカー=ヴァラダン・リャプノフのドリフト条件(dv3)のわずかに弱いバージョンである。 (ii) Lyapunov 関数は、$L_4$ における$\{ \theta_n\}$ の収束を意味するジョイントプロセス $\{\theta_n,\Phi_n\}$ に対して構成される。 (iii)正規化エラー$z_n:= (\theta_n-\theta^*)/\sqrt{\alpha_n}$に対する通常の1次元CLTと同様に関数型CLTを確立する。 モーメント境界と CLT は正規化共分散の収束を暗示し、$$ \lim_{n \to \infty} E [ z_n z_n^T ] = \Sigma_\theta, $$ ここで$\Sigma_\theta$ は CLT に現れる漸近共分散である。 (iv)マルコフ連鎖 $\Phi$ が幾何学的にエルゴード的であるが、満足しないような例(DV3)。 アルゴリズムは収束するが、第2モーメントは非有界である。

The paper concerns convergence and asymptotic statistics for stochastic approximation driven by Markovian noise: $$ \theta_{n+1}= \theta_n + \alpha_{n + 1} f(\theta_n, \Phi_{n+1}) \,,\quad n\ge 0, $$ in which each $\theta_n\in\Re^d$, $ \{ \Phi_n \}$ is a Markov chain on a general state space X with stationary distribution $\pi$, and $f:\Re^d\times \text{X} \to\Re^d$. In addition to standard Lipschitz bounds on $f$, and conditions on the vanishing step-size sequence $\{\alpha_n\}$, it is assumed that the associated ODE is globally asymptotically stable with stationary point denoted $\theta^*$, where $\bar f(\theta)=E[f(\theta,\Phi)]$ with $\Phi\sim\pi$. Moreover, the ODE@$\infty$ defined with respect to the vector field, $$ \bar f_\infty(\theta):= \lim_{r\to\infty} r^{-1} \bar f(r\theta) \,,\qquad \theta\in\Re^d, $$ is asymptotically stable. The main contributions are summarized as follows: (i) The sequence $\theta$ is convergent if $\Phi$ is geometrically ergodic, and subject to compatible bounds on $f$. The remaining results are established under a stronger assumption on the Markov chain: A slightly weaker version of the Donsker-Varadhan Lyapunov drift condition known as (DV3). (ii) A Lyapunov function is constructed for the joint process $\{\theta_n,\Phi_n\}$ that implies convergence of $\{ \theta_n\}$ in $L_4$. (iii) A functional CLT is established, as well as the usual one-dimensional CLT for the normalized error $z_n:= (\theta_n-\theta^*)/\sqrt{\alpha_n}$. Moment bounds combined with the CLT imply convergence of the normalized covariance, $$ \lim_{n \to \infty} E [ z_n z_n^T ] = \Sigma_\theta, $$ where $\Sigma_\theta$ is the asymptotic covariance appearing in the CLT. (iv) An example is provided where the Markov chain $\Phi$ is geometrically ergodic but it does not satisfy (DV3). While the algorithm is convergent, the second moment is unbounded.
翻訳日:2021-10-28 19:00:41 公開日:2021-10-27
# (参考訳) 逆行性ニューロンプルーニングによる深部モデルの構築 [全文訳有]

Adversarial Neuron Pruning Purifies Backdoored Deep Models ( http://arxiv.org/abs/2110.14430v1 )

ライセンス: CC BY 4.0
Dongxian Wu, Yisen Wang(参考訳) ディープニューラルネットワーク(DNN)が大きくなるにつれて、計算リソースに対する彼らの要求は膨大になり、アウトソーシングトレーニングがより一般的になる。 しかし、サードパーティのプラットフォームでのトレーニングでは、悪意のあるトレーナーが、正常にクリーンなサンプルで振る舞うバックドア付きdnnを返す可能性がある。 トリガーの知識がなければ、バックドアから良質なDNNを識別または回収することは困難である。 本稿では,まず,バックドア付きdnnの予期せぬ感度,すなわち,ニューロンが逆向きに摂動している場合,より崩壊しやすいこと,およびクリーンサンプルのターゲットラベルを予測しやすいことを明らかにする。 そこで本研究では,これらの観察に基づいて,感性ニューロンを刺激して注入されたバックドアを浄化する新しいモデル修復法であるadversarial neuron pruning (anp)を提案する。 実験では、極端に少ないクリーンなデータ(例えば1%)であっても、anpは、明らかに性能低下を引き起こすことなく、注入されたバックドアを効果的に除去する。

As deep neural networks (DNNs) are growing larger, their requirements for computational resources become huge, which makes outsourcing training more popular. Training in a third-party platform, however, may introduce potential risks that a malicious trainer will return backdoored DNNs, which behave normally on clean samples but output targeted misclassifications whenever a trigger appears at the test time. Without any knowledge of the trigger, it is difficult to distinguish or recover benign DNNs from backdoored ones. In this paper, we first identify an unexpected sensitivity of backdoored DNNs, that is, they are much easier to collapse and tend to predict the target label on clean samples when their neurons are adversarially perturbed. Based on these observations, we propose a novel model repairing method, termed Adversarial Neuron Pruning (ANP), which prunes some sensitive neurons to purify the injected backdoor. Experiments show, even with only an extremely small amount of clean data (e.g., 1%), ANP effectively removes the injected backdoor without causing obvious performance degradation.
翻訳日:2021-10-28 18:58:01 公開日:2021-10-27
# (参考訳) 音楽構造解析のためのベータ分割を用いた非負タッカー分解 [全文訳有]

Nonnegative Tucker Decomposition with Beta-divergence for Music Structure Analysis of audio signals ( http://arxiv.org/abs/2110.14434v1 )

ライセンス: CC BY 4.0
Axel Marmoret, Florian Voorwinden, Valentin Leplat, J\'er\'emy E. Cohen, Fr\'ed\'eric Bimbot(参考訳) テンソル分解モデルである非負タッカー分解(NTD)は、テンソルデータ中の有意なパターンを盲目的に抽出する能力から近年注目されている。 それでも、NTDを計算するための既存のアルゴリズムは、主にユークリッド損失のために設計されている。 一方,NTDは近年,音楽情報検索において強力なツールであることが証明されている。 本研究は、音声処理においてより優れた損失と見なされるベータ・ディバージェンス損失を伴うntdを計算するための乗法的更新アルゴリズムを提案する。 特に,難解なアプローチであるテンソル代数を用いて,乗法規則を効率的に実装する方法を示す。 最後に,非教師付きntdがベータダイバージェンス損失に適合する音楽構造解析タスクが,ユークリッド損失で得られた先行結果を上回っていることを示す。

Nonnegative Tucker Decomposition (NTD), a tensor decomposition model, has received increased interest in the recent years because of its ability to blindly extract meaningful patterns in tensor data. Nevertheless, existing algorithms to compute NTD are mostly designed for the Euclidean loss. On the other hand, NTD has recently proven to be a powerful tool in Music Information Retrieval. This work proposes a Multiplicative Updates algorithm to compute NTD with the beta-divergence loss, often considered a better loss for audio processing. We notably show how to implement efficiently the multiplicative rules using tensor algebra, a naive approach being intractable. Finally, we show on a Music Structure Analysis task that unsupervised NTD fitted with beta-divergence loss outperforms earlier results obtained with the Euclidean loss.
翻訳日:2021-10-28 18:22:32 公開日:2021-10-27
# (参考訳) 音声に基づく音楽構造解析のための単音自動符号化方式の検討 [全文訳有]

Exploring single-song autoencoding schemes for audio-based music structure analysis ( http://arxiv.org/abs/2110.14437v1 )

ライセンス: CC BY 4.0
Axel Marmoret, J\'er\'emy E. Cohen, Fr\'ed\'eric Bimbot(参考訳) 深層ニューラルネットワークが複雑なデータ関係や表現を学習する能力は近年確立されているが、一般的には大量のトレーニングデータに依存している。 この研究は、低次元のオートエンコーダを訓練して、特定の歌に特有の潜在/圧縮表現を学習し、歌の構造を推測する「ピース固有」自動エンコード方式を探求する。 このようなモデルは、音楽構造解析において収集が面倒でしばしば曖昧であることで知られる監督や注釈に依存しない。 提案手法は,rwc-popデータセット上のlog mel spectrogram表現を用いた場合,3秒許容で教師あり最先端手法の性能レベルを実現する。

The ability of deep neural networks to learn complex data relations and representations is established nowadays, but it generally relies on large sets of training data. This work explores a "piece-specific" autoencoding scheme, in which a low-dimensional autoencoder is trained to learn a latent/compressed representation specific to a given song, which can then be used to infer the song structure. Such a model does not rely on supervision nor annotations, which are well-known to be tedious to collect and often ambiguous in Music Structure Analysis. We report that the proposed unsupervised auto-encoding scheme achieves the level of performance of supervised state-of-the-art methods with 3 seconds tolerance when using a Log Mel spectrogram representation on the RWC-Pop dataset.
翻訳日:2021-10-28 18:13:01 公開日:2021-10-27
# (参考訳) GAN圧縮における判別器の再検討:発電機識別器協調圧縮方式 [全文訳有]

Revisiting Discriminator in GAN Compression: A Generator-discrimina tor Cooperative Compression Scheme ( http://arxiv.org/abs/2110.14439v1 )

ライセンス: CC BY 4.0
ShaoJie Li, Jie Wu, Xuefeng Xiao, Fei Chao, Xudong Mao, Rongrong Ji(参考訳) 近年,資源制約エッジデバイスにGANをデプロイする際の計算オーバーヘッドとメモリ使用量を大幅に削減することを目的とした,GAN圧縮のための一連のアルゴリズムが検討されている。 しかし、既存のGAN圧縮作業のほとんどはジェネレータの圧縮方法のみに焦点を当てているが、判別器を考慮に入れなかった。 本稿では,GAN圧縮における識別器の役割を再考し,GAN圧縮のための新しいジェネレータ-識別器協調圧縮スキームを設計する。 GCC内では、選択的活性化判別器が局所的容量制約と大域的調整制約に応じて畳み込みチャネルを自動的に選択・活性化し、対向訓練中に軽量発電機とのナッシュ平衡を維持するとともにモード崩壊を回避する。 オリジナルジェネレータと判別器もゼロから最適化され、教師モデルとして機能し、プレナードジェネレータと選択的アクティベーション判別器を段階的に洗練する。 新しいオンライン共同蒸留方式は, 教師生成器と判別器の中間特性を最大限活用し, 軽量発生器の性能をさらに高めるように設計されている。 GANに基づく様々な生成タスクに関する大規模な実験は、GCCの有効性と一般化を実証している。 その中でもGCCは80%の計算コスト削減に寄与し、画像翻訳タスクでは同等のパフォーマンスを維持している。 私たちのコードとモデルは、 \url{https://github.com/S JLeo/GCC}で利用可能です。

Recently, a series of algorithms have been explored for GAN compression, which aims to reduce tremendous computational overhead and memory usages when deploying GANs on resource-constrained edge devices. However, most of the existing GAN compression work only focuses on how to compress the generator, while fails to take the discriminator into account. In this work, we revisit the role of discriminator in GAN compression and design a novel generator-discrimina tor cooperative compression scheme for GAN compression, termed GCC. Within GCC, a selective activation discriminator automatically selects and activates convolutional channels according to a local capacity constraint and a global coordination constraint, which help maintain the Nash equilibrium with the lightweight generator during the adversarial training and avoid mode collapse. The original generator and discriminator are also optimized from scratch, to play as a teacher model to progressively refine the pruned generator and the selective activation discriminator. A novel online collaborative distillation scheme is designed to take full advantage of the intermediate feature of the teacher generator and discriminator to further boost the performance of the lightweight generator. Extensive experiments on various GAN-based generation tasks demonstrate the effectiveness and generalization of GCC. Among them, GCC contributes to reducing 80% computational costs while maintains comparable performance in image translation tasks. Our code and models are available at \url{https://github.com/S JLeo/GCC}.
翻訳日:2021-10-28 18:04:47 公開日:2021-10-27
# (参考訳) 3次元モデルに基づく統計的データ拡張を用いた畳み込みニューラルネットワークによる予測地質図の作成 [全文訳有]

Predictive Geological Mapping with Convolution Neural Network Using Statistical Data Augmentation on a 3D Model ( http://arxiv.org/abs/2110.14440v1 )

ライセンス: CC BY 4.0
Cedou Matthieu, Gloaguen Erwan, Blouin Martin, Cat\'e Antoine, Paiement Jean-Philippe, Tirdad Shiva(参考訳) 空中磁気データは地質図の作成によく用いられる。 地理的マッピングはセマンティックセグメンテーション問題に匹敵するので、機械学習はこのタスクを迅速かつ客観的に部分的に満たす可能性がある。 この手法は高品質なデータセットを必要とするため、3次元地質学および磁気感受性モデルを用いたデータ拡張ワークフローを開発した。 このワークフローでは、ソフトトレーニングされた多点統計を使い、多くの合成3次元地質モデルを作成し、逐次ガウスシミュレーションアルゴリズムを用いて、適切な磁気分布を持つモデルを配置する。 次に、フォワードモデリングを用いて、合成モデルの空中磁気応答を計算し、それらに対応するサービシアルリソロジーに関連付ける。 Gated Shape Convolutional Neural Networkアルゴリズムは、生成した合成データセットに基づいて、空中磁気データの地質マッピングを行い、リソロジー接触を検出する。 アルゴリズムはまた、異なるスケールの構造を強調する注意マップを提供し、クラスタリングは、その高レベルな特徴に適用され、領域の半教師付きセグメンテーションを行う。 合成データセットの一部と隣接領域のデータで検証した結果,この手法は空中磁気データを用いてサーベイシアル地質を区分するのに適していることがわかった。 特に、クラスター化は、磁気異常の良好なセグメンテーションを、関連する地質図に示す。 さらに、第1の注意マップは、低スケールで構造を分離し、元のデータの関連する表現を示す。 そこで本手法は, 地磁気データのみを用いて, 地質学的および岩石学的3次元モデルが存在する地域, あるいは同じ地質学的状況を共有する地域で, 高品質で新しい地形図を作成できる。

Airborne magnetic data are commonly used to produce preliminary geological maps. Machine learning has the potential to partly fulfill this task rapidly and objectively, as geological mapping is comparable to a semantic segmentation problem. Because this method requires a high-quality dataset, we developed a data augmentation workflow that uses a 3D geological and magnetic susceptibility model as input. The workflow uses soft-constrained Multi-Point Statistics, to create many synthetic 3D geological models, and Sequential Gaussian Simulation algorithms, to populate the models with the appropriate magnetic distribution. Then, forward modeling is used to compute the airborne magnetic responses of the synthetic models, which are associated with their counterpart surficial lithologies. A Gated Shape Convolutional Neural Network algorithm was trained on a generated synthetic dataset to perform geological mapping of airborne magnetic data and detect lithological contacts. The algorithm also provides attention maps highlighting the structures at different scales, and clustering was applied to its high-level features to do a semi-supervised segmentation of the area. The validation conducted on a portion of the synthetic dataset and data from adjacent areas shows that the methodology is suitable to segment the surficial geology using airborne magnetic data. Especially, the clustering shows a good segmentation of the magnetic anomalies into a pertinent geological map. Moreover, the first attention map isolates the structures at low scales and shows a pertinent representation of the original data. Thus, our method can be used to produce preliminary geological maps of good quality and new representations of any area where a geological and petrophysical 3D model exists, or in areas sharing the same geological context, using airborne magnetic data only.
翻訳日:2021-10-28 17:48:31 公開日:2021-10-27
# (参考訳) 物理制約系の故障回避能動学習 [全文訳有]

Failure-averse Active Learning for Physics-constrained Systems ( http://arxiv.org/abs/2110.14443v1 )

ライセンス: CC BY 4.0
Cheolhei Lee, Xing Wang, Jianguo Wu, and Xiaowei Yue(参考訳) アクティブ・ラーニングは、高価なサンプリングコストのシステムの設計とモデリングのために開発された機械学習のサブフィールドである。 産業と工学のシステムは通常、物理の制約を受けており、それらが違反した場合に致命的な失敗を引き起こす可能性がある。 本稿では,本システムを管理する暗黙の物理制約を考慮した新しい能動的学習手法を提案する。 安全な分散低減は、対象モデルの分散を減らすための安全な領域を探索し、安全な領域の拡張は、確率的制約モデルを活用した探索可能な領域を拡張することを目的としている。 グローバル獲得関数は、2つのタスクの獲得機能を公平に最適化するために考案され、その理論的特性を提供する。 提案手法はtsai-wu基準を用いた材料故障を考慮した複合胴体組立プロセスに適用され, 明示的な故障領域の知識を必要とせずにゼロ障害を実現できる。

Active learning is a subfield of machine learning that is devised for design and modeling of systems with highly expensive sampling costs. Industrial and engineering systems are generally subject to physics constraints that may induce fatal failures when they are violated, while such constraints are frequently underestimated in active learning. In this paper, we develop a novel active learning method that avoids failures considering implicit physics constraints that govern the system. The proposed approach is driven by two tasks: the safe variance reduction explores the safe region to reduce the variance of the target model, and the safe region expansion aims to extend the explorable region exploiting the probabilistic model of constraints. The global acquisition function is devised to judiciously optimize acquisition functions of two tasks, and its theoretical properties are provided. The proposed method is applied to the composite fuselage assembly process with consideration of material failure using the Tsai-wu criterion, and it is able to achieve zero-failure without the knowledge of explicit failure regions.
翻訳日:2021-10-28 17:27:59 公開日:2021-10-27
# (参考訳) 深部生成モデルによるエネルギー時系列シナリオの検証手法 [全文訳有]

Validation Methods for Energy Time Series Scenarios from Deep Generative Models ( http://arxiv.org/abs/2110.14451v1 )

ライセンス: CC BY 4.0
Eike Cramer, Leonardo Rydin Gorj\~ao, Alexander Mitsos, Benjamin Sch\"afer, Dirk Witthaut, Manuel Dahmen(参考訳) 現代のエネルギーシステムの設計と運用は、時間依存的かつ不確実なパラメータ、例えば再生可能発電、負荷需要、電力価格に大きく影響されている。 これらは典型的にはシナリオとして知られる離散的な実現の集合で表される。 一般的なシナリオ生成アプローチでは、データ分散に関する前提なしにシナリオを生成するディープ生成モデル(DGM)を使用する。 しかし、生成されたシナリオの検証は困難であり、適切な検証方法に関する包括的な議論が現在不足している。 この議論を始めるために、エネルギーシナリオ生成文献で現在使われている検証手法について批判的な評価を行う。 特に,確率密度,自己相関,パワースペクトル密度に基づいて検証手法を評価する。 さらに,マルチフラクタル回帰変動解析(mfdfa)を,ピーク,バースト,高原などの非自明な特徴に対する付加的検証手法として用いることを提案する。 代表的な例として、再生可能発電時間(2013~2015年)と2017~2019年(2017~2019年)の欧州エネルギー取引所による日内電気価格時系列の2つの再生可能発電時間系列(2013~2015年)において、GAN(Generative Adversarial Network)、WGAN(Wasserstein GANs)、変分オートエンコーダ(VAEs)を訓練する。 過去のデータと生成されたデータの両方に4つの検証手法を適用し,検証結果の解釈と一般的な誤り,落とし穴,検証方法の制限について論じる。 一つの手法がシナリオを十分に特徴づけるわけではないが、理想的には複数の手法を含め、短時間でシナリオの文脈で慎重に解釈すべきである。

The design and operation of modern energy systems are heavily influenced by time-dependent and uncertain parameters, e.g., renewable electricity generation, load-demand, and electricity prices. These are typically represented by a set of discrete realizations known as scenarios. A popular scenario generation approach uses deep generative models (DGM) that allow scenario generation without prior assumptions about the data distribution. However, the validation of generated scenarios is difficult, and a comprehensive discussion about appropriate validation methods is currently lacking. To start this discussion, we provide a critical assessment of the currently used validation methods in the energy scenario generation literature. In particular, we assess validation methods based on probability density, auto-correlation, and power spectral density. Furthermore, we propose using the multifractal detrended fluctuation analysis (MFDFA) as an additional validation method for non-trivial features like peaks, bursts, and plateaus. As representative examples, we train generative adversarial networks (GANs), Wasserstein GANs (WGANs), and variational autoencoders (VAEs) on two renewable power generation time series (photovoltaic and wind from Germany in 2013 to 2015) and an intra-day electricity price time series form the European Energy Exchange in 2017 to 2019. We apply the four validation methods to both the historical and the generated data and discuss the interpretation of validation results as well as common mistakes, pitfalls, and limitations of the validation methods. Our assessment shows that no single method sufficiently characterizes a scenario but ideally validation should include multiple methods and be interpreted carefully in the context of scenarios over short time periods.
翻訳日:2021-10-28 17:06:05 公開日:2021-10-27
# (参考訳) 事前学習ニューラルネットワークを用いたCBIR [全文訳有]

CBIR using Pre-Trained Neural Networks ( http://arxiv.org/abs/2110.14455v1 )

ライセンス: CC BY 4.0
Agnel Lazar Alappat, Prajwal Nakhate, Sagar Suman, Ambarish Chandurkar, Varad Pimpalkhute, Tapan Jain(参考訳) 最近の画像検索の研究の多くは、ニューラルネットワークをコアコンポーネントとして使うことに焦点が当てられている。 他の領域の多くの論文は、複数のモデルをトレーニングし、その結果を組み合わせることで良い結果が得られることを示した。 これは、単一のニューラルネットワークモデルでは、入力から十分な情報を抽出できないためである。 本稿では,異なるアプローチを採用することを目指している。 1つのモデルを使う代わりに、事前訓練されたインセプションV3モデルを使用し、画像の低次元表現を形成する最後の完全連結層の活性化を抽出する。 この特徴行列を分岐に分割し、各分岐に対して別個の特徴抽出を行い、ベクトルに平坦化された複数の特徴を得る。 このような個々のベクトルは結合され、単一の結合機能を得る。 cub200-2011のデータセットを使って、200羽の鳥のクラスからモデルをトレーニングします。 トレーニング精度は99.46%,検証精度は84.56%であった。 3つの分枝グローバルディスクリプタのさらなる使用により、検証精度は88.89%向上した。 そこで我々はMS-RMAC特徴抽出手法を用いた。

Much of the recent research work in image retrieval, has been focused around using Neural Networks as the core component. Many of the papers in other domain have shown that training multiple models, and then combining their outcomes, provide good results. This is since, a single Neural Network model, may not extract sufficient information from the input. In this paper, we aim to follow a different approach. Instead of the using a single model, we use a pretrained Inception V3 model, and extract activation of its last fully connected layer, which forms a low dimensional representation of the image. This feature matrix, is then divided into branches and separate feature extraction is done for each branch, to obtain multiple features flattened into a vector. Such individual vectors are then combined, to get a single combined feature. We make use of CUB200-2011 Dataset, which comprises of 200 birds classes to train the model on. We achieved a training accuracy of 99.46% and validation accuracy of 84.56% for the same. On further use of 3 branched global descriptors, we improve the validation accuracy to 88.89%. For this, we made use of MS-RMAC feature extraction method.
翻訳日:2021-10-28 16:32:36 公開日:2021-10-27
# (参考訳) 勾配に基づくメタ学習の高速化 [全文訳有]

Accelerating Gradient-based Meta Learner ( http://arxiv.org/abs/2110.14459v1 )

ライセンス: CC BY 4.0
Varad Pimpalkhute, Amey Pandit, Mayank Mishra, Rekha Singhal(参考訳) メタラーナーモデルが新しいタスクに順応し、一般化する能力のため、メタラーナーモデルが近年注目されているため、学習の時間とデータ要件の両方が削減されている。 しかし、メタ学習者の大きな欠点は、新しいタスクの学習がより少ないデータで実現可能な状態に達するためには、多くのイテレーションと多くの時間が必要になることである。 我々は,MAML(Model Agnostic Meta Learning)などのメタ学習アルゴリズムを高速化するために,様々なアクセラレーション手法を提案する。 文献に提案されているよく知られたrnnオプティマイザに基づくメタ学習者に3.73倍の加速度を与える [11]。 本稿では,メタ学習プロセスの高速化だけでなく,モデルの精度向上にも寄与する,クラスタ内でのトレーニングタスクの新たな方法を提案する。 キーワード:メタ学習、RNNオプティマイザ、AGI、パフォーマンス最適化

Meta Learning has been in focus in recent years due to the meta-learner model's ability to adapt well and generalize to new tasks, thus, reducing both the time and data requirements for learning. However, a major drawback of meta learner is that, to reach to a state from where learning new tasks becomes feasible with less data, it requires a large number of iterations and a lot of time. We address this issue by proposing various acceleration techniques to speed up meta learning algorithms such as MAML (Model Agnostic Meta Learning). We present 3.73X acceleration on a well known RNN optimizer based meta learner proposed in literature [11]. We introduce a novel method of training tasks in clusters, which not only accelerates the meta learning process but also improves model accuracy performance. Keywords: Meta learning, RNN optimizer, AGI, Performance optimization
翻訳日:2021-10-28 16:21:15 公開日:2021-10-27
# (参考訳) テンソル分解を用いたモデルベースマルチエージェント強化学習 [全文訳有]

Model based Multi-agent Reinforcement Learning with Tensor Decompositions ( http://arxiv.org/abs/2110.14524v1 )

ライセンス: CC BY 4.0
Pascal Van Der Vaart, Anuj Mahajan, Shimon Whiteson(参考訳) 多エージェント強化学習の課題は、難解な状態-作用空間を一般化できることである。 Tesseract [Mahajan et al., 2021] から着想を得たこのポジションペーパーは、CPランクの低いテンソルとして遷移と報酬関数をモデル化することにより、未探索の状態-作用対上の状態-作用空間の一般化を研究する。 合成MDPの初期実験は、モデルに基づく強化学習アルゴリズムでテンソル分解を用いることで、真の遷移関数と報酬関数が実際に低ランクである場合、はるかに高速な収束をもたらすことを示した。

A challenge in multi-agent reinforcement learning is to be able to generalize over intractable state-action spaces. Inspired from Tesseract [Mahajan et al., 2021], this position paper investigates generalisation in state-action space over unexplored state-action pairs by modelling the transition and reward functions as tensors of low CP-rank. Initial experiments on synthetic MDPs show that using tensor decompositions in a model-based reinforcement learning algorithm can lead to much faster convergence if the true transition and reward functions are indeed of low rank.
翻訳日:2021-10-28 16:16:04 公開日:2021-10-27
# (参考訳) テンソル分解を用いた因子的行動空間の強化学習 [全文訳有]

Reinforcement Learning in Factored Action Spaces using Tensor Decompositions ( http://arxiv.org/abs/2110.14538v1 )

ライセンス: CC BY 4.0
Anuj Mahajan, Mikayel Samvelyan, Lei Mao, Viktor Makoviychuk, Animesh Garg, Jean Kossaifi, Shimon Whiteson, Yuke Zhu, Animashree Anandkumar(参考訳) 本稿では, テンソル分解を用いた大規模因子化作用空間における強化学習(RL)の新たな解法を提案する, 以前に発表されたTESSERACT [Mahajan et al., 2021] の抽象的拡張について述べる。 この要約の目標は2つある:(1)テンソル研究コミュニティの間で、近似 rl の手法と解析法を作成すること、(2)テンソル分解が使用可能な因子付きアクション空間の一般化設定を明らかにすることである。 本研究では, エージェント間で自然に作用空間を分解し, 候補解に対する仮説空間の近似に頼らずに学習が難解となるような, 協調型マルチエージェント強化学習シナリオを例示する。

We present an extended abstract for the previously published work TESSERACT [Mahajan et al., 2021], which proposes a novel solution for Reinforcement Learning (RL) in large, factored action spaces using tensor decompositions. The goal of this abstract is twofold: (1) To garner greater interest amongst the tensor research community for creating methods and analysis for approximate RL, (2) To elucidate the generalised setting of factored action spaces where tensor decompositions can be used. We use cooperative multi-agent reinforcement learning scenario as the exemplary setting where the action space is naturally factored across agents and learning becomes intractable without resorting to approximation on the underlying hypothesis space for candidate solutions.
翻訳日:2021-10-28 15:59:31 公開日:2021-10-27
# SACR2によるデモから学ぶ - Reward Relabelingによるソフトアクター批判

Learning from demonstrations with SACR2: Soft Actor-Critic with Reward Relabeling ( http://arxiv.org/abs/2110.14464v1 )

ライセンス: Link先を確認
Jesus Bujalance Martin, Rapha\"el Chekroun and Fabien Moutarde(参考訳) 近年、深層強化学習(DRL)は、ロボット工学、自律運転、ビデオゲームといった複雑な意思決定アプリケーションへの侵入に成功した。 しかし、DRLアルゴリズムのよく知られた欠点は、その非効率性であり、膨大なデータを収束させる必要があることである。 オフポリシーアルゴリズムはサンプル効率が高く、リプレイバッファに格納されたオフポリシーデータの恩恵を受ける可能性がある。 エージェントは、早期に成功した状態やアクションに晒され、学習プロセスを加速し、パフォーマンスを向上させることができる。 これまで、デモのみの事前トレーニングや追加コスト関数の最小化など、バッファ内のデモをうまく利用するために、複数のアイデアが提案されてきた。 我々は、これらのアイデアのいくつかを独立して評価し、どれが最も大きな影響を与えているかを調べる研究を行っている。 また,実演や成功したエピソードに与えられる報酬ボーナスに基づいて,新たな手法を提案する。 まず、エージェントが実証された動作にマッチするように促すために、デモから来る遷移に報奨ボーナスを与える。 次に、成功したエピソードを収集すると、リプレイバッファに追加する前に同じボーナスで遷移を緩和し、エージェントが以前の成功と一致するように促します。 我々の実験のベースアルゴリズムは、連続的な行動空間に対する最先端のオフポリシーアルゴリズムであるSoft Actor-Critic (SAC)である。 我々の実験はロボット工学、特にシミュレーションにおけるロボットアームの到達タスクに焦点を当てている。 報酬レラベル化に基づくsacr2手法は,実演がなくても,このタスクの性能を向上させることを示す。

During recent years, deep reinforcement learning (DRL) has made successful incursions into complex decision-making applications such as robotics, autonomous driving or video games. However, a well-known caveat of DRL algorithms is their inefficiency, requiring huge amounts of data to converge. Off-policy algorithms tend to be more sample-efficient, and can additionally benefit from any off-policy data stored in the replay buffer. Expert demonstrations are a popular source for such data: the agent is exposed to successful states and actions early on, which can accelerate the learning process and improve performance. In the past, multiple ideas have been proposed to make good use of the demonstrations in the buffer, such as pretraining on demonstrations only or minimizing additional cost functions. We carry on a study to evaluate several of these ideas in isolation, to see which of them have the most significant impact. We also present a new method, based on a reward bonus given to demonstrations and successful episodes. First, we give a reward bonus to the transitions coming from demonstrations to encourage the agent to match the demonstrated behaviour. Then, upon collecting a successful episode, we relabel its transitions with the same bonus before adding them to the replay buffer, encouraging the agent to also match its previous successes. The base algorithm for our experiments is the popular Soft Actor-Critic (SAC), a state-of-the-art off-policy algorithm for continuous action spaces. Our experiments focus on robotics, specifically on a reaching task for a robotic arm in simulation. We show that our method SACR2 based on reward relabeling improves the performance on this task, even in the absence of demonstrations.
翻訳日:2021-10-28 15:42:39 公開日:2021-10-27
# ドメイン適応によるマルチソースエンティティリンケージのためのディープトランスファー学習

Deep Transfer Learning for Multi-source Entity Linkage via Domain Adaptation ( http://arxiv.org/abs/2110.14509v1 )

ライセンス: Link先を確認
Di Jin, Bunyamin Sisman, Hao Wei, Xin Luna Dong, Danai Koutra(参考訳) マルチソースエンティティリンクは、同一の現実世界エンティティを表すレコードをリンクすることで、複数のソースからの知識の統合に焦点を当てる。 これはデータクリーニングやユーザステッチなど、ハイインパクトなアプリケーションでは極めて重要です。 最先端のエンティティリンケージパイプラインは主に、大量のトレーニングデータを必要とする教師付き学習に依存します。 しかし、多くのソースからのデータが徐々に到着すると、ラベルの付いたトレーニングデータの収集はコストがかかる。 さらに、トレーニングされたモデルは特定のデータソースに容易に適合し、データやラベルの分布に大きな違いがあるため、新しいソースに一般化できない。 これらの課題に対処するために,マルチソースエンティティリンクを実行するための汎用的なハイレベル知識を学習するディープトランスファー学習フレームワークであるAdaMELを提案する。 AdaMELは属性レベルの自己アテンションメカニズムを通じてエンティティにマッチするために使用される属性の重要性をモデル化し、ドメイン適応を通じて新しいデータソースからの巨大なラベルのないデータを活用して、ジェネリックでデータソースに依存しないものにします。 さらに、AdaMELはラベル付きデータの追加セットを組み込んで、属性の異なるデータソースをより正確に統合することができる。 大規模実験により,本フレームワークは,教師あり学習に基づく平均的手法よりも8.21%向上した。 さらに、より少ないランタイムで異なるデータソースのセットを扱う場合、より安定している。

Multi-source entity linkage focuses on integrating knowledge from multiple sources by linking the records that represent the same real world entity. This is critical in high-impact applications such as data cleaning and user stitching. The state-of-the-art entity linkage pipelines mainly depend on supervised learning that requires abundant amounts of training data. However, collecting well-labeled training data becomes expensive when the data from many sources arrives incrementally over time. Moreover, the trained models can easily overfit to specific data sources, and thus fail to generalize to new sources due to significant differences in data and label distributions. To address these challenges, we present AdaMEL, a deep transfer learning framework that learns generic high-level knowledge to perform multi-source entity linkage. AdaMEL models the attribute importance that is used to match entities through an attribute-level self-attention mechanism, and leverages the massive unlabeled data from new data sources through domain adaptation to make it generic and data-source agnostic. In addition, AdaMEL is capable of incorporating an additional set of labeled data to more accurately integrate data sources with different attribute importance. Extensive experiments show that our framework achieves state-of-the-art results with 8.21% improvement on average over methods based on supervised learning. Besides, it is more stable in handling different sets of data sources in less runtime.
翻訳日:2021-10-28 15:42:12 公開日:2021-10-27
# 非凸$\ell_p$ノルムを含む制約付き最適化:最適条件,アルゴリズム,収束

Constrained Optimization Involving Nonconvex $\ell_p$ Norms: Optimality Conditions, Algorithm and Convergence ( http://arxiv.org/abs/2110.14127v1 )

ライセンス: Link先を確認
Hao Wang, Yining Gao, Jiashan Wang, Hongying Liu(参考訳) 本稿では,変数の$\ell_p$ ノルム (0<p<1$) を含む制約付き最適化問題の局所的最小化条件について検討する。 この種の問題は、通常$\ell_p$ノルムがスパース解を促進できるため、幅広い領域に強い適用性を持つ。 しかし、$\ell_p$ のノルムの非滑らかで非リプシッツ性はしばしばこれらの問題を解析し、解くのが難しい。 我々は、$\ell_p$ のノルムの次数と$\ell_p$ のボールの通常の円錐の計算を提供する。 どちらの問題に対しても,制約条件の異なる一階必要条件を導出する。 また、両問題に対する逐次最適条件を導出し、これらの条件が第一次必要条件を意味する条件を研究する。 繰り返し重み付けアルゴリズムでは逐次最適条件が容易に満たせることを指摘し,逐次最適条件を用いて大域収束が容易に導出できることを示す。

This paper investigates the optimality conditions for characterizing the local minimizers of the constrained optimization problems involving an $\ell_p$ norm ($0<p<1$) of the variables, which may appear in either the objective or the constraint. This kind of problems have strong applicability to a wide range of areas since usually the $\ell_p$ norm can promote sparse solutions. However, the nonsmooth and non-Lipschtiz nature of the $\ell_p$ norm often cause these problems difficult to analyze and solve. We provide the calculation of the subgradients of the $\ell_p$ norm and the normal cones of the $\ell_p$ ball. For both problems, we derive the first-order necessary conditions under various constraint qualifications. We also derive the sequential optimality conditions for both problems and study the conditions under which these conditions imply the first-order necessary conditions. We point out that the sequential optimality conditions can be easily satisfied for iteratively reweighted algorithms and show that the global convergence can be easily derived using sequential optimality conditions.
翻訳日:2021-10-28 15:41:50 公開日:2021-10-27
# オンデバイス音声分類のための時間知識蒸留

Temporal Knowledge Distillation for On-device Audio Classification ( http://arxiv.org/abs/2110.14131v1 )

ライセンス: Link先を確認
Kwanghee Choi, Martin Kersner, Jacob Morton, and Buru Chang(参考訳) モバイル環境の計算限界を考えると,オンデバイス音声分類モデルの性能向上は依然として課題である。 多くの研究は知識蒸留を利用して、大きなモデルからオンデバイスモデルに知識を移すことで予測性能を高める。 しかし、音声分類タスクに不可欠な時間情報の本質や類似したアーキテクチャが欠如していることが多い。 本稿では,大規模モデルの注意重みに埋め込まれた時間的知識をデバイス上のモデルに組み込むための新しい知識蒸留手法を提案する。 蒸留法は,CNNやRNNなどの非アテンション型アーキテクチャなど,様々な種類のアーキテクチャに適用できる。 音声イベント検出データセットとノイズの多いキーワードスポッティングデータセットの両方に関する広範な実験により,提案手法はデバイス上での様々なアーキテクチャにおける予測性能を向上させる。

Improving the performance of on-device audio classification models remains a challenge given the computational limits of the mobile environment. Many studies leverage knowledge distillation to boost predictive performance by transferring the knowledge from large models to on-device models. However, most lack the essence of the temporal information which is crucial to audio classification tasks, or similar architecture is often required. In this paper, we propose a new knowledge distillation method designed to incorporate the temporal knowledge embedded in attention weights of large models to on-device models. Our distillation method is applicable to various types of architectures, including the non-attention-based architectures such as CNNs or RNNs, without any architectural change during inference. Through extensive experiments on both an audio event detection dataset and a noisy keyword spotting dataset, we show that our proposed method improves the predictive performance across diverse on-device architectures.
翻訳日:2021-10-28 15:38:36 公開日:2021-10-27
# twitterのデータでbitcoinのボラティリティを予測

Ask "Who", Not "What": Bitcoin Volatility Forecasting with Twitter Data ( http://arxiv.org/abs/2110.14317v1 )

ライセンス: Link先を確認
M. Eren Akbiyik, Mert Erkul, Killian Kaempf, Vaiva Vasiliauskaite, Nino Antulov-Fantulin(参考訳) 取引価格の変動(ボラティリティ)と外部情報への反応を理解することは金融業界でよく研究されている話題である。 本研究では、twitterのソーシャルメディアデータのディープラーニング表現を用いて、比較的新しい資産クラス(特にbitcoin)に対するボラティリティの予測に焦点を当てた。 この分野では、3000万以上のbitcoin関連ツイートから意味情報とユーザーインタラクションの統計を抽出し、144日間で1日あたり15分間の価格データと組み合わせた。 このデータを用いて,収集した情報を組み合わせたディープラーニングアーキテクチャを構築した。 全てのアーキテクチャについて、各コンポーネントとモデル内の機能セットの影響を評価するためのアブレーション研究を行った。 仮説の統計的証拠を見つけました (i)時間的畳み込みネットワークは、文献における自己回帰モデルや、他の深層学習モデルよりも著しく優れており、 (ii)ツイート作成者のメタ情報(ツイート自体から切り離された)は、セマンティックコンテンツやツイートボリューム統計よりも予測が優れている。

Understanding the variations in trading price (volatility), and its response to external information is a well-studied topic in finance. In this study, we focus on volatility predictions for a relatively new asset class of cryptocurrencies (in particular, Bitcoin) using deep learning representations of public social media data from Twitter. For the field work, we extracted semantic information and user interaction statistics from over 30 million Bitcoin-related tweets, in conjunction with 15-minute intraday price data over a 144-day horizon. Using this data, we built several deep learning architectures that utilized a combination of the gathered information. For all architectures, we conducted ablation studies to assess the influence of each component and feature set in our model. We found statistical evidences for the hypotheses that: (i) temporal convolutional networks perform significantly better than both autoregressive and other deep learning-based models in the literature, and (ii) the tweet author meta-information, even detached from the tweet itself, is a better predictor than the semantic content and tweet volume statistics.
翻訳日:2021-10-28 15:38:23 公開日:2021-10-27
# 限られた訓練データを用いたオーディオセグメンテーションのためのAUC最適化とマルチクラス分類の一般化

Generalizing AUC Optimization to Multiclass Classification for Audio Segmentation With Limited Training Data ( http://arxiv.org/abs/2110.14425v1 )

ライセンス: Link先を確認
Pablo Gimeno, Victoria Mingote, Alfonso Ortega, Antonio Miguel, Eduardo Lleida(参考訳) ニューラルネットワーク用に開発されたORC曲線(AUC)最適化技術に基づく領域は、最近、異なる音声および音声関連タスクでその能力を実証している。 しかし、本質的な性質から、AUCの最適化は今のところバイナリタスクのみに焦点を当てている。 本稿では,auc最適化フレームワークを拡張して,任意の数のクラスに容易に適用できるようにし,ディープラーニングソリューションにおけるデータ制限のトレーニングから生じる問題を克服する。 文献で見られるAUCメトリックのマルチクラス定義に基づいて、1対1と1対1のアプローチを用いて2つの新たなトレーニング目標を定義する。 その可能性を示すために,前景音楽,背景音楽,無音楽の3つのクラスを区別することを目的とした,限られたトレーニングデータを持つ音声セグメンテーションタスクに適用する。 実験の結果,クロスエントロピーなどの従来の学習基準と比較して,音声セグメンテーションシステムの性能が著しく向上することがわかった。

Area under the ROC curve (AUC) optimisation techniques developed for neural networks have recently demonstrated their capabilities in different audio and speech related tasks. However, due to its intrinsic nature, AUC optimisation has focused only on binary tasks so far. In this paper, we introduce an extension to the AUC optimisation framework so that it can be easily applied to an arbitrary number of classes, aiming to overcome the issues derived from training data limitations in deep learning solutions. Building upon the multiclass definitions of the AUC metric found in the literature, we define two new training objectives using a one-versus-one and a one-versus-rest approach. In order to demonstrate its potential, we apply them in an audio segmentation task with limited training data that aims to differentiate 3 classes: foreground music, background music and no music. Experimental results show that our proposal can improve the performance of audio segmentation systems significantly compared to traditional training criteria such as cross entropy.
翻訳日:2021-10-28 15:38:04 公開日:2021-10-27
# ストリーミング一般化正準多進テンソル分解

Streaming Generalized Canonical Polyadic Tensor Decompositions ( http://arxiv.org/abs/2110.14514v1 )

ライセンス: Link先を確認
Eric Phipps and Nick Johnson and Tamara G. Kolda(参考訳) 本稿では,ストリーミングデータの一般化正準ポリアディック(GCP)テンソル分解を計算するために,オンラインGCPと呼ぶ手法を開発する。 GCPは、CPモデルが最小化しようとする任意の目的関数を可能にするため、従来のCPテンソル分解とは異なる。 このアプローチは、観測されたテンソルデータが強く非ガウス的である場合、より適合し、より解釈可能なモデルを提供できる。 ストリーミングの場合、テンソルデータは時間とともに徐々に観察され、アルゴリズムは事前データへの限られたアクセスでGCPの分解を漸進的に更新する必要がある。 In this work, we extend the GCP formalism to the streaming context by deriving a GCP optimization problem to be solved as new tensor data is observed, formulate a tunable history term to balance reconstruction of recently observed data with data observed in the past, develop a scalable solution strategy based on segregated solves using stochastic gradient descent methods, describe a software implementation that provides performance and portability to contemporary CPU and GPU architectures and integrates with Matlab for enhanced useability, and demonstrate the utility and performance of the approach and software on several synthetic and real tensor data sets.

In this paper, we develop a method which we call OnlineGCP for computing the Generalized Canonical Polyadic (GCP) tensor decomposition of streaming data. GCP differs from traditional canonical polyadic (CP) tensor decompositions as it allows for arbitrary objective functions which the CP model attempts to minimize. This approach can provide better fits and more interpretable models when the observed tensor data is strongly non-Gaussian. In the streaming case, tensor data is gradually observed over time and the algorithm must incrementally update a GCP factorization with limited access to prior data. In this work, we extend the GCP formalism to the streaming context by deriving a GCP optimization problem to be solved as new tensor data is observed, formulate a tunable history term to balance reconstruction of recently observed data with data observed in the past, develop a scalable solution strategy based on segregated solves using stochastic gradient descent methods, describe a software implementation that provides performance and portability to contemporary CPU and GPU architectures and integrates with Matlab for enhanced useability, and demonstrate the utility and performance of the approach and software on several synthetic and real tensor data sets.
翻訳日:2021-10-28 15:37:50 公開日:2021-10-27
# 大規模無線エッジネットワークのための時空間フェデレーション学習

Spatio-Temporal Federated Learning for Massive Wireless Edge Networks ( http://arxiv.org/abs/2110.14578v1 )

ライセンス: Link先を確認
Chun-Hung Liu, Kai-Ten Feng, Lu Wei, Yu Luo(参考訳) 本稿では,モバイル端末が収集した膨大なデータをエッジサーバに転送することなく,エッジサーバと多数のモバイルデバイス(クライアント)が共同でグローバルモデルを学習する大規模無線エッジネットワーク上で,高効率なフェデレーション学習(fl)を行う新たな手法を提案する。 提案手法は時空間FL(spatio-temporal FL, 時空間FL)と呼ばれ,STFLに参加する予定の様々なモバイルデバイスからの学習更新の空間的および時間的相関を多種多様な訓練エポックで活用する。 STFLモデルは、データ配信の停止によるエッジサーバからモバイルデバイスへの現実的な断続的な学習行動を表すだけでなく、断続的な学習の影響を軽減するために損失学習更新を補償するメカニズムも備えている。 収束性能を用いてSTFLの学習能力を研究するために,STFLの分析フレームワークを提案する。 特に,データ配信停止,断続的な学習緩和,データ集合の統計的不均一性がstflの収束性能に与える影響を評価した。 この結果は、sflベースの無線ネットワークの設計と分析に重要な洞察を与える。

This paper presents a novel approach to conduct highly efficient federated learning (FL) over a massive wireless edge network, where an edge server and numerous mobile devices (clients) jointly learn a global model without transporting the huge amount of data collected by the mobile devices to the edge server. The proposed FL approach is referred to as spatio-temporal FL (STFL), which jointly exploits the spatial and temporal correlations between the learning updates from different mobile devices scheduled to join STFL in various training epochs. The STFL model not only represents the realistic intermittent learning behavior from the edge server to the mobile devices due to data delivery outage, but also features a mechanism of compensating loss learning updates in order to mitigate the impacts of intermittent learning. An analytical framework of STFL is proposed and employed to study the learning capability of STFL via its convergence performance. In particular, we have assessed the impact of data delivery outage, intermittent learning mitigation, and statistical heterogeneity of datasets on the convergence performance of STFL. The results provide crucial insights into the design and analysis of STFL based wireless networks.
翻訳日:2021-10-28 15:37:11 公開日:2021-10-27
# エンド・ツー・エンドLSTMによる火山イベントの震源位置推定

End-to-end LSTM based estimation of volcano event epicenter localization ( http://arxiv.org/abs/2110.14594v1 )

ライセンス: Link先を確認
Nestor Becerra Yoma, Jorge Wuth, Andres Pinto, Nicolas de Celis, Jorge Celis, Fernando Huenupan(参考訳) 本稿では, 火山イベントの局所化問題に対して, 位相選択と局所化推定を関連づけた事前モデルを持たずに, エンドツーエンドのLSTM方式を提案する。 イベント震源と地震観測所の間の距離が短いため、火山信号の自動位相ピッキングは不正確なことが強調に値する。 LSTMは、時間変化の信号のダイナミクスを捉え、メモリセルの状態内で情報を削除または追加し、長期依存をモデル化する能力によって選択された。 LSTMに関する簡単な知見もここにある。 この結果から,lstmベースのアーキテクチャは成功率,すなわち1.0km未満のエラーは48.5%であり,自動フェーズピッキングによるものよりも劇的に優れていることがわかった。 さらに,提案手法はcnnよりも18%高い成功率を示した。

In this paper, an end-to-end based LSTM scheme is proposed to address the problem of volcano event localization without any a priori model relating phase picking with localization estimation. It is worth emphasizing that automatic phase picking in volcano signals is highly inaccurate because of the short distances between the event epicenters and the seismograph stations. LSTM was chosen due to its capability to capture the dynamics of time varying signals, and to remove or add information within the memory cell state and model long-term dependencies. A brief insight into LSTM is also discussed here. The results presented in this paper show that the LSTM based architecture provided a success rate, i.e., an error smaller than 1.0Km, equal to 48.5%, which in turn is dramatically superior to the one delivered by automatic phase picking. Moreover, the proposed end-to-end LSTM based method gave a success rate 18% higher than CNN.
翻訳日:2021-10-28 15:36:53 公開日:2021-10-27
# 多レベル学習としての進化論に向けて

Towards a Theory of Evolution as Multilevel Learning ( http://arxiv.org/abs/2110.14602v1 )

ライセンス: Link先を確認
Vitaly Vanchurin, Yuri I. Wolf, Mikhail I. Katsnelson, Eugene V. Koonin(参考訳) 生命の起源を含む生物学的進化の理論を多段階学習として発展させるために, 物理的に再正規化可能なシステムに学習理論を適用した。 我々は、宇宙を観測可能なものにするために必要で十分と思われる7つの進化の基本原理を定式化し、それらが複製や自然選択を含む生物学的進化の主要な特徴を伴っていることを示す。 これらの原理は学習理論からも自然に従う。 ニューラルネットワークの数学的枠組みを用いて進化論を定式化し,進化現象の詳細な解析を行う。 提案する理論枠組みの可能性を実証するために, 学習中の情報の流れを解析し, 進化する生物による環境の予測(前方伝播)を行うことにより, 分子生物学のCentral Dogmaの一般化版を導出する。 進化における大きな遷移、特に生命の起源のようなより複雑な進化現象は熱力学的極限で分析されなければならず、これに付随する論文で詳細に記述されている。

We apply the theory of learning to physically renormalizable systems in an attempt to develop a theory of biological evolution, including the origin of life, as multilevel learning. We formulate seven fundamental principles of evolution that appear to be necessary and sufficient to render a universe observable and show that they entail the major features of biological evolution, including replication and natural selection. These principles also follow naturally from the theory of learning. We formulate the theory of evolution using the mathematical framework of neural networks, which provides for detailed analysis of evolutionary phenomena. To demonstrate the potential of the proposed theoretical framework, we derive a generalized version of the Central Dogma of molecular biology by analyzing the flow of information during learning (back-propagation) and predicting (forward-propagation ) the environment by evolving organisms. The more complex evolutionary phenomena, such as major transitions in evolution, in particular, the origin of life, have to be analyzed in the thermodynamic limit, which is described in detail in the accompanying paper.
翻訳日:2021-10-28 15:34:56 公開日:2021-10-27
# Fairer LPベースのオンラインアロケーション

Fairer LP-based Online Allocation ( http://arxiv.org/abs/2110.14621v1 )

ライセンス: Link先を確認
Guanting Chen, Xiaocheng Li, Yinyu Ye(参考訳) 本稿では,リニアプログラム(LP)に基づくオンラインリソース割り当ての問題について考察する。 それぞれの時間に、いくつかのリソースと報酬の要求により、新しい注文/顧客/ビッドが明らかにされる。 我々は、すべての順序が未知の分布から標本化される確率的設定を考える。 このような定式化には、標準的(量的)ネットワーク収益管理問題やadwords問題など、多くの古典的な応用が含まれている。 具体的には,後悔度を低く保ちながら公平性を保証する目的について検討する。 公正性の定義では、公正なオンラインアルゴリズムは類似のエージェント/顧客を同じように扱うべきであり、類似の個人に対する決定は時間とともに一貫性を持つべきである。 オフライン最適解集合の分析中心としてフェアオフライン解を定義し,インテリアポイントLPソルバを用いて不公平な資源支出を動的に検出するフェアアルゴリズムを提案する。 このアルゴリズムは、o(\log(t))$のオーダースケールで累積不公平性(オンラインソリューションからオフラインフェアソリューションへの累積偏差)を制御できるが、t$への依存で境界付けられたことを後悔し続けることができる。 提案手法は最適化インスタンスの制約としてフェアネス要件を定式化せず,アルゴリズム設計の観点からこの問題に対処する。 公平性制約を課さずに望ましい公平性保証を得ることができ、我々の後悔の結果は、元の客観的値と比較して後悔を評価する理由から強いものである。

In this paper, we consider a Linear Program (LP)-based online resource allocation problem where a decision maker accepts or rejects incoming customer requests irrevocably in order to maximize expected revenue given limited resources. At each time, a new order/customer/bid is revealed with a request of some resource(s) and a reward. We consider a stochastic setting where all the orders are i.i.d. sampled from an unknown distribution. Such formulation contains many classic applications such as the canonical (quantity-based) network revenue management problem and the Adwords problem. Specifically, we study the objective of providing fairness guarantees while maintaining low regret. Our definition of fairness is that a fair online algorithm should treat similar agents/customers similarly and the decision made for similar individuals should be consistent over time. We define a fair offline solution as the analytic center of the offline optimal solution set, and propose a fair algorithm that uses an interior-point LP solver and dynamically detects unfair resource spending. Our algorithm can control cumulative unfairness (the cumulative deviation from the online solutions to the offline fair solution) on the scale of order $O(\log(T))$, while maintaining the regret to be bounded with dependency on $T$. Our approach do not formulate the fairness requirement as a constrain in the optimization instance, and instead we address the problem from the perspective of algorithm design. We get the desirable fairness guarantee without imposing any fairness constraint, and our regret result is strong for the reason that we evaluate the regret by comparing to the original objective value.
翻訳日:2021-10-28 15:34:39 公開日:2021-10-27
# 極端学習マシンのハイパーパラメータの計算法:アルゴリズムと計算PDEへの応用、および古典的および高次有限要素との比較

On Computing the Hyperparameter of Extreme Learning Machines: Algorithm and Application to Computational PDEs, and Comparison with Classical and High-Order Finite Elements ( http://arxiv.org/abs/2110.14121v1 )

ライセンス: Link先を確認
Suchuan Dong, Jielin Yang(参考訳) 計算偏微分方程式 (PDE) に対する極端な学習機械 (ELM) の利用を検討する。 ELMでは、ニューラルネットワーク内の隠れ層係数を$[-R_m,R_m]$で生成したランダム値に割り当て、そこで、$R_m$はユーザ提供定数であり、出力層係数は線形または非線形の最小二乗計算により訓練される。 本稿では,微分進化アルゴリズムに基づいて,$r_m$の最適値を計算する手法を提案する。 提案手法により,2種類のEMM構成に対して最適な$R_m$の特性を照らすことができる。 i) 単一のRm-ELMであって、すべての隠された層におけるランダム係数を生成するために1ドルR_m$を使用するもの (ii)複数のr_m$定数が関与するマルチrm-elmは、異なる隠れ層のランダム係数を生成するために使用される。 我々はこの方法から最適な$R_m$を採用し、ELM実装に他の改良を加えている。 特に、前回の作業における逆モード自己微分とは対照的に、最後の隠れ層の出力フィールドを含むすべての微分演算子をフォワードモード自己微分によって計算する。 これらの改善により、ネットワークトレーニング時間が大幅に短縮され、EMM性能が向上した。 本研究では, 有限要素法 (FEM) と古典的2次有限要素法 (FEM) と高次2次有限要素法 (FEM) の計算性能を高次ラグランジュ要素 (Lagrange element) で体系的に比較し, 線形および非線形PDEを解く。 現在の改良EMMは従来のFEMよりもはるかに優れていた。 その計算性能は、より小さな問題サイズで高階のFEMと同等であり、より大きな問題サイズでは高階のFEMよりも顕著に優れている。

We consider the use of extreme learning machines (ELM) for computational partial differential equations (PDE). In ELM the hidden-layer coefficients in the neural network are assigned to random values generated on $[-R_m,R_m]$ and fixed, where $R_m$ is a user-provided constant, and the output-layer coefficients are trained by a linear or nonlinear least squares computation. We present a method for computing the optimal value of $R_m$ based on the differential evolution algorithm. The presented method enables us to illuminate the characteristics of the optimal $R_m$ for two types of ELM configurations: (i) Single-Rm-ELM, in which a single $R_m$ is used for generating the random coefficients in all the hidden layers, and (ii) Multi-Rm-ELM, in which multiple $R_m$ constants are involved with each used for generating the random coefficients of a different hidden layer. We adopt the optimal $R_m$ from this method and also incorporate other improvements into the ELM implementation. In particular, here we compute all the differential operators involving the output fields of the last hidden layer by a forward-mode auto-differentiation , as opposed to the reverse-mode auto-differentiation in a previous work. These improvements significantly reduce the network training time and enhance the ELM performance. We systematically compare the computational performance of the current improved ELM with that of the finite element method (FEM), both the classical second-order FEM and the high-order FEM with Lagrange elements of higher degrees, for solving a number of linear and nonlinear PDEs. It is shown that the current improved ELM far outperforms the classical FEM. Its computational performance is comparable to that of the high-order FEM for smaller problem sizes, and for larger problem sizes the ELM markedly outperforms the high-order FEM.
翻訳日:2021-10-28 15:34:11 公開日:2021-10-27
# 時間不整合問題に対するサブゲーム完全平衡強化学習アプローチ

A Subgame Perfect Equilibrium Reinforcement Learning Approach to Time-inconsistent Problems ( http://arxiv.org/abs/2110.14295v1 )

ライセンス: Link先を確認
Nixie S. Lesmana and Chi Seng Pun(参考訳) 本稿では,時間一貫性(TIC)問題に対するサブゲーム完全均衡強化学習(SPERL)フレームワークを確立する。 RLの文脈では、TIC問題は2つの主要な課題に直面することが知られている: 異なる時点における値関数間の自然再帰的関係の非存在とベルマンの最適性原理に違反し、証明不能な政策改善定理に対する標準ポリシー反復アルゴリズムの適用性に関する疑問を提起する。 我々は、拡張動的プログラミング理論を適用し、SPERLを解き、両方の課題に対処する、BPI(backward Policy iteration)と呼ばれる新しいアルゴリズムのクラスを提案する。 トレーニングフレームワークとしてのBPIの実用性を実証するため,標準的なRLシミュレーション手法を適用し,2つのBPIベースのトレーニングアルゴリズムを導出する。 本稿では,平均分散ポートフォリオ選択問題に関する学習フレームワークについて検討し,収束性やモデル識別性などのパフォーマンス指標を評価する。

In this paper, we establish a subgame perfect equilibrium reinforcement learning (SPERL) framework for time-inconsistent (TIC) problems. In the context of RL, TIC problems are known to face two main challenges: the non-existence of natural recursive relationships between value functions at different time points and the violation of Bellman's principle of optimality that raises questions on the applicability of standard policy iteration algorithms for unprovable policy improvement theorems. We adapt an extended dynamic programming theory and propose a new class of algorithms, called backward policy iteration (BPI), that solves SPERL and addresses both challenges. To demonstrate the practical usage of BPI as a training framework, we adapt standard RL simulation methods and derive two BPI-based training algorithms. We examine our derived training frameworks on a mean-variance portfolio selection problem and evaluate some performance metrics including convergence and model identifiability.
翻訳日:2021-10-28 15:33:35 公開日:2021-10-27
# (参考訳) 自己教師あり表現から音声を再構成するニューラル解析と合成 [全文訳有]

Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations ( http://arxiv.org/abs/2110.14513v1 )

ライセンス: CC BY 4.0
Hyeong-Seok Choi, Juheon Lee, Wansoo Kim, Jie Hwan Lee, Hoon Heo, Kyogu Lee(参考訳) 本稿では,任意の音声信号の音声,ピッチ,速度を操作できるニューラル解析合成(nansy)フレームワークを提案する。 以前の研究の多くは、情報ボトルネックを利用して、制御可能な合成のために分析機能を歪めてしまうことに重点を置いている。 情報摂動に基づく新しいトレーニング戦略を提案することでこの問題に対処する。 この考え方は、元の入力信号(例えばフォルマント、ピッチ、周波数応答)の情報を摂動させることで、合成ネットワークは入力信号の再構成に必須の属性を選択的に取ることができる。 NANSYはボトルネック構造を必要としないため、高い再構築品質と制御性の両方を享受できる。 さらに、nansyは、テキストや話者情報などの音声データに関連するラベルを必要とせず、新しい分析機能、すなわちwav2vec機能と新しく提案されたピッチ機能であるyingramを使用して、完全な自己教師付きトレーニングを可能にする。 完全な自己教師付きトレーニングを活用することで、NANSYは、単にマルチランガルデータセットでトレーニングすることで、簡単にマルチランガル設定に拡張することができる。 実験により、NANSYはゼロショット音声変換、ピッチシフト、時間スケール修正などのいくつかの応用において、大幅な性能向上を達成できることが示された。

We present a neural analysis and synthesis (NANSY) framework that can manipulate voice, pitch, and speed of an arbitrary speech signal. Most of the previous works have focused on using information bottleneck to disentangle analysis features for controllable synthesis, which usually results in poor reconstruction quality. We address this issue by proposing a novel training strategy based on information perturbation. The idea is to perturb information in the original input signal (e.g., formant, pitch, and frequency response), thereby letting synthesis networks selectively take essential attributes to reconstruct the input signal. Because NANSY does not need any bottleneck structures, it enjoys both high reconstruction quality and controllability. Furthermore, NANSY does not require any labels associated with speech data such as text and speaker information, but rather uses a new set of analysis features, i.e., wav2vec feature and newly proposed pitch feature, Yingram, which allows for fully self-supervised training. Taking advantage of fully self-supervised training, NANSY can be easily extended to a multilingual setting by simply training it with a multilingual dataset. The experiments show that NANSY can achieve significant improvement in performance in several applications such as zero-shot voice conversion, pitch shift, and time-scale modification.
翻訳日:2021-10-28 15:32:38 公開日:2021-10-27
# Dex-NeRF: ニューラルネットワークを用いた透明物体のグリップ

Dex-NeRF: Using a Neural Radiance Field to Grasp Transparent Objects ( http://arxiv.org/abs/2110.14217v1 )

ライセンス: Link先を確認
Jeffrey Ichnowski, Yahav Avigal, Justin Kerr and Ken Goldberg(参考訳) 透明な物体を掴んで操作する能力は、ロボットにとって大きな課題である。 既存の深度カメラは、そのような物体の形状の検出、局所化、推測が困難である。 本稿では,神経放射場(neural radiance fields:nerf)を用いて,透明物体の形状を精度良く検出・局所化・推定し,それらを安全に把握する手法を提案する。 我々は、NeRFのビュー非依存の学習密度を活用し、光を照らしてスペクトル反射を増大させ、Dex-Netグリッププランナーに入力する透過的な深度レンダリングを行う。 奥行きマップの品質を向上させるための鏡面反射を照明を追加する方法を示し、透明な物体操作を行うためのカメラアレイを備えたロボットワークセルのセットアップをテストする。 また、対話オブジェクト、散らばったテーブル、食器洗い機のトップラックなど、現実世界の設定で透明なオブジェクトの合成と実際のデータセットを作成します。 各設定において、NeRFとDex-Netは透明物体に対する堅牢な把握を確実に計算でき、ベースライン法が失敗するオブジェクト上のABB YuMiにおける物理実験において、90%と100%の成功率を達成できることを示す。

The ability to grasp and manipulate transparent objects is a major challenge for robots. Existing depth cameras have difficulty detecting, localizing, and inferring the geometry of such objects. We propose using neural radiance fields (NeRF) to detect, localize, and infer the geometry of transparent objects with sufficient accuracy to find and grasp them securely. We leverage NeRF's view-independent learned density, place lights to increase specular reflections, and perform a transparency-aware depth-rendering that we feed into the Dex-Net grasp planner. We show how additional lights create specular reflections that improve the quality of the depth map, and test a setup for a robot workcell equipped with an array of cameras to perform transparent object manipulation. We also create synthetic and real datasets of transparent objects in real-world settings, including singulated objects, cluttered tables, and the top rack of a dishwasher. In each setting we show that NeRF and Dex-Net are able to reliably compute robust grasps on transparent objects, achieving 90% and 100% grasp success rates in physical experiments on an ABB YuMi, on objects where baseline methods fail.
翻訳日:2021-10-28 15:15:26 公開日:2021-10-27
# 生物学的にインスパイアされたサブリーマンモデルによる多重周波数画像の完成

Multi-frequency image completion via a biologically-inspire d sub-Riemannian model with frequency and phase ( http://arxiv.org/abs/2110.14330v1 )

ライセンス: Link先を確認
Emre Baspinar(参考訳) 本稿では,新しい皮質インスパイア画像補完アルゴリズムを提案する。 視覚皮質内の細胞の配向、空間周波数、位相選択挙動をモデル化した5次元のサブリーマン皮質幾何学を用いている。 このアルゴリズムは、ガボル変換により所定の2次元の劣化した入力画像に存在する配向、周波数、位相情報を抽出し、それらの値をモデル幾何学における皮質細胞出力応答の観点から表現する。 そして、モデル幾何内の神経接続に沿って近傍に集中した拡散を介して完了を行う。 拡散モデルは、神経接続に沿って方向、周波数および位相特徴を統合するアクティビティ伝搬をモデル化する。 最後に、アルゴリズムは拡散および完了した出力応答を2次元画像平面に戻す。

We present a novel cortically-inspired image completion algorithm. It uses a five dimensional sub-Riemannian cortical geometry modelling the orientation, spatial frequency and phase selective behavior of the cells in the visual cortex. The algorithm extracts the orientation, frequency and phase information existing in a given two dimensional corrupted input image via a Gabor transform and represent those values in terms of cortical cell output responses in the model geometry. Then it performs completion via a diffusion concentrated in a neighbourhood along the neural connections within the model geometry. The diffusion models the activity propagation integrating orientation, frequency and phase features along the neural connections. Finally, the algorithm transforms back the diffused and completed output responses back to the two dimensional image plane.
翻訳日:2021-10-28 15:15:03 公開日:2021-10-27
# 入射ニューラル表現を用いた3次元磁気共鳴画像の任意スケール超解法

An Arbitrary Scale Super-Resolution Approach for 3-Dimensional Magnetic Resonance Image using Implicit Neural Representation ( http://arxiv.org/abs/2110.14476v1 )

ライセンス: Link先を確認
Qing Wu, Yuwei Li, Yawen Sun, Yan Zhou, Hongjiang Wei, Jingyi Yu, Yuyao Zhang(参考訳) 高分解能(HR)医療画像は、早期かつ正確な診断を容易にするために、豊富な解剖学的構造の詳細を提供する。 MRIでは、ハードウェア能力、スキャン時間、患者協力能力に制限されるため、等方性3次元HR画像取得は通常、長時間のスキャンを要求され、その結果、空間的カバレッジが小さく、SNRが低い。 近年の研究では、深部畳み込みニューラルネットワークを用いて、単一画像超解像(SISR)アルゴリズムにより、低分解能(LR)入力から等方性HRMR像を復元できることが示されている。 しかし、既存の SISR 法の多くは、LR と HR 画像の間のスケール特異的な投影にアプローチする傾向があるため、これらの手法は固定的なアップサンプリング率にしか対応できない。 異なるアップサンプリング率を達成するためには、複数のSRネットワークをそれぞれ構築する必要がある。 本稿では,Arbitrary Scale Super-Resolution approach for recovering 3D HR MR imagesを提案する。 ArSSRモデルでは、アップスケーリング率の異なるHR画像の再構成は、観測されたLR画像から連続的な暗黙のボクセル関数を学習するものとして定義される。 次に、SRタスクを変換して、一組のHR-LRトレーニング例からディープニューラルネットワークを介して暗黙のボクセル関数を表現する。 ArSSRモデルはエンコーダネットワークとデコーダネットワークで構成される。 具体的には、畳み込みエンコーダネットワークはLR入力画像から特徴写像を抽出し、完全連結デコーダネットワークは暗黙のボクセル関数を近似する。 学習関数の連続性により、トレーニング後の任意の入力LR画像からHR画像の任意のアップサンプリングレート再構成を1つのArSSRモデルで実現できる。 3つのデータセットによる実験結果から,ArSSRモデルは任意のアップサンプリングスケールを達成するために,単一のトレーニングモデルを用いて3次元HRMR画像再構成のための最先端のSR性能を実現することができることがわかった。

High Resolution (HR) medical images provide rich anatomical structure details to facilitate early and accurate diagnosis. In MRI, restricted by hardware capacity, scan time, and patient cooperation ability, isotropic 3D HR image acquisition typically requests long scan time and, results in small spatial coverage and low SNR. Recent studies showed that, with deep convolutional neural networks, isotropic HR MR images could be recovered from low-resolution (LR) input via single image super-resolution (SISR) algorithms. However, most existing SISR methods tend to approach a scale-specific projection between LR and HR images, thus these methods can only deal with a fixed up-sampling rate. For achieving different up-sampling rates, multiple SR networks have to be built up respectively, which is very time-consuming and resource-intensive. In this paper, we propose ArSSR, an Arbitrary Scale Super-Resolution approach for recovering 3D HR MR images. In the ArSSR model, the reconstruction of HR images with different up-scaling rates is defined as learning a continuous implicit voxel function from the observed LR images. Then the SR task is converted to represent the implicit voxel function via deep neural networks from a set of paired HR-LR training examples. The ArSSR model consists of an encoder network and a decoder network. Specifically, the convolutional encoder network is to extract feature maps from the LR input images and the fully-connected decoder network is to approximate the implicit voxel function. Due to the continuity of the learned function, a single ArSSR model can achieve arbitrary up-sampling rate reconstruction of HR images from any input LR image after training. Experimental results on three datasets show that the ArSSR model can achieve state-of-the-art SR performance for 3D HR MR image reconstruction while using a single trained model to achieve arbitrary up-sampling scales.
翻訳日:2021-10-28 15:14:54 公開日:2021-10-27
# TA-Net:グランドセグメンテーションのためのトポロジー対応ネットワーク

TA-Net: Topology-Aware Network for Gland Segmentation ( http://arxiv.org/abs/2110.14593v1 )

ライセンス: Link先を確認
Haotian Wang, Min Xian, Aleksandar Vakanski(参考訳) 腺分画は病理組織像解析において腺の形態を定量的に評価するための重要なステップである。 しかし、密集した腺を正確に分離することは困難である。 既存のディープラーニングベースのアプローチでは、contourベースのテクニックを使用してこの問題を緩和しようとしたが、成功は限定的だった。 この課題に対処するために,密集した腺と高度に変形した腺を正確に分離する新しいトポロジー対応ネットワーク(TA-Net)を提案する。 提案するTA-Netはマルチタスク学習アーキテクチャを備え,2つのタスクから共有表現を学習することにより,腺のセグメンテーションの一般化を促進する。 提案するトポロジー損失は腺骨格とマーカーを用いて腺トポロジーを計算する。 ネットワークを駆動して、真の腺トポロジーに準拠したセグメンテーション結果を生成する。 提案手法を,f1-score,object-lev el dice coefficient,object-l evel hausdorff distanceの3つの定量的指標を用いて検証した。 大規模な実験により、TA-Netは2つのデータセットで最先端のパフォーマンスを達成する。 TA-Netは密集した腺の存在において他のアプローチよりも優れている。

Gland segmentation is a critical step to quantitatively assess the morphology of glands in histopathology image analysis. However, it is challenging to separate densely clustered glands accurately. Existing deep learning-based approaches attempted to use contour-based techniques to alleviate this issue but only achieved limited success. To address this challenge, we propose a novel topology-aware network (TA-Net) to accurately separate densely clustered and severely deformed glands. The proposed TA-Net has a multitask learning architecture and enhances the generalization of gland segmentation by learning shared representation from two tasks: instance segmentation and gland topology estimation. The proposed topology loss computes gland topology using gland skeletons and markers. It drives the network to generate segmentation results that comply with the true gland topology. We validate the proposed approach on the GlaS and CRAG datasets using three quantitative metrics, F1-score, object-level Dice coefficient, and object-level Hausdorff distance. Extensive experiments demonstrate that TA-Net achieves state-of-the-art performance on the two datasets. TA-Net outperforms other approaches in the presence of densely clustered glands.
翻訳日:2021-10-28 15:14:23 公開日:2021-10-27
# Binarized ResNet:リソース制約エッジにおける自動変調分類の実現

Binarized ResNet: Enabling Automatic Modulation Classification at the resource-constrained Edge ( http://arxiv.org/abs/2110.14357v1 )

ライセンス: Link先を確認
Nitin Priyadarshini Shankar, Deepsayan Sadhukhan, Nancy Nayak, Sheetal Kalyani(参考訳) 本稿では,自動変調分類の問題を解決するために,resnetベースのニューラルネットワークを提案する。 私たちのアーキテクチャは、最先端(SOTA)アーキテクチャよりも優れています。 さらに,デバイスがリソースに制約されたエッジネットワーク,すなわちメモリと計算能力の制限のあるネットワークにデプロイするために,ネットワークをバイナリ化する手法を提案する。 単純なバイナライゼーションの代わりに、ローテーションされたバイナライゼーションがネットワークに適用され、リアルとバイナライズされたネットワークの間の大きなパフォーマンスギャップを埋めるのに役立つ。 膨大な表現能力や実ネットワークのため、その回転したバイナリ化バージョンは、sataアーキテクチャの2つ(mcnetとrmlresnet)よりも計算能力が2.33ドルと16ドル低く、メモリが2つよりも約16ドル少ない、提案されている実ネットワークの9.76.%の精度に対して85.33.%の精度を達成している。 この性能は、このような回転二元化ネットワークのアンサンブルを4つとることで、さらに87.74\%$まで向上することができる。

In this paper, we propose a ResNet based neural architecture to solve the problem of Automatic Modulation Classification. We showed that our architecture outperforms the state-of-the-art (SOTA) architectures. We further propose to binarize the network to deploy it in the Edge network where the devices are resource-constrained i.e. have limited memory and computing power. Instead of simple binarization, rotated binarization is applied to the network which helps to close the significant performance gap between the real and the binarized network. Because of the immense representation capability or the real network, its rotated binarized version achieves $85.33\%$ accuracy compared to $95.76\%$ accuracy of the proposed real network with $2.33$ and $16$ times lesser computing power than two of the SOTA architectures, MCNet and RMLResNet respectively, and approximately $16$ times less memory than both. The performance can be improved further to $87.74\%$ by taking an ensemble of four such rotated binarized networks.
翻訳日:2021-10-28 15:14:04 公開日:2021-10-27
# 学習データラベリングのためのアクティブクラスタリング

Active clustering for labeling training data ( http://arxiv.org/abs/2110.14521v1 )

ライセンス: Link先を確認
Quentin Lutz, \'Elie de Panafieu, Alex Scott, Maya Stein(参考訳) トレーニングデータの収集は、教師付き学習タスクの重要なステップであり、批判的かつ高価である。 重要となるのは、トレーニングデータの量と品質が学習関数のパフォーマンスに大きな影響を与えるためである。 なぜなら、ほとんどの実践的なケースは、データのラベル付けに人間のループに依存しているからです。 正しいラベルを決定するプロセスは、同じクラスに属するかどうかを確認するために2つの項目を比較するよりもずっと高価である。 そこで本研究では,人間の専門家が対数問合せに対して比較的安価なタスクをこなすためのデータ収集を訓練し,各項目をクラスに分類する(最末期に安価にラベル付けできる)。 これらの項目が与えられた場合、各項目が固定分布に従って独立にクラスを選択する場合と、それらが生成する集合分割が一様に描画される場合の2つのランダムモデルを考える。 第1のモデルでは,アイテムのクラスタ化に必要なクエリ数を最小化し,その複雑性を分析するアルゴリズムを特徴付ける。 第2のモデルでは、特定のアルゴリズム群を分析し、最小平均クエリ数に達すると予測し、その性能をランダムなアプローチと比較する。 また,専門家の回答の誤りや矛盾を扱うソリューションを提案する。

Gathering training data is a key step of any supervised learning task, and it is both critical and expensive. Critical, because the quantity and quality of the training data has a high impact on the performance of the learned function. Expensive, because most practical cases rely on humans-in-the-loop to label the data. The process of determining the correct labels is much more expensive than comparing two items to see whether they belong to the same class. Thus motivated, we propose a setting for training data gathering where the human experts perform the comparatively cheap task of answering pairwise queries, and the computer groups the items into classes (which can be labeled cheaply at the very end of the process). Given the items, we consider two random models for the classes: one where the set partition they form is drawn uniformly, the other one where each item chooses its class independently following a fixed distribution. In the first model, we characterize the algorithms that minimize the average number of queries required to cluster the items and analyze their complexity. In the second model, we analyze a specific algorithm family, propose as a conjecture that they reach the minimum average number of queries and compare their performance to a random approach. We also propose solutions to handle errors or inconsistencies in the experts' answers.
翻訳日:2021-10-28 15:11:58 公開日:2021-10-27
# a2i変圧器 : 最小フィギュライゼーションによる対および多体相互作用のための置換同形注意ネットワーク

A2I Transformer: Permutation-equivari ant attention network for pairwise and many-body interactions with minimal featurization ( http://arxiv.org/abs/2110.14374v1 )

ライセンス: Link先を確認
Ji Woong Yu, Min Young Ha, Bumjoon Seo, and Won Bo Lee(参考訳) ニューラルネットワーク電位(NNP)と分子シミュレーションの組み合わせは、分子系のポテンシャルエネルギー表面(PES)の効率的かつ徹底的な理解において重要な役割を果たす。 しかし, 入力特徴とNNPへの局所的寄与との相互作用の把握は, 強靭化により回避されつつある。 本研究では,粒子の座標から原子単位のエネルギーを直接予測し,ネットワーク入力のエキスパートガイドによる実現を回避したエンド・ツー・エンドモデルを提案する。 自己着脱を主な作業馬として用いることにより,本モデルは置換操作下で本質的に同値であり,全ポテンシャルエネルギーのばらつきが生じる。 我々は,周期境界条件 (PBC) や$n$-body相互作用,バイナリ合成など,分子シミュレーション問題におけるいくつかの課題に対して実験を行った。 分子動力学シミュレーションから得られたポテンシャルエネルギー変動よりも誤差が著しく小さい全試験系で安定な予測値を得た。 そこで本研究では, 物理化学系のデータ駆動解析を容易にするために, 凝縮相系の複雑な相互作用を符号化する最小ベースラインモデルを提案する。

The combination of neural network potential (NNP) with molecular simulations plays an important role in an efficient and thorough understanding of a molecular system's potential energy surface (PES). However, grasping the interplay between input features and their local contribution to NNP is growingly evasive due to heavy featurization. In this work, we suggest an end-to-end model which directly predicts per-atom energy from the coordinates of particles, avoiding expert-guided featurization of the network input. Employing self-attention as the main workhorse, our model is intrinsically equivariant under the permutation operation, resulting in the invariance of the total potential energy. We tested our model against several challenges in molecular simulation problems, including periodic boundary condition (PBC), $n$-body interaction, and binary composition. Our model yielded stable predictions in all tested systems with errors significantly smaller than the potential energy fluctuation acquired from molecular dynamics simulations. Thus, our work provides a minimal baseline model that encodes complex interactions in a condensed phase system to facilitate the data-driven analysis of physicochemical systems.
翻訳日:2021-10-28 15:11:38 公開日:2021-10-27
# 専門的アドバイスを限定した予測の速さ

Fast rates for prediction with limited expert advice ( http://arxiv.org/abs/2110.14485v1 )

ライセンス: Link先を確認
El Mehdi Saad (CELESTE, LMO), Gilles Blanchard (LMO, DATASHAPE)(参考訳) 本稿では,情報へのアクセス制限の下で,確率的条件下での有限族における最高の専門家予測に対する過剰な一般化誤差を最小化する問題について検討する。 学習者は、トレーニングラウンド毎に限られた数の専門家のアドバイスと、予測にしかアクセスできないと仮定する。 損失関数がリプシッツで強い凸であると仮定すると、訓練段階ではTラウンドあたりの1人の専門家のアドバイスを見ることができ、またテストフェーズでの予測に1人の専門家のアドバイスを使うことができれば、最悪の場合の余剰リスクは、確率を定数で下限に抑えた$\Omega$(1/$\sqrt$T) となる。 しかし、トレーニングラウンド毎に少なくとも2つのアクティブな専門家アドバイスを確認でき、少なくとも2つの専門家を使って予測できる場合、O(1/T)の速さが達成できる。 この設定でこの速度を達成する新しいアルゴリズムを設計し、学習者が観察した専門家のアドバイスの総数に予算制約を課す設定において、与えられた一般化誤差の精度を達成するのに必要なトレーニングラウンド数とクエリの正確なインスタンス依存境界を与える。

We investigate the problem of minimizing the excess generalization error with respect to the best expert prediction in a finite family in the stochastic setting, under limited access to information. We assume that the learner only has access to a limited number of expert advices per training round, as well as for prediction. Assuming that the loss function is Lipschitz and strongly convex, we show that if we are allowed to see the advice of only one expert per round for T rounds in the training phase, or to use the advice of only one expert for prediction in the test phase, the worst-case excess risk is $\Omega$(1/ $\sqrt$ T) with probability lower bounded by a constant. However, if we are allowed to see at least two actively chosen expert advices per training round and use at least two experts for prediction, the fast rate O(1/T) can be achieved. We design novel algorithms achieving this rate in this setting, and in the setting where the learner has a budget constraint on the total number of observed expert advices, and give precise instance-dependent bounds on the number of training rounds and queries needed to achieve a given generalization error precision.
翻訳日:2021-10-28 15:11:19 公開日:2021-10-27
# 分散探索による微分プライベート・フェデレーションベイズ最適化

Differentially Private Federated Bayesian Optimization with Distributed Exploration ( http://arxiv.org/abs/2110.14153v1 )

ライセンス: Link先を確認
Zhongxiang Dai, Bryan Kian Hsiang Low, Patrick Jaillet(参考訳) ベイズ最適化(bo)は、フェデレーションハイパーパラメータチューニングのような有望な応用があるフェデレーショントンプソンサンプリング(fts)アルゴリズムによって、最近フェデレーション学習(fl)設定に拡張された。 しかし、FTSにはFLの重要な考慮事項である厳格なプライバシー保証が備わっていない。 最近の研究は、DPを反復アルゴリズムに追加するための一般的なフレームワークを通じて、ディープニューラルネットワークのトレーニングに差分プライバシー(DP)を組み込んでいる。 この一般的なDPフレームワークに従って、当社の作業は、DPをFTSに統合し、ユーザレベルのプライバシを保存する。 また,この汎用dpフレームワークによって異なるパラメータベクトルを処理し,boの局所モデリング手法を活用し,分散探索(de)によるアルゴリズムの有用性をさらに向上させる。 de(dp-fts-de)アルゴリズムによる差分プライベートftsは、プライバシとユーティリティの両方に対して理論的保証が与えられ、プライバシ利用トレードオフに関する興味深い理論的洞察が得られている。 また,DP-FTS-DEは高い実用性(競争性能)と強力なプライバシ保証(プライバシー損失の小さい)を実現し,プライバシとユーティリティのトレードオフをもたらすことを示すために実世界の実験も行っている。

Bayesian optimization (BO) has recently been extended to the federated learning (FL) setting by the federated Thompson sampling (FTS) algorithm, which has promising applications such as federated hyperparameter tuning. However, FTS is not equipped with a rigorous privacy guarantee which is an important consideration in FL. Recent works have incorporated differential privacy (DP) into the training of deep neural networks through a general framework for adding DP to iterative algorithms. Following this general DP framework, our work here integrates DP into FTS to preserve user-level privacy. We also leverage the ability of this general DP framework to handle different parameter vectors, as well as the technique of local modeling for BO, to further improve the utility of our algorithm through distributed exploration (DE). The resulting differentially private FTS with DE (DP-FTS-DE) algorithm is endowed with theoretical guarantees for both the privacy and utility and is amenable to interesting theoretical insights about the privacy-utility trade-off. We also use real-world experiments to show that DP-FTS-DE achieves high utility (competitive performance) with a strong privacy guarantee (small privacy loss) and induces a trade-off between privacy and utility.
翻訳日:2021-10-28 15:08:41 公開日:2021-10-27
# OpeNPDN: 電源ネットワーク合成のためのニューラルネットワークベースのフレームワーク

OpeNPDN: A Neural-network-based Framework for Power Delivery Network Synthesis ( http://arxiv.org/abs/2110.14184v1 )

ライセンス: Link先を確認
Vidya A. Chhabria and Sachin S. Sapatnekar(参考訳) 電力配信ネットワーク(PDN)の設計は、非自明で、時間集約的で反復的なタスクである。 PDNの正確な設計は、パワーバンプ、電流、遮断、信号の混雑分布パターンに関する考慮を考慮しなければならない。 本稿では,事前定義されたpdnテンプレートを用いた機械学習に基づく手法を提案する。 フロアプラン段階では、初期設計のためのグリッドを合成するために、電流、混雑、マクロ/ブロック、C4バンプ分布の粗い推定値を用いる。 配置段階では、電流と混雑のより正確できめ細かい分布に基づいてグリッドを漸進的に洗練する。 各段階で、畳み込みニューラルネットワーク(CNN)はチップ上の各領域に対して適切なPDNテンプレートを選択し、IRドロップとエレクトロマイグレーション(EM)仕様を満たす安全な構成のPDNを構築する。 cnnは当初、大規模な合成データセットを使用してトレーニングされ、その後に転送学習が活用され、実循環データ(データセットサイズが限られている)と合成データの間のギャップを埋める。 PDNの最適化は、IRドロップとEMリミット内に留まりながら、グローバルに均一なPDNと比較して、混雑クリティカルな領域における何千ものルーティングトラックを解放する。

Power delivery network (PDN) design is a nontrivial, time-intensive, and iterative task. Correct PDN design must account for considerations related to power bumps, currents, blockages, and signal congestion distribution patterns. This work proposes a machine learning-based methodology that employs a set of predefined PDN templates. At the floorplan stage, coarse estimates of current, congestion, macro/blockages, and C4 bump distributions are used to synthesize a grid for early design. At the placement stage, the grid is incrementally refined based on more accurate and fine-grained distributions of current and congestion. At each stage, a convolutional neural network (CNN) selects an appropriate PDN template for each region on the chip, building a safe-by-construction PDN that meets IR drop and electromigration (EM) specifications. The CNN is initially trained using a large synthetically-create d dataset, following which transfer learning is leveraged to bridge the gap between real-circuit data (with a limited dataset size) and synthetically-genera ted data. On average, the optimization of the PDN frees thousands of routing tracks in congestion-critical regions, when compared to a globally uniform PDN, while staying within the IR drop and EM limits.
翻訳日:2021-10-28 15:08:17 公開日:2021-10-27
# 熱・電力供給ネットワーク解析のためのエンコーダデコーダネットワーク

Encoder-Decoder Networks for Analyzing Thermal and Power Delivery Networks ( http://arxiv.org/abs/2110.14197v1 )

ライセンス: Link先を確認
Vidya A. Chhabria, Vipul Ahuja, Ashwath Prabhu, Nikhil Patil, Palkesh Jain, Sachin S. Sapatnekar(参考訳) 電力供給ネットワーク(PDN)解析と熱分析は、IC設計の成功に不可欠な計算コストの高いタスクである。 アルゴリズム的には、どちらの解析も、同じ形式の偏微分方程式の解を含むような計算構造と複雑性を持つ。 本稿では,これらの解析を画像から画像への変換とシーケンスからシーケンスへの変換に変換し,エンコーダデコーダに基づく生成(EDGe)アーキテクチャを用いて機械学習モデルのクラスを活用して,これらのタスクの時間的集約性に対処する。 PDN解析には2つのネットワークを提案する。 i) IREDGe: フルチップの静的および動的IRドロップ予測器および (二)EMEDGe:入力電力、電力グリッド分布、電力パッド分布パターンに基づくエレクトロマイグレーション(EM)ホットスポット分類器。 本研究では,熱解析のための入力電力分布パターンに基づくフルチップの静的・動的温度推定器であるthermedgeを提案する。 これらのネットワークは、同じ技術とパッキングソリューション内で合成された設計間で転送可能である。 ネットワークは、オンチップIRの落下、EMホットスポットの位置、温度をミリ秒単位で予測する。

Power delivery network (PDN) analysis and thermal analysis are computationally expensive tasks that are essential for successful IC design. Algorithmically, both these analyses have similar computational structure and complexity as they involve the solution to a partial differential equation of the same form. This paper converts these analyses into image-to-image and sequence-to-sequence translation tasks, which allows leveraging a class of machine learning models with an encoder-decoder-base d generative (EDGe) architecture to address the time-intensive nature of these tasks. For PDN analysis, we propose two networks: (i) IREDGe: a full-chip static and dynamic IR drop predictor and (ii) EMEDGe: electromigration (EM) hotspot classifier based on input power, power grid distribution, and power pad distribution patterns. For thermal analysis, we propose ThermEDGe, a full-chip static and dynamic temperature estimator based on input power distribution patterns for thermal analysis. These networks are transferable across designs synthesized within the same technology and packing solution. The networks predict on-chip IR drop, EM hotspot locations, and temperature in milliseconds with negligibly small errors against commercial tools requiring several hours.
翻訳日:2021-10-28 15:07:57 公開日:2021-10-27
# 拘束k-Centerとk-SupplierのタイトFPT近似

Tight FPT Approximation for Constrained k-Center and k-Supplier ( http://arxiv.org/abs/2110.14242v1 )

ライセンス: Link先を確認
Dishant Goyal and Ragesh Jaiswal(参考訳) 本研究では,容量化,フォールトトレラント,フェアなど,k$-supplierおよびk$-center問題の制約付きバージョンについて検討する。 これらの問題は、制約付きクラスタリングの幅広い枠組みに該当する。 Ding と Xu [SODA 2015] は、$k$-median と $k$-means の目的という文脈で、制約付きクラスタリングのための統一されたフレームワークを提案した。 この作業では、このフレームワークを$k$-supplierと$k$-centerの目的に拡張します。 この統合されたフレームワークは、以下の制約付きバージョンの$k$-supplier問題に対して、同時に結果を得ることができる:$r$-gather, $r$-capacity, balanced,chromeatic, fault-tolerant, strongly private, $\ell$-diversity, fair $k$-supplier problem, with with and without outliers。 制約付き$k$-supplier と $k$-center 問題に対して、それぞれ$$$$2$の近似アルゴリズムを与え、$\mathsf{FPT}$ run time $k^{O(k)} \cdot n^{O(1)}$, $n = |C \cup L|$とする。 さらに、これらの近似保証は厳密であり、すなわち任意の定数 $\epsilon>0$ に対して、任意のアルゴリズムが $(3-\epsilon)$ と $(2-\epsilon)$ を達成できない、すなわち、制約付き $k$-supplier と $k$-center の問題を $\mathsf{FPT}$ time で、$\mathsf{FPT} \neq \mathsf{W}[2]$ さらに,これらの制約付き問題を外乱設定で検討する。 我々のアルゴリズムは、制約付きアウトリーの$k$-supplierと$k$-center問題に対して、それぞれ3$と2$の近似保証を与え、$\mathsf{FPT}$ run time $(k+m)^{O(k)} \cdot n^{O(1)}$で、$n = |C \cup L|$と$m$はアウトリーの数値である。

In this work, we study a range of constrained versions of the $k$-supplier and $k$-center problems such as: capacitated, fault-tolerant, fair, etc. These problems fall under a broad framework of constrained clustering. A unified framework for constrained clustering was proposed by Ding and Xu [SODA 2015] in context of the $k$-median and $k$-means objectives. In this work, we extend this framework to the $k$-supplier and $k$-center objectives. This unified framework allows us to obtain results simultaneously for the following constrained versions of the $k$-supplier problem: $r$-gather, $r$-capacity, balanced, chromatic, fault-tolerant, strongly private, $\ell$-diversity, and fair $k$-supplier problems, with and without outliers. We obtain the following results: We give $3$ and $2$ approximation algorithms for the constrained $k$-supplier and $k$-center problems, respectively, with $\mathsf{FPT}$ running time $k^{O(k)} \cdot n^{O(1)}$, where $n = |C \cup L|$. Moreover, these approximation guarantees are tight; that is, for any constant $\epsilon>0$, no algorithm can achieve $(3-\epsilon)$ and $(2-\epsilon)$ approximation guarantees for the constrained $k$-supplier and $k$-center problems in $\mathsf{FPT}$ time, assuming $\mathsf{FPT} \neq \mathsf{W}[2]$. Furthermore, we study these constrained problems in outlier setting. Our algorithm gives $3$ and $2$ approximation guarantees for the constrained outlier $k$-supplier and $k$-center problems, respectively, with $\mathsf{FPT}$ running time $(k+m)^{O(k)} \cdot n^{O(1)}$, where $n = |C \cup L|$ and $m$ is the number of outliers.
翻訳日:2021-10-28 15:07:38 公開日:2021-10-27
# 配電系統におけるアクティブ電圧制御のためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Active Voltage Control on Power Distribution Networks ( http://arxiv.org/abs/2110.14300v1 )

ライセンス: Link先を確認
Jianhong Wang, Wangkun Xu, Yunjie Gu, Wenbin Song, Tim C. Green(参考訳) 本稿では,マルチエージェント強化学習(MARL)の適用において,エキサイティングかつ挑戦的な現実シナリオを生み出す電力ネットワークの問題点について述べる。 脱炭のトレンドは、配電ネットワークに過度のストレスをかけている。 アクティブ電圧制御は、屋上太陽光発電(PV)やスタティックヴァル補償器(SVC)といったネットワークの制御可能な機器を活用することにより、余分なハードウェア投資なしに電力混雑を緩和し、電圧品質を向上させるための有望なソリューションと見なされている。 これらの制御可能な装置は膨大な数に出現し、広い地理的領域に分散しているため、MARLは自然な候補となる。 本稿では,Dec-POMDPのフレームワークにおけるアクティブ電圧制御問題を定式化し,オープンソース環境を確立する。 パワーコミュニティとMARLコミュニティのギャップを埋めることを目的としており、MARLアルゴリズムの現実的な応用に向けた原動力となる。 最後に,最先端のmarlアプローチの課題となるアクティブ電圧制御問題の特殊特性を解析し,潜在的な方向を要約する。

This paper presents a problem in power networks that creates an exciting and yet challenging real-world scenario for application of multi-agent reinforcement learning (MARL). The emerging trend of decarbonisation is placing excessive stress on power distribution networks. Active voltage control is seen as a promising solution to relieve power congestion and improve voltage quality without extra hardware investment, taking advantage of the controllable apparatuses in the network, such as roof-top photovoltaics (PVs) and static var compensators (SVCs). These controllable apparatuses appear in a vast number and are distributed in a wide geographic area, making MARL a natural candidate. This paper formulates the active voltage control problem in the framework of Dec-POMDP and establishes an open-source environment. It aims to bridge the gap between the power community and the MARL community and be a drive force towards real-world applications of MARL algorithms. Finally, we analyse the special characteristics of the active voltage control problems that cause challenges for state-of-the-art MARL approaches, and summarise the potential directions.
翻訳日:2021-10-28 15:06:51 公開日:2021-10-27
# 単一細胞時代に再訪した特徴選択

Feature selection revisited in the single-cell era ( http://arxiv.org/abs/2110.14329v1 )

ライセンス: Link先を確認
Pengyi Yang, Hao Huang, Chunlei Liu(参考訳) 高次元データ解析には特徴選択技術が不可欠である。 過去20年間で、その人気は、高次元性が共通のデータ特性である高出力の生体分子データの利用の増加によって加速されてきた。 近年のバイオテクノロジーの進歩により、単細胞分解能で様々な分子・細胞の特徴のグローバルなプロファイリングが可能となり、複雑さが増大する大規模データセットが実現された。 これらの技術の発展は、シングルセル分野における機能選択研究と応用の復活に繋がった。 本稿では,機能選択手法を再考し,最近の展開を要約する。 従来の細胞計測・イメージング技術や最新の単細胞オミクス技術から生成されるものを含む,多様な単一細胞データタイプへの汎用的応用についてレビューする。 機能選択が大きな影響を与える可能性のある課題と今後の方向性を強調します。 最後に、スケーラビリティを検討し、各タイプの特徴選択手法の有用性について一般的な推奨を行う。 このレビューが,単一細胞時代における機能選択の今後の研究と応用を刺激する基準点になることを願っている。

Feature selection techniques are essential for high-dimensional data analysis. In the last two decades, their popularity has been fuelled by the increasing availability of high-throughput biomolecular data where high-dimensionality is a common data property. Recent advances in biotechnologies enable global profiling of various molecular and cellular features at single-cell resolution, resulting in large-scale datasets with increased complexity. These technological developments have led to a resurgence in feature selection research and application in the single-cell field. Here, we revisit feature selection techniques and summarise recent developments. We review their versatile application to a range of single-cell data types including those generated from traditional cytometry and imaging technologies and the latest array of single-cell omics technologies. We highlight some of the challenges and future directions on which feature selection could have a significant impact. Finally, we consider the scalability and make general recommendations on the utility of each type of feature selection method. We hope this review serves as a reference point to stimulate future research and application of feature selection in the single-cell era.
翻訳日:2021-10-28 15:06:32 公開日:2021-10-27
# 多段階インフルエンザ予測のための総合学習粒子群最適化のためのモデリングフレームワーク

Comprehensive learning particle swarm optimization enabled modeling framework for multi-step-ahead influenza prediction ( http://arxiv.org/abs/2110.14343v1 )

ライセンス: Link先を確認
Siyue Yang, Yukun Bao(参考訳) インフルエンザの流行は公衆衛生上の問題である。 インフルエンザの予測は常に毎週の臨床または実験室の監視データ(典型的には毎週のインフルエンザ様疾患(ILI)率)に依存しているため、ILIシリーズを用いた正確な多段階のインフルエンザ予測は、特に来るべきインフルエンザの流行に対して非常に重要である。 本研究では,多段階インフルエンザ予測のためのサポートベクタ回帰(SVR)と多層パーセプトロン(MLP)を組み合わせた総合学習粒子群最適化に基づく機械学習(CLPSO-ML)フレームワークを提案する。 中国南部と北部の両方の週次iliレート系列を用いて,反復戦略,直接戦略,多入力多重出力(mimo)戦略を含む,一般的に使用される3つの多段階予測モデリング手法の性能と可能性の包括的検討と比較を行った。 The results show that: (1) The MIMO strategy achieves the best multi-step-ahead prediction, and is potentially more adaptive for longer horizon; (2) The iterated strategy demonstrates special potentials for deriving the least time difference between the occurrence of the predicted peak value and the true peak value of an influenza outbreak; (3) For ILI in the Northern China, SVR model implemented with MIMO strategy performs best, and SVR with iterated strategy also shows remarkable performance especially during outbreak periods; while for ILI in the Southern China, both SVR and MLP models with MIMO strategy have competitive prediction performance

Epidemics of influenza are major public health concerns. Since influenza prediction always relies on the weekly clinical or laboratory surveillance data, typically the weekly Influenza-like illness (ILI) rate series, accurate multi-step-ahead influenza predictions using ILI series is of great importance, especially, to the potential coming influenza outbreaks. This study proposes Comprehensive Learning Particle Swarm Optimization based Machine Learning (CLPSO-ML) framework incorporating support vector regression (SVR) and multilayer perceptron (MLP) for multi-step-ahead influenza prediction. A comprehensive examination and comparison of the performance and potential of three commonly used multi-step-ahead prediction modeling strategies, including iterated strategy, direct strategy and multiple-input multiple-output (MIMO) strategy, was conducted using the weekly ILI rate series from both the Southern and Northern China. The results show that: (1) The MIMO strategy achieves the best multi-step-ahead prediction, and is potentially more adaptive for longer horizon; (2) The iterated strategy demonstrates special potentials for deriving the least time difference between the occurrence of the predicted peak value and the true peak value of an influenza outbreak; (3) For ILI in the Northern China, SVR model implemented with MIMO strategy performs best, and SVR with iterated strategy also shows remarkable performance especially during outbreak periods; while for ILI in the Southern China, both SVR and MLP models with MIMO strategy have competitive prediction performance
翻訳日:2021-10-28 15:06:18 公開日:2021-10-27
# 学習するべき場所:メタ学習と連続学習における勾配性

Learning where to learn: Gradient sparsity in meta and continual learning ( http://arxiv.org/abs/2110.14402v1 )

ライセンス: Link先を確認
Johannes von Oswald, Dominic Zhao, Seijin Kobayashi, Simon Schug, Massimo Caccia, Nicolas Zucchet, Jo\~ao Sacramento(参考訳) 小さなデータセットからよく一般化するニューラルネットワークの重みを見つけることは難しい。 有望なアプローチは、少数の重み変化が低い一般化誤差をもたらすような重み初期化を学ぶことである。 学習アルゴリズムがどの重みを変えるか、すなわち学習場所を学習することで、このようなメタ学習を改善することができることを示す。 このプロセスからパターン化されたスパーシリティが出現し,そのパターンは問題ごとに異なることがわかった。 この選択的なスパーシリティは、より一般化され、いくつかのショットや連続的な学習問題に対する干渉が少なくなる。 さらに,学習率をメタ学習するより表現力のあるモデルにおいても,スパース学習が出現することがわかった。 以上の結果から,メタ学習は適応可能な特徴を発見できるのか,また,疎勾配降下による学習はメタ学習システムにとって強力な帰納的バイアスであることが示唆された。

Finding neural network weights that generalize well from small datasets is difficult. A promising approach is to learn a weight initialization such that a small number of weight changes results in low generalization error. We show that this form of meta-learning can be improved by letting the learning algorithm decide which weights to change, i.e., by learning where to learn. We find that patterned sparsity emerges from this process, with the pattern of sparsity varying on a problem-by-problem basis. This selective sparsity results in better generalization and less interference in a range of few-shot and continual learning problems. Moreover, we find that sparse learning also emerges in a more expressive model where learning rates are meta-learned. Our results shed light on an ongoing debate on whether meta-learning can discover adaptable features and suggest that learning by sparse gradient descent is a powerful inductive bias for meta-learning systems.
翻訳日:2021-10-28 15:05:54 公開日:2021-10-27
# (参考訳) ファジィ生成逆ネットワーク [全文訳有]

Fuzzy Generative Adversarial Networks ( http://arxiv.org/abs/2110.14588v1 )

ライセンス: CC BY 4.0
Ryan Nguyen, Shubhendu Kumar Singh, and Rahul Rai(参考訳) Generative Adversarial Networks (GAN) は、データ生成と半教師付き分類のためのよく知られたツールである。 ラベル付きデータの少ないGANは、さまざまなタスクの分類においてDeep Neural Networks(DNN)とConvolutional Neural Networks(CNN)よりも優れており、半教師付き回帰の領域に侵入可能なGANを開発することを約束している。 しかし、回帰のためのGANの開発には、(1)GANの定式化における固有の不安定性と(2)回帰を行い、同時に安定性を達成するという2つの大きな課題が伴う。 本稿では,平均絶対誤差(MAE)と平均二乗誤差(MSE)によるGANの回帰能力の向上を示す手法を提案する。 ファジィ論理系は分類や回帰設定において高い有効性を示したため,gan内の複数の場所で微分可能なファジィ論理系を焼く。 ファジィ論理は、ジェネレータと判別器の出力を1つまたは両方取り、出力、y$を予測し、ジェネレータの性能を評価する。 本稿では,ファジィ論理系をCGANに適用し,各アプローチの有効性を概説する。 本稿では, ファジィ論理層を追加することで, GANの回帰処理能力を高めることができることを示す。 さらに, ファジィ注入型GANはDNNと競合することを示す。

Generative Adversarial Networks (GANs) are well-known tools for data generation and semi-supervised classification. GANs, with less labeled data, outperform Deep Neural Networks (DNNs) and Convolutional Neural Networks (CNNs) in classification across various tasks, this shows promise for developing GANs capable of trespassing into the domain of semi-supervised regression. However, developing GANs for regression introduce two major challenges: (1) inherent instability in the GAN formulation and (2) performing regression and achieving stability simultaneously. This paper introduces techniques that show improvement in the GANs' regression capability through mean absolute error (MAE) and mean squared error (MSE). We bake a differentiable fuzzy logic system at multiple locations in a GAN because fuzzy logic systems have demonstrated high efficacy in classification and regression settings. The fuzzy logic takes the output of either or both the generator and the discriminator to either or both predict the output, $y$, and evaluate the generator's performance. We outline the results of applying the fuzzy logic system to CGAN and summarize each approach's efficacy. This paper shows that adding a fuzzy logic layer can enhance GAN's ability to perform regression; the most desirable injection location is problem-specific, and we show this through experiments over various datasets. Besides, we demonstrate empirically that the fuzzy-infused GAN is competitive with DNNs.
翻訳日:2021-10-28 15:04:32 公開日:2021-10-27
# アンサンブルから学ぶときの多様性

Diversity Matters When Learning From Ensembles ( http://arxiv.org/abs/2110.14149v1 )

ライセンス: Link先を確認
Giung Nam, Jongmin Yoon, Yoonho Lee, Juho Lee(参考訳) ディープアンサンブルは、予測精度とキャリブレーションの両面で、大規模な画像分類タスクに優れている。 訓練は簡単だが、深いアンサンブルの計算とメモリコストは実用性を制限している。 近年の研究では、アンサンブルモデルを1つのモデルに蒸留してコストを下げることを提案しているが、アンサンブルモデルと蒸留モデルの間には依然として性能の差がある。 本稿では,このギャップを減らすための簡単な手法,すなわち蒸留した性能を全アンサンブルに近づける手法を提案する。 私たちの重要な前提は、蒸留されたモデルがアンサンブル内でできるだけ多くの関数の多様性を吸収すべきだということです。 まず, 典型的蒸留法ではその多様性を効果的に伝達できないこと, 特に, 訓練誤差がゼロに近い複雑なモデルの場合について, 実験的検討を行った。 そこで本研究では,アンサンブル部材の出力が一致しない入力を求めることで多様性を明らかにする蒸留の摂動戦略を提案する。 このような摂動試料を蒸留したモデルでは,多様性が向上し,性能が向上することを示す。

Deep ensembles excel in large-scale image classification tasks both in terms of prediction accuracy and calibration. Despite being simple to train, the computation and memory cost of deep ensembles limits their practicability. While some recent works propose to distill an ensemble model into a single model to reduce such costs, there is still a performance gap between the ensemble and distilled models. We propose a simple approach for reducing this gap, i.e., making the distilled performance close to the full ensemble. Our key assumption is that a distilled model should absorb as much function diversity inside the ensemble as possible. We first empirically show that the typical distillation procedure does not effectively transfer such diversity, especially for complex models that achieve near-zero training error. To fix this, we propose a perturbation strategy for distillation that reveals diversity by seeking inputs for which ensemble member outputs disagree. We empirically show that a model distilled with such perturbed samples indeed exhibits enhanced diversity, leading to improved performance.
翻訳日:2021-10-28 14:47:50 公開日:2021-10-27
# RoMA: オフラインモデルベース最適化のためのロバストモデル適応

RoMA: Robust Model Adaptation for Offline Model-based Optimization ( http://arxiv.org/abs/2110.14188v1 )

ライセンス: Link先を確認
Sihyun Yu, Sungsoo Ahn, Le Song, Jinwoo Shin(参考訳) 入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。 この問題を解決するための一般的なアプローチは、真の目的関数を近似するディープニューラルネットワーク(DNN)のようなプロキシモデルを維持することである。 ここでの最大の課題は、検索中に敵意に最適化された入力、すなわちdnnが真の目的関数を過大評価する入力を避ける方法である。 この問題に対処するために,dnn上の入力の勾配に基づく最適化に基づくロバストモデル適応(roma)という新しいフレームワークを提案する。 具体的には2つのステップから構成されます。 (a)プロキシモデルを堅牢にトレーニングするための事前トレーニング戦略 (b)特定の候補解のセットに対するロバストな推定を行うための、プロキシモデルの新規な適応手順。 高いレベルでは,DNNの脆さを克服する前に局所的な滑らかさを利用する。 様々なタスクによる実験では、romaが以前の手法と比較して有効性を示し、6つのタスクのうち4つでromaが上回っており、残りのタスクで次点となる結果が得られる。

We consider the problem of searching an input maximizing a black-box objective function given a static dataset of input-output queries. A popular approach to solving this problem is maintaining a proxy model, e.g., a deep neural network (DNN), that approximates the true objective function. Here, the main challenge is how to avoid adversarially optimized inputs during the search, i.e., the inputs where the DNN highly overestimates the true objective function. To handle the issue, we propose a new framework, coined robust model adaptation (RoMA), based on gradient-based optimization of inputs over the DNN. Specifically, it consists of two steps: (a) a pre-training strategy to robustly train the proxy model and (b) a novel adaptation procedure of the proxy model to have robust estimates for a specific set of candidate solutions. At a high level, our scheme utilizes the local smoothness prior to overcome the brittleness of the DNN. Experiments under various tasks show the effectiveness of RoMA compared with previous methods, obtaining state-of-the-art results, e.g., RoMA outperforms all at 4 out of 6 tasks and achieves runner-up results at the remaining tasks.
翻訳日:2021-10-28 14:47:34 公開日:2021-10-27
# FedPrune: 包括的フェデレーション学習を目指す

FedPrune: Towards Inclusive Federated Learning ( http://arxiv.org/abs/2110.14205v1 )

ライセンス: Link先を確認
Muhammad Tahir Munir, Muhammad Mustansar Saeed, Mahad Ali, Zafar Ayyub Qazi, Ihsan Ayyub Qazi(参考訳) フェデレートラーニング(Federated Learning, FL)は、分散データの共有モデルをプライバシ保護形式でトレーニングする分散学習技術である。 残念ながら、FLのパフォーマンスは低下している。 (i)計算資源及びメモリ資源(システム不均一性)の観点からのクライアント特性の変動性と (ii)クライアント間の非iidデータ分布(統計的不均一性)。 例えば、フェデレーション平均化(federated averaging, fedavg)のようなflスキームでは、遅いクライアントがドロップされる。 そこで本研究では,フェデプルーンシステムを提案する。フェデプルーンは,そのデバイス特性に基づいて,低速クライアントのためのグローバルモデルを構築することで,この課題に挑戦するシステムである。 これにより、遅いクライアントは小さなモデルを迅速に訓練し、テスト精度と公正性を高めるFLに参加することができる。 Central Limit Theoremからの洞察を利用することで、FedPruneは非IIDデータよりも堅牢なパフォーマンスを実現する新しい集約テクニックを取り入れている。 Fed-PruneはFederated Averagingと比較して、堅牢な収束と公正性を提供する。

Federated learning (FL) is a distributed learning technique that trains a shared model over distributed data in a privacy-preserving manner. Unfortunately, FL's performance degrades when there is (i) variability in client characteristics in terms of computational and memory resources (system heterogeneity) and (ii) non-IID data distribution across clients (statistical heterogeneity). For example, slow clients get dropped in FL schemes, such as Federated Averaging (FedAvg), which not only limits overall learning but also biases results towards fast clients. We propose FedPrune; a system that tackles this challenge by pruning the global model for slow clients based on their device characteristics. By doing so, slow clients can train a small model quickly and participate in FL which increases test accuracy as well as fairness. By using insights from Central Limit Theorem, FedPrune incorporates a new aggregation technique that achieves robust performance over non-IID data. Experimental evaluation shows that Fed- Prune provides robust convergence and better fairness compared to Federated Averaging.
翻訳日:2021-10-28 14:47:13 公開日:2021-10-27
# オフザシェルフANNを用いたパレート最適精度コストトレードオフのためのカスケード分類器

Cascaded Classifier for Pareto-Optimal Accuracy-Cost Trade-Off Using off-the-Shelf ANNs ( http://arxiv.org/abs/2110.14256v1 )

ライセンス: Link先を確認
Cecilia Latotzke, Johnson Loh, and Tobias Gemmeke(参考訳) 機械学習分類器は、分類タスクにおいて高い品質のサービスを提供する。 研究は現在、ソリューション当たりの平均処理時間やエネルギーの観点から測定されたコスト削減を目標としている。 カスケード分類器の概念を再考し、分類器の段階間における最適パスオン基準の種別分析を行った。 この解析に基づいて,カスケード分類器の精度と効率を最大化する手法を導出する。 一方,本手法では,参照分類器の精度を保ちつつ,コストを1.32倍削減できる。 一方で、精度を優雅に低下させながら、2つの注文でコストをスケールできる。 これにより、最終分類器ステージが最高精度を設定する。 したがって、多段階実現は任意の最先端の分類器を最適化するために用いられる。

Machine-learning classifiers provide high quality of service in classification tasks. Research now targets cost reduction measured in terms of average processing time or energy per solution. Revisiting the concept of cascaded classifiers, we present a first of its kind analysis of optimal pass-on criteria between the classifier stages. Based on this analysis, we derive a methodology to maximize accuracy and efficiency of cascaded classifiers. On the one hand, our methodology allows cost reduction of 1.32x while preserving reference classifier's accuracy. On the other hand, it allows to scale cost over two orders while gracefully degrading accuracy. Thereby, the final classifier stage sets the top accuracy. Hence, the multi-stage realization can be employed to optimize any state-of-the-art classifier.
翻訳日:2021-10-28 14:46:55 公開日:2021-10-27
# スケーラブルグラフ学習のためのノード依存局所平滑化

Node Dependent Local Smoothing for Scalable Graph Learning ( http://arxiv.org/abs/2110.14377v1 )

ライセンス: Link先を確認
Wentao Zhang, Mingyu Yang, Zeang Sheng, Yang Li, Wen Ouyang, Yangyu Tao, Zhi Yang, Bin Cui(参考訳) 最近の研究は、グラフニューラルネットワーク(GNN)のコアにある機能やラベルのスムース化を明らかにしている。 具体的には,特徴平滑化と単純な線形回帰を組み合わせることで,慎重に設計したGNNと同等の性能を達成し,ラベル平滑化による予測がバニラGCNより優れていることを示す。 興味深い発見だが、特に滑らかさの程度を制御する方法に関して、スムージングはよく理解されていない。 直感的には、小さすぎるか大きすぎるスムーズなイテレーションは、過度なスムージングや過度なスムージングを引き起こし、準最適パフォーマンスをもたらす可能性がある。 さらに、滑らかさの程度は、その度合いと局所構造によって、ノード固有である。 そこで本研究では,ノード固有の平滑化イテレーションを設定し,各ノードの平滑性を制御することを目的とした,ノード依存局所平滑化(ndls)と呼ばれる新しいアルゴリズムを提案する。 具体的には、ndlsは隣接行列に基づいて影響スコアを計算し、スコアにしきい値を設定してイテレーション番号を選択する。 一度選択すれば、イテレーション番号をフィーチャースムージングとラベルスムージングの両方に適用できる。 実験の結果、NDLSは高い精度(ノード分類タスクにおける最先端のパフォーマンス、柔軟性、あらゆるモデルに組み込めること、スケーラビリティ、効率性が高速なトレーニングで大規模グラフをサポートできることが示されている。

Recent works reveal that feature or label smoothing lies at the core of Graph Neural Networks (GNNs). Concretely, they show feature smoothing combined with simple linear regression achieves comparable performance with the carefully designed GNNs, and a simple MLP model with label smoothing of its prediction can outperform the vanilla GCN. Though an interesting finding, smoothing has not been well understood, especially regarding how to control the extent of smoothness. Intuitively, too small or too large smoothing iterations may cause under-smoothing or over-smoothing and can lead to sub-optimal performance. Moreover, the extent of smoothness is node-specific, depending on its degree and local structure. To this end, we propose a novel algorithm called node-dependent local smoothing (NDLS), which aims to control the smoothness of every node by setting a node-specific smoothing iteration. Specifically, NDLS computes influence scores based on the adjacency matrix and selects the iteration number by setting a threshold on the scores. Once selected, the iteration number can be applied to both feature smoothing and label smoothing. Experimental results demonstrate that NDLS enjoys high accuracy -- state-of-the-art performance on node classifications tasks, flexibility -- can be incorporated with any models, scalability and efficiency -- can support large scale graphs with fast training.
翻訳日:2021-10-28 14:46:44 公開日:2021-10-27
# direct then diffuse: 状態被覆とゴール到達のための教師なしスキル発見

Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching ( http://arxiv.org/abs/2110.14457v1 )

ライセンス: Link先を確認
Pierre-Alexandre Kamienny, Jean Tarbouriech, Alessandro Lazaric, Ludovic Denoyer(参考訳) 報酬無しで意味のある行動を学ぶことは強化学習において難しい問題である。 望ましい、かつ困難な目的は、指示を受けながら州空間を徹底的にカバーする一連の多様なスキル、すなわち環境の異なる領域に確実に到達することである。 本稿では,スキル発見のための相互情報フレームワークを構築し,その上層部を紹介する。 1) ある領域に到達するよう訓練された有向スキルの疎結合構造でポリシーを設計し,その後に局所的カバレッジを誘導する拡散部を設計する。 2) それぞれが環境の異なる領域(つまり十分に識別可能)に達するという制約の下で, それらの数を最大化することで政策を最適化し, 元の相互情報目的に対する下位境界として機能することを証明する。 3) 最後に,学習した指導力を,環境を適応的にカバーする成長木に構成する。 複数のナビゲーション環境と制御環境において,アップサイドが学習したスキルが,既存のベースラインよりもスパースリワード下流タスクをうまく解決することを示す。

Learning meaningful behaviors in the absence of reward is a difficult problem in reinforcement learning. A desirable and challenging unsupervised objective is to learn a set of diverse skills that provide a thorough coverage of the state space while being directed, i.e., reliably reaching distinct regions of the environment. In this paper, we build on the mutual information framework for skill discovery and introduce UPSIDE, which addresses the coverage-directednes s trade-off in the following ways: 1) We design policies with a decoupled structure of a directed skill, trained to reach a specific region, followed by a diffusing part that induces a local coverage. 2) We optimize policies by maximizing their number under the constraint that each of them reaches distinct regions of the environment (i.e., they are sufficiently discriminable) and prove that this serves as a lower bound to the original mutual information objective. 3) Finally, we compose the learned directed skills into a growing tree that adaptively covers the environment. We illustrate in several navigation and control environments how the skills learned by UPSIDE solve sparse-reward downstream tasks better than existing baselines.
翻訳日:2021-10-28 14:46:18 公開日:2021-10-27
# DESTA: Markov Games of Interventionによる安全な強化学習フレームワーク

DESTA: A Framework for Safe Reinforcement Learning with Markov Games of Intervention ( http://arxiv.org/abs/2110.14468v1 )

ライセンス: Link先を確認
David Mguni, Joel Jennings, Taher Jafferjee, Aivar Sootla, Yaodong Yang, Changmin Yu, Usman Islam, Ziyan Wang, Jun Wang(参考訳) 未知のシステムで探索することで、エージェントを危険な状況に配置し、破滅的な危険にさらされる可能性がある。 強化学習(RL)における安全な学習に取り組むための多くのアプローチは、安全な探索とタスク遂行のトレードオフにつながる。 これらの手法は安全性違反を少なくする可能性があるが、タスク性能の低下につながることもしばしばある。 本稿では,安全策により許容できる拡張に対するタスク報酬を最大化しつつ,安全性違反を最小限に抑えることを学ぶRLソルバの世代を導入するための第一歩を踏み出す。 このアプローチでは、分散探索安全トレーニングアルゴリズム(desta)と呼ばれる、安全なrlのための新しい2人乗りフレームワークを使用する。 DESTAのコアは、安全違反を最小限に抑えるタスクを委譲するSAFETY Agentと、環境タスクによって設定された報酬を最大化するTASK Agentの2つのRLエージェントの間の新しいゲームである。 SAFETY Agentは、TASK Agentが他のすべての州で自由に行動を実行している間に、安全違反を防ぐために、任意の時点でシステムを選択的に制御することができる。 この枠組みにより、SAFETY Agentは特定の州で安全な行動を行うことにより、将来の安全違反(訓練中および訓練後)を最小限に抑える行動をとることができる。 我々は,DESTAが課題に取り組む能力を示し,実際の物理システムとOpenAIのLunar LanderをシミュレートするSafety Gym Benchmarksの最先端のRL手法と比較する。

Exploring in an unknown system can place an agent in dangerous situations, exposing to potentially catastrophic hazards. Many current approaches for tackling safe learning in reinforcement learning (RL) lead to a trade-off between safe exploration and fulfilling the task. Though these methods possibly incur fewer safety violations, they often also lead to reduced task performance. In this paper, we take the first step in introducing a generation of RL solvers that learn to minimise safety violations while maximising the task reward to the extend that can be tolerated by safe policies. Our approach uses a new two-player framework for safe RL called Distributive Exploration Safety Training Algorithm (DESTA). The core of DESTA is a novel game between two RL agents: SAFETY AGENT that is delegated the task of minimising safety violations and TASK AGENT whose goal is to maximise the reward set by the environment task. SAFETY AGENT can selectively take control of the system at any given point to prevent safety violations while TASK AGENT is free to execute its actions at all other states. This framework enables SAFETY AGENT to learn to take actions that minimise future safety violations (during and after training) by performing safe actions at certain states while TASK AGENT performs actions that maximise the task performance everywhere else. We demonstrate DESTA's ability to tackle challenging tasks and compare against state-of-the-art RL methods in Safety Gym Benchmarks which simulate real-world physical systems and OpenAI's Lunar Lander.
翻訳日:2021-10-28 14:45:57 公開日:2021-10-27
# NIDA-CLIFGAN: コントラスト学習と情報融合と生成逆ネットワークを組み合わせた効率的な分類による自然インフラ被害評価

NIDA-CLIFGAN: Natural Infrastructure Damage Assessment through Efficient Classification Combining Contrastive Learning, Information Fusion and Generative Adversarial Networks ( http://arxiv.org/abs/2110.14518v1 )

ライセンス: Link先を確認
Jie Wei (1), Zhigang Zhu (1), Erik Blasch (2), Bilal Abdulrahman (1), Billy Davila (1), Shuoxin Liu (1), Jed Magracia (1), Ling Fang (1) ((1) Dept. of Computer Science, City College of New York, (2) Air Force Office of Scientific Research)(参考訳) 自然災害では、航空機や衛星が影響地域を調査している。 通常、人間の専門家は、適切な人道支援と災害対応(hadr)が達成できるように、建物の損傷の程度を手動でラベル付けする必要がある。 広範囲にわたる大きな災害の人間のラベル付けを期待することは、ハザーの努力を著しく遅らせる。 したがって、最先端の人工知能と機械学習技術を利用して、自然インフラの損傷評価プロセスを高速化し、効果的なHADRを実現することが重要である。 そこで本研究では,効率的な建物被害分類を実現するための体系的な取り組みを示す。 まず,2つの新しい生成逆数ネット(GAN)を,ディープラーニングに基づく分類器の訓練に使用するデータの拡張として設計する。 第2に,新しいデータ構造を用いたコントラスト学習法を開発し,優れた性能を実現する。 第3に、情報融合を用いることで、伝達学習のための訓練データサンプルを極めて少ないで効果的に訓練する。 すべての分類器は、最初の応答者のためにスマートフォンや単純なラップトップにロードできるくらい小さい。 利用可能なオーバーヘッド画像データセットに基づいて、収集したデータの10%でデータと計算効率を実証し、GANと組み合わせることで、ほぼ同様の分類性能で計算時間を約30日から約1時間に短縮する。

During natural disasters, aircraft and satellites are used to survey the impacted regions. Usually human experts are needed to manually label the degrees of the building damage so that proper humanitarian assistance and disaster response (HADR) can be achieved, which is labor-intensive and time-consuming. Expecting human labeling of major disasters over a wide area gravely slows down the HADR efforts. It is thus of crucial interest to take advantage of the cutting-edge Artificial Intelligence and Machine Learning techniques to speed up the natural infrastructure damage assessment process to achieve effective HADR. Accordingly, the paper demonstrates a systematic effort to achieve efficient building damage classification. First, two novel generative adversarial nets (GANs) are designed to augment data used to train the deep-learning-based classifier. Second, a contrastive learning based method using novel data structures is developed to achieve great performance. Third, by using information fusion, the classifier is effectively trained with very few training data samples for transfer learning. All the classifiers are small enough to be loaded in a smart phone or simple laptop for first responders. Based on the available overhead imagery dataset, results demonstrate data and computational efficiency with 10% of the collected data combined with a GAN reducing the time of computation from roughly half a day to about 1 hour with roughly similar classification performances.
翻訳日:2021-10-28 14:44:48 公開日:2021-10-27
# ニューラルネットワーク表現の類似性とマッチング

Similarity and Matching of Neural Network Representations ( http://arxiv.org/abs/2110.14633v1 )

ライセンス: Link先を確認
Adri\'an Csisz\'arik, P\'eter K\H{o}r\"osi-Szab\'o, \'Akos K. Matszangosz, Gergely Papp, D\'aniel Varga(参考訳) 我々は、深層ニューラルネットワークにおける表現の類似性を分析するために、Frankenstein博士と呼ばれるツールセットを使用します。 このツールセットにより、2つのトレーニングされたニューラルネットワークの与えられたレイヤの活性化を、ステッチ層と結合させることで一致させることを目標とする。 深部畳み込みニューラルネットワークにおいて同じアーキテクチャで現れる内部表現と異なる初期化が、単一のアフィン縫合層であっても驚くほど高い精度で一致できることを実証する。 線形変換のいくつかのクラスから縫合層を選択し,その性能と特性について検討する。 表現をマッチングするタスクは類似性の概念と密接に関連している。 このツールセットを使用することで、ニューラルネットワーク表現の類似性指標に関する現在の研究のライン、すなわちタスクのパフォーマンスの視点について、新たな視点を提供する。

We employ a toolset -- dubbed Dr. Frankenstein -- to analyse the similarity of representations in deep neural networks. With this toolset, we aim to match the activations on given layers of two trained neural networks by joining them with a stitching layer. We demonstrate that the inner representations emerging in deep convolutional neural networks with the same architecture but different initializations can be matched with a surprisingly high degree of accuracy even with a single, affine stitching layer. We choose the stitching layer from several possible classes of linear transformations and investigate their performance and properties. The task of matching representations is closely related to notions of similarity. Using this toolset, we also provide a novel viewpoint on the current line of research regarding similarity indices of neural network representations: the perspective of the performance on a task.
翻訳日:2021-10-28 14:44:27 公開日:2021-10-27
# 永久保存学習クロースに関する実験的研究

An Experimental Study of Permanently Stored Learned Clauses ( http://arxiv.org/abs/2110.14187v1 )

ライセンス: Link先を確認
Sima Jamali and David Mitchell(参考訳) 現代のCDCL SATソルバは、節を迅速に学習し、重要なヒューリスティックは節削除スキームである。 現在の解決者は2つ以上の節を格納している。 削除されない ``valuable''' 節がある。 ほとんどの学習された節が他方に追加され、そのサイズを制限する攻撃的な削除戦略が加えられる。 最近のMapleSATファミリーでは、比較的複雑な削除スキームがあり、よく機能している。 多くの解決者はバイナリ節のみを永久に保存するが、MapleLCMDistChronoBT は小さなLBDの節を永久に保存する。 今回,MapleLCMDistChronoB Tにおける文節保存の実験的検討を行った。 このストアはかなり大きなものになるが、そのサイズを制限するいくつかの方法によって性能が低下している。 また,代替サイズとlbd基準により性能が向上すると同時に,大型店を併設することを示した。 特に、最大8までの節を保存し、少数の高集中度節を追加することで、パフォーマンスが向上し、両方のメソッドで最高の改善がなされた。

Modern CDCL SAT solvers learn clauses rapidly, and an important heuristic is the clause deletion scheme. Most current solvers have two (or more) stores of clauses. One has ``valuable'' clauses which are never deleted. Most learned clauses are added to the other, with an aggressive deletion strategy to restrict its size. Recent solvers in the MapleSAT family, have comparatively complex deletion scheme, and perform well. Many solvers store only binary clauses permanently, but MapleLCMDistChronoBT stores clauses with small LBD permanently. We report an experimental study of the permanent clause store in MapleLCMDistChronoBT . We observe that this store can get quite large, but several methods for limiting its size reduced performance. We also show that alternate size and LBD based criteria improve performance, while still having large permanent stores. In particular, saving clauses up to size 8, and adding small numbers of high-centrality clauses, both improved performance, with the best improvement using both methods.
翻訳日:2021-10-28 14:44:14 公開日:2021-10-27
# 高次元データに対するスパイク・アンド・スラブ一般化付加モデルとスケーラブルアルゴリズム

Spike-and-Slab Generalized Additive Models and Scalable Algorithms for High-Dimensional Data ( http://arxiv.org/abs/2110.14449v1 )

ライセンス: Link先を確認
Boyi Guo, Byron C. Jaeger, A.K.M. Fazlur Rahman, D. Leann Long, Nengjun Yi(参考訳) 群スパース正規化を用いた高次元データ(p>>n$)に対応するために、古典的一般化加法モデル(GAM)を拡張する提案がある。 しかし、スパース正規化は、スムージング関数の推定時に過剰な収縮を引き起こし、予測性能を損なう可能性がある。 さらに、これらのGAMの多くは、機能選択のための「オール・イン・オール・アウト」アプローチを考えており、非線形効果が必要な場合、答えが難しい。 いくつかのベイジアンモデルはこれらの欠点に対処できるが、マルコフ連鎖モンテカルロアルゴリズムをモデルフィッティングに用いると、新しい挑戦、スケーラビリティが生まれる。 したがって, ベイズ階層的一般化加法モデルを解として提案する: 曲線補間の適切な収縮と平滑化関数の線型空間と非線形空間の分離に対する平滑化ペナルティを考える。 平滑化関数の成分を選択するために,新しいスパイク・アンド・スラブスプラインが提案されている。 2つのスケーラブルで決定論的アルゴリズム、EM-Coordinate DescentとEM-Iterative Weighted Least Squareが異なるユーティリティ向けに開発された。 シミュレーション研究とメタボロミクスデータ解析により,最先端モデル,mgcv,COSSO,スパースベイズGAMに対する予測・計算性能が向上した。 提案したモデルのソフトウェア実装は、RパッケージのBHAMで自由に利用できる。

There are proposals that extend the classical generalized additive models (GAMs) to accommodate high-dimensional data ($p>>n$) using group sparse regularization. However, the sparse regularization may induce excess shrinkage when estimating smoothing functions, damaging predictive performance. Moreover, most of these GAMs consider an "all-in-all-out" approach for functional selection, rendering them difficult to answer if nonlinear effects are necessary. While some Bayesian models can address these shortcomings, using Markov chain Monte Carlo algorithms for model fitting creates a new challenge, scalability. Hence, we propose Bayesian hierarchical generalized additive models as a solution: we consider the smoothing penalty for proper shrinkage of curve interpolation and separation of smoothing function linear and nonlinear spaces. A novel spike-and-slab spline prior is proposed to select components of smoothing functions. Two scalable and deterministic algorithms, EM-Coordinate Descent and EM-Iterative Weighted Least Squares, are developed for different utilities. Simulation studies and metabolomics data analyses demonstrate improved predictive or computational performance against state-of-the-art models, mgcv, COSSO and sparse Bayesian GAM. The software implementation of the proposed models is freely available via an R package BHAM.
翻訳日:2021-10-28 14:43:57 公開日:2021-10-27
# エントロピーに基づく適応ハミルトニアンモンテカルロ

Entropy-based adaptive Hamiltonian Monte Carlo ( http://arxiv.org/abs/2110.14625v1 )

ライセンス: Link先を確認
Marcel Hirt, Michalis K. Titsias, Petros Dellaportas(参考訳) ハミルトン・モンテカルロ (hamiltonian monte carlo, hmc) は、マルコフ連鎖モンテカルロ (mcmc) アルゴリズムであり、非正規化確率分布からサンプルを取る。 leapfrog integrator は hmc の実装に一般的に用いられるが、その性能はそこで使われる質量行列の選択に敏感である。 そこで我々は,全次元を共同で探索しながら,跳躍フロッグ積分器の受入率を高めることで,質量行列の適応を可能にする勾配に基づくアルゴリズムを開発した。 ここで提案する適応戦略は,hmcのハイパーパラメータをある種の2乗ジャンプ距離で適応させる従来の手法とは対照的に,提案のエントロピーの近似を最大化することでサンプリング効率を向上させることを目的としている。 HMC提案における複数の勾配を用いることは、メトロポリス調整ランゲヴィン提案における1つの勾配ステップと比較して有益であることを示す。 実験的な証拠は、質量行列を目標分布の幾何に調整し、積分時間にある程度の制御を与えることにより、適応法がHMCスキームの異なるバージョンを上回ることを示唆している。

Hamiltonian Monte Carlo (HMC) is a popular Markov Chain Monte Carlo (MCMC) algorithm to sample from an unnormalized probability distribution. A leapfrog integrator is commonly used to implement HMC in practice, but its performance can be sensitive to the choice of mass matrix used therein. We develop a gradient-based algorithm that allows for the adaptation of the mass matrix by encouraging the leapfrog integrator to have high acceptance rates while also exploring all dimensions jointly. In contrast to previous work that adapt the hyperparameters of HMC using some form of expected squared jumping distance, the adaptation strategy suggested here aims to increase sampling efficiency by maximizing an approximation of the proposal entropy. We illustrate that using multiple gradients in the HMC proposal can be beneficial compared to a single gradient-step in Metropolis-adjusted Langevin proposals. Empirical evidence suggests that the adaptation method can outperform different versions of HMC schemes by adjusting the mass matrix to the geometry of the target distribution and by providing some control on the integration time.
翻訳日:2021-10-28 14:43:34 公開日:2021-10-27
# (参考訳) 産業用2次元パッキング問題に対するヒューリスティックス,制約最適化,強化学習の比較 [全文訳有]

Comparing Heuristics, Constraint Optimization, and Reinforcement Learning for an Industrial 2D Packing Problem ( http://arxiv.org/abs/2110.14535v1 )

ライセンス: CC BY 4.0
Stefan B\"ohm, Martin Neumayer, Oliver Kramer, Alexander Schiendorfer, Alois Knoll(参考訳) カットとパッケージングの問題は、ビジネスの収益に直接影響を与えるさまざまな業界で起きている。 一般的に、切断と包装の目標は、小さなオブジェクトのセットを大きなオブジェクトのセットに割り当てることである。 カットとパッケージの問題を解決するために、実践者はヒューリスティックで正確な方法論を利用することができる。 近年、機械学習はそのような問題を解決するためにますます使われている。 本稿では,家具産業における2次元パッキング問題について考察する。木製ワークの組を,最も省スペースな方法でトロリーの異なるモジュールに割り当てなければならない。 本稿では,与えられた問題に対するヒューリスティックス,制約最適化,深層強化学習の比較実験を行う。 使用する方法論とその結果は、ソリューションの品質と実行時間の観点から照合される。 与えられたユースケースでは、欲求的ヒューリスティックは最適な結果を生成し、ランタイムの観点から他のアプローチより優れている。 制約最適化は最適な結果を生み出すが、実行にはより多くの時間を要する。 深層強化学習アプローチは必ずしも最適あるいは実現可能な解決策を生み出しなかった。 これはより多くのトレーニングで改善できると仮定するが、ヒューリスティックな結果を考えると、深い強化学習は、与えられたユースケースに適さないように思われる。

Cutting and Packing problems are occurring in different industries with a direct impact on the revenue of businesses. Generally, the goal in Cutting and Packing is to assign a set of smaller objects to a set of larger objects. To solve Cutting and Packing problems, practitioners can resort to heuristic and exact methodologies. Lately, machine learning is increasingly used for solving such problems. This paper considers a 2D packing problem from the furniture industry, where a set of wooden workpieces must be assigned to different modules of a trolley in the most space-saving way. We present an experimental setup to compare heuristics, constraint optimization, and deep reinforcement learning for the given problem. The used methodologies and their results get collated in terms of their solution quality and runtime. In the given use case a greedy heuristic produces optimal results and outperforms the other approaches in terms of runtime. Constraint optimization also produces optimal results but requires more time to perform. The deep reinforcement learning approach did not always produce optimal or even feasible solutions. While we assume this could be remedied with more training, considering the good results with the heuristic, deep reinforcement learning seems to be a bad fit for the given use case.
翻訳日:2021-10-28 14:40:58 公開日:2021-10-27
# FacTeR-Check:意味的類似性と自然言語推論による半自動事実チェック

FacTeR-Check: Semi-automated fact-checking through Semantic Similarity and Natural Language Inference ( http://arxiv.org/abs/2110.14532v1 )

ライセンス: Link先を確認
Alejandro Mart\'in and Javier Huertas-Tato and \'Alvaro Huertas-Garc\'ia and Guillermo Villar-Rodr\'iguez and David Camacho(参考訳) 我々の社会は、オンラインソーシャルネットワーク(OSN)を通じて、圧倒的な量の情報を生産し、共有しています。 この環境の中で、誤情報や誤情報が広まり、各国の公安問題となっている。 公的および専門家がクレームの事実の有効性に関する信頼できる証拠を効率的に見つけられるようにすることは、この有害な拡散を緩和するために不可欠である。 この目的のためにFacTeR-Checkを提案する。FacTeR-Checkは、半自動化された事実チェックのための多言語アーキテクチャで、一般向けにも利用できるが、事実チェックの組織にも有用である。 facter-checkは、事実チェックされた情報、未チェックのクレーム検証、ソーシャルメディア上の危険な情報追跡を可能にする。 このアーキテクチャは、意味的類似性を評価し、自然言語推論を計算し、オンラインソーシャルネットワークから情報を取得するために開発されたいくつかのモジュールを含んでいる。 これらのモジュールの結合は、新しいクレームを検証し、関連する証拠を抽出し、OSN上のホックスの進化を追跡することができる半自動事実チェックツールを構築する。 個々のモジュールは関連するベンチマーク(主にMSTSとSICK)で検証されるが、完全なアーキテクチャはNLI19-SPと呼ばれる新しいデータセットを使用して検証される。 この結果から,各ベンチマークにおける最先端性能と,61種類のホアックスの時間経過に伴う進化の有用な解析結果が得られた。

Our society produces and shares overwhelming amounts of information through the Online Social Networks (OSNs). Within this environment, misinformation and disinformation have proliferated, becoming a public safety concern on every country. Allowing the public and professionals to efficiently find reliable evidence about the factual veracity of a claim is crucial to mitigate this harmful spread. To this end, we propose FacTeR-Check, a multilingual architecture for semi-automated fact-checking that can be used for either the general public but also useful for fact-checking organisations. FacTeR-Check enables retrieving fact-checked information, unchecked claims verification and tracking dangerous information over social media. This architectures involves several modules developed to evaluate semantic similarity, to calculate natural language inference and to retrieve information from Online Social Networks. The union of all these modules builds a semi-automated fact-checking tool able of verifying new claims, to extract related evidence, and to track the evolution of a hoax on a OSN. While individual modules are validated on related benchmarks (mainly MSTS and SICK), the complete architecture is validated using a new dataset called NLI19-SP that is publicly released with COVID-19 related hoaxes and tweets from Spanish social media. Our results show state-of-the-art performance on the individual benchmarks, as well as producing useful analysis of the evolution over time of 61 different hoaxes.
翻訳日:2021-10-28 14:29:31 公開日:2021-10-27
# IndoNLI:インドネシアの自然言語推論データセット

IndoNLI: A Natural Language Inference Dataset for Indonesian ( http://arxiv.org/abs/2110.14566v1 )

ライセンス: Link先を確認
Rahmad Mahendra, Alham Fikri Aji, Samuel Louvan, Fahrurrozi Rahman, and Clara Vania(参考訳) IndoNLIはインドネシア初の人為的NLIデータセットである。 我々は,MNLIのデータ収集プロトコルを適応させ,群衆労働者と専門家が注釈付けした18K近い文対を収集する。 専門家による注釈付きデータはテストセットとしてのみ使用される。 数値的推論、構造的変化、イディオム、時間的および空間的推論といった様々な言語現象を明示的に取り入れることで、インドネシアのNLIのための挑戦的なテストベッドを提供するように設計されている。 実験の結果,XLM-Rは他の事前学習モデルよりも優れていた。 専門家がアノテートしたデータに対する最高のパフォーマンスは、人間のパフォーマンスよりもはるかに低い(精度のギャップは13.4%)。 さらに, 分析の結果, 専門家の注釈データの方がより多様であり, 注釈データよりも少ないアノテーションアーティファクトを含んでいることがわかった。 このデータセットがインドネシアのNLP研究の進展を加速することを期待している。

We present IndoNLI, the first human-elicited NLI dataset for Indonesian. We adapt the data collection protocol for MNLI and collect nearly 18K sentence pairs annotated by crowd workers and experts. The expert-annotated data is used exclusively as a test set. It is designed to provide a challenging test-bed for Indonesian NLI by explicitly incorporating various linguistic phenomena such as numerical reasoning, structural changes, idioms, or temporal and spatial reasoning. Experiment results show that XLM-R outperforms other pre-trained models in our data. The best performance on the expert-annotated data is still far below human performance (13.4% accuracy gap), suggesting that this test set is especially challenging. Furthermore, our analysis shows that our expert-annotated data is more diverse and contains fewer annotation artifacts than the crowd-annotated data. We hope this dataset can help accelerate progress in Indonesian NLP research.
翻訳日:2021-10-28 14:29:05 公開日:2021-10-27
# Rot-Pro:知識グラフ埋め込みにおける投影によるトランジシティのモデル化

Rot-Pro: Modeling Transitivity by Projection in Knowledge Graph Embedding ( http://arxiv.org/abs/2110.14450v1 )

ライセンス: Link先を確認
Tengwei Song, Jie Luo, Lei Huang(参考訳) 知識グラフ埋め込みモデルは、エンティティ間の不足リンク(関係)を予測する知識グラフにおけるエンティティと関係の表現を学習する。 その効果は、対称性、非対称性、反転、組成、推移性といった異なる関係パターンをモデル化し推論する能力に深く影響されている。 既存のモデルはこれらの関係パターンの多くをモデル化できるが、非常に一般的な関係パターンである推移性はまだ完全にはサポートされていない。 本稿ではまず,遷移関係が射影によってモデル化できることを理論的に示す。 次に,プロジェクションとリレーショナルローテーションを組み合わせたrot-proモデルを提案する。 Rot-Proが上記のすべての関係パターンを推測できることを証明する。 実験の結果,提案するrot-proモデルはトランジッションパターンを効果的に学習し,トランジッション関係を含むデータセットにおけるリンク予測タスクに関する最新結果を得ることができた。

Knowledge graph embedding models learn the representations of entities and relations in the knowledge graphs for predicting missing links (relations) between entities. Their effectiveness are deeply affected by the ability of modeling and inferring different relation patterns such as symmetry, asymmetry, inversion, composition and transitivity. Although existing models are already able to model many of these relations patterns, transitivity, a very common relation pattern, is still not been fully supported. In this paper, we first theoretically show that the transitive relations can be modeled with projections. We then propose the Rot-Pro model which combines the projection and relational rotation together. We prove that Rot-Pro can infer all the above relation patterns. Experimental results show that the proposed Rot-Pro model effectively learns the transitivity pattern and achieves the state-of-the-art results on the link prediction task in the datasets containing transitive relations.
翻訳日:2021-10-28 14:28:50 公開日:2021-10-27
# soat:視覚・言語ナビゲーションのためのシーン・オブジェクト認識トランスフォーマー

SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language Navigation ( http://arxiv.org/abs/2110.14143v1 )

ライセンス: Link先を確認
Abhinav Moudgil, Arjun Majumdar, Harsh Agrawal, Stefan Lee, Dhruv Batra(参考訳) 視覚ナビゲーションのための自然言語指示は、しばしばシーン記述(例えば「ベッドルーム」)とオブジェクト参照(例えば「緑の椅子」)を使用して、目標位置へのパンクラムトレイルを提供する。 この研究は、トランスフォーマーベースの視覚言語ナビゲーション(VLN)エージェントで、2つの異なる視覚エンコーダ(シーン分類ネットワークとオブジェクト検出器)を使用し、これら2つの異なる視覚的手がかりにマッチする特徴を生成する。 本手法では,シーン機能はオブジェクトレベルの処理をサポートするハイレベルなコンテキスト情報を提供する。 この設計では、視覚と言語による事前トレーニング(大規模なWebデータから画像とテキストのアライメントを学習する)を使用して、Room-to-Room(R2R)ベンチマークとRoom-Across-Room(RxR )ベンチマークのパフォーマンスを大幅に向上させることができる。 具体的には、R2RではSPLが1.8%、RxRではSRが3.7%改善した。 私たちの分析では、6つ以上のオブジェクト参照を含むナビゲーション命令がさらに向上していることが分かりました。

Natural language instructions for visual navigation often use scene descriptions (e.g., "bedroom") and object references (e.g., "green chairs") to provide a breadcrumb trail to a goal location. This work presents a transformer-based vision-and-language navigation (VLN) agent that uses two different visual encoders -- a scene classification network and an object detector -- which produce features that match these two distinct types of visual cues. In our method, scene features contribute high-level contextual information that supports object-level processing. With this design, our model is able to use vision-and-language pretraining (i.e., learning the alignment between images and text from large-scale web data) to substantially improve performance on the Room-to-Room (R2R) and Room-Across-Room (RxR) benchmarks. Specifically, our approach leads to improvements of 1.8% absolute in SPL on R2R and 3.7% absolute in SR on RxR. Our analysis reveals even larger gains for navigation instructions that contain six or more object references, which further suggests that our approach is better able to use object features and align them to references in the instructions.
翻訳日:2021-10-28 14:28:38 公開日:2021-10-27
# 協調的な解析フロービデオ合成で踊るイメージ

Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis ( http://arxiv.org/abs/2110.14147v1 )

ライセンス: Link先を確認
Bowen Wu, Zhenyu Xie, Xiaodan Liang, Yubei Xiao, Haoye Dong, Liang Lin(参考訳) 人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。 A crucial step is to manipulate sequential future motion while retaining the appearance characteristic.Previ ous work has either relied on crafted 3D human models or trained a separate model specifically for each target person, which is not scalable in practice.This work studies a more general setting, in which we aim to learn a \emph{single} model to parsimoniously transfer motion from a source video to any target person given only one image of the person, named as Collaborative Parsing-Flow Network (CPF-Net). The paucity of information regarding the target person makes the task particularly challenging to faithfully preserve the appearance in varying designated poses.To address this issue, CPF-Net integrates the structured human parsing and appearance flow to guide the realistic foreground synthesis which is merged into the background by a spatio-temporal fusion module.In particular, CPF-Net decouples the problem into stages of human parsing sequence generation, foreground sequence generation and final video generation. 人間のパーシング生成ステージは、ターゲットのポーズと身体構造の両方をキャプチャする。 外観フローは、合成フレームに詳細を保持するために有用である。 人間のパースと外観フローの統合は、リアルな外観を持つ映像フレームの生成を効果的に導く。 最後に、専用設計の融合ネットワークは、時間的コヒーレンスを保証する。 我々はさらに,この研究分野を推進するために,人間のダンスビデオを大量に収集する。 定量的および定性的な結果から,提案手法は従来手法よりも大幅に改善され,入力された人物画像に対して魅力的でリアルなターゲットビデオを生成することができる。 すべてのソースコードとデータセットはhttps://github.com/x iezhy6/cpf-netでリリースされる。

Transferring human motion from a source to a target person poses great potential in computer vision and graphics applications. A crucial step is to manipulate sequential future motion while retaining the appearance characteristic.Previ ous work has either relied on crafted 3D human models or trained a separate model specifically for each target person, which is not scalable in practice.This work studies a more general setting, in which we aim to learn a \emph{single} model to parsimoniously transfer motion from a source video to any target person given only one image of the person, named as Collaborative Parsing-Flow Network (CPF-Net). The paucity of information regarding the target person makes the task particularly challenging to faithfully preserve the appearance in varying designated poses.To address this issue, CPF-Net integrates the structured human parsing and appearance flow to guide the realistic foreground synthesis which is merged into the background by a spatio-temporal fusion module.In particular, CPF-Net decouples the problem into stages of human parsing sequence generation, foreground sequence generation and final video generation. The human parsing generation stage captures both the pose and the body structure of the target. The appearance flow is beneficial to keep details in synthesized frames. The integration of human parsing and appearance flow effectively guides the generation of video frames with realistic appearance. Finally, the dedicated designed fusion network ensure the temporal coherence. We further collect a large set of human dancing videos to push forward this research field. Both quantitative and qualitative results show our method substantially improves over previous approaches and is able to generate appealing and photo-realistic target videos given any input person image. All source code and dataset will be released at https://github.com/x iezhy6/CPF-Net.
翻訳日:2021-10-28 14:26:27 公開日:2021-10-27
# セマンティックセグメンテーションのためのDenoized Non-Local Neural Network

Denoised Non-Local Neural Network for Semantic Segmentation ( http://arxiv.org/abs/2110.14200v1 )

ライセンス: Link先を確認
Qi Song, Jie Li, Hao Guo, Rui Huang(参考訳) 非ローカルネットワークは、各ピクセルペアの関係を測定するためにアテンションマップを計算するセマンティックセグメンテーションの手法として広く使われている。 しかし、現在の一般的な非局所モデルの多くは、計算された注意マップが非常に騒がしいように見える現象を無視しがちであり、クラス間およびクラス内不整合を含み、非局所メソッドの正確性と信頼性が低下する。 本稿では,これらの不整合を注意ノイズとして表現し,その解法を探究する。 具体的には、クラス間およびクラス内ノイズを除去するために、Global Rectifying(GR)ブロックとLocal Retention(LR)ブロックという2つの主要モジュールからなるDenoized Non-Local Network(Denoized NL)を提案する。 まず、GRはクラスレベルの予測を採用してバイナリマップをキャプチャし、選択された2つのピクセルが同じカテゴリに属するかどうかを識別する。 第2に、LRは無視されたローカル依存関係をキャプチャし、注意マップ内の不要な空洞を修正するためにそれらを使用する。 2つの難解なセマンティクスセグメンテーションデータセットの実験結果は,モデルの優れた性能を示している。 外部トレーニングデータがないため,提案したDenoized NLは,都市景観における83.5\%,46.69\% mIoU,ADE20Kをそれぞれ達成できる。

The non-local network has become a widely used technique for semantic segmentation, which computes an attention map to measure the relationships of each pixel pair. However, most of the current popular non-local models tend to ignore the phenomenon that the calculated attention map appears to be very noisy, containing inter-class and intra-class inconsistencies, which lowers the accuracy and reliability of the non-local methods. In this paper, we figuratively denote these inconsistencies as attention noises and explore the solutions to denoise them. Specifically, we inventively propose a Denoised Non-Local Network (Denoised NL), which consists of two primary modules, i.e., the Global Rectifying (GR) block and the Local Retention (LR) block, to eliminate the inter-class and intra-class noises respectively. First, GR adopts the class-level predictions to capture a binary map to distinguish whether the selected two pixels belong to the same category. Second, LR captures the ignored local dependencies and further uses them to rectify the unwanted hollows in the attention map. The experimental results on two challenging semantic segmentation datasets demonstrate the superior performance of our model. Without any external training data, our proposed Denoised NL can achieve the state-of-the-art performance of 83.5\% and 46.69\% mIoU on Cityscapes and ADE20K, respectively.
翻訳日:2021-10-28 14:26:05 公開日:2021-10-27
# rrnet:光リモートセンシング画像における高度物体検出のための並列マルチスケール注意付き関係推論ネットワーク

RRNet: Relational Reasoning Network with Parallel Multi-scale Attention for Salient Object Detection in Optical Remote Sensing Images ( http://arxiv.org/abs/2110.14223v1 )

ライセンス: Link先を確認
Runmin Cong, Yumo Zhang, Leyuan Fang, Jun Li, Chunjie Zhang, Yao Zhao, and Sam Kwong(参考訳) 光リモートセンシング画像(RSI)のためのSODは、光学RSIから視覚的に特徴的な物体や領域を探索・抽出することを目的としている。 光学RSI(複雑な背景やスケール不変物体など)の本質的な問題を解くために、いくつかの正当性モデルが提案されたが、精度と完全性はまだ不十分である。 そこで本論文では,光rssにおけるsodに対する並列マルチスケール注意を持つ関係推論ネットワークを提案する。 空間次元とチャネル次元を統合する関係推論モジュールは、高レベルエンコーダの特徴を利用して意味関係を推論し、より完全な検出結果を生成するように設計されている。 並列マルチスケールアテンションモジュールは,多スケールアテンションによって改良された低レベル特徴を用いて,詳細情報を効果的に復元し,サリアントオブジェクトのスケール変動に対処する。 2つのデータセットに対する大規模な実験により、提案したRRNetは、既存の最先端のSOD競合よりも質的かつ定量的に優れていることが示された。

Salient object detection (SOD) for optical remote sensing images (RSIs) aims at locating and extracting visually distinctive objects/regions from the optical RSIs. Despite some saliency models were proposed to solve the intrinsic problem of optical RSIs (such as complex background and scale-variant objects), the accuracy and completeness are still unsatisfactory. To this end, we propose a relational reasoning network with parallel multi-scale attention for SOD in optical RSIs in this paper. The relational reasoning module that integrates the spatial and the channel dimensions is designed to infer the semantic relationship by utilizing high-level encoder features, thereby promoting the generation of more complete detection results. The parallel multi-scale attention module is proposed to effectively restore the detail information and address the scale variation of salient objects by using the low-level features refined by multi-scale attention. Extensive experiments on two datasets demonstrate that our proposed RRNet outperforms the existing state-of-the-art SOD competitors both qualitatively and quantitatively.
翻訳日:2021-10-28 14:25:41 公開日:2021-10-27
# VisDA 2021チャレンジの第2位 - ユニバーサルドメイン適応画像認識

2nd Place Solution for VisDA 2021 Challenge -- Universally Domain Adaptive Image Recognition ( http://arxiv.org/abs/2110.14240v1 )

ライセンス: Link先を確認
Haojin Liao, Xiaolin Song, Sicheng Zhao, Shanghang Zhang, Xiangyu Yue, Xingxu Yao, Yueming Zhang, Tengfei Xing, Pengfei Xu, Qiang Wang(参考訳) Visual Domain Adaptation (VisDA) 2021 Challengeは、ソースとターゲットドメイン間の入力分布シフトとラベルセットのばらつきの両方を扱う、教師なしのドメイン適応(UDA)メソッドを要求する。 本稿では,いくつかの一般的な特徴抽出とドメイン適応スキームを集約したユニバーサルドメイン適応(unida)手法を提案する。 まず,複数の視覚タスクにおける最先端性能を備えたトランスフォーマーベースアーキテクチャVOLOをバックボーンとして,効率的な特徴表現抽出を行う。 次に、OVANetのオープンセット分類器を変更し、未知のクラスを競合精度と堅牢性で認識する。 リーダーボードに示すように、我々の提案したUniDAメソッドは、VisDA 2021 Challengeで48.56%のACCと70.72%のAUROCで2位にランクインしている。

The Visual Domain Adaptation (VisDA) 2021 Challenge calls for unsupervised domain adaptation (UDA) methods that can deal with both input distribution shift and label set variance between the source and target domains. In this report, we introduce a universal domain adaptation (UniDA) method by aggregating several popular feature extraction and domain adaptation schemes. First, we utilize VOLO, a Transformer-based architecture with state-of-the-art performance in several visual tasks, as the backbone to extract effective feature representations. Second, we modify the open-set classifier of OVANet to recognize the unknown class with competitive accuracy and robustness. As shown in the leaderboard, our proposed UniDA method ranks the 2nd place with 48.56% ACC and 70.72% AUROC in the VisDA 2021 Challenge.
翻訳日:2021-10-28 14:25:21 公開日:2021-10-27
# 深層予算訓練における重要度測定はどの程度重要か

How Important is Importance Sampling for Deep Budgeted Training? ( http://arxiv.org/abs/2110.14283v1 )

ライセンス: Link先を確認
Eric Arazo, Diego Ortego, Paul Albert, Noel E. O'Connor, Kevin McGuinness(参考訳) ディープニューラルネットワーク(DNN)の長期反復トレーニングプロセスは、多くのコンピュータビジョンタスクで最先端のパフォーマンスを達成するために一般的に必要である。 重要サンプリングアプローチは、予算化されたトレーニング体制、すなわちトレーニングイテレーションの数を制限する場合において重要な役割を果たす可能性がある。 これらのアプローチは、各サンプルの重要性を動的に推定し、最も関連性の高い収束とスピードアップに焦点をあてることを目的としている。 この研究は、このパラダイムと予算制約がどのように重要サンプリングアプローチやデータ拡張技術と相互作用するかを探求する。 予算制約の下では、重要サンプリングアプローチは一様サンプリングよりも一貫した改善を提供していないことを示す。 例えば、予算をCIFAR-10/100の30%に減らすと、RICAPデータ増減は精度を保ちながら、重要サンプリングは行わない。 我々は,予算制約下でのdnnはトレーニングセットの多種多様さから大きなメリットがあり,高い性能と低い計算要件のバランスをとる上で,適切なサンプルを見つけることは最も効果的な戦略ではないと結論づけた。 ソースコードはhttps://git.io/jkha3 。

Long iterative training processes for Deep Neural Networks (DNNs) are commonly required to achieve state-of-the-art performance in many computer vision tasks. Importance sampling approaches might play a key role in budgeted training regimes, i.e. when limiting the number of training iterations. These approaches aim at dynamically estimating the importance of each sample to focus on the most relevant and speed up convergence. This work explores this paradigm and how a budget constraint interacts with importance sampling approaches and data augmentation techniques. We show that under budget restrictions, importance sampling approaches do not provide a consistent improvement over uniform sampling. We suggest that, given a specific budget, the best course of action is to disregard the importance and introduce adequate data augmentation; e.g. when reducing the budget to a 30% in CIFAR-10/100, RICAP data augmentation maintains accuracy, while importance sampling does not. We conclude from our work that DNNs under budget restrictions benefit greatly from variety in the training set and that finding the right samples to train on is not the most effective strategy when balancing high performance with low computational requirements. Source code available at https://git.io/JKHa3 .
翻訳日:2021-10-28 14:25:04 公開日:2021-10-27
# 画像分類バイアスに対処する空間の埋め込み特性とラベル

Feature and Label Embedding Spaces Matter in Addressing Image Classifier Bias ( http://arxiv.org/abs/2110.14336v1 )

ライセンス: Link先を確認
William Thong, Cees G. M. Snoek(参考訳) 本稿では,特徴空間とラベル埋め込み空間の両方に着目し,画像分類子バイアスに対処する。 以前の研究では、年齢、性別、肌の色などの保護された属性からのスプリアス相関が、有害な決定を引き起こす可能性があることが示されている。 潜在的な害のバランスをとるために、画像分類器のバイアスを特定し緩和する必要がある。 まず、特徴空間においてバイアス方向を識別する。 各クラスに対して保護された属性値のクラスプロトタイプを計算し、バイアスの最大分散をキャプチャする既存のサブスペースを明らかにする。 第2に、画像入力をラベル埋め込み空間にマッピングすることでバイアスを軽減する。 protected属性の各値は、共通の1ホットエンコーディングではなく、潜在ベクトル表現を通じてクラスが埋め込まれた射影ヘッドを持つ。 トレーニングが完了すると、その方向を除去することで、特徴空間のバイアス効果をさらに削減します。 マルチクラス・マルチラベル・バイナリ分類のためのバイアス画像データセットの評価は、分類性能を維持しつつ、分類器の公平性を向上する上で、特徴空間とラベル埋め込み空間の両方に対処する効果を示す。

This paper strives to address image classifier bias, with a focus on both feature and label embedding spaces. Previous works have shown that spurious correlations from protected attributes, such as age, gender, or skin tone, can cause adverse decisions. To balance potential harms, there is a growing need to identify and mitigate image classifier bias. First, we identify in the feature space a bias direction. We compute class prototypes of each protected attribute value for every class, and reveal an existing subspace that captures the maximum variance of the bias. Second, we mitigate biases by mapping image inputs to label embedding spaces. Each value of the protected attribute has its projection head where classes are embedded through a latent vector representation rather than a common one-hot encoding. Once trained, we further reduce in the feature space the bias effect by removing its direction. Evaluation on biased image datasets, for multi-class, multi-label and binary classifications, shows the effectiveness of tackling both feature and label embedding spaces in improving the fairness of the classifier predictions, while preserving classification performance.
翻訳日:2021-10-28 14:24:45 公開日:2021-10-27
# CamLessMonoDepth:未知のカメラパラメータによる単眼深度推定

CamLessMonoDepth: Monocular Depth Estimation with Unknown Camera Parameters ( http://arxiv.org/abs/2110.14347v1 )

ライセンス: Link先を確認
Sai Shyam Chanduri, Zeeshan Khan Suri, Igor Vozniak, Christian M\"uller(参考訳) 3d情報を知覚することは、コンピュータビジョンの多くの応用において極めて重要である。 単眼深度推定の最近の進歩は、深度ニューラルネットワークをトレーニングし、地中真理データを必要としない逆深度とポーズを予測することによって、単一のカメラ入力からそのような知識を得ることが可能であることを示している。 しかし、そのようなアプローチの大半は、トレーニング中にカメラパラメータを明示的に供給する必要がある。 その結果、訓練中にワイルドからの画像シーケンスは使用できない。 カメラ固有性を予測する手法もあるが、その性能はカメラパラメータを入力とする新しい手法と同等ではない。 本研究では,単眼画像のみから学習することで,ピンホールカメラの内在を奥行きやポーズとともに暗黙的に推定する手法を提案する。 さらに,効率の良いサブピクセル畳み込みを利用して,高忠実度深度推定値が得られることを示す。 また,本手法の適用可能性を強調するために,画素単位の不確実性推定をフレームワークに組み込む。 最後に,kittiベンチマークにおける既存の最先端手法を上回りながら,カメラ内在性の事前知識を必要とせず,奥行き情報を正確に予測する可能性を実証する。

Perceiving 3D information is of paramount importance in many applications of computer vision. Recent advances in monocular depth estimation have shown that gaining such knowledge from a single camera input is possible by training deep neural networks to predict inverse depth and pose, without the necessity of ground truth data. The majority of such approaches, however, require camera parameters to be fed explicitly during training. As a result, image sequences from wild cannot be used during training. While there exist methods which also predict camera intrinsics, their performance is not on par with novel methods taking camera parameters as input. In this work, we propose a method for implicit estimation of pinhole camera intrinsics along with depth and pose, by learning from monocular image sequences alone. In addition, by utilizing efficient sub-pixel convolutions, we show that high fidelity depth estimates can be obtained. We also embed pixel-wise uncertainty estimation into the framework, to emphasize the possible applicability of this work in practical domain. Finally, we demonstrate the possibility of accurate prediction of depth information without prior knowledge of camera intrinsics, while outperforming the existing state-of-the-art approaches on KITTI benchmark.
翻訳日:2021-10-28 14:24:28 公開日:2021-10-27
# Taylor Swift: Swiftの将来フレーム予測のためのテイラー駆動の時間モデリング

Taylor Swift: Taylor Driven Temporal Modeling for Swift Future Frame Prediction ( http://arxiv.org/abs/2110.14392v1 )

ライセンス: Link先を確認
Mohammad Saber Pourheydari, Mohsen Fayyaz, Emad Bahrami, Mehdi Noroozi, Juergen Gall(参考訳) リカレントニューラルネットワーク(RNN)は、将来のビデオフレーム予測において際立った能力を示す一方で、離散時間空間におけるダイナミクスをモデル化し、将来の時間ステップに到達するまで、すべてのフレームを順次通過させる。 したがって、RNNは将来のフレーム数が増加するにつれてエラーを蓄積する傾向にある。 対照的に、偏微分方程式(PDE)は連続時間空間の力学のような物理現象をモデル化するが、現在のPDEベースのアプローチでは、例えばフォワード・オイラー法を用いてPDEを離散化している。 そこで本研究では,テイラー級数を用いた連続関数による映像中の動きを近似する手法を提案する。 この目的のために,与えられた入力ビデオに対してTaylor系列の高次項を推定することを学ぶ,新しい畳み込みニューラルネットワークであるTayloSwiftNetを紹介した。 TayloSwiftNetは、1つのフォワードパスで任意の将来のフレームを素早く予測し、オンザフライで時間分解能を変更することができる。 様々なデータセットにおける実験結果から,モデルの優越性が示された。

While recurrent neural networks (RNNs) demonstrate outstanding capabilities in future video frame prediction, they model dynamics in a discrete time space and sequentially go through all frames until the desired future temporal step is reached. RNNs are therefore prone to accumulate the error as the number of future frames increases. In contrast, partial differential equations (PDEs) model physical phenomena like dynamics in continuous time space, however, current PDE-based approaches discretize the PDEs using e.g., the forward Euler method. In this work, we therefore propose to approximate the motion in a video by a continuous function using the Taylor series. To this end, we introduce TayloSwiftNet, a novel convolutional neural network that learns to estimate the higher order terms of the Taylor series for a given input video. TayloSwiftNet can swiftly predict any desired future frame in just one forward pass and change the temporal resolution on-the-fly. The experimental results on various datasets demonstrate the superiority of our model.
翻訳日:2021-10-28 14:23:04 公開日:2021-10-27
# 教師なし画像翻訳における内容とスタイルの分離

Separating Content and Style for Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2110.14404v1 )

ライセンス: Link先を確認
Yunfei Liu, Haofei Wang, Yang Yue, Feng Lu(参考訳) unsupervised image-to-image translationは、2つのビジュアルドメイン間のマッピングをペアなしサンプルで学習することを目的としている。 既存の作業は、ドメイン不変のコンテンツコードとドメイン固有のスタイルコードを個別にマルチモーダル目的に分離することに焦点を当てている。 しかし、翻訳画像の解釈や操作には注意が払われていない。 本稿では,コンテンツコードとスタイルコードを統一したフレームワークで同時に分離する手法を提案する。 潜在特徴量と高レベル領域不変タスクの相関関係に基づいて, 提案手法は, 翻訳画像のマルチモーダル翻訳, 解釈性, 操作性において優れた性能を示す。 実験の結果,提案手法は視覚的品質と多様性の観点から,既存の教師なし画像翻訳法よりも優れていた。

Unsupervised image-to-image translation aims to learn the mapping between two visual domains with unpaired samples. Existing works focus on disentangling domain-invariant content code and domain-specific style code individually for multimodal purposes. However, less attention has been paid to interpreting and manipulating the translated image. In this paper, we propose to separate the content code and style code simultaneously in a unified framework. Based on the correlation between the latent features and the high-level domain-invariant tasks, the proposed framework demonstrates superior performance in multimodal translation, interpretability and manipulation of the translated image. Experimental results show that the proposed approach outperforms the existing unsupervised image translation methods in terms of visual quality and diversity.
翻訳日:2021-10-28 14:22:44 公開日:2021-10-27
# 意味セグメンテーションのための境界案内コンテキストアグリゲーション

Boundary Guided Context Aggregation for Semantic Segmentation ( http://arxiv.org/abs/2110.14587v1 )

ライセンス: Link先を確認
Haoxiang Ma, Hongyu Yang and Di Huang(参考訳) セマンティックセグメンテーションに関する最近の研究は境界情報の重要さに気づき始めており、ほとんどのアプローチでは境界をセマンティックディテールの補足と見なしている。 しかし、単に境界とメインストリームの機能を組み合わせただけでは、セマンティクスモデリングの総合的な改善は保証できない。 従来の研究とは対照的に、画像の全体的意味理解を促進するためにコンテキスト集約のための重要なガイダンスとして境界を利用する。 そこで本研究では,複数スケールでバックボーン機能を利用するマルチスケール境界抽出器(msb)を高精度な境界検出のために設計した境界案内コンテキストアグリゲーションネットワーク(bcanet)を提案する。 そこで,非局所ネットワークから改良された境界ガイド付きコンテキストアグリゲーションモジュール(BCA)により,境界領域の画素とオブジェクト内部の画素間の長距離依存性をキャプチャする手法を提案する。 コンテキスト情報を境界に沿って集約することにより、同一カテゴリの内画素同士の利得が得られ、クラス内一貫性が向上する。 本研究では,Cityscapes と ADE20K データベースについて広範な実験を行い,提案手法の有効性を明らかにした。

The recent studies on semantic segmentation are starting to notice the significance of the boundary information, where most approaches see boundaries as the supplement of semantic details. However, simply combing boundaries and the mainstream features cannot ensure a holistic improvement of semantics modeling. In contrast to the previous studies, we exploit boundary as a significant guidance for context aggregation to promote the overall semantic understanding of an image. To this end, we propose a Boundary guided Context Aggregation Network (BCANet), where a Multi-Scale Boundary extractor (MSB) borrowing the backbone features at multiple scales is specifically designed for accurate boundary detection. Based on which, a Boundary guided Context Aggregation module (BCA) improved from Non-local network is further proposed to capture long-range dependencies between the pixels in the boundary regions and the ones inside the objects. By aggregating the context information along the boundaries, the inner pixels of the same category achieve mutual gains and therefore the intra-class consistency is enhanced. We conduct extensive experiments on the Cityscapes and ADE20K databases, and comparable results are achieved with the state-of-the-art methods, clearly demonstrating the effectiveness of the proposed one.
翻訳日:2021-10-28 14:22:31 公開日:2021-10-27
# (参考訳) play to grade: マルコフ決定プロセスを分類するコーディングゲームをテストする [全文訳有]

Play to Grade: Testing Coding Games as Classifying Markov Decision Process ( http://arxiv.org/abs/2110.14615v1 )

ライセンス: CC BY 4.0
Allen Nie, Emma Brunskill, Chris Piech(参考訳) 現代のコーディング教育は、しばしば学生にマウスベースのゲームのようなユーザーインタラクションと複雑な動的システムを持つプログラムを開発するタスクを提示する。 教育的に説得力があるが、フィードバックを提供するための現代の自律的な方法は存在しない。 特に、対話型プログラムは従来の単体テストでは評価できない。 本稿では,マルコフ決定過程(MDP)の分類作業として,対話型プログラムにフィードバックを提供することの課題を定式化する。 各生徒のプログラムは、エージェントが操作し、合理的な一般化の下で、入力されたMDPの力学と報酬モデルが正しいか壊れているかを判断するMDPを完全に指定する。 エージェントと自己回帰モデルとの協調目標を設計することにより、エージェントを用いて入力されたmdpから微分軌道をサンプリングし、分類器がメンバシップを決定することができることを実証する。 対話型コード代入のための自動フィードバックシステムを実現する。 我々は,711,274名の匿名学生によるデータセットを手書きバグラベルを用いた単一課題に適用し,今後の研究を支援する。

Contemporary coding education often presents students with the task of developing programs that have user interaction and complex dynamic systems, such as mouse based games. While pedagogically compelling, there are no contemporary autonomous methods for providing feedback. Notably, interactive programs are impossible to grade by traditional unit tests. In this paper we formalize the challenge of providing feedback to interactive programs as a task of classifying Markov Decision Processes (MDPs). Each student's program fully specifies an MDP where the agent needs to operate and decide, under reasonable generalization, if the dynamics and reward model of the input MDP should be categorized as correct or broken. We demonstrate that by designing a cooperative objective between an agent and an autoregressive model, we can use the agent to sample differential trajectories from the input MDP that allows a classifier to determine membership: Play to Grade. Our method enables an automatic feedback system for interactive code assignments. We release a dataset of 711,274 anonymized student submissions to a single assignment with hand-coded bug labels to support future research.
翻訳日:2021-10-28 14:19:23 公開日:2021-10-27
# 単純なデータバランスが競合的最悪グループ精度を達成する

Simple data balancing achieves competitive worst-group-accuracy ( http://arxiv.org/abs/2110.14503v1 )

ライセンス: Link先を確認
Badr Youbi Idrissi, Martin Arjovsky, Mohammad Pezeshki, David Lopez-Paz(参考訳) 本研究では,(既知の,あるいは未知の)データ群にまたがる学習分類器の問題点について検討する。 共通の最悪のグループ正確なデータセットがかなりの不均衡に苦しむのを観察した後、データをサブサンプリングしたり重み付けしたりすることで、最先端のメソッドと単純なクラスやグループのバランスを比較することにしました。 以上の結果から,これらのデータバランシングベースラインは,トレーニングが高速で,追加のハイパーパラメータを必要としない状態で,最先端を実現することが示された。 さらに,グループ情報へのアクセスはモデル選択の目的において最重要であり,トレーニング中はあまり重要ではないことも強調した。 全体として、最悪のグループ精度最適化のためのベンチマークと手法について、より詳しく検討した。

We study the problem of learning classifiers that perform well across (known or unknown) groups of data. After observing that common worst-group-accuracy datasets suffer from substantial imbalances, we set out to compare state-of-the-art methods to simple balancing of classes and groups by either subsampling or reweighting data. Our results show that these data balancing baselines achieve state-of-the-art-acc uracy, while being faster to train and requiring no additional hyper-parameters. In addition, we highlight that access to group information is most critical for model selection purposes, and not so much during training. All in all, our findings beg closer examination of benchmarks and methods for research in worst-group-accuracy optimization.
翻訳日:2021-10-28 14:01:40 公開日:2021-10-27
# テスト独立のためのデータ駆動表現:相互情報推定によるモデリング、分析、接続

Data-Driven Representations for Testing Independence: Modeling, Analysis and Connection with Mutual Information Estimation ( http://arxiv.org/abs/2110.14122v1 )

ライセンス: Link先を確認
Mauricio E. Gonzalez, Jorge F. Silva, Miguel Videla, and Marcos E. Orchard(参考訳) この研究は、データ駆動パーティションの設計から、2つの連続および有限次元ランダム変数の独立性をテストする。 経験的対数類似統計学は、独立性に対するオラクルテスト(二つの仮説を知っている)の十分な統計を近似するために用いられる。 オラクルテストの十分な統計を近似すると、相互情報推定の問題と結びついたデータ駆動分割を設計するための学習基準が示される。 これらの考え方をデータ依存木構造分割(TSP)の文脈で適用することにより、TSPのパラメータの条件を導出し、密度を持つ確率族に対する独立性の強い一貫した分布のないテストを実現する。 この結果を補完し,データ駆動分割による独立性のシナリオを構造的に検出するtsp方式のキャパシティと,この検出のための新たなサンプリング複雑性境界を示す有限長結果を示す。 最後に、実験的な分析によって、データ駆動表現を使用しないいくつかの戦略と比較して、テスト独立性に対する我々のスキームのアドバンテージに関する証拠を提供する。

This work addresses testing the independence of two continuous and finite-dimensional random variables from the design of a data-driven partition. The empirical log-likelihood statistic is adopted to approximate the sufficient statistics of an oracle test against independence (that knows the two hypotheses). It is shown that approximating the sufficient statistics of the oracle test offers a learning criterion for designing a data-driven partition that connects with the problem of mutual information estimation. Applying these ideas in the context of a data-dependent tree-structured partition (TSP), we derive conditions on the TSP's parameters to achieve a strongly consistent distribution-free test of independence over the family of probabilities equipped with a density. Complementing this result, we present finite-length results that show our TSP scheme's capacity to detect the scenario of independence structurally with the data-driven partition as well as new sampling complexity bounds for this detection. Finally, some experimental analyses provide evidence regarding our scheme's advantage for testing independence compared with some strategies that do not use data-driven representations.
翻訳日:2021-10-28 14:01:03 公開日:2021-10-27
# フェデレーション学習における一般化とは何か?

What Do We Mean by Generalization in Federated Learning? ( http://arxiv.org/abs/2110.14216v1 )

ライセンス: Link先を確認
Honglin Yuan, Warren Morningstar, Lin Ning, Karan Singhal(参考訳) フェデレートされた学習データは分布の分布から引き出され、クライアントはメタ分布から引き出され、それらのデータは局所的なデータ分布から引き出される。 したがって、連合学習における一般化研究は、未確認のクライアントデータ(サンプル外ギャップ)と未確認のクライアント分散(参加ギャップ)とのパフォーマンスギャップを分離すべきである。 本研究では,これらの性能ギャップを解消するためのフレームワークを提案する。 この枠組みを用いて,自然および合成のフェデレーションデータセット間の行動の差異を観察,説明し,フェデレーション学習における一般化の現実的なシミュレーションにおいてデータセット合成戦略が重要であることを示す。 本稿では,自然分割データを用いずに現実的なシミュレーションを実現する意味合成戦略を提案する。 以上の知見から,今後の連合学習活動に対するコミュニティの提案を提起する。

Federated learning data is drawn from a distribution of distributions: clients are drawn from a meta-distribution, and their data are drawn from local data distributions. Thus generalization studies in federated learning should separate performance gaps from unseen client data (out-of-sample gap) from performance gaps from unseen client distributions (participation gap). In this work, we propose a framework for disentangling these performance gaps. Using this framework, we observe and explain differences in behavior across natural and synthetic federated datasets, indicating that dataset synthesis strategy can be important for realistic simulations of generalization in federated learning. We propose a semantic synthesis strategy that enables realistic simulation without naturally-partitione d data. Informed by our findings, we call out community suggestions for future federated learning works.
翻訳日:2021-10-28 14:00:44 公開日:2021-10-27
# 非親和性グラフによる大規模学習:新しいベンチマークと強力な単純解法

Large Scale Learning on Non-Homophilous Graphs: New Benchmarks and Strong Simple Methods ( http://arxiv.org/abs/2110.14446v1 )

ライセンス: Link先を確認
Derek Lim, Felix Hohne, Xiuyu Li, Sijia Linda Huang, Vaishnavi Gupta, Omkar Bhalerao, Ser-Nam Lim(参考訳) グラフ機械学習タスクで広く使われているデータセットの多くは、類似のラベルを持つノードが相互に接続するホモフィアである。 近年,ホモフィリー構造を超えた新しいグラフニューラルネットワーク(gnns)が開発されているが,アプリケーション領域が限定された小さなグラフでは評価がしばしば行われている。 我々は、最大384倍のノードと1398倍のエッジを持つさまざまなアプリケーション領域から、多様な非ホモフィル性データセットを収集し、導入する。 さらに,既存のスケーラブルなグラフ学習とグラフミニバッチ技術が,これら非ホモフィラスなデータセットのパフォーマンス低下を招き,スケーラブルで非ホモフィラスな方法のさらなる開発の必要性を浮き彫りにした。 これらの問題に対処するため、LINKXを導入します。これは、単純なミニバッチトレーニングと推論を許容する強力なシンプルなメソッドです。 提案するデータセットに代表される単純な手法とgnnを用いた広範な実験結果から,linkxは非ホモフィラスグラフを用いた学習において最先端のパフォーマンスを達成していることが示された。 私たちのコードとデータはhttps://github.com/C UAI/Non-Homophily-La rge-Scaleで公開されています。

Many widely used datasets for graph machine learning tasks have generally been homophilous, where nodes with similar labels connect to each other. Recently, new Graph Neural Networks (GNNs) have been developed that move beyond the homophily regime; however, their evaluation has often been conducted on small graphs with limited application domains. We collect and introduce diverse non-homophilous datasets from a variety of application areas that have up to 384x more nodes and 1398x more edges than prior datasets. We further show that existing scalable graph learning and graph minibatching techniques lead to performance degradation on these non-homophilous datasets, thus highlighting the need for further work on scalable non-homophilous methods. To address these concerns, we introduce LINKX -- a strong simple method that admits straightforward minibatch training and inference. Extensive experimental results with representative simple methods and GNNs across our proposed datasets show that LINKX achieves state-of-the-art performance for learning on non-homophilous graphs. Our codes and data are available at https://github.com/C UAI/Non-Homophily-La rge-Scale.
翻訳日:2021-10-28 14:00:32 公開日:2021-10-27
# 信条伝播に基づくメッセージパッシングアルゴリズムによる深層学習

Deep learning via message passing algorithms based on belief propagation ( http://arxiv.org/abs/2110.14583v1 )

ライセンス: Link先を確認
Carlo Lucibello, Fabrizio Pittorino, Gabriele Perugini, Riccardo Zecchina(参考訳) BP(Belief Propagation)方程式に基づくメッセージパッシングアルゴリズムは、よく知られた分散計算方式である。 木のようなグラフィカルモデルでは正確であり、ループを持つグラフ上で定義される多くの問題(推論から最適化、信号処理からクラスタリングまで)でも有効であることが証明されている。 BPに基づくスキームは、現在のディープネットワークの成功に基づく確率勾配降下(SGD)と根本的に異なる。 本稿では,局所エントロピー解に対して分布をバイアスする強化場を持つBPベースのメッセージパッシングアルゴリズム群をGPU上でのミニバッチ学習に適用する。 これらのアルゴリズムは、SGDにインスパイアされたヒューリスティックス(BinaryNet)に匹敵するパフォーマンスで、離散的な重み付けとアクティベーションで多層ニューラルネットワークをトレーニングすることができる。 さらに,これらのアルゴリズムを用いて重みの辺数を推定することにより,点解よりも精度の高い近似ベイズ予測を行うことができる。

Message-passing algorithms based on the Belief Propagation (BP) equations constitute a well-known distributed computational scheme. It is exact on tree-like graphical models and has also proven to be effective in many problems defined on graphs with loops (from inference to optimization, from signal processing to clustering). The BP-based scheme is fundamentally different from stochastic gradient descent (SGD), on which the current success of deep networks is based. In this paper, we present and adapt to mini-batch training on GPUs a family of BP-based message-passing algorithms with a reinforcement field that biases distributions towards locally entropic solutions. These algorithms are capable of training multi-layer neural networks with discrete weights and activations with performance comparable to SGD-inspired heuristics (BinaryNet) and are naturally well-adapted to continual learning. Furthermore, using these algorithms to estimate the marginals of the weights allows us to make approximate Bayesian predictions that have higher accuracy than point-wise solutions.
翻訳日:2021-10-28 13:58:51 公開日:2021-10-27
# 不均質なマルチプレイヤーマルチアームバンド:ギャップの閉鎖と一般化

Heterogeneous Multi-player Multi-armed Bandits: Closing the Gap and Generalization ( http://arxiv.org/abs/2110.14622v1 )

ライセンス: Link先を確認
Chengshuai Shi, Wei Xiong, Cong Shen, Jing Yang(参考訳) 近年の分散マルチプレイヤーマルチアーム・バンディット(MP-MAB)問題における大きな関心と多くの進展にもかかわらず、異種MP-MABセッティングにおける自然集中化下限に対する後悔のギャップは未解決のままである。 本稿では,このギャップを埋めるBEACON (Batched Exploration with Adaptive CommunicatioN)を提案する。 BEACONは暗黙のコミュニケーションと効率的な探索において、新しい貢献によってこの目標を達成する。 前者に対しては,暗黙的通信効率を大幅に向上させる新しい適応的微分通信(adc)設計を提案する。 後者では、組合せ上信頼境界(CUCB)の原理を組み込むために、慎重に構築されたバッチ探索方式が開発されている。 次に、システム報酬が常に個別に収集された報酬の和である既存の線形回帰MP-MAB問題を、システム報酬が個々の報酬の一般(非線形)関数である新しいMP-MAB問題に一般化する。 BEACONを拡張してこの問題を解決し、対数的後悔を証明する。 BEACONは合成MAB(CMAB)とMP-MAB(MP-MAB)のアルゴリズム設計と再帰解析を橋渡しする。 補助材料:pdf

Despite the significant interests and many progresses in decentralized multi-player multi-armed bandits (MP-MAB) problems in recent years, the regret gap to the natural centralized lower bound in the heterogeneous MP-MAB setting remains open. In this paper, we propose BEACON -- Batched Exploration with Adaptive COmmunicatioN -- that closes this gap. BEACON accomplishes this goal with novel contributions in implicit communication and efficient exploration. For the former, we propose a novel adaptive differential communication (ADC) design that significantly improves the implicit communication efficiency. For the latter, a carefully crafted batched exploration scheme is developed to enable incorporation of the combinatorial upper confidence bound (CUCB) principle. We then generalize the existing linear-reward MP-MAB problems, where the system reward is always the sum of individually collected rewards, to a new MP-MAB problem where the system reward is a general (nonlinear) function of individual rewards. We extend BEACON to solve this problem and prove a logarithmic regret. BEACON bridges the algorithm design and regret analysis of combinatorial MAB (CMAB) and MP-MAB, two largely disjointed areas in MAB, and the results in this paper suggest that this previously ignored connection is worth further investigation. Supplementary Material: pdf
翻訳日:2021-10-28 13:58:31 公開日:2021-10-27
# ほとんど)分散型学習エージェントからの無償インセンティブ付き探索

(Almost) Free Incentivized Exploration from Decentralized Learning Agents ( http://arxiv.org/abs/2110.14628v1 )

ライセンス: Link先を確認
Chengshuai Shi, Haifeng Xu, Wei Xiong, Cong Shen(参考訳) マルチアーム・バンディット(MAB)におけるインセンティブ付き探検は、近年の関心と多くの進歩を目の当たりにしている。 しかし、既存の研究のほとんどは一時的な筋覚剤に限られている。 本研究では、この障壁を突破し、現実のアプリケーションによく現れるより複雑な振る舞いを持つ複数の長期戦略エージェントによる調査をインセンティブとした。 この研究に関する重要な観察は、戦略エージェントが「無償の引き金」を提供することで、校長の探究を損なうことなく)学習の利益を本質的に要求することである。 さらに, エージェントの人口増加により, インセンティブの負担が著しく軽減されることが判明した。 私たちの結果から明らかになった重要な驚くべき洞察は、十分に多くの学習エージェントが関与している場合、プリンシパルの探索プロセスは(ほぼ)自由であるということです。 本研究の主な成果は,(1)単純かつ実証可能なインセンティブ・プロビジョン戦略,(2)不平等な信頼の下で集約された報酬に対する最良腕識別アルゴリズム,(3)高確率有限時間 UCB アルゴリズムの低限界化である。 理論的解析を補完する実験結果が提供される。

Incentivized exploration in multi-armed bandits (MAB) has witnessed increasing interests and many progresses in recent years, where a principal offers bonuses to agents to do explorations on her behalf. However, almost all existing studies are confined to temporary myopic agents. In this work, we break this barrier and study incentivized exploration with multiple and long-term strategic agents, who have more complicated behaviors that often appear in real-world applications. An important observation of this work is that strategic agents' intrinsic needs of learning benefit (instead of harming) the principal's explorations by providing "free pulls". Moreover, it turns out that increasing the population of agents significantly lowers the principal's burden of incentivizing. The key and somewhat surprising insight revealed from our results is that when there are sufficiently many learning agents involved, the exploration process of the principal can be (almost) free. Our main results are built upon three novel components which may be of independent interest: (1) a simple yet provably effective incentive-provision strategy; (2) a carefully crafted best arm identification algorithm for rewards aggregated under unequal confidences; (3) a high-probability finite-time lower bound of UCB algorithms. Experimental results are provided to complement the theoretical analysis.
翻訳日:2021-10-28 13:58:08 公開日:2021-10-27
# 勾配ペナルティを伴わないWasserstein GANsの訓練

Training Wasserstein GANs without gradient penalties ( http://arxiv.org/abs/2110.14150v1 )

ライセンス: Link先を確認
Dohyun Kwon, Yeoneung Kim, Guido Mont\'ufar, Insoon Yang(参考訳) 本稿では,Wasserstein生成逆数ネットワークを訓練するための安定な手法を提案する。 安定性を高めるために,最適移動理論に現れるカントロヴィチ双対性に基づく$c$-変換を用いた2つの目的関数を考える。 我々は,このアルゴリズムが判別器のリプシッツ制約を効果的に適用できる一方で,他の標準手法では適用できないことを示す。 その結果, 最適判別器と, 真の分布と生成した分布との間のワッサースタイン距離の正確な推定が可能となった。 本手法は勾配ペナルティやそれに対応するハイパーパラメータチューニングを必要とせず,他の手法よりも計算効率が高い。 同時に、MNIST、F-MNIST、CIFAR-10データセットに基づく合成画像の競合生成器を生成する。

We propose a stable method to train Wasserstein generative adversarial networks. In order to enhance stability, we consider two objective functions using the $c$-transform based on Kantorovich duality which arises in the theory of optimal transport. We experimentally show that this algorithm can effectively enforce the Lipschitz constraint on the discriminator while other standard methods fail to do so. As a consequence, our method yields an accurate estimation for the optimal discriminator and also for the Wasserstein distance between the true distribution and the generated one. Our method requires no gradient penalties nor corresponding hyperparameter tuning and is computationally more efficient than other methods. At the same time, it yields competitive generators of synthetic images based on the MNIST, F-MNIST, and CIFAR-10 datasets.
翻訳日:2021-10-28 13:57:45 公開日:2021-10-27
# ニューラルPIL:反射分解のためのニューラルインテグレート照明

Neural-PIL: Neural Pre-Integrated Lighting for Reflectance Decomposition ( http://arxiv.org/abs/2110.14373v1 )

ライセンス: Link先を確認
Mark Boss, Varun Jampani, Raphael Braun, Ce Liu, Jonathan T. Barron, Hendrik P.A. Lensch(参考訳) シーンを形状、反射率、照明に分解することはコンピュータビジョンとグラフィックスの根本的な問題である。 NeRFのようなニューラルアプローチは、ビュー合成において顕著に成功したが、分解を明示的に実行せず、放射能(反射と照明の産物)のみにのみ作用する。 NeRDのようなNeRFの拡張は分解を行うことができるが、詳細な照明を正確に回復することは困難であり、現実性を大幅に制限する。 本研究では, 形状, BRDF, 画像ごとの照度を, 異なる照度で撮影した物体画像の集合から推定できる新しい反射率分解ネットワークを提案する。 我々のキーとなる技術はニューラルPILと呼ばれる新しい照明統合ネットワークで、レンダリングにおいて高価な照明積分演算を単純なネットワーククエリで置き換える。 さらに,新しいスムーズな多様体自動エンコーダを用いてBRDFと照明表現の低次元先行を学習する。 我々の分解はBRDFと光推定の精度が向上し、従来の技術と比べてより正確なビュー合成とリライトが可能となる。 プロジェクトページ: https://markboss.me/ publication/2021-neu ral-pil/

Decomposing a scene into its shape, reflectance and illumination is a fundamental problem in computer vision and graphics. Neural approaches such as NeRF have achieved remarkable success in view synthesis, but do not explicitly perform decomposition and instead operate exclusively on radiance (the product of reflectance and illumination). Extensions to NeRF, such as NeRD, can perform decomposition but struggle to accurately recover detailed illumination, thereby significantly limiting realism. We propose a novel reflectance decomposition network that can estimate shape, BRDF, and per-image illumination given a set of object images captured under varying illumination. Our key technique is a novel illumination integration network called Neural-PIL that replaces a costly illumination integral operation in the rendering with a simple network query. In addition, we also learn deep low-dimensional priors on BRDF and illumination representations using novel smooth manifold auto-encoders. Our decompositions can result in considerably better BRDF and light estimates enabling more accurate novel view-synthesis and relighting compared to prior art. Project page: https://markboss.me/ publication/2021-neu ral-pil/
翻訳日:2021-10-28 13:57:34 公開日:2021-10-27
# pl-net:医療画像分割のためのプログレッシブ学習ネットワーク

PL-Net: Progressive Learning Network for Medical Image Segmentation ( http://arxiv.org/abs/2110.14484v1 )

ライセンス: Link先を確認
Junlong Cheng, Chengrui Gao, Chaoqing Wang, Zhangqiang Ming, Yong Yang, Min Zhu(参考訳) 近年,深層畳み込みニューラルネットワーク(cnns)に基づくセグメンテーション手法が,多くの医療分析課題において最先端の成果を上げている。 しかし、これらのアプローチの多くは、粗粒度と細粒度のセマンティック情報の補完や融合を無視したU-Netの構造を最適化したり、新たな機能モジュールを追加したりすることで、性能を向上させる。 そこで本研究では,内部プログレッシブラーニング(ipl)と外部プログレッシブラーニング(epl)を含む,progressive learning network(pl-net)と呼ばれる医用画像分割フレームワークを提案する。 PL-Netは,(1)IPLが特徴抽出を2つの「ステップ」に分割し,異なる大きさの受容場を混合し,さらにパラメータを加味せずに粗粒度から細粒度まで意味情報を捕捉し,(2)EPLはトレーニングプロセスを2つの「ステージ」に分割してパラメータを最適化し,前段階における粗粒度情報の融合と後半段階における微粒度情報の融合を実現する。 本手法を医用画像解析タスクで評価した結果,pl-net のセグメンテーション性能は u-net の最先端手法やその変種よりも優れていることがわかった。

In recent years, segmentation methods based on deep convolutional neural networks (CNNs) have made state-of-the-art achievements for many medical analysis tasks. However, most of these approaches improve performance by optimizing the structure or adding new functional modules of the U-Net, which ignoring the complementation and fusion of the coarse-grained and fine-grained semantic information. To solve the above problems, we propose a medical image segmentation framework called progressive learning network (PL-Net), which includes internal progressive learning (IPL) and external progressive learning (EPL). PL-Net has the following advantages: (1) IPL divides feature extraction into two "steps", which can mix different size receptive fields and capture semantic information from coarse to fine granularity without introducing additional parameters; (2) EPL divides the training process into two "stages" to optimize parameters, and realizes the fusion of coarse-grained information in the previous stage and fine-grained information in the latter stage. We evaluate our method in different medical image analysis tasks, and the results show that the segmentation performance of PL-Net is better than the state-of-the-art methods of U-Net and its variants.
翻訳日:2021-10-28 13:55:37 公開日:2021-10-27
# 潜在平衡:任意に遅いニューロンを用いた高速計算のための統一学習理論

Latent Equilibrium: A unified learning theory for arbitrarily fast computation with arbitrarily slow neurons ( http://arxiv.org/abs/2110.14549v1 )

ライセンス: Link先を確認
Paul Haider, Benjamin Ellenberger, Laura Kriener, Jakob Jordan, Walter Senn, Mihai A. Petrovici(参考訳) 物理計算要素の応答時間は有限であり、ニューロンも例外ではない。 皮質ネットワークの階層モデルでは、各層は応答ラグを導入する。 この物理力学系の特性は、刺激の処理が遅れ、ネットワーク出力と命令信号のタイミングミスマッチを引き起こし、推論だけでなく学習も複雑になる。 生体ニューロンが膜電位に対して出力を位相改善する能力を活用することで、これらの問題を回避し、遅い成分のネットワークで推論と学習を行う新しいフレームワークであるLatent Equilibriumを紹介した。 この原理はネットワーク深さに依存しない準瞬時推論を可能にし、位相可塑性や計算コストの高いネットワーク緩和フェーズの必要性を回避する。 ネットワークの一般化された位置と運動量に依存する予測エネルギー関数から,不等角性ニューロンとシナプスダイナミクスを共同で導出する。 得られたモデルは、連続的な時間的、漏れやすい神経力学と連続的な活動的な局所的可塑性を持つ深部皮質ネットワークにおける生物学的に妥当な誤差逆伝播近似と解釈できる。 我々は、標準ベンチマークデータセットの学習を成功させ、完全接続型と畳み込み型の両方のアーキテクチャで競合性能を達成し、我々の原則が皮質微小循環の詳細なモデルにどのように適用できるかを示す。 さらに,生体内やシリコにおける物理的実現の可能性を示すために,時空間的基板不完全化に対するモデルのロバスト性について検討した。

The response time of physical computational elements is finite, and neurons are no exception. In hierarchical models of cortical networks each layer thus introduces a response lag. This inherent property of physical dynamical systems results in delayed processing of stimuli and causes a timing mismatch between network output and instructive signals, thus afflicting not only inference, but also learning. We introduce Latent Equilibrium, a new framework for inference and learning in networks of slow components which avoids these issues by harnessing the ability of biological neurons to phase-advance their output with respect to their membrane potential. This principle enables quasi-instantaneous inference independent of network depth and avoids the need for phased plasticity or computationally expensive network relaxation phases. We jointly derive disentangled neuron and synapse dynamics from a prospective energy function that depends on a network's generalized position and momentum. The resulting model can be interpreted as a biologically plausible approximation of error backpropagation in deep cortical networks with continuous-time, leaky neuronal dynamics and continuously active, local plasticity. We demonstrate successful learning of standard benchmark datasets, achieving competitive performance using both fully-connected and convolutional architectures, and show how our principle can be applied to detailed models of cortical microcircuitry. Furthermore, we study the robustness of our model to spatio-temporal substrate imperfections to demonstrate its feasibility for physical realization, be it in vivo or in silico.
翻訳日:2021-10-28 13:54:59 公開日:2021-10-27
# ロバストクラスタリングのための統一フレームワークに向けた一様濃度境界

Uniform Concentration Bounds toward a Unified Framework for Robust Clustering ( http://arxiv.org/abs/2110.14148v1 )

ライセンス: Link先を確認
Debolina Paul, Saptarshi Chakraborty, Swagatam Das and Jason Xu(参考訳) センターベースのクラスタリングの最近の進歩は、導入後60ドル以上でロイドの有名な$k$-meansアルゴリズムの欠点を改善し続けている。 様々な手法は、ローカルな最小値の貧弱さ、異常値に対する感度、ユークリッドの測度に適さないデータに対処しようとするが、その多くが経験的に支持されている。 さらに、このようなアプローチを断片的な方法で組み合わせることで、アドホックな手法がもたらされ、個々の貢献を支持する限られた理論的結果はもはや成り立たない。 本稿では、これらの課題を原則的に解決する上で、一般的な相似性尺度に基づく中心クラスタリングのための強固な枠組みを提案する。 特に、Median-of-Means (MoM) 推定フレームワーク内で厳密な理論的処理を行い、いくつかの一般的な$k$-means 変種を仮定することを示す。 既存手法の統一に加えて、解析を完了した一様濃度境界を導出し、ダドリーの連鎖論を通してこれらの結果をMoMフレームワークにブリッジする。 重要なことは、外向きの観測の分布や相対的な観測数に$n$から$p$という仮定は必要としない。 弱条件下では強い一貫性と誤り率を$O(n^{-1/2})$と定め、文献でよく知られた結果を上回る。 これらの手法は実データと合成データで実証的に検証される。

Recent advances in center-based clustering continue to improve upon the drawbacks of Lloyd's celebrated $k$-means algorithm over $60$ years after its introduction. Various methods seek to address poor local minima, sensitivity to outliers, and data that are not well-suited to Euclidean measures of fit, but many are supported largely empirically. Moreover, combining such approaches in a piecemeal manner can result in ad hoc methods, and the limited theoretical results supporting each individual contribution may no longer hold. Toward addressing these issues in a principled way, this paper proposes a cohesive robust framework for center-based clustering under a general class of dissimilarity measures. In particular, we present a rigorous theoretical treatment within a Median-of-Means (MoM) estimation framework, showing that it subsumes several popular $k$-means variants. In addition to unifying existing methods, we derive uniform concentration bounds that complete their analyses, and bridge these results to the MoM framework via Dudley's chaining arguments. Importantly, we neither require any assumptions on the distribution of the outlying observations nor on the relative number of observations $n$ to features $p$. We establish strong consistency and an error rate of $O(n^{-1/2})$ under mild conditions, surpassing the best-known results in the literature. The methods are empirically validated thoroughly on real and synthetic datasets.
翻訳日:2021-10-28 13:54:34 公開日:2021-10-27
# 部分観測・遅延力学系に対する安定な深部ダイナミクスモデルの学習

Learning Stable Deep Dynamics Models for Partially Observed or Delayed Dynamical Systems ( http://arxiv.org/abs/2110.14296v1 )

ライセンス: Link先を確認
Andreas Schlaginhaufen, Philippe Wenk, Andreas Krause, Florian D\"orfler(参考訳) 複雑な動的システムが時間とともにどのように進化するかを学ぶことは、システム識別の重要な課題である。 安全クリティカルシステムでは、学習されたモデルがある種の平衡点に収束することが保証されることがしばしば重要である。 この目的のために、神経リアプノフ関数で規則化された神経odeは、状態が完全に観察されるときに有望なアプローチである。 しかし、実際的な応用では、部分的な観測が標準である。 示すように、観測されていない拡張状態の初期化は、ニューラルODEにとって重要な問題となる。 この問題を軽減するため,我々は,システムの状態をその歴史とともに強化することを提案する。 離散時間系の状態拡張に着想を得て,神経遅延微分方程式を得る。 古典的時間遅延安定性解析に基づいて,学習モデルの安定性を確保する方法を示し,理論的に解析する。 本実験は,部分的に観測されたシステムの安定したシステム同定と,遅延フィードバック制御における安定化フィードバックポリシーの学習への適用性を示す。

Learning how complex dynamical systems evolve over time is a key challenge in system identification. For safety critical systems, it is often crucial that the learned model is guaranteed to converge to some equilibrium point. To this end, neural ODEs regularized with neural Lyapunov functions are a promising approach when states are fully observed. For practical applications however, partial observations are the norm. As we will demonstrate, initialization of unobserved augmented states can become a key problem for neural ODEs. To alleviate this issue, we propose to augment the system's state with its history. Inspired by state augmentation in discrete-time systems, we thus obtain neural delay differential equations. Based on classical time delay stability analysis, we then show how to ensure stability of the learned models, and theoretically analyze our approach. Our experiments demonstrate its applicability to stable system identification of partially observed systems and learning a stabilizing feedback policy in delayed feedback control.
翻訳日:2021-10-28 13:54:12 公開日:2021-10-27
# ユニバーサルポートフォリオの後悔からの厳密な集中と信頼の順序

Tight Concentrations and Confidence Sequences from the Regret of Universal Portfolio ( http://arxiv.org/abs/2110.14099v1 )

ライセンス: Link先を確認
Francesco Orabona and Kwang-Sung Jun(参考訳) 統計学における古典的な問題は、サンプルからランダム変数の予想を推定することである。 これにより、濃度不等式と信頼シーケンス、すなわち時間とともに均一に保持される信頼区間を導出する密接な結合問題が発生する。 Jun と Orabona [COLT'19] はオンライン賭けアルゴリズムの後悔の保証を時間的一様濃度の不等式に簡単に変換する方法を示した。 ミニマックスベッティングアルゴリズムの後悔は、新しい暗黙的な経験的時間一様集中をもたらすことを示している。 特に,ユニバーサルポートフォリオアルゴリズムの新たなデータ依存型後悔保証を用いる。 次に,新しい濃度を2つの異なる方法で反転させる方法を示す。 最後に,我々のアルゴリズムは,信頼度列の幅から適度に大量のサンプルまで,最先端の性能を持つことを示す。 特に、数値的に得られた信頼シーケンスは、単一のサンプルであっても決して空でない。

A classic problem in statistics is the estimation of the expectation of random variables from samples. This gives rise to the tightly connected problems of deriving concentration inequalities and confidence sequences, that is confidence intervals that hold uniformly over time. Jun and Orabona [COLT'19] have shown how to easily convert the regret guarantee of an online betting algorithm into a time-uniform concentration inequality. Here, we show that we can go even further: We show that the regret of a minimax betting algorithm gives rise to a new implicit empirical time-uniform concentration. In particular, we use a new data-dependent regret guarantee of the universal portfolio algorithm. We then show how to invert the new concentration in two different ways: in an exact way with a numerical algorithm and symbolically in an approximate way. Finally, we show empirically that our algorithms have state-of-the-art performance in terms of the width of the confidence sequences up to a moderately large amount of samples. In particular, our numerically obtained confidence sequences are never vacuous, even with a single sample.
翻訳日:2021-10-28 13:53:59 公開日:2021-10-27
# (参考訳) 感度分解によるニューラルキャリブレーションの幾何学的展望 [全文訳有]

A Geometric Perspective towards Neural Calibration via Sensitivity Decomposition ( http://arxiv.org/abs/2110.14577v1 )

ライセンス: CC BY 4.0
Junjiao Tian, Dylan Yung, Yen-Chang Hsu, Zsolt Kira(参考訳) 視覚分類モデルがデータ分散シフトの際のキャリブレーションの低下に悩まされることはよく知られている。 本稿では,この問題に対して幾何学的アプローチをとる。 本稿では,サンプル特徴埋め込みのノルムと対象分類器との角類似性をインスタンス依存成分とインスタンス非依存成分に分解する幾何感度分解(gsd)を提案する。 インスタンス依存コンポーネントは入力の変更に関するセンシティブな情報をキャプチャし、インスタンス依存コンポーネントはトレーニングデータセットの損失を最小限に抑えるためにのみ役立つ非センシティブな情報を表現します。 この分解に触発されて,現在のソフトマックス線形モデルへの単純な拡張を解析的に導出し,トレーニング中の2つの成分の絡み合いを解消することを学ぶ。 いくつかの共通ビジョンモデルでは、解離モデルでは、オフ・オブ・ディストリビューション(OOD)データや破損に直面する標準的なキャリブレーション指標の他のキャリブレーション手法よりもはるかに少ない複雑さで優れている。 具体的には,予測校正誤差におけるCIFAR100の相対的改善率を30.8%上回った。 https://github.com/G T-RIPL/Geometric-Sen sitivity-Decompositi on.gitで公開されている。

It is well known that vision classification models suffer from poor calibration in the face of data distribution shifts. In this paper, we take a geometric approach to this problem. We propose Geometric Sensitivity Decomposition (GSD) which decomposes the norm of a sample feature embedding and the angular similarity to a target classifier into an instance-dependent and an instance-independent component. The instance-dependent component captures the sensitive information about changes in the input while the instance-independent component represents the insensitive information serving solely to minimize the loss on the training dataset. Inspired by the decomposition, we analytically derive a simple extension to current softmax-linear models, which learns to disentangle the two components during training. On several common vision models, the disentangled model outperforms other calibration methods on standard calibration metrics in the face of out-of-distribution (OOD) data and corruption with significantly less complexity. Specifically, we surpass the current state of the art by 30.8% relative improvement on corrupted CIFAR100 in Expected Calibration Error. Code available at https://github.com/G T-RIPL/Geometric-Sen sitivity-Decompositi on.git.
翻訳日:2021-10-28 13:51:37 公開日:2021-10-27
# 深層学習におけるデータの容量制御は可能か?

Does the Data Induce Capacity Control in Deep Learning? ( http://arxiv.org/abs/2110.14163v1 )

ライセンス: Link先を確認
Yang Rubing, Mao Jialin, Chaudhari Pratik(参考訳) 本稿では,ディープネットワークの異常一般化性能の原因となるデータセットについて検討する。 典型的な分類データセットのデータ相関行列は、急激な初期降下の後、指数関数的に広い範囲で多数の小さな固有値が均一に分布する固有スペクトルを持つことを示す。 この構造は、このデータに基づいて訓練されたネットワークでミラーされ、ヘッセンとフィッシャー情報行列(FIM)が指数的に広い範囲に均一に広がる固有値を持つことを示す。 このような固有スペクトルを「スロッピー」と呼ぶのは、小さな固有値に対応する重みの集合は損失に影響を与えずに大きな大きさで変更できるからである。 非スロッピーな合成データで訓練されたネットワークは、これらの特徴を共有しない。 我々は、このデータ構造が非空のPAC-Bayes一般化境界にどのように影響するかを解析的に示し、また、数値最適化を用いて正確な境界となるデータ分布依存の事前を構築する。

This paper studies how the dataset may be the cause of the anomalous generalization performance of deep networks. We show that the data correlation matrix of typical classification datasets has an eigenspectrum where, after a sharp initial drop, a large number of small eigenvalues are distributed uniformly over an exponentially large range. This structure is mirrored in a network trained on this data: we show that the Hessian and the Fisher Information Matrix (FIM) have eigenvalues that are spread uniformly over exponentially large ranges. We call such eigenspectra "sloppy" because sets of weights corresponding to small eigenvalues can be changed by large magnitudes without affecting the loss. Networks trained on atypical, non-sloppy synthetic data do not share these traits. We show how this structure in the data can give to non-vacuous PAC-Bayes generalization bounds analytically; we also construct data-distribution dependent priors that lead to accurate bounds using numerical optimization.
翻訳日:2021-10-28 13:31:10 公開日:2021-10-27
# 限定フィードバックを用いたオンライン選択分類

Online Selective Classification with Limited Feedback ( http://arxiv.org/abs/2110.14243v1 )

ライセンス: Link先を確認
Aditya Gangrade, Anil Kag, Ashok Cutkosky, Venkatesh Saligrama(参考訳) リソース制限および安全クリティカルドメインへの応用により、オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的な分類について研究する。 例えば、このインスタンスでより多くのリソースを呼び出すための適応的な決定をモデル化できる。 この設定の健全な側面は、データの非可逆性、すなわち、禁忌が有効な長期的行動である可能性があること、そして学習者が棄権した場合にのみフィードバックが受けられること、そしてリソース集約処理の実行時にのみ信頼性のあるラベルが利用できるという事実をモデル化することである。 このフレームワーク内では、過ちをほとんど犯さない戦略を探求するが、与えられたクラスから最も目に見えるエラーのない分類器よりも多くは無視しない。 つまり,ミスを犯さないと同時に,最も少ない回数を排除しているのです。 任意の$\mu \in (0,1],$ に対して単純なバージョニングベースのスキームを構築し、ほとんどの$t^\mu$ミスを発生させる一方で、適応的な敵に対する過剰な棄却を伴って \smash{$\tilde{o}(t^{1-\mu})$} を発生させる。 さらに、この$T$への依存は厳密であり、現実的なデータセットに関する実証実験を提供する。

Motivated by applications to resource-limited and safety-critical domains, we study selective classification in the online learning model, wherein a predictor may abstain from classifying an instance. For example, this may model an adaptive decision to invoke more resources on this instance. Two salient aspects of the setting we consider are that the data may be non-realisable, due to which abstention may be a valid long-term action, and that feedback is only received when the learner abstains, which models the fact that reliable labels are only available when the resource intensive processing is invoked. Within this framework, we explore strategies that make few mistakes, while not abstaining too many times more than the best-in-hindsight error-free classifier from a given class. That is, the one that makes no mistakes, while abstaining the fewest number of times. We construct simple versioning-based schemes for any $\mu \in (0,1],$ that make most $T^\mu$ mistakes while incurring \smash{$\tilde{O}(T^{1-\mu})$} excess abstention against adaptive adversaries. We further show that this dependence on $T$ is tight, and provide illustrative experiments on realistic datasets.
翻訳日:2021-10-28 13:30:53 公開日:2021-10-27
# gacan:多粒度時系列に基づく交通予測のためのグラフ注意畳み込みネットワーク

GACAN: Graph Attention-Convolutio n-Attention Networks for Traffic Forecasting Based on Multi-granularity Time Series ( http://arxiv.org/abs/2110.14331v1 )

ライセンス: Link先を確認
Sikai Zhang, Hong Zheng, Hongyi Su, Bo Yan, Jiamou Liu, Song Yang(参考訳) 交通予測はインテリジェント交通システム(ITS)の不可欠な部分である。 高い予測精度を達成することは、道路ネットワークの高レベルのダイナミクスと複雑な時空間依存性のために難しい課題である。 本稿では,gacan(graph attention-convolutio n-attention networks)を提案する。 このモデルは、2つのグラフアテンション層と1つのスペクトルベースGCN層を挟んだ新しいAtt-Conv-Att(ACA)ブロックを使用する。 グラフ注意層は時間的特徴を捉え、スペクトルベースのGCN層は空間的特徴を捉える。 モデルの主なノベルティは、4つの異なる時間粒度の時系列の統合である: オリジナルの時系列と、時間毎、日毎、週毎の時系列である。 各時系列を別々に処理することで、複数の粒度時系列を使用する以前の作業とは異なり、gacanは各グラフ注目層の後の全時系列を処理した結果を組み合わせる。 したがって、異なる時間的粒度の影響はモデル全体に統合される。 3つの実世界のデータセットで一連の実験を行う。 実験結果は,多粒度時系列の利点を検証し,提案したGACANモデルが最先端のベースラインより優れていることを示す。

Traffic forecasting is an integral part of intelligent transportation systems (ITS). Achieving a high prediction accuracy is a challenging task due to a high level of dynamics and complex spatial-temporal dependency of road networks. For this task, we propose Graph Attention-Convolutio n-Attention Networks (GACAN). The model uses a novel Att-Conv-Att (ACA) block which contains two graph attention layers and one spectral-based GCN layer sandwiched in between. The graph attention layers are meant to capture temporal features while the spectral-based GCN layer is meant to capture spatial features. The main novelty of the model is the integration of time series of four different time granularities: the original time series, together with hourly, daily, and weekly time series. Unlike previous work that used multi-granularity time series by handling every time series separately, GACAN combines the outcome of processing all time series after each graph attention layer. Thus, the effects of different time granularities are integrated throughout the model. We perform a series of experiments on three real-world datasets. The experimental results verify the advantage of using multi-granularity time series and that the proposed GACAN model outperforms the state-of-the-art baselines.
翻訳日:2021-10-28 13:30:27 公開日:2021-10-27
# Active-LATHE:均質なイジング木を学習するためのエラー指数を高めるアクティブ学習アルゴリズム

Active-LATHE: An Active Learning Algorithm for Boosting the Error Exponent for Learning Homogeneous Ising Trees ( http://arxiv.org/abs/2110.14341v1 )

ライセンス: Link先を確認
Fengzhuo Zhang, Anshoo Tandon, Vincent Y. F. Vincent(参考訳) Chow-Liu アルゴリズム (IEEE Trans.~Inform.〜Theory, 1968) は、木構造図形モデルをサンプルデータベクトルから学習するための主要な手段である。 その理論的性質はよく研究され、よく理解されている。 本稿では、辺を形成する各ノードの対が同じ相関値$\rho$を持つような、より基本的な木、すなわち「同質な木」のクラスに焦点をあてる。 我々は、"em active learning} または "em active sampling of node or variable} が許可された場合、均質木モデルの構造を学習するエラー確率を更に低減できるかどうかを問う。 我々の図形は、誤差確率の指数的な崩壊率をデータサンプル数の増加とともに定量化する、誤差指数である。 一見すると、すべてのエッジが統計的に同一であるため、エラー指数の改善は不可能に思える。 我々は,均質なエッジ(active-lathe)を持つ木に対するアルゴリズムアクティブラーニングアルゴリズムの設計と解析を行い,$\rho$ が少なくとも$0.8$ の場合,誤差指数を 40 % 以上向上させる。 $\rho$の他のすべての値に対して、私たちはまた、より控えめな、エラー指数の改善も観察します。 我々の分析は、サンプルの微小だが検出可能な統計的な変動を利用して、より多くのデータをグラフの一部に割り当てることにかかっています。

The Chow-Liu algorithm (IEEE Trans.~Inform.~Theor y, 1968) has been a mainstay for the learning of tree-structured graphical models from i.i.d.\ sampled data vectors. Its theoretical properties have been well-studied and are well-understood. In this paper, we focus on the class of trees that are arguably even more fundamental, namely {\em homogeneous} trees in which each pair of nodes that forms an edge has the same correlation $\rho$. We ask whether we are able to further reduce the error probability of learning the structure of the homogeneous tree model when {\em active learning} or {\em active sampling of nodes or variables} is allowed. Our figure of merit is the {\em error exponent}, which quantifies the exponential rate of decay of the error probability with an increasing number of data samples. At first sight, an improvement in the error exponent seems impossible, as all the edges are statistically identical. We design and analyze an algorithm Active Learning Algorithm for Trees with Homogeneous Edge (Active-LATHE), which surprisingly boosts the error exponent by at least 40\% when $\rho$ is at least $0.8$. For all other values of $\rho$, we also observe commensurate, but more modest, improvements in the error exponent. Our analysis hinges on judiciously exploiting the minute but detectable statistical variation of the samples to allocate more data to parts of the graph in which we are less confident of being correct.
翻訳日:2021-10-28 13:30:06 公開日:2021-10-27
# VQ-GNN:ベクトル量子化を用いたグラフニューラルネットワークのスケールアップのためのユニバーサルフレームワーク

VQ-GNN: A Universal Framework to Scale up Graph Neural Networks using Vector Quantization ( http://arxiv.org/abs/2110.14363v1 )

ライセンス: Link先を確認
Mucong Ding, Kezhi Kong, Jingling Li, Chen Zhu, John P Dickerson, Furong Huang, Tom Goldstein(参考訳) ほとんどの最先端グラフニューラルネットワーク (gnns) はグラフ畳み込みの一形態として定義することができ、これは直接隣人間のメッセージパッシングによって実現される。 このようなGNNを大きなグラフにスケールするために, 隣接層, 層, サブグラフサンプリング技術が提案され, 小バッチのノードに渡されるメッセージの小さなサブセットのみを考慮し, 「近隣爆発」問題を緩和する。 しかし、サンプリングベースの手法は、各レイヤの多視点またはグローバルなコンテキストを利用し、異なるタスクやデータセットに対して不安定な性能を示し、モデル推論を高速化しないGNNに適用することは困難である。 本稿では,ベクトル量子化(VQ)を用いた畳み込みベースのGNNを,性能を損なうことなくスケールアップする汎用フレームワークであるVQ-GNNを提案する。 サンプリングに基づく手法とは対照的に,GNN層内のVQを用いて,グローバルノード表現の少数の量子化参照ベクトルを学習し,更新することにより,ノードのミニバッチに渡されるすべてのメッセージを効果的に保存することができる。 我々のフレームワークは,グラフ畳み込み行列の低ランク版と組み合わせた量子化表現を用いて,GNNの「隣の爆発」問題を回避する。 このようなコンパクトな低ランクの巨大畳み込み行列は理論的にも実験的にも十分であることを示す。 VQと共に、我々は、新しい近似メッセージパッシングアルゴリズムと、フレームワークの非自明なバックプロパゲーションルールを設計する。 各種GNNバックボーンの実験により,大規模ノード分類とリンク予測ベンチマークにおけるフレームワークのスケーラビリティと競争性を示す。

Most state-of-the-art Graph Neural Networks (GNNs) can be defined as a form of graph convolution which can be realized by message passing between direct neighbors or beyond. To scale such GNNs to large graphs, various neighbor-, layer-, or subgraph-sampling techniques are proposed to alleviate the "neighbor explosion" problem by considering only a small subset of messages passed to the nodes in a mini-batch. However, sampling-based methods are difficult to apply to GNNs that utilize many-hops-away or global context each layer, show unstable performance for different tasks and datasets, and do not speed up model inference. We propose a principled and fundamentally different approach, VQ-GNN, a universal framework to scale up any convolution-based GNNs using Vector Quantization (VQ) without compromising the performance. In contrast to sampling-based techniques, our approach can effectively preserve all the messages passed to a mini-batch of nodes by learning and updating a small number of quantized reference vectors of global node representations, using VQ within each GNN layer. Our framework avoids the "neighbor explosion" problem of GNNs using quantized representations combined with a low-rank version of the graph convolution matrix. We show that such a compact low-rank version of the gigantic convolution matrix is sufficient both theoretically and experimentally. In company with VQ, we design a novel approximated message passing algorithm and a nontrivial back-propagation rule for our framework. Experiments on various types of GNN backbones demonstrate the scalability and competitive performance of our framework on large-graph node classification and link prediction benchmarks.
翻訳日:2021-10-28 13:29:40 公開日:2021-10-27
# マルチタスク学習レンズを用いたマルチモーダルメタラーニングの再検討

Revisit Multimodal Meta-Learning through the Lens of Multi-Task Learning ( http://arxiv.org/abs/2110.14202v1 )

ライセンス: Link先を確認
Milad Abdollahzadeh, Touba Malekzadeh, Ngai-Man Cheung(参考訳) マルチモーダルメタラーニング(multimodal meta-learning)は、様々なマルチモーダルタスク分布にそのセットアップを一般化することにより、従来の少数ショットメタラーニングを拡張した最近の問題である。 このセットアップは、人間が新しいスキルを学ぶために、様々な事前スキルを利用する方法を模倣するためのステップとなる。 これまでの仕事は成果を上げている。 特に、マルチモーダルなタスクの多様性にもかかわらず、以前の研究では、マルチモーダル分布で訓練された単一のメタリーナーが、個々のユニモーダル分布で訓練された複数の特別なメタリーナーを上回ることがあると主張している。 この改善は、タスク分布の異なるモード間の知識伝達に起因する。 しかし,マルチモーダルタスク間の知識伝達を検証し理解するための深い調査は行われていない。 我々の研究はマルチモーダルなメタラーニングに2つの貢献をしている。 まず,異なるモードのタスク間の知識伝達をマイクロレベルで定量化する手法を提案する。 我々の量的、タスクレベルの分析は、近年のマルチタスク学習からの伝達アイデアにインスパイアされている。 第2に,マルチタスク学習におけるハードパラメータ共有と関連する作業の新しい解釈に触発され,既存の作業を大幅に上回る新たなマルチモーダルメタリーナーを提案する。 主な焦点はマルチモーダルなメタラーニングであるが、我々の研究は従来のメタラーニングにおけるタスクインタラクションにも光を当てようとしている。 プロジェクトのコードはhttps://miladabd.git hub.io/KMLで公開されている。

Multimodal meta-learning is a recent problem that extends conventional few-shot meta-learning by generalizing its setup to diverse multimodal task distributions. This setup makes a step towards mimicking how humans make use of a diverse set of prior skills to learn new skills. Previous work has achieved encouraging performance. In particular, in spite of the diversity of the multimodal tasks, previous work claims that a single meta-learner trained on a multimodal distribution can sometimes outperform multiple specialized meta-learners trained on individual unimodal distributions. The improvement is attributed to knowledge transfer between different modes of task distributions. However, there is no deep investigation to verify and understand the knowledge transfer between multimodal tasks. Our work makes two contributions to multimodal meta-learning. First, we propose a method to quantify knowledge transfer between tasks of different modes at a micro-level. Our quantitative, task-level analysis is inspired by the recent transference idea from multi-task learning. Second, inspired by hard parameter sharing in multi-task learning and a new interpretation of related work, we propose a new multimodal meta-learner that outperforms existing work by considerable margins. While the major focus is on multimodal meta-learning, our work also attempts to shed light on task interaction in conventional meta-learning. The code for this project is available at https://miladabd.git hub.io/KML.
翻訳日:2021-10-28 13:26:32 公開日:2021-10-27
# マルチレイヤーLookahead:Lookaheadのネストバージョン

Multilayer Lookahead: a Nested Version of Lookahead ( http://arxiv.org/abs/2110.14254v1 )

ライセンス: Link先を確認
Denys Pushkin and Luis Barba(参考訳) 近年、sgdとその変種はディープニューラルネットワークを訓練する標準的なツールとなっている。 本稿では,最近提案されたLookaheadに焦点をあて,広範囲のアプリケーションにおいてSGDを改善する。 この成功の後、我々はこのアルゴリズムの拡張である \emph{Multilayer Lookahead} オプティマイザについて検討した。 O(\frac{1}{\sqrt{T}})$ rate で滑らかな非凸関数の定常点に2つの層を持つ多層ルックアヘッドの収束を証明した。 また、SGD上のLookaheadとLookahead上のMultilayerLookaheadの両方の改善を正当化し、SGDの暗黙の正規化効果をどのように増幅するかを示す。 CIFAR-10 と CIFAR-100 の分類タスク,MNIST データセットの GAN トレーニングにおいて,MNIST が Lookahead よりも優れていることを示す。

In recent years, SGD and its variants have become the standard tool to train Deep Neural Networks. In this paper, we focus on the recently proposed variant Lookahead, which improves upon SGD in a wide range of applications. Following this success, we study an extension of this algorithm, the \emph{Multilayer Lookahead} optimizer, which recursively wraps Lookahead around itself. We prove the convergence of Multilayer Lookahead with two layers to a stationary point of smooth non-convex functions with $O(\frac{1}{\sqrt{T}})$ rate. We also justify the improved generalization of both Lookahead over SGD, and of Multilayer Lookahead over Lookahead, by showing how they amplify the implicit regularization effect of SGD. We empirically verify our results and show that Multilayer Lookahead outperforms Lookahead on CIFAR-10 and CIFAR-100 classification tasks, and on GANs training on the MNIST dataset.
翻訳日:2021-10-28 13:26:07 公開日:2021-10-27
# ビデオ認識のための時間整合共分散プーリングネットワーク

Temporal-attentive Covariance Pooling Networks for Video Recognition ( http://arxiv.org/abs/2110.14381v1 )

ライセンス: Link先を確認
Zilin Gao, Qilong Wang, Bingbing Zhang, Qinghua Hu, Peihua Li(参考訳) 映像認識タスクでは,映像スニペットの内容全体を要約したグローバル表現が最終演出に重要な役割を果たす。 しかし、既存のビデオアーキテクチャは通常、ビデオの複雑なダイナミックスを捉える能力に制限のある、シンプルでグローバルな平均プーリング(GAP)手法を用いて生成する。 画像認識タスクには、共分散プーリングがGAPよりも強力な表現能力を持つことを示す証拠が存在する。 残念なことに、画像認識で使われるような無秩序な共分散プールは、ビデオに固有の時空間構造をモデル化できない秩序のない代表である。 そこで本研究では,深層アーキテクチャの終端に挿入された時間適応型共分散ポーリング(TCP)を提案し,強力な映像表現を実現する。 特に, tcpは, 時間的注意モジュールを開発し, 時空間的特徴を適応的にキャリブレーションし, 近似的に注意的共分散表現を生成する。 そして、時間共分散プーリングは、注意共分散表現の時間的プーリングを行い、キャリブレーションされた特徴のフレーム内相関とフレーム間相互相関の両方を特徴付ける。 そのため、提案するTCPは複雑な時間的ダイナミクスを捉えることができる。 最後に、共分散表現の幾何を利用するために高速行列パワー正規化を導入する。 TCP はモデルに依存しず,任意のビデオアーキテクチャに柔軟に統合可能である点に注意が必要だ。 様々なビデオアーキテクチャを用いた6つのベンチマーク実験により、TCPNetは強力な一般化能力を持ちながら、それよりも明らかに優れていることが示された。 $\href{https://github.com/Z ilinGao/Temporal-att entive-Covariance-Po oling-Networks-for-V ideo-Recognition}{\textit{ ソースコードが公開されている。 }}$

For video recognition task, a global representation summarizing the whole contents of the video snippets plays an important role for the final performance. However, existing video architectures usually generate it by using a simple, global average pooling (GAP) method, which has limited ability to capture complex dynamics of videos. For image recognition task, there exist evidences showing that covariance pooling has stronger representation ability than GAP. Unfortunately, such plain covariance pooling used in image recognition is an orderless representative, which cannot model spatio-temporal structure inherent in videos. Therefore, this paper proposes a Temporal-attentive Covariance Pooling(TCP), inserted at the end of deep architectures, to produce powerful video representations. Specifically, our TCP first develops a temporal attention module to adaptively calibrate spatio-temporal features for the succeeding covariance pooling, approximatively producing attentive covariance representations. Then, a temporal covariance pooling performs temporal pooling of the attentive covariance representations to characterize both intra-frame correlations and inter-frame cross-correlations of the calibrated features. As such, the proposed TCP can capture complex temporal dynamics. Finally, a fast matrix power normalization is introduced to exploit geometry of covariance representations. Note that our TCP is model-agnostic and can be flexibly integrated into any video architectures, resulting in TCPNet for effective video recognition. The extensive experiments on six benchmarks using various video architectures show our TCPNet is clearly superior to its counterparts, while having strong generalization ability.$\href{https://github.com/Z ilinGao/Temporal-att entive-Covariance-Po oling-Networks-for-V ideo-Recognition}{\textit{The source code is publicly available.}}$
翻訳日:2021-10-28 13:25:49 公開日:2021-10-27
# (参考訳) Dyck言語学習のための個別インタフェースによる強化学習の強化 [全文訳有]

Enhancing Reinforcement Learning with discrete interfaces to learn the Dyck Language ( http://arxiv.org/abs/2110.14350v1 )

ライセンス: CC BY 4.0
Florian Dietz, Dietrich Klakow(参考訳) 現実世界のほとんどのインターフェイスは離散的だが、ニューラルネットワークを訓練して利用するための効率的な方法はまだ存在しない。 我々は,対話ネットワーク(強化学習アーキテクチャ)を個別のインタフェースで拡張し,汎用Dyck言語で学習する。 このタスクは階層構造を理解することが必要であり、ニューラルネットワークでは長い間困難であることが証明されてきた。 離散データ構造を用いた学習に基づく最初のソリューションを提供する。 トレーニング中に予期せぬ異常な行動に遭遇し,実行トレースに基づく事前学習を用いて克服した。 結果として得られたモデルは、非常に小さくて高速で、トレーニングデータよりも桁違いに長いシーケンスに一般化されます。

Even though most interfaces in the real world are discrete, no efficient way exists to train neural networks to make use of them, yet. We enhance an Interaction Network (a Reinforcement Learning architecture) with discrete interfaces and train it on the generalized Dyck language. This task requires an understanding of hierarchical structures to solve, and has long proven difficult for neural networks. We provide the first solution based on learning to use discrete data structures. We encountered unexpected anomalous behavior during training, and utilized pre-training based on execution traces to overcome them. The resulting model is very small and fast, and generalizes to sequences that are an entire order of magnitude longer than the training data.
翻訳日:2021-10-28 13:23:43 公開日:2021-10-27
# マクロゴールによるMOBAゲームにおける多言語学習

Learning Diverse Policies in MOBA Games via Macro-Goals ( http://arxiv.org/abs/2110.14221v1 )

ライセンス: Link先を確認
Yiming Gao, Bei Shi, Xueying Du, Liang Wang, Guangwei Chen, Zhenjie Lian, Fuhao Qiu, Guoan Han, Weixuan Wang, Deheng Ye, Qiang Fu, Wei Yang, Lanxiao Huang(参考訳) 近年、多くの研究者が、Dota 2やHonor of Kingsなど、深い強化学習を伴うMOBAゲームプレイのためのAIシステムの構築に成功した。 これらのAIシステムは、人間レベルのパフォーマンスを達成または超えたとしても、政策の多様性の欠如に悩まされている。 本稿では,MOBAゲームにおける多様なポリシーを学習するための新しいマクロゴールガイドフレームワークMGGを提案する。 mggは戦略を人間のデモからマクロゴールとして抽象化し、メタコントローラを訓練してマクロゴールを予測する。 政策の多様性を高めるため、MGGはメタコントローラ予測からマクロゴールをサンプリングし、これらの目標に向けてトレーニングプロセスを導く。 典型的なmobaゲーム『honor of kings』の実験結果は、mggが異なるマッチやラインアップで多様なポリシーを実行し、102のヒーローよりも最先端の手法を上回っていることを示している。

Recently, many researchers have made successful progress in building the AI systems for MOBA-game-playing with deep reinforcement learning, such as on Dota 2 and Honor of Kings. Even though these AI systems have achieved or even exceeded human-level performance, they still suffer from the lack of policy diversity. In this paper, we propose a novel Macro-Goals Guided framework, called MGG, to learn diverse policies in MOBA games. MGG abstracts strategies as macro-goals from human demonstrations and trains a Meta-Controller to predict these macro-goals. To enhance policy diversity, MGG samples macro-goals from the Meta-Controller prediction and guides the training process towards these goals. Experimental results on the typical MOBA game Honor of Kings demonstrate that MGG can execute diverse policies in different matches and lineups, and also outperform the state-of-the-art methods over 102 heroes.
翻訳日:2021-10-28 13:13:07 公開日:2021-10-27
# 学習グラフセルオートマトン

Learning Graph Cellular Automata ( http://arxiv.org/abs/2110.14237v1 )

ライセンス: Link先を確認
Daniele Grattarola, Lorenzo Livi, Cesare Alippi(参考訳) セルオートマトン(英: cellular automata、ca)は、細胞間の局所的な相互作用から生じるリッチなダイナミクスを示す計算モデルの一種である。 本研究では、格子構造を任意のグラフに置き換えるグラフセルオートマトン(GCA)と呼ばれる典型的なCAの一般化バージョンに焦点を当てる。 特に、畳み込みニューラルネットワークを用いて従来のCAの遷移規則を学習する以前の研究を拡張し、グラフニューラルネットワークを用いてGAAの様々な遷移規則を学習する。 まず, GCAを学習するための汎用アーキテクチャを提案し, 有限かつ離散的な状態空間を持つ任意の GCA を表現可能であることを示す。 そして、3つの異なるタスクでアプローチをテストする。 1) ボロノイ焼成によるGCAの遷移規則の学習 2) 群集エージェント群の行動の模倣 3) 所望の目標状態に収束する規則を学ぶこと。

Cellular automata (CA) are a class of computational models that exhibit rich dynamics emerging from the local interaction of cells arranged in a regular lattice. In this work we focus on a generalised version of typical CA, called graph cellular automata (GCA), in which the lattice structure is replaced by an arbitrary graph. In particular, we extend previous work that used convolutional neural networks to learn the transition rule of conventional CA and we use graph neural networks to learn a variety of transition rules for GCA. First, we present a general-purpose architecture for learning GCA, and we show that it can represent any arbitrary GCA with finite and discrete state space. Then, we test our approach on three different tasks: 1) learning the transition rule of a GCA on a Voronoi tessellation; 2) imitating the behaviour of a group of flocking agents; 3) learning a rule that converges to a desired target state.
翻訳日:2021-10-28 13:12:49 公開日:2021-10-27
# ゴール条件付きブロックMDPにおけるドメイン不変表現の学習

Learning Domain Invariant Representations in Goal-conditioned Block MDPs ( http://arxiv.org/abs/2110.14248v1 )

ライセンス: Link先を確認
Beining Han, Chongyi Zheng, Harris Chan, Keiran Paster, Michael R. Zhang, Jimmy Ba(参考訳) 深層強化学習(RL)は多くの複雑なマルコフ決定過程(MDP)の解決に成功している。 しかしエージェントはしばしば、現実世界への展開後に予期せぬ環境変化に直面している。 これらの変更は多くの場合、視覚入力エージェントの背景シフトなど、基礎的な問題とは無関係である。 残念ながら、深いRLポリシーは通常これらの変更に敏感であり、それらに対して堅牢に行動しない。 これは教師付き学習における領域一般化の問題に似ている。 本研究では、ゴール条件付きRLエージェントに対するこの問題について検討する。 本稿では,新しい環境に対する目標条件付きポリシーの一般化性を特徴付けるブロックMDP設定の理論的枠組みを提案する。 本フレームワークでは,ドメインの一般化を促進する実践的な手法PA-SkewFitを開発する。 実験により, 目標条件付きRLエージェントは, 様々な未確認試験環境で良好に動作し, ベースラインよりも50%向上した。

Deep Reinforcement Learning (RL) is successful in solving many complex Markov Decision Processes (MDPs) problems. However, agents often face unanticipated environmental changes after deployment in the real world. These changes are often spurious and unrelated to the underlying problem, such as background shifts for visual input agents. Unfortunately, deep RL policies are usually sensitive to these changes and fail to act robustly against them. This resembles the problem of domain generalization in supervised learning. In this work, we study this problem for goal-conditioned RL agents. We propose a theoretical framework in the Block MDP setting that characterizes the generalizability of goal-conditioned policies to new environments. Under this framework, we develop a practical method PA-SkewFit that enhances domain generalization. The empirical evaluation shows that our goal-conditioned RL agent can perform well in various unseen test environments, improving by 50% over baselines.
翻訳日:2021-10-28 13:12:36 公開日:2021-10-27
# 反事実的シェープリー加法説明

Counterfactual Shapley Additive Explanations ( http://arxiv.org/abs/2110.14270v1 )

ライセンス: Link先を確認
Emanuele Albini, Jason Long, Danial Dervovic, Daniele Magazzeni(参考訳) 特徴帰属(feature attribution)は、モデルに各入力特徴に対して単一の数値スコアを割り当てることの単純さから、モデル説明のための一般的なパラダイムである。 動作可能なリコース設定では、モデル消費者の成果を改善することが目的であるが、機能属性が正しく使用されるかはよく分かっていない。 本研究は,行動可能な会話と特徴属性との関連性を強化することを目的としている。 具体的には,SHAPの変種であるCoSHAPを提案する。これは反ファクト生成技術を用いて,シャープリー値フレームワーク内で使用するための背景データセットを生成する。 我々は,特徴属性にShapley値を使用する場合の背景データセットを慎重に考慮するために,動作可能なリコース設定の必要性と,モノトニック性の必要性を,多くの合成例とともに動機付けている。 さらに,CoSHAPの有効性を,特徴属性,反事実可能性の定量的スコアの提案と正当性によって示し,この測定結果から,モノトンツリーアンサンブルを用いた公開データセットを用いた評価において,既存の手法よりも優れていることを示す。

Feature attributions are a common paradigm for model explanations due to their simplicity in assigning a single numeric score for each input feature to a model. In the actionable recourse setting, wherein the goal of the explanations is to improve outcomes for model consumers, it is often unclear how feature attributions should be correctly used. With this work, we aim to strengthen and clarify the link between actionable recourse and feature attributions. Concretely, we propose a variant of SHAP, CoSHAP, that uses counterfactual generation techniques to produce a background dataset for use within the marginal (a.k.a. interventional) Shapley value framework. We motivate the need within the actionable recourse setting for careful consideration of background datasets when using Shapley values for feature attributions, alongside the requirement for monotonicity, with numerous synthetic examples. Moreover, we demonstrate the efficacy of CoSHAP by proposing and justifying a quantitative score for feature attributions, counterfactual-abili ty, showing that as measured by this metric, CoSHAP is superior to existing methods when evaluated on public datasets using monotone tree ensembles.
翻訳日:2021-10-28 13:12:22 公開日:2021-10-27
# MIRA:時間知識グラフにおけるマルチホップ関係予測

MIRA: Multihop Relation Prediction in Temporal Knowledge Graphs ( http://arxiv.org/abs/2110.14284v1 )

ライセンス: Link先を確認
Christian M.M. Frey, Yunpu Ma, Matthias Schubert(参考訳) 知識グラフ推論では、時間とともに進化する時間的データを分析する傾向を観察する。 追加の時間次元は知識ベースにおける事実に付随し、(Nintendo, released, Super Mario, Sep-13-1985) 二つの実体間の関係が特定の時間間隔や時間点に関連付けられている。 知識グラフ内のエンティティを接続する推論サブグラフ上のマルチホップ推論は、エージェントが探索されたサブグラフに対して逐次推論を行う強化学習タスクとして定式化することができる。 この作業のタスクは、オブジェクトとオブジェクトエンティティ、すなわち(subject, ?, object, time)の間の述語を推論することであり、あるタイムスタンプまたは時間間隔で有効である。 クエリエンティティが与えられた場合、エージェントは主題とオブジェクトの近傍に関する時間的関連情報を集め始めます。 探索されたグラフ構造に関する情報のエンコーディングは、指紋と呼ばれる。 次に、2つの指紋をQ-Networkの入力として使用する。 エージェントは、クエリエンティティのローカルサブグラフを拡張して、それらの間の有望なパスを見つけるために、どのリレーショナルタイプを探索する必要があるかをシーケンシャルに決定します。 評価の結果,提案手法は時間的知識グラフ(tKG)の最先端埋め込みアルゴリズムに適合するだけでなく,対象物と対象物間の関連構造に関する情報も得られることがわかった。

In knowledge graph reasoning, we observe a trend to analyze temporal data evolving over time. The additional temporal dimension is attached to facts in a knowledge base resulting in quadruples between entities such as (Nintendo, released, Super Mario, Sep-13-1985), where the relation between two entities is associated to a specific time interval or point in time. Multi-hop reasoning on inferred subgraphs connecting entities within a knowledge graph can be formulated as a reinforcement learning task where the agent sequentially performs inference upon the explored subgraph. The task in this work is to infer the predicate between a subject and an object entity, i.e., (subject, ?, object, time), being valid at a certain timestamp or time interval. Given query entities, our agent starts to gather temporal relevant information about the neighborhood of the subject and object. The encoding of information about the explored graph structures is referred to as fingerprints. Subsequently, we use the two fingerprints as input to a Q-Network. Our agent decides sequentially which relational type needs to be explored next expanding the local subgraphs of the query entities in order to find promising paths between them. The evaluation shows that the proposed method not only yields results being in line with state-of-the-art embedding algorithms for temporal Knowledge Graphs (tKG), but we also gain information about the relevant structures between subjects and objects.
翻訳日:2021-10-28 13:12:00 公開日:2021-10-27
# 条件共分散による意思決定における不均一性の発見

Finding Regions of Heterogeneity in Decision-Making via Expected Conditional Covariance ( http://arxiv.org/abs/2110.14508v1 )

ライセンス: Link先を確認
Justin Lim, Christina X Ji, Michael Oberst, Saul Blecker, Leora Horwitz, David Sontag(参考訳) 個人はしばしば、個人の好みや背景から、同じコンテキストに直面して異なる決定をする。 例えば、裁判官は特定の薬物関連犯罪に対して寛大さが異なる場合があり、医師は特定の種類の患者に対する治療を開始する方法の好みが異なる場合があります。 これらの例を念頭に置いて,意思決定間不一致の高いコンテキストの種類(症例の種類や患者など)を識別するアルゴリズムを提案する。 我々はこれを因果推論問題として定式化し、意思決定者の委任が決定に因果関係に大きな影響を及ぼす地域を求める。 本アルゴリズムは経験的目的を最大化することでそのような領域を見つけ,その性能を一般化する。 半合成実験では,本アルゴリズムがベースラインに対して正確に不均質な領域を回復することを示す。 最後に、我々のアルゴリズムを実世界の医療データセットに適用し、既存の臨床知識と一致する変動を回復する。

Individuals often make different decisions when faced with the same context, due to personal preferences and background. For instance, judges may vary in their leniency towards certain drug-related offenses, and doctors may vary in their preference for how to start treatment for certain types of patients. With these examples in mind, we present an algorithm for identifying types of contexts (e.g., types of cases or patients) with high inter-decision-maker disagreement. We formalize this as a causal inference problem, seeking a region where the assignment of decision-maker has a large causal effect on the decision. Our algorithm finds such a region by maximizing an empirical objective, and we give a generalization bound for its performance. In a semi-synthetic experiment, we show that our algorithm recovers the correct region of heterogeneity accurately compared to baselines. Finally, we apply our algorithm to real-world healthcare datasets, recovering variation that aligns with existing clinical knowledge.
翻訳日:2021-10-28 13:11:26 公開日:2021-10-27
# dreamerpro: プロトタイプ表現を用いたリコンストラクションフリーモデルに基づく強化学習

DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with Prototypical Representations ( http://arxiv.org/abs/2110.14565v1 )

ライセンス: Link先を確認
Fei Deng, Ingook Jang, Sungjin Ahn(参考訳) モデルベース強化学習(MBRL)のエージェントであるドリーマーは、画像観察を再構築することで世界モデルを学ぶ。 そのため、タスクの無関係な詳細を破棄し、視覚的な注意をそらすのに苦労することが多い。 この問題に対処するために、以前の研究は対照的に世界モデルを学ぶことを提案したが、パフォーマンスは注意をそらさずに劣る傾向がある。 本稿では,MBRL剤の分散に対する堅牢性を高めることを目的とする。 具体的には,コンピュータビジョンにおけるコントラストアプローチよりも正確でロバストな結果が得られるプロトタイプ表現の導入を検討する。 しかし、各画像が時間構造を捉えずに独立して扱うため、MBRLにおける時間力学学習の原型表現がいかに有用かは、いまだ解明されていない。 そこで本研究では,世界モデルの繰り返し状態からプロトタイプを学習し,過去の観測と行動から時間構造を蒸留してプロトタイプを作成することを提案する。 その結果生まれたDreamerProは、Dreamerとプロトタイプをうまく組み合わせ、DeepMind Controlスイートにおいて、標準設定と複雑なバックグラウンド障害の両方で大きなパフォーマンス向上を実現した。 コードはhttps://github.com/f deng18/dreamer-proで入手できる。

Top-performing Model-Based Reinforcement Learning (MBRL) agents, such as Dreamer, learn the world model by reconstructing the image observations. Hence, they often fail to discard task-irrelevant details and struggle to handle visual distractions. To address this issue, previous work has proposed to contrastively learn the world model, but the performance tends to be inferior in the absence of distractions. In this paper, we seek to enhance robustness to distractions for MBRL agents. Specifically, we consider incorporating prototypical representations, which have yielded more accurate and robust results than contrastive approaches in computer vision. However, it remains elusive how prototypical representations can benefit temporal dynamics learning in MBRL, since they treat each image independently without capturing temporal structures. To this end, we propose to learn the prototypes from the recurrent states of the world model, thereby distilling temporal structures from past observations and actions into the prototypes. The resulting model, DreamerPro, successfully combines Dreamer with prototypes, making large performance gains on the DeepMind Control suite both in the standard setting and when there are complex background distractions. Code available at https://github.com/f deng18/dreamer-pro .
翻訳日:2021-10-28 13:11:10 公開日:2021-10-27
# (参考訳) 認知症早期診断のための手の動き検査における手のジェスチャー検出 [全文訳有]

Hand gesture detection in the hand movement test for the early diagnosis of dementia ( http://arxiv.org/abs/2110.14461v1 )

ライセンス: CC BY 4.0
Guan Huang and Son N. Tran and Quan Bai and Jane Alty(参考訳) ハンドデータの収集は多くの認知研究、特にITのバックグラウンドを持たない高齢者にとって重要である。 例えば、交互な手の動きやジェスチャーの模倣は認知症の早期発見における正式な認知評価である。 データ収集過程において、重要なステップの1つは、参加者が正しいジェスチャーを行うために正しい指示に従うかどうかを検出することである。 一方、TASテストハンドムーブメントデータ収集プロセスでは、同様のジェスチャーを検出し、収集した画像の品質を保証することが困難である。 我々は手の動きを検知する手の動き検出装置を実装しており、被験者が正しい指示に従っているかどうかを確認できる。 本研究では,TASテストから収集した2万枚の画像を処理し,手の動きの異なるポーズを検出するために6450枚の画像にラベル付けした。 本論文には以下の3つの貢献がある。 まず,ハンドポーズ検出のために異なるネットワーク構造の性能を比較した。 次に,最先端のアートネットワークにトランスフォーマーブロックを導入し,同様のジェスチャの分類性能を高めた。 第3に,2つのデータセットを作成し,20%のぼやけた画像を含むことにより,ノイズデータによるネットワーク構造の違いがどう影響したかを検証し,ノイズデータの影響を媒介する検出精度を向上させるための新たなネットワークを提案する。

Collecting hands data is important for many cognitive studies, especially for senior participants who has no IT background. For example, alternating hand movements and imitation of gestures are formal cognitive assessment in the early detection of dementia. During data collection process, one of the key steps is to detect whether the participants is following the instruction correctly to do the correct gestures. Meanwhile, re-searchers found a lot of problems in TAS Test hand movement data collection process, where is challenging to detect similar gestures and guarantee the quality of the collect-ed images. We have implemented a hand gesture detector to detect the gestures per-formed in the hand movement tests, which enables us to monitor if the participants are following the instructions correctly. In this research, we have processed 20,000 images collected from TAS Test and labelled 6,450 images to detect different hand poses in the hand movement tests. This paper has the following three contributions. Firstly, we compared the performance of different network structures for hand poses detection. Secondly, we introduced a transformer block in the state of art network and increased the classification performance of the similar gestures. Thirdly, we have created two datasets and included 20 percent of blurred images in the dataset to investigate how different network structures were impacted by noisy data, then we proposed a novel net-work to increase the detection accuracy to mediate the influence of the noisy data.
翻訳日:2021-10-28 13:06:28 公開日:2021-10-27
# V-Learning -- マルチエージェントRLのためのシンプルで効率的な分散アルゴリズム

V-Learning -- A Simple, Efficient, Decentralized Algorithm for Multiagent RL ( http://arxiv.org/abs/2110.14555v1 )

ライセンス: Link先を確認
Chi Jin, Qinghua Liu, Yuanhao Wang, Tiancheng Yu(参考訳) マルチエージェント強化学習(marl:multiagent reinforcement learning)の最大の課題はマルチエージェントの呪いである。 これは、有限個の状態と動作を持つ基本的なシナリオであっても、効率的なMARLアルゴリズムを設計する上でボトルネックとなる。 本稿では,この課題をマルコフゲームのモデルとして解決する。 v-learningは、$\max_{i\in[m]} a_i$でしかスケールしないサンプル数において、nash平衡(2人のプレイヤーがゼロサム設定で)、相関平衡、粗相関平衡(マルチプレイヤーの一般サム設定で)を確実に学習し、ここで$a_i$は$i^{\rm th}$プレイヤーのアクション数である。 これは、$\prod_{i=1}^m A_i$である関節アクション空間のサイズと鋭く対照的である。 v-learning(基本形)は、任意の逆バンディットアルゴリズムを適切な後悔の保証でrlアルゴリズムに変換する、単一エージェントのrlアルゴリズムの新しいクラスである。 古典的なq学習アルゴリズムと同様に、値関数を漸進的に更新する。 q-learningとは異なり、q-valueではなくv-valueの見積しか保持しない。 この重要な違いにより、v-learningは、すべてのエージェントがv-learningを独立して実行することによって、marl設定で主張された保証を達成することができる。

A major challenge of multiagent reinforcement learning (MARL) is the curse of multiagents, where the size of the joint action space scales exponentially with the number of agents. This remains to be a bottleneck for designing efficient MARL algorithms even in a basic scenario with finitely many states and actions. This paper resolves this challenge for the model of episodic Markov games. We design a new class of fully decentralized algorithms -- V-learning, which provably learns Nash equilibria (in the two-player zero-sum setting), correlated equilibria and coarse correlated equilibria (in the multiplayer general-sum setting) in a number of samples that only scales with $\max_{i\in[m]} A_i$, where $A_i$ is the number of actions for the $i^{\rm th}$ player. This is in sharp contrast to the size of the joint action space which is $\prod_{i=1}^m A_i$. V-learning (in its basic form) is a new class of single-agent RL algorithms that convert any adversarial bandit algorithm with suitable regret guarantees into a RL algorithm. Similar to the classical Q-learning algorithm, it performs incremental updates to the value functions. Different from Q-learning, it only maintains the estimates of V-values instead of Q-values. This key difference allows V-learning to achieve the claimed guarantees in the MARL setting by simply letting all agents run V-learning independently.
翻訳日:2021-10-28 12:54:31 公開日:2021-10-27
# Connect-the-Dots: 単語と定義間のセマンティクスのブリッジ

Connect-the-Dots: Bridging Semantics between Words and Definitions via Aligning Word Sense Inventories ( http://arxiv.org/abs/2110.14091v1 )

ライセンス: Link先を確認
Wenlin Yao, Xiaoman Pan, Lifeng Jin, Jianshu Chen, Dian Yu, Dong Yu(参考訳) Word Sense Disambiguation (WSD) は、1つの単語の意味を文脈に応じて自動的に識別することを目的としている。 既存の教師付きモデルは、限られたトレーニングデータによってレアワードセンスの正確な予測に苦労し、事前定義されたワードセンスインベントリ(例えばwordnet)から最適な定義文のみを選択できる。 データ空間の問題に対処し、1つの事前定義された在庫から独立してモデルを一般化するために、定義文(グロス)を異なる感覚の在庫から同じ意味に整合させてリッチな語彙知識を収集できるグロスアライメントアルゴリズムを提案する。 次に、多くのwsdタスクに強い転送能力を示すこれらのアライメントによって、コンテキスト内の対象単語とその用語の1つの間の意味的等価性を識別するためにモデルを訓練します。 ベンチマークデータセットを用いた実験により,提案手法は単語の頻繁度と希少度の両方の予測を改善し,全単語WSDタスクでは1.2%,低ショットWSDタスクでは4.3%,先行処理では1.2%を上回った。 また,WiCタスクの評価により,文脈における単語の意味をよりよく把握できることを示す。

Word Sense Disambiguation (WSD) aims to automatically identify the exact meaning of one word according to its context. Existing supervised models struggle to make correct predictions on rare word senses due to limited training data and can only select the best definition sentence from one predefined word sense inventory (e.g., WordNet). To address the data sparsity problem and generalize the model to be independent of one predefined inventory, we propose a gloss alignment algorithm that can align definition sentences (glosses) with the same meaning from different sense inventories to collect rich lexical knowledge. We then train a model to identify semantic equivalence between a target word in context and one of its glosses using these aligned inventories, which exhibits strong transfer capability to many WSD tasks. Experiments on benchmark datasets show that the proposed method improves predictions on both frequent and rare word senses, outperforming prior work by 1.2% on the All-Words WSD Task and 4.3% on the Low-Shot WSD Task. Evaluation on WiC Task also indicates that our method can better capture word meanings in context.
翻訳日:2021-10-28 12:53:56 公開日:2021-10-27
# 半教師付き学習に関する国際ワークショップ:序論、ベンチマーク、ベースライン

International Workshop on Continual Semi-Supervised Learning: Introduction, Benchmarks and Baselines ( http://arxiv.org/abs/2110.14613v1 )

ライセンス: Link先を確認
Ajmal Shahbaz, Salman Khan, Mohammad Asiful Hossain, Vincenzo Lomonaco, Kevin Cannons, Zhan Xu and Fabio Cuzzolin(参考訳) 本研究の目的は,ijcai 2021 international workshop on continual semi-supervised learning (cssl-ijcai) を通じて,機械学習コミュニティの注目を集めるために提案された,新たな連続的半教師付き学習(cssl)パラダイムを定式化することである。 連続的半教師付き学習の形式的定義と適切なトレーニングおよびテストプロトコルの後に,CSSLを2つの重要なコンピュータビジョンタスク(アクティビティ認識とクラウドカウント)で評価するための2つの新しいベンチマークを導入する。 本稿では,これらのベンチマークに基づいて構築された連続的行動認識(car)と連続的群衆数(ccc)の課題について述べる。 その結果,非競合データストリームからの学習は非常に困難であることが示され,データストリームのダイナミクスを符号化する手法の探索が促進された。

The aim of this paper is to formalize a new continual semi-supervised learning (CSSL) paradigm, proposed to the attention of the machine learning community via the IJCAI 2021 International Workshop on Continual Semi-Supervised Learning (CSSL-IJCAI), with the aim of raising field awareness about this problem and mobilizing its effort in this direction. After a formal definition of continual semi-supervised learning and the appropriate training and testing protocols, the paper introduces two new benchmarks specifically designed to assess CSSL on two important computer vision tasks: activity recognition and crowd counting. We describe the Continual Activity Recognition (CAR) and Continual Crowd Counting (CCC) challenges built upon those benchmarks, the baseline models proposed for the challenges, and describe a simple CSSL baseline which consists in applying batch self-training in temporal sessions, for a limited number of rounds. The results show that learning from unlabelled data streams is extremely challenging, and stimulate the search for methods that can encode the dynamics of the data stream.
翻訳日:2021-10-28 12:53:06 公開日:2021-10-27
# 数学語問題を解くための検証器の訓練

Training Verifiers to Solve Math Word Problems ( http://arxiv.org/abs/2110.14168v1 )

ライセンス: Link先を確認
Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman(参考訳) 最先端の言語モデルは、多くのタスクで人間のパフォーマンスにマッチするが、複数のステップの数学的推論を堅牢に実行するのに苦労している。 現状のモデルの故障の診断と研究支援を目的として,8.5Kの高品質言語学的に多様な小学校数学語問題からなるデータセットGSM8Kを紹介した。 問題分散の概念的単純さにもかかわらず、最大のトランスフォーマーモデルでさえ高いテスト性能を達成できないことがわかった。 性能向上のために,モデル補完の正しさを判定するトレーニング検証器を提案する。 テスト時には、多くの候補ソリューションを生成し、検証者によって最もランクの高いものを選択する。 検証によってgsm8kの性能が大幅に向上することを示すとともに,精度の高いベースラインよりもデータ量の増加による検証が効果的であることを示す。

State-of-the-art language models can match human performance on many tasks, but they still struggle to robustly perform multi-step mathematical reasoning. To diagnose the failures of current models and support research, we introduce GSM8K, a dataset of 8.5K high quality linguistically diverse grade school math word problems. We find that even the largest transformer models fail to achieve high test performance, despite the conceptual simplicity of this problem distribution. To increase performance, we propose training verifiers to judge the correctness of model completions. At test time, we generate many candidate solutions and select the one ranked highest by the verifier. We demonstrate that verification significantly improves performance on GSM8K, and we provide strong empirical evidence that verification scales more effectively with increased data than a finetuning baseline.
翻訳日:2021-10-28 12:52:45 公開日:2021-10-27
# 模倣学習における因果混乱解消のための物体認識正規化

Object-Aware Regularization for Addressing Causal Confusion in Imitation Learning ( http://arxiv.org/abs/2110.14118v1 )

ライセンス: Link先を確認
Jongjin Park, Younggyo Seo, Chang Liu, Li Zhao, Tao Qin, Jinwoo Shin, Tie-Yan Liu(参考訳) 行動のクローニングは、専門家のデモンストレーションから逐次的な意思決定方針を学ぶのに有効であることが証明されている。 しかし、行動のクローニングはしばしば因果的混乱の問題に苦しめられ、政策は強い相関による専門家の行動の顕著な効果に依存するが、我々が望む原因ではない。 本稿では、オブジェクト認識方式で模倣ポリシーを規則化するシンプルな手法であるオブジェクト認識型レギュラリサティオン(OREO)を提案する。 我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。 この目的のために、2段階のアプローチを導入します。 (a)ベクトル量子化変分オートエンコーダから離散符号を利用して画像から意味オブジェクトを抽出し、 (b)同じ離散コードを共有するユニット、すなわち意味オブジェクトをマスキングするユニットをランダムにドロップします。 実験により,oreoはさまざまなatari環境および自律運転carla環境において,行動クローニングの性能を著しく向上し,他の様々な正規化や因果性に基づく手法を上回った。 また,本手法は,多くの環境相互作用を訓練した逆強化学習手法よりも優れることを示した。

Behavioral cloning has proven to be effective for learning sequential decision-making policies from expert demonstrations. However, behavioral cloning often suffers from the causal confusion problem where a policy relies on the noticeable effect of expert actions due to the strong correlation but not the cause we desire. This paper presents Object-aware REgularizatiOn (OREO), a simple technique that regularizes an imitation policy in an object-aware manner. Our main idea is to encourage a policy to uniformly attend to all semantic objects, in order to prevent the policy from exploiting nuisance variables strongly correlated with expert actions. To this end, we introduce a two-stage approach: (a) we extract semantic objects from images by utilizing discrete codes from a vector-quantized variational autoencoder, and (b) we randomly drop the units that share the same discrete code together, i.e., masking out semantic objects. Our experiments demonstrate that OREO significantly improves the performance of behavioral cloning, outperforming various other regularization and causality-based methods on a variety of Atari environments and a self-driving CARLA environment. We also show that our method even outperforms inverse reinforcement learning methods trained with a considerable amount of environment interaction.
翻訳日:2021-10-28 12:48:53 公開日:2021-10-27
# 深部生成モデルにおけるスパースマルチモーダル分布のエビデンシャル・ソフトマックス

Evidential Softmax for Sparse Multimodal Distributions in Deep Generative Models ( http://arxiv.org/abs/2110.14182v1 )

ライセンス: Link先を確認
Phil Chen, Masha Itkina, Ransalu Senanayake, Mykel J. Kochenderfer(参考訳) 生成モデルの多くの応用は、その高次元の出力確率分布の限界化に依存する。 スパース確率分布を得る正規化関数は、より計算的に引き出すことができる。 しかし、スパース正規化関数は通常、スパース確率分布に対して対数様式が未定義であるため、訓練のために代替損失関数を必要とする。 さらに、多くのスパース正規化函数は分布の多重モダリティを崩壊させる。 本稿では,確率分布の多様性を保存するスパース正規化関数である$\textit{ev-softmax}$を提案する。 我々はその性質を導出し、その勾配を閉じた形で導出し、完全なサポートを持ち、負のlog-likelihoodやkullback-leibler divergenceのような確率的損失関数で訓練できる$\textit{ev-softmax}$に対する近似の連続的な族を導入する。 本手法は,変分オートエンコーダや自己回帰型アーキテクチャを含む,様々な生成モデル上で評価する。 本手法は, 分布的精度において, 既存の密度およびスパース正規化手法よりも優れている。 我々は、$\textit{ev-softmax}$がマルチモダリティを維持しながら確率分布の次元性をうまく減らすことを実証する。

Many applications of generative models rely on the marginalization of their high-dimensional output probability distributions. Normalization functions that yield sparse probability distributions can make exact marginalization more computationally tractable. However, sparse normalization functions usually require alternative loss functions for training since the log-likelihood is undefined for sparse probability distributions. Furthermore, many sparse normalization functions often collapse the multimodality of distributions. In this work, we present $\textit{ev-softmax}$, a sparse normalization function that preserves the multimodality of probability distributions. We derive its properties, including its gradient in closed-form, and introduce a continuous family of approximations to $\textit{ev-softmax}$ that have full support and can be trained with probabilistic loss functions such as negative log-likelihood and Kullback-Leibler divergence. We evaluate our method on a variety of generative models, including variational autoencoders and auto-regressive architectures. Our method outperforms existing dense and sparse normalization techniques in distributional accuracy. We demonstrate that $\textit{ev-softmax}$ successfully reduces the dimensionality of probability distributions while maintaining multimodality.
翻訳日:2021-10-28 12:32:28 公開日:2021-10-27
# 先駆者の肩に立つ:知識グラフのためのメタ知識伝達

Standing on the Shoulders of Predecessors: Meta-Knowledge Transfer for Knowledge Graphs ( http://arxiv.org/abs/2110.14170v1 )

ライセンス: Link先を確認
Mingyang Chen, Wen Zhang, Yushan Zhu, Hongting Zhou, Zonggang Yuan, Changliang Xu, Huajun Chen(参考訳) 知識グラフ(KG)は広く普及しており、多くのKGアプリケーションと外部KGアプリケーションをサポートするために、様々な知識グラフが必須に構築されている。 KGs の構築中、新しい KGs は構築された KGs に関する新しい実体を含むかもしれないが、構成された KGs から新しい KGs へいくつかの実体に依存しない知識を移すことができる。 このような知識をメタ知識と呼び、構築された(ソース)KGから新しい(ターゲット)KGへのメタ知識の転送の問題を参照して、ターゲットKG上のタスクのパフォーマンスを知識グラフのメタ知識の転送として改善する。 しかし、KG内タスクと外タスクのメタ知識転送に一様に対応できる汎用フレームワークは存在しない。 そこで本稿では,知識グラフ埋め込みによるメタ知識伝達のためのメタ学習を行うためのフレームワーク MorsE を提案する。 MorsEは知識グラフ埋め込みを通じてメタ知識を表し、メタ学習によってメタ知識を学ぶ。 具体的には、MorsEはエンティティイニシャライザとグラフニューラルネットワーク(GNN)変調器を使用して、KGが与えられたエンティティ埋め込みを独立に取得し、メタラーニング設定に従ってトレーニングし、効果的に埋め込みを得る能力を得る。 KG内およびKG外両方のメタ知識伝達の実験結果から、MorsEはKG間のメタ知識を効果的に学習し、伝達することができ、既存の最先端モデルより優れていることが示された。

Knowledge graphs (KGs) have become widespread, and various knowledge graphs are constructed incessantly to support many in-KG and out-of-KG applications. During the construction of KGs, although new KGs may contain new entities with respect to constructed KGs, some entity-independent knowledge can be transferred from constructed KGs to new KGs. We call such knowledge meta-knowledge, and refer to the problem of transferring meta-knowledge from constructed (source) KGs to new (target) KGs to improve the performance of tasks on target KGs as meta-knowledge transfer for knowledge graphs. However, there is no available general framework that can tackle meta-knowledge transfer for both in-KG and out-of-KG tasks uniformly. Therefore, in this paper, we propose a framework, MorsE, which means conducting Meta-Learning for Meta-Knowledge Transfer via Knowledge Graph Embedding. MorsE represents the meta-knowledge via Knowledge Graph Embedding and learns the meta-knowledge by Meta-Learning. Specifically, MorsE uses an entity initializer and a Graph Neural Network (GNN) modulator to entity-independently obtain entity embeddings given a KG and is trained following the meta-learning setting to gain the ability of effectively obtaining embeddings. Experimental results on meta-knowledge transfer for both in-KG and out-of-KG tasks show that MorsE is able to learn and transfer meta-knowledge between KGs effectively, and outperforms existing state-of-the-art models.
翻訳日:2021-10-28 12:32:11 公開日:2021-10-27
# 厳密なスコアリングルールによる多様性強化アクティブラーニング

Diversity Enhanced Active Learning with Strictly Proper Scoring Rules ( http://arxiv.org/abs/2110.14171v1 )

ライセンス: Link先を確認
Wei Tan, Lan Du, Wray Buntine(参考訳) テキスト分類のための能動学習(AL)のための獲得関数について検討する。 期待損失削減法 (ELR) は, 不確実性の平均目標コスト (MOCU) で最近更新された分類誤差の低減に関するベイズ推定に焦点をあてる。 我々は,ERRフレームワークを,平均値スコア(BEMPS)のベイズ推定(Bayesian Estimate of Mean Proper Scores)と呼ぶ,ログ確率や負平均二乗誤差などの(厳密な)スコアの増加を推定するために変換する。 また,mocuを用いた収束結果の借用手法も証明する。 新たな獲得関数の実験をより良くするために,ラベルなしデータに対するスコア変化の予測ベクトルの多様性を奨励する相補的バッチalアルゴリズムを開発した。 高性能なテキスト分類器を実現するために,事前学習した言語モデル構築のためのエンセムリングと動的バリデーションを組み合わせる。 広範にわたる実験的評価は、これらの異なる獲得関数がどのように機能するかを探求する。 その結果,平均二乗誤差と対数確率を bemps で用いるとロバストな獲得関数が得られることがわかった。

We study acquisition functions for active learning (AL) for text classification. The Expected Loss Reduction (ELR) method focuses on a Bayesian estimate of the reduction in classification error, recently updated with Mean Objective Cost of Uncertainty (MOCU). We convert the ELR framework to estimate the increase in (strictly proper) scores like log probability or negative mean square error, which we call Bayesian Estimate of Mean Proper Scores (BEMPS). We also prove convergence results borrowing techniques used with MOCU. In order to allow better experimentation with the new acquisition functions, we develop a complementary batch AL algorithm, which encourages diversity in the vector of expected changes in scores for unlabelled data. To allow high performance text classifiers, we combine ensembling and dynamic validation set construction on pretrained language models. Extensive experimental evaluation then explores how these different acquisition functions perform. The results show that the use of mean square error and log probability with BEMPS yields robust acquisition functions, which consistently outperform the others tested.
翻訳日:2021-10-28 12:31:41 公開日:2021-10-27
# 自然言語によるマルチエージェントコミュニケーションのための動的集団ベースメタラーニング

Dynamic population-based meta-learning for multi-agent communication with natural language ( http://arxiv.org/abs/2110.14241v1 )

ライセンス: Link先を確認
Abhinav Gupta, Marc Lanctot, Angeliki Lazaridou(参考訳) 本研究の目的は、自然言語を含むマルチエージェントコミュニケーション環境において、見慣れない人間パートナーと協調できるエージェントを訓練することである。 これまでの1組のエージェントを用いた作業は、既知のパートナーに一般化する上で大きな進歩を見せている。 これを軽減するために、近年の研究は、複数のエージェントが互いに相互作用し、より汎用的なプロトコルを学ぶという、人口ベースのアプローチの利用を探求した。 これらの手法は、目に見えないパートナー同士のコーディネーションを良くするが、単純な言語の場合のみ達成できるため、自然言語を使って人間のパートナーに適応できない。 我々はこれを静的集団の利用と位置づけ、その代わりに反復的に集団を構築する動的な集団ベースのメタラーニングアプローチを提案する。 我々は,2つの異なる参照ゲームにおいて,本手法の全体的評価を行い,見知らぬパートナーや人間とのコミュニケーションにおいて,エージェントがすべての先行作業より優れていることを示す。 さらに、エージェントの自然言語生成スキルを分析し、エージェントが強力なベースラインを上回ることも分かりました。 最後に, 集団外エージェントとのコミュニケーションにおいて, エージェントのロバスト性をテストし, アブレーション研究を通じて各成分の重要性を慎重に検証した。

In this work, our goal is to train agents that can coordinate with seen, unseen as well as human partners in a multi-agent communication environment involving natural language. Previous work using a single set of agents has shown great progress in generalizing to known partners, however it struggles when coordinating with unfamiliar agents. To mitigate that, recent work explored the use of population-based approaches, where multiple agents interact with each other with the goal of learning more generic protocols. These methods, while able to result in good coordination between unseen partners, still only achieve so in cases of simple languages, thus failing to adapt to human partners using natural language. We attribute this to the use of static populations and instead propose a dynamic population-based meta-learning approach that builds such a population in an iterative manner. We perform a holistic evaluation of our method on two different referential games, and show that our agents outperform all prior work when communicating with seen partners and humans. Furthermore, we analyze the natural language generation skills of our agents, where we find that our agents also outperform strong baselines. Finally, we test the robustness of our agents when communicating with out-of-population agents and carefully test the importance of each component of our method through ablation studies.
翻訳日:2021-10-28 12:31:22 公開日:2021-10-27
# SQALER:マルチホップと論理推論を分離したスケーリング質問回答

SQALER: Scaling Question Answering by Decoupling Multi-Hop and Logical Reasoning ( http://arxiv.org/abs/2110.14266v1 )

ライセンス: Link先を確認
Mattia Atzeni, Jasmina Bogojeska, Andreas Loukas(参考訳) 知識グラフ(kgs)上の推論と質問応答に対する最先端のアプローチは、通常エッジの数でスケールし、小さなインスタンス依存のサブグラフでのみ効果的に適用できる。 本稿では,表現力を失うことなく,複数のホップとより複雑な論理的推論を別々に行うことができることを示す。 この知見に動機づけられ、グラフ内の関係型の数と線形にスケールするマルチホップ推論のアプローチを提案する。 これにより、元の問題の解を回復するために証明可能な改善が可能な候補解の集合が生成される。 知識に基づく質問応答実験は,本手法がマルチホップメタQAデータセットを解き,より挑戦的なWebQuestionsSPの新たな最先端を実現し,競争的アプローチよりも桁違いにスケーラブルであり,トレーニング分布から構成的一般化を実現することを示す。

State-of-the-art approaches to reasoning and question answering over knowledge graphs (KGs) usually scale with the number of edges and can only be applied effectively on small instance-dependent subgraphs. In this paper, we address this issue by showing that multi-hop and more complex logical reasoning can be accomplished separately without losing expressive power. Motivated by this insight, we propose an approach to multi-hop reasoning that scales linearly with the number of relation types in the graph, which is usually significantly smaller than the number of edges or nodes. This produces a set of candidate solutions that can be provably refined to recover the solution to the original problem. Our experiments on knowledge-based question answering show that our approach solves the multi-hop MetaQA dataset, achieves a new state-of-the-art on the more challenging WebQuestionsSP, is orders of magnitude more scalable than competitive approaches, and can achieve compositional generalization out of the training distribution.
翻訳日:2021-10-28 12:31:01 公開日:2021-10-27
# 背景ランダム化を用いた小型データセットからの人-ナノドメイン近接相互作用のための軽量CNNの訓練

Training Lightweight CNNs for Human-Nanodrone Proximity Interaction from Small Datasets using Background Randomization ( http://arxiv.org/abs/2110.14491v1 )

ライセンス: Link先を確認
Marco Ferri (1), Dario Mantegazza (1), Elia Cereda (1), Nicky Zimmerman (1 and 2), Luca M. Gambardella (1), Daniele Palossi (1 and 3), J\'er\^ome Guzzi (1), Alessandro Giusti (1) ((1) Dalle Molle Institute for Artificial Intelligence (IDSIA), USI-SUPSI, Lugano, Switzerland, (2) University of Bonn, (3) Integrated Systems Laboratory (IIS), ETH Z\"urich, Switzerland)(参考訳) 本研究では,近接ナノドローンが取得した画像から人間のポーズを視覚的に推定するタスクについて検討する。この文脈では,合成背景置換に基づくデータ拡張アプローチを提案し,小型実世界のトレーニングセットから軽量なcnnモデルを学ぶ。 2つの異なる研究所のデータによる実験結果は、このアプローチが未知の環境への一般化を改善することを証明している。

We consider the task of visually estimating the pose of a human from images acquired by a nearby nano-drone; in this context, we propose a data augmentation approach based on synthetic background substitution to learn a lightweight CNN model from a small real-world training set. Experimental results on data from two different labs proves that the approach improves generalization to unseen environments.
翻訳日:2021-10-28 12:30:41 公開日:2021-10-27
# 表現の生涯学習を証明できる

Provable Lifelong Learning of Representations ( http://arxiv.org/abs/2110.14098v1 )

ライセンス: Link先を確認
Xinyuan Cao, Weiyang Liu, Santosh S. Vempala(参考訳) 生涯学習では、学習すべきタスク(またはクラス)は、任意の順序で時間とともに順次到着する。 トレーニング中、以前のタスクからの知識をキャプチャして、その後のタスクに転送することで、サンプル効率を向上させることができる。 入力データの少数の未知の線形的・非線形的特徴の範囲内で、全ての目標タスクを表現できるような設定を考察する。 そこで本研究では,内部特徴表現を保守・洗練する,証明可能な生涯学習アルゴリズムを提案する。 すべてのタスクにおいて所望の正確さのために、表現の次元は基礎となる表現の次元に近いことが証明される。 その結果、サンプルの複雑さは既存の境界で大幅に改善される。 線形特徴量の設定では、アルゴリズムは有理効率であり、入力次元のサンプル複雑性は$d$, $m$タスクで、$k$ はエラーまで$\epsilon$は$\tilde{o}(dk^{1.5}/\epsilon+km/\epsilon)$である。 また,1つのタスク学習器をブラックボックスとして使用する生涯学習アルゴリズムに対して,マッチングローバウンドを証明した。 最後に,実験的な研究で解析を補完する。

In lifelong learning, the tasks (or classes) to be learned arrive sequentially over time in arbitrary order. During training, knowledge from previous tasks can be captured and transferred to subsequent ones to improve sample efficiency. We consider the setting where all target tasks can be represented in the span of a small number of unknown linear or nonlinear features of the input data. We propose a provable lifelong learning algorithm that maintains and refines the internal feature representation. We prove that for any desired accuracy on all tasks, the dimension of the representation remains close to that of the underlying representation. The resulting sample complexity improves significantly on existing bounds. In the setting of linear features, our algorithm is provably efficient and the sample complexity for input dimension $d$, $m$ tasks with $k$ features up to error $\epsilon$ is $\tilde{O}(dk^{1.5}/\epsilon+km/\epsilon)$. We also prove a matching lower bound for any lifelong learning algorithm that uses a single task learner as a black box. Finally, we complement our analysis with an empirical study.
翻訳日:2021-10-28 12:30:18 公開日:2021-10-27
# フェアとロバストトレーニングのためのサンプル選択

Sample Selection for Fair and Robust Training ( http://arxiv.org/abs/2110.14222v1 )

ライセンス: Link先を確認
Yuji Roh, Kangwook Lee, Steven Euijong Whang, Changho Suh(参考訳) 公平性と堅牢性は、一緒に対処する必要がある信頼できるAIの重要な要素である。 公平性は偏りのないモデルを学ぶことであり、堅牢性は腐敗したデータから学ぶことであり、一方だけが他方に悪影響を及ぼす可能性があることが知られている。 本研究では,公平かつロバストなトレーニングのためのサンプル選択に基づくアルゴリズムを提案する。 この目的のために,データ破損の存在下でのサンプルの偏りのない選択に対する組合せ最適化問題を定式化する。 この最適化問題の解法がnp難解であることを観察し,実際に効率的かつ効果的である欲望アルゴリズムを提案する。 実験により,本アルゴリズムは,実データセットの合成とベンチマークの両方において,最先端技術に匹敵する公平性と堅牢性が得られることを示した。 さらに、他の公正で堅牢なトレーニングベースラインとは異なり、我々のアルゴリズムは、トレーニングアルゴリズムを変更したり、追加のクリーンデータを活用することなく、バッチ選択のサンプリングステップを変更するだけで使用できる。

Fairness and robustness are critical elements of Trustworthy AI that need to be addressed together. Fairness is about learning an unbiased model while robustness is about learning from corrupted data, and it is known that addressing only one of them may have an adverse affect on the other. In this work, we propose a sample selection-based algorithm for fair and robust training. To this end, we formulate a combinatorial optimization problem for the unbiased selection of samples in the presence of data corruption. Observing that solving this optimization problem is strongly NP-hard, we propose a greedy algorithm that is efficient and effective in practice. Experiments show that our algorithm obtains fairness and robustness that are better than or comparable to the state-of-the-art technique, both on synthetic and benchmark real datasets. Moreover, unlike other fair and robust training baselines, our algorithm can be used by only modifying the sampling step in batch selection without changing the training algorithm or leveraging additional clean data.
翻訳日:2021-10-28 12:29:57 公開日:2021-10-27
# 大規模動的経済システムのためのスケーラブルな推論手法

A Scalable Inference Method For Large Dynamic Economic Systems ( http://arxiv.org/abs/2110.14346v1 )

ライセンス: Link先を確認
Pratha Khandelwal, Philip Nadler, Rossella Arcucci, William Knottenbelt, Yi-Ke Guo(参考訳) 利用可能な経済データの性質は、経済のデジタル化により、過去10年間で根本的に変化した。 ブラックボックスのデータ駆動型機械学習手法が頻繁に普及する中、econometric inferenceを実行できる解釈可能な機械学習手法の開発が必要となり、政策立案者が新しい経済データの性質を活用できるようになる。 そこで我々は,ビッグデータにスケーラブルな時間変化パラメータ自動回帰モデルを組み込む新しい変分ベイズ推論手法を提案する。 我々のモデルは、価格、個々のアクターのトランザクション、トランザクションフローの分析、価格の動きを含む大規模なブロックチェーンデータセットに適用されます。 モデルは、動的システムとしてモデル化できる任意のデータセットに拡張可能である。 我々は、機械学習アーキテクチャを用いて、フォワードモデルに非線形を導入することにより、単純な状態空間モデリングをさらに改善する。

The nature of available economic data has changed fundamentally in the last decade due to the economy's digitisation. With the prevalence of often black box data-driven machine learning methods, there is a necessity to develop interpretable machine learning methods that can conduct econometric inference, helping policymakers leverage the new nature of economic data. We therefore present a novel Variational Bayesian Inference approach to incorporate a time-varying parameter auto-regressive model which is scalable for big data. Our model is applied to a large blockchain dataset containing prices, transactions of individual actors, analyzing transactional flows and price movements on a very granular level. The model is extendable to any dataset which can be modelled as a dynamical system. We further improve the simple state-space modelling by introducing non-linearities in the forward model with the help of machine learning architectures.
翻訳日:2021-10-28 12:29:41 公開日:2021-10-27
# 因果正則推論を用いた決定変換器の伝達学習

Transfer learning with causal counterfactual reasoning in Decision Transformers ( http://arxiv.org/abs/2110.14355v1 )

ライセンス: Link先を確認
Ayman Boustati, Hana Chockler, Daniel C. McNamee(参考訳) 環境問題の変化に適応する能力は、強化学習において重要な課題である。 実際、以前に取得した知識を構造的特性のない環境に移すことは、新しい最適政策を構築する際の柔軟性と効率を大幅に向上させることができる。 本研究では,環境力学の変化による伝達学習の課題について考察する。 本研究では,オフライン強化学習環境における因果推論を適用し,学習方針を新しい環境に伝達する。 具体的には、Decision Transformer (DT) アーキテクチャを使用して、新しい環境に対する新しいポリシーを精査する。 DTは、ソース環境から事実と反事実のシミュレーションをポリシーロールアウトすることで収集されたデータに基づいて訓練される。 このメカニズムは,報奨のほとんどを維持しつつ,目標環境に対するポリシーのブートストラップを成功させることができることを示す。

The ability to adapt to changes in environmental contingencies is an important challenge in reinforcement learning. Indeed, transferring previously acquired knowledge to environments with unseen structural properties can greatly enhance the flexibility and efficiency by which novel optimal policies may be constructed. In this work, we study the problem of transfer learning under changes in the environment dynamics. In this study, we apply causal reasoning in the offline reinforcement learning setting to transfer a learned policy to new environments. Specifically, we use the Decision Transformer (DT) architecture to distill a new policy on the new environment. The DT is trained on data collected by performing policy rollouts on factual and counterfactual simulations from the source environment. We show that this mechanism can bootstrap a successful policy on the target environment while retaining most of the reward.
翻訳日:2021-10-28 12:29:30 公開日:2021-10-27
# Splinesを用いたスケーラブルベイズネットワーク構造学習

Scalable Bayesian Network Structure Learning with Splines ( http://arxiv.org/abs/2110.14626v1 )

ライセンス: Link先を確認
Charupriya Sharma, Peter van Beek(参考訳) ベイズネットワーク(BN)は、有向非巡回グラフ(DAG)からなる確率的グラフィカルモデルであり、各ノードはその親の関数として表されるランダム変数である。 本稿では,BNのグローバルDAG構造を学習し,変数間の線形および非線形な局所関係をモデル化する新しい手法を提案する。 本研究では,局所関係の探索空間を縮小する特徴選択と,多変量適応回帰スプライン (MARS) として変数間の関係のモデル化を支援するためのスコア・アンド・サーチ・アプローチの拡張によって実現した。 これは、単一の多項式回帰モデルがもたらす過度に適合するリスクを伴わずに、非線形関係をモデル化することができる。 この組み合わせにより、すべてのbnlearnベンチマークインスタンスで、数分で関係を学習でき、1000以上のノードのネットワークにスケールできます。

A Bayesian Network (BN) is a probabilistic graphical model consisting of a directed acyclic graph (DAG), where each node is a random variable represented as a function of its parents. We present a novel approach capable of learning the global DAG structure of a BN and modelling linear and non-linear local relationships between variables. We achieve this by a combination of feature selection to reduce the search space for local relationships, and extending the widely used score-and-search approach to support modelling relationships between variables as Multivariate Adaptive Regression Splines (MARS). MARS are polynomial regression models represented as piecewise spline functions - this lets us model non-linear relationships without the risk of overfitting that a single polynomial regression model would bring. The combination allows us to learn relationships in all bnlearn benchmark instances within minutes and enables us to scale to networks of over a thousand nodes
翻訳日:2021-10-28 12:29:18 公開日:2021-10-27
# GenURL: 教師なし表現学習のための一般的なフレームワーク

GenURL: A General Framework for Unsupervised Representation Learning ( http://arxiv.org/abs/2110.14553v1 )

ライセンス: Link先を確認
Siyuan Li, Zelin Zang, Di Wu, Zhiyuan Chen, Stan Z. Li(参考訳) 近年,教師なし表現学習(URL)は様々なシナリオにおいて顕著な進歩を遂げている。 しかし、ほとんどのメソッドは特定のデータ文字やタスクの仮定に基づいて特別に設計されている。 多様体の仮定に基づいて、ほとんどのURL問題を、与えられた高次元データの最適低次元表現を求める埋め込み問題とみなす。 データ構造モデリングと低次元埋め込みという2つのステップに分割し、GenURLと呼ばれる一般的な類似性に基づくフレームワークを提案する。 具体的には、特徴空間と予め定義されたグラフのグラフ距離を適応的に組み合わせてデータ構造をモデル化し、低次元埋め込みを学習するためのロバストな損失関数を提案する。 特定のプリテキストタスクと組み合わせることで、genurlを様々なurlタスクに統一的に適応させ、自己教師付きビジュアル表現学習、教師なし知識蒸留、グラフ埋め込み、次元縮小など、最先端のパフォーマンスを実現することができる。 さらに、GenURLにおける損失関数と基本パラメータ設定のアブレーション研究は、様々なタスクのデータキャラクタを示している。

Recently unsupervised representation learning (URL) has achieved remarkable progress in various scenarios. However, most methods are specifically designed based on specific data characters or task assumptions. Based on the manifold assumption, we regard most URL problems as an embedding problem that seeks an optimal low-dimensional representation of the given high-dimensional data. We split the embedding process into two steps, data structural modeling and low-dimensional embedding, and propose a general similarity-based framework called GenURL. Specifically, we provide a general method to model data structures by adaptively combining graph distances on the feature space and predefined graphs, then propose robust loss functions to learn the low-dimensional embedding. Combining with a specific pretext task, we can adapt GenURL to various URL tasks in a unified manner and achieve state-of-the-art performance, including self-supervised visual representation learning, unsupervised knowledge distillation, graph embeddings, and dimension reduction. Moreover, ablation studies of loss functions and basic hyper-parameter settings in GenURL illustrate the data characters of various tasks.
翻訳日:2021-10-28 12:29:01 公開日:2021-10-27
# ロバストなバイシミュレーションメトリック学習に向けて

Towards Robust Bisimulation Metric Learning ( http://arxiv.org/abs/2110.14096v1 )

ライセンス: Link先を確認
Mete Kemertas, Tristan Aumentado-Armstrong(参考訳) 深層強化学習(drl)における学習表現は、複雑な観察からタスク関連情報を抽出し、邪魔に対する堅牢性とポリシーへの情報提供のバランスをとる必要がある。 このような安定でリッチな表現は、現代の関数近似技術を通じてしばしば学べるが、高次元連続状態-作用空間においても、ポリシー改善定理を実践的に応用することができる。 バイシミュレーションメトリクスは、関数的に類似した状態を表現空間にまとめることで、この表現学習問題に対する一つの解決策を提供する。 本研究では,非最適政策と近似環境力学に準じて,オンラインビシミュレーション指標の値関数近似境界を一般化する。 我々の理論的結果は, 実用化にともなう埋め込み病理の同定に有効である。 特に,これらの問題は,あまり報酬が得られない環境において,非拘束力学モデルと埋め込みノルムが報酬信号に不安定に依存していることに起因している。 さらに,実践的な治療法のセットを提案する。 (i)表現空間上の規範制約、及び (ii)本質的な報酬と潜在空間正規化を伴う先行アプローチの拡張。 最後に,提案手法は報酬関数を分散させるのに頑健なだけでなく,従来の手法が失敗するような観察的注意をそそる連続制御タスクも解決できることを示す。

Learned representations in deep reinforcement learning (DRL) have to extract task-relevant information from complex observations, balancing between robustness to distraction and informativeness to the policy. Such stable and rich representations, often learned via modern function approximation techniques, can enable practical application of the policy improvement theorem, even in high-dimensional continuous state-action spaces. Bisimulation metrics offer one solution to this representation learning problem, by collapsing functionally similar states together in representation space, which promotes invariance to noise and distractors. In this work, we generalize value function approximation bounds for on-policy bisimulation metrics to non-optimal policies and approximate environment dynamics. Our theoretical results help us identify embedding pathologies that may occur in practical use. In particular, we find that these issues stem from an underconstrained dynamics model and an unstable dependence of the embedding norm on the reward signal in environments with sparse rewards. Further, we propose a set of practical remedies: (i) a norm constraint on the representation space, and (ii) an extension of prior approaches with intrinsic rewards and latent space regularization. Finally, we provide evidence that the resulting method is not only more robust to sparse reward functions, but also able to solve challenging continuous control tasks with observational distractions, where prior methods fail.
翻訳日:2021-10-28 12:28:45 公開日:2021-10-27
# ラベル合成による反復指導

Iterative Teaching by Label Synthesis ( http://arxiv.org/abs/2110.14432v1 )

ライセンス: Link先を確認
Weiyang Liu, Zhen Liu, Hanchen Wang, Liam Paull, Bernhard Sch\"olkopf, Adrian Weller(参考訳) 本稿では,教師が現在の反復学習者に基づいて事例を逐次提示する反復型機械教育の課題について考察する。 各イテレーションでプール全体をスキャンし、そこから指導例を選択する従来の方法とは対照的に、教師が入力した指導例(画像など)をランダムに選択し、適切な出力(ラベルなど)を合成するラベル合成指導フレームワークを提案する。 このフレームワークは、指数的な授業性を確保しつつ、コストのかかるサンプル選択を回避できることを示す。 本フレームワークでは,複数の新しい学習アルゴリズムを提案する。 最後に、我々のフレームワークの価値を実証的に示す。

In this paper, we consider the problem of iterative machine teaching, where a teacher provides examples sequentially based on the current iterative learner. In contrast to previous methods that have to scan over the entire pool and select teaching examples from it in each iteration, we propose a label synthesis teaching framework where the teacher randomly selects input teaching examples (e.g., images) and then synthesizes suitable outputs (e.g., labels) for them. We show that this framework can avoid costly example selection while still provably achieving exponential teachability. We propose multiple novel teaching algorithms in this framework. Finally, we empirically demonstrate the value of our framework.
翻訳日:2021-10-28 12:28:25 公開日:2021-10-27
# TMBuD:都市景観建物検出のためのデータセット

TMBuD: A dataset for urban scene building detection ( http://arxiv.org/abs/2110.14590v1 )

ライセンス: Link先を確認
Orhei Ciprian, Vert Silviu, Mocofan Muguras, Vasiu Radu(参考訳) 都市シナリオにおける人造構造物の認識と3次元再構築は,画像処理分野で興味深い話題となっている。 この研究テーマでは、コンピュータビジョンと拡張現実領域が交差し、様々なトピックの都市のシナリオをよりよく理解する。 本稿では,都市環境における人造構造物の画像処理に適したデータセットソリューションTMBuDを提案する。 提案するデータセットは,建物の街並み視点に着目した画像の高度エッジとセマンティックセグメンテーションの適切な評価を可能にする。 私たちのデータセットを構成する画像は、複雑なアルゴリズムを評価することができる都市シナリオから、さまざまなストリートビュービューを提供する。 このデータセットにはルーマニアのティモソアラにある160の建物の画像が含まれており、解像度は768 x 1024ピクセルである。

Building recognition and 3D reconstruction of human made structures in urban scenarios has become an interesting and actual topic in the image processing domain. For this research topic the Computer Vision and Augmented Reality areas intersect for creating a better understanding of the urban scenario for various topics. In this paper we aim to introduce a dataset solution, the TMBuD, that is better fitted for image processing on human made structures for urban scene scenarios. The proposed dataset will allow proper evaluation of salient edges and semantic segmentation of images focusing on the street view perspective of buildings. The images that form our dataset offer various street view perspectives of buildings from urban scenarios, which allows for evaluating complex algorithms. The dataset features 160 images of buildings from Timisoara, Romania, with a resolution of 768 x 1024 pixels each.
翻訳日:2021-10-28 12:28:15 公開日:2021-10-27
# beyond classification:マルチオブジェクトインプレッションを用いた知識蒸留

Beyond Classification: Knowledge Distillation using Multi-Object Impressions ( http://arxiv.org/abs/2110.14215v1 )

ライセンス: Link先を確認
Gaurav Kumar Nayak, Monish Keswani, Sharan Seshadri, Anirban Chakraborty(参考訳) 知識蒸留(kd)は、訓練データを複雑なネットワーク(教師)からより小さなネットワーク(学生)へ知識を転送するための転送セットとして利用する。 いくつかの研究は、データプライバシや感度に関する懸念のためにトレーニングデータが利用できない多くのシナリオを特定し、分類タスクのこの制限された制約の下でソリューションを提案している。 既存の研究とは違って、我々は「トレーニングデータとその統計に関する知識がゼロのオブジェクト検出のためのKD」という、はるかに難しい問題を初めて解決した。 提案手法では,事前学習されたrcnn教師ネットワークのみを用いて,疑似ターゲットを作成し,対応するサンプル(マルチオブジェクトインプレッション)を合成する。 この擬似データセットを転送セットとして使用し,オブジェクト検出のためのゼロショットkdを行う。 提案手法の有効性を,KITTI,Pascal,COCOなどのベンチマークデータセットを用いて検証し,実験を行った。 トレーニングサンプルを伴わない手法では,64.2%,55.5%の留学生に対して,KITTIで73.3%mAPのResnet-18教師から蒸留を行った。

Knowledge Distillation (KD) utilizes training data as a transfer set to transfer knowledge from a complex network (Teacher) to a smaller network (Student). Several works have recently identified many scenarios where the training data may not be available due to data privacy or sensitivity concerns and have proposed solutions under this restrictive constraint for the classification task. Unlike existing works, we, for the first time, solve a much more challenging problem, i.e., "KD for object detection with zero knowledge about the training data and its statistics". Our proposed approach prepares pseudo-targets and synthesizes corresponding samples (termed as "Multi-Object Impressions"), using only the pretrained Faster RCNN Teacher network. We use this pseudo-dataset as a transfer set to conduct zero-shot KD for object detection. We demonstrate the efficacy of our proposed method through several ablations and extensive experiments on benchmark datasets like KITTI, Pascal and COCO. Our approach with no training samples, achieves a respectable mAP of 64.2% and 55.5% on the student with same and half capacity while performing distillation from a Resnet-18 Teacher of 73.3% mAP on KITTI.
翻訳日:2021-10-28 12:28:05 公開日:2021-10-27
# (参考訳) 米国郡における移動度とcovid-19症例率の推移 : 継続的な暴露を伴う因果的推論のための修正された治療方針の実証

Evaluating shifts in mobility and COVID-19 case rates in U.S. counties: A demonstration of modified treatment policies for causal inference with continuous exposures ( http://arxiv.org/abs/2110.12529v2 )

ライセンス: CC BY 4.0
Joshua R. Nugent, Laura B. Balzer(参考訳) これまでの研究では、移動データと新型コロナウイルスのケースレートの関連について、さまざまな証拠が示されており、その分析は、行動と健康の両方に影響を及ぼす要因の違いによって複雑である。 我々は、2020年6月1日からの新型コロナウイルスの感染者数増加に対する移動度分布の変化による郡レベルの影響を評価することを目的とした。 治療方針修正 (modified treatment policy, mtp) アプローチを応用し, 被曝を観察値から切り離すことの影響を考察した。 MTPアプローチはパラメトリックモデリングの仮定を最小化しながら、連続露光の効果の研究を容易にする。 10のモビリティ指標が選択され、covid-19のケースレートに影響されると思われる行動のいくつかの側面を捉えられた。 この結果は、各移動手段の2週間前の10万人あたりの新規感染者数と定義された。 一次分析では、機械学習アルゴリズムのスーパーラーナーアンサンブルを用いた最小損失ベース推定(TMLE)を対象とし、20人以上の共同設立者が郡の最近のケースレートと社会、経済、健康、人口統計の変数をキャプチャした。 また,非調整分析も実施した。 ほとんどの週において、調整されていない分析は、モビリティ指標とケースレートのその後の成長の強い関係を示唆した。 しかし、共同設立調整後、いずれの指標もモビリティを低下させるために仮説シフト後の一貫した関連を示さなかった。 識別可能性に関する懸念は、この分析において因果的主張を行う能力を制限するが、MPPは連続曝露の効果を研究するための強力で未利用のツールである。

Previous research has shown mixed evidence on the associations between mobility data and COVID-19 case rates, analysis of which is complicated by differences between places on factors influencing both behavior and health outcomes. We aimed to evaluate the county-level impact of shifting the distribution of mobility on the growth in COVID-19 case rates from June 1 - November 14, 2020. We utilized a modified treatment policy (MTP) approach, which considers the impact of shifting an exposure away from its observed value. The MTP approach facilitates studying the effects of continuous exposures while minimizing parametric modeling assumptions. Ten mobility indices were selected to capture several aspects of behavior expected to influence and be influenced by COVID-19 case rates. The outcome was defined as the number of new cases per 100,000 residents two weeks ahead of each mobility measure. Primary analyses used targeted minimum loss-based estimation (TMLE) with a Super Learner ensemble of machine learning algorithms, considering over 20 potential confounders capturing counties' recent case rates as well as social, economic, health, and demographic variables. For comparison, we also implemented unadjusted analyses. For most weeks considered, unadjusted analyses suggested strong associations between mobility indices and subsequent growth in case rates. However, after confounder adjustment, none of the indices showed consistent associations after hypothetical shifts to reduce mobility. While identifiability concerns limit our ability to make causal claims in this analysis, MTPs are a powerful and underutilized tool for studying the effects of continuous exposures.
翻訳日:2021-10-28 12:12:53 公開日:2021-10-27
# (参考訳) パーソナリティ自動認識のための視聴覚行動からの認知過程の学習グラフ表現

Learning Graph Representation of Person-specific Cognitive Processes from Audio-visual Behaviours for Automatic Personality Recognition ( http://arxiv.org/abs/2110.13570v2 )

ライセンス: CC0 1.0
Siyang Song, Zilong Shao, Shashank Jaiswal, Linlin Shen, Michel Valstar and Hatice Gunes(参考訳) このアプローチは認知科学における2つの発見に基づいている。 一 人間の認知が表現行動の一部を部分的に決定し、真人格の特徴に直接関連していること。 (ii) 対話行動における個人の非言語行動は会話相手の行動に影響される。 この文脈では、ディヤド相互作用の間、対象者の顔面反応は、その内的(人固有の)認知過程と、会話相手の外部化された非言語的行動という2つの主要な要因によって駆動されると仮定する。 そこで本研究では,対話相手(話者)が提示する聴覚的非言語的手がかりを入力とし,対象者の表情反応を再現可能な,ユニークなアーキテクチャパラメータと深さを有する人固有のcnnアーキテクチャを用いて対象対象者(聞き手として定義)の個人別認知を表現することを提案する。 それぞれの人物固有のCNNは、ニューラルネットワーク探索(NAS)と新しい適応損失関数によって探索され、対象者の真の性格を認識するグラフ表現として表現される。 実験の結果, 生成したグラフ表現は, 人間と機械の対話シナリオにおいて対象者の性格特性とよく関連し, 既存のアプローチを著しく上回るだけでなく, 適応損失やエンド・ツー・エンドの頂点・エッジ特徴学習といった新しい手法が, より信頼性の高いパーソナリティ表現を学ぶ上で有効であることが示された。

This approach builds on two following findings in cognitive science: (i) human cognition partially determines expressed behaviour and is directly linked to true personality traits; and (ii) in dyadic interactions individuals' nonverbal behaviours are influenced by their conversational partner behaviours. In this context, we hypothesise that during a dyadic interaction, a target subject's facial reactions are driven by two main factors, i.e. their internal (person-specific) cognitive process, and the externalised nonverbal behaviours of their conversational partner. Consequently, we propose to represent the target subjects (defined as the listener) person-specific cognition in the form of a person-specific CNN architecture that has unique architectural parameters and depth, which takes audio-visual non-verbal cues displayed by the conversational partner (defined as the speaker) as input, and is able to reproduce the target subject's facial reactions. Each person-specific CNN is explored by the Neural Architecture Search (NAS) and a novel adaptive loss function, which is then represented as a graph representation for recognising the target subject's true personality. Experimental results not only show that the produced graph representations are well associated with target subjects' personality traits in both human-human and human-machine interaction scenarios, and outperform the existing approaches with significant advantages, but also demonstrate that the proposed novel strategies such as adaptive loss, and the end-to-end vertices/edges feature learning, help the proposed approach in learning more reliable personality representations.
翻訳日:2021-10-28 10:46:18 公開日:2021-10-27
# 畳み込みニューラルネットワークを用いた胸部x線像の肺厚さと肺容量の推定

Per-Pixel Lung Thickness and Lung Capacity Estimation on Chest X-Rays using Convolutional Neural Networks ( http://arxiv.org/abs/2110.12509v2 )

ライセンス: Link先を確認
Manuel Schultheiss, Philipp Schmette, Thorsten Sellerer, Rafael Schick, Kirsten Taphorn, Korbinian Mechlem, Lorenz Birnbacher, Bernhard Renger, Marcus R. Makowski, Franz Pfeiffer, Daniela Pfeiffer(参考訳) X線画像上での肺深度の推定は、臨床経過中の正確な肺体積推定と、X線暗視野画像のような現代的な構造的胸部イメージング技術における画像コントラストの改善の両方をもたらす可能性がある。 本稿では,ピクセル単位の肺厚推定とそれに続く肺容量推定を可能にする畳み込みニューラルネットワークに基づく手法を提案する。 ネットワークは525個の実CTスキャンから生成された5250個のシミュレートされたラジオグラフを用いて訓練され、検証された。 さらに,実画像上でシミュレーションデータを用いて訓練したモデルを推定することができる。 35例について, 標準臨床X線写真を用いて定量的, 質的評価を行った。 各患者の肺全容積の基底は,各患者の対応するctスキャンに基づいて定義した。 35実検体における肺容積推定値と地中容積の平均誤差は0.73リットルであった。 さらに,平均絶対誤差0.27リットルの131ラジオグラフの合成データを用いて肺の厚さを予測した。 その結果,シミュレーションモデルで得られた知識を実X線画像に転送することが可能であることが示唆された。

Estimating the lung depth on x-ray images could provide both an accurate opportunistic lung volume estimation during clinical routine and improve image contrast in modern structural chest imaging techniques like x-ray dark-field imaging. We present a method based on a convolutional neural network that allows a per-pixel lung thickness estimation and subsequent total lung capacity estimation. The network was trained and validated using 5250 simulated radiographs generated from 525 real CT scans. Furthermore, we are able to infer the model trained with simulation data on real radiographs. For 35 patients, quantitative and qualitative evaluation was performed on standard clinical radiographs. The ground-truth for each patient's total lung volume was defined based on the patients' corresponding CT scan. The mean-absolute error between the estimated lung volume on the 35 real radiographs and groundtruth volume was 0.73 liter. Additionally, we predicted the lung thicknesses on a synthetic dataset of 131 radiographs, where the mean-absolute error was 0.27 liter. The results show, that it is possible to transfer the knowledge obtained in a simulation model to real x-ray images.
翻訳日:2021-10-28 10:43:09 公開日:2021-10-27
# 階層型強化学習におけるランドマーク誘導サブゴアル生成

Landmark-Guided Subgoal Generation in Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2110.13625v2 )

ライセンス: Link先を確認
Junsu Kim, Younggyo Seo, Jinwoo Shin(参考訳) 目標条件付き階層強化学習(hrl)は,複雑かつ長期のrlタスクを解決するための有望な結果を示している。 しかし、目標条件付きHRLにおける高レベル政策の行動空間は、しばしば大きいため、探索が不十分になり、訓練の効率が低下する。 本稿では,ランドマーク(higl)に導かれる階層的強化学習について述べる。ランドマークに導かれるアクション空間を縮小したハイレベルなポリシーを学習するための新しい枠組みである。 HIGLのキーコンポーネントは2つです。 (a)調査や調査に有用なランドマークを採集すること (b)選択されたランドマークに向かってサブゴールを生成するよう高水準の政策を奨励する。 のために a) 訪問状態空間全体(すなわち状態の分散)のカバレッジと状態の新規性(すなわち状態の予測誤差)の2つの基準を考慮する。 のために b) ノードがランドマークであるグラフにおいて,最短経路における最初のランドマークとしてランドマークを選択する。 私たちの実験では、ランドマークによる効率的な探索によって、フレームワークがさまざまなコントロールタスクで先行技術を上回ることが示されています。

Goal-conditioned hierarchical reinforcement learning (HRL) has shown promising results for solving complex and long-horizon RL tasks. However, the action space of high-level policy in the goal-conditioned HRL is often large, so it results in poor exploration, leading to inefficiency in training. In this paper, we present HIerarchical reinforcement learning Guided by Landmarks (HIGL), a novel framework for training a high-level policy with a reduced action space guided by landmarks, i.e., promising states to explore. The key component of HIGL is twofold: (a) sampling landmarks that are informative for exploration and (b) encouraging the high-level policy to generate a subgoal towards a selected landmark. For (a), we consider two criteria: coverage of the entire visited state space (i.e., dispersion of states) and novelty of states (i.e., prediction error of a state). For (b), we select a landmark as the very first landmark in the shortest path in a graph whose nodes are landmarks. Our experiments demonstrate that our framework outperforms prior-arts across a variety of control tasks, thanks to efficient exploration guided by landmarks.
翻訳日:2021-10-28 10:42:50 公開日:2021-10-27