このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220214となっている論文です。

PDF登録状況(公開日: 20220214)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 畳み込みニューラルネットワークを用いた能動目標時間投影室のディジタル信号解析 [全文訳有]

Digital Signal Analysis based on Convolutional Neural Networks for Active Target Time Projection Chambers ( http://arxiv.org/abs/2202.12941v1 )

ライセンス: CC BY 4.0
G.F. Fortino, J.C. Zamora, L.E. Tamayose, N.S.T. Hirata and V. Guimaraes(参考訳) 本研究では,畳み込みニューラルネットワーク(CNN)を用いたディジタル信号解析アルゴリズムを開発した。 このアルゴリズムの主な目的は、アクティブな目標時間投影室を用いた実験をより効率的に解析することである。 コードは、ベースライン修正、信号のデコンボリューション、ピーク検出と統合の3つのステップに分けられる。 CNNは、相対誤差が6\%未満の信号処理モデルを学習することができた。 cnnsに基づく解析は、従来のデコンボリューションアルゴリズムと同じ結果を提供するが、計算時間(約65倍高速)の点ではかなり効率的である。 これにより、既存のコードを改善し、アクティブなターゲット実験で生成された大量のデータ分析を簡単にする新しい可能性を開くことができる。

An algorithm for digital signal analysis using convolutional neural networks (CNN) was developed in this work. The main objective of this algorithm is to make the analysis of experiments with active target time projection chambers more efficient. The code is divided in three steps: baseline correction, signal deconvolution and peak detection and integration. The CNNs were able to learn the signal processing models with relative errors of less than 6\%. The analysis based on CNNs provides the same results as the traditional deconvolution algorithms, but considerably more efficient in terms of computing time (about 65 times faster). This opens up new possibilities to improve existing codes and to simplify the analysis of the large amount of data produced in active target experiments.
翻訳日:2022-03-06 14:34:11 公開日:2022-02-14
# 2021 BEETLコンペティション:主観的独立と異種脳波データセットのためのトランスファー学習の促進

2021 BEETL Competition: Advancing Transfer Learning for Subject Independence & Heterogenous EEG Data Sets ( http://arxiv.org/abs/2202.12950v1 )

ライセンス: Link先を確認
Xiaoxi Wei, A. Aldo Faisal, Moritz Grosse-Wentrup, Alexandre Gramfort, Sylvain Chevallier, Vinay Jayaram, Camille Jeunet, Stylianos Bakas, Siegfried Ludwig, Konstantinos Barmpas, Mehdi Bahri, Yannis Panagakis, Nikolaos Laskaris, Dimitrios A. Adamos, Stefanos Zafeiriou, William C. Duong, Stephen M. Gordon, Vernon J. Lawhern, Maciej \'Sliwowski, Vincent Rouanne, Piotr Tempczyk(参考訳) トランスファーラーニングとメタラーニングは、バイオシグナルデータによって駆動される医療と消費者テクノロジーのスケーラビリティを解き放つ、最も有望な手段を提供する。 これは、現在の手法では、被験者のデータ全体にわたってうまく一般化できず、異なる異種収集データセットからの学習を処理できないため、トレーニングデータの規模が制限されるためである。 一方、トランスファーラーニングの開発は、即時に実用的なアプリケーションを備えた現実世界のベンチマークから著しく恩恵を受けるでしょう。 そこで我々は,生体信号機械学習の難しさの例として,脳波(EEG)を例に挙げた。 我々は、低信号対雑音比、被験者間の大きなばらつき、データ記録セッションとテクニックの違い、データセットに記録された特定のBCIタスクの間でも解決しなければならない、診断とBCI(Brain-Computer-I nterface)に関する2つの伝達学習課題を設計する。 タスク1は、医療診断の分野に集中し、被験者間の自動睡眠ステージアノテーションに対処する。 タスク2はbci(brain-computer interface)を中心に、被験者とデータセットをまたいでデコードするモータイメージに対処する。 BEETLは30以上の競合するチームと、その3つの優勝チームとの競争により、ディープラーニングとセット理論と従来の機械学習技術の組み合わせが課題を克服する可能性に注意を向けられた。 結果は、実世界のBEETLベンチマークの最先端を新たに設定した。

Transfer learning and meta-learning offer some of the most promising avenues to unlock the scalability of healthcare and consumer technologies driven by biosignal data. This is because current methods cannot generalise well across human subjects' data and handle learning from different heterogeneously collected data sets, thus limiting the scale of training data. On the other side, developments in transfer learning would benefit significantly from a real-world benchmark with immediate practical application. Therefore, we pick electroencephalograp hy (EEG) as an exemplar for what makes biosignal machine learning hard. We design two transfer learning challenges around diagnostics and Brain-Computer-Inter facing (BCI), that have to be solved in the face of low signal-to-noise ratios, major variability among subjects, differences in the data recording sessions and techniques, and even between the specific BCI tasks recorded in the dataset. Task 1 is centred on the field of medical diagnostics, addressing automatic sleep stage annotation across subjects. Task 2 is centred on Brain-Computer Interfacing (BCI), addressing motor imagery decoding across both subjects and data sets. The BEETL competition with its over 30 competing teams and its 3 winning entries brought attention to the potential of deep transfer learning and combinations of set theory and conventional machine learning techniques to overcome the challenges. The results set a new state-of-the-art for the real-world BEETL benchmark.
翻訳日:2022-03-06 13:11:57 公開日:2022-02-14
# (参考訳) 株式埋め込み:金融資産の分散表現を学ぶ [全文訳有]

Stock Embeddings: Learning Distributed Representations for Financial Assets ( http://arxiv.org/abs/2202.08968v1 )

ライセンス: CC BY 4.0
Rian Dolphin, Barry Smyth, Ruihai Dong(参考訳) 金融資産の価格変動と有意義な関係を明らかにすることは、さまざまな金融アプリケーションにおいて難しいが重要な問題である。 しかし、最近の研究、特に機械学習やディープラーニング技術が価格予測に重点を置いているため、資産相関のモデル化を調査する文献は幾分遅れている。 そこで本研究では,近年の自然言語処理の成功に触発されて,歴史的リターンデータのダイナミクスを活用して,財務資産間に存在する微妙な関係を学習する,ストック埋め込みのトレーニングモデルを提案する。 私たちはこのアプローチを詳細に説明し、金融領域で使用できるいくつかの方法について論じます。 さらに,本手法の有用性を示すために,実世界の2つの金融分析タスクにおいて,いくつかの重要なベンチマークと比較し,評価結果を示す。

Identifying meaningful relationships between the price movements of financial assets is a challenging but important problem in a variety of financial applications. However with recent research, particularly those using machine learning and deep learning techniques, focused mostly on price forecasting, the literature investigating the modelling of asset correlations has lagged somewhat. To address this, inspired by recent successes in natural language processing, we propose a neural model for training stock embeddings, which harnesses the dynamics of historical returns data in order to learn the nuanced relationships that exist between financial assets. We describe our approach in detail and discuss a number of ways that it can be used in the financial domain. Furthermore, we present the evaluation results to demonstrate the utility of this approach, compared to several important benchmarks, in two real-world financial analytics tasks.
翻訳日:2022-02-27 21:21:22 公開日:2022-02-14
# (参考訳) 深部運動プリミティブ : 乳癌検査ロボットを目指して [全文訳有]

Deep Movement Primitives: toward Breast Cancer Examination Robot ( http://arxiv.org/abs/2202.09265v1 )

ライセンス: CC BY 4.0
Oluwatoyin Sanni, Giorgio Bonvicini, Muhammad Arshad Khan, Pablo C. Lopez-Custodio, Kiyanoush Nazari, Amir M. Ghalamzan E.(参考訳) 乳がんは世界中で最も多い種類のがんである。 自律的な乳房触診を行うロボットシステムは、世界中の関連医療セクターに大きな影響を与える可能性がある。 しかし,胸部触診のためのロボットプログラミングは非常に複雑で未解決である。 デモ(lfd)からのロボット学習は、プログラミング時間とコストを削減する。 しかし、利用可能なLfDは、視覚感覚情報の明示的な機能として操作経路/軌道のモデル化を欠いている。 本稿では,乳房ファントムに到達し触診を行うマニピュレータの動作をうまく生成するディープムーブメントプリミティブと呼ばれる経路・軌道計画の操作法を提案する。 本研究は,乳房ファントムに手を伸ばして触診する実ロボット実験によるアプローチの有効性を示す。 実験の結果,本手法は最先端手法よりも優れていた。

Breast cancer is the most common type of cancer worldwide. A robotic system performing autonomous breast palpation can make a significant impact on the related health sector worldwide. However, robot programming for breast palpating with different geometries is very complex and unsolved. Robot learning from demonstrations (LfD) reduces the programming time and cost. However, the available LfD are lacking the modelling of the manipulation path/trajectory as an explicit function of the visual sensory information. This paper presents a novel approach to manipulation path/trajectory planning called deep Movement Primitives that successfully generates the movements of a manipulator to reach a breast phantom and perform the palpation. We show the effectiveness of our approach by a series of real-robot experiments of reaching and palpating a breast phantom. The experimental results indicate our approach outperforms the state-of-the-art method.
翻訳日:2022-02-27 21:06:59 公開日:2022-02-14
# 大規模レコメンデーションのためのニューラル類似度尺度に基づく近似近傍探索

Approximate Nearest Neighbor Search under Neural Similarity Metric for Large-Scale Recommendation ( http://arxiv.org/abs/2202.10226v1 )

ライセンス: Link先を確認
Rihan Chen, Bin Liu, Han Zhu, Yaoxuan Wang, Qi Li, Buting Ma, Qingbo Hua, Jun Jiang, Yunlong Xu, Hongbo Deng, Bo Zheng(参考訳) レコメンダシステムのためのモデルベース手法は長年にわたって広く研究されてきた。 近代的なレコメンデーションシステムは通常 1) ユーザの好みを埋め込み表現間の距離として定義する表現学習モデル、及び 2)大規模コーパスによる効率問題に取り組むための埋め込み型近似近距離探索(ann) 効率的な検索を提供する一方で、埋め込みベースの検索パターンは、ユーザ・イテム選好尺度の形式が埋め込み表現間の距離に制限されるため、モデルの容量を制限する。 しかし、例えば、ディープニューラルネットワークから直接導出される選好スコアなどの、より正確なユーザ-イットの選好尺度では、効率的な検索方法が欠如しているため、計算的に難解であり、全ユーザ-イットのペアを徹底的に検索することは現実的ではない。 本稿では,ANN探索を任意のマッチング関数(ディープニューラルネットワークなど)に拡張する手法を提案する。 私たちの主なアイデアは、すべてのアイテムから構築された類似性グラフで、一致する関数で欲張りなウォークを行うことです。 グラフ構築とユーザ-itemマッチング関数の類似度が不均一であることを解決するため,任意のマッチング関数を用いたグラフ検索がかなり高精度に行えるように,プラグイン可能な対角訓練タスクを提案する。 オープンソースと業界両方のデータセットによる実験結果から,本手法の有効性が示された。 提案手法はtaobaoディスプレイ広告プラットフォームに完全に展開され,広告収入の大幅な増加をもたらしている。 また、デプロイメントに関する詳細な経験を本論文で要約する。

Model-based methods for recommender systems have been studied extensively for years. Modern recommender systems usually resort to 1) representation learning models which define user-item preference as the distance between their embedding representations, and 2) embedding-based Approximate Nearest Neighbor (ANN) search to tackle the efficiency problem introduced by large-scale corpus. While providing efficient retrieval, the embedding-based retrieval pattern also limits the model capacity since the form of user-item preference measure is restricted to the distance between their embedding representations. However, for other more precise user-item preference measures, e.g., preference scores directly derived from a deep neural network, they are computationally intractable because of the lack of an efficient retrieval method, and an exhaustive search for all user-item pairs is impractical. In this paper, we propose a novel method to extend ANN search to arbitrary matching functions, e.g., a deep neural network. Our main idea is to perform a greedy walk with a matching function in a similarity graph constructed from all items. To solve the problem that the similarity measures of graph construction and user-item matching function are heterogeneous, we propose a pluggable adversarial training task to ensure the graph search with arbitrary matching function can achieve fairly high precision. Experimental results in both open source and industry datasets demonstrate the effectiveness of our method. The proposed method has been fully deployed in the Taobao display advertising platform and brings a considerable advertising revenue increase. We also summarize our detailed experiences in deployment in this paper.
翻訳日:2022-02-27 17:41:11 公開日:2022-02-14
# (参考訳) モバイルデバイスにおけるディープラーニングライブラリの総合ベンチマーク [全文訳有]

A Comprehensive Benchmark of Deep Learning Libraries on Mobile Devices ( http://arxiv.org/abs/2202.06512v1 )

ライセンス: CC BY 4.0
Qiyang Zhang, Xiang Li, Xiangying Che, Xiao Ma, Ao Zhou, Mengwei Xu, Shangguang Wang, Yun Ma, Xuanzhe Liu(参考訳) 近年,モバイルデバイスにディープラーニング(dl)をデプロイするトレンドが注目されている。 デバイス上のDLの高速推論をサポートするため、DLライブラリはアルゴリズムやハードウェアとして重要な役割を果たす。 残念なことに、現在のdl libsのエコシステムに深く潜り込み、パフォーマンスに関する定量的な結果を提供する以前の作業はない。 本稿では,まず6つのDL libと15の多様化DLモデルを含む総合的なベンチマークを構築する。 次に10台のモバイルデバイスで広範な実験を行い、現在のモバイルDL libsエコシステムの全体像を明らかにするのに役立ちます。 例えば、最もパフォーマンスの高いdl libは、異なるモデルやハードウェアにまたがって非常に断片化されており、dl lib間のギャップはかなり大きいことが分かりました。 実際、DL libsの影響は、例えばモデル量子化やGPU/DSPベースの異種コンピューティングといったアルゴリズムやハードウェアから最適化を圧倒することができる。 最後に,DL libエコシステムにおける様々な役割に対する実践的意味を要約する。

Deploying deep learning (DL) on mobile devices has been a notable trend in recent years. To support fast inference of on-device DL, DL libraries play a critical role as algorithms and hardware do. Unfortunately, no prior work ever dives deep into the ecosystem of modern DL libs and provides quantitative results on their performance. In this paper, we first build a comprehensive benchmark that includes 6 representative DL libs and 15 diversified DL models. We then perform extensive experiments on 10 mobile devices, which help reveal a complete landscape of the current mobile DL libs ecosystem. For example, we find that the best-performing DL lib is severely fragmented across different models and hardware, and the gap between those DL libs can be rather huge. In fact, the impacts of DL libs can overwhelm the optimizations from algorithms or hardware, e.g., model quantization and GPU/DSP-based heterogeneous computing. Finally, atop the observations, we summarize practical implications to different roles in the DL lib ecosystem.
翻訳日:2022-02-18 06:49:22 公開日:2022-02-14
# (参考訳) SQuant: 対角ヘッセン近似によるオンザフライデータ自由量子化 [全文訳有]

SQuant: On-the-Fly Data-Free Quantization via Diagonal Hessian Approximation ( http://arxiv.org/abs/2202.07471v1 )

ライセンス: CC BY 4.0
Cong Guo, Yuxian Qiu, Jingwen Leng, Xiaotian Gao, Chen Zhang, Yunxin Liu, Fan Yang, Yuhao Zhu, Minyi Guo(参考訳) ディープニューラルネットワーク(DNN)の量子化は、DNNモデルの圧縮と加速に有効であることが証明されている。 データフリー量子化(DFQ)は、プライバシに敏感で機密性の高いシナリオの下で、オリジナルのデータセットなしでは有望なアプローチである。 しかし、現在のDFQソリューションは精度を低下させ、ネットワークを校正するために合成データを必要とし、時間と費用がかかる。 本稿では,SQuantと呼ばれるサブ秒単位の量子化時間を持つオンザフライDFQフレームワークを提案する。 dnnタスクロスの2次情報の理論的解析により、重みテンソルの3次元に対応する異なる領域を持つ3つの対角形部分項目(要素単位、カーネル単位、出力チャネル単位)にヘッセンに基づく最適化目標を分解、近似する。 そこで,本研究では,データセットを必要とせず,ネットワークアーキテクチャにさえ気付かない制約付き絶対誤差和(あるいは,略してCASE)を最小化する,離散領域における新たなデータフリー最適化目標を提案する。 また,計算量を削減するために,バックプロパゲーションを伴わない効率的なアルゴリズムを設計した。 最後に、微調整と合成データセットなしでは、squaantは4ビット量子化の評価モデルを用いて、既存のデータなし後トレーニング量子化作業よりも30%精度が向上し、データフリー量子化プロセスをサブ秒レベルに加速する。 私たちはSQuantフレームワークをhttps://github.com/c levercool/SQuantでオープンソース化しました。

Quantization of deep neural networks (DNN) has been proven effective for compressing and accelerating DNN models. Data-free quantization (DFQ) is a promising approach without the original datasets under privacy-sensitive and confidential scenarios. However, current DFQ solutions degrade accuracy, need synthetic data to calibrate networks, and are time-consuming and costly. This paper proposes an on-the-fly DFQ framework with sub-second quantization time, called SQuant, which can quantize networks on inference-only devices with low computation and memory requirements. With the theoretical analysis of the second-order information of DNN task loss, we decompose and approximate the Hessian-based optimization objective into three diagonal sub-items, which have different areas corresponding to three dimensions of weight tensor: element-wise, kernel-wise, and output channel-wise. Then, we progressively compose sub-items and propose a novel data-free optimization objective in the discrete domain, minimizing Constrained Absolute Sum of Error (or CASE in short), which surprisingly does not need any dataset and is even not aware of network architecture. We also design an efficient algorithm without back-propagation to further reduce the computation complexity of the objective solver. Finally, without fine-tuning and synthetic datasets, SQuant accelerates the data-free quantization process to a sub-second level with >30% accuracy improvement over the existing data-free post-training quantization works, with the evaluated models under 4-bit quantization. We have open-sourced the SQuant framework at https://github.com/c levercool/SQuant.
翻訳日:2022-02-17 10:56:43 公開日:2022-02-14
# (参考訳) 強化学習による逐次ベイズ実験設計

Sequential Bayesian experimental designs via reinforcement learning ( http://arxiv.org/abs/2202.07472v1 )

ライセンス: CC BY 4.0
Hikaru Asano(参考訳) ベイジアン実験設計(BED)はベイジアン推論に基づく効率的な実験を行う方法として用いられている。 しかし、既存の手法は主に期待情報ゲイン(EIG)の最大化に重点を置いており、実験のコストとサンプル効率は考慮されないことが多い。 本論文では,本課題に対処し,ベッドの実用的適用性を高めるために,強化学習による逐次的な実験設計を行い,強化学習を応用してベッドを逐次的に構築する手法を提案する。 ここでは、強化学習は、エージェントが環境と対話することで報酬を最大化するポリシーを学習する機械学習の分野である。 環境と相互作用する特性は逐次実験と類似しており,強化学習は逐次的意思決定に優れた手法である。 実世界指向の新たな実験環境を提案することで,実験コストとサンプル効率を同時に念頭に置いて,eigを最大化することを目指す。 3つの異なる例に対して数値実験を行う。 本手法は,eigやサンプリング効率などの指標において既存の手法よりも優れており,提案手法や実験環境が実世界へのベッドの適用に有意な貢献をすることができることを示す。

Bayesian experimental design (BED) has been used as a method for conducting efficient experiments based on Bayesian inference. The existing methods, however, mostly focus on maximizing the expected information gain (EIG); the cost of experiments and sample efficiency are often not taken into account. In order to address this issue and enhance practical applicability of BED, we provide a new approach Sequential Experimental Design via Reinforcement Learning to construct BED in a sequential manner by applying reinforcement learning in this paper. Here, reinforcement learning is a branch of machine learning in which an agent learns a policy to maximize its reward by interacting with the environment. The characteristics of interacting with the environment are similar to the sequential experiment, and reinforcement learning is indeed a method that excels at sequential decision making. By proposing a new real-world-oriented experimental environment, our approach aims to maximize the EIG while keeping the cost of experiments and sample efficiency in mind simultaneously. We conduct numerical experiments for three different examples. It is confirmed that our method outperforms the existing methods in various indices such as the EIG and sampling efficiency, indicating that our proposed method and experimental environment can make a significant contribution to application of BED to the real world.
翻訳日:2022-02-17 10:30:14 公開日:2022-02-14
# (参考訳) UserBERT: セルフスーパービジョンによる長期および短期のユーザ嗜好のモデリング [全文訳有]

UserBERT: Modeling Long- and Short-Term User Preferences via Self-Supervision ( http://arxiv.org/abs/2202.07605v1 )

ライセンス: CC BY 4.0
Tianyu Li, Ali Cevahir, Derek Cho, Hao Gong, DuyKhuong Nguyen, Bjorn Stenger(参考訳) Eコマースプラットフォームは、毎日何百万ものユニークなユーザーから、クリックや購入などの大量の顧客行動データを生成する。 しかし、このデータを行動理解タスクに効果的に利用することは、通常、すべてのユーザから教師付きで学習する十分なラベルが存在しないため、難しい。 本稿では,BERTモデルを電子商取引ユーザデータに拡張し,自己教師型で表現を事前学習する。 文中の単語に類似したシーケンスでユーザアクションを見ることにより、既存のBERTモデルをユーザ行動データに拡張する。 さらに,このモデルでは,ユーザ属性だけでなく,長期的および短期的ユーザの行動から同時に学習する統一構造を採用している。 本稿では,ユーザ行動系列の異なる種類のトークン化,入力表現ベクトルの生成,および事前学習されたモデルが自身の入力から学習できるようにする新しいプリテキストタスクを提案し,ラベル付きトレーニングデータの必要性をなくした。 広範囲な実験により、学習された表現が3つの現実世界のタスクに移行した場合、特にタスク特化モデリングやマルチタスク表現学習と比較して顕著な改善をもたらすことが示された。

E-commerce platforms generate vast amounts of customer behavior data, such as clicks and purchases, from millions of unique users every day. However, effectively using this data for behavior understanding tasks is challenging because there are usually not enough labels to learn from all users in a supervised manner. This paper extends the BERT model to e-commerce user data for pre-training representations in a self-supervised manner. By viewing user actions in sequences as analogous to words in sentences, we extend the existing BERT model to user behavior data. Further, our model adopts a unified structure to simultaneously learn from long-term and short-term user behavior, as well as user attributes. We propose methods for the tokenization of different types of user behavior sequences, the generation of input representation vectors, and a novel pretext task to enable the pre-trained model to learn from its own input, eliminating the need for labeled training data. Extensive experiments demonstrate that the learned representations result in significant improvements when transferred to three different real-world tasks, particularly compared to task-specific modeling and multi-task representation learning
翻訳日:2022-02-17 10:29:12 公開日:2022-02-14
# (参考訳) 深いアンサンブルは機能しますが、必要か?

Deep Ensembles Work, But Are They Necessary? ( http://arxiv.org/abs/2202.06985v1 )

ライセンス: CC BY 4.0
Taiga Abe, E. Kelly Buchanan, Geoff Pleiss, Richard Zemel, John P. Cunningham(参考訳) ニューラルネットワークの組み立ては、精度を高める効果的な方法であり、より大きなモデルの性能にマッチすることが多い。 ディープアンサンブルと同じような精度の1つのニューラルネットワークの選択を考えると、もう1つはどちらよりも好ましいのでしょうか? 最近の研究は、深層アンサンブルが予測能力以上の利点、すなわちデータセットシフトに対する不確実な定量化とロバスト性をもたらす可能性を示唆している。 この研究では、これらの利点の限界を示し、単一の(しかし大きい)ニューラルネットワークがこれらの性質を再現できることを示します。 まず、アンサンブルの多様性は、任意の計量によって、アンサンブルのアウト・オブ・ディストリビューション(OOD)データを検出する能力に有意に寄与せず、一つの大きなモデルの相対的な改善を測定することでアンサンブルの多様性を推定できることを示す。 第2に,アンサンブルによって得られるOOD性能は,その分布内(InD)性能によって強く決定され,その意味では「有効な堅牢性」を示すものではないことを示す。 深層アンサンブルは(事前の作業と一致して)パフォーマンス改善を実現する実践的な方法であるが,本研究の結果から,モデルクラスよりも便利である可能性が示唆された。

Ensembling neural networks is an effective way to increase accuracy, and can often match the performance of larger models. This observation poses a natural question: given the choice between a deep ensemble and a single neural network with similar accuracy, is one preferable over the other? Recent work suggests that deep ensembles may offer benefits beyond predictive power: namely, uncertainty quantification and robustness to dataset shift. In this work, we demonstrate limitations to these purported benefits, and show that a single (but larger) neural network can replicate these qualities. First, we show that ensemble diversity, by any metric, does not meaningfully contribute to an ensemble's ability to detect out-of-distribution (OOD) data, and that one can estimate ensemble diversity by measuring the relative improvement of a single larger model. Second, we show that the OOD performance afforded by ensembles is strongly determined by their in-distribution (InD) performance, and -- in this sense -- is not indicative of any "effective robustness". While deep ensembles are a practical way to achieve performance improvement (in agreement with prior work), our results show that they may be a tool of convenience rather than a fundamentally better model class.
翻訳日:2022-02-17 10:16:53 公開日:2022-02-14
# (参考訳) asc me to do anything: 具体化されたaiのためのマルチタスクトレーニング [全文訳有]

ASC me to Do Anything: Multi-task Training for Embodied AI ( http://arxiv.org/abs/2202.06987v1 )

ライセンス: CC BY 4.0
Jiasen Lu, Jordi Salvador, Roozbeh Mottaghi, Aniruddha Kembhavi(参考訳) Embodied AIは、さまざまな独立したタスクセットで着実に進歩している。 これらのタスクには異なる目標があるが、完了に必要な基本的なスキルは大幅に重複する。 本稿では、これらの共有スキルを活用して、複数のタスクを共同で実行することを目的とする。 我々は,複数のタスク間で共有されるアトミックスキルのセットをまとめてタスクを実行する,Embodied AIのためのマルチタスクトレーニングのためのアプローチであるAtomic Skill Completion (ASC)を提案する。 このアプローチの成功の鍵は、共同トレーニングを効果的にするハイレベルなタスクからスキルの学習を分離する事前学習スキームである。 ASCを用いてAI2-THOR環境内のエージェントを訓練し、4つの対話的なタスクを共同で実行し、極めて効果的であることを示す。 マルチタスク環境では、ASCは未学習に比べてSeenシーンの2倍、Unseenシーンの4倍の成功率を向上させる。 重要なことに、ASCは4つの独立したタスクエージェントのトレーニングよりも52%高い成功率を持つマルチタスクエージェントのトレーニングを可能にします。 最後に、我々の階層的エージェントは従来のブラックボックスアーキテクチャよりも解釈可能である。

Embodied AI has seen steady progress across a diverse set of independent tasks. While these varied tasks have different end goals, the basic skills required to complete them successfully overlap significantly. In this paper, our goal is to leverage these shared skills to learn to perform multiple tasks jointly. We propose Atomic Skill Completion (ASC), an approach for multi-task training for Embodied AI, where a set of atomic skills shared across multiple tasks are composed together to perform the tasks. The key to the success of this approach is a pre-training scheme that decouples learning of the skills from the high-level tasks making joint training effective. We use ASC to train agents within the AI2-THOR environment to perform four interactive tasks jointly and find it to be remarkably effective. In a multi-task setting, ASC improves success rates by a factor of 2x on Seen scenes and 4x on Unseen scenes compared to no pre-training. Importantly, ASC enables us to train a multi-task agent that has a 52% higher Success Rate than training 4 independent single task agents. Finally, our hierarchical agents are more interpretable than traditional black-box architectures.
翻訳日:2022-02-17 10:15:03 公開日:2022-02-14
# (参考訳) ラベルなしデータ:minimax分析と敵対的ロバスト性

Unlabeled Data Help: Minimax Analysis and Adversarial Robustness ( http://arxiv.org/abs/2202.06996v1 )

ライセンス: CC BY 4.0
Yue Xing and Qifan Song and Guang Cheng(参考訳) 最近提案された自己教師付き学習(SSL)アプローチは、追加のラベルのないデータで学習アルゴリズムを補完する大きな可能性を実証することに成功した。 しかし、既存のSSLアルゴリズムがラベル付データとラベル付データの両方の情報を完全に活用できるかどうかはまだ不明である。 本稿では, 統計モデルを用いて, 再構成に基づくSSLアルゴリズム \citep{lee2020predicting} に対する肯定的な回答を与える。 既存の文献では収束率の上限の確立にのみ焦点が当てられているが、より厳密なミニマックス解析を行い、異なるデータ生成モデル下での再構成型sslアルゴリズムのレート最適化性を正当化することに成功した。 さらに,リコンストラクションベースのsslを既存の学習アルゴリズムに組み込んで,ラベルなしデータからの学習がロバスト性の向上に寄与することを示す。

The recent proposed self-supervised learning (SSL) approaches successfully demonstrate the great potential of supplementing learning algorithms with additional unlabeled data. However, it is still unclear whether the existing SSL algorithms can fully utilize the information of both labelled and unlabeled data. This paper gives an affirmative answer for the reconstruction-based SSL algorithm \citep{lee2020predicting} under several statistical models. While existing literature only focuses on establishing the upper bound of the convergence rate, we provide a rigorous minimax analysis, and successfully justify the rate-optimality of the reconstruction-based SSL algorithm under different data generation models. Furthermore, we incorporate the reconstruction-based SSL into the existing adversarial training algorithms and show that learning from unlabeled data helps improve the robustness.
翻訳日:2022-02-17 09:46:56 公開日:2022-02-14
# (参考訳) 動的システムのためのリカレントニューラルネットワーク:正規微分方程式、集合運動、および水理モデリングへの応用 [全文訳有]

Recurrent Neural Networks for Dynamical Systems: Applications to Ordinary Differential Equations, Collective Motion, and Hydrological Modeling ( http://arxiv.org/abs/2202.07022v1 )

ライセンス: CC BY 4.0
Yonggi Park, Kelum Gajamannage, Dilhani I. Jayathilake, and Erik M. Bollt(参考訳) 時空間力学系の古典的な解法には、システムの以前の出力間の線形および定常関係を仮定する自己回帰的統合移動平均のような統計的アプローチが含まれる。 線形法の開発と実装は比較的単純であるが、データの非線形関係を捉えないことが多い。 このように、ニューラルネットワーク(anns)は、動的システムの分析と予測において研究者から注目を集めている。 recurrent neural networks (rnn) はフィードフォワードアンスから派生し、内部メモリを使って入力の可変長シーケンスを処理する。 これにより、RNNは時空間力学系における様々な問題の解を見つけるのに利用できる。 そこで本稿では,RNNを用いて動的システムに関連する特定の問題を扱う。 具体的には, 定式化誤差のあるシステムに対する正しいロレンツ解の再構成, 腐敗した集団運動軌跡の再構成, スパイクを有する流れ時系列の予測, 常微分方程式, 集団運動, 水文モデリングの3つの分野をそれぞれ表わすrnnの性能解析を行った。 我々は各タスクでRNNを個別に訓練し、動的システムの力学を再現および予測するためにRNNの広範な適用性を実証する。

Classical methods of solving spatiotemporal dynamical systems include statistical approaches such as autoregressive integrated moving average, which assume linear and stationary relationships between systems' previous outputs. Development and implementation of linear methods are relatively simple, but they often do not capture non-linear relationships in the data. Thus, artificial neural networks (ANNs) are receiving attention from researchers in analyzing and forecasting dynamical systems. Recurrent neural networks (RNN), derived from feed-forward ANNs, use internal memory to process variable-length sequences of inputs. This allows RNNs to applicable for finding solutions for a vast variety of problems in spatiotemporal dynamical systems. Thus, in this paper, we utilize RNNs to treat some specific issues associated with dynamical systems. Specifically, we analyze the performance of RNNs applied to three tasks: reconstruction of correct Lorenz solutions for a system with a formulation error, reconstruction of corrupted collective motion trajectories, and forecasting of streamflow time series possessing spikes, representing three fields, namely, ordinary differential equations, collective motion, and hydrological modeling, respectively. We train and test RNNs uniquely in each task to demonstrate the broad applicability of RNNs in reconstruction and forecasting the dynamics of dynamical systems.
翻訳日:2022-02-17 09:45:47 公開日:2022-02-14
# (参考訳) rsaフレームワークにおける排他性と反排他性:事前信念の効果の検証

Exhaustivity and anti-exhaustivity in the RSA framework: Testing the effect of prior beliefs ( http://arxiv.org/abs/2202.07023v1 )

ライセンス: CC BY 4.0
Alexandre Cremers and Ethan G. Wilcox and Benjamin Spector(参考訳) コミュニケーション中、発話の解釈はリスナーの確率的事前信念に敏感であり、それは現在影響力のある実用的モデルであるrational speech act(rsa)フレームワークによって捉えられている。 本稿では,優先順位に対するこの感度がフレームワークの直観的な予測に繋がる場合に焦点を当てる。 私たちの関心領域は排他的効果であり、「マリーが来た」という文はメアリーだけが来たことを意味すると理解されている。 ベースラインRSAモデルでは、ある条件下では、反排他的読解が予測される(例えば、"Mary came" は、メアリーとピーターの両方が来たと伝えるために使われる)。 徹底的な解釈は、純粋に実用的推論(古典的なグリセアの見解ではベースラインrsaモデルに支持されている)として導出されるべきなのか、それとも、カプセル化された意味メカニズム(最近の形式文献で議論されているように)によって生成されるのか? この疑問に答えるために、我々は異なるRSAモデルの詳細な理論的解析を行い、以前の信念が生産と理解の両方に与える影響を検証し、以前の経験的作業を改善した新しい研究で得られたデータと比較した。 抗exhaustivity効果は見つからなかったが、rsaフレームワーク全体で予測されているように、メッセージの選択は前もって敏感であることがわかった。 最良のモデルは、カプセル化された排気機構を含むものであることが判明した(全く異なるデータに基づいて他の研究が結論づけたように)。 一方、意味論と実用論の分業において、意味論はよく考えられたよりも大きな役割を果たすが、一方で、すべてのrsaモデルの特徴である非情報性とコストのトレードオフは、真の実用的効果において中心的な役割を果たすと結論づける。

During communication, the interpretation of utterances is sensitive to a listener's probabilistic prior beliefs, something which is captured by one currently influential model of pragmatics, the Rational Speech Act (RSA) framework. In this paper we focus on cases when this sensitivity to priors leads to counterintuitive predictions of the framework. Our domain of interest is exhaustivity effects, whereby a sentence such as "Mary came" is understood to mean that only Mary came. We show that in the baseline RSA model, under certain conditions, anti-exhaustive readings are predicted (e.g., "Mary came" would be used to convey that both Mary and Peter came). The specific question we ask is the following: should exhaustive interpretations be derived as purely pragmatic inferences (as in the classical Gricean view, endorsed in the baseline RSA model), or should they rather be generated by an encapsulated semantic mechanism (as argued in some of the recent formal literature)? To answer this question, we provide a detailed theoretical analysis of different RSA models and evaluate them against data obtained in a new study which tested the effects of prior beliefs on both production and comprehension, improving on previous empirical work. We found no anti-exhaustivity effects, but observed that message choice is sensitive to priors, as predicted by the RSA framework overall. The best models turn out to be those which include an encapsulated exhaustivity mechanism (as other studies concluded on the basis of very different data). We conclude that, on the one hand, in the division of labor between semantics and pragmatics, semantics plays a larger role than is often thought, but, on the other hand, the tradeoff between informativity and cost which characterizes all RSA models does play a central role for genuine pragmatic effects.
翻訳日:2022-02-17 09:21:29 公開日:2022-02-14
# (参考訳) box教師付きビデオセグメンテーション提案ネットワーク [全文訳有]

Box Supervised Video Segmentation Proposal Network ( http://arxiv.org/abs/2202.07025v1 )

ライセンス: CC BY 4.0
Tanveer Hannan, Rajat Koner, Jonathan Kobold, Matthias Schubert(参考訳) ビデオオブジェクトセグメンテーション(VOS)は、様々な完全教師付きおよび自己教師型のアプローチが対象となっている。 完全教師あり手法は優れた結果を示すが、ピクセルレベルの基底的真理を用いない自己教師あり方式が注目される。 しかし、自己監督アプローチは大きなパフォーマンスのギャップをもたらす。 ボックスレベルのアノテーションは、ラベル付け作業と画像セグメンテーションの結果品質のバランスのとれた妥協を提供するが、ビデオドメインでは利用されていない。 そこで本研究では,固有ビデオ特性を利用したボックス管理型ビデオオブジェクト分割提案ネットワークを提案する。 まず、双方向時間差と、新しいバウンディングボックス誘導動作補償を用いて、物体の動きを演算する。 第2に,類似した動きと色を共有する場合,ネットワークが正の画素対を予測することを促す,新しい動き認識アフィニティ損失を提案する。 提案手法は,DAVIS および Youtube-VOS データセット上の完全教師付き手法の大部分が,ネットワークアーキテクチャの仕様を課さずに16.4%,6.9% の$\mathcal{J}$および$\mathcal{F}$スコアを達成している。 我々は,データセットの広範なテストとアブレーションを行い,本手法の頑健性を示す。

Video Object Segmentation (VOS) has been targeted by various fully-supervised and self-supervised approaches. While fully-supervised methods demonstrate excellent results, self-supervised ones, which do not use pixel-level ground truth, attract much attention. However, self-supervised approaches pose a significant performance gap. Box-level annotations provide a balanced compromise between labeling effort and result quality for image segmentation but have not been exploited for the video domain. In this work, we propose a box-supervised video object segmentation proposal network, which takes advantage of intrinsic video properties. Our method incorporates object motion in the following way: first, motion is computed using a bidirectional temporal difference and a novel bounding box-guided motion compensation. Second, we introduce a novel motion-aware affinity loss that encourages the network to predict positive pixel pairs if they share similar motion and color. The proposed method outperforms the state-of-the-art self-supervised benchmark by 16.4% and 6.9% $\mathcal{J}$ &$\mathcal{F}$ score and the majority of fully supervised methods on the DAVIS and Youtube-VOS dataset without imposing network architectural specifications. We provide extensive tests and ablations on the datasets, demonstrating the robustness of our method.
翻訳日:2022-02-17 09:20:02 公開日:2022-02-14
# (参考訳) 神経脆弱度の解析--ランク1摂動行列のノルムを束縛する [全文訳有]

Analysis of Neural Fragility: Bounding the Norm of a Rank-One Perturbation Matrix ( http://arxiv.org/abs/2202.07026v1 )

ライセンス: CC BY 4.0
Adam Li, Chester Huynh(参考訳) 世界中で1500万人以上のてんかん患者が薬物に反応せず、外科治療を必要としている。 外科的治療は、EZ(てんかん原性領域)の完全除去または切断を必要とするが、EZの先進的なバイオマーカーがなければ、手術成功率は30%から70%の間で異なる。 neural fragilityはezをローカライズするために最近提案されたモデルである。 線形力学系の構造的ランク1摂動のl2ノルムとして神経脆弱性を計算する。 しかし,その数値的性質の解析は行われていない。 データから線形力学系の優れた推定器が与えられると、神経脆弱性はよく定義されたモデルであることが示される。 具体的には,基礎となる線形系と雑音の関数として,神経親和性の境界を与える。

Over 15 million epilepsy patients worldwide do not respond to drugs and require surgical treatment. Successful surgical treatment requires complete removal, or disconnection of the epileptogenic zone (EZ), but without a prospective biomarker of the EZ, surgical success rates vary between 30%-70%. Neural fragility is a model recently proposed to localize the EZ. Neural fragility is computed as the l2 norm of a structured rank-one perturbation of an estimated linear dynamical system. However, an analysis of its numerical properties have not been explored. We show that neural fragility is a well-defined model given a good estimator of the linear dynamical system from data. Specifically, we provide bounds on neural fragility as a function of the underlying linear system and noise.
翻訳日:2022-02-17 08:59:29 公開日:2022-02-14
# (参考訳) 1つのステップ:マイルストーンを用いた長距離視線とランゲージナビゲーション [全文訳有]

One Step at a Time: Long-Horizon Vision-and-Language Navigation with Milestones ( http://arxiv.org/abs/2202.07028v1 )

ライセンス: CC BY 4.0
Chan Hee Song, Jihyung Kil, Tai-Yu Pan, Brian M. Sadler, Wei-Lun Chao, Yu Su(参考訳) 本研究では,人間の指示に従って行動列を推論し実行し,タスクを完了させる自律エージェントの開発について検討する。 近年は、特に地平線が短いタスクにおいて大きな進歩を遂げている。 しかし、アクションのシーケンスが拡張された長い水平タスクの場合、エージェントはいくつかの命令を無視したり、長い命令の途中で立ち往生したりすることができ、最終的にタスクを失敗する。 この課題に対処するため,モデルに依存しないマイルストーンベースタスクトラッカー (M-TRACK) を提案し,エージェントの誘導と進捗監視を行う。 具体的には、エージェントがステップバイステップで完了する必要があるナビゲーションとインタラクションのマイルストーンをタグ付けするマイルストーンビルダーと、現在のマイルストーンにおけるエージェントの進捗をシステム的にチェックし、次のステップへ進むタイミングを決定するマイルストーンチェッカを提案する。 挑戦的なALFREDデータセットでは、M-TRACKは2つの競合ベースモデルに対して、目立たない成功率において、顕著な45%と70%の改善をもたらす。

We study the problem of developing autonomous agents that can follow human instructions to infer and perform a sequence of actions to complete the underlying task. Significant progress has been made in recent years, especially for tasks with short horizons. However, when it comes to long-horizon tasks with extended sequences of actions, an agent can easily ignore some instructions or get stuck in the middle of the long instructions and eventually fail the task. To address this challenge, we propose a model-agnostic milestone-based task tracker (M-TRACK) to guide the agent and monitor its progress. Specifically, we propose a milestone builder that tags the instructions with navigation and interaction milestones which the agent needs to complete step by step, and a milestone checker that systemically checks the agent's progress in its current milestone and determines when to proceed to the next. On the challenging ALFRED dataset, our M-TRACK leads to a notable 45% and 70% relative improvement in unseen success rate over two competitive base models.
翻訳日:2022-02-17 08:50:29 公開日:2022-02-14
# (参考訳) 人工知能ベースのスマートグリッド脆弱性と偽正常攻撃の潜在的な解決策 [全文訳有]

Artificial Intelligence-Based Smart Grid Vulnerabilities and Potential Solutions for Fake-Normal Attacks: A Short Review ( http://arxiv.org/abs/2202.07050v1 )

ライセンス: CC BY 4.0
J.D. Ndibwile(参考訳) スマートグリッドシステムは電力業界にとって重要であるが、その高度なアーキテクチャ設計と運用により、データ改ざん、データの盗聴、サービス拒否など、数多くのサイバーセキュリティの脅威にさらされている。 人工知能(ai)ベースの技術は、さまざまなコンピュータ環境でサイバー攻撃を検出するためにますます人気を集めており、様々なシステムを保護するためにいくつかの努力がなされている。 現在のAIシステムは、GAN(Generative Adversarial Networks)のような高度な敵システムの出現により、公開され、消滅している。 この短いレビューの目的は、スマートグリッドシステムとその障害、そして将来のAI研究の方向性について、いくつかのイニシアチブを概説することである。

Smart grid systems are critical to the power industry, however their sophisticated architectural design and operations expose them to a number of cybersecurity threats, such as data tampering, data eavesdropping, and Denial of Service, among others. Artificial Intelligence (AI)-based technologies are becoming increasingly popular for detecting cyber assaults in a variety of computer settings, and several efforts have been made to secure various systems. The present AI systems are being exposed and vanquished because of the recent emergence of sophisticated adversarial systems such as Generative Adversarial Networks (GAN). The purpose of this short review is to outline some of the initiatives to protect smart grid systems, their obstacles, and what might be a potential future AI research direction
翻訳日:2022-02-17 08:34:00 公開日:2022-02-14
# (参考訳) ニューラルネットワークの最適化を高速化する直交勾配 [全文訳有]

Orthogonalising gradients to speed up neural network optimisation ( http://arxiv.org/abs/2202.07052v1 )

ライセンス: CC BY 4.0
Mark Tuddenham, Adam Pr\"ugel-Bennett, Jonathan Hare(参考訳) ニューラルネットワークの最適化は、最適化ステップの前に勾配を直交し、学習した表現の多様化を確実にすることで加速することができる。 我々は、中間表現を分離するために、レイヤのコンポーネント/フィルタの勾配を互いに直交させます。 直交化法は, 重みを直交部分空間に制限することとは対照的に, より柔軟に重みを使うことができる。 我々はこの手法をImageNetとCIFAR-10でテストし、学習時間の大幅な削減と半教師付き学習BarlowTwinsの高速化を得た。 sgdと同様の精度を,na\"選択ハイパーパラメータの微調整や精度向上を伴わずに得る。

The optimisation of neural networks can be sped up by orthogonalising the gradients before the optimisation step, ensuring the diversification of the learned representations. We orthogonalise the gradients of the layer's components/filters with respect to each other to separate out the intermediate representations. Our method of orthogonalisation allows the weights to be used more flexibly, in contrast to restricting the weights to an orthogonalised sub-space. We tested this method on ImageNet and CIFAR-10 resulting in a large decrease in learning time, and also obtain a speed-up on the semi-supervised learning BarlowTwins. We obtain similar accuracy to SGD without fine-tuning and better accuracy for na\"ively chosen hyper-parameters.
翻訳日:2022-02-17 08:28:28 公開日:2022-02-14
# (参考訳) 縦断データによる個々のファジィ認知地図の自動生成 [全文訳有]

Automatic Generation of Individual Fuzzy Cognitive Maps from Longitudinal Data ( http://arxiv.org/abs/2202.07065v1 )

ライセンス: CC BY-SA 4.0
Maciej K Wozniak, Samvel Mkhitaryan, Philippe j. Giabbanelli(参考訳) ファジィ認知マップ(fcms)は、他の要因からの因果的影響(重み付けされた有向エッジ)に基づいて、離散的な相互作用における因子(ノード)がどのように変化するかを表す計算モデルである。 このアプローチは伝統的に、システムの機能を記述するために、システムダイナミクスと同様に集約として使われてきた。 例えば、エージェントベースのモデルの各エージェントに、その振る舞いを表現するために独自のfcmを装備することで、この集約アプローチを個人レベルで採用することへの関心が高まっている。 フレームワークや研究はすでにこのアプローチを取り入れているが、現在進行中の制限は、個人と同じくらい多くのFCMを作成することの難しさであった。 実際、現在の研究では、特性が異なるが意思決定モジュールが同一であるエージェントを作成できるため、シミュレーションされた集団の振る舞いの多様性が制限されている。 本稿では,遺伝的アルゴリズムを用いてエージェント毎にfcmを1つ作成することにより,不均一な振る舞いを持つ仮想集団を自動的に生成する手段を提供する。 当社のアルゴリズムは,プロセスに付加的な制約を導入し,縦方向の個人レベルのデータに適用することで,stach氏と同僚による事前作業に基づいています。 栄養に関する現実の介入によるケーススタディでは、我々のアプローチが現実世界の人間の軌道を忠実に追従する異質なエージェントを生成できることを確認した。 将来的には、アプローチの計算時間を短縮するといった技術的改善や、仮想集団を使って新たな行動変化の介入をテストするコンピュータインテリジェンスにおけるケーススタディなどが含まれる。

Fuzzy Cognitive Maps (FCMs) are computational models that represent how factors (nodes) change over discrete interactions based on causal impacts (weighted directed edges) from other factors. This approach has traditionally been used as an aggregate, similarly to System Dynamics, to depict the functioning of a system. There has been a growing interest in taking this aggregate approach at the individual-level, for example by equipping each agent of an Agent-Based Model with its own FCM to express its behavior. Although frameworks and studies have already taken this approach, an ongoing limitation has been the difficulty of creating as many FCMs as there are individuals. Indeed, current studies have been able to create agents whose traits are different, but whose decision-making modules are often identical, thus limiting the behavioral heterogeneity of the simulated population. In this paper, we address this limitation by using Genetic Algorithms to create one FCM for each agent, thus providing the means to automatically create a virtual population with heterogeneous behaviors. Our algorithm builds on prior work from Stach and colleagues by introducing additional constraints into the process and applying it over longitudinal, individual-level data. A case study from a real-world intervention on nutrition confirms that our approach can generate heterogeneous agents that closely follow the trajectories of their real-world human counterparts. Future works include technical improvements such as lowering the computational time of the approach, or case studies in computational intelligence that use our virtual populations to test new behavior change interventions.
翻訳日:2022-02-17 08:15:20 公開日:2022-02-14
# (参考訳) Facebook-Cambridge Analyticaデータ共有後の情報プライバシーに関する地域差

Regional Differences in Information Privacy Concerns After the Facebook-Cambridge Analytica Data Scandal ( http://arxiv.org/abs/2202.07075v1 )

ライセンス: CC BY 4.0
Felipe Gonz\'alez-Pizarro, Andrea Figueroa, Claudia L\'opez, Cecilia Aragon(参考訳) データプライバシに世界的な注目が集まっている一方で、現在の理論的な理解のほとんどは、いくつかの国で実施された研究に基づいている。 以前の研究は、人々の文化的背景がプライバシーの懸念を形作るかもしれないと主張しており、異なる世界地域の人々によって様々な方法でその概念化が期待できる。 我々は、スペイン語と英語の#CambridgeAnalyticaスキャンダルに関する大規模なツイートのデータセットを収集し、分析し、この仮説を探求し始めた。 単語埋め込みと質的分析を用いて、どの情報プライバシー問題が存在するかを特定し、これらの問題に重点を置く言語と地域差を特徴付ける。 この結果から,現行の情報プライバシーフレームワークに規制などの関連概念を付加できることが示唆された。 また、スペイン語よりも英語のデータ収集に重点を置いています。 さらに、北米のデータは、研究対象の他の地域に比べて意識に焦点を絞っている。 弊社の結果は、より多様なデータソースと、世界中のデータプライバシに関する微妙な分析を求めている。

While there is increasing global attention to data privacy, most of their current theoretical understanding is based on research conducted in a few countries. Prior work argues that people's cultural backgrounds might shape their privacy concerns; thus, we could expect people from different world regions to conceptualize them in diverse ways. We collected and analyzed a large-scale dataset of tweets about the #CambridgeAnalytica scandal in Spanish and English to start exploring this hypothesis. We employed word embeddings and qualitative analysis to identify which information privacy concerns are present and characterize language and regional differences in emphasis on these concerns. Our results suggest that related concepts, such as regulations, can be added to current information privacy frameworks. We also observe a greater emphasis on data collection in English than in Spanish. Additionally, data from North America exhibits a narrower focus on awareness compared to other regions under study. Our results call for more diverse sources of data and nuanced analysis of data privacy concerns around the globe.
翻訳日:2022-02-17 08:02:40 公開日:2022-02-14
# (参考訳) 最適化を予測に置き換えたライブレコメンデーションの制約下でのランキングのスケールアップ [全文訳有]

Scaling up Ranking under Constraints for Live Recommendations by Replacing Optimization with Prediction ( http://arxiv.org/abs/2202.07088v1 )

ライセンス: CC BY 4.0
Yegor Tkachenko, Wassim Dhaouadi, Kamel Jedidi(参考訳) 多くの重要な多重目的決定問題は、制約の下でのランク付けの枠組みの中に配置することができ、重み付けされた双分数整合線形プログラムによって解決される。 パーソナライズされたコンテンツレコメンデーションのような最適化問題のいくつかはリアルタイムで解決する必要があるため、消費者によるレイテンシの認識を防止するために厳格な時間要件を満たさなければならない。 古典線形プログラミングはそのような設定には計算的に非効率すぎる。 アルゴリズム展開段階における重み付き2部マッチング最適化を予測問題に置き換え,制約下でのランキングをスケールアップする新しい手法を提案する。 提案手法は,制約遵守を犠牲にすることなく,必要な計算資源の大幅な削減と実用性を実現し,従来の報告よりも50ミリ秒以内に,より大きな制約付きランキング問題をリアルタイムに解決できることを実証的に示した。

Many important multiple-objective decision problems can be cast within the framework of ranking under constraints and solved via a weighted bipartite matching linear program. Some of these optimization problems, such as personalized content recommendations, may need to be solved in real time and thus must comply with strict time requirements to prevent the perception of latency by consumers. Classical linear programming is too computationally inefficient for such settings. We propose a novel approach to scale up ranking under constraints by replacing the weighted bipartite matching optimization with a prediction problem in the algorithm deployment stage. We show empirically that the proposed approximate solution to the ranking problem leads to a major reduction in required computing resources without much sacrifice in constraint compliance and achieved utility, allowing us to solve larger constrained ranking problems real-time, within the required 50 milliseconds, than previously reported.
翻訳日:2022-02-17 08:01:38 公開日:2022-02-14
# (参考訳) 医学の発見を学ぶ [全文訳有]

Learning to Discover Medicines ( http://arxiv.org/abs/2202.07096v1 )

ライセンス: CC BY 4.0
Tri Minh Nguyen, Thin Nguyen, Truyen Tran(参考訳) 新しい薬の発見は、より良く長く生きるための人間の努力の要である。 しかし、発見のペースは鈍化しており、今日の高水準の生物医学分野に匹敵する分野を見つけるためには、より未発見の分野に参入する必要がある。 強力なコンピューティング、大規模なバイオメディカルデータベース、そしてディープラーニングのブレークスルーによって、現代のAIが利用できるようになると、AIは急速に成熟し、この分野に大きな影響を及ぼす準備が整っているため、このループを壊すことが期待されている。 本稿では,この課題を解決しようとするAI方法論の最近の進歩を概観する。 我々は、薬物発見のためのAIの広大かつ急速に成長する文献を、比較的安定した3つのサブアリーナにまとめる。 a) 分子配列及び幾何学グラフを用いた表現学習 b) 分子の性質とその結合を予測し、既存の化合物を最適化し、デノボ分子を生成し、標的分子の合成を計画するデータ駆動推論 (c)生物医学的知識グラフの構築と推論について論じる知識に基づく推論。 オープンな課題も特定し、今後数年間の研究方向性を図示します。

Discovering new medicines is the hallmark of human endeavor to live a better and longer life. Yet the pace of discovery has slowed down as we need to venture into more wildly unexplored biomedical space to find one that matches today's high standard. Modern AI-enabled by powerful computing, large biomedical databases, and breakthroughs in deep learning-offers a new hope to break this loop as AI is rapidly maturing, ready to make a huge impact in the area. In this paper we review recent advances in AI methodologies that aim to crack this challenge. We organize the vast and rapidly growing literature of AI for drug discovery into three relatively stable sub-areas: (a) representation learning over molecular sequences and geometric graphs; (b) data-driven reasoning where we predict molecular properties and their binding, optimize existing compounds, generate de novo molecules, and plan the synthesis of target molecules; and (c) knowledge-based reasoning where we discuss the construction and reasoning over biomedical knowledge graphs. We will also identify open challenges and chart possible research directions for the years to come.
翻訳日:2022-02-17 07:41:46 公開日:2022-02-14
# (参考訳) 非マルコフ環境における適応サンプリング後の統計的推測

Statistical Inference After Adaptive Sampling in Non-Markovian Environments ( http://arxiv.org/abs/2202.07098v1 )

ライセンス: CC BY 4.0
Kelly W Zhang, Lucas Janson, Susan A Murphy(参考訳) モバイルヘルスや教育などのデジタルアプリケーションにおける介入をリアルタイムにパーソナライズするために,強化学習(RL)やバンディットアルゴリズムなどの適応的サンプリング手法を利用したい,という大きな願望がある。 実際にそのようなアルゴリズムがより広範に使用されるのを防ぐ大きな障害は、結果が適応的に収集されたデータが、時間変化による因果効果に関する質問を含む推論上の問題に確実に答えられることを保証することの欠如である。 このようなデータに対する統計的推測法は不十分である (a)環境力学に関する強い仮定(例えば、文脈的バンディットやマルコフ的環境を仮定するなど) b) ユーザ毎に1つの適応サンプリングアルゴリズムで収集するデータが必要であり、複数のユーザのデータをプールすることでアクションを選択するアルゴリズムによって収集されたデータを排除する。 本研究では,不確かさを定量化するための適応サンドイッチ推定器を導入することで,初期進行を図る。 (a) ユーザ報酬やコンテキストが時間とともに非定常的であり、非常に依存している場合でも有効である。 (b)オンライン適応サンプリングアルゴリズムが全ユーザのデータを用いて学習する設定に対応する。 さらに,本手法は適応サンプリングアルゴリズムで用いられる報酬モデルの誤特定に対して頑健である。 この研究は、rlアルゴリズムをアクション選択に使用する実験をデザインする作業に動機づけられているが、試行終了後に一次分析を行うには、信頼性の高い統計的推論が不可欠である。

There is a great desire to use adaptive sampling methods, such as reinforcement learning (RL) and bandit algorithms, for the real-time personalization of interventions in digital applications like mobile health and education. A major obstacle preventing more widespread use of such algorithms in practice is the lack of assurance that the resulting adaptively collected data can be used to reliably answer inferential questions, including questions about time-varying causal effects. Current methods for statistical inference on such data are insufficient because they (a) make strong assumptions regarding the environment dynamics, e.g., assume a contextual bandit or Markovian environment, or (b) require data to be collected with one adaptive sampling algorithm per user, which excludes data collected by algorithms that learn to select actions by pooling the data of multiple users. In this work, we make initial progress by introducing the adaptive sandwich estimator to quantify uncertainty; this estimator (a) is valid even when user rewards and contexts are non-stationary and highly dependent over time, and (b) accommodates settings in which an online adaptive sampling algorithm learns using the data of all users. Furthermore, our inference method is robust to misspecification of the reward models used by the adaptive sampling algorithm. This work is motivated by our work designing experiments in which RL algorithms are used to select actions, yet reliable statistical inference is essential for conducting primary analyses after the trial is over.
翻訳日:2022-02-17 07:26:31 公開日:2022-02-14
# MGCVAE:分子グラフ条件変分オートエンコーダによる多目的逆設計

MGCVAE: Multi-objective Inverse Design via Molecular Graph Conditional Variational Autoencoder ( http://arxiv.org/abs/2202.07476v1 )

ライセンス: Link先を確認
Myeonghun Lee and Kyoungmin Min(参考訳) 様々な分野の最終的な目標は、医薬品開発における水溶性分子の発見や、有機発光ダイオード(oled)や光増感剤に適した分子の発見など、望ましい性質を持つ分子を直接生成することである。 そこで本研究では,de novo設計のためのオートエンコーダに基づく分子グラフ生成モデルを提案する。 特定の特性を有する分子を生成するための分子グラフ条件変動オートエンコーダ(mgcvae)の性能を分子グラフ変動オートエンコーダ(mgvae)と比較した。 さらに, MGCVAEの多目的最適化を適用し, 2つの特性を同時に満たした。 本研究では,特に薬物発見において,de novo分子の設計を目的とした最適化目標として,logpとmolarの2つの物理特性を用いた。 その結果、MGCVAEでは25.89%の最適化された分子が生成され、MGVAEでは0.66%であった。 したがって、MGCVAEは2つの標的特性を持つ薬物様分子を効果的に生成することを示した。 本研究は,これらのグラフに基づくデータ駆動モデルが,創薬などの物理特性を満たす新しい分子を設計するための有効な手法の1つであることを示唆する。

The ultimate goal of various fields is to directly generate molecules with desired properties, such as finding water-soluble molecules in drug development and finding molecules suitable for organic light-emitting diode (OLED) or photosensitizers in the field of development of new organic materials. In this respect, this study proposes a molecular graph generative model based on the autoencoder for de novo design. The performance of molecular graph conditional variational autoencoder (MGCVAE) for generating molecules having specific desired properties is investigated by comparing it to molecular graph variational autoencoder (MGVAE). Furthermore, multi-objective optimization for MGCVAE was applied to satisfy two selected properties simultaneously. In this study, two physical properties -- logP and molar refractivity -- were used as optimization targets for the purpose of designing de novo molecules, especially in drug discovery. As a result, it was confirmed that among generated molecules, 25.89% optimized molecules were generated in MGCVAE compared to 0.66% in MGVAE. Hence, it demonstrates that MGCVAE effectively produced drug-like molecules with two target properties. The results of this study suggest that these graph-based data-driven models are one of the effective methods of designing new molecules that fulfill various physical properties, such as drug discovery.
翻訳日:2022-02-16 16:08:05 公開日:2022-02-14
# 微分型流体ソルバを用いた学習乱流モデリング

Learned Turbulence Modelling with Differentiable Fluid Solvers ( http://arxiv.org/abs/2202.06988v1 )

ライセンス: Link先を確認
Bj\"orn List, Li-Wei Chen and Nils Thuerey(参考訳) 本稿では,畳み込みニューラルネットワークに基づく乱流モデルの訓練を行う。 これらの学習乱流モデルはシミュレーション時に非圧縮性ナビエ・ストークス方程式の解法を未解決で改善する。 本手法は,複数ステップの最適化勾配の伝播を支援する微分可能な数値解法の開発を含む。 この特性の意義を, 訓練中の未進行ステップ数が多いモデルにおいて, 優れた安定性と精度を示すことで示している。 この手法は, 二次元乱流シナリオ, 均質崩壊乱流ケース, 時間的に変化する混合層, 空間的に変化する混合層に応用される。 本手法は,非モデルシミュレーションと比較して,学習目標に直接統計値を含める必要がなく,長期的 \textit{a-posteriori} 統計の大幅な改善を実現する。 提案手法は, 推定時にも同様に精度良く, 純粋に数値的な手法よりも大幅に性能が向上する。

In this paper, we train turbulence models based on convolutional neural networks. These learned turbulence models improve under-resolved low resolution solutions to the incompressible Navier-Stokes equations at simulation time. Our method involves the development of a differentiable numerical solver that supports the propagation of optimisation gradients through multiple solver steps. We showcase the significance of this property by demonstrating the superior stability and accuracy of those models that featured a higher number of unrolled steps during training. This approach is applied to three two-dimensional turbulence flow scenarios, a homogeneous decaying turbulence case, a temporally evolving mixing layer and a spatially evolving mixing layer. Our method achieves significant improvements of long-term \textit{a-posteriori} statistics when compared to no-model simulations, without requiring these statistics to be directly included in the learning targets. At inference time, our proposed method also gains substantial performance improvements over similarly accurate, purely numerical methods.
翻訳日:2022-02-16 16:05:08 公開日:2022-02-14
# ルービックキューブを使ったロボット操作のベンチマーク

Benchmarking Robot Manipulation with the Rubik's Cube ( http://arxiv.org/abs/2202.07074v1 )

ライセンス: Link先を確認
Boling Yang, Patrick E. Lancaster, Siddhartha S. Srinivasa, Joshua R. Smith(参考訳) ロボット操作のベンチマークはこの分野の進歩を測定するのに不可欠であるが、重要な操作スキルを示し、標準化されたメトリクスを持ち、様々なロボットプラットフォームで試すことができるベンチマークは少ない。 このようなベンチマークの欠如に対処するために,我々はルービックキューブ操作を,精密操作とシーケンシャル操作を同時に測定するベンチマークとして提案する。 ルービックキューブのサブ構造は、ロボットのエンドエフェクターの正確な位置決めを要求するが、その高度に再構成可能な性質は、ロボットに長いアクションの連続を通して不確実性を管理することを要求するタスクを可能にする。 本稿では,ルービックキューブ操作の精度と速度を定量的に測定するプロトコルを提案する。 このプロトコルは汎用マニピュレータで試すことができ、標準の3x3ルービックキューブと、ルービックキューブが最初に静止する平らな面(例えばテーブル)のみを必要とする。 このプロトコルをpr2ロボット上で2つの異なるベースラインアプローチで実証する。 最初のベースラインは、ポーズベースのルービックキューブ操作の基本的なアプローチを提供する。 第2のベースラインは、システムによるパフォーマンス向上、特にタッチ前のセンシングの統合による結果の定量化が可能なベンチマークの能力を示している。 ベンチマークが他のロボットプラットフォームやアルゴリズムアプローチに適用可能であることを示すため、HERBロボットがプッシュグラスピングによりルービックキューブを操作するのに必要な機能ブロックを提示する。

Benchmarks for robot manipulation are crucial to measuring progress in the field, yet there are few benchmarks that demonstrate critical manipulation skills, possess standardized metrics, and can be attempted by a wide array of robot platforms. To address a lack of such benchmarks, we propose Rubik's cube manipulation as a benchmark to measure simultaneous performance of precise manipulation and sequential manipulation. The sub-structure of the Rubik's cube demands precise positioning of the robot's end effectors, while its highly reconfigurable nature enables tasks that require the robot to manage pose uncertainty throughout long sequences of actions. We present a protocol for quantitatively measuring both the accuracy and speed of Rubik's cube manipulation. This protocol can be attempted by any general-purpose manipulator, and only requires a standard 3x3 Rubik's cube and a flat surface upon which the Rubik's cube initially rests (e.g. a table). We demonstrate this protocol for two distinct baseline approaches on a PR2 robot. The first baseline provides a fundamental approach for pose-based Rubik's cube manipulation. The second baseline demonstrates the benchmark's ability to quantify improved performance by the system, particularly that resulting from the integration of pre-touch sensing. To demonstrate the benchmark's applicability to other robot platforms and algorithmic approaches, we present the functional blocks required to enable the HERB robot to manipulate the Rubik's cube via push-grasping.
翻訳日:2022-02-16 15:53:09 公開日:2022-02-14
# クロスモダリティ脳画像合成に関する調査研究

A Survey of Cross-Modality Brain Image Synthesis ( http://arxiv.org/abs/2202.06997v1 )

ライセンス: Link先を確認
Guoyang Xie, Jinbao Wang, Yawen Huang, Yefeng Zheng, Feng Zheng, Yaochu Jin(参考訳) 完全に整列した対のマルチモーダル神経画像データの存在は、脳疾患の診断に有効であることが証明されている。 しかしながら、適切なアラインメントとペアのデータの収集は、コストの高騰、長時間の取得、画像の破損、プライバシーの問題などを含むため、現実的あるいは豪華なものではありません。 現実的な解決策は、教師なしの学習または半教師なしの学習を探索して、欠落した神経画像データを合成することである。 本稿では,マルチモダリティ脳画像合成タスクに対して,監督のレベル,モダリティ合成の範囲,合成に基づくダウンストリームタスクなど,さまざまな観点からアプローチする傾向を示す。 特に,脳のクロスモダリティ画像合成が様々な下流タスクのパフォーマンスを改善する方法について,詳細な分析を行う。 最後に,課題を評価し,コミュニティに対してオープンな方向性をいくつか提示する。 すべてのリソースはhttps://github.com/M -3LAB/awesome-multim odal-brain-image-sys thesisで利用可能である。

The existence of completely aligned and paired multi-modal neuroimaging data has proved its effectiveness in diagnosis of brain diseases. However, collecting the full set of well-aligned and paired data is impractical or even luxurious, since the practical difficulties may include high cost, long time acquisition, image corruption, and privacy issues. A realistic solution is to explore either an unsupervised learning or a semi-supervised learning to synthesize the absent neuroimaging data. In this paper, we tend to approach multi-modality brain image synthesis task from different perspectives, which include the level of supervision, the range of modality synthesis, and the synthesis-based downstream tasks. Particularly, we provide in-depth analysis on how cross-modality brain image synthesis can improve the performance of different downstream tasks. Finally, we evaluate the challenges and provide several open directions for this community. All resources are available at https://github.com/M -3LAB/awesome-multim odal-brain-image-sys thesis
翻訳日:2022-02-16 15:52:02 公開日:2022-02-14
# ハンドクラフト組織変換器(H2T):全スライド画像の教師なし表現

Handcrafted Histological Transformer (H2T): Unsupervised Representation of Whole Slide Images ( http://arxiv.org/abs/2202.07001v1 )

ライセンス: Link先を確認
Quoc Dang Vu, Kashif Rajpoot, Shan E Ahmed Raza, Nasir Rajpoot(参考訳) 病理診療所におけるがんの診断・予後・治療決定は、多ギガピクセルの組織像、あるいは全スライディング画像(英語版)(WSIs)の分析に基づいて行うことができる。 近年、深層畳み込みニューラルネットワーク (deep convolutional neural networks, cnns) が、教師なしのwsi表現を導出するために提案されている。 しかし、大きなトレードオフは、高い予測力は一般的に解釈可能性の犠牲を伴い、意思決定における透明性が一般的に期待される臨床利用に挑戦していることである。 この課題に対処するため、我々は、総合的なWSIレベルの表現を構築するためのディープCNNに基づく手作りのフレームワークを提案する。 自然言語処理領域におけるトランスフォーマーの内部作業に関する最近の知見に基づき、その過程を分解し、より透明な枠組みにハンドクラフトし、ハンドクラフトされた組織学的トランスフォーマー(h2t)と呼ぶ。 合計5,306 wsisからなる各種データセットを用いた実験の結果,h2tベースの全体的wsiレベル表現は,最新の最先端手法と比較して競争力のある性能を示し,下流解析タスクに容易に利用できることを示した。 最後に、我々の結果は、H2TフレームワークがTransformerモデルよりも最大14倍高速であることを示す。

Diagnostic, prognostic and therapeutic decision-making of cancer in pathology clinics can now be carried out based on analysis of multi-gigapixel tissue images, also known as whole-slide images (WSIs). Recently, deep convolutional neural networks (CNNs) have been proposed to derive unsupervised WSI representations; these are attractive as they rely less on expert annotation which is cumbersome. However, a major trade-off is that higher predictive power generally comes at the cost of interpretability, posing a challenge to their clinical use where transparency in decision-making is generally expected. To address this challenge, we present a handcrafted framework based on deep CNN for constructing holistic WSI-level representations. Building on recent findings about the internal working of the Transformer in the domain of natural language processing, we break down its processes and handcraft them into a more transparent framework that we term as the Handcrafted Histological Transformer or H2T. Based on our experiments involving various datasets consisting of a total of 5,306 WSIs, the results demonstrate that H2T based holistic WSI-level representations offer competitive performance compared to recent state-of-the-art methods and can be readily utilized for various downstream analysis tasks. Finally, our results demonstrate that the H2T framework can be up to 14 times faster than the Transformer models.
翻訳日:2022-02-16 15:51:46 公開日:2022-02-14
# 人工知能を用いたソーシャルメディアにおける地すべりのリアルタイム検出システム

A Real-time System for Detecting Landslide Reports on Social Media using Artificial Intelligence ( http://arxiv.org/abs/2202.07475v1 )

ライセンス: Link先を確認
Ferda Ofli, Umair Qazi, Muhammad Imran, Julien Roch, Catherine Pennington, Vanessa Banks, Remy Bossu(参考訳) 本稿では,ソーシャルメディアデータをリアルタイムに活用し,最先端の人工知能技術を用いて地すべり関連情報を自動識別するオンラインシステムを提案する。 デザインされたシステム (i)重複コンテンツ及び無関係コンテンツを排除することにより、情報過負荷を低減する。 (ii)地すべり画像の特定。 (iii)画像の位置情報を推定し、 (iv)情報を共有しているアカウントのユーザタイプ(組織又は人)を分類する。 このシステムは2020年2月に https://landslide-ai dr.qcri.org/landslid e_system.php にオンラインにデプロイされ、ライブTwitterのデータストリームを監視し、イギリス地質調査所や欧州地中海地震センターなどのパートナーに時間クリティカルな情報を提供している。 我々は,このシステムが地球規模の地すべりデータの収集に寄与し,さらなる研究と,緊急対応と意思決定を容易にするグローバル地すべりマップの支援に寄与できると信じている。

This paper presents an online system that leverages social media data in real time to identify landslide-related information automatically using state-of-the-art artificial intelligence techniques. The designed system can (i) reduce the information overload by eliminating duplicate and irrelevant content, (ii) identify landslide images, (iii) infer geolocation of the images, and (iv) categorize the user type (organization or person) of the account sharing the information. The system was deployed in February 2020 online at https://landslide-ai dr.qcri.org/landslid e_system.php to monitor live Twitter data stream and has been running continuously since then to provide time-critical information to partners such as British Geological Survey and European Mediterranean Seismological Centre. We trust this system can both contribute to harvesting of global landslide data for further research and support global landslide maps to facilitate emergency response and decision making.
翻訳日:2022-02-16 15:48:06 公開日:2022-02-14
# 人間とロボットの競争による身体活動のモチベーション

Motivating Physical Activity via Competitive Human-Robot Interaction ( http://arxiv.org/abs/2202.07068v1 )

ライセンス: Link先を確認
Boling Yang, Golnaz Habibi, Patrick E. Lancaster, Byron Boots, Joshua R. Smith(参考訳) このプロジェクトの目的は、身体運動やゲームのような特定のシナリオで人間ユーザーに挑戦できるロボットの競争相手を作ることによって、人間とロボットの競争における研究を動機付けることである。 この目標を念頭に、ロボットの競争力とユーザエクスペリエンスの両方を評価するために使用される人間ロボットコンペティションであるFencing Gameを紹介します。 我々は,反復的マルチエージェント強化学習を通じてロボットの競争相手を開発し,人間の競争相手に対して良好な性能を示す。 また,本システムは,被験者の心拍数を大幅に増加させるような,挑戦的で楽しいインタラクションを継続的に生成することができた。 被験者の大多数は、運動の質を向上させるためにこのシステムを楽しませ、望ましいと考えた。

This project aims to motivate research in competitive human-robot interaction by creating a robot competitor that can challenge human users in certain scenarios such as physical exercise and games. With this goal in mind, we introduce the Fencing Game, a human-robot competition used to evaluate both the capabilities of the robot competitor and user experience. We develop the robot competitor through iterative multi-agent reinforcement learning and show that it can perform well against human competitors. Our user study additionally found that our system was able to continuously create challenging and enjoyable interactions that significantly increased human subjects' heart rates. The majority of human subjects considered the system to be entertaining and desirable for improving the quality of their exercise.
翻訳日:2022-02-16 15:46:18 公開日:2022-02-14
# 生成的クエリニューラルネットワークによる量子状態のフレキシブル学習

Flexible learning of quantum states with generative query neural networks ( http://arxiv.org/abs/2202.06804v1 )

ライセンス: Link先を確認
Yan Zhu, Ya-Dong Wu, Ge Bai, Yuexuan Wang and Giulio Chiribella(参考訳) ディープニューラルネットワークは、量子状態を特徴付ける強力なツールである。 このタスクでは、ニューラルネットワークは通常、特徴づけられる量子状態から収集された測定データで訓練される。 しかし、ニューラルネットワークを汎用的な方法でトレーニングすることは可能で、複数の未知の量子状態に適用できますか? 本稿では,2d画像から3dシーンを学習するために古典的領域でもともと用いられたニューラルネットワークの一種である生成的クエリニューラルネットワークを用いて,複数の量子状態と異なる測定設定での学習を実現することを示す。 我々のネットワークは、古典的にシミュレートされたデータでオフラインでトレーニングでき、後に未知の量子状態を実際の実験データから特徴づけるのに使うことができる。 量子物理学のガイダンスはほとんどなく、ネットワークは独自の量子状態のデータ駆動表現を構築し、興味のある状態に関する要求された量子測定の結果の確率を予測するためにそれを利用する。 このアプローチは、量子計測設定が情報的に完全ではなく、実験データが利用可能になるにつれて予測がリアルタイムに行われなければならない状態学習シナリオや、測定選択と予測要求が学習不正確さを公開するように設計されている敵シナリオに適用することができる。 ネットワークが生成する内部表現は、状態のクラスタリングや物理的特性の予測など、状態の特性以外のタスクに使用できる。 本手法の特徴は,イジングモデルと連続変数非ガウス状態の多量子基底状態について示す。

Deep neural networks are a powerful tool for characterizing quantum states. In this task, neural networks are typically trained with measurement data gathered from the quantum state to be characterized. But is it possible to train a neural network in a general-purpose way, which makes it applicable to multiple unknown quantum states? Here we show that learning across multiple quantum states and different measurement settings can be achieved by a generative query neural network, a type of neural network originally used in the classical domain for learning 3D scenes from 2D pictures. Our network can be trained offline with classically simulated data, and later be used to characterize unknown quantum states from real experimental data. With little guidance of quantum physics, the network builds its own data-driven representation of quantum states, and then uses it to predict the outcome probabilities of requested quantum measurements on the states of interest. This approach can be applied to state learning scenarios where quantum measurement settings are not informationally complete and predictions must be given in real time, as experimental data become available, as well as to adversarial scenarios where measurement choices and prediction requests are designed to expose learning inaccuracies. The internal representation produced by the network can be used for other tasks beyond state characterization, including clustering of states and prediction of physical properties. The features of our method are illustrated on many-qubit ground states of Ising model and continuous-variable non-Gaussian states.
翻訳日:2022-02-16 15:45:10 公開日:2022-02-14
# 視覚感覚異常検出の実態調査

A Survey of Visual Sensory Anomaly Detection ( http://arxiv.org/abs/2202.07006v1 )

ライセンス: Link先を確認
Xi Jiang, Guoyang Xie, Jinbao Wang, Yong Liu, Chengjie Wang, Feng Zheng, Yaochu Jin(参考訳) 視覚感覚異常検出(AD)はコンピュータビジョンにおいて重要な問題であり、AIの開発により近年勢いが増している。 ラベルレベルで異常を検出する意味異常検出(セマンティックシフト)と比較して、視覚感覚ADはサンプルの異常部分を検出する(共変シフト)。 しかし、この領域をコンピュータビジョンコミュニティに要約するための詳細なレビューは提供されていない。 本調査は,視覚感覚のADとカテゴリーを,異常の形で3段階にまとめて概観する最初の試みである。 さらに,各種類の異常を,監督レベルに応じて分類する。 最後に,課題をまとめ,コミュニティに対してオープンな方向性を提供します。 すべてのリソースはhttps://github.com/M -3LAB/awesome-visual -sensory-anomaly-det ectionで入手できる。

Visual sensory anomaly detection (AD) is an essential problem in computer vision, which is gaining momentum recently thanks to the development of AI for good. Compared with semantic anomaly detection which detects anomaly at the label level (semantic shift), visual sensory AD detects the abnormal part of the sample (covariate shift). However, no thorough review has been provided to summarize this area for the computer vision community. In this survey, we are the first one to provide a comprehensive review of visual sensory AD and category into three levels according to the form of anomalies. Furthermore, we classify each kind of anomaly according to the level of supervision. Finally, we summarize the challenges and provide open directions for this community. All resources are available at https://github.com/M -3LAB/awesome-visual -sensory-anomaly-det ection.
翻訳日:2022-02-16 15:11:32 公開日:2022-02-14
# Building Inspection Toolkit: 損傷認識のための統一評価と強力なベースライン

Building Inspection Toolkit: Unified Evaluation and Strong Baselines for Damage Recognition ( http://arxiv.org/abs/2202.07012v1 )

ライセンス: Link先を確認
Johannes Flotzinger, Philipp J. R\"osch, Norbert Oswald, Thomas Braml(参考訳) 近年,建築構造物の自動検査の範囲内での損傷認識の問題に,企業や研究者が取り組み始めている。 企業は関連するデータやモデルを公開する意思はないが、研究者はデータ不足の問題に直面しており、データセットの分割と一貫性のないメトリクスの欠如に直面している。 これは相反する結果をもたらす。 そこで我々は,損傷認識の分野において,関連するオープンソースデータセットを含むデータハブを簡易に使用するためのビルディングインスペクションツールキットであるbikitを紹介する。 データセットには評価分割と事前定義されたメトリクスが組み込まれ、特定のタスクとそのデータ分布に適合する。 互換性とこの分野の研究者のモチベーションのために、私たちはリーダーボードとモデル重みをコミュニティと共有する可能性も提供しています。 出発点として、最先端アルゴリズムの3つの伝達学習アプローチを用いて、広範囲なハイパーパラメータ探索を利用するマルチターゲット分類タスクに強力なベースラインを提供する。 toolkitとleaderboardはオンラインで入手できる。

In recent years, several companies and researchers have started to tackle the problem of damage recognition within the scope of automated inspection of built structures. While companies are neither willing to publish associated data nor models, researchers are facing the problem of data shortage on one hand and inconsistent dataset splitting with the absence of consistent metrics on the other hand. This leads to incomparable results. Therefore, we introduce the building inspection toolkit -- bikit -- which acts as a simple to use data hub containing relevant open-source datasets in the field of damage recognition. The datasets are enriched with evaluation splits and predefined metrics, suiting the specific task and their data distribution. For the sake of compatibility and to motivate researchers in this domain, we also provide a leaderboard and the possibility to share model weights with the community. As starting point we provide strong baselines for multi-target classification tasks utilizing extensive hyperparameter search using three transfer learning approaches for state-of-the-art algorithms. The toolkit and the leaderboard are available online.
翻訳日:2022-02-16 15:09:52 公開日:2022-02-14
# リモートセンシングにおけるユニバーサル・ディバーショナル・サンプル:方法論とベンチマーク

Universal Adversarial Examples in Remote Sensing: Methodology and Benchmark ( http://arxiv.org/abs/2202.07054v1 )

ライセンス: Link先を確認
Yonghao Xu and Pedram Ghamisi(参考訳) ディープニューラルネットワークは多くの重要なリモートセンシングタスクで大きな成功を収めています。 それでも、敵の例に対する脆弱性は無視されるべきではない。 本研究では,リモートセンシングデータにおける普遍的敵対例を,被害者モデルから何の知識もなく,初めて体系的に解析する。 具体的には,リモートセンシングデータに対する新しいブラックボックス攻撃手法であるmixup-attackと,その単純変種であるmixcut-attackを提案する。 提案手法の鍵となる考え方は、与えられたサーロゲートモデルの浅い層の特徴を攻撃することによって、異なるネットワーク間で共通の脆弱性を見つけることである。 そのシンプルさにもかかわらず、提案手法は、シーン分類とセマンティクスセグメンテーションタスクの両方において、最先端のディープニューラルネットワークの大部分を高い成功率で欺く、転送可能な逆向きの例を生成することができる。 我々はさらに,uae-rsというデータセットにおいて生成された普遍的な敵意の例を示し,リモートセンシングの分野でブラックボックスの敵意的なサンプルを提供する最初のデータセットである。 uae-rsは、研究者がリモートセンシング分野の敵対的攻撃に対して強い抵抗を持つディープニューラルネットワークを設計するのに役立つベンチマークになることを期待している。 コードとUAE-RSデータセットはオンラインで提供される。

Deep neural networks have achieved great success in many important remote sensing tasks. Nevertheless, their vulnerability to adversarial examples should not be neglected. In this study, we systematically analyze the universal adversarial examples in remote sensing data for the first time, without any knowledge from the victim model. Specifically, we propose a novel black-box adversarial attack method, namely Mixup-Attack, and its simple variant Mixcut-Attack, for remote sensing data. The key idea of the proposed methods is to find common vulnerabilities among different networks by attacking the features in the shallow layer of a given surrogate model. Despite their simplicity, the proposed methods can generate transferable adversarial examples that deceive most of the state-of-the-art deep neural networks in both scene classification and semantic segmentation tasks with high success rates. We further provide the generated universal adversarial examples in the dataset named UAE-RS, which is the first dataset that provides black-box adversarial samples in the remote sensing field. We hope UAE-RS may serve as a benchmark that helps researchers to design deep neural networks with strong resistance toward adversarial attacks in the remote sensing field. Codes and the UAE-RS dataset will be available online.
翻訳日:2022-02-16 15:09:36 公開日:2022-02-14
# ICBeデータセットの導入:国際危機に関するナラティブからの非常に高いリコールと高精度イベント抽出

Introducing the ICBe Dataset: Very High Recall and Precision Event Extraction from Narratives about International Crises ( http://arxiv.org/abs/2202.07081v1 )

ライセンス: Link先を確認
Rex W. Douglass, Thomas Leo Scherer, J. Andr\'es Gannon, Erik Gartzke, Jon Lindsay, Shannon Carcelli, Jonathan Wilkenfeld, David M. Quinn, Catherine Aiken, Jose Miguel Cabezas Navarro, Neil Lund, Egle Murauskaite, Diana Partridge(参考訳) 国際危機はどのように展開するのか? 我々は、敵間の戦略的チェスゲームとして国際関係を思いつき、異なる状況や時代を正確にかつ一貫して計測する体系的な方法を必要とする。 我々は,危機行動と相互作用のオントロジーを用いたこのような測定戦略を開発し,国際危機行動(ICB)プロジェクトによって記録された危機物語の高品質コーパスに適用する。 オントロジーは,これらの物語に含まれる思考,言論,行動の大部分を網羅し,人間のコーダが適用した場合のコーダ間合意を高くすることを示した。 本稿では,新たな危機事象データセットicbイベント(icbe)を提案する。 ICBeは、他のよく認識されたイベントや危機データセットよりも正確で粒度の高い危機の過程をキャプチャする。 我々は、データ、レプリケーション材料、および追加の視覚化をコンパニオンwebサイトwww.crisisevents.org で利用可能にする。

How do international crises unfold? We conceive of international affairs as a strategic chess game between adversaries, necessitating a systematic way to measure pieces, moves, and gambits accurately and consistently over different contexts and periods. We develop such a measurement strategy with an ontology of crisis actions and interactions and apply it to a high-quality corpus of crisis narratives recorded by the International Crisis Behavior (ICB) Project. We demonstrate that the ontology has high coverage over most of the thoughts, speech, and actions contained in these narratives and produces high inter-coder agreement when applied by human coders. We introduce a new crisis event dataset ICB Events (ICBe). We find that ICBe captures the process of a crisis with greater accuracy and granularity than other well-regarded events or crisis datasets. We make the data, replication material, and additional visualizations available at a companion website www.crisisevents.org .
翻訳日:2022-02-16 15:04:15 公開日:2022-02-14
# 線形および深部モデルに対する連続一般化順序回帰

Continuously Generalized Ordinal Regression for Linear and Deep Models ( http://arxiv.org/abs/2202.07005v1 )

ライセンス: Link先を確認
Fred Lu, Francis Ferraro, Edward Raff(参考訳) 正規回帰は、クラスが順序を持ち、予測エラーが予測されたクラスが真のクラスからさらに大きくなるような分類タスクである。 順序データモデリングの標準的なアプローチは、ある損失関数を最適化する超平面を平行に分離するものである。 この仮定は、帰納的バイアスによるサンプル効率的な学習を提供するが、機能が異なるカテゴリにまたがる影響を持つ可能性がある現実のデータセットでは、制限的すぎることが多い。 クラス固有の超平面斜面が与えられると、一般化されたロジスティック順序回帰が生じ、モデルの柔軟性が向上し、効率が向上する。 一般化モデルのロジスティック損失への拡張を探索し,これら2つの極値間を補間する正規化手法を提案する。 本手法は,連続的に一般化した順序的ロジスティック(ordinal logistic)と呼ぶ手法であり,順序的回帰ベンチマークデータセットの完全な集合よりも,標準的な順序的ロジスティックモデルを大幅に上回っている。 さらに,この手法を深層学習に拡張し,様々なデータセットやモダリティに対して,従来のモデルと比較して,競合的あるいは低い予測誤差を実現することを示す。 さらに,深層学習順序回帰のための2つの主要な代替モデルが,このフレームワークの特別なケースであることが示されている。

Ordinal regression is a classification task where classes have an order and prediction error increases the further the predicted class is from the true class. The standard approach for modeling ordinal data involves fitting parallel separating hyperplanes that optimize a certain loss function. This assumption offers sample efficient learning via inductive bias, but is often too restrictive in real-world datasets where features may have varying effects across different categories. Allowing class-specific hyperplane slopes creates generalized logistic ordinal regression, increasing the flexibility of the model at a cost to sample efficiency. We explore an extension of the generalized model to the all-thresholds logistic loss and propose a regularization approach that interpolates between these two extremes. Our method, which we term continuously generalized ordinal logistic, significantly outperforms the standard ordinal logistic model over a thorough set of ordinal regression benchmark datasets. We further extend this method to deep learning and show that it achieves competitive or lower prediction error compared to previous models over a range of datasets and modalities. Furthermore, two primary alternative models for deep learning ordinal regression are shown to be special cases of our framework.
翻訳日:2022-02-16 15:02:45 公開日:2022-02-14
# 不均質なデモから学ぶ生涯学習における戦略発見と混合

Strategy Discovery and Mixture in Lifelong Learning from Heterogeneous Demonstration ( http://arxiv.org/abs/2202.07014v1 )

ライセンス: Link先を確認
Sravan Jayanthi, Letian Chen, Matthew Gombolay(参考訳) 実証から学ぶ(LfD)アプローチは、エンドユーザーに対して、望ましい振る舞いのデモを通じてロボットに新しいタスクを教えること、ロボット工学へのアクセスを民主化する。 lfd研究における重要な課題は、ユーザは様々な戦略や好みのために同じタスクに対して異種デモを提供する傾向があることである。 したがって、ロボットは、 \textit{flexibility} (ロボットはパーソナライズされた戦略に適応する)、 \textit{efficiency} (サンプル効率の高い適応を実現する)、および \textit{scalability} (ロボットは、大量の行動を表すための簡潔な戦略セットを再利用する)を保証するlfdアルゴリズムを開発することが不可欠である。 本稿では,不均質な実演間の共通知識を蒸留し,学習戦略を活用して混合政策を構築し,利用可能な全データから学習し,改良を続ける,新しいアルゴリズムである動的多戦略報酬蒸留(dmsrd)を提案する。 当社のパーソナライズ、フェデレーション、生涯にわたるLfDアーキテクチャは、2つの継続的制御問題におけるベンチマークを上回り、ポリシーリターンは平均77%改善し、ログ可能性は42パーセント改善した。

Learning from Demonstration (LfD) approaches empower end-users to teach robots novel tasks via demonstrations of the desired behaviors, democratizing access to robotics. A key challenge in LfD research is that users tend to provide heterogeneous demonstrations for the same task due to various strategies and preferences. Therefore, it is essential to develop LfD algorithms that ensure \textit{flexibility} (the robot adapts to personalized strategies), \textit{efficiency} (the robot achieves sample-efficient adaptation), and \textit{scalability} (robot reuses a concise set of strategies to represent a large amount of behaviors). In this paper, we propose a novel algorithm, Dynamic Multi-Strategy Reward Distillation (DMSRD), which distills common knowledge between heterogeneous demonstrations, leverages learned strategies to construct mixture policies, and continues to improve by learning from all available data. Our personalized, federated, and lifelong LfD architecture surpasses benchmarks in two continuous control problems with an average 77\% improvement in policy returns and 42\% improvement in log likelihood, alongside stronger task reward correlation and more precise strategy rewards.
翻訳日:2022-02-16 15:02:25 公開日:2022-02-14
# IMU強化ペンによるオンラインシーケンスと文字による手書き文字認識のベンチマーク

Benchmarking Online Sequence-to-Sequence and Character-based Handwriting Recognition from IMU-Enhanced Pens ( http://arxiv.org/abs/2202.07036v1 )

ライセンス: Link先を確認
Felix Ott and David R\"ugamer and Lucas Heublein and Tim Hamann and Jens Barth and Bernd Bischl and Christopher Mutschler(参考訳) 手書き文字は日常生活において最も頻繁に発生するパターンの1つであり、手書き文字認識(HWR)、書き手識別、署名検証といった課題がある。 空間情報のみを使用するオフラインHWRとは対照的に、オンラインHWR(OnHWR)はよりリッチな時空間情報(トラジェクトリデータまたは慣性データ)を使用する。 多くのオフラインHWRデータセットが存在するが、ハードウェア統合ペンを必要とするため、OnHWRメソッドの開発に必要なデータはほとんどない。 本稿では,sequence-to-sequenc e (seq2seq) 学習と単一文字認識のためのデータとベンチマークモデルを提案する。 我々のデータは、センサーによって強化されたボールペンによって記録され、3軸加速度計、ジャイロスコープ、磁力計、100Hzの力センサーからセンサデータストリームが生成される。 本稿では,ライタ依存タスクとライタ非依存タスクの両方に対して,方程式や単語を含む多種多様なデータセットを提案する。 繰り返し畳み込みネットワークとトランスフォーマを用いたseq2seqおよびsingle character-based hwrの評価ベンチマークと、接続型時間分類(ctc)損失とクロスエントロピー損失を組み合わせた評価ベンチマークを提供する。 我々の手法は言語モデルや語彙モデルに頼らない。

Handwriting is one of the most frequently occurring patterns in everyday life and with it come challenging applications such as handwriting recognition (HWR), writer identification, and signature verification. In contrast to offline HWR that only uses spatial information (i.e., images), online HWR (OnHWR) uses richer spatio-temporal information (i.e., trajectory data or inertial data). While there exist many offline HWR datasets, there is only little data available for the development of OnHWR methods as it requires hardware-integrated pens. This paper presents data and benchmark models for real-time sequence-to-sequence (seq2seq) learning and single character-based recognition. Our data is recorded by a sensor-enhanced ballpoint pen, yielding sensor data streams from triaxial accelerometers, a gyroscope, a magnetometer and a force sensor at 100Hz. We propose a variety of datasets including equations and words for both the writer-dependent and writer-independent tasks. We provide an evaluation benchmark for seq2seq and single character-based HWR using recurrent and temporal convolutional networks and Transformers combined with a connectionist temporal classification (CTC) loss and cross entropy losses. Our methods do not resort to language or lexicon models.
翻訳日:2022-02-16 15:01:58 公開日:2022-02-14
# ヘテロフィリーグラフのためのグラフニューラルネットワーク:調査

Graph Neural Networks for Graphs with Heterophily: A Survey ( http://arxiv.org/abs/2202.07082v1 )

ライセンス: Link先を確認
Xin Zheng, Yixin Liu, Shirui Pan, Miao Zhang, Di Jin, Philip S. Yu(参考訳) 近年、グラフ分析タスクや応用の無数の恩恵を受けているグラフニューラルネットワーク(GNN)の急速な発展を目撃している。 一般に、ほとんどのGNNは、同じクラスに属するノードが接続される可能性が高いというホモフィリーな仮定に依存している。 しかし、多くの実世界のシナリオにおいてユビキタスなグラフ特性として、例えば、異なるラベルを持つノードはリンクされがちであり、テーラーメイドのホモ親和性GNNの性能を著しく制限する。 したがって、このコミュニティでは \textit{gnns for heterophilic graphs} が注目されている。 本稿では,この知識を最大限に活用するために,ヘテロ親和性グラフに対するgnnの包括的レビューを初めて実施する。 具体的には,既存の異好性GNNモデルを概説し,概説と詳細な分析を行う系統分類法を提案する。 さらに,親和性グラフベンチマークの主流を要約し,ロバストで公平な評価を容易にする。 最後に、好冷グラフの今後の研究と応用を前進させ、刺激するための潜在的方向性を指摘する。

Recent years have witnessed fast developments of graph neural networks (GNNs) that have benefited myriads of graph analytic tasks and applications. In general, most GNNs depend on the homophily assumption that nodes belonging to the same class are more likely to be connected. However, as a ubiquitous graph property in numerous real-world scenarios, heterophily, i.e., nodes with different labels tend to be linked, significantly limits the performance of tailor-made homophilic GNNs. Hence, \textit{GNNs for heterophilic graphs} are gaining increasing attention in this community. To the best of our knowledge, in this paper, we provide a comprehensive review of GNNs for heterophilic graphs for the first time. Specifically, we propose a systematic taxonomy that essentially governs existing heterophilic GNN models, along with a general summary and detailed analysis. Furthermore, we summarize the mainstream heterophilic graph benchmarks to facilitate robust and fair evaluations. In the end, we point out the potential directions to advance and stimulate future research and applications on heterophilic graphs.
翻訳日:2022-02-16 15:01:32 公開日:2022-02-14
# 表現学習改善のための識別可能性の低下

Discriminability-enf orcing loss to improve representation learning ( http://arxiv.org/abs/2202.07073v1 )

ライセンス: Link先を確認
Florinel-Alin Croitoru, Diana-Nicoleta Grigore, Radu Tudor Ionescu(参考訳) トレーニングプロセス中、ディープニューラルネットワークは、階層のサイズがレイヤ数によって決定される特徴の階層を通じて、入力データサンプルの表現を暗黙的に学習する。 本稿では,より深い層(出力に近い層)によって学習される高次表現の識別力の強化に焦点をあてる。 そこで我々は,クラスラベルに対する個々の高次特徴のエントロピー(識別力の向上)を最小化することを目的とした,ジニ不純物にインスパイアされた新たな損失項を導入する。 我々のGini損失は高い差別的特徴をもたらすが、高レベルの特徴の分布がクラスの分布と一致していることを保証するものではない。 そこで,2つの分布間のkullback-leiblerの発散を最小限に抑えるために,新たな損失項を導入する。 畳み込みネットワーク(resnet-17,resnet-18 ,resnet-50)からトランスフォーマー(cvt)まで,複数のニューラルネットワークを考慮した2つの画像分類データセット(cifar-100とcaltech 101)の実験を行った。 実験結果から,新たな損失項をトレーニング目標に組み込むことで,クロスエントロピー単独でトレーニングしたモデルに一貫して勝ることが示された。

During the training process, deep neural networks implicitly learn to represent the input data samples through a hierarchy of features, where the size of the hierarchy is determined by the number of layers. In this paper, we focus on enforcing the discriminative power of the high-level representations, that are typically learned by the deeper layers (closer to the output). To this end, we introduce a new loss term inspired by the Gini impurity, which is aimed at minimizing the entropy (increasing the discriminative power) of individual high-level features with respect to the class labels. Although our Gini loss induces highly-discriminativ e features, it does not ensure that the distribution of the high-level features matches the distribution of the classes. As such, we introduce another loss term to minimize the Kullback-Leibler divergence between the two distributions. We conduct experiments on two image classification data sets (CIFAR-100 and Caltech 101), considering multiple neural architectures ranging from convolutional networks (ResNet-17, ResNet-18, ResNet-50) to transformers (CvT). Our empirical results show that integrating our novel loss terms into the training objective consistently outperforms the models trained with cross-entropy alone.
翻訳日:2022-02-16 14:30:14 公開日:2022-02-14
# メトリック学習からの教訓は、イメージキャプチャー検索に一般化するか?

Do Lessons from Metric Learning Generalize to Image-Caption Retrieval? ( http://arxiv.org/abs/2202.07474v1 )

ライセンス: Link先を確認
Maurits Bleeker and Maarten de Rijke(参考訳) 半ハードな負のトリプルト損失は、スクラッチから最適化されたイメージキャプション検索(ICR)メソッドのデファクト選択となっている。 メトリック学習の最近の進歩は、画像検索や表現学習といったタスクにおける三重項損失を上回る新しい損失関数を生み出した。 これらの結果は,2つのICR法における3つの損失関数を比較することで,ICRの設定に一般化するかどうかを問う。 半硬負のマイニングによる三重項損失は、ICCタスクにおける計量学習から新たに導入された損失関数を上回っている。 これらの結果をよりよく理解するために,最適化中のクエリ表現の勾配 w.r.t に寄与するサンプル数を数えて損失関数を比較する解析手法を提案する。 icrタスクにおける評価スコアを低下させる損失関数は、一般に、クエリ表現の勾配 w.r.t. を計算する際に、過剰な(非インフォーマティブな)サンプルを考慮に入れることで、最適化性能を低下させる。 半ハード負のトリプレット損失は、勾配を計算する際にのみ1(ハード)負の値を取るため、他の損失関数を上回ることが示されている。

The triplet loss with semi-hard negatives has become the de facto choice for image-caption retrieval (ICR) methods that are optimized from scratch. Recent progress in metric learning has given rise to new loss functions that outperform the triplet loss on tasks such as image retrieval and representation learning. We ask whether these findings generalize to the setting of ICR by comparing three loss functions on two ICR methods. We answer this question negatively: the triplet loss with semi-hard negative mining still outperforms newly introduced loss functions from metric learning on the ICR task. To gain a better understanding of these outcomes, we introduce an analysis method to compare loss functions by counting how many samples contribute to the gradient w.r.t. the query representation during optimization. We find that loss functions that result in lower evaluation scores on the ICR task, in general, take too many (non-informative) samples into account when computing a gradient w.r.t. the query representation, which results in sub-optimal performance. The triplet loss with semi-hard negatives is shown to outperform the other loss functions, as it only takes one (hard) negative into account when computing the gradient.
翻訳日:2022-02-16 14:27:08 公開日:2022-02-14
# 複数の不確実性集合に対する強固な政策学習

Robust Policy Learning over Multiple Uncertainty Sets ( http://arxiv.org/abs/2202.07013v1 )

ライセンス: Link先を確認
Annie Xie, Shagun Sodhani, Chelsea Finn, Joelle Pineau, Amy Zhang(参考訳) 強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。 システム識別手法は、オンライン体験からバリエーションを推測する方法を提供するが、高速な識別ができない設定では失敗する可能性がある。 もう一つの主要なアプローチはロバストなRLであり、最悪のシナリオを処理できるポリシーを生成するが、これらの手法は一般に列車時に指定しなければならない単一の不確実性セットに対するロバスト性を達成するために設計されている。 より一般的な解に向けて、我々は多重集合のロバスト性問題を定式化し、異なる摂動集合にロバストなポリシーを学ぶ。 そして、システム識別と堅牢なrlの両方の利点を享受するアルゴリズムを設計します。 制御タスクの多種多様なセットにおいて,システム識別とロバストなRLのみに基づく従来の手法と比較して,新しい環境における最悪の性能向上を示す。

Reinforcement learning (RL) agents need to be robust to variations in safety-critical environments. While system identification methods provide a way to infer the variation from online experience, they can fail in settings where fast identification is not possible. Another dominant approach is robust RL which produces a policy that can handle worst-case scenarios, but these methods are generally designed to achieve robustness to a single uncertainty set that must be specified at train time. Towards a more general solution, we formulate the multi-set robustness problem to learn a policy robust to different perturbation sets. We then design an algorithm that enjoys the benefits of both system identification and robust RL: it reduces uncertainty where possible given a few interactions, but can still act robustly with respect to the remaining uncertainty. On a diverse set of control tasks, our approach demonstrates improved worst-case performance on new environments compared to prior methods based on system identification and on robust RL alone.
翻訳日:2022-02-16 14:26:48 公開日:2022-02-14
# DermX:説明可能な自動皮膚科診断のためのエンドツーエンドフレームワーク

DermX: an end-to-end framework for explainable automated dermatological diagnosis ( http://arxiv.org/abs/2202.06956v1 )

ライセンス: Link先を確認
Raluca Jalaboi, Frederik Faye, Mauricio Orbes-Arteaga, Dan J{\o}rgensen, Ole Winther, Alfiia Galimzianova(参考訳) 皮膚科診断の自動化は皮膚疾患の高頻度と皮膚科医の致命的な不足に対処するために不可欠である。 専門家レベルの診断性能に近づいているにもかかわらず、臨床実践における畳み込みニューラルネットワーク(ConvNet)の採用は、その限定的な説明可能性、そして主観的で高価な説明可能性検証によって妨げられている。 本稿ではDermXとDermX+について紹介する。 DermXは、臨床にインスパイアされた説明可能な皮膚科診断であるConvNetで、DermXDBを用いて訓練されている。 DermX+はDermXを拡張し、説明注意マップのガイド付き注意訓練を行う。 どちらもDermX、DermX+、皮膚科医のF1スコアは0.79、0.79、0.87である。 皮膚科医が選択した説明とモデル選択した説明と、勾配強調クラス活性化マップと、皮膚科医の説明マップを比較して、同定と局所性の観点から説明可能性を評価する。 DermXとDermX+はともに識別F1スコア0.78を得る。 ローカライゼーションF1スコアはDermXが0.39、DermX+が0.35である。 比較サンプル、dermx による 0.53 忠実性および dermx+ 0.25 による説明忠実性の評価を行う。 これらの結果は,我々の高性能モデルが診断に妥当かつ忠実な説明を提供するため,必ずしも予測力の犠牲になるとは限らないことを示唆している。

Dermatological diagnosis automation is essential in addressing the high prevalence of skin diseases and critical shortage of dermatologists. Despite approaching expert-level diagnosis performance, convolutional neural network (ConvNet) adoption in clinical practice is impeded by their limited explainability, and by subjective, expensive explainability validations. We introduce DermX and DermX+, an end-to-end framework for explainable automated dermatological diagnosis. DermX is a clinically-inspired explainable dermatological diagnosis ConvNet, trained using DermXDB, a 554 images dataset annotated by eight dermatologists with diagnoses and supporting explanations. DermX+ extends DermX with guided attention training for explanation attention maps. Both methods achieve near-expert diagnosis performance, with DermX, DermX+, and dermatologist F1 scores of 0.79, 0.79, and 0.87, respectively. We assess the explanation plausibility in terms of identification and localization, by comparing model-selected with dermatologist-select ed explanations, and gradient-weighted class-activation maps with dermatologist explanation maps. Both DermX and DermX+ obtain an identification F1 score of 0.78. The localization F1 score is 0.39 for DermX and 0.35 for DermX+. Explanation faithfulness is assessed through contrasting samples, DermX obtaining 0.53 faithfulness and DermX+ 0.25. These results show that explainability does not necessarily come at the expense of predictive power, as our high-performance models provide both plausible and faithful explanations for their diagnoses.
翻訳日:2022-02-16 14:20:49 公開日:2022-02-14
# Vau da muntanialas: RNN推論のエネルギー効率の良い多次元拡張加速

Vau da muntanialas: Energy-efficient multi-die scalable acceleration of RNN inference ( http://arxiv.org/abs/2202.07462v1 )

ライセンス: Link先を確認
Gianna Paulin, Francesco Conti, Lukas Cavigelli, Luca Benini(参考訳) LSTM(Long Short-Term Memories)のようなリカレントニューラルネットワークは、内部状態を保ちながら時間依存を学習し、音声認識のような時系列問題に最適である。 しかし、出力から入力までのフィードバックは、RNNのアクセラレータを設計する際のメモリ帯域幅とスケーラビリティの難しさを生み出している。 LSTM推論のためのRNN加速器アーキテクチャであるMuntanialaについて,3.25$TOP/s/W$と30.53$GOP/s$の性能をUMC 65$nm$で測定した。 Muntaniala のスケーラブルな設計により,複数のタイルをサイストリック配列に組み合わせることで,大規模な RNN モデルの実行が可能になる。 すべてのパラメータを配列内のダイごとに定常に保つことで、i/o通信を劇的に削減し、新機能をロードし、部分的な結果を他のダイと共有します。 I/Oパワーを含むシステムパワーの定量化のために、私たちはVau da Muntanialasを私たちの知る限り、RNNアクセラレータのシストリックマルチチップオンPCBアレイの最初のデモとして構築しました。 我々の多次元プロトタイプはLSTM推論を行い、330$\mu s$の192の隠れ状態と総システムパワーが9.0$mW$の10$MHz$の2.95$\mu J$を消費する。 ムンタナーラで実装された8/16ビット量子化を目標とし,TIMITデータセット上の3L-384NH-123NI LSTMネットワーク上での浮動小数点(FP)に対する音素誤り率(PER)の約3%の低下を示す。

Recurrent neural networks such as Long Short-Term Memories (LSTMs) learn temporal dependencies by keeping an internal state, making them ideal for time-series problems such as speech recognition. However, the output-to-input feedback creates distinctive memory bandwidth and scalability challenges in designing accelerators for RNNs. We present Muntaniala, an RNN accelerator architecture for LSTM inference with a silicon-measured energy-efficiency of 3.25$TOP/s/W$ and performance of 30.53$GOP/s$ in UMC 65 $nm$ technology. The scalable design of Muntaniala allows running large RNN models by combining multiple tiles in a systolic array. We keep all parameters stationary on every die in the array, drastically reducing the I/O communication to only loading new features and sharing partial results with other dies. For quantifying the overall system power, including I/O power, we built Vau da Muntanialas, to the best of our knowledge, the first demonstration of a systolic multi-chip-on-PCB array of RNN accelerator. Our multi-die prototype performs LSTM inference with 192 hidden states in 330$\mu s$ with a total system power of 9.0$mW$ at 10$MHz$ consuming 2.95$\mu J$. Targeting the 8/16-bit quantization implemented in Muntaniala, we show a phoneme error rate (PER) drop of approximately 3% with respect to floating-point (FP) on a 3L-384NH-123NI LSTM network on the TIMIT dataset.
翻訳日:2022-02-16 14:19:31 公開日:2022-02-14
# ツイートとFact-Checksの対応言語

Matching Tweets With Applicable Fact-Checks Across Languages ( http://arxiv.org/abs/2202.07094v1 )

ライセンス: Link先を確認
Ashkan Kazemi, Zehua Li, Ver\'onica P\'erez-Rosas, Scott A. Hale, Rada Mihalcea(参考訳) ニュースファクトチェックの重要な課題は、既存のファクトチェックの効果的な普及である。 これにより、事実チェック済みのクレームを検出するための信頼性の高いメソッドが必要になる。 本稿では,ソーシャルメディア投稿(つぶやき)のクレームに対する既存の事実チェックを自動的に見つけることに焦点を当てる。 xlm-roberta などの多言語トランスフォーマーモデルと labse や sbert などの多言語組込みモデルを用いて,単言語(英語のみ),多言語(スペイン語,ポルトガル語),多言語(ヒンディー英語)の2つの実験を行った。 4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。 また,bm25のベースラインは,単言語実験における検索タスクにおいて,最先端の多言語埋め込みモデルよりも優れていることがわかった。 我々は,様々な言語でこの問題に対処しつつ,nlpの課題を強調・議論し,今後の研究のために,ファクトチェックと対応ツイートの新しいキュレートデータセットを紹介する。

An important challenge for news fact-checking is the effective dissemination of existing fact-checks. This in turn brings the need for reliable methods to detect previously fact-checked claims. In this paper, we focus on automatically finding existing fact-checks for claims made in social media posts (tweets). We conduct both classification and retrieval experiments, in monolingual (English only), multilingual (Spanish, Portuguese), and cross-lingual (Hindi-English) settings using multilingual transformer models such as XLM-RoBERTa and multilingual embeddings such as LaBSE and SBERT. We present promising results for "match" classification (93% average accuracy) in four language pairs. We also find that a BM25 baseline outperforms state-of-the-art multilingual embedding models for the retrieval task during our monolingual experiments. We highlight and discuss NLP challenges while addressing this problem in different languages, and we introduce a novel curated dataset of fact-checks and corresponding tweets for future research.
翻訳日:2022-02-16 14:19:00 公開日:2022-02-14
# quadsim:強化学習アルゴリズムのためのクワッドコプター回転動力学シミュレーションフレームワーク

QuadSim: A Quadcopter Rotational Dynamics Simulation Framework For Reinforcement Learning Algorithms ( http://arxiv.org/abs/2202.07021v1 )

ライセンス: Link先を確認
Burak Han Demirbilek(参考訳) 本研究では,多くの柔軟な構成で強化学習(RL)アルゴリズムをテストするために,数式ベースのクアッドコプター回転動力学シミュレーションフレームワークの設計と開発に焦点をあてる。 シミュレーションフレームワークの設計は、通常の微分方程式(ODE)系の初期値問題を解くことにより、クワッドコプターの線形表現と非線形表現の両方をシミュレートすることを目的としている。 さらに、プロセスの形式や測定ノイズにランダムなガウスノイズを加えることにより、シミュレーション環境を決定論的・確率的にすることができる。 このシミュレーション環境のスコープが我々のRLアルゴリズムに限らないことを保証するため、シミュレーション環境はOpenAI Gymツールキットと互換性を持つように拡張されている。 このフレームワークは同時にシミュレーション環境を実行するマルチプロセス機能もサポートする。 これらの機能をテストするために、このシミュレーションフレームワークで多くの最先端の深部RLアルゴリズムを訓練し、その結果を詳細に比較した。

This study focuses on designing and developing a mathematically based quadcopter rotational dynamics simulation framework for testing reinforcement learning (RL) algorithms in many flexible configurations. The design of the simulation framework aims to simulate both linear and nonlinear representations of a quadcopter by solving initial value problems for ordinary differential equation (ODE) systems. In addition, the simulation environment is capable of making the simulation deterministic/stocha stic by adding random Gaussian noise in the forms of process and measurement noises. In order to ensure that the scope of this simulation environment is not limited only with our own RL algorithms, the simulation environment has been expanded to be compatible with the OpenAI Gym toolkit. The framework also supports multiprocessing capabilities to run simulation environments simultaneously in parallel. To test these capabilities, many state-of-the-art deep RL algorithms were trained in this simulation framework and the results were compared in detail.
翻訳日:2022-02-16 13:58:06 公開日:2022-02-14
# 主多様体流れ

Principal Manifold Flows ( http://arxiv.org/abs/2202.07037v1 )

ライセンス: Link先を確認
Edmond Cunningham, Adam Cobb and Susmit Jha(参考訳) 正規化フローは、単射変換を用いて独立な潜伏変数の集合をサンプルにマッピングする。 サンプルと潜在変数の正確な対応にもかかわらず、それらのハイレベルな関係はよく分かっていない。 本稿では,主多様体を用いた流れの幾何学的構造を特徴付け,輪郭を用いた潜伏変数とサンプルの関係を理解する。 本稿では,その輪郭が主多様体である主多様体流(pf)と呼ばれる新しい正規化流れのクラスと,通常の射出流よりも訓練しやすい射出流(ipf)の変種を導入する。 pfs は任意のフローアーキテクチャを用いて構築でき、正規化された最大度目標で訓練され、すべての主多様体上で密度推定を行うことができる。 実験の結果,PF と iPF は様々なデータセット上で主多様体を学習できることがわかった。 さらに,既存の正規化フローでは不可能である可変次元多様体上のデータに対して,pfsが密度推定を行うことができることを示した。

Normalizing flows map an independent set of latent variables to their samples using a bijective transformation. Despite the exact correspondence between samples and latent variables, their high level relationship is not well understood. In this paper we characterize the geometric structure of flows using principal manifolds and understand the relationship between latent variables and samples using contours. We introduce a novel class of normalizing flows, called principal manifold flows (PF), whose contours are its principal manifolds, and a variant for injective flows (iPF) that is more efficient to train than regular injective flows. PFs can be constructed using any flow architecture, are trained with a regularized maximum likelihood objective and can perform density estimation on all of their principal manifolds. In our experiments we show that PFs and iPFs are able to learn the principal manifolds over a variety of datasets. Additionally, we show that PFs can perform density estimation on data that lie on a manifold with variable dimensionality, which is not possible with existing normalizing flows.
翻訳日:2022-02-16 13:52:58 公開日:2022-02-14
# 合成制御バンド

Synthetically Controlled Bandits ( http://arxiv.org/abs/2202.07079v1 )

ライセンス: Link先を確認
Vivek Farias, Ciamac Moallemi, Tianyi Peng, Andrew Zheng(参考訳) 本稿では, 干渉などの問題により, 実験ユニットが粗い環境において, 実験設計のための新しい動的アプローチを提案する。 オンラインプラットフォームにおける `region-split' 実験はその一例である。 実験のコスト、または後悔は、ここでは自然な懸念です。 人工的に制御されたトンプソンサンプリング(scts)と呼ばれるこの新デザインは、実験に伴う後悔を最小限に抑えています。 我々は, 治療効果推定器が達成した最善の後悔と誤差率を特徴付ける理論的保証を提供する。 合成データと実世界のデータに関する実験は、このような実験的な設定に共通する固定設計と「スイッチバック」設計の両方に対して、我々のアプローチのメリットを強調する。

This paper presents a new dynamic approach to experiment design in settings where, due to interference or other concerns, experimental units are coarse. `Region-split' experiments on online platforms are one example of such a setting. The cost, or regret, of experimentation is a natural concern here. Our new design, dubbed Synthetically Controlled Thompson Sampling (SCTS), minimizes the regret associated with experimentation at no practically meaningful loss to inferential ability. We provide theoretical guarantees characterizing the near-optimal regret of our approach, and the error rates achieved by the corresponding treatment effect estimator. Experiments on synthetic and real world data highlight the merits of our approach relative to both fixed and `switchback' designs common to such experimental settings.
翻訳日:2022-02-16 13:52:41 公開日:2022-02-14
# 微分検索指標としてのトランスフォーマーメモリ

Transformer Memory as a Differentiable Search Index ( http://arxiv.org/abs/2202.06991v1 )

ライセンス: Link先を確認
Yi Tay, Vinh Q. Tran, Mostafa Dehghani, Jianmo Ni, Dara Bahri, Harsh Mehta, Zhen Qin, Kai Hui, Zhe Zhao, Jai Gupta, Tal Schuster, William W. Cohen, Donald Metzler(参考訳) 本稿では,コーパスに関するすべての情報をモデルパラメータにエンコードした単一のトランスを用いて,情報検索を行うことができることを示す。 そこで本研究では,文字列クエリを関連するドシデントに直接マッピングするテキスト・ツー・テキストモデルを学習する新たなパラダイムである差分検索インデックス(DSI)を紹介し,DSIモデルがパラメータのみを使用してクエリに応答し,検索プロセス全体を劇的に単純化する。 文書とその識別子の表現方法,トレーニング手順のバリエーション,モデルとコーパスサイズ間の相互作用について検討した。 実験により、適切な設計選択が与えられた場合、DSIはデュアルエンコーダモデルのような強力なベースラインを著しく上回ることを示した。 さらに、dsiは強力な一般化能力を示し、ゼロショット設定のbm25ベースラインよりも優れている。

In this paper, we demonstrate that information retrieval can be accomplished with a single Transformer, in which all information about the corpus is encoded in the parameters of the model. To this end, we introduce the Differentiable Search Index (DSI), a new paradigm that learns a text-to-text model that maps string queries directly to relevant docids; in other words, a DSI model answers queries directly using only its parameters, dramatically simplifying the whole retrieval process. We study variations in how documents and their identifiers are represented, variations in training procedures, and the interplay between models and corpus sizes. Experiments demonstrate that given appropriate design choices, DSI significantly outperforms strong baselines such as dual encoder models. Moreover, DSI demonstrates strong generalization capabilities, outperforming a BM25 baseline in a zero-shot setup.
翻訳日:2022-02-16 13:21:56 公開日:2022-02-14
# デバイス上での学習による皮膚疾患診断のためのフェデレーションコントラスト学習

Federated Contrastive Learning for Dermatological Disease Diagnosis via On-device Learning ( http://arxiv.org/abs/2202.07470v1 )

ライセンス: Link先を確認
Yawen Wu, Dewen Zeng, Zhepeng Wang, Yi Sheng, Lei Yang, Alaina J. James, Yiyu Shi, Jingtong Hu(参考訳) ディープラーニングモデルは、医療を提供するために、エッジとモバイルデバイスの数が増えている。 これらのモデルは、高い精度を達成するために、大量のラベル付きデータによるトレーニングに依存します。 しかし, 皮膚疾患診断などの医学的応用においては, 移動体皮膚科助手が収集したプライベートデータは, 患者の分散モバイルデバイス上に存在し, それぞれのデバイスは限られた量のデータしか持たない。 限られたデータから直接学習することで、学習モデルの性能が大幅に低下する。 フェデレーション学習(FL)は、プライバシのためにデータをローカルに保ちながら、デバイス上に分散したデータを使用してモデルをトレーニングすることができる。 flの既存の作業では、すべてのデータが接地ラベルを持つと仮定している。 しかし、ラベル付けには専門知識が必要であり、労働コストが極めて高いため、医療データにはラベルが付かないことが多い。 最近開発された自己教師付き学習アプローチであるコントラスト・ラーニング(cl)は、ラベルなしのデータを利用してモデルを事前学習し、そのモデルが皮膚疾患診断のための限定ラベル付きデータに微調整される。 しかし、CLとFLをフェデレートされたコントラスト学習(FCL)として組み合わせれば、CLは学習に多様なデータを必要とするが、各デバイスは限られたデータしか持たないため、非効率な学習をもたらす。 本稿では,限定ラベルによる皮膚疾患診断のためのオンデバイスfclフレームワークを提案する。 特徴はfcl事前学習プロセスで共有され、多様で正確なコントラスト情報を提供する。 その後、事前訓練されたモデルは、各デバイス上で独立にローカルラベル付きデータで微調整されるか、またはすべてのデバイス上で教師付きフェデレーション学習と協調される。 皮膚科疾患データセットに関する実験により,提案手法は最新の手法と比較して,皮膚科疾患診断のリコールと精度を効果的に改善することが示された。

Deep learning models have been deployed in an increasing number of edge and mobile devices to provide healthcare. These models rely on training with a tremendous amount of labeled data to achieve high accuracy. However, for medical applications such as dermatological disease diagnosis, the private data collected by mobile dermatology assistants exist on distributed mobile devices of patients, and each device only has a limited amount of data. Directly learning from limited data greatly deteriorates the performance of learned models. Federated learning (FL) can train models by using data distributed on devices while keeping the data local for privacy. Existing works on FL assume all the data have ground-truth labels. However, medical data often comes without any accompanying labels since labeling requires expertise and results in prohibitively high labor costs. The recently developed self-supervised learning approach, contrastive learning (CL), can leverage the unlabeled data to pre-train a model, after which the model is fine-tuned on limited labeled data for dermatological disease diagnosis. However, simply combining CL with FL as federated contrastive learning (FCL) will result in ineffective learning since CL requires diverse data for learning but each device only has limited data. In this work, we propose an on-device FCL framework for dermatological disease diagnosis with limited labels. Features are shared in the FCL pre-training process to provide diverse and accurate contrastive information. After that, the pre-trained model is fine-tuned with local labeled data independently on each device or collaboratively with supervised federated learning on all devices. Experiments on dermatological disease datasets show that the proposed framework effectively improves the recall and precision of dermatological disease diagnosis compared with state-of-the-art methods.
翻訳日:2022-02-16 13:18:44 公開日:2022-02-14
# BED:エッジデバイスのためのリアルタイムオブジェクト検出システム

BED: A Real-Time Object Detection System for Edge Devices ( http://arxiv.org/abs/2202.07503v1 )

ライセンス: Link先を確認
Guanchu Wang and Zaid Pervaiz Bhat and Zhimeng Jiang and Yi-Wei Chen and Daochen Zha and Alfredo Costilla Reyes and Afshin Niktash and Gorkem Ulkar and Erman Okman and Xia Hu(参考訳) マシンラーニングモデルをエッジデバイスにデプロイするには、特に低レイテンシ、低電力、データプライバシを求めるシナリオにおいて、多くの現実的なアプリケーションがあります。 しかし、計算資源とエッジデバイスのメモリが限られているため、かなりの研究とエンジニアリングの努力が必要となる。 本稿では,MAX78000 DNNアクセラレータで実施されているエッジデバイスのオブジェクト検出システムであるBEDを紹介する。 BEDは、デバイス上のDNN推論とカメラと画面を統合し、画像取得および出力展示を行う。 実験結果から、BEDは300KBの小さなDNNモデルで正確に検出できることがわかった。

Deploying machine learning models to edge devices has many real-world applications, especially for the scenarios that demand low latency, low power, or data privacy. However, it requires substantial research and engineering efforts due to the limited computational resources and memory of edge devices. In this demo, we present BED, an object detection system for edge devices practiced on the MAX78000 DNN accelerator. BED integrates on-device DNN inference with a camera and a screen for image acquisition and output exhibition, respectively. Experiment results indicate BED can provide accurate detection with an only 300KB tiny DNN model.
翻訳日:2022-02-16 13:18:14 公開日:2022-02-14
# 最適輸送によるDDPM潜時符号の理解

Understanding DDPM Latent Codes Through Optimal Transport ( http://arxiv.org/abs/2202.07477v1 )

ライセンス: Link先を確認
Valentin Khrulkov and Ivan Oseledets(参考訳) 拡散モデルは、GANのような自然画像の分布をモデル化するための代替手法よりも優れている。 このような拡散モデルは確率フローODEによる決定論的サンプリングを可能にし、潜在空間とエンコーダマップを生じる。 可能性の推定のような重要な実用的応用があるが、この写像の理論的性質はまだ完全には理解されていない。 本稿では, DDPM (VP SDE) アプローチの一般的な事例について, この問題に部分的に対処する。 我々は,DDPMエンコーダマップが共通分布の最適輸送マップと一致していることを示し,この主張を理論的および広範な数値実験により支持する。

Diffusion models have recently outperformed alternative approaches to model the distribution of natural images, such as GANs. Such diffusion models allow for deterministic sampling via the probability flow ODE, giving rise to a latent space and an encoder map. While having important practical applications, such as estimation of the likelihood, the theoretical properties of this map are not yet fully understood. In the present work, we partially address this question for the popular case of the VP SDE (DDPM) approach. We show that, perhaps surprisingly, the DDPM encoder map coincides with the optimal transport map for common distributions; we support this claim theoretically and by extensive numerical experiments.
翻訳日:2022-02-16 13:18:00 公開日:2022-02-14
# (参考訳) レコメンデーションシステムにおける「なぜ」測定:説明可能なレコメンデーションの評価に関する総合的研究 [全文訳有]

Measuring "Why" in Recommender Systems: a Comprehensive Survey on the Evaluation of Explainable Recommendation ( http://arxiv.org/abs/2202.06466v1 )

ライセンス: CC BY 4.0
Xu Chen and Yongfeng Zhang and Ji-Rong Wen(参考訳) 説明可能なレコメンデーションは、レコメンデーションの説得力、ユーザの満足度、システムの透明性などを改善する大きな利点を示している。 説明可能な推奨の根本的な問題は、説明を評価する方法である。 近年,様々な評価手法が提案されている。 しかし、それらは異なる論文に散在しており、体系的かつ詳細な比較が欠けている。 このギャップを埋めるために,本稿では,過去の研究を包括的にレビューし,評価の観点や評価方法によって異なる分類法を提供する。 これまでの成果を要約するだけでなく,既存の評価手法の (dis) アドバンテージを分析し,その選択方法に関する一連のガイドラインを提供する。 この調査の内容は、IJCAI、AAAI、TheWebConf、Recsys、UMAP、IUIといったトップ層カンファレンスの100以上の論文に基づいており、その完全な要約はhttps://shimo.im/she ets/VKrpYTcwVH6KXgdy /MODOC/で発表されている。 本調査により, 説明可能な推薦の評価について, 明確かつ包括的に検討することを目指している。

Explainable recommendation has shown its great advantages for improving recommendation persuasiveness, user satisfaction, system transparency, among others. A fundamental problem of explainable recommendation is how to evaluate the explanations. In the past few years, various evaluation strategies have been proposed. However, they are scattered in different papers, and there lacks a systematic and detailed comparison between them. To bridge this gap, in this paper, we comprehensively review the previous work, and provide different taxonomies for them according to the evaluation perspectives and evaluation methods. Beyond summarizing the previous work, we also analyze the (dis)advantages of existing evaluation methods and provide a series of guidelines on how to select them. The contents of this survey are based on more than 100 papers from top-tier conferences like IJCAI, AAAI, TheWebConf, Recsys, UMAP, and IUI, and their complete summarization are presented at https://shimo.im/she ets/VKrpYTcwVH6KXgdy /MODOC/. With this survey, we finally aim to provide a clear and comprehensive review on the evaluation of explainable recommendation.
翻訳日:2022-02-16 05:30:45 公開日:2022-02-14
# (参考訳) gaussian differential privacyを用いたランダムミックスアップの最適化 [全文訳有]

Optimizing Random Mixup with Gaussian Differential Privacy ( http://arxiv.org/abs/2202.06467v1 )

ライセンス: CC BY 4.0
Donghao Li, Yang Cao and Yuan Yao(参考訳) 異なるプライベートデータリリースは、機械学習コミュニティで注目を集めている。 近年、DPMixと呼ばれるアルゴリズムが、差分プライバシーを持つ$m$のランダムな混合の後、高次元データをリリースするために提案されている。 しかしながら、"sweet spot $m$" 現象に関する限定的な理論的正当化が与えられ、画像データに直接DPMixを適用すると、実用性が著しく失われる。 本稿では,近年の差分プライバシーの進展とともに,ランダムな混在を再考する。 理論上,ポアソン部分サンプリングを用いたガウス微分プライバシーを用いて,線形回帰モデルに基づく最適混合量m^*$の定量的評価を可能にする密閉形式解析を行う。 実際には、ラベルなしで手工芸品や自己教師付き学習などのトレーニング済みニューラルネットワークによって抽出された機能の混合が採用され、プライバシ保護によるパフォーマンスを大幅に向上させる。 これを差分プライベート機能ミックスアップ(dpfmix)と呼ぶ。 MNIST、CIFAR10/100の実験は、その顕著な実用性の向上と攻撃に対する保護を示すために行われた。

Differentially private data release receives rising attention in machine learning community. Recently, an algorithm called DPMix is proposed to release high-dimensional data after a random mixup of degree $m$ with differential privacy. However, limited theoretical justifications are given about the "sweet spot $m$" phenomenon, and directly applying DPMix to image data suffers from severe loss of utility. In this paper, we revisit random mixup with recent progress on differential privacy. In theory, equipped with Gaussian Differential Privacy with Poisson subsampling, a tight closed form analysis is presented that enables a quantitative characterization of optimal mixup $m^*$ based on linear regression models. In practice, mixup of features, extracted by handcraft or pre-trained neural networks such as self-supervised learning without labels, is adopted to significantly boost the performance with privacy protection. We name it as Differentially Private Feature Mixup (DPFMix). Experiments on MNIST, CIFAR10/100 are conducted to demonstrate its remarkable utility improvement and protection against attacks.
翻訳日:2022-02-16 05:17:54 公開日:2022-02-14
# (参考訳) 弱教師付き階層的位置認識のための密結合学習戦略 [全文訳有]

Tightly Coupled Learning Strategy for Weakly Supervised Hierarchical Place Recognition ( http://arxiv.org/abs/2202.06470v1 )

ライセンス: CC BY 4.0
Y. Shen, R. Wang, W. Zuo, N. Zheng(参考訳) 視覚的位置認識(VPR)は、ロボット工学と自律システムにとって重要な問題である。 時間とパフォーマンスのトレードオフとして、ほとんどのメソッドは、グローバル機能を使用してトップN候補を検索し、ローカル機能を備えたトップNを再ランク付けする、粗大な階層アーキテクチャを使用する。 しかし、2種類の特徴は通常独立して処理されるため、再ランク付けはグローバル検索を損なう可能性がある。 さらに、グローバル検索によって再ランク付けが制限される。 本稿では,三重項モデルを学習するための密結合学習(TCL)戦略を提案する。 元の三重項学習(OTL)戦略とは異なり、グローバルとローカルの記述子を組み合わせて共同最適化を行う。 さらに,vprに調整された局所空間情報を探索するために,bs-dtw(bidirectiona l search dynamic time warping)アルゴリズムも提案されている。 公開ベンチマークにおける実験結果から,tclを用いたモデルはotlを用いたモデルよりも優れており,tclは弱い教師付きランキングタスクのパフォーマンス向上のための一般的な戦略として使用することができる。 さらに、軽量統一モデルは最先端の手法よりも優れており、ロボットのリアルタイム要求を満たすために計算効率が桁違いに向上している。

Visual place recognition (VPR) is a key issue for robotics and autonomous systems. For the trade-off between time and performance, most of methods use the coarse-to-fine hierarchical architecture, which consists of retrieving top-N candidates using global features, and re-ranking top-N with local features. However, since the two types of features are usually processed independently, re-ranking may harm global retrieval, termed re-ranking confusion. Moreover, re-ranking is limited by global retrieval. In this paper, we propose a tightly coupled learning (TCL) strategy to train triplet models. Different from original triplet learning (OTL) strategy, it combines global and local descriptors for joint optimization. In addition, a bidirectional search dynamic time warping (BS-DTW) algorithm is also proposed to mine locally spatial information tailored to VPR in re-ranking. The experimental results on public benchmarks show that the models using TCL outperform the models using OTL, and TCL can be used as a general strategy to improve performance for weakly supervised ranking tasks. Further, our lightweight unified model is better than several state-of-the-art methods and has over an order of magnitude of computational efficiency to meet the real-time requirements of robots.
翻訳日:2022-02-16 04:39:38 公開日:2022-02-14
# (参考訳) 行列補完のための分割数値積分 [全文訳有]

Splitting numerical integration for matrix completion ( http://arxiv.org/abs/2202.06482v1 )

ライセンス: CC0 1.0
Qianqian Song(参考訳) 低階行列近似は機械学習において一般的なトピックである。 本稿では,固定ランク行列のリーマン多様体上の最小二乗推定を最小化し,この話題に対する新しいアルゴリズムを提案する。 このアルゴリズムは、多様体上の最適化の枠組みにおける古典的な勾配降下の適応である。 特に、低ランク多様体上の制約のない最適化問題を微分力学系に再構成する。 動的システムに分割積分スキームを適用し,分割数値積分法を開発した。 分割数値積分アルゴリズムの収束解析を行う。 回復行列と真の結果の間の誤差がフロベニウスノルムにおいて単調に減少していることを保証することができる。 さらに,分割数値積分は行列補完シナリオに適応することができる。 実験結果から,本手法は精度の高い大規模問題に対して優れたスケーラビリティを有することが示された。

Low rank matrix approximation is a popular topic in machine learning. In this paper, we propose a new algorithm for this topic by minimizing the least-squares estimation over the Riemannian manifold of fixed-rank matrices. The algorithm is an adaptation of classical gradient descent within the framework of optimization on manifolds. In particular, we reformulate an unconstrained optimization problem on a low-rank manifold into a differential dynamic system. We develop a splitting numerical integration method by applying a splitting integration scheme to the dynamic system. We conduct the convergence analysis of our splitting numerical integration algorithm. It can be guaranteed that the error between the recovered matrix and true result is monotonically decreasing in the Frobenius norm. Moreover, our splitting numerical integration can be adapted into matrix completion scenarios. Experimental results show that our approach has good scalability for large-scale problems with satisfactory accuracy
翻訳日:2022-02-16 04:23:00 公開日:2022-02-14
# (参考訳) 逆転勝利チケットを保存したダイナミクスの発見 [全文訳有]

Finding Dynamics Preserving Adversarial Winning Tickets ( http://arxiv.org/abs/2202.06488v1 )

ライセンス: CC BY 4.0
Xupeng Shi, Pengfei Zheng, Adam Ding, Yuan Gao, Weizhong Zhang(参考訳) 現代のディープニューラルネットワーク(DNN)は、敵の攻撃に対して脆弱であり、敵の訓練は、DNNの敵の堅牢性を改善するための有望な方法であることが示されている。 プランニング法は, モデルキャパシティを低減し, 同時に対向ロバスト性を向上させるために, 対向文脈において検討されてきた。 既存の敵対的プルーニング法は、一般的には3段階の「訓練-プルーニング-微調整」パイプラインに従う自然訓練のための古典的なプルーニング法を模倣している。 このようなプルーニング手法は, 高密度ネットワークのダイナミクスを必ずしも保持するものではなく, プルーニングの精度劣化を補うための微調整が困難であると考えられる。 近年の <textit{Neural Tangent Kernel} (NTK) の成果に基づいて, 対向学習の力学を体系的に研究し, 初期化時に訓練可能なスパースサブネットワークの存在を証明し, ゼロから対向的ロバストに訓練することができる。 理論的には, 逆向きの文脈で \textit{lottery ticket hypothesis} を検証し, このようなサブネットワーク構造を \textit{Adversarial Winning Ticket} (AWT) と呼ぶ。 また,AWTは対人訓練の力学を保ち,対人訓練と同等の性能を発揮するという実証的証拠を示す。

Modern deep neural networks (DNNs) are vulnerable to adversarial attacks and adversarial training has been shown to be a promising method for improving the adversarial robustness of DNNs. Pruning methods have been considered in adversarial context to reduce model capacity and improve adversarial robustness simultaneously in training. Existing adversarial pruning methods generally mimic the classical pruning methods for natural training, which follow the three-stage 'training-pruning-fin e-tuning' pipelines. We observe that such pruning methods do not necessarily preserve the dynamics of dense networks, making it potentially hard to be fine-tuned to compensate the accuracy degradation in pruning. Based on recent works of \textit{Neural Tangent Kernel} (NTK), we systematically study the dynamics of adversarial training and prove the existence of trainable sparse sub-network at initialization which can be trained to be adversarial robust from scratch. This theoretically verifies the \textit{lottery ticket hypothesis} in adversarial context and we refer such sub-network structure as \textit{Adversarial Winning Ticket} (AWT). We also show empirical evidences that AWT preserves the dynamics of adversarial training and achieve equal performance as dense adversarial training.
翻訳日:2022-02-16 04:14:57 公開日:2022-02-14
# (参考訳) flhub - 連合学習モデル共有サービス [全文訳有]

FLHub: a Federated Learning model sharing service ( http://arxiv.org/abs/2202.06493v1 )

ライセンス: CC BY 4.0
Hyunsu Mun, Youngseok Lee(参考訳) TensorflowやPytorchといった使いやすいディープラーニングライブラリが普及しているため、機械学習モデルを開発するのが便利になっている。 集中型機械学習のプライバシー問題により、近年、分散コンピューティングフレームワークにおけるフェデレーション学習が注目されている。 中央サーバは、フェデレーション学習においてクライアントから機密データや個人データを収集しないが、モデルパラメータのみを集約する。 連合学習はプライバシを保護するのに役立つが、マシンラーニング開発者が異なるドメインアプリケーションで使用できるモデルを共有することは難しい。 本稿では,federated learning hub(flhub)という,連合学習モデル共有サービスを提案する。 ユーザはGitHubと同じように、他の開発者が開発したモデルをアップロード、ダウンロード、コントリビュートすることができる。 我々は,フォークしたモデルが既存のモデルよりも早くトレーニングを終了でき,各フェデレーションラウンドの学習がより速く進行できることを実証する。

As easy-to-use deep learning libraries such as Tensorflow and Pytorch are popular, it has become convenient to develop machine learning models. Due to privacy issues with centralized machine learning, recently, federated learning in the distributed computing framework is attracting attention. The central server does not collect sensitive and personal data from clients in federated learning, but it only aggregates the model parameters. Though federated learning helps protect privacy, it is difficult for machine learning developers to share the models that they could utilize for different-domain applications. In this paper, we propose a federated learning model sharing service named Federated Learning Hub (FLHub). Users can upload, download, and contribute the model developed by other developers similarly to GitHub. We demonstrate that a forked model can finish training faster than the existing model and that learning progressed more quickly for each federated round.
翻訳日:2022-02-16 03:45:46 公開日:2022-02-14
# (参考訳) qa4qg: 質問応答を用いたマルチホップ質問生成 [全文訳有]

QA4QG: Using Question Answering to Constrain Multi-Hop Question Generation ( http://arxiv.org/abs/2202.06538v1 )

ライセンス: CC BY 4.0
Dan Su, Peng Xu, Pascale Fung(参考訳) マルチホップ質問生成(MQG)は、入力パスの複数の情報に対する推論を必要とする複雑な質問を生成することを目的としている。 MQGに関する既存の作業の多くは、従来のSequence-to-Sequence フレームワークに推論能力を持たせるために、グラフベースのネットワークの探索に重点を置いている。 しかし、これらのモデルは質問と回答の制約を完全に活用するわけではない。 さらに、マルチホップ質問応答(QA)の研究は、トランスフォーマーがグラフ構造をマルチホップ推論に置き換えることができることを示唆している。 そこで本研究では,MQGのためのQA強化BARTベースのフレームワークであるQA4QGを提案する。 標準のBARTモデルにマルチホップQAモジュールを追加して、生成された質問をさらに制限する。 HotpotQAデータセットを用いた結果,QA4QGは,これまでに報告した最良結果と比較して,8 BLEU-4 と 8 ROUGE の点で,最先端モデルよりも優れていた。 我々の研究は、MQGタスクに事前訓練された言語モデルとQAモジュールを導入する利点を示唆している。

Multi-hop question generation (MQG) aims to generate complex questions which require reasoning over multiple pieces of information of the input passage. Most existing work on MQG has focused on exploring graph-based networks to equip the traditional Sequence-to-sequence framework with reasoning ability. However, these models do not take full advantage of the constraint between questions and answers. Furthermore, studies on multi-hop question answering (QA) suggest that Transformers can replace the graph structure for multi-hop reasoning. Therefore, in this work, we propose a novel framework, QA4QG, a QA-augmented BART-based framework for MQG. It augments the standard BART model with an additional multi-hop QA module to further constrain the generated question. Our results on the HotpotQA dataset show that QA4QG outperforms all state-of-the-art models, with an increase of 8 BLEU-4 and 8 ROUGE points compared to the best results previously reported. Our work suggests the advantage of introducing pre-trained language models and QA module for the MQG task.
翻訳日:2022-02-16 03:40:57 公開日:2022-02-14
# (参考訳) ニューロンレベルファジィメモリ化方式によるRNN計算の省力化 [全文訳有]

Saving RNN Computations with a Neuron-Level Fuzzy Memoization Scheme ( http://arxiv.org/abs/2202.06563v1 )

ライセンス: CC BY 4.0
Franyell Silfa, Jose-Maria Arnau, Antonio Gonz\'alez(参考訳) リカレントニューラルネットワーク(RNN)は,音声認識や機械翻訳などのアプリケーションにおいて重要な技術である。 従来のフィードフォワードDNNとは異なり、RNNは過去の情報を記憶して将来の予測精度を向上させるため、シーケンス処理問題に非常に効果的である。 各アプリケーション実行毎に、潜在的に大きな入力シーケンス(ワード、画像、オーディオフレームなど)を処理するために、繰り返し実行されるレイヤが何度も実行される。 本稿では,ニューロンの出力が連続的な呼び出しの変化が少ないことを観察する。 これにより、各ニューロンの出力を動的にキャッシュし、現在の出力が以前計算された結果と似ていると予測されたときに再利用し、この方法で出力計算を避けることができる。 このスキームの主な課題は、新しいニューロンの現在の入力に対する出力が、最近計算された結果と似ているかどうかを決定することである。 この目的のために、リカレント層をより単純なビットワイズニューラルネットワーク(BNN)で拡張し、BNNとRNNの出力が高い相関関係にあることを示す。 BNNは、ファジィメモ化を精度に小さな影響を与えることなく適用できるかどうかを決定するための低コストで効果的なメカニズムを提供する。 我々は,複数のアプリケーションドメインからのさまざまなニューラルネットワークに対して,RNNの最先端アクセラレータ上でのメモ化方式を評価する。 提案手法は26.7 %以上の計算を回避し,21 % の省エネ,平均1.4 倍の高速化を実現している。

Recurrent Neural Networks (RNNs) are a key technology for applications such as automatic speech recognition or machine translation. Unlike conventional feed-forward DNNs, RNNs remember past information to improve the accuracy of future predictions and, therefore, they are very effective for sequence processing problems. For each application run, recurrent layers are executed many times for processing a potentially large sequence of inputs (words, images, audio frames, etc.). In this paper, we observe that the output of a neuron exhibits small changes in consecutive invocations.~We exploit this property to build a neuron-level fuzzy memoization scheme, which dynamically caches each neuron's output and reuses it whenever it is predicted that the current output will be similar to a previously computed result, avoiding in this way the output computations. The main challenge in this scheme is determining whether the new neuron's output for the current input in the sequence will be similar to a recently computed result. To this end, we extend the recurrent layer with a much simpler Bitwise Neural Network (BNN), and show that the BNN and RNN outputs are highly correlated: if two BNN outputs are very similar, the corresponding outputs in the original RNN layer are likely to exhibit negligible changes. The BNN provides a low-cost and effective mechanism for deciding when fuzzy memoization can be applied with a small impact on accuracy. We evaluate our memoization scheme on top of a state-of-the-art accelerator for RNNs, for a variety of different neural networks from multiple application domains. We show that our technique avoids more than 26.7\% of computations, resulting in 21\% energy savings and 1.4x speedup on average.
翻訳日:2022-02-16 03:30:56 公開日:2022-02-14
# (参考訳) 単一画像評価のためのオンライン更新高次協調ネットワーク [全文訳有]

Online-updated High-order Collaborative Networks for Single Image Deraining ( http://arxiv.org/abs/2202.06568v1 )

ライセンス: CC BY 4.0
Cong Wang and Jinshan Pan and Xiao-Ming Wu(参考訳) ビデオ監視や自動運転システムなど、下流の人工知能アプリケーションでは、単一の画像デレーシングが重要かつ困難なタスクである。 既存のディープラーニングベースの手法のほとんどは、デポイナ画像の生成をネットワークに制限しているが、中間層、異なるレベル、そして雨天除去に有用な異なるモジュールの特徴を探索する部分はほとんどない。 本稿では,マルチスケールのコンパクトな制約を伴う高次協調ネットワークと双方向のスケール・コンテント類似性マイニングモジュールを提案する。 外部では、3つのサブネットワークを協調的に訓練したデライニング・フレームワークを設計し、底ネットワークは中間機能を中間ネットワークに送信し、上ネットワークから雨の浅い機能を受信し、下ネットワークに機能を返送する。 内部的には、深層ネットワークの中間層に複数スケールのコンパクト制約を適用し、ラプラシアピラミッドを通して有用な特徴を学習する。 さらに,双方向のスケール・コンテント類似度マイニングモジュールを開発し,さまざまなスケールの機能をスケールアップ・アップ・トゥ・ダウン方式で探索する。 実世界の画像上でのモデル性能を改善するために,実世界の降雨画像を用いてネットワークを微調整し,デレーニング結果を自己管理的に更新するオンライン更新学習手法を提案する。 提案手法は,5つの公開合成データセットと1つの実世界のデータセットに対して,11の最先端手法に対して良好に動作することを示す。 ソースコードは \url{https://supercong94. wixsite.com/supercon g94} で入手できる。

Single image deraining is an important and challenging task for some downstream artificial intelligence applications such as video surveillance and self-driving systems. Most of the existing deep-learning-based methods constrain the network to generate derained images but few of them explore features from intermediate layers, different levels, and different modules which are beneficial for rain streaks removal. In this paper, we propose a high-order collaborative network with multi-scale compact constraints and a bidirectional scale-content similarity mining module to exploit features from deep networks externally and internally for rain streaks removal. Externally, we design a deraining framework with three sub-networks trained in a collaborative manner, where the bottom network transmits intermediate features to the middle network which also receives shallower rainy features from the top network and sends back features to the bottom network. Internally, we enforce multi-scale compact constraints on the intermediate layers of deep networks to learn useful features via a Laplacian pyramid. Further, we develop a bidirectional scale-content similarity mining module to explore features at different scales in a down-to-up and up-to-down manner. To improve the model performance on real-world images, we propose an online-update learning approach, which uses real-world rainy images to fine-tune the network and update the deraining results in a self-supervised manner. Extensive experiments demonstrate that our proposed method performs favorably against eleven state-of-the-art methods on five public synthetic datasets and one real-world dataset. The source code will be available at \url{https://supercong94. wixsite.com/supercon g94}.
翻訳日:2022-02-16 03:09:32 公開日:2022-02-14
# (参考訳) 全スライド画像における腫瘍浸潤リンパ球の定量化のための実用的機械学習手法 [全文訳有]

A Pragmatic Machine Learning Approach to Quantify Tumor Infiltrating Lymphocytes in Whole Slide Images ( http://arxiv.org/abs/2202.06590v1 )

ライセンス: CC BY 4.0
Nikita Shvetsov, Morten Gr{\o}nnesby, Edvard Pedersen, Kajsa M{\o}llersen, Lill-Tove Rasmussen Busund, Ruth Schwienbacher, Lars Ailo Bongo, Thomas K. Kilvaer(参考訳) 癌組織における腫瘍浸潤リンパ球(tils)の増加は、多くの種類のがんにおいて好ましい結果を示す。 免疫細胞の手動定量化は、病理学者にとって不正確で時間を要する。 本研究の目的は、肺がん患者の標準診断用ヘマトキシリンおよびエオシン染色片(h&eスライダー)の全スライド画像(wsis)中のtilを自動定量化する計算解の活用である。 提案手法は,公開データで訓練されたh&eスライドにおける核のセグメンテーションと分類のためのオープンソースの機械学習手法を,手作業によるデータラベリングを伴わずに定量化する。 以上の結果から,少数のサンプル/限定組織タイプでのトレーニングでモデル伝達性が向上することが示唆された。 十分なサンプル/タスクタイプでトレーニングされたモデルは、追加の拡張ポリシーの恩恵を受けません。 さらに、TILの定量化は患者の予後と相関し、非小肺がん(現在のDAB染色TMAの標準CD8細胞、HR 0.34 95% CI 0.17-0.68、HE WSIs: HoVer-Net PanNuke Aug Model HR 0.30 95% CI 0.15-0.60、HoVer-Net MoNuSAC Aug model HR 0.27 95% CI 0.14-0.53)における免疫細胞検出法と好意的に比較できる。 さらに,h&eスライドのための機械学習に基づくアノテーションをトレーニングし,デプロイし,視覚的に検査するためのクラウドベースのシステムを実装した。 我々の実践的アプローチは、機械学習研究、翻訳臨床研究、臨床実施のギャップを埋める。 しかし,本手法が臨床環境で有効であることを示すためには,将来的な研究の検証が必要である。

Increased levels of tumor infiltrating lymphocytes (TILs) in cancer tissue indicate favourable outcomes in many types of cancer. Manual quantification of immune cells is inaccurate and time consuming for pathologists. Our aim is to leverage a computational solution to automatically quantify TILs in whole slide images (WSIs) of standard diagnostic haematoxylin and eosin stained sections (H&E slides) from lung cancer patients. Our approach is to transfer an open source machine learning method for segmentation and classification of nuclei in H&E slides trained on public data to TIL quantification without manual labeling of our data. Our results show that additional augmentation improves model transferability when training on few samples/limited tissue types. Models trained with sufficient samples/tissue types do not benefit from our additional augmentation policy. Further, the resulting TIL quantification correlates to patient prognosis and compares favorably to the current state-of-the-art method for immune cell detection in non-small lung cancer (current standard CD8 cells in DAB stained TMAs HR 0.34 95% CI 0.17-0.68 vs TILs in HE WSIs: HoVer-Net PanNuke Aug Model HR 0.30 95% CI 0.15-0.60, HoVer-Net MoNuSAC Aug model HR 0.27 95% CI 0.14-0.53). Moreover, we implemented a cloud based system to train, deploy and visually inspect machine learning based annotation for H&E slides. Our pragmatic approach bridges the gap between machine learning research, translational clinical research and clinical implementation. However, validation in prospective studies is needed to assert that the method works in a clinical setting.
翻訳日:2022-02-16 02:57:22 公開日:2022-02-14
# (参考訳) 物理インフォームド温度場再構成におけるアレタリック不確かさの定量化のためのDeep Monte Carlo Quantile Regression [全文訳有]

Deep Monte Carlo Quantile Regression for Quantifying Aleatoric Uncertainty in Physics-informed Temperature Field Reconstruction ( http://arxiv.org/abs/2202.06596v1 )

ライセンス: CC0 1.0
Xiaohu Zheng, Wen Yao, Zhiqiang Gong, Yunyang Zhang, Xiaoyu Zhao, Tingsong Jiang(参考訳) 複雑な画像から画像への回帰問題である温度場再構成(tfr)に対して、畳み込みニューラルネットワーク(cnn)は畳み込み層の良好な画像特徴抽出能力のため強力な代理モデルである。 しかし、CNNのトレーニングにはラベル付きデータが多く必要であり、一般的なCNNはデータノイズによるアレータリック不確実性を定量化できない。 実際の工学では、TFRではノイズレスおよびラベル付きトレーニングデータはほとんど得られない。 そこで本研究では,この2つの問題を解決するために,温度場を再構成し,データノイズによるアレテータの不確かさを定量化するための深モンテカルロ量子化回帰法(deep mc-qr法)を提案する。 一方,Deep MC-QR法は物理知識を用いてCNNのトレーニングを指導する。 これにより、ラベル付きトレーニングデータなしで正確なtfrサロゲートモデルを構築することができる。 一方、Deep MC-QR法は、各トレーニングエポックにおける各入力に対する量子レベル画像を構築する。 そして、トレーニングされたCNNモデルは、予測段階における量子レベル画像サンプリングにより、アレタリック不確実性を定量化することができる。 最後に,提案手法の有効性を多くの実験により検証し,データノイズがTFRに与える影響を解析した。

For the temperature field reconstruction (TFR), a complex image-to-image regression problem, the convolutional neural network (CNN) is a powerful surrogate model due to the convolutional layer's good image feature extraction ability. However, a lot of labeled data is needed to train CNN, and the common CNN can not quantify the aleatoric uncertainty caused by data noise. In actual engineering, the noiseless and labeled training data is hardly obtained for the TFR. To solve these two problems, this paper proposes a deep Monte Carlo quantile regression (Deep MC-QR) method for reconstructing the temperature field and quantifying aleatoric uncertainty caused by data noise. On the one hand, the Deep MC-QR method uses physical knowledge to guide the training of CNN. Thereby, the Deep MC-QR method can reconstruct an accurate TFR surrogate model without any labeled training data. On the other hand, the Deep MC-QR method constructs a quantile level image for each input in each training epoch. Then, the trained CNN model can quantify aleatoric uncertainty by quantile level image sampling during the prediction stage. Finally, the effectiveness of the proposed Deep MC-QR method is validated by many experiments, and the influence of data noise on TFR is analyzed.
翻訳日:2022-02-16 02:35:38 公開日:2022-02-14
# (参考訳) UnScene:都市自然主義道路交通データから自動走行システムの教師なしシナリオ抽出に向けて [全文訳有]

UnScenE: Toward Unsupervised Scenario Extraction for Automated Driving Systems from Urban Naturalistic Road Traffic Data ( http://arxiv.org/abs/2202.06608v1 )

ライセンス: CC BY-SA 4.0
Nico Weber, Christoph Thiem, and Ulrich Konigorski(参考訳) シナリオベースのテストは、自動走行システム(ADS)を備えた車両の安全行動を証明するという課題を解決するための有望なアプローチである。 現実の道路交通において、理論的に無限の具体的なシナリオが発生するため、ADS搭載車両の安全関連挙動に敏感なシナリオの抽出は、これらのシステムの検証と検証を成功させる重要な側面である。 そこで本稿では, 自然主義的な道路交通データから, 必要な事前知識の量(潜在的に偏り)を最小限に抑えるために, 都市交通シナリオを抽出する手法を提案する。 具体的なシナリオを事前に定義された機能シナリオに抽出する(拡張的な)ルールベースの代入ではなく、提案手法は教師なしの機械学習パイプラインをデプロイする。 これには、主機能分析、いわゆるシナリオグリッドによる特徴抽出、主コンポーネント分析による次元性低減、シナリオクラスタリング、クラスタ検証が含まれる。 このアプローチでは、データの未知の性質を探索し、専門家が予想できなかったシナリオとして解釈することができる。 inDとシリコンバレーのデータセットから都市交差点の道路交通データについて,本手法を実証,評価した。 この結果は、ADSをテストするのに十分なカバレッジを持つ関連するシナリオデータベースを体系的に構築するための重要な柱として、この種のデータと教師なし機械学習アプローチの使用を奨励する。

Scenario-based testing is a promising approach to solve the challenge of proving the safe behavior of vehicles equipped with automated driving systems (ADS). Since an infinite number of concrete scenarios can theoretically occur in real-world road traffic, the extraction of relevant scenarios that are sensitive regarding the safety-related behavior of ADS-equipped vehicles is a key aspect for the successful verification and validation of these systems. Therefore, this paper provides a method for extracting multimodal urban traffic scenarios from naturalistic road traffic data in an unsupervised manner for minimizing the amount of (potentially biased) prior expert knowledge needed. Rather than an (expensive) rule-based assignment by extracting concrete scenarios into predefined functional scenarios, the presented method deploys an unsupervised machine learning pipeline. It includes principal feature analysis, feature extraction with so-called scenario grids, dimensionality reduction by principal component analysis, scenario clustering as well as cluster validation. The approach allows exploring the unknown natures of the data and interpreting them as scenarios that experts could not have anticipated. The method is demonstrated and evaluated for naturalistic road traffic data at urban intersections from the inD and the Silicon Valley dataset. The findings encourage the use of this type of data as well as unsupervised machine learning approaches as important pillar for a systematic construction of a relevant scenario database with sufficient coverage for testing ADS.
翻訳日:2022-02-16 02:17:07 公開日:2022-02-14
# (参考訳) KNIFE:カーネル化ニューラル微分エントロピー推定 [全文訳有]

KNIFE: Kernelized-Neural Differential Entropy Estimation ( http://arxiv.org/abs/2202.06618v1 )

ライセンス: CC BY 4.0
Georg Pichler and Pierre Colombo and Malik Boudiaf and Gunther Koliander and Pablo Piantanida(参考訳) 相互情報(MI)はニューラルネットワークをトレーニングするための損失正規化器として広く利用されている。 これは、高次元データの絡み合いや圧縮表現を学ぶ際に特に効果的である。 しかし、別の基本的な情報尺度である差分エントロピー(DE)は、ニューラルネットワークトレーニングにおいて広く使われていない。 DE は MI よりも広い範囲のアプリケーションを提供しているが、オフザシェルフ DE 推定器は非微分可能か、計算的に抽出可能か、あるいは基礎となる分布の変化に適応できない。 これらの欠点は、ニューラルネットワークトレーニングのレギュラライザとしての使用を妨げている。 先程提案したDEM推定器の欠点を解決するために,完全にパラメータ化され,微分可能なDDEのカーネルベース推定器であるKNIFEを紹介する。 このアプローチの柔軟性により、MIと同様に条件付き(離散変数または連続変数のどちらか)のKNIFEベースの推定器を構築することもできる。 本手法を高次元合成データ上で実証的に検証し,実世界の課題に対するニューラルネットワークの訓練の指導に応用する。 視覚領域適応,テキストフェア分類,テキストファインチューニングなど,さまざまなタスクに関する実験により,KNIFEに基づく評価の有効性が示された。 コードはhttps://github.com/g -pichler/knife.comにある。

Mutual Information (MI) has been widely used as a loss regularizer for training neural networks. This has been particularly effective when learn disentangled or compressed representations of high dimensional data. However, differential entropy (DE), another fundamental measure of information, has not found widespread use in neural network training. Although DE offers a potentially wider range of applications than MI, off-the-shelf DE estimators are either non differentiable, computationally intractable or fail to adapt to changes in the underlying distribution. These drawbacks prevent them from being used as regularizers in neural networks training. To address shortcomings in previously proposed estimators for DE, here we introduce KNIFE, a fully parameterized, differentiable kernel-based estimator of DE. The flexibility of our approach also allows us to construct KNIFE-based estimators for conditional (on either discrete or continuous variables) DE, as well as MI. We empirically validate our method on high-dimensional synthetic data and further apply it to guide the training of neural networks for real-world tasks. Our experiments on a large variety of tasks, including visual domain adaptation, textual fair classification, and textual fine-tuning demonstrate the effectiveness of KNIFE-based estimation. Code can be found at https://github.com/g -pichler/knife.
翻訳日:2022-02-16 01:56:49 公開日:2022-02-14
# (参考訳) 逐次予測が過酷な相互作用に遭遇する次は何か? [全文訳有]

What is Next when Sequential Prediction Meets Implicitly Hard Interaction? ( http://arxiv.org/abs/2202.06620v1 )

ライセンス: CC BY 4.0
Kaixi Hu, Lin Li, Qing Xie, Jianquan Liu, Xiaohui Tao(参考訳) ソースシーケンスとその次のターゲット間のハードインタラクション学習は、無数の逐次予測タスクに存在する困難である。 トレーニングプロセスの間、既存のほとんどのメソッドは、間違った反応によって引き起こされる明確なハードな相互作用に焦点を当てています。 しかし、学習可能なパターンのサブセットをキャプチャすることで、モデルが正しい応答を行えば、暗黙的に未学習のパターンと相互作用する。 これにより、一般化性能が低下する。 この問題は、相当な類似する候補ターゲットの干渉により、逐次予測においてより深刻になる。 そこで本研究では,2つの基本逐次学習ネットワークと相互排他性蒸留(med)からなるハードネス認識インタラクション学習フレームワーク(hail)を提案する。 ベースネットワークは、異なる視点パターンを学習するために異なる初期化が行われ、異なるトレーニング経験が得られる。 正しい応答の相違という形での経験は、暗黙的にハードな相互作用を解明するための相互排他的知識を提供するMEDによって互いに引き離される。 さらに,この不規則性は,パターン学習を正しい応答に推し進めるためのグラデーションを本質的に導入すると考えられる。 我々のフレームワークは、より多くのピアベースネットワークに簡単に拡張できます。 サイバー空間と物理空間をカバーする4つのデータセットで評価を行う。 実験の結果,我々のフレームワークは,トップkベースの指標で,最先端の手法よりも優れていることがわかった。

Hard interaction learning between source sequences and their next targets is challenging, which exists in a myriad of sequential prediction tasks. During the training process, most existing methods focus on explicitly hard interactions caused by wrong responses. However, a model might conduct correct responses by capturing a subset of learnable patterns, which results in implicitly hard interactions with some unlearned patterns. As such, its generalization performance is weakened. The problem gets more serious in sequential prediction due to the interference of substantial similar candidate targets. To this end, we propose a Hardness Aware Interaction Learning framework (HAIL) that mainly consists of two base sequential learning networks and mutual exclusivity distillation (MED). The base networks are initialized differently to learn distinctive view patterns, thus gaining different training experiences. The experiences in the form of the unlikelihood of correct responses are drawn from each other by MED, which provides mutual exclusivity knowledge to figure out implicitly hard interactions. Moreover, we deduce that the unlikelihood essentially introduces additional gradients to push the pattern learning of correct responses. Our framework can be easily extended to more peer base networks. Evaluation is conducted on four datasets covering cyber and physical spaces. The experimental results demonstrate that our framework outperforms several state-of-the-art methods in terms of top-k based metrics.
翻訳日:2022-02-16 01:25:52 公開日:2022-02-14
# (参考訳) VP9ビデオ圧縮におけるレート制御のための自己競合型MuZero [全文訳有]

MuZero with Self-competition for Rate Control in VP9 Video Compression ( http://arxiv.org/abs/2202.06626v1 )

ライセンス: CC BY 4.0
Amol Mandhane, Anton Zhernov, Maribeth Rauh, Chenjie Gu, Miaosen Wang, Flora Xue, Wendy Shang, Derek Pang, Rene Claus, Ching-Han Chiang, Cheng Chen, Jingning Han, Angie Chen, Daniel J. Mankowitz, Jackson Broshear, Julian Schrittwieser, Thomas Hubert, Oriol Vinyals, Timothy Mann(参考訳) エンタテインメント、教育、ビジネスがオンラインビデオに依存しているため、ビデオストリーミングの利用は大幅に増加している。 ビデオ圧縮の最適化は、ユーザーに対するコンテンツへのアクセスと品質を高め、エネルギー使用量とコストを削減できる可能性がある。 本稿では,ビデオ圧縮の課題に対する MuZero アルゴリズムの適用について述べる。 具体的には、人気のあるビデオオンデマンド(VOD)サービスで広く使われているオープンソースのVP9ビデオ圧縮ライブラリlibvpxの符号化プロセスにおいて、レート制御ポリシーを学習して量子化パラメータ(QP)を選択する問題をターゲットにしている。 対象ビットレートによって課されるエピソディック制約により映像品質を最大化するために,これを逐次意思決定問題として扱う。 特に,既存の制約付きRL法では困難な制約を満たす制約付きRLを解くための,新たな自己競合型報酬機構を導入する。 libvpx の2パス VBR レート制御ポリシーと比較して,圧縮された動画の圧縮画質(PSNR BD-rate として測定される)を平均6.28%削減し,良好な制約満足度を達成できることを示した。

Video streaming usage has seen a significant rise as entertainment, education, and business increasingly rely on online video. Optimizing video compression has the potential to increase access and quality of content to users, and reduce energy use and costs overall. In this paper, we present an application of the MuZero algorithm to the challenge of video compression. Specifically, we target the problem of learning a rate control policy to select the quantization parameters (QP) in the encoding process of libvpx, an open source VP9 video compression library widely used by popular video-on-demand (VOD) services. We treat this as a sequential decision making problem to maximize the video quality with an episodic constraint imposed by the target bitrate. Notably, we introduce a novel self-competition based reward mechanism to solve constrained RL with variable constraint satisfaction difficulty, which is challenging for existing constrained RL methods. We demonstrate that the MuZero-based rate control achieves an average 6.28% reduction in size of the compressed videos for the same delivered video quality level (measured as PSNR BD-rate) compared to libvpx's two-pass VBR rate control policy, while having better constraint satisfaction behavior.
翻訳日:2022-02-16 00:53:14 公開日:2022-02-14
# (参考訳) ニューラルコード探索のための高品質なトレーニングデータセットの構築の重要性について [全文訳有]

On the Importance of Building High-quality Training Datasets for Neural Code Search ( http://arxiv.org/abs/2202.06649v1 )

ライセンス: CC BY 4.0
Zhensu Sun, Li Li, Yan Liu, Xiaoning Du, Li Li(参考訳) ニューラルコード探索の性能は、ニューラルモデルが導出されるトレーニングデータの品質に大きく影響される。 高品質なクエリとコードペアの大きなコーパスは、自然言語からプログラミング言語への正確なマッピングを確立するために必要です。 可用性が限られているため、最も広く使用されているコード検索データセットは、クエリの代替としてコードコメントを使用するなど、妥協によって確立されている。 有名なコード検索データセットに関する実証研究によると、クエリの3分の1以上が自然のユーザクエリから逸脱するノイズを含んでいることがわかった。 ノイズの多いデータによってトレーニングされたモデルは、現実のシナリオに適用した場合、厳しいパフォーマンス劣化に直面します。 データセットの品質を向上し、そのサンプルのクエリを実際のユーザクエリと意味的に同一にするためには、ニューラルネットワーク検索の実用的ユーザビリティが不可欠である。 本稿では,ルールベース構文フィルタとモデルベースセマンティックフィルタという,その後の2つのフィルタからなるデータクリーニングフレームワークを提案する。 これは、コード検索データセットにセマンティッククエリクリーニングを適用する最初のフレームワークである。 実験では, 広く使われている2つのコード検索モデルと, 手動アノテーションによる3つのコード検索ベンチマークについて, フレームワークの有効性を評価した。 フレームワークからフィルタデータセットを使用して人気のDeepCSモデルをトレーニングすると、3つの検証ベンチマークで平均19.2%のMRRと21.3%のAnswer@1のパフォーマンスが向上する。

The performance of neural code search is significantly influenced by the quality of the training data from which the neural models are derived. A large corpus of high-quality query and code pairs is demanded to establish a precise mapping from the natural language to the programming language. Due to the limited availability, most widely-used code search datasets are established with compromise, such as using code comments as a replacement of queries. Our empirical study on a famous code search dataset reveals that over one-third of its queries contain noises that make them deviate from natural user queries. Models trained through noisy data are faced with severe performance degradation when applied in real-world scenarios. To improve the dataset quality and make the queries of its samples semantically identical to real user queries is critical for the practical usability of neural code search. In this paper, we propose a data cleaning framework consisting of two subsequent filters: a rule-based syntactic filter and a model-based semantic filter. This is the first framework that applies semantic query cleaning to code search datasets. Experimentally, we evaluated the effectiveness of our framework on two widely-used code search models and three manually-annotated code retrieval benchmarks. Training the popular DeepCS model with the filtered dataset from our framework improves its performance by 19.2% MRR and 21.3% Answer@1, on average with the three validation benchmarks.
翻訳日:2022-02-16 00:29:05 公開日:2022-02-14
# (参考訳) ゼロショットのクロスリンガルキーワード検出は教師なしより優れているか? [全文訳有]

Out of Thin Air: Is Zero-Shot Cross-Lingual Keyword Detection Better Than Unsupervised? ( http://arxiv.org/abs/2202.06650v1 )

ライセンス: CC BY 4.0
Boshko Koloski and Senja Pollak and Bla\v{z} \v{S}krlj and Matej Martinc(参考訳) キーワード抽出は、ある文書の内容に不可欠な単語を検索するタスクである。 研究者はこの問題に取り組むための様々なアプローチを提案した。 最上位のレベルでは、アプローチはトレーニング(教師なし)と教師なし(教師なし)に分けられます。 本研究では,調査中の言語について,トレーニングデータがないような設定に興味を持っている。 より具体的には、ラベル付きトレーニングデータに制限のある低リソース言語におけるゼロショットのクロスリンガルキーワード抽出に、事前学習された多言語言語モデルが利用できるか、そして、それらが最先端の教師なしキーワード抽出器よりも優れているかを検討する。 この比較は、英語とロシア語の2つの高リソース言語とクロアチア語、エストニア語、ラトビア語、スロベニア語という4つの低リソース言語をカバーする6つのニュース記事データセットで行われている。 事前訓練されたモデルは、テストセットに現れない言語(すなわちゼロショット設定)をカバーする多言語コーパスで微調整され、6つの言語すべてにおいて、一貫して教師なしモデルよりも優れている。

Keyword extraction is the task of retrieving words that are essential to the content of a given document. Researchers proposed various approaches to tackle this problem. At the top-most level, approaches are divided into ones that require training - supervised and ones that do not - unsupervised. In this study, we are interested in settings, where for a language under investigation, no training data is available. More specifically, we explore whether pretrained multilingual language models can be employed for zero-shot cross-lingual keyword extraction on low-resource languages with limited or no available labeled training data and whether they outperform state-of-the-art unsupervised keyword extractors. The comparison is conducted on six news article datasets covering two high-resource languages, English and Russian, and four low-resource languages, Croatian, Estonian, Latvian, and Slovenian. We find that the pretrained models fine-tuned on a multilingual corpus covering languages that do not appear in the test set (i.e. in a zero-shot setting), consistently outscore unsupervised models in all six languages.
翻訳日:2022-02-16 00:04:52 公開日:2022-02-14
# (参考訳) 確率的線形バンディットにおけるバッチ学習の影響 [全文訳有]

The Impact of Batch Learning in Stochastic Linear Bandits ( http://arxiv.org/abs/2202.06657v1 )

ライセンス: CC BY 4.0
Danil Provodin, Pratik Gajane, Mykola Pechenizkiy, Maurits Kaptein(参考訳) 我々は,ある期間にエージェントが応答のバッチを観測する,バッチバンディット( batched bandits)という,特殊なバンディット問題を考える。 従来の作業とは異なり、バッチ学習の実質的に関連するバッチ中心のシナリオを検討する。 つまり、我々は、政策非依存の後悔分析を提供し、候補者政策の後悔に対する上下限を実証する。 本研究の主な理論的結果は,バッチ学習の効果がオンライン行動の後悔に比例して測定できることである。 主に、インスタンス非依存とインスタンス依存の2つの問題について検討する。 上限は両方の設定で同じであるが、最悪の場合の下限は前の場合より包括的であり、後者の場合より正確である。 また、2本腕のバンディット問題に対するより堅牢な結果も重要な知見である。 最後に,実験を行い,最適なバッチサイズ選択を反映することにより,理論結果の一貫性を示す。

We consider a special case of bandit problems, named batched bandits, in which an agent observes batches of responses over a certain time period. Unlike previous work, we consider a practically relevant batch-centric scenario of batch learning. That is to say, we provide a policy-agnostic regret analysis and demonstrate upper and lower bounds for the regret of a candidate policy. Our main theoretical results show that the impact of batch learning can be measured proportional to the regret of online behavior. Primarily, we study two settings of the problem: instance-independent and instance-dependent. While the upper bound is the same for both settings, the worst-case lower bound is more comprehensive in the former case and more accurate in the latter one. Also, we provide a more robust result for the 2-armed bandit problem as an important insight. Finally, we demonstrate the consistency of theoretical results by conducting empirical experiments and reflect on the optimal batch size choice.
翻訳日:2022-02-15 23:45:59 公開日:2022-02-14
# (参考訳) 弱教師付きコントラスト表現の学習 [全文訳有]

Learning Weakly-Supervised Contrastive Representations ( http://arxiv.org/abs/2202.06670v1 )

ライセンス: CC BY 4.0
Yao-Hung Hubert Tsai, Tianqin Li, Weixin Liu, Peiyuan Liao, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) 補助情報によって提供される貴重な情報の形式は、その暗黙のデータクラスタリング情報であると主張する。 例えば、ハッシュタグを補助情報として考えると、Instagramのイメージが同じハッシュタグと意味的に似ていると仮定できる。 この直観により,2段階の弱教師付きコントラスト学習手法を提案する。 第1段階では、補助情報に従ってデータをクラスタ化する。 第2段階は、同じクラスタ内で類似した表現を学習し、異なるクラスタからのデータの類似表現を異にすることです。 我々の実験は以下の3つの貢献を示唆している。 まず,従来の自己監督表現と比較して,補助情報操作表現は,直接下流ラベルを監督信号として使用する監視表現に近い性能をもたらす。 第2に、補助データ情報も活用する他のベースライン表現学習手法と比較した場合、ほとんどの場合、我々のアプローチが最善である。 第3に, 提案手法は非教師なしクラスタ(例えば, 補助情報を持たない)とうまく連携し, 強力な教師なし表現学習手法をもたらすことを示す。

We argue that a form of the valuable information provided by the auxiliary information is its implied data clustering information. For instance, considering hashtags as auxiliary information, we can hypothesize that an Instagram image will be semantically more similar with the same hashtags. With this intuition, we present a two-stage weakly-supervised contrastive learning approach. The first stage is to cluster data according to its auxiliary information. The second stage is to learn similar representations within the same cluster and dissimilar representations for data from different clusters. Our empirical experiments suggest the following three contributions. First, compared to conventional self-supervised representations, the auxiliary-informatio n-infused representations bring the performance closer to the supervised representations, which use direct downstream labels as supervision signals. Second, our approach performs the best in most cases, when comparing our approach with other baseline representation learning methods that also leverage auxiliary data information. Third, we show that our approach also works well with unsupervised constructed clusters (e.g., no auxiliary information), resulting in a strong unsupervised representation learning approach.
翻訳日:2022-02-15 23:20:16 公開日:2022-02-14
# (参考訳) 引用埋め込みを用いた科学文書表現のための近所の対比学習 [全文訳有]

Neighborhood Contrastive Learning for Scientific Document Representations with Citation Embeddings ( http://arxiv.org/abs/2202.06671v1 )

ライセンス: CC BY 4.0
Malte Ostendorff, Nils Rethmeier, Isabelle Augenstein, Bela Gipp, Georg Rehm(参考訳) 科学的文書表現の学習は対照的な学習目標を通じて大幅に改善され、そこでは、望ましい類似性意味論を符号化する正負のトレーニングサンプルを作成することが課題となる。 先行研究は、コントラストサンプルを生成するために離散的な引用関係に依存する。 しかし、離散的な引用は類似性に固執する。 これは類似性に基づく学習に反する直感的であり、関連する研究を見つける上での直接的な引用の問題が欠如しているにもかかわらず、科学的論文が非常によく似ていることを無視する。 代わりに、コントラスト学習のために、引用グラフ埋め込み上の制御された近接サンプリングを使用する。 この制御により、連続的な類似性を学習し、難解な負と正のサンプルをサンプリングし、またそれらのサンプルマージンを制御することで、負のサンプルと正のサンプルの衝突を避けることができる。 その結果、SciNCLはSciDocsベンチマークの最先端よりも優れている。 さらに,モデルをサンプル効率良くトレーニング(あるいはチューニング)でき,近年のトレーニング効率のよい手法と組み合わせることができることを示す。 おそらく驚くべきことに、この方法で汎用ドメイン言語モデルをトレーニングしても、ドメイン内で事前トレーニングされたベースラインを上回っます。

Learning scientific document representations can be substantially improved through contrastive learning objectives, where the challenge lies in creating positive and negative training samples that encode the desired similarity semantics. Prior work relies on discrete citation relations to generate contrast samples. However, discrete citations enforce a hard cut-off to similarity. This is counter-intuitive to similarity-based learning, and ignores that scientific papers can be very similar despite lacking a direct citation - a core problem of finding related research. Instead, we use controlled nearest neighbor sampling over citation graph embeddings for contrastive learning. This control allows us to learn continuous similarity, to sample hard-to-learn negatives and positives, and also to avoid collisions between negative and positive samples by controlling the sampling margin between them. The resulting method SciNCL outperforms the state-of-the-art on the SciDocs benchmark. Furthermore, we demonstrate that it can train (or tune) models sample-efficiently, and that it can be combined with recent training-efficient methods. Perhaps surprisingly, even training a general-domain language model this way outperforms baselines pretrained in-domain.
翻訳日:2022-02-15 22:51:19 公開日:2022-02-14
# (参考訳) 指静脈認識のための畳み込みブロック注意モジュールを用いた畳み込みニューラルネットワーク [全文訳有]

Convolutional Neural Network with Convolutional Block Attention Module for Finger Vein Recognition ( http://arxiv.org/abs/2202.06673v1 )

ライセンス: CC BY 4.0
Zhongxia Zhang and Mingwen Wang(参考訳) 畳み込みニューラルネットワークは、その強力な画像特徴表現のため、指静脈認識の分野で広く研究されている。 しかし、ほとんどの研究者はCNNの深さと幅を大きくすることでネットワークの性能を向上させることに重点を置いている。 さらに、異なるチャネルにおける画素の重要性が異なるだけでなく、同じチャネルにおける異なる位置における画素の重要性が異なることに気づく。 そこで本研究では,指静脈認識のための畳み込みブロックアテンションモジュール(CBAM)を備えた軽量畳み込みニューラルネットワークを提案する。 まず、画像シーケンスは、視覚機能を改善するために設計された軽量畳み込みニューラルネットワークに供給されます。 その後、畳み込みブロックアテンションモジュールの助けを借りて、特徴重みを適応的に割り当てることを学ぶ。 実験は2つの公開データベース上で実施され,本手法がマルチモーダル指認識において安定かつ高精度で頑健な性能を実現することを示す。

Convolutional neural networks have become a popular research in the field of finger vein recognition because of their powerful image feature representation. However, most researchers focus on improving the performance of the network by increasing the CNN depth and width, which often requires high computational effort. Moreover, we can notice that not only the importance of pixels in different channels is different, but also the importance of pixels in different positions of the same channel is different. To reduce the computational effort and to take into account the different importance of pixels, we propose a lightweight convolutional neural network with a convolutional block attention module (CBAM) for finger vein recognition, which can achieve a more accurate capture of visual structures through an attention mechanism. First, image sequences are fed into a lightweight convolutional neural network we designed to improve visual features. Afterwards, it learns to assign feature weights in an adaptive manner with the help of a convolutional block attention module. The experiments are carried out on two publicly available databases and the results demonstrate that the proposed method achieves a stable, highly accurate, and robust performance in multimodal finger recognition.
翻訳日:2022-02-15 22:29:56 公開日:2022-02-14
# (参考訳) 機械は、データシートの質問16を答えるのに役立ち、不適切なコンテンツを振り返ることができますか? [全文訳有]

Can Machines Help Us Answering Question 16 in Datasheets, and In Turn Reflecting on Inappropriate Content? ( http://arxiv.org/abs/2202.06675v1 )

ライセンス: CC BY 4.0
Patrick Schramowski, Christopher Tauchmann, and Kristian Kersting(参考訳) 現在の機械学習の大部分を支える巨大なデータセットは、攻撃、侮辱、脅迫、その他不安を引き起こす可能性のある不適切なコンテンツに関する深刻な問題を引き起こす。 これはデータセットのドキュメントの増加、例えばデータシートの使用を要求する。 これらのトピックは、データセットの構成を反映することを奨励している。 しかしこれまでのところ、このドキュメントは手作業で行われており、特に大規模な画像データセットでは面倒でエラーを起こしやすい。 ここでは,不適切なコンテンツに対するリフレクションを機械が支援できるかどうかという,間違いなく「循環的」な疑問を問う。 そこで本研究では,事前学習したトランスフォーマモデルに格納された情報を用いて文書作成を支援することを提案する。 特に、社会道徳的価値のデータセットに基づく即時学習は、CLIPを操り、潜在的に不適切なコンテンツを特定する。 次に,視覚言語モデルを用いて生成したキャプションに基づいて,単語クラウドを用いた不適切な画像を文書化する。 大規模なコンピュータビジョンデータセットであるimagenetとopenimagesの2つのドキュメントは、マシンがデータセット作成者が不適切な画像コンテンツについて質問16に答えるのに役立つことを示唆している。

Large datasets underlying much of current machine learning raise serious issues concerning inappropriate content such as offensive, insulting, threatening, or might otherwise cause anxiety. This calls for increased dataset documentation, e.g., using datasheets. They, among other topics, encourage to reflect on the composition of the datasets. So far, this documentation, however, is done manually and therefore can be tedious and error-prone, especially for large image datasets. Here we ask the arguably "circular" question of whether a machine can help us reflect on inappropriate content, answering Question 16 in Datasheets. To this end, we propose to use the information stored in pre-trained transformer models to assist us in the documentation process. Specifically, prompt-tuning based on a dataset of socio-moral values steers CLIP to identify potentially inappropriate content, therefore reducing human labor. We then document the inappropriate images found using word clouds, based on captions generated using a vision-language model. The documentations of two popular, large-scale computer vision datasets -- ImageNet and OpenImages -- produced this way suggest that machines can indeed help dataset creators to answer Question 16 on inappropriate image content.
翻訳日:2022-02-15 22:16:08 公開日:2022-02-14
# (参考訳) Versatile Dueling Bandits: オンライン学習のためのベスト・オブ・ボトム・ワールド分析 [全文訳有]

Versatile Dueling Bandits: Best-of-both-World Analyses for Online Learning from Preferences ( http://arxiv.org/abs/2202.06694v1 )

ライセンス: CC BY 4.0
Aadirupa Saha and Pierre Gaillard(参考訳) そこで,学習者の目的は,オンライン・シーケンシャルに問合せされた2つの決定点の相対的選好を通じて情報を集約することである。 まず,任意の(一般的な)デュエル・バンディットからマルチアーム・バンディットへの新たな還元を提案する。 特に、\emph{we give the first best-of-two world result for the dueling bandits regret minimization problem} - 確率的選好と敵対的選好の両方に対して最適な実行が保証される統一フレームワーク。 さらに、我々のアルゴリズムは、armサイズの$k$とインスタンス固有のサブオプティリティギャップである$\{\delta_i\}_{i = 1}^k$の両方において最適にスケールするcondorcet-winnerベンチマークに対して、最適な$o(\sum_{i = 1}^k \frac{\log t}{\delta_i})$を到達した最初のアルゴリズムである。 これにより、(最小の定数係数までの下限と一致する)デュエル・バンディットに対するインスタンスワイズギャップ依存順序最適後悔アルゴリズムを設計する長年の問題が解決される。 我々は、我々の提案したアルゴリズムの頑健さをさらに正当化し、その最適な後悔率を敵の腐敗した好みの下で証明する。 まとめると、私たちの還元アイデアは、より複雑なソリューションとより悪い保証を持つ多器バンディットとは別に研究される、多種多様なデュエルリングバンディット設定の解決において、より広い範囲を見出します。 提案アルゴリズムの有効性は,既存のデュエルバンディット法と実証的に相関している。

We study the problem of $K$-armed dueling bandit for both stochastic and adversarial environments, where the goal of the learner is to aggregate information through relative preferences of pair of decisions points queried in an online sequential manner. We first propose a novel reduction from any (general) dueling bandits to multi-armed bandits and despite the simplicity, it allows us to improve many existing results in dueling bandits. In particular, \emph{we give the first best-of-both world result for the dueling bandits regret minimization problem} -- a unified framework that is guaranteed to perform optimally for both stochastic and adversarial preferences simultaneously. Moreover, our algorithm is also the first to achieve an optimal $O(\sum_{i = 1}^K \frac{\log T}{\Delta_i})$ regret bound against the Condorcet-winner benchmark, which scales optimally both in terms of the arm-size $K$ and the instance-specific suboptimality gaps $\{\Delta_i\}_{i = 1}^K$. This resolves the long-standing problem of designing an instancewise gap-dependent order optimal regret algorithm for dueling bandits (with matching lower bounds up to small constant factors). We further justify the robustness of our proposed algorithm by proving its optimal regret rate under adversarially corrupted preferences -- this outperforms the existing state-of-the-art corrupted dueling results by a large margin. In summary, we believe our reduction idea will find a broader scope in solving a diverse class of dueling bandits setting, which are otherwise studied separately from multi-armed bandits with often more complex solutions and worse guarantees. The efficacy of our proposed algorithms is empirically corroborated against the existing dueling bandit methods.
翻訳日:2022-02-15 21:56:14 公開日:2022-02-14
# (参考訳) 視覚トランスフォーマーはどのように動作するのか? [全文訳有]

How Do Vision Transformers Work? ( http://arxiv.org/abs/2202.06709v1 )

ライセンス: CC BY 4.0
Namuk Park, Songkuk Kim(参考訳) コンピュータビジョンのためのマルチヘッド自己注意(MSA)の成功は、今や疑わしい。 しかし、MSAの動作についてはほとんど分かっていない。 我々はMSAの性質をよりよく理解するための基本的な説明を示す。 特に,MSAと視覚変換器(ViTs)の特性を示す。(1)MSAは精度を向上するだけでなく,損失景観を平らにすることで一般化する。 このような改善は主に、長距離依存ではなく、データ特異性に起因する。 一方、ViTは非凸損失に悩まされている。 大規模なデータセットと損失景観の平滑化手法はこの問題を緩和する; (2) MSAとConvsは反対の振る舞いを示す。 例えば、MSAはローパスフィルタであるが、Convはハイパスフィルタである。 したがって、msaとconvは相補的であり、(3)多段ニューラルネットワークは小さな個々のモデルの直列接続のように振る舞う。 加えて、ステージの最後にあるmsaは、予測において重要な役割を果たす。 これらの知見に基づいて,段階末のConvブロックをMSAブロックに置き換えるモデルであるAlterNetを提案する。 AlterNetは、大規模なデータレギュレーションだけでなく、小さなデータレギュレーションでもCNNを上回っている。 コードはhttps://github.com/x xxnell/how-do-vits-w orkで入手できる。

The success of multi-head self-attentions (MSAs) for computer vision is now indisputable. However, little is known about how MSAs work. We present fundamental explanations to help better understand the nature of MSAs. In particular, we demonstrate the following properties of MSAs and Vision Transformers (ViTs): (1) MSAs improve not only accuracy but also generalization by flattening the loss landscapes. Such improvement is primarily attributable to their data specificity, not long-range dependency. On the other hand, ViTs suffer from non-convex losses. Large datasets and loss landscape smoothing methods alleviate this problem; (2) MSAs and Convs exhibit opposite behaviors. For example, MSAs are low-pass filters, but Convs are high-pass filters. Therefore, MSAs and Convs are complementary; (3) Multi-stage neural networks behave like a series connection of small individual models. In addition, MSAs at the end of a stage play a key role in prediction. Based on these insights, we propose AlterNet, a model in which Conv blocks at the end of a stage are replaced with MSA blocks. AlterNet outperforms CNNs not only in large data regimes but also in small data regimes. The code is available at https://github.com/x xxnell/how-do-vits-w ork.
翻訳日:2022-02-15 21:28:26 公開日:2022-02-14
# (参考訳) 確率的埋め込み再訪 [全文訳有]

Probabilistic Embeddings Revisited ( http://arxiv.org/abs/2202.06768v1 )

ライセンス: CC BY 4.0
Ivan Karpukhin, Stanislav Dereka, Sergey Kolesnikov(参考訳) 近年、深層計量学習とその確率的拡張は、顔検証タスクにおいて最先端の結果を得た。 しかし、顔認証の改善にもかかわらず、確率的手法はコミュニティではほとんど注目されなかった。 画像検索の品質を向上できるかどうかはまだ不明である。 本稿では,検証および検索作業における確率的手法の広範な比較を行う。 提案手法に従い,確率的手法を用いた計量学習ベースラインを上回り,今後の作業と改善のためのいくつかの方向性を提案する。

In recent years, deep metric learning and its probabilistic extensions achieved state-of-the-art results in a face verification task. However, despite improvements in face verification, probabilistic methods received little attention in the community. It is still unclear whether they can improve image retrieval quality. In this paper, we present an extensive comparison of probabilistic methods in verification and retrieval tasks. Following the suggested methodology, we outperform metric learning baselines using probabilistic methods and propose several directions for future work and improvements.
翻訳日:2022-02-15 20:59:22 公開日:2022-02-14
# (参考訳) マルチスケール注意誘導ポーズ伝達 [全文訳有]

Multi-scale Attention Guided Pose Transfer ( http://arxiv.org/abs/2202.06777v1 )

ライセンス: CC BY 4.0
Prasun Roy, Saumik Bhattacharya, Subhankar Ghosh and Umapada Pal(参考訳) ポーズ転送(Pose transfer)とは、前例のないポーズを持つ人物の確率的イメージ生成を、別のポーズを持つ人物の別のイメージから意味する。 学術的、商業的な応用の可能性から、この問題は近年広く研究されている。 この問題に対する様々なアプローチの中で,注意誘導型プログレッシブジェネレーションは,ほとんどの場合,最先端の成果を生み出すことが示されている。 本稿では,エンコーダとデコーダの解像度レベルごとに注意リンクを導入することにより,ポーズ転送のためのネットワークアーキテクチャの改善を提案する。 このような密集した多スケール注意誘導手法を利用することで,既存の手法を視覚的に,分析的に大きく改善することができる。 本稿では,DeepFashionデータセット上の既存手法と比較して,定性的かつ定量的な比較を行った。

Pose transfer refers to the probabilistic image generation of a person with a previously unseen novel pose from another image of that person having a different pose. Due to potential academic and commercial applications, this problem is extensively studied in recent years. Among the various approaches to the problem, attention guided progressive generation is shown to produce state-of-the-art results in most cases. In this paper, we present an improved network architecture for pose transfer by introducing attention links at every resolution level of the encoder and decoder. By utilizing such dense multi-scale attention guided approach, we are able to achieve significant improvement over the existing methods both visually and analytically. We conclude our findings with extensive qualitative and quantitative comparisons against several existing methods on the DeepFashion dataset.
翻訳日:2022-02-15 20:42:02 公開日:2022-02-14
# (参考訳) 連続学習の可視化と動的調整のためのループのエキスパートによる説明可能性モジュールの設計 [全文訳有]

Design of Explainability Module with Experts in the Loop for Visualization and Dynamic Adjustment of Continual Learning ( http://arxiv.org/abs/2202.06781v1 )

ライセンス: CC BY 4.0
Yujiang He, Zhixin Huang and Bernhard Sick(参考訳) 連続学習は、タスク交換シナリオで順次新しいタスクを学習することで、ニューラルネットワークの進化を可能にする。 しかし,本手法を現実の応用に適用する前に,今後の研究で克服すべき課題が2つある。 まず、アプリケーションでデータストリームから新たに収集された新奇性は、継続的な学習には意味のない異常を含む可能性がある。 これらを新しいタスクとして更新する代わりに、収束の進行のために極端に高エントロピーデータの乱れを減らすために、そのような異常を除去する必要がある。 第二に、連続学習の説明可能性に関する研究は少ないため、更新されたニューラルネットワークの透明性と信頼性が欠如している。 継続的学習のプロセスと結果に関する詳細な説明は、専門家の判断と意思決定に役立つ。 そこで本研究では,次元の縮小,可視化,評価戦略といった手法を応用した説明可能性モジュールの概念設計を提案する。 この研究は、特定された異常と更新されたニューラルネットワークを十分に説明し視覚化することで、前述の課題を克服することを目的としている。 このモジュールの助けを借りて、専門家は異常フィルタリング、ハイパーパラメータの動的調整、データバックアップなどに関する意思決定に自信を持つことができる。

Continual learning can enable neural networks to evolve by learning new tasks sequentially in task-changing scenarios. However, two general and related challenges should be overcome in further research before we apply this technique to real-world applications. Firstly, newly collected novelties from the data stream in applications could contain anomalies that are meaningless for continual learning. Instead of viewing them as a new task for updating, we have to filter out such anomalies to reduce the disturbance of extremely high-entropy data for the progression of convergence. Secondly, fewer efforts have been put into research regarding the explainability of continual learning, which leads to a lack of transparency and credibility of the updated neural networks. Elaborated explanations about the process and result of continual learning can help experts in judgment and making decisions. Therefore, we propose the conceptual design of an explainability module with experts in the loop based on techniques, such as dimension reduction, visualization, and evaluation strategies. This work aims to overcome the mentioned challenges by sufficiently explaining and visualizing the identified anomalies and the updated neural network. With the help of this module, experts can be more confident in decision-making regarding anomaly filtering, dynamic adjustment of hyperparameters, data backup, etc.
翻訳日:2022-02-15 20:25:29 公開日:2022-02-14
# (参考訳) CATs++: 畳み込みとトランスフォーマーによるコスト集約を促進する [全文訳有]

CATs++: Boosting Cost Aggregation with Convolutions and Transformers ( http://arxiv.org/abs/2202.06817v1 )

ライセンス: CC BY 4.0
Seokju Cho, Sunghwan Hong, Seungryong Kim(参考訳) コスト集約は画像マッチングタスクにおいて非常に重要なプロセスであり、ノイズマッチングスコアを曖昧にすることを目的としている。 既存の手法では、厳格な変形に対する頑健さを欠いた手作りまたはcnnベースの手法でこれに取り組むか、あるいは不適切なフィールドと不適応性のために不正確な一致を判別できないcnnの制限を継承する。 本稿では, トランスフォーマーを用いたコストアグリゲーション(CAT)を導入し, 自己認識機構のグローバルな受容分野を十分に享受するアーキテクチャ設計の助けを借りて, 初期相関マップ間のグローバルコンセンサスを探究する。 また、CATが直面する可能性のあるいくつかの制限を緩和するため、CATの拡張であるCATs++を提案する。 提案手法は,PF-WILLOW,PF-PASCAL ,SPair-71kを含むすべてのベンチマークに対して,従来の最先端手法よりも高い性能を示す。 我々はさらに広範なアブレーション研究と分析を提供する。

Cost aggregation is a highly important process in image matching tasks, which aims to disambiguate the noisy matching scores. Existing methods generally tackle this by hand-crafted or CNN-based methods, which either lack robustness to severe deformations or inherit the limitation of CNNs that fail to discriminate incorrect matches due to limited receptive fields and inadaptability. In this paper, we introduce Cost Aggregation with Transformers (CATs) to tackle this by exploring global consensus among initial correlation map with the help of some architectural designs that allow us to fully enjoy global receptive fields of self-attention mechanism. Also, to alleviate some of the limitations that CATs may face, i.e., high computational costs induced by the use of a standard transformer that its complexity grows with the size of spatial and feature dimensions, which restrict its applicability only at limited resolution and result in rather limited performance, we propose CATs++, an extension of CATs. Our proposed methods outperform the previous state-of-the-art methods by large margins, setting a new state-of-the-art for all the benchmarks, including PF-WILLOW, PF-PASCAL, and SPair-71k. We further provide extensive ablation studies and analyses.
翻訳日:2022-02-15 20:16:43 公開日:2022-02-14
# (参考訳) オンライン承認委員会選挙 [全文訳有]

Online Approval Committee Elections ( http://arxiv.org/abs/2202.06830v1 )

ライセンス: CC BY 4.0
Virginie Do, Matthieu Hervouin, J\'er\^ome Lang, Piotr Skowron(参考訳) k$ 候補を選定する必要があると仮定する。 候補者は時間とともに現れる。 出現するたびに、即座に選択または拒否されなければならず、投票によって個人のグループによって決定される。 有権者が承認投票を使用すると仮定する。すなわち、各候補者が受け入れ可能なかどうかのみを指定する。 この設定は、$k$の秘書を選ぶ投票方式と見なすことができる。 私たちの貢献は2倍です。 1) オンライン上で計算される委員会が有権者を比例的に表現できる程度まで評価する。 2) 承認候補に対する事前の確率が利用可能であれば, 最大得点の委員会の計算方法を示す。

Assume $k$ candidates need to be selected. The candidates appear over time. Each time one appears, it must be immediately selected or rejected -- a decision that is made by a group of individuals through voting. Assume the voters use approval ballots, i.e., for each candidate they only specify whether they consider it acceptable or not. This setting can be seen as a voting variant of choosing $k$ secretaries. Our contribution is twofold. (1) We assess to what extent the committees that are computed online can proportionally represent the voters. (2) If a prior probability over candidate approvals is available, we show how to compute committees with maximal expected score.
翻訳日:2022-02-15 19:38:15 公開日:2022-02-14
# (参考訳) PMUデータのモーダル解析によるイベント識別のための機械学習フレームワーク [全文訳有]

A Machine Learning Framework for Event Identification via Modal Analysis of PMU Data ( http://arxiv.org/abs/2202.06836v1 )

ライセンス: CC BY 4.0
Nima T.Bazargani, Gautam Dasarathy, Lalitha Sankar, Oliver Kosut(参考訳) 電力系統は様々なイベント(例えば、ライントリップやジェネレーションロス)を起こしやすく、そのようなイベントのリアルタイム識別は状況認識、信頼性、セキュリティにおいて不可欠である。 複数の同期器、すなわちファサー測定ユニット(pmus)からの計測を用いて、モーダルダイナミクスに基づく特徴抽出により事象を同定する。 従来の物理に基づく特徴抽出手法と機械学習を組み合わせて、異なるイベントタイプを区別する。 各PMUに全ての測定チャネルを含めると、多様な特徴を活用できるが、高次元空間上の学習分類モデルも必要である。 この問題に対処するため、様々な機能選択手法が実装され、機能の最適なサブセットを選択する。 得られた特徴のサブセットを用いて、ロジスティック回帰(LR)とサポートベクターマシン(SVM)という2つのよく知られた分類モデルの性能を調べ、2つのデータセットにおける生成損失とライントリップイベントを特定する。 最初のデータセットは、テキサス2000-bus合成グリッドにおける生成損失とライントリップのシミュレーションから得られる。 2つめはプロプライエタリなデータセットで、米国内の大規模ユーティリティから取得したラベル付きイベントには、500 pmus近い測定結果が含まれている。 その結果,提案フレームワークは2種類のイベントを識別できる可能性が示唆された。

Power systems are prone to a variety of events (e.g. line trips and generation loss) and real-time identification of such events is crucial in terms of situational awareness, reliability, and security. Using measurements from multiple synchrophasors, i.e., phasor measurement units (PMUs), we propose to identify events by extracting features based on modal dynamics. We combine such traditional physics-based feature extraction methods with machine learning to distinguish different event types. Including all measurement channels at each PMU allows exploiting diverse features but also requires learning classification models over a high-dimensional space. To address this issue, various feature selection methods are implemented to choose the best subset of features. Using the obtained subset of features, we investigate the performance of two well-known classification models, namely, logistic regression (LR) and support vector machines (SVM) to identify generation loss and line trip events in two datasets. The first dataset is obtained from simulated generation loss and line trip events in the Texas 2000-bus synthetic grid. The second is a proprietary dataset with labeled events obtained from a large utility in the USA involving measurements from nearly 500 PMUs. Our results indicate that the proposed framework is promising for identifying the two types of events.
翻訳日:2022-02-15 19:21:57 公開日:2022-02-14
# (参考訳) 何を捕まえる? --ソースコードのための事前学習言語モデルの構造解析 [全文訳有]

What Do They Capture? -- A Structural Analysis of Pre-Trained Language Models for Source Code ( http://arxiv.org/abs/2202.06840v1 )

ライセンス: CC BY 4.0
Yao Wan, Wei Zhao, Hongyu Zhang, Yulei Sui, Guandong Xu, Hai Jin(参考訳) 近年、ソースコードのコンテキストをモデル化し、コード補完、コード検索、コード要約といった下流のコードインテリジェンスタスクの基礎となるために、多くの事前学習された言語モデルが提案されている。 これらのモデルは仮装プリトレーニングとトランスフォーマーを利用し、有望な結果を得た。 しかし、既存の事前訓練されたコードモデルの解釈可能性についてはまだほとんど進歩していない。 これらのモデルがなぜ機能し、どのような機能相関を捉えられるのかは明らかではない。 本稿では,(1)注目分析,(2)単語埋め込みの探索,(3)構文木帰納の3つの視点から,ソースコード(CodeBERT,GraphCodeB ERT)に対する事前学習言語モデルの解釈を提供することを目的とした,徹底的な構造解析を行う。 包括的分析を通じて,(1)コードの構文構造に強い注意を向ける,今後の研究を刺激する可能性のある洞察に富んだ知見を明らかにした。 (2) 事前学習されたコードの言語モデルは、各トランスフォーマー層の中間表現にコードの構文構造を保存できる。 3) 事前学習されたコードのモデルには,コードの構文木を誘導する能力がある。 これらの結果は、より良いコード表現のための事前学習プロセスにコードの構文構造を組み込むことが有用であることを示している。

Recently, many pre-trained language models for source code have been proposed to model the context of code and serve as a basis for downstream code intelligence tasks such as code completion, code search, and code summarization. These models leverage masked pre-training and Transformer and have achieved promising results. However, currently there is still little progress regarding interpretability of existing pre-trained code models. It is not clear why these models work and what feature correlations they can capture. In this paper, we conduct a thorough structural analysis aiming to provide an interpretation of pre-trained language models for source code (e.g., CodeBERT, and GraphCodeBERT) from three distinctive perspectives: (1) attention analysis, (2) probing on the word embedding, and (3) syntax tree induction. Through comprehensive analysis, this paper reveals several insightful findings that may inspire future studies: (1) Attention aligns strongly with the syntax structure of code. (2) Pre-training language models of code can preserve the syntax structure of code in the intermediate representations of each Transformer layer. (3) The pre-trained models of code have the ability of inducing syntax trees of code. Theses findings suggest that it may be helpful to incorporate the syntax structure of code into the process of pre-training for better code representations.
翻訳日:2022-02-15 19:02:05 公開日:2022-02-14
# (参考訳) ロボットスキルの実証による連続学習 [全文訳有]

Continual Learning from Demonstration of Robotic Skills ( http://arxiv.org/abs/2202.06843v1 )

ライセンス: CC BY 4.0
Sayantan Auddy, Jakob Hollenstein, Matteo Saveriano, Antonio Rodr\'iguez-S\'anchez and Justus Piater(参考訳) ロボットにモーションスキルを教える方法は、一度に1つのスキルのトレーニングに集中する。 デモから学べるロボットは、過去の知識を忘れずに新しい動きを学べることの恩恵を受けることができる。 そこで本研究では,ハイパーネットワークとニューラル常微分方程式解法を用いた実演からの連続学習手法を提案する。 我々は,過去のデータを保存することなく,軌道学習タスクの長いシーケンスを記憶する手法の有効性を実証的に実証する。 実験の結果,ハイパーネットワークは,他の最先端の正規化に基づく連続学習手法よりも優れていた。 実験では、人気のあるLASAトラジェクトリベンチマークと、この論文で紹介したHelloWorldデータセットで紹介した新しい審美的デモンストレーションデータセットを使用しました。 我々は,軌跡誤差メトリクスと連続学習メトリクスの両方を用いてアプローチを評価し,新しい連続学習メトリクスを2つ提案する。 私たちのコードは、新たに収集したデータセットとともに、https://github.com/s ayantanauddy/clfdで利用可能です。

Methods for teaching motion skills to robots focus on training for a single skill at a time. Robots capable of learning from demonstration can considerably benefit from the added ability to learn new movements without forgetting past knowledge. To this end, we propose an approach for continual learning from demonstration using hypernetworks and neural ordinary differential equation solvers. We empirically demonstrate the effectiveness of our approach in remembering long sequences of trajectory learning tasks without the need to store any data from past demonstrations. Our results show that hypernetworks outperform other state-of-the-art regularization-based continual learning approaches for learning from demonstration. In our experiments, we use the popular LASA trajectory benchmark, and a new dataset of kinesthetic demonstrations that we introduce in this paper called the HelloWorld dataset. We evaluate our approach using both trajectory error metrics and continual learning metrics, and we propose two new continual learning metrics. Our code, along with the newly collected dataset, is available at https://github.com/s ayantanauddy/clfd.
翻訳日:2022-02-15 18:39:00 公開日:2022-02-14
# ニューラルネットワークモデルのためのラベル固有キー入力特徴の抽出

Extracting Label-specific Key Input Features for Neural Code Intelligence Models ( http://arxiv.org/abs/2202.06474v1 )

ライセンス: Link先を確認
Md Rafiqul Islam Rabin(参考訳) コードインテリジェンス(ci)モデルは、しばしばブラックボックスであり、正しい予測を行うために学習する入力機能についての洞察を提供しません。 この不透明さは、彼らの予測に不信をもたらし、安全クリティカルなアプリケーションで広く採用されるのを妨げる可能性がある。 近年、CIモデルの予測を説明するために重要な入力特徴を特定するためにプログラム削減技術が広く用いられている。 このアプローチは、入力プログラムから無関係な部分を取り除き、CIモデルがその予測を維持するために必要な最小限のスニペットを保持する。 しかし、最先端のアプローチは、主に、プログラムの構文に従わない構文非認識のプログラム削減技術を用いており、入力プログラムの削減とモデルの説明可能性に大きなオーバーヘッドをもたらす。 本稿では,リダクション中の入力プログラムの構文に従う構文誘導型プログラムリダクション手法を適用する。 様々な入力プログラムを対象とした複数のモデルを用いた実験により,構文誘導型プログラム削減手法は,入力プログラムのサイズを小さくする構文認識型プログラム還元手法を著しく上回っていることが示された。 削減プログラムからキー入力機能を抽出すると、構文誘導型リダクションプログラムはラベル固有のキー入力機能を含み、プログラム内のキートークンをリネームする際の逆変換に弱いことが分かる。 これらのラベル固有の重要な入力機能は、異なる視点からモデルの予測を推論し、CIモデルによって与えられる正しい分類に対する信頼性を高めるのに役立つ。

The code intelligence (CI) models are often black-box and do not offer any insights on the input features that they learn for making correct predictions. This opacity may lead to distrust in their prediction and hamper their wider adoption in safety-critical applications. In recent, the program reduction technique is widely being used to identify key input features in order to explain the prediction of CI models. The approach removes irrelevant parts from an input program and keeps the minimal snippets that a CI model needs to maintain its prediction. However, the state-of-the-art approaches mainly use a syntax-unaware program reduction technique that does not follow the syntax of programs, which adds significant overhead to the reduction of input programs and explainability of models. In this paper, we apply a syntax-guided program reduction technique that follows the syntax of input programs during reduction. Our experiments on multiple models across different types of input programs show that the syntax-guided program reduction technique significantly outperforms the syntax-unaware program reduction technique in reducing the size of input programs. Extracting key input features from reduced programs reveals that the syntax-guided reduced programs contain more label-specific key input features and are more vulnerable to adversarial transformation when renaming the key tokens in programs. These label-specific key input features may help to understand the reasoning of models' prediction from different perspectives and increase the trustworthiness to correct classification given by CI models.
翻訳日:2022-02-15 18:20:15 公開日:2022-02-14
# (参考訳) 多層ベイズネットワークを用いた衛星熱信頼性解析のための物理計算による深モンテカルロ四元数回帰法

Physics-Informed Deep Monte Carlo Quantile Regression method for Interval Multilevel Bayesian Network-based Satellite Heat Reliability Analysis ( http://arxiv.org/abs/2202.06860v1 )

ライセンス: CC0 1.0
Xiaohu Zheng, Wen Yao, Zhiqiang Gong, Yunyang Zhang, Xiaoya Zhang(参考訳) 衛星熱信頼性解析には, 温度場再構築が不可欠である。 代表的な機械学習モデルとして、深部畳み込みニューラルネットワーク(DCNN)は、衛星温度場を再構築するための強力なツールである。 しかし、DCNNはそのパラメータを学習するために多くのラベル付きデータを必要としており、これは実際の衛星工学がノイズのないラベル付きデータしか取得できないという事実とは対照的である。 そこで本稿では,温度場を再構成し,データノイズによるアレエータ的不確かさを定量化するための非教師なし法である深モンテカルロ量子化回帰法を提案する。 例えば、深層畳み込みニューラルネットワークと既知の物理知識を組み合わせて、観測点温度のみを用いて正確な温度場を再構成する手法を提案する。 もう一つは、モンテカルロ量子化回帰法により、提案手法がアレタリック不確実性を定量化することである。 本論文は、再構成温度場と定量化アレタリック不確実性に基づいて、衛星熱の信頼性を解析するための間隔多レベルベイズネットワークをモデル化する。 提案手法の検証に2つのケーススタディが用いられている。

Temperature field reconstruction is essential for analyzing satellite heat reliability. As a representative machine learning model, the deep convolutional neural network (DCNN) is a powerful tool for reconstructing the satellite temperature field. However, DCNN needs a lot of labeled data to learn its parameters, which is contrary to the fact that actual satellite engineering can only acquire noisy unlabeled data. To solve the above problem, this paper proposes an unsupervised method, i.e., the physics-informed deep Monte Carlo quantile regression method, for reconstructing temperature field and quantifying the aleatoric uncertainty caused by data noise. For one thing, the proposed method combines a deep convolutional neural network with the known physics knowledge to reconstruct an accurate temperature field using only monitoring point temperatures. For another thing, the proposed method can quantify the aleatoric uncertainty by the Monte Carlo quantile regression. Based on the reconstructed temperature field and the quantified aleatoric uncertainty, this paper models an interval multilevel Bayesian Network to analyze satellite heat reliability. Two case studies are used to validate the proposed method.
翻訳日:2022-02-15 18:19:16 公開日:2022-02-14
# EMGSE:マルチモーダル音声強調のための音響・EMG融合

EMGSE: Acoustic/EMG Fusion for Multimodal Speech Enhancement ( http://arxiv.org/abs/2202.06507v1 )

ライセンス: Link先を確認
Kuan-Chen Wang, Kai-Chun Liu, Hsin-Min Wang, Yu Tsao(参考訳) マルチモーダル学習は、特に低信号対雑音比、音声雑音、未知覚雑音といった困難な状況において、音声強調(se)性能を改善する効果的な方法であることが証明されている。 従来, 唇画像, 電気パラトグラフィー, 電磁中矢状動脈造影などの多モードSEシステムの構築に, 補助データの種類が用いられてきた。 本稿では,音声および顔面筋電図(emg)信号を統合するマルチモーダルseのための新しいemgseフレームワークを提案する。 顔面筋電図は関節運動情報を含む生体信号であり、非侵襲的に測定することができる。 実験結果から,提案したEMGSEシステムは,音声のみのSEシステムよりも優れた性能が得られることがわかった。 SEのための音響信号とEMG信号を融合させることの利点は、困難な状況下で顕著である。 さらに, 頬部筋電図はSEに十分であることが明らかとなった。

Multimodal learning has been proven to be an effective method to improve speech enhancement (SE) performance, especially in challenging situations such as low signal-to-noise ratios, speech noise, or unseen noise types. In previous studies, several types of auxiliary data have been used to construct multimodal SE systems, such as lip images, electropalatography, or electromagnetic midsagittal articulography. In this paper, we propose a novel EMGSE framework for multimodal SE, which integrates audio and facial electromyography (EMG) signals. Facial EMG is a biological signal containing articulatory movement information, which can be measured in a non-invasive way. Experimental results show that the proposed EMGSE system can achieve better performance than the audio-only SE system. The benefits of fusing EMG signals with acoustic signals for SE are notable under challenging circumstances. Furthermore, this study reveals that cheek EMG is sufficient for SE.
翻訳日:2022-02-15 18:18:53 公開日:2022-02-14
# 無限ガウス混合モデルの深部展開によるニューラルおよびクラスタリングに基づくダイアリゼーションの密結合

Tight integration of neural- and clustering-based diarization through deep unfolding of infinite Gaussian mixture model ( http://arxiv.org/abs/2202.06524v1 )

ライセンス: Link先を確認
Keisuke Kinoshita, Marc Delcroix, Tomoharu Iwata(参考訳) 話者ダイアリゼーションは,会議分析の重要課題として広く研究されている。 近年の傾向によると、エンドツーエンドニューラル(EEND)とクラスタリングに基づくダイアリゼーションの統合は、重複した音声を含むリアルな会話データを任意に多数の話者で処理し、様々なタスクで最先端の結果を得るための有望なアプローチである。 しかし、これまでに提案されているアプローチは、eendモジュールによって推定される話者埋め込みをクラスタリングするには最適ではなかったため、まだ統合が実現されていない。 この問題に対処するために,無限ガウス混合モデル (iGMM) と呼ばれる非パラメトリックベイズモデルを深く展開することにより,統合フレームワークに学習可能なクラスタリングアルゴリズムを導入する。 特に、話者埋め込みは、調整されたランダムインデックス(ARI)に基づいた新しいクラスタリング損失に基づいて、iGMMクラスタリングに適合するようにトレーニング中に最適化される。 CALLHOMEデータに基づく実験結果から,提案手法はダイアリゼーション誤差率(DER)において従来の手法よりも優れており,特に話者混同誤差を大幅に低減することで,提案したiGMM統合の有効性を実際に反映していることがわかった。

Speaker diarization has been investigated extensively as an important central task for meeting analysis. Recent trend shows that integration of end-to-end neural (EEND)-and clustering-based diarization is a promising approach to handle realistic conversational data containing overlapped speech with an arbitrarily large number of speakers, and achieved state-of-the-art results on various tasks. However, the approaches proposed so far have not realized {\it tight} integration yet, because the clustering employed therein was not optimal in any sense for clustering the speaker embeddings estimated by the EEND module. To address this problem, this paper introduces a {\it trainable} clustering algorithm into the integration framework, by deep-unfolding a non-parametric Bayesian model called the infinite Gaussian mixture model (iGMM). Specifically, the speaker embeddings are optimized during training such that it better fits iGMM clustering, based on a novel clustering loss based on Adjusted Rand Index (ARI). Experimental results based on CALLHOME data show that the proposed approach outperforms the conventional approach in terms of diarization error rate (DER), especially by substantially reducing speaker confusion errors, that indeed reflects the effectiveness of the proposed iGMM integration.
翻訳日:2022-02-15 18:18:38 公開日:2022-02-14
# ニューラルデータ圧縮入門

An Introduction to Neural Data Compression ( http://arxiv.org/abs/2202.06533v1 )

ライセンス: Link先を確認
Yibo Yang, Stephan Mandt, Lucas Theis(参考訳) ニューラル圧縮は、ニューラルネットワークやその他の機械学習手法をデータ圧縮に適用するものである。 機械学習は圧縮に密接に関連する多くの概念を扱うが、情報理論、知覚メトリクス、およびその分野に特有の他の知識に依存するため、ニューラル圧縮の分野に入ることは困難である。 この紹介では,エントロピー符号化やレート歪曲理論,ビットバックコーディングや知覚的メトリクスといった関連する機械学習のアイデア,これまでの文献における代表的研究のガイドを提供することで,必要な背景を埋めることを目指している。

Neural compression is the application of neural networks and other machine learning methods to data compression. While machine learning deals with many concepts closely related to compression, entering the field of neural compression can be difficult due to its reliance on information theory, perceptual metrics, and other knowledge specific to the field. This introduction hopes to fill in the necessary background by reviewing basic coding topics such as entropy coding and rate-distortion theory, related machine learning ideas such as bits-back coding and perceptual metrics, and providing a guide through the representative works in the literature so far.
翻訳日:2022-02-15 18:18:12 公開日:2022-02-14
# 自己接触に基づく偽スパン発見による部分的偽音声検出

Partially Fake Audio Detection by Self-attention-based Fake Span discovery ( http://arxiv.org/abs/2202.06684v1 )

ライセンス: Link先を確認
Haibin Wu, Heng-Cheng Kuo, Naijun Zheng, Kuo-Hsuan Hung, Hung-Yi Lee, Yu Tsao, Hsin-Min Wang, Helen Meng(参考訳) 過去数年間、音声合成と音声変換技術の著しい進歩が目撃されてきた。 しかし、このような技術は広く実装された生体認証モデルの頑健さを損なう可能性があり、野生の攻撃者が違法に利用するために利用できる。 asvspoofチャレンジは主に音声合成と音声変換モデルによる合成音声とリプレイアタックに焦点を当てている。 最近、最初のAudio Deep Synthesis Detection Challenge (ADD 2022) が攻撃シナリオをさらに多くの側面に拡張した。 また、ADD 2022は、部分的に偽の音声検出タスクを提案する最初の挑戦である。 このような真新しい攻撃は危険であり、どのように攻撃に取り組むかは依然として疑問である。 そこで本研究では,疑似音声検出のための自己照査機構を備えた質問応答(フェイクスパン発見)戦略を導入することにより,新たな枠組みを提案する。 提案した偽スパン検出モジュールは、アンチスプーフィングモデルをタスクし、部分的に偽オーディオ内の偽クリップの開始位置と終了位置を予測し、一般化の少ない他のショートカットよりも偽スパンの発見にモデルの注意を向け、最終的に実オーディオと部分的に偽オーディオの識別能力を備えたモデルに装備する。 ADD 2022の部分的に偽の音声検出トラックで2位にランクインした。

The past few years have witnessed the significant advances of speech synthesis and voice conversion technologies. However, such technologies can undermine the robustness of broadly implemented biometric identification models and can be harnessed by in-the-wild attackers for illegal uses. The ASVspoof challenge mainly focuses on synthesized audios by advanced speech synthesis and voice conversion models, and replay attacks. Recently, the first Audio Deep Synthesis Detection challenge (ADD 2022) extends the attack scenarios into more aspects. Also ADD 2022 is the first challenge to propose the partially fake audio detection task. Such brand new attacks are dangerous and how to tackle such attacks remains an open question. Thus, we propose a novel framework by introducing the question-answering (fake span discovery) strategy with the self-attention mechanism to detect partially fake audios. The proposed fake span detection module tasks the anti-spoofing model to predict the start and end positions of the fake clip within the partially fake audio, address the model's attention into discovering the fake spans rather than other shortcuts with less generalization, and finally equips the model with the discrimination capacity between real and partially fake audios. Our submission ranked second in the partially fake audio detection track of ADD 2022.
翻訳日:2022-02-15 18:18:02 公開日:2022-02-14
# 強化学習のための凸プログラムとリアプノフ関数--価値ベース手法の分析に関する統一的視点

Convex Programs and Lyapunov Functions for Reinforcement Learning: A Unified Perspective on the Analysis of Value-Based Methods ( http://arxiv.org/abs/2202.06922v1 )

ライセンス: Link先を確認
Xingang Guo, Bin Hu(参考訳) 価値に基づく手法はマルコフ決定過程(MDP)と強化学習(RL)において基本的な役割を果たす。 本稿では、値計算(VC)、値反復(VI)、時間差学習(TD)といった値に基づく手法を線形関数近似を用いて解析するための統一的な制御理論フレームワークを提案する。 値ベース手法と動的システムとの本質的な接続に基づいて、制御理論において既存の凸試験条件を直接利用して、上記の値ベース手法の様々な収束結果を導出することができる。 これらのテスト条件は、線形プログラミング(LP)または半定値プログラミング(SDP)の形式で凸プログラムであり、簡単にリャプノフ関数を構築することができる。 本稿では,フィードバック制御システムとRLアルゴリズム間の興味深い関係を明らかにする。 このような接続が、システム/制御理論とRLの交わりでより多くの仕事を引き起こすことを願っている。

Value-based methods play a fundamental role in Markov decision processes (MDPs) and reinforcement learning (RL). In this paper, we present a unified control-theoretic framework for analyzing valued-based methods such as value computation (VC), value iteration (VI), and temporal difference (TD) learning (with linear function approximation). Built upon an intrinsic connection between value-based methods and dynamic systems, we can directly use existing convex testing conditions in control theory to derive various convergence results for the aforementioned value-based methods. These testing conditions are convex programs in form of either linear programming (LP) or semidefinite programming (SDP), and can be solved to construct Lyapunov functions in a straightforward manner. Our analysis reveals some intriguing connections between feedback control systems and RL algorithms. It is our hope that such connections can inspire more work at the intersection of system/control theory and RL.
翻訳日:2022-02-15 18:17:14 公開日:2022-02-14
# ジェットタグ用半不変GNNアーキテクチャ

Semi-Equivariant GNN Architectures for Jet Tagging ( http://arxiv.org/abs/2202.06941v1 )

ライセンス: Link先を確認
Daniel Murnane, Savannah Thais and Jason Wong(参考訳) 物理対称性を尊重する演算のグラフニューラルネットワーク(GNN)を構成することで、学習可能なパラメータの少ないモデル性能が向上することが示唆されている。 しかし、高エネルギー物理学のような実世界の応用はこの段階から生まれていない。 本稿では,対称性検査と非制約演算を組み合わせた新しいアーキテクチャVecNetを提案し,物理インフォームドGNNの程度を学習・調整する。 探索空間における各構成のリソース効率を定量化するために、新しい計量である \textit{ant factor} を導入する。 私たちのような汎用アーキテクチャは、リソース制約のあるアプリケーションで最適なパフォーマンスを提供できることが分かりました。

Composing Graph Neural Networks (GNNs) of operations that respect physical symmetries has been suggested to give better model performance with a smaller number of learnable parameters. However, real-world applications, such as in high energy physics have not born this out. We present the novel architecture VecNet that combines both symmetry-respecting and unconstrained operations to study and tune the degree of physics-informed GNNs. We introduce a novel metric, the \textit{ant factor}, to quantify the resource-efficiency of each configuration in the search-space. We find that a generalized architecture such as ours can deliver optimal performance in resource-constrained applications.
翻訳日:2022-02-15 18:16:56 公開日:2022-02-14
# オーバーコンプリート3テンソル分解のための高速アルゴリズム

Fast algorithm for overcomplete order-3 tensor decomposition ( http://arxiv.org/abs/2202.06442v1 )

ライセンス: Link先を確認
Jingqiu Ding, Tommaso d'Orsi, Chih-Hung Liu, Stefan Tiegel, David Steurer(参考訳) o(d^{3/2}/ポリログ(d)) までランクの r^d 上のランダムな三階テンソルを分解する最初の高速スペクトルアルゴリズムを開発した。 我々のアルゴリズムは単純な線形代数演算のみを伴い、現在の行列乗算時間の下ですべての成分を時間 O(d^{6.05}) で復元することができる。 この研究の前には、同等の保証は[ma, shi, steurer 2016]でのみ達成できた。 対照的に、高速アルゴリズム(Hopkins, Schramm, Shi, Steurer 2016)は、ほとんどの O(d^{4/3}/polylog(d)) においてランクテンソルを分解するしかなかった。 アルゴリズムの結果は2つの重要な要素に依存します。 三階テンソルを六階テンソルにクリーンに持ち上げることで、テンソルネットワークの言語で表現できる。 テンソルネットワークを長方行列乗算列に注意深く分解することで、アルゴリズムの高速な実装が可能となる。

We develop the first fast spectral algorithm to decompose a random third-order tensor over R^d of rank up to O(d^{3/2}/polylog(d)). Our algorithm only involves simple linear algebra operations and can recover all components in time O(d^{6.05}) under the current matrix multiplication time. Prior to this work, comparable guarantees could only be achieved via sum-of-squares [Ma, Shi, Steurer 2016]. In contrast, fast algorithms [Hopkins, Schramm, Shi, Steurer 2016] could only decompose tensors of rank at most O(d^{4/3}/polylog(d)). Our algorithmic result rests on two key ingredients. A clean lifting of the third-order tensor to a sixth-order tensor, which can be expressed in the language of tensor networks. A careful decomposition of the tensor network into a sequence of rectangular matrix multiplications, which allows us to have a fast implementation of the algorithm.
翻訳日:2022-02-15 18:12:09 公開日:2022-02-14
# 逆強化学習とモンテカルロ木探索を用いた協調軌道計画のための学習報酬モデル

Learning Reward Models for Cooperative Trajectory Planning with Inverse Reinforcement Learning and Monte Carlo Tree Search ( http://arxiv.org/abs/2202.06443v1 )

ライセンス: Link先を確認
Karl Kurzer, Matthias Bitzer, J. Marius Z\"ollner(参考訳) 自動運転車の協調軌道計画手法は、交通参加者間の高度な協力を必要とする交通シナリオを解決することができる。 協調システムが人間中心の交通に統合されるためには、自動化されたシステムが人間のように振る舞うことが重要であり、人間がシステムの決定を予測できる。 強化学習は意思決定部分の解決において著しい進歩を遂げているが、予測可能な行動をもたらす報酬モデルをパラメータ化するのは自明ではない。 本研究は,モンテカルロ木探索を併用した特徴量に基づく最大エントロピー逆強化学習を用いて,マルチエージェント協調学習の確率を最大化する報奨モデルを学習する。 評価の結果,提案手法は専門家を模倣し,手動で調整したベースライン報酬モデルと類似した,合理的な報酬モデルを取り戻すことができることが示された。

Cooperative trajectory planning methods for automated vehicles, are capable to solve traffic scenarios that require a high degree of cooperation between traffic participants. In order for cooperative systems to integrate in human-centered traffic, it is important that the automated systems behave human-like, so that humans can anticipate the system's decisions. While Reinforcement Learning has made remarkable progress in solving the decision making part, it is non-trivial to parameterize a reward model that yields predictable actions. This work employs feature-based Maximum Entropy Inverse Reinforcement Learning in combination with Monte Carlo Tree Search to learn reward models that maximizes the likelihood of recorded multi-agent cooperative expert trajectories. The evaluation demonstrates that the approach is capable of recovering a reasonable reward model that mimics the expert and performs similar to a manually tuned baseline reward model.
翻訳日:2022-02-15 18:11:55 公開日:2022-02-14
# 入力-状態安定ニューラル常微分方程式と回路の過渡的モデリングへの応用

Input-to-State Stable Neural Ordinary Differential Equations with Applications to Transient Modeling of Circuits ( http://arxiv.org/abs/2202.06453v1 )

ライセンス: Link先を確認
Alan Yang, Jie Xiong, Maxim Raginsky, Elyse Rosenbaum(参考訳) 本稿では,入力から状態への安定な連続時間リカレントニューラルネットワークによってパラメトリ化された神経常微分方程式のクラスを提案する。 モデルダイナミクスは、ダイナミクスと共同で学習される iss-リャプノフ関数に関して、入出力安定(iss)となるように構成によって定義される。 提案手法を用いて,電子回路の動作モデルを安価に学習し,各種ディジタル回路やアナログ回路の動作を,トレーニング中に遭遇しない回路部品と相互接続した場合にも正確に再現する。 また,回路老化による劣化効果をモデル化するダイナミクスに対する学習 iss 保存摂動の可能性を示す。

This paper proposes a class of neural ordinary differential equations parametrized by provably input-to-state stable continuous-time recurrent neural networks. The model dynamics are defined by construction to be input-to-state stable (ISS) with respect to an ISS-Lyapunov function that is learned jointly with the dynamics. We use the proposed method to learn cheap-to-simulate behavioral models for electronic circuits that can accurately reproduce the behavior of various digital and analog circuits when simulated by a commercial circuit simulator, even when interconnected with circuit components not encountered during training. We also demonstrate the feasibility of learning ISS-preserving perturbations to the dynamics for modeling degradation effects due to circuit aging.
翻訳日:2022-02-15 18:11:40 公開日:2022-02-14
# 異種・異種並列クラスタリング:概要

Homogenous and Heterogenous Parallel Clustering: An Overview ( http://arxiv.org/abs/2202.06478v1 )

ライセンス: Link先を確認
Ahmed Ibrahim and Rokaya Hassanien(参考訳) コンピュータアーキテクチャとネットワークの進歩により、クラスタリングアルゴリズムを並列化する機会が開かれた。 この分割・並行戦略は、時間パフォーマンスが大幅に改善された集中クラスタリングにより良い結果をもたらすことが多い。 本稿では,鍵となる並列クラスタリングをレビューし,その戦略について考察する。 このレビューは、この新興分野における進歩の総合的な説明を提供するために、並列クラスタリングにおける異なる試みをまとめる

Recent advances in computer architecture and networking opened the opportunity for parallelizing the clustering algorithms. This divide-and-conquer strategy often results in better results to centralized clustering with a much-improved time performance. This paper reviews key parallel clustering and provides insight into their strategy. The review brings together disparate attempts in parallel clustering to provide a comprehensive account of advances in this emerging field
翻訳日:2022-02-15 18:10:33 公開日:2022-02-14
# 実世界の大規模レコメンデーションシステム再現性と円滑なアクティベーション

Real World Large Scale Recommendation Systems Reproducibility and Smooth Activations ( http://arxiv.org/abs/2202.06499v1 )

ライセンス: Link先を確認
Gil I. Shamir and Dong Lin(参考訳) 現実世界のレコメンデーションシステムは、絶えず成長する一連のドメインに影響を与える。 このようなシステムを駆動するディープネットワークでは、レコメンデーションはユーザの関心事やタスクとより関連がある。 しかし、同じシステムによって同じユーザのために、レコメンデーションシーケンス、リクエスト、クエリが生成されても、必ずしも再現可能とは限らない。 この問題は学術的な出版物ではほとんど注目されなかったが、実生産システムでは現実的に非常に現実的で批判的であった。 我々は,そのような提案を予測した大規模深層モデルの再現性を検討する。 我々は、深層モデルで使用される有名なRectified Linear Unit (ReLU) の活性化が、不再現性に大きく貢献できることを実証する。 推薦再現性を向上させるために,円滑なアクティベーションの利用を提案する。 本稿では,スムーズなアクティベーションの新たなファミリーであるSmooth ReLU(SmeLU)について述べる。 SmeLUはスムーズな活性化の家族の一員である。 実際のシステムにおける再現性を改善する他の技術は、通常、精度のコストがかかるが、スムーズなアクティベーションは再現性を改善するだけでなく、精度を高めることもできる。 実システムからのメトリクスを報告し,smeluの再現性向上と精度再現性トレードオフの改善を実現した。 これにはクリックスルーレート(CTR)予測システム、コンテンツ、アプリケーションレコメンデーションシステムが含まれる。

Real world recommendation systems influence a constantly growing set of domains. With deep networks, that now drive such systems, recommendations have been more relevant to the user's interests and tasks. However, they may not always be reproducible even if produced by the same system for the same user, recommendation sequence, request, or query. This problem received almost no attention in academic publications, but is, in fact, very realistic and critical in real production systems. We consider reproducibility of real large scale deep models, whose predictions determine such recommendations. We demonstrate that the celebrated Rectified Linear Unit (ReLU) activation, used in deep models, can be a major contributor to irreproducibility. We propose the use of smooth activations to improve recommendation reproducibility. We describe a novel family of smooth activations; Smooth ReLU (SmeLU), designed to improve reproducibility with mathematical simplicity, with potentially cheaper implementation. SmeLU is a member of a wider family of smooth activations. While other techniques that improve reproducibility in real systems usually come at accuracy costs, smooth activations not only improve reproducibility, but can even give accuracy gains. We report metrics from real systems in which we were able to productionalize SmeLU with substantial reproducibility gains and better accuracy-reproducibi lity trade-offs. These include click-through-rate (CTR) prediction systems, content, and application recommendation systems.
翻訳日:2022-02-15 18:10:28 公開日:2022-02-14
# 低用量脳PET画像再構成と解析のための資源効率のよいディープラーニングフレームワーク

A resource-efficient deep learning framework for low-dose brain PET image reconstruction and analysis ( http://arxiv.org/abs/2202.06548v1 )

ライセンス: Link先を確認
Yu Fu, Shunjie Dong, Yi Liao, Le Xue, Yuanfan Xu, Feng Li, Qianqian Yang, Tianbai Yu, Mei Tian and Cheng Zhuo(参考訳) 18F-フルオロデオキシグルコース (18F-FDG) ポジトロン・エミッション・トモグラフィ(PET)イメージングは通常、十分な診断結果を得るためにフルドーズ放射性トレーサーを必要とする。 低線量PET(L-PET)画像を高品質のフル線量PET(F-PET)画像に再構成することは、放射線照射の低減と診断精度の維持に有効な方法である。 本稿では,トランスGAN-SDAM(transGAN-SD AM)と呼ばれるL-PET再構成と解析のための資源効率の高いディープラーニングフレームワークを提案し,これら生成したF-PETの標準取り込み値比(SUVR)を脳全体で定量化する。 TransGAN-SDAMはトランスフォーマーで符号化されたジェネレーティブ・アグリゲーション・ネットワーク(TransGAN)と空間変形可能なアグリゲーション・モジュール(SDAM)の2つのモジュールで構成される。 トランスGANは高品質なF-PET画像を生成し、SDAMは生成されたF-PETスライス列の空間情報を統合して全脳F-PET画像を生成する。 実験結果は,我々のアプローチの優越性と合理性を示している。

18F-fluorodeoxygluco se (18F-FDG) Positron Emission Tomography (PET) imaging usually needs a full-dose radioactive tracer to obtain satisfactory diagnostic results, which raises concerns about the potential health risks of radiation exposure, especially for pediatric patients. Reconstructing the low-dose PET (L-PET) images to the high-quality full-dose PET (F-PET) ones is an effective way that both reduces the radiation exposure and remains diagnostic accuracy. In this paper, we propose a resource-efficient deep learning framework for L-PET reconstruction and analysis, referred to as transGAN-SDAM, to generate F-PET from corresponding L-PET, and quantify the standard uptake value ratios (SUVRs) of these generated F-PET at whole brain. The transGAN-SDAM consists of two modules: a transformer-encoded Generative Adversarial Network (transGAN) and a Spatial Deformable Aggregation Module (SDAM). The transGAN generates higher quality F-PET images, and then the SDAM integrates the spatial information of a sequence of generated F-PET slices to synthesize whole-brain F-PET images. Experimental results demonstrate the superiority and rationality of our approach.
翻訳日:2022-02-15 18:10:05 公開日:2022-02-14
# CodeFill: 構造と命名シーケンスからの共同学習によるマルチトークンコード補完

CodeFill: Multi-token Code Completion by Jointly Learning from Structure and Naming Sequences ( http://arxiv.org/abs/2202.06689v1 )

ライセンス: Link先を確認
Maliheh Izadi, Roberta Gismondi, Georgios Gousios(参考訳) コード補完はIDEにとって不可欠な機能であるが、現在のオートコンプリートは文法ベースまたはNLPベースのシングルトークン補完に制限されている。 文法ベースのオートコンプリートは動的型付け言語環境で制限されるが、NLPベースのオートコンプリートはプログラミング言語の意味や開発者のコードコンテキストを理解するのに苦労する。 本稿では,学習構造と命名情報を組み合わせた自動補完のための言語モデルであるcodefillを提案する。 並列トランスフォーマーアーキテクチャとマルチタスク学習を使用して、CodeFillはソースコードトークン名とその等価なASTトークンのシーケンスを消費する。 CodeFillは、単一トークンと複数トークン(ステートメント)予測の両方でトレーニングされており、文法および命名要素間の長距離依存関係を学習することができる。 私たちは、それぞれ29Mと425Mのコードからなる2つのデータセットでCodeFillをトレーニングします。 評価をより現実的にするために,ソースコード中の点を自動的に推測する手法を開発した。 CodeFillを4つのベースラインと2つの最先端モデル、GPT-CとTravTrans+と比較する。 codefillはシングルトークン予測(mrr: 70.9% vs. 66.2%, 67.8%)ですべてのベースラインを上回り、マルチトークン予測(ルージュl: 63.7% vs. 52.4%, 59.2%, n=4トークン)では最先端を上回っている。 ソースコードとデータセットを公開しています。

Code completion is an essential feature of IDEs, yet current autocompleters are restricted to either grammar-based or NLP-based single token completions. Both approaches have significant drawbacks: grammar-based autocompletion is restricted in dynamically-typed language environments, whereas NLP-based autocompleters struggle to understand the semantics of the programming language and the developer's code context. In this work, we present CodeFill, a language model for autocompletion that combines learned structure and naming information. Using a parallel Transformer architecture and multi-task learning, CodeFill consumes sequences of source code token names and their equivalent AST token types. Uniquely, CodeFill is trained both for single-token and multi-token (statement) prediction, which enables it to learn long-range dependencies among grammatical and naming elements. We train CodeFill on two datasets, consisting of 29M and 425M lines of code, respectively. To make the evaluation more realistic, we develop a method to automatically infer points in the source code at which completion matters. We compare CodeFill against four baselines and two state-of-the-art models, GPT-C and TravTrans+.CodeFill surpasses all baselines in single token prediction (MRR: 70.9% vs. 66.2% and 67.8%) and outperforms the state of the art for multi-token prediction (ROUGE-L: 63.7% vs. 52.4% and 59.2%, for n=4 tokens). We publicly release our source code and datasets.
翻訳日:2022-02-15 18:09:40 公開日:2022-02-14
# 機械学習を用いたスマートグリッドの不変量生成のためのデータ中心アプローチ

A Data-Centric Approach to Generate Invariants for a Smart Grid Using Machine Learning ( http://arxiv.org/abs/2202.06717v1 )

ライセンス: Link先を確認
Danish Hudani, Muhammad Haseeb, Muhammad Taufiq, Muhammad Azmi Umer, Nandha Kumar Kandasamy(参考訳) サイバーフィジカルシステム(cps)は、相互接続やプロセス自動化の要求が高まり、人気を集めている。 イントラネットやインターネットを含むネットワーク上の接続性、センシティブなデータへの依存、異質な性質、大規模展開などにより、サイバー攻撃に対して脆弱である。 サイバー攻撃は、システムの正常な動作に異常を生じさせ、システムの動作を妨害するか、完全に破壊するかのどちらかを目標とする。 この研究は、サイバー攻撃の原因となる可能性のある異常を検出することに焦点を当てている。 これは、植物内のプロセスの物理的挙動を管理する規則を導出することで達成される。 これらの規則は不変量と呼ばれる。 このような不変量を生成するためのデータ中心アプローチ(dac)を提案している。 本研究は,生物実験室である機能的スマートパワーグリッドの運用データを用いて実施した。

Cyber-Physical Systems (CPS) have gained popularity due to the increased requirements on their uninterrupted connectivity and process automation. Due to their connectivity over the network including intranet and internet, dependence on sensitive data, heterogeneous nature, and large-scale deployment, they are highly vulnerable to cyber-attacks. Cyber-attacks are performed by creating anomalies in the normal operation of the systems with a goal either to disrupt the operation or destroy the system completely. The study proposed here focuses on detecting those anomalies which could be the cause of cyber-attacks. This is achieved by deriving the rules that govern the physical behavior of a process within a plant. These rules are called Invariants. We have proposed a Data-Centric approach (DaC) to generate such invariants. The entire study was conducted using the operational data of a functional smart power grid which is also a living lab.
翻訳日:2022-02-15 18:09:11 公開日:2022-02-14
# 電池放電容量予測のための注意型ディープニューラルネットワーク

Attention-based Deep Neural Networks for Battery Discharge Capacity Forecasting ( http://arxiv.org/abs/2202.06738v1 )

ライセンス: Link先を確認
Yadong Zhang, Chenye Zou and Xin Chen(参考訳) リチウムイオン電池の応用には電池放電容量予測が不可欠である。 容量デジェネレーションは、データの観点からは、チャージの初期バッテリ状態のメモリとして扱うことができる。 バッテリ管理システム(BMS)が収集したストリーミングセンサデータは、さまざまな動作条件下で使用可能なバッテリ容量劣化率を反映する。 注目機構に基づいて、ストリーミングセンサデータから抽出した時間パターンを用いて、異なるサイクルでのバッテリ容量を測定することができる。 第1サイクルに関する注意に基づく類似性は、以下のサイクルにおけるバッテリー容量の低下を記述できる。 深部劣化ネットワーク(DDN)は、類似度を測定し電池容量を予測するための注意機構によって開発されている。 DDNモデルは、ストリーミングセンサデータから変性関連時間パターンを抽出し、リアルタイムにオンラインで効率よくバッテリ容量予測を行う。 mit-stanford open-access battery agingデータセットに基づいて、容量推定のルート平均二乗誤差は1.3 mahである。 提案したDDNモデルの平均絶対パーセンテージ誤差は 0.06{\%} である。 DDNモデルは、動的負荷プロファイルを持つOxford Battery Degradation Datasetでもよく機能する。 そこで,提案アルゴリズムの精度と強靭性を検証した。

Battery discharge capacity forecasting is critically essential for the applications of lithium-ion batteries. The capacity degeneration can be treated as the memory of the initial battery state of charge from the data point of view. The streaming sensor data collected by battery management systems (BMS) reflect the usable battery capacity degradation rates under various operational working conditions. The battery capacity in different cycles can be measured with the temporal patterns extracted from the streaming sensor data based on the attention mechanism. The attention-based similarity regarding the first cycle can describe the battery capacity degradation in the following cycles. The deep degradation network (DDN) is developed with the attention mechanism to measure similarity and predict battery capacity. The DDN model can extract the degeneration-related temporal patterns from the streaming sensor data and perform the battery capacity prediction efficiently online in real-time. Based on the MIT-Stanford open-access battery aging dataset, the root-mean-square error of the capacity estimation is 1.3 mAh. The mean absolute percentage error of the proposed DDN model is 0.06{\%}. The DDN model also performance well in the Oxford Battery Degradation Dataset with dynamic load profiles. Therefore, the high accuracy and strong robustness of the proposed algorithm are verified.
翻訳日:2022-02-15 18:08:44 公開日:2022-02-14
# DeCorus: クラウドスケールでの階層的多変量異常検出

DeCorus: Hierarchical Multivariate Anomaly Detection at Cloud-Scale ( http://arxiv.org/abs/2202.06892v1 )

ライセンス: Link先を確認
Bruno Wassermann, David Ohana, Ronen Schaffer, Robert Shahla, Elliot K. Kolodner, Eran Raichstein, Michal Malka(参考訳) 多変量異常検出は、コンピュータシステムのための大量のテレメトリデータ内の障害を特定するために用いられる。 しかし、関連する情報をユーザに提供できる効率的な異常検知器の開発は難しい課題である。 線形複雑度を実現する統計的多変量異常検出器であるDeCorusを用いた階層的多変量異常検出手法を提案する。 標準的な統計手法を拡張して、ノイズ信号内で関連する異常を見つける能力を向上し、システムオペレータがシステムレベルの異常スコアを計算するのによく持っている分野知識のタイプを利用する。 本稿では,クラウドサービスプロバイダにデプロイされたネットワークデバイスsyslogメッセージに対するオンラインログ異常検出ツールdecorusの実装について述べる。 私たちは15億ドルのネットワークデバイスサイスログメッセージと数百のインシデントチケットからなる実世界のデータセットを使用して、DeCorusのパフォーマンスを特徴づけ、インシデントを5つの代替異常検知器と比較しています。 DeCorusは、他の異常検知器よりも優れていますが、これら全てはデータセットによって挑戦されています。 decorusがこの分野でどのように価値を提供するか、そしてインシデント検出精度を改善する計画について共有する。

Multivariate anomaly detection can be used to identify outages within large volumes of telemetry data for computing systems. However, developing an efficient anomaly detector that can provide users with relevant information is a challenging problem. We introduce our approach to hierarchical multivariate anomaly detection called DeCorus, a statistical multivariate anomaly detector which achieves linear complexity. It extends standard statistical techniques to improve their ability to find relevant anomalies within noisy signals and makes use of types of domain knowledge that system operators commonly possess to compute system-level anomaly scores. We describe the implementation of DeCorus an online log anomaly detection tool for network device syslog messages deployed at a cloud service provider. We use real-world data sets that consist of $1.5$ billion network device syslog messages and hundreds of incident tickets to characterize the performance of DeCorus and compare its ability to detect incidents with five alternative anomaly detectors. While DeCorus outperforms the other anomaly detectors, all of them are challenged by our data set. We share how DeCorus provides value in the field and how we plan to improve its incident detection accuracy.
翻訳日:2022-02-15 18:07:26 公開日:2022-02-14
# 視覚音響マッチング

Visual Acoustic Matching ( http://arxiv.org/abs/2202.06875v1 )

ライセンス: Link先を確認
Changan Chen, Ruohan Gao, Paul Calamia, Kristen Grauman(参考訳) 本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。 対象の環境の画像とソースオーディオの波形が与えられた場合、目標は、その可視的な形状と材料から示唆されるように、対象の室内音響に合致するように音声を再合成することである。 この課題に対処するために,音声に視覚的特徴を注入し,現実的な音声出力を生成するためのモーダル変換器モデルを提案する。 また,音声の音響的ミスマッチが欠如しているにもかかわらず,webビデオから音響マッチングを学習できる自己教師付き学習目標を考案する。 提案手法は,人間の発話を画像に表現された様々な実環境に変換し,従来の音響マッチングと教師付きベースラインの両方に優れることを示す。

We introduce the visual acoustic matching task, in which an audio clip is transformed to sound like it was recorded in a target environment. Given an image of the target environment and a waveform for the source audio, the goal is to re-synthesize the audio to match the target room acoustics as suggested by its visible geometry and materials. To address this novel task, we propose a cross-modal transformer model that uses audio-visual attention to inject visual properties into the audio and generate realistic audio output. In addition, we devise a self-supervised training objective that can learn acoustic matching from in-the-wild Web videos, despite their lack of acoustically mismatched audio. We demonstrate that our approach successfully translates human speech to a variety of real-world environments depicted in images, outperforming both traditional acoustic matching and more heavily supervised baselines.
翻訳日:2022-02-15 18:06:36 公開日:2022-02-14
# (参考訳) cola: 疎lidarデータセットの3次元意味セグメンテーションのための粗いラベル事前学習 [全文訳有]

COLA: COarse LAbel pre-training for 3D semantic segmentation of sparse LiDAR datasets ( http://arxiv.org/abs/2202.06884v1 )

ライセンス: CC BY 4.0
Jules Sanchez, Jean-Emmanuel Deschaud and Fran\c{c}ois Goulette(参考訳) 転送学習は、2次元コンピュータビジョンにおいて、利用可能な大量のデータを活用して、取得やアノテーションのコストがかかるため、サイズが制限されたデータセットでハイパフォーマンスを達成するための実証済みの技術である。 3dでは、アノテーションはコストのかかるタスクとして知られていますが、転送学習の方法が調査されたのはつい最近です。 非常に大きな注釈付きデータセットが利用できないため、教師なしの事前トレーニングが好まれている。 本研究では, スパース屋外LiDARスキャンのリアルタイムな3次元セマンティックセマンティックセマンティックセグメンテーションを実現する。 このようなデータセットは増加傾向にあるが、同じタスクであってもラベルセットが異なる。 本稿では,手作業でラベルを付けることなく利用可能なすべてのデータを活用可能な,粗いラベルと呼ばれる中間レベルラベルセットを提案する。 このようにして、セマンティックセグメンテーションの簡単なタスクとともに、より大きなデータセットにアクセスできます。 そこで我々は,COLAとも呼ばれる粗いラベル事前学習という,新しい事前学習タスクを導入する。 我々はCOLAが様々なデータセットやアーキテクチャに与える影響を徹底的に分析し、特に微調整タスクが小さなデータセットにのみアクセスした場合に顕著なパフォーマンス改善をもたらすことを示す。

Transfer learning is a proven technique in 2D computer vision to leverage the large amount of data available and achieve high performance with datasets limited in size due to the cost of acquisition or annotation. In 3D, annotation is known to be a costly task; nevertheless, transfer learning methods have only recently been investigated. Unsupervised pre-training has been heavily favored as no very large annotated dataset are available. In this work, we tackle the case of real-time 3D semantic segmentation of sparse outdoor LiDAR scans. Such datasets have been on the rise, but with different label sets even for the same task. In this work, we propose here an intermediate-level label set called the coarse labels, which allows all the data available to be leveraged without any manual labelization. This way, we have access to a larger dataset, alongside a simpler task of semantic segmentation. With it, we introduce a new pre-training task: the coarse label pre-training, also called COLA. We thoroughly analyze the impact of COLA on various datasets and architectures and show that it yields a noticeable performance improvement, especially when the finetuning task has access only to a small dataset.
翻訳日:2022-02-15 18:03:22 公開日:2022-02-14
# 深部畳み込みネットワークを用いた選択的カーネル機構に基づく高速ハイパースペクトル画像分類

Faster hyperspectral image classification based on selective kernel mechanism using deep convolutional networks ( http://arxiv.org/abs/2202.06458v1 )

ライセンス: Link先を確認
Guandong Li, Chunju Zhang(参考訳) ハイパースペクトル画像は空間情報やスペクトル情報に富んでいる。 3D-CNNは空間次元とスペクトル次元の特徴を同時に取得して特徴の分類を容易にする。 連続的な3d-cnnを使用することで、大量のパラメータが発生し、デバイスの計算能力要件が高く、トレーニングには時間がかかり過ぎます。 このレターは、FSKNet(Faster selective kernel mechanism network)を設計し、FSKNetはこの問題のバランスをとることができる。 3D-CNNと2D-CNN変換モジュールを設計し、3D-CNNを用いて空間とスペクトルの次元を小さくしながら特徴抽出を完了した。 しかし、そのようなモデルは十分に軽量ではない。 変換された2d-cnnでは、双方向入力情報尺度に基づいて各ニューロンが受容野サイズを調整する選択的カーネル機構が提案されている。 選択的カーネル機構の下では、主にseモジュールと可変畳み込みという2つのコンポーネントを含んでいる。 seはチャネル次元の注意と可変畳み込みを取得し、接地物体の空間次元変形情報を得る。 モデルはより正確で、高速で、計算量も少ない。 FSKNetは、非常に小さなパラメータを持つIN、UP、Salinas、Botswanaデータセットに対して高い精度を達成する。

Hyperspectral imagery is rich in spatial and spectral information. Using 3D-CNN can simultaneously acquire features of spatial and spectral dimensions to facilitate classification of features, but hyperspectral image information spectral dimensional information redundancy. The use of continuous 3D-CNN will result in a high amount of parameters, and the computational power requirements of the device are high, and the training takes too long. This letter designed the Faster selective kernel mechanism network (FSKNet), FSKNet can balance this problem. It designs 3D-CNN and 2D-CNN conversion modules, using 3D-CNN to complete feature extraction while reducing the dimensionality of spatial and spectrum. However, such a model is not lightweight enough. In the converted 2D-CNN, a selective kernel mechanism is proposed, which allows each neuron to adjust the receptive field size based on the two-way input information scale. Under the Selective kernel mechanism, it mainly includes two components, se module and variable convolution. Se acquires channel dimensional attention and variable convolution to obtain spatial dimension deformation information of ground objects. The model is more accurate, faster, and less computationally intensive. FSKNet achieves high accuracy on the IN, UP, Salinas, and Botswana data sets with very small parameters.
翻訳日:2022-02-15 17:47:13 公開日:2022-02-14
# 顕微鏡画像解析におけるU-Netの現状調査:簡易利用から構造形成まで

A State-of-the-art Survey of U-Net in Microscopic Image Analysis: from Simple Usage to Structure Mortification ( http://arxiv.org/abs/2202.06465v1 )

ライセンス: Link先を確認
Jian Wu, Wanli Liu, Chen Li, Tao Jiang, Islam Mohammad Shariful, Hongzan Sun, Xiaoqi Li, Xintong Li, Xinyu Huang, Marcin Grzegorzek(参考訳) 画像解析技術は、病気、排水処理、環境変化モニタリング分析および畳み込みニューラルネットワーク(CNN)における従来の人工的手法の不適切性を解決するために用いられる。 検出、追跡、監視、特徴抽出、モデリング、分析における重要なステップはイメージセグメンテーションであり、U-Netは顕微鏡画像セグメンテーションにますます応用されている。 本稿では,U-Netの発展史を包括的にレビューし,U-Netの出現以来の様々なセグメンテーション手法の研究成果を分析し,関連論文の総合的なレビューを行う。 まず,u-netの改良手法を概説し,画像分割手法のこれまでの意義と,近年導入された改善点を列挙する。 最後に、異なる論文におけるU-Netの異なる改善戦略に着目し、各アプリケーション対象の関連研究を詳細な技術カテゴリに従ってレビューし、今後の研究を促進する。 研究者たちは、技術開発の伝達のダイナミクスをはっきりと見ることができ、この学際分野における将来のトレンドに追随することができる。

Image analysis technology is used to solve the inadvertences of artificial traditional methods in disease, wastewater treatment, environmental change monitoring analysis and convolutional neural networks (CNN) play an important role in microscopic image analysis. An important step in detection, tracking, monitoring, feature extraction, modeling and analysis is image segmentation, in which U-Net has increasingly applied in microscopic image segmentation. This paper comprehensively reviews the development history of U-Net, and analyzes various research results of various segmentation methods since the emergence of U-Net and conducts a comprehensive review of related papers. First, This paper has summarizes the improved methods of U-Net and then listed the existing significances of image segmentation techniques and their improvements that has introduced over the years. Finally, focusing on the different improvement strategies of U-Net in different papers, the related work of each application target is reviewed according to detailed technical categories to facilitate future research. Researchers can clearly see the dynamics of transmission of technological development and keep up with future trends in this interdisciplinary field.
翻訳日:2022-02-15 17:46:50 公開日:2022-02-14
# 局所微分プライバシー下における離散分布のロバスト推定

Robust Estimation of Discrete Distributions under Local Differential Privacy ( http://arxiv.org/abs/2202.06825v1 )

ライセンス: Link先を確認
Julien Chhor and Flore Sentenac(参考訳) 堅牢な学習と局所微分プライバシーはどちらも研究分野として広く研究されているが、この2つの設定を組み合わせることは、ほとんど検討されていない話題である。 我々は,局所的微分プライバシー制約下でのn$汚染されたデータバッチから,総変動の離散分布を推定する問題を考える。 バッチの1-\epsilon$は、離散分布の$p$ over $d$要素から引き出された$k$、すなわち$d.d.サンプルを含む。 ユーザのプライバシを保護するために、各サンプルは$\alpha$-locally differentially privateメカニズムを使用して民営化される。 残りの$\epsilon n $ batchesは逆汚染である。 汚染のみ下での最小推定率は、プライバシーのない場合、$\epsilon/\sqrt{k}+\sqrt{d/kn}$であり、$\sqrt{\log(1/\epsilon)}$ factorである。 プライバシーの制約だけでは、最小推定率は$\sqrt{d^2/\alpha^2 kn}$である。 2つの制約を組み合わせることで、$\epsilon\sqrt{d/\alpha^2 k}+\sqrt{d^2/\alpha^2 kn}$$$\sqrt{\log(1/\epsilon)}$因子の最小推定速度が2つの異なるレートの和よりも大きくなることを示す。 このバウンドを達成する多項式時間アルゴリズムと、マッチング情報理論下限を提供する。

Although robust learning and local differential privacy are both widely studied fields of research, combining the two settings is an almost unexplored topic. We consider the problem of estimating a discrete distribution in total variation from $n$ contaminated data batches under a local differential privacy constraint. A fraction $1-\epsilon$ of the batches contain $k$ i.i.d. samples drawn from a discrete distribution $p$ over $d$ elements. To protect the users' privacy, each of the samples is privatized using an $\alpha$-locally differentially private mechanism. The remaining $\epsilon n $ batches are an adversarial contamination. The minimax rate of estimation under contamination alone, with no privacy, is known to be $\epsilon/\sqrt{k}+\sqrt{d/kn}$, up to a $\sqrt{\log(1/\epsilon)}$ factor. Under the privacy constraint alone, the minimax rate of estimation is $\sqrt{d^2/\alpha^2 kn}$. We show that combining the two constraints leads to a minimax estimation rate of $\epsilon\sqrt{d/\alpha^2 k}+\sqrt{d^2/\alpha^2 kn}$ up to a $\sqrt{\log(1/\epsilon)}$ factor, larger than the sum of the two separate rates. We provide a polynomial-time algorithm achieving this bound, as well as a matching information theoretic lower bound.
翻訳日:2022-02-15 17:42:28 公開日:2022-02-14
# (参考訳) 脳出血セグメンテーションのためのグラフ的アプローチ [全文訳有]

A Graphical Approach For Brain Haemorrhage Segmentation ( http://arxiv.org/abs/2202.06876v1 )

ライセンス: CC BY 4.0
Dr. Ninad Mehendale, Pragya Gupta, Nishant Rajadhyaksha, Ansh Dagha, Mihir Hundiwala, Aditi Paretkar, Sakshi Chavan, and Tanmay Mishra(参考訳) 脳の出血は、15歳から24歳までの人々の死因の主要な原因であり、それよりも年上の人々の死因の第3位である。 CT(Computed tomography)は、脳卒中や外傷性脳損傷を含む神経疾患の診断に用いられる画像モダリティである。 ディープラーニングと画像処理の最近の進歩は、ctスキャンのような異なるモードを利用して脳出血の検出と分節化を自動化する。 本稿では,従来の畳み込みニューラルネットワーク(CNN)とグラフニューラルネットワーク(GNN)を組み合わせたアーキテクチャを新たに実装し,脳出血セグメンテーションのタスクの全体モデルを作成する。 GNNは少数のレイヤで動作するため、処理するパラメータが少なくなります。 我々は実装によって限られたデータで約0.81のダイス係数のスコアを達成できた。

Haemorrhaging of the brain is the leading cause of death in people between the ages of 15 and 24 and the third leading cause of death in people older than that. Computed tomography (CT) is an imaging modality used to diagnose neurological emergencies, including stroke and traumatic brain injury. Recent advances in Deep Learning and Image Processing have utilised different modalities like CT scans to help automate the detection and segmentation of brain haemorrhage occurrences. In this paper, we propose a novel implementation of an architecture consisting of traditional Convolutional Neural Networks(CNN) along with Graph Neural Networks(GNN) to produce a holistic model for the task of brain haemorrhage segmentation.GNNs work on the principle of neighbourhood aggregation thus providing a reliable estimate of global structures present in images. GNNs work with few layers thus in turn requiring fewer parameters to work with. We were able to achieve a dice coefficient score of around 0.81 with limited data with our implementation.
翻訳日:2022-02-15 17:36:43 公開日:2022-02-14
# Few-Shotセグメンテーションのためのセマンティックエンリッチメントを有するタスク適応型特徴変換器

Task-Adaptive Feature Transformer with Semantic Enrichment for Few-Shot Segmentation ( http://arxiv.org/abs/2202.06498v1 )

ライセンス: Link先を確認
Jun Seo, Young-Hyun Park, Sung Whan Yoon, Jaekyun Moon(参考訳) わずかながらの学習により、機械はいくつかのラベル付きサンプルを使用して新しいクラスを分類できる。 近年,低サンプルデータにおける意味的セグメンテーションを指向したショットセグメンテーションも注目されている。 本稿では,既存のセグメンテーションネットワーク上に,数発のセグメンテーションを行うための学習可能なモジュールを提案する。 このモジュールはtask-adaptive feature transformer (taft)と呼ばれ、タスク固有のハイレベルな機能をタスクに依存しない一連の機能に線形に変換する。 タスク条件付き特徴変換は、新しいクラスの意味情報を効果的に活用し、タイトなセグメンテーションマスクを生成する。 また,高次機能のための画素ワイドアテンションモジュールと,すべてのトレーニングクラスに対してセマンティックセグメンテーションを行う補助セグメンテーションネットワークからの補助損失を利用したセマンティックエンリッチメント(SE)モジュールを提案する。 PASCAL-$5^i$およびCOCO-$20^i$データセットの実験により、追加モジュールが既存のセグメンテータの能力を拡張し、高い競争力を持つ数ショットセグメンテーション性能が得られることを確認した。

Few-shot learning allows machines to classify novel classes using only a few labeled samples. Recently, few-shot segmentation aiming at semantic segmentation on low sample data has also seen great interest. In this paper, we propose a learnable module that can be placed on top of existing segmentation networks for performing few-shot segmentation. This module, called the task-adaptive feature transformer (TAFT), linearly transforms task-specific high-level features to a set of task agnostic features well-suited to conducting few-shot segmentation. The task-conditioned feature transformation allows an effective utilization of the semantic information in novel classes to generate tight segmentation masks. We also propose a semantic enrichment (SE) module that utilizes a pixel-wise attention module for high-level feature and an auxiliary loss from an auxiliary segmentation network conducting the semantic segmentation for all training classes. Experiments on PASCAL-$5^i$ and COCO-$20^i$ datasets confirm that the added modules successfully extend the capability of existing segmentators to yield highly competitive few-shot segmentation performances.
翻訳日:2022-02-15 17:22:48 公開日:2022-02-14
# ビデオにおける弱教師付き異常検出のための適応グラフ畳み込みネットワーク

Adaptive graph convolutional networks for weakly supervised anomaly detection in videos ( http://arxiv.org/abs/2202.06503v1 )

ライセンス: Link先を確認
Congqi Cao, Xin Zhang, Shizhou Zhang, Peng Wang, Yanning Zhang(参考訳) 弱教師付き異常検出タスクでは、時間的文脈情報をモデル化できないため、既存の作業はビデオ表現が不十分な問題に限られる。 本稿では,映像セグメント間のコンテキスト関係をモデル化するための弱教師付き適応グラフ畳み込みネットワーク(WAGCN)を提案する。 また,各セグメントの異常確率スコアを生成する際に,他の映像セグメントが現在セグメントに与える影響を十分に検討する。 まず,ビデオ中の異常事象の空間的時間的特徴間の関連情報をフル活用し,時間的一貫性と合成のためのビデオセグメントの特徴的類似性を組み合わせる。 次に,データに基づいてスパースグラフの隣接行列を適応的に抽出し,トポロジの設定の制限を手作業で破るグラフ学習層を提案する。 UCF-CrimeデータセットとShanghaiTechデータセットの2つの公開データセットに対する大規模な実験は、我々のアプローチの有効性を実証している。

For the weakly supervised anomaly detection task, most existing work is limited to the problem of inadequate video representation due to the inability to model long-time contextual information. We propose a weakly supervised adaptive graph convolutional network (WAGCN) to model the contextual relationships among video segments. And we fully consider the influence of other video segments on the current segment when generating the anomaly probability score for each segment. Firstly, we combine the temporal consistency as well as feature similarity of video segments for composition, which makes full use of the association information among spatial-temporal features of anomalous events in videos. Secondly, we propose a graph learning layer in order to break the limitation of setting topology manually, which adaptively extracts sparse graph adjacency matrix based on data. Extensive experiments on two public datasets (i.e., UCF-Crime dataset and ShanghaiTech dataset) demonstrate the effectiveness of our approach.
翻訳日:2022-02-15 17:22:25 公開日:2022-02-14
# パターン認識のための畳み込みニューラルネットワークの解析学習

Analytic Learning of Convolutional Neural Network For Pattern Recognition ( http://arxiv.org/abs/2202.06504v1 )

ライセンス: Link先を確認
Huiping Zhuang, Zhiping Lin, Yimin Yang and Kar-Ann Toh(参考訳) トレーニング畳み込みニューラルネットワーク(cnns)とバックプロパゲーション(bp)は、特にデータセットを複数回訪問する必要があるという観点から、時間消費とリソース集約である。 対照的に、分析学習は一つの時代における重みを得ようとする。 しかし、既存の解析学習の試みは多層パーセプトロン(mlp)のみを考慮していた。 本稿では,解析的畳み込みニューラルネットワーク学習(ACnnL)を提案する。 理論的には、ACnnL は MLP と似た閉形式解を構築するが、正規化の制約が異なる。 その結果、暗黙の正規化の観点から、CNNが通常、MPPよりも良く一般化する理由にある程度答えることができる。 ACnnLは、いくつかのベンチマークデータセットで分類タスクを実行することで検証される。 ACnnL は CNN を極めて高速に訓練し,BP の使用者に対して合理的に近い精度で予測できることを推奨している。 さらに,トレーニングデータが少ない場合や費用がかかる場合,小規模サンプルシナリオにおいてacnnlのユニークな利点を明らかにした。

Training convolutional neural networks (CNNs) with back-propagation (BP) is time-consuming and resource-intensive particularly in view of the need to visit the dataset multiple times. In contrast, analytic learning attempts to obtain the weights in one epoch. However, existing attempts to analytic learning considered only the multilayer perceptron (MLP). In this article, we propose an analytic convolutional neural network learning (ACnnL). Theoretically we show that ACnnL builds a closed-form solution similar to its MLP counterpart, but differs in their regularization constraints. Consequently, we are able to answer to a certain extent why CNNs usually generalize better than MLPs from the implicit regularization point of view. The ACnnL is validated by conducting classification tasks on several benchmark datasets. It is encouraging that the ACnnL trains CNNs in a significantly fast manner with reasonably close prediction accuracies to those using BP. Moreover, our experiments disclose a unique advantage of ACnnL under the small-sample scenario when training data are scarce or expensive.
翻訳日:2022-02-15 17:22:13 公開日:2022-02-14
# 混在とシフト:ビジョンMLPにおけるグローバルおよびローカル依存の爆発

Mixing and Shifting: Exploiting Global and Local Dependencies in Vision MLPs ( http://arxiv.org/abs/2202.06510v1 )

ライセンス: Link先を確認
Huangjie Zheng, Pengcheng He, Weizhu Chen, Mingyuan Zhou(参考訳) トークン混合マルチレイヤー・パーセプトロン(mlp)モデルは、単純なアーキテクチャと比較的少ない計算コストでコンピュータビジョンタスクにおける競合性能を示している。 彼らの計算効率の維持の成功は主に、しばしば計算的に重い自己注意の使用を避けることによるものであるが、これは、世界中とローカルの両方でトークンを混ぜることができないことによるものである。 本稿では,自己着脱を伴わない大域的・局所的な依存関係を活用すべく,空間的シフト量に対して局所的受容場の大きさを混合するmix-shift-mlp(ms-mlp )を提案する。 従来の混合およびシフト技術に加えて、MS-MLPは隣接するトークンと遠く離れたトークンを微粒度から粗粒度まで混合し、シフト操作によってそれらを収集する。 これはグローバルトークンとローカルトークンの相互作用に直接寄与する。 実装が簡単であるため、MS-MLPは複数のビジョンベンチマークで競合性能を達成する。 例えば、885万のパラメータを持つMS-MLPは、ImageNet-1K上で83.8%のトップ1分類精度を達成する。 さらに、MS-MLPとSwin Transformerのような最先端のVision Transformerを組み合わせることで、MS-MLPは3つのモデルスケール(例えば、ImageNet-1K分類とSwin-B)でさらなる改善を実現していることを示す。 コードはhttps://github.com/j egzheng/ms-mlp。

Token-mixing multi-layer perceptron (MLP) models have shown competitive performance in computer vision tasks with a simple architecture and relatively small computational cost. Their success in maintaining computation efficiency is mainly attributed to avoiding the use of self-attention that is often computationally heavy, yet this is at the expense of not being able to mix tokens both globally and locally. In this paper, to exploit both global and local dependencies without self-attention, we present Mix-Shift-MLP (MS-MLP) which makes the size of the local receptive field used for mixing increase with respect to the amount of spatial shifting. In addition to conventional mixing and shifting techniques, MS-MLP mixes both neighboring and distant tokens from fine- to coarse-grained levels and then gathers them via a shifting operation. This directly contributes to the interactions between global and local tokens. Being simple to implement, MS-MLP achieves competitive performance in multiple vision benchmarks. For example, an MS-MLP with 85 million parameters achieves 83.8% top-1 classification accuracy on ImageNet-1K. Moreover, by combining MS-MLP with state-of-the-art Vision Transformers such as the Swin Transformer, we show MS-MLP achieves further improvements on three different model scales, e.g., by 0.5% on ImageNet-1K classification with Swin-B. The code is available at: https://github.com/J egZheng/MS-MLP.
翻訳日:2022-02-15 17:21:56 公開日:2022-02-14
# GAMMAチャレンジ:Glaucoma grAding from Multi-Modality imAges

GAMMA Challenge:Glaucoma grAding from Multi-Modality imAges ( http://arxiv.org/abs/2202.06511v1 )

ライセンス: Link先を確認
Junde Wu, Huihui Fang, Fei Li, Huazhu Fu, Fengbin Lin, Jiongcheng Li, Lexing Huang, Qinji Yu, Sifan Song, Xingxing Xu, Yanyu Xu, Wensai Wang, Lingxiao Wang, Shuai Lu, Huiqi Li, Shihua Huang, Zhichao Lu, Chubin Ou, Xifei Wei, Bingyuan Liu, Riadh Kobbi, Xiaoying Tang, Li Lin, Qiang Zhou, Qiang Hu, Hrvoje Bogunovic, Jos\'e Ignacio Orlando, Xiulan Zhang, Yanwu Xu(参考訳) color fundus photography and optical coherence tomography (oct) は緑内障スクリーニングに最も費用対効果の高いツールである。 両画像とも緑内障の疑いを示す顕著なバイオマーカーを有する。 臨床的には、より正確で信頼できる診断のために両方のスクリーニングを受けることが推奨される。 しかし,コンピュータ支援診断において,眼底画像やoctボリュームに基づくアルゴリズムが多数提案されているが,緑内障評価において両者のモダリティを活用できる手法は少ない。 我々は以前に開催した網膜緑内障チャレンジ(REFUGE)の成功に触発されて,眼底緑内障のグレーディングを促進すべく,Glaucoma grAding from Multi-Modality imAges (GAMMA) Challengeを設置した。 この課題の主な課題は,2次元眼底画像と3D OCTスキャンボリュームから緑内障を診断することである。 GAMMAの一部として2次元眼底色写真と3D OCTボリュームを併用した緑内障注釈データセットを公表した。 また、提案するメソッドのパフォーマンスを評価するための評価フレームワークも確立されている。 チャレンジでは1272の結果が提出され、最終的にトップ10チームが最終ステージに選ばれた。 結果を分析し,その方法を論文にまとめる。 これらすべてのチームがその課題にソースコードを提出したため、提案された特定のモジュールの有効性を検証するための詳細なアブレーション調査も実施されている。 緑内障の臨床診断には,多くの方法が有用である。 fundus \& oct multi-modality glaucoma gradingの最初の詳細な研究として、私たちはgamma challengeが将来の研究の出発点となると信じています。

Color fundus photography and Optical Coherence Tomography (OCT) are the two most cost-effective tools for glaucoma screening. Both two modalities of images have prominent biomarkers to indicate glaucoma suspected. Clinically, it is often recommended to take both of the screenings for a more accurate and reliable diagnosis. However, although numerous algorithms are proposed based on fundus images or OCT volumes in computer-aided diagnosis, there are still few methods leveraging both of the modalities for the glaucoma assessment. Inspired by the success of Retinal Fundus Glaucoma Challenge (REFUGE) we held previously, we set up the Glaucoma grAding from Multi-Modality imAges (GAMMA) Challenge to encourage the development of fundus \& OCT-based glaucoma grading. The primary task of the challenge is to grade glaucoma from both the 2D fundus images and 3D OCT scanning volumes. As part of GAMMA, we have publicly released a glaucoma annotated dataset with both 2D fundus color photography and 3D OCT volumes, which is the first multi-modality dataset for glaucoma grading. In addition, an evaluation framework is also established to evaluate the performance of the submitted methods. During the challenge, 1272 results were submitted, and finally, top-10 teams were selected to the final stage. We analysis their results and summarize their methods in the paper. Since all these teams submitted their source code in the challenge, a detailed ablation study is also conducted to verify the effectiveness of the particular modules proposed. We find many of the proposed techniques are practical for the clinical diagnosis of glaucoma. As the first in-depth study of fundus \& OCT multi-modality glaucoma grading, we believe the GAMMA Challenge will be an essential starting point for future research.
翻訳日:2022-02-15 17:21:30 公開日:2022-02-14
# SAR船舶検出のためのコンテキスト保存型インスタンスレベル拡張と変形可能な畳み込みネットワーク

Context-Preserving Instance-Level Augmentation and Deformable Convolution Networks for SAR Ship Detection ( http://arxiv.org/abs/2202.06513v1 )

ライセンス: Link先を確認
Taeyong Song, Sunok Kim, SungTai Kim, Jaeseok Lee and Kwanghoon Sohn(参考訳) レーダー信号の閉塞によるランダムな方向や部分的な情報損失によるSAR画像のターゲット形状の変形は、SAR船の検出において必須の課題である。 本稿では,ターゲット内の部分的情報損失に対して堅牢なディープネットワークをトレーニングするためのデータ拡張手法を提案する。 境界ボックスとインスタンスセグメンテーションマスクの接地トルースアノテーションを活用することで、コンテキスト情報を保持しながら、インスタンスレベルのターゲットの情報損失をシミュレートする、シンプルで効果的なパイプラインを提供する。 さらに,変形可能な畳み込みネットワークを採用し,幾何学的に変換された対象から形状不変な深層特徴を適応的に抽出する。 標準畳み込みのグリッドへのサンプリングオフセットを学習することにより、SAR船の検出のための形状変化のあるターゲットから特徴をしっかりと抽出することができる。 提案手法の有効性を実証するため,他の深層ネットワークとの比較,拡張手法,アブレーション研究などを含むHRSIDデータセットの実験を行った。

Shape deformation of targets in SAR image due to random orientation and partial information loss caused by occlusion of the radar signal, is an essential challenge in SAR ship detection. In this paper, we propose a data augmentation method to train a deep network that is robust to partial information loss within the targets. Taking advantage of ground-truth annotations for bounding box and instance segmentation mask, we present a simple and effective pipeline to simulate information loss on targets in instance-level, while preserving contextual information. Furthermore, we adopt deformable convolutional network to adaptively extract shape-invariant deep features from geometrically translated targets. By learning sampling offset to the grid of standard convolution, the network can robustly extract the features from targets with shape variations for SAR ship detection. Experiments on the HRSID dataset including comparisons with other deep networks and augmentation methods, as well as ablation study, demonstrate the effectiveness of our proposed method.
翻訳日:2022-02-15 17:20:58 公開日:2022-02-14
# Video2IMU:リアルなIMU機能とビデオからの信号

Video2IMU: Realistic IMU features and signals from videos ( http://arxiv.org/abs/2202.06547v1 )

ライセンス: Link先を確認
Arttu L\"ams\"a, Jaakko Tervonen, Jussi Liikka, Constantino \'Alvarez Casado, Miguel Bordallo L\'opez(参考訳) ウェアラブルセンサデータからのヒューマンアクティビティ認識(HAR)は、制約のない環境での動きや活動を特定する。 HARは、被験者間で大きなばらつきを示すため、難しい問題である。 ウェアラブルセンサー信号は単純な検査ではラベル付けが容易ではないため、大量のラベル付きデータを取得するのは簡単ではない。 本研究では,人間の活動単眼映像を用いた現実的信号や特徴生成のためのニューラルネットワークの利用を提案する。 これらの生成した特徴や信号が、実際の特徴の代わりにどのように活用できるかを示し、ウェアラブルセンサーで得られる信号を用いて活動を認識することができるHARモデルを訓練する。 本手法の有効性を証明するため,産業作業の安全性向上を目的とした活動認識データセットの実験を行った。 本モデルでは,実センサデータと同等の性能のHAR分類器を訓練するために,仮想センサ信号が現実的に生成可能であることを示す。 この結果から,HARモデルのトレーニングに使用可能なラベル付きビデオデータを使用することで,ウェアラブルセンサからの信号の分類が可能となった。

Human Activity Recognition (HAR) from wearable sensor data identifies movements or activities in unconstrained environments. HAR is a challenging problem as it presents great variability across subjects. Obtaining large amounts of labelled data is not straightforward, since wearable sensor signals are not easy to label upon simple human inspection. In our work, we propose the use of neural networks for the generation of realistic signals and features using human activity monocular videos. We show how these generated features and signals can be utilized, instead of their real counterparts, to train HAR models that can recognize activities using signals obtained with wearable sensors. To prove the validity of our methods, we perform experiments on an activity recognition dataset created for the improvement of industrial work safety. We show that our model is able to realistically generate virtual sensor signals and features usable to train a HAR classifier with comparable performance as the one trained using real sensor data. Our results enable the use of available, labelled video data for training HAR models to classify signals from wearable sensors.
翻訳日:2022-02-15 17:20:41 公開日:2022-02-14
# 太陽コロナヒートマップを用いた1段回転物体検出器

Single-stage Rotate Object Detector via Two Points with Solar Corona Heatmap ( http://arxiv.org/abs/2202.06565v1 )

ライセンス: Link先を確認
Beihang Song, Jing Li, Shan Xue, Jun Chang, Jia Wu, Jun Wan and Tianpeng Liu(参考訳) オブジェクト指向物体検出はコンピュータビジョンにおいて重要な課題である。 現在のトップダウン指向検出法は、通常、オブジェクト全体を直接検出するだけでなく、ターゲットの真の方向を無視するだけでなく、重要な意味情報を十分に活用しないため、検出精度が低下する。 本研究では,太陽コロナ熱マップ(ROTP)を用いた1段回転物体検出器を開発し,指向性物体を検出する。 ROTPはオブジェクトの一部を予測し、それらを集約して全体像を形成する。 ここでは、頂点、幅のある中心点、高さを用いて、物体をランダムな方向に正確に表現する。 具体的には,物体の相対的位置を特徴付ける2つのヒートマップを回帰させ,物体の位置の精度を高め,角度予測による偏差を回避した。 高アスペクト比目標に対するガウス熱マップの中央的ミスジャジメントを正すため,太陽コロナ熱マップ生成法を考案し,中央試料と非中央試料の知覚差を改善した。 さらに,同じ目標に属する2つのキーポイントを接続するために,中心点の方向に対する頂点を予測した。 HRSC 2016とUCASAOD、DOTAデータセットの実験によると、ROTPはよりシンプルなモデリングと手作業による介入で、最も高度なパフォーマンスを実現しています。

Oriented object detection is a crucial task in computer vision. Current top-down oriented detection methods usually directly detect entire objects, and not only neglecting the authentic direction of targets, but also do not fully utilise the key semantic information, which causes a decrease in detection accuracy. In this study, we developed a single-stage rotating object detector via two points with a solar corona heatmap (ROTP) to detect oriented objects. The ROTP predicts parts of the object and then aggregates them to form a whole image. Herein, we meticulously represent an object in a random direction using the vertex, centre point with width, and height. Specifically, we regress two heatmaps that characterise the relative location of each object, which enhances the accuracy of locating objects and avoids deviations caused by angle predictions. To rectify the central misjudgement of the Gaussian heatmap on high-aspect ratio targets, we designed a solar corona heatmap generation method to improve the perception difference between the central and non-central samples. Additionally, we predicted the vertex relative to the direction of the centre point to connect two key points that belong to the same goal. Experiments on the HRSC 2016, UCASAOD, and DOTA datasets show that our ROTP achieves the most advanced performance with a simpler modelling and less manual intervention.
翻訳日:2022-02-15 17:20:26 公開日:2022-02-14
# プロンプト学習によるドメイン適応

Domain Adaptation via Prompt Learning ( http://arxiv.org/abs/2202.06687v1 )

ライセンス: Link先を確認
Chunjiang Ge and Rui Huang and Mixue Xie and Zihang Lai and Shiji Song and Shuang Li and Gao Huang(参考訳) Unsupervised Domain Adaption (UDA) は、十分にアノテーションされたソースドメインから学習したモデルをターゲットドメインに適応させることを目的としている。 現在のUDAアプローチは、ソースとターゲットの特徴空間を調整することで、ドメイン不変の機能を学ぶ。 このようなアライメントは、統計的不一致の最小化や敵の訓練といった制約によって課される。 しかし、これらの制約は意味的特徴構造の歪みとクラス識別性の喪失につながる可能性がある。 本稿では,Prompt Learning(DAPL)によるドメイン適応(Domain Adaptation)という,UDAのための新しいプロンプト学習パラダイムを提案する。 先行研究とは対照的に,本手法では事前学習した視覚言語モデルを用いてパラメータを最適化する。 主なアイデアは、自然言語から生成された表現の形式であるプロンプトにドメイン情報を埋め込むことである。 このドメイン情報は、同一ドメインの画像のみによって共有され、各ドメインに応じて分類器を動的に適応させる。 このパラダイムを採用することで、我々のモデルは複数のクロスドメインベンチマークで以前のメソッドを上回るだけでなく、トレーニングや実装の容易さにも優れています。

Unsupervised domain adaption (UDA) aims to adapt models learned from a well-annotated source domain to a target domain, where only unlabeled samples are given. Current UDA approaches learn domain-invariant features by aligning source and target feature spaces. Such alignments are imposed by constraints such as statistical discrepancy minimization or adversarial training. However, these constraints could lead to the distortion of semantic feature structures and loss of class discriminability. In this paper, we introduce a novel prompt learning paradigm for UDA, named Domain Adaptation via Prompt Learning (DAPL). In contrast to prior works, our approach makes use of pre-trained vision-language models and optimizes only very few parameters. The main idea is to embed domain information into prompts, a form of representations generated from natural language, which is then used to perform classification. This domain information is shared only by images from the same domain, thereby dynamically adapting the classifier according to each domain. By adopting this paradigm, we show that our model not only outperforms previous methods on several cross-domain benchmarks but also is very efficient to train and easy to implement.
翻訳日:2022-02-15 17:18:50 公開日:2022-02-14
# 高速かつロバストなクラウド登録のための幾何学変換器

Geometric Transformer for Fast and Robust Point Cloud Registration ( http://arxiv.org/abs/2202.06688v1 )

ライセンス: Link先を確認
Zheng Qin, Hao Yu, Changjian Wang, Yulan Guo, Yuxing Peng and Kai Xu(参考訳) 点雲登録のための正確な対応を抽出する問題について検討する。 最近のキーポイントフリー手法は、低オーバーラップシナリオでは難しい繰り返し可能なキーポイントの検出を回避し、登録において大きな可能性を示す。 彼らはダウンサンプリングされたスーパーポイント上の対応を求め、それを密度のある点に伝播する。 スーパーポイントは、隣のパッチが重なり合うかどうかで一致します。 このようなスパースでゆるやかなマッチングは、点雲の幾何学的構造を捉える文脈的特徴を必要とする。 我々は,ロバストな超点マッチングのための幾何学的特徴を学ぶための幾何学的トランスフォーマーを提案する。 双対距離と三重項角を符号化し、低オーバーラップの場合は頑健であり、剛性変換には不変である。 単純化された設計は驚くほど高いマッチング精度を達成し、アライメント変換の推定にはransacを必要とせず、100ドルの高速化をもたらす。 本手法は,3dlomatchベンチマークにおいて,イリアー比を17\%$\sim$30\%,登録リコールを7\%以上改善する。 コードとモデルは \url{https://github.com/q inzheng93/GeoTransfo rmer} でリリースされる。

We study the problem of extracting accurate correspondences for point cloud registration. Recent keypoint-free methods bypass the detection of repeatable keypoints which is difficult in low-overlap scenarios, showing great potential in registration. They seek correspondences over downsampled superpoints, which are then propagated to dense points. Superpoints are matched based on whether their neighboring patches overlap. Such sparse and loose matching requires contextual features capturing the geometric structure of the point clouds. We propose Geometric Transformer to learn geometric feature for robust superpoint matching. It encodes pair-wise distances and triplet-wise angles, making it robust in low-overlap cases and invariant to rigid transformation. The simplistic design attains surprisingly high matching accuracy such that no RANSAC is required in the estimation of alignment transformation, leading to $100$ times acceleration. Our method improves the inlier ratio by 17\%$\sim$30\% and the registration recall by over 7\% on the challenging 3DLoMatch benchmark. The code and models will be released at \url{https://github.com/q inzheng93/GeoTransfo rmer}.
翻訳日:2022-02-15 17:18:30 公開日:2022-02-14
# オーバービュー2とストリートビューベースのポイントクラウドのクロスビュー登録のためのグラフマッチングアプローチ

A Graph-Matching Approach for Cross-view Registration of Over-view 2 and Street-view based Point Clouds ( http://arxiv.org/abs/2202.06857v1 )

ライセンス: Link先を確認
Xiao Ling, Rongjun Qin(参考訳) In this paper, based on the assumption that the object boundaries (e.g., buildings) from the over-view data should coincide with footprints of fa\c{c}ade 3D points generated from street-view photogrammetric images, we aim to address this problem by proposing a fully automated geo-registration method for cross-view data, which utilizes semantically segmented object boundaries as view-invariant features under a global optimization framework through graph-matching: taking the over-view point clouds generated from stereo/multi-stereo satellite images and the street-view point clouds generated from monocular video images as the inputs, the proposed method models segments of buildings as nodes of graphs, both detected from the satellite-based and street-view based point clouds, thus to form the registration as a graph-matching problem to allow non-rigid matches; to enable a robust solution and fully utilize the topological relations between these segments, we propose to address the graph-matching problem on its conjugate graph solved through a belief-propagation algorithm. 一致したノードは、正確な登録を可能にするためにさらに最適化され、続いてストリートビューイメージ上の束調整が行われ、2D29 3Dコンピテンシーが保持される。

In this paper, based on the assumption that the object boundaries (e.g., buildings) from the over-view data should coincide with footprints of fa\c{c}ade 3D points generated from street-view photogrammetric images, we aim to address this problem by proposing a fully automated geo-registration method for cross-view data, which utilizes semantically segmented object boundaries as view-invariant features under a global optimization framework through graph-matching: taking the over-view point clouds generated from stereo/multi-stereo satellite images and the street-view point clouds generated from monocular video images as the inputs, the proposed method models segments of buildings as nodes of graphs, both detected from the satellite-based and street-view based point clouds, thus to form the registration as a graph-matching problem to allow non-rigid matches; to enable a robust solution and fully utilize the topological relations between these segments, we propose to address the graph-matching problem on its conjugate graph solved through a belief-propagation algorithm. The matched nodes will be subject to a further optimization to allow precise-registration , followed by a constrained bundle adjustment on the street-view image to keep 2D29 3D consistencies, which yields well-registered street-view images and point clouds to the satellite point clouds.
翻訳日:2022-02-15 17:18:13 公開日:2022-02-14
# VQAにおける視覚ブロックの実験的研究

An experimental study of the vision-bottleneck in VQA ( http://arxiv.org/abs/2202.06858v1 )

ライセンス: Link先を確認
Pierre Marza, Corentin Kervadec, Grigory Antipov, Moez Baccouche, Christian Wolf(参考訳) 視覚と言語を組み合わせた多くのタスクと同様に、両モダリティは視覚質問回答(VQA)において重要な役割を果たす。 課題を適切に解決するために、与えられたモデルは、提案した画像の内容と質問の性質の両方を理解すべきである。 この問題のもう1つの重要な部分であるモダリティの融合は、高度に研究されているが、近年ではビジョン部分への注目が減っている。 VQAの現在の最先端の手法は、主に、オブジェクト境界ボックスと埋め込みのセットを提供する既製の物体検出器に依存し、推論モジュールを通じて質問語埋め込みと組み合わせられる。 本稿では,画像から抽出した視覚オブジェクトの量と品質を両立させて,VQAにおける視覚ボトルネックの詳細な研究を提案する。 また,質問への回答に必要なオブジェクトに関する情報を,推論モジュールに直接,そしてオブジェクト選択段階の早い段階で組み込むための2つの方法の影響について検討した。 この研究は、VQAの文脈における視覚の重要性と、VQAで使われている視覚手法を手作業に合わせることへの関心を強調している。

As in many tasks combining vision and language, both modalities play a crucial role in Visual Question Answering (VQA). To properly solve the task, a given model should both understand the content of the proposed image and the nature of the question. While the fusion between modalities, which is another obviously important part of the problem, has been highly studied, the vision part has received less attention in recent work. Current state-of-the-art methods for VQA mainly rely on off-the-shelf object detectors delivering a set of object bounding boxes and embeddings, which are then combined with question word embeddings through a reasoning module. In this paper, we propose an in-depth study of the vision-bottleneck in VQA, experimenting with both the quantity and quality of visual objects extracted from images. We also study the impact of two methods to incorporate the information about objects necessary for answering a question, in the reasoning module directly, and earlier in the object selection stage. This work highlights the importance of vision in the context of VQA, and the interest of tailoring vision methods used in VQA to the task at hand.
翻訳日:2022-02-15 17:17:55 公開日:2022-02-14
# 構造相対位置案内トランスを用いたソースコード要約

Source Code Summarization with Structural Relative Position Guided Transformer ( http://arxiv.org/abs/2202.06521v1 )

ライセンス: Link先を確認
Zi Gong, Cuiyun Gao, Yasheng Wang, Wenchao Gu, Yun Peng, Zenglin Xu(参考訳) ソースコードの要約は、プログラミング言語の簡潔で明確な自然言語記述を生成することを目的としている。 よく書かれたコード要約は、プログラマがソフトウェア開発やメンテナンスプロセスに参加するのに役立ちます。 ソースコードの意味表現を学ぶために、最近の取り組みは、コードの構文構造をtransformerのようなニューラルネットワークに組み込むことに重点を置いている。 このようなトランスフォーマーベースのアプローチは、リカレントニューラルネットワーク(RNN)を含む他のニューラルネットワークよりも長距離依存をよりよく捉えることができるが、そのほとんどは、トークン間の構造的相対関係、例えば抽象構文木(AST)における相対的位置を考慮していない。 構造依存をモデル化するため,SCRIPTと呼ばれる構造相対位置案内変換器を提案する。 SCRIPTはまずソースコードのASTを解析してトークン間の構造的相対位置を取得し、次に2種類のTransformerエンコーダに渡す。 1つのトランスは構造的相対距離に応じて直接入力を調整し、もう1つのトランスはセルフアテンションスコアを計算する際に構造的相対位置を符号化する。 最後に,これら2種類のトランスフォーマーエンコーダを積み重ねてソースコードの表現を学習する。 実験結果から,提案したSCRIPTは,ベンチマークデータセット上でのBLEU,ROUGE-L,METEORに対して,少なくとも1.6%,1.4%,2.8%,最先端の手法よりも優れていた。 さらに,提案するスクリプトが構造的依存関係をどのように捉えるかを示す。

Source code summarization aims at generating concise and clear natural language descriptions for programming languages. Well-written code summaries are beneficial for programmers to participate in the software development and maintenance process. To learn the semantic representations of source code, recent efforts focus on incorporating the syntax structure of code into neural networks such as Transformer. Such Transformer-based approaches can better capture the long-range dependencies than other neural networks including Recurrent Neural Networks (RNNs), however, most of them do not consider the structural relative correlations between tokens, e.g., relative positions in Abstract Syntax Trees (ASTs), which is beneficial for code semantics learning. To model the structural dependency, we propose a Structural Relative Position guided Transformer, named SCRIPT. SCRIPT first obtains the structural relative positions between tokens via parsing the ASTs of source code, and then passes them into two types of Transformer encoders. One Transformer directly adjusts the input according to the structural relative distance; and the other Transformer encodes the structural relative positions during computing the self-attention scores. Finally, we stack these two types of Transformer encoders to learn representations of source code. Experimental results show that the proposed SCRIPT outperforms the state-of-the-art methods by at least 1.6%, 1.4% and 2.8% with respect to BLEU, ROUGE-L and METEOR on benchmark datasets, respectively. We further show that how the proposed SCRIPT captures the structural relative dependencies.
翻訳日:2022-02-15 17:15:55 公開日:2022-02-14
# 置換不変行列統計量と計算言語タスク

Permutation invariant matrix statistics and computational language tasks ( http://arxiv.org/abs/2202.06829v1 )

ライセンス: Link先を確認
Manuel Accettulli Huber, Adriana Correia, Sanjaye Ramgoolam, Mehrnoosh Sadrzadeh(参考訳) kartsaklis, ramgoolam, sadrzadeh によって導入された言語マトリクス理論プログラムは、重要な統計を符号化する重要な可観測性と見なされる置換不変多項式関数に基づいて、タイプ駆動分布意味論で生成される行列の統計に対するアプローチである。 本稿では,構成分布意味論から生じる行列分布の近似ガウス性に関する先行結果を一般化する。 また、置換不変量に対するグラフ理論の基盤と、単語に関連する行列のアンサンブルの統計的特性を利用して定義される単語の可観測ベクトルの幾何学も導入する。 本稿では,この統一フレームワークを計算機言語学における様々なタスクに応用し,同義語,対義語,ハイパーニム,低音の区別について述べる。

The Linguistic Matrix Theory programme introduced by Kartsaklis, Ramgoolam and Sadrzadeh is an approach to the statistics of matrices that are generated in type-driven distributional semantics, based on permutation invariant polynomial functions which are regarded as the key observables encoding the significant statistics. In this paper we generalize the previous results on the approximate Gaussianity of matrix distributions arising from compositional distributional semantics. We also introduce a geometry of observable vectors for words, defined by exploiting the graph-theoretic basis for the permutation invariants and the statistical characteristics of the ensemble of matrices associated with the words. We describe successful applications of this unified framework to a number of tasks in computational linguistics, associated with the distinctions between synonyms, antonyms, hypernyms and hyponyms.
翻訳日:2022-02-15 17:15:25 公開日:2022-02-14
# ラベル補正による遅延フィードバックモデリングの漸近的非バイアス推定

Asymptotically Unbiased Estimation for Delayed Feedback Modeling via Label Correction ( http://arxiv.org/abs/2202.06472v1 )

ライセンス: Link先を確認
Yu Chen, Jiaqi Jin, Hui Zhao, Pengjie Wang, Guojun Liu, Jian Xu and Bo Zheng(参考訳) 遅延したフィードバック問題を緩和することは、オンライン広告における変換率(CVR)予測において重要である。 正確なラベル待ちと新鮮なフィードバックのトレードオフのバランスをとるためにオブザーバーウィンドウを用いた以前の遅延フィードバックモデリング手法。 さらに, 偽陰性分布を用いてCVRを推定するためには, 分布バイアスを低減するために重要サンプリングが広く用いられている。 効果はあるものの, 従来の手法では偽陰性標本を重み付けにおいて真陰性扱いし, 検出された正のサンプルを十分に活用していないため, 準最適性能が得られた。 本研究では,非バイアス推定を用いた遅延フィードバックモデル (DEFUSE) を提案する。これは, 即効性, 偽陰性, 実陰性, 遅延正の重み付けを, より微細な粒度でそれぞれ補正することを目的としている。 具体的には、まず、重要サンプリングを適用する前に、観測された負の偽陰性の確率を推定する2段階最適化手法を提案する。 観測された分布から地中即応を十分に活用するために、偏りのない即応と偏りのある遅延変換を共同でモデル化する二分散モデリングフレームワークを更に開発する。 公立および工業用両方のデータセットの実験結果から,DEFUSEの優位性を検証した。 コードはhttps://github.com/y chen216/defuse.gitで入手できる。

Alleviating the delayed feedback problem is of crucial importance for the conversion rate(CVR) prediction in online advertising. Previous delayed feedback modeling methods using an observation window to balance the trade-off between waiting for accurate labels and consuming fresh feedback. Moreover, to estimate CVR upon the freshly observed but biased distribution with fake negatives, the importance sampling is widely used to reduce the distribution bias. While effective, we argue that previous approaches falsely treat fake negative samples as real negative during the importance weighting and have not fully utilized the observed positive samples, leading to suboptimal performance. In this work, we propose a new method, DElayed Feedback modeling with UnbiaSed Estimation, (DEFUSE), which aim to respectively correct the importance weights of the immediate positive, the fake negative, the real negative, and the delay positive samples at finer granularity. Specifically, we propose a two-step optimization approach that first infers the probability of fake negatives among observed negatives before applying importance sampling. To fully exploit the ground-truth immediate positives from the observed distribution, we further develop a bi-distribution modeling framework to jointly model the unbiased immediate positives and the biased delay conversions. Experimental results on both public and our industrial datasets validate the superiority of DEFUSE. Codes are available at https://github.com/y chen216/DEFUSE.git.
翻訳日:2022-02-15 17:12:23 公開日:2022-02-14
# 情報規則化による逆グラフコントラスト学習

Adversarial Graph Contrastive Learning with Information Regularization ( http://arxiv.org/abs/2202.06491v1 )

ライセンス: Link先を確認
Shengyu Feng, Baoyu Jing, Yada Zhu, Hanghang Tong(参考訳) コントラスト学習はグラフ表現学習において効果的な教師なし手法である。 近年,データ拡張に基づくコントラスト学習法が画像からグラフに拡張されている。 しかし、ほとんどの先行作品は、画像用に設計されたモデルから直接適応している。 画像上のデータ拡張とは異なり、グラフ上のデータ拡張は直感的ではなく、高い品質の対照的なサンプルを提供することがはるかに難しく、これは対照的な学習モデルの性能の鍵である。 これにより、既存のグラフコントラスト学習フレームワークよりも多くの改善の余地がある。 本研究では, 逆グラフビューと情報正規化器を導入することで, 合理的な制約の中で情報的コントラストを抽出する簡易かつ効果的な手法, 逆グラフコントラスト学習(ARIEL)を提案する。 様々な実世界のデータセット上で、ノード分類タスクにおける現在のグラフコントラスト学習手法を一貫して上回り、さらにグラフコントラスト学習のロバスト性を向上させる。

Contrastive learning is an effective unsupervised method in graph representation learning. Recently, the data augmentation based contrastive learning method has been extended from images to graphs. However, most prior works are directly adapted from the models designed for images. Unlike the data augmentation on images, the data augmentation on graphs is far less intuitive and much harder to provide high-quality contrastive samples, which are the key to the performance of contrastive learning models. This leaves much space for improvement over the existing graph contrastive learning frameworks. In this work, by introducing an adversarial graph view and an information regularizer, we propose a simple but effective method, Adversarial Graph Contrastive Learning (ARIEL), to extract informative contrastive samples within a reasonable constraint. It consistently outperforms the current graph contrastive learning methods in the node classification task over various real-world datasets and further improves the robustness of graph contrastive learning.
翻訳日:2022-02-15 17:11:59 公開日:2022-02-14
# システム一般化のための因果モデルに基づく強化学習

Provably Efficient Causal Model-Based Reinforcement Learning for Systematic Generalization ( http://arxiv.org/abs/2202.06545v1 )

ライセンス: Link先を確認
Mirco Mutti, Riccardo De Santi, Emanuele Rossi, Juan Felipe Calderon, Michael Bronstein, Marcello Restelli(参考訳) シーケンシャルな意思決定設定では、エージェントは、大きな、おそらく無限の環境セット上の体系的な一般化を達成することを目指している。 このような環境は、特徴ベクトルを通して表される状態と行動の両方を持つ離散マルコフ決定プロセスとしてモデル化される。 環境の基盤となる構造により、トランジッションのダイナミクスは、環境固有のものと共有されるものとの2つのコンポーネントに分解できる。 動作の法則を共有する一連の環境を図示的な例として考えてみましょう。 この設定では、エージェントはこれらの環境の部分集合から有限量の報酬のない相互作用を取ることができる。 エージェントは、上記の相互作用のみに依存するため、元のセットの任意の環境上で定義された任意の計画タスクを概ね解決できなければならない。 この体系的一般化という野心的な目標を達成するための証明可能な効率的なアルゴリズムを設計できるだろうか? 本稿では,この問題に対して部分的に肯定的な回答を与える。 まず, 因果的視点を用いて体系的一般化の第1次定式化を行う。 そして、特定の構造的仮定の下で、多項式サンプルの複雑さを示しながら、避けられない準最適項までの計画誤差を保証できる単純な学習アルゴリズムを提供する。

In the sequential decision making setting, an agent aims to achieve systematic generalization over a large, possibly infinite, set of environments. Such environments are modeled as discrete Markov decision processes with both states and actions represented through a feature vector. The underlying structure of the environments allows the transition dynamics to be factored into two components: one that is environment-specific and another one that is shared. Consider a set of environments that share the laws of motion as an illustrative example. In this setting, the agent can take a finite amount of reward-free interactions from a subset of these environments. The agent then must be able to approximately solve any planning task defined over any environment in the original set, relying on the above interactions only. Can we design a provably efficient algorithm that achieves this ambitious goal of systematic generalization? In this paper, we give a partially positive answer to this question. First, we provide the first tractable formulation of systematic generalization by employing a causal viewpoint. Then, under specific structural assumptions, we provide a simple learning algorithm that allows us to guarantee any desired planning error up to an unavoidable sub-optimality term, while showcasing a polynomial sample complexity.
翻訳日:2022-02-15 17:11:44 公開日:2022-02-14
# 医薬勧告のための条件生成ネット

Conditional Generation Net for Medication Recommendation ( http://arxiv.org/abs/2202.06588v1 )

ライセンス: Link先を確認
Rui Wu, Xipeng Qiu, Jiacheng Jiang, Guilin Qi, Xian Wu(参考訳) 治療勧告の対象は、患者の診断に従って適切な薬群を提供することであり、これは診療所において重要な課題である。 現在は医師が手作業で推奨している。 しかし,多発性疾患を併発する症例のように複雑な症例では,経験豊富な医師でも考慮すべき推奨案を提案することは困難である。 これにより、有害な薬物・薬物相互作用を引き起こすことなく、診断された疾患を治療できる自動薬剤推奨が出現し、その臨床的価値により、研究の関心が高まり、医薬推奨を多ラベル分類タスクとして定式化して医薬品のセットを予測する研究が進められている。 本稿では, 医薬品群を生成するための新しいコピー・オ・プレディクト機構を導入する条件付き生成ネット(cognet)を提案する。 患者が与えられた場合、提案モデルはまず、過去の診断と推奨薬を検索し、現在の診断との関係を発掘する。 そして、各薬の予測において、提案モデルは、以前の推奨から薬をコピーするか、新しい薬を予測するかを決定する。 このプロセスは、人間の医師の決定プロセスと非常に似ています。 提案モデルの有効性を検証するとともに,提案モデルが最先端のアプローチに勝ることを示す実験結果を得た。

Medication recommendation targets to provide a proper set of medicines according to patients' diagnoses, which is a critical task in clinics. Currently, the recommendation is manually conducted by doctors. However, for complicated cases, like patients with multiple diseases at the same time, it's difficult to propose a considerate recommendation even for experienced doctors. This urges the emergence of automatic medication recommendation which can help treat the diagnosed diseases without causing harmful drug-drug interactions.Due to the clinical value, medication recommendation has attracted growing research interests.Existing works mainly formulate medication recommendation as a multi-label classification task to predict the set of medicines. In this paper, we propose the Conditional Generation Net (COGNet) which introduces a novel copy-or-predict mechanism to generate the set of medicines. Given a patient, the proposed model first retrieves his or her historical diagnoses and medication recommendations and mines their relationship with current diagnoses. Then in predicting each medicine, the proposed model decides whether to copy a medicine from previous recommendations or to predict a new one. This process is quite similar to the decision process of human doctors. We validate the proposed model on the public MIMIC data set, and the experimental results show that the proposed model can outperform state-of-the-art approaches.
翻訳日:2022-02-15 17:11:27 公開日:2022-02-14
# 連続学習のためのデータ圧縮によるメモリリプレイ

Memory Replay with Data Compression for Continual Learning ( http://arxiv.org/abs/2202.06592v1 )

ライセンス: Link先を確認
Liyuan Wang, Xingxing Zhang, Kuo Yang, Longhui Yu, Chongxuan Li, Lanqing Hong, Shifeng Zhang, Zhenguo Li, Yi Zhong, Jun Zhu(参考訳) 継続的な学習は過去の破滅的な忘れを克服する必要がある。 代表的な古いトレーニングサンプルのメモリリプレイは有効なソリューションとして示され、最先端(SOTA)のパフォーマンスを実現している。 しかし、既存の作業は主に、少数のオリジナルデータを含む小さなメモリバッファ上に構築されており、古いデータ分布を完全に特徴付けることはできない。 本研究では,古いトレーニングサンプルのストレージコストを削減し,メモリバッファに格納できる量を増やすために,データ圧縮によるメモリ再生を提案する。 圧縮データの品質と量とのトレードオフがメモリリプレイの有効性にとって極めて重要でないことを見極め,DPP(Determinantal Point Process)に基づく新しい手法を提案し,現在開発中のトレーニングサンプルの適切な圧縮品質を効率的に決定する。 このように、適切に選択された品質のナイーブデータ圧縮アルゴリズムを使用することで、限られたストレージ空間に圧縮データを保存することで、最近の強力なベースラインを大きく向上させることができる。 我々はこれを、クラス増分学習のベンチマークと、自律運転のための物体検出の現実的なシナリオにおいて、広範囲に検証する。

Continual learning needs to overcome catastrophic forgetting of the past. Memory replay of representative old training samples has been shown as an effective solution, and achieves the state-of-the-art (SOTA) performance. However, existing work is mainly built on a small memory buffer containing a few original data, which cannot fully characterize the old data distribution. In this work, we propose memory replay with data compression to reduce the storage cost of old training samples and thus increase their amount that can be stored in the memory buffer. Observing that the trade-off between the quality and quantity of compressed data is highly nontrivial for the efficacy of memory replay, we propose a novel method based on determinantal point processes (DPPs) to efficiently determine an appropriate compression quality for currently-arrived training samples. In this way, using a naive data compression algorithm with a properly selected quality can largely boost recent strong baselines by saving more compressed data in a limited storage space. We extensively validate this across several benchmarks of class-incremental learning and in a realistic scenario of object detection for autonomous driving.
翻訳日:2022-02-15 17:11:05 公開日:2022-02-14
# オンライン学習の宇宙用メモリダンプ最適化への応用

An Application of Online Learning to Spacecraft Memory Dump Optimization ( http://arxiv.org/abs/2202.06617v1 )

ライセンス: Link先を確認
Tommaso Cesari, Jonathan Pergoli, Michele Maestrini, Pierluigi Di Lizia(参考訳) 本稿では,copernicus sentinel-6衛星から得られた実生活データに関する理論を検証し,宇宙運用の分野における専門家のアドバイスを伴う実世界のオンライン学習の応用について述べる。 本研究では,Spacecraft Memory Dump Optimization において,従来の手法と比較して,Follow-The-Leader の軽量アルゴリズムが60 %以上の性能向上をもたらすことを示す。

In this paper, we present a real-world application of online learning with expert advice to the field of Space Operations, testing our theory on real-life data coming from the Copernicus Sentinel-6 satellite. We show that in Spacecraft Memory Dump Optimization, a lightweight Follow-The-Leader algorithm leads to an increase in performance of over $60\%$ when compared to traditional techniques.
翻訳日:2022-02-15 17:10:47 公開日:2022-02-14
# 線形関数近似によるsarsaのチャタリングについて

On the Chattering of SARSA with Linear Function Approximation ( http://arxiv.org/abs/2202.06828v1 )

ライセンス: Link先を確認
Shangtong Zhang, Remi Tachet, Romain Laroche(参考訳) 強化学習のための古典的オンライン制御アルゴリズムであるSARSAは、線形関数近似と組み合わせることで、おしゃべりとして知られている: SARSAは分岐せず、有界領域で振動する。 しかし、SARSAがその領域にどの程度の速度で収束し、その領域がどのくらい大きいかは、ほとんど分かっていない。 本稿では,有界領域への射影SARSAの収束率を示すことにより,この問題の解決に向けて前進する。 重要なのは、報酬の規模がそれほど大きくないことから、投射に使用されるボールよりもはるかに小さいことである。 我々の分析は、期待されているSARSAとSARSA($\lambda$)にも当てはまる。 線形 SARSA の固定点への収束に関する既存の研究は、すべて SARSA のポリシー改善作用素のリプシッツ定数を十分に小さくする必要があるが、我々の分析は代わりに任意のリプシッツ定数に適用し、新しい状態に対する線形 SARSA の振舞いを特徴づける。

SARSA, a classical on-policy control algorithm for reinforcement learning, is known to chatter when combined with linear function approximation: SARSA does not diverge but oscillates in a bounded region. However, little is know about how fast SARSA converges to that region and how large the region is. In this paper, we make progress towards solving this open problem by showing the convergence rate of projected SARSA to a bounded region. Importantly, the region is much smaller than the ball used for projection provided that the the magnitude of the reward is not too large. Our analysis applies to expected SARSA as well as SARSA($\lambda$). Existing works regarding the convergence of linear SARSA to a fixed point all require the Lipschitz constant of SARSA's policy improvement operator to be sufficiently small; our analysis instead applies to arbitrary Lipschitz constants and thus characterizes the behavior of linear SARSA for a new regime.
翻訳日:2022-02-15 17:09:41 公開日:2022-02-14
# HyLa:グラフ学習のためのハイパーボリックラプラス的機能

HyLa: Hyperbolic Laplacian Features For Graph Learning ( http://arxiv.org/abs/2202.06854v1 )

ライセンス: Link先を確認
Tao Yu, Christopher De Sa(参考訳) その幾何学的性質のため、双曲空間は木およびグラフ構造データの高忠実な埋め込みをサポートすることができる。 例えば、双曲グラフ畳み込みネットワーク(GCN)は、バニラGCNより優れている。 しかし、既存の双曲線ネットワークは計算コストが高く、数値的に不安定であり、これらの欠点のために大きなグラフにスケールできない。 本稿では、グラフ学習における双曲空間の利用に対する全く異なるアプローチであるHyLaを提案する: HyLaは、学習された双曲空間の埋め込みから、双曲空間におけるラプラシアン作用素の固有関数を介してユークリッド空間へ写像する。 この手法はユークリッド空間におけるラプラシアンの固有関数を用いたランダムフーリエ特徴法に着想を得たものである。 我々はHyLaをノード分類やテキスト分類などの下流タスクで評価し、HyLaは双曲GCNや他のベースラインよりも大幅に改善されていることを示した。

Due to its geometric properties, hyperbolic space can support high-fidelity embeddings of tree- and graph-structured data. For graph learning, points in hyperbolic space have been used successfully as signals in deep neural networks: e.g. hyperbolic graph convolutional networks (GCN) can outperform vanilla GCN. However, existing hyperbolic networks are computationally expensive and can be numerically unstable, and cannot scale to large graphs due to these shortcomings. In this paper, we propose HyLa, a completely different approach to using hyperbolic space in graph learning: HyLa maps once from a learned hyperbolic-space embedding to Euclidean space via the eigenfunctions of the Laplacian operator in the hyperbolic space. Our method is inspired by the random Fourier feature methodology, which uses the eigenfunctions of the Laplacian in Euclidean space. We evaluate HyLa on downstream tasks including node classification and text classification, where HyLa shows significant improvements over hyperbolic GCN and other baselines.
翻訳日:2022-02-15 17:09:25 公開日:2022-02-14
# Quantus: ニューラルネットワーク説明の責任評価のための説明可能なAIツールキット

Quantus: An Explainable AI Toolkit for Responsible Evaluation of Neural Network Explanations ( http://arxiv.org/abs/2202.06861v1 )

ライセンス: Link先を確認
Anna Hedstr\"om, Leander Weber, Dilyara Bareeva, Franz Motzkus, Wojciech Samek, Sebastian Lapuschkin, Marina M.-C. H\"ohne(参考訳) 説明方法の評価は、まだ深く研究されていない研究課題であるが、説明可能性については、人工知能への信頼を高めるため、その正確性を確認するためには、説明方法を体系的に検証・比較する必要がある。 これまで、研究者がニューラルネットワークの予測の説明を定量的に評価できるツールは存在しない。 この分野における透明性と再現性を高めるため、我々はQuantusを構築した。QuantusはPythonの包括的なオープンソースツールキットで、分析メトリクスとチュートリアルを使って説明可能なメソッドを評価する。 ツールキットは徹底的にテストされ、PyPi(https://github. com/understandable-m achine-intelligence- lab/quantus/)のオープンソースライセンスで利用可能である。

The evaluation of explanation methods is a research topic that has not yet been explored deeply, however, since explainability is supposed to strengthen trust in artificial intelligence, it is necessary to systematically review and compare explanation methods in order to confirm their correctness. Until now, no tool exists that exhaustively and speedily allows researchers to quantitatively evaluate explanations of neural network predictions. To increase transparency and reproducibility in the field, we therefore built Quantus - a comprehensive, open-source toolkit in Python that includes a growing, well-organised collection of evaluation metrics and tutorials for evaluating explainable methods. The toolkit has been thoroughly tested and is available under open source license on PyPi (or on https://github.com/u nderstandable-machin e-intelligence-lab/q uantus/).
翻訳日:2022-02-15 17:09:10 公開日:2022-02-14
# FOLD-RM:混合データの多カテゴリ分類のためのスケーラブルで効率的な帰納学習アルゴリズム

FOLD-RM: A Scalable and Efficient Inductive Learning Algorithm for Multi-Category Classification of Mixed Data ( http://arxiv.org/abs/2202.06913v1 )

ライセンス: Link先を確認
Huaduo Wang and Gopal Gupta(参考訳) FOLD-RMは、混合(数値と分類)データのデフォルトルールを学習するための自動帰納学習アルゴリズムである。 効率性とスケーラビリティを維持しつつ、多カテゴリ分類タスクのための(説明可能な)応答セットプログラミング(ASP)ルールを生成する。 FOLD-RMアルゴリズムは広く使われているXGBoostアルゴリズムと競合するが、XGBoostとは異なり、FOLD-RMアルゴリズムは説明可能なモデルを生成する。 FOLD-RMはいくつかのデータセット、特に大きなデータセットでXGBoostを上回っている。 FOLD-RMは、予測のための人間フレンドリーな説明も提供する。

FOLD-RM is an automated inductive learning algorithm for learning default rules for mixed (numerical and categorical) data. It generates an (explainable) answer set programming (ASP) rule set for multi-category classification tasks while maintaining efficiency and scalability. The FOLD-RM algorithm is competitive in performance with the widely-used XGBoost algorithm, however, unlike XGBoost, the FOLD-RM algorithm produces an explainable model. FOLD-RM outperforms XGBoost on some datasets, particularly large ones. FOLD-RM also provides human-friendly explanations for predictions.
翻訳日:2022-02-15 17:08:54 公開日:2022-02-14
# モンテカルロ木探索による医用レジデンシーマッチの任意の時間容量拡大

Anytime Capacity Expansion in Medical Residency Match by Monte Carlo Tree Search ( http://arxiv.org/abs/2202.06570v1 )

ライセンス: Link先を確認
Kenshi Abe, Junpei Komiyama, Atsushi Iwasaki(参考訳) 本稿では,2面マッチングにおけるキャパシティ拡張問題について考察する。 医療関係では、各病院は限られた数の医師を受け入れている。 このような容量制限は、通常事前に与えられる。 しかし、そのような外来的な制約は医師の福祉を損なう可能性がある。 一方で、病院がいくつかの追加の医師を受け入れることにもメリットがある場合が多い。 この問題に対処するために、上位の信頼木がキャパシティ拡張の空間を探索し、それぞれが遅延受理法が見出すような常駐最適の割り当てを持つ時限手法を提案する。 優れた探索木表現の構築は,提案手法の性能を大幅に向上させる。 提案手法は,混合整数計画に基づく厳密な手法よりも計算予算がかなり小さい場合,ほぼ最適容量拡張を同定できることを示す。

This paper considers the capacity expansion problem in two-sided matchings, where the policymaker is allowed to allocate some extra seats as well as the standard seats. In medical residency match, each hospital accepts a limited number of doctors. Such capacity constraints are typically given in advance. However, such exogenous constraints can compromise the welfare of the doctors; some popular hospitals inevitably dismiss some of their favorite doctors. Meanwhile, it is often the case that the hospitals are also benefited to accept a few extra doctors. To tackle the problem, we propose an anytime method that the upper confidence tree searches the space of capacity expansions, each of which has a resident-optimal stable assignment that the deferred acceptance method finds. Constructing a good search tree representation significantly boosts the performance of the proposed method. Our simulation shows that the proposed method identifies an almost optimal capacity expansion with a significantly smaller computational budget than exact methods based on mixed-integer programming.
翻訳日:2022-02-15 17:06:19 公開日:2022-02-14
# 機械学習によるリチウム電池用超イオン固体電解質の発見

Machine Learning-Aided Discovery of Superionic Solid-State Electrolyte for Li-Ion Batteries ( http://arxiv.org/abs/2202.06763v1 )

ライセンス: Link先を確認
Seungpyo Kang, Minseon Kim, and Kyoungmin Min(参考訳) Li-Ion固相電解質 (Li-SSEs) は, イオン伝導率の低下, 界面不安定性, デンドライト成長など, 従来のLi-Ion電池 (LIBs) の臨界問題を解消する有望な解である。 本研究では,20,237種類のli含有材料の超イオン性li-ssを検出するための高スループットスクリーニングと機械学習サロゲートモデルからなるプラットフォームを開発した。 トレーニングデータベースでは,Naスーパーイオニックコンダクタ(NASICON)およびLiスーパーイオニックコンダクタ(LISICON)型のSSEのイオン伝導率が,前報より得られた。 次に、ケミカルディスクリプタ(cd)と追加の構造特性を機械可読性として用いる。 スクリーニング基準によりLi-SSE候補が選択され、そのイオン伝導率の予測が続く。 次に、サロゲートモデルの不確かさを低減するため、最高の2つのモデルを考慮したアンサンブル法を用い、平均予測精度は0.843と0.829である。 さらに、強候補のイオン伝導性を確認するために第一原理計算を行う。 最後に、これまで研究されていない6つの潜在的超イオンLi-SSEを提案する。 構築されたプラットフォームは、イオン伝導率の高いLi-SSEの探索を最小限のコストで高速化できると考えている。

Li-Ion Solid-State Electrolytes (Li-SSEs) are a promising solution that resolves the critical issues of conventional Li-Ion Batteries (LIBs) such as poor ionic conductivity, interfacial instability, and dendrites growth. In this study, a platform consisting of a high-throughput screening and a machine-learning surrogate model for discovering superionic Li-SSEs among 20,237 Li-containing materials is developed. For the training database, the ionic conductivity of Na SuperIonic CONductor (NASICON) and Li SuperIonic CONductor (LISICON) type SSEs are obtained from the previous literature. Then, the chemical descriptor (CD) and additional structural properties are used as machine-readable features. Li-SSE candidates are selected through the screening criteria, and the prediction on the ionic conductivity of those is followed. Then, to reduce uncertainty in the surrogate model, the ensemble method by considering the best-performing two models is employed, whose mean prediction accuracy is 0.843 and 0.829, respectively. Furthermore, first-principles calculations are conducted for confirming the ionic conductivity of the strong candidates. Finally, six potential superionic Li-SSEs that have not previously been investigated are proposed. We believe that the constructed platform can accelerate the search for Li-SSEs with high ionic conductivity at minimum cost.
翻訳日:2022-02-15 17:06:03 公開日:2022-02-14
# (参考訳) ブラックボックス一般化 [全文訳有]

Black-Box Generalization ( http://arxiv.org/abs/2202.06880v1 )

ライセンス: CC BY 4.0
Konstantinos E. Nikolakakis, Farzin Haddadpour, Dionysios S. Kalogerias and Amin Karbasi(参考訳) 微分自由最適化によるブラックボックス学習のための最初の一般化誤差解析を行う。 リプシッツと滑らかな未知の損失の仮定の下では、確率的勾配方向をデータセット(例)クエリごとにk+1$の摂動損失評価の確率的差に置き換えることで、d$次元モデルを更新するゼロ次確率探索(zoss)アルゴリズムを考える。 非有界かつ非凸な損失に対して、ZoSSアルゴリズムの最初の一般化境界を示す。 これらのバウンダリは、SGDのバウンダリと一致しており、驚くべきことに、わずかに低い学習率の適切な選択の下で、$d$, $K$とバッチサイズ$m$とは独立している。 有界な非凸損失とバッチサイズ$m=1$の場合、一般化誤差と学習率の両方が$d$と$K$とは独立であり、2つの関数評価においても本質的にSGDと同じであることを示す。 sgdでは,一般化限界と対応する学習率の両方において,sgdの確立した結果を広範囲に拡張し,一貫して回収する。 さらに$m=n$の場合、$n$はデータセットのサイズであり、フルバッチGDの一般化保証も導き出す。

We provide the first generalization error analysis for black-box learning through derivative-free optimization. Under the assumption of a Lipschitz and smooth unknown loss, we consider the Zeroth-order Stochastic Search (ZoSS) algorithm, that updates a $d$-dimensional model by replacing stochastic gradient directions with stochastic differences of $K+1$ perturbed loss evaluations per dataset (example) query. For both unbounded and bounded possibly nonconvex losses, we present the first generalization bounds for the ZoSS algorithm. These bounds coincide with those for SGD, and rather surprisingly are independent of $d$, $K$ and the batch size $m$, under appropriate choices of a slightly decreased learning rate. For bounded nonconvex losses and a batch size $m=1$, we additionally show that both generalization error and learning rate are independent of $d$ and $K$, and remain essentially the same as for the SGD, even for two function evaluations. Our results extensively extend and consistently recover established results for SGD in prior work, on both generalization bounds and corresponding learning rates. If additionally $m=n$, where $n$ is the dataset size, we derive generalization guarantees for full-batch GD as well.
翻訳日:2022-02-15 17:01:26 公開日:2022-02-14
# 意見は違う? 診断ファースト!

Opinions Vary? Diagnosis First! ( http://arxiv.org/abs/2202.06505v1 )

ライセンス: Link先を確認
Junde Wu, Huihui Fang, Binghong Wu, Dalu Yang, Yehui Yang, Yanwu Xu(参考訳) 医用画像セグメンテーションでは、画像は通常、いくつかの異なる臨床専門家によって注釈付けされる。 この臨床ルーチンは個人のバイアスを軽減するのに役立つ。 しかし、コンピュータビジョンモデルは、各インスタンスに固有の基盤構造が存在すると仮定することが多い。 コンピュータビジョンと医療ルーチンの間のこの研究ギャップは一般的に存在するが、現在の研究ではあまり解明されていない。 1. 複数のセグメンテーションラベルの最適な組み合わせを学習するには? そして 2.このセグメンテーションマスクを原画像から推定する方法 臨床では,画像分割マスクが診断補助情報として通常存在することに留意する。 この考え方に固執して、診断結果をゴールド標準として、マルチレートセグメンテーションラベル上のセグメンテーションマスクを推定するためのフレームワークdiff(diagnosis first segmentation framework)を提案する。 DiFFは2つのノベルティ技術によって実装されている。 まず, DFSim (Diagnosis First Simulation of Gold label) を, 診断のための多層セグメンテーションラベルの最適組み合わせとして検討した。 そして、生画像からDFSimマスクを推定するために、さらにT&Gモジュール(Take and Give Module)を提案し、診断知識をセグメンテーションネットワークに注入する。 実験の結果、一般的に使用されている多数決と比較すると、提案されたDiFFは、AUCスコアの6%の改善でマスクを分割することができ、また、最先端のマルチラター手法を大きなマージンで上回っていることがわかった。

In medical image segmentation, images are usually annotated by several different clinical experts. This clinical routine helps to mitigate the personal bias. However, Computer Vision models often assume there has a unique ground-truth for each of the instance. This research gap between Computer Vision and medical routine is commonly existed but less explored by the current research.In this paper, we try to answer the following two questions: 1. How to learn an optimal combination of the multiple segmentation labels? and 2. How to estimate this segmentation mask from the raw image? We note that in clinical practice, the image segmentation mask usually exists as an auxiliary information for disease diagnosis. Adhering to this mindset, we propose a framework taking the diagnosis result as the gold standard, to estimate the segmentation mask upon the multi-rater segmentation labels, named DiFF (Diagnosis First segmentation Framework).DiFF is implemented by two novelty techniques. First, DFSim (Diagnosis First Simulation of gold label) is learned as an optimal combination of multi-rater segmentation labels for the disease diagnosis. Then, toward estimating DFSim mask from the raw image, we further propose T\&G Module (Take and Give Module) to instill the diagnosis knowledge into the segmentation network. The experiments show that compared with commonly used majority vote, the proposed DiFF is able to segment the masks with 6% improvement on diagnosis AUC score, which also outperforms various state-of-the-art multi-rater methods by a large margin.
翻訳日:2022-02-15 16:00:05 公開日:2022-02-14
# トリメスター3次元超音波によるヒト胚のマルチアトラスセグメンテーションと空間的アライメント

Multi-Atlas Segmentation and Spatial Alignment of the Human Embryo in First Trimester 3D Ultrasound ( http://arxiv.org/abs/2202.06599v1 )

ライセンス: Link先を確認
W.A.P. Bastiaansen, M. Rousian, R.P.M. Steegers-Theunissen, W.J. Niessen, A.H.J. Koning, S. Klein(参考訳) 最初の3期で得られた超音波画像データの分割と空間的アライメントは、この重要な期間を通じてヒトの胚の成長と発達をモニタリングするために重要である。 現在のアプローチは手動かセミオートマチックで、非常に時間がかかり、エラーを起こしやすい。 これらのタスクを自動化するために,最小限の監督力を持つ深層学習を用いて,胚の自動分割と空間アライメントのためのマルチアトラスフレームワークを提案する。 本フレームワークは, 妊娠年齢(GA)で得られたUS画像からなり, 予め定義された標準配向にセグメンテーションされ, 空間的に整列するアトラスに胚を登録することを学ぶ。 これにより、胚のセグメンテーションを導出し、胚を標準的な方向に置くことができる。 8-0から12-6週で取得した米国画像を用いて,8妊娠をアトラス画像として選択した。 複数のアトラスを組み込むための異なる融合戦略を評価した。 1)単一妊娠時のアトラス画像を用いた枠組みの訓練。 2)利用可能なすべてのアトラスのデータとフレームワークのトレーニング 3)妊娠1度訓練した枠組みの合理化。 性能評価のために,テストセット上のサイコロスコアを算出した。 利用可能なすべてのatlasを使ってフレームワークをトレーニングすることは、ensemblingよりも優れており、単一のテーマでトレーニングされたフレームワークのベストと比較すると、同様の結果が得られました。 さらに,gaに最も近い4つのアトラスから選択した画像は,個々の品質に関わらず,0.72の中央値で最高の結果を得た。 この枠組みは,第13mester 3d us画像における胚の精密な分割と空間的整列が可能であり,利用可能なアトラスに存在する品質の変動に対して頑健である。 私たちのコードは、https://github.com/w apbastiaansen/multi- atlas-seg-regで公開されている。

Segmentation and spatial alignment of ultrasound (US) imaging data acquired in the in first trimester are crucial for monitoring human embryonic growth and development throughout this crucial period of life. Current approaches are either manual or semi-automatic and are therefore very time-consuming and prone to errors. To automate these tasks, we propose a multi-atlas framework for automatic segmentation and spatial alignment of the embryo using deep learning with minimal supervision. Our framework learns to register the embryo to an atlas, which consists of the US images acquired at a range of gestational age (GA), segmented and spatially aligned to a predefined standard orientation. From this, we can derive the segmentation of the embryo and put the embryo in standard orientation. US images acquired at 8+0 till 12+6 weeks GA were used and eight pregnancies were selected as atlas images. We evaluated different fusion strategies to incorporate multiple atlases: 1) training the framework using atlas images from a single pregnancy, 2) training the framework with data of all available atlases and 3) ensembling of the frameworks trained per pregnancy. To evaluate the performance, we calculated the Dice score over the test set. We found that training the framework using all available atlases outperformed ensembling and gave similar results compared to the best of all frameworks trained on a single subject. Furthermore, we found that selecting images from the four atlases closest in GA out of all available atlases, regardless of the individual quality, gave the best results with a median Dice score of 0.72. We conclude that our framework can accurately segment and spatially align the embryo in first trimester 3D US images and is robust for the variation in quality that existed in the available atlases. Our code is publicly available at: https://github.com/w apbastiaansen/multi- atlas-seg-reg.
翻訳日:2022-02-15 15:59:40 公開日:2022-02-14
# 勾配反転攻撃は連合学習の安全性を損なうか?

Do Gradient Inversion Attacks Make Federated Learning Unsafe? ( http://arxiv.org/abs/2202.06924v1 )

ライセンス: Link先を確認
Ali Hatamizadeh, Hongxu Yin, Pavlo Molchanov, Andriy Myronenko, Wenqi Li, Prerna Dogra, Andrew Feng, Mona G. Flores, Jan Kautz, Daguang Xu, Holger R. Roth(参考訳) フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。 この機能は、患者とデータプライバシが最大の関心事である医療アプリケーションにとって特に興味深い。 しかしながら、モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのflのセキュリティに関する懸念を引き起こした。 本稿では,本論文で提示されるこれらの攻撃が実際のflユースケースでは実用的でないことを示し,クライアントのトレーニングがバッチ正規化(bn)統計を更新することを伴う,より現実的なシナリオで有効な新たなベースライン攻撃を提供する。 さらに,FLにおける潜在的なデータ漏洩を計測・可視化する新しい手法を提案する。 我々の研究は、FLにおけるデータ漏洩を測定する再現可能な方法を確立するためのステップであり、差分プライバシーのようなプライバシー保護技術と、定量化メトリクスに基づくモデル精度との最適なトレードオフを決定するのに役立つ。

Federated learning (FL) allows the collaborative training of AI models without needing to share raw data. This capability makes it especially interesting for healthcare applications where patient and data privacy is of utmost concern. However, recent works on the inversion of deep neural networks from model gradients raised concerns about the security of FL in preventing the leakage of training data. In this work, we show that these attacks presented in the literature are impractical in real FL use-cases and provide a new baseline attack that works for more realistic scenarios where the clients' training involves updating the Batch Normalization (BN) statistics. Furthermore, we present new ways to measure and visualize potential data leakage in FL. Our work is a step towards establishing reproducible methods of measuring data leakage in FL and could help determine the optimal tradeoffs between privacy-preserving techniques, such as differential privacy, and model accuracy based on quantifiable metrics.
翻訳日:2022-02-15 15:59:09 公開日:2022-02-14
# BiFSMN: キーワードスポッティングのためのバイナリニューラルネットワーク

BiFSMN: Binary Neural Network for Keyword Spotting ( http://arxiv.org/abs/2202.06483v1 )

ライセンス: Link先を確認
Haotong Qin, Xudong Ma, Yifu Ding, Xiaoyang Li, Yang Zhang, Yao Tian, Zejun Ma, Jie Luo, Xianglong Liu(参考訳) Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。 しかしながら、これらのネットワークの計算リソースは、通常はエッジデバイス上でオンコールされるため、かなり制約がある。 本稿では,KWSのための高精度かつ極効率なバイナリニューラルネットワークであるBiFSMNを提案する。 まず,二元化学習のための高頻度増感蒸留スキームを構築し,二元化ネットワークの最適化においてより重要である全精度ネットワーク表現からの高周波情報を強調した。 そして,実行時の即時かつ適応的な精度・効率のトレードオフを可能にするため,トポロジの観点から二項化ネットワークの加速度ポテンシャルをさらに解放する薄型二項化アーキテクチャを提案する。 さらに、ARMv8デバイス上でBiFSMN用のFast Bitwise Computation Kernelを実装し、レジスタを完全に活用し、命令スループットを高め、デプロイメント効率の限界を押し上げる。 大規模な実験により、BiFSMNは様々なデータセットのマージンを説得することで既存のバイナライズ手法よりも優れており、完全な精度(音声コマンドV1-12では3%未満)に匹敵することを示している。 薄型アーキテクチャと最適化された1ビット実装の利点により、BiFSMNは22.3倍のスピードアップと15.5倍のストレージ節約を実現できる。

The deep neural networks, such as the Deep-FSMN, have been widely studied for keyword spotting (KWS) applications. However, computational resources for these networks are significantly constrained since they usually run on-call on edge devices. In this paper, we present BiFSMN, an accurate and extreme-efficient binary neural network for KWS. We first construct a High-frequency Enhancement Distillation scheme for the binarization-aware training, which emphasizes the high-frequency information from the full-precision network's representation that is more crucial for the optimization of the binarized network. Then, to allow the instant and adaptive accuracy-efficiency trade-offs at runtime, we also propose a Thinnable Binarization Architecture to further liberate the acceleration potential of the binarized network from the topology perspective. Moreover, we implement a Fast Bitwise Computation Kernel for BiFSMN on ARMv8 devices which fully utilizes registers and increases instruction throughput to push the limit of deployment efficiency. Extensive experiments show that BiFSMN outperforms existing binarization methods by convincing margins on various datasets and is even comparable with the full-precision counterpart (e.g., less than 3% drop on Speech Commands V1-12). We highlight that benefiting from the thinnable architecture and the optimized 1-bit implementation, BiFSMN can achieve an impressive 22.3x speedup and 15.5x storage-saving on real-world edge hardware.
翻訳日:2022-02-15 15:56:25 公開日:2022-02-14
# 異なる視点からのセマンティックマッチング

Semantic Matching from Different Perspectives ( http://arxiv.org/abs/2202.06517v1 )

ライセンス: Link先を確認
Weijie Liu, Tao Zhu, Weiquan Mao, Zhe Zhao, Weigang Guo, Xuefeng Yang, Qi Ju(参考訳) 本稿では、通常見過ごされている問題、すなわち、異なる視点から \textit{ similarity が決定されるべきである問題に注意を向ける。 この問題を検討するため,我々は,文の類似性を12の視点からラベル付けしたmpts(multi-perspecti ve text similarity)データセットをリリースした。 さらに,いくつかの有名なテキストマッチングモデルを用いて,この課題を実験的に解析する。 最後に、いくつかの結論とベースラインモデルを取得し、この問題の次の研究の基礎を築いた。 データセットとコードはgithub\footnote{\url{https://github.com/a utoliuweijie/mpts}で公開されている。

In this paper, we pay attention to the issue which is usually overlooked, i.e., \textit{similarity should be determined from different perspectives}. To explore this issue, we release a Multi-Perspective Text Similarity (MPTS) dataset, in which sentence similarities are labeled from twelve perspectives. Furthermore, we conduct a series of experimental analysis on this task by retrofitting some famous text matching models. Finally, we obtain several conclusions and baseline models, laying the foundation for the following investigation of this issue. The dataset and code are publicly available at Github\footnote{\url{https://github.com/a utoliuweijie/MPTS}
翻訳日:2022-02-15 15:56:01 公開日:2022-02-14
# floweval:segment act flowを用いたコンセンサスに基づく対話評価フレームワーク

FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment Act Flows ( http://arxiv.org/abs/2202.06633v1 )

ライセンス: Link先を確認
Jianqiao Zhao, Yanyang Li, Wanyu Du, Yangfeng Ji, Dong Yu, Michael R. Lyu, Liwei Wang(参考訳) オープンドメイン対話評価の最近の進歩にもかかわらず、自動メトリクスの開発方法は未解決の問題である。 従来手法では明示的にモデル化されていなかった対話行動情報を用いた対話評価の可能性を検討する。 しかし、一般に発話レベルで定義されるダイアログアクトは、異なる機能を持つ複数のセグメントを含むことができるため、粗い粒度である。 そこで我々は,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。 セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。 このフレームワークは、擬似参照を見つけることによって、ダイアログ評価のための参照フリーアプローチを提供する。 3つのベンチマークデータセットの強力なベースラインに対する広範囲な実験は、flowevalの有効性とその他の望ましい特性を示し、より良い対話評価のための潜在的なパスを指摘した。

Despite recent progress in open-domain dialogue evaluation, how to develop automatic metrics remains an open problem. We explore the potential of dialogue evaluation featuring dialog act information, which was hardly explicitly modeled in previous methods. However, defined at the utterance level in general, dialog act is of coarse granularity, as an utterance can contain multiple segments possessing different functions. Hence, we propose segment act, an extension of dialog act from utterance level to segment level, and crowdsource a large-scale dataset for it. To utilize segment act flows, sequences of segment acts, for evaluation, we develop the first consensus-based dialogue evaluation framework, FlowEval. This framework provides a reference-free approach for dialog evaluation by finding pseudo-references. Extensive experiments against strong baselines on three benchmark datasets demonstrate the effectiveness and other desirable characteristics of our FlowEval, pointing out a potential path for better dialogue evaluation.
翻訳日:2022-02-15 15:55:52 公開日:2022-02-14
# argscichat: 科学論文における議論的対話のためのデータセット

ArgSciChat: A Dataset for Argumentative Dialogues on Scientific Papers ( http://arxiv.org/abs/2202.06690v1 )

ライセンス: Link先を確認
Federico Ruggeri, Mohsen Mesgar, Iryna Gurevych(参考訳) 専門分野としての)科学分野への会話エージェントの応用は、そのようなエージェントを訓練するための対話データがないために検討されている。 Amazon Mechanical Turkのようなほとんどのデータ収集フレームワークは、クラウドワーカーとタスクデザイナを接続することで汎用ドメインのデータ収集を促進するが、これらのフレームワークは専門家ドメインのデータ収集にはあまり最適化されていない。 限られた時間予算のため、これらのフレームワークには科学者がほとんどいない。 そこで本稿では,科学者間の対話をドメインの専門家として収集する新たな枠組みを提案する。 我々のフレームワークは、科学者が論文を対話の土台として提示し、その論文タイトルを気に入って対話に参加することができる。 我々は、新しい議論的対話データセットArgSciChatの収集にフレームワークを使用します。 41の対話から収集された498のメッセージと20の科学論文からなる。 ArgSciChatの広範な分析とともに、我々のデータセット上で最近の会話エージェントを評価する。 実験の結果、このエージェントはargscichatでは性能が悪く、議論的な科学的エージェントに関するさらなる研究の動機となった。 フレームワークとデータセットをリリースします。

The applications of conversational agents for scientific disciplines (as expert domains) are understudied due to the lack of dialogue data to train such agents. While most data collection frameworks, such as Amazon Mechanical Turk, foster data collection for generic domains by connecting crowd workers and task designers, these frameworks are not much optimized for data collection in expert domains. Scientists are rarely present in these frameworks due to their limited time budget. Therefore, we introduce a novel framework to collect dialogues between scientists as domain experts on scientific papers. Our framework lets scientists present their scientific papers as groundings for dialogues and participate in dialogue they like its paper title. We use our framework to collect a novel argumentative dialogue dataset, ArgSciChat. It consists of 498 messages collected from 41 dialogues on 20 scientific papers. Alongside extensive analysis on ArgSciChat, we evaluate a recent conversational agent on our dataset. Experimental results show that this agent poorly performs on ArgSciChat, motivating further research on argumentative scientific agents. We release our framework and the dataset.
翻訳日:2022-02-15 15:55:36 公開日:2022-02-14
# システムレベルの局所ゲイン制御によるスパイキングコチレ

Spiking Cochlea with System-level Local Automatic Gain Control ( http://arxiv.org/abs/2202.06707v1 )

ライセンス: Link先を確認
Ilya Kiselev, Chang Gao, Shih-Chii Liu(参考訳) トランジスタミスマッチとモデル複雑さのため、局所的自動ゲイン制御(AGC)回路をシリコンコクラン設計に含めることは困難である。 そこで本研究では,各チャネルの出力スパイク活性を測定し,シリコンスパイクコクランにチャネル固有のAGCを実装したシステムレベルアルゴリズムを提案する。 チャネルの帯域通過フィルタゲインを入力振幅に動的に適応させ、平均出力スパイクレートが所定の範囲内に留まるようにする。 AGCメカニズムは演算のカウントと追加のみを必要とするため、将来の設計ではハードウェアコストの低い実装が可能である。 入力信号が32dB以上の入力範囲で変化する分類タスクに対する局所的なAGCアルゴリズムの影響を評価する。 音声と雑音の分類タスクにおいて,コチェリースパイクの特徴を呈する2種類の分類器を試験した。 ロジスティック回帰分類器は、agcを有効にすると平均6%改善され、40.8%の精度が向上する。 ディープニューラルネットワーク分類器は、AGCの場合と同様の改善を示し、ロジスティック回帰分類器の91%よりも96%高い平均精度を達成する。

Including local automatic gain control (AGC) circuitry into a silicon cochlea design has been challenging because of transistor mismatch and model complexity. To address this, we present an alternative system-level algorithm that implements channel-specific AGC in a silicon spiking cochlea by measuring the output spike activity of individual channels. The bandpass filter gain of a channel is adapted dynamically to the input amplitude so that the average output spike rate stays within a defined range. Because this AGC mechanism only needs counting and adding operations, it can be implemented at low hardware cost in a future design. We evaluate the impact of the local AGC algorithm on a classification task where the input signal varies over 32 dB input range. Two classifier types receiving cochlea spike features were tested on a speech versus noise classification task. The logistic regression classifier achieves an average of 6% improvement and 40.8% relative improvement in accuracy when the AGC is enabled. The deep neural network classifier shows a similar improvement for the AGC case and achieves a higher mean accuracy of 96% compared to the best accuracy of 91% from the logistic regression classifier.
翻訳日:2022-02-15 15:55:20 公開日:2022-02-14
# (参考訳) 逐次実験設計のための因果推論

Counterfactual inference for sequential experimental design ( http://arxiv.org/abs/2202.06891v1 )

ライセンス: CC BY 4.0
Raaz Dwivedi, Susan Murphy, Devavrat Shah(参考訳) 逐次的に適応するポリシーに基づいて、$\mathbf{N}$単位のコレクションが$\mathbf{T}$時間周期の一連の介入を行うシーケンシャルな設計実験において、逆実数推論の問題を考察する。 我々のゴールは、反ファクト的推論、すなわち、代替政策が使われた場合何が起こったのかを推定することであり、これは本質的には単位と時間の間の結果の不均一性のために困難である。 この課題に取り組むために,外因性単位と時間レベルの潜在要因によって潜在的な結果が決定される適切な潜在因子モデルを提案する。 適切な条件下では、最も近い近傍の単純な変種を用いて、欠落した(潜在的)結果を推定できることを示す。 まず、双線形潜在因子モデルと任意の適応サンプリングポリシーを仮定し、任意の時点におけるユニットの欠落結果を推定するための分布フリーな非漸近的保証を確立する。 第二に、一般の非パラメトリック潜在因子モデルに対して、時給$\mathbf{T}$における任意の単位の欠測結果の見積もりは、適切な正則性条件の下で、中心極限定理を$\mathbf{T} \to \infty$として満足する。 最後に、この中心極限定理を確立するために、時給$\mathbf{T}$における任意の単位の欠落結果の見積もりに対して、漸近的でない平均二乗誤差を定めます。 本研究は, 適応的に収集されたデータを用いた推論に関する最近の文献を, 単位をまたいでプールするポリシーを許容することにより拡張し, 先行観測データに基づいて, エントリが任意に依存した方法で順次明らかにされる場合に, 行列補完文献を補完する。

We consider the problem of counterfactual inference in sequentially designed experiments wherein a collection of $\mathbf{N}$ units each undergo a sequence of interventions for $\mathbf{T}$ time periods, based on policies that sequentially adapt over time. Our goal is counterfactual inference, i.e., estimate what would have happened if alternate policies were used, a problem that is inherently challenging due to the heterogeneity in the outcomes across units and time. To tackle this task, we introduce a suitable latent factor model where the potential outcomes are determined by exogenous unit and time level latent factors. Under suitable conditions, we show that it is possible to estimate the missing (potential) outcomes using a simple variant of nearest neighbors. First, assuming a bilinear latent factor model and allowing for an arbitrary adaptive sampling policy, we establish a distribution-free non-asymptotic guarantee for estimating the missing outcome of any unit at any time; under suitable regularity condition, this guarantee implies that our estimator is consistent. Second, for a generic non-parametric latent factor model, we establish that the estimate for the missing outcome of any unit at time $\mathbf{T}$ satisfies a central limit theorem as $\mathbf{T} \to \infty$, under suitable regularity conditions. Finally, en route to establishing this central limit theorem, we establish a non-asymptotic mean-squared-error bound for the estimate of the missing outcome of any unit at time $\mathbf{T}$. Our work extends the recently growing literature on inference with adaptively collected data by allowing for policies that pool across units, and also compliments the matrix completion literature when the entries are revealed sequentially in an arbitrarily dependent manner based on prior observed data.
翻訳日:2022-02-15 15:50:00 公開日:2022-02-14
# 動的時間ワープを用いた選択推論による時系列類似性の正確な統計的推測

Exact Statistical Inference for Time Series Similarity using Dynamic Time Warping by Selective Inference ( http://arxiv.org/abs/2202.06593v1 )

ライセンス: Link先を確認
Vo Nguyen Le Duy, Ichiro Takeuchi(参考訳) 本稿では,dtw(dynamic time warping)アルゴリズムから得られた距離に関する統計的仮説テストを考慮して,不確定な環境下での2つの時系列間の類似度・距離に関する統計的推測について検討する。 dtw距離のサンプリング分布は、複雑なアルゴリズムの解に基づいて得られるため、あまりにも複雑すぎて導出できない。 この困難を回避するため,DTW距離の正確な(漸近的でない)推論法を導出する条件付きサンプリング分布を推論に適用することを提案する。 また,条件付きサンプリング分布を計算するための新しい計算手法を開発した。 我々の知る限り、これはDTW距離の統計的意義を定量化するために有効な$p$-valueを提供する最初の方法であり、これは高い意思決定に役立つ。 提案手法の有効性を,合成データと実世界のデータの両方で評価する。

In this paper, we study statistical inference on the similarity/distance between two time-series under uncertain environment by considering a statistical hypothesis test on the distance obtained from Dynamic Time Warping (DTW) algorithm. The sampling distribution of the DTW distance is too complicated to derive because it is obtained based on the solution of a complicated algorithm. To circumvent this difficulty, we propose to employ a conditional sampling distribution for the inference, which enables us to derive an exact (non-asymptotic) inference method on the DTW distance. Besides, we also develop a novel computational method to compute the conditional sampling distribution. To our knowledge, this is the first method that can provide valid $p$-value to quantify the statistical significance of the DTW distance, which is helpful for high-stake decision making. We evaluate the performance of the proposed inference method on both synthetic and real-world datasets.
翻訳日:2022-02-15 15:48:09 公開日:2022-02-14
# 不足データを用いたマルチタスク学習のためのトレースノルム正規化

Trace norm regularization for multi-task learning with scarce data ( http://arxiv.org/abs/2202.06742v1 )

ライセンス: Link先を確認
Etienne Boursier and Mikhail Konobeev and Nicolas Flammarion(参考訳) マルチタスク学習は、サンプルが少ないにもかかわらず、複数のタスク間の構造的類似性を活用して学習する。 データ収集タスクに適用したニューラルネットワークの最近の成功に動機づけられて,線形低次元共有表現モデルを提案する。 広範な文献にもかかわらず、既存の理論的結果は弱い推定率を保証するか、タスクごとに大量のサンプルを必要とする。 この研究は、タスク当たりのサンプル数が小さい場合にトレースノルム正規化推定器にバインドされた最初の推定誤差を提供する。 データスカースタスクの学習におけるトレースノルム正規化の利点はメタラーニングにまで拡張され、人工データセット上で経験的に確認される。

Multi-task learning leverages structural similarities between multiple tasks to learn despite very few samples. Motivated by the recent success of neural networks applied to data-scarce tasks, we consider a linear low-dimensional shared representation model. Despite an extensive literature, existing theoretical results either guarantee weak estimation rates or require a large number of samples per task. This work provides the first estimation error bound for the trace norm regularized estimator when the number of samples per task is small. The advantages of trace norm regularization for learning data-scarce tasks extend to meta-learning and are confirmed empirically on synthetic datasets.
翻訳日:2022-02-15 15:47:54 公開日:2022-02-14
# active surrogate estimators: ラベル効率モデル評価のためのアクティブラーニングアプローチ

Active Surrogate Estimators: An Active Learning Approach to Label-Efficient Model Evaluation ( http://arxiv.org/abs/2202.06881v1 )

ライセンス: Link先を確認
Jannik Kossen, Sebastian Farquhar, Yarin Gal, Tom Rainforth(参考訳) 本稿では,新しいラベル効率モデル評価法である active surrogate estimators (ases) を提案する。 ラベルが高価である場合、モデルパフォーマンスの評価は困難で重要な問題である。 ASEはサロゲートに基づく推定手法を用いてこのアクティブなテスト問題に対処するが、以前の手法ではモンテカルロの推定に重点を置いている。 ASEは,その基盤となるサロゲートを積極的に学習し,この学習を最終推定タスクに合わせる新しい獲得戦略であるXWINGを提案する。 ASEは、ディープニューラルネットワークのモデル評価問題に適用した場合、現在の最先端技術よりも高いラベル効率を提供する。 さらに,ASEの誤りを理論的に解析する。

We propose Active Surrogate Estimators (ASEs), a new method for label-efficient model evaluation. Evaluating model performance is a challenging and important problem when labels are expensive. ASEs address this active testing problem using a surrogate-based estimation approach, whereas previous methods have focused on Monte Carlo estimates. ASEs actively learn the underlying surrogate, and we propose a novel acquisition strategy, XWING, that tailors this learning to the final estimation task. We find that ASEs offer greater label-efficiency than the current state-of-the-art when applied to challenging model evaluation problems for deep neural networks. We further theoretically analyze ASEs' errors.
翻訳日:2022-02-15 15:47:44 公開日:2022-02-14
# 自己満足で学ぶ:ハードサンプル生成による対照的な視覚表現学習

Learn by Challenging Yourself: Contrastive Visual Representation Learning with Hard Sample Generation ( http://arxiv.org/abs/2202.06464v1 )

ライセンス: Link先を確認
Yawen Wu, Zhepeng Wang, Dewen Zeng, Yiyu Shi, Jingtong Hu(参考訳) 自己教師付き学習アプローチであるコントラスト学習(CL)は、ラベルのないデータから視覚表現を効果的に学習することができる。 しかし、CLは優れた性能を得るために大量の多様なデータを学ぶ必要があり、CLの性能は大幅に低下する。 この問題に対処するために,有用なサンプルと共同学習を生成することにより,CLトレーニングのデータ効率を向上させるための2つのフレームワークを提案する。 最初のアプローチは、メインモデルのためのハードサンプルを生成する。 生成器はメインモデルと共同で学習し、メインモデルのトレーニング状態に基づいてハードサンプルを動的にカスタマイズする。 メインモデルの知識が徐々に増大するにつれ、生成されたサンプルは、メインモデルにより良い表現を学ぶよう常に促すのも難しくなります。 さらに、類似しているが異なるサンプルを正のペアとして生成するために、2つのデータジェネレータが提案されている。 共同学習において、正対の硬さは、その類似性を減少させることで徐々に増大する。 このようにして、主モデルは、類似の異なるサンプルの表現をまとめることで、ハードポジティをクラスタリングすることを学び、類似のサンプルの表現はよくクラスタ化され、より良い表現が学べる。 総合的な実験により、複数のデータセットの最先端技術よりも提案手法の精度とデータ効率が優れていることが示された。 例えば、imagenet-100とcifar-10では約5%精度が向上し、線形分類では6%以上精度が向上した。 さらに、線形分類のための最大2倍のデータ効率と、転送学習のための最大5倍のデータ効率を達成する。

Contrastive learning (CL), a self-supervised learning approach, can effectively learn visual representations from unlabeled data. However, CL requires learning on vast quantities of diverse data to achieve good performance, without which the performance of CL will greatly degrade. To tackle this problem, we propose a framework with two approaches to improve the data efficiency of CL training by generating beneficial samples and joint learning. The first approach generates hard samples for the main model. The generator is jointly learned with the main model to dynamically customize hard samples based on the training state of the main model. With the progressively growing knowledge of the main model, the generated samples also become harder to constantly encourage the main model to learn better representations. Besides, a pair of data generators are proposed to generate similar but distinct samples as positive pairs. In joint learning, the hardness of a positive pair is progressively increased by decreasing their similarity. In this way, the main model learns to cluster hard positives by pulling the representations of similar yet distinct samples together, by which the representations of similar samples are well-clustered and better representations can be learned. Comprehensive experiments show superior accuracy and data efficiency of the proposed methods over the state-of-the-art on multiple datasets. For example, about 5% accuracy improvement on ImageNet-100 and CIFAR-10, and more than 6% accuracy improvement on CIFAR-100 are achieved for linear classification. Besides, up to 2x data efficiency for linear classification and up to 5x data efficiency for transfer learning are achieved.
翻訳日:2022-02-15 15:44:24 公開日:2022-02-14
# ADeADA: セマンティックセグメンテーションのための適応密度対応アクティブドメイン適応

ADeADA: Adaptive Density-aware Active Domain Adaptationfor Semantic Segmentation ( http://arxiv.org/abs/2202.06484v1 )

ライセンス: Link先を確認
Tsung-Han Wu, Yi-Syuan Liou, Shao-Ji Yuan, Hsin-Ying Lee, Tung-I Chen, Winston H. Hsu(参考訳) ドメイン適応の分野では、モデルパフォーマンスとターゲットドメインアノテーションの数の間にトレードオフが存在する。 アクティブラーニング(Active Learning)は、情報付きデータの少ないモデルパフォーマンスを最大化することで、このようなシナリオに役立ちます。 本稿では,セマンティックセグメンテーションのための一般的なアクティブドメイン適応フレームワークであるADeADAについて述べる。 最小限のクエリ済みラベルで対象ドメインにモデルを適応させるため,既存のソースドメインのラベル付きデータと相補的に,ターゲットドメインの確率密度が高いがソースドメインの確率密度が低いサンプルのラベルを取得することを提案する。 ラベル効率をさらに高めるために,異なるカテゴリ間のラベリング予算と,密度認識手法と不確実性に基づく手法を動的にバランスさせる適応予算配分ポリシーを設計する。 gta5 -> cityscapes と synthia -> cityscapes の2つのベンチマークにおいて,本手法が既存のアクティブラーニングおよびドメイン適応ベースラインを上回ることを示す。 対象とするドメインアノテーションが5%未満の場合,本手法は全監視対象と同等の結果となる。

In the field of domain adaptation, a trade-off exists between the model performance and the number of target domain annotations. Active learning, maximizing model performance with few informative labeled data, comes in handy for such a scenario. In this work, we present ADeADA, a general active domain adaptation framework for semantic segmentation. To adapt the model to the target domain with minimum queried labels, we propose acquiring labels of the samples with high probability density in the target domain yet with low probability density in the source domain, complementary to the existing source domain labeled data. To further facilitate the label efficiency, we design an adaptive budget allocation policy, which dynamically balances the labeling budgets among different categories as well as between density-aware and uncertainty-based methods. Extensive experiments show that our method outperforms existing active learning and domain adaptation baselines on two benchmarks, GTA5 -> Cityscapes and SYNTHIA -> Cityscapes. With less than 5% target domain annotations, our method reaches comparable results with that of full supervision.
翻訳日:2022-02-15 15:43:58 公開日:2022-02-14
# ソーシャルディスタンシング計測のための現実の公共交通画像における物体検出の複雑さについて

On the Complexity of Object Detection on Real-world Public Transportation Images for Social Distancing Measurement ( http://arxiv.org/abs/2202.06639v1 )

ライセンス: Link先を確認
Nik Khadijah Nik Aznan, John Brennan, Daniel Bell, Jennine Jonczyk and Paul Watson(参考訳) 公共空間におけるソーシャルディスタンシングは、新型コロナウイルスのパンデミックの影響軽減に欠かせない要素となっている。 近年の機械学習の進歩を活かして,公共空間における監視カメラの利用による物体検出によるソーシャルディスタンシングを実践する文献研究が数多く行われている。 しかし、現在まで公共交通機関における社会的距離の測定は行われていない。 公共交通機関では、低解像度の画像やカメラの位置など、乗客の部分的排除につながる特殊な課題があるため、正確な検出は困難である。 そこで本稿では,公共交通機関における正確な社会距離計測の課題について検討する。 ロンドン地下鉄とバスネットワークから撮影した実写映像を用いて,最先端の物体検出アルゴリズムのベンチマークを行った。 この研究は、現在の公共交通機関のカメラからの画像で社会的距離を測定することの複雑さを強調している。 さらに,期待される乗客行動のドメイン知識を活用し,様々な戦略を用いた検出精度の向上と,バニラ物体検出単独による改善を試みている。

Social distancing in public spaces has become an essential aspect in helping to reduce the impact of the COVID-19 pandemic. Exploiting recent advances in machine learning, there have been many studies in the literature implementing social distancing via object detection through the use of surveillance cameras in public spaces. However, to date, there has been no study of social distance measurement on public transport. The public transport setting has some unique challenges, including some low-resolution images and camera locations that can lead to the partial occlusion of passengers, which make it challenging to perform accurate detection. Thus, in this paper, we investigate the challenges of performing accurate social distance measurement on public transportation. We benchmark several state-of-the-art object detection algorithms using real-world footage taken from the London Underground and bus network. The work highlights the complexity of performing social distancing measurement on images from current public transportation onboard cameras. Further, exploiting domain knowledge of expected passenger behaviour, we attempt to improve the quality of the detections using various strategies and show improvement over using vanilla object detection alone.
翻訳日:2022-02-15 15:43:38 公開日:2022-02-14
# Wukong:中国の大規模クロスモーダルトレーニングデータセット1億件とファウンデーションフレームワーク

Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation Framework ( http://arxiv.org/abs/2202.06767v1 )

ライセンス: Link先を確認
Jiaxi Gu, Xiaojun Meng, Guansong Lu, Lu Hou, Minzhe Niu, Hang Xu, Xiaodan Liang, Wei Zhang, Xin Jiang, Chunjing Xu(参考訳) 本稿では、VLP(Vision-Language Pre-Training)研究とコミュニティ開発を容易にするために、異なるマルチモーダル事前学習手法をベンチマークするための大規模な中国のクロスモーダルデータセットを提案する。 clip,aligned,filipといった最近のデュアルストリームvlpモデルでは,さまざまなダウンストリームタスクのパフォーマンスと,オープンドメインタスクにおけるゼロショット能力が注目に値する。 しかし、彼らの成功は事前訓練されたデータセットのスケールに大きく依存している。 Flickr30k、CC12M、そして大規模なLAION-400Mのような小規模のヴィジュアル言語英語データセットは存在するが、現在のコミュニティは中国語の大規模なヴィジュアル・ランゲージ・ベンチマークを欠いているため、より広範な多言語アプリケーションの開発を妨げる。 一方で、一般公開されている中国の大規模クロスモーダルプリトレーニングデータセットは、リリースされているため、ダウンストリームタスクのサービスとして事前トレーニングされたモデルを使用するのが困難である。 本研究では、Webから1億の中国語画像テキストペアを含む、Wukongという大規模な中国語クロスモーダルデータセットをリリースする。 さらに、先進的な画像エンコーダ(ResNet/ViT/SwinT)と異なる事前学習方法(CLIP/FILIP/LiT)で事前訓練された大きなモデルのグループをリリースする。 広範な実験、さまざまな下流タスクの詳細なベンチマーク、エキサイティングな発見を提供しています。 実験によれば、武興は有望な中国の事前学習データセットと様々なクロスモーダル学習法のためのベンチマークとして機能し、ゼロショット画像分類や画像テキスト検索ベンチマークといった下流の様々なタスクで優れたパフォーマンスが得られる。 詳細はhttps://wukong-datas et.github.io/wukong- dataset/を参照してください。

This paper presents a large-scale Chinese cross-modal dataset for benchmarking different multi-modal pre-training methods to facilitate the Vision-Language Pre-training (VLP) research and community development. Recent dual-stream VLP models like CLIP, ALIGN and FILIP have shown remarkable performance on various downstream tasks as well as their remarkable zero-shot ability in the open domain tasks. However, their success heavily relies on the scale of pre-trained datasets. Though there have been both small-scale vision-language English datasets like Flickr30k, CC12M as well as large-scale LAION-400M, the current community lacks large-scale Vision-Language benchmarks in Chinese, hindering the development of broader multilingual applications. On the other hand, there is very rare publicly available large-scale Chinese cross-modal pre-training dataset that has been released, making it hard to use pre-trained models as services for downstream tasks. In this work, we release a Large-Scale Chinese Cross-modal dataset named Wukong, containing 100 million Chinese image-text pairs from the web. Furthermore, we release a group of big models pre-trained with advanced image encoders (ResNet/ViT/SwinT) and different pre-training methods (CLIP/FILIP/LiT). We provide extensive experiments, a deep benchmarking of different downstream tasks, and some exciting findings. Experiments show that Wukong can serve as a promising Chinese pre-training dataset and benchmark for different cross-modal learning methods, which gives superior performance on various downstream tasks such as zero-shot image classification and image-text retrieval benchmarks. More information can refer to https://wukong-datas et.github.io/wukong- dataset/.
翻訳日:2022-02-15 15:43:20 公開日:2022-02-14
# 識別的特徴を学習する汎用的自己監督型フレームワーク

A Generic Self-Supervised Framework of Learning Invariant Discriminative Features ( http://arxiv.org/abs/2202.06914v1 )

ライセンス: Link先を確認
Foivos Ntelemis, Yaochu Jin, Spencer A. Thomas(参考訳) 自己教師付き学習(SSL)は、人間のアノテーションを必要とせずに不変表現を生成する一般的な方法となっている。 それでも、所望の不変表現は、入力データ上の事前オンライン変換関数を利用して達成される。 結果として、各SSLフレームワークは特定のデータタイプ、例えばビジュアルデータのためにカスタマイズされ、他のデータセットタイプで使用される場合は、さらなる修正が必要になる。 一方、汎用的で広く適用可能なフレームワークであるオートエンコーダ(AE)は、主に次元の縮小に焦点を当てており、不変表現の学習には適していない。 本稿では,解の退化を防止する制約付き自己ラベル割り当てプロセスに基づく汎用SSLフレームワークを提案する。 具体的には、事前変換関数は、不変表現を暗示するための非教師なしの訓練プロセスによって導かれる自己変換機構に置き換えられる。 自己変換機構により、同一の入力データから拡張インスタンスのペアを生成することができる。 最後に,自己ラベル割り当てと自己変換機構を併用して,コントラスト学習に基づく学習目標を設計する。 自己変換プロセスが非常に一般的であるにもかかわらず、提案したトレーニング戦略は、AE構造に基づく最先端の表現学習方法の大部分を上回ります。 提案手法の性能を検証するために,視覚データ,音声データ,テキストデータ,質量分析データという4種類のデータについて実験を行い,4つの定量的指標を用いて比較した。 その結果,提案手法は頑健性を示し,データセット内のパターンの同定に成功した。

Self-supervised learning (SSL) has become a popular method for generating invariant representations without the need for human annotations. Nonetheless, the desired invariant representation is achieved by utilising prior online transformation functions on the input data. As a result, each SSL framework is customised for a particular data type, e.g., visual data, and further modifications are required if it is used for other dataset types. On the other hand, autoencoder (AE), which is a generic and widely applicable framework, mainly focuses on dimension reduction and is not suited for learning invariant representation. This paper proposes a generic SSL framework based on a constrained self-labelling assignment process that prevents degenerate solutions. Specifically, the prior transformation functions are replaced with a self-transformation mechanism, derived through an unsupervised training process of adversarial training, for imposing invariant representations. Via the self-transformation mechanism, pairs of augmented instances can be generated from the same input data. Finally, a training objective based on contrastive learning is designed by leveraging both the self-labelling assignment and the self-transformation mechanism. Despite the fact that the self-transformation process is very generic, the proposed training strategy outperforms a majority of state-of-the-art representation learning methods based on AE structures. To validate the performance of our method, we conduct experiments on four types of data, namely visual, audio, text, and mass spectrometry data, and compare them in terms of four quantitative metrics. Our comparison results indicate that the proposed method demonstrate robustness and successfully identify patterns within the datasets.
翻訳日:2022-02-15 15:42:49 公開日:2022-02-14
# 小型物体検出のためのスライシング支援ハイパー推論と微調整

Slicing Aided Hyper Inference and Fine-tuning for Small Object Detection ( http://arxiv.org/abs/2202.06934v1 )

ライセンス: Link先を確認
Fatih Cagatay Akyon, Sinan Onur Altinuc, Alptekin Temizel(参考訳) 現場から遠く離れた小さな物体や物体を検知することは、監視アプリケーションにおいて大きな課題である。 このような物体は、画像中の少数のピクセルで表現され、十分な詳細が欠如しているため、従来の検出器を用いた検出が困難である。 本稿では,スライス支援ハイパー推論(slicing aided hyper inference, sahi)と呼ばれるオープンソースのフレームワークを提案する。 提案手法は,任意の物体検出器上で,微調整をすることなく適用できるという意味では一般的である。 Visdrone と xView の空中物体検出データセットのオブジェクト検出ベースラインを用いた実験的評価により,提案手法は,FCOS , VFNet および TOOD 検出器でそれぞれ6.8%,5.1%,5.3% のオブジェクト検出APを増大させることができることが示された。 さらに、スライシング支援による微調整により検出精度がさらに向上し、合計12.7%、13.4%、14.5%APが同じ順序で増加する。 提案されたテクニックは Detectron2, MMDetection, YOLOv5 モデルと統合され, \href{https://github.com/o bss/sahi.git}{https://github.com/o bss/sahi.git} で公開されている。

Detection of small objects and objects far away in the scene is a major challenge in surveillance applications. Such objects are represented by small number of pixels in the image and lack sufficient details, making them difficult to detect using conventional detectors. In this work, an open-source framework called Slicing Aided Hyper Inference (SAHI) is proposed that provides a generic slicing aided inference and fine-tuning pipeline for small object detection. The proposed technique is generic in the sense that it can be applied on top of any available object detector without any fine-tuning. Experimental evaluations, using object detection baselines on the Visdrone and xView aerial object detection datasets show that the proposed inference method can increase object detection AP by 6.8%, 5.1% and 5.3% for FCOS, VFNet and TOOD detectors, respectively. Moreover, the detection accuracy can be further increased with a slicing aided fine-tuning, resulting in a cumulative increase of 12.7%, 13.4% and 14.5% AP in the same order. Proposed technique has been integrated with Detectron2, MMDetection and YOLOv5 models and it is publicly available at \href{https://github.com/o bss/sahi.git}{https://github.com/o bss/sahi.git}
翻訳日:2022-02-15 15:42:23 公開日:2022-02-14
# トレーニングデータの重複が言語モデルのプライバシーリスクを軽減する

Deduplicating Training Data Mitigates Privacy Risks in Language Models ( http://arxiv.org/abs/2202.06539v1 )

ライセンス: Link先を確認
Nikhil Kandpal, Eric Wallace, Colin Raffel(参考訳) 過去の研究によると、大きな言語モデルはプライバシー攻撃の影響を受けやすく、敵は訓練されたモデルからシーケンスを生成し、トレーニングセットからどのシーケンスが記憶されているかを検出する。 本研究では,これらの攻撃の成功は,一般的に使用される web 階層トレーニングセットの重複によるものであることを実証する。 まず,言語モデルがトレーニングシーケンスを再生成する速度は,トレーニングセット内のシーケンス数と超線形関係にあることを示す。 例えば、トレーニングデータに10回存在するシーケンスは、平均で1回しか存在しないシーケンスよりも1000倍近い頻度で生成される。 次に,既存の暗記シーケンス検出手法は,非重複学習シーケンスに対してほぼ精度が高いことを示す。 最後に、トレーニングデータの重複解消にメソッドを適用すると、この種のプライバシ攻撃に対して、言語モデルの方がはるかに安全であることが分かりました。 その結果、プライバシーに敏感なアプリケーションの重複解消と、既存のプライバシー攻撃の実用性の再評価に焦点が当てられた。

Past work has shown that large language models are susceptible to privacy attacks, where adversaries generate sequences from a trained model and detect which sequences are memorized from the training set. In this work, we show that the success of these attacks is largely due to duplication in commonly used web-scraped training sets. We first show that the rate at which language models regenerate training sequences is superlinearly related to a sequence's count in the training set. For instance, a sequence that is present 10 times in the training data is on average generated ~1000 times more often than a sequence that is present only once. We next show that existing methods for detecting memorized sequences have near-chance accuracy on non-duplicated training sequences. Finally, we find that after applying methods to deduplicate training data, language models are considerably more secure against these types of privacy attacks. Taken together, our results motivate an increased focus on deduplication in privacy-sensitive applications and a reevaluation of the practicality of existing privacy attacks.
翻訳日:2022-02-15 15:39:30 公開日:2022-02-14
# 対策におけるミニマックス平衡の同時輸送進化

Simultaneous Transport Evolution for Minimax Equilibria on Measures ( http://arxiv.org/abs/2202.06460v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Joan Bruna(参考訳) min-max最適化問題は、逆学習や生成モデリングなど、いくつかの重要な機械学習セットアップで発生する。 彼らの一般的な形式では、凸性/凸性仮定がなければ、基礎となる2つのプレイヤーゼロサムゲームの純粋平衡性は計算的に困難である [Daskalakis et al., 2021]。 この研究では、代わりに混合平衡を見つけることに焦点を合わせ、確率測度の空間における関連する持ち上げ問題を考える。 エントロピー正則化を加えることで、我々の主な結果は、エントロピーミラー降下とは対照的に、高次元における効率的な粒子の離散化を許容するダイナミクスであるワッサーシュタイン計量に対して、同時勾配の漸近線を用いて、大域的平衡に対する大域的収束を確立する。 この正の結果は、ワッサーシュタイン幾何学において双線型ではないが凸凹であるエントロピー正規化損失(entropy-regularized loss)を補うものであり、同時ダイナミクスは収束しないが時間スケール分離は成立しない。 これらの結果は、測度空間における双線型ゲームの良性幾何を示し、大域的な定性的収束を保証する粒子動力学を可能にする。

Min-max optimization problems arise in several key machine learning setups, including adversarial learning and generative modeling. In their general form, in absence of convexity/concavity assumptions, finding pure equilibria of the underlying two-player zero-sum game is computationally hard [Daskalakis et al., 2021]. In this work we focus instead in finding mixed equilibria, and consider the associated lifted problem in the space of probability measures. By adding entropic regularization, our main result establishes global convergence towards the global equilibrium by using simultaneous gradient ascent-descent with respect to the Wasserstein metric -- a dynamics that admits efficient particle discretization in high-dimensions, as opposed to entropic mirror descent. We complement this positive result with a related entropy-regularized loss which is not bilinear but still convex-concave in the Wasserstein geometry, and for which simultaneous dynamics do not converge yet timescale separation does. Taken together, these results showcase the benign geometry of bilinear games in the space of measures, enabling particle dynamics with global qualitative convergence guarantees.
翻訳日:2022-02-15 15:36:27 公開日:2022-02-14
# 2層畳み込みニューラルネットワークの良性オーバーフィッティング

Benign Overfitting in Two-layer Convolutional Neural Networks ( http://arxiv.org/abs/2202.06526v1 )

ライセンス: Link先を確認
Yuan Cao and Zixiang Chen and Mikhail Belkin and Quanquan Gu(参考訳) 現代のニューラルネットワークは、しばしば非常に表現力があり、優れたテスト性能を保ちながら、トレーニングデータの過度な適合を訓練することができる。 この現象は「良性過剰」と呼ばれる。 近年,理論的な観点から「良質な過剰フィット」を研究する一連の研究がなされている。 しかし、それらは線形モデルやカーネル/ランダムな特徴モデルに限定されており、ニューラルネットワークでいつ、どのように過度に適合するかに関する理論的理解はいまだにない。 本稿では,2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象について検討する。 信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。 一方、この条件が保持されない場合、過剰フィッティングは有害となり、得られたcnnは一定レベルのテスト損失しか達成できない。 これらは、信号-雑音比によって駆動される良性過剰適合と有害過剰適合の急激な相転移を示す。 私たちの知る限りでは、畳み込みニューラルネットワークのトレーニングにおいて、良心過剰が生じる条件を正確に特徴づける最初の研究である。

Modern neural networks often have great expressive power and can be trained to overfit the training data, while still achieving a good test performance. This phenomenon is referred to as "benign overfitting". Recently, there emerges a line of works studying "benign overfitting" from the theoretical perspective. However, they are limited to linear models or kernel/random feature models, and there is still a lack of theoretical understanding about when and how benign overfitting occurs in neural networks. In this paper, we study the benign overfitting phenomenon in training a two-layer convolutional neural network (CNN). We show that when the signal-to-noise ratio satisfies a certain condition, a two-layer CNN trained by gradient descent can achieve arbitrarily small training and test loss. On the other hand, when this condition does not hold, overfitting becomes harmful and the obtained CNN can only achieve constant level test loss. These together demonstrate a sharp phase transition between benign overfitting and harmful overfitting, driven by the signal-to-noise ratio. To the best of our knowledge, this is the first work that precisely characterizes the conditions under which benign overfitting can occur in training convolutional neural networks.
翻訳日:2022-02-15 15:36:04 公開日:2022-02-14
# 確率微分方程式の定常分布を最適化するための連続時間確率勾配降下

Continuous-time stochastic gradient descent for optimizing over the stationary distribution of stochastic differential equations ( http://arxiv.org/abs/2202.06637v1 )

ライセンス: Link先を確認
Ziheng Wang and Justin Sirignano(参考訳) 確率微分方程式(sde)モデルの定常分布を最適化するための連続時間確率勾配降下法を開発した。 このアルゴリズムは定常分布の勾配の推定値を用いてSDEモデルのパラメータを継続的に更新する。 勾配推定は同時に更新され、漸近的に最も急降下する方向に収束する。 線形SDEモデルに対するオンラインアルゴリズムの収束性を厳密に証明し、非線形例に対する数値結果を示す。 この証明は、最も急降下する方向に関するパラメータ進化の変動を分析する必要がある。 ゆらぎに関する境界は、アルゴリズムのオンラインの性質のため取得が困難である(例えば、パラメータの変化に伴って定常分布が継続的に変化する)。 我々は、新しいポアソン偏微分方程式の解に対する境界を証明し、アルゴリズムのパラメータのゆらぎを分析するのに使用される。

We develop a new continuous-time stochastic gradient descent method for optimizing over the stationary distribution of stochastic differential equation (SDE) models. The algorithm continuously updates the SDE model's parameters using an estimate for the gradient of the stationary distribution. The gradient estimate is simultaneously updated, asymptotically converging to the direction of steepest descent. We rigorously prove convergence of our online algorithm for linear SDE models and present numerical results for nonlinear examples. The proof requires analysis of the fluctuations of the parameter evolution around the direction of steepest descent. Bounds on the fluctuations are challenging to obtain due to the online nature of the algorithm (e.g., the stationary distribution will continuously change as the parameters change). We prove bounds for the solutions of a new class of Poisson partial differential equations, which are then used to analyze the parameter fluctuations in the algorithm.
翻訳日:2022-02-15 15:35:04 公開日:2022-02-14
# 確率線形最適化は一般データ上の二次有界損失に収まらない

Stochastic linear optimization never overfits with quadratically-bounde d losses on general data ( http://arxiv.org/abs/2202.06915v1 )

ライセンス: Link先を確認
Matus Telgarsky(参考訳) この研究は、一般データ上での線形最適化手法の多様なコレクションが、明示的な制約や正規化を欠いているにもかかわらず、過度に適合しないことを示している:高い確率で、それらの軌道は、人口分布に対する最適制約された解の曲線の近くに留まる。 この分析は,多数の設定を処理可能な初歩的かつ柔軟な証明スキームによって実現されている。 第一に、データは一般的なものである: 他の暗黙のバイアスとは違って、大きなマージンやその他の構造条件を満たす必要がなく、さらに、マルコフ連鎖を逐次、バッチとして、そして最後に重い尾を持つことができる。 第二に、ミラー降下の主解析は、強化学習による時間差固定点法にも適用され、これらの設定における事前の高確率解析は、有界な繰り返し、有界な更新、有界なノイズ、等式を必要とする。 第3に、損失は一般的であり、例えば、ロジスティックと二乗損失は、他の暗黙のバイアスとは異なり、同時に処理できる。 これらすべての設定において、高い確率で低い集団誤差が保証されるだけでなく、たとえ大域的な問題構造や特に大域的な最適条件が高複雑性であっても、低複雑さに近い最適解が存在する限り、低いサンプル複雑性が保証される。

This work shows that a diverse collection of linear optimization methods, when run on general data, fail to overfit, despite lacking any explicit constraints or regularization: with high probability, their trajectories stay near the curve of optimal constrained solutions over the population distribution. This analysis is powered by an elementary but flexible proof scheme which can handle many settings, summarized as follows. Firstly, the data can be general: unlike other implicit bias works, it need not satisfy large margin or other structural conditions, and moreover can arrive sequentially IID, sequentially following a Markov chain, as a batch, and lastly it can have heavy tails. Secondly, while the main analysis is for mirror descent, rates are also provided for the Temporal-Difference fixed-point method from reinforcement learning; all prior high probability analyses in these settings required bounded iterates, bounded updates, bounded noise, or some equivalent. Thirdly, the losses are general, and for instance the logistic and squared losses can be handled simultaneously, unlike other implicit bias works. In all of these settings, not only is low population error guaranteed with high probability, but moreover low sample complexity is guaranteed so long as there exists any low-complexity near-optimal solution, even if the global problem structure and in particular global optima have high complexity.
翻訳日:2022-02-15 15:34:51 公開日:2022-02-14
# ガウス混合モデルのテンソルモーメント:理論と応用

Tensor Moments of Gaussian Mixture Models: Theory and Applications ( http://arxiv.org/abs/2202.06930v1 )

ライセンス: Link先を確認
Jo\~ao M. Pereira and Joe Kileel and Tamara G. Kolda(参考訳) ガウス混合モデル(GMM)は統計学とデータ科学の基本的なツールである。 多変量ガウスとGMMのモーメントを研究する。 $n$-次元確率変数の$d$-次元モーメントは、対称な$d$-ウェイテンソルで、$n^d$である。 本研究では,gmms のモーメントテンソルを持つ暗黙計算の理論と数値解法を開発し,一般共分散行列に対してそれぞれ $\mathcal{o}(n^2)$ と $\mathcal{o}(n^3)$ を,対角行列に対して $\mathcal{o}(n)$ と $\mathcal{o}(n)$ をそれぞれ削減した。 対称テンソルと等質多項式の対応とベル多項式を含む組合せ恒等性に依拠して、対称テンソル積の観点でモーメントの簡潔な解析式を導出する。 この理論の第一の応用は、モーメントマッチング最適化問題として定式化されたとき、一連の観測からGMMパラメータを推定することである。 既知の共分散行列が存在する場合、データ観測をデバイアスすることが可能であり、未知の手段を推定する問題は対称cpテンソル分解に還元される。 数値結果は,我々のアプローチの数値効率を検証し,示す。 この研究は、GMMのパラメータ推定における期待最大化手法と比較して、モーメントの手法の競争性への扉を開く可能性がある。

Gaussian mixture models (GMM) are fundamental tools in statistical and data sciences. We study the moments of multivariate Gaussians and GMMs. The $d$-th moment of an $n$-dimensional random variable is a symmetric $d$-way tensor of size $n^d$, so working with moments naively is assumed to be prohibitively expensive for $d>2$ and larger values of $n$. In this work, we develop theory and numerical methods for implicit computations with moment tensors of GMMs, reducing the computational and storage costs to $\mathcal{O}(n^2)$ and $\mathcal{O}(n^3)$, respectively, for general covariance matrices, and to $\mathcal{O}(n)$ and $\mathcal{O}(n)$, respectively, for diagonal ones. We derive concise analytic expressions for the moments in terms of symmetrized tensor products, relying on the correspondence between symmetric tensors and homogeneous polynomials, and combinatorial identities involving Bell polynomials. The primary application of this theory is to estimating GMM parameters from a set of observations, when formulated as a moment-matching optimization problem. If there is a known and common covariance matrix, we also show it is possible to debias the data observations, in which case the problem of estimating the unknown means reduces to symmetric CP tensor decomposition. Numerical results validate and illustrate the numerical efficiency of our approaches. This work potentially opens the door to the competitiveness of the method of moments as compared to expectation maximization methods for parameter estimation of GMMs.
翻訳日:2022-02-15 15:34:24 公開日:2022-02-14
# (参考訳) データ表現評価のためのデラウネー成分分析 [全文訳有]

Delaunay Component Analysis for Evaluation of Data Representations ( http://arxiv.org/abs/2202.06866v1 )

ライセンス: CC BY 4.0
Petra Poklukar, Vladislav Polianskii, Anastasia Varava, Florian Pokorny, Danica Kragic(参考訳) 高度な表現学習技術は信頼性と一般的な評価方法を必要とする。 近年,学習データ表現から近似した多様体の幾何学的および位相的解析の共通概念に基づくアルゴリズムが提案されている。 本稿では,Dlaunay Component Analysis (DCA) について紹介する。Dlaunay graph と呼ばれるより適切な近傍グラフを用いてデータ多様体を近似する評価アルゴリズムである。 これにより、形状や密度の異なるクラスタのような幾何学的配置や、既存の方法がしばしば失敗する異常値に対しても、信頼性の高い多様体推定が可能になる。 さらに,Delaunayグラフの性質を活用し,個々の新しいデータ表現の品質を評価するためのフレームワークを導入する。 提案手法は, 比較対象, 教師付き, 生成モデルを用いて学習したニューラルネットワークから得られる表現について実験的に検証し, 拡張単一点評価フレームワークの様々な応用例を示す。

Advanced representation learning techniques require reliable and general evaluation methods. Recently, several algorithms based on the common idea of geometric and topological analysis of a manifold approximated from the learned data representations have been proposed. In this work, we introduce Delaunay Component Analysis (DCA) - an evaluation algorithm which approximates the data manifold using a more suitable neighbourhood graph called Delaunay graph. This provides a reliable manifold estimation even for challenging geometric arrangements of representations such as clusters with varying shape and density as well as outliers, which is where existing methods often fail. Furthermore, we exploit the nature of Delaunay graphs and introduce a framework for assessing the quality of individual novel data representations. We experimentally validate the proposed DCA method on representations obtained from neural networks trained with contrastive objective, supervised and generative models, and demonstrate various use cases of our extended single point evaluation framework.
翻訳日:2022-02-15 15:30:53 公開日:2022-02-14
# 直観物理学モデリングのための機械学習手法の検討

A Survey on Machine Learning Approaches for Modelling Intuitive Physics ( http://arxiv.org/abs/2202.06481v1 )

ライセンス: Link先を確認
Jiafei Duan, Arijit Dasgupta, Jason Fischer, Cheston Tan(参考訳) 認知科学の研究は、ノイズの多い知覚入力から物体を物理的に推論する人間の認知能力に関する広範な証拠を提供している。 このような認知能力は直観物理学として知られている。 ディープラーニングの進歩に伴い、流体を前進させ、より安全なAIシステムを構築するために、特定のシーンから物理的推論を行うことのできるインテリジェントシステムの構築への関心が高まっている。 その結果、機械認知のための直感的物理学をモデル化する現代の多くのアプローチは、認知科学の文献から着想を得ている。 機械認知のための物理的推論の幅広い研究にもかかわらず、これらの深層学習アプローチを組織化しグループ化するレビューは少ない。 特に直感的な物理学と人工知能の交差点では、さまざまな考え方やアプローチを理解する必要があります。 そこで本研究では,直感的な物理に着想を得た深層学習手法における最近の進歩と手法を総合的に調査する。 この調査は、既存のディープラーニングアプローチを3つの物理的推論の側面に分類し、それらを3つの一般的な技術的アプローチに分類し、この分野の6つのカテゴリ的タスクを提案する。 最後に,現状の課題を浮き彫りにし,今後の方向性について述べる。

Research in cognitive science has provided extensive evidence on human cognitive ability in performing physical reasoning of objects from noisy perceptual inputs. Such a cognitive ability is commonly known as intuitive physics. With the advancements in deep learning, there is an increasing interest in building intelligent systems that are capable of performing physical reasoning from a given scene for the purpose of advancing fluid and building safer AI systems. As a result, many of the contemporary approaches in modelling intuitive physics for machine cognition have been inspired by literature from cognitive science. Despite the wide range of work in physical reasoning for machine cognition, there is a scarcity of reviews that organize and group these deep learning approaches. Especially at the intersection of intuitive physics and artificial intelligence, there is a need to make sense of the diverse range of ideas and approaches. Therefore, this paper presents a comprehensive survey of recent advances and techniques in intuitive physics-inspired deep learning approaches for physical reasoning. The survey will first categorize existing deep learning approaches into three facets of physical reasoning before organizing them into three general technical approaches and propose six categorical tasks of the field. Finally, we highlight the challenges of the current field and present some future research directions.
翻訳日:2022-02-15 14:51:08 公開日:2022-02-14
# 離散マルコフ文脈進化の存在下での強化学習

Reinforcement Learning in Presence of Discrete Markovian Context Evolution ( http://arxiv.org/abs/2202.06557v1 )

ライセンス: Link先を確認
Hang Ren, Aivar Sootla, Taher Jafferjee, Junxiao Shen, Jun Wang and Haitham Bou-Ammar(参考訳) 我々は,コンテキスト依存強化学習(rl)の設定について考察する。 a) 直接観測可能な文脈の未知の有限数 b) エピソード中に発生する突然の(不連続な)文脈変化 c) マルコフ的文脈進化。 我々は、この挑戦的なケースがアプリケーションでしばしば満たされ、ベイズ的アプローチと変分推論を用いてそれに取り組むことを論じる。 私たちは、モデル学習に先立って、スティッキーな階層型ディリクレプロセス(hdp)を採用しています。 次に,無監督の方法でスプリアスなコンテキストを特定し除去する,コンテキスト蒸留手順を導出する。 これら2つのコンポーネントの組み合わせは、コンテキストの濃度仮定を扱うデータからコンテキストの数を推測することを可能にする。 次に、既成RLアルゴリズムを用いて効率的なポリシー学習を可能にする最適ポリシーの表現を見出す。 最後に、我々のアプローチは、他のフレームワークの最先端の手法が失敗した場合に成功し、そのような失敗の理由を詳しく説明している。

We consider a context-dependent Reinforcement Learning (RL) setting, which is characterized by: a) an unknown finite number of not directly observable contexts; b) abrupt (discontinuous) context changes occurring during an episode; and c) Markovian context evolution. We argue that this challenging case is often met in applications and we tackle it using a Bayesian approach and variational inference. We adapt a sticky Hierarchical Dirichlet Process (HDP) prior for model learning, which is arguably best-suited for Markov process modeling. We then derive a context distillation procedure, which identifies and removes spurious contexts in an unsupervised fashion. We argue that the combination of these two components allows to infer the number of contexts from data thus dealing with the context cardinality assumption. We then find the representation of the optimal policy enabling efficient policy learning using off-the-shelf RL algorithms. Finally, we demonstrate empirically (using gym environments cart-pole swing-up, drone, intersection) that our approach succeeds where state-of-the-art methods of other frameworks fail and elaborate on the reasons for such failures.
翻訳日:2022-02-15 14:50:49 公開日:2022-02-14
# SAUTE RL: 状態拡張によるほぼ確実に安全な強化学習

SAUTE RL: Almost Surely Safe Reinforcement Learning Using State Augmentation ( http://arxiv.org/abs/2202.06558v1 )

ライセンス: Link先を確認
Aivar Sootla, Alexander I. Cowen-Rivers, Taher Jafferjee, Ziyan Wang, David Mguni, Jun Wang, Haitham Bou-Ammar(参考訳) 安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。 例えば、飛行機の着陸と離陸は確率1で理想的に起こる。 そこで我々は,安全性強化(saute)マルコフ決定プロセス(mdps)を導入することでこの問題に対処し,安全性制約をステートスペースに拡張し,目標を再構築することで排除する。 我々は,saute mdpがベルマン方程式を満たし,制約をほぼ確実に満たした安全なrlの解決に近づいたことを示す。 Saute MDP は Safe RL 問題を異なる視点から見ることができ、新しい機能を実現することができると我々は主張する。 例えば、我々のアプローチはプラグ・アンド・プレイの性質があり、すなわち任意のRLアルゴリズムを「サンプリング」することができる。 さらに、状態拡張により、安全制約をまたいだポリシーの一般化が可能になる。 最後に、制約満足度が高い場合に、Saute RLアルゴリズムが最先端のアルゴリズムより優れていることを示す。

Satisfying safety constraints almost surely (or with probability one) can be critical for deployment of Reinforcement Learning (RL) in real-life applications. For example, plane landing and take-off should ideally occur with probability one. We address the problem by introducing Safety Augmented (Saute) Markov Decision Processes (MDPs), where the safety constraints are eliminated by augmenting them into the state-space and reshaping the objective. We show that Saute MDP satisfies the Bellman equation and moves us closer to solving Safe RL with constraints satisfied almost surely. We argue that Saute MDP allows to view Safe RL problem from a different perspective enabling new features. For instance, our approach has a plug-and-play nature, i.e., any RL algorithm can be "sauteed". Additionally, state augmentation allows for policy generalization across safety constraints. We finally show that Saute RL algorithms can outperform their state-of-the-art counterparts when constraint satisfaction is of high importance.
翻訳日:2022-02-15 14:50:32 公開日:2022-02-14
# 不正検出のための空間グラフニューラルネットワークの集約・高速化訓練手法の改善

Improved Aggregating and Accelerating Training Methods for Spatial Graph Neural Networks on Fraud Detection ( http://arxiv.org/abs/2202.06580v1 )

ライセンス: Link先を確認
Yufan Zeng, Jiashan Tang(参考訳) グラフニューラルネットワーク(GNN)は多くの分野に広く応用されている。 階層構造と残差接続を組み合わせた最近の研究は、自己修正・漸進学習機構を形成するResidual Layered CARE-GNN(RLC-GNN)と呼ばれるディープモデルにCARE-GNN(CAmouflage- Resistant GNN)を拡張し、不正検出タスクにおいて大幅な性能改善を実現するための改良されたディープアーキテクチャを提案する。 しかし, RLC-GNNの3つの課題は, 限界に達する隣り合う情報の利用, 深層モデル固有の問題である訓練困難, ノードの特徴や外部パターンに関する包括的な考察の欠如である。 本研究では,これら3つの問題をそれぞれ解くための3つのアプローチを提案する。 まず,コサイン距離による類似度測定を行い,局所的特徴と外的パターンを考慮に入れることを提案する。 そして、類似度測定モジュールと隣接度正規化のアイデアをノードワイドおよびバッチワイド正規化と組み合わせて、グラフの高密度化による過度のノイズの影響を軽減しつつ、トレーニングの難しさを克服する部分近傍正規化手法を提案する。 最後に,情報制限を解決するために中間情報補完を行う。 YelpとAmazonのデータセットで実験が行われる。 その結果,提案手法は3つの問題を効果的に解くことができた。 この3つの手法を適用した結果,yelpデータセット上でそれぞれ4.81%,6.62%,6.81%の改善が得られた。 そして、Amazonデータセットでそれぞれ1.65%と0.29%の改善が得られた。

Graph neural networks (GNNs) have been widely applied to numerous fields. A recent work which combines layered structure and residual connection proposes an improved deep architecture to extend CAmouflage-REsistant GNN (CARE-GNN) to deep models named as Residual Layered CARE-GNN (RLC-GNN), which forms self-correcting and incremental learning mechanism, and achieves significant performance improvements on fraud detection task. However, we spot three issues of RLC-GNN, which are the usage of neighboring information reaching limitation, the training difficulty which is inherent problem to deep models and lack of comprehensive consideration about node features and external patterns. In this work, we propose three approaches to solve those three problems respectively. First, we suggest conducting similarity measure via cosine distance to take both local features and external patterns into consideration. Then, we combine the similarity measure module and the idea of adjacency-wise normalization with node-wise and batch-wise normalization and then propound partial neighborhood normalization methods to overcome the training difficulty while mitigating the impact of too much noise caused by high-density of graph. Finally, we put forward intermediate information supplement to solve the information limitation. Experiments are conducted on Yelp and Amazon datasets. And the results show that our proposed methods effectively solve the three problems. After applying the three methods, we achieve 4.81%, 6.62% and 6.81% improvements in the metrics of recall, AUC and Macro-F1 respectively on the Yelp dataset. And we obtain 1.65% and 0.29% improvements in recall and AUC respectively on the Amazon datasets.
翻訳日:2022-02-15 14:50:19 公開日:2022-02-14
# モデルカノン化による説明信頼性の向上

Measurably Stronger Explanation Reliability via Model Canonization ( http://arxiv.org/abs/2202.06621v1 )

ライセンス: Link先を確認
Franz Motzkus, Leander Weber and Sebastian Lapuschkin(参考訳) ルールに基づく帰属法はディープニューラルネットワークの局所的な説明を提供するのに有用であることが証明されているが、近代的でより多様なネットワークアーキテクチャを説明することは、確立されたルールセットが新しいネットワーク構造に十分あるいは適用できない可能性があるため、信頼できる説明を生成する上で新たな課題をもたらす。 上記の問題のエレガントな解決策として、最近ネットワークカノン化が導入されている。 この手順はルールベースの帰属の実装依存性を活用し、確立された帰属ルールが適用可能な代替設計と同等の機能的に同一な設計にモデルを再構成する。 しかし、カノン化の概念とその有用性は、これまで質的にのみ研究されてきた。 本研究では,BatchNorm層を用いたVGG-16およびResNet18モデルに対するルールベースの属性に対するネットワークカノン化の効果を定量的に検証し,信頼性の高いニューラルネットワーク説明を得るための現在のベストプラクティスを拡張する。

While rule-based attribution methods have proven useful for providing local explanations for Deep Neural Networks, explaining modern and more varied network architectures yields new challenges in generating trustworthy explanations, since the established rule sets might not be sufficient or applicable to novel network structures. As an elegant solution to the above issue, network canonization has recently been introduced. This procedure leverages the implementation-depen dency of rule-based attributions and restructures a model into a functionally identical equivalent of alternative design to which established attribution rules can be applied. However, the idea of canonization and its usefulness have so far only been explored qualitatively. In this work, we quantitatively verify the beneficial effects of network canonization to rule-based attributions on VGG-16 and ResNet18 models with BatchNorm layers and thus extend the current best practices for obtaining reliable neural network explanations.
翻訳日:2022-02-15 14:49:45 公開日:2022-02-14
# PFGE:DNNの高速な幾何学的組み立て

PFGE: Parsimonious Fast Geometric Ensembling of DNNs ( http://arxiv.org/abs/2202.06658v1 )

ライセンス: Link先を確認
Hao Guo, Jiyong Jin, Bin Liu(参考訳) 深層ニューラルネットワーク(dnn)のアンサンブルをトレーニングした後、モデルトレーニングやテストタイム計算に非常に高いコストを要し推論に使用するなど、ディープラーニング手法の一般化性能向上に広く使用されている。 近年,fast geometric ensembling (fge) や snapshot ensemble (sne) などの高度な手法が提案されている。 これらの方法は単一のモデルと同じタイミングでモデルのアンサンブルを訓練することができるため、トレーニング時間のハードルを回避できる。 しかしながら、モデル記録とテスト時間計算のコストは、単一のモデルベースのコストよりもはるかに高いままである。 本稿では,連続した確率的重み平均化手順によって生成される,高パフォーマンスdnnの軽量アンサンブルを用いたパリモニアfge(pfge)アルゴリズムを提案する。 CIFAR-{10,100} と Imagenet は、異なるデータセット上の異なる高度なDNNアーキテクチャ、すなわち、その性能を示す。 その結果、PFGEは最先端の手法と比較して、一般化とキャリブレーションの点で同等の性能を示し、モデル記録とテスト時間計算のコストが大幅に低減された。

Ensemble methods have been widely used to improve the generalization performance of machine learning methods, while they are struggling to apply in deep learning, as training an ensemble of deep neural networks (DNNs) and then employing them for inference incur an extremely high cost for model training and test-time computation. Recently, several advanced techniques, such as fast geometric ensembling (FGE) and snapshot ensemble (SNE), have been proposed. These methods can train the model ensembles in the same time as a single model, thus getting round of the hurdle of training time. However, their costs for model recording and test-time computation remain much higher than their single model based counterparts. Here we propose a parsimonious FGE (PFGE) algorithm that employs a lightweight ensemble of higher-performing DNNs, which are generated by a series of successively performed stochastic weight averaging procedures. Experimental results across different advanced DNN architectures on different datasets, namely CIFAR-{10,100} and Imagenet, demonstrate its performance. Results show that, compared with state-of-the-art methods, PFGE has a comparable even better performance in terms of generalization and calibration, at a much-reduced cost for model recording and test-time computation.
翻訳日:2022-02-15 14:49:28 公開日:2022-02-14
# ドメイン適応回帰(Domain-Adjusted Regression) あるいは: ERM はアウト・オブ・ディストリビューション・ジェネリゼーションに十分な特徴を学習できるかもしれない

Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient for Out-of-Distribution Generalization ( http://arxiv.org/abs/2202.06856v1 )

ライセンス: Link先を確認
Elan Rosenfeld, Pradeep Ravikumar, Andrej Risteski(参考訳) 分散アウトオブディストリビューションを一般化するためにディープネットワークが失敗したことの一般的な説明は、それらが"正しい"機能を回復できなかったことである。 ドメインの一般化設定に注目して、ERMが既に十分な機能を学習しており、現在のボトルネックは機能学習ではなく、堅牢な回帰であることを示唆する単純な実験で、この概念に挑戦する。 そこで我々は,既存の特徴から予測器を学習するためのシンプルな手法を考案することが今後の研究にとって有望な方向であると主張している。 この目的のために, 分布シフトの新しいモデルのもとで, 確実に頑健な線形予測子を学習するための凸目標である domain-adjusted regression (dare) を導入する。 1つの関数を学ぶのではなく、DAREはドメイン固有の調整を行い、標準潜在空間内のドメインを統一し、この空間で予測することを学ぶ。 自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。 さらに,ミニマックスリスクに対する最初の有限環境収束保証を行い,既存の結果よりも「閾値効果」が向上した。 細かな特徴を評価した結果,DAREは従来手法と良好に比較でき,常に同等あるいはより良い性能が得られることがわかった。

A common explanation for the failure of deep networks to generalize out-of-distribution is that they fail to recover the "correct" features. Focusing on the domain generalization setting, we challenge this notion with a simple experiment which suggests that ERM already learns sufficient features and that the current bottleneck is not feature learning, but robust regression. We therefore argue that devising simpler methods for learning predictors on existing features is a promising direction for future research. Towards this end, we introduce Domain-Adjusted Regression (DARE), a convex objective for learning a linear predictor that is provably robust under a new model of distribution shift. Rather than learning one function, DARE performs a domain-specific adjustment to unify the domains in a canonical latent space and learns to predict in this space. Under a natural model, we prove that the DARE solution is the minimax-optimal predictor for a constrained set of test distributions. Further, we provide the first finite-environment convergence guarantee to the minimax risk, improving over existing results which show a "threshold effect". Evaluated on finetuned features, we find that DARE compares favorably to prior methods, consistently achieving equal or better performance.
翻訳日:2022-02-15 14:47:35 公開日:2022-02-14
# (参考訳) スペクトル時間グラフニューラルネットワークを用いたアスペクトベース感情分析 [全文訳有]

Aspect Based Sentiment Analysis Using Spectral Temporal Graph Neural Network ( http://arxiv.org/abs/2202.06776v1 )

ライセンス: CC BY 4.0
Abir Chakraborty(参考訳) Aspect Based Sentiment Analysisの目的は、異なる側面に関連するレビュアーの感情を捉えることである。 しかし、レビュー文の複雑さ、二重否定の存在、異なるドメインで見られる単語の特定の使用は、感情を正確に予測することは困難であり、全体的には難しい自然言語理解タスクである。 繰り返しニューラルネットワークやアテンション機構,さらに最近では,グラフアテンションに基づくモデルが普及しているが,本論文ではスペクトル領域に特徴を持つグラフフーリエ変換に基づくネットワークを提案する。 このアプローチは予測領域でかなりの成功を収めているが、自然言語処理タスクについては、早くから検討されていない。 この方法は、基礎となるグラフを生データから作成・学習し、隣接行列を用いてグラフフーリエ領域にシフトする。 その後、フーリエ変換を使用して、新しいフィーチャが生成される周波数(スペクトル)領域に切り替える。 これらの一連の変換は、私たちのモデルがsemeval-2014データセット、すなわち"laptop"と"restaurants"の両方のドメインで最高の結果を達成することを発見したとき、正しい表現を学ぶのに非常に効率的であることが分かりました。 提案モデルでは、Eコマースドメインから最近提案された2つのデータセットに対して、競合する結果も得られた。

The objective of Aspect Based Sentiment Analysis is to capture the sentiment of reviewers associated with different aspects. However, complexity of the review sentences, presence of double negation and specific usage of words found in different domains make it difficult to predict the sentiment accurately and overall a challenging natural language understanding task. While recurrent neural network, attention mechanism and more recently, graph attention based models are prevalent, in this paper we propose graph Fourier transform based network with features created in the spectral domain. While this approach has found considerable success in the forecasting domain, it has not been explored earlier for any natural language processing task. The method relies on creating and learning an underlying graph from the raw data and thereby using the adjacency matrix to shift to the graph Fourier domain. Subsequently, Fourier transform is used to switch to the frequency (spectral) domain where new features are created. These series of transformation proved to be extremely efficient in learning the right representation as we have found that our model achieves the best result on both the SemEval-2014 datasets, i.e., "Laptop" and "Restaurants" domain. Our proposed model also found competitive results on the two other recently proposed datasets from the e-commerce domain.
翻訳日:2022-02-15 14:44:07 公開日:2022-02-14
# (参考訳) カタルーニャのシーケンス・ツー・シーケンス資源 [全文訳有]

Sequence-to-Sequence Resources for Catalan ( http://arxiv.org/abs/2202.06871v1 )

ライセンス: CC BY 4.0
Ona de Gibert, Ksenia Kharitonova, Blanca Calvo Figueras, Jordi Armengol-Estap\' ;e, Maite Melero(参考訳) そこで本研究では,中程度の低リソース言語であるカタルーニャ語に対して,要約と機械翻訳(MT)という2つのタスクに対してシーケンス・ツー・シーケンス言語リソースを導入する。 我々はニュースワイヤの領域に2つの新しい抽象的要約データセットを示す。 また、パラレルなカタルーニャ英語コーパスを3つの新しいテストセットと組み合わせて導入する。 最後に,アートモデルの競合状態を示すデータを評価し,新たに作成されたカタランバートを用いてこれらのタスクのベースラインを開発する。 カタルーニャ語における言語技術の発展を促進するために、この成果をオープンライセンスで公開します。

In this work, we introduce sequence-to-sequence language resources for Catalan, a moderately under-resourced language, towards two tasks, namely: Summarization and Machine Translation (MT). We present two new abstractive summarization datasets in the domain of newswire. We also introduce a parallel Catalan-English corpus, paired with three different brand new test sets. Finally, we evaluate the data presented with competing state of the art models, and we develop baselines for these tasks using a newly created Catalan BART. We release the resulting resources of this work under open license to encourage the development of language technology in Catalan.
翻訳日:2022-02-15 14:27:24 公開日:2022-02-14
# 対話システムにおける意図・感情・外界のモデル化

Modeling Intention, Emotion and External World in Dialogue Systems ( http://arxiv.org/abs/2202.06476v1 )

ライセンス: Link先を確認
Wei Peng, Yue Hu, Luxi Xing, Yuqiang Xie, Xingsheng Zhang, Yajing Sun(参考訳) 意図、感情、行動は人間の活動において重要な要素である。 これらの要素間の関係を分析して個人間の相互作用プロセスをモデル化するのは難しい作業です。 しかし、以前の研究は主に意図と感情を個別にモデル化することに集中し、意図と感情の相互関係を探求することを無視した。 本稿では,意図関係モジュールと感情関係モジュールからなる関係相互作用ネットワーク(rain)を提案し,相互関係をモデル化し,歴史的意図情報を明示的に統合する。 データセットを用いた実験により,本モデルは個人間の意図,感情,行動のフル活用が可能であり,BERTスタイルのベースラインよりも顕著な改善が得られた。 質的分析は、意図と感情の相互相互作用の重要性を検証する。

Intention, emotion and action are important elements in human activities. Modeling the interaction process between individuals by analyzing the relationships between these elements is a challenging task. However, previous work mainly focused on modeling intention and emotion independently, and neglected of exploring the mutual relationships between intention and emotion. In this paper, we propose a RelAtion Interaction Network (RAIN), consisting of Intention Relation Module and Emotion Relation Module, to jointly model mutual relationships and explicitly integrate historical intention information. The experiments on the dataset show that our model can take full advantage of the intention, emotion and action between individuals and achieve a remarkable improvement over BERT-style baselines. Qualitative analysis verifies the importance of the mutual interaction between the intention and emotion.
翻訳日:2022-02-15 14:13:41 公開日:2022-02-14
# ERNIE事前学習モデルに基づくデュアルチャンネルニュース見出し分類に関する研究

Research on Dual Channel News Headline Classification Based on ERNIE Pre-training Model ( http://arxiv.org/abs/2202.06600v1 )

ライセンス: Link先を確認
Junjie Li and Hui Cao(参考訳) ニュース見出しの分類はnlpの分野において重要な方向であり、そのデータはコンパクト性、ユニーク性、様々な形態の特徴を持っている。 従来のニューラルネットワークモデルでは,データの基盤となる特徴情報を適切に捉えることができず,重要なグローバルな特徴と深い局所的特徴を共同で抽出できないという問題に対して,ERNIE事前学習モデルに基づくデュアルチャネルネットワークモデルDC-EBADを提案する。 ERNIEを使用してテキストの下部の語彙的、意味的、文脈的特徴情報を抽出し、コンテキストに融合した動的ワードベクトル表現を生成し、次にBiLSTM-ATネットワークチャネルを使用してデータのグローバルな特徴を二次的に抽出し、注意機構を使用してキー部品を高くするDPCNNチャネルの重みは、長距離テキスト依存問題を克服し、深いローカル特徴を得る。 局所的および大域的特徴ベクトルはスプライシングされ、最終的に完全連結層に渡され、最終的な分類結果はsoftmaxを介して出力される。 実験の結果,従来のニューラルネットワークモデルと同一条件下でのシングルチャネルモデルと比較して,ニュースヘッドライン分類の精度,精度,f1スコアが向上した。 大規模データ量下でニュース見出しテキストの多分類アプリケーションでうまく機能することを示すことができる。

The classification of news headlines is an important direction in the field of NLP, and its data has the characteristics of compactness, uniqueness and various forms. Aiming at the problem that the traditional neural network model cannot adequately capture the underlying feature information of the data and cannot jointly extract key global features and deep local features, a dual-channel network model DC-EBAD based on the ERNIE pre-training model is proposed. Use ERNIE to extract the lexical, semantic and contextual feature information at the bottom of the text, generate dynamic word vector representations fused with context, and then use the BiLSTM-AT network channel to secondary extract the global features of the data and use the attention mechanism to give key parts higher The weight of the DPCNN channel is used to overcome the long-distance text dependence problem and obtain deep local features. The local and global feature vectors are spliced, and finally passed to the fully connected layer, and the final classification result is output through Softmax. The experimental results show that the proposed model improves the accuracy, precision and F1-score of news headline classification compared with the traditional neural network model and the single-channel model under the same conditions. It can be seen that it can perform well in the multi-classification application of news headline text under large data volume.
翻訳日:2022-02-15 14:13:29 公開日:2022-02-14
# I-Tuning: キャプション生成のためのイメージ付き言語モデルチューニング

I-Tuning: Tuning Language Models with Image for Caption Generation ( http://arxiv.org/abs/2202.06574v1 )

ライセンス: Link先を確認
Ziyang Luo, Yadong Xi, Rongsheng Zhang, Jing Ma(参考訳) 近年,自然言語処理分野では,事前学習型言語モデル(plm)をパラメータ効率良くチューニングすることが話題となっている。 しかし、そのほとんどはテキストのみの情報でPLMをチューニングすることに集中している。 本研究では,凍ったplmをキャプション生成のための画像にチューニングする新しい視点を提案する。 我々は,PLMの出力隠れ状態を調整するために,画像から視覚情報を自動フィルタリングするI-Tuningと表現する。 画像キャプションタスク (MSCOCO, Flickr30k Captioning) を評価した結果, 従来の2~4倍のトレーニング可能なパラメータを持ち, あるいは多量のクロスモーダル事前学習データを消費するモデルに比べて, 同等あるいはそれ以上の性能が得られた。

Recently, tuning the pre-trained language model (PLM) in a parameter-efficient manner becomes a popular topic in the natural language processing area. However, most of them focus on tuning the PLM with the text-only information. In this work, we propose a new perspective to tune the frozen PLM with images for caption generation. We denote our method as I-Tuning, which can automatically filter the vision information from images to adjust the output hidden states of PLM. Evaluating on the image captioning tasks (MSCOCO and Flickr30k Captioning), our method achieves comparable or even better performance than the previous models which have 2-4 times more trainable parameters and/or consume a large amount of cross-modal pre-training data.
翻訳日:2022-02-15 14:13:03 公開日:2022-02-14
# (参考訳) 微調整KB-BERTによるスウェーデンの句読解

Punctuation restoration in Swedish through fine-tuned KB-BERT ( http://arxiv.org/abs/2202.06769v1 )

ライセンス: CC BY 4.0
John Bj\"orkman Nilsson(参考訳) ここでは, bertモデルを用いたスウェーデン語句読点の自動復元について述べる。 KB-BERTは、スウェーデン国立図書館によってスウェーデンのコーパスで事前訓練された、公開されているニューラルネットワーク言語モデルである。 このモデルは、政府のテキストのコーパスを使用して、この特定のタスクのために微調整された。 下段のケースと未定のスウェーデン語テキストを入力として、モデルは文法的に正しい句読まれたテキストのコピーを出力として返す。 この問題に対するソリューションの成功は、音声テキストや自動テキストなど、NLPドメインの配列にメリットをもたらす。 セミコロンのようなより稀なマークのデータが不足していたため、プロジェクトのために句読点、コンマ、質問マークのみが検討された。 さらに、いくつかのマークは、exlamation point や periods など、より一般的なマークと幾らか交換可能である。 したがって、データセットはすべての宣言点を周期に置き換えた。 プレストバート(PrestoBERT)と呼ばれるスウェーデン製BERTは、F1スコア全体の78.9を記録した。 提案されたモデルは国際的なモデルと同様で、ハンガリーと中国のモデルはそれぞれ82.2と75.6のF1スコアを獲得した。 さらに,人間評価事例の検討を行った。 ヒトの試験群は全体のf1-scoreを81.7で達成したが、prestobertよりもかなり低得点であった。 F1スコアの違いにもかかわらず、モデルと人間の出力文を検査すると満足な結果が得られる。 切断は、正しい解釈の数を提供するのではなく、テストセットで使われる全く同じ句読点を複製することに集中しているように思われる。 損失関数を書き換えてすべての文法的に正しい出力を報いることができれば、最初の1つの例よりも、PrestoBERTと人間グループの両方でパフォーマンスが大幅に向上する可能性がある。

Presented here is a method for automatic punctuation restoration in Swedish using a BERT model. The method is based on KB-BERT, a publicly available, neural network language model pre-trained on a Swedish corpus by National Library of Sweden. This model has then been fine-tuned for this specific task using a corpus of government texts. With a lower-case and unpunctuated Swedish text as input, the model is supposed to return a grammatically correct punctuated copy of the text as output. A successful solution to this problem brings benefits for an array of NLP domains, such as speech-to-text and automated text. Only the punctuation marks period, comma and question marks were considered for the project, due to a lack of data for more rare marks such as semicolon. Additionally, some marks are somewhat interchangeable with the more common, such as exclamation points and periods. Thus, the data set had all exclamation points replaced with periods. The fine-tuned Swedish BERT model, dubbed prestoBERT, achieved an overall F1-score of 78.9. The proposed model scored similarly to international counterparts, with Hungarian and Chinese models obtaining F1-scores of 82.2 and 75.6 respectively. As further comparison, a human evaluation case study was carried out. The human test group achieved an overall F1-score of 81.7, but scored substantially worse than prestoBERT on both period and comma. Inspecting output sentences from the model and humans show satisfactory results, despite the difference in F1-score. The disconnect seems to stem from an unnecessary focus on replicating the exact same punctuation used in the test set, rather than providing any of the number of correct interpretations. If the loss function could be rewritten to reward all grammatically correct outputs, rather than only the one original example, the performance could improve significantly for both prestoBERT and the human group.
翻訳日:2022-02-15 14:10:48 公開日:2022-02-14
# (参考訳) クラックド・ファウンデーションの修復:生成テキストの評価実践における障害調査

Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation Practices for Generated Text ( http://arxiv.org/abs/2202.06935v1 )

ライセンス: CC BY-SA 4.0
Sebastian Gehrmann, Elizabeth Clark, Thibault Sellam(参考訳) 自然言語生成(nlg)の評価手法には多くの既知の欠陥があるが、改善された評価アプローチが広く採用されることはまれである。 ニューラルなNLGモデルは、古いメトリクスが依存している表面レベルの機能に基づいて区別できないように改善されているため、この問題はさらに緊急になっている。 本稿では,人間と自動モデル評価の問題と,過去20年間に指摘されてきたNLGの一般的なデータセットについて検討する。 我々は,これらの問題に対する研究者の取り組みと,モデル評価の現状にどのような意味があるのかを要約し,分類し,議論する。 これらの知見に基づいて,NLG評価の長期的ビジョンを策定し,研究者が評価プロセスを改善するための具体的なステップを提案する。 最後に,最近のnlpカンファレンスの66のnlg論文を分析し,これらの提案をすでに順守しているかを分析し,現状の大幅な変更が必要な領域を特定する。

Evaluation practices in natural language generation (NLG) have many known flaws, but improved evaluation approaches are rarely widely adopted. This issue has become more urgent, since neural NLG models have improved to the point where they can often no longer be distinguished based on the surface-level features that older metrics rely on. This paper surveys the issues with human and automatic model evaluations and with commonly used datasets in NLG that have been pointed out over the past 20 years. We summarize, categorize, and discuss how researchers have been addressing these issues and what their findings mean for the current state of model evaluations. Building on those insights, we lay out a long-term vision for NLG evaluation and propose concrete steps for researchers to improve their evaluation processes. Finally, we analyze 66 NLG papers from recent NLP conferences in how well they already follow these suggestions and identify which areas require more drastic changes to the status quo.
翻訳日:2022-02-15 14:09:33 公開日:2022-02-14
# MetaShift: コンテキスト分散シフトの評価とトレーニング競合に対するデータセットのデータセット

MetaShift: A Dataset of Datasets for Evaluating Contextual Distribution Shifts and Training Conflicts ( http://arxiv.org/abs/2202.06523v1 )

ライセンス: Link先を確認
Weixin Liang and James Zou(参考訳) さまざまなデータ分布にわたる機械学習モデルのパフォーマンスを理解することは、信頼性の高いアプリケーションにとって極めて重要である。 これにより、分散シフトをキャプチャするベンチマークデータセットのキュレーションに重点が置かれている。 価値はあるものの、既存のベンチマークは少数のシフトしか含まないという点で制限されており、異なるシフトで何が違うのかについての体系的なアノテーションが欠如している。 本稿では,410クラスにわたる12,868組の自然画像のコレクションであるmetashiftを提案する。 我々は、Visual Genomeとそのアノテーションの自然な不均一性を利用してMetaShiftを構築します。 重要な構成概念は、メタデータを使用して画像をクラスタ化することであり、それぞれのイメージ(例えば、異なるデータ分布を表す"cat with cars"や"cat in bathroom"など)のコンテキストを提供する。 MetaShiftには2つの重要なメリットがある。 第二に、データセットのそれぞれについて何がユニークなのかを明確に説明し、その2つのデータセット間の分散シフト量を測定する距離スコアを提供する。 我々は、データシフトに対して堅牢なトレーニングモデルに関する最近の提案をベンチマークする上で、MetaShiftの有用性を実証する。 簡単な経験的リスク最小化は、シフトが適度であり、大きなシフトに対して体系的な優位性を持つ手法が存在しない場合に、最善を尽くす。 また、モデルトレーニング中にデータサブセット間の衝突を可視化する上で、MetaShiftがどのように役立つかを示す。

Understanding the performance of machine learning models across diverse data distributions is critically important for reliable applications. Motivated by this, there is a growing focus on curating benchmark datasets that capture distribution shifts. While valuable, the existing benchmarks are limited in that many of them only contain a small number of shifts and they lack systematic annotation about what is different across different shifts. We present MetaShift--a collection of 12,868 sets of natural images across 410 classes--to address this challenge. We leverage the natural heterogeneity of Visual Genome and its annotations to construct MetaShift. The key construction idea is to cluster images using its metadata, which provides context for each image (e.g. "cats with cars" or "cats in bathroom") that represent distinct data distributions. MetaShift has two important benefits: first, it contains orders of magnitude more natural data shifts than previously available. Second, it provides explicit explanations of what is unique about each of its data sets and a distance score that measures the amount of distribution shift between any two of its data sets. We demonstrate the utility of MetaShift in benchmarking several recent proposals for training models to be robust to data shifts. We find that the simple empirical risk minimization performs the best when shifts are moderate and no method had a systematic advantage for large shifts. We also show how MetaShift can help to visualize conflicts between data subsets during model training.
翻訳日:2022-02-15 14:06:17 公開日:2022-02-14
# 展開効率の良い強化学習を目指して--低境界と最適性

Towards Deployment-Efficient Reinforcement Learning: Lower Bound and Optimality ( http://arxiv.org/abs/2202.06450v1 )

ライセンス: Link先を確認
Jiawei Huang, Jinglin Chen, Li Zhao, Tao Qin, Nan Jiang, Tie-Yan Liu(参考訳) デプロイ効率は、強化学習(RL)の現実の多くの応用にとって重要な基準である。 コミュニティの関心が高まっているにもかかわらず、この問題には正式な理論的定式化がない。 本稿では,MDP を探索し,最小限の \emph{deployment complexity} の範囲内で準最適ポリシを得ることに関心がある一方で,各デプロイメントにおいて,ポリシーは大量のデータをサンプリングすることができる,という観点から,デプロイ効率のよい RL (DE-RL) の定式化を提案する。 有限水平線形MDPを具体的な構造モデルとして用いて,情報理論の下界を確立することにより,配置効率の基本的な限界を明らかにし,最適な配置効率を実現するアルゴリズムを提供する。 さらに,D-RLの定式化は柔軟であり,他の実用上重要な設定のためのビルディングブロックとして機能する。

Deployment efficiency is an important criterion for many real-world applications of reinforcement learning (RL). Despite the community's increasing interest, there lacks a formal theoretical formulation for the problem. In this paper, we propose such a formulation for deployment-efficient RL (DE-RL) from an "optimization with constraints" perspective: we are interested in exploring an MDP and obtaining a near-optimal policy within minimal \emph{deployment complexity}, whereas in each deployment the policy can sample a large batch of data. Using finite-horizon linear MDPs as a concrete structural model, we reveal the fundamental limit in achieving deployment efficiency by establishing information-theoreti c lower bounds, and provide algorithms that achieve the optimal deployment efficiency. Moreover, our formulation for DE-RL is flexible and can serve as a building block for other practically relevant settings; we give "Safe DE-RL" and "Sample-Efficient DE-RL" as two examples, which may be worth future investigation.
翻訳日:2022-02-15 14:05:06 公開日:2022-02-14
# 教師なし学習における識別可能性の落とし穴について 表象学習のためのデシデラタ:因果的視点

On Pitfalls of Identifiability in Unsupervised Learning. A Note on: "Desiderata for Representation Learning: A Causal Perspective" ( http://arxiv.org/abs/2202.06844v1 )

ライセンス: Link先を確認
Shubhangi Ghosh, Luigi Gresele, Julius von K\"ugelgen, Michel Besserve, Bernhard Sch\"olkopf(参考訳) モデル識別性は教師なし表現学習の文脈において望ましい性質である。 その存在下では、異なるモデルは観察的に区別できないが、相互に自明に関連しない表現が得られるため、基底真理生成モデルの回復は基本的に不可能であり、適切に構築された反例によってしばしば示される。 本稿では,Wang & Jordan (2021) の "Desiderata for Representation Learning: A Causal Perspective" で提示された識別可能性の潜在的な失敗事例について考察する。 この構造は非線形独立成分分析の理論に基づいている。 我々は、これとその他の表現学習の反例についてコメントする。

Model identifiability is a desirable property in the context of unsupervised representation learning. In absence thereof, different models may be observationally indistinguishable while yielding representations that are nontrivially related to one another, thus making the recovery of a ground truth generative model fundamentally impossible, as often shown through suitably constructed counterexamples. In this note, we discuss one such construction, illustrating a potential failure case of an identifiability result presented in "Desiderata for Representation Learning: A Causal Perspective" by Wang & Jordan (2021). The construction is based on the theory of nonlinear independent component analysis. We comment on implications of this and other counterexamples for identifiable representation learning.
翻訳日:2022-02-15 14:04:48 公開日:2022-02-14
# HAKE:人間活動理解のための知識エンジン基盤

HAKE: A Knowledge Engine Foundation for Human Activity Understanding ( http://arxiv.org/abs/2202.06851v1 )

ライセンス: Link先を確認
Yong-Lu Li, Xinpeng Liu, Xiaoqian Wu, Yizhuo Li, Zuoyu Qiu, Liang Xu, Yue Xu, Hao-Shu Fang, Cewu Lu(参考訳) 人間の活動理解は人工知能に広く興味を持ち、医療や行動分析といった多様な応用にまたがっている。 ディープラーニングの進歩はあったが、依然として挑戦的だ。 オブジェクト認識のようなソリューションは通常、ピクセルを直接セマンティクスにマッピングしようとするが、アクティビティパターンはオブジェクトパターンとは大きく異なり、別の成功を妨げる。 本研究では,この課題を2段階にまとめた新しいパラダイムを提案する。まず,原子活動プリミティブを対象とする中間空間に画素をマッピングし,解釈可能な論理規則で検出されたプリミティブをプログラムして意味論を推論する。 代表的なプリミティブな空間を提供するため,26以上のプリミティブなラベルや論理ルールを含む知識ベースを構築した。 我々のフレームワークであるHAKE(Human Activity Knowledge Engine)は、挑戦的なベンチマーク上での標準手法よりも優れた一般化能力と性能を示す。 コードとデータはhttp://hake-mvig.cn/ で入手できる。

Human activity understanding is of widespread interest in artificial intelligence and spans diverse applications like health care and behavior analysis. Although there have been advances with deep learning, it remains challenging. The object recognition-like solutions usually try to map pixels to semantics directly, but activity patterns are much different from object patterns, thus hindering another success. In this work, we propose a novel paradigm to reformulate this task in two-stage: first mapping pixels to an intermediate space spanned by atomic activity primitives, then programming detected primitives with interpretable logic rules to infer semantics. To afford a representative primitive space, we build a knowledge base including 26+ M primitive labels and logic rules from human priors or automatic discovering. Our framework, Human Activity Knowledge Engine (HAKE), exhibits superior generalization ability and performance upon canonical methods on challenging benchmarks. Code and data are available at http://hake-mvig.cn/ .
翻訳日:2022-02-15 14:04:37 公開日:2022-02-14
# (参考訳) OWL (Observe, Watch, Listen): 聴覚的テンポラルコンテキストによるエゴセントリックビデオにおけるアクションの局在化 [全文訳有]

OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via Audiovisual Temporal Context ( http://arxiv.org/abs/2202.04947v2 )

ライセンス: CC BY 4.0
Merey Ramazanova, Victor Escorcia, Fabian Caba Heilbron, Chen Zhao, Bernard Ghanem(参考訳) 近年の3人称ビデオにおいて,時間的行動ローカライゼーション(TAL)は重要な課題である。 近年,個人ビデオの微粒な時間的ローカライゼーションが試みられている。 しかし、現在のtal法は視覚信号のみを使用し、ほとんどのビデオに存在するオーディオモダリティを無視し、エゴセントリックなビデオで意味のあるアクション情報を表示する。 本研究では,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討し,エゴセントリックTALの視覚情報とコンテキストを活用するために,オブザービング,ウォッチング,リスニング(OWL)を通じて,単純なyet- Effectiveアプローチを導入する。 そのために、私たちは: 1) 2つのモダリティをどう融合するかの異なる戦略を比較し,研究する。 2) 時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。 実験の結果,EPIC-KITCHENS-100の最先端性能が得られた。

Temporal action localization (TAL) is an important task extensively explored and improved for third-person videos in recent years. Recent efforts have been made to perform fine-grained temporal localization on first-person videos. However, current TAL methods only use visual signals, neglecting the audio modality that exists in most videos and that shows meaningful action information in egocentric videos. In this work, we take a deep look into the effectiveness of audio in detecting actions in egocentric videos and introduce a simple-yet-effective approach via Observing, Watching, and Listening (OWL) to leverage audio-visual information and context for egocentric TAL. For doing that, we: 1) compare and study different strategies for where and how to fuse the two modalities; 2) propose a transformer-based model to incorporate temporal audio-visual context. Our experiments show that our approach achieves state-of-the-art performance on EPIC-KITCHENS-100.
翻訳日:2022-02-15 13:36:31 公開日:2022-02-14
# (参考訳) カーネルを用いた条件付きコントラスト学習 [全文訳有]

Conditional Contrastive Learning with Kernel ( http://arxiv.org/abs/2202.05458v2 )

ライセンス: CC BY 4.0
Yao-Hung Hubert Tsai, Tianqin Li, Martin Q. Ma, Han Zhao, Kun Zhang, Louis-Philippe Morency, Ruslan Salakhutdinov(参考訳) 条件付きコントラスト学習フレームワークは、特定の変数に条件付けされた正あるいは負のデータペアを構成する条件付きサンプリング手順を考える。 フェアコントラスト学習は、例えば同じ性別(センシティブな情報に関する条件付け)から負のペアを構成するが、これは学習した表現から望ましくない情報を減少させ、弱い教師付きコントラスト学習は、同様の注釈的属性(補助情報に関する条件付け)を持つ正のペアを構成する。 条件付きコントラスト学習は多くの応用が可能であるが、条件付きサンプリング手順は条件付き変数の値に対して十分なデータペアを得ることが出来なければ困難である。 本稿では,既存の条件付きコントラスト目標を不十分なデータ問題を軽減する代替形式に変換するカーネル(ccl-k)を用いた条件付きコントラスト学習について述べる。 条件変数の値に応じてデータをサンプリングする代わりに、CCL-Kはカーネル条件埋め込み演算子を使用して、利用可能なすべてのデータからデータをサンプリングし、条件変数の値とカーネルの類似性が与えられた各サンプルデータに重みを割り当てる。 CCL-Kが最先端のベースラインより優れていることを示すために,弱教師付き,公正,強負の対照的な学習を用いて実験を行った。

Conditional contrastive learning frameworks consider the conditional sampling procedure that constructs positive or negative data pairs conditioned on specific variables. Fair contrastive learning constructs negative pairs, for example, from the same gender (conditioning on sensitive information), which in turn reduces undesirable information from the learned representations; weakly supervised contrastive learning constructs positive pairs with similar annotative attributes (conditioning on auxiliary information), which in turn are incorporated into the representations. Although conditional contrastive learning enables many applications, the conditional sampling procedure can be challenging if we cannot obtain sufficient data pairs for some values of the conditioning variable. This paper presents Conditional Contrastive Learning with Kernel (CCL-K) that converts existing conditional contrastive objectives into alternative forms that mitigate the insufficient data problem. Instead of sampling data according to the value of the conditioning variable, CCL-K uses the Kernel Conditional Embedding Operator that samples data from all available data and assigns weights to each sampled data given the kernel similarity between the values of the conditioning variable. We conduct experiments using weakly supervised, fair, and hard negatives contrastive learning, showing CCL-K outperforms state-of-the-art baselines.
翻訳日:2022-02-15 13:18:33 公開日:2022-02-14
# (参考訳) 難解・難解な文字レベル防衛を有するドイツ語におけるHate-Speech BERT分類器に対するWhite-Box攻撃 [全文訳有]

White-Box Attacks on Hate-speech BERT Classifiers in German with Explicit and Implicit Character Level Defense ( http://arxiv.org/abs/2202.05778v2 )

ライセンス: CC BY 4.0
Shahrukh Khan, Mahnoor Shahid, Navdeeppal Singh(参考訳) 本研究では,ドイツのヘイトスピーチデータセットで訓練されたbertモデルの対向的ロバスト性を評価する。 また、2つの新しいホワイトボックス文字と単語レベル攻撃で評価を補完し、利用可能な攻撃範囲に寄与する。 さらに,2つの新規なキャラクタレベル防御戦略の比較を行い,その頑健性を評価する。

In this work, we evaluate the adversarial robustness of BERT models trained on German Hate Speech datasets. We also complement our evaluation with two novel white-box character and word level attacks thereby contributing to the range of attacks available. Furthermore, we also perform a comparison of two novel character-level defense strategies and evaluate their robustness with one another.
翻訳日:2022-02-15 12:53:21 公開日:2022-02-14
# 閉ループ転写による構造記憶のインクリメンタル学習

Incremental Learning of Structured Memory via Closed-Loop Transcription ( http://arxiv.org/abs/2202.05411v2 )

ライセンス: Link先を確認
Shengbang Tong, Xili Dai, Ziyang Wu, Mingyang Li, Brent Yi, Yi Ma(参考訳) 本稿では,複数のオブジェクトクラスの構造化メモリをインクリメンタルに学習するための最小計算モデルを提案する。 提案手法は,低次元特徴空間において,複数のクラスとその対応する部分空間間の閉ループ転写(線形識別表現)を確立することに基づく。 本手法は, モデルサイズ, 記憶量, 計算量の観点から, 従来のインクリメンタル学習手法に比べて, よりシンプルかつ効率的である。 全てのネットワークパラメータは、符号化と復号化マップの間の制約付きミニマックスゲームを単一レートの削減に基づく目的で解くことで、アーキテクチャ操作なしで同時に最適化される。 実験結果から,本手法は破滅的忘れを効果的に軽減し,生成的,識別的両目的の先行研究よりも優れた性能を達成できることが示唆された。

This work proposes a minimal computational model for learning a structured memory of multiple object classes in an incremental setting. Our approach is based on establishing a closed-loop transcription between multiple classes and their corresponding subspaces, known as a linear discriminative representation, in a low-dimensional feature space. Our method is both simpler and more efficient than existing approaches to incremental learning, in terms of model size, storage, and computation: it requires only a single, fixed-capacity autoencoding network with a feature space that is used for both discriminative and generative purposes. All network parameters are optimized simultaneously without architectural manipulations, by solving a constrained minimax game between the encoding and decoding maps over a single rate reduction-based objective. Experimental results show that our method can effectively alleviate catastrophic forgetting, achieving significantly better performance than prior work for both generative and discriminative purposes.
翻訳日:2022-02-15 12:46:27 公開日:2022-02-14
# 映像駆動型ニューラルネットワークによる顔アセットの製作

Video-driven Neural Physically-based Facial Asset for Production ( http://arxiv.org/abs/2202.05592v2 )

ライセンス: Link先を確認
Longwen Zhang, Chuxiao Zeng, Qixuan Zhang, Hongyang Lin, Ruixiang Cao, Wei Yang, Lan Xu, and Jingyi Yu(参考訳) 説得力のある3Dダイナミックな顔を作るための生産レベルのワークフローは、幾何学とテクスチャ生成、モーションキャプチャとリギング、および表現合成のための労働集約的なツールの欠如に依存してきた。 最近のニューラルアプローチは個々のコンポーネントを自動化するが、それに対応する潜在表現は、従来のツールのようにアーティストに明示的なコントロールを提供できない。 本稿では,高品質な物理的資産を持つ動的顔形状を生成するための新しい学習ベースビデオ駆動手法を提案する。 2つの重要なコンポーネントは、ビデオからの高密度時間サンプリングと、潜伏空間を規制する明示的な表情制御のため、よく構造化された潜伏空間である。 データ収集のために,超高速ビデオカメラと結合したハイブリッド多視点撮影ステージを構築し,生の3次元顔のアセットを得る。 次に,グローバルなMLP型表現マッピングを用いた別個のVAEを用いて,表情,幾何学,物理的テクスチャをモデル化し,形状やテクスチャの明示的な制御を維持しつつ,各属性の特徴を保存する。 また, 動的テクスチャの高品質なレンダリングを実現するため, デルタ情報を物理ベーステクスチャのリンクルマップとしてモデル化する。 我々は,高忠実度パフォーマー特異的顔キャプチャーとクロスアイデンティティ顔の動き再ターゲティングのアプローチを実証する。 さらに、私たちのニューラルアセットと高速な適応スキームは、Wildの動画を扱うためにも利用できます。 さらに, 形状, 素材編集, ウィンクル転送などの身体的編集結果が, 高いリアリズムで提供されることにより, 明示的な顔の異方性戦略の有用性をモチベーションとしている。 包括的実験により,従来のビデオ駆動顔面再建法やアニメーション法よりも高い精度と視覚的忠実度が得られた。

Production-level workflows for producing convincing 3D dynamic human faces have long relied on a disarray of labor-intensive tools for geometry and texture generation, motion capture and rigging, and expression synthesis. Recent neural approaches automate individual components but the corresponding latent representations cannot provide artists explicit controls as in conventional tools. In this paper, we present a new learning-based, video-driven approach for generating dynamic facial geometries with high-quality physically-based assets. Two key components are well-structured latent spaces due to dense temporal samplings from videos and explicit facial expression controls to regulate the latent spaces. For data collection, we construct a hybrid multiview-photometri c capture stage, coupling with an ultra-fast video camera to obtain raw 3D facial assets. We then model the facial expression, geometry and physically-based textures using separate VAEs with a global MLP-based expression mapping across the latent spaces, to preserve characteristics across respective attributes while maintaining explicit controls over geometry and texture. We also introduce to model the delta information as wrinkle maps for physically-base textures, achieving high-quality rendering of dynamic textures. We demonstrate our approach in high-fidelity performer-specific facial capture and cross-identity facial motion retargeting. In addition, our neural asset along with fast adaptation schemes can also be deployed to handle in-the-wild videos. Besides, we motivate the utility of our explicit facial disentangle strategy by providing promising physically-based editing results like geometry and material editing or winkle transfer with high realism. Comprehensive experiments show that our technique provides higher accuracy and visual fidelity than previous video-driven facial reconstruction and animation methods.
翻訳日:2022-02-15 12:46:11 公開日:2022-02-14
# (参考訳) chemicalx: ドラッグペアスコアリングのためのディープラーニングライブラリ [全文訳有]

ChemicalX: A Deep Learning Library for Drug Pair Scoring ( http://arxiv.org/abs/2202.05240v2 )

ライセンス: CC BY 4.0
Benedek Rozemberczki, Charles Tapley Hoyt, Anna Gogleva, Piotr Grabowski, Klas Karis, Andrej Lamov, Andriy Nikolov, Sebastian Nilsson, Michael Ughetto, Yu Wang, Tyler Derr, Benjamin M Gyori(参考訳) 本稿では,PyTorchをベースとした深層学習ライブラリであるChemicalXを紹介する。 このライブラリの主な目的は、既存のハイレベルモデルトレーニングユーティリティ、幾何学的ディープラーニング、pytorchエコシステムからのディープケミカルレイヤを再利用し、機械学習の研究者や実践者にとって、ディープドラッグペアスコアリングモデルを合理的なフレームワークでアクセスできるようにすることである。 本システムでは,ニューラルネットワークレイヤ,カスタムペアスコアリングアーキテクチャ,データローダ,バッチイテレータをエンドユーザに提供する。 我々はこれらの特徴をサンプルコードスニペットとケーススタディで紹介し、ChemicalXの特徴を強調した。 実世界の薬物・薬物相互作用、多剤副作用、組合せ相乗効果予測タスクに関する実験は、ケミカルXで利用可能なモデルがペアスコアリングタスクの解決に有効であることを示す。 最後に,商品ハードウェア上で数十万の化合物を含む大規模薬物ペアデータセット上で,機械学習モデルをトレーニングし,スコア付けするために chemicalx が使用できることを示した。

In this paper, we introduce ChemicalX, a PyTorch-based deep learning library designed for providing a range of state of the art models to solve the drug pair scoring task. The primary objective of the library is to make deep drug pair scoring models accessible to machine learning researchers and practitioners in a streamlined framework.The design of ChemicalX reuses existing high level model training utilities, geometric deep learning, and deep chemistry layers from the PyTorch ecosystem. Our system provides neural network layers, custom pair scoring architectures, data loaders, and batch iterators for end users. We showcase these features with example code snippets and case studies to highlight the characteristics of ChemicalX. A range of experiments on real world drug-drug interaction, polypharmacy side effect, and combination synergy prediction tasks demonstrate that the models available in ChemicalX are effective at solving the pair scoring task. Finally, we show that ChemicalX could be used to train and score machine learning models on large drug pair datasets with hundreds of thousands of compounds on commodity hardware.
翻訳日:2022-02-15 12:44:21 公開日:2022-02-14
# 言語モデルがプライバシを維持するための意味は何でしょう?

What Does it Mean for a Language Model to Preserve Privacy? ( http://arxiv.org/abs/2202.05520v2 )

ライセンス: Link先を確認
Hannah Brown, Katherine Lee, Fatemehsadat Mireshghallah, Reza Shokri, Florian Tram\`er(参考訳) 自然言語は私たちのプライベートな生活とアイデンティティを反映しており、プライバシーに関する懸念は現実の生活のそれと同じくらい広まっています。 言語モデルは、テキストの文脈や感受性を理解する能力がなく、トレーニングセットに存在するフレーズを記憶する傾向がある。 相手はこの傾向を利用してトレーニングデータを抽出することができる。 コンテンツの性質や、このデータが収集された状況によっては、プライバシーに対する期待に反する可能性がある。 したがって、プライバシを保存する言語モデルのトレーニング技術への関心が高まっている。 本稿では,一般的なデータ保護技術(データサニタイズとディファレンシャルプライバシ)による狭義の仮定と,自然言語とプライバシを社会的規範として持つことのミスマッチについて論じる。 既存の保護手法は、言語モデルに対する汎用的で意味のあるプライバシの概念を保証できない。 言語モデルは、公用として明示的に作成されたテキストデータに基づいて訓練されるべきである。

Natural language reflects our private lives and identities, making its privacy concerns as broad as those of real life. Language models lack the ability to understand the context and sensitivity of text, and tend to memorize phrases present in their training sets. An adversary can exploit this tendency to extract training data. Depending on the nature of the content and the context in which this data was collected, this could violate expectations of privacy. Thus there is a growing interest in techniques for training language models that preserve privacy. In this paper, we discuss the mismatch between the narrow assumptions made by popular data protection techniques (data sanitization and differential privacy), and the broadness of natural language and of privacy as a social norm. We argue that existing protection methods cannot guarantee a generic and meaningful notion of privacy for language models. We conclude that language models should be trained on text data which was explicitly produced for public use.
翻訳日:2022-02-15 12:21:02 公開日:2022-02-14
# マルチタスク変換器を用いた弱修正テキストスポッティング

Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer ( http://arxiv.org/abs/2202.05508v2 )

ライセンス: Link先を確認
Yair Kittenplon, Inbal Lavi, Sharon Fogel, Yarin Bar, R. Manmatha, Pietro Perona(参考訳) 近年,テキスト検出と認識コンポーネントの共同最適化のメリットから,テキストスポッティングのエンドツーエンド手法が注目されている。 既存のメソッドは通常、検出と認識のブランチを分離し、2つのタスクに正確なアノテーションを必要とする。 テキストスポッティングのためのトランスフォーマーベースのアプローチであるTextTranSpotter(TTS) と、完全に教師付きされた設定と弱い設定の両方でトレーニング可能な最初のテキストスポッティングフレームワークを紹介する。 単語検出毎に1つの潜在表現を学習し,ハンガリー語の損失に基づく新たな損失関数を用いることで,高価なローカライゼーションアノテーションの必要性を軽減した。 実データにのみテキスト書き起こしアノテーションをトレーニングすることにより,従来の最先端の完全教師付き手法と競合する性能を実現する。 完全に教師された方法でトレーニングを行うと、TextTranSpotterは複数のベンチマークで最先端の結果を表示する。

Text spotting end-to-end methods have recently gained attention in the literature due to the benefits of jointly optimizing the text detection and recognition components. Existing methods usually have a distinct separation between the detection and recognition branches, requiring exact annotations for the two tasks. We introduce TextTranSpotter (TTS), a transformer-based approach for text spotting and the first text spotting framework which may be trained with both fully- and weakly-supervised settings. By learning a single latent representation per word detection, and using a novel loss function based on the Hungarian loss, our method alleviates the need for expensive localization annotations. Trained with only text transcription annotations on real data, our weakly-supervised method achieves competitive performance with previous state-of-the-art fully-supervised methods. When trained in a fully-supervised manner, TextTranSpotter shows state-of-the-art results on multiple benchmarks.
翻訳日:2022-02-15 12:20:46 公開日:2022-02-14
# ディープリニアネットワークの厳密解

Exact Solutions of a Deep Linear Network ( http://arxiv.org/abs/2202.04777v2 )

ライセンス: Link先を確認
Liu Ziyin, Botao Li, Xiangming Meng(参考訳) この研究は、ニューラルネットワークのランドスケープを理解する基本的なモデルである、重みの減衰と確率的ニューロンを持つ深い線形ネットワークの厳密な解を見つける。 その結果、重み減衰はモデルアーキテクチャと強く相互作用し、1ドル以上の隠蔽層を持つネットワークでは悪いミニマを生成でき、わずか1ドルで隠蔽層を持つネットワークでは定性的に異なることが示唆された。 応用例として,確率ネットの解析を行い,確率性,幅,深さが無限大になるにつれてその予測分散がゼロに減少することを示した。

This work finds the exact solutions to a deep linear network with weight decay and stochastic neurons, a fundamental model for understanding the landscape of neural networks. Our result implies that weight decay strongly interacts with the model architecture and can create bad minima in a network with more than $1$ hidden layer, qualitatively different for a network with only $1$ hidden layer. As an application, we also analyze stochastic nets and show that their prediction variance vanishes to zero as the stochasticity, the width, or the depth tends to infinity.
翻訳日:2022-02-15 12:20:30 公開日:2022-02-14
# プログラム弱スーパービジョンに関する調査

A Survey on Programmatic Weak Supervision ( http://arxiv.org/abs/2202.05433v2 )

ライセンス: Link先を確認
Jieyu Zhang, Cheng-Yu Hsieh, Yue Yu, Chao Zhang, Alexander Ratner(参考訳) トレーニングデータのラベル付けは、マシンラーニングを使用する上で大きな障害のひとつになっています。 様々な弱い監督パラダイムの中で、プログラム的弱監督(PWS)は、複数の潜在的ノイズのある監督源からトレーニングラベルをプログラム的に合成することで、手動によるラベル付けボトルネックを緩和することに成功した。 本稿では,最近のPWSの進歩を包括的に調査する。 特に、PWS学習パラダイムの概要を紹介し、PWS学習ワークフロー内の各コンポーネントの代表的アプローチについてレビューする。 さらに、限定ラベル付きデータシナリオに対処するための補完学習パラダイムと、これらの関連するアプローチをPWSと併用する方法について論じる。 最後に、この分野における今後の研究の方向性を刺激するために、未調査のままであるいくつかの重要な課題を特定します。

Labeling training data has become one of the major roadblocks to using machine learning. Among various weak supervision paradigms, programmatic weak supervision (PWS) has achieved remarkable success in easing the manual labeling bottleneck by programmatically synthesizing training labels from multiple potentially noisy supervision sources. This paper presents a comprehensive survey of recent advances in PWS. In particular, we give a brief introduction of the PWS learning paradigm, and review representative approaches for each component within PWS's learning workflow. In addition, we discuss complementary learning paradigms for tackling limited labeled data scenarios and how these related approaches can be used in conjunction with PWS. Finally, we identify several critical challenges that remain under-explored in the area to hopefully inspire future research directions in the field.
翻訳日:2022-02-15 12:20:19 公開日:2022-02-14