このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210608となっている論文です。

PDF登録状況(公開日: 20210608)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 系統木におけるカオス検出:ディープラーニングアプローチ [全文訳有]

Detecting chaos in lineage-trees: A deep learning approach ( http://arxiv.org/abs/2106.08956v1 )

ライセンス: CC BY 4.0
Hagai Rappeport, Irit Levin Reisman, Naftali Tishby, Nathalie Q. Balaban(参考訳) 気象システムから心拍リズムパターンに至るまで、多くの複雑な現象は、効果的に低次元力学系としてモデル化される。 このようなシステムは特定の条件下でカオス的に振る舞うため、経験的測定に基づいてカオスを検出する能力は、これらのプロセスを特徴づけ、予測するための重要なステップである。 システムをカオスとして分類するには、通常最大のリャプノフ指数を推定し、状態空間における初期閉軌道の収束率や分岐率を定量化し、一般に正の値がカオスの操作的定義として受け入れられる。 プロセスの観察から最大のリアプノフ指数を推定することは、動的ノイズの影響を受けるシステムにおいて特に困難であり、実世界のプロセス、特に生物学的システムのモデルの多くの場合である。 本稿では,合成生成した軌道上でのディープラーニングモデルの学習に基づいて,データから最大のリアプノフ指数を推定する新しい手法について述べる。 本手法は,樹状データ,生物環境におけるユビキタストポロジー,特に細胞や生物の系統のダイナミクスを解析できるという点で特異である。 また,モデルによって抽出された入力情報のタイプを予測のために特徴付けし,カオスを異なるトポロジで解析する方法の理解を深めることができた。

Many complex phenomena, from weather systems to heartbeat rhythm patterns, are effectively modeled as low-dimensional dynamical systems. Such systems may behave chaotically under certain conditions, and so the ability to detect chaos based on empirical measurement is an important step in characterizing and predicting these processes. Classifying a system as chaotic usually requires estimating its largest Lyapunov exponent, which quantifies the average rate of convergence or divergence of initially close trajectories in state space, and for which a positive value is generally accepted as an operational definition of chaos. Estimating the largest Lyapunov exponent from observations of a process is especially challenging in systems affected by dynamical noise, which is the case for many models of real-world processes, in particular models of biological systems. We describe a novel method for estimating the largest Lyapunov exponent from data, based on training Deep Learning models on synthetically generated trajectories, and demonstrate that this method yields accurate and noise-robust predictions given relatively short inputs and across a range of different dynamical systems. Our method is unique in that it can analyze tree-shaped data, a ubiquitous topology in biological settings, and specifically in dynamics over lineages of cells or organisms. We also characterize the types of input information extracted by our models for their predictions, allowing for a deeper understanding into the different ways by which chaos can be analyzed in different topologies.
翻訳日:2021-06-20 18:14:23 公開日:2021-06-08
# (参考訳) 量子ポテンシャルニューラルネットワークの多電子原子への応用 [全文訳有]

Application of the Quantum Potential Neural Network to multi-electronic atoms ( http://arxiv.org/abs/2106.08138v1 )

ライセンス: CC BY 4.0
Hector H. Corzo and Arijit Sehanobish and Onur Kara(参考訳) 本稿では、多くの電子原子系への量子ポテンシャルニューラルネットワーク(QPNN)フレームワークの適用について述べる。 本研究では,QPNNをトレーニングするために,予め定義された精度の限界内での1電子密度関数のフル構成相互作用(FCI)を用いた。 その結果, このニューラルネットワークは, 完全に教師なしの方法で多くの電子原子の有効ポテンシャル関数を学習でき, 確率密度からの限られた情報しか利用できないことが示唆された。 研究対象のシステム毎に学習した有効なポテンシャル関数を用いて、QPNNは、各システムの総エネルギー(最大10トライアル)を、FCIエネルギーと比較して顕著な精度で推定することができた。

In this report, the application of the Quantum Potential Neural Network (QPNN) framework to many electron atomic systems is presented. For this study, full configuration interaction (FCI) one--electron density functions within predefined limits of accuracy were used to train the QPNN. The obtained results suggest that this new neural network is capable of learning the effective potential functions of many electron atoms in a completely unsupervised manner, and using only limited information from the probability density. Using the effective potential functions learned for each of the studied systems the QPNN was able to estimate the total energies of each of the systems (with a maximum of 10 trials) with a remarkable accuracy when compared to the FCI energies.
翻訳日:2021-06-20 17:56:58 公開日:2021-06-08
# (参考訳) 機械学習による運転シナリオにおける将来のストレス事象の予測 [全文訳有]

Machine Learning Based Prediction of Future Stress Events in a Driving Scenario ( http://arxiv.org/abs/2106.07542v1 )

ライセンス: CC BY 4.0
Joseph Clark, Rajdeep Kumar Nath, Himanshu Thapliyal(参考訳) 本稿では,運転者のストレスレベルを最大1分前まで予測するモデルを提案する。 将来のストレスの予測に成功すれば、被験者がストレスになる前にストレス軽減が始められ、ストレスのパフォーマンス上のペナルティを低減または回避できる。 提案モデルでは,足と手にあるGalvanic Skin Response(GSR)信号と,運転者の胸部からの呼吸・心電図(ECG)信号から抽出した特徴を抽出する。 モデルのトレーニングに使用されたデータは、既存のデータベースから取得され、その後、統計的および頻度的特徴を作成するために処理される。 データから42個の特徴を抽出し、各特徴について各グループの6つの統計的測定値を用いて、合計252個の特徴に拡張した。 ランダム・フォレスト分類器を訓練し, 実験手法を用いて評価した。 このモデルはテストデータで平均94%の精度を達成した。 その結果,モデルの性能は良好であり,車両のストレス防止システムの一部として使用できることがわかった。

This paper presents a model for predicting a driver's stress level up to one minute in advance. Successfully predicting future stress would allow stress mitigation to begin before the subject becomes stressed, reducing or possibly avoiding the performance penalties of stress. The proposed model takes features extracted from Galvanic Skin Response (GSR) signals on the foot and hand and Respiration and Electrocardiogram (ECG) signals from the chest of the driver. The data used to train the model was retrieved from an existing database and then processed to create statistical and frequency features. A total of 42 features were extracted from the data and then expanded into a total of 252 features by grouping the data and taking six statistical measurements of each group for each feature. A Random Forest Classifier was trained and evaluated using a leave-one-subject-ou t testing approach. The model achieved 94% average accuracy on the test data. Results indicate that the model performs well and could be used as part of a vehicle stress prevention system.
翻訳日:2021-06-20 17:50:21 公開日:2021-06-08
# (参考訳) 画像とテキストの分類による塩分マップの健全性チェックの検討 [全文訳有]

Investigating sanity checks for saliency maps with image and text classification ( http://arxiv.org/abs/2106.07475v1 )

ライセンス: CC BY 4.0
Narine Kokhlikyan, Vivek Miglani, Bilal Alsallakh, Miguel Martin and Orion Reblitz-Richardson(参考訳) 塩分マップは、特に画像の文脈でモデル予測を説明するのに有用かつ誤解を招くことが示されている。 本稿では,テキストモダリティの健全性チェックを行い,画像に対する結論がテキストに直接転送されないことを示す。 また、類似度スコア、最大感度、不忠実度評価指標を用いて、入力乗数の影響を分析する。 その結果,入力乗算器は説明写像において入力の構造パターンを伝達し,モデルパラメータの選択によらず同様の結果が得られることがわかった。 また、ニューラルネットワーク(NN)関数の滑らかさが、相性に基づく説明の質に影響を及ぼすことを示す。 我々の研究は、ReLUをSoftplusやMaxPoolに置き換え、LogSumExp(LSE)のようなスムーズな変種に置き換えることで、不確実性評価基準に基づいてより信頼性の高い説明を導出できることを示した。

Saliency maps have shown to be both useful and misleading for explaining model predictions especially in the context of images. In this paper, we perform sanity checks for text modality and show that the conclusions made for image do not directly transfer to text. We also analyze the effects of the input multiplier in certain saliency maps using similarity scores, max-sensitivity and infidelity evaluation metrics. Our observations reveal that the input multiplier carries input's structural patterns in explanation maps, thus leading to similar results regardless of the choice of model parameters. We also show that the smoothness of a Neural Network (NN) function can affect the quality of saliency-based explanations. Our investigations reveal that replacing ReLUs with Softplus and MaxPool with smoother variants such as LogSumExp (LSE) can lead to explanations that are more reliable based on the infidelity evaluation metric.
翻訳日:2021-06-20 17:44:07 公開日:2021-06-08
# (参考訳) 確率的正準相関解析のためのオンラインリーマンPCA [全文訳有]

An Online Riemannian PCA for Stochastic Canonical Correlation Analysis ( http://arxiv.org/abs/2106.07479v1 )

ライセンス: CC BY 4.0
Zihang Meng, Rudrasis Chakraborty, Vikas Singh(参考訳) 投影行列の再パラメータ化を用いた正準相関解析(CCA)のための効率的な確率的アルゴリズム(RSG+)を提案する。 この再パラメトリゼーション(into structured matrices, into structured matrices)を後から見れば、リーマン多様体上の数値最適化の手法を再利用・調整する機会を直接提示する。 当社の開発では,1イテレーションあたりの$o(d^3)$時間複雑性を$o(\frac{1}{\sqrt{t}})$収束率(ここで$d$は次元)で求めるか,あるいは$o(\frac{1}{t})$収束率でトップ$コンポーネントを抽出するか,という既存の手法をうまく補完しています。 対照的に、我々のアルゴリズムは、この古典的な問題に対して厳格に改善する:$O(d^2k)$実行時複雑性を達成し、$O(\frac{1}{t})$収束率で上位の$k$標準成分を抽出する。 本論文は,その特性の定式化と技術的解析に主眼を置いているが,本実験により,共通のデータセット上での経験的挙動が有望であることを示す。 また、保護属性のラベルが欠落している、あるいは利用できないフェアモデルのトレーニングにおける潜在的な応用についても検討する。

We present an efficient stochastic algorithm (RSG+) for canonical correlation analysis (CCA) using a reparametrization of the projection matrices. We show how this reparametrization (into structured matrices), simple in hindsight, directly presents an opportunity to repurpose/adjust mature techniques for numerical optimization on Riemannian manifolds. Our developments nicely complement existing methods for this problem which either require $O(d^3)$ time complexity per iteration with $O(\frac{1}{\sqrt{t}})$ convergence rate (where $d$ is the dimensionality) or only extract the top $1$ component with $O(\frac{1}{t})$ convergence rate. In contrast, our algorithm offers a strict improvement for this classical problem: it achieves $O(d^2k)$ runtime complexity per iteration for extracting the top $k$ canonical components with $O(\frac{1}{t})$ convergence rate. While the paper primarily focuses on the formulation and technical analysis of its properties, our experiments show that the empirical behavior on common datasets is quite promising. We also explore a potential application in training fair models where the label of protected attribute is missing or otherwise unavailable.
翻訳日:2021-06-20 17:34:42 公開日:2021-06-08
# MR緩和法における逆問題解法としてのリカレント推論マシン

Recurrent Inference Machines as inverse problem solvers for MR relaxometry ( http://arxiv.org/abs/2106.07379v1 )

ライセンス: Link先を確認
E. R. Sabidussi, S. Klein, M. W. A. Caan, S. Bazrafkan, A. J. den Dekker, J. Sijbers, W. J. Niessen, D. H. J. Poot(参考訳) 本稿では,T1およびT2マッピングの実行にRIM(Recurrent Inference Machines)を用いることを提案する。 RIMは、信号モデルに基づいて反復推論プロセスを学ぶニューラルネットワークフレームワークであり、MLE(Maximum Likelihood Estimator)のような定量的MRI(QMRI)の従来の統計手法と同様である。 このフレームワークは、データ駆動手法とモデルベース手法の両方の利点を組み合わせ、我々は、QMRIにとって有望なツールであると仮定する。 以前は、RIMは線形逆再構成の問題を解決するために用いられていた。 ここでは, 非線形問題を最適化し, 高精度かつ高精度なリラクソメトリマップを推定するためにも利用できることを示す。 開発したrimフレームワークは精度と精度で評価され、mle法やresnetの実装と比較される。 その結果, RIMは, シミュレーションデータを用いたモンテカルロ実験, システムファントムのテスト・テスト解析, およびin-vivoスキャンの他の手法と比較して, 推定精度を向上することがわかった。 さらに、RIMによる推論はMLEの150倍高速であり、スキャンパラメータの(軽い)バリエーションに対する堅牢性を示す。 したがって、RIMはQMRIのための有望で柔軟な方法である。 オープンソースのトレーニングデータ生成ツールと組み合わせることで、従来の方法よりも魅力的な代替手段を提供する。

In this paper, we propose the use of Recurrent Inference Machines (RIMs) to perform T1 and T2 mapping. The RIM is a neural network framework that learns an iterative inference process based on the signal model, similar to conventional statistical methods for quantitative MRI (QMRI), such as the Maximum Likelihood Estimator (MLE). This framework combines the advantages of both data-driven and model-based methods, and, we hypothesize, is a promising tool for QMRI. Previously, RIMs were used to solve linear inverse reconstruction problems. Here, we show that they can also be used to optimize non-linear problems and estimate relaxometry maps with high precision and accuracy. The developed RIM framework is evaluated in terms of accuracy and precision and compared to an MLE method and an implementation of the ResNet. The results show that the RIM improves the quality of estimates compared to the other techniques in Monte Carlo experiments with simulated data, test-retest analysis of a system phantom, and in-vivo scans. Additionally, inference with the RIM is 150 times faster than the MLE, and robustness to (slight) variations of scanning parameters is demonstrated. Hence, the RIM is a promising and flexible method for QMRI. Coupled with an open-source training data generation tool, it presents a compelling alternative to previous methods.
翻訳日:2021-06-20 16:13:05 公開日:2021-06-08
# 新しい分類に基づく意思決定支援システムを用いた複数基準決定分析手法の推薦

Recommending Multiple Criteria Decision Analysis Methods with A New Taxonomy-based Decision Support System ( http://arxiv.org/abs/2106.07378v1 )

ライセンス: Link先を確認
Marco Cinelli, Mi{\l}osz Kadzi\'nski, Grzegorz Miebs, Michael Gonzalez, Roman S{\l}owi\'nski(参考訳) 本稿では,Multiple Criteria Decision Analysis Methods Selection Software (MCDA-MSS)を提案する。 この意思決定支援システムは、分析者が意思決定科学における繰り返し質問に答えるのに役立つ: 与えられた意思決定問題(DMP)に使用されるべき多重基準決定分析法(MCDAメソッドのサブセット)は、どちらが最適か。 MCDA-MSSは意思決定プロセスをリードし、MCDA手法の広範なコレクション(200以上)を選択するためのガイダンスを含んでいる。 これらは、元の包括的な問題特性のセットに基づいて評価される。 説明された特徴は、問題定式化、選好誘発および選好情報の種類、選好モデルの望ましい特徴、決定推薦の構成に関するものである。 MCDA-MSSの適用性はいくつかのケーススタディで検証されている。 MCDA-MSSは、(i)非常に単純なDMPから非常に複雑なDMPまでをカバーする能力、(ii)コレクションからのメソッドにマッチしないDMPへの推奨を提供すること、(iii)DMPの記述におけるギャップを減らすための努力の優先順位付けを支援すること、(iv)メソッドの選択で発生する方法論上の誤りを明らかにすることを含む。 MCDA方法論の専門家、これらの手法を用いたアナリスト、決定勧告を受けた意思決定者を含むコミュニティ全体のイニシアティブは、MCDA-MSSの拡大に寄与する。

We present the Multiple Criteria Decision Analysis Methods Selection Software (MCDA-MSS). This decision support system helps analysts answering a recurring question in decision science: Which is the most suitable Multiple Criteria Decision Analysis method (or a subset of MCDA methods) that should be used for a given Decision-Making Problem (DMP)?. The MCDA-MSS includes guidance to lead decision-making processes and choose among an extensive collection (over 200) of MCDA methods. These are assessed according to an original comprehensive set of problem characteristics. The accounted features concern problem formulation, preference elicitation and types of preference information, desired features of a preference model, and construction of the decision recommendation. The applicability of the MCDA-MSS has been tested on several case studies. The MCDA-MSS includes the capabilities of (i) covering from very simple to very complex DMPs, (ii) offering recommendations for DMPs that do not match any method from the collection, (iii) helping analysts prioritize efforts for reducing gaps in the description of the DMPs, and (iv) unveiling methodological mistakes that occur in the selection of the methods. A community-wide initiative involving experts in MCDA methodology, analysts using these methods, and decision-makers receiving decision recommendations will contribute to expansion of the MCDA-MSS.
翻訳日:2021-06-20 16:12:14 公開日:2021-06-08
# GeoMol: 分子3次元コンバータアンサンブルのねじり幾何学的生成

GeoMol: Torsional Geometric Generation of Molecular 3D Conformer Ensembles ( http://arxiv.org/abs/2106.07802v1 )

ライセンス: Link先を確認
Octavian-Eugen Ganea, Lagnajit Pattanaik, Connor W. Coley, Regina Barzilay, Klavs F. Jensen, William H. Green, Tommi S. Jaakkola(参考訳) 分子グラフからの分子の3Dコンホメーラーアンサンブルの予測は、化学情報学と薬物発見の領域において重要な役割を果たす。 既存の生成モデルには、重要な分子幾何要素のモデリングの欠如など、いくつかの欠点がある。 ねじれ角度)、分離された最適化段階は誤差の蓄積、および近似古典力場に基づく構造微調整の必要性、あるいは各幾何学における近似量子力学計算を伴うメタ力学のような計算コストの高い方法が必要である。 本稿では,低エネルギー分子3次元コンフォーメータの分布を生成するために,エンドツーエンド,非自己回帰的,se(3)不変な機械学習手法を提案する。 局所的およびグローバルなグラフ情報を取得するために、メッセージパッシングニューラルネットワーク(MPNN)のパワーを活用して、局所的な原子3次元構造とねじれ角を予測し、幾何学的自由度(例えば、不必要に過度なパラメータ化を避ける。 非終端結合1角度)。 このような局所的な予測は、トレーニング損失計算と完全な決定論的コンフォーマアセンブリ(テスト時間)の両方で十分である。 多様なコンバータ生成を促進するために,非対角輸送に基づく損失関数を考案する。 GeoMolは主に、人気の高いオープンソース、商用、あるいは最先端の機械学習(ML)モデルを上回っ、大幅なスピードアップを実現している。 このような微分可能な3次元構造発生器が分子モデリングや関連応用に大きな影響を与えることを期待している。

Prediction of a molecule's 3D conformer ensemble from the molecular graph holds a key role in areas of cheminformatics and drug discovery. Existing generative models have several drawbacks including lack of modeling important molecular geometry elements (e.g. torsion angles), separate optimization stages prone to error accumulation, and the need for structure fine-tuning based on approximate classical force-fields or computationally expensive methods such as metadynamics with approximate quantum mechanics calculations at each geometry. We propose GeoMol--an end-to-end, non-autoregressive and SE(3)-invariant machine learning approach to generate distributions of low-energy molecular 3D conformers. Leveraging the power of message passing neural networks (MPNNs) to capture local and global graph information, we predict local atomic 3D structures and torsion angles, avoiding unnecessary over-parameterizatio n of the geometric degrees of freedom (e.g. one angle per non-terminal bond). Such local predictions suffice both for the training loss computation, as well as for the full deterministic conformer assembly (at test time). We devise a non-adversarial optimal transport based loss function to promote diverse conformer generation. GeoMol predominantly outperforms popular open-source, commercial, or state-of-the-art machine learning (ML) models, while achieving significant speed-ups. We expect such differentiable 3D structure generators to significantly impact molecular modeling and related applications.
翻訳日:2021-06-20 16:11:32 公開日:2021-06-08
# 反応予測のための非自己回帰電子再分配モデル

Non-Autoregressive Electron Redistribution Modeling for Reaction Prediction ( http://arxiv.org/abs/2106.07801v1 )

ライセンス: Link先を確認
Hangrui Bi, Hengyi Wang, Chence Shi, Connor Coley, Jian Tang, Hongyu Guo(参考訳) 化学反応の産物を確実に予測することは、化学合成における根本的な課題である。 既存の機械学習アプローチは、通常、部分または中間分子を順次形成することによって反応生成物を生成する。 しかし、このような自己回帰的手法は、インクリメンタルな構築のために事前に定義された順序を必要とするだけでなく、効率的な計算のために並列デコードを使うことを妨げている。 これらの問題に対処するため,反応を予測する非自己回帰学習パラダイムを考案した。 化学反応が分子内の電子の再分配として記述できるという事実を利用して、反応を任意の電子フローとして定式化し、新しいマルチポインター復号ネットワークで予測する。 USPTO-MITデータセットの実験は、我々の手法が新しい最先端トップ1の精度を確立し、最先端の手法よりも少なくとも27倍の推論速度を達成することを示している。 また、我々の予測は、電子の流れの予測により、化学者が解釈しやすい。

Reliably predicting the products of chemical reactions presents a fundamental challenge in synthetic chemistry. Existing machine learning approaches typically produce a reaction product by sequentially forming its subparts or intermediate molecules. Such autoregressive methods, however, not only require a pre-defined order for the incremental construction but preclude the use of parallel decoding for efficient computation. To address these issues, we devise a non-autoregressive learning paradigm that predicts reaction in one shot. Leveraging the fact that chemical reactions can be described as a redistribution of electrons in molecules, we formulate a reaction as an arbitrary electron flow and predict it with a novel multi-pointer decoding network. Experiments on the USPTO-MIT dataset show that our approach has established a new state-of-the-art top-1 accuracy and achieves at least 27 times inference speedup over the state-of-the-art methods. Also, our predictions are easier for chemists to interpret owing to predicting the electron flows.
翻訳日:2021-06-20 16:10:26 公開日:2021-06-08
# (参考訳) sentinel-2画像と機械学習モデルによる海洋浮遊プラスチックの検出

Detection of marine floating plastic using Sentinel-2 imagery and machine learning models ( http://arxiv.org/abs/2106.03694v2 )

ライセンス: CC BY 4.0
Srikanta Sannigrahi, Bidroha Basu, Arunima Sarkar Basu, Francesco Pilla(参考訳) 海洋プラスチック汚染の増加は海洋生態系や生物多様性に深刻な脅威をもたらす。 本研究では,ミチレン (ギリシャ) , リマソール (キプロス) , カラブリア (イタリア) , ベイルート (レバノン) に浮かぶプラスチックの破片を検出し, 分類するためのオープンセンチネル衛星データとMLモデルの全機能について検討した。 2つのMLモデル、すなわち。 支援ベクトルマシン(SVM)とランダムフォレスト(RF)を用いて分類分析を行った。 ギリシャのミティレネとキプロスのリマソールで実施された制御実験から, その場でプラスチックの位置データを収集した。 リモートセンシングバンドとスペクトル指標の両方がMLモデルの開発に使用された。 プラスチックのスペクトルシグネチャプロファイルは、浮遊するプラスチックを他の海洋ゴミと区別するために作られた。 新たに開発されたカーネル正規化差分植生指数(カーネル正規化差分植生指数)(kNDVI)はモデル性能への寄与を調べるためにモデルに組み込まれた。 SVMとRFは5つのモデルとテストケースの組み合わせで良好に動作した。 2つのMLモデルのうち,RFの最高性能を測定した。 kNDVIはモデル2で測定された高いバランス精度(SVMで約80%~98%、RFで約87%~97%)で反映され,有効であることが判明した。 最善のパーフォームモデルを用いて、カラブリアとベイルートで自動浮遊プラスチック検出システムを開発しテストした。 両方の現場で、訓練されたモデルは浮きプラスチックを99%の精度で検出した。 6つの予測器のうち、FDIは海洋浮遊プラスチックを検出する上で最も重要な変数であることがわかった。 これらの結果は,高分解能リモートセンシング画像と自動mlモデルが海洋浮遊プラスチックの検出に有効な代替手段であることを示唆している。

The increasing level of marine plastic pollution poses severe threats to the marine ecosystem and biodiversity. The present study attempted to explore the full functionality of open Sentinel satellite data and ML models for detecting and classifying floating plastic debris in Mytilene (Greece), Limassol (Cyprus), Calabria (Italy), and Beirut (Lebanon). Two ML models, i.e. Support Vector Machine (SVM) and Random Forest (RF) were utilized to carry out the classification analysis. In-situ plastic location data was collected from the control experiment conducted in Mytilene, Greece and Limassol, Cyprus, and the same was considered for training the models. Both remote sensing bands and spectral indices were used for developing the ML models. A spectral signature profile for plastic was created for discriminating the floating plastic from other marine debris. A newly developed index, kernel Normalized Difference Vegetation Index (kNDVI), was incorporated into the modelling to examine its contribution to model performances. Both SVM and RF were performed well in five models and test case combinations. Among the two ML models, the highest performance was measured for the RF. The inclusion of kNDVI was found effective and increased the model performances, reflected by high balanced accuracy measured for model 2 (~80% to ~98 % for SVM and ~87% to ~97 % for RF). Using the best-performed model, an automated floating plastic detection system was developed and tested in Calabria and Beirut. For both sites, the trained model had detected the floating plastic with ~99% accuracy. Among the six predictors, the FDI was found the most important variable for detecting marine floating plastic. These findings collectively suggest that high-resolution remote sensing imagery and the automated ML models can be an effective alternative for the cost-effective detection of marine floating plastic.
翻訳日:2021-06-15 14:32:36 公開日:2021-06-08
# (参考訳) 主要なビット分析: Schur-Concave Lossによる自動エンコーディング [全文訳有]

Principal Bit Analysis: Autoencoding with Schur-Concave Loss ( http://arxiv.org/abs/2106.02796v2 )

ライセンス: CC BY 4.0
Sourbh Bhadane, Aaron B. Wagner, Jayadev Acharya(参考訳) 我々は、潜在変数が量子化され、ノイズによって劣化する線形自己エンコーダを考察し、潜在変数の集合における制約はシュル・コンケーブである。 この設定で最適なエンコーダ/デコーダペアを見つけることは非凸最適化問題であるが、ソースを主成分に分解することが最適であることを示す。 制約が厳密で経験的共分散行列が単純な固有値しか持たない場合、任意の最適なエンコーダ/デコーダはこの方法でソースを分解しなければならない。 1つのアプリケーションとして、固定レートエンコーディングの下で潜伏変数を表すのに必要なビット数を推定する厳密なSchur-concave制約を考え、これを \emph{Principal Bit Analysis (PBA) と呼ぶ。 これにより、既存のアルゴリズムを上回る実用的で汎用的な固定レート圧縮機が得られる。 第2の応用として,原型的なオートエンコーダベースの可変レート圧縮器では,ソースを主成分に分解することが保証されている。

We consider a linear autoencoder in which the latent variables are quantized, or corrupted by noise, and the constraint is Schur-concave in the set of latent variances. Although finding the optimal encoder/decoder pair for this setup is a nonconvex optimization problem, we show that decomposing the source into its principal components is optimal. If the constraint is strictly Schur-concave and the empirical covariance matrix has only simple eigenvalues, then any optimal encoder/decoder must decompose the source in this way. As one application, we consider a strictly Schur-concave constraint that estimates the number of bits needed to represent the latent variables under fixed-rate encoding, a setup that we call \emph{Principal Bit Analysis (PBA)}. This yields a practical, general-purpose, fixed-rate compressor that outperforms existing algorithms. As a second application, we show that a prototypical autoencoder-based variable-rate compressor is guaranteed to decompose the source into its principal components.
翻訳日:2021-06-14 08:33:20 公開日:2021-06-08
# (参考訳) Tetrad: セキュアトレーニングと推論のためのアクティブなセキュアな4PC

Tetrad: Actively Secure 4PC for Secure Training and Inference ( http://arxiv.org/abs/2106.02850v2 )

ライセンス: CC BY 4.0
Nishat Koti, Arpita Patra, Rahul Rachuri, Ajith Suresh(参考訳) 本研究では,プライバシ保護機械学習への応用を目的とした,効率的な混合プロトコルフレームワークTetradを設計する。 これは、少なくとも1つのアクティブな腐敗とリングをサポートする4つのパーティーのセッティングのために設計されている。 我々の公正な乗算プロトコルは、トライデントの最先端プロトコル(Chaudhari et al)で改善された5つのリング要素のみを通信する必要がある。 NDSS'20)。 Tetradの技術的ハイライトは、オーバーヘッドのない効率的な (a) トランケーション、(b) 算術とブール世界のマルチインプット乗算プロトコル、(c) garbled-world、混合プロトコールフレームワーク用のテーラーメイド、(d) 計算スタイルを切り替えるための変換機構である。 公正なフレームワークも拡張され、コストを膨らませることなく堅牢性を提供する。 tetradの能力は、lenetやvgg16といったディープニューラルネットワークやサポートベクターマシンのベンチマークでテストされている。 私たちのフレームワークの1つの変種は、実行時間を最小化することを目的としています。 これらのパラメータに対するtridentの最大6倍の改善を観察した。

In this work, we design an efficient mixed-protocol framework, Tetrad, with applications to privacy-preserving machine learning. It is designed for the four-party setting with at most one active corruption and supports rings. Our fair multiplication protocol requires communicating only 5 ring elements improving over the state-of-the-art protocol of Trident (Chaudhari et al. NDSS'20). The technical highlights of Tetrad include efficient (a) truncation without any overhead, (b) multi-input multiplication protocols for arithmetic and boolean worlds, (c) garbled-world, tailor-made for the mixed-protocol framework, and (d) conversion mechanisms to switch between the computation styles. The fair framework is also extended to provide robustness without inflating the costs. The competence of Tetrad is tested with benchmarks for deep neural networks such as LeNet and VGG16 and support vector machines. One variant of our framework aims at minimizing the execution time, while the other focuses on the monetary cost. We observe improvements up to 6x over Trident across these parameters.
翻訳日:2021-06-14 05:34:43 公開日:2021-06-08
# ショートラン推論による生成テキストモデリング

Generative Text Modeling through Short Run Inference ( http://arxiv.org/abs/2106.02513v2 )

ライセンス: Link先を確認
Bo Pang, Erik Nijkamp, Tian Han, Ying Nian Wu(参考訳) テキストの潜在変数モデルは、トレーニングが成功すれば、データ分散を正確にモデル化し、文のグローバルな意味的特徴と構文的特徴をキャプチャする。 そのようなモデルを訓練するための顕著なアプローチは変分オートエンコーダ(vae)である。 それにもかかわらず、訓練は困難であり、しばしば自明な局所的な最適化をもたらすが、潜伏変数は無視され、後続変数が前の状態に崩壊する(後続崩壊と呼ばれる)。 この問題を緩和する様々な手法が提案されている。 その多くは、高い品質の潜在コードを生成するための推論モデルの改善に重点を置いている。 本研究は,推論のための短時間実行ダイナミクスを提案する。 後続変数の事前分布から初期化され、後続分布によって導かれるランゲヴィン力学ステップの少数の数(例:20)を実行する。 提案手法の主な利点は, 独立な推論モデルや後続分布の単純な幾何学を前提とせず, 自動的, 自然的, 柔軟な推論エンジンを設計することである。 短ランダイナミクスで訓練されたモデルは,強固な言語モデルやvaeベースラインと比較して,より正確なデータモデル化が可能であり,後方崩壊の兆候はみられなかった。 潜在空間の解析により、潜在空間の補間は滑らかな遷移を伴うコヒーレント文を生成することができ、教師なし事前学習による潜在特徴を持つ強いベースライン上での分類の改善が示されている。 これらの結果は共に、我々の生成モデルのよく構造化された潜在空間を露呈する。

Latent variable models for text, when trained successfully, accurately model the data distribution and capture global semantic and syntactic features of sentences. The prominent approach to train such models is variational autoencoders (VAE). It is nevertheless challenging to train and often results in a trivial local optimum where the latent variable is ignored and its posterior collapses into the prior, an issue known as posterior collapse. Various techniques have been proposed to mitigate this issue. Most of them focus on improving the inference model to yield latent codes of higher quality. The present work proposes a short run dynamics for inference. It is initialized from the prior distribution of the latent variable and then runs a small number (e.g., 20) of Langevin dynamics steps guided by its posterior distribution. The major advantage of our method is that it does not require a separate inference model or assume simple geometry of the posterior distribution, thus rendering an automatic, natural and flexible inference engine. We show that the models trained with short run dynamics more accurately model the data, compared to strong language model and VAE baselines, and exhibit no sign of posterior collapse. Analyses of the latent space show that interpolation in the latent space is able to generate coherent sentences with smooth transition and demonstrate improved classification over strong baselines with latent features from unsupervised pretraining. These results together expose a well-structured latent space of our generative model.
翻訳日:2021-06-13 13:58:45 公開日:2021-06-08
# (参考訳) 列変換における潜在アライメントのモデル化のための構造的順序付け [全文訳有]

Structured Reordering for Modeling Latent Alignments in Sequence Transduction ( http://arxiv.org/abs/2106.03257v2 )

ライセンス: CC BY 4.0
Bailin Wang, Mirella Lapata and Ivan Titov(参考訳) 多くのドメインで成功しているにもかかわらず、ニューラルモデルは、異なるディストリビューションから列車とテスト例が引き出される設定で苦労している。 特に、人間とは対照的に、従来のシーケンシャル・ツー・シークエンス(seq2seq)モデルは、訓練で見られる概念(例えばテキストセグメント)の新しい組み合わせを表す文を体系的に一般化することができない。 伝統的な文法形式は、入力セグメントと出力セグメントの間のアライメントを暗黙的にエンコードすることでこのような設定で優れているが、スケールや保守は困難である。 文法を設計する代わりに、セグメント間アライメントを直接、ニューラルセク2セックモデル内の離散構造付き潜在変数としてモデル化する。 アライメントの大きな空間を効率的に探究するために、中央コンポーネントが"it separable} 置換を生成する神経再順序付けモジュールであるリオーダーファーストアライメント・アライメント・アライメント・アライメント・アライメントフレームワークを導入する。 本稿では,分離可能な置換の正確な辺縁推論を行う効率的な動的プログラミングアルゴリズムを提案する。 結果のSeq2seqモデルは、合成問題やNLPタスク(セマンティックパーシングや機械翻訳)の標準モデルよりも体系的な一般化が優れている。

Despite success in many domains, neural models struggle in settings where train and test examples are drawn from different distributions. In particular, in contrast to humans, conventional sequence-to-sequence (seq2seq) models fail to generalize systematically, i.e., interpret sentences representing novel combinations of concepts (e.g., text segments) seen in training. Traditional grammar formalisms excel in such settings by implicitly encoding alignments between input and output segments, but are hard to scale and maintain. Instead of engineering a grammar, we directly model segment-to-segment alignments as discrete structured latent variables within a neural seq2seq model. To efficiently explore the large space of alignments, we introduce a reorder-first align-later framework whose central component is a neural reordering module producing {\it separable} permutations. We present an efficient dynamic programming algorithm performing exact marginal inference of separable permutations, and, thus, enabling end-to-end differentiable training of our model. The resulting seq2seq model exhibits better systematic generalization than standard models on synthetic problems and NLP tasks (i.e., semantic parsing and machine translation).
翻訳日:2021-06-13 06:30:59 公開日:2021-06-08
# (参考訳) バッグングとブースティングを併用した最適混合確率モデル [全文訳有]

A Bagging and Boosting Based Convexly Combined Optimum Mixture Probabilistic Model ( http://arxiv.org/abs/2106.05840v1 )

ライセンス: CC BY-SA 4.0
Mian Arif Shams Adnan, H. M. Miraz Mahmud(参考訳) 混合分布に関するこれまでの研究と異なり, バグングおよびブースティングに基づく凸混合混合確率モデルが提案されている。 このモデルは、最大p値を与える最適確率モデルを得るための反復探索の結果である。

Unlike previous studies on mixture distributions, a bagging and boosting based convexly combined mixture probabilistic model has been suggested. This model is a result of iteratively searching for obtaining the optimum probabilistic model that provides the maximum p value.
翻訳日:2021-06-13 05:39:38 公開日:2021-06-08
# データと物理から機能的優先順位と後進を学習する

Learning Functional Priors and Posteriors from Data and Physics ( http://arxiv.org/abs/2106.05863v1 )

ライセンス: Link先を確認
Xuhui Meng, Liu Yang, Zhiping Mao, Jose del Aguila Ferrandis, George Em Karniadakis(参考訳) 本研究では,深層ニューラルネットワークに基づく新しいベイズフレームワークを開発し,過去のデータを用いて時空推定を行い,物理問題におけるノイズデータとギャップデータの両方から生じる不確かさを定量化する。 特に,提案手法は,(1)事前学習と(2)後方推定の2段階からなる。 第一段階では、物理インフォームド・ジェネレーティブ・アダクティブ・アダクティブ・ネットワーク(PI-GAN)を用いて、所定の関数分布、例えばガウス過程、または歴史的データや物理から関数事前を学習する。 第2段階では, PI-GANの潜伏空間の後方を推定するために, ハミルトニアンモンテカルロ法(HMC)を用いる。 さらに, 物理を符号化するために, 1) 特定偏微分方程式 (PDE) のシナリオに対して物理情報ニューラルネットワーク (PINN) で使用される自動微分と, (2) PDEに依存しないシナリオに対してディープ演算子ネットワーク (DeepONet) を用いた演算子の回帰の2つのアプローチを用いる。 提案手法は,(1)一次元回帰のメタラーニング,(2)ピンと組み合わさった前方/逆pde問題,(2)不均質多孔質媒質中における分数拡散と飽和確率(100次元)流のpde非依存物理問題,(3)海洋ライザー変位場の空間-時間的回帰問題,などである。 その結果, 提案手法は, 精度の高い予測と不確かさの定量化を, 極めて限られた散乱データと雑音データで実現できることが判明した。 提案手法はフレキシブルな機能的事前学習が可能であり,一般に低次元として特徴付けられるため,確率的HMCや正規化フローを用いてビッグデータ問題に拡張することができる。

We develop a new Bayesian framework based on deep neural networks to be able to extrapolate in space-time using historical data and to quantify uncertainties arising from both noisy and gappy data in physical problems. Specifically, the proposed approach has two stages: (1) prior learning and (2) posterior estimation. At the first stage, we employ the physics-informed Generative Adversarial Networks (PI-GAN) to learn a functional prior either from a prescribed function distribution, e.g., Gaussian process, or from historical data and physics. At the second stage, we employ the Hamiltonian Monte Carlo (HMC) method to estimate the posterior in the latent space of PI-GANs. In addition, we use two different approaches to encode the physics: (1) automatic differentiation, used in the physics-informed neural networks (PINNs) for scenarios with explicitly known partial differential equations (PDEs), and (2) operator regression using the deep operator network (DeepONet) for PDE-agnostic scenarios. We then test the proposed method for (1) meta-learning for one-dimensional regression, and forward/inverse PDE problems (combined with PINNs); (2) PDE-agnostic physical problems (combined with DeepONet), e.g., fractional diffusion as well as saturated stochastic (100-dimensional) flows in heterogeneous porous media; and (3) spatial-temporal regression problems, i.e., inference of a marine riser displacement field. The results demonstrate that the proposed approach can provide accurate predictions as well as uncertainty quantification given very limited scattered and noisy data, since historical data could be available to provide informative priors. In summary, the proposed method is capable of learning flexible functional priors, and can be extended to big data problems using stochastic HMC or normalizing flows since the latent space is generally characterized as low dimensional.
翻訳日:2021-06-11 14:14:08 公開日:2021-06-08
# (参考訳) PEARL: 私的埋め込みによるデータ合成と敵対的再構築学習 [全文訳有]

PEARL: Data Synthesis via Private Embeddings and Adversarial Reconstruction Learning ( http://arxiv.org/abs/2106.04590v1 )

ライセンス: CC BY 4.0
Seng Pei Liew, Tsubasa Takahashi, Michihiko Ueno(参考訳) 本稿では,深層生成モデルを用いたデータ合成の新しい枠組みを提案する。 フレームワーク内では、センシティブなデータを厳密なプライバシ保証で一括してサニタイズすることで、元のデータを再利用することなく、深層生成モデルのトレーニングが可能になる。 したがって、訓練の繰り返しが増加するにつれてプライバシーの保証が低下する、差分的プライベート確率勾配(DP-SGD)のような一般的なアプローチとは対照的に、追加のプライバシコストやモデル制約は発生しない。 我々は, 特徴関数と敵対的再重み付け目的を用いて, 独立した関心を持つフレームワークの実現を実証する。 提案手法は理論的に性能が保証され,複数のデータセットに対する経験的評価により,提案手法が適切なプライバシーレベルで他の手法よりも優れていることが示された。

We propose a new framework of synthesizing data using deep generative models in a differentially private manner. Within our framework, sensitive data are sanitized with rigorous privacy guarantees in a one-shot fashion, such that training deep generative models is possible without re-using the original data. Hence, no extra privacy costs or model constraints are incurred, in contrast to popular approaches such as Differentially Private Stochastic Gradient Descent (DP-SGD), which, among other issues, causes degradation in privacy guarantees as the training iteration increases. We demonstrate a realization of our framework by making use of the characteristic function and an adversarial re-weighting objective, which are of independent interest as well. Our proposal has theoretical guarantees of performance, and empirical evaluations on multiple datasets show that our approach outperforms other methods at reasonable levels of privacy.
翻訳日:2021-06-11 12:52:16 公開日:2021-06-08
# (参考訳) もう一度確認する: ビジュアルエンターテイメントによるプログレッシブなビジュアル質問回答 [全文訳有]

Check It Again: Progressive Visual Question Answering via Visual Entailment ( http://arxiv.org/abs/2106.04605v1 )

ライセンス: CC BY 4.0
Qingyi Si, Zheng Lin, Mingyu Zheng, Peng Fu, Weiping Wang(参考訳) 高度なVisual Question Answeringモデルは驚くほど成功したが、彼らは質問と回答の間の表面的相関によってのみ質問に答える傾向にある。 この言語に先立つ問題に対処するために、近年いくつかのアプローチが開発されている。 しかし、そのほとんどは、解答の正しさを確かめることなく、最良の出力に従って正しい解答を予測する。 さらに、彼らは画像と疑問の間の相互作用のみを探求し、候補解のセマンティクスを無視した。 本稿では,視覚インテリメントに基づくsar(select-and-reran k)プログレッシブフレームワークを提案する。 具体的には、まず、質問や画像に関連する候補回答を選択し、その候補回答を視覚的詳細タスクで再ランクし、その画像が質問の合成文と各候補回答を意味的に含むかどうかを検証する。 実験の結果, 7.55%改善したvqa-cp v2において, 新たな最先端精度を確立するためのフレームワークの有効性が示された。

While sophisticated Visual Question Answering models have achieved remarkable success, they tend to answer questions only according to superficial correlations between question and answer. Several recent approaches have been developed to address this language priors problem. However, most of them predict the correct answer according to one best output without checking the authenticity of answers. Besides, they only explore the interaction between image and question, ignoring the semantics of candidate answers. In this paper, we propose a select-and-rerank (SAR) progressive framework based on Visual Entailment. Specifically, we first select the candidate answers relevant to the question or the image, then we rerank the candidate answers by a visual entailment task, which verifies whether the image semantically entails the synthetic statement of the question and each candidate answer. Experimental results show the effectiveness of our proposed framework, which establishes a new state-of-the-art accuracy on VQA-CP v2 with a 7.55% improvement.
翻訳日:2021-06-11 12:01:56 公開日:2021-06-08
# (参考訳) 神経抽出探索 [全文訳有]

Neural Extractive Search ( http://arxiv.org/abs/2106.04612v1 )

ライセンス: CC BY 4.0
Shauli Ravfogel, Hillel Taub-Tabib, Yoav Goldberg(参考訳) ドメインの専門家は、しばしば大きなコーパスから構造化された情報を抽出する必要がある。 我々は,このような高速な抽出を可能にするために,探索クエリをキャプチャスロットで豊かにする「抽出探索」という探索パラダイムを提唱する。 このような抽出検索システムは構文構造を中心に構築することができ、高い精度、低リコール結果が得られる。 ニューラル検索とアライメントを用いてリコールをどのように改善できるかを示す。 本論文の目的は,抽出探索パラダイムを簡潔に導入し,抽出探索のためのニューラル検索システムの試作と,その利点と可能性を示すことである。 プロトタイプは \url{https://spike.neural -sim.apps.allenai.or g/} で利用可能であり、ビデオデモは \url{https://vimeo.com/55 9586687} で利用可能である。

Domain experts often need to extract structured information from large corpora. We advocate for a search paradigm called ``extractive search'', in which a search query is enriched with capture-slots, to allow for such rapid extraction. Such an extractive search system can be built around syntactic structures, resulting in high-precision, low-recall results. We show how the recall can be improved using neural retrieval and alignment. The goals of this paper are to concisely introduce the extractive-search paradigm; and to demonstrate a prototype neural retrieval system for extractive search and its benefits and potential. Our prototype is available at \url{https://spike.neural -sim.apps.allenai.or g/} and a video demonstration is available at \url{https://vimeo.com/55 9586687}.
翻訳日:2021-06-11 11:46:27 公開日:2021-06-08
# (参考訳) EXPObench: 高価なブラックボックス関数のサロゲートに基づく最適化アルゴリズムのベンチマーク [全文訳有]

EXPObench: Benchmarking Surrogate-based Optimisation Algorithms on Expensive Black-box Functions ( http://arxiv.org/abs/2106.04618v1 )

ライセンス: CC BY 4.0
Laurens Bliek, Arthur Guijt, Rickard Karlsson, Sicco Verwer, Mathijs de Weerdt(参考訳) ベイズ最適化のようなサーロゲートアルゴリズムは、ハイパーパラメータチューニングやシミュレーションに基づく最適化のような高価な目的を持つブラックボックス最適化問題のために特に設計されている。 文献では、これらのアルゴリズムはよく確立されているが、高価な目的を持たない合成ベンチマークで評価され、論文間で大きく異なる1つまたは2つの実生活アプリケーションでのみ評価される。 実生活、高価、ブラックボックスの目的関数に対するサロゲートアルゴリズムのベンチマークに関して、明らかに標準化の欠如がある。 これにより、アルゴリズム的な貢献の効果に関する結論を引き出すのは非常に困難である。 新しいベンチマークライブラリであるEXPObenchは、このような標準化に向けた第一歩を提供する。 このライブラリは、異なる実生活アプリケーションから4つの高価な最適化問題に対して、6つの異なる代理アルゴリズムを広範囲に比較するために使用される。 これにより、探査の相対的重要性、目的物の評価時間、使用済みモデルに関する新たな洞察がもたらされた。 さらに、我々はアルゴリズムとベンチマーク問題インスタンスを公開し、サロゲートアルゴリズムのより均一な分析に寄与している。 最も重要なのは、評価されたすべての問題インスタンスにおける6つのアルゴリズムのパフォーマンスです。 これにより、比較に必要な高価な評価の数が大幅に削減されるため、新しい手法を研究するためのバーを小さくするユニークな新しいデータセットが得られる。

Surrogate algorithms such as Bayesian optimisation are especially designed for black-box optimisation problems with expensive objectives, such as hyperparameter tuning or simulation-based optimisation. In the literature, these algorithms are usually evaluated with synthetic benchmarks which are well established but have no expensive objective, and only on one or two real-life applications which vary wildly between papers. There is a clear lack of standardisation when it comes to benchmarking surrogate algorithms on real-life, expensive, black-box objective functions. This makes it very difficult to draw conclusions on the effect of algorithmic contributions. A new benchmark library, EXPObench, provides first steps towards such a standardisation. The library is used to provide an extensive comparison of six different surrogate algorithms on four expensive optimisation problems from different real-life applications. This has led to new insights regarding the relative importance of exploration, the evaluation time of the objective, and the used model. A further contribution is that we make the algorithms and benchmark problem instances publicly available, contributing to more uniform analysis of surrogate algorithms. Most importantly, we include the performance of the six algorithms on all evaluated problem instances. This results in a unique new dataset that lowers the bar for researching new methods as the number of expensive evaluations required for comparison is significantly reduced.
翻訳日:2021-06-11 11:36:29 公開日:2021-06-08
# (参考訳) TED-net: 畳み込みのないT2Tビジョン変換器を用いた低用量CT用エンコーダデコーダディレーションネットワーク [全文訳有]

TED-net: Convolution-free T2T Vision Transformer-based Encoder-decoder Dilation network for Low-dose CT Denoising ( http://arxiv.org/abs/2106.04650v1 )

ライセンス: CC BY 4.0
Dayang Wang, Zhan Wu, Hengyong Yu(参考訳) 低線量CTは臨床応用の主流である。 低線量CT (LDCT) 画像では, 通常の線量CTと比較して, より強いノイズやアーチファクトがあり, 実用上の障害となっている。 ここ数年、畳み込みに基づくエンドツーエンドのディープラーニング手法がLDCT画像の復調に広く利用されている。 近年, コンボリューション性能が向上し, 機能的相互作用が向上している。 しかし,LDCTの脱臭効果は十分には認められていない。 本稿では、畳み込みのないT2Tビジョン変換器をベースとしたエンコーダデコーダディレーションネットワーク(TED-net)を提案する。 モデルには畳み込みブロックがなく、対称エンコーダ・デコーダブロックと単独変換器で構成される。 本モデルは,aapm-mayoクリニックldctグランドチャレンジデータセットを用いて評価し,最先端のデノイジング法に対する性能評価を行った。

Low dose computed tomography is a mainstream for clinical applications. How-ever, compared to normal dose CT, in the low dose CT (LDCT) images, there are stronger noise and more artifacts which are obstacles for practical applications. In the last few years, convolution-based end-to-end deep learning methods have been widely used for LDCT image denoising. Recently, transformer has shown superior performance over convolution with more feature interactions. Yet its ap-plications in LDCT denoising have not been fully cultivated. Here, we propose a convolution-free T2T vision transformer-based Encoder-decoder Dilation net-work (TED-net) to enrich the family of LDCT denoising algorithms. The model is free of convolution blocks and consists of a symmetric encoder-decoder block with sole transformer. Our model is evaluated on the AAPM-Mayo clinic LDCT Grand Challenge dataset, and results show outperformance over the state-of-the-art denoising methods.
翻訳日:2021-06-11 11:10:27 公開日:2021-06-08
# (参考訳) bloomの分類を用いた理解に基づく質問応答 [全文訳有]

Comprehension Based Question Answering using Bloom's Taxonomy ( http://arxiv.org/abs/2106.04653v1 )

ライセンス: CC BY 4.0
Pritish Sahu, Michael Cogswell, Sara Rutherford-Quach, Ajay Divakaran(参考訳) 現在の事前学習された言語モデルには多くの知識があるが、その知識を使う能力は限られている。 bloomの分類は、理解スキルを分類することで、子どもたちに知識の使い方を教えるのに役立ち、それを使って、大きな事前学習された言語モデルの理解スキルを分析し、改善します。 本実験は, ゼロショット質問応答に焦点をあて, 分類学を用いて, モデルが質問に関連付けて回答するのに役立つ近位文脈を提供する。 この方法でターゲティングコンテキストは、一般的な4つの質問応答データセットのパフォーマンスを改善する。

Current pre-trained language models have lots of knowledge, but a more limited ability to use that knowledge. Bloom's Taxonomy helps educators teach children how to use knowledge by categorizing comprehension skills, so we use it to analyze and improve the comprehension skills of large pre-trained language models. Our experiments focus on zero-shot question answering, using the taxonomy to provide proximal context that helps the model answer questions by being relevant to those questions. We show targeting context in this manner improves performance across 4 popular common sense question answer datasets.
翻訳日:2021-06-11 11:04:23 公開日:2021-06-08
# (参考訳) ハイブリッド空間上のベイズ最適化 [全文訳有]

Bayesian Optimization over Hybrid Spaces ( http://arxiv.org/abs/2106.04682v1 )

ライセンス: CC BY 4.0
Aryan Deshwal, Syrine Belakaria, Janardhan Rao Doppa(参考訳) 高価なブラックボックス関数評価によるハイブリッド構造(離散および連続入力変数の混合)の最適化の問題を考える。 この問題は現実世界の多くのアプリケーションで発生します。 例えば、実験室による材料設計最適化では、離散変数と連続変数はそれぞれ原始元素の存在/存在とその相対濃度に対応する。 鍵となる課題は、離散変数と連続変数の複雑な相互作用を正確にモデル化することだ。 本稿では,連続変数および離散変数上で自然に定義される拡散核を用いて,ハイブリッドベイズ最適化(hybo)と呼ばれる新しい手法を提案する。 我々は,すべての順序の加法的相互作用を扱いやすい方法で許容する加法的カーネル定式化を利用して,ハイブリッド空間上の拡散核を構築するための原理的アプローチを開発した。 我々は, 加法ハイブリッドカーネルのモデリング強度を理論的に解析し, 普遍近似特性を持つことを示す。 人工的および6つの多種多様な実世界のベンチマーク実験により,HyBOは最先端の手法よりも優れていることが示された。

We consider the problem of optimizing hybrid structures (mixture of discrete and continuous input variables) via expensive black-box function evaluations. This problem arises in many real-world applications. For example, in materials design optimization via lab experiments, discrete and continuous variables correspond to the presence/absence of primitive elements and their relative concentrations respectively. The key challenge is to accurately model the complex interactions between discrete and continuous variables. In this paper, we propose a novel approach referred as Hybrid Bayesian Optimization (HyBO) by utilizing diffusion kernels, which are naturally defined over continuous and discrete variables. We develop a principled approach for constructing diffusion kernels over hybrid spaces by utilizing the additive kernel formulation, which allows additive interactions of all orders in a tractable manner. We theoretically analyze the modeling strength of additive hybrid kernels and prove that it has the universal approximation property. Our experiments on synthetic and six diverse real-world benchmarks show that HyBO significantly outperforms the state-of-the-art methods.
翻訳日:2021-06-11 10:49:13 公開日:2021-06-08
# (参考訳) 医用画像解析のための説明可能なai:ベイズ教示による気胸診断 [全文訳有]

Explainable AI for medical imaging: Explaining pneumothorax diagnoses with Bayesian Teaching ( http://arxiv.org/abs/2106.04684v1 )

ライセンス: CC BY 4.0
Tomas Folke, Scott Cheng-Hsin Yang, Sean Anderson, and Patrick Shafto(参考訳) 専門時間制限は医用画像における重要なボトルネックである。 画像分類の進歩により、AIは医療専門家の意思決定支援として機能し、放射線学の生産性と、拡大によって公衆衛生に大きな利益をもたらす可能性がある。 しかし、これらの利益はAIエージェントに対する専門家の信頼の構築と維持に向けられている。 説明可能なAIは、診断判断の背後にあるAI決定プロセスを理解するために医療専門家を支援することによって、そのような信頼を構築することができる。 本稿では,人間学習の認知科学に根ざした説明の形式的記述であるベイズ教養に基づく説明の導入と評価を行う。 ベイジアン・インストラクション(Bayesian teaching)が生成した説明に暴露された医療専門家は、AIの診断決定をうまく予測し、AIが間違っている場合よりも、AIが正しい場合の認証をし、適切な信頼を示す可能性が高い。 これらの結果から,説明可能なAIは,医用画像における人間とAIの協調を支援することができることがわかった。

Limited expert time is a key bottleneck in medical imaging. Due to advances in image classification, AI can now serve as decision-support for medical experts, with the potential for great gains in radiologist productivity and, by extension, public health. However, these gains are contingent on building and maintaining experts' trust in the AI agents. Explainable AI may build such trust by helping medical experts to understand the AI decision processes behind diagnostic judgements. Here we introduce and evaluate explanations based on Bayesian Teaching, a formal account of explanation rooted in the cognitive science of human learning. We find that medical experts exposed to explanations generated by Bayesian Teaching successfully predict the AI's diagnostic decisions and are more likely to certify the AI for cases when the AI is correct than when it is wrong, indicating appropriate trust. These results show that Explainable AI can be used to support human-AI collaboration in medical imaging.
翻訳日:2021-06-11 10:28:52 公開日:2021-06-08
# (参考訳) 移動目標に対する価格への学習 [全文訳有]

Learning to Price Against a Moving Target ( http://arxiv.org/abs/2106.04689v1 )

ライセンス: CC BY 4.0
Renato Paes Leme, Balasubramanian Sivan, Yifeng Teng, Pratik Worah(参考訳) 価格設定の学習において、売り手は、買い手のバリュエーションを学習しながら収益を最大化することを目的として、時間とともに価格を投稿する。 この問題は固定値(固定値またはiid)であるときに非常によく理解される。 ここでは、購入者の値が移動対象である場合、すなわち、確率過程によって、あるいは有界変動に逆らって、時間とともに変化する問題について検討する。 いずれの場合も、最適収益損失の上限は上下に一致します。 ターゲットが移動しているため、学習した情報はすぐに時代遅れになり、探索段階と悪用段階の間をアルゴリズムが切り替え続けることになる。

In the Learning to Price setting, a seller posts prices over time with the goal of maximizing revenue while learning the buyer's valuation. This problem is very well understood when values are stationary (fixed or iid). Here we study the problem where the buyer's value is a moving target, i.e., they change over time either by a stochastic process or adversarially with bounded variation. In either case, we provide matching upper and lower bounds on the optimal revenue loss. Since the target is moving, any information learned soon becomes out-dated, which forces the algorithms to keep switching between exploring and exploiting phases.
翻訳日:2021-06-11 10:20:03 公開日:2021-06-08
# (参考訳) スケールフリーの対向型多武装バンディット [全文訳有]

Scale Free Adversarial Multi Armed Bandits ( http://arxiv.org/abs/2106.04700v1 )

ライセンス: CC BY 4.0
Sudeep Raja Putta, Shipra Agrawal(参考訳) 我々は、プレイヤーが損失の規模や大きさではなく、腕数n$しか知らない、スケールフリーのマルチアームバンド(MAB)問題を考える。 損失ベクトルは l_1,\dots, l_T \in \mathbb{R}^n$ である。 その目的は、後悔を$n$と$l_1,\dots,l_t$の関数に縛ることである。 規則化リーダ(ftrl)アルゴリズムに従うように設計し,mabに対する最初のスケールフリーな後悔保証を提供する。 ログバリア正規化器、重み付き推定器の重要性、適応学習率、適応探索パラメータを使用する。 本稿では,FTRL と Online Mirror Descent (OMD) の残差不等式を,ポテンシャル関数と混合ブレグマンを用いた確率的単純度に基づいて簡易に統一する手法を提案する。 また,Bregman Divergencesの局所ノルム下限を求める新たな手法を開発した。 これらのツールは独立したものかもしれない。

We consider the Scale-Free Adversarial Multi Armed Bandit(MAB) problem, where the player only knows the number of arms $n$ and not the scale or magnitude of the losses. It sees bandit feedback about the loss vectors $l_1,\dots, l_T \in \mathbb{R}^n$. The goal is to bound its regret as a function of $n$ and $l_1,\dots, l_T$. We design a Follow The Regularized Leader(FTRL) algorithm, which comes with the first scale-free regret guarantee for MAB. It uses the log barrier regularizer, the importance weighted estimator, an adaptive learning rate, and an adaptive exploration parameter. In the analysis, we introduce a simple, unifying technique for obtaining regret inequalities for FTRL and Online Mirror Descent(OMD) on the probability simplex using Potential Functions and Mixed Bregmans. We also develop a new technique for obtaining local-norm lower bounds for Bregman Divergences, which are crucial in bandit regret bounds. These tools could be of independent interest.
翻訳日:2021-06-11 09:45:29 公開日:2021-06-08
# (参考訳) 未知のサービスレートを有する待ち行列システムのためのジョブディスパッチポリシー

Job Dispatching Policies for Queueing Systems with Unknown Service Rates ( http://arxiv.org/abs/2106.04707v1 )

ライセンス: CC BY 4.0
Tuhinangshu Choudhury, Gauri Joshi, Weina Wang, Sanjay Shakkottai(参考訳) すべてのジョブを保持する中央キューが存在しないマルチサーバキューシステムでは、ジョブディスパッチポリシを使用して、ひとつのサーバのキューにジョブを割り当てる。 join-the-shortest-qu eue や shortest expected delay のような古典的なジョブディスパッチポリシーは、サーバのサービスレートとキューの長さがディスパッチタに知られていると仮定している。 そこで本研究では,サービスレートや待ち行列の長さの知識を必要とせず,ジョブのディスパッチの問題に取り組む。 この問題は、ジョブをすべてのサーバに送信してサービスレートを見積もることと、現在知られている最速のサーバを活用して、待ち行列の遅延を最小化する、という、新たなエクスプロイテーショントレードオフを提示する。 我々は,監視職の退社からサービス率を学習するバンディットに基づく探索政策を提案する。 有限のアクションセットのうち1つだけが最適である標準的なマルチアームバンディット問題とは異なり、最適なポリシーでは各サーバに送信されるジョブの最適な割合を特定する必要がある。 提案手法の有効性を実証するために,後悔の分析とシミュレーションを行った。

In multi-server queueing systems where there is no central queue holding all incoming jobs, job dispatching policies are used to assign incoming jobs to the queue at one of the servers. Classic job dispatching policies such as join-the-shortest-qu eue and shortest expected delay assume that the service rates and queue lengths of the servers are known to the dispatcher. In this work, we tackle the problem of job dispatching without the knowledge of service rates and queue lengths, where the dispatcher can only obtain noisy estimates of the service rates by observing job departures. This problem presents a novel exploration-exploita tion trade-off between sending jobs to all the servers to estimate their service rates, and exploiting the currently known fastest servers to minimize the expected queueing delay. We propose a bandit-based exploration policy that learns the service rates from observed job departures. Unlike the standard multi-armed bandit problem where only one out of a finite set of actions is optimal, here the optimal policy requires identifying the optimal fraction of incoming jobs to be sent to each server. We present a regret analysis and simulations to demonstrate the effectiveness of the proposed bandit-based exploration policy.
翻訳日:2021-06-11 09:21:32 公開日:2021-06-08
# (参考訳) 非負の補助最適化によるブール行列分解 [全文訳有]

Boolean Matrix Factorization via Nonnegative Auxiliary Optimization ( http://arxiv.org/abs/2106.04708v1 )

ライセンス: CC BY 4.0
Duc P. Truong, Erik Skau, Derek Desantis, Boian Alexandrov(参考訳) ブール行列分解(BMF)に対する新しいアプローチを示す。 bmf問題を直接解く代わりに、このアプローチは、初期ブールデータとブール構造が同一である補助行列上の制約を持つ非負最適化問題を解く。 そして、非負の補助最適化問題の解をしきい値にし、BMF問題の解を提供する。 二つの解空間の同値性の証明を、厳密な解の存在下で提供する。 さらに,アルゴリズムの非増加特性も証明されている。 合成および実データセットの実験を行い、他の手法と比較してアルゴリズムの有効性と複雑さを示す。

A novel approach to Boolean matrix factorization (BMF) is presented. Instead of solving the BMF problem directly, this approach solves a nonnegative optimization problem with the constraint over an auxiliary matrix whose Boolean structure is identical to the initial Boolean data. Then the solution of the nonnegative auxiliary optimization problem is thresholded to provide a solution for the BMF problem. We provide the proofs for the equivalencies of the two solution spaces under the existence of an exact solution. Moreover, the nonincreasing property of the algorithm is also proven. Experiments on synthetic and real datasets are conducted to show the effectiveness and complexity of the algorithm compared to other current methods.
翻訳日:2021-06-11 09:19:45 公開日:2021-06-08
# (参考訳) 測定可能なモンテカルロ探索誤差境界 [全文訳有]

Measurable Monte Carlo Search Error Bounds ( http://arxiv.org/abs/2106.04715v1 )

ライセンス: CC BY 4.0
John Mern, Mykel J. Kochenderfer(参考訳) モンテカルロプランナーは、無限サンプルの極限に収束することが保証されているとしても、しばしば準最適作用を返すことができる。 既知の漸近的後悔の境界は、探索の終了時に推奨される行動の信頼度を測定する手段を提供しない。 本研究では,非定常バンドイットとマルコフ決定過程に対するモンテカルロ推定の準最適性の境界を証明した。 これらの境界は探索の終了時に直接計算することができ、真の作用値の知識を必要としない。 表される境界は、軽収束条件を満たす一般モンテカルロ解法に対して成り立つ。 単純解法とモンテカルロ木探索の双方に対して,マルチアームバンディットの実験と離散マルコフ決定過程により,境界の密度を実証的に検証する。

Monte Carlo planners can often return sub-optimal actions, even if they are guaranteed to converge in the limit of infinite samples. Known asymptotic regret bounds do not provide any way to measure confidence of a recommended action at the conclusion of search. In this work, we prove bounds on the sub-optimality of Monte Carlo estimates for non-stationary bandits and Markov decision processes. These bounds can be directly computed at the conclusion of the search and do not require knowledge of the true action-value. The presented bound holds for general Monte Carlo solvers meeting mild convergence conditions. We empirically test the tightness of the bounds through experiments on a multi-armed bandit and a discrete Markov decision process for both a simple solver and Monte Carlo tree search.
翻訳日:2021-06-11 09:08:53 公開日:2021-06-08
# (参考訳) マルジナライズ可能な密度モデル [全文訳有]

Marginalizable Density Models ( http://arxiv.org/abs/2106.04741v1 )

ライセンス: CC BY 4.0
Dar Gilboa, Ari Pakman, Thibault Vatter(参考訳) 深層ネットワークに基づく確率密度モデルは複雑な高次元データセットのモデリングにおいて顕著な成功を収めた。 しかし、カーネル密度推定器とは異なり、現代のニューラルモデルは閉じた形で境界や条件を導き出さない。 本稿では,変数の任意の部分集合の確率,限界,条件に対する閉形式表現を提供する,新しいディープネットワークアーキテクチャであるMarginalizable Density Model Approximator (MDMA)を提案する。 mdmaは各変数の深いスカラー表現を学習し、学習した階層的テンソル分解を扱いやすく表現可能なcdfに結合し、辺数と条件密度を容易に得られる。 例えば、変数の任意の部分集合間の相互情報の推定、条件付き独立性のテストによる因果性の推定、データ計算を必要とせずに欠落したデータによる推論、これらのタスクにおける最先端のモデルよりも優れている。 このモデルはまた、変数数に時間複雑性の対数依存性しか持たない並列化サンプリングを可能にする。

Probability density models based on deep networks have achieved remarkable success in modeling complex high-dimensional datasets. However, unlike kernel density estimators, modern neural models do not yield marginals or conditionals in closed form, as these quantities require the evaluation of seldom tractable integrals. In this work, we present the Marginalizable Density Model Approximator (MDMA), a novel deep network architecture which provides closed form expressions for the probabilities, marginals and conditionals of any subset of the variables. The MDMA learns deep scalar representations for each individual variable and combines them via learned hierarchical tensor decompositions into a tractable yet expressive CDF, from which marginals and conditional densities are easily obtained. We illustrate the advantage of exact marginalizability in several tasks that are out of reach of previous deep network-based density estimation models, such as estimating mutual information between arbitrary subsets of variables, inferring causality by testing for conditional independence, and inference with missing data without the need for data imputation, outperforming state-of-the-art models on these tasks. The model also allows for parallelized sampling with only a logarithmic dependence of the time complexity on the number of variables.
翻訳日:2021-06-11 08:56:37 公開日:2021-06-08
# データ拡張による自己教師付き学習は,コンテンツからスタイルを分離する

Self-Supervised Learning with Data Augmentations Provably Isolates Content from Style ( http://arxiv.org/abs/2106.04619v1 )

ライセンス: Link先を確認
Julius von K\"ugelgen, Yash Sharma, Luigi Gresele, Wieland Brendel, Bernhard Sch\"olkopf, Michel Besserve, Francesco Locatello(参考訳) 自己教師付き表現学習は多くの領域で顕著な成功を示している。 一般的な方法は、データのセマンティクスを不変にすることを意図した手作り変換によってデータ拡張を行うことである。 我々はこのアプローチの実証的な成功を理論的観点から理解しようとしている。 本稿では,拡張に不変と仮定されるコンテンツコンポーネントと変更可能なスタイルコンポーネントに,潜在表現の分割を仮定することにより,拡張プロセスを潜在変数モデルとして定式化する。 アンタングル化と独立成分分析に関する以前の研究とは異なり、潜在空間における非自明な統計的および因果的依存関係を許容する。 本研究では、観測結果の対のビューに基づいて潜在表現の識別可能性について検討し、生成的および識別的両方の設定において、不変コンテンツ分割を可逆写像まで特定できる十分な条件を示す。 従属変数を持つ数値シミュレーションは我々の理論と一致している。 最後に,高次元で視覚的に複雑な画像のデータセットであるcausal3didentを導入する。

Self-supervised representation learning has shown remarkable success in a number of domains. A common practice is to perform data augmentation via hand-crafted transformations intended to leave the semantics of the data invariant. We seek to understand the empirical success of this approach from a theoretical perspective. We formulate the augmentation process as a latent variable model by postulating a partition of the latent representation into a content component, which is assumed invariant to augmentation, and a style component, which is allowed to change. Unlike prior work on disentanglement and independent component analysis, we allow for both nontrivial statistical and causal dependencies in the latent space. We study the identifiability of the latent representation based on pairs of views of the observations and prove sufficient conditions that allow us to identify the invariant content partition up to an invertible mapping in both generative and discriminative settings. We find numerical simulations with dependent latent variables are consistent with our theory. Lastly, we introduce Causal3DIdent, a dataset of high-dimensional, visually complex images with rich causal dependencies, which we use to study the effect of data augmentations performed in practice.
翻訳日:2021-06-10 15:34:45 公開日:2021-06-08
# テキスト類似性におけるドメイン適応の成功予測

Predicting the Success of Domain Adaptation in Text Similarity ( http://arxiv.org/abs/2106.04641v1 )

ライセンス: Link先を確認
Nicolai Pogrebnyakov, Shohreh Shaghaghian(参考訳) 転送学習方法、特にドメイン適応は、あるドメイン内のラベル付きデータを利用して、別のドメイン内の特定のタスクのパフォーマンスを向上させる。 しかし、ドメイン適応の成功にどのような要因が影響するかはまだ明らかではない。 本稿では,テキスト類似度の候補の中から,最も適したソースドメインの適応成功と選択をモデル化する。 記述型ドメイン情報とクロスドメイン類似度メトリクスを予測機能として使用します。 概ね肯定的ではあるが、適応の成功を予測するのが困難だった領域もある。

Transfer learning methods, and in particular domain adaptation, help exploit labeled data in one domain to improve the performance of a certain task in another domain. However, it is still not clear what factors affect the success of domain adaptation. This paper models adaptation success and selection of the most suitable source domains among several candidates in text similarity. We use descriptive domain information and cross-domain similarity metrics as predictive features. While mostly positive, the results also point to some domains where adaptation success was difficult to predict.
翻訳日:2021-06-10 15:34:28 公開日:2021-06-08
# PAM: 製品カテゴリ属性抽出における製品イメージの理解

PAM: Understanding Product Images in Cross Product Category Attribute Extraction ( http://arxiv.org/abs/2106.04630v1 )

ライセンス: Link先を確認
Rongmei Lin, Xiang He, Jie Feng, Nasser Zalmout, Yan Liang, Li Xiong, Xin Luna Dong(参考訳) 商品属性を理解することは、顧客のオンラインショッピング体験を改善する上で重要な役割を担い、製品知識グラフを構築する上で不可欠な役割を果たす。 既存のほとんどの方法は、テキスト記述からの属性抽出や、形状や色などの製品画像からの視覚情報の利用に焦点を当てている。 以前検討された入力と比較すると、製品イメージにはより多くの情報が含まれており、言葉と視覚的手がかりが混ざり合っており、顧客を印象づけるためのレイアウトが慎重に設計されている。 この研究は、これらの異なるモダリティを属性抽出に完全に活用するより包括的なフレームワークを提案する。 視覚的質問応答における最近の研究に触発されて,製品テキスト,光学的文字認識(OCR)トークン,および製品画像から検出された視覚オブジェクトの表現を融合するために,トランスフォーマーに基づくシーケンスモデルを用いている。 このフレームワークはさらに、デコーダをトレーニングして製品カテゴリと属性値の両方を予測し、その出力を製品カテゴリに条件付けすることで、単一のモデルで複数の製品カテゴリにまたがる属性値を抽出する機能拡張が行われている。 このモデルは、さまざまな製品属性を持つ多数の製品カテゴリを提供するeコマースプラットフォームで望ましい統一属性抽出ソリューションを提供する。 我々は,14以上の製品カテゴリを含む2つの製品属性について評価を行い,本モデルがリコール時に15%,f1スコアで10%の利益が得られることを確認した。

Understanding product attributes plays an important role in improving online shopping experience for customers and serves as an integral part for constructing a product knowledge graph. Most existing methods focus on attribute extraction from text description or utilize visual information from product images such as shape and color. Compared to the inputs considered in prior works, a product image in fact contains more information, represented by a rich mixture of words and visual clues with a layout carefully designed to impress customers. This work proposes a more inclusive framework that fully utilizes these different modalities for attribute extraction. Inspired by recent works in visual question answering, we use a transformer based sequence to sequence model to fuse representations of product text, Optical Character Recognition (OCR) tokens and visual objects detected in the product image. The framework is further extended with the capability to extract attribute value across multiple product categories with a single model, by training the decoder to predict both product category and attribute value and conditioning its output on product category. The model provides a unified attribute extraction solution desirable at an e-commerce platform that offers numerous product categories with a diverse body of product attributes. We evaluated the model on two product attributes, one with many possible values and one with a small set of possible values, over 14 product categories and found the model could achieve 15% gain on the Recall and 10% gain on the F1 score compared to existing methods using text-only features.
翻訳日:2021-06-10 15:33:40 公開日:2021-06-08
# 計画のためのベクトル量子化モデル

Vector Quantized Models for Planning ( http://arxiv.org/abs/2106.04615v1 )

ライセンス: Link先を確認
Sherjil Ozair, Yazhe Li, Ali Razavi, Ioannis Antonoglou, A\"aron van den Oord, Oriol Vinyals(参考訳) モデルベースRLの分野での最近の発展は、特に計画が不可欠である様々な環境で成功している。 しかし、そのような成功は決定論的完全観測環境に限定されている。 確率的かつ部分的に観測可能な環境を扱う新しいアプローチを提案する。 我々の重要な洞察は、確率的環境におけるアクションの複数の影響を捉えるために離散オートエンコーダを使用することである。 我々は、エージェントの動作と環境応答を表す離散潜在変数の両方を計画するために、'emph{Monte Carlo tree search} の確率的変種を用いる。 本手法は, 対戦相手が環境の一部と見なされるチェスの確率論的解釈において, オフライン版の MuZero を著しく上回っている。 また,我々のアプローチは,一対一の3次元環境である \emph{deepmind lab} にスケールすることを示した。

Recent developments in the field of model-based RL have proven successful in a range of environments, especially ones where planning is essential. However, such successes have been limited to deterministic fully-observed environments. We present a new approach that handles stochastic and partially-observable environments. Our key insight is to use discrete autoencoders to capture the multiple possible effects of an action in a stochastic environment. We use a stochastic variant of \emph{Monte Carlo tree search} to plan over both the agent's actions and the discrete latent variables representing the environment's response. Our approach significantly outperforms an offline version of MuZero on a stochastic interpretation of chess where the opponent is considered part of the environment. We also show that our approach scales to \emph{DeepMind Lab}, a first-person 3D environment with large visual observations and partial observability.
翻訳日:2021-06-10 15:33:15 公開日:2021-06-08
# 密接な連結正規化流れ

Densely connected normalizing flows ( http://arxiv.org/abs/2106.04627v1 )

ライセンス: Link先を確認
Matej Grci\'c, Ivan Grubi\v{s}i\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) 正規化フローは、完全に因子化された分布を持つ入力と潜在表現の間の単射写像である。 正確な可能性評価と効率的なサンプリングのため、非常に魅力的である。 しかし、単射性制約がモデル幅を制限するため、その有効容量はしばしば不十分である。 ノイズを伴う中間表現を漸進的にパディングすることでこの問題に対処する。 我々は、先行する可逆単位に従ってノイズをプリコンディショニングし、これをクロスユニット結合と呼ぶ。 インバータブル・グロー・ライクなモジュールは、密結合したブロックとnystr\"omセルフアテンションの融合としてユニット内アフィンカップリングを表現する。 私たちは、クロスユニットとイントラユニットの結合が密結合に依存しているので、アーキテクチャをデングフローと呼びます。 提案した貢献により,実験は大幅に改善され,中間計算予算下でのすべての生成モデルにおける最先端の密度推定が明らかになった。

Normalizing flows are bijective mappings between inputs and latent representations with a fully factorized distribution. They are very attractive due to exact likelihood evaluation and efficient sampling. However, their effective capacity is often insufficient since the bijectivity constraint limits the model width. We address this issue by incrementally padding intermediate representations with noise. We precondition the noise in accordance with previous invertible units, which we describe as cross-unit coupling. Our invertible glow-like modules express intra-unit affine coupling as a fusion of a densely connected block and Nystr\"om self-attention. We refer to our architecture as DenseFlow since both cross-unit and intra-unit couplings rely on dense connectivity. Experiments show significant improvements due to the proposed contributions, and reveal state-of-the-art density estimation among all generative models under moderate computing budgets.
翻訳日:2021-06-10 15:32:04 公開日:2021-06-08
# adamatch: 半教師付き学習とドメイン適応への統一的アプローチ

AdaMatch: A Unified Approach to Semi-Supervised Learning and Domain Adaptation ( http://arxiv.org/abs/2106.04732v1 )

ライセンス: Link先を確認
David Berthelot, Rebecca Roelofs, Kihyuk Sohn, Nicholas Carlini, Alex Kurakin(参考訳) 半教師付き学習をドメイン適応問題に拡張し、あるデータ分布でトレーニングし、別のデータでテストする、かなり高い精度のモデルを学ぶ。 AdaMatchは、教師なしドメイン適応(UDA)、半教師付き学習(SSL)、半教師付きドメイン適応(SSDA)のタスクを統一する手法である。 広範にわたる実験的研究において、視覚分類タスクにおけるSSL、SSDA、UDAの各最先端技術との比較を行った。 AdaMatchは、データセットやタスクに関わらず、同じハイパーパラメータを使用して、各ケースの最先端を一致または大幅に上回っている。 例えば、AdaMatchは、DomainNetのUDAタスクにおける以前の最先端の精度をほぼ2倍にし、AdaMatchがゼロから完全にトレーニングされたときの事前トレーニングで得られた最先端の精度を6.4%上回る。 さらに、対象ドメインからクラス毎に1つのラベル付きサンプル(すなわちssa設定)でadamatchを提供することで、ターゲットの精度を6.1%向上させ、5つのラベル付きサンプルを13.6%向上させる。

We extend semi-supervised learning to the problem of domain adaptation to learn significantly higher-accuracy models that train on one data distribution and test on a different one. With the goal of generality, we introduce AdaMatch, a method that unifies the tasks of unsupervised domain adaptation (UDA), semi-supervised learning (SSL), and semi-supervised domain adaptation (SSDA). In an extensive experimental study, we compare its behavior with respective state-of-the-art techniques from SSL, SSDA, and UDA on vision classification tasks. We find AdaMatch either matches or significantly exceeds the state-of-the-art in each case using the same hyper-parameters regardless of the dataset or task. For example, AdaMatch nearly doubles the accuracy compared to that of the prior state-of-the-art on the UDA task for DomainNet and even exceeds the accuracy of the prior state-of-the-art obtained with pre-training by 6.4% when AdaMatch is trained completely from scratch. Furthermore, by providing AdaMatch with just one labeled example per class from the target domain (i.e., the SSDA setting), we increase the target accuracy by an additional 6.1%, and with 5 labeled examples, by 13.6%.
翻訳日:2021-06-10 15:31:53 公開日:2021-06-08
# テキスト推論のための高次chebyshev近似を用いたマルチホップグラフ畳み込みネットワーク

Multi-hop Graph Convolutional Network with High-order Chebyshev Approximation for Text Reasoning ( http://arxiv.org/abs/2106.05221v1 )

ライセンス: Link先を確認
Shuoran Jiang, Qingcai Chen, Xin Liu, Baotian Hu, Lisai Zhang(参考訳) グラフ畳み込みネットワーク(GCN)は、自然言語処理(NLP)タスクにおいて、長期および非連続的な単語相互作用において、その優位性で人気を博している。 しかし、GCNの既存のシングルホップグラフ推論は、いくつかの重要な非簡潔な依存関係を欠いているかもしれない。 本研究では,高次動的チェビシェフ近似(HDGCN)を用いてスペクトルグラフ畳み込みネットワークを定義し,直接的および長期的依存関係から集約されたメッセージを1つの畳み込み層に融合させることによりマルチホップグラフ推論を強化する。 高次チェビシェフ近似におけるオーバースムーシングの緩和のために、線形計算複雑性を持つマルチボイトベースクロスアテンション(mvcattn)も提案されている。 4つのトランスダクティブおよびインダクティブNLPタスクに対する実験結果とアブレーション研究により,提案モデルの有効性が検証された。 ソースコードはhttps://github.com/m athisall/hdgcn-pytor chで入手できます。

Graph convolutional network (GCN) has become popular in various natural language processing (NLP) tasks with its superiority in long-term and non-consecutive word interactions. However, existing single-hop graph reasoning in GCN may miss some important non-consecutive dependencies. In this study, we define the spectral graph convolutional network with the high-order dynamic Chebyshev approximation (HDGCN), which augments the multi-hop graph reasoning by fusing messages aggregated from direct and long-term dependencies into one convolutional layer. To alleviate the over-smoothing in high-order Chebyshev approximation, a multi-vote-based cross-attention (MVCAttn) with linear computation complexity is also proposed. The empirical results on four transductive and inductive NLP tasks and the ablation study verify the efficacy of the proposed model. Our source code is available at https://github.com/M athIsAll/HDGCN-pytor ch.
翻訳日:2021-06-10 15:29:27 公開日:2021-06-08
# VALUE:ビデオ・ランゲージ理解評価のためのマルチタスクベンチマーク

VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation ( http://arxiv.org/abs/2106.04632v1 )

ライセンス: Link先を確認
Linjie Li, Jie Lei, Zhe Gan, Licheng Yu, Yen-Chun Chen, Rohit Pillai, Yu Cheng, Luowei Zhou, Xin Eric Wang, William Yang Wang, Tamara Lee Berg, Mohit Bansal, Jingjing Liu, Lijuan Wang, Zicheng Liu(参考訳) 既存のビデオ・アンド・ランゲージ(VidL)研究のほとんどは、1つのデータセット、または1つのタスクの複数のデータセットに焦点を当てている。 実際、本当に有用なVidLシステムは、多様なタスク、ドメイン、データセットに容易に一般化できると期待されている。 このようなシステムの評価を容易にするために,VALUE (Video-And-Language Understanding Evaluation) ベンチマーク,(i) テキスト・ツー・ビデオ検索,(ii) ビデオ質問応答,(iii) ビデオキャプションという3つの一般的なタスクに対して,11のVidLデータセットの組付けを行う。 value benchmarkは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスク難易度レベルをカバーすることを目的としている。 ビジュアル情報のみのシングルチャネルビデオに重点を置くのではなく、valueは、ビデオフレームと関連するサブタイトルの両方の情報を活用するモデルと、複数のタスクで知識を共有するモデルを促進する。 大規模なVidL事前学習を行ない,様々なベースライン手法の評価を行い,ビデオ入力チャネル,融合方法,異なる映像表現の影響を系統的に検討した。 また,タスク間の転送可能性を調査し,異なる設定下でマルチタスク学習を行う。 我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。 valueはhttps://value-leader board.github.io/で入手できる。

Most existing video-and-language (VidL) research focuses on a single dataset, or multiple datasets of a single task. In reality, a truly useful VidL system is expected to be easily generalizable to diverse tasks, domains, and datasets. To facilitate the evaluation of such systems, we introduce Video-And-Language Understanding Evaluation (VALUE) benchmark, an assemblage of 11 VidL datasets over 3 popular tasks: (i) text-to-video retrieval; (ii) video question answering; and (iii) video captioning. VALUE benchmark aims to cover a broad range of video genres, video lengths, data volumes, and task difficulty levels. Rather than focusing on single-channel videos with visual information only, VALUE promotes models that leverage information from both video frames and their associated subtitles, as well as models that share knowledge across multiple tasks. We evaluate various baseline methods with and without large-scale VidL pre-training, and systematically investigate the impact of video input channels, fusion methods, and different video representations. We also study the transferability between tasks, and conduct multi-task learning under different settings. The significant gap between our best model and human performance calls for future study for advanced VidL models. VALUE is available at https://value-leader board.github.io/.
翻訳日:2021-06-10 15:29:13 公開日:2021-06-08
# ニューラルテキスト分類器のロバスト解釈性の欠如について

On the Lack of Robust Interpretability of Neural Text Classifiers ( http://arxiv.org/abs/2106.04631v1 )

ライセンス: Link先を確認
Muhammad Bilal Zafar, Michele Donini, Dylan Slack, C\'edric Archambeau, Sanjiv Das, Krishnaram Kenthapadi(参考訳) ニューラルネットワークモデルの複雑さがますます高まる中、実践者はこれらのモデルの予測を理解する方法に目を向けている。 モデル解釈可能性に対する最もよく採用されているアプローチの1つは、機能ベースの解釈可能性である。 いくつかの先行研究は、特徴に基づく解釈可能性手法の忠実さ、すなわちモデル出力に対する上位特徴のドロップの影響を評価することに焦点を当てている。 しかし、解釈の頑健さを定量化するための研究は、比較的少ない。 本研究では,2つのランダム化テストを用いて,ニューラルネットワーク分類器,特に前訓練トランスエンコーダに基づく解釈のロバスト性を評価する。 第一は、初期化を除いて同一である2つのモデルの解釈を比較することである。 後者は、訓練されたパラメータを持つモデルとランダムなパラメータを持つモデルとで解釈が異なるかどうかを測定する。 どちらのテストも、期待される行動から驚くほど逸脱し、実践者が解釈から引き出す可能性のある洞察の程度について疑問を投げかける。

With the ever-increasing complexity of neural language models, practitioners have turned to methods for understanding the predictions of these models. One of the most well-adopted approaches for model interpretability is feature-based interpretability, i.e., ranking the features in terms of their impact on model predictions. Several prior studies have focused on assessing the fidelity of feature-based interpretability methods, i.e., measuring the impact of dropping the top-ranked features on the model output. However, relatively little work has been conducted on quantifying the robustness of interpretations. In this work, we assess the robustness of interpretations of neural text classifiers, specifically, those based on pretrained Transformer encoders, using two randomization tests. The first compares the interpretations of two models that are identical except for their initializations. The second measures whether the interpretations differ between a model with trained parameters and a model with random parameters. Both tests show surprising deviations from expected behavior, raising questions about the extent of insights that practitioners may draw from interpretations.
翻訳日:2021-06-10 15:28:27 公開日:2021-06-08
# FastSeq: シーケンス生成を高速化

FastSeq: Make Sequence Generation Faster ( http://arxiv.org/abs/2106.04718v1 )

ライセンス: Link先を確認
Yu Yan, Fei Hu, Jiusheng Chen, Nikhil Bhendawade, Ting Ye, Yeyun Gong, Nan Duan, Desheng Cui, Bingyu Chi and Ruifei Zhang(参考訳) トランスフォーマーベースのモデルは自然言語生成に多大な影響を与えた。 しかし、推論速度は、モデルのサイズが大きくなり、自動回帰復号処理に係わる集中型計算によってボトルネックとなる。 精度損失のないシーケンス生成を高速化するFastSeqフレームワークを開発した。 提案手法は、アテンションキャッシュ最適化、繰り返しn-gramを検出する効率的なアルゴリズム、並列I/Oによる非同期生成パイプラインを含む。 これらの最適化はトランスフォーマーベースのモデル(t5、gpt2、unilmなど)に適用できるほど一般的である。 ベンチマークの結果,多種多様なモデルが4~9倍の推算速度向上を示した。 さらに、FastSeqは単純な1行のコード変更で簡単に使える。 ソースコードはhttps://github.com/m icrosoft/fastseqで入手できる。

Transformer-based models have made tremendous impacts in natural language generation. However the inference speed is a bottleneck due to large model size and intensive computing involved in auto-regressive decoding process. We develop FastSeq framework to accelerate sequence generation without accuracy loss. The proposed optimization techniques include an attention cache optimization, an efficient algorithm for detecting repeated n-grams, and an asynchronous generation pipeline with parallel I/O. These optimizations are general enough to be applicable to Transformer-based models (e.g., T5, GPT2, and UniLM). Our benchmark results on a set of widely used and diverse models demonstrate 4-9x inference speed gain. Additionally, FastSeq is easy to use with a simple one-line code change. The source code is available at https://github.com/m icrosoft/fastseq.
翻訳日:2021-06-10 15:28:11 公開日:2021-06-08
# 相関特徴空間における動的インスタンスワイズ分類

Dynamic Instance-Wise Classification in Correlated Feature Spaces ( http://arxiv.org/abs/2106.04668v1 )

ライセンス: Link先を確認
Yasitha Warahena Liyanage, Daphney-Stavroula Zois, Charalampos Chelmis(参考訳) 典型的な教師付き機械学習設定では、すべてのテストインスタンスの予測は、モデルトレーニング中に発見された機能の共通サブセットに基づいている。 しかし、個々のテストインスタンスに最も有意義な機能の異なるサブセットを使用することで、予測精度が向上するだけでなく、モデルの全体的な解釈可能性も向上する可能性がある。 同時に、分類のための特徴選択法は、多くの特徴が無関係かつ/または無相関である場合に最も効果的であることが知られている。 実際、特徴間の相関を無視した特徴選択は、分類性能の低下につながる可能性がある。 この作業では、ベイジアンネットワークを使用して機能依存をモデル化する。 依存性ネットワークを用いて,各テストインスタンスに対して個別に評価すべき最良特徴を順次選択し,分類精度に関してさらなる改善が得られないと判断した場合には,選択プロセスを停止して予測を行う新たな手法を提案する。 各テストインスタンスに対して、取得すべき最適特徴数と最適な分類戦略を導出する。 最適解の理論的性質を解析し、これらの特性を利用して高次元設定のための堅牢でスケーラブルな解を実現する新しいアルゴリズムを提案する。 提案手法の有効性, 汎用性, スケーラビリティは, 様々なアプリケーションドメインの様々な実世界データセットで示される。

In a typical supervised machine learning setting, the predictions on all test instances are based on a common subset of features discovered during model training. However, using a different subset of features that is most informative for each test instance individually may not only improve prediction accuracy, but also the overall interpretability of the model. At the same time, feature selection methods for classification have been known to be the most effective when many features are irrelevant and/or uncorrelated. In fact, feature selection ignoring correlations between features can lead to poor classification performance. In this work, a Bayesian network is utilized to model feature dependencies. Using the dependency network, a new method is proposed that sequentially selects the best feature to evaluate for each test instance individually, and stops the selection process to make a prediction once it determines that no further improvement can be achieved with respect to classification accuracy. The optimum number of features to acquire and the optimum classification strategy are derived for each test instance. The theoretical properties of the optimum solution are analyzed, and a new algorithm is proposed that takes advantage of these properties to implement a robust and scalable solution for high dimensional settings. The effectiveness, generalizability, and scalability of the proposed method is illustrated on a variety of real-world datasets from diverse application domains.
翻訳日:2021-06-10 15:26:59 公開日:2021-06-08
# 実証による教育のためのカリキュラム設計:理論と応用

Curriculum Design for Teaching via Demonstrations: Theory and Applications ( http://arxiv.org/abs/2106.04696v1 )

ライセンス: Link先を確認
Gaurav Yengera, Rati Devidze, Parameswaran Kamalaruban, Adish Singla(参考訳) 逐次意思決定設定における実演による授業の問題点を考察する。 特に,学習者の収束を早めるために,実演よりもパーソナライズされたカリキュラムを設計する方法を検討する。 我々は,最大因果エントロピー逆強化学習(MaxEnt-IRL)とクロスエントロピー行動クローン(CrossEnt-BC)の2つの一般的な学習モデルに対して,統一的なカリキュラム戦略を提供する。 我々の統一戦略は w.r.t. で計算された難易度スコアの概念に基づくデモンストレーションのランキングを誘導する。 教師の最適方針と 学習者の現在の方針。 技術状況と比較して、我々の戦略は学習者の内部力学にアクセスする必要はなく、穏やかな技術的条件下でも同様の収束保証を享受している。 さらに,教師の最適方針が不明な場合の課題特定難易度スコアの形で,ドメイン知識を用いた学習者にカリキュラム戦略を適用する。 グリッドワールド環境における自動車運転シミュレータ環境と最短経路問題に関する実験は,提案するカリキュラム戦略の有効性を示す。

We consider the problem of teaching via demonstrations in sequential decision-making settings. In particular, we study how to design a personalized curriculum over demonstrations to speed up the learner's convergence. We provide a unified curriculum strategy for two popular learner models: Maximum Causal Entropy Inverse Reinforcement Learning (MaxEnt-IRL) and Cross-Entropy Behavioral Cloning (CrossEnt-BC). Our unified strategy induces a ranking over demonstrations based on a notion of difficulty scores computed w.r.t. the teacher's optimal policy and the learner's current policy. Compared to the state of the art, our strategy doesn't require access to the learner's internal dynamics and still enjoys similar convergence guarantees under mild technical conditions. Furthermore, we adapt our curriculum strategy to teach a learner using domain knowledge in the form of task-specific difficulty scores when the teacher's optimal policy is unknown. Experiments on a car driving simulator environment and shortest path problems in a grid-world environment demonstrate the effectiveness of our proposed curriculum strategy.
翻訳日:2021-06-10 15:26:43 公開日:2021-06-08
# 暗号化されたプラットフォームに誤情報を流す行為:2019年のインド大統領選挙をWhatsAppで事例として

Tiplines to Combat Misinformation on Encrypted Platforms: A Case Study of the 2019 Indian Election on WhatsApp ( http://arxiv.org/abs/2106.04726v1 )

ライセンス: Link先を確認
Ashkan Kazemi, Kiran Garimella, Gautam Kishore Shahi, Devin Gaffney, Scott A. Hale(参考訳) WhatsAppは、世界中で20億人以上のユーザーが使っている人気のチャットアプリだ。 しかし、エンドツーエンドの暗号化のため、whatsappのコンテンツを大規模にチェックする簡単な方法は存在しない。 本稿では、ユーザーがファクトチェックしたいメッセージを含む「チップ」を投稿できるwhatsapp上のクラウドソースシステムの有用性について分析する。 われわれは、2019年のインド大統領選挙でWhatsAppのチップラインに送られたチップと、同時期にWhatsAppや他のソーシャルメディアプラットフォーム上の大規模な公開グループで流されたメッセージを比較した。 ティップラインに送られたメッセージと画像のかなりの一部が、whatsappグループや他のソーシャルメディアで共有されているコンテンツと一致している。 われわれの分析によれば、ティップラインは最も人気のあるコンテンツをよくカバーしており、そうしたコンテンツの大部分は、大きな公開whatsappグループに現れる前にティップラインと共有されることが多い。 全体としては、チップラインはファクトチェックのコンテンツを見つけるための効果的な情報源になり得ることを示唆している。

WhatsApp is a popular chat application used by over 2 billion users worldwide. However, due to end-to-end encryption, there is currently no easy way to fact-check content on WhatsApp at scale. In this paper, we analyze the usefulness of a crowd-sourced system on WhatsApp through which users can submit "tips" containing messages they want fact-checked. We compare the tips sent to a WhatsApp tipline run during the 2019 Indian national elections with the messages circulating in large, public groups on WhatsApp and other social media platforms during the same period. We find that tiplines are a very useful lens into WhatsApp conversations: a significant fraction of messages and images sent to the tipline match with the content being shared on public WhatsApp groups and other social media. Our analysis also shows that tiplines cover the most popular content well, and a majority of such content is often shared to the tipline before appearing in large, public WhatsApp groups. Overall, the analysis suggests tiplines can be an effective source for discovering content to fact-check.
翻訳日:2021-06-10 15:21:43 公開日:2021-06-08
# OODIn:不均一なモバイルデバイスのための最適化オンデバイス推論フレームワーク

OODIn: An Optimised On-Device Inference Framework for Heterogeneous Mobile Devices ( http://arxiv.org/abs/2106.04723v1 )

ライセンス: Link先を確認
Stylianos I. Venieris and Ioannis Panopoulos and Iakovos S. Venieris(参考訳) 深層学習(DL)分野における急進的な進歩は、多様な推論タスクにおいて前例のない精度を導いた。 そのため、モバイルプラットフォームにDLモデルをデプロイすることは、次世代のインテリジェントアプリの開発と広範な利用を可能にする上で不可欠である。 それでも、DLモデルの広範かつ最適化された展開は、現在、モバイルデバイスの膨大なシステムの不均一性、異なるDLモデルの計算コストの変化、DLアプリケーション間のパフォーマンス要求の変動によって妨げられている。 異種モバイルデバイス間でDLアプリケーションを最適化するためのフレームワークであるOODInを提案する。 OODIn comprises a novel DL-specific software architecture together with an analytical framework for modelling DL applications that: (1) counteract the variability in device resources and DL models by means of a highly parametrised multi-layer design; and (2) perform a principled optimisation of both model- and system-level parameters through a multi-objective formulation, designed for DL inference apps, in order to adapt the deployment to the user-specified performance requirements and device capabilities. 定量的評価により,提案フレームワークは異種デバイス間でのステータスクォイ設計を一貫して上回り,高度に最適化されたプラットフォームおよびモデル認識設計よりも最大4.3倍,3.5倍の性能向上を実現し,資源可用性の動的変化への実行を効果的に適用した。

Radical progress in the field of deep learning (DL) has led to unprecedented accuracy in diverse inference tasks. As such, deploying DL models across mobile platforms is vital to enable the development and broad availability of the next-generation intelligent apps. Nevertheless, the wide and optimised deployment of DL models is currently hindered by the vast system heterogeneity of mobile devices, the varying computational cost of different DL models and the variability of performance needs across DL applications. This paper proposes OODIn, a framework for the optimised deployment of DL apps across heterogeneous mobile devices. OODIn comprises a novel DL-specific software architecture together with an analytical framework for modelling DL applications that: (1) counteract the variability in device resources and DL models by means of a highly parametrised multi-layer design; and (2) perform a principled optimisation of both model- and system-level parameters through a multi-objective formulation, designed for DL inference apps, in order to adapt the deployment to the user-specified performance requirements and device capabilities. Quantitative evaluation shows that the proposed framework consistently outperforms status-quo designs across heterogeneous devices and delivers up to 4.3x and 3.5x performance gain over highly optimised platform- and model-aware designs respectively, while effectively adapting execution to dynamic changes in resource availability.
翻訳日:2021-06-10 15:21:29 公開日:2021-06-08
# SpeechBrain: 汎用音声ツールキット

SpeechBrain: A General-Purpose Speech Toolkit ( http://arxiv.org/abs/2106.04624v1 )

ライセンス: Link先を確認
Mirco Ravanelli, Titouan Parcollet, Peter Plantinga, Aku Rouhe, Samuele Cornell, Loren Lugosch, Cem Subakan, Nauman Dawalatabad, Abdelwahab Heba, Jianyuan Zhong, Ju-Chieh Chou, Sung-Lin Yeh, Szu-Wei Fu, Chien-Feng Liao, Elena Rastorgueva, Fran\c{c}ois Grondin, William Aris, Hwidong Na, Yan Gao, Renato De Mori, Yoshua Bengio(参考訳) SpeechBrainはオープンソースのオールインワン音声ツールキットである。 シンプルでフレキシブルで、ユーザフレンドリで、ドキュメントの充実によって、ニューラル音声処理技術の研究開発を促進するように設計されている。 本稿では,ユーザが新たな音声処理パイプラインを自然に理解し,比較し,共有できるように,共通するタスクをサポートするように設計されたコアアーキテクチャについて述べる。 SpeechBrainは、幅広い音声ベンチマークにおいて、競争または最先端のパフォーマンスを達成する。 また、一般的な音声データセットのトレーニングレシピ、事前訓練されたモデル、推論スクリプト、および基本的なPython習熟度を持つ誰でも音声技術に精通できるチュートリアルも提供する。

SpeechBrain is an open-source and all-in-one speech toolkit. It is designed to facilitate the research and development of neural speech processing technologies by being simple, flexible, user-friendly, and well-documented. This paper describes the core architecture designed to support several tasks of common interest, allowing users to naturally conceive, compare and share novel speech processing pipelines. SpeechBrain achieves competitive or state-of-the-art performance in a wide range of speech benchmarks. It also provides training recipes, pretrained models, and inference scripts for popular speech datasets, as well as tutorials which allow anyone with basic Python proficiency to familiarize themselves with speech technologies.
翻訳日:2021-06-10 15:19:04 公開日:2021-06-08
# 異なる需要クラスを考慮した医療用ドローン:医療用品の流通管理のためのマルコフ決定プロセスアプローチ

Drones for Medical Delivery Considering Different Demands Classes: A Markov Decision Process Approach for Managing Health Centers Dispatching Medical Products ( http://arxiv.org/abs/2106.04729v1 )

ライセンス: Link先を確認
Amin Asadi and Sarah Nurre Pinkley(参考訳) 異なる地理的領域に医療物資を届けるためにドローンを用いたハブの配電操作を最適化する問題を考える。 ドローンは画期的な方法であり、低接触の配送など多くの利点があり、パンデミックやワクチン予防の病気の拡散を減らしている。 私たちはこの作業のために医療物資の配送にフォーカスしていますが、食品、郵便物、eコマース配達など、他の多くのアプリケーションのドローン配達に適用できます。 本稿では,ドローンを地理的に異なる場所に配置し,医療物資の確率的需要を発生させるドローンハブの配送操作を最適化することで,ドローン配送の課題を解決することを目的とする。 異なる地理的位置を考慮することで、ドローンバッテリーに蓄えられた電荷の量に直接関係する異なる飛行範囲を必要とする異なる需要のクラスを考察する。 我々は,ドローンハブからの距離に基づいて確率的要求を分類し,マルコフ決定プロセスを用いて問題をモデル化し,著名なドローン配送会社を代表する現実的なデータを用いて計算テストを行う。 本稿では,強化学習法を用いて解き,動的プログラミングを用いた解法と比較し,その高い性能を示す。 最後に、結果を分析し、ドローンハブ操作を管理するための洞察を提供する。

We consider the problem of optimizing the distribution operations of a hub using drones to deliver medical supplies to different geographic regions. Drones are an innovative method with many benefits including low-contact delivery thereby reducing the spread of pandemic and vaccine-preventable diseases. While we focus on medical supply delivery for this work, it is applicable to drone delivery for many other applications, including food, postal items, and e-commerce delivery. In this paper, our goal is to address drone delivery challenges by optimizing the distribution operations at a drone hub that dispatch drones to different geographic locations generating stochastic demands for medical supplies. By considering different geographic locations, we consider different classes of demand that require different flight ranges, which is directly related to the amount of charge held in a drone battery. We classify the stochastic demands based on their distance from the drone hub, use a Markov decision process to model the problem, and perform computational tests using realistic data representing a prominent drone delivery company. We solve the problem using a reinforcement learning method and show its high performance compared with the exact solution found using dynamic programming. Finally, we analyze the results and provide insights for managing the drone hub operations.
翻訳日:2021-06-10 15:18:54 公開日:2021-06-08
# バイレベル最適化のためのより高速なアルゴリズム

Provably Faster Algorithms for Bilevel Optimization ( http://arxiv.org/abs/2106.04692v1 )

ライセンス: Link先を確認
Junjie Yang, Kaiyi Ji, Yingbin Liang(参考訳) 双レベル最適化は、ハイパーパラメータ最適化やメタラーニングなど、多くの重要な機械学習アプリケーションに広く応用されている。 近年,二段階最適化問題を高速に解くために,モーメントに基づくアルゴリズムがいくつか提案されている。 しかし、これらの運動量に基づくアルゴリズムは、SGDベースのアルゴリズムの$\mathcal{O}(\epsilon^{-2})$よりも証明可能な計算複雑性を達成できない。 本稿では,二段階最適化のための2つの新しいアルゴリズムを提案する。第1のアルゴリズムはモーメントに基づく再帰的反復を適用し,第2のアルゴリズムはネストループにおける再帰的勾配推定を適用し,分散を減少させる。 両アルゴリズムが$\mathcal{O}(\epsilon^{-1.5})$の複雑さを達成し,既存のアルゴリズムを桁違いに上回っていることを示す。 実験は理論結果の検証を行い,ハイパーパラメータ応用におけるアルゴリズムの優れた経験的性能を示す。 MRBO、VRBO、その他のベンチマーク用のコードは、$\text{online}^1$で利用可能です。

Bilevel optimization has been widely applied in many important machine learning applications such as hyperparameter optimization and meta-learning. Recently, several momentum-based algorithms have been proposed to solve bilevel optimization problems faster. However, those momentum-based algorithms do not achieve provably better computational complexity than $\mathcal{O}(\epsilon^{-2})$ of the SGD-based algorithm. In this paper, we propose two new algorithms for bilevel optimization, where the first algorithm adopts momentum-based recursive iterations, and the second algorithm adopts recursive gradient estimations in nested loops to decrease the variance. We show that both algorithms achieve the complexity of $\mathcal{O}(\epsilon^{-1.5})$, which outperforms all existing algorithms by the order of magnitude. Our experiments validate our theoretical results and demonstrate the superior empirical performance of our algorithms in hyperparameter applications. Our codes for MRBO, VRBO and other benchmarks are available $\text{online}^1$.
翻訳日:2021-06-10 15:18:04 公開日:2021-06-08
# compacter: 効率のよい低ランクハイパーコンプレックスアダプタ層

Compacter: Efficient Low-Rank Hypercomplex Adapter Layers ( http://arxiv.org/abs/2106.04647v1 )

ライセンス: Link先を確認
Rabeeh Karimi Mahabadi, James Henderson, Sebastian Ruder(参考訳) 微調整によるダウンストリームタスクへの大規模事前学習言語モデルの適用は、nlpベンチマークで最先端のパフォーマンスを達成するための標準的な方法である。 しかし、数百万から数十億のパラメータでモデルのすべての重みを微調整することは、サンプル非効率であり、低リソース設定では不安定であり、各タスクにモデルの別々のコピーを保存する必要があるため無駄である。 近年の研究ではパラメータ効率のよい微調整法が開発されているが、これらの手法は比較的多くのパラメータを必要とするか、標準の微調整が不十分である。 本研究では,従来よりもタスク性能と学習可能なパラメータ数とのトレードオフが良好である大規模言語モデルの微調整手法である compacter を提案する。 compacterはアダプタ、低ランク最適化、パラメータ化ハイパーコンプレックス乗算層のアイデアの上に構築することでこれを実現している。 特に、Compacterはタスク固有の重み行列を事前訓練されたモデルの重みに挿入し、Kroneckerの積を共有の ``slow'' 重みと共有の ``fast'' ランク1の行列の和として効率的に計算する。 事前トレーニングされたモデルのパラメータの 0.047% をトレーニングするだけで、compacter は標準のglue の微調整と同等の性能を発揮し、低リソース設定での微調整よりも優れている。 私たちのコードはhttps://github.com/r abeehk/compacter/で公開されています。

Adapting large-scale pretrained language models to downstream tasks via fine-tuning is the standard method for achieving state-of-the-art performance on NLP benchmarks. However, fine-tuning all weights of models with millions or billions of parameters is sample-inefficient, unstable in low-resource settings, and wasteful as it requires storing a separate copy of the model for each task. Recent work has developed parameter-efficient fine-tuning methods, but these approaches either still require a relatively large number of parameters or underperform standard fine-tuning. In this work, we propose Compacter, a method for fine-tuning large-scale language models with a better trade-off between task performance and the number of trainable parameters than prior work. Compacter accomplishes this by building on top of ideas from adapters, low-rank optimization, and parameterized hypercomplex multiplication layers. Specifically, Compacter inserts task-specific weight matrices into a pretrained model's weights, which are computed efficiently as a sum of Kronecker products between shared ``slow'' weights and ``fast'' rank-one matrices defined per Compacter layer. By only training 0.047% of a pretrained model's parameters, Compacter performs on par with standard fine-tuning on GLUE and outperforms fine-tuning in low-resource settings. Our code is publicly available in https://github.com/r abeehk/compacter/
翻訳日:2021-06-10 15:14:32 公開日:2021-06-08
# NRGNN:スパースグラフとノイズラベルグラフを用いたラベルノイズ耐性グラフニューラルネットワークの学習

NRGNN: Learning a Label Noise-Resistant Graph Neural Network on Sparsely and Noisily Labeled Graphs ( http://arxiv.org/abs/2106.04714v1 )

ライセンス: Link先を確認
Enyan Dai, Charu Aggarwal, Suhang Wang(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類などのグラフ上の半教師付き学習タスクに対して,有望な結果を得た。 GNNの大きな成功にもかかわらず、多くの実世界のグラフはしばしば疎結合でノイズの多いラベルが付けられ、GNNの性能は著しく低下する可能性がある。 したがって、半教師付きノード分類のためのラベルノイズ耐性GNNを開発することが重要である。 ニューラルネットをノイズラベルで学習するために広範な研究が行われてきたが、主に独立的で同一の分散データに焦点を当て、GNNに直接適用できない多数のノイズラベルが利用可能であると仮定している。 そこで本研究では,雑音や制限のあるラベルを持つ頑健なGNNを学習する新しい問題について検討する。 ラベルノイズの悪影響を軽減するために,ラベルのないノードと,特徴の類似度が高いラベル付きノードをリンクし,よりクリーンなラベル情報を提供する。 さらに、この戦略により正確な擬似ラベルを得ることができ、より監督し、さらにラベルノイズの影響を低減できる。 理論および実証分析により, 軽度条件下でのこれら2つの戦略の有効性が検証された。 実世界のデータセットに対する大規模な実験は、雑音と限定ラベルを持つ堅牢なGNN学習における提案手法の有効性を示す。

Graph Neural Networks (GNNs) have achieved promising results for semi-supervised learning tasks on graphs such as node classification. Despite the great success of GNNs, many real-world graphs are often sparsely and noisily labeled, which could significantly degrade the performance of GNNs, as the noisy information could propagate to unlabeled nodes via graph structure. Thus, it is important to develop a label noise-resistant GNN for semi-supervised node classification. Though extensive studies have been conducted to learn neural networks with noisy labels, they mostly focus on independent and identically distributed data and assume a large number of noisy labels are available, which are not directly applicable for GNNs. Thus, we investigate a novel problem of learning a robust GNN with noisy and limited labels. To alleviate the negative effects of label noise, we propose to link the unlabeled nodes with labeled nodes of high feature similarity to bring more clean label information. Furthermore, accurate pseudo labels could be obtained by this strategy to provide more supervision and further reduce the effects of label noise. Our theoretical and empirical analysis verify the effectiveness of these two strategies under mild conditions. Extensive experiments on real-world datasets demonstrate the effectiveness of the proposed method in learning a robust GNN with noisy and limited labels.
翻訳日:2021-06-10 15:06:43 公開日:2021-06-08
# 不正確な監督を伴うラベル付きデータ生成

Labeled Data Generation with Inexact Supervision ( http://arxiv.org/abs/2106.04716v1 )

ライセンス: Link先を確認
Enyan Dai, Kai Shu, Yiwei Sun, Suhang Wang(参考訳) 最近の高度なディープラーニング技術は、コンピュータビジョンや自然言語処理など、さまざまな領域で有望な結果を示している。 教師付き学習におけるディープニューラルネットワークの成功は、大量のラベル付きデータに大きく依存している。 しかしながら、ラベル付けコストやプライバシの問題など、既存のディープモデルに挑戦するさまざまな理由から、ターゲットラベルでラベル付きデータを取得することは、しばしば困難である。 それにもかかわらず、ターゲットタスクに関連するラベル/タグを持つ \textit{inexact supervisor} のデータを得るのは比較的簡単である。 例えば、ソーシャルメディアプラットフォームは何十億ものポストやイメージに圧倒され、自己カスタマイズタグはターゲット分類タスクの正確なラベルではないが、通常はターゲットラベルと関連付けられている。 これらのタグとターゲットクラスとの関係を利用してラベル付きデータを生成し、下流の分類作業を容易にすることを約束している。 しかし、これに関する作業は限られている。 そこで本研究では,ラベル付きデータ生成の新たな問題点について検討する。 そこで本研究では,非現実的な教師付きデータから学習し,非現実的な監督と対象クラスの関係を学習することで,高品質なラベル付きデータをターゲット分類タスクのために合成する,ADDESと呼ばれる新しい生成フレームワークを提案する。 画像とテキストのデータセットに対する実験結果は、ターゲット分類作業を容易にするために、不正確な監督からリアルなラベル付きデータを生成するためのADDESの有効性を示す。

The recent advanced deep learning techniques have shown the promising results in various domains such as computer vision and natural language processing. The success of deep neural networks in supervised learning heavily relies on a large amount of labeled data. However, obtaining labeled data with target labels is often challenging due to various reasons such as cost of labeling and privacy issues, which challenges existing deep models. In spite of that, it is relatively easy to obtain data with \textit{inexact supervision}, i.e., having labels/tags related to the target task. For example, social media platforms are overwhelmed with billions of posts and images with self-customized tags, which are not the exact labels for target classification tasks but are usually related to the target labels. It is promising to leverage these tags (inexact supervision) and their relations with target classes to generate labeled data to facilitate the downstream classification tasks. However, the work on this is rather limited. Therefore, we study a novel problem of labeled data generation with inexact supervision. We propose a novel generative framework named as ADDES which can synthesize high-quality labeled data for target classification tasks by learning from data with inexact supervision and the relations between inexact supervision and target classes. Experimental results on image and text datasets demonstrate the effectiveness of the proposed ADDES for generating realistic labeled data from inexact supervision to facilitate the target classification task.
翻訳日:2021-06-10 15:06:22 公開日:2021-06-08
# Weisfeiler-Lehmanグラフカーネルの学習サブツリーパターンの重要性

Learning subtree pattern importance for Weisfeiler-Lehmanbas ed graph kernels ( http://arxiv.org/abs/2106.04739v1 )

ライセンス: Link先を確認
Dai Hai Nguyen, Canh Hao Nguyen and Hiroshi Mamitsuka(参考訳) グラフはリレーショナルデータの通常の表現であり、分子、生物、社会ネットワークなど多くのドメインに共通している。 グラフ構造化データを学習するための一般的なアプローチは、グラフ間の類似度を測定し、サポートベクターマシンなどのカーネルマシンにプラグインするグラフカーネルを使用することである。weisfeiler-lehman(wl )ベースのグラフカーネルは、wlラベリングスキームを使用してサブツリーパターンを抽出し、ノード埋め込みを行う。 しかし、ageneral kernelの主な欠点の1つは、カーネル構築と学習プロセスの分離である。 分子グラフでは、wlサブツリーのような通常のカーネルは、分子のサブ構造に基づいて、同じ重要性を持つ全ての利用可能なサブ構造を考える。 本稿では,wwlカーネルの枠組みにおける部分木パターンの重みを学習する手法を提案する[14]。 大規模データセット上での計算問題を克服するため,効率的な学習アルゴリズムを提案し,その収束を示す一般化ギャップを導出する。 最後に, 合成および実世界のデータセット実験を通じて, サブツリーパターンの重みを学習するための提案手法の有効性を実証した。

Graph is an usual representation of relational data, which are ubiquitous in manydomains such as molecules, biological and social networks. A popular approach to learningwith graph structured data is to make use of graph kernels, which measure the similaritybetween graphs and are plugged into a kernel machine such as a support vector machine.Weisfeiler-L ehman (WL) based graph kernels, which employ WL labeling scheme to extract subtree patterns and perform node embedding, are demonstrated to achieve great performance while being efficiently computable. However, one of the main drawbacks of ageneral kernel is the decoupling of kernel construction and learning process. For moleculargraphs, usual kernels such as WL subtree, based on substructures of the molecules, consider all available substructures having the same importance, which might not be suitable inpractice. In this paper, we propose a method to learn the weights of subtree patterns in the framework of WWL kernels, the state of the art method for graph classification task [14]. To overcome the computational issue on large scale data sets, we present an efficient learning algorithm and also derive a generalization gap bound to show its convergence. Finally, through experiments on synthetic and real-world data sets, we demonstrate the effectiveness of our proposed method for learning the weights of subtree patterns.
翻訳日:2021-06-10 15:06:00 公開日:2021-06-08
# トラブルに陥るな! 自動運転車のリスク対応意思決定

Don't Get Yourself into Trouble! Risk-aware Decision-Making for Autonomous Vehicles ( http://arxiv.org/abs/2106.04625v1 )

ライセンス: Link先を確認
Kasra Mokhtari, Alan R. Wagner(参考訳) リスクは伝統的に、自動運転車の衝突のような望ましくない結果の予想される可能性として説明される。 自動運転車の安全な運転には、リスクや潜在的リスクの正確な予測が不可欠である。 前回の研究では,1)望ましくない結果の確率と,2)望ましくない結果がどの程度望ましくないかを見積もる(損失)という2つの要素によってリスクが特徴づけられることを示した。 本論文は,前回の研究の延長である。 本稿では,訓練された深層強化学習モデルを用いて,高レベルリスクベースの経路計画と低レベル制御を統合した自動運転車のリスクベースの意思決定フレームワークを開発した。 CARLAなどの高忠実度シミュレーションで本手法の評価を行った。 この作業は、自動運転車がリスクのある状況を避けて対応できるようにすることで、安全性を向上させることができる。

Risk is traditionally described as the expected likelihood of an undesirable outcome, such as collisions for autonomous vehicles. Accurately predicting risk or potentially risky situations is critical for the safe operation of autonomous vehicles. In our previous work, we showed that risk could be characterized by two components: 1) the probability of an undesirable outcome and 2) an estimate of how undesirable the outcome is (loss). This paper is an extension to our previous work. In this paper, using our trained deep reinforcement learning model for navigating around crowds, we developed a risk-based decision-making framework for the autonomous vehicle that integrates the high-level risk-based path planning with the reinforcement learning-based low-level control. We evaluated our method in a high-fidelity simulation such as CARLA. This work can improve safety by allowing an autonomous vehicle to one day avoid and react to risky situations.
翻訳日:2021-06-10 15:01:29 公開日:2021-06-08
# 逐次エンドツーエンドインテントとスロットラベルの分類と位置化

Sequential End-to-End Intent and Slot Label Classification and Localization ( http://arxiv.org/abs/2106.04660v1 )

ライセンス: Link先を確認
Yiran Cao, Nihal Potdar, Anderson R. Avila(参考訳) HCI(Human-Computer Interaction)は、音声対話システムからの遅延応答に大きく影響する。 したがって, エンドツーエンド (e2e) 音声言語理解 (SLU) ソリューションが最近提案されている。 このようなアプローチにより、音声信号から直接意味情報の抽出が可能となり、自動音声認識(ASR)システムからの転写の必要性を回避できる。 本稿では,音声信号のチャンクを連続処理して意図とスロット値を予測する,ストリーミングシナリオのためのコンパクトなe2e SLUアーキテクチャを提案する。 本モデルは,3次元畳み込みニューラルネットワーク(3D-CNN)と一方向長短期記憶(LSTM)に基づく。 接続性時空間分類法(ctc法)と適応型ctl法(connectionist temporal localization, ctl)の2つのアライメントフリーロスの性能を比較した。 後者は、分類だけでなく、逐次的なオーディオイベントのローカライズも行う。 提案する解法をfluent speech commandデータセット上で評価し,提案手法では入力音声信号を処理し,ctcでは98.97 %,単一ラベル分類では98.78 %,ctcでは95.69 %,2ラベル予測では95.28 %の精度で処理できることを示す。

Human-computer interaction (HCI) is significantly impacted by delayed responses from a spoken dialogue system. Hence, end-to-end (e2e) spoken language understanding (SLU) solutions have recently been proposed to decrease latency. Such approaches allow for the extraction of semantic information directly from the speech signal, thus bypassing the need for a transcript from an automatic speech recognition (ASR) system. In this paper, we propose a compact e2e SLU architecture for streaming scenarios, where chunks of the speech signal are processed continuously to predict intent and slot values. Our model is based on a 3D convolutional neural network (3D-CNN) and a unidirectional long short-term memory (LSTM). We compare the performance of two alignment-free losses: the connectionist temporal classification (CTC) method and its adapted version, namely connectionist temporal localization (CTL). The latter performs not only the classification but also localization of sequential audio events. The proposed solution is evaluated on the Fluent Speech Command dataset and results show our model ability to process incoming speech signal, reaching accuracy as high as 98.97 % for CTC and 98.78 % for CTL on single-label classification, and as high as 95.69 % for CTC and 95.28 % for CTL on two-label prediction.
翻訳日:2021-06-10 15:01:15 公開日:2021-06-08
# 自動微分可能なランダム係数ロジスティック需要推定

Automatically Differentiable Random Coefficient Logistic Demand Estimation ( http://arxiv.org/abs/2106.04636v1 )

ライセンス: Link先を確認
Andrew Chia(参考訳) 本稿では,ランダム係数ロジスティック・デマンド(blp)モデルについて,文献に提案されている数値セーフガードの組込みを含む,自動微分可能なモーメント関数として表現できることを示す。 これにより、CUE(Continuously Updating Estimator)を用いた勾配に基づく頻繁性と準ベイズ推定が可能となる。 機械学習の文献から,頻度主義的手法とベイズ的手法の両方において,非活用のベストプラクティスを概説した。 モンテカルロ実験では,CUE,2S-GMM,LTE推定の性能を比較した。 予備的な結果から,lteと頻繁な最適化により推定される手がかりは,従来の2段階gmm (2s-gmm) 法に比べてバイアスは低いが,maeが高いことが示された。 また,非線形パラメータに対するMCMCサンプリングの信頼区間と集中アウト線形パラメータに対する頻繁な分析標準誤差を用いることで,名目レベルに最も近い経験的カバレッジが得られることがわかった。 admest pythonパッケージは、レプリケーションと拡張性のためのプラットフォームを提供する。

We show how the random coefficient logistic demand (BLP) model can be phrased as an automatically differentiable moment function, including the incorporation of numerical safeguards proposed in the literature. This allows gradient-based frequentist and quasi-Bayesian estimation using the Continuously Updating Estimator (CUE). Drawing from the machine learning literature, we outline hitherto under-utilized best practices in both frequentist and Bayesian estimation techniques. Our Monte Carlo experiments compare the performance of CUE, 2S-GMM, and LTE estimation. Preliminary findings indicate that the CUE estimated using LTE and frequentist optimization has a lower bias but higher MAE compared to the traditional 2-Stage GMM (2S-GMM) approach. We also find that using credible intervals from MCMC sampling for the non-linear parameters together with frequentist analytical standard errors for the concentrated out linear parameters provides empirical coverage closest to the nominal level. The accompanying admest Python package provides a platform for replication and extensibility.
翻訳日:2021-06-10 14:58:16 公開日:2021-06-08
# ディープニューラルネットワークにおける手作りバックドア

Handcrafted Backdoors in Deep Neural Networks ( http://arxiv.org/abs/2106.04690v1 )

ライセンス: Link先を確認
Sanghyun Hong, Nicholas Carlini, Alexey Kurakin(参考訳) ディープニューラルネットワーク(DNN)は正確だが、トレーニングには高価だ。 したがって、多くの実践者は、トレーニングプロセスを第三者にアウトソースしたり、トレーニング済みのdnnを使用する。 このプラクティスにより、DNNは$backdoor$ $ attacks$: モデルをトレーニングするサードパーティは、悪意を持って行動し、非正確なモデルに隠れた振る舞いを注入する。 これまで、バックドアを注入するメカニズムは$poisoning$に制限されていた。 我々は、このようなサプライチェーン攻撃にはより多くの攻撃技術があると主張している。 本仮説では, バックドアを注入するために, トレーニング済みモデルのパラメータを直接操作する手技攻撃を導入する。 我々の手作りの攻撃者は毒よりもモデルパラメータを操作する自由度が高い。 これによりディフェンダーは、統計分析、モデルパラメータにランダムノイズの追加、あるいは特定の範囲内で値のクリップなど、簡単な方法で操作を識別または削除することが困難になる。 さらに、我々の攻撃者は手工芸プロセスと追加技術(例えば$)を組み合わせることで、トリガーパターンを共同で最適化し、複雑なネットワークにバックドアを効果的に$-$the meet-in-the-middle攻撃に注入することができる。 評価では、手作りのバックドアは4つのデータセットと4つのネットワークアーキテクチャで有効であり、成功率は96%を超えています。 我々のバックドアモデルはパラメータレベルのバックドア除去技術に耐性があり、バックドア攻撃構成をわずかに変更することで既存の防御を回避することができる。 さらに, 毒による不必要な行動の抑制の可能性を示した。 その結果,サプライチェーンバックドア攻撃の完全な空間を理解するためには,さらなる研究が必要であることが示唆された。

Deep neural networks (DNNs), while accurate, are expensive to train. Many practitioners, therefore, outsource the training process to third parties or use pre-trained DNNs. This practice makes DNNs vulnerable to $backdoor$ $attacks$: the third party who trains the model may act maliciously to inject hidden behaviors into the otherwise accurate model. Until now, the mechanism to inject backdoors has been limited to $poisoning$. We argue that such a supply-chain attacker has more attack techniques available. To study this hypothesis, we introduce a handcrafted attack that directly manipulates the parameters of a pre-trained model to inject backdoors. Our handcrafted attacker has more degrees of freedom in manipulating model parameters than poisoning. This makes it difficult for a defender to identify or remove the manipulations with straightforward methods, such as statistical analysis, adding random noises to model parameters, or clipping their values within a certain range. Further, our attacker can combine the handcrafting process with additional techniques, $e.g.$, jointly optimizing a trigger pattern, to inject backdoors into complex networks effectively$-$the meet-in-the-middle attack. In evaluations, our handcrafted backdoors remain effective across four datasets and four network architectures with a success rate above 96%. Our backdoored models are resilient to both parameter-level backdoor removal techniques and can evade existing defenses by slightly changing the backdoor attack configurations. Moreover, we demonstrate the feasibility of suppressing unwanted behaviors otherwise caused by poisoning. Our results suggest that further research is needed for understanding the complete space of supply-chain backdoor attacks.
翻訳日:2021-06-10 14:58:00 公開日:2021-06-08
# 深層学習アーキテクチャにおけるニューロン群集の進化について

On the Evolution of Neuron Communities in a Deep Learning Architecture ( http://arxiv.org/abs/2106.04693v1 )

ライセンス: Link先を確認
Sakib Mostafa, Debajyoti Mondal(参考訳) ディープラーニングのテクニックは、過去10年にわたって分類タスクに採用されているが、ディープラーニングアーキテクチャが最先端のパフォーマンスをいかに達成できるかは、いまだ明白な目標である。 すべてのトレーニング情報は、トレーニングされたモデルに深く埋め込まれていますが、モデルを分析するだけでは、そのパフォーマンスについてはあまり理解していません。 本稿では,深層学習に基づく分類モデルのニューロン活性化パターンを調べ,そのモデルの性能がニューロンの活性化行動を通じて説明できるかどうかを検討する。 本稿では,ニューロンの活性化行動をグラフとしてモデル化し,ニューロンが有意なコミュニティを形成しているかどうかを検証し,エントロピーを用いてニューロンの行動を予測する方法を提案する。 総合的な実験により, コミュニティの質(モジュラリティ)とエントロピー(エントロピー)は, 深層学習モデルの性能と密接に関連しており, ニューロンの活性化パターンから直接深層学習モデルを説明する新しい方法が提案されている。

Deep learning techniques are increasingly being adopted for classification tasks over the past decade, yet explaining how deep learning architectures can achieve state-of-the-art performance is still an elusive goal. While all the training information is embedded deeply in a trained model, we still do not understand much about its performance by only analyzing the model. This paper examines the neuron activation patterns of deep learning-based classification models and explores whether the models' performances can be explained through neurons' activation behavior. We propose two approaches: one that models neurons' activation behavior as a graph and examines whether the neurons form meaningful communities, and the other examines the predictability of neurons' behavior using entropy. Our comprehensive experimental study reveals that both the community quality (modularity) and entropy are closely related to the deep learning models' performances, thus paves a novel way of explaining deep learning models directly from the neurons' activation pattern.
翻訳日:2021-06-10 14:52:37 公開日:2021-06-08
# parchain: near-neighbor chainを用いた並列階層型凝集クラスタリングフレームワーク

ParChain: A Framework for Parallel Hierarchical Agglomerative Clustering using Nearest-Neighbor Chain ( http://arxiv.org/abs/2106.04727v1 )

ライセンス: Link先を確認
Shangdi Yu, Yiqiu Wang, Yan Gu, Laxman Dhulipala, Julian Shun(参考訳) 本稿では,データセットの様々なスケールのクラスタを表すデンドログラムを作成することを目標とする階層的クラスタリング問題について検討する。 本稿では,並列階層型凝集クラスタリング(hac)アルゴリズムを設計するためのparchainフレームワークを提案する。 2次メモリを必要とする従来の並列HACアルゴリズムと比較して、我々の新しいアルゴリズムは線形メモリのみを必要とし、大規模データセットにスケーラブルである。 ParChainは、最も近い隣り合う連鎖アルゴリズムの並列化に基づいており、ラウンド毎に複数のクラスタをマージすることができる。 提案手法では, クラスタ近傍のクラスタの探索に要する距離計算量を削減するレンジクエリ最適化と, 再利用される可能性のある計算済み距離のサブセットを格納するキャッシュ最適化という, 効率の面で重要な2つの最適化を導入する。 実験により、48コアと2方向ハイパースレッディングを用いた高最適化実装は、最先端の並列HACアルゴリズムよりも5.8-110.1xの高速化を実現し、13.75-54.23xの自己相対的高速化を実現した。 最先端のアルゴリズムと比較して、我々のアルゴリズムは最大237.3倍のスペースを必要とする。 我々のアルゴリズムは、既存のアルゴリズムでは処理できない数千万のポイントでデータセットのサイズにスケールすることができる。

This paper studies the hierarchical clustering problem, where the goal is to produce a dendrogram that represents clusters at varying scales of a data set. We propose the ParChain framework for designing parallel hierarchical agglomerative clustering (HAC) algorithms, and using the framework we obtain novel parallel algorithms for the complete linkage, average linkage, and Ward's linkage criteria. Compared to most previous parallel HAC algorithms, which require quadratic memory, our new algorithms require only linear memory, and are scalable to large data sets. ParChain is based on our parallelization of the nearest-neighbor chain algorithm, and enables multiple clusters to be merged on every round. We introduce two key optimizations that are critical for efficiency: a range query optimization that reduces the number of distance computations required when finding nearest neighbors of clusters, and a caching optimization that stores a subset of previously computed distances, which are likely to be reused. Experimentally, we show that our highly-optimized implementations using 48 cores with two-way hyper-threading achieve 5.8--110.1x speedup over state-of-the-art parallel HAC algorithms and achieve 13.75--54.23x self-relative speedup. Compared to state-of-the-art algorithms, our algorithms require up to 237.3x less space. Our algorithms are able to scale to data set sizes with tens of millions of points, which existing algorithms are not able to handle.
翻訳日:2021-06-10 14:52:21 公開日:2021-06-08
# (参考訳) モノトンアームシーケンスを必要とするマルチアームバンド [全文訳有]

Multi-armed Bandit Requiring Monotone Arm Sequences ( http://arxiv.org/abs/2106.03790v2 )

ライセンス: CC BY 4.0
Ningyuan Chen(参考訳) 多くのオンライン学習やマルチアームの盗賊問題では、取られた行動や引き出された腕は規則的であり、時間とともに単調でなければならない。 例えば、企業が早期採用者や戦略的な待機を緩和するためにマークアップ価格ポリシーを使用する動的価格設定や、線量配分は通常、線量制限毒性を防止するために線量エスカレーション原則に従う臨床試験などがある。 腕列が単調である必要がある場合の連続腕包帯問題を考える。 未知の目的関数がリプシッツ連続であるとき、後悔は$O(T)$であることを示す。 さらに、目的関数がユニモーダルあるいは準凹である場合、その後悔は、提案されたアルゴリズムの下で$\tilde o(t^{3/4})$であり、これは最適速度でもある。 これは、連続武装バンディット文学における最適レート$\tilde O(T^{2/3})$から逸脱し、単調性要求によってもたらされる学習効率のコストを示す。

In many online learning or multi-armed bandit problems, the taken actions or pulled arms are ordinal and required to be monotone over time. Examples include dynamic pricing, in which the firms use markup pricing policies to please early adopters and deter strategic waiting, and clinical trials, in which the dose allocation usually follows the dose escalation principle to prevent dose limiting toxicities. We consider the continuum-armed bandit problem when the arm sequence is required to be monotone. We show that when the unknown objective function is Lipschitz continuous, the regret is $O(T)$. When in addition the objective function is unimodal or quasiconcave, the regret is $\tilde O(T^{3/4})$ under the proposed algorithm, which is also shown to be the optimal rate. This deviates from the optimal rate $\tilde O(T^{2/3})$ in the continuous-armed bandit literature and demonstrates the cost to the learning efficiency brought by the monotonicity requirement.
翻訳日:2021-06-10 13:58:41 公開日:2021-06-08
# (参考訳) Disfl-QA: 質問回答における分散を理解するためのベンチマークデータセット [全文訳有]

Disfl-QA: A Benchmark Dataset for Understanding Disfluencies in Question Answering ( http://arxiv.org/abs/2106.04016v1 )

ライセンス: CC BY 4.0
Aditya Gupta, Jiacheng Xu, Shyam Upadhyay, Diyi Yang, Manaal Faruqui(参考訳) 拡散は、人間の会話においてユビキタスであるにもかかわらず、NLPでは未研究のトピックである。 これは主に、分散を含むデータセットの欠如によるものだ。 本稿では,SQuAD の派生である Disfl-QA を用いた質問応答データセットを提案する。 Disfl-QAには、以前のデータセットに必要なものよりも、テキストのより包括的な理解を必要とする、さまざまな困難障害が含まれている。 ゼロショット環境でのDisfl-QAテストでは,既存の最先端質問応答モデルの性能が著しく低下し,データ拡張手法が部分的に性能低下を回復し,さらに細調整に金データを用いることの有効性を示した。 NLPモデルが堅牢になるためには,大規模な分散データセットが必要である,と我々は主張する。 データセットは、https://github.com/g oogle-research-datas ets/disfl-qaで公開されている。

Disfluencies is an under-studied topic in NLP, even though it is ubiquitous in human conversation. This is largely due to the lack of datasets containing disfluencies. In this paper, we present a new challenge question answering dataset, Disfl-QA, a derivative of SQuAD, where humans introduce contextual disfluencies in previously fluent questions. Disfl-QA contains a variety of challenging disfluencies that require a more comprehensive understanding of the text than what was necessary in prior datasets. Experiments show that the performance of existing state-of-the-art question answering models degrades significantly when tested on Disfl-QA in a zero-shot setting.We show data augmentation methods partially recover the loss in performance and also demonstrate the efficacy of using gold data for fine-tuning. We argue that we need large-scale disfluency datasets in order for NLP models to be robust to them. The dataset is publicly available at: https://github.com/g oogle-research-datas ets/disfl-qa.
翻訳日:2021-06-10 08:26:36 公開日:2021-06-08
# (参考訳) 固有次元推定 [全文訳有]

Intrinsic Dimension Estimation ( http://arxiv.org/abs/2106.04018v1 )

ライセンス: CC BY 4.0
Adam Block, Zeyu Jia, Yury Polyanskiy, and Alexander Rakhlin(参考訳) 多くの実用的な機械学習タスクで遭遇する高次元データは、低次元構造、すなわち多様体仮説が持つと長い間考えられてきた。 したがって、自然問題とは、有限サンプルから与えられた集団分布の固有次元を推定することである。 固有次元の新しい推定器を導入し, 有限標本, 非漸近保証を提供する。 次に,本手法を応用して,データ固有次元のみに依存する生成逆ネットワーク (gans) の新たなサンプル複雑性境界を得る。

It has long been thought that high-dimensional data encountered in many practical machine learning tasks have low-dimensional structure, i.e., the manifold hypothesis holds. A natural question, thus, is to estimate the intrinsic dimension of a given population distribution from a finite sample. We introduce a new estimator of the intrinsic dimension and provide finite sample, non-asymptotic guarantees. We then apply our techniques to get new sample complexity bounds for Generative Adversarial Networks (GANs) depending only on the intrinsic dimension of the data.
翻訳日:2021-06-10 08:13:17 公開日:2021-06-08
# (参考訳) 幾何意味遺伝プログラミングのためのCUDAフレームワークGSGP-CUDA [全文訳有]

GSGP-CUDA -- a CUDA framework for Geometric Semantic Genetic Programming ( http://arxiv.org/abs/2106.04034v1 )

ライセンス: CC BY 4.0
Leonardo Trujillo, Jose Manuel Mu\~noz Contreras, Daniel E Hernandez, Mauro Castelli and Juan J Tapia(参考訳) Geometric Semantic Genetic Programming (GSGP) は進化計算に基づく最先端の機械学習手法である。 GSGPはプログラムセマンティクスのレベルで直接検索操作を行い、より効率的に実行し、ほとんどのGPシステムのように構文レベルで操作することができる。 C++におけるGSGPの効率的な実装は、この事実を悪用しているが、その潜在能力は十分ではない。 本稿では、gpuを用いたgsgpの並列性を利用した、gsgpの最初のcuda実装であり、最も効率的であるgsgp-cudaを提案する。 結果は、最先端のシーケンシャル実装と比較して1000倍以上のスピードアップを示す。

Geometric Semantic Genetic Programming (GSGP) is a state-of-the-art machine learning method based on evolutionary computation. GSGP performs search operations directly at the level of program semantics, which can be done more efficiently then operating at the syntax level like most GP systems. Efficient implementations of GSGP in C++ exploit this fact, but not to its full potential. This paper presents GSGP-CUDA, the first CUDA implementation of GSGP and the most efficient, which exploits the intrinsic parallelism of GSGP using GPUs. Results show speedups greater than 1,000X relative to the state-of-the-art sequential implementation.
翻訳日:2021-06-10 07:41:19 公開日:2021-06-08
# (参考訳) 資源豊富な機械翻訳のための自己指導型共同訓練 [全文訳有]

Self-supervised and Supervised Joint Training for Resource-rich Machine Translation ( http://arxiv.org/abs/2106.04060v1 )

ライセンス: CC BY 4.0
Yong Cheng, Wei Wang, Lu Jiang, Wolfgang Macherey(参考訳) テキスト表現の自己教師付き事前学習は、低リソースニューラルネットワーク翻訳(NMT)に成功している。 しかし、通常は資源豊富なnmtで顕著な成果を得ることができない。 本稿では,NMTモデルの最適化に自己教師付き学習と教師付き学習を組み合わせた共同学習手法である$F_2$-XEnDecを提案する。 教師付き学習のための補完的な自己教師付き信号を利用するため、NMTモデルはクロスオーバーエンコーダデコーダと呼ばれる新しいプロセスを通じて単言語および並列文から解釈された例に基づいて訓練される。 WMT'14英語-ドイツ語とWMT'14英語-フランス語の2つのリソース豊富な翻訳ベンチマークの実験は、我々の手法がいくつかの強力なベースライン法よりも大幅に改善され、逆翻訳を取り入れた場合の46.19BLEUの技法の新たな状態が得られることを示した。 また,提案手法は,ソーシャルメディアに頻繁に現れる符号スイッチングノイズなどの入力摂動に対するモデルロバスト性を向上させることができることを示す。

Self-supervised pre-training of text representations has been successfully applied to low-resource Neural Machine Translation (NMT). However, it usually fails to achieve notable gains on resource-rich NMT. In this paper, we propose a joint training approach, $F_2$-XEnDec, to combine self-supervised and supervised learning to optimize NMT models. To exploit complementary self-supervised signals for supervised learning, NMT models are trained on examples that are interbred from monolingual and parallel sentences through a new process called crossover encoder-decoder. Experiments on two resource-rich translation benchmarks, WMT'14 English-German and WMT'14 English-French, demonstrate that our approach achieves substantial improvements over several strong baseline methods and obtains a new state of the art of 46.19 BLEU on English-French when incorporating back translation. Results also show that our approach is capable of improving model robustness to input perturbations such as code-switching noise which frequently appears on social media.
翻訳日:2021-06-10 07:29:00 公開日:2021-06-08
# (参考訳) 明示的知識の指導による意味制御可能なシーン生成 [全文訳有]

Semantically Controllable Scene Generation with Guidance of Explicit Knowledge ( http://arxiv.org/abs/2106.04066v1 )

ライセンス: CC BY 4.0
Wenhao Ding, Bo Li, Kim Ji Eun, Ding Zhao(参考訳) 深部生成モデル(DGM)は、現実的なデータを生成する優れた能力で知られている。 純粋にデータ駆動アプローチを拡張するため、最近の特殊なDGMは、運転シーンに交通標識を埋め込むなど、ニューロンや機能レベルでパターンを操作することで、制御可能な追加要件を満たすことができる。 本稿では,意味的に制御可能なシーン生成を実現するために,生成プロセスにドメイン知識 \textit{explicitly} を組み込む新しい手法を提案する。 そこで,本研究では,2種類の知識を自然シーンの合成と整合性に分類し,第1のタイプがオブジェクトの特性を表し,第2のタイプがオブジェクト間の関係を表す。 次に,ノードとエッジがそれぞれ2種類の知識に対応している複雑なシーン表現を学習するための木構造生成モデルを提案する。 知識を明示的に統合することで、ツリー構造内のノードとエッジのプロパティにセマンティックルールを付与することで、セマンティック制御可能なシーン生成を可能にする。 クリーンな環境下での制御性と説明可能性を示すための合成例を構築した。 さらに, 現実的な自動運転車走行環境への合成例を拡張し, 提案手法が明示的な知識として規定された交通ルールを満たす3Dポイントクラウドセグメンテーションモデルに対して, 敵の交通シーンを効果的に識別することを示した。

Deep Generative Models (DGMs) are known for their superior capability in generating realistic data. Extending purely data-driven approaches, recent specialized DGMs may satisfy additional controllable requirements such as embedding a traffic sign in a driving scene, by manipulating patterns \textit{implicitly} in the neuron or feature level. In this paper, we introduce a novel method to incorporate domain knowledge \textit{explicitly} in the generation process to achieve semantically controllable scene generation. We categorize our knowledge into two types to be consistent with the composition of natural scenes, where the first type represents the property of objects and the second type represents the relationship among objects. We then propose a tree-structured generative model to learn complex scene representation, whose nodes and edges are naturally corresponding to the two types of knowledge respectively. Knowledge can be explicitly integrated to enable semantically controllable scene generation by imposing semantic rules on properties of nodes and edges in the tree structure. We construct a synthetic example to illustrate the controllability and explainability of our method in a clean setting. We further extend the synthetic example to realistic autonomous vehicle driving environments and conduct extensive experiments to show that our method efficiently identifies adversarial traffic scenes against different state-of-the-art 3D point cloud segmentation models satisfying the traffic rules specified as the explicit knowledge.
翻訳日:2021-06-10 07:09:06 公開日:2021-06-08
# (参考訳) 参照型画像超解像のための変分オートエンコーダ [全文訳有]

Variational AutoEncoder for Reference based Image Super-Resolution ( http://arxiv.org/abs/2106.04090v1 )

ライセンス: CC BY 4.0
Zhi-Song Liu and Wan-Chi Siu and Li-Wen Wang(参考訳) 本稿では,可変オートエンコーダ(RefVAE)を用いた参照ベース画像超解像手法を提案する。 既存の最先端の手法は、主に8$\times$のような大きなアップサンプリング要因ではうまく機能しない単一画像の超解像に焦点を当てている。 我々は,任意の画像が超解像の基準として機能する参照ベース画像スーパーレゾリューションを提案する。 ランダムマップや低解像度画像自体を使っても、提案したRefVAEは超解像への参照から知識を伝達することができる。 異なる参照によって、提案手法は隠れた超解像空間から異なるバージョンの超解像を生成することができる。 psnrとssimの標準評価に異なるデータセットを使用するとともに、ntire2021 srスペースチャレンジにも参加し、このアプローチのランダム性評価の結果を提供した。 他の最先端手法と比較して,本手法はより多様なスコアを得られる。

In this paper, we propose a novel reference based image super-resolution approach via Variational AutoEncoder (RefVAE). Existing state-of-the-art methods mainly focus on single image super-resolution which cannot perform well on large upsampling factors, e.g., 8$\times$. We propose a reference based image super-resolution, for which any arbitrary image can act as a reference for super-resolution. Even using random map or low-resolution image itself, the proposed RefVAE can transfer the knowledge from the reference to the super-resolved images. Depending upon different references, the proposed method can generate different versions of super-resolved images from a hidden super-resolution space. Besides using different datasets for some standard evaluations with PSNR and SSIM, we also took part in the NTIRE2021 SR Space challenge and have provided results of the randomness evaluation of our approach. Compared to other state-of-the-art methods, our approach achieves higher diverse scores.
翻訳日:2021-06-10 06:52:22 公開日:2021-06-08
# (参考訳) Swords: データカバレッジと品質を改善した語彙置換のためのベンチマーク [全文訳有]

Swords: A Benchmark for Lexical Substitution with Improved Data Coverage and Quality ( http://arxiv.org/abs/2106.04102v1 )

ライセンス: CC BY 4.0
Mina Lee, Chris Donahue, Alexander Iyabor, Robin Jia, Percy Liang(参考訳) 語彙置換のための新しいベンチマークを新たにリリースし、コンテキスト内でターゲット単語の適切な代用語を見つける。 人間が書くのを助けるために、語彙置換システムは、人間が簡単に考えられない単語を提案できる。 しかし、既存のベンチマークは、唯一のデータソースとして人間のリコールに依存するため、ヒトにとって最も役立つ代替品のカバレッジが欠落している。 さらにアノテータは、与えられた文脈では実際には適切でない低品質の代用品を提供することが多い。 語彙置換を分類問題とすることで高いカバレッジと高品質のデータを収集し、記憶から判断するよりも、人間が候補代替品の適切性を判断し易いという直感に導かれる。 この目的のために、文脈自由シソーラスを用いて候補を生成し、文脈的適切性を決定するために人間の判断に頼る。 これまでの最大のベンチマークと比べて、剣のベンチマークは、同じレベルの品質で1語あたり4.1倍の代替品があり、その代替品は同じ数の代替品に対して(人間の判断に基づいて)1.5倍適している。

We release a new benchmark for lexical substitution, the task of finding appropriate substitutes for a target word in a context. To assist humans with writing, lexical substitution systems can suggest words that humans cannot easily think of. However, existing benchmarks depend on human recall as the only source of data, and therefore lack coverage of the substitutes that would be most helpful to humans. Furthermore, annotators often provide substitutes of low quality, which are not actually appropriate in the given context. We collect higher-coverage and higher-quality data by framing lexical substitution as a classification problem, guided by the intuition that it is easier for humans to judge the appropriateness of candidate substitutes than conjure them from memory. To this end, we use a context-free thesaurus to produce candidates and rely on human judgement to determine contextual appropriateness. Compared to the previous largest benchmark, our Swords benchmark has 4.1x more substitutes per target word for the same level of quality, and its substitutes are 1.5x more appropriate (based on human judgement) for the same number of substitutes.
翻訳日:2021-06-10 06:38:47 公開日:2021-06-08
# (参考訳) 深部強化学習に基づく心画像の左室輪郭形成 [全文訳有]

Left Ventricle Contouring in Cardiac Images Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2106.04127v1 )

ライセンス: CC BY 4.0
Sixing Yin, Yameng Han, Shufang Li(参考訳) 医用画像分割は, 医用画像解析におけるコンピュータ支援診断の重要な課題の一つである。 ほとんどの医用画像は、ぼやけた境界と不均一な強度分布の特徴を有するため、既存のセグメンテーション法により、対象領域内の不連続性と目標境界の不連続性は、粗い、あるいは不規則な境界境界分断につながる可能性がある。 本稿では,目標セグメンテーション境界の問題に焦点をあてたエージェント強化学習に基づく,医用画像の反復的インタラクティブセグメンテーション手法を提案する。 我々は,ある順序で対象輪郭を描画する動的過程を,深い強化学習法に基づくマルコフ決定過程(MDP)としてモデル化する。 エージェントと画像との連続的な相互作用のダイナミックなプロセスにおいて、エージェントは、対象の輪郭が完全に描画されるまで、限られた長さの範囲内で境界点を順次追跡する。 この過程で、画像内のインタラクティブなポリシーを探索することにより、セグメンテーション性能を迅速に向上することができる。 提案手法は単純かつ効果的である。 同時に、心臓MRIスキャンデータセットを用いて、本手法の評価を行った。 実験結果から,本手法は少数の医用画像データセットにおいて左室のセグメンテーション効果に優れており,特にセグメンテーション境界では既存の方法よりも優れていることがわかった。 提案手法に基づいて,左室の輪郭軌跡の動的生成過程をhttps://github.com/H 1997ym/LV-輪郭軌跡でオンライン化する。

Medical image segmentation is one of the important tasks of computer-aided diagnosis in medical image analysis. Since most medical images have the characteristics of blurred boundaries and uneven intensity distribution, through existing segmentation methods, the discontinuity within the target area and the discontinuity of the target boundary are likely to lead to rough or even erroneous boundary delineation. In this paper, we propose a new iterative refined interactive segmentation method for medical images based on agent reinforcement learning, which focuses on the problem of target segmentation boundaries. We model the dynamic process of drawing the target contour in a certain order as a Markov Decision Process (MDP) based on a deep reinforcement learning method. In the dynamic process of continuous interaction between the agent and the image, the agent tracks the boundary point by point in order within a limited length range until the contour of the target is completely drawn. In this process, the agent can quickly improve the segmentation performance by exploring an interactive policy in the image. The method we proposed is simple and effective. At the same time, we evaluate our method on the cardiac MRI scan data set. Experimental results show that our method has a better segmentation effect on the left ventricle in a small number of medical image data sets, especially in terms of segmentation boundaries, this method is better than existing methods. Based on our proposed method, the dynamic generation process of the predicted contour trajectory of the left ventricle will be displayed online at https://github.com/H 1997ym/LV-contour-tr ajectory.
翻訳日:2021-06-10 06:16:37 公開日:2021-06-08
# (参考訳) EnMcGAN:3次元完全腎構造セグメンテーションのための逆アンサンブル学習 [全文訳有]

EnMcGAN: Adversarial Ensemble Learning for 3D Complete Renal Structures Segmentation ( http://arxiv.org/abs/2106.04130v1 )

ライセンス: CC BY 4.0
Yuting He, Rongjun Ge, Xiaoming Qi, Guanyu Yang, Yang Chen, Youyong Kong, Huazhong Shu, Jean-Louis Coatrieux, Shuo Li(参考訳) 3次元完全腎構造(CRS)セグメンテーションは、腎臓、腫瘍、腎動脈、静脈を1つの推論でセグメント化することを目的としている。 一度成功すれば、腹腔鏡下部分腎切除術(LPN)の術前計画と術中指導が腎癌治療において重要な役割を果たす。 しかし, 腎構造の複雑な形状, 低コントラスト, 解剖学的変化により, 3次元CRSセグメンテーションは成功しなかった。 本研究では,3次元CRSセグメンテーションのための逆アンサンブル学習とEnsemble Multi-condition GAN(EnMcGAN)を提案する。 その貢献は3倍である。 1) ウィンドウ化に触発されて, cta イメージを窓中心と幅の異なる複数の狭い窓に分割し, 高度境界と軟組織とのコントラストを高めるマルチウィンドウ化委員会を提案する。 そして、これらの狭い窓にアンサンブルセグメンテーションモデルを構築し、セグメンテーションの優位性を融合させ、セグメンテーション全体の品質を向上させる。 2) 分割モデルに複数の識別器を組み込んだ多条件GANを提案し, 実際の形状条件を満たすセグメント構造を奨励し, 形状特徴抽出能力を向上させる。 3) 訓練された判別器を用いてセグメント構造の品質評価を行う逆重みアンサンブルモジュールを提案し,これらの評価スコアを入力画像に対するアンサンブルウェイトに対して正規化し,アンサンブル結果の向上を図る。 この研究には122人の患者が登録されており、腎構造の平均dice係数は84.6%に達する。 腎構造に有望な結果をもたらす広範な実験により、腎癌治療において強力な分節精度と大きな臨床的意義が明らかになった。

3D complete renal structures(CRS) segmentation targets on segmenting the kidneys, tumors, renal arteries and veins in one inference. Once successful, it will provide preoperative plans and intraoperative guidance for laparoscopic partial nephrectomy(LPN), playing a key role in the renal cancer treatment. However, no success has been reported in 3D CRS segmentation due to the complex shapes of renal structures, low contrast and large anatomical variation. In this study, we utilize the adversarial ensemble learning and propose Ensemble Multi-condition GAN(EnMcGAN) for 3D CRS segmentation for the first time. Its contribution is three-fold. 1)Inspired by windowing, we propose the multi-windowing committee which divides CTA image into multiple narrow windows with different window centers and widths enhancing the contrast for salient boundaries and soft tissues. And then, it builds an ensemble segmentation model on these narrow windows to fuse the segmentation superiorities and improve whole segmentation quality. 2)We propose the multi-condition GAN which equips the segmentation model with multiple discriminators to encourage the segmented structures meeting their real shape conditions, thus improving the shape feature extraction ability. 3)We propose the adversarial weighted ensemble module which uses the trained discriminators to evaluate the quality of segmented structures, and normalizes these evaluation scores for the ensemble weights directed at the input image, thus enhancing the ensemble results. 122 patients are enrolled in this study and the mean Dice coefficient of the renal structures achieves 84.6%. Extensive experiments with promising results on renal structures reveal powerful segmentation accuracy and great clinical significance in renal cancer treatment.
翻訳日:2021-06-10 06:09:19 公開日:2021-06-08
# (参考訳) マルチスケールcnnと注意による効率的な音声感情認識 [全文訳有]

Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention ( http://arxiv.org/abs/2106.04133v1 )

ライセンス: CC BY 4.0
Zixuan Peng, Yu Lu, Shengfeng Pan, Yunfeng Liu(参考訳) 音声からの感情認識は難しい課題である。 深層学習の最近の進歩は、双方向再帰的ニューラルネットワーク(Bi-RNN)とアテンションメカニズムを、音声やテキストといったマルチモーダルな特徴を抽出し、それらを下流の感情分類タスクに活用する標準的な方法として導いている。 本稿では,音声からの音響的情報と語彙的情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。 mscnn(multi-scale con-volutional layers)を用いて音声とテキストのhid-den表現を取得する。 次に、統計プーリングユニット(SPU)を用いて各モードの特徴をさらに抽出する。 また、アテンションモジュールはMSCNN-SPU (audio) とMSCNN (text) の上に構築でき、パーフォーマンスをさらに改善することができる。 実験の結果,IEMOCAPdatasetの既往の最先端手法では,重み付け精度 (WA) と非重み付け精度 (UA) の2つの感情カテゴリー(怒り,幸福,悲しみ,中立)で,それぞれ5.0%と5.2%の改善が得られた。

Emotion recognition from speech is a challenging task. Re-cent advances in deep learning have led bi-directional recur-rent neural network (Bi-RNN) and attention mechanism as astandard method for speech emotion recognition, extractingand attending multi-modal features - audio and text, and thenfusing them for downstream emotion classification tasks. Inthis paper, we propose a simple yet efficient neural networkarchitecture to exploit both acoustic and lexical informationfrom speech. The proposed framework using multi-scale con-volutional layers (MSCNN) to obtain both audio and text hid-den representations. Then, a statistical pooling unit (SPU)is used to further extract the features in each modality. Be-sides, an attention module can be built on top of the MSCNN-SPU (audio) and MSCNN (text) to further improve the perfor-mance. Extensive experiments show that the proposed modeloutperforms previous state-of-the-art methods on IEMOCAPdataset with four emotion categories (i.e., angry, happy, sadand neutral) in both weighted accuracy (WA) and unweightedaccuracy (UA), with an improvement of 5.0% and 5.2% respectively under the ASR setting.
翻訳日:2021-06-10 05:57:03 公開日:2021-06-08
# (参考訳) 非教師なし領域適応のためのクロスドメイン勾配偏差最小化 [全文訳有]

Cross-Domain Gradient Discrepancy Minimization for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2106.04151v1 )

ライセンス: CC BY 4.0
Zhekai Du, Jingjing Li, Hongzu Su, Lei Zhu, Ke Lu(参考訳) Unsupervised Domain Adaptation (UDA) は、よくラベルされたソースドメインから未ラベルのターゲットドメインに学習された知識を一般化することを目的としている。 近年,2つの異なる分類器(bi分類器)による逆領域適応がudaに導入され,異なる領域間の分布の調整に有効である。 従来は2つの異なる分類器の出力間の類似性にのみ焦点をあてていた。 しかし、出力の類似性は、ターゲットサンプルの精度を保証できない。すなわち、2つの分類器間の差が小さい場合でも、ターゲットサンプルは間違ったカテゴリに一致する可能性がある。 この問題に対処するため,本論文では,ソースサンプルとターゲットサンプルが生成する勾配の差を明示的に最小化する,クロスドメイン勾配離散化(CGDM)手法を提案する。 具体的には、この勾配は、ターゲットサンプルのセマンティック情報に対する手がかりを与え、ターゲットサンプルの精度を向上させるための優れた監視手段として使用できる。 対象サンプルの勾配信号を計算するため,クラスタリングに基づく自己教師付き学習により,ターゲット擬似ラベルを得る。 広範に使用されている3つのUDAデータセットに対する大規模な実験により、我々の手法は過去の多くの最先端技術を上回ることが示された。 コードはhttps://github.com/l ijin118/cgdmで入手できる。

Unsupervised Domain Adaptation (UDA) aims to generalize the knowledge learned from a well-labeled source domain to an unlabeled target domain. Recently, adversarial domain adaptation with two distinct classifiers (bi-classifier) has been introduced into UDA which is effective to align distributions between different domains. Previous bi-classifier adversarial learning methods only focus on the similarity between the outputs of two distinct classifiers. However, the similarity of the outputs cannot guarantee the accuracy of target samples, i.e., target samples may match to wrong categories even if the discrepancy between two classifiers is small. To challenge this issue, in this paper, we propose a cross-domain gradient discrepancy minimization (CGDM) method which explicitly minimizes the discrepancy of gradients generated by source samples and target samples. Specifically, the gradient gives a cue for the semantic information of target samples so it can be used as a good supervision to improve the accuracy of target samples. In order to compute the gradient signal of target samples, we further obtain target pseudo labels through a clustering-based self-supervised learning. Extensive experiments on three widely used UDA datasets show that our method surpasses many previous state-of-the-arts. Codes are available at https://github.com/l ijin118/CGDM.
翻訳日:2021-06-10 05:48:06 公開日:2021-06-08
# (参考訳) 入力データ空間のランダム性は一般化の優先予測因子である [全文訳有]

The Randomness of Input Data Spaces is an A Priori Predictor for Generalization ( http://arxiv.org/abs/2106.04181v1 )

ライセンス: CC BY 4.0
Martin Briesch, Dominik Sobania and Franz Rothlauf(参考訳) 過パラメータモデルは様々な種類のデータ分布を完璧に学習することができるが、一般化誤差は通常、人工データと比較して実際のデータよりも低い。 これは、データ分布の特性が一般化能力に影響を及ぼすことを示唆している。 本研究は入力データによって定義される探索空間に着目し、隣接する入力値のラベル間の相関が一般化に影響を及ぼすと仮定する。 相関が低い場合、入力データ空間のランダム性が高くなり、高い一般化誤差が生じる。 maurer's universal を用いて入力データ空間のランダム性を測定することを提案する。 合成分類タスクと共通画像分類ベンチマーク(mnist, cifar10, microsoft's cats vs. dogs data set)の結果,入力データ空間のランダム性と,バイナリ分類問題に対するディープニューラルネットワークの一般化誤差との間に高い相関性が得られた。

Over-parameterized models can perfectly learn various types of data distributions, however, generalization error is usually lower for real data in comparison to artificial data. This suggests that the properties of data distributions have an impact on generalization capability. This work focuses on the search space defined by the input data and assumes that the correlation between labels of neighboring input values influences generalization. If correlation is low, the randomness of the input data space is high leading to high generalization error. We suggest to measure the randomness of an input data space using Maurer's universal. Results for synthetic classification tasks and common image classification benchmarks (MNIST, CIFAR10, and Microsoft's cats vs. dogs data set) find a high correlation between the randomness of input data spaces and the generalization error of deep neural networks for binary classification problems.
翻訳日:2021-06-10 05:33:17 公開日:2021-06-08
# (参考訳) クロスドキュメント参照解決のための現実的評価原理 [全文訳有]

Realistic Evaluation Principles for Cross-document Coreference Resolution ( http://arxiv.org/abs/2106.04192v1 )

ライセンス: CC BY 4.0
Arie Cattan, Alon Eirew, Gabriel Stanovsky, Mandar Joshi, Ido Dagan(参考訳) クロスドキュメントのコリファレンス解決に対する一般的な評価プラクティスは,想定された設定では非現実的な許容範囲であり,その結果が膨らんでいることを指摘した。 2つの評価方法論を通じてこの問題に対処することを提案する。 第一に、他のタスクと同様に、モデルは金の言及ではなく予測された言及に基づいて評価されるべきである。 これによってシングルトンコリファレンスクラスタに関する微妙な問題が発生し、コリファレンスリンクから参照検出の評価を分離することで対処します。 第二に、モデルが標準のECB+データセットの合成トピック構造を活用すべきではなく、データセット作成者が意図したような語彙的あいまいさに直面することを強いる。 我々は、競争モデルに対するより現実的な評価原理の劇的な影響を実証的に示し、先行的な評価よりも33 f1低いスコアを得る。

We point out that common evaluation practices for cross-document coreference resolution have been unrealistically permissive in their assumed settings, yielding inflated results. We propose addressing this issue via two evaluation methodology principles. First, as in other tasks, models should be evaluated on predicted mentions rather than on gold mentions. Doing this raises a subtle issue regarding singleton coreference clusters, which we address by decoupling the evaluation of mention detection from that of coreference linking. Second, we argue that models should not exploit the synthetic topic structure of the standard ECB+ dataset, forcing models to confront the lexical ambiguity challenge, as intended by the dataset creators. We demonstrate empirically the drastic impact of our more realistic evaluation principles on a competitive model, yielding a score which is 33 F1 lower compared to evaluating by prior lenient practices.
翻訳日:2021-06-10 05:18:11 公開日:2021-06-08
# (参考訳) 生成逆ネットワークに基づく地震波逆モデリング法 [全文訳有]

Seismic Inverse Modeling Method based on Generative Adversarial Network ( http://arxiv.org/abs/2106.04197v1 )

ライセンス: CC BY 4.0
Pengfei Xie, YanShu Yin, JiaGen Hou, Mei Chen and Lixin Wang(参考訳) 地震逆モデリングは貯留層予測において一般的な手法であり、石油とガスの探査と開発において重要な役割を担っている。 従来の地震インバージョン法と地質構造に関する複雑で抽象的な知識を組み合わせることは困難であり,その不確実性を評価することは困難である。 本稿では, 地質, ウェルログ, 地震データに整合したGANに基づく逆モデリング手法を提案する。 GANは、トレーニング画像の空間構造と抽象的特徴を抽出する最も有望な生成モデルアルゴリズムである。 訓練されたGANは、特定のモードでモデルを再現することができる。 テストでは、1000モデルが1秒で生成されました。 評価後の訓練されたGANに基づいて、ベイズ反転フレームを通してモデルの最適結果を計算することができる。 その結果, インバージョンモデルは観測データに適合し, 高速発生の前提下での不確実性は低いことがわかった。 この地震逆モデリング法は、逆繰り返しの効率と品質を高める。 地震データと地質学の知識を融合させて研究・応用する価値がある。

Seismic inverse modeling is a common method in reservoir prediction and it plays a vital role in the exploration and development of oil and gas. Conventional seismic inversion method is difficult to combine with complicated and abstract knowledge on geological mode and its uncertainty is difficult to be assessed. The paper proposes an inversion modeling method based on GAN consistent with geology, well logs, seismic data. GAN is a the most promising generation model algorithm that extracts spatial structure and abstract features of training images. The trained GAN can reproduce the models with specific mode. In our test, 1000 models were generated in 1 second. Based on the trained GAN after assessment, the optimal result of models can be calculated through Bayesian inversion frame. Results show that inversion models conform to observation data and have a low uncertainty under the premise of fast generation. This seismic inverse modeling method increases the efficiency and quality of inversion iteration. It is worthy of studying and applying in fusion of seismic data and geological knowledge.
翻訳日:2021-06-10 05:05:44 公開日:2021-06-08
# (参考訳) Grapevine Winter Pruning Automation:Grapevine Segmentation を用いた2次元プラントモデリングによる潜在的Pruning Points検出について [全文訳有]

Grapevine Winter Pruning Automation: On Potential Pruning Points Detection through 2D Plant Modeling using Grapevine Segmentation ( http://arxiv.org/abs/2106.04208v1 )

ライセンス: CC BY 4.0
Miguel Fernandes, Antonello Scaldaferri, Giuseppe Fiameni, Tao Teng, Matteo Gatti, Stefano Poni, Claudio Semini, Darwin Caldwell, Fei Chen(参考訳) グラペビンの冬刈りは複雑な作業であり、熟練した労働者が正しく実行する必要がある。 このタスクの複雑さは、時間がかかる理由でもある。 この操作が完了するのに約80~120時間かかることを考えると、大規模なブドウ園ではさらに重要であり、自動化システムはプロセスのスピードアップに役立つ。 そこで本稿では,ブドウ植物の代表的モデルを作成するために,ブドウ画像にオブジェクトセグメンテーションを行うことにより,この課題に取り組むための新しい多分野的手法を提案する。 第2に、この植物表現から潜在的な刈り取り点のセットを生成する。 a)データ取得とアノテーションのための方法論、(b)ブドウのセグメンテーションのためのニューラルネットワークの微調整、(c)推定されたセグメンテーションからブドウの代表的なモデルを作成する画像処理ベースの方法、および(d)ブドウのセグメンテーションを単純化した植物モデルに基づいて、プルーニングポイントの検出とローカライゼーションを行う可能性について述べる。 このアプローチでは、実際のプルーニングポイントの最終セットを導出するために、さらに選択することで、杖上の潜在的なプルーニングポイントのかなりのセットを特定できる。

Grapevine winter pruning is a complex task, that requires skilled workers to execute it correctly. The complexity of this task is also the reason why it is time consuming. Considering that this operation takes about 80-120 hours/ha to be completed, and therefore is even more crucial in large-size vineyards, an automated system can help to speed up the process. To this end, this paper presents a novel multidisciplinary approach that tackles this challenging task by performing object segmentation on grapevine images, used to create a representative model of the grapevine plants. Second, a set of potential pruning points is generated from this plant representation. We will describe (a) a methodology for data acquisition and annotation, (b) a neural network fine-tuning for grapevine segmentation, (c) an image processing based method for creating the representative model of grapevines, starting from the inferred segmentation and (d) potential pruning points detection and localization, based on the plant model which is a simplification of the grapevine structure. With this approach, we are able to identify a significant set of potential pruning points on the canes, that can be used, with further selection, to derive the final set of the real pruning points.
翻訳日:2021-06-10 04:54:24 公開日:2021-06-08
# (参考訳) 定義の定義:革新的技術分野の定義のためのテキストマイニングアプローチ [全文訳有]

Defining definition: a Text mining Approach to Define Innovative Technological Fields ( http://arxiv.org/abs/2106.04210v1 )

ライセンス: CC BY 4.0
Vito Giordano, Filippo Chiarello, Elena Cervelli(参考訳) 革新的なプロジェクトの最初の課題の1つは、プロジェクト自体のスコープや開発対象の製品/サービスを明確にすることである。 間違ったスコープ定義で(最悪の場合)プロジェクトの失敗を判断できます。 優れたスコープ定義は、技術集約的なイノベーションプロジェクトでさらに重要になり、近年は、高度にダイナミックな多分野の、乱気流、不確定な環境が特徴となっている。 このような場合、プロジェクトのバウンダリは容易に検出できず、スコープ内とスコープ外を判断することは困難である。 本研究は,革新的技術分野や新しい技術を自動的に定義する,スコープ記述プロセスのためのツールを提案する。 このツールはテキストマイニングアルゴリズムに基づいており、elsevierのscopusの抽象を活用し、関連するデータを抽出して技術的スコープを定義する。 自動定義ツールは、人工知能とデータサイエンスの4つのケーススタディに適用される。 その結果,技術分野の定義プロセスにおいて,ツールが重要な情報を提供する方法が示された。 特に、ターゲット技術分野(または技術)において、ターゲットに関する定義やその他の要素を提供する。

One of the first task of an innovative project is delineating the scope of the project itself or of the product/service to be developed. A wrong scope definition can determine (in the worst case) project failure. A good scope definition become even more relevant in technological intensive innovation projects, nowadays characterized by a highly dynamic multidisciplinary, turbulent and uncertain environment. In these cases, the boundaries of the project are not easily detectable and it is difficult to decide what it is in-scope and out-of-scope. The present work proposes a tool for the scope delineation process, that automatically define an innovative technological field or a new technology. The tool is based on Text Mining algorithm that exploits Elsevier's Scopus abstracts in order to the extract relevant data to define a technological scope. The automatic definition tool is then applied on four case studies: Artificial Intelligence and Data Science. The results show how the tool can provide many crucial information in the definition process of a technological field. In particular for the target technological field (or technology), it provides the definition and other elements related to the target.
翻訳日:2021-06-10 04:42:54 公開日:2021-06-08
# (参考訳) 顔認識のベンチマークのための自動生成合成画像データセットの利用について [全文訳有]

On the use of automatically generated synthetic image datasets for benchmarking face recognition ( http://arxiv.org/abs/2106.04215v1 )

ライセンス: CC BY 4.0
Laurent Colbois, Tiago de Freitas Pereira and S\'ebastien Marcel(参考訳) 大規模な顔データセットの可用性は、顔認識の進歩において鍵となっている。 しかし、ライセンス問題や著作権侵害のため、一部のデータセットはもはや利用できない(例)。 MS-Celeb-1M)。 現実的な顔画像を合成するGAN(Generative Adversarial Networks)の最近の進歩は、顔認識(FR)システムのトレーニングとベンチマークを行うために、合成データセットによって実際のデータセットを置き換える経路を提供する。 本稿では,合成データセットを用いたFRシステムのベンチマークについて述べる。 まず,複数の制御因子を持つStyleGAN2モデルの潜在構造を利用して,人間の介入を必要とせずに合成データセットを生成する手法を提案する。 そして、(i)生成した合成idは、10k以上のidを持つ合成データセット上で検証されるganのトレーニングデータセットからのデータセットではないことを確認し、(ii)合成データセットのベンチマーク結果は良い置換であり、しばしば実際のデータセットのベンチマークと同様のエラー率とシステムランキングを提供する。

The availability of large-scale face datasets has been key in the progress of face recognition. However, due to licensing issues or copyright infringement, some datasets are not available anymore (e.g. MS-Celeb-1M). Recent advances in Generative Adversarial Networks (GANs), to synthesize realistic face images, provide a pathway to replace real datasets by synthetic datasets, both to train and benchmark face recognition (FR) systems. The work presented in this paper provides a study on benchmarking FR systems using a synthetic dataset. First, we introduce the proposed methodology to generate a synthetic dataset, without the need for human intervention, by exploiting the latent structure of a StyleGAN2 model with multiple controlled factors of variation. Then, we confirm that (i) the generated synthetic identities are not data subjects from the GAN's training dataset, which is verified on a synthetic dataset with 10K+ identities; (ii) benchmarking results on the synthetic dataset are a good substitution, often providing error rates and system ranking similar to the benchmarking on the real dataset.
翻訳日:2021-06-10 04:34:30 公開日:2021-06-08
# (参考訳) 視覚処理におけるフィードバックの役割--予測的符号化の視点から [全文訳有]

On the role of feedback in visual processing: a predictive coding perspective ( http://arxiv.org/abs/2106.04225v1 )

ライセンス: CC BY 4.0
Andrea Alamia, Milad Mozafari, Bhavin Choksi and Rufin VanRullen(参考訳) 脳にインスパイアされた機械学習は、特にコンピュータビジョンにおいて考慮されつつある。 いくつかの研究では、畳み込みネットワークにトップダウンフィードバック接続が組み込まれていることが研究されているが、これらの接続が機能的に有用であるかどうかは不明である。 ここでは,雑音条件下での物体認識の文脈において,この問題に対処する。 我々は,深層畳み込みネットワーク(cnns)をフィードフォワード視覚処理のモデルと考え,クリーン画像の再構成や分類のために訓練されたフィードバック接続(予測フィードバック)を通じて予測符号化(pc)ダイナミクスを実装する。 種々の実験状況下での予測フィードバックの計算的役割を直接評価するために,ネットワークのリカレントダイナミクスを制御するハイパーパラメータを最適化し,解釈する。 つまり、トップダウン接続と予測コーディングダイナミクスが機能的に有益かどうかを最適化プロセスに判断させます。 異なるモデルの深さとアーキテクチャ(3層cnn, resnet18, efficientnetb0)と様々なタイプのノイズ(cifar100-c)に対して、ネットワークはノイズレベルが増加するにつれてトップダウンの予測にますます依存していることがわかった。 さらに,PCダイナミクスを実装するネットワークの精度は,等価なフォワードネットワークに比べて時間経過とともに著しく向上する。 総じて,感覚系におけるフィードバック接続の計算的役割を確認することによって,神経科学に関連する新たな知見を与えるとともに,これらが現在の視覚モデルのロバスト性を改善する方法を明らかにすることによって,機械学習に寄与する。

Brain-inspired machine learning is gaining increasing consideration, particularly in computer vision. Several studies investigated the inclusion of top-down feedback connections in convolutional networks; however, it remains unclear how and when these connections are functionally helpful. Here we address this question in the context of object recognition under noisy conditions. We consider deep convolutional networks (CNNs) as models of feed-forward visual processing and implement Predictive Coding (PC) dynamics through feedback connections (predictive feedback) trained for reconstruction or classification of clean images. To directly assess the computational role of predictive feedback in various experimental situations, we optimize and interpret the hyper-parameters controlling the network's recurrent dynamics. That is, we let the optimization process determine whether top-down connections and predictive coding dynamics are functionally beneficial. Across different model depths and architectures (3-layer CNN, ResNet18, and EfficientNetB0) and against various types of noise (CIFAR100-C), we find that the network increasingly relies on top-down predictions as the noise level increases; in deeper networks, this effect is most prominent at lower layers. In addition, the accuracy of the network implementing PC dynamics significantly increases over time-steps, compared to its equivalent forward network. All in all, our results provide novel insights relevant to Neuroscience by confirming the computational role of feedback connections in sensory systems, and to Machine Learning by revealing how these can improve the robustness of current vision models.
翻訳日:2021-06-10 04:19:15 公開日:2021-06-08
# (参考訳) アルゴリズムに適した意図の定義

Definitions of intent suitable for algorithms ( http://arxiv.org/abs/2106.04235v1 )

ライセンス: CC BY-SA 4.0
Hal Ashton(参考訳) Intentは、多くのタイプの不正行為のアクターの計算可能性を変更する。 自律的アルゴリズムエージェントは害を引き起こす能力を有しており、現在の法的な人格の欠如は犯罪を犯すことを妨げるが、アルゴリズムがトランスグレッシブする可能性のある意図的なモードの種類を理解することは、多くの当事者にとって有用である。 創造者や所有者の観点からは、彼らのアルゴリズムが、法的な人物が犯した場合に犯罪と分類されるようなことをすることで、決して害を及ぼさないようにしたいのです。 検察側は、アルゴリズムの動作が概念の透明な定義に従って内部的に意図されているかどうかを理解することに興味を持つかもしれない。 アルゴリズムエージェントにおける意図の有無は,所有者の共謀について裁判所に通知することができる。 この記事では、アルゴリズムアクタのインテントをテストするために使用できるdirect、oblique(またはindirect)、ultrior intentの定義を紹介します。

Intent modifies an actor's culpability of many types wrongdoing. Autonomous Algorithmic Agents have the capability of causing harm, and whilst their current lack of legal personhood precludes them from committing crimes, it is useful for a number of parties to understand under what type of intentional mode an algorithm might transgress. From the perspective of the creator or owner they would like ensure that their algorithms never intend to cause harm by doing things that would otherwise be labelled criminal if committed by a legal person. Prosecutors might have an interest in understanding whether the actions of an algorithm were internally intended according to a transparent definition of the concept. The presence or absence of intention in the algorithmic agent might inform the court as to the complicity of its owner. This article introduces definitions for direct, oblique (or indirect) and ulterior intent which can be used to test for intent in an algorithmic actor.
翻訳日:2021-06-10 04:01:11 公開日:2021-06-08
# (参考訳) Medkit-Learn(ing)環境:シミュレーションによる医療決定モデル [全文訳有]

The Medkit-Learn(ing) Environment: Medical Decision Modelling through Simulation ( http://arxiv.org/abs/2106.04240v1 )

ライセンス: CC BY 4.0
Alex J. Chan, Ioana Bica, Alihan Huyuk, Daniel Jarrett, Mihaela van der Schaar(参考訳) 臨床環境における意思決定を理解することは、機械学習の強みを究極的に患者の結果を改善するためにも最重要である。 公開データの可用性、問題の本質的にオフライン性、人間による意思決定の複雑さなど、いくつかの要因は、アルゴリズムの主流となる開発が、必ずしも医療体制に必ずしもうまく翻訳されないタスクにおける最適なパフォーマンスに向けられていることを意味している。 Medkit-Learn(ing) Environmentは,高忠実度合成医療データへの簡易かつ容易なアクセスを提供するPythonパッケージである。 現実的な医療環境でアルゴリズムを比較するための標準化された方法を提供する一方で、私たちは、さまざまなカスタマイズを可能にするために、ポリシーと環境のダイナミクスを混乱させる生成プロセスを採用しています。

Understanding decision-making in clinical environments is of paramount importance if we are to bring the strengths of machine learning to ultimately improve patient outcomes. Several factors including the availability of public data, the intrinsically offline nature of the problem, and the complexity of human decision making, has meant that the mainstream development of algorithms is often geared towards optimal performance in tasks that do not necessarily translate well into the medical regime; often overlooking more niche issues commonly associated with the area. We therefore present a new benchmarking suite designed specifically for medical sequential decision making: the Medkit-Learn(ing) Environment, a publicly available Python package providing simple and easy access to high-fidelity synthetic medical data. While providing a standardised way to compare algorithms in a realistic medical setting we employ a generating process that disentangles the policy and environment dynamics to allow for a range of customisations, thus enabling systematic evaluation of algorithms' robustness against specific challenges prevalent in healthcare.
翻訳日:2021-06-10 03:59:59 公開日:2021-06-08
# (参考訳) 構成的に一般化するメタラーニング [全文訳有]

Meta-Learning to Compositionally Generalize ( http://arxiv.org/abs/2106.04252v1 )

ライセンス: CC BY 4.0
Henry Conklin, Bailin Wang, Kenny Smith and Ivan Titov(参考訳) 自然言語は構成的であり、文の意味はその部分の意味の関数である。 この性質により、人間が新しい文を作成して解釈することができ、以前の経験から外れて堅牢に一般化できる。 ニューラルネットワークはこの種の一般化に苦しむことが示されており、特に構成的一般化(すなわち、構成的一般化)を評価するために設計されたタスクでは不十分である。 トレーニングとテストのディストリビューションが異なる場合は、構成戦略が解決するには簡単な方法になります)。 これらのタスクにおける彼らのパフォーマンスの低さは、トレーニングとテストデータが同じ分布から引き出されることを前提とした教師あり学習の性質によるものかもしれない。 分散一般化のために直接最適化された教師付き学習のメタラーニング拡張版を実装した。 既存のトレーニングデータをサブサンプリングすることでメタ学習のためのタスクのペアを構築する。 それぞれのタスクは、モデルが入力を記憶することを阻止するために、類似度計量によって決定される関連する例を含むように構成される。 COGSおよびSCANデータセットの実験結果から、類似性駆動型メタラーニングにより一般化性能が向上することが示された。

Natural language is compositional; the meaning of a sentence is a function of the meaning of its parts. This property allows humans to create and interpret novel sentences, generalizing robustly outside their prior experience. Neural networks have been shown to struggle with this kind of generalization, in particular performing poorly on tasks designed to assess compositional generalization (i.e. where training and testing distributions differ in ways that would be trivial for a compositional strategy to resolve). Their poor performance on these tasks may in part be due to the nature of supervised learning which assumes training and testing data to be drawn from the same distribution. We implement a meta-learning augmented version of supervised learning whose objective directly optimizes for out-of-distribution generalization. We construct pairs of tasks for meta-learning by sub-sampling existing training data. Each pair of tasks is constructed to contain relevant examples, as determined by a similarity metric, in an effort to inhibit models from memorizing their input. Experimental results on the COGS and SCAN datasets show that our similarity-driven meta-learning can improve generalization performance.
翻訳日:2021-06-10 03:39:11 公開日:2021-06-08
# (参考訳) スクラッチからの解釈可能なエージェント通信(側面にジェネリックビジュアルプロセッサが現れる) [全文訳有]

Interpretable agent communication from scratch(with a generic visual processor emerging on the side) ( http://arxiv.org/abs/2106.04258v1 )

ライセンス: CC BY-SA 4.0
Roberto Dess\`i, Eugene Kharitonov, Marco Baroni(参考訳) ディープネットワークが自律的なエージェントとしてデプロイされるようになると、相互に通信する方法の問題が重要になる。 ここでは,教師なしの創発的コミュニケーションによる現実的な参照識別を行うために,スクラッチから2つのディープネットを訓練する。 我々は,ネットワークがトレーニング時に見なかったオブジェクト型についても,ほぼ解釈可能な創発的プロトコルによってうまく通信できることを実証する。 トレーニング体制の副産物として誘導される視覚表現は,近年の自己教師型学習モデルに対して,汎用的な視覚特徴として再使用される場合と同等の品質を示す。 本研究は,より現実的なシナリオで(解釈可能な)創発的深層ネット通信の実現可能性を示す具体的証拠を提供するとともに,この分野と自己教師付き視覚学習との興味をそそるリンクを確立する。

As deep networks begin to be deployed as autonomous agents, the issue of how they can communicate with each other becomes important. Here, we train two deep nets from scratch to perform realistic referent identification through unsupervised emergent communication. We show that the largely interpretable emergent protocol allows the nets to successfully communicate even about object types they did not see at training time. The visual representations induced as a by-product of our training regime, moreover, show comparable quality, when re-used as generic visual features, to a recent self-supervised learning model. Our results provide concrete evidence of the viability of (interpretable) emergent deep net communication in a more realistic scenario than previously considered, as well as establishing an intriguing link between this field and self-supervised visual learning.
翻訳日:2021-06-10 03:10:39 公開日:2021-06-08
# (参考訳) 適応教育のための質問生成 [全文訳有]

Question Generation for Adaptive Education ( http://arxiv.org/abs/2106.04262v1 )

ライセンス: CC BY 4.0
Megha Srivastava and Noah Goodman(参考訳) インテリジェントで適応的なオンライン教育システムは、様々な学生に高品質な教育を提供することを目的としている。 しかし、既存のシステムは通常、手作りの質問のプールに依存しており、個々の学生にどのように適応できるかを細部まで制限している。 制御可能なシーケンス生成タスクとして,対象の質問生成を探索する。 まず, 深層知識追跡(LM-KT)のための事前学習言語モデルを微調整する方法を示す。 このモデルは、質問に正しく答える学生の確率を正確に予測し、訓練中に見ない質問に一般化する。 次に、LM-KTを用いて、モデルの訓練対象とデータを特定し、学生に条件付き質問を生成し、難易度を目標とする。 この結果から,オンライン学習プラットフォームから第2言語学習者を対象とした言語翻訳質問を新たに作成することに成功した。

Intelligent and adaptive online education systems aim to make high-quality education available for a diverse range of students. However, existing systems usually depend on a pool of hand-made questions, limiting how fine-grained and open-ended they can be in adapting to individual students. We explore targeted question generation as a controllable sequence generation task. We first show how to fine-tune pre-trained language models for deep knowledge tracing (LM-KT). This model accurately predicts the probability of a student answering a question correctly, and generalizes to questions not seen in training. We then use LM-KT to specify the objective and data for training a model to generate questions conditioned on the student and target difficulty. Our results show we succeed at generating novel, well-calibrated language translation questions for second language learners from a real online education platform.
翻訳日:2021-06-10 02:54:46 公開日:2021-06-08
# (参考訳) 局所視覚変換器のデミスティフィケーション:疎結合性、ウェイトシェアリング、動的ウェイト [全文訳有]

Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight ( http://arxiv.org/abs/2106.04263v1 )

ライセンス: CC BY 4.0
Qi Han, Zejia Fan, Qi Dai, Lei Sun, Ming-Ming Cheng, Jiaying Liu, Jingdong Wang(参考訳) Vision Transformer (ViT)は、視覚認識における最先端のパフォーマンスを達成し、その変種であるLocal Vision Transformerはさらなる改善を行う。 ローカルビジョントランスフォーマーの主要なコンポーネントであるローカルアテンションは、小さなローカルウィンドウ上で別々に注意を向ける。 我々は局所的な注意をチャネル毎の局所的接続層として再現し,2つのネットワーク正規化手法,疎結合と重み共有,および重み計算から解析する。 スパース接続:チャネル間の接続がなく、各位置は小さなローカルウィンドウ内の位置に接続されている。 重みの共有: 1つの位置の接続重みは、チャネル間または各チャネルグループ内で共有される。 動的重み: 接続重みは各画像インスタンスに応じて動的に予測される。 局所的な注意は深度的な畳み込みと疎結合性における動的バージョンに似ていると指摘する。 重みの共有 - 深さ方向の畳み込みは、空間的な位置をまたいで接続重み(カーネル重み)を共有する。 画像ネット分類,cocoオブジェクト検出,adeセマンティクスセグメンテーションにおいて,奥行き方向畳み込みに基づくモデルと計算複雑性の低い動的変種が,局所視覚トランスフォーマの例であるswintransformerと同等か、あるいは若干優れていることを実験的に観察した。 これらの観測は、局所視覚トランスフォーマーが2つの正規化形式と動的重みを利用してネットワーク容量を増加させることを示唆している。

Vision Transformer (ViT) attains state-of-the-art performance in visual recognition, and the variant, Local Vision Transformer, makes further improvements. The major component in Local Vision Transformer, local attention, performs the attention separately over small local windows. We rephrase local attention as a channel-wise locally-connected layer and analyze it from two network regularization manners, sparse connectivity and weight sharing, as well as weight computation. Sparse connectivity: there is no connection across channels, and each position is connected to the positions within a small local window. Weight sharing: the connection weights for one position are shared across channels or within each group of channels. Dynamic weight: the connection weights are dynamically predicted according to each image instance. We point out that local attention resembles depth-wise convolution and its dynamic version in sparse connectivity. The main difference lies in weight sharing - depth-wise convolution shares connection weights (kernel weights) across spatial positions. We empirically observe that the models based on depth-wise convolution and the dynamic variant with lower computation complexity perform on-par with or sometimes slightly better than Swin Transformer, an instance of Local Vision Transformer, for ImageNet classification, COCO object detection and ADE semantic segmentation. These observations suggest that Local Vision Transformer takes advantage of two regularization forms and dynamic weight to increase the network capacity.
翻訳日:2021-06-10 02:43:06 公開日:2021-06-08
# (参考訳) プラルーシブル・デニラビリティによる機械学習の監督 [全文訳有]

Supervised Machine Learning with Plausible Deniability ( http://arxiv.org/abs/2106.04267v1 )

ライセンス: CC BY 4.0
Stefan Rass, Sandra K\"onig, Jasmin Wachter, Manuel Egger, Manuel Hobisch(参考訳) 機械学習(ML)モデルがトレーニングデータに対してどの程度のプライバシを提供するか,あるいは同等に,与えられたMLモデルからトレーニングデータをリバースエンジニアリングすることが可能か,という問題について検討する。 MLモデルが$f$を与えられると、純粋にランダムなトレーニングデータのセットを取ることができ、そこから、ちょうど$f$のMLモデルを生成するのに適した'`ラーニングルール'を定義します。 したがって、$f$のトレーニングにどのデータが使われたかについての推測は、他のデータが同じ結果に繋がる可能性があるという主張に従わない。 我々は,実例による理論的発見と,選択した降雨データに対する学習ルールの発見方法のオープンソース実装の相関付けを行う。

We study the question of how well machine learning (ML) models trained on a certain data set provide privacy for the training data, or equivalently, whether it is possible to reverse-engineer the training data from a given ML model. While this is easy to answer negatively in the most general case, it is interesting to note that the protection extends over non-recoverability towards plausible deniability: Given an ML model $f$, we show that one can take a set of purely random training data, and from this define a suitable ``learning rule'' that will produce a ML model that is exactly $f$. Thus, any speculation about which data has been used to train $f$ is deniable upon the claim that any other data could have led to the same results. We corroborate our theoretical finding with practical examples, and open source implementations of how to find the learning rules for a chosen set of raining data.
翻訳日:2021-06-10 02:17:39 公開日:2021-06-08
# (参考訳) 3次元ポーズ推定のための同期再投影モデル [全文訳有]

A Synchronized Reprojection-based Model for 3D Human Pose Estimation ( http://arxiv.org/abs/2106.04274v1 )

ライセンス: CC0 1.0
Yicheng Deng, Cheng Sun, Yongqi Sun and Jiahui Zhu(参考訳) この分野での膨大な作業にもかかわらず、3d人間のポーズ推定は依然として難しい問題である。 一般的に、ほとんどの手法はニューラルネットワークを直接使用し、特定の制約(例えば、再投射制約、関節角、骨長制約)を無視している。 本稿では,3次元のポーズから2次元のポーズへの分布のマッピングを学習するために,3次元情報と2次元情報とを同時に考慮した3次元のポーズ推定のための弱教師付きGANモデルを提案する。 特に,再プロジェクションネットワークと生成逆ネットワークを同期的に訓練する。 さらに, 典型的なキネマティック・チェーン・スペース (KCS) 行列に着想を得て, 判別器の入力に加わった重み付きKCS行列を提案し, 関節角度と骨長の制約を課した。 Human3.6Mの実験結果から,本手法は最先端手法よりも約5.1\%優れていた。

3D human pose estimation is still a challenging problem despite the large amount of work that has been done in this field. Generally, most methods directly use neural networks and ignore certain constraints (e.g., reprojection constraints and joint angle and bone length constraints). This paper proposes a weakly supervised GAN-based model for 3D human pose estimation that considers 3D information along with 2D information simultaneously, in which a reprojection network is employed to learn the mapping of the distribution from 3D poses to 2D poses. In particular, we train the reprojection network and the generative adversarial network synchronously. Furthermore, inspired by the typical kinematic chain space (KCS) matrix, we propose a weighted KCS matrix, which is added into the discriminator's input to impose joint angle and bone length constraints. The experimental results on Human3.6M show that our method outperforms state-of-the-art methods by approximately 5.1\%.
翻訳日:2021-06-10 01:48:58 公開日:2021-06-08
# (参考訳) 超音波Bスキャンの欠陥検出のための物体検出器判別器を用いた生成対向ネットワーク [全文訳有]

Generative adversarial network with object detector discriminator for enhanced defect detection on ultrasonic B-scans ( http://arxiv.org/abs/2106.04281v1 )

ライセンス: CC BY 4.0
Luka Posilovi\'c, Duje Medak, Marko Subasic, Marko Budimir, Sven Loncaric(参考訳) 非破壊試験は材料の欠陥検出のための一連の技術である。 撮像技術のセットは多様体であるが、超音波イメージングが最も使われている。 この分析は主に、手動で記録された画像を分析する人間の検査者が行う。 実際の超音波検査における欠陥の少ない点, 検査データを考慮した法的な問題点は, 自動超音波画像解析から適切な結果を得るのが困難である。 本稿では,異なる場所に欠陥のある超音波bスキャンを生成するための,新しい深層学習生成逆ネットワークモデルを提案する。 さらに,生成されたb-scanを合成データ拡張に利用し,深層畳み込みニューラルネットワークの性能を向上させることができることを示した。 6000以上の注釈付き欠陥を有する約4000個のBスキャンのデータセット上で本手法を実証した。 実データにおけるトレーニング時の欠陥検出性能は平均71%であった。 生成データのみをトレーニングすることにより、結果が72.1%まで増加し、生成データと実データとを混合することで、平均精度75.7%に達する。 我々は、合成データ生成が限られたデータセットで他の課題に一般化でき、人事訓練に使用できると考えている。

Non-destructive testing is a set of techniques for defect detection in materials. While the set of imaging techniques are manifold, ultrasonic imaging is the one used the most. The analysis is mainly performed by human inspectors manually analyzing recorded images. The low number of defects in real ultrasonic inspections and legal issues considering data from such inspections make it difficult to obtain proper results from automatic ultrasonic image (B-scan) analysis. In this paper, we present a novel deep learning Generative Adversarial Network model for generating ultrasonic B-scans with defects in distinct locations. Furthermore, we show that generated B-scans can be used for synthetic data augmentation, and can improve the performance of deep convolutional neural object detection networks. Our novel method is demonstrated on a dataset of almost 4000 B-scans with more than 6000 annotated defects. Defect detection performance when training on real data yielded average precision of 71%. By training only on generated data the results increased to 72.1%, and by mixing generated and real data we achieve 75.7% average precision. We believe that synthetic data generation can generalize to other challenges with limited datasets and could be used for training human personnel.
翻訳日:2021-06-10 01:33:02 公開日:2021-06-08
# (参考訳) 低リソース環境における離散音声単位からの教師なし単語セグメンテーション [全文訳有]

Unsupervised Word Segmentation from Discrete Speech Units in Low-Resource Settings ( http://arxiv.org/abs/2106.04298v1 )

ライセンス: CC BY 4.0
Marcely Zanon Boito, Bolaji Yusuf, Lucas Ondel, Aline Villavicencio, Laurent Besacier(参考訳) 口頭言語を文書化する際、音声からの教師なしワードセグメンテーション(UWS)は有用だが難しい作業である。 音声の書き起こしから、あるいはこれらがない場合には、教師なしの音声離散化モデルの出力から行うことができる。 これらの離散化モデルは生音声のみを用いて訓練され、下流(テキストベース)タスクに適用可能な離散音声単位を生成する。 本稿では,3つのベイズ的アプローチと2つのニューラルアプローチの5つのモデルを比較する。 2つのUWSモデルを実験し,フィンランド語,ハンガリー語,ムボシ語,ルーマニア語,ロシア語の低リソース環境での結果を報告する。 以上の結果から,音声識別のためのニューラルモデルの利用は困難であり,シーケンス長の制限に適応する必要がある可能性が示唆された。 入力音声信号の高品質かつ圧縮された離散表現を生成するSHMMおよびH-SHMMベイズモデルを用いて、最良のUWS結果を得る。

When documenting oral-languages, Unsupervised Word Segmentation (UWS) from speech is a useful, yet challenging, task. It can be performed from phonetic transcriptions, or in the absence of these, from the output of unsupervised speech discretization models. These discretization models are trained using raw speech only, producing discrete speech units which can be applied for downstream (text-based) tasks. In this paper we compare five of these models: three Bayesian and two neural approaches, with regards to the exploitability of the produced units for UWS. Two UWS models are experimented with and we report results for Finnish, Hungarian, Mboshi, Romanian and Russian in a low-resource setting (using only 5k sentences). Our results suggest that neural models for speech discretization are difficult to exploit in our setting, and that it might be necessary to adapt them to limit sequence length. We obtain our best UWS results by using the SHMM and H-SHMM Bayesian models, which produce high quality, yet compressed, discrete representations of the input speech signal.
翻訳日:2021-06-10 01:15:24 公開日:2021-06-08
# (参考訳) 文脈埋め込みモデルを用いた静的な単語埋め込みの改善 [全文訳有]

Obtaining Better Static Word Embeddings Using Contextual Embedding Models ( http://arxiv.org/abs/2106.04302v1 )

ライセンス: CC BY 4.0
Prakhar Gupta and Martin Jaggi(参考訳) 文脈的単語埋め込みの出現 -- 文脈からの意味的情報と構文的情報を含む単語の表現 -- は、幅広いNLPタスクに多大な改善をもたらした。 しかし、最近の文脈モデルは多くのユースケースにおいて計算コストが著しく高く、しばしば解釈が難しい。 本研究では, CBOW をベースとした簡易な蒸留法により, NLP アプリケーションの計算効率を大幅に向上させることができるとともに, スクラッチからトレーニングした既存の静的埋め込みの品質や, 従来提案した蒸留方法よりも優れていることを示す。 副次的な効果として,標準的な語彙評価タスクによる文脈的および静的な埋め込みを公平に比較できる。

The advent of contextual word embeddings -- representations of words which incorporate semantic and syntactic information from their context -- has led to tremendous improvements on a wide variety of NLP tasks. However, recent contextual models have prohibitively high computational cost in many use-cases and are often hard to interpret. In this work, we demonstrate that our proposed distillation method, which is a simple extension of CBOW-based training, allows to significantly improve computational efficiency of NLP applications, while outperforming the quality of existing static embeddings trained from scratch as well as those distilled from previously proposed methods. As a side-effect, our approach also allows a fair comparison of both contextual and static embeddings via standard lexical evaluation tasks.
翻訳日:2021-06-10 00:59:28 公開日:2021-06-08
# (参考訳) 関係および時間曲率を持つ双曲的時間知識グラフ埋め込み [全文訳有]

Hyperbolic Temporal Knowledge Graph Embeddings with Relational and Time Curvatures ( http://arxiv.org/abs/2106.04311v1 )

ライセンス: CC BY 4.0
Sebastien Montella, Lina Rojas-Barahona, Johannes Heinecke(参考訳) 知識グラフ(KG)の完成は、リンク予測(LP)タスクのために提案された膨大な数のモデルで過度に研究されている。 このようなモデルの主な制限は、時間に対する感度である。 実際、記憶された事実の時間的側面はしばしば無視される。 この目的のために、KGを完成させるためのパラメータとして時間を考える研究がますます増えている。 本稿では, 負のサンプル数を増やすことによって, 最近のatthモデルが時間的kgs (tkgs) の最先端技術よりも, 競争的, またはさらに優れた性能が得られることを示す。 我々はさらに、リーマン多様体の曲率を関係と時間の両方の積として定義する atth モデルの時間認識拡張である hercules を提案する。 実験の結果,HerculesとAttHはICEWS04およびICEWS05-15データセット上で,競合的あるいは新しい最先端のパフォーマンスを実現していることがわかった。 したがって、TKG表現を学習する際には、時間によってパフォーマンスが本当に向上するかどうかを認識する必要がある。

Knowledge Graph (KG) completion has been excessively studied with a massive number of models proposed for the Link Prediction (LP) task. The main limitation of such models is their insensitivity to time. Indeed, the temporal aspect of stored facts is often ignored. To this end, more and more works consider time as a parameter to complete KGs. In this paper, we first demonstrate that, by simply increasing the number of negative samples, the recent AttH model can achieve competitive or even better performance than the state-of-the-art on Temporal KGs (TKGs), albeit its nontemporality. We further propose Hercules, a time-aware extension of AttH model, which defines the curvature of a Riemannian manifold as the product of both relation and time. Our experiments show that both Hercules and AttH achieve competitive or new state-of-the-art performances on ICEWS04 and ICEWS05-15 datasets. Therefore, one should raise awareness when learning TKGs representations to identify whether time truly boosts performances.
翻訳日:2021-06-10 00:45:03 公開日:2021-06-08
# (参考訳) 無報酬学習における探索と嗜好満足度トレードオフ [全文訳有]

Exploration and preference satisfaction trade-off in reward-free learning ( http://arxiv.org/abs/2106.04316v1 )

ライセンス: CC BY 4.0
Noor Sajid, Panagiotis Tigas, Alexey Zakharov, Zafeirios Fountas and Karl Friston(参考訳) 生物エージェントは報酬シグナルがないにもかかわらず、環境と意味のある相互作用を持つ。 このような場合、エージェントは、生存に必要な予測可能な状態につながる望ましい行動モードを学ぶことができる。 本稿では,この学習行動は,探索と選好満足度の間の適切なトレードオフを保証する報酬のない選好学習の結果であると考える。 そこで本研究では,共役前処理を用いた好み学習機構(ペッパー)を備えたモデルベースベイズエージェントを提案する。 これらの共役前駆体は、期待される自由エネルギープランナーを時間をかけて状態(または結果)よりも優先的に学習するために使用される。 重要なことに、このアプローチはエージェントがテスト時に適応的な振る舞いを奨励する好みを学習することを可能にする。 OpenAI Gym FrozenLakeと3Dのミニワールド環境において、ボラティリティと非ボラティリティについて説明する。 一定の環境が与えられると、これらのエージェントは自信(すなわち正確な)の好みを学び、それらを満たすように行動する。 逆に、不安定な環境では、永続的な選好の不確実性は探索的行動を維持する。 実験の結果,学習可能な(リワードフリー)嗜好は,探索と嗜好満足度とのトレードオフを伴っていることが示唆された。 Pepperは、報酬関数が実際の環境のように事前定義できない場合に適応エージェントを設計するのに適した簡単なフレームワークを提供する。

Biological agents have meaningful interactions with their environment despite the absence of a reward signal. In such instances, the agent can learn preferred modes of behaviour that lead to predictable states -- necessary for survival. In this paper, we pursue the notion that this learnt behaviour can be a consequence of reward-free preference learning that ensures an appropriate trade-off between exploration and preference satisfaction. For this, we introduce a model-based Bayesian agent equipped with a preference learning mechanism (pepper) using conjugate priors. These conjugate priors are used to augment the expected free energy planner for learning preferences over states (or outcomes) across time. Importantly, our approach enables the agent to learn preferences that encourage adaptive behaviour at test time. We illustrate this in the OpenAI Gym FrozenLake and the 3D mini-world environments -- with and without volatility. Given a constant environment, these agents learn confident (i.e., precise) preferences and act to satisfy them. Conversely, in a volatile setting, perpetual preference uncertainty maintains exploratory behaviour. Our experiments suggest that learnable (reward-free) preferences entail a trade-off between exploration and preference satisfaction. Pepper offers a straightforward framework suitable for designing adaptive agents when reward functions cannot be predefined as in real environments.
翻訳日:2021-06-10 00:28:54 公開日:2021-06-08
# (参考訳) メッセージパッシンググラフニューラルネットワークの限界を破る [全文訳有]

Breaking the Limits of Message Passing Graph Neural Networks ( http://arxiv.org/abs/2106.04319v1 )

ライセンス: CC BY 4.0
Muhammet Balcilar, Pierre H\'eroux, Benoit Ga\"uz\`ere, Pascal Vasseur, S\'ebastien Adam, Paul Honeine(参考訳) メッセージパッシング(Graph)ニューラルネットワーク(MPNN)は、スパースグラフに適用されたノード数に関して線形複雑であるため、理論表現力は第1次Weisfeiler-Lehmanテスト(1-WL)に限定されているにもかかわらず、広く実装され、多くの関心を集めている。 本稿では,固有値の非線形なカスタム関数を用いてスペクトル領域でグラフ畳み込みを設計し,任意の大きな受容場をマスキングした場合,MPNNは理論上は1-WLテストよりも強力であり,既存の3-WLモデルと同じくらい強力であり,空間的局所化を保ったままであることを示す。 さらに、カスタムフィルタ関数を設計することにより、コンボリューションプロセスが与えられた入力グラフ信号とその関連する特性の間の異なる関係を学習できる様々な周波数成分を出力に持つことができる。 今のところ、最高の3WL等価グラフニューラルネットワークは$\mathcal{O}(n^3)$の計算複雑性を持ち、$\mathcal{O}(n^2)$のメモリ使用量では非局所的な更新機構を考慮し、出力プロファイルのスペクトルリッチ性を提供しない。 提案手法は上記の問題を全て克服し,多くのダウンストリームタスクで最先端に到達する。

Since the Message Passing (Graph) Neural Networks (MPNNs) have a linear complexity with respect to the number of nodes when applied to sparse graphs, they have been widely implemented and still raise a lot of interest even though their theoretical expressive power is limited to the first order Weisfeiler-Lehman test (1-WL). In this paper, we show that if the graph convolution supports are designed in spectral-domain by a non-linear custom function of eigenvalues and masked with an arbitrary large receptive field, the MPNN is theoretically more powerful than the 1-WL test and experimentally as powerful as a 3-WL existing models, while remaining spatially localized. Moreover, by designing custom filter functions, outputs can have various frequency components that allow the convolution process to learn different relationships between a given input graph signal and its associated properties. So far, the best 3-WL equivalent graph neural networks have a computational complexity in $\mathcal{O}(n^3)$ with memory usage in $\mathcal{O}(n^2)$, consider non-local update mechanism and do not provide the spectral richness of output profile. The proposed method overcomes all these aforementioned problems and reaches state-of-the-art results in many downstream tasks.
翻訳日:2021-06-10 00:08:50 公開日:2021-06-08
# (参考訳) 動的kクラスタリングのための効率的なオンライン学習 [全文訳有]

Efficient Online Learning for Dynamic k-Clustering ( http://arxiv.org/abs/2106.04336v1 )

ライセンス: CC BY 4.0
Dimitris Fotakis, Georgios Piliouras, Stratis Skoulakis(参考訳) オンライン学習の観点から動的クラスタリング問題を考察する。 オンライン学習問題である \textit{dynamic $k$-clustering} を考えると、k$センターは時間とともにメートル空間で維持され(センターは位置を変える可能性がある)、例えば動的に変化する$r$クライアントのセットは最善の方法で提供されます。 ラウンド$t$の接続コストは、ある$p\geq 1$または$p = \infty$に対して、各クライアントからラウンド$t$の最も近い中心までの距離からなるベクトルの \textit{$p$-norm} によって与えられる。 我々は、多項式時間オンライン学習アルゴリズム \textit{$\theta\left( \min(k,r) \right)$-regret} を提示し、いくつかの確立された計算複雑性予想の下では、多項式時間において \textit{constant-regret} は達成できないことを示す。 Dynamic $k$-Clusteringの効率的なソリューションに加えて、我々の研究は組合せオンライン学習に関する長い研究に寄与している。

We study dynamic clustering problems from the perspective of online learning. We consider an online learning problem, called \textit{Dynamic $k$-Clustering}, in which $k$ centers are maintained in a metric space over time (centers may change positions) such as a dynamically changing set of $r$ clients is served in the best possible way. The connection cost at round $t$ is given by the \textit{$p$-norm} of the vector consisting of the distance of each client to its closest center at round $t$, for some $p\geq 1$ or $p = \infty$. We present a \textit{$\Theta\left( \min(k,r) \right)$-regret} polynomial-time online learning algorithm and show that, under some well-established computational complexity conjectures, \textit{constant-regret} cannot be achieved in polynomial-time. In addition to the efficient solution of Dynamic $k$-Clustering, our work contributes to the long line of research on combinatorial online learning.
翻訳日:2021-06-09 23:38:15 公開日:2021-06-08
# (参考訳) アラビア医学テキストへの適用による大規模凸最適化問題に対する新しい非線形勾配法 [全文訳有]

Using a New Nonlinear Gradient Method for Solving Large Scale Convex Optimization Problems with an Application on Arabic Medical Text ( http://arxiv.org/abs/2106.04383v1 )

ライセンス: CC BY 4.0
Jaafar Hammoud and Ali Eisab and Natalia Dobrenkoa and Natalia Gusarovaa(参考訳) 勾配法には、信号処理、画像処理、動的システムなど、複数の分野の応用がある。 本稿では,2つの共役係数 HRM [2] と NHS [1] のハイブリッド化による探索方向の開発により,凸上二乗関数を解く非線形勾配法を提案する。 その結果, 対象関数が二次凸であれば, 標準問題の解法に適用し, 厳密解に達することで, 提案手法の有効性が証明された。 また,本論文では,提案手法の安定性と実行時間の面での効率性を証明したアラビア医療言語における名前付き実体問題への応用について述べる。

Gradient methods have applications in multiple fields, including signal processing, image processing, and dynamic systems. In this paper, we present a nonlinear gradient method for solving convex supra-quadratic functions by developing the search direction, that done by hybridizing between the two conjugate coefficients HRM [2] and NHS [1]. The numerical results proved the effectiveness of the presented method by applying it to solve standard problems and reaching the exact solution if the objective function is quadratic convex. Also presented in this article, an application to the problem of named entities in the Arabic medical language, as it proved the stability of the proposed method and its efficiency in terms of execution time.
翻訳日:2021-06-09 23:19:42 公開日:2021-06-08
# (参考訳) 意味グラフ解析のための構成構造学習 [全文訳有]

Learning compositional structures for semantic graph parsing ( http://arxiv.org/abs/2106.04398v1 )

ライセンス: CC BY 4.0
Jonas Groschwitz, Meaghan Fowlie and Alexander Koller(参考訳) AM依存性解析(AMDependency parsing)は、合成の原理を利用する神経意味グラフ解析の手法である。 am依存パーサは複数のグラフバンクで高速かつ正確であることが示されているが、トレーニングには構成木構造の明示的なアノテーションが必要である。 過去には、これらは専門家によって書かれた複雑なグラフバンク特有のヒューリスティックを用いて得られた。 ここでは、ニューラルネットワークの潜在変数モデルを用いてグラフを直接トレーニングし、手動ヒューリスティックスの量と複雑さを大幅に削減する方法について説明する。 我々は,本モデルが言語的現象を独自に捉え,教師付きトレーニングに匹敵する精度を実現し,新たなsembanksに対するam依存性解析の利用を大いに促進できることを実証する。

AM dependency parsing is a method for neural semantic graph parsing that exploits the principle of compositionality. While AM dependency parsers have been shown to be fast and accurate across several graphbanks, they require explicit annotations of the compositional tree structures for training. In the past, these were obtained using complex graphbank-specific heuristics written by experts. Here we show how they can instead be trained directly on the graphs with a neural latent-variable model, drastically reducing the amount and complexity of manual heuristics. We demonstrate that our model picks up on several linguistic phenomena on its own and achieves comparable accuracy to supervised training, greatly facilitating the use of AM dependency parsing for new sembanks.
翻訳日:2021-06-09 23:11:34 公開日:2021-06-08
# (参考訳) 非Iterative Diverse Candidate 生成のためのフローネットワークに基づく生成モデル [全文訳有]

Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation ( http://arxiv.org/abs/2106.04399v1 )

ライセンス: CC BY 4.0
Emmanuel Bengio, Moksh Jain, Maksym Korablyov, Doina Precup, Yoshua Bengio(参考訳) 本稿では, 対象物を生成する確率が, 対象物に対して与えられた正の報酬に比例するように, 行動列から対象物を生成する確率的ポリシー(分子グラフなど)を学習する問題について述べる。 標準的な戻り値の最大化は単一の戻り値最大化列に収束する傾向にあるが、様々な高戻り値の解をサンプリングしたい場合もある。 例えば、ブラックボックスの関数最適化では、ラウンド数が少ない場合、それぞれが大きなクエリのバッチを持つ場合、例えば新しい分子の設計において、バッチは多様でなければならない。 また、これをエネルギー関数を生成分布に近似変換する問題と見なすこともできる。 MCMC法はそれを実現することができるが、高価であり、一般的には局所探査のみを行う。 代わりに、生成ポリシーのトレーニングは、トレーニング中の検索コストを償却し、迅速な生成へと導く。 時間差分学習の知見を用いて、生成過程をフローネットワークとして見た上で、GFlowNetを提案する。これにより、異なる軌道が同じ最終状態(例えば、ある分子グラフを生成するために原子を逐次追加する方法)を扱いやすくする。 本研究では, 流路の集合を流れとし, 流れの整合性方程式を学習対象に変換し, ベルマン方程式の時間差分法への鋳造と類似した。 提案する目的のグローバルな最小限は、所望の分布から抽出したポリシーを導出し、報酬関数に多くのモードがある単純な領域において、GFlowNetの性能と多様性の向上を実証し、分子合成タスクで示す。

This paper is about the problem of learning a stochastic policy for generating an object (like a molecular graph) from a sequence of actions, such that the probability of generating an object is proportional to a given positive reward for that object. Whereas standard return maximization tends to converge to a single return-maximizing sequence, there are cases where we would like to sample a diverse set of high-return solutions. These arise, for example, in black-box function optimization when few rounds are possible, each with large batches of queries, where the batches should be diverse, e.g., in the design of new molecules. One can also see this as a problem of approximately converting an energy function to a generative distribution. While MCMC methods can achieve that, they are expensive and generally only perform local exploration. Instead, training a generative policy amortizes the cost of search during training and yields to fast generation. Using insights from Temporal Difference learning, we propose GFlowNet, based on a view of the generative process as a flow network, making it possible to handle the tricky case where different trajectories can yield the same final state, e.g., there are many ways to sequentially add atoms to generate some molecular graph. We cast the set of trajectories as a flow and convert the flow consistency equations into a learning objective, akin to the casting of the Bellman equations into Temporal Difference methods. We prove that any global minimum of the proposed objectives yields a policy which samples from the desired distribution, and demonstrate the improved performance and diversity of GFlowNet on a simple domain where there are many modes to the reward function, and on a molecule synthesis task.
翻訳日:2021-06-09 22:52:42 公開日:2021-06-08
# (参考訳) 段階木を用いた分類データのコンテキスト特異的因果探索 [全文訳有]

Context-Specific Causal Discovery for Categorical Data Using Staged Trees ( http://arxiv.org/abs/2106.04416v1 )

ライセンス: CC BY 4.0
Manuele Leonelli and Gherardo Varando(参考訳) 因果発見アルゴリズムは、観測データのみを用いた複雑な因果関係の解消を目的としている。 本稿では,複雑かつ非対称な因果効果を表現できる段階木モデルに基づく新しい因果発見アルゴリズムを提案する。 提案アルゴリズムの有効性を示すために, 広く使用されている構造的介入距離から着想を得た新しい距離を導入し, 対応する因果推論文を用いて2つの木間の近接性を定量化する。 シミュレーション研究は、データからの非対称因果関係を明らかにする際に、ステージ木の有効性を強調し、実際の因果解析におけるそれらの利用を例示する。

Causal discovery algorithms aims at untangling complex causal relationships using observational data only. Here, we introduce new causal discovery algorithms based on staged tree models, which can represent complex and non-symmetric causal effects. To demonstrate the efficacy of our algorithms, we introduce a new distance, inspired by the widely used structural interventional distance, to quantify the closeness between two staged trees in terms of their corresponding causal inference statements. A simulation study highlights the efficacy of staged trees in uncovering complex, asymmetric causal relationship from data and a real-world data application illustrates their use in a practical causal analysis.
翻訳日:2021-06-09 22:23:21 公開日:2021-06-08
# (参考訳) back2future: リアルタイム予測を改善するためにbackfill dynamicsを活用する [全文訳有]

Back2Future: Leveraging Backfill Dynamics for Improving Real-time Predictions in Future ( http://arxiv.org/abs/2106.04420v1 )

ライセンス: CC BY 4.0
Harshavardhan Kamarthi, Alexander Rodr\'iguez, B. Aditya Prakash(参考訳) 公衆衛生のリアルタイム予測では、データ収集は自明で要求の厳しいタスクである。 多くの場合、最初のリリース後、いくつかのリビジョン(人的または技術的な制約のためかもしれない)が行われ、結果としてデータが安定した値に達するまで数週間かかる可能性がある。 このいわゆる「バックフィル」現象とそのモデル性能への影響は、以前の文献ではほとんど研究されていない。 本稿では,COVID-19をモチベーションの例として用いた多変量バックフィル問題を紹介する。 パンデミックの過去1年間に関連する信号からなる詳細なデータセットを構築した。 次に、バックフィルダイナミクスのいくつかのパターンを体系的に特徴付け、新しい問題とニューラルネットワークのフレームワークであるBack2Futureを定式化し、与えられたモデルの予測をリアルタイムで洗練することを目的とする。 提案手法は,非自明なベースラインとは対照的に,最上位モデルの性能を改良し,ベースラインよりも18%向上し,新たなSOTA性能が得られることを示した。 さらに,本モデルではモデル評価の精度も向上し,政策立案者がリアルタイムに予測モデルの真の精度をよりよく理解できることを示す。

In real-time forecasting in public health, data collection is a non-trivial and demanding task. Often after initially released, it undergoes several revisions later (maybe due to human or technical constraints) - as a result, it may take weeks until the data reaches to a stable value. This so-called 'backfill' phenomenon and its effect on model performance has been barely studied in the prior literature. In this paper, we introduce the multi-variate backfill problem using COVID-19 as the motivating example. We construct a detailed dataset composed of relevant signals over the past year of the pandemic. We then systematically characterize several patterns in backfill dynamics and leverage our observations for formulating a novel problem and neural framework Back2Future that aims to refines a given model's predictions in real-time. Our extensive experiments demonstrate that our method refines the performance of top models for COVID-19 forecasting, in contrast to non-trivial baselines, yielding 18% improvement over baselines, enabling us obtain a new SOTA performance. In addition, we show that our model improves model evaluation too; hence policy-makers can better understand the true accuracy of forecasting models in real-time.
翻訳日:2021-06-09 22:07:38 公開日:2021-06-08
# (参考訳) 最小識別情報による分布シフトにもかかわらずロバスト一般化 [全文訳有]

Robust Generalization despite Distribution Shift via Minimum Discriminating Information ( http://arxiv.org/abs/2106.04443v1 )

ライセンス: CC BY 4.0
Tobias Sutter, Andreas Krause, Daniel Kuhn(参考訳) 分散シフト下でうまく機能するトレーニングモデルは、マシンラーニングの中心的な課題である。 本稿では、トレーニングデータに加えて、シフトしたテスト分布に関する部分的構造的知識を持つモデリングフレームワークを提案する。 利用可能な事前知識を埋め込むために最小識別情報の原則を採用し、限定されたサンプルによる不確実性を考慮するために分布的ロバストな最適化を用いる。 大きな偏差結果を利用することで、未知のシフト分布に対する明示的な一般化境界が得られる。 最後に,(1)体系的偏りのあるデータに対する分類器の訓練と,(2)マルコフ決定過程におけるオフポリシー評価という2つの異なる応用により,フレームワークの汎用性を示す。

Training models that perform well under distribution shifts is a central challenge in machine learning. In this paper, we introduce a modeling framework where, in addition to training data, we have partial structural knowledge of the shifted test distribution. We employ the principle of minimum discriminating information to embed the available prior knowledge, and use distributionally robust optimization to account for uncertainty due to the limited samples. By leveraging large deviation results, we obtain explicit generalization bounds with respect to the unknown shifted distribution. Lastly, we demonstrate the versatility of our framework by demonstrating it on two rather distinct applications: (1) training classifiers on systematically biased data and (2) off-policy evaluation in Markov Decision Processes.
翻訳日:2021-06-09 21:45:36 公開日:2021-06-08
# (参考訳) 適応的伝達学習

Adaptive transfer learning ( http://arxiv.org/abs/2106.04455v1 )

ライセンス: CC BY 4.0
Henry W. J. Reeve, Timothy I. Cannings, Richard J. Samworth(参考訳) トランスファーラーニングでは、分布自体からのデータと、異なるが関連するソースの分布の両方からデータにアクセス可能な場合、ターゲットの集団について推論をしたい。 本稿では,二項分類の文脈における伝達学習のためのフレキシブルなフレームワークを導入し,ベイズ決定境界を維持するのに不要なソースとターゲット分布間の共変量依存的な関係を実現する。 我々の主な貢献は、この問題における最小収束率(多対数因子による)を導出することであり、最適な速度は、未知の伝達関係の重要な側面に適応するアルゴリズムと、分布クラスにおける滑らかさとテールパラメータによって達成できることを示した。 この最適速度は, 相対的なサンプルサイズと移動関係の強度の相互作用に依拠し, 決定木に基づく局所近傍手順のキャリブレーションを慎重に行うことにより, 最適性が得られることがわかった。

In transfer learning, we wish to make inference about a target population when we have access to data both from the distribution itself, and from a different but related source distribution. We introduce a flexible framework for transfer learning in the context of binary classification, allowing for covariate-dependent relationships between the source and target distributions that are not required to preserve the Bayes decision boundary. Our main contributions are to derive the minimax optimal rates of convergence (up to poly-logarithmic factors) in this problem, and show that the optimal rate can be achieved by an algorithm that adapts to key aspects of the unknown transfer relationship, as well as the smoothness and tail parameters of our distributional classes. This optimal rate turns out to have several regimes, depending on the interplay between the relative sample sizes and the strength of the transfer relationship, and our algorithm achieves optimality by careful, decision tree-based calibration of local nearest-neighbour procedures.
翻訳日:2021-06-09 21:02:23 公開日:2021-06-08
# (参考訳) 振り返らない:可逆性を考慮した強化学習のための自己監督型アプローチ [全文訳有]

There Is No Turning Back: A Self-Supervised Approach for Reversibility-Aware Reinforcement Learning ( http://arxiv.org/abs/2106.04480v1 )

ライセンス: CC BY 4.0
Nathan Grinsztajn, Johan Ferret, Olivier Pietquin, Philippe Preux, Matthieu Geist(参考訳) 我々は,強化学習(RL)において,可逆的行動と不可逆的行動との区別を学習し,情報的意思決定を改善することを提案する。 理論的考察から, ランダムにサンプリングされた軌道イベントを時系列順にランク付けする, 単純なサロゲートタスクにより, 近似可逆性を学習できることが示唆された。 直感的には、同じ順序で常に観測される事象のペアは、不可逆的な一連の行動によって分離される。 同時に、イベントの時間的順序を学習することは、前もって経験から行動の可逆性を推定するために、完全に自己管理的な方法で行うことができる。 我々は,rlエージェントに可逆性を含む2つの異なる戦略,1つの探索戦略(rae)と1つの制御戦略(rac)を提案する。 本稿では,ソコバンゲームを含む,可逆性を考慮したエージェントの可能性を示す。 合成タスクでは、報酬関数にアクセスしなくても、決して失敗せず、相互作用の副作用をゼロにする制御ポリシーを学習できることが示される。

We propose to learn to distinguish reversible from irreversible actions for better informed decision-making in Reinforcement Learning (RL). From theoretical considerations, we show that approximate reversibility can be learned through a simple surrogate task: ranking randomly sampled trajectory events in chronological order. Intuitively, pairs of events that are always observed in the same order are likely to be separated by an irreversible sequence of actions. Conveniently, learning the temporal order of events can be done in a fully self-supervised way, which we use to estimate the reversibility of actions from experience, without any priors. We propose two different strategies that incorporate reversibility in RL agents, one strategy for exploration (RAE) and one strategy for control (RAC). We demonstrate the potential of reversibility-aware agents in several environments, including the challenging Sokoban game. In synthetic tasks, we show that we can learn control policies that never fail and reduce to zero the side-effects of interactions, even without access to the reward function.
翻訳日:2021-06-09 21:00:57 公開日:2021-06-08
# (参考訳) ダイナミックグラフにおけるスケッチベースストリーミング異常検出 [全文訳有]

Sketch-Based Streaming Anomaly Detection in Dynamic Graphs ( http://arxiv.org/abs/2106.04486v1 )

ライセンス: CC BY 4.0
Siddharth Bhatia, Mohit Wadhwa, Philip S. Yu, Bryan Hooi(参考訳) 動的グラフからグラフエッジのストリームを与えられた場合、一定時間とメモリを用いて異常な振る舞いを検出するために、どのようにして異常スコアをエッジやサブグラフにオンライン的に割り当てるか。 例えば、侵入検知では、既存の研究は異常なエッジまたは異常なサブグラフを検知しようとするが、どちらも検出しない。 本稿では,まず,カウントミンスケッチデータ構造を高次スケッチに拡張する。 この高次スケッチは、高密度な部分グラフ構造を保存するのに有用な性質を持つ(入力の高密度な部分グラフはデータ構造の高密度な部分行列となる)。 次に、この強化されたデータ構造を利用する4つのオンラインアルゴリズムを提案し、(a)エッジとグラフの異常を検知し、(b)各エッジとグラフを一定メモリで処理し、(c)4つの実世界のデータセット上で、最先端のベースラインを性能良くする。 本手法は,高密度部分グラフ探索を取り入れた最初のストリーミング手法であり,一定時間におけるグラフ異常を検出する。

Given a stream of graph edges from a dynamic graph, how can we assign anomaly scores to edges and subgraphs in an online manner, for the purpose of detecting unusual behavior, using constant time and memory? For example, in intrusion detection, existing work seeks to detect either anomalous edges or anomalous subgraphs, but not both. In this paper, we first extend the count-min sketch data structure to a higher-order sketch. This higher-order sketch has the useful property of preserving the dense subgraph structure (dense subgraphs in the input turn into dense submatrices in the data structure). We then propose four online algorithms that utilize this enhanced data structure, which (a) detect both edge and graph anomalies; (b) process each edge and graph in constant memory and constant update time per newly arriving edge, and; (c) outperform state-of-the-art baselines on four real-world datasets. Our method is the first streaming approach that incorporates dense subgraph search to detect graph anomalies in constant memory and time.
翻訳日:2021-06-09 20:21:00 公開日:2021-06-08
# (参考訳) 高速カーネル変換 [全文訳有]

The Fast Kernel Transform ( http://arxiv.org/abs/2106.04487v1 )

ライセンス: CC BY 4.0
John Paul Ryan, Sebastian Ament, Carla P. Gomes, Anil Damle(参考訳) カーネルメソッドは、現代の機械学習アルゴリズムの非常に効果的で広く使われているコレクションである。 このような方法の事実上の基本的な制限は、二次的にスケールするカーネル行列(例えば、カーネル行列と行列ベクトルの乗算)や、データ集合 n の大きさの立方体(線形系)を含む計算である。$ は、任意の次元のデータセットに対する行列ベクトル乗算(mvms)を計算する一般的なアルゴリズムであるfast kernel transform (fkt)を提案する。 通常、解析的に基底付けられた高速乗算法は特定のカーネルに対して特別な開発を必要とする。 対照的に、本手法は、基盤となるカーネルの分析構造を利用する自動微分と自動記号計算に基づいている。 これにより、FKT はガウス、マテルン、ラショナル二次共分散函数や、ラプラス方程式やヘルムホルツ方程式を含む物理的に動機付けられたグリーン函数を含む幅広い種類の核に容易に適用できる。 さらに、FKTは、多くの加速法に欠けている特性である高い、定量化され、制御可能な精度を維持している。 本稿では,fktの有効性と汎用性を,タイミングと精度のベンチマークを提供し,確率的近傍埋め込み (t-sne) とガウス過程を大規模実世界のデータセットにスケールするために適用する。

Kernel methods are a highly effective and widely used collection of modern machine learning algorithms. A fundamental limitation of virtually all such methods are computations involving the kernel matrix that naively scale quadratically (e.g., constructing the kernel matrix and matrix-vector multiplication) or cubically (solving linear systems) with the size of the data set $N.$ We propose the Fast Kernel Transform (FKT), a general algorithm to compute matrix-vector multiplications (MVMs) for datasets in moderate dimensions with quasilinear complexity. Typically, analytically grounded fast multiplication methods require specialized development for specific kernels. In contrast, our scheme is based on auto-differentiation and automated symbolic computations that leverage the analytical structure of the underlying kernel. This allows the FKT to be easily applied to a broad class of kernels, including Gaussian, Matern, and Rational Quadratic covariance functions and physically motivated Green's functions, including those of the Laplace and Helmholtz equations. Furthermore, the FKT maintains a high, quantifiable, and controllable level of accuracy -- properties that many acceleration methods lack. We illustrate the efficacy and versatility of the FKT by providing timing and accuracy benchmarks and by applying it to scale the stochastic neighborhood embedding (t-SNE) and Gaussian processes to large real-world data sets.
翻訳日:2021-06-09 20:00:07 公開日:2021-06-08
# (参考訳) バングラ語におけるソーシャルメディアコメントからのディープニューラルネットワークによるサイバブリング検出 [全文訳有]

Cyberbullying Detection Using Deep Neural Network from Social Media Comments in Bangla Language ( http://arxiv.org/abs/2106.04506v1 )

ライセンス: CC BY 4.0
Md Faisal Ahmed, Zalish Mahmud, Zarin Tasnim Biash, Ahmed Ann Noor Ryen, Arman Hossain, Faisal Bin Ashraf(参考訳) さまざまな主要言語のソーシャルメディア上でのサイバーいじめやオンラインハラスメントの検出が、世界中の研究者から注目されている。 ベンガル語話者の間では、世界で7番目の言語であり、オンラインプラットフォームの利用が増加しているため、オンラインハラスメントに対処する効果的な検出手法を見出す必要がある。 本稿では,ベンガル語におけるいじめ表現検出のためのハイブリッドニューラルネットワークを用いたバイナリ・マルチクラス分類モデルを提案する。 私たちは、人気のfacebookページから44,001人のユーザーのコメントを、非いじめ、性的、脅威、トロール、宗教の5つのクラスに分類した。 我々は,提案するモデルの性能を異なる視点から検討した。 二分分類モデルは87.91%の精度を示すが,多クラス分類ではニューラルネットワークの後にアンサンブル手法を導入すると85%の精度が得られる。

Cyberbullying or Online harassment detection on social media for various major languages is currently being given a good amount of focus by researchers worldwide. Being the seventh most speaking language in the world and increasing usage of online platform among the Bengali speaking people urge to find effective detection technique to handle the online harassment. In this paper, we have proposed binary and multiclass classification model using hybrid neural network for bully expression detection in Bengali language. We have used 44,001 users comments from popular public Facebook pages, which fall into five classes - Non-bully, Sexual, Threat, Troll and Religious. We have examined the performance of our proposed models from different perspective. Our binary classification model gives 87.91% accuracy, whereas introducing ensemble technique after neural network for multiclass classification, we got 85% accuracy.
翻訳日:2021-06-09 19:06:27 公開日:2021-06-08
# (参考訳) LaplaceNet:Deep Semi-Supervised Classificationのためのハイブリッドエネルギーニューラルモデル [全文訳有]

LaplaceNet: A Hybrid Energy-Neural Model for Deep Semi-Supervised Classification ( http://arxiv.org/abs/2106.04527v1 )

ライセンス: CC BY 4.0
Philip Sellars and Angelica I. Aviles-Rivero and Carola-Bibiane Sch\"onlieb(参考訳) 半教師付き学習は、しばしば高価で、専門家の知識を必要とし、収集に時間がかかる大量のラベル付きデータの必要性を軽減するため、近年多くの注目を集めている。 近年の深層半教師付き分類の進歩は前例のない性能に達し, 教師付き学習と半教師付き学習のギャップは拡大を続けている。 この性能改善は、多くの技術的トリック、強力な拡張技術、多目的損失関数によるコスト最適化スキームを取り入れたものである。 モデル複雑性を大幅に低減した深層半教師付き分類のための新しいフレームワークであるLaplaceNetを提案する。 グラフベースの擬似ラベルをグラフィカルラプラシアンの最小化によって生成したハイブリッドエネルギーニューラルネットワークを用いて,ニューラルネットワークのバックボーンを反復的に改善する。 本モデルは,複数のベンチマークデータセットを用いて,半教師付き深層分類のための最先端手法より優れる。 さらに,理論上は強弱化をニューラルネットワークに適用し,半教師付き学習におけるマルチサンプリング手法の利用を正当化する。 我々は、厳密な実験を通じて、マルチサンプリング拡張アプローチが一般化を改善し、拡張に対するネットワークの感度を低下させることを示す。

Semi-supervised learning has received a lot of recent attention as it alleviates the need for large amounts of labelled data which can often be expensive, requires expert knowledge and be time consuming to collect. Recent developments in deep semi-supervised classification have reached unprecedented performance and the gap between supervised and semi-supervised learning is ever-decreasing. This improvement in performance has been based on the inclusion of numerous technical tricks, strong augmentation techniques and costly optimisation schemes with multi-term loss functions. We propose a new framework, LaplaceNet, for deep semi-supervised classification that has a greatly reduced model complexity. We utilise a hybrid energy-neural network where graph based pseudo-labels, generated by minimising the graphical Laplacian, are used to iteratively improve a neural-network backbone. Our model outperforms state-of-the-art methods for deep semi-supervised classification, over several benchmark datasets. Furthermore, we consider the application of strong-augmentations to neural networks theoretically and justify the use of a multi-sampling approach for semi-supervised learning. We demonstrate, through rigorous experimentation, that a multi-sampling augmentation approach improves generalisation and reduces the sensitivity of the network to augmentation.
翻訳日:2021-06-09 18:56:42 公開日:2021-06-08
# (参考訳) アルゴリズムを学べますか? リカレントネットワークの難易度から難易度への一般化 [全文訳有]

Can You Learn an Algorithm? Generalizing from Easy to Hard Problems with Recurrent Networks ( http://arxiv.org/abs/2106.04537v1 )

ライセンス: CC BY 4.0
Avi Schwarzschild, Eitan Borgnia, Arjun Gupta, Furong Huang, Uzi Vishkin, Micah Goldblum, Tom Goldstein(参考訳) ディープニューラルネットワークは、視覚パターン認識のための強力なマシンであるが、人間にとって簡単な推論タスクは、ニューラルモデルにとって依然として困難である。 人間は、単純な問題で学んだ推論戦略を外挿して、しばしば長く考えることで、難しい例を解く能力を持っている。 例えば、小さな迷路を解くことを学んだ人は、非常に大きな迷路をもっと多くの時間をかけて解くために、同じ検索テクニックを簡単に拡張できます。 コンピュータでは、多くの計算コストを犠牲にして任意に難しい問題インスタンスにスケールするアルゴリズムを用いることで、この動作が達成されることが多い。 対照的に、フィードフォワードニューラルネットワークの逐次コンピューティング予算は、その深さによって制限されており、単純な問題で訓練されたネットワークは、より難しい問題に対応するために推論を拡張する方法がない。 本研究では,再帰的ステップの少ない単純な問題を解くために訓練された再帰的ネットワークは,推論中に追加的な再帰を行うことで,より複雑な問題を実際に解決できることを示す。 本稿では,プレフィックス和計算,迷路計算,チェスにおける再帰ネットワークのアルゴリズム的挙動を示す。 3つのドメインすべてにおいて、単純な問題インスタンスでトレーニングされたネットワークは、単に"より長く考える"だけで、テスト時に推論能力を拡張できる。

Deep neural networks are powerful machines for visual pattern recognition, but reasoning tasks that are easy for humans may still be difficult for neural models. Humans possess the ability to extrapolate reasoning strategies learned on simple problems to solve harder examples, often by thinking for longer. For example, a person who has learned to solve small mazes can easily extend the very same search techniques to solve much larger mazes by spending more time. In computers, this behavior is often achieved through the use of algorithms, which scale to arbitrarily hard problem instances at the cost of more computation. In contrast, the sequential computing budget of feed-forward neural networks is limited by their depth, and networks trained on simple problems have no way of extending their reasoning to accommodate harder problems. In this work, we show that recurrent networks trained to solve simple problems with few recurrent steps can indeed solve much more complex problems simply by performing additional recurrences during inference. We demonstrate this algorithmic behavior of recurrent networks on prefix sum computation, mazes, and chess. In all three domains, networks trained on simple problem instances are able to extend their reasoning abilities at test time simply by "thinking for longer."
翻訳日:2021-06-09 18:35:20 公開日:2021-06-08
# (参考訳) ROSを用いた機械学習合成データの自動生成 [全文訳有]

Automatic Generation of Machine Learning Synthetic Data Using ROS ( http://arxiv.org/abs/2106.04547v1 )

ライセンス: CC0 1.0
Kyle M. Hart (1), Ari B. Goodman (1), Ryan P. O'Shea (1) ((1) Naval Air Warfare Center - Aircraft Division - Lakehurst)(参考訳) データラベリングは時間を要するプロセスです。 そのため、多くのデータサイエンティストはデータ生成とラベル付けのプロセスを支援する様々なツールを使っている。 これらのツールはラベルの自動化に役立つが、その多くはプロセス全体を通してユーザーインタラクションを必要とする。 さらに、ほとんどのターゲットはネットワークフレームワークのみである。 複数のフレームワークを探索する研究者は、追加のツールや変換スクリプトを見つける必要がある。 本稿では任意のネットワークフォーマットで合成データを生成する自動化ツールを提案する。 ロボット・オペレーティング・システム(ROS)とガゼボ(Gazebo)はロボットコミュニティで一般的なツールである。 rosパラダイムを通じて、シミュレーション環境とデータ生成プロセスの広範なユーザカスタマイズが可能になる。 さらに、プラグインのようなフレームワークは、コード本体を変更することなく、任意のデータフォーマットライタの開発を可能にする。 このツールを使用して、著者らは、データセットのサイズに応じて、約15分間のユーザ設定時間とさまざまなハンドオフ実行時間を使用して、3つのユニークなトレーニングフォーマット用の任意のサイズのイメージデータセットを生成することができた。 このデータ生成ツールのソースコードはhttps://github.com/n avy-rise-lab/nn_data _collectionで入手できる。

Data labeling is a time intensive process. As such, many data scientists use various tools to aid in the data generation and labeling process. While these tools help automate labeling, many still require user interaction throughout the process. Additionally, most target only a few network frameworks. Any researchers exploring multiple frameworks must find additional tools orwrite conversion scripts. This paper presents an automated tool for generating synthetic data in arbitrary network formats. It uses Robot Operating System (ROS) and Gazebo, which are common tools in the robotics community. Through ROS paradigms, it allows extensive user customization of the simulation environment and data generation process. Additionally, a plugin-like framework allows the development of arbitrary data format writers without the need to change the main body of code. Using this tool, the authors were able to generate an arbitrarily large image dataset for three unique training formats using approximately 15 min of user setup time and a variable amount of hands-off run time, depending on the dataset size. The source code for this data generation tool is available at https://github.com/N avy-RISE-Lab/nn_data _collection
翻訳日:2021-06-09 18:15:52 公開日:2021-06-08
# (参考訳) detreg: オブジェクト検出のための領域優先型教師なし事前トレーニング [全文訳有]

DETReg: Unsupervised Pretraining with Region Priors for Object Detection ( http://arxiv.org/abs/2106.04550v1 )

ライセンス: CC BY 4.0
Amir Bar, Xin Wang, Vadim Kantorov, Colorado J Reed, Roei Herzig, Gal Chechik, Anna Rohrbach, Trevor Darrell, Amir Globerson(参考訳) 教師なし事前訓練は、オブジェクト検出を含むコンピュータビジョンタスクに有用であることが最近証明された。 しかし、従来の自己教師型アプローチは、検出の重要な側面であるオブジェクトのローカライズを扱うように設計されていない。 ここでは、領域事前を用いたTRansformersを用いたオブジェクト検出のための教師なし事前学習手法であるDETRegを提案する。 局所化と分類という2つの課題に動機づけられ、自己スーパービジョンのための2つの補完的信号を組み合わせた。 対象のローカライズ信号には、既成の非教師なし領域提案法であるseudo ground truth object bounding boxを用いて、トレーニングデータを必要としない、高いリコールレートで極端に精度の低いオブジェクトを検出可能な選択的探索を行う。 分類信号は、不変オブジェクト表現を促進するオブジェクト埋め込み損失から来ており、そこからオブジェクトカテゴリを推測することができる。 この2つの信号を組み合わせて、大量のラベルのないデータからDeformable DETR検出アーキテクチャをトレーニングする方法を示す。 DETRegは、MS COCOやPASCAL VOCのような標準ベンチマークにおける、競合するベースラインと以前の自己監督手法よりもパフォーマンスを向上する。 DETRegはまた、MS COCO上のラベル付きデータのわずか1%、2%、5%、10%でトレーニングされた場合、従来の教師なしベースラインアプローチよりも優れていた。 コードと事前訓練されたモデルについては、https://amirbar.net/ detregのプロジェクトページを参照してください。

Unsupervised pretraining has recently proven beneficial for computer vision tasks, including object detection. However, previous self-supervised approaches are not designed to handle a key aspect of detection: localizing objects. Here, we present DETReg, an unsupervised pretraining approach for object DEtection with TRansformers using Region priors. Motivated by the two tasks underlying object detection: localization and categorization, we combine two complementary signals for self-supervision. For an object localization signal, we use pseudo ground truth object bounding boxes from an off-the-shelf unsupervised region proposal method, Selective Search, which does not require training data and can detect objects at a high recall rate and very low precision. The categorization signal comes from an object embedding loss that encourages invariant object representations, from which the object category can be inferred. We show how to combine these two signals to train the Deformable DETR detection architecture from large amounts of unlabeled data. DETReg improves the performance over competitive baselines and previous self-supervised methods on standard benchmarks like MS COCO and PASCAL VOC. DETReg also outperforms previous supervised and unsupervised baseline approaches on low-data regime when trained with only 1%, 2%, 5%, and 10% of the labeled data on MS COCO. For code and pretrained models, visit the project page at https://amirbar.net/ detreg
翻訳日:2021-06-09 18:03:54 公開日:2021-06-08
# (参考訳) XtremeDistilTransfor mers:タスク非依存蒸留のためのタスク転送 [全文訳有]

XtremeDistilTransfor mers: Task Transfer for Task-agnostic Distillation ( http://arxiv.org/abs/2106.04563v1 )

ライセンス: CC BY 4.0
Subhabrata Mukherjee, Ahmed Hassan Awadallah, Jianfeng Gao(参考訳) 深層および大規模事前学習モデルは、様々な自然言語処理タスクの最先端技術である一方、その巨大なサイズは、リソース制約された設定における実用的な利用に重大な課題をもたらす。 知識蒸留における最近の研究は、これらのモデルを圧縮するタスク固有の方法だけでなく、タスクに依存しない手法も提案している。 本研究では,タスク依存型蒸留フレームワークxtremedistiltransfor mersを開発し,任意のタスクや言語に適用可能な,小さな普遍モデルを学ぶためのタスク特化手法の利点を生かした。 そこで本研究では, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。 我々は,言語理解評価(GLUE)ベンチマーク,SQuAD質問応答データセット,41言語からなる多言語NERデータセットなど,複数のタスクにおけるモデル性能を評価する。

While deep and large pre-trained models are the state-of-the-art for various natural language processing tasks, their huge size poses significant challenges for practical uses in resource constrained settings. Recent works in knowledge distillation propose task-agnostic as well as task-specific methods to compress these models, with task-specific ones often yielding higher compression rate. In this work, we develop a new task-agnostic distillation framework XtremeDistilTransfor mers that leverages the advantage of task-specific methods for learning a small universal model that can be applied to arbitrary tasks and languages. To this end, we study the transferability of several source tasks, augmentation resources and model architecture for distillation. We evaluate our model performance on multiple tasks, including the General Language Understanding Evaluation (GLUE) benchmark, SQuAD question answering dataset and a massive multi-lingual NER dataset with 41 languages.
翻訳日:2021-06-09 17:46:06 公開日:2021-06-08
# (参考訳) 事前訓練されたトランスフォーマーは意図分類において堅牢か? スコープ外インテント検出における欠失成分の検討 [全文訳有]

Are Pretrained Transformers Robust in Intent Classification? A Missing Ingredient in Evaluation of Out-of-Scope Intent Detection ( http://arxiv.org/abs/2106.04564v1 )

ライセンス: CC BY 4.0
Jian-Guo Zhang, Kazuma Hashimoto, Yao Wan, Ye Liu, Caiming Xiong, Philip S. Yu(参考訳) 事前訓練されたトランスフォーマーベースのモデルは意図分類において堅牢であると報告された。 本研究は、まず、少数の意図認識タスクにおけるドメイン内外検出の重要性を指摘し、その上で、ドメイン内だがスコープ外(ID-OOS)であるサンプルに対する事前訓練されたトランスフォーマーベースモデルの脆弱性を説明する。 実験により、事前訓練されたモデルは、ID-OOS例と一般的なスコープ外例の両方、特にきめ細かなショットインテント検出タスクでうまく機能しないことを示す。 モデルがID-OOSインテントをスコープ内インテントとして誤って分類する方法を明らかにするために,信頼性スコアと重なり合うキーワードの分析を行い,今後の作業に向けていくつかの方向を示す。 今後の研究を促進するための関連リソースをリリースする。

Pretrained Transformer-based models were reported to be robust in intent classification. In this work, we first point out the importance of in-domain out-of-scope detection in few-shot intent recognition tasks and then illustrate the vulnerability of pretrained Transformer-based models against samples that are in-domain but out-of-scope (ID-OOS). We empirically show that pretrained models do not perform well on both ID-OOS examples and general out-of-scope examples, especially on fine-grained few-shot intent detection tasks. To figure out how the models mistakenly classify ID-OOS intents as in-scope intents, we further conduct analysis on confidence scores and the overlapping keywords and provide several prospective directions for future work. We release the relevant resources to facilitate future research.
翻訳日:2021-06-09 17:29:37 公開日:2021-06-08
# (参考訳) timedial:temporal commonsense reasoning in dialog [全文訳有]

TIMEDIAL: Temporal Commonsense Reasoning in Dialog ( http://arxiv.org/abs/2106.04571v1 )

ライセンス: CC BY-SA 4.0
Lianhui Qin, Aditya Gupta, Shyam Upadhyay, Luheng He, Yejin Choi and Manaal Faruqui(参考訳) 毎日の会話は日常的な出来事を理解することを必要とし、それによって、それらの出来事と交わる時間的常識の概念を理解する必要がある。 t5やgpt-3のような巨大な事前学習言語モデル(lms)による最近の進歩にもかかわらず、ダイアログにおける時間的推論の能力はほとんど未検討のままである。 本稿では,新しいタスクとクラウドソーシングされた英語チャレンジセットであるtimedialを導入することで,事前学習したlmsの対話における時間推論能力について初めて検討する。 我々は、TIME-DIALを1.1K以上の精巧なダイアログで複数選択のクローゼタスクとして定式化する。 実証的な結果は、最高のパフォーマンスモデルでさえ、正確性に23の絶対的なギャップがあるこのタスクに苦戦していることを示している。 さらに,これらのモデルがコンテキスト内の既存の時間的パターンに基づく浅い手がかりに依存しており,テキストにおける時間的概念のモデル化と,それに対する堅牢な文脈的推論に関する今後の研究の動機となっている。 データセットは、https://github.com/g oogle-research-datas ets/timedial.comで公開されている。

Everyday conversations require understanding everyday events, which in turn, requires understanding temporal commonsense concepts interwoven with those events. Despite recent progress with massive pre-trained language models (LMs) such as T5 and GPT-3, their capability of temporal reasoning in dialogs remains largely under-explored. In this paper, we present the first study to investigate pre-trained LMs for their temporal reasoning capabilities in dialogs by introducing a new task and a crowd-sourced English challenge set, TIMEDIAL. We formulate TIME-DIAL as a multiple-choice cloze task with over 1.1K carefully curated dialogs. Empirical results demonstrate that even the best performing models struggle on this task compared to humans, with 23 absolute points of gap in accuracy. Furthermore, our analysis reveals that the models fail to reason about dialog context correctly; instead, they rely on shallow cues based on existing temporal patterns in context, motivating future research for modeling temporal concepts in text and robust contextual reasoning about them. The dataset is publicly available at: https://github.com/g oogle-research-datas ets/timedial.
翻訳日:2021-06-09 17:16:13 公開日:2021-06-08
# (参考訳) 顔認識モデルのシミュレーション逆検 [全文訳有]

Simulated Adversarial Testing of Face Recognition Models ( http://arxiv.org/abs/2106.04569v1 )

ライセンス: CC BY 4.0
Nataniel Ruiz, Adam Kortylewski, Weichao Qiu, Cihang Xie, Sarah Adel Bargal, Alan Yuille, Stan Sclaroff(参考訳) ほとんどの機械学習モデルは、固定データセット上で検証され、テストされる。 これにより、モデルの能力と弱点の完全な図が得られます。 このような弱点は実世界でのテスト時に明らかになる。 このような失敗にかかわるリスクは、利益の損失、時間的損失、あるいは特定の重要な応用における生命の喪失である。 この問題を緩和するために、シミュレーターは解釈可能なパラメータを使ってきめ細かな方法で制御し、セマンティックイメージ多様体を探索することができる。 そこで本研究では,シミュレーションを用いて機械学習アルゴリズムを逆向きにテストする方法を学習し,重要なシナリオにデプロイする前にモデルの弱点を見つけるためのフレームワークを提案する。 このモデルを顔認識シナリオに適用する。 私たちは、実データでトレーニングされたモデルの弱点が、シミュレーションサンプルを使って発見できることを初めて示す。 提案手法を用いることで,現代の顔認識モデルを騙した対向合成顔を見つけることができる。 これは、これらのモデルが一般的なバリデーションデータセットでは測定されない弱点を持っていることを示しています。 このタイプの逆例が孤立しているのではなく、通常はシミュレータの潜在空間内の連結成分にあると仮定する。 そこで本論文では, 典型的対向点に対して, これらの対向領域を求める手法を提案する。

Most machine learning models are validated and tested on fixed datasets. This can give an incomplete picture of the capabilities and weaknesses of the model. Such weaknesses can be revealed at test time in the real world. The risks involved in such failures can be loss of profits, loss of time or even loss of life in certain critical applications. In order to alleviate this issue, simulators can be controlled in a fine-grained manner using interpretable parameters to explore the semantic image manifold. In this work, we propose a framework for learning how to test machine learning algorithms using simulators in an adversarial manner in order to find weaknesses in the model before deploying it in critical scenarios. We apply this model in a face recognition scenario. We are the first to show that weaknesses of models trained on real data can be discovered using simulated samples. Using our proposed method, we can find adversarial synthetic faces that fool contemporary face recognition models. This demonstrates the fact that these models have weaknesses that are not measured by commonly used validation datasets. We hypothesize that this type of adversarial examples are not isolated, but usually lie in connected components in the latent space of the simulator. We present a method to find these adversarial regions as opposed to the typical adversarial points found in the adversarial example literature.
翻訳日:2021-06-09 16:41:29 公開日:2021-06-08
# 知識蒸留のためのメタラーニング

Meta Learning for Knowledge Distillation ( http://arxiv.org/abs/2106.04570v1 )

ライセンス: Link先を確認
Wangchunshu Zhou and Canwen Xu and Julian McAuley(参考訳) 本稿では,教師モデルが学習中に固定される従来の知識蒸留法 (kd) に代わる単純かつ効果的な方法である,知識蒸留のためのメタラーニング(metadistil)を提案する。 教師ネットワークは,メタ学習フレームワークにおいて,蒸留留学生ネットワークのパフォーマンスからフィードバックを得て,知識を学生ネットワーク(つまり,教えるための学習)へよりよく伝達することを学ぶことができる。 さらに,インナーリーナーの改良に焦点を当てたメタ学習アルゴリズムにおいて,インナーリーナーとメタリーナーのアライメントを改善するパイロット更新機構を導入する。 様々なベンチマークの実験によると、MetaDistilは従来のKDアルゴリズムと比較して大幅に改善され、異なる学生容量とハイパーパラメータの選択に敏感で、異なるタスクやモデルでのKDの使用が容易である。 コードはhttps://github.com/J etRunner/MetaDistilで入手できる。

We present Meta Learning for Knowledge Distillation (MetaDistil), a simple yet effective alternative to traditional knowledge distillation (KD) methods where the teacher model is fixed during training. We show the teacher network can learn to better transfer knowledge to the student network (i.e., learning to teach) with the feedback from the performance of the distilled student network in a meta learning framework. Moreover, we introduce a pilot update mechanism to improve the alignment between the inner-learner and meta-learner in meta learning algorithms that focus on an improved inner-learner. Experiments on various benchmarks show that MetaDistil can yield significant improvements compared with traditional KD algorithms and is less sensitive to the choice of different student capacity and hyperparameters, facilitating the use of KD on different tasks and models. The code is available at https://github.com/J etRunner/MetaDistil
翻訳日:2021-06-09 16:26:09 公開日:2021-06-08
# Cheap and Good? 低資源機械読取のための簡易かつ効果的なデータ拡張

Cheap and Good? Simple and Effective Data Augmentation for Low Resource Machine Reading ( http://arxiv.org/abs/2106.04134v1 )

ライセンス: Link先を確認
Hoang Van, Vikas Yadav, Mihai Surdeanu(参考訳) 本稿では,低リソース機械読解(MRC)のための簡易かつ効果的なデータ拡張戦略を提案する。 提案手法は,まず,正解のおよその文脈を含む拡張データに基づいて,MCCシステムの解抽出成分を事前学習し,その解の精度をトレーニングする。 近似コンテキストは、QAメソッドコンポーネントが回答の位置を狭めるのに役立つ。 提案手法は,回答のコンテキストを大きくし,学習データを追加することで,文書検索と回答抽出の性能を大幅に向上させることを実証する。 特に,提案手法は,複雑な低リソースMRCタスクであるTechQAにおけるBERTベースの検索器(15.12\%)と回答抽出器(4.33\% F1)の性能を著しく向上させる。 さらに,データ拡張戦略は,長期の回答スパンを含む実用的かつ中程度のqaデータセットであるpolicyqaにおける回答抽出において,最大3.9\%の正確な一致(em)と2.7\%のf1の大幅な改善をもたらす。

We propose a simple and effective strategy for data augmentation for low-resource machine reading comprehension (MRC). Our approach first pretrains the answer extraction components of a MRC system on the augmented data that contains approximate context of the correct answers, before training it on the exact answer spans. The approximate context helps the QA method components in narrowing the location of the answers. We demonstrate that our simple strategy substantially improves both document retrieval and answer extraction performance by providing larger context of the answers and additional training data. In particular, our method significantly improves the performance of BERT based retriever (15.12\%), and answer extractor (4.33\% F1) on TechQA, a complex, low-resource MRC task. Further, our data augmentation strategy yields significant improvements of up to 3.9\% exact match (EM) and 2.7\% F1 for answer extraction on PolicyQA, another practical but moderate sized QA dataset that also contains long answer spans.
翻訳日:2021-06-09 16:25:57 公開日:2021-06-08
# 変圧器に関する調査

A Survey of Transformers ( http://arxiv.org/abs/2106.04554v1 )

ライセンス: Link先を確認
Tianyang Lin, Yuxin Wang, Xiangyang Liu, Xipeng Qiu(参考訳) トランスフォーマーは、自然言語処理、コンピュータビジョン、オーディオ処理など、多くの人工知能の分野で大きな成功を収めている。 そのため、学術・産業研究者から多くの関心を惹きつけるのは当然である。 現在まで、トランスフォーマーの変種(a.k.a.)は様々である。 X-former) が提案されているが、これらの Transformer 変種に関する体系的で包括的な文献レビューはいまだに欠落している。 本調査では,各種X-formerについて概説する。 まずバニラ変圧器を簡潔に紹介し,次にx型変圧器の新しい分類法を提案する。 次に、アーキテクチャ修正、事前学習、アプリケーションという3つの視点から、様々なX-formerを紹介します。 最後に,今後の研究の方向性について概説する。

Transformers have achieved great success in many artificial intelligence fields, such as natural language processing, computer vision, and audio processing. Therefore, it is natural to attract lots of interest from academic and industry researchers. Up to the present, a great variety of Transformer variants (a.k.a. X-formers) have been proposed, however, a systematic and comprehensive literature review on these Transformer variants is still missing. In this survey, we provide a comprehensive review of various X-formers. We first briefly introduce the vanilla Transformer and then propose a new taxonomy of X-formers. Next, we introduce the various X-formers from three perspectives: architectural modification, pre-training, and applications. Finally, we outline some potential directions for future research.
翻訳日:2021-06-09 16:25:39 公開日:2021-06-08
# VQAはRADか? 集中的介入による拡張データに対するロバスト性の測定

Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions ( http://arxiv.org/abs/2106.04484v1 )

ライセンス: Link先を確認
Daniel Rosenberg, Itai Gat, Amir Feder, Roi Reichart(参考訳) ディープラーニングアルゴリズムは、視覚質問応答(vqa)タスクで有望な結果を示しているが、より注意深く見ると、彼らが与えているリッチなシグナルをよく理解していないことが分かる。 VQAシステムの一般化能力を理解し,よりよく測定するために,実測データに対する頑健性を考察する。 提案する補足は,質問の特定の属性に焦点を絞った介入を行うことにより,回答が変化するように設計する。 本稿では,これらの拡張手法を用いて,原例と増分例間のモデル予測の整合性を測定するロバストネス・トゥ・拡張データ(RAD)を提案する。 広範な実験を通じて,radは,従来の精度尺度と異なり,反事実にロバストでない場合に定量化できることを示した。 私たちは、現在のVQAシステムがまだ脆弱であることを示す重大な障害ケースを見つけました。 最後に、ロバスト性と一般化を結合し、見えない拡張に対するRADの予測能力を実証する。

Deep learning algorithms have shown promising results in visual question answering (VQA) tasks, but a more careful look reveals that they often do not understand the rich signal they are being fed with. To understand and better measure the generalization capabilities of VQA systems, we look at their robustness to counterfactually augmented data. Our proposed augmentations are designed to make a focused intervention on a specific property of the question such that the answer changes. Using these augmentations, we propose a new robustness measure, Robustness to Augmented Data (RAD), which measures the consistency of model predictions between original and augmented examples. Through extensive experimentation, we show that RAD, unlike classical accuracy measures, can quantify when state-of-the-art systems are not robust to counterfactuals. We find substantial failure cases which reveal that current VQA systems are still brittle. Finally, we connect between robustness and generalization, demonstrating the predictive power of RAD for performance on unseen augmentations.
翻訳日:2021-06-09 16:25:31 公開日:2021-06-08
# ベイズ意思決定のためのアクティブラーニング

Targeted Active Learning for Bayesian Decision-Making ( http://arxiv.org/abs/2106.04193v1 )

ライセンス: Link先を確認
Louis Filstroff, Iiris Sundin, Petrus Mikkola, Aleksei Tiulpin, Juuso Kylm\"aoja, Samuel Kaski(参考訳) アクティブラーニングは通常、教師あり学習における情報的データポイントのラベルを取得し、サンプル効率のよい方法で精度を最大化する。 しかし、例えばパーソナライズされた医療や経済学において、結果が意思決定に使用される場合、精度を最大化することは最終目標ではない。 サンプルを逐次取得する場合,学習と意思決定の分離が最適であり,ダウン・ザ・ライン決定問題を考慮した新しいアクティブ・ラーニング戦略を導入する。 具体的には,最適決定の後方分布に関する期待情報ゲインを最大化する新しいアクティブラーニング基準を提案する。 意思決定対応アクティブラーニング戦略をシミュレーションデータと実データの両方で既存の代替手法と比較し,意思決定精度の向上を示す。

Active learning is usually applied to acquire labels of informative data points in supervised learning, to maximize accuracy in a sample-efficient way. However, maximizing the accuracy is not the end goal when the results are used for decision-making, for example in personalized medicine or economics. We argue that when acquiring samples sequentially, separating learning and decision-making is sub-optimal, and we introduce a novel active learning strategy which takes the down-the-line decision problem into account. Specifically, we introduce a novel active learning criterion which maximizes the expected information gain on the posterior distribution of the optimal decision. We compare our decision-making-awar e active learning strategy to existing alternatives on both simulated and real data, and show improved performance in decision-making accuracy.
翻訳日:2021-06-09 16:25:15 公開日:2021-06-08
# ベイズ最適化のための強化最小ショット獲得関数学習

Reinforced Few-Shot Acquisition Function Learning for Bayesian Optimization ( http://arxiv.org/abs/2106.04335v1 )

ライセンス: Link先を確認
Bing-Jing Hsieh, Ping-Chun Hsieh, Xi Liu(参考訳) ベイズ最適化(BO)は伝統的に手作りの取得関数(AF)に頼ってサンプル点を逐次決定する。 しかし、実際には、後悔の点において最も優れたAFはブラックボックス関数の種類によって大きく異なることが広く観察されている。 多様なブラックボックス機能に対して最高の性能を達成できる1つのAFを設計することは依然として課題である。 本稿は,強化された少数ショットaf学習(fsaf)の観点から,この課題に挑戦することを目的とする。 具体的には、まず AF の概念と Q-函数を結びつけ、深い Q-ネットワーク(DQN)を代理微分可能な AF とみなす。 DQNと既存の数発の学習法を組み合わせる自然なアイデアとして機能するが、このような直接的な組み合わせは過度なオーバーフィッティングのためにうまく機能しない。 i) Kullback-Leibler 正規化フレームワークに基づく AF として Q-networks の分布を学習する。 これは本質的にBOのサンプリングに必要な不確実性を提供し、オーバーフィッティングを緩和する。 (II)ベイズDQNに先立って,市販のAFによって誘導されるデモポリシーをトレーニング安定性の向上に活用することを提案する。 (iii)メタレベルでは,提案するfsafの自然なコンパニオンとして機能するベイズモデル非依存型メタラーニングのメタロスを利用する。 さらに、Q-networks の適切な設計により、FSAF は入力領域の次元と濃度に依存しないという点で汎用的である。 広範な実験を通じて、FSAFは様々な合成および実世界のテスト機能に関する最先端のベンチマークよりも、同等またはより良い後悔を達成していることを示す。

Bayesian optimization (BO) conventionally relies on handcrafted acquisition functions (AFs) to sequentially determine the sample points. However, it has been widely observed in practice that the best-performing AF in terms of regret can vary significantly under different types of black-box functions. It has remained a challenge to design one AF that can attain the best performance over a wide variety of black-box functions. This paper aims to attack this challenge through the perspective of reinforced few-shot AF learning (FSAF). Specifically, we first connect the notion of AFs with Q-functions and view a deep Q-network (DQN) as a surrogate differentiable AF. While it serves as a natural idea to combine DQN and an existing few-shot learning method, we identify that such a direct combination does not perform well due to severe overfitting, which is particularly critical in BO due to the need of a versatile sampling policy. To address this, we present a Bayesian variant of DQN with the following three features: (i) It learns a distribution of Q-networks as AFs based on the Kullback-Leibler regularization framework. This inherently provides the uncertainty required in sampling for BO and mitigates overfitting. (ii) For the prior of the Bayesian DQN, we propose to use a demo policy induced by an off-the-shelf AF for better training stability. (iii) On the meta-level, we leverage the meta-loss of Bayesian model-agnostic meta-learning, which serves as a natural companion to the proposed FSAF. Moreover, with the proper design of the Q-networks, FSAF is general-purpose in that it is agnostic to the dimension and the cardinality of the input domain. Through extensive experiments, we demonstrate that the FSAF achieves comparable or better regrets than the state-of-the-art benchmarks on a wide variety of synthetic and real-world test functions.
翻訳日:2021-06-09 16:25:01 公開日:2021-06-08
# 深層強化学習のためのマルコフ状態抽象化の学習

Learning Markov State Abstractions for Deep Reinforcement Learning ( http://arxiv.org/abs/2106.04379v1 )

ライセンス: Link先を確認
Cameron Allen, Neev Parikh, Omer Gottesman, George Konidaris(参考訳) マルコフ決定過程(MDPs)における強化学習の基本的な前提は、関連する決定過程が実際にマルコフであるということである。 しかし、MDPが豊富な観測値を持つ場合、エージェントは通常抽象状態表現によって学習し、そのような表現はマルコフ特性を保存することが保証されない。 我々は,新しい条件セットを導入し,マルコフ抽象状態表現を学ぶのに十分であることを証明した。 次に,これらの条件をほぼ満足する抽象化を学ぶために,逆モデル推定と時間的対比学習を組み合わせた実践的な学習手順について述べる。 我々の新しい訓練目的はオンライントレーニングとオフライントレーニングの両方と互換性があり、報酬信号を必要としないが、エージェントは報酬情報を利用することができる。 我々は、visual gridworldドメインと一連の連続制御ベンチマークのアプローチを経験的に評価する。 我々の手法は、ドメインの基盤となる構造を捉える表現を学び、視覚的特徴を持つ最先端の深層強化学習よりもサンプル効率を向上させる。

The fundamental assumption of reinforcement learning in Markov decision processes (MDPs) is that the relevant decision process is, in fact, Markov. However, when MDPs have rich observations, agents typically learn by way of an abstract state representation, and such representations are not guaranteed to preserve the Markov property. We introduce a novel set of conditions and prove that they are sufficient for learning a Markov abstract state representation. We then describe a practical training procedure that combines inverse model estimation and temporal contrastive learning to learn an abstraction that approximately satisfies these conditions. Our novel training objective is compatible with both online and offline training: it does not require a reward signal, but agents can capitalize on reward information when available. We empirically evaluate our approach on a visual gridworld domain and a set of continuous control benchmarks. Our approach learns representations that capture the underlying structure of the domain and lead to improved sample efficiency over state-of-the-art deep reinforcement learning with visual features -- often matching or exceeding the performance achieved with hand-designed compact state information.
翻訳日:2021-06-09 16:24:34 公開日:2021-06-08
# Federated Hyperparameter Tuning - ウェイトシェアへのチャレンジ、ベースライン、接続

Federated Hyperparameter Tuning: Challenges, Baselines, and Connections to Weight-Sharing ( http://arxiv.org/abs/2106.04502v1 )

ライセンス: Link先を確認
Mikhail Khodak, Renbo Tu, Tian Li, Liam Li, Maria-Florina Balcan, Virginia Smith, Ameet Talwalkar(参考訳) ハイパーパラメータのチューニングは、マシンラーニングパイプラインの重要な部分ですが、難しい部分です。 ハイパーパラメータ最適化は、ヘテロジニアスデバイスの分散ネットワーク上でモデルが学習されるフェデレーション学習においてさらに難しい。ここでは、データをデバイスに保持し、ローカルトレーニングを実行する必要があるため、構成を効率的にトレーニングし、評価することが困難になる。 本研究では,フェデレーションハイパーパラメータチューニングの問題について検討する。 まず、主要な課題を特定し、標準アプローチがどのようにフェデレーション設定のベースラインを形成するかを示します。 次に,重み共有のニューラルネットワーク探索手法を新たに導入することにより,FedAvgなどの広く使われているフェデレーション最適化手法に適用可能な,フェデレーションハイパーパラメータチューニングを高速化する新しい手法であるFedExを導入する。 理論的には、FedEx変種はデバイス間のオンライン凸最適化の設定においてデバイス上での学習率を正しく調整する。 実験により,FedEx はシェークスピア,FEMNIST,CIFAR-10 ベンチマークにおいて,連合型ハイパーパラメータチューニングの自然なベースラインを数ポイント上回り,同じトレーニング予算を用いて高い精度が得られることを示した。

Tuning hyperparameters is a crucial but arduous part of the machine learning pipeline. Hyperparameter optimization is even more challenging in federated learning, where models are learned over a distributed network of heterogeneous devices; here, the need to keep data on device and perform local training makes it difficult to efficiently train and evaluate configurations. In this work, we investigate the problem of federated hyperparameter tuning. We first identify key challenges and show how standard approaches may be adapted to form baselines for the federated setting. Then, by making a novel connection to the neural architecture search technique of weight-sharing, we introduce a new method, FedEx, to accelerate federated hyperparameter tuning that is applicable to widely-used federated optimization methods such as FedAvg and recent variants. Theoretically, we show that a FedEx variant correctly tunes the on-device learning rate in the setting of online convex optimization across devices. Empirically, we show that FedEx can outperform natural baselines for federated hyperparameter tuning by several percentage points on the Shakespeare, FEMNIST, and CIFAR-10 benchmarks, obtaining higher accuracy using the same training budget.
翻訳日:2021-06-09 16:24:17 公開日:2021-06-08
# LEADS: 環境を一般化する動的システムを学ぶ

LEADS: Learning Dynamical Systems that Generalize Across Environments ( http://arxiv.org/abs/2106.04546v1 )

ライセンス: Link先を確認
Yuan Yin, Ibrahim Ayed, Emmanuel de B\'ezenac, Nicolas Baskiotis, Patrick Gallinari(参考訳) 実世界のデータサンプルから動的システムのモデリングを行う場合、データの分布はそれらがキャプチャされる環境に応じて変化し、システム自体のダイナミクスは環境によって異なる。 環境全体にわたる一般化は、従来のフレームワークに挑戦する。 古典的な設定は、データをi.i.dとして考えるか、どちらかを提案する。 すべての状況をカバーする単一のモデルや、環境固有のモデルを学習するのです。 前者は偏りのある解につながる環境間の相違を無視し、後者はそれらの潜在的な共通点を活用せず、希少な問題を生じさせる。 我々は,既知の環境間の共通性と不一致を利用してモデル一般化を改善するための新しいフレームワークであるleadsを提案する。 これは、共有モデル内の共通ダイナミクスをキャプチャし、追加用語で環境固有のダイナミクスをキャプチャすることを目的とした、調整されたトレーニング定式化によって達成される。 我々は,我々のアプローチを理論的に基礎づけ,サンプルの複雑さの減少を示し,これらの結果を実証的に相関させ,線形力学のためにインスタンス化する。 さらに,この枠組みをニューラルネットワークに適用し,非線形力学の代表的家系で実験的に評価する。 この新しい設定は,環境依存データから抽出した知識を活用でき,既知の環境と新しい環境の両方の一般化を改善できることを示す。

When modeling dynamical systems from real-world data samples, the distribution of data often changes according to the environment in which they are captured, and the dynamics of the system itself vary from one environment to another. Generalizing across environments thus challenges the conventional frameworks. The classical settings suggest either considering data as i.i.d. and learning a single model to cover all situations or learning environment-specific models. Both are sub-optimal: the former disregards the discrepancies between environments leading to biased solutions, while the latter does not exploit their potential commonalities and is prone to scarcity problems. We propose LEADS, a novel framework that leverages the commonalities and discrepancies among known environments to improve model generalization. This is achieved with a tailored training formulation aiming at capturing common dynamics within a shared model while additional terms capture environment-specific dynamics. We ground our approach in theory, exhibiting a decrease in sample complexity with our approach and corroborate these results empirically, instantiating it for linear dynamics. Moreover, we concretize this framework for neural networks and evaluate it experimentally on representative families of nonlinear dynamics. We show that this new setting can exploit knowledge extracted from environment-dependen t data and improves generalization for both known and novel environments.
翻訳日:2021-06-09 16:23:55 公開日:2021-06-08
# Graph-MLP: グラフでのメッセージパッシングのないノード分類

Graph-MLP: Node Classification without Message Passing in Graph ( http://arxiv.org/abs/2106.04051v1 )

ライセンス: Link先を確認
Yang Hu, Haoxuan You, Zhecan Wang, Zhicheng Wang, Erjin Zhou, Yue Gao(参考訳) グラフニューラルネットワーク(gnn)は、非ユークリッド構造データに対するその効果を実証している。 空間ベースとスペクトルベースの両方のGNNは、特徴集約中に隣人間のメッセージパッシングを誘導するために隣接行列に依存している。 最近の研究は主に強力なメッセージパッシングモジュールに焦点を当てているが、この記事では、メッセージパッシングモジュールは必要ないことを示す。 そこで我々は,識別ノード表現の学習に十分なグラフ構造を利用した,純粋な多層パーセプトロンベースのGraph-MLPを提案する。 モデルレベルでは、Graph-MLPは多層パーセプトロン、アクティベーション関数、レイヤー正規化のみを含む。 損失レベルでは、隣接したコントラスト(NContrast)損失を設計し、隣接情報を暗黙的に利用することで、GNNとMLPのギャップを埋める。 この設計により、大規模グラフデータや破損した隣接情報に直面すると、より軽量で堅牢になる。 広範な実験によって、テストフェーズに隣接情報がない場合でも、グラフノード分類タスクにおける最先端モデルと同等で優れたパフォーマンスに到達できることが証明された。

Graph Neural Network (GNN) has been demonstrated its effectiveness in dealing with non-Euclidean structural data. Both spatial-based and spectral-based GNNs are relying on adjacency matrix to guide message passing among neighbors during feature aggregation. Recent works have mainly focused on powerful message passing modules, however, in this paper, we show that none of the message passing modules is necessary. Instead, we propose a pure multilayer-perceptro n-based framework, Graph-MLP with the supervision signal leveraging graph structure, which is sufficient for learning discriminative node representation. In model-level, Graph-MLP only includes multi-layer perceptrons, activation function, and layer normalization. In the loss level, we design a neighboring contrastive (NContrast) loss to bridge the gap between GNNs and MLPs by utilizing the adjacency information implicitly. This design allows our model to be lighter and more robust when facing large-scale graph data and corrupted adjacency information. Extensive experiments prove that even without adjacency information in testing phase, our framework can still reach comparable and even superior performance against the state-of-the-art models in the graph node classification task.
翻訳日:2021-06-09 16:23:36 公開日:2021-06-08
# 視覚トランスフォーマの逆転写性向上について

On Improving Adversarial Transferability of Vision Transformers ( http://arxiv.org/abs/2106.04169v1 )

ライセンス: Link先を確認
Muzammal Naseer, Kanchana Ranasinghe, Salman Khan, Fahad Shahbaz Khan, Fatih Porikli(参考訳) vision transformers (vits) は入力画像を自己アテンションを通じてパッチのシーケンスとして処理する;畳み込みニューラルネットワーク (cnns) とは根本的に異なるアーキテクチャである。 これにより、ViTモデルの対角的特徴空間とその伝達可能性の研究が興味深い。 特に,従来の逆行攻撃による逆行パターンは,大規模なViTモデルにおいても非常に低いブラックボックス転送性を示す。 しかし,この現象は, ViTsの真の表現ポテンシャルを生かしていない準最適攻撃法に起因していることが示唆された。 ディープViTは複数のブロックで構成されており、各ブロックが独立してクラストークンを生成することができるセルフアテンション層とフィードフォワード層からなる一貫したアーキテクチャである。 最後のクラストークン(従来のアプローチ)のみを用いた攻撃の定式化は、以前のトークンに格納された識別情報を直接利用しないため、ViTの逆転性が低い。 本稿では,ViTモデルの構成特性を用いて,ViTモデルのアーキテクチャに特有の2つの新しい戦略を導入することにより,既存の攻撃の伝達可能性を高める。 (i)Self-Ensemble: 単一のViTモデルをネットワークのアンサンブルに分割することで、複数の識別経路を見つける方法を提案する。 これにより、各ViTブロックでクラス固有の情報を明示的に活用することができる。 (二)トークン精錬:ViTの各ブロックにおける識別能力をさらに強化するためにトークンを改良することを提案する。 我々のトークンリファインメントは、クラストークンとパッチトークン内に保持される構造情報とを体系的に結合します。 対向攻撃は、単一の視覚変換器で見られる分類器のアンサンブル内でそのような洗練されたトークンに適用した場合、転送可能性を大幅に向上させる。

Vision transformers (ViTs) process input images as sequences of patches via self-attention; a radically different architecture than convolutional neural networks (CNNs). This makes it interesting to study the adversarial feature space of ViT models and their transferability. In particular, we observe that adversarial patterns found via conventional adversarial attacks show very low black-box transferability even for large ViT models. However, we show that this phenomenon is only due to the sub-optimal attack procedures that do not leverage the true representation potential of ViTs. A deep ViT is composed of multiple blocks, with a consistent architecture comprising of self-attention and feed-forward layers, where each block is capable of independently producing a class token. Formulating an attack using only the last class token (conventional approach) does not directly leverage the discriminative information stored in the earlier tokens, leading to poor adversarial transferability of ViTs. Using the compositional nature of ViT models, we enhance the transferability of existing attacks by introducing two novel strategies specific to the architecture of ViT models. (i) Self-Ensemble: We propose a method to find multiple discriminative pathways by dissecting a single ViT model into an ensemble of networks. This allows explicitly utilizing class-specific information at each ViT block. (ii) Token Refinement: We then propose to refine the tokens to further enhance the discriminative capacity at each block of ViT. Our token refinement systematically combines the class tokens with structural information preserved within the patch tokens. An adversarial attack, when applied to such refined tokens within the ensemble of classifiers found in a single vision transformer, has significantly higher transferability.
翻訳日:2021-06-09 16:23:18 公開日:2021-06-08
# ほとんど)無料で配布データ(ほぼ)のロバストな検出

Provably Robust Detection of Out-of-distribution Data (almost) for free ( http://arxiv.org/abs/2106.04260v1 )

ライセンス: Link先を確認
Alexander Meinke, Julian Bitterwolf, Matthias Hein(参考訳) 安全クリティカルシステムに機械学習を適用する場合、分類器の不確かさの信頼性評価が必要となる。 しかし、ディープニューラルネットワークは、オフ・オブ・ディストリビューション(OOD)データに対する高過信な予測を生成することが知られており、OODデータに対して非信頼であるように訓練されたとしても、OODデータを逆向きに操作することで、クラスアイファーが再び操作されたサンプルに高い信頼を割り当てるようにすることができる。 本稿では,認証可能なOOD検出器を標準分類器と組み合わせてOOD認識分類器を提案する。 このようにして、我々は2つの世界のベストを達成している。OOD検出は、分布内に近いOODサンプルであっても、予測精度の損失がなく、非操作型OODデータに対する最先端のOOD検出性能に近い。 さらに、特定の構成のため、分類器は標準ニューラルネットワークの漸近的過信問題を確実に回避する。

When applying machine learning in safety-critical systems, a reliable assessment of the uncertainy of a classifier is required. However, deep neural networks are known to produce highly overconfident predictions on out-of-distribution (OOD) data and even if trained to be non-confident on OOD data one can still adversarially manipulate OOD data so that the classifer again assigns high confidence to the manipulated samples. In this paper we propose a novel method where from first principles we combine a certifiable OOD detector with a standard classifier into an OOD aware classifier. In this way we achieve the best of two worlds: certifiably adversarially robust OOD detection, even for OOD samples close to the in-distribution, without loss in prediction accuracy and close to state-of-the-art OOD detection performance for non-manipulated OOD data. Moreover, due to the particular construction our classifier provably avoids the asymptotic overconfidence problem of standard neural networks.
翻訳日:2021-06-09 16:22:53 公開日:2021-06-08
# ビジョントランスフォーマーのスケーリング

Scaling Vision Transformers ( http://arxiv.org/abs/2106.04560v1 )

ライセンス: Link先を確認
Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, Lucas Beyer(参考訳) 視覚トランスフォーマー(vit)のような注意に基づくニューラルネットワークは、最近多くのコンピュータビジョンベンチマークで最先端の結果を得た。 スケールは優れた結果を得るために重要な要素であるため、モデルのスケーリング特性を理解することが将来の世代を効果的に設計する鍵となる。 トランスフォーマー言語モデルのスケーリングに関する法則が研究されているが、Vision Transformerのスケール方法は不明である。 これに対処するために、vitモデルとデータをスケールアップおよびダウンし、エラーレート、データ、計算の間の関係を特徴付ける。 その過程で、vitのアーキテクチャとトレーニングを洗練し、メモリ消費を減らし、結果として得られるモデルの精度を高めます。 その結果、我々は20億のパラメータを持つvitモデルのトレーニングに成功し、imagenet上で90.45%のtop-1精度で新しい最先端を達成することができた。 このモデルは、例えばimagenet上で84.86%のtop-1精度を達成し、クラス毎に10の例しか得られないなど、数少ない学習でもうまく機能する。

Attention-based neural networks such as the Vision Transformer (ViT) have recently attained state-of-the-art results on many computer vision benchmarks. Scale is a primary ingredient in attaining excellent results, therefore, understanding a model's scaling properties is a key to designing future generations effectively. While the laws for scaling Transformer language models have been studied, it is unknown how Vision Transformers scale. To address this, we scale ViT models and data, both up and down, and characterize the relationships between error rate, data, and compute. Along the way, we refine the architecture and training of ViT, reducing memory consumption and increasing accuracy the resulting models. As a result, we successfully train a ViT model with two billion parameters, which attains a new state-of-the-art on ImageNet of 90.45% top-1 accuracy. The model also performs well on few-shot learning, for example, attaining 84.86% top-1 accuracy on ImageNet with only 10 examples per class.
翻訳日:2021-06-09 16:22:33 公開日:2021-06-08
# NWT:表現学習による自然なオーディオ・ビデオ生成を目指して

NWT: Towards natural audio-to-video generation with representation learning ( http://arxiv.org/abs/2106.04283v1 )

ライセンス: Link先を確認
Rayhane Mama, Marc S. Tyndel, Hashiam Kadhim, Cole Clifford, Ragavan Thurairatnam(参考訳) 本研究では,表現型音声-ビデオモデルであるNWTを紹介する。 ポーズキーポイントのようなドメイン固有の中間表現を使用するアプローチとは異なり、NWTは音声やビデオの内容について最小限の仮定で独自の潜在表現を学習する。 そこで本稿では, 対数損失を持つ新しい離散変分オートエンコーダ, dVAE-Advを提案する。 memcodeは実装が簡単で、追加の損失項を必要とせず、他のアプローチと比較してトレーニングが安定であり、解釈可能性の証拠を示す。 音声上での自己回帰エンコーダデコーダモデルを用いて,Memcode空間の予測を行う。 さらに、このモデルでは、データに注釈が付けられていない生成されたビデオの潜在属性を制御できる。 我々はジョン・オリバーと共にHBOの『Last Week Tonight』のクリップでNWTを訓練する。 NWTは、ビデオ全体の自然性、顔の自然性、表現性、リップシンク品質の試験において、平均オピニオンスコア(MOS)の他のアプローチよりも一貫して得点している。 この研究は、一般化されたオーディオ・ビデオ合成の強力な基盤となる。 サンプルはhttps://next-week-to night.github.io/NWT/ で入手できる。

In this work we introduce NWT, an expressive speech-to-video model. Unlike approaches that use domain-specific intermediate representations such as pose keypoints, NWT learns its own latent representations, with minimal assumptions about the audio and video content. To this end, we propose a novel discrete variational autoencoder with adversarial loss, dVAE-Adv, which learns a new discrete latent representation we call Memcodes. Memcodes are straightforward to implement, require no additional loss terms, are stable to train compared with other approaches, and show evidence of interpretability. To predict on the Memcode space, we use an autoregressive encoder-decoder model conditioned on audio. Additionally, our model can control latent attributes in the generated video that are not annotated in the data. We train NWT on clips from HBO's Last Week Tonight with John Oliver. NWT consistently scores above other approaches in Mean Opinion Score (MOS) on tests of overall video naturalness, facial naturalness and expressiveness, and lipsync quality. This work sets a strong baseline for generalized audio-to-video synthesis. Samples are available at https://next-week-to night.github.io/NWT/ .
翻訳日:2021-06-09 16:22:17 公開日:2021-06-08
# 内部ゲーティングによるオブジェクトベース注意

Object Based Attention Through Internal Gating ( http://arxiv.org/abs/2106.04540v1 )

ライセンス: Link先を確認
Jordan Lei, Ari S. Benjamin, Konrad P. Kording(参考訳) オブジェクトベースの注意は視覚システムの重要な要素であり、知覚、学習、記憶に関係している。 観察対象の特徴に合わせて調整されたニューロンは、非接触対象と関連するニューロンよりも活動的である傾向がある。 この現象の豊富なモデルが計算神経科学において存在する。 しかし、現在、生理学的データに適合するが、非常に単純な問題やコンピュータビジョンで使われる注意のモデルにしか対処できないモデルの間には、隔たりがある。 例えば、脳内の注意はトップダウン処理に依存することが知られているが、ディープラーニングにおける自己注意はそうではない。 本稿では,注意がトップダウンとリカレントの両方であることを示す,オブジェクトベースの注意の人工ニューラルネットワークモデルを提案する。 我々の注意モデルは、手書き数字の画像のような単純なテスト刺激と、COCOデータセットから引き出された自然な画像のようなより複雑な刺激の両方でうまく機能する。 本モデルは,注意不変のチューニング,戻りの抑制,注意を媒介とした活動のスケーリングなど,神経科学から得られた知見を再現する。 対象に基づく注意を理解することは、計算的に興味深いことと、計算神経科学の重要な問題である。

Object-based attention is a key component of the visual system, relevant for perception, learning, and memory. Neurons tuned to features of attended objects tend to be more active than those associated with non-attended objects. There is a rich set of models of this phenomenon in computational neuroscience. However, there is currently a divide between models that successfully match physiological data but can only deal with extremely simple problems and models of attention used in computer vision. For example, attention in the brain is known to depend on top-down processing, whereas self-attention in deep learning does not. Here, we propose an artificial neural network model of object-based attention that captures the way in which attention is both top-down and recurrent. Our attention model works well both on simple test stimuli, such as those using images of handwritten digits, and on more complex stimuli, such as natural images drawn from the COCO dataset. We find that our model replicates a range of findings from neuroscience, including attention-invariant tuning, inhibition of return, and attention-mediated scaling of activity. Understanding object based attention is both computationally interesting and a key problem for computational neuroscience.
翻訳日:2021-06-09 16:21:58 公開日:2021-06-08
# 機能学習と意思決定の分離による解釈可能で低リソースなエンティティマッチング

Interpretable and Low-Resource Entity Matching via Decoupling Feature Learning from Decision Making ( http://arxiv.org/abs/2106.04174v1 )

ライセンス: Link先を確認
Zijun Yao, Chengjiang Li, Tiansi Dong, Xin Lv, Jifan Yu, Lei Hou, Juanzi Li, Yichi Zhang, Zelin Dai(参考訳) エンティティマッチング(EM)は、同じ現実世界のオブジェクトを表すエンティティレコードを認識することを目的としている。 ニューラルEMモデルは、エンティティ記述のベクトル表現を学び、エンティティをエンドツーエンドにマッチングする。 堅牢ではあるが、これらの手法はトレーニングに多くのリソースを必要とする。 本稿では,不均質情報融合(hif)とキー属性木(kat)の誘導により特徴表現をマッチング決定から切り離す新しいemフレームワークを提案する。 HIFは,事前学習言語モデリングにおける自己教師付き学習とマスク機構を用いて,非ラベル付きデータによる属性値の埋め込み学習を行う。 一連の比較特徴と限られた量の注釈データを用いて、kat誘導はドメインエキスパートによって提唱される構造を持つエンティティマッチングルールを生成して解釈できる効率的な決定木を学習する。 6つの公開データセットと3つの産業データセットの実験により、我々の手法は極めて効率的であり、ほとんどの場合、SOTA EMモデルより優れていることが示された。 コードとデータセットはhttps://github.com/T HU-KEG/HIF-KATから取得できます。

Entity Matching (EM) aims at recognizing entity records that denote the same real-world object. Neural EM models learn vector representation of entity descriptions and match entities end-to-end. Though robust, these methods require many resources for training, and lack of interpretability. In this paper, we propose a novel EM framework that consists of Heterogeneous Information Fusion (HIF) and Key Attribute Tree (KAT) Induction to decouple feature representation from matching decision. Using self-supervised learning and mask mechanism in pre-trained language modeling, HIF learns the embeddings of noisy attribute values by inter-attribute attention with unlabeled data. Using a set of comparison features and a limited amount of annotated data, KAT Induction learns an efficient decision tree that can be interpreted by generating entity matching rules whose structure is advocated by domain experts. Experiments on 6 public datasets and 3 industrial datasets show that our method is highly efficient and outperforms SOTA EM models in most cases. Our codes and datasets can be obtained from https://github.com/T HU-KEG/HIF-KAT.
翻訳日:2021-06-09 16:21:08 公開日:2021-06-08
# 2021年における依存パーサーの控えめなパレート最適化分析

A Modest Pareto Optimisation Analysis of Dependency Parsers in 2021 ( http://arxiv.org/abs/2106.04216v1 )

ライセンス: Link先を確認
Mar Anderson and Carlos G\'omez Rodr\'iguez(参考訳) 我々は、異なるパラダイムの3つの主要な依存関係パーサシステムを、その精度と効率の面で、小さく多様な言語のサブセットで評価する。 効率性に関心があるので、事前訓練された言語モデル(通常は巨大なネットワークであり、ほとんどの計算時間を構成する)や、それらのいずれかにトランスバース的に適用可能な拡張を伴わないコアパーサを評価します。 バイアフィン解析はバランスの取れたデフォルト選択として現れ、推論速度(ただしエネルギーコストをトレーニングしない)が優先される場合にシーケンスラベリング解析が望ましい。

We evaluate three leading dependency parser systems from different paradigms on a small yet diverse subset of languages in terms of their accuracy-efficiency Pareto front. As we are interested in efficiency, we evaluate core parsers without pretrained language models (as these are typically huge networks and would constitute most of the compute time) or other augmentations that can be transversally applied to any of them. Biaffine parsing emerges as a well-balanced default choice, with sequence-labelling parsing being preferable if inference speed (but not training energy cost) is the priority.
翻訳日:2021-06-09 16:20:52 公開日:2021-06-08
# 翻訳して、パース! 言語交叉型amr解析のための強いベースライン

Translate, then Parse! A strong baseline for Cross-Lingual AMR Parsing ( http://arxiv.org/abs/2106.04565v1 )

ライセンス: Link先を確認
Sarah Uhrig, Yoalli Rezepka Garcia, Juri Opitz, Anette Frank(参考訳) 言語間の抽象的意味表現(AMR)解析において、研究者は、様々な言語からの文をAMRに投影し、それらの重要な意味構造を捉えるモデルを開発した。 メソッドは通常、大きな銀のトレーニングデータを利用して、非英語の文をAMRに投影できる単一のモデルを学ぶ。 しかし、単純なベースラインは見過ごされがちであり、文を英語に翻訳し、一言語性amrパーサ(translate+parse,t+p)でamrを投影する。 本稿では,この単純な2ステップベースラインを再検討し,強力なNMTシステムと強力なAMRパーサで拡張する。 実験の結果,T+Pは,ドイツ語,イタリア語,スペイン語,マンダリンを+14.6,+12.6,+14.3,+16.0のスマッチ点で比較した。

In cross-lingual Abstract Meaning Representation (AMR) parsing, researchers develop models that project sentences from various languages onto their AMRs to capture their essential semantic structures: given a sentence in any language, we aim to capture its core semantic content through concepts connected by manifold types of semantic relations. Methods typically leverage large silver training data to learn a single model that is able to project non-English sentences to AMRs. However, we find that a simple baseline tends to be over-looked: translating the sentences to English and projecting their AMR with a monolingual AMR parser (translate+parse,T+P). In this paper, we revisit this simple two-step base-line, and enhance it with a strong NMT system and a strong AMR parser. Our experiments show that T+P outperforms a recent state-of-the-art system across all tested languages: German, Italian, Spanish and Mandarin with +14.6, +12.6, +14.3 and +16.0 Smatch points.
翻訳日:2021-06-09 16:20:42 公開日:2021-06-08
# 蒸留による学習:光フロー推定のための自己教師あり学習フレームワーク

Learning by Distillation: A Self-Supervised Learning Framework for Optical Flow Estimation ( http://arxiv.org/abs/2106.04195v1 )

ライセンス: Link先を確認
Pengpeng Liu and Michael R. Lyu and Irwin King and Jia Xu(参考訳) 光の流れを学習するための知識蒸留手法であるDistillFlowを提案する。 DistillFlowは、複数の教師モデルと学生モデルを訓練し、学生モデルの入力に挑戦的な変換を適用して、幻覚的オクルージョンを生成し、自信の薄い予測を生成する。 教師モデルからの自信のある予測は、自信の低い予測のために、生徒モデルに光の流れを学ぶための注釈として提供されます。 自己教師付き学習フレームワークは,非禁止画素だけでなく,非禁止画素に対しても,ラベル付きデータから光フローを効果的に学習することを可能にする。 DistillFlowは、KITTIとSintelのデータセット上で、最先端の教師なし学習パフォーマンスを実現する。 我々の自己教師付き事前学習モデルもまた、教師付き微調整に優れた初期化を提供し、合成データによる事前訓練に大きく依存する現在の教師付き学習手法とは対照的に、代替の訓練パラダイムを提案する。 この記事執筆時点では,kitti 2015ベンチマークのモノキュラメソッドの中で,当社の微調整モデルが1位にランクインし,sintelファイナルベンチマークで公開されたすべてのメソッドを上回っています。 さらに、フレームワークの一般化、対応の一般化、データセット間の一般化の3つの側面において、DistillFlowの一般化能力を示す。

We present DistillFlow, a knowledge distillation approach to learning optical flow. DistillFlow trains multiple teacher models and a student model, where challenging transformations are applied to the input of the student model to generate hallucinated occlusions as well as less confident predictions. Then, a self-supervised learning framework is constructed: confident predictions from teacher models are served as annotations to guide the student model to learn optical flow for those less confident predictions. The self-supervised learning framework enables us to effectively learn optical flow from unlabeled data, not only for non-occluded pixels, but also for occluded pixels. DistillFlow achieves state-of-the-art unsupervised learning performance on both KITTI and Sintel datasets. Our self-supervised pre-trained model also provides an excellent initialization for supervised fine-tuning, suggesting an alternate training paradigm in contrast to current supervised learning methods that highly rely on pre-training on synthetic data. At the time of writing, our fine-tuned models ranked 1st among all monocular methods on the KITTI 2015 benchmark, and outperform all published methods on the Sintel Final benchmark. More importantly, we demonstrate the generalization capability of DistillFlow in three aspects: framework generalization, correspondence generalization and cross-dataset generalization.
翻訳日:2021-06-09 16:20:23 公開日:2021-06-08
# sdgmnet:局所ディスクリプタ学習のための統計に基づく動的勾配変調

SDGMNet: Statistic-based Dynamic Gradient Modulation for Local Descriptor Learning ( http://arxiv.org/abs/2106.04434v1 )

ライセンス: Link先を確認
Jiayi Ma and Yuxin Deng(参考訳) 特殊ペアのバックプロパゲーション勾配をリスケールする三重項損失の修正は、局所ディスクリプタ学習において大きな進歩を遂げている。 しかし、現在の勾配変調戦略は主に静的であるため、トレーニングフェーズやデータセットの変更に悩まされる。 本稿では,局所記述子学習における三重項損失を改善するためにSDGMNetという動的勾配変調を提案する。 本手法のコアは,動的に推定される統計特性を持つ変調関数の定式化である。 まず,一般トリプレットベース損失の後方伝播に関する深い解析を行い,距離測定のための包含角度を導入する。 この基礎から、確率的勾配勾配勾配最適化における統計的に稀な個々の対の影響を緩和するためにオートフォーカス変調を用いており、確率的マージンは最適に到達すると考えられるシームズ対の勾配を減らし、パワー調整は負の対と正の対の総重量を均衡させる。 広範な実験により,新しいディスクリプタは,パッチ検証やマッチング,検索タスクなど,標準ベンチマークの以前の状態を超えることを実証した。

Modifications on triplet loss that rescale the back-propagated gradients of special pairs have made significant progress on local descriptor learning. However, current gradient modulation strategies are mainly static so that they would suffer from changes of training phases or datasets. In this paper, we propose a dynamic gradient modulation, named SDGMNet, to improve triplet loss for local descriptor learning. The core of our method is formulating modulation functions with statistical characteristics which are estimated dynamically. Firstly, we perform deep analysis on back propagation of general triplet-based loss and introduce included angle for distance measure. On this basis, auto-focus modulation is employed to moderate the impact of statistically uncommon individual pairs in stochastic gradient descent optimization; probabilistic margin cuts off the gradients of proportional Siamese pairs that are believed to reach the optimum; power adjustment balances the total weights of negative pairs and positive pairs. Extensive experiments demonstrate that our novel descriptor surpasses previous state-of-the-arts on standard benchmarks including patch verification, matching and retrieval tasks.
翻訳日:2021-06-09 16:20:01 公開日:2021-06-08
# 視覚トランスフォーマーにおけるスパーシティの追求:エンドツーエンド探索

Chasing Sparsity in Vision Transformers:An End-to-End Exploration ( http://arxiv.org/abs/2106.04533v1 )

ライセンス: Link先を確認
Tianlong Chen, Yu Cheng, Zhe Gan, Lu Yuan, Lei Zhang, Zhangyang Wang(参考訳) ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。 通常の訓練後の刈り取りは、しばしば高い訓練予算を伴います。 対照的に,本稿では,学習メモリのオーバヘッドと推論複雑性の両方を,実現可能な精度を損なうことなく削減することを目的としている。 われわれは、ViTsに「端から端まで」スパーシリティを統合する統一的なアプローチを採り入れた、先駆的な包括的探査をローンチし報告する。 具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算を維持しながら、スパースサブネットワークを動的に抽出し、訓練する。 提案手法はモデルパラメータを協調的に最適化し,トレーニングを通じて接続性を探究し,最終的に1つの疎ネットワークを最終的な出力とする。 このアプローチは、非構造化から構造化されたスパース性へとシームレスに拡張され、後者は、vits内の自己愛の頭を導くことを検討する。 さらなる効率向上のために、我々は新しい学習可能なトークンセレクタを差し込み、現在最も重要なパッチを適応的に決定することで、データとアーキテクチャの疎結合をさらに発見する。 様々なViTバックボーンを用いたImageNetにおける提案の有効性を検証する。 例えば、40%の構造化スパルシリティでは、分散したdeitベースが33.13%と24.70%の節約で0.42%の精度向上を達成できます。 おそらく最も驚くべきことに、提案されたスパース(コ-)トレーニングは、それを妥協するよりも、ViTの精度を向上し、スパースを「無料ランチ」にすることができる。 例えば、sparsified deit-smallは5%、50%のスパーシティ(データ、アーキテクチャ)で、0.28%のtop-1精度を改善し、49.32%のフロップと4.40%の実行時間の節約を実現しています。

Vision transformers (ViTs) have recently received explosive popularity, but their enormous model sizes and training costs remain daunting. Conventional post-training pruning often incurs higher training budgets. In contrast, this paper aims to trim down both the training memory overhead and the inference complexity, without scarifying the achievable accuracy. We launch and report the first-of-its-kind comprehensive exploration, on taking a unified approach of integrating sparsity in ViTs "from end to end". Specifically, instead of training full ViTs, we dynamically extract and train sparse subnetworks, while sticking to a fixed small parameter budget. Our approach jointly optimizes model parameters and explores connectivity throughout training, ending up with one sparse network as the final output. The approach is seamlessly extended from unstructured to structured sparsity, the latter by considering to guide the prune-and-grow of self-attention heads inside ViTs. For additional efficiency gains, we further co-explore data and architecture sparsity, by plugging in a novel learnable token selector to adaptively determine the currently most vital patches. Extensive results validate the effectiveness of our proposals on ImageNet with diverse ViT backbones. For instance, at 40% structured sparsity, our sparsified DeiT-Base can achieve 0.42% accuracy gain, at 33.13% and 24.70% running time} savings, compared to its dense counterpart. Perhaps most surprisingly, we find that the proposed sparse (co-)training can even improve the ViT accuracy rather than compromising it, making sparsity a tantalizing "free lunch". For example, our sparsified DeiT-Small at 5%, 50% sparsity for (data, architecture), improves 0.28% top-1 accuracy and meanwhile enjoys 49.32% FLOPs and 4.40% running time savings.
翻訳日:2021-06-09 16:19:43 公開日:2021-06-08
# シーケンスの繰り返し処理に対する階段の注意

Staircase Attention for Recurrent Processing of Sequences ( http://arxiv.org/abs/2106.04279v1 )

ライセンス: Link先を確認
Da Ju, Stephen Roller, Sainbayar Sukhbaatar, Jason Weston(参考訳) 特にTransformerアーキテクチャのように、入力シーケンス全体にわたって自己アテンション層を積み重ねることで、アテンションメカニズムがシーケンスモデリングタスクの標準ツールになっている。 本研究では,ステップアテンション(階段アテンション)と呼ばれる新しいアテンション手順を導入する。これは,自己アテンションとは違って,他のステップを追加して入力を(時間内に)繰り返し処理する。 階段のステップは、後方のトークン(これまで見たシーケンスをエンコードする)と前方のトークン(シーケンスの新たな部分を引用する)と、はしごの各ステップでトランスフォーマーを単純に繰り返すゼロの前方のステップを持つ極端なラダーバージョンで構成され、重みを共有している。 そこで本研究では,時間経過による逐次処理量の増加,深度による逐次処理量の増加,あるいはその両方によって,性能と計算をトレードオフできるモデル群について述べる。 階段の注意は、この再発のため、従来のトランスフォーマーができないことを追跡するタスクを解決できることが示されている。 さらに,同一サイズのモデル(パラメータ数)に対して,大規模言語モデリングや対話タスクにおける自己対応トランスフォーマと比較して,モデリング能力が向上し,かなりのパープレキシティ向上が期待できることを示した。

Attention mechanisms have become a standard tool for sequence modeling tasks, in particular by stacking self-attention layers over the entire input sequence as in the Transformer architecture. In this work we introduce a novel attention procedure called staircase attention that, unlike self-attention, operates across the sequence (in time) recurrently processing the input by adding another step of processing. A step in the staircase comprises of backward tokens (encoding the sequence so far seen) and forward tokens (ingesting a new part of the sequence), or an extreme Ladder version with a forward step of zero that simply repeats the Transformer on each step of the ladder, sharing the weights. We thus describe a family of such models that can trade off performance and compute, by either increasing the amount of recurrence through time, the amount of sequential processing via recurrence in depth, or both. Staircase attention is shown to be able to solve tasks that involve tracking that conventional Transformers cannot, due to this recurrence. Further, it is shown to provide improved modeling power for the same size model (number of parameters) compared to self-attentive Transformers on large language modeling and dialogue tasks, yielding significant perplexity gains.
翻訳日:2021-06-09 16:18:40 公開日:2021-06-08
# 大規模スパースモデルのためのハッシュ層

Hash Layers For Large Sparse Models ( http://arxiv.org/abs/2106.04426v1 )

ライセンス: Link先を確認
Stephen Roller, Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston(参考訳) 本研究では,大容量トランスフォーマーモデルにおけるハッシュに基づく異なる入力パラメータを用いたスパース層のトレーニングについて検討する。 具体的には、feedforwardレイヤを、シーケンス内のすべてのトークンに対して、現在のトークンに応じて異なる重み付けセットにハッシュするように修正します。 本手法は,スイッチトランスフォーマーやベースレイヤなどの学習・ルート混合方式に匹敵するか,あるいは,ロードバランシング損失などの目的関数のルーティングパラメータや追加項を必要とせず,高度な代入アルゴリズムも必要としないことを示す。 異なるハッシュ技術,ハッシュサイズ,入力機能の性能を調査し,最も局所的な特徴に注目したバランスとランダムなハッシュが,学習クラスタやより長距離コンテキストのどちらよりも優れていることを示す。 提案手法は,大規模言語モデリングと対話タスク,下流の微調整タスクの両方で有効であることを示す。

We investigate the training of sparse layers that use different parameters for different inputs based on hashing in large Transformer models. Specifically, we modify the feedforward layer to hash to different sets of weights depending on the current token, over all tokens in the sequence. We show that this procedure either outperforms or is competitive with learning-to-route mixture-of-expert methods such as Switch Transformers and BASE Layers, while requiring no routing parameters or extra terms in the objective function such as a load balancing loss, and no sophisticated assignment algorithm. We study the performance of different hashing techniques, hash sizes and input features, and show that balanced and random hashes focused on the most local features work best, compared to either learning clusters or using longer-range context. We show our approach works well both on large language modeling and dialogue tasks, and on downstream fine-tuning tasks.
翻訳日:2021-06-09 16:18:17 公開日:2021-06-08
# NARXモデルに基づくハイブリッド手法とパターン認識のための機械学習

Hybrid Method Based on NARX models and Machine Learning for Pattern Recognition ( http://arxiv.org/abs/2106.04021v1 )

ライセンス: Link先を確認
P. H. O. Silva, A. S. Cerqueira, E. G. Nepomuceno(参考訳) 本稿では,機械学習とシステム同定の方法論を統合し,多クラス問題を解く新しい手法を提案する。 このようなアプローチにより、次元性が低下する代表的特徴の集合を抽出・選択し、カテゴリのアウトプットを予測できる。 本手法の効率は,機械学習のケーススタディにより検証され,古典的分類アルゴリズムと比較して絶対的な結果が得られた。

This work presents a novel technique that integrates the methodologies of machine learning and system identification to solve multiclass problems. Such an approach allows to extract and select sets of representative features with reduced dimensionality, as well as predicts categorical outputs. The efficiency of the method was tested by running case studies investigated in machine learning, obtaining better absolute results when compared with classical classification algorithms.
翻訳日:2021-06-09 16:17:20 公開日:2021-06-08
# 木探索構成のサンプル複雑性:切削面とその周辺

Sample Complexity of Tree Search Configuration: Cutting Planes and Beyond ( http://arxiv.org/abs/2106.04033v1 )

ライセンス: Link先を確認
Maria-Florina Balcan, Siddharth Prasad, Tuomas Sandholm, Ellen Vitercik(参考訳) 切断平面法は、過去数十年間、整数計画において顕著な成功をもたらしてきた。 最先端の解法は、多くの切断平面技術を統合し、最適解を見つけるために使用される木探索アルゴリズムを高速化する。 本稿では,手元のインスタンス分布に合わせた高パフォーマンスなカット選択ポリシーを学習するための最初の保証を,サンプルを用いて証明する。 まず, chv\'atal-gomory 切断の正準族から切削面を学習するサンプルの複雑さを限定した。 我々の境界は、任意の数のカットの任意の数の波動を扱い、制約係数の大きさに微調整される。 次に、より洗練されたカット選択ポリシーのためのサンプル複雑性境界を証明し、スコアリングルールを組み合わせてカットのファミリーから選択する。 最後に、整数計画のための切断平面の領域を超えて、ノード選択や変数選択といったキーコンポーネントをキャプチャする木探索の一般的な抽象化を開発する。 この抽象化のために、探索木を構築するための良いポリシーを学ぶためのサンプルの複雑さを束縛する。

Cutting-plane methods have enabled remarkable successes in integer programming over the last few decades. State-of-the-art solvers integrate a myriad of cutting-plane techniques to speed up the underlying tree-search algorithm used to find optimal solutions. In this paper we prove the first guarantees for learning high-performing cut-selection policies tailored to the instance distribution at hand using samples. We first bound the sample complexity of learning cutting planes from the canonical family of Chv\'atal-Gomory cuts. Our bounds handle any number of waves of any number of cuts and are fine tuned to the magnitudes of the constraint coefficients. Next, we prove sample complexity bounds for more sophisticated cut selection policies that use a combination of scoring rules to choose from a family of cuts. Finally, beyond the realm of cutting planes for integer programming, we develop a general abstraction of tree search that captures key components such as node selection and variable selection. For this abstraction, we bound the sample complexity of learning a good policy for building the search tree.
翻訳日:2021-06-09 16:17:13 公開日:2021-06-08
# カリキュラム学習の粗さ

Coarse-to-Fine Curriculum Learning ( http://arxiv.org/abs/2106.04072v1 )

ライセンス: Link先を確認
Otilia Stretcu, Emmanouil Antonios Platanios, Tom M. Mitchell, Barnab\'as P\'oczos(参考訳) 挑戦的な新しいタスクを学習する際、人間はしばしば、新しいタスクを実行するために必要なスキルを段階的に積み上げるための一連のステップに従う。 しかし,機械学習では,対象タスクを直接解くためにモデルが最もよく訓練される。人間学習に触発されて,課題課題をより簡単な中間目標に分解し,対象タスクに取り組む前にモデルを事前学習する新しいカリキュラム学習手法を提案する。 我々は分類タスクに注目し,自動構築されたラベル階層を用いて中間タスクを設計する。 粗いラベルから細かいラベルまで、階層の各レベルでモデルをトレーニングし、これらのレベルにわたって獲得した知識を転送します。 例えば、このモデルはまず動物と物体を区別することを学び、その後、猫、犬、車、トラックといったよりきめ細かいクラスを分類する際に、この獲得した知識を使用する。 教師付き学習のための既存のカリキュラム学習アルゴリズムのほとんどは、トレーニング例がモデルに提示される順序をスケジューリングすることである。 対照的に、我々のアプローチはモデルの出力空間に焦点を当てている。 本手法は,いくつかの既定データセットで評価し,多くのラベルの分類問題において有意な性能向上を示した。 また,本手法の複数の側面を研究できる新しい合成データセットについても検討した。

When faced with learning challenging new tasks, humans often follow sequences of steps that allow them to incrementally build up the necessary skills for performing these new tasks. However, in machine learning, models are most often trained to solve the target tasks directly.Inspired by human learning, we propose a novel curriculum learning approach which decomposes challenging tasks into sequences of easier intermediate goals that are used to pre-train a model before tackling the target task. We focus on classification tasks, and design the intermediate tasks using an automatically constructed label hierarchy. We train the model at each level of the hierarchy, from coarse labels to fine labels, transferring acquired knowledge across these levels. For instance, the model will first learn to distinguish animals from objects, and then use this acquired knowledge when learning to classify among more fine-grained classes such as cat, dog, car, and truck. Most existing curriculum learning algorithms for supervised learning consist of scheduling the order in which the training examples are presented to the model. In contrast, our approach focuses on the output space of the model. We evaluate our method on several established datasets and show significant performance gains especially on classification problems with many labels. We also evaluate on a new synthetic dataset which allows us to study multiple aspects of our method.
翻訳日:2021-06-09 16:16:57 公開日:2021-06-08
# RECOWNs:信頼できる時系列予測のための確率的回路

RECOWNs: Probabilistic Circuits for Trustworthy Time Series Forecasting ( http://arxiv.org/abs/2106.04148v1 )

ライセンス: Link先を確認
Nils Thoma, Zhongjie Yu, Fabrizio Ventola, Kristian Kersting(参考訳) 時系列予測は、製品販売分析やエネルギー需要予測など、いくつかの現実シナリオで実施される関連するタスクである。 現在、その正確性を考えると、リカレントニューラルネットワーク(RNN)がこのタスクに最適なモデルである。 時系列予測の成功にもかかわらず、RNNを信頼できるものにするために注意が払われていない。 例えば、RNNは自然に予測に不確実性を提供することはできない。 これは実際にいくつかのケースで非常に有用である。 時系列に異常なパターンがあるため、予測が完全に間違っている場合を検出する。 WSPN(Whittle Sum-Product Networks, WSPN)は、時系列の深絞り可能な確率回路(PC)であり、不確実性対策として有意義な確率を提供するRNNを支援する。 本稿では,RNNを用いた新しいアーキテクチャであるRECOWNと,条件付きWSPN(Conditional WSPNs)と呼ばれるWSPNの識別版を提案する。 また,時系列やホイットル確率に合わせた不確実性の推定法として,log-likelihood ratioスコアを定式化した。 実験では,RECOWNは正確で信頼性の高い時系列予測器であり,「知らないときを知る」ことができることを示した。

Time series forecasting is a relevant task that is performed in several real-world scenarios such as product sales analysis and prediction of energy demand. Given their accuracy performance, currently, Recurrent Neural Networks (RNNs) are the models of choice for this task. Despite their success in time series forecasting, less attention has been paid to make the RNNs trustworthy. For example, RNNs can not naturally provide an uncertainty measure to their predictions. This could be extremely useful in practice in several cases e.g. to detect when a prediction might be completely wrong due to an unusual pattern in the time series. Whittle Sum-Product Networks (WSPNs), prominent deep tractable probabilistic circuits (PCs) for time series, can assist an RNN with providing meaningful probabilities as uncertainty measure. With this aim, we propose RECOWN, a novel architecture that employs RNNs and a discriminant variant of WSPNs called Conditional WSPNs (CWSPNs). We also formulate a Log-Likelihood Ratio Score as better estimation of uncertainty that is tailored to time series and Whittle likelihoods. In our experiments, we show that RECOWNs are accurate and trustworthy time series predictors, able to "know when they do not know".
翻訳日:2021-06-09 16:16:38 公開日:2021-06-08
# 深部強化学習のためのダイナミックスパーストレーニング

Dynamic Sparse Training for Deep Reinforcement Learning ( http://arxiv.org/abs/2106.04217v1 )

ライセンス: Link先を確認
Ghada Sokar, Elena Mocanu, Decebal Constantin Mocanu, Mykola Pechenizkiy, Peter Stone(参考訳) 深い強化学習は様々な分野で多くの意思決定タスクで大きな成功を収めてきた。 しかし、優れた性能を得るためには、高密度ニューラルネットワークのトレーニング時間が大きい。 これにより、メモリと計算が厳格に制限された低リソースデバイスへの適用が妨げられる。 本研究では,低リソースデバイスに深層強化学習エージェントを適用可能にするためのステップとして,疎ニューラルネットワークを用いた深層強化学習エージェントをスクラッチから動的にトレーニングすることを提案する。 我々は,強化学習パラダイムにおける動的スパーストレーニングの進化原理を取り入れ,スパーストポロジーと重み値を同時に最適化し,入力データに動的に適合するトレーニングアルゴリズムを導入する。 我々のアプローチは、既存の深層強化学習アルゴリズムに容易に統合でき、多くの利点があります。 まず、ネットワークサイズの大幅な圧縮を可能にし、メモリと計算コストを大幅に削減します。 これにより、エージェント推論だけでなく、トレーニングプロセスも加速される。 第二に、エージェント学習プロセスを高速化し、必要なトレーニングステップの数を減らすことができる。 第三に、密度の高いネットワークのトレーニングよりも高いパフォーマンスを達成することができる。 OpenAI体育連続制御タスクに対する我々のアプローチを評価する。 実験の結果,ネットワークサイズと浮動小数点演算(FLOP)を50%削減した最先端のベースラインよりも高い性能を実現するためのアプローチの有効性が示された。 さらに,提案手法は,40~50\%のトレーニングステップを削減し,密集ネットワークによって達成されたのと同じ性能に到達できる。

Deep reinforcement learning has achieved significant success in many decision-making tasks in various fields. However, it requires a large training time of dense neural networks to obtain a good performance. This hinders its applicability on low-resource devices where memory and computation are strictly constrained. In a step towards enabling deep reinforcement learning agents to be applied to low-resource devices, in this work, we propose for the first time to dynamically train deep reinforcement learning agents with sparse neural networks from scratch. We adopt the evolution principles of dynamic sparse training in the reinforcement learning paradigm and introduce a training algorithm that optimizes the sparse topology and the weight values jointly to dynamically fit the incoming data. Our approach is easy to be integrated into existing deep reinforcement learning algorithms and has many favorable advantages. First, it allows for significant compression of the network size which reduces the memory and computation costs substantially. This would accelerate not only the agent inference but also its training process. Second, it speeds up the agent learning process and allows for reducing the number of required training steps. Third, it can achieve higher performance than training the dense counterpart network. We evaluate our approach on OpenAI gym continuous control tasks. The experimental results show the effectiveness of our approach in achieving higher performance than one of the state-of-art baselines with a 50\% reduction in the network size and floating-point operations (FLOPs). Moreover, our proposed approach can reach the same performance achieved by the dense network with a 40-50\% reduction in the number of training steps.
翻訳日:2021-06-09 16:16:20 公開日:2021-06-08
# 自動運転車にコマンドを与える:不確かな状況に対処するには?

Giving Commands to a Self-Driving Car: How to Deal with Uncertain Situations? ( http://arxiv.org/abs/2106.04232v1 )

ライセンス: Link先を確認
Thierry Deruyttere, Victor Milewski, Marie-Francine Moens(参考訳) 自動運転車の現在の技術は主にA地点からB地点まで乗客を乗せることに焦点を当てている。 それでも、乗客は自動運転車に乗るのを恐れていることが示されている。 この問題を緩和する一つの方法は、乗客が車に自然言語コマンドを与えることである。 しかし、車両は発行された指令や視覚環境を誤解し、不確定な状況につながる可能性がある。 自動運転車がこれらの状況を検出し、乗客と対話して解決することが望ましい。 本稿では、コマンドが与えられたときの不確実な状況を検出し、それを引き起こす視覚オブジェクトを見つけるモデルを提案する。 任意に、不確実なオブジェクトを記述するシステムによって生成される質問を含める。 車両が人間のような方法で物体を説明できたら、乗客は車の能力にもっと自信を持てるだろう、と我々は主張する。 そこで本研究では,(1)不確定な状況とその原因の検出方法,(2)乗客に対する明確な質問の生成方法について検討する。 Talk2Carデータセットで評価すると、提案したモデルである \acrfull{pipeline} が、 \gls{m:ambiguous-absolute -increase} を $IoU_{.5}$ で改善することを示す。 さらに,従来のREGモデルと比較して,gls{m:meteor-relative} METEOR と \gls{m:rouge-relative} ROUGE-l を相対的に改善し,より3倍高速な自動運転車設定に適した参照式生成器 (REG) \acrfull{reg_model} を設計した。

Current technology for autonomous cars primarily focuses on getting the passenger from point A to B. Nevertheless, it has been shown that passengers are afraid of taking a ride in self-driving cars. One way to alleviate this problem is by allowing the passenger to give natural language commands to the car. However, the car can misunderstand the issued command or the visual surroundings which could lead to uncertain situations. It is desirable that the self-driving car detects these situations and interacts with the passenger to solve them. This paper proposes a model that detects uncertain situations when a command is given and finds the visual objects causing it. Optionally, a question generated by the system describing the uncertain objects is included. We argue that if the car could explain the objects in a human-like way, passengers could gain more confidence in the car's abilities. Thus, we investigate how to (1) detect uncertain situations and their underlying causes, and (2) how to generate clarifying questions for the passenger. When evaluating on the Talk2Car dataset, we show that the proposed model, \acrfull{pipeline}, improves \gls{m:ambiguous-absolute -increase} in terms of $IoU_{.5}$ compared to not using \gls{pipeline}. Furthermore, we designed a referring expression generator (REG) \acrfull{reg_model} tailored to a self-driving car setting which yields a relative improvement of \gls{m:meteor-relative} METEOR and \gls{m:rouge-relative} ROUGE-l compared with state-of-the-art REG models, and is three times faster.
翻訳日:2021-06-09 16:15:59 公開日:2021-06-08
# Muddling Label Regularization: 語彙データセットの深層学習

Muddling Label Regularization: Deep Learning for Tabular Datasets ( http://arxiv.org/abs/2106.04462v1 )

ライセンス: Link先を確認
Karim Lounici and Katia Meziani and Benjamin Riu(参考訳) ディープラーニング(DL)はコンピュータビジョン、音声認識、自然言語処理における最先端技術であると考えられている。 近年まで、特にアンサンブル法を金本位と認める小さなサンプル体制において、表型データ上での学習にはDLが無関係であると広く受け入れられていた。 標準FFNNを訓練するための新しいエンドツーエンド微分可能手法を提案する。 本手法である \textbf{muddling labels for regularization} (\texttt{mlr}) は,不正なラベルの生成と,最後の隠れた層に微分可能なクローズフォーム正則化スキームを適用することで記憶をペナルティ化する。 \texttt{MLR}は、UCIデータベースとKaggleから複数のデータセットの回帰および分類タスクのための古典的NNとゴールドスタンダード(GBDT, RF)を上回り、幅広いサンプルサイズとサンプル比率をカバーしている。 研究者や実践者は、既製の \DL{} ソリューションとして \texttt{MLR} を独自に使用したり、最も高度なMLパイプラインに統合することができる。

Deep Learning (DL) is considered the state-of-the-art in computer vision, speech recognition and natural language processing. Until recently, it was also widely accepted that DL is irrelevant for learning tasks on tabular data, especially in the small sample regime where ensemble methods are acknowledged as the gold standard. We present a new end-to-end differentiable method to train a standard FFNN. Our method, \textbf{Muddling labels for Regularization} (\texttt{MLR}), penalizes memorization through the generation of uninformative labels and the application of a differentiable close-form regularization scheme on the last hidden layer during training. \texttt{MLR} outperforms classical NN and the gold standard (GBDT, RF) for regression and classification tasks on several datasets from the UCI database and Kaggle covering a large range of sample sizes and feature to sample ratios. Researchers and practitioners can use \texttt{MLR} on its own as an off-the-shelf \DL{} solution or integrate it into the most advanced ML pipelines.
翻訳日:2021-06-09 16:15:30 公開日:2021-06-08
# マルチドライバオーダディスパッチのためのディープバリューネットワークに基づくアプローチ

A Deep Value-network Based Approach for Multi-Driver Order Dispatching ( http://arxiv.org/abs/2106.04493v1 )

ライセンス: Link先を確認
Xiaocheng Tang, Zhiwei Qin, Fan Zhang, Zhaodong Wang, Zhe Xu, Yintai Ma, Hongtu Zhu, Jieping Ye(参考訳) 近年の配車発注における配車業務は、配車プロセスにおける空間的・時間的ダイナミクスを考慮した輸送システムの効率化の重要性を強調している。 同時に、深層強化学習は、多くの分野で超人的なパフォーマンスを達成する点まで進歩している。 そこで本研究では,配車プラットフォーム上での大規模オンラインa/bテストを実施し,運転者総収入とユーザエクスペリエンス関連指標の両方において大きな改善が達成できることを示す。 特に,配車時の問題を半マルコフ決定プロセスとしてモデル化し,配車行動の時間的側面を考慮した。 ニューラルネットワークのような非線形関数近似器による値反復の安定性を向上させるために,新しい分散状態表現層を持つCerebellar Value Networks (CVNet)を提案する。 さらに,値ネットワークの大きなリプシッツ定数をペナルティ化し,逆摂動や雑音に対する強固性を高めるcvnetの正規化ポリシー評価スキームも導出する。 最後に,様々な移動学習手法をCVNetに適用し,複数の都市で学習適応性と効率を向上させる。 実際のディスパッチデータに基づく広範囲なオフラインシミュレーションと,DiDiのプラットフォームによるオンラインABテストを行う。 その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。 最後に、転送学習の効率的な利用により、さらにパフォーマンスが向上することを示す。

Recent works on ride-sharing order dispatching have highlighted the importance of taking into account both the spatial and temporal dynamics in the dispatching process for improving the transportation system efficiency. At the same time, deep reinforcement learning has advanced to the point where it achieves superhuman performance in a number of fields. In this work, we propose a deep reinforcement learning based solution for order dispatching and we conduct large scale online A/B tests on DiDi's ride-dispatching platform to show that the proposed method achieves significant improvement on both total driver income and user experience related metrics. In particular, we model the ride dispatching problem as a Semi Markov Decision Process to account for the temporal aspect of the dispatching actions. To improve the stability of the value iteration with nonlinear function approximators like neural networks, we propose Cerebellar Value Networks (CVNet) with a novel distributed state representation layer. We further derive a regularized policy evaluation scheme for CVNet that penalizes large Lipschitz constant of the value network for additional robustness against adversarial perturbation and noises. Finally, we adapt various transfer learning methods to CVNet for increased learning adaptability and efficiency across multiple cities. We conduct extensive offline simulations based on real dispatching data as well as online AB tests through the DiDi's platform. Results show that CVNet consistently outperforms other recently proposed dispatching methods. We finally show that the performance can be further improved through the efficient use of transfer learning.
翻訳日:2021-06-09 16:15:09 公開日:2021-06-08
# 深層強化学習のための実践的クレジットアサインメントに向けて

Towards Practical Credit Assignment for Deep Reinforcement Learning ( http://arxiv.org/abs/2106.04499v1 )

ライセンス: Link先を確認
Vyacheslav Alipov, Riley Simmons-Edler, Nikita Putintsev, Pavel Kalinin, Dmitry Vetrov(参考訳) 信用割当は強化学習における基本的な問題であり、将来の報酬に対する行動の影響を測定する問題である。 信用割当手法の改善は、多くのタスクにおいてRLアルゴリズムの性能を高める可能性があるが、今のところ広く採用されていない。 近年,HCA (Hindsight Credit Assignment, Hindsight Credit Assignment) と呼ばれる手法が提案されている。 このアプローチは、より効率的なデータ使用方法として魅力的であるが、表形式のRLタスクの限られたセットに適用可能な理論的な考え方であり、どのようにHCAをディープなRL環境に拡張するかは不明である。 本研究では,深部RL文脈におけるHCA型クレジットの利用について検討する。 我々はまず,既存のHCAアルゴリズムの限界を深いRLで記述し,それを克服するために理論的に修正したいくつかの修正を提案する。 そこで本研究では,信用度に基づく将来の成果に影響を与えない行動に対する方針更新を無視し,通常どおりの方針更新を行う,信用制約付きアドバンテージ・アクタ-クリティック(c2a2c)という新しいアルゴリズムを提案する。 我々は、c2a2cがarcade learning environment(ale)ベンチマークのactor-critic(a2c)よりも優れており、a2cに対する広範な改善を示し、深いrlメソッドに対するクレジット制約付き更新ルールのさらなる取り組みを動機付ける。

Credit assignment is a fundamental problem in reinforcement learning, the problem of measuring an action's influence on future rewards. Improvements in credit assignment methods have the potential to boost the performance of RL algorithms on many tasks, but thus far have not seen widespread adoption. Recently, a family of methods called Hindsight Credit Assignment (HCA) was proposed, which explicitly assign credit to actions in hindsight based on the probability of the action having led to an observed outcome. This approach is appealing as a means to more efficient data usage, but remains a largely theoretical idea applicable to a limited set of tabular RL tasks, and it is unclear how to extend HCA to Deep RL environments. In this work, we explore the use of HCA-style credit in a deep RL context. We first describe the limitations of existing HCA algorithms in deep RL, then propose several theoretically-justif ied modifications to overcome them. Based on this exploration, we present a new algorithm, Credit-Constrained Advantage Actor-Critic (C2A2C), which ignores policy updates for actions which don't affect future outcomes based on credit in hindsight, while updating the policy as normal for those that do. We find that C2A2C outperforms Advantage Actor-Critic (A2C) on the Arcade Learning Environment (ALE) benchmark, showing broad improvements over A2C and motivating further work on credit-constrained update rules for deep RL methods.
翻訳日:2021-06-09 16:14:47 公開日:2021-06-08
# 機械学習における現在の列車/テスト分割の批判的考察

A critical look at the current train/test split in machine learning ( http://arxiv.org/abs/2106.04525v1 )

ライセンス: Link先を確認
Jimin Tan, Jianan Yang, Sai Wu, Gang Chen, Jake Zhao (Junbo)(参考訳) ランダム化またはクロスバリデーションされたトレーニングセットとテストセットは、数十年にわたって機械学習のゴールドスタンダードとして採用されてきた。 i) データセットを永久に静的に固定することで、異なる機械学習アルゴリズムやモデルを評価することができる; (ii) 研究者や産業従事者が利用できる注釈付きデータの完全なセットがある。 しかし、本稿では、スプリットプロトコル自体について、より綿密かつ批判的な考察を行い、特に産業アプリケーションにおいて、その弱点と限界を指摘したいと思います。 実世界の多くの問題では、仮定(ii)が成立しない状況が数多く存在することを認識しなければならない。 例えば、創薬のような学際的な応用では、時間と財政の両面で大きなコストをもたらすデータに注釈を付けるために、実際の実験が必要となることが多い。 言い換えれば、仮定(ii)を満足させることは非常に困難または不可能である。 本稿では,この課題に対処し,アクティブラーニングのパラダイムを再検討し,従来の列車/テスト分割プロトコルによる問題解決の可能性について検討する。 さらに,学習プールにデータポイントを一方向的に付加する従来のアクティブラーニングと比較し,適応ポリシーを含む新しい適応型アクティブラーニングアーキテクチャ(aal)を提案する。 我々は主に、学際的な薬物-タンパク質結合問題を広範囲に研究することで、ポイントを正当化する。 さらに、CIFAR-10のような従来の機械学習ベンチマークデータセット上でAALを評価し、新しいフレームワークの一般化性と有効性を示す。

The randomized or cross-validated split of training and testing sets has been adopted as the gold standard of machine learning for decades. The establishment of these split protocols are based on two assumptions: (i)-fixing the dataset to be eternally static so we could evaluate different machine learning algorithms or models; (ii)-there is a complete set of annotated data available to researchers or industrial practitioners. However, in this article, we intend to take a closer and critical look at the split protocol itself and point out its weakness and limitation, especially for industrial applications. In many real-world problems, we must acknowledge that there are numerous situations where assumption (ii) does not hold. For instance, for interdisciplinary applications like drug discovery, it often requires real lab experiments to annotate data which poses huge costs in both time and financial considerations. In other words, it can be very difficult or even impossible to satisfy assumption (ii). In this article, we intend to access this problem and reiterate the paradigm of active learning, and investigate its potential on solving problems under unconventional train/test split protocols. We further propose a new adaptive active learning architecture (AAL) which involves an adaptation policy, in comparison with the traditional active learning that only unidirectionally adds data points to the training pool. We primarily justify our points by extensively investigating an interdisciplinary drug-protein binding problem. We additionally evaluate AAL on more conventional machine learning benchmarking datasets like CIFAR-10 to demonstrate the generalizability and efficacy of the new framework.
翻訳日:2021-06-09 16:14:20 公開日:2021-06-08
# シングル(おそらく)よりもマルチモーダル学習が優れている理由

What Makes Multimodal Learning Better than Single (Provably) ( http://arxiv.org/abs/2106.04538v1 )

ライセンス: Link先を確認
Yu Huang, Chenzhuang Du, Zihui Xue, Xuanyao Chen, Hang Zhao, Longbo Huang(参考訳) 世界は複数のモダリティのデータを提供します。 直感的には、異なるモダリティからデータを取り出すモデルは、より多くの情報が集約されるため、ユニモーダルモデルより優れている。 近年,深層学習の成功にともなって,様々な応用に顕著な経験的結果をもたらす深層多モーダル学習の研究の影響力がある。 しかし、この分野における理論的な正当化は特に優れており、マルチモーダルはユニモーダルよりもうまく機能するか? 本稿では,まず,異なるモダリティの特徴を共通相対空間にエンコードし,潜在表現をタスク空間にシームレスにマッピングする,最も一般的なマルチモーダル学習枠組みによって,この疑問に答える。 複数のモダリティによる学習は、モダリティのサブセットを使用するよりも人口リスクが小さいことを証明している。 主な直観は、前者は潜在空間表現をより正確に見積もっていることである。 我々の知る限りでは、これは実際のマルチモーダルアプリケーションで観測された重要な定性的現象を捉える最初の理論的治療である。 実験結果と組み合わせることで,マルチモーダル学習には魅力的な形式的保証があることを示す。

The world provides us with data of multiple modalities. Intuitively, models fusingdata from different modalities outperform unimodal models, since more informationis aggregated. Recently, joining the success of deep learning, there is an influentialline of work on deep multimodal learning, which has remarkable empirical resultson various applications. However, theoretical justifications in this field are notablylacking.Can multimodal provably perform better than unimodal? In this paper, we answer this question under a most popular multimodal learningframework, which firstly encodes features from different modalities into a commonlatent space and seamlessly maps the latent representations into the task space. Weprove that learning with multiple modalities achieves a smaller population risk thanonly using its subset of modalities. The main intuition is that the former has moreaccurate estimate of the latent space representation. To the best of our knowledge,this is the first theoretical treatment to capture important qualitative phenomenaobserved in real multimodal applications. Combining with experiment results, weshow that multimodal learning does possess an appealing formal guarantee.
翻訳日:2021-06-09 16:13:55 公開日:2021-06-08
# スペクトルコントラスト損失を有する自己監督型深層学習のための確率的保証

Provable Guarantees for Self-Supervised Deep Learning with Spectral Contrastive Loss ( http://arxiv.org/abs/2106.04156v1 )

ライセンス: Link先を確認
Jeff Z. HaoChen, Colin Wei, Adrien Gaidon, Tengyu Ma(参考訳) 自己教師付き学習における最近の研究は、正のペアや同じクラスからの類似の例を押して表現を学習し、負のペアを遠くに保ちながら密接な関係を保ちながら、コントラスト的学習パラダイムに依拠して最先端の学習を進歩させてきた。 経験的成功にもかかわらず、理論的な基礎は限られており、事前の分析では、同じクラスラベルが与えられた正の対の条件的独立性を仮定するが、最近の経験的応用では、非常に正の対(すなわち、同じ画像のデータ拡張)を用いる。 本研究は,データ上の拡張グラフという新しい概念を用いて,正ペアの条件独立性を仮定することなく,コントラスト学習を解析する。 このグラフのエッジは同一データの拡張を結び、接地木クラスは自然に連結部分グラフを形成する。 本稿では,人口増加グラフ上でスペクトル分解を行い,ニューラルネットワーク表現の対比学習目的として簡潔に記述できる損失を提案する。 この目的を最小化すれば、線形プローブ評価の精度を保証することができる。 標準一般化境界により、これらの精度保証は、訓練のコントラスト損失を最小化するときにも成り立つ。 実証的に、我々の目的によって得られた機能は、ベンチマークビジョンデータセットでいくつかの強力なベースラインにマッチまたは上回る。 この研究は、線形プローブ評価の保証を現実的な経験的設定に適用できる、コントラスト学習のための最初の証明可能な分析を提供する。

Recent works in self-supervised learning have advanced the state-of-the-art by relying on the contrastive learning paradigm, which learns representations by pushing positive pairs, or similar examples from the same class, closer together while keeping negative pairs far apart. Despite the empirical successes, theoretical foundations are limited -- prior analyses assume conditional independence of the positive pairs given the same class label, but recent empirical applications use heavily correlated positive pairs (i.e., data augmentations of the same image). Our work analyzes contrastive learning without assuming conditional independence of positive pairs using a novel concept of the augmentation graph on data. Edges in this graph connect augmentations of the same data, and ground-truth classes naturally form connected sub-graphs. We propose a loss that performs spectral decomposition on the population augmentation graph and can be succinctly written as a contrastive learning objective on neural net representations. Minimizing this objective leads to features with provable accuracy guarantees under linear probe evaluation. By standard generalization bounds, these accuracy guarantees also hold when minimizing the training contrastive loss. Empirically, the features learned by our objective can match or outperform several strong baselines on benchmark vision datasets. In all, this work provides the first provable analysis for contrastive learning where guarantees for linear probe evaluation can apply to realistic empirical settings.
翻訳日:2021-06-09 16:12:47 公開日:2021-06-08
# ニューラルネットワークの複雑さに関するトレーニング

What training reveals about neural network complexity ( http://arxiv.org/abs/2106.04186v1 )

ライセンス: Link先を確認
Andreas Loukas, Marinos Poiitis, Stefanie Jegelka(参考訳) この研究は、深層ニューラルネットワーク(nn)が学習している機能の複雑さが、トレーニング中の重みの変化の速さによって推測できるという仮説を探求する。 我々の解析は、確率的訓練手順の振る舞いと異なる訓練間隔におけるリプシッツ定数(入力空間の異なる領域における勾配のノルム)のネットワーク分布を関連付けることによって、この仮定の証拠を提供する。 まず、トレーニングデータに近い平均リプシッツ定数がパラメータの軌跡の様々な側面に影響を与えることを観測し、より複雑なネットワークはより長い軌跡を持ち、大きな分散を持ち、しばしば初期化から逸脱する。 そして、バイアスがより着実に訓練されたnnは、任意のトレーニングポイントから遠い入力空間の領域においても、境界付き複雑度を持つことを示した。 最後に、Dropoutによる定常的なトレーニングは、パラメータの数に応じて多対数的に成長するトレーニングおよびデータ依存の一般化バウンダリを意味する。 全体としては、良い訓練行動は良い一般化への有用なバイアスとなるという仮説を支持する。

This work explores the hypothesis that the complexity of the function a deep neural network (NN) is learning can be deduced by how fast its weights change during training. Our analysis provides evidence for this supposition by relating the network's distribution of Lipschitz constants (i.e., the norm of the gradient at different regions of the input space) during different training intervals with the behavior of the stochastic training procedure. We first observe that the average Lipschitz constant close to the training data affects various aspects of the parameter trajectory, with more complex networks having a longer trajectory, bigger variance, and often veering further from their initialization. We then show that NNs whose biases are trained more steadily have bounded complexity even in regions of the input space that are far from any training point. Finally, we find that steady training with Dropout implies a training- and data-dependent generalization bound that grows poly-logarithmically with the number of parameters. Overall, our results support the hypothesis that good training behavior can be a useful bias towards good generalization.
翻訳日:2021-06-09 16:12:23 公開日:2021-06-08
# 不確実性を考慮したレコメンダシステムのための多出力ガウス過程

Multi-output Gaussian Processes for Uncertainty-aware Recommender Systems ( http://arxiv.org/abs/2106.04221v1 )

ライセンス: Link先を確認
Yinchong Yang, Florian Buettner(参考訳) レコメンダシステムは、しばしば、ユーザーとアイテム間の相互作用をモデル化することによって、ユーザの好みを予測する協調フィルタリングアプローチに基づいて設計される。 協調フィルタリングタスクを解決するための多くの一般的なアプローチは、単純な行列分解、ガウス過程潜在変数モデル、ニューラルネットワークに基づく埋め込みなど、ユーザとアイテムの学習表現に基づいている。 行列分解アプローチは非線形関係をモデル化できないが、ニューラルネットワークは前例のない予測力でそのような複雑な関係を捉えることができ、非常にスケーラブルである。 しかし、どちらも予測の不確実性をモデル化することはできない。 対照的に、ガウス過程に基づくモデルは予測分布を生成することができるが、大量のデータにはスケールできない。 本稿では,協調フィルタリングの表現学習パラダイムと多出力ガウス過程を組み合わせることで,不確実性を考慮したレコメンデーションを生成する手法を提案する。 モデルトレーニングと推論のための効率的な戦略を導入し、その結果、非常に大きくスパースなデータセットにスケールし、復元エラーを定量化する古典的な指標で競合性能を達成するモデルを構築した。 ユーザの好みを正確に予測するだけでなく,その予測に関する意味のある不確実性推定も提供する。

Recommender systems are often designed based on a collaborative filtering approach, where user preferences are predicted by modelling interactions between users and items. Many common approaches to solve the collaborative filtering task are based on learning representations of users and items, including simple matrix factorization, Gaussian process latent variable models, and neural-network based embeddings. While matrix factorization approaches fail to model nonlinear relations, neural networks can potentially capture such complex relations with unprecedented predictive power and are highly scalable. However, neither of them is able to model predictive uncertainties. In contrast, Gaussian Process based models can generate a predictive distribution, but cannot scale to large amounts of data. In this manuscript, we propose a novel approach combining the representation learning paradigm of collaborative filtering with multi-output Gaussian processes in a joint framework to generate uncertainty-aware recommendations. We introduce an efficient strategy for model training and inference, resulting in a model that scales to very large and sparse datasets and achieves competitive performance in terms of classical metrics quantifying the reconstruction error. In addition to accurately predicting user preferences, our model also provides meaningful uncertainty estimates about that prediction.
翻訳日:2021-06-09 16:12:08 公開日:2021-06-08
# 重み付きスパース部分空間表現:サブスペースクラスタリング、制約付きクラスタリング、アクティブラーニングのための統一フレームワーク

Weighted Sparse Subspace Representation: A Unified Framework for Subspace Clustering, Constrained Clustering, and Active Learning ( http://arxiv.org/abs/2106.04330v1 )

ライセンス: Link先を確認
Hankui Peng, Nicos G. Pavlidis(参考訳) スペクトルベースのサブスペースクラスタリング法は、遺伝子シークエンシング、画像認識、モーションセグメンテーションなど多くの挑戦的な応用で成功している。 本研究では,まず,近接点のスパース凸結合として各点を表現しようとする,スペクトルベース部分空間クラスタリングアルゴリズムを提案する。 そして、アルゴリズムを制約付きクラスタリングとアクティブラーニング設定に拡張します。 このようなフレームワークを開発する動機は、通常、少量のラベル付きデータを事前に利用できるか、あるいはコストでいくつかのポイントをラベル付けできるという事実にあります。 後者のシナリオは一般的に、クラスタ割り当てを検証するプロセスで発生する。 シミュレーションおよび実データを用いた広範な実験により,提案手法が最先端手法と効果的かつ競争力があることが確認された。

Spectral-based subspace clustering methods have proved successful in many challenging applications such as gene sequencing, image recognition, and motion segmentation. In this work, we first propose a novel spectral-based subspace clustering algorithm that seeks to represent each point as a sparse convex combination of a few nearby points. We then extend the algorithm to constrained clustering and active learning settings. Our motivation for developing such a framework stems from the fact that typically either a small amount of labelled data is available in advance; or it is possible to label some points at a cost. The latter scenario is typically encountered in the process of validating a cluster assignment. Extensive experiments on simulated and real data sets show that the proposed approach is effective and competitive with state-of-the-art methods.
翻訳日:2021-06-09 16:11:47 公開日:2021-06-08
# 適応型機械学習

Adaptive Machine Unlearning ( http://arxiv.org/abs/2106.04378v1 )

ライセンス: Link先を確認
Varun Gupta, Christopher Jung, Seth Neel, Aaron Roth, Saeed Sharifi-Malvajerdi, Chris Waites(参考訳) データ削除アルゴリズムは、トレーニングされたモデルから削除されたデータポイントの影響を、完全に再トレーニングするよりも安価な計算コストで取り除くことを目的としている。 しかしながら、削除のシーケンスに対して、非凸設定におけるほとんどの先行作業は、公開するモデルとは独立に選択されるシーケンスに対してのみ有効な保証を与える。 公開モデルの関数としてデータを削除することを選んだ場合(例えば、モデルが公開したものが気に入らないなど)、更新シーケンスは適応的です。 本稿では,差分プライバシーと最大情報との接続を用いて,適応シーケンスに対する削除保証から非適応シーケンスに対する削除保証を一般化する。 非適応的削除シーケンスの保証を与える先行研究のアイデアと組み合わせることで、任意のモデルクラスとトレーニング方法論を扱える非常に柔軟なアルゴリズムが実現され、適応的削除シーケンスに対する強力な証明可能な削除保証が提供される。 理論的には、非凸モデルに対する事前の作業が適応的な削除シーケンスに対してどのように失敗するかを示し、この直観を用いてBourtoule等のSISAアルゴリズムに対する実用的な攻撃を設計する。 [2021]CIFAR-10、MNIST、Fashion-MNIST。

Data deletion algorithms aim to remove the influence of deleted data points from trained models at a cheaper computational cost than fully retraining those models. However, for sequences of deletions, most prior work in the non-convex setting gives valid guarantees only for sequences that are chosen independently of the models that are published. If people choose to delete their data as a function of the published models (because they don't like what the models reveal about them, for example), then the update sequence is adaptive. In this paper, we give a general reduction from deletion guarantees against adaptive sequences to deletion guarantees against non-adaptive sequences, using differential privacy and its connection to max information. Combined with ideas from prior work which give guarantees for non-adaptive deletion sequences, this leads to extremely flexible algorithms able to handle arbitrary model classes and training methodologies, giving strong provable deletion guarantees for adaptive deletion sequences. We show in theory how prior work for non-convex models fails against adaptive deletion sequences, and use this intuition to design a practical attack against the SISA algorithm of Bourtoule et al. [2021] on CIFAR-10, MNIST, Fashion-MNIST.
翻訳日:2021-06-09 16:11:35 公開日:2021-06-08
# 複数のノイズ部分ラベルからの学習

Learning from Multiple Noisy Partial Labelers ( http://arxiv.org/abs/2106.04530v1 )

ライセンス: Link先を確認
Peilin Yu, Tiffany Ding, Stephen H. Bach(参考訳) プログラムによる弱い監督は、ノイズやユーザ記述規則、その他のヒューリスティックなラベルの出力を組み合わせることで、手書きのトレーニングデータを持たないモデルを生成する。 既存のフレームワークは、ラベル付け者が単一のクラスラベルを出力するという制限的な仮定を定めている。 ユーザーがクラスラベルのサブセットを出力する部分的なラベルを作成できるようにすると、プログラムによる弱い監督の表現力が大幅に向上する。 本稿では,複数のノイズのある部分ラベルの精度を,基礎となる真理ラベルなしで推定できる確率的生成モデルを定義することによって,この能力を導入する。 このモデルのクラスは、穏やかな条件下でラベルスワッピングまで汎用的に識別可能であることを証明します。 また、簡単な実装に比べて300倍のスピードで、学習を1分で100万のサンプルにスケールアップする方法も示しています。 我々は3つのテキスト分類と6つのオブジェクト分類タスクの枠組みを評価する。 テキストタスクでは、部分ラベルを追加すると平均精度が9.6ポイント向上する。 画像タスクでは,クラス属性を部分ラベラーとして使用することにより,ゼロショットオブジェクトの分類問題に対して,プログラム的に弱い監督を施すことができることを示す。 本フレームワークは,事前学習された属性検出器のみを用いて,組み込み型ゼロショット学習手法に匹敵する精度を実現することができる。

Programmatic weak supervision creates models without hand-labeled training data by combining the outputs of noisy, user-written rules and other heuristic labelers. Existing frameworks make the restrictive assumption that labelers output a single class label. Enabling users to create partial labelers that output subsets of possible class labels would greatly expand the expressivity of programmatic weak supervision. We introduce this capability by defining a probabilistic generative model that can estimate the underlying accuracies of multiple noisy partial labelers without ground truth labels. We prove that this class of models is generically identifiable up to label swapping under mild conditions. We also show how to scale up learning to 100k examples in one minute, a 300X speed up compared to a naive implementation. We evaluate our framework on three text classification and six object classification tasks. On text tasks, adding partial labels increases average accuracy by 9.6 percentage points. On image tasks, we show that partial labels allow us to approach some zero-shot object classification problems with programmatic weak supervision by using class attributes as partial labelers. Our framework is able to achieve accuracy comparable to recent embedding-based zero-shot learning methods using only pre-trained attribute detectors
翻訳日:2021-06-09 16:11:17 公開日:2021-06-08
# SynthRef:オブジェクトセグメンテーションのための合成参照式の生成

SynthRef: Generation of Synthetic Referring Expressions for Object Segmentation ( http://arxiv.org/abs/2106.04403v1 )

ライセンス: Link先を確認
Ioannis Kazakos, Carles Ventura, Miriam Bellver, Carina Silberer and Xavier Giro-i-Nieto(参考訳) 近年のディープラーニングの進歩は、言語誘導ビデオオブジェクトセグメンテーションのような視覚的接地タスクに大きな進歩をもたらした。 しかし、これらのタスクのための大規模なデータセットの収集は、アノテーション時間の観点からは高価であり、ボトルネックである。 そこで本研究では,画像(あるいはビデオフレーム)における対象オブジェクトに対する合成参照表現を生成するSynthRefという新しい手法を提案し,ビデオオブジェクトセグメンテーションのための合成参照表現を用いて,最初の大規模データセットを提示・配布する。 我々の実験は、合成参照表現を用いてトレーニングすることにより、追加のアノテーションコストを伴わずに、異なるデータセットをまたいでモデルを一般化する能力を向上させることができることを示した。 さらに,任意のオブジェクト検出やセグメンテーションデータセットに適用可能とした。

Recent advances in deep learning have brought significant progress in visual grounding tasks such as language-guided video object segmentation. However, collecting large datasets for these tasks is expensive in terms of annotation time, which represents a bottleneck. To this end, we propose a novel method, namely SynthRef, for generating synthetic referring expressions for target objects in an image (or video frame), and we also present and disseminate the first large-scale dataset with synthetic referring expressions for video object segmentation. Our experiments demonstrate that by training with our synthetic referring expressions one can improve the ability of a model to generalize across different datasets, without any additional annotation cost. Moreover, our formulation allows its application to any object detection or segmentation dataset.
翻訳日:2021-06-09 16:10:59 公開日:2021-06-08
# Manifold Topology Divergence: データマニフォールドの比較フレームワーク

Manifold Topology Divergence: a Framework for Comparing Data Manifolds ( http://arxiv.org/abs/2106.04024v1 )

ライセンス: Link先を確認
Serguei Barannikov, Ilya Trofimov, Grigorii Sotnikov, Ekaterina Trimbach, Alexander Korotin, Alexander Filippov, Evgeny Burnaev(参考訳) 本研究では,特に深部生成モデルの評価を目的としたデータ多様体比較フレームワークを開発した。 高次元空間における一対の分布が与えられた場合、分布が集中する多様体間のマルチスケール位相空間の差をトラックする新しいツールであるクロスバーコード(P,Q)について述べる。 クロスバーコードに基づき、多様体トポロジー分岐スコア(mtop-divergence)を導入し、画像、3d形状、時系列、および様々なデータセット(mnist、 fashion mnist、svhn、cifar10、ffhq、胸部x線画像、マーケットストックデータ、shapenet)における深層生成モデルのパフォーマンスを評価する。 MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。 本アルゴリズムは,周囲高次元空間の次元の増加に伴い,(本質的に線形に)よくスケールする。 これは、視覚領域における最新のGANがトレーニングされているものを含む、さまざまなサイズと次元のデータセットに普遍的に適用できる、TDAベースの最初の実践的方法論の1つである。 提案手法はドメイン非依存であり,事前学習されたネットワークに依存しない。

We develop a framework for comparing data manifolds, aimed, in particular, towards the evaluation of deep generative models. We describe a novel tool, Cross-Barcode(P,Q), that, given a pair of distributions in a high-dimensional space, tracks multiscale topology spacial discrepancies between manifolds on which the distributions are concentrated. Based on the Cross-Barcode, we introduce the Manifold Topology Divergence score (MTop-Divergence) and apply it to assess the performance of deep generative models in various domains: images, 3D-shapes, time-series, and on different datasets: MNIST, Fashion MNIST, SVHN, CIFAR10, FFHQ, chest X-ray images, market stock data, ShapeNet. We demonstrate that the MTop-Divergence accurately detects various degrees of mode-dropping, intra-mode collapse, mode invention, and image disturbance. Our algorithm scales well (essentially linearly) with the increase of the dimension of the ambient high-dimensional space. It is one of the first TDA-based practical methodologies that can be applied universally to datasets of different sizes and dimensions, including the ones on which the most recent GANs in the visual domain are trained. The proposed method is domain agnostic and does not rely on pre-trained networks.
翻訳日:2021-06-09 16:10:27 公開日:2021-06-08
# マルチデータセット事前学習:セマンティックセグメンテーションのための統一モデル

Multi-dataset Pretraining: A Unified Model for Semantic Segmentation ( http://arxiv.org/abs/2106.04121v1 )

ライセンス: Link先を確認
Bowen Shi, Xiaopeng Zhang, Haohang Xu, Wenrui Dai, Junni Zou, Hongkai Xiong, Qi Tian(参考訳) セマンティクスセグメンテーションのための注釈付きデータ収集は時間がかかり、スケールアップが困難である。 本稿では,マルチデータセットプリトレーニング(multi-dataset pretraining)と呼ばれる統一フレームワークを初めて提案し,異なるデータセットの断片化されたアノテーションを最大限活用する。 強調されているのは、異なるドメインからのアノテーションを効率的に再利用でき、特定のドメイン毎のパフォーマンスを継続的に向上できることだ。 これは、まず提案されたpixel-to-prototypeコントラスト損失を分類ラベルに関係なく複数のデータセットで事前トレーニングし、その後、通常通り特定のデータセット上で事前トレーニングされたモデルを微調整することで実現される。 異なるデータセットから画像とクラス間の関係をよりよくモデル化するために、クロスデータセット混合による画素レベルの埋め込みを拡張し、多様体埋め込み空間上のピクセルクラス類似性を明示的にモデル化する画素間疎符号化戦略を提案する。 このようにして、クラス内コンパクト性とクラス間セパビリティを高め、異なるデータセット間のクラス間類似性を考慮し、転送可能性を向上させることができる。 いくつかのベンチマークで実施した実験は、その優れた性能を示している。 特に、MDPは、事前トレーニングに10%未満のサンプルしか使用せず、ImageNet上でトレーニング済みのモデルよりずっと優れている。

Collecting annotated data for semantic segmentation is time-consuming and hard to scale up. In this paper, we for the first time propose a unified framework, termed as Multi-Dataset Pretraining, to take full advantage of the fragmented annotations of different datasets. The highlight is that the annotations from different domains can be efficiently reused and consistently boost performance for each specific domain. This is achieved by first pretraining the network via the proposed pixel-to-prototype contrastive loss over multiple datasets regardless of their taxonomy labels, and followed by fine-tuning the pretrained model over specific dataset as usual. In order to better model the relationship among images and classes from different datasets, we extend the pixel level embeddings via cross dataset mixing and propose a pixel-to-class sparse coding strategy that explicitly models the pixel-class similarity over the manifold embedding space. In this way, we are able to increase intra-class compactness and inter-class separability, as well as considering inter-class similarity across different datasets for better transferability. Experiments conducted on several benchmarks demonstrate its superior performance. Notably, MDP consistently outperforms the pretrained models over ImageNet by a considerable margin, while only using less than 10% samples for pretraining.
翻訳日:2021-06-09 16:10:04 公開日:2021-06-08
# 高レベル映像タスクのデコードのための主観非依存脳-コンピュータインタフェース

Subject-Independent Brain-Computer Interface for Decoding High-Level Visual Imagery Tasks ( http://arxiv.org/abs/2106.04026v1 )

ライセンス: Link先を確認
Dae-Hyeok Lee, Dong-Kyun Han, Sung-Jin Kim, Ji-Hoon Jeong, and Seong-Whan Lee(参考訳) 脳コンピュータインタフェース(BCI)は、人間の状態と意図を認識することで人間とデバイス間のコミュニケーションに使用される。 脳波(EEG)信号を用いた人間とドローンの通信は、BCI領域において最も難しい問題の一つである。 特に、ドローン群(方向と形成)の制御は、ドローンの制御よりも優れている。 視覚イメージ(VI)パラダイムは、被験者が特定の物体やシーンを視覚的に想像することである。 実践的BCIシステムでは,脳波信号の変動の低減が不可欠である。 本研究では,viデータセットを用いて被写体非依存タスクの性能を向上させるために,サブエピックワイズ特徴エンコーダ(sefe)を提案する。 この研究は、VI型BCIにおける被験者間の一般化の可能性を示す最初の試みである。 性能評価にはleft-one-subject-out クロスバリデーションを用いた。 提案モジュールを含む場合,提案モジュールを除く場合よりも高い性能が得られた。 SEFEのDeepConvNetは6種類のデコードモデルの中で0.72の最高性能を示した。 そこで,提案モジュールを用いて,主観非依存タスクにおけるVIデータセットの復号化の実現可能性を示した。

Brain-computer interface (BCI) is used for communication between humans and devices by recognizing status and intention of humans. Communication between humans and a drone using electroencephalogram (EEG) signals is one of the most challenging issues in the BCI domain. In particular, the control of drone swarms (the direction and formation) has more advantages compared to the control of a drone. The visual imagery (VI) paradigm is that subjects visually imagine specific objects or scenes. Reduction of the variability among EEG signals of subjects is essential for practical BCI-based systems. In this study, we proposed the subepoch-wise feature encoder (SEFE) to improve the performances in the subject-independent tasks by using the VI dataset. This study is the first attempt to demonstrate the possibility of generalization among subjects in the VI-based BCI. We used the leave-one-subject-ou t cross-validation for evaluating the performances. We obtained higher performances when including our proposed module than excluding our proposed module. The DeepConvNet with SEFE showed the highest performance of 0.72 among six different decoding models. Hence, we demonstrated the feasibility of decoding the VI dataset in the subject-independent task with robust performances by using our proposed module.
翻訳日:2021-06-09 16:09:44 公開日:2021-06-08
# Image2Point: 事前トレーニングされた2D ConvNetによる3Dポイントクラウド理解

Image2Point: 3D Point-Cloud Understanding with Pretrained 2D ConvNets ( http://arxiv.org/abs/2106.04180v1 )

ライセンス: Link先を確認
Chenfeng Xu, Shijia Yang, Bohan Zhai, Bichen Wu, Xiangyu Yue, Wei Zhan, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka(参考訳) 3Dポイントクラウドと2Dイメージは、物理世界の異なる視覚的表現である。 人間の視覚は両方の表現を理解できるが、2d画像と3dポイントクラウド理解用に設計されたコンピュータビジョンモデルは、かなり異なる。 本稿では,これらの2つの表現間の伝達可能性について,このアプローチが機能するかどうか,転送性能に影響を及ぼす要因,さらにどのように機能させるかについて実証的に検討する。 私たちは、イメージとポイントクラウドの両方を理解するために、同じニューラルネットモデルアーキテクチャを実際に使用できることを発見しました。 さらに,事前学習した重みを画像モデルからポイントクラウドモデルに最小限の労力で転送できる。 具体的には、イメージデータセットに事前トレーニングされた2D ConvNetに基づいて、画像モデルをtextit{inflating} 2D畳み込みフィルタによってポイントクラウドモデルに転送し、入力、出力、任意に正規化レイヤを微調整する。 トランスファーモデルは、3dポイントクラウドの分類、屋内および運転シーンのセグメンテーションにおいて競合性能を達成でき、タスク固有のアーキテクチャを採用し、さまざまなトリックを使用する幅広いポイントクラウドモデルを打ち負かすこともできる。

3D point-clouds and 2D images are different visual representations of the physical world. While human vision can understand both representations, computer vision models designed for 2D image and 3D point-cloud understanding are quite different. Our paper investigates the potential for transferability between these two representations by empirically investigating whether this approach works, what factors affect the transfer performance, and how to make it work even better. We discovered that we can indeed use the same neural net model architectures to understand both images and point-clouds. Moreover, we can transfer pretrained weights from image models to point-cloud models with minimal effort. Specifically, based on a 2D ConvNet pretrained on an image dataset, we can transfer the image model to a point-cloud model by \textit{inflating} 2D convolutional filters to 3D then finetuning its input, output, and optionally normalization layers. The transferred model can achieve competitive performance on 3D point-cloud classification, indoor and driving scene segmentation, even beating a wide range of point-cloud models that adopt task-specific architectures and use a variety of tricks.
翻訳日:2021-06-09 16:09:29 公開日:2021-06-08
# リスクランク付けリコール:自動運転車の物体検出システムにおける衝突安全基準

Risk Ranked Recall: Collision Safety Metric for Object Detection Systems in Autonomous Vehicles ( http://arxiv.org/abs/2106.04146v1 )

ライセンス: Link先を確認
Ayoosh Bansal, Jayati Singh, Micaela Verucchi, Marco Caccamo and Lui Sha(参考訳) オブジェクト検出システム(precision、recall、map)の評価のための一般的なメトリクスは、自動運転車(av)における衝突回避のための障害物検出のような、安全性クリティカルなタスクでの使用の適性に関する完全な情報を提供していない。 この研究は、オブジェクト検出システムに対するリスクランク付きリコール(R^3$)メトリクスを紹介します。 r^3$メトリクスは、オブジェクトを3つのランクに分類する。 ランクは衝突のリスクに対する客観的なサイバー物理モデルに基づいて割り当てられる。 ランクごとにリコールを計測する。

Commonly used metrics for evaluation of object detection systems (precision, recall, mAP) do not give complete information about their suitability of use in safety critical tasks, like obstacle detection for collision avoidance in Autonomous Vehicles (AV). This work introduces the Risk Ranked Recall ($R^3$) metrics for object detection systems. The $R^3$ metrics categorize objects within three ranks. Ranks are assigned based on an objective cyber-physical model for the risk of collision. Recall is measured for each rank.
翻訳日:2021-06-09 16:09:07 公開日:2021-06-08
# 時間的オクルードマルチエージェントトラジェクタの時系列インプテーション

Time-series Imputation of Temporally-occluded Multiagent Trajectories ( http://arxiv.org/abs/2106.04219v1 )

ライセンス: Link先を確認
Shayegan Omidshafiei, Daniel Hennes, Marta Garnelo, Eugene Tarassov, Zhe Wang, Romuald Elie, Jerome T. Connor, Paul Muller, Ian Graham, William Spearman, Karl Tuyls(参考訳) マルチエージェント環境では、複数の意思決定者が環境が課す動的制約に固執しながら相互作用する。 これらの相互作用は、エージェントの意思決定過程の潜在的確率性と組み合わさって、そのようなシステムを複雑にし、動的観点から研究するのに役立つ。 自動運転車の衝突回避に使用される歩行者の予測など、エージェント行動の前方方向推定のための学習モデルに関する重要な研究が行われている。 しかし、多くの設定では、エージェントの散発的な観察のみが与えられた軌道列で利用できる。 例えばサッカーでは、プレイヤーのサブセットが放送されたビデオ映像の見当から出入りし、監視されていないプレイヤーは画面外で対話し続けている。 本稿では,エージェントのサブセットの過去と将来の観測を他のエージェントの欠落を推定するために利用するマルチエージェント時系列計算の問題について検討する。 グラフインプタ(Graph Imputer)と呼ばれるアプローチでは,グラフネットワークと変分オートエンコーダを組み合わせた前方情報と後方情報を用いて,不規則な軌跡の分布を学習する。 我々は,プロジェクティブカメラモジュールを用いて,サッカーの試合のデータセットに対するアプローチを評価し,オフスクリーンプレイヤ状態推定設定のモデルをトレーニングし,評価する。 本手法は,手作りのフットボールなど,最先端の手法に勝ることを示す。

In multiagent environments, several decision-making individuals interact while adhering to the dynamics constraints imposed by the environment. These interactions, combined with the potential stochasticity of the agents' decision-making processes, make such systems complex and interesting to study from a dynamical perspective. Significant research has been conducted on learning models for forward-direction estimation of agent behaviors, for example, pedestrian predictions used for collision-avoidance in self-driving cars. However, in many settings, only sporadic observations of agents may be available in a given trajectory sequence. For instance, in football, subsets of players may come in and out of view of broadcast video footage, while unobserved players continue to interact off-screen. In this paper, we study the problem of multiagent time-series imputation, where available past and future observations of subsets of agents are used to estimate missing observations for other agents. Our approach, called the Graph Imputer, uses forward- and backward-information in combination with graph networks and variational autoencoders to enable learning of a distribution of imputed trajectories. We evaluate our approach on a dataset of football matches, using a projective camera module to train and evaluate our model for the off-screen player state estimation setting. We illustrate that our method outperforms several state-of-the-art approaches, including those hand-crafted for football.
翻訳日:2021-06-09 16:08:58 公開日:2021-06-08
# 測地運動スキルのためのリーマン多様体の学習

Learning Riemannian Manifolds for Geodesic Motion Skills ( http://arxiv.org/abs/2106.04315v1 )

ライセンス: Link先を確認
Hadi Beik-Mohammadi, S{\o}ren Hauberg, Georgios Arvanitidis, Gerhard Neumann and Leonel Rozo(参考訳) ロボットが人間と一緒に働き、非構造化環境で行動するためには、新しい動きのスキルを学び、目に見えない状況に適応する必要がある。 これにより、関連する動きパターンをキャプチャする学習モデルが必要となり、動的障害回避など、エンコードされたスキルを新たな要件に適応させるのに十分な柔軟性が提供される。 本稿では,この問題に対するリーマン多様体の視点を紹介し,測地線が自然な運動スキルである人間の実演からリーマン多様体を学ぶことを提案する。 我々は,ロボットのエンドエフェクタの位置と方向の空間上の変分オートエンコーダ(vae)を用いてこれを実現する。 測地運動スキルにより、ロボットはデータ多様体上の任意の点から移動を計画できる。 また、オンライン方式で環境メトリクスを再定義することで、障害を避けるための簡単な方法も提供する。 さらに、測地学は自然に多重モードのタスクから生じる多様体を利用して、以前に明示的には示されていなかった動きを設計する。 ロボットは、精巧な動作パターンを特徴とする現実的なスキルを十分に学習し、再現し、以前は目に見えなかった障害物を回避し、複数モード設定で新しい動きを生成する。

For robots to work alongside humans and perform in unstructured environments, they must learn new motion skills and adapt them to unseen situations on the fly. This demands learning models that capture relevant motion patterns, while offering enough flexibility to adapt the encoded skills to new requirements, such as dynamic obstacle avoidance. We introduce a Riemannian manifold perspective on this problem, and propose to learn a Riemannian manifold from human demonstrations on which geodesics are natural motion skills. We realize this with a variational autoencoder (VAE) over the space of position and orientations of the robot end-effector. Geodesic motion skills let a robot plan movements from and to arbitrary points on the data manifold. They also provide a straightforward method to avoid obstacles by redefining the ambient metric in an online fashion. Moreover, geodesics naturally exploit the manifold resulting from multiple--mode tasks to design motions that were not explicitly demonstrated previously. We test our learning framework using a 7-DoF robotic manipulator, where the robot satisfactorily learns and reproduces realistic skills featuring elaborated motion patterns, avoids previously unseen obstacles, and generates novel movements in multiple-mode settings.
翻訳日:2021-06-09 16:08:35 公開日:2021-06-08
# 非信号交差点における自動運転車の安全なディープqネットワーク

Safe Deep Q-Network for Autonomous Vehicles at Unsignalized Intersection ( http://arxiv.org/abs/2106.04561v1 )

ライセンス: Link先を確認
Kasra Mokhtari, Alan R. Wagner(参考訳) 歩行者の群集を通りながら、信号のない交差点で左折しながら、自律走行車(AV)ナビゲーションのための安全なDRLアプローチを提案する。 本手法では,2つの長期記憶モデルを用いて,環境の知覚状態と歩行者の将来の軌跡を学習し,その動きを騒音的に観察する。 エゴ車両と歩行者の将来の軌道に基づく将来の衝突予測アルゴリズムを用いて、システムが衝突を予測した場合の安全でない行動を隠す。 高忠実度CARLAシミュレーション環境を用いて,本手法の性能を2つの実験で評価した。 第1の実験は,訓練交点に類似した交点における本手法の性能をテストし,第2実験は異なる位相をもつ交点における本手法の性能をテストした。 いずれの実験においても, 歩行者との衝突は生じず, 交差点を適度な速度で走行する。

We propose a safe DRL approach for autonomous vehicle (AV) navigation through crowds of pedestrians while making a left turn at an unsignalized intersection. Our method uses two long-short term memory (LSTM) models that are trained to generate the perceived state of the environment and the future trajectories of pedestrians given noisy observations of their movement. A future collision prediction algorithm based on the future trajectories of the ego vehicle and pedestrians is used to mask unsafe actions if the system predicts a collision. The performance of our approach is evaluated in two experiments using the high-fidelity CARLA simulation environment. The first experiment tests the performance of our method at intersections that are similar to the training intersection and the second experiment tests our method at intersections with a different topology. For both experiments, our methods do not result in a collision with a pedestrian while still navigating the intersection at a reasonable speed.
翻訳日:2021-06-09 16:07:57 公開日:2021-06-08
# エントロピー正規化自然政策勾配の線形収束と線形関数近似

Linear Convergence of Entropy-Regularized Natural Policy Gradient with Linear Function Approximation ( http://arxiv.org/abs/2106.04096v1 )

ライセンス: Link先を確認
Semih Cayci, Niao He, R. Srikant(参考訳) 関数近似を用いた自然政策勾配法(NPG)は, 大規模状態行動空間を持つ強化学習問題において, 目覚ましい成功を収めた。 しかし、それらの収束挙動の理論的理解は、関数近似の設定において制限されている。 本稿では,線形関数近似とソフトマックスパラメータ化を用いたNPGの有限時間解析を行い,広範に使用されているエントロピー正則化法が線形収束率を導いたことを初めて証明する。 我々は,収束結果を証明するためにリアプノフドリフト解析を適用し,エントロピー正則化が収束率を改善する効果を説明する。

Natural policy gradient (NPG) methods with function approximation achieve impressive empirical success in reinforcement learning problems with large state-action spaces. However, theoretical understanding of their convergence behaviors remains limited in the function approximation setting. In this paper, we perform a finite-time analysis of NPG with linear function approximation and softmax parameterization, and prove for the first time that widely used entropy regularization method, which encourages exploration, leads to linear convergence rate. We adopt a Lyapunov drift analysis to prove the convergence results and explain the effectiveness of entropy regularization in improving the convergence rates.
翻訳日:2021-06-09 16:07:31 公開日:2021-06-08
# ガウス過程の自己整合理論は有限cnnにおける特徴学習効果を捉える

A self consistent theory of Gaussian Processes captures feature learning effects in finite CNNs ( http://arxiv.org/abs/2106.04110v1 )

ライセンス: Link先を確認
Gadi Naveh and Zohar Ringel(参考訳) 無限幅/チャネル制限のディープニューラルネットワーク(DNN)は、ガウス過程(GP)へのマッピングを通じて、ディープラーニングに明確な解析窓を提供するため、近年多くの注目を集めている。 理論上の魅力にもかかわらず、この視点は有限DNNにおいて深層学習の重要な要素を欠いている。 ここでは,大きなトレーニングセット上で雑音勾配勾配で訓練されたDNNを考察し,強い有限DNNと特徴学習効果を考慮した自己一貫したガウス過程理論を導出する。 これを2層線形畳み込みニューラルネットワーク(CNN)のおもちゃモデルに適用することは、実験とよく一致している。 さらに,本モデルでは,特徴学習体制と遅延学習体制との急激な遷移を解析的および数値的に同定する。 強い有限DNN効果は、非線形2層完全連結ネットワークにもたらされる。 我々の自己整合理論は、有限dnnにおける特徴学習やその他の非ラザイ効果を研究するための、豊かで多用途な分析フレームワークを提供する。

Deep neural networks (DNNs) in the infinite width/channel limit have received much attention recently, as they provide a clear analytical window to deep learning via mappings to Gaussian Processes (GPs). Despite its theoretical appeal, this viewpoint lacks a crucial ingredient of deep learning in finite DNNs, laying at the heart of their success -- feature learning. Here we consider DNNs trained with noisy gradient descent on a large training set and derive a self consistent Gaussian Process theory accounting for strong finite-DNN and feature learning effects. Applying this to a toy model of a two-layer linear convolutional neural network (CNN) shows good agreement with experiments. We further identify, both analytical and numerically, a sharp transition between a feature learning regime and a lazy learning regime in this model. Strong finite-DNN effects are also derived for a non-linear two-layer fully connected network. Our self consistent theory provides a rich and versatile analytical framework for studying feature learning and other non-lazy effects in finite DNNs.
翻訳日:2021-06-09 16:07:22 公開日:2021-06-08
# 非負の線形回帰による最適輸送

Unbalanced Optimal Transport through Non-negative Penalized Linear Regression ( http://arxiv.org/abs/2106.04145v1 )

ライセンス: Link先を確認
Laetitia Chapel, R\'emi Flamary, Haoran Wu, C\'edric F\'evotte and Gilles Gasso(参考訳) 本稿では,不均衡最適輸送(Un Balanced Optimal Transport, UOT)の問題に対処し, 限界条件を緩和し(等式に代えて重み付けしたペナルティを用いて), OT計画に追加の正規化を課さない。 この文脈では、対応する最適化問題は非負のペナルティ化線形回帰問題として再定式化できることを示す。 この改定により、逆問題や非負行列分解から着想を得た新しいアルゴリズムを提案することができる。 特に, 大規模化最小化を考慮し, 様々な罰則に対する効率的な乗法的更新に繋がる。 さらに,UOTの正規化経路を2次ペナルティで計算する効率的なアルゴリズムを初めて導いた。 提案するアルゴリズムは、均衡ot(無限ペナルティ重みに対応する)の解に収束する分割線形otプランの連続性を提供する。 我々は,新しいアルゴリズムを例示するシミュレーションおよび実データに関する数値実験を行い,より洗練された最適化ツールについて詳細な議論を行った。

This paper addresses the problem of Unbalanced Optimal Transport (UOT) in which the marginal conditions are relaxed (using weighted penalties in lieu of equality) and no additional regularization is enforced on the OT plan. In this context, we show that the corresponding optimization problem can be reformulated as a non-negative penalized linear regression problem. This reformulation allows us to propose novel algorithms inspired from inverse problems and nonnegative matrix factorization. In particular, we consider majorization-minimiz ation which leads in our setting to efficient multiplicative updates for a variety of penalties. Furthermore, we derive for the first time an efficient algorithm to compute the regularization path of UOT with quadratic penalties. The proposed algorithm provides a continuity of piece-wise linear OT plans converging to the solution of balanced OT (corresponding to infinite penalty weights). We perform several numerical experiments on simulated and real data illustrating the new algorithms, and provide a detailed discussion about more sophisticated optimization tools that can further be used to solve OT problems thanks to our reformulation.
翻訳日:2021-06-09 16:07:05 公開日:2021-06-08
# 条件付き逆ローゼンブラット輸送

Conditional Deep Inverse Rosenblatt Transports ( http://arxiv.org/abs/2106.04170v1 )

ライセンス: Link先を確認
Tiangang Cui and Sergey Dolgov and Olivier Zahm(参考訳) 統計的学習における条件付き信念の特徴付けの計算負担を軽減する新しいオフラインオンライン手法を提案する。 オフラインフェーズでは,提案手法はテンソルトレイン(TT)フォーマットで,信念のランダム変数と観測のランダム変数の合同法則を学習する。 オンラインフェーズでは、結果の順序保存条件付きトランスポートマップを使用して、新しい観測情報を得た条件付き信念をリアルタイムに評価する。 最先端の正規化フロー技術と比較して,提案手法は関数近似に依存し,徹底的な性能解析を行う。 これにより、高次元の観測と高次元の信念変数による挑戦問題において、トランスポートマップの能力をさらに拡張することができる。 一方,TTの近似能力を高めるため,変数の並べ替えや再パラメータ化のための新しいヒューリスティックスを提案する。 一方,TTをベースとしたトランスポートマップとパラメータのリオーダー/リパラメトリゼーションを層状構造に統合することで,トランスポートマップの性能をさらに向上する。 常微分方程式(ODE)と偏微分方程式(PDE)の様々な統計的学習課題における提案手法の有効性を示す。

We present a novel offline-online method to mitigate the computational burden of the characterization of conditional beliefs in statistical learning. In the offline phase, the proposed method learns the joint law of the belief random variables and the observational random variables in the tensor-train (TT) format. In the online phase, it utilizes the resulting order-preserving conditional transport map to issue real-time characterization of the conditional beliefs given new observed information. Compared with the state-of-the-art normalizing flows techniques, the proposed method relies on function approximation and is equipped with thorough performance analysis. This also allows us to further extend the capability of transport maps in challenging problems with high-dimensional observations and high-dimensional belief variables. On the one hand, we present novel heuristics to reorder and/or reparametrize the variables to enhance the approximation power of TT. On the other, we integrate the TT-based transport maps and the parameter reordering/reparamet rization into layered compositions to further improve the performance of the resulting transport maps. We demonstrate the efficiency of the proposed method on various statistical learning tasks in ordinary differential equations (ODEs) and partial differential equations (PDEs).
翻訳日:2021-06-09 16:06:47 公開日:2021-06-08
# オンラインキューシステムにおける分散学習

Decentralized Learning in Online Queuing Systems ( http://arxiv.org/abs/2106.04228v1 )

ライセンス: Link先を確認
Flore Sentenac and Etienne Boursier and Vianney Perchet(参考訳) コンピュータネットワークにおけるパケットルーティングにより、オンラインキューシステムは異なるレートでパケットを受け取るキューで構成されている。 繰り返し、彼らはパケットをサーバに送信し、それぞれが一度に1つのパケットだけを処理します。 集中型の場合、蓄積されたパケットの数は、サービスレートと到着率の比率が1ドル以上である限り(つまり、システムは \textit{stable} である)有界のままである。 分散化の場合、個別の非回帰戦略は、この比率が2ドルより大きい場合の安定性を保証する。 しかし、後悔の最小化は、パケットのさらなるラウンドへの輸送による長期的な影響を無視している。 一方、長期コストの最小化は、比が$\frac{e}{e-1}$を超えるとすぐに安定なナッシュ均衡をもたらす。 2ドル未満の分散学習戦略による安定性は、依然として大きな疑問であった。 私たちはまず,2ドルまでの比率に対して,政策後悔の自発的最小化,すなわちtextit{patient} という概念がいまだに不安定であるように,学習戦略の安定性には協力が必要である,と論じます。 そこで我々は協調待ち行列を考察し,レート比が1ドルを超える限りシステムの安定性を保証する最初の学習分散アルゴリズムを提案し,集中型戦略に匹敵する性能を達成する。

Motivated by packet routing in computer networks, online queuing systems are composed of queues receiving packets at different rates. Repeatedly, they send packets to servers, each of them treating only at most one packet at a time. In the centralized case, the number of accumulated packets remains bounded (i.e., the system is \textit{stable}) as long as the ratio between service rates and arrival rates is larger than $1$. In the decentralized case, individual no-regret strategies ensures stability when this ratio is larger than $2$. Yet, myopically minimizing regret disregards the long term effects due to the carryover of packets to further rounds. On the other hand, minimizing long term costs leads to stable Nash equilibria as soon as the ratio exceeds $\frac{e}{e-1}$. Stability with decentralized learning strategies with a ratio below $2$ was a major remaining question. We first argue that for ratios up to $2$, cooperation is required for stability of learning strategies, as selfish minimization of policy regret, a \textit{patient} notion of regret, might indeed still be unstable in this case. We therefore consider cooperative queues and propose the first learning decentralized algorithm guaranteeing stability of the system as long as the ratio of rates is larger than $1$, thus reaching performances comparable to centralized strategies.
翻訳日:2021-06-09 16:06:27 公開日:2021-06-08
# DCASE 2021チャレンジタスクの解説と議論2:ドメインシフト条件下での機械状態監視のための教師なし異常音検出

Description and Discussion on DCASE 2021 Challenge Task 2: Unsupervised Anomalous Sound Detection for Machine Condition Monitoring under Domain Shifted Conditions ( http://arxiv.org/abs/2106.04492v1 )

ライセンス: Link先を確認
Yohei Kawaguchi, Keisuke Imoto, Yuma Koizumi, Noboru Harada, Daisuke Niizumi, Kota Dohi, Ryo Tanabe, Harsh Purohit, and Takashi Endo(参考訳) 本稿では,DCASE 2021 Challenge Task 2 の結果について,タスク記述と議論を行う。 昨年, 教師なし音声検出(ASD)タスクを編成し, 異常訓練データなしで, 与えられた音が正常か, 異常かを同定した。 この年,ドメインシフト条件下での高度な教師なしASDタスクを整理し,ASDシステムの実用上の必然的な問題に着目した。 この課題の主な課題は、トレーニングとテストサンプルの音響特性が異なる未知の異常音を検出することである。 ドメインシフト。 この問題は季節や製造品、環境騒音の変化によって頻繁に発生する。 課題提出期限後、課題結果と提案内容の分析を加えます。

We present the task description and discussion on the results of the DCASE 2021 Challenge Task 2. Last year, we organized unsupervised anomalous sound detection (ASD) task; identifying whether the given sound is normal or anomalous without anomalous training data. In this year, we organize an advanced unsupervised ASD task under domain-shift conditions which focuses on the inevitable problem for the practical use of ASD systems. The main challenge of this task is to detect unknown anomalous sounds where the acoustic characteristics of the training and testing samples are different, i.e. domain-shifted. This problem is frequently occurs due to changes in seasons, manufactured products, and/or environmental noise. After the challenge submission deadline, we will add challenge results and analysis of the submissions.
翻訳日:2021-06-09 16:06:05 公開日:2021-06-08
# PolypGen:汎用性評価のためのマルチセンターポリープ検出とセグメンテーションデータセット

PolypGen: A multi-center polyp detection and segmentation dataset for generalisability assessment ( http://arxiv.org/abs/2106.04463v1 )

ライセンス: Link先を確認
Sharib Ali, Debesh Jha, Noha Ghatwary, Stefano Realdon, Renato Cannizzaro, Osama E. Salem, Dominique Lamarque, Christian Daul, Kim V. Anonsen, Michael A. Riegler, P{\aa}l Halvorsen, Jens Rittscher, Thomas de Lange, and James E. East(参考訳) 大腸のポリープは、大腸内視鏡で診断されるがん前駆体として広く知られており、症状の診断、大腸癌検診、特定の疾患の組織的監視に関連する。 ほとんどのポリープは良性であるが、ポリープの数、大きさ、表面構造は大腸癌のリスクと密接に関連している。 大腸ポリープの異常, 再発率, 解剖学的トポグラフィなどの異常により, 検出精度が低下し, 大腸ポリープの除去が不完全であった。 過去、ポリプの検出とセグメンテーションを自動化するいくつかの方法が構築されてきた。 しかし、ほとんどのメソッドの大きな問題は、大規模なマルチセンターの目的構築データセットで厳格にテストされていないことである。 したがって、これらの手法は特定の人口と内視鏡的監視に過度に適合するため、異なる人口データセットに一般化することができない。 この範囲で、300人以上の患者を対象とする6つのセンターからデータセットを収集した。 このデータセットは、3446個のアノテートされたポリプラベルを持つ単一フレームとシーケンスデータの両方を含む。 私たちの知る限り、これは計算科学者と専門の消化器科医のチームが計算した、最も包括的な検出とピクセルレベルのセグメンテーションデータセットです。 このデータセットは、ポリプ検出とセグメンテーションの汎用性に対処するためのendocv2021チャレンジの一部として開発された。 本稿では,データ構築とアノテーション戦略,アノテーションの品質保証,およびPolypGenと呼ばれる拡張型EndoCV2021データセットの技術的検証に関する総合的な知見を提供する。

Polyps in the colon are widely known as cancer precursors identified by colonoscopy either related to diagnostic work-up for symptoms, colorectal cancer screening or systematic surveillance of certain diseases. Whilst most polyps are benign, the number, size and the surface structure of the polyp are tightly linked to the risk of colon cancer. There exists a high missed detection rate and incomplete removal of colon polyps due to the variable nature, difficulties to delineate the abnormality, high recurrence rates and the anatomical topography of the colon. In the past, several methods have been built to automate polyp detection and segmentation. However, the key issue of most methods is that they have not been tested rigorously on a large multi-center purpose-built dataset. Thus, these methods may not generalise to different population datasets as they overfit to a specific population and endoscopic surveillance. To this extent, we have curated a dataset from 6 different centers incorporating more than 300 patients. The dataset includes both single frame and sequence data with 3446 annotated polyp labels with precise delineation of polyp boundaries verified by six senior gastroenterologists. To our knowledge, this is the most comprehensive detection and pixel-level segmentation dataset curated by a team of computational scientists and expert gastroenterologists. This dataset has been originated as the part of the Endocv2021 challenge aimed at addressing generalisability in polyp detection and segmentation. In this paper, we provide comprehensive insight into data construction and annotation strategies, annotation quality assurance and technical validation for our extended EndoCV2021 dataset which we refer to as PolypGen.
翻訳日:2021-06-09 16:05:20 公開日:2021-06-08
# チャネル注意による脳性麻痺予測に基づく深層学習の解釈

Interpreting Deep Learning based Cerebral Palsy Prediction with Channel Attention ( http://arxiv.org/abs/2106.04471v1 )

ライセンス: Link先を確認
Manli Zhu, Qianhui Men, Edmond S. L. Ho, Howard Leung, Hubert P. H. Shum(参考訳) 脳性麻痺の早期予測は、早期治療と監視につながるため不可欠である。 ディープラーニングは、複雑なデータを非線形アーキテクチャでモデル化する能力のおかげで、バイオメディカルエンジニアリングにおいて有望な結果を示している。 しかし、その複雑な構造のため、深層学習モデルは一般にヒトでは解釈できないため、臨床医が研究結果に頼ることは困難である。 本稿では,幼児の身体運動から脳性麻痺を予測するための,深層学習モデルのためのチャネルアテンションモジュールを提案する。 身体関節) モデルが重要であると認識し、なぜ特定の診断結果が見つかるかを示す。 入力特徴をモデル化する際の深層ネットワークの能力を強調するために,手作りの特徴の代わりに生の関節位置を利用する。 本システムを実世界の乳幼児運動データセットで検証する。 提案するチャネルアテンションモジュールは,ネットワークが考慮する疾患に対する重要な関節の可視化を可能にする。 本システムは91.67%の精度を達成し,他の最先端のディープラーニング手法を抑圧する。

Early prediction of cerebral palsy is essential as it leads to early treatment and monitoring. Deep learning has shown promising results in biomedical engineering thanks to its capacity of modelling complicated data with its non-linear architecture. However, due to their complex structure, deep learning models are generally not interpretable by humans, making it difficult for clinicians to rely on the findings. In this paper, we propose a channel attention module for deep learning models to predict cerebral palsy from infants' body movements, which highlights the key features (i.e. body joints) the model identifies as important, thereby indicating why certain diagnostic results are found. To highlight the capacity of the deep network in modelling input features, we utilize raw joint positions instead of hand-crafted features. We validate our system with a real-world infant movement dataset. Our proposed channel attention module enables the visualization of the vital joints to this disease that the network considers. Our system achieves 91.67% accuracy, suppressing other state-of-the-art deep learning methods.
翻訳日:2021-06-09 16:04:57 公開日:2021-06-08
# 不確実性を持つ接触型操作タスクに対する残留フィードバック学習

Residual Feedback Learning for Contact-Rich Manipulation Tasks with Uncertainty ( http://arxiv.org/abs/2106.04306v1 )

ライセンス: Link先を確認
Alireza Ranjbar, Ngo Anh Vien, Hanna Ziesche, Joschka Boedecker, Gerhard Neumann(参考訳) 古典的な制御理論は、多くの問題シナリオにおいて最先端の解を提供するが、そのような解の構造を超えて改善し、その限界を超えることがしばしば望まれる。 この目的のために、 \emph{\gls{rpl}} は、与えられたコントローラの出力に付加的な「残留」を学習することで、強化学習(RL)で既存のコントローラを改善するための定式化を提供する。 しかし、そのようなアプローチの適用性は、コントローラの構造に大きく依存する。 しばしば、コントローラの内部フィードバック信号は、ポリシーを適切に変更するためにRLアルゴリズムを制限し、従ってタスクを学習する。 本稿では、RLポリシーで制御器にフィードバック信号を変更することで、これらの制約に対処する新しい定式化を提案し、位置および方向の不確実性の下での接触豊富なペグ挿入タスクに対するアプローチの優れた性能を示す。 さらに,最近のインピーダンス制御アーキテクチャを制御フレームワークとして使用し,標準rplの難しさを示す。 さらに,与えられた課題に対する適応カリキュラムを導入し,位置や方向の不確実性の観点からタスクの難易度を徐々に高めていく。 結果を示すビデオはhttps://youtu.be/SAZ m_Krze7U で見ることができる。

While classic control theory offers state of the art solutions in many problem scenarios, it is often desired to improve beyond the structure of such solutions and surpass their limitations. To this end, \emph{\gls{rpl}} offers a formulation to improve existing controllers with reinforcement learning (RL) by learning an additive "residual" to the output of a given controller. However, the applicability of such an approach highly depends on the structure of the controller. Often, internal feedback signals of the controller limit an RL algorithm to adequately change the policy and, hence, learn the task. We propose a new formulation that addresses these limitations by also modifying the feedback signals to the controller with an RL policy and show superior performance of our approach on a contact-rich peg-insertion task under position and orientation uncertainty. In addition, we use a recent impedance control architecture as control framework and show the difficulties of standard RPL. Furthermore, we introduce an adaptive curriculum for the given task to gradually increase the task difficulty in terms of position and orientation uncertainty. A video showing the results can be found at https://youtu.be/SAZ m_Krze7U .
翻訳日:2021-06-09 16:04:42 公開日:2021-06-08
# コミュニティ構造を考慮したネットワーク回帰モデルの推定

Inference for Network Regression Models with Community Structure ( http://arxiv.org/abs/2106.04271v1 )

ライセンス: Link先を確認
Mengjie Pan, Tyler H. McCormick, Bailey K. Fosdick(参考訳) ネットワーク回帰モデルは、ネットワーク内の価値あるエッジを構成し、予測子はアクターまたはダイアドレベルの共変量であり、社会的および生物学的科学において広く使用される。 妥当性推論は、関係間の残留依存を正確にモデル化することに依存する。 しばしば同質性の仮定は、一般的に誤りであり、アクターの批判的で自然なクラスタリングを無視するエラーに置かれる。 本研究では,コミュニティベースの依存構造から生じる誤差をモデル化し,それに続く誤差分布の交換可能性特性を利用して回帰パラメータの標準誤差を求める,新しい回帰モデルフレームワークを提案する。

Network regression models, where the outcome comprises the valued edge in a network and the predictors are actor or dyad-level covariates, are used extensively in the social and biological sciences. Valid inference relies on accurately modeling the residual dependencies among the relations. Frequently homogeneity assumptions are placed on the errors which are commonly incorrect and ignore critical, natural clustering of the actors. In this work, we present a novel regression modeling framework that models the errors as resulting from a community-based dependence structure and exploits the subsequent exchangeability properties of the error distribution to obtain parsimonious standard errors for regression parameters.
翻訳日:2021-06-09 16:04:21 公開日:2021-06-08
# RewardsOfSum: 要約のための強化学習リワードを探る

RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation ( http://arxiv.org/abs/2106.04080v1 )

ライセンス: Link先を確認
Jacob Parnell, Inigo Jauregi Unanue and Massimo Piccardi(参考訳) これまで、ほとんどの抽象的な要約モデルは、トレーニング目的として負の対数類似度(NLL)の変種に依存してきた。 いくつかのケースでは、評価基準に近い目標(例)でモデルを訓練するために強化学習が加えられている。 ROUGE)。 しかし、強化学習アプローチで使用する報酬関数は、パフォーマンスの重要な役割を担い、まだ部分的には未検討である。 そこで本稿では,RwB-Hingeと呼ばれる第1の関数が勾配更新のサンプルを動的に選択する,抽象的要約のタスクに対する2つの報酬関数を提案する。 第2の機能はRISKと呼ばれ、強力な候補者の小さなプールを利用して報酬を知らせる。 実験では,NLL事前学習モデルを,異なるサイズと性質の9つの要約データセット上で微調整することにより,提案手法を検証した。 実験結果から, 負の対数型ベースラインよりも一貫した改善が見られた。

To date, most abstractive summarisation models have relied on variants of the negative log-likelihood (NLL) as their training objective. In some cases, reinforcement learning has been added to train the models with an objective that is closer to their evaluation measures (e.g. ROUGE). However, the reward function to be used within the reinforcement learning approach can play a key role for performance and is still partially unexplored. For this reason, in this paper, we propose two reward functions for the task of abstractive summarisation: the first function, referred to as RwB-Hinge, dynamically selects the samples for the gradient update. The second function, nicknamed RISK, leverages a small pool of strong candidates to inform the reward. In the experiments, we probe the proposed approach by fine-tuning an NLL pre trained model over nine summarisation datasets of diverse size and nature. The experimental results show a consistent improvement over the negative log-likelihood baselines.
翻訳日:2021-06-09 16:03:07 公開日:2021-06-08
# マスキング言語モデルからの弱い監督を伴う超微細エンティティ型付け

Ultra-Fine Entity Typing with Weak Supervision from a Masked Language Model ( http://arxiv.org/abs/2106.04098v1 )

ライセンス: Link先を確認
Hongliang Dai, Yangqiu Song, Haixun Wang(参考訳) 近年では、より豊かで微細な型集合を用いて細粒度のエンティティタイピングを拡張し、単に名前付きエンティティ言及ではなく、代名詞や名詞を含む名詞句をラベル付けする取り組みが行われている。 この超微細なエンティティタイピングタスクの重要な課題は、人間の注釈付きデータが極めて少なく、既存の遠隔または弱い監督アプローチのアノテーション能力が非常に限られていることである。 そこで本稿では, BERT Masked Language Model (MLM) を用いて, 超微細エンティティタイピングのためのトレーニングデータを取得することを提案する。 文中の言及が与えられた場合,提案手法はBERT MLMの入力を構築し,参照の文脈依存ハイパーネムを予測し,型ラベルとして使用することができる。 実験により,これら自動生成ラベルの助けを借りて,超微細なエンティティタイピングモデルの性能を大幅に向上できることを示した。 また、本手法は、単純な型マッピングを実行した後、従来の細粒度エンティティタイピングを改善するためにも適用可能であることを示す。

Recently, there is an effort to extend fine-grained entity typing by using a richer and ultra-fine set of types, and labeling noun phrases including pronouns and nominal nouns instead of just named entity mentions. A key challenge for this ultra-fine entity typing task is that human annotated data are extremely scarce, and the annotation ability of existing distant or weak supervision approaches is very limited. To remedy this problem, in this paper, we propose to obtain training data for ultra-fine entity typing by using a BERT Masked Language Model (MLM). Given a mention in a sentence, our approach constructs an input for the BERT MLM so that it predicts context dependent hypernyms of the mention, which can be used as type labels. Experimental results demonstrate that, with the help of these automatically generated labels, the performance of an ultra-fine entity typing model can be improved substantially. We also show that our approach can be applied to improve traditional fine-grained entity typing after performing simple type mapping.
翻訳日:2021-06-09 16:02:53 公開日:2021-06-08
# A Falta de Pan, Buenas Son Tortas: 低リソースUD解析における予測POSタグの有効性

A Falta de Pan, Buenas Son Tortas: The Efficacy of Predicted UPOS Tags for Low Resource UD Parsing ( http://arxiv.org/abs/2106.04222v1 )

ライセンス: Link先を確認
Mark Anderson and Mathieu Dehouck and Carlos G\'omez Rodr\'iguez(参考訳) 我々は,低リソース環境における依存パーサの入力機能として,予測されたuposタグの有効性を評価し,treebankのサイズがパース性能に与える影響を評価する。 我々は、実際の低リソースのユニバーサルなツリーバンク、様々なツリーバンクサイズを持つ人工的な低リソースデータ、そして様々な量の拡張データを持つ非常に小さなツリーバンクに対してこれを行う。 予測された UPOS タグは低リソースツリーバンク,特に完全に注釈付けされたツリーが少ない場合に有効であることがわかった。 また、データ量が増加すると、このポジティブな影響は減少します。

We evaluate the efficacy of predicted UPOS tags as input features for dependency parsers in lower resource settings to evaluate how treebank size affects the impact tagging accuracy has on parsing performance. We do this for real low resource universal dependency treebanks, artificially low resource data with varying treebank sizes, and for very small treebanks with varying amounts of augmented data. We find that predicted UPOS tags are somewhat helpful for low resource treebanks, especially when fewer fully-annotated trees are available. We also find that this positive impact diminishes as the amount of data increases.
翻訳日:2021-06-09 16:02:35 公開日:2021-06-08
# アスペクトベース感情分析のための統一生成フレームワーク

A Unified Generative Framework for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2106.04300v1 )

ライセンス: Link先を確認
Hang Yan, Junqi Dai, Tuo ji, Xipeng Qiu, Zheng Zhang(参考訳) Aspect-based Sentiment Analysis (ABSA) は、アスペクト項、対応する感情極性、意見項を識別することを目的としている。 ABSAには7つのサブタスクがある。 ほとんどの研究はこれらのサブタスクのサブセットのみに焦点を当てており、様々な複雑なABSAモデルをもたらすが、これらのサブタスクを統一されたフレームワークで解決することは困難である。 本稿では,すべてのサブタスクをポインタインデックスと感情クラスインデックスで混合したシーケンスとして再定義し,すべてのABSAサブタスクを統一的な生成形式に変換する。 統一された定式化に基づいて、トレーニング前のシーケンス・ツー・シーケンスモデルBARTを用いて、エンド・ツー・エンドのフレームワークで全てのABSAサブタスクを解決する。 7つのサブタスクのための4つのABSAデータセットに対する大規模な実験は、我々のフレームワークがパフォーマンスを大幅に向上し、ABSAサブタスク全体に対して真の統一されたエンドツーエンドソリューションを提供することを示した。

Aspect-based Sentiment Analysis (ABSA) aims to identify the aspect terms, their corresponding sentiment polarities, and the opinion terms. There exist seven subtasks in ABSA. Most studies only focus on the subsets of these subtasks, which leads to various complicated ABSA models while hard to solve these subtasks in a unified framework. In this paper, we redefine every subtask target as a sequence mixed by pointer indexes and sentiment class indexes, which converts all ABSA subtasks into a unified generative formulation. Based on the unified formulation, we exploit the pre-training sequence-to-sequence model BART to solve all ABSA subtasks in an end-to-end framework. Extensive experiments on four ABSA datasets for seven subtasks demonstrate that our framework achieves substantial performance gain and provides a real unified end-to-end solution for the whole ABSA subtasks, which could benefit multiple tasks.
翻訳日:2021-06-09 16:02:23 公開日:2021-06-08
# 仮想埋め込みによる機械読解のための逆学習

Adversarial Training for Machine Reading Comprehension with Virtual Embeddings ( http://arxiv.org/abs/2106.04437v1 )

ライセンス: Link先を確認
Ziqing Yang, Yiming Cui, Chenglei Si, Wanxiang Che, Ting Liu, Shijin Wang, Guoping Hu(参考訳) 正則化手法としてのAT(Adversarial Training)は,様々なタスクにおいて有効であることが証明されている。 いくつかのNLPタスクに対するATの適用は成功したが、NLPタスクの識別特性は利用されていない。 本稿では,機械読解(MRC)タスクにATを適用することを目的とする。 さらに,単語ベクトルの代わりに埋め込み行列を摂動する,PQATと呼ばれる新しい逆学習手法を提案することで,MSCタスクにATを適用する。 通過と質問の役割を区別するために、PQATは追加の仮想P/Q埋め込み行列を使用して、通過と質問から単語のグローバルな摂動を別々に収集する。 提案手法は,スパンベース抽出RCや複数選択RCなど,幅広いMRCタスクでテストする。 その結果,対向訓練は普遍的に有効であり,pqatは性能をさらに向上させることがわかった。

Adversarial training (AT) as a regularization method has proved its effectiveness on various tasks. Though there are successful applications of AT on some NLP tasks, the distinguishing characteristics of NLP tasks have not been exploited. In this paper, we aim to apply AT on machine reading comprehension (MRC) tasks. Furthermore, we adapt AT for MRC tasks by proposing a novel adversarial training method called PQAT that perturbs the embedding matrix instead of word vectors. To differentiate the roles of passages and questions, PQAT uses additional virtual P/Q-embedding matrices to gather the global perturbations of words from passages and questions separately. We test the method on a wide range of MRC tasks, including span-based extractive RC and multiple-choice RC. The results show that adversarial training is effective universally, and PQAT further improves the performance.
翻訳日:2021-06-09 16:02:07 公開日:2021-06-08
# CLTR: セルレベルのテーブル検索とテーブル質問応答のためのエンドツーエンド変換システム

CLTR: An End-to-End, Transformer-Based System for Cell Level TableRetrieval and Table Question Answering ( http://arxiv.org/abs/2106.04441v1 )

ライセンス: Link先を確認
Feifei Pan, Mustafa Canim, Michael Glass, Alfio Gliozzo, Peter Fox(参考訳) 本稿では,自然言語質問と膨大なテーブルコーパスを入力として,最も関係のあるテーブルを検索し,質問に答えるために正しいテーブルセルを見つける,最初のエンドツーエンドのトランスフォーマーベースのテーブル質問応答(qa)システムを提案する。 我々のシステムであるCLTRは、現在の最先端QAをテーブルモデル上に拡張し、エンドツーエンドのテーブルQAアーキテクチャを構築します。 このシステムは、単純な統一パイプラインで多くの現実世界のテーブルQA問題に取り組むことに成功した。 提案システムでは,複雑なテーブル上の候補列と行のヒートマップを生成することができ,質問に答える正しいセルを素早く特定できる。 さらに,76,242テーブル上の2,005の自然言語質問からなる2つの新しいオープンドメインベンチマークであるE2E_WTQとE2E_GNQを導入する。 ベンチマークはCLTRを検証するとともに、将来のテーブル検索とエンドツーエンドのテーブルQAの研究と実験に対応するように設計されている。 実験により,本システムはテーブル検索タスクにおける最先端モデルであり,エンドツーエンドのテーブルQAに対して有望な結果が得られた。

We present the first end-to-end, transformer-based table question answering (QA) system that takes natural language questions and massive table corpus as inputs to retrieve the most relevant tables and locate the correct table cells to answer the question. Our system, CLTR, extends the current state-of-the-art QA over tables model to build an end-to-end table QA architecture. This system has successfully tackled many real-world table QA problems with a simple, unified pipeline. Our proposed system can also generate a heatmap of candidate columns and rows over complex tables and allow users to quickly identify the correct cells to answer questions. In addition, we introduce two new open-domain benchmarks, E2E_WTQ and E2E_GNQ, consisting of 2,005 natural language questions over 76,242 tables. The benchmarks are designed to validate CLTR as well as accommodate future table retrieval and end-to-end table QA research and experiments. Our experiments demonstrate that our system is the current state-of-the-art model on the table retrieval task and produces promising results for end-to-end table QA.
翻訳日:2021-06-09 16:01:53 公開日:2021-06-08
# StackOverflowを読む:質問文を追加して抽出コード生成を改善する

Reading StackOverflow Encourages Cheating: Adding Question Text Improves Extractive Code Generation ( http://arxiv.org/abs/2106.04447v1 )

ライセンス: Link先を確認
Gabriel Orlanski and Alex Gittens(参考訳) 厳格な文脈情報が省略されるため、タイトルだけでプログラミング質問に答えるのは困難である。 この観察に基づいて,conalaデータセット(yin et al., 2018)から得られたインテントと合わせて,4万以上のstackoverflow質問テキストのコーパスを提案する。 インテントと質問体の両方を用いて、我々はBARTを使用して、この新しいタスクのベースラインBLEUスコア34.35を確立する。 採掘されたコナラデータとラベル付きデータを組み合わせて、35.32 bleuスコアを達成することでさらに2.8\%$の改善が得られた。 この追加データを用いて先行技術のCoNaLaモデルの評価を行い,提案手法が先行技術のBLEUスコアを71.96 %$で上回っていることを確認した。 最後に,BARTが教師なしマルチモーダル学習者であることを証明し,その抽出行動について検討する。 コードとデータはhttps://github.com/g abeorlanski/stackove rflow-encourages-che atingにある。

Answering a programming question using only its title is difficult as salient contextual information is omitted. Based on this observation, we present a corpus of over 40,000 StackOverflow question texts to be used in conjunction with their corresponding intents from the CoNaLa dataset (Yin et al., 2018). Using both the intent and question body, we use BART to establish a baseline BLEU score of 34.35 for this new task. We find further improvements of $2.8\%$ by combining the mined CoNaLa data with the labeled data to achieve a 35.32 BLEU score. We evaluate prior state-of-the-art CoNaLa models with this additional data and find that our proposed method of using the body and mined data beats the BLEU score of the prior state-of-the-art by $71.96\%$. Finally, we perform ablations to demonstrate that BART is an unsupervised multimodal learner and examine its extractive behavior. The code and data can be found https://github.com/g abeorlanski/stackove rflow-encourages-che ating.
翻訳日:2021-06-09 16:01:33 公開日:2021-06-08
# すべてをパースするセマンティックパーサの1つ:セマンティックパースデータセット上でのマルチタスク学習のシーケンス

One Semantic Parser to Parse Them All: Sequence to Sequence Multi-Task Learning on Semantic Parsing Datasets ( http://arxiv.org/abs/2106.04476v1 )

ライセンス: Link先を確認
Marco Damonte, Emilio Monti(参考訳) 意味構文解析器は自然言語発話を意味表現にマッピングする。 意味表現のための単一の標準が欠如していたため、セマンティック解析データセットが多用された。 異なるデータセットを統一し、単一のモデルをトレーニングするために、Multi-Task Learning(MTL)アーキテクチャの使用について検討する。 5つのデータセット(Geoquery、NLMaps、TOP、Overnight、AMR)を実験します。 データセット間でネットワーク全体を共有しているMTLアーキテクチャは、シングルタスクベースラインよりも競合的あるいはより良い解析精度をもたらし、パラメータの総数を68%削減する。 さらに、MTLはシングルタスクモデルよりも構成一般化が優れていることを示す。 また,タスクサンプリング手法の比較を行い,広く普及する比例サンプリング戦略の代替案を提案する。

Semantic parsers map natural language utterances to meaning representations. The lack of a single standard for meaning representations led to the creation of a plethora of semantic parsing datasets. To unify different datasets and train a single model for them, we investigate the use of Multi-Task Learning (MTL) architectures. We experiment with five datasets (Geoquery, NLMaps, TOP, Overnight, AMR). We find that an MTL architecture that shares the entire network across datasets yields competitive or better parsing accuracies than the single-task baselines, while reducing the total number of parameters by 68%. We further provide evidence that MTL has also better compositional generalization than single-task models. We also present a comparison of task sampling methods and propose a competitive alternative to widespread proportional sampling strategies.
翻訳日:2021-06-09 16:01:14 公開日:2021-06-08
# 共有ハイパーネットワークによるトランスフォーマのパラメータ効率の高いマルチタスク微調整

Parameter-efficient Multi-task Fine-tuning for Transformers via Shared Hypernetworks ( http://arxiv.org/abs/2106.04489v1 )

ライセンス: Link先を確認
Rabeeh Karimi Mahabadi, Sebastian Ruder, Mostafa Dehghani, James Henderson(参考訳) 最先端パラメータ効率の微調整手法は、事前訓練された言語モデルの層間のアダプタモジュールの導入に依存している。 しかしながら、これらのモジュールはタスク毎に個別にトレーニングされるため、タスク間で情報を共有できない。 本稿では,タスクの条件,アダプタ位置,レイヤIDをトランスフォーマモデルで共有ハイパーネットワークを用いて生成することで,すべてのレイヤやタスクに対するアダプタパラメータを学習できることを示す。 このパラメータ効率のよいマルチタスク学習フレームワークは、ハイパーネットワークを通じてタスク間の知識を共有しながら、タスク固有のアダプタを通じて各タスクに適応することで、両方の世界のベストを達成できます。 よく知られたGLUEベンチマークの実験では、タスク当たり0.29%のパラメータしか追加することなく、マルチタスク学習のパフォーマンスが改善された。 さらに、様々なタスクにまたがる領域の一般化において、大幅なパフォーマンス向上を示す。 私たちのコードはhttps://github.com/r abeehk/hyperformerで公開されています。

State-of-the-art parameter-efficient fine-tuning methods rely on introducing adapter modules between the layers of a pretrained language model. However, such modules are trained separately for each task and thus do not enable sharing information across tasks. In this paper, we show that we can learn adapter parameters for all layers and tasks by generating them using shared hypernetworks, which condition on task, adapter position, and layer id in a transformer model. This parameter-efficient multi-task learning framework allows us to achieve the best of both worlds by sharing knowledge across tasks via hypernetworks while enabling the model to adapt to each individual task through task-specific adapters. Experiments on the well-known GLUE benchmark show improved performance in multi-task learning while adding only 0.29% parameters per task. We additionally demonstrate substantial performance improvements in few-shot domain generalization across a variety of tasks. Our code is publicly available in https://github.com/r abeehk/hyperformer.
翻訳日:2021-06-09 16:01:01 公開日:2021-06-08
# turing: 正確で解釈可能なマルチハイポテーゼのクロスドメイン自然言語データベースインタフェース

Turing: an Accurate and Interpretable Multi-Hypothesis Cross-Domain Natural Language Database Interface ( http://arxiv.org/abs/2106.04559v1 )

ライセンス: Link先を確認
Peng Xu, Wenjie Zi, Hamidreza Shahidi, \'Akos K\'ad\'ar, Keyi Tang, Wei Yang, Jawad Ateeq, Harsh Barot, Meidan Alon, Yanshuai Cao(参考訳) 自然言語データベースインタフェース(nldb)は、非技術ユーザのためのデータ駆動の洞察を民主化することができる。 しかし、既存のtext-to-sqlセマンティクスパーサは、データベース横断設定において高い精度を達成できず、実用的なユーザビリティを実現している。 このギャップを橋渡しするためのnldbシステムであるturingを提案する。 新たな値予測手法を用いたTuringのクロスドメインセマンティックパーザは,スパイダー検証セット上での75.1\%$実行精度,78.3\%$トップ5ビーム実行精度を実現している。 高いビーム精度の利点を生かして,その違いを強調して,ビーム内のSQL仮説を段階的に自然言語で説明するインタラクティブシステムの設計を行う。 ユーザーは仮説を比較して判断し、どの仮説が意図を反映しているかを選択できる。 チューリングにおけるSQLクエリの英語説明は、同期文法に基づく高精度自然言語生成システムによって作成される。

A natural language database interface (NLDB) can democratize data-driven insights for non-technical users. However, existing Text-to-SQL semantic parsers cannot achieve high enough accuracy in the cross-database setting to allow good usability in practice. This work presents Turing, a NLDB system toward bridging this gap. The cross-domain semantic parser of Turing with our novel value prediction method achieves $75.1\%$ execution accuracy, and $78.3\%$ top-5 beam execution accuracy on the Spider validation set. To benefit from the higher beam accuracy, we design an interactive system where the SQL hypotheses in the beam are explained step-by-step in natural language, with their differences highlighted. The user can then compare and judge the hypotheses to select which one reflects their intention if any. The English explanations of SQL queries in Turing are produced by our high-precision natural language generation system based on synchronous grammars.
翻訳日:2021-06-09 16:00:47 公開日:2021-06-08
# 二変量凝集過程における区間不確かさ伝播制御と幅制限区間値重なり関数の導入

Towards interval uncertainty propagation control in bivariate aggregation processes and the introduction of width-limited interval-valued overlap functions ( http://arxiv.org/abs/2106.04233v1 )

ライセンス: Link先を確認
Tiago da Cruz Asmus, Gra\c{c}aliz Pereira Dimuro, Benjam\'in Bedregal, Jos\'e Antonio Sanz, Radko Mesiar and Humberto Bustince(参考訳) オーバーラップ関数は、2つの値間の重なり合う度合いを測定するアグリゲーション関数のクラスである。 区間値重複関数は、間隔値データの重複を表現する拡張として定義され、通常、メンバーシップ次数の割り当てに不確実性がある場合に適用される。 区間の合計順序の選択は重要であり、これは区間値集約関数と区間値重なり関数の最近の発展の動機となり、与えられた許容順序、すなわち区間の通常の部分順序を洗練する総順序へと増加する。 また、近年の研究では、不確実性の増加を回避し、情報品質を保証するため、幅保存が検討されているが、入力間隔の幅と出力間隔の関係、間隔値関数の適用、あるいはこの関係に基づいて不確実性伝播を制御する方法については、より深い研究は行われていない。 Thus, in this paper we: (i) introduce and develop the concepts of width-limited interval-valued functions and width limiting functions, presenting a theoretical approach to analyze the relation between the widths of the input and output intervals of bivariate interval-valued functions, with special attention to interval-valued aggregation functions; (ii) introduce the concept of $(a,b)$-ultramodular aggregation functions, a less restrictive extension of one-dimension convexity for bivariate aggregation functions, which have an important predictable behaviour with respect to the width when extended to the interval-valued context; (iii) define width-limited interval-valued overlap functions, taking into account a function that controls the width of the output interval; (iv) present and compare three construction methods for these width-limited interval-valued overlap functions.

Overlap functions are a class of aggregation functions that measure the overlapping degree between two values. Interval-valued overlap functions were defined as an extension to express the overlapping of interval-valued data, and they have been usually applied when there is uncertainty regarding the assignment of membership degrees. The choice of a total order for intervals can be significant, which motivated the recent developments on interval-valued aggregation functions and interval-valued overlap functions that are increasing to a given admissible order, that is, a total order that refines the usual partial order for intervals. Also, width preservation has been considered on these recent works, in an intent to avoid the uncertainty increase and guarantee the information quality, but no deeper study was made regarding the relation between the widths of the input intervals and the output interval, when applying interval-valued functions, or how one can control such uncertainty propagation based on this relation. Thus, in this paper we: (i) introduce and develop the concepts of width-limited interval-valued functions and width limiting functions, presenting a theoretical approach to analyze the relation between the widths of the input and output intervals of bivariate interval-valued functions, with special attention to interval-valued aggregation functions; (ii) introduce the concept of $(a,b)$-ultramodular aggregation functions, a less restrictive extension of one-dimension convexity for bivariate aggregation functions, which have an important predictable behaviour with respect to the width when extended to the interval-valued context; (iii) define width-limited interval-valued overlap functions, taking into account a function that controls the width of the output interval; (iv) present and compare three construction methods for these width-limited interval-valued overlap functions.
翻訳日:2021-06-09 16:00:12 公開日:2021-06-08
# spacemeshlab: 意味セグメンテーションのための空間コンテキストのメモ化とメッシュグリッドの畳み込みコンセンサス

SpaceMeshLab: Spatial Context Memoization and Meshgrid Atrous Convolution Consensus for Semantic Segmentation ( http://arxiv.org/abs/2106.04025v1 )

ライセンス: Link先を確認
Taehun Kim, Jinseong Kim, Daijin Kim(参考訳) 意味セグメンテーションネットワークは、空間的文脈情報の不足を生じる画像分類ネットワークからの転送学習を採用する。 そこで本稿では,入力次元を維持し,その空間コンテキストと豊かな意味情報をバックボーンネットワークと相互に通信することにより,空間コンテキストをバイパスする空間コンテキストメモ化(SpaM)を提案する。 意味セグメンテーションのためのマルチスケールコンテキスト情報は、与えられたシーンにおける対象オブジェクトの多様なサイズと形状を扱うために不可欠である。 従来のマルチスケールのコンテキストスキームでは、複数の拡張率やプーリング操作による複数の効果的な受容場が採用されているが、対象画素に対する不一致の問題がしばしば発生する。 この目的のために,メッシュグリッドのような分散拡散率の畳み込みを用いたマルチスケールのマルチスケールオブジェクトコンテキストにマルチスケールスキームをもたらすMetroCon^2を提案する。 SpaceMeshLab (ResNet-101 + SpaM + MetroCon^2)は、Cityscapesテストで82.0% mIoU、Pascal-Context検証セットで53.5% mIoUを達成した。

Semantic segmentation networks adopt transfer learning from image classification networks which occurs a shortage of spatial context information. For this reason, we propose Spatial Context Memoization (SpaM), a bypassing branch for spatial context by retaining the input dimension and constantly communicating its spatial context and rich semantic information mutually with the backbone network. Multi-scale context information for semantic segmentation is crucial for dealing with diverse sizes and shapes of target objects in the given scene. Conventional multi-scale context scheme adopts multiple effective receptive fields by multiple dilation rates or pooling operations, but often suffer from misalignment problem with respect to the target pixel. To this end, we propose Meshgrid Atrous Convolution Consensus (MetroCon^2) which brings multi-scale scheme into fine-grained multi-scale object context using convolutions with meshgrid-like scattered dilation rates. SpaceMeshLab (ResNet-101 + SpaM + MetroCon^2) achieves 82.0% mIoU in Cityscapes test and 53.5% mIoU on Pascal-Context validation set.
翻訳日:2021-06-09 15:58:54 公開日:2021-06-08
# 弱教師付きセマンティックセグメンテーションのための親和性注意グラフニューラルネットワーク

Affinity Attention Graph Neural Network for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2106.04054v1 )

ライセンス: Link先を確認
Bingfeng Zhang, Jimin Xiao, Jianbo Jiao, Yunchao Wei, Yao Zhao(参考訳) 弱い教師付きセマンティックセグメンテーションは、人間のアノテーションコストが低いために大きな注目を集めている。 本稿では,境界ボックスアノテーションを監督として,教師付き意味セグメンテーション,すなわち正確な意味セグメンテーションモデルを訓練することを目的とした。 この目的のために、親和性注意グラフニューラルネットワーク(A^2$GNN)を提案する。 これまでに提案した親和性畳み込みニューラルネットワーク(CNN)に基づいて,まず擬似意味認識種子を生成した。 次に、構築したグラフを$a^2$gnnに入力し、親和性注意層がソフトグラフエッジから短距離および長距離情報を取得し、自信のある種からラベルなし画素に意味ラベルを正確に伝播するように設計する。 しかし, 種子の精度を保証するため, A^2$GNNに対して, 信頼度の高い種子ラベルを限定的に採用するだけで, トレーニングの監督が不十分になる可能性がある。 この問題を軽減するため,我々はさらに,境界ボックス制約を活用するための新しい損失関数と一貫性チェック機構を導入し,より信頼性の高いガイダンスをモデル最適化に含める。 実験の結果,Pascal VOC 2012データセット(val:76.5\%,test:75. 2\%)上での最先端のパフォーマンスが得られた。 さらに重要なことに、このアプローチはバウンディングボックスの教師付きインスタンスセグメンテーションタスクや他の弱い教師付きセマンティックセグメンテーションタスクに容易に適用でき、pascal vocまたはcocoデータセット上のすべての弱い教師付きタスクに対して最先端または同等の性能を提供することができます。 ソースコードはhttps://github.com/z bf1991/A2GNNで公開されます。

Weakly supervised semantic segmentation is receiving great attention due to its low human annotation cost. In this paper, we aim to tackle bounding box supervised semantic segmentation, i.e., training accurate semantic segmentation models using bounding box annotations as supervision. To this end, we propose Affinity Attention Graph Neural Network ($A^2$GNN). Following previous practices, we first generate pseudo semantic-aware seeds, which are then formed into semantic graphs based on our newly proposed affinity Convolutional Neural Network (CNN). Then the built graphs are input to our $A^2$GNN, in which an affinity attention layer is designed to acquire the short- and long- distance information from soft graph edges to accurately propagate semantic labels from the confident seeds to the unlabeled pixels. However, to guarantee the precision of the seeds, we only adopt a limited number of confident pixel seed labels for $A^2$GNN, which may lead to insufficient supervision for training. To alleviate this issue, we further introduce a new loss function and a consistency-checking mechanism to leverage the bounding box constraint, so that more reliable guidance can be included for the model optimization. Experiments show that our approach achieves new state-of-the-art performances on Pascal VOC 2012 datasets (val: 76.5\%, test: 75.2\%). More importantly, our approach can be readily applied to bounding box supervised instance segmentation task or other weakly supervised semantic segmentation tasks, with state-of-the-art or comparable performance among almot all weakly supervised tasks on PASCAL VOC or COCO dataset. Our source code will be available at https://github.com/z bf1991/A2GNN.
翻訳日:2021-06-09 15:58:32 公開日:2021-06-08
# localtrans:クロスレゾリューションホモグラフィ推定のためのマルチスケールローカルトランスフォーマーネットワーク

LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution Homography Estimation ( http://arxiv.org/abs/2106.04067v1 )

ライセンス: Link先を確認
Ruizhi Shao, Gaochang Wu, Yuemei Zhou, Ying Fu, Lu Fang, Yebin Liu(参考訳) クロスレゾリューション画像アライメントは、解像度ギャップが大きい画像を用いてホモグラフィ行列を推定する必要があるマルチスケールギガピクセル撮影において重要な問題である。 既存のディープ・ホモグラフィー手法は入力画像や特徴を結合し、それら間の対応の明示的な定式化を無視する。 本稿では、クロスレゾリューションのホモグラフィー推定をマルチモーダル問題とみなし、マルチモーダル入力、すなわち異なる解像度の入力画像間の対応を明示的に学習するマルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。 提案する局所変圧器は,特徴のそれぞれの位置に対して局所的注意マップを採用する。 ローカルトランスとマルチスケール構造を組み合わせることで、ネットワークは長距離対応を効率的かつ正確に捉えることができる。 ms-cocoデータセットとリアルタイムのクロスレゾリューションデータセットの両方の実験により、提案されたネットワークは、既存の最先端の機能ベースおよびディープラーニングに基づくホモグラフィ推定方法よりも優れており、10\times$の解像度ギャップの下で正確に画像をアライメントすることができる。

Cross-resolution image alignment is a key problem in multiscale gigapixel photography, which requires to estimate homography matrix using images with large resolution gap. Existing deep homography methods concatenate the input images or features, neglecting the explicit formulation of correspondences between them, which leads to degraded accuracy in cross-resolution challenges. In this paper, we consider the cross-resolution homography estimation as a multimodal problem, and propose a local transformer network embedded within a multiscale structure to explicitly learn correspondences between the multimodal inputs, namely, input images with different resolutions. The proposed local transformer adopts a local attention map specifically for each position in the feature. By combining the local transformer with the multiscale structure, the network is able to capture long-short range correspondences efficiently and accurately. Experiments on both the MS-COCO dataset and the real-captured cross-resolution dataset show that the proposed network outperforms existing state-of-the-art feature-based and deep-learning-based homography estimation methods, and is able to accurately align images under $10\times$ resolution gap.
翻訳日:2021-06-09 15:58:02 公開日:2021-06-08
# 弱監視検出におけるスーパービジョンの救い

Salvage of Supervision in Weakly Supervised Detection ( http://arxiv.org/abs/2106.04073v1 )

ライセンス: Link先を確認
Lin Sui, Chen-Lin Zhang, Jianxin Wu(参考訳) weakly supervised object detection (wsod) は近年注目を集めている。 しかし、WSODと完全教師付き検出との手法、性能、速度ギャップは、WSODを現実世界のタスクに適用することを妨げる。 本稿では,このギャップを埋めるために,wsodにおける潜在的に有用な監視信号(弱画像レベルラベル,擬似ラベル,半教師付き物体検出のパワー)を活用すべく,新たな枠組みであるsaveage of supervisor (sos)を提案する。 本稿では,各種類の監視信号が,既存のwsod法(主に弱ラベルのみを使用する)を大きなマージンで上回り,顕著な改善をもたらすことを示す。 提案手法は, VOC2007では64.4 $m\text{AP}_{50}$, VOC2012では61.9 $m\text{AP}_{50}$, MS-COCOでは16.4 $m\text{AP}_{50:95}$を達成する。 アブレーションと可視化はSoSの有効性をさらに検証する。

Weakly supervised object detection (WSOD) has recently attracted much attention. However, the method, performance and speed gaps between WSOD and fully supervised detection prevent WSOD from being applied in real-world tasks. To bridge the gaps, this paper proposes a new framework, Salvage of Supervision (SoS), with the key idea being to harness every potentially useful supervisory signal in WSOD: the weak image-level labels, the pseudo-labels, and the power of semi-supervised object detection. This paper shows that each type of supervisory signal brings in notable improvements, outperforms existing WSOD methods (which mainly use only the weak labels) by large margins. The proposed SoS-WSOD method achieves 64.4 $m\text{AP}_{50}$ on VOC2007, 61.9 $m\text{AP}_{50}$ on VOC2012 and 16.4 $m\text{AP}_{50:95}$ on MS-COCO, and also has fast inference speed. Ablations and visualization further verify the effectiveness of SoS.
翻訳日:2021-06-09 15:57:40 公開日:2021-06-08
# 異物発見:部品認識変換器で人物を識別する

Diverse Part Discovery: Occluded Person Re-identification with Part-Aware Transformer ( http://arxiv.org/abs/2106.04095v1 )

ライセンス: Link先を確認
Yulin Li, Jianfeng He, Tianzhu Zhang, Xiang Liu, Yongdong Zhang, Feng Wu(参考訳) Re-ID(Occluded person re-identification)は,特に観衆のシナリオにおいて,様々な障害や他者によって隠蔽されることの多い課題である。 そこで,本稿では,画素コンテクストベースのトランスコーダや部分プロトタイプベースのトランスコーダなど,トランスフォーマエンコーダアーキテクチャによる多種多様な部分発見を通じて,オクルードされた人物を識別する,エンド・ツー・エンドのパート・ツー・アウェア・トランスフォーマ(pat)を提案する。 提案したPATモデルにはいくつかのメリットがある。 第一に、我々の知る限りでは、これは統一された深層モデルでオクルードされた人物に対するトランスフォーマーエンコーダ-デコーダアーキテクチャを利用する最初の仕事である。 第2に、識別ラベルのみを用いて、部品のプロトタイプを学習するために、部分の多様性と部分の識別可能性を含む2つの効果的なメカニズムを設計する。 その結果,隠蔽者のRe-IDを弱教師付きで多種多様な部分発見が可能となった。 3つのタスク (occluded, partial and holistic re-id) に対する6つの難易度ベンチマークの広範な実験結果から,提案手法がstat-of-the-art法に対して好成績を示した。

Occluded person re-identification (Re-ID) is a challenging task as persons are frequently occluded by various obstacles or other persons, especially in the crowd scenario. To address these issues, we propose a novel end-to-end Part-Aware Transformer (PAT) for occluded person Re-ID through diverse part discovery via a transformer encoderdecoder architecture, including a pixel context based transformer encoder and a part prototype based transformer decoder. The proposed PAT model enjoys several merits. First, to the best of our knowledge, this is the first work to exploit the transformer encoder-decoder architecture for occluded person Re-ID in a unified deep model. Second, to learn part prototypes well with only identity labels, we design two effective mechanisms including part diversity and part discriminability. Consequently, we can achieve diverse part discovery for occluded person Re-ID in a weakly supervised manner. Extensive experimental results on six challenging benchmarks for three tasks (occluded, partial and holistic Re-ID) demonstrate that our proposed PAT performs favorably against stat-of-the-art methods.
翻訳日:2021-06-09 15:57:20 公開日:2021-06-08
# セマンティックイメージセグメンテーションのための完全変圧器ネットワーク

Fully Transformer Networks for Semantic ImageSegmentation ( http://arxiv.org/abs/2106.04108v1 )

ライセンス: Link先を確認
Sitong Wu, Tianyi Wu, Fangjian Lin, Shengwei Tian, Guodong Guo(参考訳) トランスフォーマーは、様々な自然言語処理やコンピュータビジョンタスクにおいて、長距離依存をモデル化する能力のために、顕著なパフォーマンスを示している。 最近の進歩により、このようなトランスフォーマーをcnnベースのセマンティックイメージセグメンテーションモデルと組み合わせることは、非常に有望である。 しかし、純粋なトランスフォーマティブ・アプローチが画像分割に対していかにうまく達成できるかについては、まだよく研究されていない。 本研究では,エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いたセマンティックイメージセグメンテーションのための新しいフレームワークを提案する。 具体的には,まず,階層的特徴を段階的に学習するエンコーダとしてピラミッド群トランスフォーマ(pgt)を提案し,標準視覚トランスフォーマ(vit)の計算複雑性を低減した。 次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。 驚くべきことに、この単純なベースラインは、pascal context、ade20k、coco-stuffなど、複数の挑戦的なセマンティックセグメンテーションベンチマークで、新たな最先端結果を得ることができる。 ソースコードは、この作品の公開時にリリースされる予定だ。

Transformers have shown impressive performance in various natural language processing and computer vision tasks, due to the capability of modeling long-range dependencies. Recent progress has demonstrated to combine such transformers with CNN-based semantic image segmentation models is very promising. However, it is not well studied yet on how well a pure transformer based approach can achieve for image segmentation. In this work, we explore a novel framework for semantic image segmentation, which is encoder-decoder based Fully Transformer Networks (FTN). Specifically, we first propose a Pyramid Group Transformer (PGT) as the encoder for progressively learning hierarchical features, while reducing the computation complexity of the standard visual transformer(ViT). Then, we propose a Feature Pyramid Transformer (FPT) to fuse semantic-level and spatial-level information from multiple levels of the PGT encoder for semantic image segmentation. Surprisingly, this simple baseline can achieve new state-of-the-art results on multiple challenging semantic segmentation benchmarks, including PASCAL Context, ADE20K and COCO-Stuff. The source code will be released upon the publication of this work.
翻訳日:2021-06-09 15:56:54 公開日:2021-06-08
# 顔認識のための認識不能顔の活用

Harnessing Unrecognizable Faces for Face Recognition ( http://arxiv.org/abs/2106.04112v1 )

ライセンス: Link先を確認
Siqi Deng, Yuanjun Xiong, Meng Wang, Wei Xia, Stefano Soatto(参考訳) 検出段階と認識または検証段階のカスケードとしての顔認識システムの一般的な実装は、検出器の故障以上の問題を引き起こす可能性がある。 検知器が成功すると、認識できない顔を検出することができる。 したがって、潜在変数である認識可能性は、顔認識システムの設計と実装に分解されるべきである。 顔画像の埋め込みは、主に認識可能なアイデンティティを用いて訓練されたディープニューラルネットワークによって実装され、認識できないアイデンティティを一緒にクラスタ化するハイパースフィアの分割を誘導する。 これは、顔が認識できない現象によらず、光学的または運動的ぼかし、部分的閉塞、空間的量子化、照明不足などである。 したがって、認識可能性の尺度としてこのような「認識不能なアイデンティティ」からの距離を使い、全システムの設計に組み込む。 本稿では, ijb-c共変量検証ベンチマークにおいて, 1画像認識の誤り率を58%削減し, ijb-cベンチマークでのセットベース認識において, 検証誤差率を24%低減することを示す。

The common implementation of face recognition systems as a cascade of a detection stage and a recognition or verification stage can cause problems beyond failures of the detector. When the detector succeeds, it can detect faces that cannot be recognized, no matter how capable the recognition system. Recognizability, a latent variable, should therefore be factored into the design and implementation of face recognition systems. We propose a measure of recognizability of a face image that leverages a key empirical observation: an embedding of face images, implemented by a deep neural network trained using mostly recognizable identities, induces a partition of the hypersphere whereby unrecognizable identities cluster together. This occurs regardless of the phenomenon that causes a face to be unrecognizable, it be optical or motion blur, partial occlusion, spatial quantization, poor illumination. Therefore, we use the distance from such an "unrecognizable identity" as a measure of recognizability, and incorporate it in the design of the over-all system. We show that accounting for recognizability reduces error rate of single-image face recognition by 58% at FAR=1e-5 on the IJB-C Covariate Verification benchmark, and reduces verification error rate by 24% at FAR=1e-5 in set-based recognition on the IJB-C benchmark.
翻訳日:2021-06-09 15:56:33 公開日:2021-06-08
# 多目的最適化による画像変形推定

Image Deformation Estimation via Multi-Objective Optimization ( http://arxiv.org/abs/2106.04139v1 )

ライセンス: Link先を確認
Takumi Nakane, Xuequan Lu, Haoran Xie, Chao Zhang(参考訳) 自由形変形モデルは、画像上の制御点格子を操作することにより、幅広い非剛体変形を表現することができる。 しかし, 多数のパラメータを考慮し, 自由形変形モデルを直接変形画像に適合させることは, フィットネスランドスケープの複雑さから困難である。 本稿では,各制御点の影響を受ける領域が重なり合うという事実に基づき,多目的最適化問題(MOP)として登録タスクをキャストする。 具体的には、テンプレート画像を複数の領域に分割し、各領域の類似度を独立に測定することにより、複数の目的を構築し、MOEAを用いてMOPを解くことで変形推定を実現する。 さらに、画像ピラミッドと制御点メッシュ分割を組み合わせた粗大な戦略を実現する。 具体的には、現在の画像レベルの最適化された候補解を次のレベルに継承し、大きな変形に対処する能力を高める。 また,パレート最適解を用いた単一出力を生成するための後処理手法を提案する。 合成画像と実世界の画像の比較実験により, 変形推定法の有効性と有用性を示した。

The free-form deformation model can represent a wide range of non-rigid deformations by manipulating a control point lattice over the image. However, due to a large number of parameters, it is challenging to fit the free-form deformation model directly to the deformed image for deformation estimation because of the complexity of the fitness landscape. In this paper, we cast the registration task as a multi-objective optimization problem (MOP) according to the fact that regions affected by each control point overlap with each other. Specifically, by partitioning the template image into several regions and measuring the similarity of each region independently, multiple objectives are built and deformation estimation can thus be realized by solving the MOP with off-the-shelf multi-objective evolutionary algorithms (MOEAs). In addition, a coarse-to-fine strategy is realized by image pyramid combined with control point mesh subdivision. Specifically, the optimized candidate solutions of the current image level are inherited by the next level, which increases the ability to deal with large deformation. Also, a post-processing procedure is proposed to generate a single output utilizing the Pareto optimal solutions. Comparative experiments on both synthetic and real-world images show the effectiveness and usefulness of our deformation estimation method.
翻訳日:2021-06-09 15:56:11 公開日:2021-06-08
# ドメイン一般化意味セグメンテーションのための逆意味幻覚

Adversarial Semantic Hallucination for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2106.04144v1 )

ライセンス: Link先を確認
Gabriel Tjio, Ping Liu, Joey Tianyi Zhou, Rick Siow Mong Goh(参考訳) 畳み込みニューラルネットワークは、テストとトレーニングデータが異なるドメインからのものである場合、パフォーマンスが悪い可能性がある。 この問題は、ターゲットドメインデータを使用してソースとターゲットドメインの特徴表現を調整することで緩和できるが、プライバシ上の懸念からターゲットドメインデータは利用できない可能性がある。 そのため、トレーニング中にターゲットドメインデータにアクセスせずにうまく一般化するメソッドが必要となる。 本研究では,クラス毎の幻覚モジュールと意味セグメンテーションモジュールを組み合わせた逆幻覚アプローチを提案する。 セグメンテーション性能はクラスによって異なるため、各クラスを適応的にスタイリングする意味条件付きスタイル幻覚層を設計する。 ソース領域画像のセグメンテーション確率マップにおける意味知識から、クラス毎のスタイライゼーションパラメータを生成する。 どちらのモジュールも反対に競合し、幻覚モジュールはセグメンテーションモジュールに挑戦するためにますます「難しい」スタイルのイメージを生成する。 これに応答して、セグメンテーションモジュールは、生成されたサンプルで適切なクラス毎の難易度レベルでトレーニングされるため、パフォーマンスが向上する。 artドメイン適応作業の現状に関する実験は、トレーニング対象のドメインデータがない場合に提案手法の有効性を示すものである。

Convolutional neural networks may perform poorly when the test and train data are from different domains. While this problem can be mitigated by using the target domain data to align the source and target domain feature representations, the target domain data may be unavailable due to privacy concerns. Consequently, there is a need for methods that generalize well without access to target domain data during training. In this work, we propose an adversarial hallucination approach, which combines a class-wise hallucination module and a semantic segmentation module. Since the segmentation performance varies across different classes, we design a semantic-conditioned style hallucination layer to adaptively stylize each class. The classwise stylization parameters are generated from the semantic knowledge in the segmentation probability maps of the source domain image. Both modules compete adversarially, with the hallucination module generating increasingly 'difficult' style images to challenge the segmentation module. In response, the segmentation module improves its performance as it is trained with generated samples at an appropriate class-wise difficulty level. Experiments on state of the art domain adaptation work demonstrate the efficacy of our proposed method when no target domain data are available for training.
翻訳日:2021-06-09 15:55:55 公開日:2021-06-08
# 境界を知らない極小アクションローカライズ

Few-Shot Action Localization without Knowing Boundaries ( http://arxiv.org/abs/2106.04150v1 )

ライセンス: Link先を確認
Ting-Ting Xie, Christos Tzelepis, Fan Fu, Ioannis Patras(参考訳) アクションのローカライズを長く、ごちゃごちゃで、そして見当たらないビデオで学ぶことは難しい作業であり、文学では、各クラスに大量の注釈付きトレーニングサンプルが利用可能であることを前提として、一般的に対処されてきた。 本稿では、さらに一歩進めて、a) 対象アクションの1/2のトリミング例のみをテスト時に利用できる場合、b) クラスラベルアノテーションのみを持つビデオの大規模なコレクション(トリミングと弱アノテーション付き未トリミング)をトレーニング用に利用できる場合、そして、トレーニングやテストで使用されるクラス間に重複がない場合に、未トリミングビデオにおけるアクションのローカライズを学習できることを示します。 そこで本研究では,ビデオの対(トリミング,未トリミング)間の粒度の類似度パターンをモデル化する時間的類似度行列(tsms)を推定し,それを用いて視・視認できないクラスに対して時間的クラス活性化マップ(tcam)を生成するネットワークを提案する。 TCAMは、ビデオレベルのビデオ表現を抽出し、テスト時の動作を時間的にローカライズするための時間的注意機構として機能する。 我々の知る限りでは、我々は、エンドツーエンドでトレーニングできる弱い教師付きワンショットアクションローカライゼーションネットワークを最初に提案する。 THUMOS14およびActivityNet1.2データセットによる実験結果から,本手法は最先端の完全教師付き数ショット学習手法に匹敵する性能を達成することが示された。

Learning to localize actions in long, cluttered, and untrimmed videos is a hard task, that in the literature has typically been addressed assuming the availability of large amounts of annotated training samples for each class -- either in a fully-supervised setting, where action boundaries are known, or in a weakly-supervised setting, where only class labels are known for each video. In this paper, we go a step further and show that it is possible to learn to localize actions in untrimmed videos when a) only one/few trimmed examples of the target action are available at test time, and b) when a large collection of videos with only class label annotation (some trimmed and some weakly annotated untrimmed ones) are available for training; with no overlap between the classes used during training and testing. To do so, we propose a network that learns to estimate Temporal Similarity Matrices (TSMs) that model a fine-grained similarity pattern between pairs of videos (trimmed or untrimmed), and uses them to generate Temporal Class Activation Maps (TCAMs) for seen or unseen classes. The TCAMs serve as temporal attention mechanisms to extract video-level representations of untrimmed videos, and to temporally localize actions at test time. To the best of our knowledge, we are the first to propose a weakly-supervised, one/few-shot action localization network that can be trained in an end-to-end fashion. Experimental results on THUMOS14 and ActivityNet1.2 datasets, show that our method achieves performance comparable or better to state-of-the-art fully-supervised, few-shot learning methods.
翻訳日:2021-06-09 15:55:34 公開日:2021-06-08
# 未来の移動研究の基礎としての高精度デジタルトラヒック記録:研究プロジェクトHDV-Messの手法と概念

Highly accurate digital traffic recording as a basis for future mobility research: Methods and concepts of the research project HDV-Mess ( http://arxiv.org/abs/2106.04175v1 )

ライセンス: Link先を確認
Laurent Kloeker, Fabian Thomsen, Lutz Eckstein, Philip Trettner, Tim Elsner, Julius Nehring-Wirxel, Kersten Schuster, Leif Kobbelt, Michael Hoesch(参考訳) 研究プロジェクトhdv-messは、現在欠けているが、公道における接続および自動走行の分野における重要な課題に取り組む上で非常に重要な要素を狙っている。 目標は、現在および将来のセンサ技術および自動運転機能の開発と検証の基盤として、各所の交通イベントを高精度に記録し、実際の交通データを収集することである。 この目的のためには,高精度なトラヒックデータ取得のための駅計測のためのモバイルモジュールシステムの概念を開発し,センサと通信インフラを複数箇所に一時的に設置することが必要である。 本稿では,移動式モジュール型インテリジェントトランスポートシステムステーション(ITS-Ss)を用いた交通検知の概念を提示する前に,まずプロジェクト目標について論じる。 次に, センサ生データのデータ処理手法について, 改良された軌跡, データ通信, データ検証について解説する。

The research project HDV-Mess aims at a currently missing, but very crucial component for addressing important challenges in the field of connected and automated driving on public roads. The goal is to record traffic events at various relevant locations with high accuracy and to collect real traffic data as a basis for the development and validation of current and future sensor technologies as well as automated driving functions. For this purpose, it is necessary to develop a concept for a mobile modular system of measuring stations for highly accurate traffic data acquisition, which enables a temporary installation of a sensor and communication infrastructure at different locations. Within this paper, we first discuss the project goals before we present our traffic detection concept using mobile modular intelligent transport systems stations (ITS-Ss). We then explain the approaches for data processing of sensor raw data to refined trajectories, data communication, and data validation.
翻訳日:2021-06-09 15:54:59 公開日:2021-06-08
# ホワイトペーパーの支援: ショートカット学習を超えて前進する

White Paper Assistance: A Step Forward Beyond the Shortcut Learning ( http://arxiv.org/abs/2106.04178v1 )

ライセンス: Link先を確認
Xuan Cheng, Tianshu Xie, Xiaomin Wang, Jiali Deng, Minghui Liu, Ming Liu(参考訳) CNNの有望なパフォーマンスは、実際に私たちが関心を持っている方法で行っているかどうかを調べる必要性を覆すことが多い。 過度にパラメータ化されたモデルであっても、スプリアス相関(いわゆる「ショートカット」)を無謀に活用してデータセットを解決できることを実験を通して示します。 この意図しない不確実性に対処するために,プリンタテストページのアイデアを借用し,ホワイトペーパーアシストと呼ばれる新しいアプローチを提案する。 提案手法では, モデルが特定の特徴的パターンを好む程度をホワイトペーパーに検出し, モデルにランダムな推測を強制することにより, モデルを緩和する。 様々なアーキテクチャ、データセット、他の技術との組合せに現れる一貫性のある精度改善を示す。 また, きめ細かな認識, 不均衡な分類, 腐敗に対するロバスト性に対するアプローチの汎用性についても実証した。

The promising performances of CNNs often overshadow the need to examine whether they are doing in the way we are actually interested. We show through experiments that even over-parameterized models would still solve a dataset by recklessly leveraging spurious correlations, or so-called 'shortcuts'. To combat with this unintended propensity, we borrow the idea of printer test page and propose a novel approach called White Paper Assistance. Our proposed method involves the white paper to detect the extent to which the model has preference for certain characterized patterns and alleviates it by forcing the model to make a random guess on the white paper. We show the consistent accuracy improvements that are manifest in various architectures, datasets and combinations with other techniques. Experiments have also demonstrated the versatility of our approach on fine-grained recognition, imbalanced classification and robustness to corruptions.
翻訳日:2021-06-09 15:54:44 公開日:2021-06-08
# LipSync3D: Pose と Lighting Normalization を用いたビデオからのパーソナライズされた3次元発話顔の学習

LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from Video using Pose and Lighting Normalization ( http://arxiv.org/abs/2106.04185v1 )

ライセンス: Link先を確認
Avisek Lahiri, Vivek Kwatra, Christian Frueh, John Lewis, Chris Bregler(参考訳) 本稿では、音声からパーソナライズされた3D音声をアニメーションするビデオベースの学習フレームワークを提案する。 データサンプル効率を大幅に改善する2つのトレーニング時間データ正規化を導入する。 まず,3次元形状,頭部ポーズ,テクスチャを分離した正規化空間における顔の分離と表現を行う。 これにより、予測問題を3次元顔形状および対応する2次元テクスチャアトラス上の回帰に分解する。 第2に,顔面の対称性と皮膚の近似アルベド成分を利用して時空間照明の変動を分離し除去する。 これらの正規化によって、単純なネットワークは、単一の話者固有のビデオでトレーニングしながら、新しい環境照明下で高忠実度リップシンクビデオを生成することができる。 さらに,時間的ダイナミクスを安定させるために,従来の視覚状態にモデルを条件付ける自動回帰手法を導入する。 人間の評価と客観的指標は、我々の手法が現実主義、リップシンク、視覚的品質スコアの点で、現代の最先端オーディオ駆動ビデオ再現ベンチマークより優れていることを示している。 フレームワークによって実現されるいくつかのアプリケーションについて説明します。

In this paper, we present a video-based learning framework for animating personalized 3D talking faces from audio. We introduce two training-time data normalizations that significantly improve data sample efficiency. First, we isolate and represent faces in a normalized space that decouples 3D geometry, head pose, and texture. This decomposes the prediction problem into regressions over the 3D face shape and the corresponding 2D texture atlas. Second, we leverage facial symmetry and approximate albedo constancy of skin to isolate and remove spatio-temporal lighting variations. Together, these normalizations allow simple networks to generate high fidelity lip-sync videos under novel ambient illumination while training with just a single speaker-specific video. Further, to stabilize temporal dynamics, we introduce an auto-regressive approach that conditions the model on its previous visual state. Human ratings and objective metrics demonstrate that our method outperforms contemporary state-of-the-art audio-driven video reenactment benchmarks in terms of realism, lip-sync and visual quality scores. We illustrate several applications enabled by our framework.
翻訳日:2021-06-09 15:54:29 公開日:2021-06-08
# HPRNet: 全体的人文評価のための階層的ポイント回帰

HPRNet: Hierarchical Point Regression for Whole-Body Human Pose Estimation ( http://arxiv.org/abs/2106.04269v1 )

ライセンス: Link先を確認
Nermin Samet and Emre Akbas(参考訳) 本稿では,本手法を実装したネットワークを例として,階層的位置回帰(hierarchical point regression) (HPRNet) と呼ぶボトムアップ一段階推定手法を提案する。 異なる部位間のスケールのばらつきに対処するため,各部位の階層的な点表現を構築し,それらを協調的に補強する。 既存の2段階の手法とは異なり、画像中の人物数に依存しない一定時間で全身のポーズを予測する。 COCO WholeBodyデータセットでは、HPRNetは、すべてのボディ部分(つまり)のキーポイント検出において、以前のボトムアップメソッドを著しく上回っている。 体、足、顔、手) 顔(75.4 AP)と手(50.4 AP)における最先端の結果も達成する。 コードとモデルはhttps://github.com/n erminsamet/hprnet.gi tで入手できる。

In this paper, we present a new bottom-up one-stage method for whole-body pose estimation, which we name "hierarchical point regression," or HPRNet for short, referring to the network that implements this method. To handle the scale variance among different body parts, we build a hierarchical point representation of body parts and jointly regress them. Unlike the existing two-stage methods, our method predicts whole-body pose in a constant time independent of the number of people in an image. On the COCO WholeBody dataset, HPRNet significantly outperforms all previous bottom-up methods on the keypoint detection of all whole-body parts (i.e. body, foot, face and hand); it also achieves state-of-the-art results in the face (75.4 AP) and hand (50.4 AP) keypoint detection. Code and models are available at https://github.com/n erminsamet/HPRNet.gi t.
翻訳日:2021-06-09 15:54:09 公開日:2021-06-08
# 手形推定のためのコントラスト表現学習

Contrastive Representation Learning for Hand Shape Estimation ( http://arxiv.org/abs/2106.04324v1 )

ライセンス: Link先を確認
Christian Zimmermann, Max Argus and Thomas Brox(参考訳) 本研究は、教師なし学習の最近の進歩の上に構築された単眼手形状推定の改善を示す。 我々は、運動量比較学習を拡張し、ハンコと呼ばれる視覚表現学習に適した手画像の構造化集合に寄与する。 提案手法は,先進的な背景除去手法と多視点情報を利用して,コントラスト学習手法によって学習した表現を大幅に改善することができる。 これにより、例ベースのアプローチで一般的に使用される拡張によって得られるものよりも、より多様なインスタンスペアを生成することができます。 提案手法は,手形推定タスクに適した表現となり,メッシュ誤差の4.7%低減と,imagenetで事前学習したベースラインと比較してf-scoreの3.6%向上を示す。 当社はベンチマークデータセットを公開し、この方向性に関するさらなる調査を奨励しています。

This work presents improvements in monocular hand shape estimation by building on top of recent advances in unsupervised learning. We extend momentum contrastive learning and contribute a structured collection of hand images, well suited for visual representation learning, which we call HanCo. We find that the representation learned by established contrastive learning methods can be improved significantly by exploiting advanced background removal techniques and multi-view information. These allow us to generate more diverse instance pairs than those obtained by augmentations commonly used in exemplar based approaches. Our method leads to a more suitable representation for the hand shape estimation task and shows a 4.7% reduction in mesh error and a 3.6% improvement in F-score compared to an ImageNet pretrained baseline. We make our benchmark dataset publicly available, to encourage further research into this direction.
翻訳日:2021-06-09 15:53:50 公開日:2021-06-08
# 皮膚腫瘍分類のためのセグメンテーションとABCDルール抽出

Segmentation and ABCD rule extraction for skin tumors classification ( http://arxiv.org/abs/2106.04372v1 )

ライセンス: Link先を確認
Mahammed Messadi, Hocine Cherifi (Le2i), Abdelhafid Bessaid(参考訳) 過去数年間、コンピュータビジョンに基づく診断システムは、いくつかの病院や皮膚科で広く用いられており、皮膚がんの中でも最も頻度の高い悪性黒色腫腫瘍の早期発見を目的としている。 そこで本研究では, 悪性皮膚病変と良性病変を区別するために, 臨床診断に使用される abcd 規則に基づく自動診断システムを提案する。 まず,小構造物の影響を低減するために,形態的および高速マーチング方式に基づく前処理ステップを用いる。 第2段階では,病変分節に対する教師なしアプローチを提案する。 繰り返ししきい値設定が自動的に初期化される。 自動境界の検出は,コンピュータ化メラノーマ認識システムにおけるその後の位相の正しさにとって重要なステップであり,その精度をグローカットおよび平均シフトアルゴリズムと比較し,これらの結果が次のステップにどう影響するかを考察する。 非対称性(a)、境界(b)、色(c)、多様性(d)の4つの特徴を計算し、悪性黒色腫の認識のための人工神経回路に基づく分類モジュールを構築する。 このフレームワークは320枚の画像の皮膚科データベース [16] でテストされている。 分類の結果,真検出率の増加と偽陽性率の低下が認められた。

During the last years, computer vision-based diagnosis systems have been widely used in several hospitals and dermatology clinics, aiming at the early detection of malignant melanoma tumor, which is among the most frequent types of skin cancer. In this work, we present an automated diagnosis system based on the ABCD rule used in clinical diagnosis in order to discriminate benign from malignant skin lesions. First, to reduce the influence of small structures, a preprocessing step based on morphological and fast marching schemes is used. In the second step, an unsupervised approach for lesion segmentation is proposed. Iterative thresholding is applied to initialize level set automatically. As the detection of an automated border is an important step for the correctness of subsequent phases in the computerized melanoma recognition systems, we compare its accuracy with growcut and mean shift algorithms, and discuss how these results may influence in the following steps: the feature extraction and the final lesion classification. Relying on visual diagnosis four features: Asymmetry (A), Border (B), Color (C) and Diversity (D) are computed and used to construct a classification module based on artificial neural network for the recognition of malignant melanoma. This framework has been tested on a dermoscopic database [16] of 320 images. The classification results show an increasing true detection rate and a decreasing false positive rate.
翻訳日:2021-06-09 15:53:36 公開日:2021-06-08
# CSRNet:リアルタイムセマンティックセグメンテーションのためのカスケード選択分解ネットワーク

CSRNet: Cascaded Selective Resolution Network for Real-time Semantic Segmentation ( http://arxiv.org/abs/2106.04400v1 )

ライセンス: Link先を確認
Jingjing Xiong, Lai-Man Po, Wing-Yin Yu, Chang Zhou, Pengfei Xian and Weifeng Ou(参考訳) リアルタイムセマンティクスセグメンテーションは、自動運転車やロボティクスなど、多くの実用的なアプリケーションで需要が高まっているため、多くの注目を集めている。 既存のリアルタイムセグメンテーションアプローチは、しばしば機能融合を利用してセグメンテーション精度を向上させる。 しかし、異なる解像度で特徴情報を十分に考慮することができず、ネットワークの受容領域は比較的限られており、性能が向上する。 この問題に対処するために,複数のコンテキスト情報埋め込みと機能集約の強化により,リアルタイムセグメンテーションの性能を向上させるための軽量カスケード選択分解ネットワーク(CSRNet)を提案する。 提案するネットワークは,低解像度から高解像度までの特徴情報を統合し,段階的に機能改善を実現する3段階セグメンテーションシステムを構築する。 CSRNetには、SPFM(Shorted Pyramid Fusion Module)とSRM(Selective Resolution Module)の2つの重要なモジュールが含まれている。 SPFMは、グローバルコンテキスト情報を組み込んだ計算効率の良いモジュールであり、各ステージにおける受容場を大幅に拡大する。 srmは、マルチレゾリューション機能マップと様々な受容フィールドを融合して、機能マップにソフトチャネルの注意を割り当て、マルチスケールオブジェクトによって引き起こされる問題を解決するために設計されている。 2つのよく知られたデータセットに関する総合実験により、提案したCSRNetがリアルタイムセグメンテーションの性能を効果的に向上することを示した。

Real-time semantic segmentation has received considerable attention due to growing demands in many practical applications, such as autonomous vehicles, robotics, etc. Existing real-time segmentation approaches often utilize feature fusion to improve segmentation accuracy. However, they fail to fully consider the feature information at different resolutions and the receptive fields of the networks are relatively limited, thereby compromising the performance. To tackle this problem, we propose a light Cascaded Selective Resolution Network (CSRNet) to improve the performance of real-time segmentation through multiple context information embedding and enhanced feature aggregation. The proposed network builds a three-stage segmentation system, which integrates feature information from low resolution to high resolution and achieves feature refinement progressively. CSRNet contains two critical modules: the Shorted Pyramid Fusion Module (SPFM) and the Selective Resolution Module (SRM). The SPFM is a computationally efficient module to incorporate the global context information and significantly enlarge the receptive field at each stage. The SRM is designed to fuse multi-resolution feature maps with various receptive fields, which assigns soft channel attentions across the feature maps and helps to remedy the problem caused by multi-scale objects. Comprehensive experiments on two well-known datasets demonstrate that the proposed CSRNet effectively improves the performance for real-time segmentation.
翻訳日:2021-06-09 15:52:52 公開日:2021-06-08
# moco-flow: 静止単眼カメラにおける動的人間の神経運動コンセンサスフロー

MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary Monocular Cameras ( http://arxiv.org/abs/2106.04477v1 )

ライセンス: Link先を確認
Xuelin Chen, Weiyu Li, Daniel Cohen-Or, Niloy J. Mitra, Baoquan Chen(参考訳) 静止単眼カメラから動的人間の新しいビューを合成することが一般的なシナリオである。 これは静的シーン、制御された環境、特別なハードウェアを必要としないため、特に魅力的である。 多視点観測を利用してモデリングを制約する手法とは対照的に、動的シーンをモデル化する問題は、より過度に制約され、不適切である。 本稿では,4次元連続時間変化関数を用いて動的シーンをモデル化するニューラルモーションコンセンサスフロー(moco-flow)を提案する。 提案手法は,全ての観察画像のレンダリング誤差を最小化する動的シーンをモデル化する最適化によって学習される。 我々の研究の核心は、新しい最適化定式化であり、動きの流れに対する動きのコンセンサス正規化によって制約されている。 複雑度の異なる人間の動きを含む複数のデータセット上でMoCo-Flowを広範囲に評価し,定性的に,定量的に,いくつかのベースライン法と変種と比較した。 事前訓練されたモデル、コード、データは、論文の受理時に研究目的でリリースされる。

Synthesizing novel views of dynamic humans from stationary monocular cameras is a popular scenario. This is particularly attractive as it does not require static scenes, controlled environments, or specialized hardware. In contrast to techniques that exploit multi-view observations to constrain the modeling, given a single fixed viewpoint only, the problem of modeling the dynamic scene is significantly more under-constrained and ill-posed. In this paper, we introduce Neural Motion Consensus Flow (MoCo-Flow), a representation that models the dynamic scene using a 4D continuous time-variant function. The proposed representation is learned by an optimization which models a dynamic scene that minimizes the error of rendering all observation images. At the heart of our work lies a novel optimization formulation, which is constrained by a motion consensus regularization on the motion flow. We extensively evaluate MoCo-Flow on several datasets that contain human motions of varying complexity, and compare, both qualitatively and quantitatively, to several baseline methods and variants of our methods. Pretrained model, code, and data will be released for research purposes upon paper acceptance.
翻訳日:2021-06-09 15:52:28 公開日:2021-06-08
# GANにおける低ランク部分空間

Low-Rank Subspaces in GANs ( http://arxiv.org/abs/2106.04488v1 )

ライセンス: Link先を確認
Jiapeng Zhu, Ruili Feng, Yujun Shen, Deli Zhao, Zhengjun Zha, Jingren Zhou, Qifeng Chen(参考訳) GAN(Generative Adversarial Network)の潜在空間は、いくつかの部分空間内のリッチセマンティクスをエンコードすることが示されている。 これらの部分空間を特定するために、研究者は一般に合成データの集合から統計情報を分析し、識別された部分空間は世界的に画像属性を制御する傾向がある(すなわち、属性を操作することが画像全体の変化を引き起こす)。 対照的に、この研究はGAN生成をより正確に制御できる低ランク部分空間を導入している。 具体的には、任意の画像と興味のある領域(例えば、顔画像の目)を与えられたとき、画像領域とヤコビ行列とを関連づけ、その後低ランク因子分解を用いて制御可能な潜在部分空間を発見できる。 我々のアプローチには、LowRankGANと呼ばれる3つの区別可能な強みがある。 まず、先行研究における解析アルゴリズムと比較して、ヤコビアンの低ランク分解は属性多様体の低次元表現を見つけることができ、画像編集をより正確かつ制御可能である。 第二に、低ランク因数分解は、属性のヌル空間を自然に生成し、潜在コードの移動は関心の外側領域にのみ影響する。 したがって、既存の方法のように空間マスクに頼ることなく、属性ベクトルをヌル空間に投影することで、ローカル画像編集を簡単に実現できる。 第3に,本手法は,ある画像から局所領域に頑健に作用するが,他の画像に十分に一般化できるので,実際に使用しやすい。 さまざまなデータセットでトレーニングされた最先端のGANモデル(StyleGAN2やBigGANを含む)に関する大規模な実験は、我々のLowRankGANの有効性を実証している。

The latent space of a Generative Adversarial Network (GAN) has been shown to encode rich semantics within some subspaces. To identify these subspaces, researchers typically analyze the statistical information from a collection of synthesized data, and the identified subspaces tend to control image attributes globally (i.e., manipulating an attribute causes the change of an entire image). By contrast, this work introduces low-rank subspaces that enable more precise control of GAN generation. Concretely, given an arbitrary image and a region of interest (e.g., eyes of face images), we manage to relate the latent space to the image region with the Jacobian matrix and then use low-rank factorization to discover steerable latent subspaces. There are three distinguishable strengths of our approach that can be aptly called LowRankGAN. First, compared to analytic algorithms in prior work, our low-rank factorization of Jacobians is able to find the low-dimensional representation of attribute manifold, making image editing more precise and controllable. Second, low-rank factorization naturally yields a null space of attributes such that moving the latent code within it only affects the outer region of interest. Therefore, local image editing can be simply achieved by projecting an attribute vector into the null space without relying on a spatial mask as existing methods do. Third, our method can robustly work with a local region from one image for analysis yet well generalize to other images, making it much easy to use in practice. Extensive experiments on state-of-the-art GAN models (including StyleGAN2 and BigGAN) trained on various datasets demonstrate the effectiveness of our LowRankGAN.
翻訳日:2021-06-09 15:52:10 公開日:2021-06-08
# MViT:野生における表情認識のためのマスクビジョン変換器

MViT: Mask Vision Transformer for Facial Expression Recognition in the wild ( http://arxiv.org/abs/2106.04520v1 )

ライセンス: Link先を確認
Hanting Li, Mingzhe Sui, Feng Zhao, Zhengjun Zha, and Feng Wu(参考訳) 野生の表情認識(FER)は、様々な背景、低品質の顔画像、アノテータの主観性など、コンピュータビジョンにおいて極めて困難な課題である。 これらの不確実性は、ニューラルネットワークが限られたスケールのデータセットで堅牢な特徴を学ぶのを難しくする。 さらに、ネットワークは上記の要因により容易に分散でき、不正確な決定を行うことができる。 近年,視覚変換器 (ViT) とデータ効率のよい画像変換器 (DeiT) が従来の分類タスクにおいて重要な性能を示している。 自己アテンション機構により、トランスフォーマーは、特徴抽出能力を劇的に向上させる第1層のグローバル受容場を得る。 本研究では、まず、複雑な背景や顔画像の隠蔽を除去できるマスクを生成するトランスフォーマーベースのマスク生成ネットワーク(MGN)と、野生のFERデータセットの誤ラベルを修正するための動的レバーベリングモジュールの2つのモジュールからなる、野生のFERのための新しい純粋なトランスフォーマーベースのマスクビジョントランスフォーマー(MViT)を提案する。 我々のMViTはRAF-DBの最先端手法を88.62%、FERPlusを89.22%、AffectNet-7を64.57%で上回り、AffectNet-8を61.40%で比較した。

Facial Expression Recognition (FER) in the wild is an extremely challenging task in computer vision due to variant backgrounds, low-quality facial images, and the subjectiveness of annotators. These uncertainties make it difficult for neural networks to learn robust features on limited-scale datasets. Moreover, the networks can be easily distributed by the above factors and perform incorrect decisions. Recently, vision transformer (ViT) and data-efficient image transformers (DeiT) present their significant performance in traditional classification tasks. The self-attention mechanism makes transformers obtain a global receptive field in the first layer which dramatically enhances the feature extraction capability. In this work, we first propose a novel pure transformer-based mask vision transformer (MViT) for FER in the wild, which consists of two modules: a transformer-based mask generation network (MGN) to generate a mask that can filter out complex backgrounds and occlusion of face images, and a dynamic relabeling module to rectify incorrect labels in FER datasets in the wild. Extensive experimental results demonstrate that our MViT outperforms state-of-the-art methods on RAF-DB with 88.62%, FERPlus with 89.22%, and AffectNet-7 with 64.57%, respectively, and achieves a comparable result on AffectNet-8 with 61.40%.
翻訳日:2021-06-09 15:51:43 公開日:2021-06-08
# 階層型lov\'asz埋め込みによる提案なしpanopticセグメンテーション

Hierarchical Lov\'asz Embeddings for Proposal-free Panoptic Segmentation ( http://arxiv.org/abs/2106.04555v1 )

ライセンス: Link先を確認
Tommi Kerola, Jie Li, Atsushi Kanehira, Yasunori Kudo, Alexis Vallet, Adrien Gaidon(参考訳) Panoptic segmentationは、インスタンスとセマンティックセグメンテーションの2つの別々のタスクをまとめる。 それらは関連しているが、それらを統一することは明らかなパラドックスに直面する: 同時にインスタンス特化とカテゴリ特化(すなわち、カテゴリー特化)を学ぶ方法。 instance (複数形 instances) したがって、最先端のpanopticセグメンテーションメソッドは、各タスクごとに異なるストリームを持つ複雑なモデルを使用する。 対照的に,画素特徴ベクトルに対して,インスタンスレベルとカテゴリレベルの識別情報を同時にエンコードする階層的lov\'asz埋め込みを提案する。 階層的な Lov\'asz hinge loss を用いて、ネットワーク分岐やオブジェクト提案を別途必要とせずに、統一されたセマンティックおよびインスタンス階層に構造化された低次元の埋め込み空間を学習する。 提案なしの方法で正確にインスタンスをモデル化するだけでなく、階層的なlov\'asz埋め込みは、インスタンスのセグメンテーションメソッドが適用できない非インスタンス"スタフ"クラスを含む、単純な最も近いクラス-平均分類器を使用してカテゴリに一般化します。 提案手法は都市景観,coco,mapillary vistaのパンオプティカルセグメンテーション手法と比較し,最新の結果を得た。 さらに,ビデオフレーム間の時間的安定性を示す。

Panoptic segmentation brings together two separate tasks: instance and semantic segmentation. Although they are related, unifying them faces an apparent paradox: how to learn simultaneously instance-specific and category-specific (i.e. instance-agnostic) representations jointly. Hence, state-of-the-art panoptic segmentation methods use complex models with a distinct stream for each task. In contrast, we propose Hierarchical Lov\'asz Embeddings, per pixel feature vectors that simultaneously encode instance- and category-level discriminative information. We use a hierarchical Lov\'asz hinge loss to learn a low-dimensional embedding space structured into a unified semantic and instance hierarchy without requiring separate network branches or object proposals. Besides modeling instances precisely in a proposal-free manner, our Hierarchical Lov\'asz Embeddings generalize to categories by using a simple Nearest-Class-Mean classifier, including for non-instance "stuff" classes where instance segmentation methods are not applicable. Our simple model achieves state-of-the-art results compared to existing proposal-free panoptic segmentation methods on Cityscapes, COCO, and Mapillary Vistas. Furthermore, our model demonstrates temporal stability between video frames.
翻訳日:2021-06-09 15:51:10 公開日:2021-06-08
# インスタンス識別によるデータ効率の高いインスタンス生成

Data-Efficient Instance Generation from Instance Discrimination ( http://arxiv.org/abs/2106.04566v1 )

ライセンス: Link先を確認
Ceyuan Yang, Yujun Shen, Yinghao Xu, Bolei Zhou(参考訳) GAN(Generative Adversarial Networks)は画像合成が大幅に進歩するが、学習データが少ないため、合成品質は著しく低下する。 GANトレーニングのデータ効率を改善するために、従来の作業では、データ拡張を使用して、判別器の過度な適合を緩和するが、2つの分類(すなわち、実対偽対偽)タスクで識別器を学習する。 本研究では,インスタンス識別に基づくデータ効率の高いインスタンス生成(InsGen)手法を提案する。 具体的には、実際のドメインを偽のドメインと区別するだけでなく、識別器はトレーニングセットやジェネレータから来なくても、個々のイメージを識別する必要がある。 このようにして、判別器はトレーニングのための無限合成サンプルの恩恵を受け、不十分なトレーニングデータによって引き起こされる過剰適合問題を軽減することができる。 識別力を向上させるために、さらにノイズ摂動戦略を導入する。 一方、識別器から学習したインスタンス識別能力は、多様な世代に対してジェネレータを奨励するために利用される。 広範囲な実験により,様々なデータセットとトレーニング環境における本手法の有効性が示された。 特に、FFHQデータセットからの2Kトレーニングイメージの設定では、23.5%のFID改善で最先端のアプローチよりも優れています。

Generative Adversarial Networks (GANs) have significantly advanced image synthesis, however, the synthesis quality drops significantly given a limited amount of training data. To improve the data efficiency of GAN training, prior work typically employs data augmentation to mitigate the overfitting of the discriminator yet still learn the discriminator with a bi-classification (i.e., real vs. fake) task. In this work, we propose a data-efficient Instance Generation (InsGen) method based on instance discrimination. Concretely, besides differentiating the real domain from the fake domain, the discriminator is required to distinguish every individual image, no matter it comes from the training set or from the generator. In this way, the discriminator can benefit from the infinite synthesized samples for training, alleviating the overfitting problem caused by insufficient training data. A noise perturbation strategy is further introduced to improve its discriminative power. Meanwhile, the learned instance discrimination capability from the discriminator is in turn exploited to encourage the generator for diverse generation. Extensive experiments demonstrate the effectiveness of our method on a variety of datasets and training settings. Noticeably, on the setting of 2K training images from the FFHQ dataset, we outperform the state-of-the-art approach with 23.5% FID improvement.
翻訳日:2021-06-09 15:50:49 公開日:2021-06-08
# NLP分析からの洞察: 新型コロナウイルスによるソーシャルメディアへのワクチン接種

Insight from NLP Analysis: COVID-19 Vaccines Sentiments on Social Media ( http://arxiv.org/abs/2106.04081v1 )

ライセンス: Link先を確認
Tao Na, Wei Cheng, Dongming Li, Wanyu Lu, Hongjiang Li(参考訳) ソーシャルメディアは、新型コロナウイルスワクチンやさまざまなブランドに対する公衆の態度を分析するための適切な情報源である。 しかし、関連する研究はほとんどない。 調査では、パンデミック中のTwitter APIから英国と米国住民のツイートを収集し、予防接種に関する3つの主要な質問に答える実験を設計しました。 市民の圧倒的な感情を得るために,VADERによる感情分析を行い,個人の影響をカウントできる新しい方法を提案した。 これにより、感情分析をさらに一歩進めて、データの変化のゆらぎを説明することができます。 結果は、著名人がワクチン接種の進展でソーシャルメディア上での意見シフトをリードできることを示した。 さらに、ピーク時には両国の人口の約40%が新型コロナウイルスワクチンに対する否定的な態度を持っている。 さらに、異なるワクチンブランドに対する人々の意見についても調査した。 Pfizerワクチンは、人々の間で最も人気のあるワクチンであることがわかった。 感情分析ツールを適用することで、ほとんどの人が、ほとんどのブランドが製造する新型コロナウイルスワクチンに対して前向きな見解を持っていることが分かりました。 最後に,LDAモデルを用いてトピックモデリングを行った。 両国の住民は、ワクチンに関する意見や気持ちを喜んで共有していることがわかりました。 ワクチン接種後にいくつかの死亡例が発生した。 こうした否定的な出来事のため、米国の住民はワクチンの副作用や安全性を心配している。

Social media is an appropriate source for analyzing public attitudes towards the COVID-19 vaccine and various brands. Nevertheless, there are few relevant studies. In the research, we collected tweet posts by the UK and US residents from the Twitter API during the pandemic and designed experiments to answer three main questions concerning vaccination. To get the dominant sentiment of the civics, we performed sentiment analysis by VADER and proposed a new method that can count the individual's influence. This allows us to go a step further in sentiment analysis and explain some of the fluctuations in the data changing. The results indicated that celebrities could lead the opinion shift on social media in vaccination progress. Moreover, at the peak, nearly 40\% of the population in both countries have a negative attitude towards COVID-19 vaccines. Besides, we investigated how people's opinions toward different vaccine brands are. We found that the Pfizer vaccine enjoys the most popular among people. By applying the sentiment analysis tool, we discovered most people hold positive views toward the COVID-19 vaccine manufactured by most brands. In the end, we carried out topic modelling by using the LDA model. We found residents in the two countries are willing to share their views and feelings concerning the vaccine. Several death cases have occurred after vaccination. Due to these negative events, US residents are more worried about the side effects and safety of the vaccine.
翻訳日:2021-06-09 15:50:30 公開日:2021-06-08
# 高い変動性と深い訓練性を有する家庭内結合型神経層

Householder-Absolute Neural Layers For High Variability and Deep Trainability ( http://arxiv.org/abs/2106.04088v1 )

ライセンス: Link先を確認
Yueyao Yu and Yin Zhang(参考訳) そこで,本論文では,主観反射板を重み行列とし,絶対値関数をアクティベーションとして用いる,ハウスマー・絶対値神経層(han-layers)と呼ばれるニューラルネットワークのための新しいアーキテクチャを提案する。 完全連結層として機能するハン層は、ニューラルネットワークの変動性に関する最近の結果に動機付けられ、活性化比を増加させ、定数に崩壊する可能性を減らすように設計されている。 主にハン層から構築されたニューラルネットワークはHanNetsと呼ばれる。 建設によって、HanNetsは消滅または爆発する勾配が決して起こらないという理論的保証を享受する。 我々はいくつかの概念実証実験を行う。 スタイル付きテスト問題で得られた驚くべき結果は、一定の条件下では、完全に接続されたネットワークで達成不可能なほぼ完璧なソリューションを生成できる特異な能力を示すことを示唆している。 回帰データセットの実験は、HanNetsが一般化精度のレベルを維持したり改善したりしながら、モデルパラメータの数を著しく削減できることを示している。 さらに、畳み込みニューラルネットワークの事前分類fc層にいくつかのハン層を追加することで、cifar10データセットの最先端結果を迅速に改善することができる。 これらの概念実証の結果は、ハンネットの能力と限界を理解するためにさらなる研究を必要とし、現実の応用においてその可能性を利用するのに十分である。

We propose a new architecture for artificial neural networks called Householder-absolute neural layers, or Han-layers for short, that use Householder reflectors as weight matrices and the absolute-value function for activation. Han-layers, functioning as fully connected layers, are motivated by recent results on neural-network variability and are designed to increase activation ratio and reduce the chance of Collapse to Constants. Neural networks constructed chiefly from Han-layers are called HanNets. By construction, HanNets enjoy a theoretical guarantee that vanishing or exploding gradient never occurs. We conduct several proof-of-concept experiments. Some surprising results obtained on styled test problems suggest that, under certain conditions, HanNets exhibit an unusual ability to produce nearly perfect solutions unattainable by fully connected networks. Experiments on regression datasets show that HanNets can significantly reduce the number of model parameters while maintaining or improving the level of generalization accuracy. In addition, by adding a few Han-layers into the pre-classification FC-layer of a convolutional neural network, we are able to quickly improve a state-of-the-art result on CIFAR10 dataset. These proof-of-concept results are sufficient to necessitate further studies on HanNets to understand their capacities and limits, and to exploit their potentials in real-world applications.
翻訳日:2021-06-09 15:48:10 公開日:2021-06-08
# 局所構造とグローバル構造を用いた自己教師付きグラフレベル表現学習

Self-supervised Graph-level Representation Learning with Local and Global Structure ( http://arxiv.org/abs/2106.04113v1 )

ライセンス: Link先を確認
Minghao Xu, Hang Wang, Bingbing Ni, Hongyu Guo, Jian Tang(参考訳) 本稿では,薬物の分子特性予測や物質発見など多くのタスクにおいて重要な,教師なし/自己教師付き全グラフ表現学習について検討する。 既存の方法は、主に異なるグラフインスタンス間の局所的類似性構造を保存することに重点を置いているが、データセット全体のグローバルな意味構造を見つけることに失敗している。 本稿では,自己教師付き全グラフ表現学習のための,ローカルインスティスタンスとグローバルセマンティクス学習(graphlog)と呼ばれる統一フレームワークを提案する。 具体的には、ローカルの類似性を保存することに加えて、GraphLoGはグローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプを導入している。 モデル学習のための効率的なオンライン期待最大化(em)アルゴリズムも開発されている。 大規模未ラベルグラフ上での事前学習と,下流タスクの微調整により,GraphLoGを評価する。 化学および生物学的ベンチマークデータセットの広範な実験により,提案手法の有効性が示された。

This paper studies unsupervised/self-su pervised whole-graph representation learning, which is critical in many tasks such as molecule properties prediction in drug and material discovery. Existing methods mainly focus on preserving the local similarity structure between different graph instances but fail to discover the global semantic structure of the entire data set. In this paper, we propose a unified framework called Local-instance and Global-semantic Learning (GraphLoG) for self-supervised whole-graph representation learning. Specifically, besides preserving the local similarities, GraphLoG introduces the hierarchical prototypes to capture the global semantic clusters. An efficient online expectation-maximiza tion (EM) algorithm is further developed for learning the model. We evaluate GraphLoG by pre-training it on massive unlabeled graphs followed by fine-tuning on downstream tasks. Extensive experiments on both chemical and biological benchmark data sets demonstrate the effectiveness of the proposed approach.
翻訳日:2021-06-09 15:47:48 公開日:2021-06-08
# 両世界の最良性:未知の遷移を伴う確率的および逆進的エピソードMDP

The best of both worlds: stochastic and adversarial episodic MDPs with unknown transition ( http://arxiv.org/abs/2106.04117v1 )

ライセンス: Link先を確認
Tiancheng Jin, Longbo Huang, Haipeng Luo(参考訳) 我々は,損失が対角的であれば$\widetilde{\mathcal{O}}(\sqrt{T})$ regretを達成し,損失が(ほぼ)確率的であれば$\mathcal{O}(\text{polylog}(T))$ regretを目標として,エピソディックなマルコフ決定過程を$T$で学習する最善の世界問題を考える。 最近の[Jin and Luo, 2020]による研究は、固定的な遷移が分かっているときにこの目標を達成するもので、未知の遷移が主要なオープンな問題として残されている。 そこで本研究では,Follow-the-Regulari zed-Leader ($\text{FTRL}$) フレームワークを新しい手法のセットと組み合わせることで,この問題を解決する。 具体的には、まず、[Jin and Luo, 2020] のアプローチを大幅に単純化し、既知の遷移ケースに対する結果が既に改善されている$\text{FTRL}$解析において損失シフトのトリックを提案する。 そして、このアイデアを未知の遷移ケースに拡張し、(一割の)確率的設定における後悔自体によって遷移推定誤差を上限とする新しい分析法を開発し、$\mathcal{O}(\text{polylog}(T))$ regret を保証するための鍵となる性質を述べる。

We consider the best-of-both-worlds problem for learning an episodic Markov Decision Process through $T$ episodes, with the goal of achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ regret when the losses are adversarial and simultaneously $\mathcal{O}(\text{polylog}(T))$ regret when the losses are (almost) stochastic. Recent work by [Jin and Luo, 2020] achieves this goal when the fixed transition is known, and leaves the case of unknown transition as a major open question. In this work, we resolve this open problem by using the same Follow-the-Regulariz ed-Leader ($\text{FTRL}$) framework together with a set of new techniques. Specifically, we first propose a loss-shifting trick in the $\text{FTRL}$ analysis, which greatly simplifies the approach of [Jin and Luo, 2020] and already improves their results for the known transition case. Then, we extend this idea to the unknown transition case and develop a novel analysis which upper bounds the transition estimation error by (a fraction of) the regret itself in the stochastic setting, a key property to ensure $\mathcal{O}(\text{polylog}(T))$ regret.
翻訳日:2021-06-09 15:47:35 公開日:2021-06-08
# 雑音ラベルを用いた学習におけるラベル平滑化の理解

Understanding (Generalized) Label Smoothing whenLearning with Noisy Labels ( http://arxiv.org/abs/2106.04149v1 )

ライセンス: Link先を確認
Jiaheng Wei, Hangyu Liu, Tongliang Liu, Gang Niu and Yang Liu(参考訳) ラベル平滑化(英: label smoothing, ls)は、ハードトレーニングラベルと均一に分散されたソフトラベルの両方の正の重み付け平均を用いる学習パラダイムである。 LSはハードラベルを用いたデータトレーニングのレギュレータとして機能し,モデルの一般化を向上することを示した。 その後、LSはノイズラベルで学習する際の堅牢性の改善にも役立つと報告された。 しかし,高ラベル雑音下での動作においては,LSの利点は消滅する。 観察に困惑した私たちは、文学で提案されたいくつかの学習-雑音-ラベルソリューションが、より負のラベル平滑化(nls)に密接に関連していることを発見しました。 その結果,NLS関数はモデル信頼度においてLSと大きく異なることがわかった。 両症例を区別するため,LSを正ラベル平滑化 (PLS) と呼び,本論文ではPLSとNLSを一般化ラベル平滑化 (GLS) に統一する。 雑音ラベルを用いた学習において, GLSの特性に対する理解を提供する。 他の確立された特性の中で、ラベルノイズ率が高い場合、NLSがより有益であることを示す。 調査結果を裏付ける実験結果も提供します。

Label smoothing (LS) is an arising learning paradigm that uses the positively weighted average of both the hard training labels and uniformly distributed soft labels. It was shown that LS serves as a regularizer for training data with hard labels and therefore improves the generalization of the model. Later it was reported LS even helps with improving robustness when learning with noisy labels. However, we observe that the advantage of LS vanishes when we operate in a high label noise regime. Puzzled by the observation, we proceeded to discover that several proposed learning-with-noisy- labels solutions in the literature instead relate more closely to negative label smoothing (NLS), which defines as using a negative weight to combine the hard and soft labels! We show that NLS functions substantially differently from LS in their achieved model confidence. To differentiate the two cases, we will call LS the positive label smoothing (PLS), and this paper unifies PLS and NLS into generalized label smoothing (GLS). We provide understandings for the properties of GLS when learning with noisy labels. Among other established properties, we theoretically show NLS is considered more beneficial when the label noise rates are high. We provide experimental results to support our findings too.
翻訳日:2021-06-09 15:47:06 公開日:2021-06-08
# PlayVirtual:強化学習のためのサイクル一貫性仮想軌道の拡大

PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for Reinforcement Learning ( http://arxiv.org/abs/2106.04152v1 )

ライセンス: Link先を確認
Tao Yu, Cuiling Lan, Wenjun Zeng, Mingxiao Feng, Zhibo Chen(参考訳) 優れた特徴表現の学習は、深層強化学習(RL)において重要である。 しかし、経験が限られているため、RLはトレーニングのためのデータ非効率に悩まされることが多い。 未経験または未経験のトラジェクトリ(すなわち状態-作用シーケンス)では、データ不足は機能学習のためにそれらを使用することを制限する。 本稿では,rl特徴表現学習のためのデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクタを拡張できるplayvirtualという新しい手法を提案する。 具体的には、playvirtualはダイナミクスモデルによって現在の状態と動作に基づいて将来の状態を予測し、軌道サイクルを形成する後方ダイナミクスモデルによって前の状態を予測する。 これに基づいて、動作を増強し、大量の仮想状態-動作軌跡を生成する。 状態監視が不要なため、サイクル一貫性の制約を満たすための軌道を強制し、データ効率を大幅に向上させる。 我々は,AtariおよびDeepMind Control Suiteベンチマークにおける設計の有効性を検証する。 本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。

Learning good feature representations is important for deep reinforcement learning (RL). However, with limited experience, RL often suffers from data inefficiency for training. For un-experienced or less-experienced trajectories (i.e., state-action sequences), the lack of data limits the use of them for better feature learning. In this work, we propose a novel method, dubbed PlayVirtual, which augments cycle-consistent virtual trajectories to enhance the data efficiency for RL feature representation learning. Specifically, PlayVirtual predicts future states based on the current state and action by a dynamics model and then predicts the previous states by a backward dynamics model, which forms a trajectory cycle. Based on this, we augment the actions to generate a large amount of virtual state-action trajectories. Being free of groudtruth state supervision, we enforce a trajectory to meet the cycle consistency constraint, which can significantly enhance the data efficiency. We validate the effectiveness of our designs on the Atari and DeepMind Control Suite benchmarks. Our method outperforms the current state-of-the-art methods by a large margin on both benchmarks.
翻訳日:2021-06-09 15:46:42 公開日:2021-06-08
# 学習ダイナミクスのためのプレトレーニングニューラルディファレンシャル演算子付きノードの統合

Incorporating NODE with Pre-trained Neural Differential Operator for Learning Dynamics ( http://arxiv.org/abs/2106.04166v1 )

ライセンス: Link先を確認
Shiqi Gong, Qi Meng, Yue Wang, Lijun Wu, Wei Chen, Zhi-Ming Ma, Tie-Yan Liu(参考訳) 微分方程式に支配される学習ダイナミクスは、科学と工学のシステムの予測と制御に不可欠である。 微分方程式と統合された深層学習モデルであるneural ordinary differential equation (node)は、軌道上のサンプルから直接ダイナミクスを学び、科学分野で大きな期待を示す。 しかし、NODEの訓練は数値解法に大きく依存しており、特に不調な力学系では数値ノイズを増幅し不安定である。 本稿では,数値解法への依存を減らすために,動的学習における教師付き信号の強化を提案する。 具体的には、軌道サンプルから直接学習するだけでなく、神経微分演算子(ndo)を事前学習して、追加の教師付き信号として機能する誘導体の推定を出力する。 NDOは記号関数のクラスで事前訓練され、これらの関数の軌道サンプルとそれらの微分の間のマッピングを学ぶ。 ndo の出力はライブラリの複雑さを適切に調整することで基底真理微分を十分に近似できるという理論的保証を提供する。 軌道信号とNDOからの推定導関数の両方を活用するために,損失関数は真の軌道サンプルに対する適合度と,事前学習したNDOが出力する推定導関数に対する適合度という2つの項を含む,NDO-NODEと呼ばれるアルゴリズムを提案する。 種々の力学実験により,提案したNDO-NODEは予測精度を一貫して向上できることが示された。

Learning dynamics governed by differential equations is crucial for predicting and controlling the systems in science and engineering. Neural Ordinary Differential Equation (NODE), a deep learning model integrated with differential equations, learns the dynamics directly from the samples on the trajectory and shows great promise in the scientific field. However, the training of NODE highly depends on the numerical solver, which can amplify numerical noise and be unstable, especially for ill-conditioned dynamical systems. In this paper, to reduce the reliance on the numerical solver, we propose to enhance the supervised signal in learning dynamics. Specifically, beyond learning directly from the trajectory samples, we pre-train a neural differential operator (NDO) to output an estimation of the derivatives to serve as an additional supervised signal. The NDO is pre-trained on a class of symbolic functions, and it learns the mapping between the trajectory samples of these functions to their derivatives. We provide theoretical guarantee on that the output of NDO can well approximate the ground truth derivatives by proper tuning the complexity of the library. To leverage both the trajectory signal and the estimated derivatives from NDO, we propose an algorithm called NDO-NODE, in which the loss function contains two terms: the fitness on the true trajectory samples and the fitness on the estimated derivatives that are output by the pre-trained NDO. Experiments on various of dynamics show that our proposed NDO-NODE can consistently improve the forecasting accuracy.
翻訳日:2021-06-09 15:46:26 公開日:2021-06-08
# 敵対的腐敗に頑健な協調的確率的マルチエージェントマルチアームドバンディット

Cooperative Stochastic Multi-agent Multi-armed Bandits Robust to Adversarial Corruptions ( http://arxiv.org/abs/2106.04207v1 )

ライセンス: Link先を確認
Junyan Liu, Shuai Li, Dapeng Li(参考訳) v$エージェントが共通の$k$-armed bandit問題と対話し、それぞれのエージェントが互いにコミュニケーションして学習プロセスを迅速化することができる、協調マルチエージェント設定における、敵対的腐敗を伴う確率的バンディットの問題について検討する。 問題では、報酬は全てのエージェントとラウンドの分布から独立してサンプリングされるが、敵によって破壊される可能性がある。 私たちの目標は、すべてのエージェント全体の後悔とコミュニケーションのコストを最小限に抑えることです。 まず, この問題のどのアルゴリズムに対しても, 汚職の付加項は避けられないことを示した。 そこで本研究では,汚職のレベルに依存しない新しいアルゴリズムを提案する。 本アルゴリズムは,確率的設定において最適に近い後悔を達成するだけでなく,腐敗した設定における腐敗の用語を付加し,効率的なコミュニケーションを保ちながら後悔を得る。 このアルゴリズムは、単一エージェントの汚職問題にも適用でき、汚職レベルでのK$の乗法的依存を除去する高い確率の後悔を達成する。 単一エージェントケースの結果は、guptaらからの公開質問を解決している。 [2019].

We study the problem of stochastic bandits with adversarial corruptions in the cooperative multi-agent setting, where $V$ agents interact with a common $K$-armed bandit problem, and each pair of agents can communicate with each other to expedite the learning process. In the problem, the rewards are independently sampled from distributions across all agents and rounds, but they may be corrupted by an adversary. Our goal is to minimize both the overall regret and communication cost across all agents. We first show that an additive term of corruption is unavoidable for any algorithm in this problem. Then, we propose a new algorithm that is agnostic to the level of corruption. Our algorithm not only achieves near-optimal regret in the stochastic setting, but also obtains a regret with an additive term of corruption in the corrupted setting, while maintaining efficient communication. The algorithm is also applicable for the single-agent corruption problem, and achieves a high probability regret that removes the multiplicative dependence of $K$ on corruption level. Our result of the single-agent case resolves an open question from Gupta et al. [2019].
翻訳日:2021-06-09 15:45:58 公開日:2021-06-08
# 時間点プロセスによる異常事象列の検出

Detecting Anomalous Event Sequences with Temporal Point Processes ( http://arxiv.org/abs/2106.04465v1 )

ライセンス: Link先を確認
Oleksandr Shchur, Ali Caner T\"urkmen, Tim Januschowski, Jan Gasthaus, Stephan G\"unnemann(参考訳) イベントデータの異常を自動的に検出することは、ヘルスケアやDevOps、情報セキュリティといった領域でかなりの価値を提供することができる。 本稿では,時間点プロセス(TPP)における異常な連続イベントシーケンスを分布外検出(OoD)として検出する問題について検討する。 まず,gof(goodness-of-fit )テストを用いてこの問題にアプローチする方法を示す。 次に、TPPの一般的なGoF統計の限界を示し、これらの欠点に対処する新しいテストを提案する。 提案手法はニューラルTPPなどの様々なTPPモデルと組み合わせることができ、実装が容易である。 本実験では,従来のGoFテストとシミュレーションおよび実世界のデータの異常検出において,提案手法が優れていることを示す。

Automatically detecting anomalies in event data can provide substantial value in domains such as healthcare, DevOps, and information security. In this paper, we frame the problem of detecting anomalous continuous-time event sequences as out-of-distribution (OoD) detection for temporal point processes (TPPs). First, we show how this problem can be approached using goodness-of-fit (GoF) tests. We then demonstrate the limitations of popular GoF statistics for TPPs and propose a new test that addresses these shortcomings. The proposed method can be combined with various TPP models, such as neural TPPs, and is easy to implement. In our experiments, we show that the proposed statistic excels at both traditional GoF testing, as well as at detecting anomalies in simulated and real-world data.
翻訳日:2021-06-09 15:45:39 公開日:2021-06-08
# out-of-distribution generalizationの理論的枠組みに向けて

Towards a Theoretical Framework of Out-of-Distribution Generalization ( http://arxiv.org/abs/2106.04496v1 )

ライセンス: Link先を確認
Haotian Ye, Chuanlong Xie, Tianle Cai, Ruichen Li, Zhenguo Li, Liwei Wang(参考訳) アウト・オブ・ディストリビューション(ood)データへの一般化(domain generalization)は、現代の機械学習における中心的な問題のひとつです。 近年,主に不変特徴抽出の考え方に基づくOODアルゴリズムの提案が盛んに行われている。 直感的には妥当ではあるが、どのような不変性が OOD の一般化を保証できるかの理論的な理解はまだ限られており、任意の分布の一般化は明らかに不可能である。 本研究は,1) OODとは何か,2) OOD問題とは何を意味するのか,という厳密かつ定量的な定義に向けて第一歩を踏み出したものである。 また, 拡張関数という新しい概念を導入し, 学習領域上のテスト領域において分散がどの程度増幅されているかを特徴付け, 不変特徴の定量的な意味を与える。 これらに基づき、OOD一般化誤差境界を証明した。 OOD一般化は拡張関数に依存することが判明した。 Gulrajani と Lopez-Paz (2020) が最近指摘したように、モデル選択モジュールを持たない任意の OOD 学習アルゴリズムは不完全である。 我々の理論は自然にモデル選択基準を導く。 OODデータセットのベンチマーク実験により、我々のモデル選択基準がベースラインよりも大きな優位性を持つことが示された。

Generalization to out-of-distribution (OOD) data, or domain generalization, is one of the central problems in modern machine learning. Recently, there is a surge of attempts to propose algorithms for OOD that mainly build upon the idea of extracting invariant features. Although intuitively reasonable, theoretical understanding of what kind of invariance can guarantee OOD generalization is still limited, and generalization to arbitrary out-of-distribution is clearly impossible. In this work, we take the first step towards rigorous and quantitative definitions of 1) what is OOD; and 2) what does it mean by saying an OOD problem is learnable. We also introduce a new concept of expansion function, which characterizes to what extent the variance is amplified in the test domains over the training domains, and therefore give a quantitative meaning of invariant features. Based on these, we prove OOD generalization error bounds. It turns out that OOD generalization largely depends on the expansion function. As recently pointed out by Gulrajani and Lopez-Paz (2020), any OOD learning algorithm without a model selection module is incomplete. Our theory naturally induces a model selection criterion. Extensive experiments on benchmark OOD datasets demonstrate that our model selection criterion has a significant advantage over baselines.
翻訳日:2021-06-09 15:45:28 公開日:2021-06-08
# 弱参照表現接地のための識別的三値マッチングと再構成

Discriminative Triad Matching and Reconstruction for Weakly Referring Expression Grounding ( http://arxiv.org/abs/2106.04053v1 )

ライセンス: Link先を確認
Mingjie Sun, Jimin Xiao, Eng Gee Lim, Si Liu, John Y. Goulermas(参考訳) 本稿では,画像領域とクエリ間のマッピングがトレーニング段階で利用できないクエリ文に基づいて,画像中の参照オブジェクトのローカライズを行うための,弱教師付き参照表現基盤タスクに対処する。 従来の方法では、参照表現に最もよくマッチするオブジェクト領域を抽出し、選択された領域からクエリ文を再構成し、再構成差がバックプロパゲーションの損失となる。 しかし,既存の手法は一致の正しさが不明であるという事実を無視するため,一致と復元の両方を行う。 この制限を克服するために、クエリを1つまたは複数の識別的トライアドに非常にスケーラブルな方法で変換できるソリューションの基盤として、判別的トライアドが設計されている。 識別的トライアドに基づいて,より軽量で,教師の少ないトレーニングに効果的で,従来の最先端手法の3倍軽量かつ高速なトライアドレベルマッチングおよび再構成モジュールを提案する。 私たちの仕事の重要なメリットの1つは、シンプルで巧妙な設計にもかかわらず、優れたパフォーマンスです。 具体的には、RefCOCO(39.21%)、RefCOCO+(39.18%)、RefCOCOg(43.24%)のデータセットで評価された場合、それぞれ4.17%、4.08%、および7.8%の新たな最先端精度を実現する。

In this paper, we are tackling the weakly-supervised referring expression grounding task, for the localization of a referent object in an image according to a query sentence, where the mapping between image regions and queries are not available during the training stage. In traditional methods, an object region that best matches the referring expression is picked out, and then the query sentence is reconstructed from the selected region, where the reconstruction difference serves as the loss for back-propagation. The existing methods, however, conduct both the matching and the reconstruction approximately as they ignore the fact that the matching correctness is unknown. To overcome this limitation, a discriminative triad is designed here as the basis to the solution, through which a query can be converted into one or multiple discriminative triads in a very scalable way. Based on the discriminative triad, we further propose the triad-level matching and reconstruction modules which are lightweight yet effective for the weakly-supervised training, making it three times lighter and faster than the previous state-of-the-art methods. One important merit of our work is its superior performance despite the simple and neat design. Specifically, the proposed method achieves a new state-of-the-art accuracy when evaluated on RefCOCO (39.21%), RefCOCO+ (39.18%) and RefCOCOg (43.24%) datasets, that is 4.17%, 4.08% and 7.8% higher than the previous one, respectively.
翻訳日:2021-06-09 15:43:15 公開日:2021-06-08
# マルチターン自然言語フィードバックによる会話ファッション画像検索

Conversational Fashion Image Retrieval via Multiturn Natural Language Feedback ( http://arxiv.org/abs/2106.04128v1 )

ライセンス: Link先を確認
Yifei Yuan and Wai Lam(参考訳) マルチターン自然言語フィードバックによる会話型ファッション画像検索の課題について検討する。 以前の研究のほとんどはシングルターンの設定に基づいている。 マルチターン型会話型画像検索の既存モデルには,従来のモデルの採用や非効率化といった制限がある。 本稿では,対話型ファッション画像検索を多ターン自然言語フィードバックテキストで効果的に処理できる新しいフレームワークを提案する。 このフレームワークの特徴の1つは、符号化された参照画像の活用に基づく候補画像の検索と、会話履歴と共にテキスト情報へのフィードバックである。 さらに、画像ファッション属性情報を相互注意戦略を介して活用する。 タスクのマルチターン設定に適した既存のファッションデータセットは存在しないため、既存のシングルターンデータセットに手作業による付加的なアノテーションによって、大規模なマルチターンファッションデータセットを導出する。 実験の結果,提案手法は既存の最先端手法よりも優れていた。

We study the task of conversational fashion image retrieval via multiturn natural language feedback. Most previous studies are based on single-turn settings. Existing models on multiturn conversational fashion image retrieval have limitations, such as employing traditional models, and leading to ineffective performance. We propose a novel framework that can effectively handle conversational fashion image retrieval with multiturn natural language feedback texts. One characteristic of the framework is that it searches for candidate images based on exploitation of the encoded reference image and feedback text information together with the conversation history. Furthermore, the image fashion attribute information is leveraged via a mutual attention strategy. Since there is no existing fashion dataset suitable for the multiturn setting of our task, we derive a large-scale multiturn fashion dataset via additional manual annotation efforts on an existing single-turn dataset. The experiments show that our proposed model significantly outperforms existing state-of-the-art methods.
翻訳日:2021-06-09 15:42:49 公開日:2021-06-08
# RobustNav: 身体的ナビゲーションにおけるロバスト性のベンチマークを目指す

RobustNav: Towards Benchmarking Robustness in Embodied Navigation ( http://arxiv.org/abs/2106.04531v1 )

ライセンス: Link先を確認
Prithvijit Chattopadhyay, Judy Hoffman, Roozbeh Mottaghi, Aniruddha Kembhavi(参考訳) 具体化ナビゲーションエージェントのロバスト性を評価するための試みとして,rgb入力やダイナミクスに影響を及ぼす多種多様な視覚に晒された場合の具体化ナビゲーションエージェントのパフォーマンスを定量化するフレームワークである robustnav を提案する。 近年の視覚ナビゲーションの取り組みは、外観や動的特性に類似した新しいターゲット環境への一般化に重点を置いている。 RobustNavでは、視覚的あるいはダイナミックな汚職の存在下では、標準的な具体化ナビゲーションエージェントが著しく性能が低下(あるいは失敗)していることが分かりました。 我々は,このようなエージェントが腐敗下で動作する際に発生する特異性の種類を体系的に分析する。 最後に、ロバストnavの視覚的な腐敗に対して、データ提供や自己教師付き適応といった堅牢性を改善する標準的な技術はゼロショット耐性とナビゲーション性能の改善をもたらすが、クリーンな"非腐敗"設定と比較して失われたパフォーマンスを回復する上では、この方向の研究が必要である。 私たちのコードはhttps://github.com/a llenai/robustnavで利用可能です。

As an attempt towards assessing the robustness of embodied navigation agents, we propose RobustNav, a framework to quantify the performance of embodied navigation agents when exposed to a wide variety of visual - affecting RGB inputs - and dynamics - affecting transition dynamics - corruptions. Most recent efforts in visual navigation have typically focused on generalizing to novel target environments with similar appearance and dynamics characteristics. With RobustNav, we find that some standard embodied navigation agents significantly underperform (or fail) in the presence of visual or dynamics corruptions. We systematically analyze the kind of idiosyncrasies that emerge in the behavior of such agents when operating under corruptions. Finally, for visual corruptions in RobustNav, we show that while standard techniques to improve robustness such as data-augmentation and self-supervised adaptation offer some zero-shot resistance and improvements in navigation performance, there is still a long way to go in terms of recovering lost performance relative to clean "non-corrupt" settings, warranting more research in this direction. Our code is available at https://github.com/a llenai/robustnav
翻訳日:2021-06-09 15:42:36 公開日:2021-06-08
# e-Commercial Sponsored Searchにおける多目的最適化のためのマルチエージェント協調バイディングゲーム

Multi-Agent Cooperative Bidding Games for Multi-Objective Optimization in e-Commercial Sponsored Search ( http://arxiv.org/abs/2106.04075v1 )

ライセンス: Link先を確認
Ziyu Guan, Hongchang Wu, Qingyu Cao, Hao Liu, Wei Zhao, Sheng Li, Cai Xu, Guang Qiu, Jian Xu, Bo Zheng(参考訳) 単一広告主の視点からのオンライン広告のバイアス最適化は,学術研究と産業実践の両方において徹底的に研究されている。 しかし、既存の作業では、競争相手が入札を変更せず、すなわち勝利した価格が固定され、派生したソリューションのパフォーマンスが低下する、という仮定が一般的である。 複数エージェントの強化学習を用いて協調ゲームをセットアップする研究はいくつかあるが、それでも欠点は次のとおりである: (1) オークションに関わるすべての広告主が、非常に低い価格で競い合うように共謀ソリューションを回避できないことだ。 2) 従来の作業は, 基礎となる複雑な入札環境をうまく扱えないため, モデル収束不良につながる。 この問題は、前回の作業では考慮されていない実用的な要求である広告主の複数の目的を扱う場合に増幅される可能性がある。 本稿では,Multi-Agent Cooperative bidding Games (MACG) と呼ばれる新しい多目的協調入札最適化法を提案する。 MACGは、広告主の異なる目的を取り入れた、慎重に設計された多目的最適化フレームワークをセットアップする。 全ての広告の利益を最大化するためのグローバルな目的が追加され、より良い協力を促進し、自己入札型広告主を保護する。 共謀を避けるため、プラットフォームによる追加の収益制限も導入する。 入札公式の最適機能形態を理論的に分析し, 入札レベルの入札を発生させる政策ネットワークを設計する。 モデル最適化のための効率的なマルチエージェント進化戦略を設計する。 タオバオプラットフォーム上でのオフライン実験とオンラインA/Bテストは、単一の広告主の目的とグローバル利益の両方が最先端の手法に比べて著しく改善されていることを示している。

Bid optimization for online advertising from single advertiser's perspective has been thoroughly investigated in both academic research and industrial practice. However, existing work typically assume competitors do not change their bids, i.e., the wining price is fixed, leading to poor performance of the derived solution. Although a few studies use multi-agent reinforcement learning to set up a cooperative game, they still suffer the following drawbacks: (1) They fail to avoid collusion solutions where all the advertisers involved in an auction collude to bid an extremely low price on purpose. (2) Previous works cannot well handle the underlying complex bidding environment, leading to poor model convergence. This problem could be amplified when handling multiple objectives of advertisers which are practical demands but not considered by previous work. In this paper, we propose a novel multi-objective cooperative bid optimization formulation called Multi-Agent Cooperative bidding Games (MACG). MACG sets up a carefully designed multi-objective optimization framework where different objectives of advertisers are incorporated. A global objective to maximize the overall profit of all advertisements is added in order to encourage better cooperation and also to protect self-bidding advertisers. To avoid collusion, we also introduce an extra platform revenue constraint. We analyze the optimal functional form of the bidding formula theoretically and design a policy network accordingly to generate auction-level bids. Then we design an efficient multi-agent evolutionary strategy for model optimization. Offline experiments and online A/B tests conducted on the Taobao platform indicate both single advertiser's objective and global profit have been significantly improved compared to state-of-art methods.
翻訳日:2021-06-09 15:42:11 公開日:2021-06-08
# エンド・ツー・エンド音声認識のためのマルチスケール大域的局所再帰ネットワークを有する生波形エンコーダ

Raw Waveform Encoder with Multi-Scale Globally Attentive Locally Recurrent Networks for End-to-End Speech Recognition ( http://arxiv.org/abs/2106.04275v1 )

ライセンス: Link先を確認
Max W. Y. Lam, Jun Wang, Chao Weng, Dan Su, Dong Yu(参考訳) エンドツーエンド音声認識は、一般に手動音響特徴を入力として使用し、特徴抽出モジュールを共同最適化から除外する。 学習可能で適応的な特徴を抽出し、情報損失を軽減するために、グローバルな注意的局所的再帰(GALR)ネットワークを採用し、生波形を直接入力とする新しいエンコーダを提案する。 異なるウィンドウ長にGALRを適用して,マルチスケール音響特性に微粒時間情報を集約することにより,ASR性能とロバスト性を向上する。 ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。 高速かつ同等のモデルサイズで提案したマルチスケールGALR波形エンコーダは,コンバータやTDNN-コンバータなど,強いベースラインに対して7.9%から28.1%の一貫性のある文字誤り率削減を実現した。 特に,本手法は従来の手工芸品よりも顕著な頑健さを示し,音楽混合実世界の音声テストセットにおいて15.2%のCERRでMFCCベースのTDNN-Conformerモデルより優れていた。

End-to-end speech recognition generally uses hand-engineered acoustic features as input and excludes the feature extraction module from its joint optimization. To extract learnable and adaptive features and mitigate information loss, we propose a new encoder that adopts globally attentive locally recurrent (GALR) networks and directly takes raw waveform as input. We observe improved ASR performance and robustness by applying GALR on different window lengths to aggregate fine-grain temporal information into multi-scale acoustic features. Experiments are conducted on a benchmark dataset AISHELL-2 and two large-scale Mandarin speech corpus of 5,000 hours and 21,000 hours. With faster speed and comparable model size, our proposed multi-scale GALR waveform encoder achieved consistent character error rate reductions (CERRs) from 7.9% to 28.1% relative over strong baselines, including Conformer and TDNN-Conformer. In particular, our approach demonstrated notable robustness than the traditional handcrafted features and outperformed the baseline MFCC-based TDNN-Conformer model by a 15.2% CERR on a music-mixed real-world speech test set.
翻訳日:2021-06-09 15:41:46 公開日:2021-06-08
# ノースカロライナ COVID-19 エージェント・ベース・モデル・フレームワーク : 入院予測, 設計概念, 詳細プロトコル

North Carolina COVID-19 Agent-Based Model Framework for Hospitalization Forecasting Overview, Design Concepts, and Details Protocol ( http://arxiv.org/abs/2106.04461v1 )

ライセンス: Link先を確認
Kasey Jones, Emily Hadley, Sandy Preiss, Caroline Kery, Peter Baumgartner, Marie Stoner, Sarah Rhea(参考訳) この概要、設計概念、詳細プロトコル(ODD)は、COVID-19パンデミック時の入院をシミュレートするために開発されたエージェントベースモデル(ABM)の詳細な説明を提供する。 サブモデルの記述、提供されたパラメータ、データソースへのリンクを使用して、モデラーはモデルの作成と結果の複製を行うことができる。

This Overview, Design Concepts, and Details Protocol (ODD) provides a detailed description of an agent-based model (ABM) that was developed to simulate hospitalizations during the COVID-19 pandemic. Using the descriptions of submodels, provided parameters, and the links to data sources, modelers will be able to replicate the creation and results of this model.
翻訳日:2021-06-09 15:41:19 公開日:2021-06-08
# Deep Learning Statistical Arbitrage

Deep Learning Statistical Arbitrage ( http://arxiv.org/abs/2106.04028v1 )

ライセンス: Link先を確認
Jorge Guijarro-Ordonez, Markus Pelger and Greg Zanotti(参考訳) 統計仲裁は類似資産間の時間的価格差を特定し、活用する。 統計的仲裁のための統一的な概念的枠組みを提案し,データ駆動型で柔軟な方法で大規模パネルからの共通性と時系列パターンを求める。 まず、条件付き潜在資産価格要因から、類似資産の仲裁ポートフォリオを残余ポートフォリオとして構築する。 第2に,これら残余ポートフォリオの時系列信号を,最も強力な機械学習時系列ソリューションである畳み込みトランスフォーマによって抽出する。 最後に、これらの信号を使用して、制約の下でリスク調整されたリターンを最大化する最適なトレーディングポリシーを形成する。 我々は日刊大株と総合的な実証調査を実施している。 我々の最適なトレーディング戦略は、常に高いサンプルのシャープ比を取得し、全てのベンチマークアプローチを著しく上回る。 一般的なリスク要因と直交し、非対称な局所傾向と回帰パターンを利用する。 取引摩擦やコストを考慮して、当社の戦略は引き続き利益を上げます。 以上の結果から, 仲裁員が一価法を施行する際の高い補償効果が示唆された。

Statistical arbitrage identifies and exploits temporal price differences between similar assets. We propose a unifying conceptual framework for statistical arbitrage and develop a novel deep learning solution, which finds commonality and time-series patterns from large panels in a data-driven and flexible way. First, we construct arbitrage portfolios of similar assets as residual portfolios from conditional latent asset pricing factors. Second, we extract the time series signals of these residual portfolios with one of the most powerful machine learning time-series solutions, a convolutional transformer. Last, we use these signals to form an optimal trading policy, that maximizes risk-adjusted returns under constraints. We conduct a comprehensive empirical comparison study with daily large cap U.S. stocks. Our optimal trading strategy obtains a consistently high out-of-sample Sharpe ratio and substantially outperforms all benchmark approaches. It is orthogonal to common risk factors, and exploits asymmetric local trend and reversion patterns. Our strategies remain profitable after taking into account trading frictions and costs. Our findings suggest a high compensation for arbitrageurs to enforce the law of one price.
翻訳日:2021-06-09 15:40:34 公開日:2021-06-08
# 任意デバイス利用可能性を考慮した高速フェデレーション学習

Fast Federated Learning in the Presence of Arbitrary Device Unavailability ( http://arxiv.org/abs/2106.04159v1 )

ライセンス: Link先を確認
Xinran Gu, Kaixuan Huang, Jingzhao Zhang, Longbo Huang(参考訳) federated learning(fl)は、多数の異種デバイスと協調して、ユーザのプライバシを維持しながら共有モデルを協調的にトレーニングする。 多くの利点があるにもかかわらず、FLは新しい課題に直面している。 ひとつの課題は、デバイスが中央サーバの制御を超えたトレーニングプロセスから外れたときだ。 この場合、FedAvgのような一般的なFLアルゴリズムの収束は、ストラグリングデバイスに大きく影響される。 この課題に取り組むために,任意のデバイス使用不可能下でのフェデレーション学習アルゴリズムを調査し,mifa(memory-augment ed impatient federated averaging)というアルゴリズムを提案する。 本アルゴリズムは,非活性デバイスによる過度の遅延を効率よく回避し,記憶された最新情報を用いて勾配バイアスを補正する。 mifa が非i.i.d 上の最小最適収束率を達成することを証明している。 強い凸と非凸の滑らかな関数のデータ。 また,実世界のデータセットにおける数値実験により,ベースラインアルゴリズムに対する改善の明示的な特徴付けを行い,結果の検証を行った。

Federated Learning (FL) coordinates with numerous heterogeneous devices to collaboratively train a shared model while preserving user privacy. Despite its multiple advantages, FL faces new challenges. One challenge arises when devices drop out of the training process beyond the control of the central server. In this case, the convergence of popular FL algorithms such as FedAvg is severely influenced by the straggling devices. To tackle this challenge, we study federated learning algorithms under arbitrary device unavailability and propose an algorithm named Memory-augmented Impatient Federated Averaging (MIFA). Our algorithm efficiently avoids excessive latency induced by inactive devices, and corrects the gradient bias using the memorized latest updates from the devices. We prove that MIFA achieves minimax optimal convergence rates on non-i.i.d. data for both strongly convex and non-convex smooth functions. We also provide an explicit characterization of the improvement over baseline algorithms through a case study, and validate the results by numerical experiments on real-world datasets.
翻訳日:2021-06-09 15:40:20 公開日:2021-06-08
# ハイパーパラメータ最適化における双レベルプログラミングの安定性と一般化

Stability and Generalization of Bilevel Programming in Hyperparameter Optimization ( http://arxiv.org/abs/2106.04188v1 )

ライセンス: Link先を確認
Fan Bao, Guoqiang Wu, Chongxuan Li, Jun Zhu, Bo Zhang(参考訳) 近年、(勾配ベースの)二レベルプログラミングフレームワークは、ハイパーパラメータの最適化に広く使われ、経験的に優れたパフォーマンスを達成している。 以前の理論的な研究は、主にその最適化特性に焦点を合わせ、一方、一般化に関する分析は概ねオープンである。 本稿では,予測値w.r.tを提示することでこの問題に対処しようとする。 均一安定性に基づく 検証セット。 我々の結果は、例えば検証セットに過度に適合するような、実際に二段階プログラミングの神秘的な振る舞いを説明することができる。 また,古典的クロスバリデーションアルゴリズムの期待値を示す。 理論的観点からは,勾配に基づくアルゴリズムは特定の条件下でのクロスバリデーションよりも優れていることが示唆された。 さらに,外層および内層における正規化項が勾配アルゴリズムの過度適合問題を緩和することを示した。 雑音ラベルに対する特徴学習とデータ再重み付けの実験では,理論的知見を裏付ける。

Recently, the (gradient-based) bilevel programming framework is widely used in hyperparameter optimization and has achieved excellent performance empirically. Previous theoretical work mainly focuses on its optimization properties, while leaving the analysis on generalization largely open. This paper attempts to address the issue by presenting an expectation bound w.r.t. the validation set based on uniform stability. Our results can explain some mysterious behaviours of the bilevel programming in practice, for instance, overfitting to the validation set. We also present an expectation bound for the classical cross-validation algorithm. Our results suggest that gradient-based algorithms can be better than cross-validation under certain conditions in a theoretical perspective. Furthermore, we prove that regularization terms in both the outer and inner levels can relieve the overfitting problem in gradient-based algorithms. In experiments on feature learning and data reweighting for noisy labels, we corroborate our theoretical findings.
翻訳日:2021-06-09 15:40:02 公開日:2021-06-08
# 連続空間における運動計画のためのリプシッツ帯域付きPMDPの効率的なサンプリング

Efficient Sampling in POMDPs with Lipschitz Bandits for Motion Planning in Continuous Spaces ( http://arxiv.org/abs/2106.04206v1 )

ライセンス: Link先を確認
\"Omer \c{S}ahin Ta\c{s}, Felix Hauser, Martin Lauer(参考訳) 不確実性の下での意思決定は、部分的に観測可能なマルコフ決定過程(POMDP)とみなすことができる。 POMDPの正確な解を見つけることは一般に計算的に難解であるが、この解はサンプリングベースのアプローチによって近似することができる。 これらのサンプリングベースのPOMDPソルバはマルチアーム・バンディット(MAB)ヒューリスティックスに依存しており、異なるアクションの結果は非相関であると仮定している。 連続空間における運動計画のような応用では、同様の作用が同様の結果をもたらす。 本稿では,行動の結果に対するリプシッツ連続性を仮定したmabヒューリスティックの変種を用いて,サンプリング型計画手法の効率を向上させる。 自動走行における動作計画の文脈におけるこのアプローチの有効性を示す。

Decision making under uncertainty can be framed as a partially observable Markov decision process (POMDP). Finding exact solutions of POMDPs is generally computationally intractable, but the solution can be approximated by sampling-based approaches. These sampling-based POMDP solvers rely on multi-armed bandit (MAB) heuristics, which assume the outcomes of different actions to be uncorrelated. In some applications, like motion planning in continuous spaces, similar actions yield similar outcomes. In this paper, we utilize variants of MAB heuristics that make Lipschitz continuity assumptions on the outcomes of actions to improve the efficiency of sampling-based planning approaches. We demonstrate the effectiveness of this approach in the context of motion planning for automated driving.
翻訳日:2021-06-09 15:39:48 公開日:2021-06-08
# MindReader: 明示的なユーザレーティングによる知識グラフエンティティの推奨

MindReader: Recommendation over Knowledge Graph Entities with Explicit User Ratings ( http://arxiv.org/abs/2106.04209v1 )

ライセンス: Link先を確認
Anders H. Brams, Anders L. Jakobsen, Theis E. Jendal, Matteo Lissandrini, Peter Dolog, Katja Hose(参考訳) ナレッジグラフ (kgs) はいくつかのモデルに統合され、ある項目の情報的価値をグラフ内の関連エンティティによって増やすことが推奨されている。 しかし、既存のデータセットは項目の明示的な評価しか提供せず、他の(推奨されない)エンティティのユーザ意見に関する情報も提供されていない。 この制限を克服するために、MindReaderと呼ばれる新しいデータセットを導入し、アイテムとKGエンティティの両方で明確なユーザレーティングを提供します。 この最初のバージョンでは、mindreaderデータセットは映画ドメインの1kgから1,174人の実ユーザーから収集された102万以上の明示的な評価を提供する。 このデータセットは、オープンソースリリースのオンラインインタビューアプリケーションを通じて収集されています。 この新たなデータセットの重要性の実証として、さまざまな最先端レコメンデーションモデルにおいて、非イテムKGエンティティに対するレーティングの影響の比較研究を示す。 特に、グラフデータに特化して設計されたモデルであっても、明示的な非イテム評価でトレーニングされた場合、推奨品質が向上することを示す。 さらに,一部のモデルでは,推奨品質を損なうことなく項目評価を効果的に置き換えることができることを示す。 この発見は、ユーザーが一般的なKGエンティティに親しみやすく、長いテールアイテムよりも親しみやすいことから、暖かくコールドスタートのレコメンデーションにKGエンティティを使うことを動機付けている。

Knowledge Graphs (KGs) have been integrated in several models of recommendation to augment the informational value of an item by means of its related entities in the graph. Yet, existing datasets only provide explicit ratings on items and no information is provided about user opinions of other (non-recommendable) entities. To overcome this limitation, we introduce a new dataset, called the MindReader, providing explicit user ratings both for items and for KG entities. In this first version, the MindReader dataset provides more than 102 thousands explicit ratings collected from 1,174 real users on both items and entities from a KG in the movie domain. This dataset has been collected through an online interview application that we also release open source. As a demonstration of the importance of this new dataset, we present a comparative study of the effect of the inclusion of ratings on non-item KG entities in a variety of state-of-the-art recommendation models. In particular, we show that most models, whether designed specifically for graph data or not, see improvements in recommendation quality when trained on explicit non-item ratings. Moreover, for some models, we show that non-item ratings can effectively replace item ratings without loss of recommendation quality. This finding, thanks also to an observed greater familiarity of users towards common KG entities than towards long-tail items, motivates the use of KG entities for both warm and cold-start recommendations.
翻訳日:2021-06-09 15:39:35 公開日:2021-06-08
# 分類のためのコアセット -- 単純化と強化

Coresets for Classification -- Simplified and Strengthened ( http://arxiv.org/abs/2106.04254v1 )

ライセンス: Link先を確認
Tung Mai and Anup B. Rao and Cameron Musco(参考訳) 我々は、ロジスティック損失やヒンジ損失を含む幅広い損失関数を持つ線形分類子を訓練するための相対誤差コアセットを与える。 我々の構成は$(1\pm \epsilon)$ relative error with $\tilde O(d \cdot \mu_y(X)^2/\epsilon^2)$ points, where $\mu_y(X)$ is a natural complexity measure of the data matrix $X \in \mathbb{R}^{n \times d}$ and label vector $y \in \{-1,1\}^n$, introduced by Munteanu et al。 2018. 我々の結果は、$\ell_1$$Lewis$$ $weights$に比例した確率を持つデータポイントのサブサンプリングに基づいている。 既存の理論的境界を著しく改善し、実際は、他の重要なサンプリング手法と共に均一なサブサンプリングよりも優れた性能を発揮する。 我々のサンプリング分布はラベルに依存しないので、アクティブな学習に使用できる。 また、特定の損失関数に依存しないため、単一のコアセットを複数のトレーニングシナリオで使用できる。

We give relative error coresets for training linear classifiers with a broad class of loss functions, including the logistic loss and hinge loss. Our construction achieves $(1\pm \epsilon)$ relative error with $\tilde O(d \cdot \mu_y(X)^2/\epsilon^2)$ points, where $\mu_y(X)$ is a natural complexity measure of the data matrix $X \in \mathbb{R}^{n \times d}$ and label vector $y \in \{-1,1\}^n$, introduced in by Munteanu et al. 2018. Our result is based on subsampling data points with probabilities proportional to their $\ell_1$ $Lewis$ $weights$. It significantly improves on existing theoretical bounds and performs well in practice, outperforming uniform subsampling along with other importance sampling methods. Our sampling distribution does not depend on the labels, so can be used for active learning. It also does not depend on the specific loss function, so a single coreset can be used in multiple training scenarios.
翻訳日:2021-06-09 15:39:14 公開日:2021-06-08
# 構造スペクトル特徴とニューラルネットワークを用いた原理ハイパーエッジ予測

Principled Hyperedge Prediction with Structural Spectral Features and Neural Networks ( http://arxiv.org/abs/2106.04292v1 )

ライセンス: Link先を確認
Changlin Wan, Muhan Zhang, Wei Hao, Sha Cao, Pan Li, Chi Zhang(参考訳) hypergraphは、現実世界の複雑なデータの多角的関係を記述するフレームワークを提供する。 高次関係の予測、すなわちハイパーエッジは、複雑な相互作用を完全に理解するための根本的な問題となる。 グラフニューラルネットワーク(GNN)の開発は、対関係を持つ通常のグラフの解析を大幅に進歩させた。 しかし、これらの手法はハイパーグラフの場合に容易に拡張できない。 本稿では,エッジとノードレベルのあいまいさを原則として高次データを表現するgnnの課題を一般化する。 この課題を克服するために,二部グラフニューラルネットワークと構造的特徴を用いた2つの曖昧性問題を取り扱う \textbf{snals} を提案する。 SNALSは、その局所環境によってハイパーエッジの結合相互作用をキャプチャし、それらの接続のスペクトル情報を収集して取得する。 その結果、SNALSは最新のGNNモデルと比較して30%近い性能向上を達成した。 さらに,SNALSを用いて3次元ゲノム構造データ上での遺伝的高次相互作用を予測した。 SNALSは、異なる染色体間で一貫して高い予測精度を示し、既存の文献でさらに検証された4方向遺伝子相互作用の新しい発見を生んだ。

Hypergraph offers a framework to depict the multilateral relationships in real-world complex data. Predicting higher-order relationships, i.e hyperedge, becomes a fundamental problem for the full understanding of complicated interactions. The development of graph neural network (GNN) has greatly advanced the analysis of ordinary graphs with pair-wise relations. However, these methods could not be easily extended to the case of hypergraph. In this paper, we generalize the challenges of GNN in representing higher-order data in principle, which are edge- and node-level ambiguities. To overcome the challenges, we present \textbf{SNALS} that utilizes bipartite graph neural network with structural features to collectively tackle the two ambiguity issues. SNALS captures the joint interactions of a hyperedge by its local environment, which is retrieved by collecting the spectrum information of their connections. As a result, SNALS achieves nearly 30% performance increase compared with most recent GNN-based models. In addition, we applied SNALS to predict genetic higher-order interactions on 3D genome organization data. SNALS showed consistently high prediction accuracy across different chromosomes, and generated novel findings on 4-way gene interaction, which is further validated by existing literature.
翻訳日:2021-06-09 15:38:47 公開日:2021-06-08
# 機械学習と最適化のための非滑らかな暗示差分法

Nonsmooth Implicit Differentiation for Machine Learning and Optimization ( http://arxiv.org/abs/2106.04350v1 )

ライセンス: Link先を確認
J\'er\^ome Bolte (TSE), Tam Le (TSE), Edouard Pauwels (IRIT), Antonio Silveti-Falls (TSE)(参考訳) ますます複雑な学習アーキテクチャのトレーニングの観点から,演算計算を用いた非滑らかな暗黙関数定理を定式化する。 この結果は、古典可逆条件の非滑らかな形式が満たされるならば、最も実用的な問題(すなわち、定義可能な問題)に適用できる。 例えば、通常の微分公式におけるクラーク・ヤコビアンによる微分の置き換えは、幅広い非滑らかな問題に対して完全に正当化される。 さらに、この計算はアルゴリズムによる微分(例えばバックプロパゲーション)と完全に一致する。 本稿では,高次平衡ネットワークのトレーニング,コニック最適化層を用いたニューラルネットワークのトレーニング,非スムースラッソ型モデルのハイパーパラメータチューニングなど,いくつかの応用例を提案する。 仮定の鋭さを示すために, 暗黙的なアルゴリズム的微分を仮説なしで適用した場合に遭遇する極めて病的勾配ダイナミクスを示す数値実験を行った。

In view of training increasingly complex learning architectures, we establish a nonsmooth implicit function theorem with an operational calculus. Our result applies to most practical problems (i.e., definable problems) provided that a nonsmooth form of the classical invertibility condition is fulfilled. This approach allows for formal subdifferentiation: for instance, replacing derivatives by Clarke Jacobians in the usual differentiation formulas is fully justified for a wide class of nonsmooth problems. Moreover this calculus is entirely compatible with algorithmic differentiation (e.g., backpropagation). We provide several applications such as training deep equilibrium networks, training neural nets with conic optimization layers, or hyperparameter-tunin g for nonsmooth Lasso-type models. To show the sharpness of our assumptions, we present numerical experiments showcasing the extremely pathological gradient dynamics one can encounter when applying implicit algorithmic differentiation without any hypothesis.
翻訳日:2021-06-09 15:38:30 公開日:2021-06-08
# プライバシー保護フェデレーション学習のインセンティブメカニズム

Incentive Mechanism for Privacy-Preserving Federated Learning ( http://arxiv.org/abs/2106.04384v1 )

ライセンス: Link先を確認
Shuyuan Zheng, Yang Cao, and Masatoshi Yoshikawa(参考訳) フェデレーテッド・ラーニング(FL)は機械学習の新たなパラダイムであり、データ所有者は生データの代わりに勾配を共有することでモデルを協調的に訓練することができる。 flにおける2つの基本的な研究課題は、インセンティブ機構とプライバシー保護である。 前者はデータ所有者にflに参加するインセンティブを与える方法に焦点を当てている。 後者は、訓練されたモデルの高ユーティリティを維持しながら、データ所有者のプライバシを保護する方法を研究する。 しかし、FLにおけるインセンティブ機構とプライバシ保護は別々に研究されており、同時に両方の問題を解決する作業は行われていない。 本研究では,データ所有者の参加を促すFL-Marketによって,適切な支払いとプライバシ保護を提供することにより,この2つの課題を同時に解決する。 FL-Marketは、データ所有者がローカルディファレンシャルプライバシ(LDP)によって定量化されたプライバシ損失に応じて補償を得ることを可能にする。 我々の洞察は、データ所有者のパーソナライズされたプライバシの嗜好に応え、適切な支払いを提供することで、(1)プライバシーに耐性のあるデータ所有者により大きなプライバシパラメータ(すなわち、ノイズの少ない勾配)を設定するインセンティブを与えることができ、(2)プライバシの逆データ所有者に対するプライバシー保護を提供する。 そこで我々は,より少ないノイズでトレーディング勾配をインセンティブ化するための深層学習を利用したオークション機構とモデル更新のための最適アグリゲーション機構を備えたパーソナライズLDPベースのFLフレームワークを設計した。 提案手法の有効性を検証する実験を行った。

Federated learning (FL) is an emerging paradigm for machine learning, in which data owners can collaboratively train a model by sharing gradients instead of their raw data. Two fundamental research problems in FL are incentive mechanism and privacy protection. The former focuses on how to incentivize data owners to participate in FL. The latter studies how to protect data owners' privacy while maintaining high utility of trained models. However, incentive mechanism and privacy protection in FL have been studied separately and no work solves both problems at the same time. In this work, we address the two problems simultaneously by an FL-Market that incentivizes data owners' participation by providing appropriate payments and privacy protection. FL-Market enables data owners to obtain compensation according to their privacy loss quantified by local differential privacy (LDP). Our insight is that, by meeting data owners' personalized privacy preferences and providing appropriate payments, we can (1) incentivize privacy risk-tolerant data owners to set larger privacy parameters (i.e., gradients with less noise) and (2) provide preferred privacy protection for privacy risk-averse data owners. To achieve this, we design a personalized LDP-based FL framework with a deep learning-empowered auction mechanism for incentivizing trading gradients with less noise and optimal aggregation mechanisms for model updates. Our experiments verify the effectiveness of the proposed framework and mechanisms.
翻訳日:2021-06-09 15:38:15 公開日:2021-06-08
# property-aware robot object manipulation: 生成的アプローチ

Property-Aware Robot Object Manipulation: a Generative Approach ( http://arxiv.org/abs/2106.04385v1 )

ライセンス: Link先を確認
Luca Garello and Linda Lastrico, Francesco Rea, Fulvio Mastrogiovanni, Nicoletta Noceti and Alessandra Sciutti(参考訳) 物体を輸送する際には、アイテムが壊れやすいときに減速することで、その特性に無意識に動きを適応させます。 対象の最も関連する特徴は、言語記述を必要とせず、処理の仕方によって直ちに人間の観察者に明らかにされる。 これは、ヒューマノイドロボットが観察者に同様の直感的な手がかりを伝える動きを行えるように、コラボレーションを大いに促進する。 本研究では,操作対象の重みや脆さといった隠れた特性に適応したロボットの動きを生成する方法に着目した。 本稿では,ジェネレーティブ・アドバイサル・ネットワークを利用して,オブジェクトの特性に忠実な新しいアクションを合成する可能性を検討する。 生成的アプローチを用いることで、多数の記録された人間主導のデモを収集することなく、新しい一貫した動きパターンを作成できる。 さらに、アクションのインフォメーション内容も保存される。 以上の結果から, 生成型対向性ネットは, 新規かつ有意義な輸送行動の生成に強力なツールとなり, 対象重量の関数やその処理に必要な注意力として効果的に調節されることが示唆された。

When transporting an object, we unconsciously adapt our movement to its properties, for instance by slowing down when the item is fragile. The most relevant features of an object are immediately revealed to a human observer by the way the handling occurs, without any need for verbal description. It would greatly facilitate collaboration to enable humanoid robots to perform movements that convey similar intuitive cues to the observers. In this work, we focus on how to generate robot motion adapted to the hidden properties of the manipulated objects, such as their weight and fragility. We explore the possibility of leveraging Generative Adversarial Networks to synthesize new actions coherent with the properties of the object. The use of a generative approach allows us to create new and consistent motion patterns, without the need of collecting a large number of recorded human-led demonstrations. Besides, the informative content of the actions is preserved. Our results show that Generative Adversarial Nets can be a powerful tool for the generation of novel and meaningful transportation actions, which result effectively modulated as a function of the object weight and the carefulness required in its handling.
翻訳日:2021-06-09 15:37:46 公開日:2021-06-08
# フーリエ安定化によるニューラルネットワークのロバスト性向上

Enhancing Robustness of Neural Networks through Fourier Stabilization ( http://arxiv.org/abs/2106.04435v1 )

ライセンス: Link先を確認
Netanel Raviv, Aidan Kelley, Michael Guo, Yevgeny Vorobeychik(参考訳) マルウェア検出などのセキュリティ設定におけるニューラルネットワークの成功にもかかわらず、そのようなモデルは回避攻撃に対して脆弱であることが証明され、攻撃者は検出をバイパスするために入力(マルウェアなど)を少し変更する。 本稿では,二項入力を用いた回避ロバストニューラルネットワークの設計のための新しいアプローチであるemph{Fourier stabilization}を提案する。 このアプローチは他の防御法と相補的なものであり、個々のニューロンの重みをフーリエ解析ツールを用いて導出した堅牢なアナログに置き換える。 ニューラルネットワークでどのニューロンを安定化させるかという選択は組合せ最適化問題であり、これを概ね解くためのいくつかの方法を提案する。 本稿では、フーリエ安定化によるニューロンごとの精度低下を公式に制限し、いくつかの検出設定においてニューラルネットワークの堅牢性を高めるための提案手法の有効性を実験的に実証する。 さらに,本手法は,対向訓練で効果的に構成できることを示す。

Despite the considerable success of neural networks in security settings such as malware detection, such models have proved vulnerable to evasion attacks, in which attackers make slight changes to inputs (e.g., malware) to bypass detection. We propose a novel approach, \emph{Fourier stabilization}, for designing evasion-robust neural networks with binary inputs. This approach, which is complementary to other forms of defense, replaces the weights of individual neurons with robust analogs derived using Fourier analytic tools. The choice of which neurons to stabilize in a neural network is then a combinatorial optimization problem, and we propose several methods for approximately solving it. We provide a formal bound on the per-neuron drop in accuracy due to Fourier stabilization, and experimentally demonstrate the effectiveness of the proposed approach in boosting robustness of neural networks in several detection settings. Moreover, we show that our approach effectively composes with adversarial training.
翻訳日:2021-06-09 15:37:25 公開日:2021-06-08
# 時変ネットワーク上の滑らかかつ強凸分散最適化のための下限と最適アルゴリズム

Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex Decentralized Optimization Over Time-Varying Networks ( http://arxiv.org/abs/2106.04469v1 )

ライセンス: Link先を確認
Dmitry Kovalev, Elnur Gasanov, Peter Richt\'arik, Alexander Gasnikov(参考訳) 本稿では,リンク変更を許す通信ネットワークのノード間を分散的に格納するスムーズで強い凸関数の和を最小化するタスクについて検討する。 この課題の根本的な問題は2つある。 まず、分散化された通信ラウンド数と$\epsilon$-accurate の解を見つけるのに必要な局所計算数について、最初の下限を確立する。 第2に、この下界を達成する2つの最適アルゴリズムをデザインする: (i) 最近提案されたアルゴリズム adom (kovalev et al., 2021) の変種は、双対勾配へのアクセスが想定される場合に最適であるマルチコンセンサスサブルーチンを介して拡張され、 (ii) 主勾配へのアクセスが想定された場合に最適な新しいアルゴリズム adom+ を設計。 これらのアルゴリズムの理論的効率を,既存の最先端手法との実験的比較によって検証する。

We consider the task of minimizing the sum of smooth and strongly convex functions stored in a decentralized manner across the nodes of a communication network whose links are allowed to change in time. We solve two fundamental problems for this task. First, we establish the first lower bounds on the number of decentralized communication rounds and the number of local computations required to find an $\epsilon$-accurate solution. Second, we design two optimal algorithms that attain these lower bounds: (i) a variant of the recently proposed algorithm ADOM (Kovalev et al., 2021) enhanced via a multi-consensus subroutine, which is optimal in the case when access to the dual gradients is assumed, and (ii) a novel algorithm, called ADOM+, which is optimal in the case when access to the primal gradients is assumed. We corroborate the theoretical efficiency of these algorithms by performing an experimental comparison with existing state-of-the-art methods.
翻訳日:2021-06-09 15:37:10 公開日:2021-06-08
# 計算機代数学による低アーティファクト補間核の設計

Design of Low-Artifact Interpolation Kernels by Means of Computer Algebra ( http://arxiv.org/abs/2106.04104v1 )

ライセンス: Link先を確認
Peter Karpov(参考訳) 画像補間のための新しいポリノミカルカーネルをいくつか提示する。 カーネルは異方性アーティファクトの大きさに基づいて補間品質の測定を最適化することにより構成される。 カーネル設計プロセスは mathematica computer algebra system を用いてシンボル的に実行される。 14種類の画像品質評価手法による実験結果から,既存の線形補間器と比較した結果が得られた。

We present a number of new piecewise-polynomial kernels for image interpolation. The kernels are constructed by optimizing a measure of interpolation quality based on the magnitude of anisotropic artifacts. The kernel design process is performed symbolically using Mathematica computer algebra system. Experimental evaluation involving 14 image quality assessment methods demonstrates that our results compare favorably with the existing linear interpolators.
翻訳日:2021-06-09 15:36:49 公開日:2021-06-08
# 不確かさ推定によるランドマークに基づく顔表情認識のためのモンテカルロドロップアウト付きプログレッシブ時空間バイリニアネットワーク

Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout for Landmark-based Facial Expression Recognition with Uncertainty Estimation ( http://arxiv.org/abs/2106.04332v1 )

ライセンス: Link先を確認
Negar Heidari and Alexandros Iosifidis(参考訳) ディープニューラルネットワークは、表情認識システムにおける特徴学習に広く使われている。 しかし、小さなデータセットと大きなクラス内変動は過剰適合を引き起こす可能性がある。 本稿では,局所的な顔ランドマーク特徴を用いたリアルタイム表情認識のための最適化されたコンパクトネットワークトポロジーを学習する手法を提案する。 本手法では,時空間的バイリニア層をバックボーンとして,表情実行時の顔ランドマークの動きを効果的に捉える。 さらに、モンテカルロ・ドロップアウトを利用してモデルの不確実性を捉え、不確実なケースを分析し治療することが非常に重要である。 本手法の性能は, 広く使用されている3つのデータセットで評価され, 複雑度は低いが, ビデオベースの最先端手法と同等である。

Deep neural networks have been widely used for feature learning in facial expression recognition systems. However, small datasets and large intra-class variability can lead to overfitting. In this paper, we propose a method which learns an optimized compact network topology for real-time facial expression recognition utilizing localized facial landmark features. Our method employs a spatio-temporal bilinear layer as backbone to capture the motion of facial landmarks during the execution of a facial expression effectively. Besides, it takes advantage of Monte Carlo Dropout to capture the model's uncertainty which is of great importance to analyze and treat uncertain cases. The performance of our method is evaluated on three widely used datasets and it is comparable to that of video-based state-of-the-art methods while it has much less complexity.
翻訳日:2021-06-09 15:36:43 公開日:2021-06-08
# 統計的学習と知覚距離の関係について

On the relation between statistical learning and perceptual distances ( http://arxiv.org/abs/2106.04427v1 )

ライセンス: Link先を確認
Alexander Hepburn and Valero Laparra and Raul Santos-Rodriguez and Johannes Ball\'e and Jes\'us Malo(参考訳) 人間の視覚システムの動作は、自然画像の統計と結びつくことが何度も実証されている。 機械学習はトレーニングデータの統計にも依存するため、上記の接続は(人間の視覚系の振る舞いを模倣する)知覚距離を損失関数として使用する場合に興味深い意味を持つ。 本稿では,データの確率分布,知覚距離,教師なし機械学習の非自明な関係を明らかにすることを目的とする。 この目的のために,知覚感度は近接した近傍の画像の確率と相関していることを示す。 また, オートエンコーダによって誘導される距離と, トレーニングに使用されるデータの確率分布との関係, およびこれらの距離が人間の知覚とどのように相関するかを検討する。 最後に、一般的な画像処理タスクにおいて、知覚距離が標準ユークリッド距離よりも性能が著しく向上しない理由について、データが不足し知覚距離が正規化される場合を除いて論じる。

It has been demonstrated many times that the behavior of the human visual system is connected to the statistics of natural images. Since machine learning relies on the statistics of training data as well, the above connection has interesting implications when using perceptual distances (which mimic the behavior of the human visual system) as a loss function. In this paper, we aim to unravel the non-trivial relationship between the probability distribution of the data, perceptual distances, and unsupervised machine learning. To this end, we show that perceptual sensitivity is correlated with the probability of an image in its close neighborhood. We also explore the relation between distances induced by autoencoders and the probability distribution of the data used for training them, as well as how these induced distances are correlated with human perception. Finally, we discuss why perceptual distances might not lead to noticeable gains in performance over standard Euclidean distances in common image processing tasks except when data is scarce and the perceptual distance provides regularization.
翻訳日:2021-06-09 15:36:29 公開日:2021-06-08
# ディープラーニングベースのファイナンスにはどのようなデータ強化が必要か?

What Data Augmentation Do We Need for Deep-Learning-Based Finance? ( http://arxiv.org/abs/2106.04114v1 )

ライセンス: Link先を確認
Liu Ziyin, Kentaro Minami, Kentaro Imajo(参考訳) 我々が考える主な課題は投機的市場におけるポートフォリオの構築であり、現代の金融の根本的な問題である。 金融の深層学習を探求する様々な経験的研究が現在存在しているが、理論的な側面はほとんど存在しない。 本研究では,定量的ファイナンスに対するディープラーニングに基づくアプローチにおけるデータ拡張の利用を理解するための理論的枠組みの開発に着目する。 提案する理論は,金融におけるデータ拡張の役割と必要性を明確にするものであり,さらに本理論は,実測値である$r_{t}$に対して,強度の無作為なノイズを注入する単純なアルゴリズムを動機付けるものである。 このアルゴリズムは実際にうまく動作することが示されている。

The main task we consider is portfolio construction in a speculative market, a fundamental problem in modern finance. While various empirical works now exist to explore deep learning in finance, the theory side is almost non-existent. In this work, we focus on developing a theoretical framework for understanding the use of data augmentation for deep-learning-based approaches to quantitative finance. The proposed theory clarifies the role and necessity of data augmentation for finance; moreover, our theory motivates a simple algorithm of injecting a random noise of strength $\sqrt{|r_{t-1}|}$ to the observed return $r_{t}$. This algorithm is shown to work well in practice.
翻訳日:2021-06-09 15:34:54 公開日:2021-06-08
# 効率的なキーワードスポッティングのための放送残差学習

Broadcasted Residual Learning for Efficient Keyword Spotting ( http://arxiv.org/abs/2106.04140v1 )

ライセンス: Link先を確認
Byeonggeun Kim, Simyung Chang, Jinkyu Lee, Dooyong Sung(参考訳) キーワードスポッティングは、スマートデバイスでのデバイス起動とユーザインタラクションにおいて重要な役割を果たすため、重要な研究分野である。 しかし、携帯電話などの限られたリソースを持つデバイスで効率的に動作しながらエラーを最小限に抑えることは困難である。 本稿では,モデルサイズと計算負荷を小さくして高精度な残差学習を実現する。 残差関数のほとんどを1次元の時間的畳み込みとして構成するが、2次元の畳み込みは時間的出力を周波数・時間的次元に拡張するブロードキャストド・リシデント接続を用いて行う。 この残差マッピングにより、従来の畳み込みニューラルネットワークよりもはるかに少ない計算で有用な音声特徴を効果的に表現することができる。 また,broadcast-residual network (bc-resnet) という新しいネットワークアーキテクチャを提案する。 bc-resnetsはgoogle speech commandデータセットv1とv2で98.0%と98.7%のtop-1精度を達成し、計算量やパラメータの少ない従来のアプローチを一貫して上回っている。

Keyword spotting is an important research field because it plays a key role in device wake-up and user interaction on smart devices. However, it is challenging to minimize errors while operating efficiently in devices with limited resources such as mobile phones. We present a broadcasted residual learning method to achieve high accuracy with small model size and computational load. Our method configures most of the residual functions as 1D temporal convolution while still allows 2D convolution together using a broadcasted-residual connection that expands temporal output to frequency-temporal dimension. This residual mapping enables the network to effectively represent useful audio features with much less computation than conventional convolutional neural networks. We also propose a novel network architecture, Broadcasting-residua l network (BC-ResNet), based on broadcasted residual learning and describe how to scale up the model according to the target device's resources. BC-ResNets achieve state-of-the-art 98.0% and 98.7% top-1 accuracy on Google speech command datasets v1 and v2, respectively, and consistently outperform previous approaches, using fewer computations and parameters.
翻訳日:2021-06-09 15:34:39 公開日:2021-06-08
# 分岐図を用いたパラメータ推定

Parameter Inference with Bifurcation Diagrams ( http://arxiv.org/abs/2106.04243v1 )

ライセンス: Link先を確認
Gregory Szep, Neil Dalchau and Attila Csikasz-Nagy(参考訳) 微分方程式モデルにおけるパラメータの推定は、定量的時系列データに学習アルゴリズムを適用することで実現できる。 しかし、制御された条件に応じてシステムの定性的変化を測ることしかできないこともある。 力学系理論では、そのような変化点は \textit{bifurcations} と呼ばれ、制御条件の関数上の \textit{bifurcation diagram} と呼ばれる。 本研究では,ユーザ特定分岐図を作成する微分方程式のパラメータを推定するための勾配に基づく半教師付き手法を提案する。 コスト関数は、モデル分岐が指定された目標と一致する場合に最小となる教師付き誤差項と、最適化器を分岐パラメータレジームにプッシュする勾配を有する教師なし分岐測度を含む。 勾配はダイアグラムの計算に使われたソルバの演算を通して微分されることなく計算できる。 本研究では,サドルノード図とピッチフォーク図の空間と合成生物学の遺伝的トグルスイッチを探索する最小モデルを用いてパラメータ推定を行う。 さらに、コストランドスケープにより、トポロジカルおよび幾何学的等価性の観点からモデルを整理することができる。

Estimation of parameters in differential equation models can be achieved by applying learning algorithms to quantitative time-series data. However, sometimes it is only possible to measure qualitative changes of a system in response to a controlled condition. In dynamical systems theory, such change points are known as \textit{bifurcations} and lie on a function of the controlled condition called the \textit{bifurcation diagram}. In this work, we propose a gradient-based semi-supervised approach for inferring the parameters of differential equations that produce a user-specified bifurcation diagram. The cost function contains a supervised error term that is minimal when the model bifurcations match the specified targets and an unsupervised bifurcation measure which has gradients that push optimisers towards bifurcating parameter regimes. The gradients can be computed without the need to differentiate through the operations of the solver that was used to compute the diagram. We demonstrate parameter inference with minimal models which explore the space of saddle-node and pitchfork diagrams and the genetic toggle switch from synthetic biology. Furthermore, the cost landscape allows us to organise models in terms of topological and geometric equivalence.
翻訳日:2021-06-09 15:34:14 公開日:2021-06-08
# トポロジカルデータ解析を用いた分子深部生成モデルの拡張

Augmenting Molecular Deep Generative Models with Topological Data Analysis Representations ( http://arxiv.org/abs/2106.04464v1 )

ライセンス: Link先を確認
Yair Schiff, Vijil Chenthamarakshan, Samuel Hoffman, Karthikeyan Natesan Ramamurthy, Payel Das(参考訳) 深層生成モデルは、情報的分子表現を学習し、望ましい性質を持つ新規分子を設計するための強力なツールとして登場し、薬物発見と材料設計に応用されている。 分子SMILES文字列上で定義された深い自己エンコーダは、その目的のために一般的な選択である。 しかし、量子化学エネルギーのような有能な分子特性を捉えることは依然として困難であり、分子グラフや幾何学に基づく情報の洗練されたニューラルネットモデルを必要とする。 SMILES変分自動エンコーダ (VAE) に, 永続画像として知られる分子のトポロジカルデータ解析 (TDA) 表現を付加する手法を提案する。 この実験により, SMILES VAEは3次元幾何学と電子物性の複雑な関係を捉えることができ, 有機太陽電池の設計における重要な特性であるHOMO-LUMOギャップなど, 様々なグローバル電子構造特性を示す, トレーニングデータと整合した幾何学的特徴を持つ新規, 多様性, 有効分子の生成を可能にした。 我々のTDA増強は、これらの表現なしで訓練されたモデルと比較して下流タスクにおいてより良い成功をもたらし、標的となる分子発見を支援することを実証する。

Deep generative models have emerged as a powerful tool for learning informative molecular representations and designing novel molecules with desired properties, with applications in drug discovery and material design. Deep generative auto-encoders defined over molecular SMILES strings have been a popular choice for that purpose. However, capturing salient molecular properties like quantum-chemical energies remains challenging and requires sophisticated neural net models of molecular graphs or geometry-based information. As a simpler and more efficient alternative, we present a SMILES Variational Auto-Encoder (VAE) augmented with topological data analysis (TDA) representations of molecules, known as persistence images. Our experiments show that this TDA augmentation enables a SMILES VAE to capture the complex relation between 3D geometry and electronic properties, and allows generation of novel, diverse, and valid molecules with geometric features consistent with the training data, which exhibit a varying range of global electronic structural properties, such as a small HOMO-LUMO gap - a critical property for designing organic solar cells. We demonstrate that our TDA augmentation yields better success in downstream tasks compared to models trained without these representations and can assist in targeted molecule discovery.
翻訳日:2021-06-09 15:33:53 公開日:2021-06-08
# ニューラルハイブリッドオートマトン:多重モードと確率的遷移を伴う学習ダイナミクス

Neural Hybrid Automata: Learning Dynamics with Multiple Modes and Stochastic Transitions ( http://arxiv.org/abs/2106.04165v1 )

ライセンス: Link先を確認
Michael Poli, Stefano Massaroli, Luca Scimeca, Seong Joon Oh, Sanghyuk Chun, Atsushi Yamashita, Hajime Asama, Jinkyoo Park, Animesh Garg(参考訳) 動的システムの効果的な制御と予測は、しばしば連続時間および離散的なイベントトリガー処理の適切な処理を必要とする。 工学領域に共通する確率的ハイブリッドシステム(SHSs)は、離散的、確率的、状態ジャンプ、マルチモーダル連続時間フローの対象となる力学系に対して形式主義を提供する。 アプリケーション間でのSHSの汎用性と重要性にもかかわらず、離散事象とマルチモード連続力学の両方の明示的な学習の一般的な手順は未解決の問題である。 この研究は、モードの数やモード間遷移ダイナミクスに関する事前知識のないSHSダイナミクスを学習するためのレシピであるNeural Hybrid Automata (NHAs)を導入している。 NHAは、正規化フロー、ニューラル微分方程式、自己超越に基づく体系的推論手法を提供する。 確率遷移を持つシステムにおけるモード回復とフロー学習、階層型ロボットコントローラのエンドツーエンド学習など、いくつかのタスクでNHAを紹介する。

Effective control and prediction of dynamical systems often require appropriate handling of continuous-time and discrete, event-triggered processes. Stochastic hybrid systems (SHSs), common across engineering domains, provide a formalism for dynamical systems subject to discrete, possibly stochastic, state jumps and multi-modal continuous-time flows. Despite the versatility and importance of SHSs across applications, a general procedure for the explicit learning of both discrete events and multi-mode continuous dynamics remains an open problem. This work introduces Neural Hybrid Automata (NHAs), a recipe for learning SHS dynamics without a priori knowledge on the number of modes and inter-modal transition dynamics. NHAs provide a systematic inference method based on normalizing flows, neural differential equations and self-supervision. We showcase NHAs on several tasks, including mode recovery and flow learning in systems with stochastic transitions, and end-to-end learning of hierarchical robot controllers.
翻訳日:2021-06-09 15:33:08 公開日:2021-06-08
# BIGDML: 材料のための特別な機械学習力場を目指して

BIGDML: Towards Exact Machine Learning Force Fields for Materials ( http://arxiv.org/abs/2106.04229v1 )

ライセンス: Link先を確認
Huziel E. Sauceda, Luis E. G\'alvez-Gonz\'alez, Stefan Chmiela, Lauro Oliver Paz-Borb\'on, Klaus-Robert M\"uller, Alexandre Tkatchenko(参考訳) 機械学習力場(MLFF)は正確で、計算的で、データ効率が良く、その分子、材料、インターフェースに適用できる。 現在、mlffは、化学空間の小さなサブセットに実用的適用性を制限するトレードオフを導入するか、トレーニングのために徹底したデータセットを必要とする。 ここでは,Bravais-Inspired Gradient-Domain Machine Learning (BIGDML) アプローチを導入し,プリスタン,欠陥含有2D,3D半導体,金属,化学吸着および物理吸着原子,分子吸着原子などの材料に対する10-200ジオメトリのトレーニングセットを用いて,信頼性の高い力場を構築する能力を示す。 BIGDMLモデルは、与えられた物質に対して完全な対称性群を使用し、人工的な原子タイプや原子相互作用の局在を仮定せず、拡張された物質の集合に対して高いデータ効率と最先端のエネルギー蓄積(原子当たり1MeV未満のエラー)を示す。 bigdmlモデルを用いた広範な経路積分分子動力学は、原子核量子効果によって誘起されるベンゼン-グラフェンダイナミクスの逆直観的な局在を示し、pd結晶中の水素拡散係数のアルレニウス挙動を幅広い温度で合理化する。

Machine-learning force fields (MLFF) should be accurate, computationally and data efficient, and applicable to molecules, materials, and interfaces thereof. Currently, MLFFs often introduce tradeoffs that restrict their practical applicability to small subsets of chemical space or require exhaustive datasets for training. Here, we introduce the Bravais-Inspired Gradient-Domain Machine Learning (BIGDML) approach and demonstrate its ability to construct reliable force fields using a training set with just 10-200 geometries for materials including pristine and defect-containing 2D and 3D semiconductors and metals, as well as chemisorbed and physisorbed atomic and molecular adsorbates on surfaces. The BIGDML model employs the full relevant symmetry group for a given material, does not assume artificial atom types or localization of atomic interactions and exhibits high data efficiency and state-of-the-art energy accuracies (errors substantially below 1 meV per atom) for an extended set of materials. Extensive path-integral molecular dynamics carried out with BIGDML models demonstrate the counterintuitive localization of benzene--graphene dynamics induced by nuclear quantum effects and allow to rationalize the Arrhenius behavior of hydrogen diffusion coefficient in a Pd crystal for a wide range of temperatures.
翻訳日:2021-06-09 15:32:53 公開日:2021-06-08
# (参考訳) 抽象的要約蒸留における注意温度 [全文訳有]

Attention Temperature Matters in Abstractive Summarization Distillation ( http://arxiv.org/abs/2106.03441v2 )

ライセンス: CC BY 4.0
Shengqiang Zhang, Xingxing Zhang, Hangbo Bao, Furu Wei(参考訳) 最近の抽象的テキスト要約の進歩は、計算コストが高い大きな事前学習されたシーケンス・ツー・シーケンストランスフォーマーモデルに大きく依存している。 本稿では,これらの大規模モデルをより高速な推論と最小性能損失のために,より小さなモデルに蒸留することを目的とする。 擬似ラベル法はシーケンス・ツー・シーケンス・モデル蒸留でよく用いられる。 本稿では,変圧器の注意温度を簡易に操作することで,学生モデルの学習が容易になることを示す。 3つの要約データセットを用いた実験により,提案手法がバニラ擬似ラベルベース手法を一貫して改善することを示す。 また,学生が作成した疑似ラベルと要約が,より短く,より抽象的であることもわかった。 コードとモデルを一般公開する予定です。

Recent progress of abstractive text summarization largely relies on large pre-trained sequence-to-sequence Transformer models, which are computationally expensive. This paper aims to distill these large models into smaller ones for faster inference and minimal performance loss. Pseudo-labeling based methods are popular in sequence-to-sequence model distillation. In this paper, we find simply manipulating attention temperatures in Transformers can make pseudo labels easier to learn for student models. Our experiments on three summarization datasets show our proposed method consistently improves over vanilla pseudo-labeling based methods. We also find that both the pseudo labels and summaries produced by our students are shorter and more abstractive. We will make our code and models publicly available.
翻訳日:2021-06-09 12:41:12 公開日:2021-06-08
# (参考訳) 位置バイアス軽減:感情原因抽出のための知識認識グラフモデル [全文訳有]

Position Bias Mitigation: A Knowledge-Aware Graph Model for Emotion Cause Extraction ( http://arxiv.org/abs/2106.03518v2 )

ライセンス: CC BY 4.0
Hanqi Yan, Lin Gui, Gabriele Pergola, Yulan He(参考訳) 感情原因抽出(ECE)タスクは、テキストで表現された特定の感情に対する感情誘発情報を含む節を特定することを目的としている。 広く使われているCEデータセットは、注釈付き原因節の大多数が関連する感情節の直前にあるか、あるいは感情節自体である、というバイアスを示す。 ECEの既存のモデルは、そのような相対的な位置情報を探索し、データセットバイアスに悩まされる傾向がある。 本研究では,既存のCEモデルが節の相対的な位置に依存する度合いを調べるために,相対的な位置情報がもはや原因節の指示的特徴ではない敵の例を生成する新しい手法を提案する。 既存のモデルの性能をこのような逆例で検証し、大幅な性能低下を観察する。 データセットのバイアスに対処するために,コモンセンス知識を活用して感情のトリガパスを明示的にモデル化し,候補節と感情節間の意味依存度を高めるグラフベース手法を提案する。 実験の結果,提案手法は従来のECEデータセットの既存手法と同等に動作し,既存モデルと比較して敵攻撃に対してより堅牢であることがわかった。

The Emotion Cause Extraction (ECE)} task aims to identify clauses which contain emotion-evoking information for a particular emotion expressed in text. We observe that a widely-used ECE dataset exhibits a bias that the majority of annotated cause clauses are either directly before their associated emotion clauses or are the emotion clauses themselves. Existing models for ECE tend to explore such relative position information and suffer from the dataset bias. To investigate the degree of reliance of existing ECE models on clause relative positions, we propose a novel strategy to generate adversarial examples in which the relative position information is no longer the indicative feature of cause clauses. We test the performance of existing models on such adversarial examples and observe a significant performance drop. To address the dataset bias, we propose a novel graph-based method to explicitly model the emotion triggering paths by leveraging the commonsense knowledge to enhance the semantic dependencies between a candidate clause and an emotion clause. Experimental results show that our proposed approach performs on par with the existing state-of-the-art methods on the original ECE dataset, and is more robust against adversarial attacks compared to existing models.
翻訳日:2021-06-09 12:24:51 公開日:2021-06-08
# (参考訳) 局所認識トランスフォーマーによる人物再同定 [全文訳有]

Person Re-Identification with a Locally Aware Transformer ( http://arxiv.org/abs/2106.03720v2 )

ライセンス: CC BY 4.0
Charu Sharma, Siddhant R. Kapil, David Chapman(参考訳) 人物再同定はコンピュータビジョンに基づく監視アプリケーションにおいて重要な問題であり、同じ人物が近隣の様々な地域の監視写真から特定される。 現在、Person re-ID技術の大部分は畳み込みニューラルネットワーク(CNN)に基づいているが、視覚変換器はさまざまなオブジェクト認識タスクのために純粋なCNNを置き換え始めている。 視覚変換器の一次出力はグローバルな分類トークンであるが、視覚変換器は画像の局所領域に関する追加情報を含む局所トークンも生成する。 これらの局所トークンを用いて分類精度を向上させる技術は研究の活発な領域である。 そこで我々は,局所的に拡張された局所分類トークンを$\sqrt{N}$分類器のアンサンブルに集約する,Partsベースの畳み込みベースライン(PCB)にインスパイアされた戦略を取り入れた,局所認識変換器(LA-Transformer)を提案する。 さらに、ブロックワイズ細調整を取り入れることで、re-ID精度がさらに向上する点も新規である。 ブロックワイズ微調整付きla変換器は、マーケット-1501で0.13$の標準偏差で98.27$%、cuhk03データセットでそれぞれ0.2$の標準偏差で98.7\%のランク-1精度を達成し、執筆時点での他の最先端の公開メソッドよりも優れている。

Person Re-Identification is an important problem in computer vision-based surveillance applications, in which the same person is attempted to be identified from surveillance photographs in a variety of nearby zones. At present, the majority of Person re-ID techniques are based on Convolutional Neural Networks (CNNs), but Vision Transformers are beginning to displace pure CNNs for a variety of object recognition tasks. The primary output of a vision transformer is a global classification token, but vision transformers also yield local tokens which contain additional information about local regions of the image. Techniques to make use of these local tokens to improve classification accuracy are an active area of research. We propose a novel Locally Aware Transformer (LA-Transformer) that employs a Parts-based Convolution Baseline (PCB)-inspired strategy for aggregating globally enhanced local classification tokens into an ensemble of $\sqrt{N}$ classifiers, where $N$ is the number of patches. An additional novelty is that we incorporate blockwise fine-tuning which further improves re-ID accuracy. LA-Transformer with blockwise fine-tuning achieves rank-1 accuracy of $98.27 \%$ with standard deviation of $0.13$ on the Market-1501 and $98.7\%$ with standard deviation of $0.2$ on the CUHK03 dataset respectively, outperforming all other state-of-the-art published methods at the time of writing.
翻訳日:2021-06-09 12:08:16 公開日:2021-06-08
# (参考訳) エラー損失ネットワーク [全文訳有]

Error Loss Networks ( http://arxiv.org/abs/2106.03722v2 )

ライセンス: CC BY 4.0
Badong Chen, Yunfei Zheng, and Pengju Ren(参考訳) 教師付き学習のための誤り損失関数を構築するために,エラー損失ネットワーク(ELN)と呼ばれる新しいモデルを提案する。 ELNは、放射基底関数(RBF)ニューラルネットワークに似た構造であるが、その入力はエラーサンプルであり、出力はそのエラーサンプルに対応する損失である。 つまり、ELNの非線形入出力マッパーはエラー損失関数を生成する。 提案するelnは、情報理論学習(itl)損失関数を特殊ケースとして含む、エラー損失関数の大規模クラスに対する統一モデルを提供する。 ELNの活性化関数、重みパラメータ、ネットワークサイズを、エラーサンプルから特定または学習することができる。 そこで本研究では,学習過程をelnを用いた損失関数の学習,学習継続のための学習損失関数の学習の2段階に分けた新しい機械学習パラダイムを提案する。 提案手法の望ましい性能を示す実験結果が提示された。

A novel model called error loss network (ELN) is proposed to build an error loss function for supervised learning. The ELN is in structure similar to a radial basis function (RBF) neural network, but its input is an error sample and output is a loss corresponding to that error sample. That means the nonlinear input-output mapper of ELN creates an error loss function. The proposed ELN provides a unified model for a large class of error loss functions, which includes some information theoretic learning (ITL) loss functions as special cases. The activation function, weight parameters and network size of the ELN can be predetermined or learned from the error samples. On this basis, we propose a new machine learning paradigm where the learning process is divided into two stages: first, learning a loss function using an ELN; second, using the learned loss function to continue to perform the learning. Experimental results are presented to demonstrate the desirable performance of the new method.
翻訳日:2021-06-09 11:56:17 公開日:2021-06-08
# デッドライン下のPACベストアーム識別

PAC Best Arm Identification Under a Deadline ( http://arxiv.org/abs/2106.03221v2 )

ライセンス: Link先を確認
Brijen Thananjeyan, Kirthevasan Kandasamy, Ion Stoica, Michael I. Jordan, Ken Goldberg, Joseph E. Gonzalez(参考訳) 我々は、$(\epsilon, \delta)$-PACベストアーム識別を研究し、意思決定者は、少なくとも1 - \delta$の確率で$\epsilon$-optimal armを識別し、アームプルの数を最小化する(サンプル)。 このトピックに関するほとんどの作業はシーケンシャルな設定であり、そのようなアームを特定するのに要する時間に制約はない。 この作業では、意思決定者はt$ラウンドの期限が与えられ、各ラウンドにおいて、どのアームを引くか、何回引くかを適応的に選択することができる。 このような状況は、テスト対象の数を最小化しながら、期限付きで有望な治療を特定できる臨床試験や、シミュレーションベースの研究をクラウド上で実行し、仮想マシンの数を弾力的にスケールアップまたは縮小して、私たちが望む限り多くの実験を行うことができるが、使用したリソース時間に対して支払う必要がある、という臨床試験で発生します。 意思決定者は、t$の意思決定しかできないので、あらゆる可能な問題にうまく取り組むためには、シーケンシャルなアルゴリズムに対して過度に手を差し伸べる必要があるかもしれない。 この難易度を2つの難易度で定式化し、逐次的な設定とは異なり、難易度に適応する能力は有限の期限によって制約されることを示した。 本稿では,この設定のための新しいアルゴリズムであるElastic Batch Racing (EBR)を提案する。 本研究では,この設定におけるERRの評価を行い,数桁の精度でベースラインを上回ります。

We study $(\epsilon, \delta)$-PAC best arm identification, where a decision-maker must identify an $\epsilon$-optimal arm with probability at least $1 - \delta$, while minimizing the number of arm pulls (samples). Most of the work on this topic is in the sequential setting, where there is no constraint on the time taken to identify such an arm; this allows the decision-maker to pull one arm at a time. In this work, the decision-maker is given a deadline of $T$ rounds, where, on each round, it can adaptively choose which arms to pull and how many times to pull them; this distinguishes the number of decisions made (i.e., time or number of rounds) from the number of samples acquired (cost). Such situations occur in clinical trials, where one may need to identify a promising treatment under a deadline while minimizing the number of test subjects, or in simulation-based studies run on the cloud, where we can elastically scale up or down the number of virtual machines to conduct as many experiments as we wish, but need to pay for the resource-time used. As the decision-maker can only make $T$ decisions, she may need to pull some arms excessively relative to a sequential algorithm in order to perform well on all possible problems. We formalize this added difficulty with two hardness results that indicate that unlike sequential settings, the ability to adapt to the problem difficulty is constrained by the finite deadline. We propose Elastic Batch Racing (EBR), a novel algorithm for this setting and bound its sample complexity, showing that EBR is optimal with respect to both hardness results. We present simulations evaluating EBR in this setting, where it outperforms baselines by several orders of magnitude.
翻訳日:2021-06-09 11:34:45 公開日:2021-06-08
# 視覚タスクにおける教師なし領域適応のためのカテゴリコントラスト

Category Contrast for Unsupervised Domain Adaptation in Visual Tasks ( http://arxiv.org/abs/2106.02885v2 )

ライセンス: Link先を確認
Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu, Ling Shao(参考訳) 教師なし表現学習のインスタンスコントラストは近年大きな成功を収めている。 本研究では、教師なしドメイン適応(UDA)におけるインスタンスコントラスト学習の考え方を探求し、視覚的 UDA タスクのインスタンス識別に先立ってセマンティックな先行性を導入する新しいカテゴリコントラスト手法(CaCo)を提案する。 辞書検索操作としてインスタンスのコントラスト学習を考慮し、各対象サンプルにソースサンプルのカテゴリ優先に基づいて(pseudo)カテゴリラベルが割り当てられるソースとターゲットドメインの両方のサンプルを用いた意味認識辞書を構築する。 これにより、カテゴリ識別的かつドメイン不変な特徴表現に対して、カテゴリの対照的な学習(ターゲットクエリとカテゴリレベルの辞書)が可能になる:同じカテゴリ(ソースまたはターゲットドメインから)のサンプルは、異なるカテゴリのサンプルが同時に分割される間に、より深く引き出される。 複数の視覚的タスク(例えば、セグメンテーション、分類、検出)における広範囲なUDA実験は、CaCoの単純な実装は、高度に最適化された最先端の手法と比較して優れた性能を発揮することを示している。 分析的および実証的に、実験はcacoが既存のuda法を補完し、半教師付き学習、教師なしモデル適応など他の学習設定に一般化できることも示している。

Instance contrast for unsupervised representation learning has achieved great success in recent years. In this work, we explore the idea of instance contrastive learning in unsupervised domain adaptation (UDA) and propose a novel Category Contrast technique (CaCo) that introduces semantic priors on top of instance discrimination for visual UDA tasks. By considering instance contrastive learning as a dictionary look-up operation, we construct a semantics-aware dictionary with samples from both source and target domains where each target sample is assigned a (pseudo) category label based on the category priors of source samples. This allows category contrastive learning (between target queries and the category-level dictionary) for category-discriminat ive yet domain-invariant feature representations: samples of the same category (from either source or target domain) are pulled closer while those of different categories are pushed apart simultaneously. Extensive UDA experiments in multiple visual tasks ($e.g.$, segmentation, classification and detection) show that the simple implementation of CaCo achieves superior performance as compared with the highly-optimized state-of-the-art methods. Analytically and empirically, the experiments also demonstrate that CaCo is complementary to existing UDA methods and generalizable to other learning setups such as semi-supervised learning, unsupervised model adaptation, etc.
翻訳日:2021-06-09 11:34:13 公開日:2021-06-08
# シャッフルモデルにおける微分プライベートマルチアームバンディット

Differentially Private Multi-Armed Bandits in the Shuffle Model ( http://arxiv.org/abs/2106.02900v2 )

ライセンス: Link先を確認
Jay Tenenbaum, Haim Kaplan, Yishay Mansour, Uri Stemmer(参考訳) We give an $(\varepsilon,\delta )$-differentially private algorithm for the multi-armed bandit (MAB) problem in the shuffle model with a distribution-depende nt regret of $O\left(\left(\sum_{a\in [k]:\Delta_a>0}\frac{\log T}{\Delta_a}\right)+\frac{k\sqrt{\log\frac{1}{\delta}}\log T}{\varepsilon}\right)$, and a distribution-indepen dent regret of $O\left(\sqrt{kT\log T}+\frac{k\sqrt{\log\frac{1}{\delta}}\log T}{\varepsilon}\right)$, where $T$ is the number of rounds, $\Delta_a$ is the suboptimality gap of the arm $a$, and $k$ is the total number of arms. 我々の上限は、集中モデルにおいて最もよく知られたアルゴリズムの後悔とほぼ一致し、局所モデルにおいて最もよく知られたアルゴリズムを著しく上回っている。

We give an $(\varepsilon,\delta )$-differentially private algorithm for the multi-armed bandit (MAB) problem in the shuffle model with a distribution-depende nt regret of $O\left(\left(\sum_{a\in [k]:\Delta_a>0}\frac{\log T}{\Delta_a}\right)+\frac{k\sqrt{\log\frac{1}{\delta}}\log T}{\varepsilon}\right)$, and a distribution-indepen dent regret of $O\left(\sqrt{kT\log T}+\frac{k\sqrt{\log\frac{1}{\delta}}\log T}{\varepsilon}\right)$, where $T$ is the number of rounds, $\Delta_a$ is the suboptimality gap of the arm $a$, and $k$ is the total number of arms. Our upper bound almost matches the regret of the best known algorithms for the centralized model, and significantly outperforms the best known algorithm in the local model.
翻訳日:2021-06-09 11:33:50 公開日:2021-06-08
# DialDoc21におけるCAiRE:情報検索対話システムのためのデータ拡張

CAiRE in DialDoc21: Data Augmentation for Information-Seeking Dialogue System ( http://arxiv.org/abs/2106.03530v2 )

ライセンス: Link先を確認
Etsuko Ishii, Yan Xu, Genta Indra Winata, Zhaojiang Lin, Andrea Madotto, Zihan Liu, Peng Xu, Pascale Fung(参考訳) 知識識別や応答生成を含む情報検索対話システムは,ユーザのニーズに応じて,流動的で一貫性のある情報応答をユーザに提供することを目的としている。 この課題に取り組むために,事前学習された言語モデルを用いたデータ拡張手法といくつかの訓練手法を用いて,タスクの一般的なパターンを学習し,有望なパフォーマンスを実現する。 DialDoc21コンペティションでは,サブタスク1で74.95 F1スコア,60.74 Exact Matchスコア,サブタスク2で37.72 SacreBLEUスコアを達成した。 本手法の有効性を説明するために実証分析を行った。

Information-seeking dialogue systems, including knowledge identification and response generation, aim to respond to users with fluent, coherent, and informative responses based on users' needs, which. To tackle this challenge, we utilize data augmentation methods and several training techniques with the pre-trained language models to learn a general pattern of the task and thus achieve promising performance. In DialDoc21 competition, our system achieved 74.95 F1 score and 60.74 Exact Match score in subtask 1, and 37.72 SacreBLEU score in subtask 2. Empirical analysis is provided to explain the effectiveness of our approaches.
翻訳日:2021-06-09 11:33:33 公開日:2021-06-08
# 抗ウイルス薬発見のための空間グラフの意識と好奇心による政策

Spatial Graph Attention and Curiosity-driven Policy for Antiviral Drug Discovery ( http://arxiv.org/abs/2106.02190v2 )

ライセンス: Link先を確認
Yulun Wu, Nicholas Choma, Andrew Chen, Mikaela Cashman, \'Erica T. Prates, Manesh Shah, Ver\'onica G. Melesse Vergara, Austin Clyde, Thomas S. Brettin, Wibe A. de Jong, Neeraj Kumar, Martha S. Head, Rick L. Stevens, Peter Nugent, Daniel A. Jacobson, James B. Brown(参考訳) DGAPN(Distilled Graph Attention Policy Networks)は、物理制約のある領域を効率的にナビゲートすることで、ユーザ定義の目的を最適化する新しいグラフ構造化化学表現を生成する好奇心駆動型強化学習モデルである。 このフレームワークは、SARS-CoV-2タンパク質の機能部位に非共有的に結合するように設計された分子を生成するタスクについて検討されている。 我々は,sgat(spatial graph attention network)を提案する。sgat(spatial graph attention network)は,ノードとエッジの属性だけでなく,空間構造もエンコードする。 次に、動的で断片的な化学環境の決定規則を学習するために注意政策ネットワークを導入し、安定度を高めてネットワークを訓練するために最先端の政策勾配技術を採用する。 ランダムネットワーク蒸留によって学習・提案されたイノベーション報酬ボーナスを取り入れた探索を効率的に行う。 実験では,提案する分子の多様性を高め,化学合成への経路の複雑さを低減しつつ,最先端のアルゴリズムと比較して優れた結果を得た。

We developed Distilled Graph Attention Policy Networks (DGAPNs), a curiosity-driven reinforcement learning model to generate novel graph-structured chemical representations that optimize user-defined objectives by efficiently navigating a physically constrained domain. The framework is examined on the task of generating molecules that are designed to bind, noncovalently, to functional sites of SARS-CoV-2 proteins. We present a spatial Graph Attention Network (sGAT) that leverages self-attention over both node and edge attributes as well as encoding spatial structure -- this capability is of considerable interest in areas such as molecular and synthetic biology and drug discovery. An attentional policy network is then introduced to learn decision rules for a dynamic, fragment-based chemical environment, and state-of-the-art policy gradient techniques are employed to train the network with enhanced stability. Exploration is efficiently encouraged by incorporating innovation reward bonuses learned and proposed by random network distillation. In experiments, our framework achieved outstanding results compared to state-of-the-art algorithms, while increasing the diversity of proposed molecules and reducing the complexity of paths to chemical synthesis.
翻訳日:2021-06-09 11:33:21 公開日:2021-06-08
# Itihasa:サンスクリット語訳のための大規模なコーパス

Itihasa: A large-scale corpus for Sanskrit to English translation ( http://arxiv.org/abs/2106.03269v2 )

ライセンス: Link先を確認
Rahul Aralikatte, Miryam de Lhoneux, Anoop Kunchukuttan, Anders S{\o}gaard(参考訳) この研究は、93,000対のサンスクリット・スロカとその英訳を含む大規模な翻訳データセットであるイティハサを紹介した。 シュロカは2つのインド叙事詩『ラマーヤナ』と『マハーバーラタ』から抽出される。 まず、このようなデータセットのキュレーションの背景にある動機を説明し、そのニュアンスを引き出すために経験的分析を追従する。 そして、このコーパスで標準翻訳モデルのパフォーマンスをベンチマークし、最先端のトランスフォーマーアーキテクチャでさえも性能が悪く、データセットの複雑さが強調されることを示した。

This work introduces Itihasa, a large-scale translation dataset containing 93,000 pairs of Sanskrit shlokas and their English translations. The shlokas are extracted from two Indian epics viz., The Ramayana and The Mahabharata. We first describe the motivation behind the curation of such a dataset and follow up with empirical analysis to bring out its nuances. We then benchmark the performance of standard translation models on this corpus and show that even state-of-the-art transformer architectures perform poorly, emphasizing the complexity of the dataset.
翻訳日:2021-06-09 11:33:02 公開日:2021-06-08
# 深さ推定のための領域不変特徴の自己教師付き学習

Self-Supervised Learning of Domain Invariant Features for Depth Estimation ( http://arxiv.org/abs/2106.02594v3 )

ライセンス: Link先を確認
Hiroyasu Akada, Shariq Farooq Bhat, Ibraheem Alhashim, Peter Wonka(参考訳) 単一画像深度推定のための教師なし合成-現実的領域適応の問題に取り組む。 単一画像深度推定の重要なビルディングブロックは、rgb画像を入力として出力として深度マップを生成するエンコーダ/デコーダタスクネットワークである。 本稿では,タスクネットワークにドメイン不変表現を自己教師型で学習させる新たなトレーニング戦略を提案する。 具体的には、1つのドメインからの画像を扱う従来の表現学習から、2つのドメインからの画像を扱うドメイン不変表現学習まで、画像から画像への変換ネットワークを利用して自己教師付き学習を拡張する。 まず、双方向画像変換ネットワークを用いて、ドメイン固有のスタイルを合成ドメインと実ドメイン間で転送する。 このスタイルの転送操作により、異なるドメインから同様の画像を得ることができる。 第2に、タスクネットワークと、異なるドメインから同じイメージを持つシャムネットワークを共同で訓練し、タスクネットワークに対するドメイン不変性を得る。 最後に,ラベル付き実世界のデータを用いてタスクネットワークを微調整する。 トレーニング戦略は,実世界の領域における一般化能力の向上をもたらす。 深度推定のための2つの一般的なデータセットであるKITTIとMake3Dについて広範な評価を行う。 その結果,提案手法は定性的にも定量的にも最先端の手法よりも優れていた。 ソースコードとモデルの重み付けが利用可能になる。

We tackle the problem of unsupervised synthetic-to-realist ic domain adaptation for single image depth estimation. An essential building block of single image depth estimation is an encoder-decoder task network that takes RGB images as input and produces depth maps as output. In this paper, we propose a novel training strategy to force the task network to learn domain invariant representations in a self-supervised manner. Specifically, we extend self-supervised learning from traditional representation learning, which works on images from a single domain, to domain invariant representation learning, which works on images from two different domains by utilizing an image-to-image translation network. Firstly, we use our bidirectional image-to-image translation network to transfer domain-specific styles between synthetic and real domains. This style transfer operation allows us to obtain similar images from the different domains. Secondly, we jointly train our task network and Siamese network with the same images from the different domains to obtain domain invariance for the task network. Finally, we fine-tune the task network using labeled synthetic and unlabeled real-world data. Our training strategy yields improved generalization capability in the real-world domain. We carry out an extensive evaluation on two popular datasets for depth estimation, KITTI and Make3D. The results demonstrate that our proposed method outperforms the state-of-the-art both qualitatively and quantitatively. The source code and model weights will be made available.
翻訳日:2021-06-09 11:32:52 公開日:2021-06-08
# 潜在変数の階層的不整合表現に基づく将来の映像生成のための効率的な訓練

Efficient training for future video generation based on hierarchical disentangled representation of latent variables ( http://arxiv.org/abs/2106.03502v2 )

ライセンス: Link先を確認
Naoya Fushishita, Antonio Tejero-de-Pablos, Yusuke Mukuta, Tatsuya Harada(参考訳) 与えられたシーケンスの将来を予測するビデオの生成は、近年活発な研究領域となっている。 しかし、本質的な問題は未解決のままであり、ほとんどの方法は大きな計算コストとトレーニングのためのメモリ使用を必要とする。 本稿では,従来の手法よりも少ないメモリ使用量で将来の予測映像を生成する新しい手法を提案する。 これは、画像生成分野における最新の作品における生成画像と同様、高画質のビデオ生成への道のりにおける重要なステップストーンである。 本手法は,(1)ビデオフレームを潜在変数にエンコードする画像再構成,(2)潜在変数予測によるシーケンス生成の2段階において高い効率を実現する。 本手法は,各フレームを階層構造に従って分解することにより,ビデオの低次元潜在変数への効率的な圧縮を実現する。 すなわち、ビデオは背景オブジェクトと前景オブジェクトに分離でき、各オブジェクトは時間変化と時間に依存しない情報を独立に保持できると考える。 提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。

Generating videos predicting the future of a given sequence has been an area of active research in recent years. However, an essential problem remains unsolved: most of the methods require large computational cost and memory usage for training. In this paper, we propose a novel method for generating future prediction videos with less memory usage than the conventional methods. This is a critical stepping stone in the path towards generating videos with high image quality, similar to that of generated images in the latest works in the field of image generation. We achieve high-efficiency by training our method in two stages: (1) image reconstruction to encode video frames into latent variables, and (2) latent variable prediction to generate the future sequence. Our method achieves an efficient compression of video into low-dimensional latent variables by decomposing each frame according to its hierarchical structure. That is, we consider that video can be separated into background and foreground objects, and that each object holds time-varying and time-independent information independently. Our experiments show that the proposed method can efficiently generate future prediction videos, even for complex datasets that cannot be handled by previous methods.
翻訳日:2021-06-09 11:32:31 公開日:2021-06-08
# doublefield: 高忠実な人間のレンダリングのための神経表面と放射野のブリッジ

DoubleField: Bridging the Neural Surface and Radiance Fields for High-fidelity Human Rendering ( http://arxiv.org/abs/2106.03798v2 )

ライセンス: Link先を確認
Ruizhi Shao, Hongwen Zhang, He Zhang, Yanpei Cao, Tao Yu, Yebin Liu(参考訳) 高忠実な人間のレンダリングのための表面場と放射場の両方の利点を組み合わせた新しい表現であるDoubleFieldを紹介する。 ダブルフィールド内では、表面場と放射場は共有特徴埋め込みと表面誘導サンプリング戦略によって関連付けられる。 このように、doublefieldは、幾何学と外観モデリングのための連続的だが不連続な学習空間を持ち、高速なトレーニング、推論、微調整をサポートする。 高精細度自由視点レンダリングを実現するために、DoubleFieldはさらに高精細度インプットを活用するように拡張され、ビュー・ツー・ビュー・トランスフォーマーとトランスファーラーニング・スキームが導入された。 ダブルフィールドの有効性は、複数のデータセットの定量的評価と、実世界のスパースマルチビューシステムにおける質的結果によって検証され、フォトリアリスティックなフリー視点のヒューマンレンダリングに優れた能力を示す。 コードとデモビデオについては、プロジェクトのページを参照してください。

We introduce DoubleField, a novel representation combining the merits of both surface field and radiance field for high-fidelity human rendering. Within DoubleField, the surface field and radiance field are associated together by a shared feature embedding and a surface-guided sampling strategy. In this way, DoubleField has a continuous but disentangled learning space for geometry and appearance modeling, which supports fast training, inference, and finetuning. To achieve high-fidelity free-viewpoint rendering, DoubleField is further augmented to leverage ultra-high-resolutio n inputs, where a view-to-view transformer and a transfer learning scheme are introduced for more efficient learning and finetuning from sparse-view inputs at original resolutions. The efficacy of DoubleField is validated by the quantitative evaluations on several datasets and the qualitative results in a real-world sparse multi-view system, showing its superior capability for photo-realistic free-viewpoint human rendering. For code and demo video, please refer to our project page: http://www.liuyebin. com/dbfield/dbfield. html.
翻訳日:2021-06-09 11:32:13 公開日:2021-06-08
# 近似バイレベル最適化のための1次ヒューリスティックのデバイアス

Debiasing a First-order Heuristic for Approximate Bi-level Optimization ( http://arxiv.org/abs/2106.02487v2 )

ライセンス: Link先を確認
Valerii Likhosherstov, Xingyou Song, Krzysztof Choromanski, Jared Davis, Adrian Weller(参考訳) 近似二レベル最適化(ablo)は、数値(インナーレベル)最適化ループを含む(外部レベル)最適化問題からなる。 ABLOはディープラーニングにまたがる多くのアプリケーションを持っているが、時間とメモリの複雑さは内部最適化ループの$r$に比例する。 この複雑さに対処するため、初期の1次法(FOM)は2次微分項を省略し、大きな速度ゲインをもたらし、メモリを一定に保つヒューリスティックとして提案された。 FOMの人気にもかかわらず、収束性に関する理論的理解が欠けている。 我々は,FOMの勾配バイアスを軽度仮定の下で理論的に特徴づけることにより寄与する。 さらに、FOMをベースとしたSGDがABLO目標の定常点に収束しないような、豊富な例の族を示す。 この懸念に対処するために、不偏のFOM(UFOM)を$r$の関数として一定のメモリ複雑性を享受することを提案する。 導入した時間分散トレードオフを特徴付け、収束境界を示し、与えられたABLO問題に対して最適なUFOMを求める。 最後に,効率的な適応ufomスキームを提案する。

Approximate bi-level optimization (ABLO) consists of (outer-level) optimization problems, involving numerical (inner-level) optimization loops. While ABLO has many applications across deep learning, it suffers from time and memory complexity proportional to the length $r$ of its inner optimization loop. To address this complexity, an earlier first-order method (FOM) was proposed as a heuristic that omits second derivative terms, yielding significant speed gains and requiring only constant memory. Despite FOM's popularity, there is a lack of theoretical understanding of its convergence properties. We contribute by theoretically characterizing FOM's gradient bias under mild assumptions. We further demonstrate a rich family of examples where FOM-based SGD does not converge to a stationary point of the ABLO objective. We address this concern by proposing an unbiased FOM (UFOM) enjoying constant memory complexity as a function of $r$. We characterize the introduced time-variance tradeoff, demonstrate convergence bounds, and find an optimal UFOM for a given ABLO problem. Finally, we propose an efficient adaptive UFOM scheme.
翻訳日:2021-06-09 11:31:53 公開日:2021-06-08
# 自己愛行列の表現力について

On the Expressive Power of Self-Attention Matrices ( http://arxiv.org/abs/2106.03764v2 )

ライセンス: Link先を確認
Valerii Likhosherstov, Krzysztof Choromanski, Adrian Weller(参考訳) トランスフォーマーネットワークは、多くのドメイン(テキスト、画像、ビデオ、タンパク質など)から来るデータのパターンをキャプチャすることができる。 アーキテクチャコンポーネントの変更はほとんど、あるいはまったくありません。 元素間の信号伝達に寄与するコア成分の理論的解析を行う。 self-attention 行列。 実際には、この行列は一般に2つの性質を示す: (1) スパース(sparse)、つまり、各トークンは他のトークンの小さなサブセットにのみ対応し、(2) モジュールへの入力に応じて動的に変化する。 これらの考察を念頭に置いて、我々は以下の質問をする: 固定された自己完結モジュールは、入力に応じて任意のスパースパターンを近似できるか? そのような近似のために隠されたサイズ$d$はどのくらい小さいか? 我々はこの問題への回答を進歩させ、自着行列が各列と列の非零要素の有界数でスパース行列を近似できることを示す。 自己注意のパラメータは固定されているが、様々なスパース行列は入力を変更するだけで近似できる。 我々の証明はランダム射影法に基づいており、半音節の Johnson-Lindenstraus s lemma を用いる。 この証明は構成的であり、与えられた行列を近似するために適応入力と固定自己着パラメータを求めるアルゴリズムを提案することができる。 特に、任意のスパース行列を行列要素比を保存するために定義された精度まで近似するために、$d$は列長$L$(すなわち)と対数的にしか成長しないことを示す。 $d = O(\log L)$)。

Transformer networks are able to capture patterns in data coming from many domains (text, images, videos, proteins, etc.) with little or no change to architecture components. We perform a theoretical analysis of the core component responsible for signal propagation between elements, i.e. the self-attention matrix. In practice, this matrix typically exhibits two properties: (1) it is sparse, meaning that each token only attends to a small subset of other tokens; and (2) it changes dynamically depending on the input to the module. With these considerations in mind, we ask the following question: Can a fixed self-attention module approximate arbitrary sparse patterns depending on the input? How small is the hidden size $d$ required for such approximation? We make progress in answering this question and show that the self-attention matrix can provably approximate sparse matrices, where sparsity is in terms of a bounded number of nonzero elements in each row and column. While the parameters of self-attention are fixed, various sparse matrices can be approximated by only modifying the inputs. Our proof is based on the random projection technique and uses the seminal Johnson-Lindenstraus s lemma. Our proof is constructive, enabling us to propose an algorithm for finding adaptive inputs and fixed self-attention parameters in order to approximate a given matrix. In particular, we show that, in order to approximate any sparse matrix up to a given precision defined in terms of preserving matrix element ratios, $d$ grows only logarithmically with the sequence length $L$ (i.e. $d = O(\log L)$).
翻訳日:2021-06-09 11:31:37 公開日:2021-06-08
# 変分漏洩:プライバシー漏洩における情報複雑性の役割

Variational Leakage: The Role of Information Complexity in Privacy Leakage ( http://arxiv.org/abs/2106.02818v2 )

ライセンス: Link先を確認
Amir Ahooye Atashin, Behrooz Razeghi, Deniz G\"und\"uz, Slava Voloshynovskiy(参考訳) 本研究は,システム設計に先立って知られていない敵の興味の属性に関するプライバシーの漏えいにおける情報複雑性の役割について検討する。 Considering the supervised representation learning setup and using neural networks to parameterize the variational bounds of information quantities, we study the impact of the following factors on the amount of information leakage: information complexity regularizer weight, latent space dimension, the cardinalities of the known utility and unknown sensitive attribute sets, the correlation between utility and sensitive attributes, and a potential bias in a sensitive attribute of adversary's interest. そこで我々はColored-MNISTとCelebAデータセットの広範な実験を行い,情報複雑性が本質的漏洩量に与える影響を評価する。

We study the role of information complexity in privacy leakage about an attribute of an adversary's interest, which is not known a priori to the system designer. Considering the supervised representation learning setup and using neural networks to parameterize the variational bounds of information quantities, we study the impact of the following factors on the amount of information leakage: information complexity regularizer weight, latent space dimension, the cardinalities of the known utility and unknown sensitive attribute sets, the correlation between utility and sensitive attributes, and a potential bias in a sensitive attribute of adversary's interest. We conduct extensive experiments on Colored-MNIST and CelebA datasets to evaluate the effect of information complexity on the amount of intrinsic leakage.
翻訳日:2021-06-09 11:31:14 公開日:2021-06-08