このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210604となっている論文です。

PDF登録状況(公開日: 20210604)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 急激なマルチラベルランキング木に対する高速化推論 [全文訳有]

Accelerating Inference for Sparse Extreme Multi-Label Ranking Trees ( http://arxiv.org/abs/2106.02697v1 )

ライセンス: CC BY 4.0
Philip A. Etter, Kai Zhong, Hsiang-Fu Yu, Lexing Ying, Inderjit Dhillon(参考訳) 木に基づくモデルは、多くの現代的なセマンティック検索エンジンとレコメンダシステムを支える。 産業アプリケーションでは、これらのモデルは極端なスケールで動作し、あらゆるパフォーマンスが重要になります。 極端なスケールでのメモリ制約は、モデルがスパースであることを要求するため、ツリーベースのモデルはスパース行列代数のルーチンによってしばしば後ろ向きになる。 しかしながら、xmr/xmc(extreme multi-label ranking/classificati on)問題に対する木ベースのモデルで遭遇するスパース性構造のために特別に設計されたスパースマトリックス技術は存在しない。 この問題に対処するために,マスク付きスパースチャンク乗算(MSCM)技術,特にXMR木に適したスパースマトリクス技術を提案する。 MSCMは実装が容易で、恥ずかしいほど並列化可能で、既存のツリー推論パイプラインに対して、コストなしで大幅なパフォーマンス向上を提供します。 我々は,複数の異なるスパース推論スキームに適用したmscmの包括的研究を行い,汎用的極端多ラベルランキングフレームワーク上での手法のベンチマークを行う。 我々は、mscmがオンラインとバッチの両方の推論設定、シングルスレッドとマルチスレッド設定、および多くの異なるツリーモデルとデータセットにおいて一貫して劇的なスピードアップをもたらすことを観察する。 産業アプリケーションにおいて、MSCMを1億の製品でエンタープライズ規模のセマンティック製品検索問題に適用し、1つのスレッドでクエリあたり0.08msのサブミリ秒レイテンシを実現する -- バニラ推論技術よりも8倍のレイテンシ削減 -- に適用する。 MSCM技術は、標準スパース行列技術と全く同じ結果を与えるため、精度をモデル化するのに全く犠牲を要しない。 したがって、MSCMにより、XMRツリーのユーザは、推論パイプラインにかなりの量の計算リソースを非常に少ないコストで節約できると信じている。

Tree-based models underpin many modern semantic search engines and recommender systems due to their sub-linear inference times. In industrial applications, these models operate at extreme scales, where every bit of performance is critical. Memory constraints at extreme scales also require that models be sparse, hence tree-based models are often back-ended by sparse matrix algebra routines. However, there are currently no sparse matrix techniques specifically designed for the sparsity structure one encounters in tree-based models for extreme multi-label ranking/classificati on (XMR/XMC) problems. To address this issue, we present the masked sparse chunk multiplication (MSCM) technique, a sparse matrix technique specifically tailored to XMR trees. MSCM is easy to implement, embarrassingly parallelizable, and offers a significant performance boost to any existing tree inference pipeline at no cost. We perform a comprehensive study of MSCM applied to several different sparse inference schemes and benchmark our methods on a general purpose extreme multi-label ranking framework. We observe that MSCM gives consistently dramatic speedups across both the online and batch inference settings, single- and multi-threaded settings, and on many different tree models and datasets. To demonstrate its utility in industrial applications, we apply MSCM to an enterprise-scale semantic product search problem with 100 million products and achieve sub-millisecond latency of 0.88 ms per query on a single thread -- an 8x reduction in latency over vanilla inference techniques. The MSCM technique requires absolutely no sacrifices to model accuracy as it gives exactly the same results as standard sparse matrix techniques. Therefore, we believe that MSCM will enable users of XMR trees to save a substantial amount of compute resources in their inference pipelines at very little cost.
翻訳日:2021-06-14 13:50:23 公開日:2021-06-04
# (参考訳) 最適化における加速法の離散変分導出 [全文訳有]

A Discrete Variational Derivation of Accelerated Methods in Optimization ( http://arxiv.org/abs/2106.02700v1 )

ライセンス: CC BY 4.0
C\'edric M. Campos, Alejandro Mahillo, David Mart\'in de Diego(参考訳) 機械学習の新しい発展の多くは勾配に基づく最適化手法と結びついている。 近年,これらの手法は変分的視点を用いて研究されている。 これにより、幾何積分器を用いた変分積分法とシンプレクティック積分法を導入する可能性が開けた。 本稿では,最適化のための異なる手法を導出できる変分積分器を提案する。 ハミルトンの原理とラグランジュ・ダルムベールの原理の両方を用いて、ポリアクの重球を一般化する1対1対応の2つの最適化法と、典型的な運動量法の振動を減少させる後者の挙動を模倣したよく知られたネステロフ加速勾配法を導出する。 しかし、明らかに時間に依存したシステムと考えられるため、自律システムのシンプレクティック性の保存は繊維のみに行われる。 結果を示す実験がいくつかある。

Many of the new developments in machine learning are connected with gradient-based optimization methods. Recently, these methods have been studied using a variational perspective. This has opened up the possibility of introducing variational and symplectic integration methods using geometric integrators. In particular, in this paper, we introduce variational integrators which allow us to derive different methods for optimization. Using both, Hamilton's principle and Lagrange-d'Alembert's, we derive two families of optimization methods in one-to-one correspondence that generalize Polyak's heavy ball and the well known Nesterov accelerated gradient method, mimicking the behavior of the latter which reduces the oscillations of typical momentum methods. However, since the systems considered are explicitly time-dependent, the preservation of symplecticity of autonomous systems occurs here solely on the fibers. Several experiments exemplify the result.
翻訳日:2021-06-14 13:19:44 公開日:2021-06-04
# (参考訳) 最大交感神経再建のための隠れマルコフモデル [全文訳有]

Hidden Markov Modeling for Maximum Likelihood Neuron Reconstruction ( http://arxiv.org/abs/2106.02701v1 )

ライセンス: CC BY 4.0
Thomas L. Athey, Daniel Tward, Ulrich Mueller, Michael I. Miller(参考訳) 近年の脳クリアリングとイメージングの進歩により、哺乳類の脳全体をサブミクロン分解能で撮影できるようになった。 これらの画像は、投射ニューロン形態学の脳全体のアトラスを組み立てる可能性を秘めているが、手動ニューロン再構築はいまだにボトルネックとなっている。 本稿では,隠れマルコフモデリングと蛍光ニューロン画像の出現モデルに触発され,自動的に神経細胞の過程を追跡する手法を提案する。 提案手法は動的プログラミングを利用してテラバイト規模の画像データにスケールし、1つ以上のニューロンを持つ画像に適用することができる。 偽陰性が神経過程を切断した画像分割モデルの出力に本アルゴリズムを適用し,ノイズや近傍ニューロンの存在下で軸索を追従できることを示した。 提案手法は,半自動あるいは完全自動再建パイプラインに統合される可能性がある。 さらに、特定の再構成を除外したり、特定の細胞体に軸索を割り当てたりするために、ユーザが厳しい制約を伴って介入できるフレームワークも作成する。

Recent advances in brain clearing and imaging have made it possible to image entire mammalian brains at sub-micron resolution. These images offer the potential to assemble brain-wide atlases of projection neuron morphology, but manual neuron reconstruction remains a bottleneck. Here we present a method inspired by hidden Markov modeling and appearance modeling of fluorescent neuron images that can automatically trace neuronal processes. Our method leverages dynamic programming to scale to terabyte sized image data and can be applied to images with one or more neurons. We applied our algorithm to the output of image segmentation models where false negatives severed neuronal processes, and showed that it can follow axons in the presence of noise or nearby neurons. Our method has the potential to be integrated into a semi or fully automated reconstruction pipeline. Additionally, it creates a framework through which users can intervene with hard constraints to, for example, rule out certain reconstructions, or assign axons to particular cell bodies.
翻訳日:2021-06-14 12:54:51 公開日:2021-06-04
# (参考訳) 構造的特徴に基づくSGDの学習曲線 [全文訳有]

Learning Curves for SGD on Structured Features ( http://arxiv.org/abs/2106.02713v1 )

ライセンス: CC BY 4.0
Blake Bordelon and Cengiz Pehlevan(参考訳) ニューラルネットワークのような機械学習アルゴリズムの一般化性能は、データ分布の構造に非自明な方法で依存する。 機械学習理論における一般化のモデルは、データ非依存境界を考えるか、非相関特徴に基づいて訓練されたアルゴリズムの性能を研究することによって、自然信号の低次元構造をしばしば無視する。 データ構造がテスト損失ダイナミクスに与える影響を分析するために,任意の共分散構造を持つ特徴に対するトレーニング時のテスト損失を予測する確率勾配降下モデル(sgd)について検討した。 この理論はガウス的特徴と任意の特徴の両方について正確に解き、より単純なガウス的モデルにより、mnistやcifar-10のような実データセットでsgdで訓練された非線形ランダム特徴モデルのテスト損失を正確に予測できることを示した。 誘導特徴空間におけるデータの幾何形状のモデル化は,学習を通してテスト誤差を正確に予測する上で重要である。

The generalization performance of a machine learning algorithm such as a neural network depends in a non-trivial way on the structure of the data distribution. Models of generalization in machine learning theory often ignore the low-dimensional structure of natural signals, either by considering data-agnostic bounds or by studying the performance of the algorithm when trained on uncorrelated features. To analyze the influence of data structure on test loss dynamics, we study an exactly solveable model of stochastic gradient descent (SGD) which predicts test loss when training on features with arbitrary covariance structure. We solve the theory exactly for both Gaussian features and arbitrary features and we show that the simpler Gaussian model accurately predicts test loss of nonlinear random-feature models and deep neural networks trained with SGD on real datasets such as MNIST and CIFAR-10. We show that modeling the geometry of the data in the induced feature space is indeed crucial to accurately predict the test error throughout learning.
翻訳日:2021-06-14 12:41:30 公開日:2021-06-04
# (参考訳) MultiOpEd:多機能ニュース編集者のコーパス [全文訳有]

MultiOpEd: A Corpus of Multi-Perspective News Editorials ( http://arxiv.org/abs/2106.02725v1 )

ライセンス: CC BY 4.0
Siyi Liu, Sihao Chen, Xander Uyttendaele, Dan Roth(参考訳) 本稿では,ニュース編集における議論構造に関する様々なタスクを支援するオープンドメインニュース編集コーパスであるmultiopedを提案する。 ニュース編集は説得力のあるテキストのジャンルであり、議論構造は通常暗黙的である。 しかし、論説で提示される議論は、通常、簡潔で焦点を絞った論文を中心に展開する。 multiopedは、システムが提示された議論を要約した単一意味論文を作成することが期待される自動的視点発見に関連する複数のタスクの研究を支援することを目的としている。 我々は、このような自然言語的視点を編集から識別し、抽象化することは、ニュース編集における暗黙の議論構造を研究するための重要なステップであると主張している。 まず課題について議論し、目標に向けていくつかの概念的なタスクを定義します。 マルチオペタスクと誘導タスクの有用性を示すために,マルチタスク学習環境における視点要約の問題について事例研究として検討する。 誘導タスクを補助タスクとすることで、視点要約の質を向上させることができることを示す。 我々は,MultiOpEdが今後のニュース編集領域における議論研究に役立つことを願っている。

We propose MultiOpEd, an open-domain news editorial corpus that supports various tasks pertaining to the argumentation structure in news editorials, focusing on automatic perspective discovery. News editorial is a genre of persuasive text, where the argumentation structure is usually implicit. However, the arguments presented in an editorial typically center around a concise, focused thesis, which we refer to as their perspective. MultiOpEd aims at supporting the study of multiple tasks relevant to automatic perspective discovery, where a system is expected to produce a single-sentence thesis statement summarizing the arguments presented. We argue that identifying and abstracting such natural language perspectives from editorials is a crucial step toward studying the implicit argumentation structure in news editorials. We first discuss the challenges and define a few conceptual tasks towards our goal. To demonstrate the utility of MultiOpEd and the induced tasks, we study the problem of perspective summarization in a multi-task learning setting, as a case study. We show that, with the induced tasks as auxiliary tasks, we can improve the quality of the perspective summary generated. We hope that MultiOpEd will be a useful resource for future studies on argumentation in the news editorial domain.
翻訳日:2021-06-14 12:19:10 公開日:2021-06-04
# (参考訳) バイオメディカル画像のコンピュータ支援解析

Computer-Assisted Analysis of Biomedical Images ( http://arxiv.org/abs/2106.04381v1 )

ライセンス: CC BY 4.0
Leonardo Rundo(参考訳) 近年,新しいセンシング技術や高出力技術により,異種バイオメディカルデータの量が増えてきている。 バイオメディカル画像解析に関して、画像取得モードと高出力画像実験の進歩が新たな課題を生み出している。 この膨大な情報アンサンブルは、医師が日々の意思決定作業や複雑な生化学システムを研究する生物学者に必要な分析能力を圧倒する可能性がある。 特に、定量的イメージング法は、放射線学的アプローチも考慮し、予測、予後、治療応答評価において科学的および臨床的に関連のある情報を伝達する。 したがって, 医用画像や生体画像の計算解析は, 放射線学や実験室の応用において重要な役割を担っている。 この点において、高度な機械学習と計算知能に基づくフレームワークは、従来の画像処理とパターン認識アプローチを大幅に改善することができる。 しかし、従来の人工知能技術は、バイオメディカルイメージングデータに関するユニークな課題に対処するために調整されなければならない。 本論文は, 新規で先進的なコンピュータ支援によるバイオメディカル画像解析手法, および臨床診断支援システムの開発において, 開発ソリューションの臨床的実現可能性に常に留意することを目的としている。 結論として、これらの研究の究極の目標は、鑑別診断と治療を導く臨床および生物学的に有用な洞察を得ることであり、パーソナライズ医療のためのバイオメディカルデータ統合へと導かれる。 実のところ、提案するコンピュータ支援バイオイメージ分析法は、イメージングバイオマーカーの定義だけでなく、定量医学や生物学にも有用である。

Nowadays, the amount of heterogeneous biomedical data is increasing more and more thanks to novel sensing techniques and high-throughput technologies. In reference to biomedical image analysis, the advances in image acquisition modalities and high-throughput imaging experiments are creating new challenges. This huge information ensemble could overwhelm the analytic capabilities needed by physicians in their daily decision-making tasks as well as by biologists investigating complex biochemical systems. In particular, quantitative imaging methods convey scientifically and clinically relevant information in prediction, prognosis or treatment response assessment, by also considering radiomics approaches. Therefore, the computational analysis of medical and biological images plays a key role in radiology and laboratory applications. In this regard, frameworks based on advanced Machine Learning and Computational Intelligence can significantly improve traditional Image Processing and Pattern Recognition approaches. However, conventional Artificial Intelligence techniques must be tailored to address the unique challenges concerning biomedical imaging data. This thesis aims at proposing novel and advanced computer-assisted methods for biomedical image analysis, also as an instrument in the development of Clinical Decision Support Systems, by always keeping in mind the clinical feasibility of the developed solutions. In conclusion, the ultimate goal of these research studies is to gain clinically and biologically useful insights that can guide differential diagnosis and therapies, leading towards biomedical data integration for personalized medicine. As a matter of fact, the proposed computer-assisted bioimage analysis methods can be beneficial for the definition of imaging biomarkers, as well as for quantitative medicine and biology.
翻訳日:2021-06-14 12:05:23 公開日:2021-06-04
# (参考訳) ガウス過程を用いた相互作用粒子系のデータ駆動発見 [全文訳有]

Data-driven discovery of interacting particle systems using Gaussian processes ( http://arxiv.org/abs/2106.02735v1 )

ライセンス: CC BY 4.0
Jinchao Feng, Yunxiang Ren, Sui Tang(参考訳) 相互作用する粒子やエージェントシステムは、科学や工学において、多種多様な収集運動を示す。 基本的かつ困難な目標は、個々の相互作用ルールと集団行動の関係を理解することである。 本稿では,2次相互作用粒子系における距離に基づく相互作用則の探索について述べる。 本稿では,潜在相互作用カーネル関数をガウス過程としてモデル化する学習手法を提案する。1つは相互作用カーネル関数の非パラメトリック推論とポイントワイド不確実性定量化,もう1つはシステムの非衝突力における未知パラメータの推論である。 本研究では, 学習相互作用核関数を統計的逆問題として定式化し, 回復条件の詳細な解析を行い, 保磁力条件が回復可能性に十分であることを示す。 有限サンプル解析を行い、後方平均推定器が古典的な1次元ケルネルリッジ回帰のものと等しい最適な速度で収束することを示した。 異なる集団行動を示すシステムの数値結果から, ノイズの少ない軌道データからのアプローチの効率的な学習が示されている。

Interacting particle or agent systems that display a rich variety of collection motions are ubiquitous in science and engineering. A fundamental and challenging goal is to understand the link between individual interaction rules and collective behaviors. In this paper, we study the data-driven discovery of distance-based interaction laws in second-order interacting particle systems. We propose a learning approach that models the latent interaction kernel functions as Gaussian processes, which can simultaneously fulfill two inference goals: one is the nonparametric inference of interaction kernel function with the pointwise uncertainty quantification, and the other one is the inference of unknown parameters in the non-collective forces of the system. We formulate learning interaction kernel functions as a statistical inverse problem and provide a detailed analysis of recoverability conditions, establishing that a coercivity condition is sufficient for recoverability. We provide a finite-sample analysis, showing that our posterior mean estimator converges at an optimal rate equal to the one in the classical 1-dimensional Kernel Ridge regression. Numerical results on systems that exhibit different collective behaviors demonstrate efficient learning of our approach from scarce noisy trajectory data.
翻訳日:2021-06-14 12:03:32 公開日:2021-06-04
# (参考訳) 潜時適応ドリフト拡散モデル [全文訳有]

Latent Time-Adaptive Drift-Diffusion Model ( http://arxiv.org/abs/2106.02742v1 )

ライセンス: CC BY 4.0
Gabriele Cimolino and Francois Rivest(参考訳) 動物は、一定間隔でイベントのタイミングを素早く学習することができ、その獲得率は間隔の長さに依存しない。 対照的に、勾配に基づく学習を用いた繰り返しニューラルネットワークは、昔に起こった刺激に依存する事象のタイミングを予測するのが困難である。 本稿では,動物実験データと一致した行動特性を示すタイミング学習のための動物学習モデルである,時間適応型ドリフト拡散モデル (ltddm) の拡張である潜時適応ドリフト拡散モデル (ltddm) を提案する。 LTDDMの性能は、3つのタイミングタスクにわたる長い短期記憶(LSTM)リカレントニューラルネットワークの状態と比較される。 これら2つのモデルの相対的性能の違いを考察し,リカレントニューラルネットワークよりも高速にイベント時系列を学習できることを示した。

Animals can quickly learn the timing of events with fixed intervals and their rate of acquisition does not depend on the length of the interval. In contrast, recurrent neural networks that use gradient based learning have difficulty predicting the timing of events that depend on stimulus that occurred long ago. We present the latent time-adaptive drift-diffusion model (LTDDM), an extension to the time-adaptive drift-diffusion model (TDDM), a model for animal learning of timing that exhibits behavioural properties consistent with experimental data from animals. The performance of LTDDM is compared to that of a state of the art long short-term memory (LSTM) recurrent neural network across three timing tasks. Differences in the relative performance of these two models is discussed and it is shown how LTDDM can learn these events time series orders of magnitude faster than recurrent neural networks.
翻訳日:2021-06-14 11:24:30 公開日:2021-06-04
# (参考訳) SpreadGNN: グラフニューラルネットワークのためのサーバレスマルチタスクフェデレーション学習 [全文訳有]

SpreadGNN: Serverless Multi-task Federated Learning for Graph Neural Networks ( http://arxiv.org/abs/2106.02743v1 )

ライセンス: CC BY 4.0
Chaoyang He, Emir Ceyani, Keshav Balasubramanian, Murali Annavaram, Salman Avestimehr(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから最先端レベルの表現を学習する能力のおかげで、グラフ機械学習問題の最初の選択方法である。 しかし、GNNトレーニングのための大量の実世界のグラフデータの集中化は、ユーザ側のプライバシの懸念、規制規制、商業的競争のために禁止されている。 Federated Learningは、集中化を必要とせずに、多くの分散エッジデバイス上で機械学習モデルの協調トレーニングのためのデファクトスタンダードである。 それでも、連合環境でのトレーニンググラフニューラルネットワークはあいまいに定義されており、統計的およびシステムの課題をもたらす。 本研究は,部分ラベルの存在下で動作可能で,文献に初めて中央サーバが存在しない,新たなマルチタスクフェデレーショントレーニングフレームワークであるspreadgnnを提案する。 SpreadGNNは、分散マルチタスク学習をGNNの現実的なサーバレス設定に拡張し、収束保証を備えた新しい最適化アルゴリズム、分散周期平均SGD(DPA-SGD)を使用して、分散マルチタスク学習問題を解決する。 我々は、様々な非I.D.に対する我々の枠組みの有効性を実証的に実証した。 部分ラベル付き分散グラフレベルの分子特性予測データセット。 この結果から,SpreadGNNは,制約付きトポロジにおいても,中央サーバ依存型フェデレーション学習システム上で訓練されたGNNモデルよりも優れていた。 ソースコードはhttps://github.com/F edML-AI/SpreadGNNで公開されている。

Graph Neural Networks (GNNs) are the first choice methods for graph machine learning problems thanks to their ability to learn state-of-the-art level representations from graph-structured data. However, centralizing a massive amount of real-world graph data for GNN training is prohibitive due to user-side privacy concerns, regulation restrictions, and commercial competition. Federated Learning is the de-facto standard for collaborative training of machine learning models over many distributed edge devices without the need for centralization. Nevertheless, training graph neural networks in a federated setting is vaguely defined and brings statistical and systems challenges. This work proposes SpreadGNN, a novel multi-task federated training framework capable of operating in the presence of partial labels and absence of a central server for the first time in the literature. SpreadGNN extends federated multi-task learning to realistic serverless settings for GNNs, and utilizes a novel optimization algorithm with a convergence guarantee, Decentralized Periodic Averaging SGD (DPA-SGD), to solve decentralized multi-task learning problems. We empirically demonstrate the efficacy of our framework on a variety of non-I.I.D. distributed graph-level molecular property prediction datasets with partial labels. Our results show that SpreadGNN outperforms GNN models trained over a central server-dependent federated learning system, even in constrained topologies. The source code is publicly available at https://github.com/F edML-AI/SpreadGNN
翻訳日:2021-06-14 11:11:38 公開日:2021-06-04
# (参考訳) Predify:脳にインスパイアされた予測コーディングダイナミクスによるディープニューラルネットワークの強化 [全文訳有]

Predify: Augmenting deep neural networks with brain-inspired predictive coding dynamics ( http://arxiv.org/abs/2106.02749v1 )

ライセンス: CC BY 4.0
Bhavin Choksi, Milad Mozafari, Callum Biggs O'May, Benjamin Ador, Andrea Alamia, Rufin VanRullen(参考訳) 深層ニューラルネットワークは画像分類に優れているが、その性能は人間の知覚よりも入力摂動に劣る。 本研究では,脳にインスパイアされたリカレントダイナミクスを深層畳み込みネットワークに組み込むことによって,この欠点が部分的に対処できるかどうかを検討する。 私たちは神経科学の一般的な枠組みである「予測コーディング」からインスピレーションを得ます。 階層モデルの各層において、生成フィードバックは、前層のアクティビティパターンを「予測」(つまり、再構築)する。 レコンストラクションエラーは、時間ステップをまたいでネットワークの表現を反復的に更新し、自然な画像データセット上のネットワークのフィードバック重みを最適化するために使用される。 この戦略を,vgg16 と efficientnetb0 という2つの一般的なネットワークに実装することで,さまざまな汚職に対する堅牢性が向上することを示す。 我々は、他のfeedforwardネットワークも同様に提案されたフレームワークの恩恵を受けると仮定する。 この方向の研究を促進するために、Predifyと呼ばれるオープンソースのPyTorchベースのパッケージを提供し、任意の畳み込みニューラルネットワークにおける予測符号化ダイナミクスの影響の実装と調査に使用できる。

Deep neural networks excel at image classification, but their performance is far less robust to input perturbations than human perception. In this work we explore whether this shortcoming may be partly addressed by incorporating brain-inspired recurrent dynamics in deep convolutional networks. We take inspiration from a popular framework in neuroscience: 'predictive coding'. At each layer of the hierarchical model, generative feedback 'predicts' (i.e., reconstructs) the pattern of activity in the previous layer. The reconstruction errors are used to iteratively update the network's representations across timesteps, and to optimize the network's feedback weights over the natural image dataset-a form of unsupervised training. We show that implementing this strategy into two popular networks, VGG16 and EfficientNetB0, improves their robustness against various corruptions. We hypothesize that other feedforward networks could similarly benefit from the proposed framework. To promote research in this direction, we provide an open-sourced PyTorch-based package called Predify, which can be used to implement and investigate the impacts of the predictive coding dynamics in any convolutional neural network.
翻訳日:2021-06-14 10:26:43 公開日:2021-06-04
# (参考訳) 風力推定の不確かさを定量化する確率的ニューラルネットワーク

Probabilistic Neural Network to Quantify Uncertainty of Wind Power Estimation ( http://arxiv.org/abs/2106.04656v1 )

ライセンス: CC BY 4.0
Farzad Karami, Nasser Kehtarnavaz, Mario Rotea(参考訳) 毎年、発電のために電力網に多くの風力発電所が追加されている。 発電電力と風速の関係を示す風力タービンの動力曲線は,風力発電の性能を評価する上で重要な役割を担っている。 ニューラルネットワークは電力曲線推定に使われている。 しかし、計算的に禁止されるベイズ法がない限り、出力に対する信頼度尺度は作成しない。 本稿では,モンテカルロ・ドロップアウトを用いた確率論的ニューラルネットワークを用いて,パワーカーブ推定のモデル(エピステミック)の不確かさを定量化する。 このアプローチは決定論的アプローチよりも計算複雑性を最小限に増やす。 さらに、確率的損失関数を組み込むことにより、データ中のノイズ又は不確かさを推定する。 開発したネットワークは、性能を評価する上で有用なツールであるモデルとノイズの不確実性の両方をキャプチャする。 また、開発したネットワークは、予測精度の点で優れたパフォーマンスを示すパブリックドメインデータセット全体の既存のネットワークと比較される。

Each year a growing number of wind farms are being added to power grids to generate electricity. The power curve of a wind turbine, which exhibits the relationship between generated power and wind speed, plays a major role in assessing the performance of a wind farm. Neural networks have been used for power curve estimation. However, they do not produce a confidence measure for their output, unless computationally prohibitive Bayesian methods are used. In this paper, a probabilistic neural network with Monte Carlo dropout is considered to quantify the model (epistemic) uncertainty of the power curve estimation. This approach offers a minimal increase in computational complexity over deterministic approaches. Furthermore, by incorporating a probabilistic loss function, the noise or aleatoric uncertainty in the data is estimated. The developed network captures both model and noise uncertainty which is found to be useful tools in assessing performance. Also, the developed network is compared with existing ones across a public domain dataset showing superior performance in terms of prediction accuracy.
翻訳日:2021-06-13 14:31:24 公開日:2021-06-04
# 地質領域の機械学習分類におけるデータ変換の効果に関する実証的研究

Empirical observations on the effects of data transformation in machine learning classification of geological domains ( http://arxiv.org/abs/2106.05855v1 )

ライセンス: Link先を確認
Raymond Leung(参考訳) 文献では、多くの著作が構成データの多変量統計解析にlog-ratio変換の使用を提唱している。 対照的に、データ変換が地球科学における機械学習分類器の有効性をどう変えるかを検討する研究はほとんどない。 このレターは、この問題をさらに探究するために実験結果と経験的な観察を示す。 本研究の目的は,データ変換が地化学データを用いて機械学習分類器/推定器を訓練した場合の地域分類性能に及ぼす影響を検討することである。 トレーニングインプットは,西オーストラリア州のピルバラ鉄鉱石鉱床から得られた探査孔アッセイ試料と,層序単位に基づく地層ラベルと,鉱化の欠如・存在・種類とからなる。 検討されているML手法は,多項ロジスティック回帰,ガウス的na\"{i}ve Bayes,kNN,線形サポートベクトル分類器,RBF-SVM,勾配向上と極端なGB,ランダムフォレスト(RF),多層パーセプトロン(MLP)である。 得られた変換には、等尺対数比(ilr)、中心対数比(clr)、主成分分析(pca)、独立成分分析(ica)、局所線形埋め込み(lle)に基づく多様体学習アプローチが含まれる。 その結果、異なるml分類器はこれらの変換に対して様々な感度を示し、他のものよりも明らかに有利か削除的であることが明らかとなった。 全体として、最高のパフォーマンス候補はIDRであり、データの構成的性質を考えると、予想外である。 ペアワイズ対数比変換(PWLR)の性能は、アンサンブルや強化やRFといった木に基づく学習者にとってILRよりも優れているが、MLP、SVM、その他の分類器にとっては悪い。

In the literature, a large body of work advocates the use of log-ratio transformation for multivariate statistical analysis of compositional data. In contrast, few studies have looked at how data transformation changes the efficacy of machine learning classifiers within geoscience. This letter presents experiment results and empirical observations to further explore this issue. The objective is to study the effects of data transformation on geozone classification performance when machine learning (ML) classifiers/estimato rs are trained using geochemical data. The training input consists of exploration hole assay samples obtained from a Pilbara iron-ore deposit in Western Australia, and geozone labels assigned based on stratigraphic units, the absence or presence and type of mineralization. The ML techniques considered are multinomial logistic regression, Gaussian na\"{i}ve Bayes, kNN, linear support vector classifier, RBF-SVM, gradient boosting and extreme GB, random forest (RF) and multi-layer perceptron (MLP). The transformations examined include isometric log-ratio (ILR), center log-ratio (CLR) coupled with principal component analysis (PCA) or independent component analysis (ICA), and a manifold learning approach based on local linear embedding (LLE). The results reveal that different ML classifiers exhibit varying sensitivity to these transformations, with some clearly more advantageous or deleterious than others. Overall, the best performing candidate is ILR which is unsurprising considering the compositional nature of the data. The performance of pairwise log-ratio (PWLR) transformation is better than ILR for ensemble and tree-based learners such as boosting and RF; but worse for MLP, SVM and other classifiers.
翻訳日:2021-06-13 14:01:11 公開日:2021-06-04
# コミュニティラベリングのための干渉グラフ変換

Interferometric Graph Transform for Community Labeling ( http://arxiv.org/abs/2106.05875v1 )

ライセンス: Link先を確認
Nathan Grinsztajn (Scool), Louis Leconte (MLIA, CMAP), Philippe Preux (Scool), Edouard Oyallon (MLIA)(参考訳) コミュニティグラフで教師なしノード表現を学ぶための新しいアプローチを提案する。 この非線形演算子は、復調操作を通じてグラフトポロジーを利用する特徴を反復的に抽出します。 教師なし特徴抽出ステップは、コミュニティラベリングのための関連する不変量を構築することを目的とした線形演算子によるモジュラリティ非直線性を実現する。 単純化されたモデルにより、IGT は E-IGT の周辺に集中していることが示される。 コミュニティラベリングタスクの実験では、この教師なしの表現は、標準および挑戦的なデータセットであるCora、Citeseer、Pubmed、WikiCSの最先端でパフォーマンスを達成する。

We present a new approach for learning unsupervised node representations in community graphs. We significantly extend the Interferometric Graph Transform (IGT) to community labeling: this non-linear operator iteratively extracts features that take advantage of the graph topology through demodulation operations. An unsupervised feature extraction step cascades modulus non-linearity with linear operators that aim at building relevant invariants for community labeling. Via a simplified model, we show that the IGT concentrates around the E-IGT: those two representations are related through some ergodicity properties. Experiments on community labeling tasks show that this unsupervised representation achieves performances at the level of the state of the art on the standard and challenging datasets Cora, Citeseer, Pubmed and WikiCS.
翻訳日:2021-06-13 14:00:35 公開日:2021-06-04
# (参考訳) 世帯層別住宅負荷パターンの特徴と社会経済的要因

Characterizing Residential Load Patterns by Household Demographic and Socioeconomic Factors ( http://arxiv.org/abs/2106.05858v1 )

ライセンス: CC BY 4.0
Zhuo Wei, Hao Wang(参考訳) スマートメーターの普及により、住宅負荷データが利用可能となり、エネルギー消費行動の理解が向上する。 既存の研究の多くはスマートメータのデータ分析に焦点を当てているが、エネルギー消費行動の要因はよく分かっていない。 本稿では, 人口統計と社会経済情報をもとに, 利用者の負荷パターンを特徴付け, 推定することを目的とする。 負荷データを処理するためにシンボリックアグリゲート近似(sax)手法を採用し,k-means法を用いて鍵負荷パターンを抽出する。 我々は、ユーザの負荷パターンと人口動態と社会経済的特徴との関係を分析するディープニューラルネットワーク(DNN)を開発した。 実世界の負荷データを用いて,我々のフレームワークを検証し,負荷パターンと世帯層,社会経済的特徴の関連を実証する。 比較のベンチマークとして,2つの回帰モデルも採用しています。

The wide adoption of smart meters makes residential load data available and thus improves the understanding of the energy consumption behavior. Many existing studies have focused on smart-meter data analysis, but the drivers of energy consumption behaviors are not well understood. This paper aims to characterize and estimate users' load patterns based on their demographic and socioeconomic information. We adopt the symbolic aggregate approximation (SAX) method to process the load data and use the K-Means method to extract key load patterns. We develop a deep neural network (DNN) to analyze the relationship between users' load patterns and their demographic and socioeconomic features. Using real-world load data, we validate our framework and demonstrate the connections between load patterns and household demographic and socioeconomic features. We also take two regression models as benchmarks for comparisons.
翻訳日:2021-06-13 13:54:16 公開日:2021-06-04
# (参考訳) Spike Propamine:スパイクニューラルネットワークの可塑性

SpikePropamine: Differentiable Plasticity in Spiking Neural Networks ( http://arxiv.org/abs/2106.02681v1 )

ライセンス: CC BY 4.0
Samuel Schmidgall, Julia Ashkanazy, Wallace Lawson, Joe Hays(参考訳) スパイキングニューロン間のシナプス効果の適応的変化は、生物学的ニューラルネットワークの学習において重要な役割を果たすことが示されている。 このようなインスピレーションの源にも拘わらず、スパイキングニューラルネットワーク(snn)を使用して学習する多くのアプリケーションは静的シナプス接続を保持し、最初のトレーニング期間後に追加の学習を妨げている。 本稿では,snsにおける相乗可塑性と神経修飾相乗可塑性のダイナミックスを,勾配降下を通じて同時に学習する枠組みとルールを紹介する。 我々はさらに,bcm,oja,およびそれらの神経調節性変異体を含むいくつかの可塑性規則のパラメータを学習し,一連の難解なベンチマークでこの枠組みの能力を示す。 実験結果から,異なる可塑性で強化されたSNNは,従来のSNNでは解けない時間的学習課題の集合を,大きなノイズがあっても解くのに十分であることが示された。 これらのネットワークは、初期のトレーニング期間中に見られない新しい条件下で、パフォーマンスのほぼ最小の劣化が観察される、高次元ロボット学習タスク上での移動を生成できることも示されている。

The adaptive changes in synaptic efficacy that occur between spiking neurons have been demonstrated to play a critical role in learning for biological neural networks. Despite this source of inspiration, many learning focused applications using Spiking Neural Networks (SNNs) retain static synaptic connections, preventing additional learning after the initial training period. Here, we introduce a framework for simultaneously learning the underlying fixed-weights and the rules governing the dynamics of synaptic plasticity and neuromodulated synaptic plasticity in SNNs through gradient descent. We further demonstrate the capabilities of this framework on a series of challenging benchmarks, learning the parameters of several plasticity rules including BCM, Oja's, and their respective set of neuromodulatory variants. The experimental results display that SNNs augmented with differentiable plasticity are sufficient for solving a set of challenging temporal learning tasks that a traditional SNN fails to solve, even in the presence of significant noise. These networks are also shown to be capable of producing locomotion on a high-dimensional robotic learning task, where near-minimal degradation in performance is observed in the presence of novel conditions not seen during the initial training period.
翻訳日:2021-06-08 19:54:20 公開日:2021-06-04
# (参考訳) 緊急時表以降の安全テストと常用信頼区間

Safe Tests and Always-Valid Confidence Intervals for contingency tables and beyond ( http://arxiv.org/abs/2106.02693v1 )

ライセンス: CC BY 4.0
Rosanne Turner, Alexander Ly, Peter Gr\"unwald(参考訳) 2つのデータストリームが同じソースから来るかどうかをテストするためのE変数を開発し、より一般的には、ソース間の差がいくつかの最小効果サイズよりも大きいかどうかをテストする。 これらのE変数は安全であり続けるテストにつながる。 オプションの停止や継続といった柔軟なサンプリングシナリオの下で、type-iのエラー保証を維持する。 また、常に有意な信頼区間も展開する。 特別の場合、E 変数は代替条件の下で最適な '成長' 特性を持つ。 2x2連続テーブルの特別な場合による一般的な構成について説明し、合成代替品に異なる制約を組み込むことも可能である。 シミュレーションと実世界の実例におけるp値解析と比較すると、E変数はその柔軟性を通じて、しばしばデータ収集の早期停止を可能にし、古典的な方法と同じようなパワーを保持する。

We develop E variables for testing whether two data streams come from the same source or not, and more generally, whether the difference between the sources is larger than some minimal effect size. These E variables lead to tests that remain safe, i.e. keep their Type-I error guarantees, under flexible sampling scenarios such as optional stopping and continuation. We also develop the corresponding always-valid confidence intervals. In special cases our E variables also have an optimal `growth' property under the alternative. We illustrate the generic construction through the special case of 2x2 contingency tables, where we also allow for the incorporation of different restrictions on a composite alternative. Comparison to p-value analysis in simulations and a real-world example show that E variables, through their flexibility, often allow for early stopping of data collection, thereby retaining similar power as classical methods.
翻訳日:2021-06-08 19:53:59 公開日:2021-06-04
# (参考訳) 階層型勾配蓄積とモジュラーパイプライン並列性:大規模言語モデルの高速かつ効率的なトレーニング

Layered gradient accumulation and modular pipeline parallelism: fast and efficient training of large language models ( http://arxiv.org/abs/2106.02679v1 )

ライセンス: CC BY-SA 4.0
Joel Lamy-Poirier(参考訳) トランスフォーマーの登場は、言語モデルのサイズが急速に成長し、ハードウェアの改善をはるかに上回っている。 近い将来、(dense)トランスフォーマーは1兆パラメータのスケールに達すると予想されており、トレーニングには数千から数万のgpuが必要になる。 我々は,この規模のトレーニングの課題と,商用ハードウェア以上の課題について検討する。 特に,分散トレーニングの異なる構成に対する最短のトレーニング時間を解析し,最適な(クリティカルな)バッチサイズを推定するために言語モデルの経験則を活用する。 一般的な信念とは対照的に、メモリウォールの証拠は見つからず、代わりに、実際の制限(コスト以外の)はトレーニング期間にあると主張している。 この分析に加えて,本研究では,最短トレーニング時間を半減する2つの新しい手法, \textit{layered gradient accumulation} と \textit{modular pipeline parallelism} を導入する。 また、この手法はデータ移動を減少させ、高速インフィニバンド接続が不要な時点へのネットワーク要求を低下させる。 これによりネットワーク効率が向上し、ZeROオプティマイザで導入されたメソッドも改善され、利用可能なGPUメモリのごく一部にメモリ使用量が削減された。

The advent of the transformer has sparked a quick growth in the size of language models, far outpacing hardware improvements. (Dense) transformers are expected to reach the trillion-parameter scale in the near future, for which training requires thousands or even tens of thousands of GPUs. We investigate the challenges of training at this scale and beyond on commercially available hardware. In particular, we analyse the shortest possible training time for different configurations of distributed training, leveraging empirical scaling laws for language models to estimate the optimal (critical) batch size. Contrary to popular belief, we find no evidence for a memory wall, and instead argue that the real limitation -- other than the cost -- lies in the training duration. In addition to this analysis, we introduce two new methods, \textit{layered gradient accumulation} and \textit{modular pipeline parallelism}, which together cut the shortest training time by half. The methods also reduce data movement, lowering the network requirement to a point where a fast InfiniBand connection is not necessary. This increased network efficiency also improve on the methods introduced with the ZeRO optimizer, reducing the memory usage to a tiny fraction of the available GPU memory.
翻訳日:2021-06-08 19:29:36 公開日:2021-06-04
# (参考訳) 蒸留によるチャーン還元

Churn Reduction via Distillation ( http://arxiv.org/abs/2106.02654v1 )

ライセンス: CC BY 4.0
Heinrich Jiang, Harikrishna Narasimhan, Dara Bahri, Andrew Cotter, Afshin Rostamizadeh(参考訳) 現実のシステムでは、より多くのデータが利用可能になるとモデルが頻繁に更新され、高い精度を達成することに加えて、ベースモデル(すなわち、ベースモデル)と比較して予測の低差を維持することも目標としている。 予測する ``churn'')。 モデル再訓練が全く異なる振る舞いをもたらす場合、特にモデル精度に限定した影響でこのチャーンを避けることができれば、下流システムに悪影響を及ぼす可能性がある。 本稿では, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。 次に, 蒸留は, 完全連結ネットワーク, 畳み込みネットワーク, 変圧器を含む, 幅広いデータセットおよびモデルアーキテクチャに基づく最近の多くのベースラインに対して, 低いチャーントレーニングに強く貢献することを示す。

In real-world systems, models are frequently updated as more data becomes available, and in addition to achieving high accuracy, the goal is to also maintain a low difference in predictions compared to the base model (i.e. predictive ``churn''). If model retraining results in vastly different behavior, then it could cause negative effects in downstream systems, especially if this churn can be avoided with limited impact on model accuracy. In this paper, we show an equivalence between training with distillation using the base model as the teacher and training with an explicit constraint on the predictive churn. We then show that distillation performs strongly for low churn training against a number of recent baselines on a wide range of datasets and model architectures, including fully-connected networks, convolutional networks, and transformers.
翻訳日:2021-06-08 19:28:59 公開日:2021-06-04
# (参考訳) R-U-A-Robotデータセット:人間や非人間の身元に関するユーザーの質問を検知することで、チャットボットの誤認を避ける

The R-U-A-Robot Dataset: Helping Avoid Chatbot Deception by Detecting User Questions About Human or Non-Human Identity ( http://arxiv.org/abs/2106.02692v1 )

ライセンス: CC BY-SA 4.0
David Gros, Yu Li, Zhou Yu(参考訳) 人間は言語を通して機械と対話し、時にはユーザーが機械と話していることを知らない状況(電話やテキストチャットボットなど)で会話するようになる。 システムデザイナや研究者が、システムに対して人間以外のアイデンティティを確認できるようにする方法を理解することを目指している。 我々は『あなたはロボット?』の意図に関連する2500以上のフレーズを集めている。 2500以上の逆選択された発話と組み合わせて、システムが非人間であることを確認するだけで不十分か不流動である。 分類器を比較して意図を認識し、精度/リコールとモデルの複雑さのトレードオフについて議論する。 このような分類器は、望ましくない偽装を避けるためにダイアログシステムに統合できる。 次に、生成研究モデル(blender)と2つのデプロイされたシステム(amazon alexa、google assistant)の両方が、この意図をどのように処理するかを調べ、システムがしばしば、非人間的アイデンティティの確認に失敗することを発見します。 最後に、意図に対する良い反応が何であるかを理解し、この意図に反応する際の重要な側面を比較するためにユーザー研究を実施します。

Humans are increasingly interacting with machines through language, sometimes in contexts where the user may not know they are talking to a machine (like over the phone or a text chatbot). We aim to understand how system designers and researchers might allow their systems to confirm its non-human identity. We collect over 2,500 phrasings related to the intent of ``Are you a robot?". This is paired with over 2,500 adversarially selected utterances where only confirming the system is non-human would be insufficient or disfluent. We compare classifiers to recognize the intent and discuss the precision/recall and model complexity tradeoffs. Such classifiers could be integrated into dialog systems to avoid undesired deception. We then explore how both a generative research model (Blender) as well as two deployed systems (Amazon Alexa, Google Assistant) handle this intent, finding that systems often fail to confirm their non-human identity. Finally, we try to understand what a good response to the intent would be, and conduct a user study to compare the important aspects when responding to this intent.
翻訳日:2021-06-08 18:56:58 公開日:2021-06-04
# (参考訳) 反事実の説明は操作できる

Counterfactual Explanations Can Be Manipulated ( http://arxiv.org/abs/2106.02666v1 )

ライセンス: CC BY 4.0
Dylan Slack and Sophie Hilgard and Himabindu Lakkaraju and Sameer Singh(参考訳) アルゴリズム的決定によって悪影響を受ける個人へのリアクションを提供する魅力的な選択肢として、反事実的説明が登場している。 それらは重要なアプリケーション(例)にデプロイされる。 法執行機関、金融融資) これらの方法の脆弱性を明確に理解し、それに対処する方法を見つけることが重要である。 しかし、反事実的説明の脆弱性や欠点についてはほとんど理解されていない。 本稿では,反事実的説明の脆弱性を記述した最初のフレームワークを紹介し,その操作方法を示す。 より具体的には、反事実的説明は、それらが堅牢でないことを示す小さな摂動の下で、大きく異なる反事実に収束する可能性があることを示す。 この知見を生かして、一見公平に見えるモデルを訓練する新しい目的を導入し、反事実的な説明がわずかな摂動の下でより低いコストのリアクションを見つける。 我々は、これらのモデルがデータ内の特定のサブグループに対して不公平に低コストなリコースを提供し、監査者に公平に見せる方法について説明する。 我々は、特定のサブグループが摂動下で最大20倍のコスト削減を成し遂げるローンや暴力犯罪予測データセットの実験を行う。 これらの結果から, 現行の対実的説明手法の信頼性に関する懸念が持ち上がり, 強固な対実的説明における調査の刺激となることを期待する。

Counterfactual explanations are emerging as an attractive option for providing recourse to individuals adversely impacted by algorithmic decisions. As they are deployed in critical applications (e.g. law enforcement, financial lending), it becomes important to ensure that we clearly understand the vulnerabilities of these methods and find ways to address them. However, there is little understanding of the vulnerabilities and shortcomings of counterfactual explanations. In this work, we introduce the first framework that describes the vulnerabilities of counterfactual explanations and shows how they can be manipulated. More specifically, we show counterfactual explanations may converge to drastically different counterfactuals under a small perturbation indicating they are not robust. Leveraging this insight, we introduce a novel objective to train seemingly fair models where counterfactual explanations find much lower cost recourse under a slight perturbation. We describe how these models can unfairly provide low-cost recourse for specific subgroups in the data while appearing fair to auditors. We perform experiments on loan and violent crime prediction data sets where certain subgroups achieve up to 20x lower cost recourse under the perturbation. These results raise concerns regarding the dependability of current counterfactual explanation techniques, which we hope will inspire investigations in robust counterfactual explanations.
翻訳日:2021-06-08 18:56:39 公開日:2021-06-04
# (参考訳) 制約付きMDPに対するゼロあるいは境界付き制約違反による学習ポリシー

Learning Policies with Zero or Bounded Constraint Violation for Constrained MDPs ( http://arxiv.org/abs/2106.02684v1 )

ライセンス: CC BY 4.0
Tao Liu, Ruida Zhou, Dileep Kalathil, P. R. Kumar, Chao Tian(参考訳) 我々は強化学習における安全性の問題に取り組む。 我々は、マルコフ決定過程のエピソディックな枠組みで問題を提起する。 既存の結果は、$\tilde{\mathcal{O}}(\sqrt{K})$を$\tilde{\mathcal{O}}(\sqrt{K})$の制約違反を許容しながら、$\tilde{\mathcal{O}}(\sqrt{K})$の報酬後悔を達成することができることを示している。 重要な疑問は、制約違反をさらに小さく抑えることができるかどうかである。 厳密な安全ポリシーが知られている場合、順序 $\tilde{\mathcal{O}}(\sqrt{K})$ の報酬後悔を維持しながら、厳密な制約違反を任意に高い確率でゼロに抑えることができる。 そのようなアルゴリズムは、安全な探索を達成するために不確実性に直面した楽観的な悲観主義の原理を用いる。 厳密な安全なポリシーが知られていないが、存在することが分かっている場合、システムを任意に高い確率で制限された制約違反に制限することができる。 これは楽観的な主観的推定と悲観的二重更新を持つ原始双対アルゴリズムによって実現される。

We address the issue of safety in reinforcement learning. We pose the problem in an episodic framework of a constrained Markov decision process. Existing results have shown that it is possible to achieve a reward regret of $\tilde{\mathcal{O}}(\sqrt{K})$ while allowing an $\tilde{\mathcal{O}}(\sqrt{K})$ constraint violation in $K$ episodes. A critical question that arises is whether it is possible to keep the constraint violation even smaller. We show that when a strictly safe policy is known, then one can confine the system to zero constraint violation with arbitrarily high probability while keeping the reward regret of order $\tilde{\mathcal{O}}(\sqrt{K})$. The algorithm which does so employs the principle of optimistic pessimism in the face of uncertainty to achieve safe exploration. When no strictly safe policy is known, though one is known to exist, then it is possible to restrict the system to bounded constraint violation with arbitrarily high probability. This is shown to be realized by a primal-dual algorithm with an optimistic primal estimate and a pessimistic dual update.
翻訳日:2021-06-08 18:56:18 公開日:2021-06-04
# W-RST: 軽量なRTTスタイルの談話フレームワークを目指して

W-RST: Towards a Weighted RST-style Discourse Framework ( http://arxiv.org/abs/2106.02658v1 )

ライセンス: Link先を確認
Patrick Huber, Wen Xiao and Giuseppe Carenini(参考訳) データ駆動型と言語的に着想を得たアプローチのより良い統合を目指して,テキストセグメント間の重要度をバイナリで評価するRTT Nuclearityが,Weighted-RSTフレームワークと呼ばれる自動生成された実値スコアに置き換えられるかを検討する。 特に, 補助タスクの重み付き談話木は, 核性中心のアプローチと比較して, 主要なnlp下流アプリケーションにとって有益であることがわかった。 さらに,人間の注釈者の評価と不確実性に,実数値の重要度分布が部分的および興味深い一致を示した。

Aiming for a better integration of data-driven and linguistically-inspi red approaches, we explore whether RST Nuclearity, assigning a binary assessment of importance between text segments, can be replaced by automatically generated, real-valued scores, in what we call a Weighted-RST framework. In particular, we find that weighted discourse trees from auxiliary tasks can benefit key NLP downstream applications, compared to nuclearity-centered approaches. We further show that real-valued importance distributions partially and interestingly align with the assessment and uncertainty of human annotators.
翻訳日:2021-06-08 18:52:18 公開日:2021-06-04
# リアルタイムビデオによる心拍計と呼吸速度モニタリング

Real Time Video based Heart and Respiration Rate Monitoring ( http://arxiv.org/abs/2106.02669v1 )

ライセンス: Link先を確認
Jafar Pourbemany, Almabrok Essa, and Ye Zhu(参考訳) 近年,スマートフォンによるバイタルサインのモニタリングに関する研究が著しく進んでいる。 心電図(ecg)やppg(photoplethysmogr aphy)といった特殊なセンサーがあり、心拍数(hr)や呼吸率(rr)を検出する。 スマートフォンカメラは、ユーザの顔のビデオからフォトプレソグラフィ(iPPG)信号を検出し、処理することでHRを測定することもできる。 実際、グリーンチャネルの強度の変化は、ビデオのIPPG信号によって測定できる。 本研究では,個人の顔の映像を用いて心拍数と呼吸速度を抽出する方法を提案する。 提案手法は,Hueのゆらぎを測定し,ユーザの顔の映像からHRとRRを抽出することができる。 提案手法は健常者25名を対象に評価した。 各被験者の顔の20秒間のビデオが記録される。 その結果,Hue を用いた IPPG 測定手法は Green チャネルよりも精度が高いことがわかった。

In recent years, research about monitoring vital signs by smartphones grows significantly. There are some special sensors like Electrocardiogram (ECG) and Photoplethysmographi c (PPG) to detect heart rate (HR) and respiration rate (RR). Smartphone cameras also can measure HR by detecting and processing imaging Photoplethysmographi c (iPPG) signals from the video of a user's face. Indeed, the variation in the intensity of the green channel can be measured by the iPPG signals of the video. This study aimed to provide a method to extract heart rate and respiration rate using the video of individuals' faces. The proposed method is based on measuring fluctuations in the Hue, and can therefore extract both HR and RR from the video of a user's face. The proposed method is evaluated by performing on 25 healthy individuals. For each subject, 20 seconds video of his/her face is recorded. Results show that the proposed approach of measuring iPPG using Hue gives more accurate rates than the Green channel.
翻訳日:2021-06-08 18:48:29 公開日:2021-06-04
# SketchGen: 制約付きCADスケッチの生成

SketchGen: Generating Constrained CAD Sketches ( http://arxiv.org/abs/2106.02711v1 )

ライセンス: Link先を確認
Wamiq Reyaz Para, Shariq Farooq Bhat, Paul Guerrero, Tom Kelly, Niloy Mitra, Leonidas Guibas, Peter Wonka(参考訳) computer-aided design (cad) は技術設計において最も広く使われているモデリング手法である。 これらの設計の典型的な出発点は2dスケッチであり、後に押出して組み合わせて複雑な3次元集合を得ることができる。 このようなスケッチは通常、点、線、円弧といったパラメトリックなプリミティブで構成され、偶然、平行性、直交性といったプリミティブをつなぐ幾何学的制約によって拡張される。 Sketchesはグラフとして表現でき、プリミティブはノードとして、制約はエッジとして表現できる。 cadスケッチを自動的に生成するモデルをトレーニングすることは、いくつかの新しいワークフローを可能にするが、グラフの複雑さとプリミティブと制約の多様性のために難しい。 特に、プリミティブと制約の各タイプは、異なるサイズとパラメータのレコードを必要とする可能性がある。 本研究では,異なるプリミティブ型や制約型とそれらのパラメータの区別が可能なプリミティブや制約に対する逐次言語を慎重に設計し,関連するパラメータ間で情報を再利用し,共有構造を符号化することで,トランスフォーマアーキテクチャに基づく生成モデルとしてSketchGenを提案する。 特に注目すべきなのは,制約を通じてリンクされたプリミティブを生成することで,最終的なアウトプットを制約ソルバを通じてさらに正規化することが可能なことです。 我々は,与えられたプリミティブセットに対する制約予測とスクラッチからのフルスケッチ生成を例示し,CADスケッチ生成における最先端の手法を著しく向上させることを示す。

Computer-aided design (CAD) is the most widely used modeling approach for technical design. The typical starting point in these designs is 2D sketches which can later be extruded and combined to obtain complex three-dimensional assemblies. Such sketches are typically composed of parametric primitives, such as points, lines, and circular arcs, augmented with geometric constraints linking the primitives, such as coincidence, parallelism, or orthogonality. Sketches can be represented as graphs, with the primitives as nodes and the constraints as edges. Training a model to automatically generate CAD sketches can enable several novel workflows, but is challenging due to the complexity of the graphs and the heterogeneity of the primitives and constraints. In particular, each type of primitive and constraint may require a record of different size and parameter types. We propose SketchGen as a generative model based on a transformer architecture to address the heterogeneity problem by carefully designing a sequential language for the primitives and constraints that allows distinguishing between different primitive or constraint types and their parameters, while encouraging our model to re-use information across related parameters, encoding shared structure. A particular highlight of our work is the ability to produce primitives linked via constraints that enables the final output to be further regularized via a constraint solver. We evaluate our model by demonstrating constraint prediction for given sets of primitives and full sketch generation from scratch, showing that our approach significantly out performs the state-of-the-art in CAD sketch generation.
翻訳日:2021-06-08 18:48:17 公開日:2021-06-04
# 一般化の創発的コミュニケーション

Emergent Communication of Generalizations ( http://arxiv.org/abs/2106.02668v1 )

ライセンス: Link先を確認
Jesse Mu, Noah Goodman(参考訳) 最近の研究は、他の人と効果的に協力できるエージェントを構築するために、ルイススタイルの参照ゲームで互いにコミュニケーションする人工エージェントを訓練している。 しかし、これはしばしば成功するが解釈できないコミュニケーションにつながる。 共有された視覚的コンテキスト内の1つのオブジェクトについてコミュニケーションすることは、過度に適合しがちであり、具体的な参照以上の言語を奨励しない。 対照的に、人間の言語は多様な抽象概念を伝達する。 このようなスキルを促進するために,抽象視覚概念を表現したオブジェクトの集合上の一般化を,エージェント毎に任意のコンテキストで伝達するゲームを提案する。 これらのゲームが学習した言語の体系性と解釈性を大幅に改善できることが,文献のいくつかの指標からわかった。 最後に, 創発的言語に埋め込まれた論理演算を近似的構成再構成学習により同定する手法を提案する。

To build agents that can collaborate effectively with others, recent research has trained artificial agents to communicate with each other in Lewis-style referential games. However, this often leads to successful but uninterpretable communication. We argue that this is due to the game objective: communicating about a single object in a shared visual context is prone to overfitting and does not encourage language useful beyond concrete reference. In contrast, human language conveys a rich variety of abstract ideas. To promote such skills, we propose games that require communicating generalizations over sets of objects representing abstract visual concepts, optionally with separate contexts for each agent. We find that these games greatly improve systematicity and interpretability of the learned languages, according to several metrics in the literature. Finally, we propose a method for identifying logical operations embedded in the emergent languages by learning an approximate compositional reconstruction of the language.
翻訳日:2021-06-08 18:45:24 公開日:2021-06-04
# マスキング言語モデルの背後にある暗黙のエネルギーネットワークをメトロポリスで公開する--hastings

Exposing the Implicit Energy Networks behind Masked Language Models via Metropolis--Hastings ( http://arxiv.org/abs/2106.02736v1 )

ライセンス: Link先を確認
Kartik Goyal, Chris Dyer, Taylor Berg-Kirkpatrick(参考訳) 近年の研究では、ユビキタスマスマスキング言語モデリング(MLM)によって訓練されたモデルのスコアが、確率的および不測のシーケンスを効果的に識別できることが示されているが、これらのMLMが可能なシーケンスの空間上の原理的確率分布を規定しているかどうかはまだ明らかではない。 本稿では、MLMをエネルギーベースシーケンスモデルとして解釈し、訓練されたMLMから導出される2つのエネルギーパラメトリゼーションを提案する。 これらのモデルからサンプルを正しく抽出するために、メトロポリス・ハスティングス・モンテカルロアルゴリズムに基づく移動可能な \emph{sampling} スキームを開発した。 提案手法では,マスク付き言語モデルのトレーニングに使用した同じマスク付き条件からサンプルを抽出し,対象の分布に応じて,そのエネルギー値に基づいて受け入れ,拒否する。 機械翻訳の条件付き生成タスクにおいて,これらのエネルギーモデルから得られたサンプルの品質を探索し,提案手法の有効性を検証する。 我々は, マスキング条件式が対象分布の定常分布であるマルコフ連鎖を生じないことを示すことによって, サンプリングアルゴリズムを理論的に実証的に正当化し, 提案手法が提案されている他の非指向型生成手法(wang et al., 2019, ghazvininejad et al., 2019)よりも高品質なサンプルを生成する。

While recent work has shown that scores from models trained by the ubiquitous masked language modeling (MLM) objective effectively discriminate probable and improbable sequences, it is still an open question if these MLMs specify a principled probability distribution over the space of possible sequences. In this paper, we interpret MLMs as energy-based sequence models and propose two energy parametrizations derivable from the trained MLMs. In order to draw samples correctly from these models, we develop a tractable \emph{sampling} scheme based on the Metropolis--Hastings Monte Carlo algorithm. In our approach, samples are proposed from the same masked conditionals used for training the masked language models, and they are accepted or rejected based on their energy values according to the target distribution. We validate the effectiveness of the proposed parametrizations by exploring the quality of samples drawn from these energy-based models on the conditional generation task of machine translation. We theoretically and empirically justify our sampling algorithm by showing that the masked conditionals on their own do not yield a Markov chain whose stationary distribution is that of our target distribution, and our approach generates higher quality samples than other recently proposed undirected generation approaches (Wang et al., 2019, Ghazvininejad et al., 2019).
翻訳日:2021-06-08 18:41:56 公開日:2021-06-04
# Tiny Objectsを用いた超大型画像の効率的な分類

Efficient Classification of Very Large Images with Tiny Objects ( http://arxiv.org/abs/2106.02694v1 )

ライセンス: Link先を確認
Fanjie Kong, Ricardo Henao(参考訳) コンピュータビジョン領域、特に医用画像やリモートセンシングにおけるアプリケーションの増加は、非常に大きな画像を小さな物体に分類することを目的としているときに困難である。 More specifically, these type of classification tasks face two key challenges: $i$) the size of the input image in the target dataset is usually in the order of megapixels, however, existing deep architectures do not easily operate on such big images due to memory constraints, consequently, we seek a memory-efficient method to process these images; and $ii$) only a small fraction of the input images are informative of the label of interest, resulting in low region of interest (ROI) to image ratio. しかし、現在の畳み込みニューラルネットワーク(cnns)のほとんどは、比較的大きなroisと小さな画像サイズ(サブメガピクセル)を持つ画像分類データセット用に設計されている。 既存のアプローチでは、これらの2つの課題に分離されている。 単一GPUを用いた大規模画像の分類に階層的アテンションサンプリングを利用する、Zoom-Inネットワークと呼ばれるエンドツーエンドCNNモデルを提案する。 本手法を2つの大規模画像データセットと1ギガピクセルデータセットで評価した。 実験結果から,本モデルでは計算資源の少ない既存手法よりも精度が高いことがわかった。

An increasing number of applications in the computer vision domain, specially, in medical imaging and remote sensing, are challenging when the goal is to classify very large images with tiny objects. More specifically, these type of classification tasks face two key challenges: $i$) the size of the input image in the target dataset is usually in the order of megapixels, however, existing deep architectures do not easily operate on such big images due to memory constraints, consequently, we seek a memory-efficient method to process these images; and $ii$) only a small fraction of the input images are informative of the label of interest, resulting in low region of interest (ROI) to image ratio. However, most of the current convolutional neural networks (CNNs) are designed for image classification datasets that have relatively large ROIs and small image size (sub-megapixel). Existing approaches have addressed these two challenges in isolation. We present an end-to-end CNN model termed Zoom-In network that leverages hierarchical attention sampling for classification of large images with tiny objects using a single GPU. We evaluate our method on two large-image datasets and one gigapixel dataset. Experimental results show that our model achieves higher accuracy than existing methods while requiring less computing resources.
翻訳日:2021-06-08 18:30:17 公開日:2021-06-04
# フェアネスレンズによる個人的深層学習

Differentially Private Deep Learning under the Fairness Lens ( http://arxiv.org/abs/2106.02674v1 )

ライセンス: Link先を確認
Cuong Tran, My H. Dinh, Ferdinando Fioretto(参考訳) differential privacy (dp)は、プライベート機械学習システムにとって重要なプライバシー向上技術である。 これにより、計算に参加する個人に関わるリスクを計測し、制限することができる。 しかし,近年,DP学習システムによって個人集団の偏見や不公平性が増すことが観察された。 本稿は,これらの重要な観測結果を基にして,異なる個人的経験的リスク最小化問題に生じる異種影響の原因を考察する。 2つのよく研究されたDP学習手法(出力摂動と差分的確率勾配降下)において、個人間で生じる精度格差に焦点を当てた。 本稿では,不均等な影響の原因となるデータやモデル特性について分析し,その影響を緩和するためのガイドラインを提案する。 提案手法はいくつかのデータセットと設定で評価される。

Differential Privacy (DP) is an important privacy-enhancing technology for private machine learning systems. It allows to measure and bound the risk associated with an individual participation in a computation. However, it was recently observed that DP learning systems may exacerbate bias and unfairness for different groups of individuals. This paper builds on these important observations and sheds light on the causes of the disparate impacts arising in the problem of differentially private empirical risk minimization. It focuses on the accuracy disparity arising among groups of individuals in two well-studied DP learning methods: output perturbation and differentially private stochastic gradient descent. The paper analyzes which data and model properties are responsible for the disproportionate impacts, why these aspects are affecting different groups disproportionately and proposes guidelines to mitigate these effects. The proposed approach is evaluated on several datasets and settings.
翻訳日:2021-06-08 18:26:42 公開日:2021-06-04
# グループ構造を持つテンソルの分解方法

How to Decompose a Tensor with Group Structure ( http://arxiv.org/abs/2106.02680v1 )

ライセンス: Link先を確認
Allen Liu, Ankur Moitra(参考訳) 本研究では,未知集団行動下での騒音測定から植込み信号の回収問題に対する自然な抽象化である軌道回復問題について検討する。 統計学、工学、科学における多くの重要な逆問題がこの枠組みに当てはまる。 先行研究は群が離散的かつ/またはアーベル的である場合を研究した。 しかし、より複雑なグループアクションを扱うためには、基本的に新しい技術が必要である。 我々の主な成果は、SO(3)$の軌道回復を解く準多項式時間アルゴリズムである。 ランダムに回転したコピーのノイズ測定から分子の3次元構造を復元するよう要求する低温電子トモグラフィー問題。 我々はスムーズな解析の枠組みで周波数マーチングヒューリスティックの変種を分析した。 本手法では,不変多項式の階層構造を活用し,テンソルが低ランクではなく,群作用によって代数的に相互に関連づけられるような設定条件下で機能するテンソル分解アルゴリズムの新たなクラスを生成する。

In this work we study the orbit recovery problem, which is a natural abstraction for the problem of recovering a planted signal from noisy measurements under unknown group actions. Many important inverse problems in statistics, engineering and the sciences fit into this framework. Prior work has studied cases when the group is discrete and/or abelian. However fundamentally new techniques are needed in order to handle more complex group actions. Our main result is a quasi-polynomial time algorithm to solve orbit recovery over $SO(3)$ - i.e. the cryo-electron tomography problem which asks to recover the three-dimensional structure of a molecule from noisy measurements of randomly rotated copies of it. We analyze a variant of the frequency marching heuristic in the framework of smoothed analysis. Our approach exploits the layered structure of the invariant polynomials, and simultaneously yields a new class of tensor decomposition algorithms that work in settings when the tensor is not low-rank but rather where the factors are algebraically related to each other by a group action.
翻訳日:2021-06-08 18:24:51 公開日:2021-06-04
# 両サイドマーケットにおけるサブグループフェアネス

Subgroup Fairness in Two-Sided Markets ( http://arxiv.org/abs/2106.02702v1 )

ライセンス: Link先を確認
Quan Zhou and Jakub Marecek and Robert N. Shorten(参考訳) 両面の市場は様々な点で不公平であることはよく知られている。 例えば、uberの女性労働者は1マイルあたりの男性従業員よりも収入が少ない。 他の2つの市場における他のマイノリティサブグループについても同様の観測がなされている。 ここでは,複数のサブグループおよび各サブグループ間での1時間当たりの報酬の均等化を促進する,双方向市場のための新たなマーケットクリアリングメカニズムを提案する。 この過程では、各サブグループ内のフェアネスの概念(イントラフェアネスと呼ばれる)と、マーケットクリアリング問題のために顧客(カスタマーケア)の効用を組み合わせることができるサブグループフェアネスという新しい概念(インターフェアネス(inter-fairness)と呼ぶ)を導入する。 対象とする新たな非線形項は,問題を非凸にすることで市場クリアリングを複雑化するが,非凸拡張ラグランジアン緩和は,半定値計画を用いた市場参加者数における時間多項式の任意の精度に近似できることを示す。 これにより、市場浄化機構を効率的に実装することができる。 uberライクなシステムにおけるドライバーライドの割り当ての例では、アプローチの有効性とスケーラビリティ、およびfairnessとinter-to-fairnessのトレードオフを示します。

It is well known that two-sided markets are unfair in a number of ways. For instance, female workers at Uber earn less than their male colleagues per mile driven. Similar observations have been made for other minority subgroups in other two-sided markets. Here, we suggest a novel market-clearing mechanism for two-sided markets, which promotes equalisation of the pay per hour worked across multiple subgroups, as well as within each subgroup. In the process, we introduce a novel notion of subgroup fairness (which we call Inter-fairness), which can be combined with other notions of fairness within each subgroup (called Intra-fairness), and the utility for the customers (Customer-Care) in the objective of the market-clearing problem. While the novel non-linear terms in the objective complicate market clearing by making the problem non-convex, we show that a certain non-convex augmented Lagrangian relaxation can be approximated to any precision in time polynomial in the number of market participants using semi-definite programming. This makes it possible to implement the market-clearing mechanism efficiently. On the example of driver-ride assignment in an Uber-like system, we demonstrate the efficacy and scalability of the approach, and trade-offs between Inter- and Intra-fairness.
翻訳日:2021-06-08 18:20:18 公開日:2021-06-04
# regionvit: 視覚トランスフォーマーのための地域間注意

RegionViT: Regional-to-Local Attention for Vision Transformers ( http://arxiv.org/abs/2106.02689v1 )

ライセンス: Link先を確認
Chun-Fu Chen, Rameswar Panda, Quanfu Fan(参考訳) vision transformer (vit) は最近、画像分類において畳み込みニューラルネットワーク (cnns) に匹敵する結果を達成する能力を示した。 しかし、vanilla vitは単に自然言語処理から直接同じアーキテクチャを継承しており、視覚アプリケーションに最適化されていないことが多い。 そこで,本稿では,ピラミッド構造を採用し,視覚トランスフォーマのグローバル自己着脱よりも,新しい地域間注意を取り入れる新しいアーキテクチャを提案する。 より具体的には,本モデルではまず,異なるパッチサイズの画像から局所トークンと局所トークンを生成し,各局所トークンを空間的位置に基づく局所トークンの集合に関連付ける。 地域から地域への注目は、まず、すべての地域トークン間のグローバル情報を抽出するとともに、各地域トークンと関連するローカルトークン間の情報を、地域自記を通じて交換する。 したがって、局所的な自己意識は地域の範囲を限定するが、グローバルな情報を受け取ることができる。 画像分類,物体検出,行動認識を含む3つの視覚課題に対する広範囲な実験により,我々のアプローチは,多くの同時作業を含む最先端のViT変種よりも優れているか,あるいは同等であることが示された。 ソースコードとモデルは公開される予定だ。

Vision transformer (ViT) has recently showed its strong capability in achieving comparable results to convolutional neural networks (CNNs) on image classification. However, vanilla ViT simply inherits the same architecture from the natural language processing directly, which is often not optimized for vision applications. Motivated by this, in this paper, we propose a new architecture that adopts the pyramid structure and employ a novel regional-to-local attention rather than global self-attention in vision transformers. More specifically, our model first generates regional tokens and local tokens from an image with different patch sizes, where each regional token is associated with a set of local tokens based on the spatial location. The regional-to-local attention includes two steps: first, the regional self-attention extract global information among all regional tokens and then the local self-attention exchanges the information among one regional token and the associated local tokens via self-attention. Therefore, even though local self-attention confines the scope in a local region but it can still receive global information. Extensive experiments on three vision tasks, including image classification, object detection and action recognition, show that our approach outperforms or is on par with state-of-the-art ViT variants including many concurrent works. Our source codes and models will be publicly available.
翻訳日:2021-06-08 18:12:34 公開日:2021-06-04
# 複雑なデータに対する階層的ビデオ生成

Hierarchical Video Generation for Complex Data ( http://arxiv.org/abs/2106.02719v1 )

ライセンス: Link先を確認
Lluis Castrejon, Nicolas Ballas, Aaron Courville(参考訳) ビデオは、まずシーンのグローバルな説明を概説し、次にローカルな詳細を追加することで作成される。 そこで我々は,ビデオ生成のための階層モデルを提案する。 まず、我々のモデルは低解像度のビデオを生成し、グローバルなシーン構造を確立し、その後階層の次のレベルによって洗練します。 階層内の各レベルを、ビデオの部分的なビューに基づいて順次トレーニングします。 これにより、数フレームを超える高解像度ビデオにスケールする生成モデルの計算複雑性が軽減される。 我々はKinetics-600とBDD100Kのアプローチを検証し、48フレームで256x256ビデオを生成することができる3レベルモデルをトレーニングした。

Videos can often be created by first outlining a global description of the scene and then adding local details. Inspired by this we propose a hierarchical model for video generation which follows a coarse to fine approach. First our model generates a low resolution video, establishing the global scene structure, that is then refined by subsequent levels in the hierarchy. We train each level in our hierarchy sequentially on partial views of the videos. This reduces the computational complexity of our generative model, which scales to high-resolution videos beyond a few frames. We validate our approach on Kinetics-600 and BDD100K, for which we train a three level model capable of generating 256x256 videos with 48 frames.
翻訳日:2021-06-08 18:12:09 公開日:2021-06-04
# DISCO: 正確な離散スケールの畳み込み

DISCO: accurate Discrete Scale Convolutions ( http://arxiv.org/abs/2106.02733v1 )

ライセンス: Link先を確認
Ivan Sosnovik, Artem Moskalev, Arnold Smeulders(参考訳) スケールは、多くのビジョンタスクにおいて、与えられた、乱雑な要因と見なされることが多い。 そうすることで、学習中により多くのデータが必要な理由の1つになります。 最近の作業スケールでは、畳み込みニューラルネットワークに等分散が加えられた。 様々なタスクに有効であることが示されている。 我々は,スケールの粒度とフィルタサイズが小さい問題に対して,高精度なスケール等価畳み込みニューラルネットワーク(SE-CNN)を提案する。 現在のSE-CNNは重み付けとフィルタ再スケーリングに依存しており、後者は整数スケールでのみ正確である。 正確なスケール等分散を達成するために、スケール畳み込みが離散再スケーリングに同変のままである一般的な制約を導出する。 存在するすべての場合の正確な解を見つけ、残りの場合の近似を計算する。 mnist-scaleの新たな最先端分類とstl-10の結果の改善で示されるように、離散的なスケール畳み込みが効果を発揮する。 また,同じSE方式により,OTB-13上でのスケール等価なSiameseトラッカーの計算作業も改善する。

Scale is often seen as a given, disturbing factor in many vision tasks. When doing so it is one of the factors why we need more data during learning. In recent work scale equivariance was added to convolutional neural networks. It was shown to be effective for a range of tasks. We aim for accurate scale-equivariant convolutional neural networks (SE-CNNs) applicable for problems where high granularity of scale and small filter sizes are required. Current SE-CNNs rely on weight sharing and filter rescaling, the latter of which is accurate for integer scales only. To reach accurate scale equivariance, we derive general constraints under which scale-convolution remains equivariant to discrete rescaling. We find the exact solution for all cases where it exists, and compute the approximation for the rest. The discrete scale-convolution pays off, as demonstrated in a new state-of-the-art classification on MNIST-scale and improving the results on STL-10. With the same SE scheme, we also improve the computational effort of a scale-equivariant Siamese tracker on OTB-13.
翻訳日:2021-06-08 18:11:58 公開日:2021-06-04
# ZeroWaste Dataset: 廃棄物の自動リサイクルを目指して

ZeroWaste Dataset: Towards Automated Waste Recycling ( http://arxiv.org/abs/2106.02740v1 )

ライセンス: Link先を確認
Dina Bashkirova, Ziliang Zhu, James Akl, Fadi Alladkani, Ping Hu, Vitaly Ablavsky, Berk Calli, Sarah Adel Bargal, Kate Saenko(参考訳) アメリカではリサイクル可能な廃棄物の35%以下が実際にリサイクルされており、土壌や海洋汚染が増加しており、環境研究者や一般大衆にとって大きな関心事となっている。 問題の核心は廃棄物の選別プロセス(紙、プラスチック、金属、ガラス等)の非効率性である。 廃棄物の流れが非常に複雑で散らばっているためです 自動化された廃棄物検出戦略は, より効率的で信頼性が高く, 安全な廃棄物処理を可能にする大きな可能性を持っている。 本稿では, コンピュータ支援廃棄物検出に向けて第一歩を踏み出し, 産業レベル廃棄物検出・分別データセットzerowasteを提案する。 このデータセットは、実際の廃棄物選別工場から収集された1800以上のビデオフレームと、セグメンテーション手法の訓練と評価のための廃棄物ラベルと、半教師付きおよび自己教師型学習技術にさらに使用できる6000以上の未ラベルフレームを含む。 ZeroWasteはまた、ソートプロセスの前後にコンベアベルトのフレームを提供しており、弱教師付きセグメンテーションに使用できる新しいセットアップを含んでいる。 完全・半・弱教師付きセグメンテーション手法のベースラインを提案する。 実験の結果,現在最先端のセグメンテーション手法では,対象オブジェクトを正しく検出・分類することが困難であることが示され,提案手法の課題が示唆された。 我々は、ZeroWastewillが、オブジェクトの検出とセマンティックセマンティックセグメンテーション、およびリサイクル領域での応用の研究を触媒すると考えている。 私たちのプロジェクトページはhttp://ai.bu.edu/zer owaste/.com/。

Less than 35% of recyclable waste is being actually recycled in the US, which leads to increased soil and sea pollution and is one of the major concerns of environmental researchers as well as the common public. At the heart of the problem is the inefficiencies of the waste sorting process (separating paper, plastic, metal, glass, etc.) due to the extremely complex and cluttered nature of the waste stream. Automated waste detection strategies have a great potential to enable more efficient, reliable and safer waste sorting practices, but the literature lacks comprehensive datasets and methodology for the industrial waste sorting solutions. In this paper, we take a step towards computer-aided waste detection and present the first in-the-wild industrial-grade waste detection and segmentation dataset, ZeroWaste. This dataset contains over1800fully segmented video frames collected from a real waste sorting plant along with waste material labels for training and evaluation of the segmentation methods, as well as over6000unlabeled frames that can be further used for semi-supervised and self-supervised learning techniques. ZeroWaste also provides frames of the conveyor belt before and after the sorting process, comprising a novel setup that can be used for weakly-supervised segmentation. We present baselines for fully-, semi- and weakly-supervised segmentation methods. Our experimental results demonstrate that state-of-the-art segmentation methods struggle to correctly detect and classify target objects which suggests the challenging nature of our proposed in-the-wild dataset. We believe that ZeroWastewill catalyze research in object detection and semantic segmentation in extreme clutter as well as applications in the recycling domain. Our project page can be found athttp://ai.bu.edu/z erowaste/.
翻訳日:2021-06-08 18:11:41 公開日:2021-06-04
# タスク補間によるタスク不足によるメタラーニング

Meta-Learning with Fewer Tasks through Task Interpolation ( http://arxiv.org/abs/2106.02695v1 )

ライセンス: Link先を確認
Huaxiu Yao, Linjun Zhang, Chelsea Finn(参考訳) メタラーニングは、学習済みの知識を伝達することで、ラベル付きサンプルで、新しく遭遇したタスクを素早く学習することを可能にする。 しかし、現在のメタ学習アルゴリズムのボトルネックは、現実世界のシナリオではアクセスできない大量のメタ学習タスクを必要とすることである。 利用可能なタスクがタスクの空間を密にサンプリングしないという課題に対処するため、補間によるタスクセットの強化を提案する。 タスク補間(MLTI)を用いたメタラーニングにより,タスクのペアをランダムにサンプリングし,対応する特徴やラベルを補間することにより,タスクを効果的に生成する。 グラデーションに基づくメタラーニングとメートル法に基づくメタラーニングでは、MLTIはデータ適応型メタレギュラー化に対応し、一般化をさらに改善する。 画像認識,ポーズ予測,分子特性予測,医用画像分類を含む8つの領域のデータセットを実験した結果,提案する汎用mltiフレームワークは代表的なメタラーニングアルゴリズムと互換性を持ち,最先端の戦略を一貫して上回っていることがわかった。

Meta-learning enables algorithms to quickly learn a newly encountered task with just a few labeled examples by transferring previously learned knowledge. However, the bottleneck of current meta-learning algorithms is the requirement of a large number of meta-training tasks, which may not be accessible in real-world scenarios. To address the challenge that available tasks may not densely sample the space of tasks, we propose to augment the task set through interpolation. By meta-learning with task interpolation (MLTI), our approach effectively generates additional tasks by randomly sampling a pair of tasks and interpolating the corresponding features and labels. Under both gradient-based and metric-based meta-learning settings, our theoretical analysis shows MLTI corresponds to a data-adaptive meta-regularization and further improves the generalization. Empirically, in our experiments on eight datasets from diverse domains including image recognition, pose prediction, molecule property prediction, and medical image classification, we find that the proposed general MLTI framework is compatible with representative meta-learning algorithms and consistently outperforms other state-of-the-art strategies.
翻訳日:2021-06-08 17:57:27 公開日:2021-06-04
# マルチタスク学習における公平なトレードオフの理解と改善

Understanding and Improving Fairness-Accuracy Trade-offs in Multi-Task Learning ( http://arxiv.org/abs/2106.02705v1 )

ライセンス: Link先を確認
Yuyan Wang, Xuezhi Wang, Alex Beutel, Flavien Prost, Jilin Chen, Ed H. Chi(参考訳) マルチタスクモデルが幅広い機械学習アプリケーションで普及するにつれて、実践者がそれらのモデルに関連する公平性を理解することがますます重要になっている。 既存のフェアネス文献のほとんどは、1つのタスクをより正確に学習することに焦点を当てている。 本稿では、マルチタスクシナリオにおいて、MLフェアネスの概念としてのグループフェアネス(例えば、平等機会、等化確率)がどのように機能するかを懸念する。 マルチタスク学習では、より効率的な帰納的伝達のためにタスク相関を利用するために、複数のタスクが共同で学習される。 これは(1)グループフェアネスと各タスクに対する精度の間のトレードオフと、(2)複数のタスク間のトレードオフについて、多次元パレートフロンティアを示す。 我々は,マルチタスク学習におけるグループフェアネスと精度の相互作用についてより深く理解することを目的としており,マルチタスク精度のparetoフロンティアを最適化することに注力する従来のアプローチがフェアネス目標に対してうまく機能しないことを示す。 本稿では,多タスク学習環境において一意に提示される公平性・正確性トレードオフの多次元パレートフロンティアをよりよく捉えるための指標セットを提案する。 さらに,マルチタスク学習における公平性を改善するために,MTA-Fアプローチを提案する。 実世界のデータセットを複数実験した結果,提案手法の有効性が示された。

As multi-task models gain popularity in a wider range of machine learning applications, it is becoming increasingly important for practitioners to understand the fairness implications associated with those models. Most existing fairness literature focuses on learning a single task more fairly, while how ML fairness interacts with multiple tasks in the joint learning setting is largely under-explored. In this paper, we are concerned with how group fairness (e.g., equal opportunity, equalized odds) as an ML fairness concept plays out in the multi-task scenario. In multi-task learning, several tasks are learned jointly to exploit task correlations for a more efficient inductive transfer. This presents a multi-dimensional Pareto frontier on (1) the trade-off between group fairness and accuracy with respect to each task, as well as (2) the trade-offs across multiple tasks. We aim to provide a deeper understanding on how group fairness interacts with accuracy in multi-task learning, and we show that traditional approaches that mainly focus on optimizing the Pareto frontier of multi-task accuracy might not perform well on fairness goals. We propose a new set of metrics to better capture the multi-dimensional Pareto frontier of fairness-accuracy trade-offs uniquely presented in a multi-task learning setting. We further propose a Multi-Task-Aware Fairness (MTA-F) approach to improve fairness in multi-task learning. Experiments on several real-world datasets demonstrate the effectiveness of our proposed approach.
翻訳日:2021-06-08 17:57:07 公開日:2021-06-04
# k-nearest近傍分類を用いた複合材料の点雲障害基準

Point Cloud Failure Criterion for Composites using k-Nearest Neighbor Classification ( http://arxiv.org/abs/2106.02714v1 )

ライセンス: Link先を確認
Subramaniam Rajan, Bilal Khaled, and Loukham Shyamsunder(参考訳) 複合材料に関する様々な商業プログラムにおいて, 故障に関する多くの理論が仮定され, 実装されている。 最良の理論でさえも、検証演習の損傷と失敗を予測することには限界があった。 この背景から、多くの研究者が様々な構造・材料システムのモデリングとシミュレーションの忠実性を改善するためにマルチスケールモデリングの利用を模索している。 本稿では,連続体スケールにおける有限要素解析中に問合せ可能な故障表面データの点クラウドを生成するために,仮想的および実験室的テストプログラムの組み合わせをどのように利用するかを説明するために,マルチスケール・モデリング・スキームを用いた。 k-nearest neighbor (k-nn) という分類概念は、クエリに対する答えを得るために用いられる。 一方向コンポジットを用いた線形、弾性、静的な有限要素の例では、フレームワークを効果的かつ効率的に生成、使用することができ、あらゆるタイプの複合アーキテクチャと振舞いのアプローチを拡張することができる。

Numerous theories of failure have been postulated and implemented in various commercial programs for composite materials. Even the best theories have had limited success in predicting damage and failure in validation exercises. In view of this background, many researchers have started exploring the use of multiscale modeling to improve the fidelity of the modeling and simulation of various structural and materials systems. In this paper, a multi-scale modeling scheme is used to illustrate how a combination of virtual and laboratory testing programs can be used to generate a point cloud of failure surface data that can then be queried during finite element analysis at the continuum scale to ascertain if the onset of failure has occurred. The k-nearest neighbor (k-NN) classification concept is used to obtain the answer to the query. A linear, elastic, static finite element example using a unidirectional composite shows that the framework can be generated and used effectively and efficiently with the possibility to extend the approach for all types of composite architectures and behaviors.
翻訳日:2021-06-08 17:56:42 公開日:2021-06-04
# 敵対的ロバスト性に対するHilbert-Schmidt Information Bottleneckの再検討

Revisiting Hilbert-Schmidt Information Bottleneck for Adversarial Robustness ( http://arxiv.org/abs/2106.02734v1 )

ライセンス: Link先を確認
Zifeng Wang, Tong Jian, Aria Masoomi, Stratis Ioannidis, Jennifer Dy(参考訳) 我々はHSIC(Hilbert-Schmidt independent criterion)ボトルネックを,逆向きに堅牢なディープニューラルネットワーク分類器を学習するための正規化器として検討する。 HSICのボトルネックは理論的・実験的双方の敵攻撃に対する堅牢性を高める。 複数のベンチマークデータセットとアーキテクチャに関する実験により、HSICボトルネック正規化器を組み込むことで、競争力のある自然精度が得られ、トレーニング中の敵の例の有無にかかわらず、敵の堅牢性が向上することが示された。

We investigate the HSIC (Hilbert-Schmidt independence criterion) bottleneck as a regularizer for learning an adversarially robust deep neural network classifier. We show that the HSIC bottleneck enhances robustness to adversarial attacks both theoretically and experimentally. Our experiments on multiple benchmark datasets and architectures demonstrate that incorporating an HSIC bottleneck regularizer attains competitive natural accuracy and improves adversarial robustness, both with and without adversarial examples during training.
翻訳日:2021-06-08 17:56:26 公開日:2021-06-04
# ツープレイヤーゼロサムゲームにおけるマルチエージェントオートキュリキュラの発見

Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games ( http://arxiv.org/abs/2106.02745v1 )

ライセンス: Link先を確認
Xidong Feng, Oliver Slumbers, Yaodong Yang, Ziyu Wan, Bo Liu, Stephen McAleer, Ying Wen, Jun Wang(参考訳) マルチエージェント強化学習(marl:multi-agent reinforcement learning)アルゴリズムは、2人のプレイヤーによるゼロサムゲームを解く際に、エージェントの集団を生成する。 このようなプロセス内では、「誰が競合するか」(すなわち、対戦相手の混じり合い)と「彼らを打ち負かすか」(すなわち、最良の反応を見つけるか)の更新ルールは、架空のプレイやダブルオラクルのような手作業で開発されたゲーム理論原則によって支えられている。 本稿では,人間設計を明示せずに更新ルールの発見を自動化するメタ段階的な下降に基づくLMACフレームワークを提案する。 具体的には、ニューラルネットワークによる相手選択モジュールと最適化サブルーチンによる最善応答モジュールをパラメータ化し、そのパラメータをゲームエンジンとのインタラクションのみを通じて更新する。 驚いたことに、MARLアルゴリズムは人間のデザインなしでも、最先端の人口ベースのゲームソルバ(例えばPSRO)、差別化可能なロット、非推移的なミキチャーゲーム、反復マッチングペニー、クーンポーカーとの競争またはより優れたパフォーマンスを達成する。 さらに,LMAC は,例えば Kuhn Poker のトレーニングや Leduc Poker のPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。 我々の研究は、データのみから一般的なMARLアルゴリズムを発見するための将来的な方向性を刺激する。

When solving two-player zero-sum games, multi-agent reinforcement learning (MARL) algorithms often create populations of agents where, at each iteration, a new agent is discovered as the best response to a mixture over the opponent population. Within such a process, the update rules of "who to compete with" (i.e., the opponent mixture) and "how to beat them" (i.e., finding best responses) are underpinned by manually developed game theoretical principles such as fictitious play and Double Oracle. In this paper we introduce a framework, LMAC, based on meta-gradient descent that automates the discovery of the update rule without explicit human design. Specifically, we parameterise the opponent selection module by neural networks and the best-response module by optimisation subroutines, and update their parameters solely via interaction with the game engine, where both players aim to minimise their exploitability. Surprisingly, even without human design, the discovered MARL algorithms achieve competitive or even better performance with the state-of-the-art population-based game solvers (e.g., PSRO) on Games of Skill, differentiable Lotto, non-transitive Mixture Games, Iterated Matching Pennies, and Kuhn Poker. Additionally, we show that LMAC is able to generalise from small games to large games, for example training on Kuhn Poker and outperforming PSRO on Leduc Poker. Our work inspires a promising future direction to discover general MARL algorithms solely from data.
翻訳日:2021-06-08 17:45:46 公開日:2021-06-04
# 1つか2つのマイクで聴くか? シングルチャンネル・マルチチャンネルオーディオのための統一ASRモデル

Do You Listen with One or Two Microphones? A Unified ASR Model for Single and Multi-Channel Audio ( http://arxiv.org/abs/2106.02750v1 )

ライセンス: Link先を確認
Gokce Keskin, Minhua Wu, Brian King, Harish Mallidi, Yang Gao, \\Jasha Droppo, Ariya Rastrow, Roland Maas(参考訳) 自動音声認識(ASR)モデルは通常、単一の入力データタイプ、例えば、操作するために設計されている。 デバイスからストリーミングされるシングルまたはマルチチャンネルオーディオ。 この設計決定は、 \textit{primary}入力データソースが変更されず、追加の(\textit{auxiliary})データソースが時々利用可能である場合、使用できないと仮定する。 プライマリデータと補助データの両方で動作するASRモデルは、プライマリオンリーのソリューションと比較して精度が良く、また、 \textit{primary-only} (PO) と \textit{primary-plus-auxilia ry} (PPA) モードの両方を機能させることができるモデルは非常に望ましい。 本研究では,両モードに対応可能な統合ASRモデルを提案する。 我々は、デバイスセットが通常1つの一次オーディオチャンネルをストリーミングし、2つの追加の補助チャンネルがアップロード帯域幅を許可する現実的なシナリオでその効果を実証する。 このアーキテクチャは、トレーニング中に両方の入力オーディオを使用するユニークな方法論を可能にする。 提案手法は,poベースラインと比較して最大12.5\%,低snr条件で最大16.0\%の単語誤り率低減(werr)を実現する。 ユニークなトレーニング手法は、PPAベースラインと比較して2.5\%の相対WERRを達成する。

Automatic speech recognition (ASR) models are typically designed to operate on a single input data type, e.g. a single or multi-channel audio streamed from a device. This design decision assumes the \textit{primary} input data source does not change and if an additional (\textit{auxiliary}) data source is occasionally available, it cannot be used. An ASR model that operates on both primary and auxiliary data can achieve better accuracy compared to a primary-only solution; and a model that can serve both \textit{primary-only} (PO) and \textit{primary-plus-auxilia ry} (PPA) modes is highly desirable. In this work, we propose a unified ASR model that can serve both modes. We demonstrate its efficacy in a realistic scenario where a set of devices typically stream a single primary audio channel, and two additional auxiliary channels \textit{only when} upload bandwidth allows it. The architecture enables a unique methodology that uses both types of input audio during training time. Our proposed approach achieves up to 12.5\% relative word-error-rate reduction (WERR) compared to a PO baseline, and up to 16.0\% relative WERR in low-SNR conditions. The unique training methodology achieves up to 2.5\% relative WERR compared to a PPA baseline.
翻訳日:2021-06-08 17:45:16 公開日:2021-06-04
# 持続可能なクラウドソーシング型コンテンツモデレーションのためのストラテジックタスクレコメンデーションの設計

On the Design of Strategic Task Recommendations for Sustainable Crowdsourcing-Based Content Moderation ( http://arxiv.org/abs/2106.02708v1 )

ライセンス: Link先を確認
Sainath Sanga and Venkata Sriram Siddhardh Nadendla(参考訳) クラウドソーシングベースのコンテンツモデレーション(crowdsourcing-based content moderation)は、クラウドワーカーがユーザーの投稿をレビューするためのコンテンツモデレーションタスクをホストするプラットフォームである。 テキスト、画像、ビデオ)と、投稿されたコンテンツの許容性に関する決定と、画像ラベリングや音声からテキストへの変換といった様々なタスク。 作業者の認知的過負荷を減らし、システム効率を向上させるために、これらのプラットフォームは作業者の好みに応じてパーソナライズされたタスク推奨を提供する。 しかし、現状の推奨システムは労働者のメンタルヘルスへの影響を無視しており、特に過度な内容のコンテンツモデレーションタスクに繰り返し晒されている場合(例)。 暴力的イメージ、憎しみ)。 本稿では,労働者の精神状態に基づく求職を推薦するクラウドソーシングプラットフォームのための,新たな戦略的レコメンデーションシステムを提案する。 具体的には,クラウドソーシングプラットフォームの推薦システム(リーダ)と作業者(フォロワー)とのインタラクションを,従者のタイプが作業者の認知萎縮率とタスク嗜好に対応するベイズ・スタックルベルグゲームとしてモデル化する。 本稿では,プラットフォーム生産性を最大化すると同時に,群集作業者の作業条件も改善しながら,望ましい結果に向けてゲームを進めるための報酬とコストの確保について検討する。

Crowdsourcing-based content moderation is a platform that hosts content moderation tasks for crowd workers to review user submissions (e.g. text, images and videos) and make decisions regarding the admissibility of the posted content, along with a gamut of other tasks such as image labeling and speech-to-text conversion. In an attempt to reduce cognitive overload at the workers and improve system efficiency, these platforms offer personalized task recommendations according to the worker's preferences. However, the current state-of-the-art recommendation systems disregard the effects on worker's mental health, especially when they are repeatedly exposed to content moderation tasks with extreme content (e.g. violent images, hate-speech). In this paper, we propose a novel, strategic recommendation system for the crowdsourcing platform that recommends jobs based on worker's mental status. Specifically, this paper models interaction between the crowdsourcing platform's recommendation system (leader) and the worker (follower) as a Bayesian Stackelberg game where the type of the follower corresponds to the worker's cognitive atrophy rate and task preferences. We discuss how rewards and costs should be designed to steer the game towards desired outcomes in terms of maximizing the platform's productivity, while simultaneously improving the working conditions of crowd workers.
翻訳日:2021-06-08 17:40:32 公開日:2021-06-04
# 排他的軌道配置を持つ衛星コンステレーションにおけるスケジューリング観測のためのオークションベースおよび分散最適化手法

Auction-based and Distributed Optimization Approaches for Scheduling Observations in Satellite Constellations with Exclusive Orbit Portions ( http://arxiv.org/abs/2106.03548v1 )

ライセンス: Link先を確認
Gauthier Picard(参考訳) 本研究では,複数ユーザと衛星を用いた地球観測シナリオに関する問題に対するマルチエージェント割当手法の利用について検討する。 我々は、予約された専用軌道部分を持つユーザと、いくつかのリクエストを持つ1つの中央プランナーを連携させる問題に焦点を当てる。 我々は、この問題を地球観測衛星群スケジューリング問題(eoscsp)と定義し、混合整数線形プログラムにマップする。 EOSCSPを解決するために,分散制約最適化(DCOP)に基づく市場ベース手法と分散問題解決手法を提案する。 これらのコントリビューションは、実大規模または非常に矛盾する観測順序書に基づいて、ランダムに生成されたEOSCSPインスタンス上で実験的に評価される。

We investigate the use of multi-agent allocation techniques on problems related to Earth observation scenarios with multiple users and satellites. We focus on the problem of coordinating users having reserved exclusive orbit portions and one central planner having several requests that may use some intervals of these exclusives. We define this problem as Earth Observation Satellite Constellation Scheduling Problem (EOSCSP) and map it to a Mixed Integer Linear Program. As to solve EOSCSP, we propose market-based techniques and a distributed problem solving technique based on Distributed Constraint Optimization (DCOP), where agents cooperate to allocate requests without sharing their own schedules. These contributions are experimentally evaluated on randomly generated EOSCSP instances based on real large-scale or highly conflicting observation order books.
翻訳日:2021-06-08 17:39:35 公開日:2021-06-04
# より最適な確率最適化アルゴリズム:ミニバッチと補間学習

An Even More Optimal Stochastic Optimization Algorithm: Minibatching and Interpolation Learning ( http://arxiv.org/abs/2106.02720v1 )

ライセンス: Link先を確認
Blake Woodworth, Nathan Srebro(参考訳) 我々は,ミニバッチ確率勾配推定を用いて,滑らかで凸あるいは凸の強い目的を最適化するアルゴリズムを提案し,解析する。 このアルゴリズムはミニバッチサイズと最小損失の両方に同時に依存することが最適である。 これは、最小の期待損失に敏感な lan (2012) の最適方法よりも改善され、cotter などの楽観的加速よりも改善される。 (2011) はミニバッチサイズに準最適依存を持ち、リウとベルキンのアルゴリズム(2018年)は最小二乗問題に制限され、ミニバッチサイズに関しても同様に準最適である。 補間学習に適用すれば、Cotterなどよりも改善される。 そしてliuとbelkinは、二乗根ではなく線形の並列化スピードアップに翻訳する。

We present and analyze an algorithm for optimizing smooth and convex or strongly convex objectives using minibatch stochastic gradient estimates. The algorithm is optimal with respect to its dependence on both the minibatch size and minimum expected loss simultaneously. This improves over the optimal method of Lan (2012), which is insensitive to the minimum expected loss; over the optimistic acceleration of Cotter et al. (2011), which has suboptimal dependence on the minibatch size; and over the algorithm of Liu and Belkin (2018), which is limited to least squares problems and is also similarly suboptimal with respect to the minibatch size. Applied to interpolation learning, the improvement over Cotter et al. and Liu and Belkin translates to a linear, rather than square-root, parallelization speedup.
翻訳日:2021-06-08 17:38:05 公開日:2021-06-04
# BO-DBA:ベイズ最適化によるクエリ効率の良い決定に基づく逆攻撃

BO-DBA: Query-Efficient Decision-Based Adversarial Attacks via Bayesian Optimization ( http://arxiv.org/abs/2106.02732v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Shucheng Yu(参考訳) 意思決定に基づく攻撃(decision-based attack, dba)は、攻撃者が出力ラベルのみを観察してspoof学習アルゴリズムへの入力を摂動させる攻撃であり、攻撃者の最小限の知識を必要とするディープニューラルネットワーク(dnn)に対する厳しい敵対攻撃の一種である。 ゼロ階勾配推定に依存する最先端のDBA攻撃には、過剰なクエリ数が必要となる。 近年、ベイズ最適化 (BO) は、攻撃者が実際の確率スコアを出力として観測する必要があるスコアベース攻撃 (SBA) におけるクエリ数を減らすことを約束している。 しかし、BO を DBA の設定に拡張するのは簡単ではない。 本稿では,効率的なDBA攻撃,BO-DBAを提案することにより,このギャップを埋める。 既存のアプローチと異なり、BO-DBAは、いわゆる摂動のemph{directions of perturbations}を探索することによって、逆例を生成する。 その後、問題は摂動の実数値歪を最小化するbo問題として定式化される。 最適化された摂動生成プロセスでは、BO-DBAは最先端のDBA技術よりもはるかに早く収束する。 事前訓練されたイメージネット分類器の実験結果から,BO-DBAは200のクエリに収束するが,最先端のDBA技術では15,000以上のクエリを必要とする。 BO-DBAはBOベースのSBA攻撃と比較しても同様の攻撃成功率を示すが、歪みは少ない。

Decision-based attacks (DBA), wherein attackers perturb inputs to spoof learning algorithms by observing solely the output labels, are a type of severe adversarial attacks against Deep Neural Networks (DNNs) requiring minimal knowledge of attackers. State-of-the-art DBA attacks relying on zeroth-order gradient estimation require an excessive number of queries. Recently, Bayesian optimization (BO) has shown promising in reducing the number of queries in score-based attacks (SBA), in which attackers need to observe real-valued probability scores as outputs. However, extending BO to the setting of DBA is nontrivial because in DBA only output labels instead of real-valued scores, as needed by BO, are available to attackers. In this paper, we close this gap by proposing an efficient DBA attack, namely BO-DBA. Different from existing approaches, BO-DBA generates adversarial examples by searching so-called \emph{directions of perturbations}. It then formulates the problem as a BO problem that minimizes the real-valued distortion of perturbations. With the optimized perturbation generation process, BO-DBA converges much faster than the state-of-the-art DBA techniques. Experimental results on pre-trained ImageNet classifiers show that BO-DBA converges within 200 queries while the state-of-the-art DBA techniques need over 15,000 queries to achieve the same level of perturbation distortion. BO-DBA also shows similar attack success rates even as compared to BO-based SBA attacks but with less distortion.
翻訳日:2021-06-08 17:37:52 公開日:2021-06-04
# キーワードスポッティングのためのエンコーダ・デコーダニューラルアーキテクチャ最適化

Encoder-Decoder Neural Architecture Optimization for Keyword Spotting ( http://arxiv.org/abs/2106.02738v1 )

ライセンス: Link先を確認
Tong Mo, Bang Liu(参考訳) キーワードスポッティングは特定のキーワードの音声発話を特定することを目的としている。 近年、深い畳み込みニューラルネットワークはキーワードスポッティングシステムで広く利用されている。 しかしながら、彼らのモデルアーキテクチャは主にタスク用に特別に設計されたのではなく、VGG-NetやResNetのようなシェルフバックボーンに基づいている。 本稿では,ニューラルネットワーク探索を用いて,許容可能なメモリフットプリントを維持しつつキーワードスポッティングの性能を向上させる畳み込みニューラルネットワークモデルの設計を行う。 具体的には、Encoder-Decoderニューラルアーキテクチャ最適化を用いて、モデル演算子とその接続を特定の検索空間で探索する。 googleの音声コマンドデータセットの広範な評価は、このアプローチで検索されたモデルアーキテクチャが、最先端の精度を97%以上達成していることを示している。

Keyword spotting aims to identify specific keyword audio utterances. In recent years, deep convolutional neural networks have been widely utilized in keyword spotting systems. However, their model architectures are mainly based on off-the shelfbackbones such as VGG-Net or ResNet, instead of specially designed for the task. In this paper, we utilize neural architecture search to design convolutional neural network models that can boost the performance of keyword spotting while maintaining an acceptable memory footprint. Specifically, we search the model operators and their connections in a specific search space with Encoder-Decoder neural architecture optimization. Extensive evaluations on Google's Speech Commands Dataset show that the model architecture searched by our approach achieves a state-of-the-art accuracy of over 97%.
翻訳日:2021-06-08 17:37:24 公開日:2021-06-04
# 機械学習における分類問題に対する新しいマルチスケール損失関数

A novel multi-scale loss function for classification problems in machine learning ( http://arxiv.org/abs/2106.02676v1 )

ライセンス: Link先を確認
Leonid Berlyand, Robert Creese, Pierre-Emmanuel Jabin(参考訳) 本稿では,ディープニューラルネットワークを用いた分類問題に適用した様々な勾配降下アルゴリズムにおける2次元損失関数を提案する。 この新しい手法は、ディープニューラルネットワークからベクトルマシンのサポートに至るまで、幅広い機械学習アーキテクチャに適用できるという意味で一般的である。 これらの2スケールの損失関数は、十分に分類されていないトレーニングセット内のオブジェクトにトレーニングを集中させることができる。 これにより、MNIST、CIFAR10、CIFAR100データセット上の従来のディープニューラルネットワークでのテストにおいて、より古典的なクロスエントロピーに対して適切に定義された2スケールの損失関数のパフォーマンスが向上する。

We introduce two-scale loss functions for use in various gradient descent algorithms applied to classification problems via deep neural networks. This new method is generic in the sense that it can be applied to a wide range of machine learning architectures, from deep neural networks to support vector machines for example. These two-scale loss functions allow to focus the training onto objects in the training set which are not well classified. This leads to an increase in several measures of performance for appropriately-define d two-scale loss functions with respect to the more classical cross-entropy when tested on traditional deep neural networks on the MNIST, CIFAR10, and CIFAR100 data-sets.
翻訳日:2021-06-08 17:26:40 公開日:2021-06-04
# ゼロサムマルコフゲームにおける分散q-learning

Decentralized Q-Learning in Zero-sum Markov Games ( http://arxiv.org/abs/2106.02748v1 )

ライセンス: Link先を確認
Muhammed O. Sayin, Kaiqing Zhang, David S. Leslie, Tamer Basar, Asuman Ozdaglar(参考訳) 無限水平割引ゼロサムマルコフゲームにおけるマルチエージェント強化学習(MARL)について検討した。 我々は,集中型コントローラによる調整なしにエージェントが決定を行うが,自己の支払いと局所的な行動のみに基づいて決定を行う分散型marlの実用的かつ挑戦的な設定に焦点を当てる。 エージェントは、相手の行動や報酬を観察する必要はなく、おそらくは相手の存在を無視するものであり、また、基礎となるゲームのゼロサム構造を意識する必要はない。 本稿では, 学習のダイナミクスが, 相手が漸近的に定常的な戦略に従うと, 相手の戦略に最適な反応に収束する, 値関数推定値がnash平衡値に収束する, 合理的かつ収束的な, 急進的に無結合なq-ラーニングダイナミクスを初めて開発する。 この分散環境での鍵となる課題は、エージェントの観点から学習環境の非定常性である。なぜなら、彼女自身の支払いとシステムの進化は、他のエージェントの行動に依存し、各エージェントはそれぞれのポリシーを同時に、独立して適応するからである。 この問題に対処するため,各エージェントがローカルQ-関数と値関数を同時に更新し,後者がより遅い時間スケールで実行される2時間学習ダイナミクスを開発した。

We study multi-agent reinforcement learning (MARL) in infinite-horizon discounted zero-sum Markov games. We focus on the practical but challenging setting of decentralized MARL, where agents make decisions without coordination by a centralized controller, but only based on their own payoffs and local actions executed. The agents need not observe the opponent's actions or payoffs, possibly being even oblivious to the presence of the opponent, nor be aware of the zero-sum structure of the underlying game, a setting also referred to as radically uncoupled in the literature of learning in games. In this paper, we develop for the first time a radically uncoupled Q-learning dynamics that is both rational and convergent: the learning dynamics converges to the best response to the opponent's strategy when the opponent follows an asymptotically stationary strategy; the value function estimates converge to the payoffs at a Nash equilibrium when both agents adopt the dynamics. The key challenge in this decentralized setting is the non-stationarity of the learning environment from an agent's perspective, since both her own payoffs and the system evolution depend on the actions of other agents, and each agent adapts their policies simultaneously and independently. To address this issue, we develop a two-timescale learning dynamics where each agent updates her local Q-function and value function estimates concurrently, with the latter happening at a slower timescale.
翻訳日:2021-06-08 17:26:29 公開日:2021-06-04
# 代数多様体上のカーネル近似

Kernel approximation on algebraic varieties ( http://arxiv.org/abs/2106.02755v1 )

ライセンス: Link先を確認
Jason M. Altschuler and Pablo A. Parrilo(参考訳) カーネルの低ランク近似はアルゴリズム応用における基本的な数学的問題である。 しばしばカーネルは代数多様体(例えば、スパースデータやローランクデータを含む問題)に制限される。 与えられた誤差を達成するのに必要なランクは、通常より大きい周囲の次元ではなく、多様体の次元に依存する。 これは、高精度と高次元のレギュレーションの両方において当てはまる。 本研究は,アプリケーションで使用される主要なカーネル群である滑らかな等方性カーネルについて述べる。 我々の主要な技術的洞察は、多項式カーネルによって滑らかなカーネルを近似し、それらに制限されたときに保持される多項式カーネルの2つのキー特性を活用することである。 まず、それらのランクは品種の共次元において指数関数的に減少する。 第二に、それらの最大値は小さな点からなる値によって支配される。 その結果,大規模データサイエンスの問題を効率的に解決するために,データセットの「代数的構造」を活用(近似)するための一般的なアプローチが得られた。

Low-rank approximation of kernels is a fundamental mathematical problem with widespread algorithmic applications. Often the kernel is restricted to an algebraic variety, e.g., in problems involving sparse or low-rank data. We show that significantly better approximations are obtainable in this setting: the rank required to achieve a given error depends on the variety's dimension rather than the ambient dimension, which is typically much larger. This is true in both high-precision and high-dimensional regimes. Our results are presented for smooth isotropic kernels, the predominant class of kernels used in applications. Our main technical insight is to approximate smooth kernels by polynomial kernels, and leverage two key properties of polynomial kernels that hold when they are restricted to a variety. First, their ranks decrease exponentially in the variety's co-dimension. Second, their maximum values are governed by their values over a small set of points. Together, our results provide a general approach for exploiting (approximate) "algebraic structure" in datasets in order to efficiently solve large-scale data science problems.
翻訳日:2021-06-08 17:26:08 公開日:2021-06-04
# (参考訳) Adam in Private: 適応モーメント推定によるディープニューラルネットワークの安全性と高速トレーニング [全文訳有]

Adam in Private: Secure and Fast Training of Deep Neural Networks with Adaptive Moment Estimation ( http://arxiv.org/abs/2106.02203v1 )

ライセンス: CC BY 4.0
Nuttapong Attrapadung and Koki Hamada and Dai Ikarashi and Ryo Kikuchi and Takahiro Matsuda and Ibuki Mishina and Hiraku Morita and Jacob C. N. Schuldt(参考訳) プライバシ保護機械学習(PPML)は、機密データに機械学習(ML)アルゴリズムを使用可能にすることを目的としている。 我々は,セキュアなマルチパーティ計算(mpc)による最先端mlアルゴリズムの効率的かつセキュアな評価を可能にするフレームワークを提案することで,この研究に寄与する。 これは、MLアルゴリズムを「MPCフレンドリ」な変種に置き換える以前のほとんどの作業とは対照的である。 後者のアプローチの欠点は、mlとmpcを組み合わせたアルゴリズムの微調整が必要であり、効率の悪いアルゴリズムや品質の悪いmlにつながる可能性があることである。 これは、特に安全なディープニューラルネットワーク(DNN)トレーニングの問題であり、これは「MPC非フレンドリ」であると考えられる算術アルゴリズム、すなわち整数除算、指数化、反転、平方根を含む。 そこで本研究では,MPC非親和性計算のためのセキュアかつ効率的なプロトコルを提案する。 私たちのプロトコルは、正直な多数派設定でサードパーティ製プロトコルであり、パッシブにセキュアで、abort変種でアクティブにセキュアです。 我々のプロトコルの特長は、高い精度と効率を同時に提供することである。 このフレームワークは,近似に頼らずに,Adam や Softmax 関数 "as is" などの最新のMLアルゴリズムを効率よく,かつ安全に計算することを可能にする。 その結果、現在最先端のサードパーティシステムより優れたセキュアなDNNトレーニングが得られ、我々のフルトレーニングは、標準ベンチマークネットワーク上で最近提案されたFALCON@PETS'21のオンラインフェーズの6.7倍高速になります。 さらに,実世界のDNN,AlexNet,VGG16の測定を行う。 我々のフレームワークのパフォーマンスは、falconと比較して、alexnetの約12~14倍、vgg16の46~48倍の速さで、それぞれ70%と75%の精度を実現しています。

Privacy-preserving machine learning (PPML) aims at enabling machine learning (ML) algorithms to be used on sensitive data. We contribute to this line of research by proposing a framework that allows efficient and secure evaluation of full-fledged state-of-the-art ML algorithms via secure multi-party computation (MPC). This is in contrast to most prior works, which substitute ML algorithms with approximated "MPC-friendly" variants. A drawback of the latter approach is that fine-tuning of the combined ML and MPC algorithms is required, which might lead to less efficient algorithms or inferior quality ML. This is an issue for secure deep neural networks (DNN) training in particular, as this involves arithmetic algorithms thought to be "MPC-unfriendly", namely, integer division, exponentiation, inversion, and square root. In this work, we propose secure and efficient protocols for the above seemingly MPC-unfriendly computations. Our protocols are three-party protocols in the honest-majority setting, and we propose both passively secure and actively secure with abort variants. A notable feature of our protocols is that they simultaneously provide high accuracy and efficiency. This framework enables us to efficiently and securely compute modern ML algorithms such as Adam and the softmax function "as is", without resorting to approximations. As a result, we obtain secure DNN training that outperforms state-of-the-art three-party systems; our full training is up to 6.7 times faster than just the online phase of the recently proposed FALCON@PETS'21 on a standard benchmark network. We further perform measurements on real-world DNNs, AlexNet and VGG16. The performance of our framework is up to a factor of about 12-14 faster for AlexNet and 46-48 faster for VGG16 to achieve an accuracy of 70% and 75%, respectively, when compared to FALCON.
翻訳日:2021-06-08 10:38:55 公開日:2021-06-04
# (参考訳) ゲームにおけるノベルティの検出と適応 [全文訳有]

Detecting and Adapting to Novelty in Games ( http://arxiv.org/abs/2106.02204v1 )

ライセンス: CC BY 4.0
Xiangyu Peng, Jonathan C. Balloch, Mark O. Riedl(参考訳) オープンワールドのノベルティは、ゲームプレーヤーが「ハウスルール」に遭遇した場合など、環境のルールが突然変化する場合に発生する。 オープンワールドのノベルティに対処するために、ゲームプレイエージェントはノベルティが注入されたときに検出でき、新しいルールに迅速に適応する必要がある。 ゲームの状態とルールを知識グラフとして表現するモデルベース強化学習手法を提案する。 状態とルールの知識グラフ表現により、知識グラフの変化として新規性を検出でき、深層強化学習者のトレーニングを支援し、エージェントが知識グラフを使用してルックアヘッドを行う想像力に基づく再学習を可能にする。

Open-world novelty occurs when the rules of an environment can change abruptly, such as when a game player encounters "house rules". To address open-world novelty, game playing agents must be able to detect when novelty is injected, and to quickly adapt to the new rules. We propose a model-based reinforcement learning approach where game state and rules are represented as knowledge graphs. The knowledge graph representation of the state and rules allows novelty to be detected as changes in the knowledge graph, assists with the training of deep reinforcement learners, and enables imagination-based re-training where the agent uses the knowledge graph to perform look-ahead.
翻訳日:2021-06-08 07:55:33 公開日:2021-06-04
# (参考訳) 行列積演算子に基づく事前学習言語モデル圧縮のための軽量微調整法 [全文訳有]

Enabling Lightweight Fine-tuning for Pre-trained Language Model Compression based on Matrix Product Operators ( http://arxiv.org/abs/2106.02205v1 )

ライセンス: CC0 1.0
Peiyu Liu, Ze-Feng Gao, Wayne Xin Zhao, Z.Y. Xie, Zhong-Yi Lu, Ji-Rong Wen(参考訳) 本稿では,量子多体物理学の行列積演算子(MPO)に基づく,新しい事前学習言語モデル(PLM)圧縮手法を提案する。 元の行列を中心テンソル(コア情報を含む)と補助テンソル(パラメータのごく一部しか持たない)に分解することができる。 分解されたMPO構造を用いて、補助テンソルからのパラメータのみを更新し、スタック化されたネットワークアーキテクチャ上でのMPOに基づく近似のための最適化アルゴリズムを設計する。 提案手法は, より軽量なネットワークを導出し, 微調整を行うパラメータを大幅に削減する, 汎用的な手法でオリジナルのPLMや圧縮PLMに適用することができる。 モデル圧縮における提案手法の有効性,特に微調整パラメータの低減(平均91%の削減)について実験を行った。

This paper presents a novel pre-trained language models (PLM) compression approach based on the matrix product operator (short as MPO) from quantum many-body physics. It can decompose an original matrix into central tensors (containing the core information) and auxiliary tensors (with only a small proportion of parameters). With the decomposed MPO structure, we propose a novel fine-tuning strategy by only updating the parameters from the auxiliary tensors, and design an optimization algorithm for MPO-based approximation over stacked network architectures. Our approach can be applied to the original or the compressed PLMs in a general way, which derives a lighter network and significantly reduces the parameters to be fine-tuned. Extensive experiments have demonstrated the effectiveness of the proposed approach in model compression, especially the reduction in finetuning parameters (91% reduction on average).
翻訳日:2021-06-08 07:40:22 公開日:2021-06-04
# (参考訳) 確率的反復グラフマッチング [全文訳有]

Stochastic Iterative Graph Matching ( http://arxiv.org/abs/2106.02206v1 )

ライセンス: CC BY 4.0
Linfeng Liu, Michael C. Hughes, Soha Hassoun, Li-Ping Liu(参考訳) グラフニューラルネットワークを利用してグラフマッチングタスクにアプローチする最近の研究は、有望な結果を示している。 離散分布学習の最近の進歩は、グラフマッチングモデルを学ぶ新しい機会をもたらす。 本研究では,グラフマッチング問題に対処するための新しいモデル,確率的反復グラフマッチング(sigma)を提案する。 我々のモデルはグラフ対のマッチングの分布を定義し、モデルが様々な可能なマッチングを探索できるようにする。 さらに,グラフペアのマッチング結果を段階的に洗練する方法を学習する,新しい多段階マッチング手順を提案する。 このモデルにはダミーノードも含まれており、モデルが対応せずにノードのマッチングを見つける必要がない。 このモデルをスケーラブルな確率最適化によってデータに適合させる。 我々は、合成グラフデータセットおよび生化学およびコンピュータビジョン応用に関する広範囲な実験を行う。 全てのタスクにおいて、SIGMAは最先端モデルと比較してグラフマッチング結果を大幅に改善できることを示す。 アブレーション研究により,各成分(stochastic training, iterative matching, dummy node)が著しく改善することを確認した。

Recent works leveraging Graph Neural Networks to approach graph matching tasks have shown promising results. Recent progress in learning discrete distributions poses new opportunities for learning graph matching models. In this work, we propose a new model, Stochastic Iterative Graph MAtching (SIGMA), to address the graph matching problem. Our model defines a distribution of matchings for a graph pair so the model can explore a wide range of possible matchings. We further introduce a novel multi-step matching procedure, which learns how to refine a graph pair's matching results incrementally. The model also includes dummy nodes so that the model does not have to find matchings for nodes without correspondence. We fit this model to data via scalable stochastic optimization. We conduct extensive experiments across synthetic graph datasets as well as biochemistry and computer vision applications. Across all tasks, our results show that SIGMA can produce significantly improved graph matching results compared to state-of-the-art models. Ablation studies verify that each of our components (stochastic training, iterative matching, and dummy nodes) offers noticeable improvement.
翻訳日:2021-06-08 07:24:42 公開日:2021-06-04
# (参考訳) NMFアルゴリズムのロバスト性の解析 [全文訳有]

Analysis of the robustness of NMF algorithms ( http://arxiv.org/abs/2106.02213v1 )

ライセンス: CC BY 4.0
Alex D\'iaz, Damian Steele(参考訳) l2-norm,l1-norm,l2,1 -normの3つの非負行列分解法を検討した。 我々の目的は、これらの異なるアプローチの性能を確立し、計算複雑性やノイズへの敏感さなどを管理しながら、機能選択のような現実世界のアプリケーションにおける堅牢性を確立することである。 理論的観点から各アプローチを徹底的に検討し,ORLデータセットとYaleBデータセットを併用した一連の実験により,それぞれの性能について検討する。 本稿では,RRE(Relative Reconstruction Errors),平均精度,正規化相互情報(Nocalized Mutual Information,NMI)を,様々な騒音シナリオの基準として検討する。

We examine three non-negative matrix factorization techniques; L2-norm, L1-norm, and L2,1-norm. Our aim is to establish the performance of these different approaches, and their robustness in real-world applications such as feature selection while managing computational complexity, sensitivity to noise and more. We thoroughly examine each approach from a theoretical perspective, and examine the performance of each using a series of experiments drawing on both the ORL and YaleB datasets. We examine the Relative Reconstruction Errors (RRE), Average Accuracy and Normalized Mutual Information (NMI) as criteria under a range of simulated noise scenarios.
翻訳日:2021-06-08 07:08:03 公開日:2021-06-04
# (参考訳) 確率線形学習におけるゆらぎ散逸型定理 [全文訳有]

Fluctuation-dissipat ion Type Theorem in Stochastic Linear Learning ( http://arxiv.org/abs/2106.02220v1 )

ライセンス: CC0 1.0
Manhyung Han, Jeonghyeok Park, Taewoong Lee, Jung Hoon Han(参考訳) ゆらぎ散逸定理(英: fluctuation-dissipat ion theorem, fdt)は、散逸力と確率力を同時に支配する一階微分方程式の単純かつ強力な結果である。 入力ベクトルが学習対象である線形行列によって出力ベクトルに写像される線形学習ダイナミクスは、フルバッチ勾配降下スキームを確率勾配降下に置き換えた場合にランジュバンダイナミクスと密接に類似した確率バージョンを有する。 MNIST, CIFAR-10, EMNISTなどの機械学習データセットにおいて, 確率線形学習力学の一般化FDTを導出し, その妥当性を検証した。

The fluctuation-dissipat ion theorem (FDT) is a simple yet powerful consequence of the first-order differential equation governing the dynamics of systems subject simultaneously to dissipative and stochastic forces. The linear learning dynamics, in which the input vector maps to the output vector by a linear matrix whose elements are the subject of learning, has a stochastic version closely mimicking the Langevin dynamics when a full-batch gradient descent scheme is replaced by that of stochastic gradient descent. We derive a generalized FDT for the stochastic linear learning dynamics and verify its validity among the well-known machine learning data sets such as MNIST, CIFAR-10 and EMNIST.
翻訳日:2021-06-08 06:56:57 公開日:2021-06-04
# (参考訳) 多属性予測のための材料表現と伝達学習 [全文訳有]

Materials Representation and Transfer Learning for Multi-Property Prediction ( http://arxiv.org/abs/2106.02225v1 )

ライセンス: CC BY 4.0
Shufeng Kong, Dan Guevarra, Carla P. Gomes, John M. Gregoire(参考訳) 材料科学における機械学習の採用は急速に材料特性予測に変化をもたらした。 機械学習における最近の進歩の完全な資本化を制限するハードルは、新しい合成空間における特性予測を促進するために、複数の要素の基本的な相互作用を学ぶ方法の限定的な開発を含む。 これらの課題に対処するために、材料組成のみを用いて(i)予測をシームレスに統合する階層的相関学習(H-CLMP)フレームワークを導入し、(ii)多目的回帰における対象特性間の相関関係の学習と活用、(iii)生成的伝達学習による接尾辞領域からのトレーニングデータを活用する。 このモデルは69個の3カチオン金属酸化物組成空間にまたがる複素金属酸化物の分光吸収を予測できる。 H-CLMPは、トレーニングデータがない合成空間における非線形合成-プロパティ関係を正確に予測し、機械学習のパービューを、例外的な特性を持つ材料発見まで広げる。 この成果は、潜在埋め込み学習、特性相関学習、生成的転送学習、注意モデルの原則的統合から生じる。 H-CLMPとTransfer Learning(H-CLMP(T))を用いて最適性能を得る。これは、生成的対向ネットワークが状態データの計算密度に基づいて訓練され、対象領域に展開され、合成からの光吸収の予測が増大する。 H-CLMP(T)は、物理科学の多目的回帰に適したフレームワークで複数の知識ソースを集約する。

The adoption of machine learning in materials science has rapidly transformed materials property prediction. Hurdles limiting full capitalization of recent advancements in machine learning include the limited development of methods to learn the underlying interactions of multiple elements, as well as the relationships among multiple properties, to facilitate property prediction in new composition spaces. To address these issues, we introduce the Hierarchical Correlation Learning for Multi-property Prediction (H-CLMP) framework that seamlessly integrates (i) prediction using only a material's composition, (ii) learning and exploitation of correlations among target properties in multi-target regression, and (iii) leveraging training data from tangential domains via generative transfer learning. The model is demonstrated for prediction of spectral optical absorption of complex metal oxides spanning 69 3-cation metal oxide composition spaces. H-CLMP accurately predicts non-linear composition-property relationships in composition spaces for which no training data is available, which broadens the purview of machine learning to the discovery of materials with exceptional properties. This achievement results from the principled integration of latent embedding learning, property correlation learning, generative transfer learning, and attention models. The best performance is obtained using H-CLMP with Transfer learning (H-CLMP(T)) wherein a generative adversarial network is trained on computational density of states data and deployed in the target domain to augment prediction of optical absorption from composition. H-CLMP(T) aggregates multiple knowledge sources with a framework that is well-suited for multi-target regression across the physical sciences.
翻訳日:2021-06-08 06:44:59 公開日:2021-06-04
# (参考訳) ユニバーサルSuggested Repliesモデルのための言語スケーリング [全文訳有]

Language Scaling for Universal Suggested Replies Model ( http://arxiv.org/abs/2106.02232v1 )

ライセンス: CC BY 4.0
Qianlan Ying, Payal Bajaj, Budhaditya Deb, Yu Yang, Wei Wang, Bojia Lin, Milad Shokouhi, Xia Song, Yang Yang, and Daxin Jiang(参考訳) 本論文では,Outlook メールシステムに対する自動応答を複数の言語に拡張する問題を考察する。 計算要求の増大と言語拡張のための低リソースに直面して,本システムの品質向上とランタイムコストの削減を目的とした,単一のユニバーサルモデルを構築した。 しかし、地域中心での制限されたデータ移動は、言語間の共同トレーニングを妨げている。 そこで本研究では,地域間の共通言語表現を学習するための補助タスクと言語アダプタを備えたマルチタスク連続学習フレームワークを提案する。 実験の結果,言語間での言語間移動は肯定的であり,地域間での破滅的な忘れ込みを減らした。 実際のユーザトラフィックに関するオンライン調査では,CTRや文字の保存が大幅に増加し,言語ごとのトレーニングコストが65%削減された。 その結果、低リソース市場を含む複数の言語で機能を拡大しました。

We consider the problem of scaling automated suggested replies for Outlook email system to multiple languages. Faced with increased compute requirements and low resources for language expansion, we build a single universal model for improving the quality and reducing run-time costs of our production system. However, restricted data movement across regional centers prevents joint training across languages. To this end, we propose a multi-task continual learning framework, with auxiliary tasks and language adapters to learn universal language representation across regions. The experimental results show positive cross-lingual transfer across languages while reducing catastrophic forgetting across regions. Our online results on real user traffic show significant gains in CTR and characters saved, as well as 65% training cost reduction compared with per-language models. As a consequence, we have scaled the feature in multiple languages including low-resource markets.
翻訳日:2021-06-08 05:59:45 公開日:2021-06-04
# (参考訳) 非観測変数存在下での因果付加モデルの発見 [全文訳有]

Discovery of Causal Additive Models in the Presence of Unobserved Variables ( http://arxiv.org/abs/2106.02234v1 )

ライセンス: CC BY 4.0
Takashi Nicholas Maeda, Shohei Shimizu(参考訳) 観測されていない変数の影響を受けるデータからの因果的発見は、解決が難しい問題である。 観測変数間の関係に対する観測変数の影響は、線形の場合よりも非線形の場合の方が複雑である。 本研究では,非観測変数の存在下での因果加法モデルに着目した。 因果加法モデルは、変数や誤差項に付加的な構造方程式を示す。 我々は、観測されていない共通原因だけでなく、観測されていない中間変数の存在も考慮する。 理論的には, 因果関係が非線形であり, 観測変数が存在しない場合, 観測変数間の因果関係を回帰テストや独立テストで同定することは不可能である。 しかし, この理論結果から, 誤った推論を回避できることが示唆された。 本研究では,非観測変数に偏らずに理論的に識別可能な因果関係をすべて同定する手法を提案する。 人工データと機能的磁気共鳴イメージング(fmri)データを用いた実験結果から,本手法は観測されていない変数の存在下での因果構造を効果的に推定する。

Causal discovery from data affected by unobserved variables is an important but difficult problem to solve. The effects that unobserved variables have on the relationships between observed variables are more complex in nonlinear cases than in linear cases. In this study, we focus on causal additive models in the presence of unobserved variables. Causal additive models exhibit structural equations that are additive in the variables and error terms. We take into account the presence of not only unobserved common causes but also unobserved intermediate variables. Our theoretical results show that, when the causal relationships are nonlinear and there are unobserved variables, it is not possible to identify all the causal relationships between observed variables through regression and independence tests. However, our theoretical results also show that it is possible to avoid incorrect inferences. We propose a method to identify all the causal relationships that are theoretically possible to identify without being biased by unobserved variables. The empirical results using artificial data and simulated functional magnetic resonance imaging (fMRI) data show that our method effectively infers causal structures in the presence of unobserved variables.
翻訳日:2021-06-08 05:48:21 公開日:2021-06-04
# (参考訳) タンパク質ネットワークの深層学習 [全文訳有]

Deep Contextual Learners for Protein Networks ( http://arxiv.org/abs/2106.02246v1 )

ライセンス: CC BY 4.0
Michelle M. Li, Marinka Zitnik(参考訳) 空間的文脈は健康と病気の理解の中心である。 しかし、参照タンパク質相互作用ネットワークはそのような文脈化を欠いているため、タンパク質相互作用が人体でどこで起こるかの研究が制限される。 コンテクスト化タンパク質相互作用は、疾患特異的な相互作用を持つ遺伝子を同定し、特定の細胞型における疾患の出現を解明する。 本稿では,タンパク質の埋め込みに細胞および組織コンテキストを注入するグラフニューラルメッセージパッシングアプローチであるAWAREを紹介する。 awareは、セルタイプ特定ネットワークのトポロジーを反映した構造を持つマルチスケール埋め込み空間を最適化する。 我々は、ヒト細胞アトラスのマルチスケールネットワークを構築し、認識して、細胞タイプと組織階層を保持するタンパク質、細胞タイプ、および組織埋め込みを学習する。 AWAREは、遺伝子が疾患に関連付けられているか、そして人体に最も現れるかを予測する新しいタスクについて実証する。 aware embeddedsは、グローバル埋め込みを少なくとも12.5%上回り、タンパク質ネットワークにおける文脈学習者の重要性を強調している。

Spatial context is central to understanding health and disease. Yet reference protein interaction networks lack such contextualization, thereby limiting the study of where protein interactions likely occur in the human body. Contextualized protein interactions could better characterize genes with disease-specific interactions and elucidate diseases' manifestation in specific cell types. Here, we introduce AWARE, a graph neural message passing approach to inject cellular and tissue context into protein embeddings. AWARE optimizes for a multi-scale embedding space, whose structure reflects the topology of cell type specific networks. We construct a multi-scale network of the Human Cell Atlas and apply AWARE to learn protein, cell type, and tissue embeddings that uphold cell type and tissue hierarchies. We demonstrate AWARE on the novel task of predicting whether a gene is associated with a disease and where it most likely manifests in the human body. AWARE embeddings outperform global embeddings by at least 12.5%, highlighting the importance of contextual learners for protein networks.
翻訳日:2021-06-08 05:27:33 公開日:2021-06-04
# (参考訳) ソーシャルメディアの背景を利用して冷間開始勧告の深部モデルを改善する [全文訳有]

Using Social Media Background to Improve Cold-start Recommendation Deep Models ( http://arxiv.org/abs/2106.02256v1 )

ライセンス: CC BY 4.0
Yihong Zhang, Takuya Maekawa, and Takahiro Hara(参考訳) レコメンデータシステムでは、ユーザやアイテムに関連する過去のインタラクションレコードがない場合に、コールドスタートの問題が発生する。 コールドスタート問題の典型的なソリューションは、ユーザ人口統計属性や製品説明といったコンテキスト情報を利用する。 ある研究グループが、ソーシャルメディアの背景が、製品販売や株価変動などの一時的な現象を予測するのに役立つことを示した。 本研究の目的は,ソーシャルメディアの背景を文脈情報として活用し,レコメンデーションモデルを改善するかを検討することである。 既存の深層ニューラルネットワークモデルに基づいて,時間的ソーシャルメディアの背景を埋め込みとして表現し,それをモデル内の追加コンポーネントとして融合する手法を提案した。 実世界のeコマースデータセットとTwitterデータセットを実験的に評価する。 その結果,既存のモデルとソーシャルメディアの背景を融合させることで,推薦性能が向上することが示唆された。 hit-rate@kで測定された推奨精度は、ソーシャルメディアの背景をいじった後に2倍になる場合もある。 本研究は,社会的関心を表わす複雑な時間情報を考慮した将来のレコメンダシステム設計に有益である。

In recommender systems, a cold-start problem occurs when there is no past interaction record associated with the user or item. Typical solutions to the cold-start problem make use of contextual information, such as user demographic attributes or product descriptions. A group of works have shown that social media background can help predicting temporal phenomenons such as product sales and stock price movements. In this work, our goal is to investigate whether social media background can be used as extra contextual information to improve recommendation models. Based on an existing deep neural network model, we proposed a method to represent temporal social media background as embeddings and fuse them as an extra component in the model. We conduct experimental evaluations on a real-world e-commerce dataset and a Twitter dataset. The results show that our method of fusing social media background with the existing model does generally improve recommendation performance. In some cases the recommendation accuracy measured by hit-rate@K doubles after fusing with social media background. Our findings can be beneficial for future recommender system designs that consider complex temporal information representing social interests.
翻訳日:2021-06-08 05:19:39 公開日:2021-06-04
# (参考訳) 応答率向上のための視覚的質問書き換え [全文訳有]

Visual Question Rewriting for Increasing Response Rate ( http://arxiv.org/abs/2106.02257v1 )

ライセンス: CC BY 4.0
Jiayi Wei, Xilian Li, Yi Zhang, Xin Wang(参考訳) 人間がオンラインで質問したり、会話の仮想エージェントが人間の質問をしたとき、感情を誘発する質問や詳細な質問は、回答や回答を得る可能性が高くなる。 自然言語の質問を自動的に書き直して、人々の反応率を改善する方法について検討する。 特に、視覚情報がどのようにして新しい質問を改善するかを探るために、視覚質問書き換え(vqr)タスクの新たなタスクが導入された。 約4kのbland質問、魅力的な質問、画像トリプルを含むデータセットを収集する。 我々は,シーケンスモデルのためのベースラインシーケンスとより高度なトランスフォーマーモデルを開発し,bland問題と関連するイメージを入力とし,より魅力的な質問文を出力した。 オフライン実験とメカニカルタークに基づく評価は、blandの質問をより詳細かつ魅力的な方法で書き直し、応答率を高めることが可能であり、画像は有用であることを示している。

When a human asks questions online, or when a conversational virtual agent asks human questions, questions triggering emotions or with details might more likely to get responses or answers. we explore how to automatically rewrite natural language questions to improve the response rate from people. In particular, a new task of Visual Question Rewriting(VQR) task is introduced to explore how visual information can be used to improve the new questions. A data set containing around 4K bland questions, attractive questions and images triples is collected. We developed some baseline sequence to sequence models and more advanced transformer based models, which take a bland question and a related image as input and output a rewritten question that is expected to be more attractive. Offline experiments and mechanical Turk based evaluations show that it is possible to rewrite bland questions in a more detailed and attractive way to increase the response rate, and images can be helpful.
翻訳日:2021-06-08 05:05:52 公開日:2021-06-04
# (参考訳) カーネル回帰における分布外一般化

Out-of-Distribution Generalization in Kernel Regression ( http://arxiv.org/abs/2106.02261v1 )

ライセンス: CC BY 4.0
Abdulkadir Canatar, Blake Bordelon, Cengiz Pehlevan(参考訳) 実語アプリケーションでは、機械学習モデルをトレーニングするためのデータ生成プロセスは、テスト段階でモデルが遭遇するものとは異なることが多い。 このような分散シフトの下で機械学習モデルがどのように一般化されるかを理解することは理論的課題である。 本稿では,統計物理学の手法を用いて,トレーニング分布とテスト分布が異なる場合のカーネル回帰の一般化について検討する。 レプリカ法を用いて,任意のカーネルおよび実データセットに適用可能な分布外一般化誤差の解析式を導出する。 分布シフトにおける一般化性能の重要な決定要因として,与えられたカーネルの分布間のミスマッチを定量化する重なり行列を同定する。 解析式を用いて、ミスマッチが発生した場合の一般化の改善を含む様々な一般化現象を解明する。 我々は,与えられたデータ予算のトレーニングとテスト分布を最適化し,そのシフト下で最良かつ最悪の場合の一般化を求める手順を開発した。 我々は,本理論を実および合成データセットおよび多くのカーネルに適用する。 神経接核に適用した理論の結果と,広帯域ネットワークのシミュレーションを比較し,一致を示す。 線形回帰をさらに深く分析する。

In real word applications, data generating process for training a machine learning model often differs from what the model encounters in the test stage. Understanding how and whether machine learning models generalize under such distributional shifts have been a theoretical challenge. Here, we study generalization in kernel regression when the training and test distributions are different using methods from statistical physics. Using the replica method, we derive an analytical formula for the out-of-distribution generalization error applicable to any kernel and real datasets. We identify an overlap matrix that quantifies the mismatch between distributions for a given kernel as a key determinant of generalization performance under distribution shift. Using our analytical expressions we elucidate various generalization phenomena including possible improvement in generalization when there is a mismatch. We develop procedures for optimizing training and test distributions for a given data budget to find best and worst case generalizations under the shift. We present applications of our theory to real and synthetic datasets and for many kernels. We compare results of our theory applied to Neural Tangent Kernel with simulations of wide networks and show agreement. We analyze linear regression in further depth.
翻訳日:2021-06-08 04:58:59 公開日:2021-06-04
# (参考訳) sand-mask: 領域一般化における不変性の発見のための拡張勾配マスキング戦略 [全文訳有]

SAND-mask: An Enhanced Gradient Masking Strategy for the Discovery of Invariances in Domain Generalization ( http://arxiv.org/abs/2106.02266v1 )

ライセンス: CC BY 4.0
Soroosh Shahtalebi, Jean-Christophe Gagnon-Audet, Touraj Laleh, Mojtaba Faramarzi, Kartik Ahuja, Irina Rish(参考訳) 機械学習モデルの現実的な応用における大きなボトルネックは、トレーニングドメインにデータ分散がi.d.d.でない未確認領域に一般化する際の失敗である。 この失敗は、データラベルと散発的に相関するトレーニングドメインの非一般化な特徴の学習に起因していることが多い。 この欠点に対処するため、アウト・オブ・ディストリビューション・ジェネリゼーション(OOD)という概念の下で研究される、変化の難しい良質な説明を学ぶことへの関心が高まっている。 異なる領域にまたがって \textit{invariant} となるよい説明の探索は、すべての訓練領域にまたがる損失の風景において局所(グローバル)のミニマムを見つけることができる。 本稿では,最適化の各ステップにおいてエッジが受信した更新量を制御するために,ネットワークの各エッジに流れる勾配の一致に基づいて連続的な重みを決定するマスキング戦略を提案する。 特に,本提案手法は「SAND(Smoothed-AND)-m asking」と呼ばれ,勾配方向の一致を検証するだけでなく,等級間の一致を促進し,トレーニング領域間の不均一性の発見をさらに確実にする。 SAND-maskはドメイン一般化のためのDomainbedベンチマークで検証され、他のドメイン一般化データセットの競合結果を提供しながら、Colored MNISTデータセットの最先端の精度を大幅に向上する。

A major bottleneck in the real-world applications of machine learning models is their failure in generalizing to unseen domains whose data distribution is not i.i.d to the training domains. This failure often stems from learning non-generalizable features in the training domains that are spuriously correlated with the label of data. To address this shortcoming, there has been a growing surge of interest in learning good explanations that are hard to vary, which is studied under the notion of Out-of-Distribution (OOD) Generalization. The search for good explanations that are \textit{invariant} across different domains can be seen as finding local (global) minimas in the loss landscape that hold true across all of the training domains. In this paper, we propose a masking strategy, which determines a continuous weight based on the agreement of gradients that flow in each edge of network, in order to control the amount of update received by the edge in each step of optimization. Particularly, our proposed technique referred to as "Smoothed-AND (SAND)-masking", not only validates the agreement in the direction of gradients but also promotes the agreement among their magnitudes to further ensure the discovery of invariances across training domains. SAND-mask is validated over the Domainbed benchmark for domain generalization and significantly improves the state-of-the-art accuracy on the Colored MNIST dataset while providing competitive results on other domain generalization datasets.
翻訳日:2021-06-08 04:56:40 公開日:2021-06-04
# (参考訳) 対人的視覚的質問応答 [全文訳有]

Human-Adversarial Visual Question Answering ( http://arxiv.org/abs/2106.02280v1 )

ライセンス: CC BY 4.0
Sasha Sheng, Amanpreet Singh, Vedanuj Goswami, Jose Alberto Lopez Magana, Wojciech Galuba, Devi Parikh, Douwe Kiela(参考訳) 最も一般的なVisual Question Answeringデータセット(VQA v2)のパフォーマンスは、人間の精度に近づき始めている。 しかし、最先端のVQAモデルと相互作用する場合、問題が解決されるには程遠いことは明らかである。 VQAモデルをテストするために、人間と敵対する例と比較した。 人間は最先端のVQAモデルと相互作用し、データセットの各画像に対して、モデルの予測された答えが正しくないかどうかを問う。 これらの例で評価すると、幅広い最先端モデルの性能が低いことが分かる。 我々は,収集した敵の事例を広範囲に分析し,今後の研究の方向性について指導する。 このAdVQA(Adversarial VQA)ベンチマークが、この分野の進歩を加速させ、最先端の最先端を推し進めることを願っている。

Performance on the most commonly used Visual Question Answering dataset (VQA v2) is starting to approach human accuracy. However, in interacting with state-of-the-art VQA models, it is clear that the problem is far from being solved. In order to stress test VQA models, we benchmark them against human-adversarial examples. Human subjects interact with a state-of-the-art VQA model, and for each image in the dataset, attempt to find a question where the model's predicted answer is incorrect. We find that a wide range of state-of-the-art models perform poorly when evaluated on these examples. We conduct an extensive analysis of the collected adversarial examples and provide guidance on future research directions. We hope that this Adversarial VQA (AdVQA) benchmark can help drive progress in the field and advance the state of the art.
翻訳日:2021-06-08 04:39:10 公開日:2021-06-04
# (参考訳) 分割型メッシュ畳み込みネットワーク [全文訳有]

Subdivision-Based Mesh Convolution Networks ( http://arxiv.org/abs/2106.02285v1 )

ライセンス: CC BY 4.0
Shi-Min Hu, Zheng-Ning Liu, Meng-Hao Guo, Jun-Xiong Cai, Jiahui Huang, Tai-Jiang Mu, Ralph R. Martin(参考訳) 畳み込みニューラルネットワーク(CNN)は、2Dコンピュータビジョンにおいて大きなブレークスルーをもたらした。 しかし、メッシュの構造が不規則であるため、直接cnnのパワーを利用するのは難しい。 部分分割面は階層的な多解像度構造を提供し、閉じた2次元三角形メッシュの各面は3つの面に正確に隣接している。 この2つの特性に動機づけられ,ループサブディビジョンシーケンス接続を持つ3次元トライアングルメッシュのためのsubdivnetと呼ばれる新しいフレキシブルcnnフレームワークを提案する。 2次元画像におけるメッシュ面と画素間の類似性を実現することにより、メッシュ畳み込み演算子を提示し、隣接する顔から局所的な特徴を集約する。 この畳み込みは、面近傍を利用することで、標準的な2次元畳み込みネットワークの概念をサポートすることができる。 可変カーネルサイズ、ストライド、ダイレーション。 マルチレゾリューション階層に基づいて,4面を1面にマージする空間的一様プーリング層と,1面を4面に分割するアップサンプリング法を提案する。 その結果、一般的な2D CNNアーキテクチャは3Dメッシュ処理に容易に適応できる。 任意の接続性を持つメッシュは、自己パラメータ化によるループサブディビジョンシーケンス接続を保持するために再利用することができ、subdivnetを一般的なアプローチにする。 メッシュ分類,セグメンテーション,対応,実世界からの検索実験により,SubdivNetの有効性と有効性を示す。

Convolutional neural networks (CNNs) have made great breakthroughs in 2D computer vision. However, the irregular structure of meshes makes it hard to exploit the power of CNNs directly. A subdivision surface provides a hierarchical multi-resolution structure, and each face in a closed 2-manifold triangle mesh is exactly adjacent to three faces. Motivated by these two properties, this paper introduces a novel and flexible CNN framework, named SubdivNet, for 3D triangle meshes with Loop subdivision sequence connectivity. Making an analogy between mesh faces and pixels in a 2D image allows us to present a mesh convolution operator to aggregate local features from adjacent faces. By exploiting face neighborhoods, this convolution can support standard 2D convolutional network concepts, e.g. variable kernel size, stride, and dilation. Based on the multi-resolution hierarchy, we propose a spatial uniform pooling layer which merges four faces into one and an upsampling method which splits one face into four. As a result, many popular 2D CNN architectures can be readily adapted to processing 3D meshes. Meshes with arbitrary connectivity can be remeshed to hold Loop subdivision sequence connectivity via self-parameterizatio n, making SubdivNet a general approach. Experiments on mesh classification, segmentation, correspondence, and retrieval from the real-world demonstrate the effectiveness and efficiency of SubdivNet.
翻訳日:2021-06-08 04:18:42 公開日:2021-06-04
# (参考訳) オランダにおける人文資源ドメインのエンティティ認識と識別方法 [全文訳有]

Dutch Named Entity Recognition and De-identification Methods for the Human Resource Domain ( http://arxiv.org/abs/2106.02287v1 )

ライセンス: CC BY 4.0
Cha\"im van Toledo, Friso van Dijk, Marco Spruit(参考訳) ヒューマンリソース(HR)ドメインは、電子メールの対応や性能評価など、プライバシーに敏感なさまざまなテキストデータを含んでいる。 これらの文書の研究にはいくつかの課題があり、そのうちの1つは匿名化である。 本稿では,HRドメインの現在のオランダ語テキスト識別手法を4段階に分けて評価する。 まず、これらのメソッドの1つを最新の名前付きエンティティ認識(NER)モデルで更新する。 その結果、CoNLL 2002コーパスをベースとしたNERモデルとBERTjeトランスフォーマーを組み合わせることで、人や場所の抑制(0.94)に最適な組み合わせが得られる(0.82)。 性別を抑えるため、DDUCEは最善を尽くしている(0.53を思い出す)。 第2のNER評価は、実体の厳格な非識別(人として抑圧されなければならない)と、緩やかな非識別(人がどのように抑圧されているかは、抑圧されている限り)に関する第3の評価の両方に基づいている。 4番目のステップと最後のステップでは、テキスト内のジョブの認識のために、新しいタイプのNERデータセットがテストされる。

The human resource (HR) domain contains various types of privacy-sensitive textual data, such as e-mail correspondence and performance appraisal. Doing research on these documents brings several challenges, one of them anonymisation. In this paper, we evaluate the current Dutch text de-identification methods for the HR domain in four steps. First, by updating one of these methods with the latest named entity recognition (NER) models. The result is that the NER model based on the CoNLL 2002 corpus in combination with the BERTje transformer give the best combination for suppressing persons (recall 0.94) and locations (recall 0.82). For suppressing gender, DEDUCE is performing best (recall 0.53). Second NER evaluation is based on both strict de-identification of entities (a person must be suppressed as a person) and third evaluation on a loose sense of de-identification (no matter what how a person is suppressed, as long it is suppressed). In the fourth and last step a new kind of NER dataset is tested for recognising job titles in texts.
翻訳日:2021-06-08 03:53:48 公開日:2021-06-04
# (参考訳) 切り抜き窓によるスパース物体検出における背景バイアス対策 [全文訳有]

Tackling the Background Bias in Sparse Object Detection via Cropped Windows ( http://arxiv.org/abs/2106.02288v1 )

ライセンス: CC BY 4.0
Leon Amadeus Varga, Andreas Zell(参考訳) 無人航空機(UAV)の物体検出は依然として困難な課題である。 録音はほとんど疎らで、小さな物体のみを含む。 本研究では,モデル自体を変更することなく,リモートセンシングにおける検出能力を向上させる簡易ティリング手法を提案する。 背景バイアスを低減し,訓練中の高分解能化を実現することで,モデルの性能を大幅に向上させることができる。 この手順は3つの異なるデータセットで検証され、性能と速度において同様のアプローチより優れていた。

Object detection on Unmanned Aerial Vehicles (UAVs) is still a challenging task. The recordings are mostly sparse and contain only small objects. In this work, we propose a simple tiling method that improves the detection capability in the remote sensing case without modifying the model itself. By reducing the background bias and enabling the usage of higher image resolutions during training, our method can improve the performance of models substantially. The procedure was validated on three different data sets and outperformed similar approaches in performance and speed.
翻訳日:2021-06-08 03:41:34 公開日:2021-06-04
# (参考訳) 混合精度と適応分解能を有する微分可能動的量子化 [全文訳有]

Differentiable Dynamic Quantization with Mixed Precision and Adaptive Resolution ( http://arxiv.org/abs/2106.02295v1 )

ライセンス: CC BY 4.0
Zhang Zhaoyang, Shao Wenqi, Gu Jinwei, Wang Xiaogang, Luo Ping(参考訳) モデル量子化は、精度(ビット幅)、ダイナミックレンジ(最小値と最大離散値)、ステップサイズ(離散値間の間隔)など、多くの退屈なハイパーパラメータのために困難である。 これらの値を慎重に調整する先行技術とは異なり、我々はこれらすべてを学習するための完全に微分可能なアプローチ、DDQ(Dariable Dynamic Quantization)を提案し、いくつかの利点がある。 1) DDQは、異なるレイヤが異なる量子化パラメータを好むMobileNetsのような挑戦的な軽量アーキテクチャを定量化することができる。 2)DDQはハードウェアフレンドリーであり,低精度の行列ベクトル乗算を用いて容易に実装でき,ARMなどの多くのハードウェアで実現可能である。 3) 大規模実験によりDDQは多くのネットワークやベンチマークにおいて,特にモデルがすでに効率的かつコンパクトである場合,先行技術よりも優れた性能を示した。 例えば、DDQは、ImageNet上でMobileNetV2のロスレス4ビット量子化を実現する最初のアプローチである。

Model quantization is challenging due to many tedious hyper-parameters such as precision (bitwidth), dynamic range (minimum and maximum discrete values) and stepsize (interval between discrete values). Unlike prior arts that carefully tune these values, we present a fully differentiable approach to learn all of them, named Differentiable Dynamic Quantization (DDQ), which has several benefits. (1) DDQ is able to quantize challenging lightweight architectures like MobileNets, where different layers prefer different quantization parameters. (2) DDQ is hardware-friendly and can be easily implemented using low-precision matrix-vector multiplication, making it capable in many hardware such as ARM. (3) Extensive experiments show that DDQ outperforms prior arts on many networks and benchmarks, especially when models are already efficient and compact. e.g., DDQ is the first approach that achieves lossless 4-bit quantization for MobileNetV2 on ImageNet.
翻訳日:2021-06-08 03:32:28 公開日:2021-06-04
# (参考訳) 言語モデル融合によるエンドツーエンド音声認識のための最小単語誤り率トレーニング [全文訳有]

Minimum Word Error Rate Training with Language Model Fusion for End-to-End Speech Recognition ( http://arxiv.org/abs/2106.02302v1 )

ライセンス: CC BY 4.0
Zhong Meng, Yu Wu, Naoyuki Kanda, Liang Lu, Xie Chen, Guoli Ye, Eric Sun, Jinyu Li, Yifan Gong(参考訳) 外部言語モデル(LM)をエンドツーエンド(E2E)モデルに統合することは、ドメイン適応音声認識において難しい課題である。 近年、内部言語モデル推定(ILME)に基づくLM融合は、ビームサーチ中にE2Eモデルと外部LMスコアの補間から重み付き内部LMスコアを減じることで、Shallow Fusionからの単語誤り率(WER)を著しく低減している。 しかし、異なるテストセットでは、最適なLM補間重みは幅広い範囲で変化し、十分に整合された検証セットで広範囲に調整する必要がある。 本研究では,E2Eモデルの最小WER(MWER)トレーニングにおけるLM融合を行い,推定時のLM重み付けチューニングの必要性を回避する。 本研究は,Shallow Fusion(MWER-SF)を用いたMWERトレーニングに加えて,ILMEを用いたMWERトレーニング(MWER-ILME)を提案する。 内部LMがMWER-ILME損失計算に係わる場合には、さらなる勾配が生じる。 推測中、MWERトレーニングで事前に決定されたLM重みは、異なるドメインのテストセット上で堅牢なLM積分を可能にする。 MWER-ILMEは、平均8.8%と5.8%のWERを、MWER-SFとMWER-SFのトレーニングからそれぞれ6つの異なるテストセットで減少させる。

Integrating external language models (LMs) into end-to-end (E2E) models remains a challenging task for domain-adaptive speech recognition. Recently, internal language model estimation (ILME)-based LM fusion has shown significant word error rate (WER) reduction from Shallow Fusion by subtracting a weighted internal LM score from an interpolation of E2E model and external LM scores during beam search. However, on different test sets, the optimal LM interpolation weights vary over a wide range and have to be tuned extensively on well-matched validation sets. In this work, we perform LM fusion in the minimum WER (MWER) training of an E2E model to obviate the need for LM weights tuning during inference. Besides MWER training with Shallow Fusion (MWER-SF), we propose a novel MWER training with ILME (MWER-ILME) where the ILME-based fusion is conducted to generate N-best hypotheses and their posteriors. Additional gradient is induced when internal LM is engaged in MWER-ILME loss computation. During inference, LM weights pre-determined in MWER training enable robust LM integrations on test sets from different domains. Experimented with 30K-hour trained transformer transducers, MWER-ILME achieves on average 8.8% and 5.8% relative WER reductions from MWER and MWER-SF training, respectively, on 6 different test sets
翻訳日:2021-06-08 03:12:43 公開日:2021-06-04
# (参考訳) フェデレーション学習における局所適応性:収束性と一貫性 [全文訳有]

Local Adaptivity in Federated Learning: Convergence and Consistency ( http://arxiv.org/abs/2106.02305v1 )

ライセンス: CC BY 4.0
Jianyu Wang, Zheng Xu, Zachary Garrett, Zachary Charles, Luyang Liu, Gauri Joshi(参考訳) フェデレートラーニング(FL)フレームワークは、局所的に訓練されたモデルを定期的に集約することにより、エッジクライアントデバイスに格納された分散データを使用して機械学習モデルをトレーニングする。 flの一般的な最適化アルゴリズムは、クライアントのローカル更新と集約サーバのグローバル更新の両方にvanilla(stochastic)勾配降下を使用する。 近年,サーバ更新のためにAdaGradなどの適応最適化手法が研究されている。 しかし、クライアントでのローカル更新に適応最適化手法を用いることの効果はまだ分かっていない。 理論と実践の両方において、局所適応法は収束を加速するが、最終的な収束解が大域的目的関数の定常点とは異なるような非有界な解バイアスを引き起こす可能性がある。 本稿では,この矛盾を克服する補正手法を提案し,flの局所適応法を補完する。 現実的なフェデレーショントレーニングタスクに関する大規模な実験により、提案アルゴリズムは局所的な適応性のないベースラインよりも高速な収束と高いテスト精度を実現することができることを示した。

The federated learning (FL) framework trains a machine learning model using decentralized data stored at edge client devices by periodically aggregating locally trained models. Popular optimization algorithms of FL use vanilla (stochastic) gradient descent for both local updates at clients and global updates at the aggregating server. Recently, adaptive optimization methods such as AdaGrad have been studied for server updates. However, the effect of using adaptive optimization methods for local updates at clients is not yet understood. We show in both theory and practice that while local adaptive methods can accelerate convergence, they can cause a non-vanishing solution bias, where the final converged solution may be different from the stationary point of the global objective function. We propose correction techniques to overcome this inconsistency and complement the local adaptive methods for FL. Extensive experiments on realistic federated training tasks show that the proposed algorithms can achieve faster convergence and higher test accuracy than the baselines without local adaptivity.
翻訳日:2021-06-08 03:00:05 公開日:2021-06-04
# (参考訳) 順序オートマタについて

On (co-lex) Ordering Automata ( http://arxiv.org/abs/2106.02309v1 )

ライセンス: CC BY 4.0
Giovanna D'Agostino and Nicola Cotumaccio and Alberto Policriti and Nicola Prezza(参考訳) 決定論的有限オートマトンaの状態は、pf(l(a)) における単語の集合と同一視することができる。 しかし、単語は順序付け可能であり、多くの可能な順序のうち、非常に自然なものは共辞書である。 このような自然性は、単語からオートマトンの状態への順序の移動を示唆するという事実に由来する。 多くの論文において、それらに到達する単語の集合の順序と整合した状態の総順序を認めるオートマトンが提案されている。 このような順序付きオートマトン -- ウィーラーオートマトン -- のクラスは、インデックスを使用して効率的に保存/検索されることが判明した。 残念ながら、すべてのオートマトンを前述したように完全に順序付けできるわけではない。 しかし、オートマトンは常に部分的に順序付けでき、その複雑さの本質的な測度は、許容される部分順序の1つの最小幅として定義し、効果的に決定することができる。 前述したように、オートマトンの幅という新しい概念は、グラフ圧縮、データ構造のインデックス化、オートマトン理論の分野において有用な結果をもたらす。 本稿では、lのhasse automaton hと呼ばれる言語を受容する標準的で最小幅、半順序のオートマトンを提示できることを実証する。 H は、正確には、Pf(L(A)) の (co-lexicographic) 順序との (co-lexicographic) 操作リンクを維持したい限り、任意のオートマトンが L を受け入れる状態を(部分的に)順序付ける最良の方法である。 hを用いて、言語を認識できる最小のオートマトンから言語の幅を効果的に計算できることを証明する。 最後に、幅を最小化し、オートマトンの状態数を最小化する2つの目標(しばしば矛盾する)の関係について検討する。

The states of a deterministic finite automaton A can be identified with collections of words in Pf(L(A)) -- the set of prefixes of words belonging to the regular language accepted by A. But words can be ordered and among the many possible orders a very natural one is the co-lexicographic one. Such naturalness stems from the fact that it suggests a transfer of the order from words to the automaton's states. In a number of papers automata admitting a total ordering of states coherent with the ordering of the set of words reaching them have been proposed. Such class of ordered automata -- the Wheeler automata -- turned out to be efficiently stored/searched using an index. Unfortunately not all automata can be totally ordered as previously outlined. However, automata can always be partially ordered and an intrinsic measure of their complexity can be defined and effectively determined, as the minimum width of one of their admissible partial orders. As shown in previous works, this new concept of width of an automaton has useful consequences in the fields of graph compression, indexing data structures, and automata theory. In this paper we prove that a canonical, minimum-width, partially-ordered automaton accepting a language L -- dubbed the Hasse automaton H of L -- can be exhibited. H provides, in a precise sense, the best possible way to (partially) order the states of any automaton accepting L, as long as we want to maintain an operational link with the (co-lexicographic) order of Pf(L(A)). Using H we prove that the width of the language can be effectively computed from the minimum automaton recognizing the language. Finally, we explore the relationship between two (often conflicting) objectives: minimizing the width and minimizing the number of states of an automaton.
翻訳日:2021-06-08 01:38:11 公開日:2021-06-04
# (参考訳) 道路交通渋滞軽減のためのインテリジェント交通システム [全文訳有]

Intelligent Transportation Systems to Mitigate Road Traffic Congestion ( http://arxiv.org/abs/2106.02315v1 )

ライセンス: CC BY 4.0
Nizar Hamadeh, Ali Karouni, Zeinab Farhat, Hussein El Ghor, Mohamad El Ghor, and Israa Katea(参考訳) インテリジェントトランスポートシステムは、世界中の交通渋滞の問題を効果的かつ効果的に解決している。 マルチエージェントベースの輸送システムは、近隣の車両、ドライバー、道路、インフラ、車両間の相互作用を表す最も重要なインテリジェント輸送システムの一つである。 本稿では,渋滞を緩和し,緊急車両ができるだけ早く到着できるよう,二つの交通管理モデルを構築した。 ツールチェーンSUMO-JADEを用いて、トラフィックの相互作用を象徴する顕微鏡シミュレーションを作成する。 シミュレーションモデルでは、平均時間遅延の少なくとも50%が顕著に減少し、旅行時間全体の実質的な改善が見られた。

Intelligent transport systems have efficiently and effectively proved themselves in settling up the problem of traffic congestion around the world. The multi-agent based transportation system is one of the most important intelligent transport systems, which represents an interaction among the neighbouring vehicles, drivers, roads, infrastructure and vehicles. In this paper, two traffic management models have been created to mitigate congestion and to ensure that emergency vehicles arrive as quickly as possible. A tool-chain SUMO-JADE is employed to create a microscopic simulation symbolizing the interactions of traffic. The simulation model has showed a significant reduction of at least 50% in the average time delay and thus a real improvement in the entire journey time.
翻訳日:2021-06-08 01:36:56 公開日:2021-06-04
# (参考訳) GAN塗装による時間的コヒーレントビデオ匿名化 [全文訳有]

Temporally coherent video anonymization through GAN inpainting ( http://arxiv.org/abs/2106.02328v1 )

ライセンス: CC BY 4.0
Thangapavithraa Balaji, Patrick Blies, Georg G\"ori, Raphael Mitsch, Marcel Wasserer, Torsten Sch\"on(参考訳) 本研究は,自然映像ストリームにおける時間的コヒーレントな顔匿名化の問題に対処し,映像の各フレームに黒画像パッチを施した顔を検出・マスキングする2段階システムであるjaganを提案する。 第2ステージでは、プライバシを保存するビデオ生成広告ネットワークを活用して、欠落したイメージパッチに人工的に生成された顔を描く。 最初の実験では、画像ベースの生成モデルは、隣接するビデオフレームにまたがる時間的コヒーレントな外観を示すパッチを塗り替えることができないことが明らかとなった。 この問題に対処するため,本論文とともに研究コミュニティ向けに公開された新しいビデオコレクションを紹介する。 また,隣接フレーム間の時間的コヒーレンスを定量化する手段として,identity invariance score idiを導入する。

This work tackles the problem of temporally coherent face anonymization in natural video streams.We propose JaGAN, a two-stage system starting with detecting and masking out faces with black image patches in all individual frames of the video. The second stage leverages a privacy-preserving Video Generative Adversarial Network designed to inpaint the missing image patches with artificially generated faces. Our initial experiments reveal that image based generative models are not capable of inpainting patches showing temporal coherent appearance across neighboring video frames. To address this issue we introduce a newly curated video collection, which is made publicly available for the research community along with this paper. We also introduce the Identity Invariance Score IdI as a means to quantify temporal coherency between neighboring frames.
翻訳日:2021-06-08 01:25:44 公開日:2021-06-04
# (参考訳) ポリゴンのカバーはもっと難しい

Covering Polygons is Even Harder ( http://arxiv.org/abs/2106.02335v1 )

ライセンス: CC BY 4.0
Mikkel Abrahamsen(参考訳) 最小凸被覆 (minimum convex cover, mcc) 問題では、単純多角形 $\mathcal p$ と整数 $k$ が与えられ、問題は、結合が $\mathcal p$ であるような $k$ 凸多角形が存在するかどうかである。 mcc は $\mathsf{np}$-hard [culberson & reckhow: covering polygons is hard, focs 1988/journal of algorithms 1994] and in $\exists\mathbb{r}$ [o'rourke: the complexity of computing minimum convex covers for polygons, allerton 1982] であることが知られている。 MCC が $\exists\mathbb{R}$-hard であることを証明するので、問題は $\exists\mathbb{R}$-complete である。 言い換えると、問題は多項式方程式の系と整数係数の不等式が実解を持つかどうかを決定することと等価である。 構成した多角形に対する被覆が存在するならば、三角形からなる被覆もそうである。 したがって、副生成物として、$k$三角形が与えられたポリゴンを被覆するかどうかを決定するのに$\exists\mathbb{R}$-完全であることも証明する。 最小被覆が$\mathsf{np}$ であるかどうかが分かっていない問題は、文献で繰り返し取り上げられており、2001年に既に「長年の疑問」として言及されている(eidenbenz & widmayer: an approximation algorithm for minimum convex cover with logarithmic performance guarantee, esa 2001/siam journal on computing 2003)。 広く信じられている$\mathsf{NP}\neq\exists\mathbb{R}$と仮定すると、問題は$\mathsf{NP}$にはない。 結果として、小さな被覆を見つけるための多くの自然なアプローチは、任意の高代数次数の不合理座標が最適解の片隅に必要であるため、いくつかの場合において最適解を与えるために有界である。

In the MINIMUM CONVEX COVER (MCC) problem, we are given a simple polygon $\mathcal P$ and an integer $k$, and the question is if there exist $k$ convex polygons whose union is $\mathcal P$. It is known that MCC is $\mathsf{NP}$-hard [Culberson & Reckhow: Covering polygons is hard, FOCS 1988/Journal of Algorithms 1994] and in $\exists\mathbb{R}$ [O'Rourke: The complexity of computing minimum convex covers for polygons, Allerton 1982]. We prove that MCC is $\exists\mathbb{R}$-hard, and the problem is thus $\exists\mathbb{R}$-complete. In other words, the problem is equivalent to deciding whether a system of polynomial equations and inequalities with integer coefficients has a real solution. If a cover for our constructed polygon exists, then so does a cover consisting entirely of triangles. As a byproduct, we therefore also establish that it is $\exists\mathbb{R}$-complete to decide whether $k$ triangles cover a given polygon. The issue that it was not known if finding a minimum cover is in $\mathsf{NP}$ has repeatedly been raised in the literature, and it was mentioned as a "long-standing open question" already in 2001 [Eidenbenz & Widmayer: An approximation algorithm for minimum convex cover with logarithmic performance guarantee, ESA 2001/SIAM Journal on Computing 2003]. We prove that assuming the widespread belief that $\mathsf{NP}\neq\exists\mathbb{R}$, the problem is not in $\mathsf{NP}$. An implication of the result is that many natural approaches to finding small covers are bound to give suboptimal solutions in some cases, since irrational coordinates of arbitrarily high algebraic degree can be needed for the corners of the pieces in an optimal solution.
翻訳日:2021-06-08 01:11:55 公開日:2021-06-04
# (参考訳) ASCNet: 出現速度に一貫性のある自己教師型ビデオ表現学習 [全文訳有]

ASCNet: Self-supervised Video Representation Learning with Appearance-Speed Consistency ( http://arxiv.org/abs/2106.02342v1 )

ライセンス: CC BY-SA 4.0
Deng Huang, Wenhao Wu, Weiwen Hu, Xu Liu, Dongliang He, Zhihua Wu, Xiangmiao Wu, Mingkui Tan, Errui Ding(参考訳) 本研究は,1)明示的な監督のためのラベルの欠如,2)非構造化でノイズの多い視覚情報による自己教師付き映像表現学習について検討する。 既存の手法では、ビデオクリップとの対比損失をインスタンスとして使用し、インスタンスを区別することで視覚的表現を学ぶが、大きなバッチサイズ、メモリバンク、余分なモダリティ、あるいは、必然的にノイズデータを含むカスタマイズされたマイニング戦略に依存することで、ネガティブペアを慎重に扱う必要がある。 本稿では,正のサンプル間の一貫性がロバストな映像表現の学習の鍵であることを示す。 具体的には,外観と速度の一貫性を別途学習する2つのタスクを提案する。 外観整合性タスクは、再生速度が異なる同じビデオの2つのクリップ間の類似性を最大化することを目的としている。 速度一貫性タスクは、同じ再生速度で異なる外観情報を持つ2つのクリップ間の類似性を最大化することを目的としている。 この2つのタスクの協調最適化は, 動作認識やビデオ検索など, 下流タスクの性能を一貫して向上させることを示す。 注目すべきは、UCF-101データセット上のアクション認識において、教師なし事前トレーニングのための追加のモダリティや負のペアを使わずに90.8%の精度を実現し、ImageNetの教師付き事前トレーニングモデルより優れていることである。 コードとモデルは利用可能だ。

We study self-supervised video representation learning, which is a challenging task due to 1) a lack of labels for explicit supervision and 2) unstructured and noisy visual information. Existing methods mainly use contrastive loss with video clips as the instances and learn visual representation by discriminating instances from each other, but they require careful treatment of negative pairs by relying on large batch sizes, memory banks, extra modalities, or customized mining strategies, inevitably including noisy data. In this paper, we observe that the consistency between positive samples is the key to learn robust video representations. Specifically, we propose two tasks to learn the appearance and speed consistency, separately. The appearance consistency task aims to maximize the similarity between two clips of the same video with different playback speeds. The speed consistency task aims to maximize the similarity between two clips with the same playback speed but different appearance information. We show that joint optimization of the two tasks consistently improves the performance on downstream tasks, e.g., action recognition and video retrieval. Remarkably, for action recognition on the UCF-101 dataset, we achieve 90.8% accuracy without using any additional modalities or negative pairs for unsupervised pretraining, outperforming the ImageNet supervised pre-trained model. Codes and models will be available.
翻訳日:2021-06-08 01:10:23 公開日:2021-06-04
# (参考訳) カーネル法の不変性に対する証明可能な厳密な一般化利益 [全文訳有]

Provably Strict Generalisation Benefit for Invariance in Kernel Methods ( http://arxiv.org/abs/2106.02346v1 )

ライセンス: CC BY 4.0
Bryn Elesedy(参考訳) 不変性を強制することは一般化を改善するという一般的な信念である。 このアプローチは広く普及しているが、この利点の厳密な理論的実証が確立されたのはごく最近である。 本研究では,Elesedy と Zaidi arXiv:2102.10333 の関数空間パースペクティブに基づいて,ターゲットがコンパクト群の作用に不変であるとき,カーネルリッジ回帰に不変性を導入するという,厳密な非ゼロ一般化の利点を導出する。 特徴平均化によって強制される不変性について検討し、一般化は、カーネルとグループ間の相互作用から生じる有効次元の概念によって支配されることを示す。 この結果に向けて、群の作用は再生核ヒルベルト空間とその核の両方の直交分解を誘導し、それがそれ自身に興味を持つかもしれないことを見出した。

It is a commonly held belief that enforcing invariance improves generalisation. Although this approach enjoys widespread popularity, it is only very recently that a rigorous theoretical demonstration of this benefit has been established. In this work we build on the function space perspective of Elesedy and Zaidi arXiv:2102.10333 to derive a strictly non-zero generalisation benefit of incorporating invariance in kernel ridge regression when the target is invariant to the action of a compact group. We study invariance enforced by feature averaging and find that generalisation is governed by a notion of effective dimension that arises from the interplay between the kernel and the group. In building towards this result, we find that the action of the group induces an orthogonal decomposition of both the reproducing kernel Hilbert space and its kernel, which may be of interest in its own right.
翻訳日:2021-06-08 00:55:56 公開日:2021-06-04
# (参考訳) NLPはどのくらい良いか? 社会的影響のレンズを通してnlpタスクを見る [全文訳有]

How Good Is NLP? A Sober Look at NLP Tasks through the Lens of Social Impact ( http://arxiv.org/abs/2106.02359v1 )

ライセンス: CC BY 4.0
Zhijing Jin, Geeticka Chauhan, Brian Tse, Mrinmaya Sachan, Rada Mihalcea(参考訳) 近年、自然言語処理(NLP)において多くのブレークスルーが見られ、理論的な分野から現実の応用に移行している。 広範に社会に影響を及ぼす他の機械学習やAI技術の応用が増えていることに注目し、社会改善のためのNLP技術を開発することの重要性を期待する。 道徳哲学とグローバル優先研究の理論に触発されて,NLPの文脈における社会善に関するガイドラインの推進を目指す。 我々は,モラル哲学の社会善の定義を通じて基礎を定め,nlpタスクの直接的および間接的実世界的影響を評価する枠組みを提案し,nlp研究の優先要因を特定するためにグローバル優先順位研究の方法論を採用する。 最後に,我々は理論的枠組みを用いて,今後のnlp研究のための実践的ガイドラインを提示する。 我々のデータとコードはhttp://github.com/zh ijing-jin/nlp4sg_acl 2021で入手できる。

Recent years have seen many breakthroughs in natural language processing (NLP), transitioning it from a mostly theoretical field to one with many real-world applications. Noting the rising number of applications of other machine learning and AI techniques with pervasive societal impact, we anticipate the rising importance of developing NLP technologies for social good. Inspired by theories in moral philosophy and global priorities research, we aim to promote a guideline for social good in the context of NLP. We lay the foundations via moral philosophy's definition of social good, propose a framework to evaluate NLP tasks' direct and indirect real-world impact, and adopt the methodology of global priorities research to identify priority causes for NLP research. Finally, we use our theoretical framework to provide some practical guidelines for future NLP research for social good. Our data and codes are available at http://github.com/zh ijing-jin/nlp4sg_acl 2021
翻訳日:2021-06-08 00:37:20 公開日:2021-06-04
# (参考訳) 注意の混合によるスライス認識表現の学習 [全文訳有]

Learning Slice-Aware Representations with Mixture of Attentions ( http://arxiv.org/abs/2106.02363v1 )

ライセンス: CC BY 4.0
Cheng Wang, Sungjin Lee, Sunghyun Park, Han Li, Young-Bum Kim, Ruhi Sarikaya(参考訳) 実世界の機械学習システムは、全体的な精度やF-1スコアといった粗い粒度の指標で、目覚ましいパフォーマンスを実現している。 しかし、モデルの改善と開発は、個々のデータサブセットやスライスに関するきめ細かいモデリングを必要とすることが多い。 実際には、オリジナルの全体的なパフォーマンスを維持しながら、重要なスライスや関心のあるスライスに余分な注意を払うことができるようなモデルを開発するための具体的な価値を提供する。 この研究は、最近のslice-based learning (sbl)~\cite{chen2019slice} を拡張し、slice-aware dual attentive representationsを学習するための注意の混合(moa)である。 2つの自然言語理解(NLU)タスクを持つ監視されたスライスに対して,MoAアプローチがベースライン手法と元のSBLアプローチよりも優れていることを実証的に示す。

Real-world machine learning systems are achieving remarkable performance in terms of coarse-grained metrics like overall accuracy and F-1 score. However, model improvement and development often require fine-grained modeling on individual data subsets or slices, for instance, the data slices where the models have unsatisfactory results. In practice, it gives tangible values for developing such models that can pay extra attention to critical or interested slices while retaining the original overall performance. This work extends the recent slice-based learning (SBL)~\cite{chen2019slice} with a mixture of attentions (MoA) to learn slice-aware dual attentive representations. We empirically show that the MoA approach outperforms the baseline method as well as the original SBL approach on monitored slices with two natural language understanding (NLU) tasks.
翻訳日:2021-06-08 00:16:26 公開日:2021-06-04
# (参考訳) 多パラメータmr画像を用いたディープラーニング前立腺癌検出における偽陽性/陰性率の制御 [全文訳有]

Controlling False Positive/Negative Rates for Deep-Learning-Based Prostate Cancer Detection on Multiparametric MR images ( http://arxiv.org/abs/2106.02385v1 )

ライセンス: CC BY 4.0
Zhe Min, Fernando J. Bianco, Qianye Yang, Rachael Rodell, Wen Yan, Dean Barratt, Yipeng Hu(参考訳) 前立腺癌(PCa)は世界中の男性にとって主要な死因の1つである。 専門の放射線技師による前立腺腫瘍の非侵襲的診断ツールとして,Multi-parametric magnetic resonance (mpMR) が出現している。 これらの放射線学的検査は、例えば、移行期における良性前立腺肥大症と悪性病変の鑑別、臨床的に重要ながんの境界を定義するためのものであり、高い技術と経験に依存している。 まず,これらの高分散ラベルを用いて,放射線学的評価の予測を訓練した物体検出ニューラルネットワークの開発に関する実験結果について検討した。 さらに,このようなコンピュータ支援診断(CAD)システムでは,より人的介入を伴わずに臨床診断を行うためには,偽陽性率 (FPR) や偽陰性率 (FNR) を制御できる能力が必要であるとも主張する。 本研究は, 病変レベルのコスト感応損失と, 病変間マッピング機能に基づくスライスレベル損失を付加した新しいpca検出ネットワークを提案し, 病変とスライスレベルのコストをそれぞれ管理する。 Our experiments based on 290 clinical patients concludes that 1) The lesion-level FNR was effectively reduced from 0.19 to 0.10 and the lesion-level FPR was reduced from 1.03 to 0.66 by changing the lesion-level cost; 2) The slice-level FNR was reduced from 0.19 to 0.00 by taking into account the slice-level cost; (3) Both lesion-level and slice-level FNRs were reduced with lower FP/FPR by changing the lesion-level or slice-level costs, compared with post-training threshold adjustment using networks without the proposed cost-aware training.

Prostate cancer (PCa) is one of the leading causes of death for men worldwide. Multi-parametric magnetic resonance (mpMR) imaging has emerged as a non-invasive diagnostic tool for detecting and localising prostate tumours by specialised radiologists. These radiological examinations, for example, for differentiating malignant lesions from benign prostatic hyperplasia in transition zones and for defining the boundaries of clinically significant cancer, remain challenging and highly skill-and-experience -dependent. We first investigate experimental results in developing object detection neural networks that are trained to predict the radiological assessment, using these high-variance labels. We further argue that such a computer-assisted diagnosis (CAD) system needs to have the ability to control the false-positive rate (FPR) or false-negative rate (FNR), in order to be usefully deployed in a clinical workflow, informing clinical decisions without further human intervention. This work proposes a novel PCa detection network that incorporates a lesion-level cost-sensitive loss and an additional slice-level loss based on a lesion-to-slice mapping function, to manage the lesion- and slice-level costs, respectively. Our experiments based on 290 clinical patients concludes that 1) The lesion-level FNR was effectively reduced from 0.19 to 0.10 and the lesion-level FPR was reduced from 1.03 to 0.66 by changing the lesion-level cost; 2) The slice-level FNR was reduced from 0.19 to 0.00 by taking into account the slice-level cost; (3) Both lesion-level and slice-level FNRs were reduced with lower FP/FPR by changing the lesion-level or slice-level costs, compared with post-training threshold adjustment using networks without the proposed cost-aware training.
翻訳日:2021-06-08 00:06:52 公開日:2021-06-04
# (参考訳) アクティブ推論カプセルによるスパース報酬によるオンライン強化学習 [全文訳有]

Online reinforcement learning with sparse rewards through an active inference capsule ( http://arxiv.org/abs/2106.02390v1 )

ライセンス: CC BY 4.0
Alejandro Daniel Noel (1), Charel van Hoof (1), Beren Millidge (2) ((1) Delft University of Technology, (2) University of Oxford)(参考訳) 知的エージェントは、部分的な情報としばしば計算能力が制限された複雑な環境で目標を追求しなければならない。 強化学習法は、エンジニアリングされた報酬関数を最適化するエージェントを作成することで大きな成功を収めてきたが、しばしばスパース・リワード環境での学習に苦慮し、多くの環境相互作用を必要とし、通常は計算上非常に高価である。 アクティブ推論(active inference)は、エージェントが目標行動の事前モデルに固執しながら、不確定な状態を探索するためのモデルベースアプローチである。 本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。 本モデルでは,不確実な状態の直接探索を奨励する目的関数により,スパース・リワード問題を極めて高いサンプリング効率で解くことができる。 さらに,本モデルは非常に軽量であり,オフラインRL法に匹敵する性能を保ちながら,完全にオンライン的に動作することができる。 我々は,マウンテンカー問題を解くことで,その優れた探索特性と観測騒音に対する頑健さを実証し,実際に性能の向上を図っている。 また,事前モデルを報酬関数から近似する新しい手法を導入し,複雑な目的の表現を単純化し,従来のアクティブ推論手法よりも性能を向上させる。

Intelligent agents must pursue their goals in complex environments with partial information and often limited computational capacity. Reinforcement learning methods have achieved great success by creating agents that optimize engineered reward functions, but which often struggle to learn in sparse-reward environments, generally require many environmental interactions to perform well, and are typically computationally very expensive. Active inference is a model-based approach that directs agents to explore uncertain states while adhering to a prior model of their goal behaviour. This paper introduces an active inference agent which minimizes the novel free energy of the expected future. Our model is capable of solving sparse-reward problems with a very high sample efficiency due to its objective function, which encourages directed exploration of uncertain states. Moreover, our model is computationally very light and can operate in a fully online manner while achieving comparable performance to offline RL methods. We showcase the capabilities of our model by solving the mountain car problem, where we demonstrate its superior exploration properties and its robustness to observation noise, which in fact improves performance. We also introduce a novel method for approximating the prior model from the reward function, which simplifies the expression of complex objectives and improves performance over previous active inference approaches.
翻訳日:2021-06-07 23:49:52 公開日:2021-06-04
# (参考訳) 価格メーカーエネルギー貯蔵のための学習型最適市場入札戦略 [全文訳有]

A Learning-based Optimal Market Bidding Strategy for Price-Maker Energy Storage ( http://arxiv.org/abs/2106.02396v1 )

ライセンス: CC BY 4.0
Mathilde D. Badoual, Scott J. Moura(参考訳) ストレージユニットを備えた負荷サービスエンティティは、電力市場の価格の清算に大きな影響を及ぼす大きさと性能に到達します。 しかし、蓄電入札戦略において価格の不均一性はめったに考慮されず、電力市場をモデル化することは難しい課題である。 一方、アクタ-クリティックのようなモデルフリーの強化学習は、エネルギーシステムコントローラの設計で人気が高まっている。 しかし、実装には長い、データインテンス、安全でない試行とエラーのトレーニングがしばしば必要となる。 これらのギャップを埋めるために,モデルベースコントローラ -- モデル予測制御 (mpc) によるオンライン教師付きアクタ-クリティック (sac) アルゴリズムを実装した。 エネルギー貯蔵エージェントは、このアルゴリズムでトレーニングされ、市場の清算価格への影響を学習し、調整しながら最適な入札を行う。 教師付きアクター・クライブアルゴリズムと MPC アルゴリズムをスーパーバイザーとして比較した結果,前者は学習によって高い利益を得ることがわかった。 私たちのコントリビューションは、オンラインで安全なSACアルゴリズムであり、現在のモデルベースの現状よりも優れています。

Load serving entities with storage units reach sizes and performances that can significantly impact clearing prices in electricity markets. Nevertheless, price endogeneity is rarely considered in storage bidding strategies and modeling the electricity market is a challenging task. Meanwhile, model-free reinforcement learning such as the Actor-Critic are becoming increasingly popular for designing energy system controllers. Yet implementation frequently requires lengthy, data-intense, and unsafe trial-and-error training. To fill these gaps, we implement an online Supervised Actor-Critic (SAC) algorithm, supervised with a model-based controller -- Model Predictive Control (MPC). The energy storage agent is trained with this algorithm to optimally bid while learning and adjusting to its impact on the market clearing prices. We compare the supervised Actor-Critic algorithm with the MPC algorithm as a supervisor, finding that the former reaps higher profits via learning. Our contribution, thus, is an online and safe SAC algorithm that outperforms the current model-based state-of-the-art.
翻訳日:2021-06-07 23:19:49 公開日:2021-06-04
# (参考訳) 連続制約満足度問題の分類について

On Classifying Continuous Constraint Satisfaction problems ( http://arxiv.org/abs/2106.02397v1 )

ライセンス: CC BY 4.0
Tillmann Miltzow and Reinier F. Schmiermann(参考訳) 連続制約満足度問題 (CCSP) は、領域 $U \subset \mathbb{R}$ を持つ制約満足度問題(CSP)である。 我々は実数の存在論的理論、すなわち er-complete の完全な ccsps を分類する体系的な研究を行っている。 このクラスを定義するために、まず、実数の存在論的理論を表すetrの問題を考える。 この問題の例では、 $\exists x_1, \ldots, x_n \in \mathbb{R} : \Phi(x_1, \ldots, x_n)$, ここで、$\Phi$ は記号 $\{0, 1, +, \cdot, \geq, >, \wedge, \vee, \neg\}$ からなる十分に整形された量子化式である。 現在、クラス ER は ETR への多項式時間還元を認めるすべての問題の族である。 NP $\subseteq$ ER $\subseteq$ PSPACE が知られている。 我々は、追加制約(x + y = z$)およびその他の穏やかな技術的条件でCCSPに対する注意を制限する。 以前は、乗法制約(x \cdot y = z$)、スクアリング制約(x^2 = y$)、逆制約(x\cdot y = 1$)はER完全性を確立するのに十分であることが示された。 平等の制約に対して最も強い意味でこれを拡張します。 CCSP (加法的制約およびその他の穏やかな技術的条件を含む) は1つの有向曲線等式制約(f(x,y) = 0$)が ER 完全であることを示す。 我々はさらに不平等な制約に結果を広げる。 任意の凸凸曲線および凸曲線不等式制約 (f(x,y) \geq 0$ および $g(x,y) \geq 0$) は、そのようなccspのクラスにおけるer完全性を示す。 我々はこの知見を幾何学的パッキングに適用し,abrahamsenらによる公開質問に答える。 〔forcs 2020〕 すなわち、回転および変換の下で凸片を正方形容器に充填するER完全性を確立する。

A continuous constraint satisfaction problem (CCSP) is a constraint satisfaction problem (CSP) with a domain $U \subset \mathbb{R}$. We engage in a systematic study to classify CCSPs that are complete of the Existential Theory of the Reals, i.e., ER-complete. To define this class, we first consider the problem ETR, which also stands for Existential Theory of the Reals. In an instance of this problem we are given some sentence of the form $\exists x_1, \ldots, x_n \in \mathbb{R} : \Phi(x_1, \ldots, x_n)$, where $\Phi$ is a well-formed quantifier-free formula consisting of the symbols $\{0, 1, +, \cdot, \geq, >, \wedge, \vee, \neg\}$, the goal is to check whether this sentence is true. Now the class ER is the family of all problems that admit a polynomial-time reduction to ETR. It is known that NP $\subseteq$ ER $\subseteq$ PSPACE. We restrict our attention on CCSPs with addition constraints ($x + y = z$) and some other mild technical condition. Previously, it was shown that multiplication constraints ($x \cdot y = z$), squaring constraints ($x^2 = y$), or inversion constraints ($x\cdot y = 1$) are sufficient to establish ER-completeness. We extend this in the strongest possible sense for equality constraints as follows. We show that CCSPs (with addition constraints and some other mild technical condition) that have any one well-behaved curved equality constraint ($f(x,y) = 0$) are ER-complete. We further extend our results to inequality constraints. We show that any well-behaved convexly curved and any well-behaved concavely curved inequality constraint ($f(x,y) \geq 0$ and $g(x,y) \geq 0$) imply ER-completeness on the class of such CCSPs. We apply our findings to geometric packing and answer an open question by Abrahamsen et al. [FOCS 2020]. Namely, we establish ER-completeness of packing convex pieces into a square container under rotations and translations.
翻訳日:2021-06-07 23:08:19 公開日:2021-06-04
# (参考訳) nara: クラウドデータセンタのためのネットワーク対応リソース割り当てアルゴリズムの学習 [全文訳有]

Nara: Learning Network-Aware Resource Allocation Algorithms for Cloud Data Centres ( http://arxiv.org/abs/2106.02412v1 )

ライセンス: CC BY 4.0
Zacharaya Shabka, Georgios Zervas(参考訳) データセンター(DC)は、大規模機械学習モデルの分散トレーニングやインターネット・オブ・シング・ベースのプラットフォームなど、多くの先進的な技術動向を浮き彫りにしている。 DCはすぐに世界のエネルギー需要の35%以上を占めるので、DCリソースの効率的な利用が不可欠である。 ロバストDCネットワーク(DCN)は、この需要に対処するために必要な大規模システムを形成するために不可欠であるが、それら間の接続が不十分なサーバがジョブに共同で割り当てられない場合に、いかに効率的にDCサーバリソースを使用できるかをボトルネックにすることができる。 しかしながら、相互接続マップを考慮しつつサーバのリソースをnp-hard combinatorial optimization問題に割り当てることにより、dcリソース管理方式では無視されることが多い。 本稿では,強化学習(RL)とグラフニューラルネットワーク(GNN)に基づくフレームワークであるNaraを紹介した。 我々のソリューションに共通しているのは、GNNを使用してDCN内のサーバノードの表現を生成し、どのサーバリソースを受信要求に割り当てるかを選択するRLポリシーネットワークによってアクションとして解釈されることです。 奈良はトポロジーの大きさや形状に無関係で、エンドツーエンドで訓練されている。 このメソッドは、トレーニング中に見られるDCNよりも最大10\times$多くの計算ノードでDCNにデプロイされた場合、最高のベースラインよりも最大33\%多くのリクエストを受け付けることができ、トレーニング中に見られる100\times$以上のサーバで、DCN上でのポリシーのパフォーマンスを維持することができる。 また、ネットワーク構造や要求分布の異なるDCNトポロジを、再学習することなく一般化する。

Data centres (DCs) underline many prominent future technological trends such as distributed training of large scale machine learning models and internet-of-things based platforms. DCs will soon account for over 3\% of global energy demand, so efficient use of DC resources is essential. Robust DC networks (DCNs) are essential to form the large scale systems needed to handle this demand, but can bottleneck how efficiently DC-server resources can be used when servers with insufficient connectivity between them cannot be jointly allocated to a job. However, allocating servers' resources whilst accounting for their inter-connectivity maps to an NP-hard combinatorial optimisation problem, and so is often ignored in DC resource management schemes. We present Nara, a framework based on reinforcement learning (RL) and graph neural networks (GNN) to learn network-aware allocation policies that increase the number of requests allocated over time compared to previous methods. Unique to our solution is the use of a GNN to generate representations of server-nodes in the DCN, which are then interpreted as actions by a RL policy-network which chooses from which servers resources will be allocated to incoming requests. Nara is agnostic to the topology size and shape and is trained end-to-end. The method can accept up to 33\% more requests than the best baseline when deployed on DCNs with up to the order of $10\times$ more compute nodes than the DCN seen during training and is able to maintain its policy's performance on DCNs with the order of $100\times$ more servers than seen during training. It also generalises to unseen DCN topologies with varied network structure and unseen request distributions without re-training.
翻訳日:2021-06-07 23:06:42 公開日:2021-06-04
# (参考訳) 地理的分散クラウド環境におけるクラウドソーシングライブストリーミングアプリケーションのためのインテリジェントなリソース保護 [全文訳有]

An Intelligent Resource Reservation for Crowdsourced Live Video Streaming Applications in Geo-Distributed Cloud Environment ( http://arxiv.org/abs/2106.02420v1 )

ライセンス: CC BY 4.0
Emna Baccour, Fatima Haouari, Aiman Erbad, Amr Mohamed, Kashif Bilal, Mohsen Guizani, Mounir Hamdi(参考訳) Facebook Live、YouNow、Douyu、Twitchといったクラウドソーシングのライブビデオストリーミング(ライブキャスト)サービスが最近勢いを増している。 QoS(Quality of Service)を最大化しながら、制限されたリソースをコスト効率よく割り当てることは、すべての視聴者に適切な表現を提供することが難しい問題です。 本稿では,ジオ分散クラウドサイトのための機械学習に基づく予測資源割当フレームワークについて,視聴者のqosの最大化とコンテンツプロバイダの最小コストを保証するための遅延と品質の制約を考慮して紹介する。 まず、QoSと全体的なコストのトレードオフにより、視聴者の近くの分散領域における必要なトランスコーディングリソースを決定するオフライン最適化を提案する。 第2に、機械学習を使用して予測モデルを構築し、前もって各クラウドサイトに予約される近似トランスコーディングリソースを積極的に予測します。 最後に,レンタルリソース上でリアルタイムブロードキャストされたビデオのリソース割り当てを行うためのgnca(greedy closest and cheapest algorithm)を開発した。 大規模なシミュレーションにより、GNCAはクラウドソーシングされたライブストリーミングにおける最先端のリソース割り当てアプローチよりも、比較的低いレイテンシで視聴者に提供しながら、システムコストの20%以上のゲインを達成できることが示されている。

Crowdsourced live video streaming (livecast) services such as Facebook Live, YouNow, Douyu and Twitch are gaining more momentum recently. Allocating the limited resources in a cost-effective manner while maximizing the Quality of Service (QoS) through real-time delivery and the provision of the appropriate representations for all viewers is a challenging problem. In our paper, we introduce a machine-learning based predictive resource allocation framework for geo-distributed cloud sites, considering the delay and quality constraints to guarantee the maximum QoS for viewers and the minimum cost for content providers. First, we present an offline optimization that decides the required transcoding resources in distributed regions near the viewers with a trade-off between the QoS and the overall cost. Second, we use machine learning to build forecasting models that proactively predict the approximate transcoding resources to be reserved at each cloud site ahead of time. Finally, we develop a Greedy Nearest and Cheapest algorithm (GNCA) to perform the resource allocation of real-time broadcasted videos on the rented resources. Extensive simulations have shown that GNCA outperforms the state-of-the art resource allocation approaches for crowdsourced live streaming by achieving more than 20% gain in terms of system cost while serving the viewers with relatively lower latency.
翻訳日:2021-06-07 22:42:31 公開日:2021-06-04
# (参考訳) 一度だけ圧縮する:爆発拡大確率的自然勾配による有効で弾性のあるBERT圧縮を目指して [全文訳有]

You Only Compress Once: Towards Effective and Elastic BERT Compression via Exploit-Explore Stochastic Nature Gradient ( http://arxiv.org/abs/2106.02435v1 )

ライセンス: CC BY 4.0
Shaokun Zhang, Xiawu Zheng, Chenyi Yang, Yuchao Li, Yan Wang, Fei Chao, Mengdi Wang, Shen Li, Jun Yang, Rongrong Ji(参考訳) 様々な自然言語処理タスクにおいて優れた性能を持つにもかかわらず、BERTのような事前訓練されたモデルは、リソース制約のあるデバイスにデプロイすることで挑戦される。 既存のモデル圧縮アプローチの多くは、様々なハードウェアデプロイメントに対応するために、様々な制約をまたいだ再圧縮や微調整を必要とする。 これにより、モデル圧縮のさらなる適用が制限される。 さらに、既存の弾性圧縮パラダイム[4,27]の非効率なトレーニングと探索により、BERT圧縮への直接移行が防止される。 BERTの様々な制約にまたがる効率的な推論の必要性を念頭に, YOCO-BERTという新しい手法を提案し, 一度圧縮を行い, 至るところに展開する。 具体的には、まず10^13アーキテクチャによる巨大な検索空間を構築し、BERTモデルのほぼすべての構成を網羅する。 そこで本研究では,探索と搾取のバランスを保った最適候補アーキテクチャの生成を導くための,新しい確率的自然勾配最適化手法を提案する。 リソース制約が与えられた場合、ターゲット配置のための最適なネットワークを微調整することなく得るために、軽量な分散最適化手法が用いられる。 最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。 さらに、YOCO-BERTは、例えば、N個の異なるデバイスに対して、トレーニングの複雑さはO(1)である。 コードはhttps://github.com/m ac-automl/yoco-bert。

Despite superior performance on various natural language processing tasks, pre-trained models such as BERT are challenged by deploying on resource-constraint devices. Most existing model compression approaches require re-compression or fine-tuning across diverse constraints to accommodate various hardware deployments. This practically limits the further application of model compression. Moreover, the ineffective training and searching process of existing elastic compression paradigms[4,27] prevents the direct migration to BERT compression. Motivated by the necessity of efficient inference across various constraints on BERT, we propose a novel approach, YOCO-BERT, to achieve compress once and deploy everywhere. Specifically, we first construct a huge search space with 10^13 architectures, which covers nearly all configurations in BERT model. Then, we propose a novel stochastic nature gradient optimization method to guide the generation of optimal candidate architecture which could keep a balanced trade-off between explorations and exploitation. When a certain resource constraint is given, a lightweight distribution optimization approach is utilized to obtain the optimal network for target deployment without fine-tuning. Compared with state-of-the-art algorithms, YOCO-BERT provides more compact models, yet achieving 2.1%-4.5% average accuracy improvement on the GLUE benchmark. Besides, YOCO-BERT is also more effective, e.g.,the training complexity is O(1)for N different devices. Code is availablehttps://git hub.com/MAC-AutoML/Y OCO-BERT.
翻訳日:2021-06-07 22:16:24 公開日:2021-06-04
# (参考訳) 畳み込みResNetは入力距離をおよそ保存できるか? 周波数解析の展望 [全文訳有]

Can convolutional ResNets approximately preserve input distances? A frequency analysis perspective ( http://arxiv.org/abs/2106.02469v1 )

ライセンス: CC BY 4.0
Lewis Smith, Joost van Amersfoort, Haiwen Huang, Stephen Roberts, Yarin Gal(参考訳) バイリプシッツ(bi-lipschitz)に制約されたresnetは、ほぼ距離保存であり、最近提案された神経モデルにおける決定論的不確かさの定量化技術の重要な要素である。 このような制約を強制しようとする最近の正規化スキームの理論的正当性は重大な欠陥に悩まされていることを示し、このモデルが強い経験的性能を示したにもかかわらず、実際に保持されない条件下では、正規化スキームとバイリプシッツネスの理論的結びつきは有効である。 周波数解析の観点からこれらの正規化スキームの有効性を理論的に説明し、穏やかな条件下では、これらのスキームは画像の低周波射影に対して下リプシッツを強制することを示す。 次に、我々の理論的主張を裏付ける実証的な証拠を提供し、我々のより広範な結論が、我々の証明の数学的仮定のいくつかが緩和されたときに、以前の研究で使われた設定に従って成立することを示すさらなる実験を行う。 さらに, 距離保存条件に対する反例を探索する簡単な構成的アルゴリズムを提案し, 将来のモデル設計における理論の可能性について論じる。

ResNets constrained to be bi-Lipschitz, that is, approximately distance preserving, have been a crucial component of recently proposed techniques for deterministic uncertainty quantification in neural models. We show that theoretical justifications for recent regularisation schemes trying to enforce such a constraint suffer from a crucial flaw -- the theoretical link between the regularisation scheme used and bi-Lipschitzness is only valid under conditions which do not hold in practice, rendering existing theory of limited use, despite the strong empirical performance of these models. We provide a theoretical explanation for the effectiveness of these regularisation schemes using a frequency analysis perspective, showing that under mild conditions these schemes will enforce a lower Lipschitz bound on the low-frequency projection of images. We then provide empirical evidence supporting our theoretical claims, and perform further experiments which demonstrate that our broader conclusions appear to hold when some of the mathematical assumptions of our proof are relaxed, corresponding to the setup used in prior work. In addition, we present a simple constructive algorithm to search for counter examples to the distance preservation condition, and discuss possible implications of our theory for future model design.
翻訳日:2021-06-07 22:02:54 公開日:2021-06-04
# (参考訳) neuracrypt: パブリックトレーニングのためのランダムニューラルネットワークによるプライベートヘルスデータの隠蔽 [全文訳有]

NeuraCrypt: Hiding Private Health Data via Random Neural Networks for Public Training ( http://arxiv.org/abs/2106.02484v1 )

ライセンス: CC BY 4.0
Adam Yala, Homa Esfahanizadeh, Rafael G. L. D' Oliveira, Ken R. Duffy, Manya Ghobadi, Tommi S. Jaakkola, Vinod Vaikuntanathan, Regina Barzilay, Muriel Medard(参考訳) データプライバシと予測ユーティリティのバランスをとることは、医療におけるマシンラーニングの中心的な課題である。 特に、プライバシー上の懸念から、公開データセットの不足、マルチホスピタルコホートの構築の複雑化、外部機械学習リソースの利用の制限などが発生している。 これに対処するために、患者プライバシーとモデリングユーティリティの両方を維持しつつ、病院などのデータ所有者がデータセットを公に共有できるようにする新しい方法が必要となる。 ランダム深層ニューラルネットワークに基づくプライベート符号化方式であるNeuraCryptを提案する。 NeuraCryptは、データ所有者のみが知っているランダムに構築されたニューラルネットワークを使用して、生の患者データをエンコードし、エンコードされたデータと関連するラベルの両方を公開する。 理論的見地から、十分にリッチな符号化関数の族からのサンプリングは、基礎となるデータ分布の完全な知識を持つ計算不能な敵に対して、明確に定義され有意義なプライバシーの概念を提供することを示した。 本稿では,ランダム深層ニューラルネットワークを用いて,この符号化関数群を近似する。 実験により,NuraCryptは,様々なX線タスクにおいて,非プライベートなベースラインに対して,競合精度を達成できることを実証した。 さらに,独立したプライベートエンコーダを用いた複数の病院が協力して改良x線モデルを訓練できることを実証した。 最後に,NeuraCryptに対する新たな攻撃の促進を目的とした課題データセットをリリースする。

Balancing the needs of data privacy and predictive utility is a central challenge for machine learning in healthcare. In particular, privacy concerns have led to a dearth of public datasets, complicated the construction of multi-hospital cohorts and limited the utilization of external machine learning resources. To remedy this, new methods are required to enable data owners, such as hospitals, to share their datasets publicly, while preserving both patient privacy and modeling utility. We propose NeuraCrypt, a private encoding scheme based on random deep neural networks. NeuraCrypt encodes raw patient data using a randomly constructed neural network known only to the data-owner, and publishes both the encoded data and associated labels publicly. From a theoretical perspective, we demonstrate that sampling from a sufficiently rich family of encoding functions offers a well-defined and meaningful notion of privacy against a computationally unbounded adversary with full knowledge of the underlying data-distribution. We propose to approximate this family of encoding functions through random deep neural networks. Empirically, we demonstrate the robustness of our encoding to a suite of adversarial attacks and show that NeuraCrypt achieves competitive accuracy to non-private baselines on a variety of x-ray tasks. Moreover, we demonstrate that multiple hospitals, using independent private encoders, can collaborate to train improved x-ray models. Finally, we release a challenge dataset to encourage the development of new attacks on NeuraCrypt.
翻訳日:2021-06-07 21:40:24 公開日:2021-06-04
# (参考訳) 根拠真理を用いた局所モデル非依存的説明の評価 [全文訳有]

Evaluation of Local Model-Agnostic Explanations Using Ground Truth ( http://arxiv.org/abs/2106.02488v1 )

ライセンス: CC BY 4.0
Amir Hossein Akhavan Rahnama, Judith Butepage, Pierre Geurts, Henrik Bostrom(参考訳) 提案手法は人為的手法を用いて一般に評価され, 大規模評価の可能性や新技術開発における急速な進展を抑える。 局所モデル非依存な説明手法のための機能的基礎評価手法を提案する。 本手法では,ブラックボックスモデルがロジスティック回帰とガウス的ナイーブベイズである場合,説明の根拠真理を生成し,各説明が抽出された基底真理とどの程度類似しているかを比較する。 本研究では,局所的解釈可能なモデル非依存的説明(lime),シェープリー加法説明(shap),局所的置換の重要性(lpi)について,抽出された基底真理との類似性の観点から比較した。 ロジスティック回帰の場合、説明手法の性能はデータの正規化に大きく依存していることが分かる。 対照的に、局所置換重要度は正規化に関係なくネイブベイズにおいて他の技術よりも優れる。 本研究は,機能的地下評価手法のさらなる研究の基盤となることを願っている。

Explanation techniques are commonly evaluated using human-grounded methods, limiting the possibilities for large-scale evaluations and rapid progress in the development of new techniques. We propose a functionally-grounde d evaluation procedure for local model-agnostic explanation techniques. In our approach, we generate ground truth for explanations when the black-box model is Logistic Regression and Gaussian Naive Bayes and compare how similar each explanation is to the extracted ground truth. In our empirical study, explanations of Local Interpretable Model-agnostic Explanations (LIME), SHapley Additive exPlanations (SHAP), and Local Permutation Importance (LPI) are compared in terms of how similar they are to the extracted ground truth. In the case of Logistic Regression, we find that the performance of the explanation techniques is highly dependent on the normalization of the data. In contrast, Local Permutation Importance outperforms the other techniques on Naive Bayes, irrespective of normalization. We hope that this work lays the foundation for further research into functionally-grounde d evaluation methods for explanation techniques.
翻訳日:2021-06-07 21:14:40 公開日:2021-06-04
# (参考訳) NLP埋め込みのベクトル変換改善のための言語モデルメトリクスと韻律解析 [全文訳有]

Language Model Metrics and Procrustes Analysis for Improved Vector Transformation of NLP Embeddings ( http://arxiv.org/abs/2106.02490v1 )

ライセンス: CC BY 4.0
Thomas Conley and Jugal Kalita(参考訳) ニューラルネットワークは、その核となる数学的モデルである。 これは、ネットワークが自然言語処理で処理される場合の、いくつかの根本的な困難を表わす。 重要な問題は、NLP埋め込み空間におけるベクトル間の類似性や距離を測定することである。 ベクトル間の言語距離を測る最良の方法は、それらを生成する言語モデル(LM)を利用することである。 本稿では,分布仮説(LMD)に基づくベクトル変換の精度測定のための言語モデル距離(LMD)を提案する。 バイリンガル単語マッピングのためのProcrustesアルゴリズムを学習する単純なニューラルネットワークに適用することにより,この指標の有効性を示す。

Artificial Neural networks are mathematical models at their core. This truismpresents some fundamental difficulty when networks are tasked with Natural Language Processing. A key problem lies in measuring the similarity or distance among vectors in NLP embedding space, since the mathematical concept of distance does not always agree with the linguistic concept. We suggest that the best way to measure linguistic distance among vectors is by employing the Language Model (LM) that created them. We introduce Language Model Distance (LMD) for measuring accuracy of vector transformations based on the Distributional Hypothesis ( LMD Accuracy ). We show the efficacy of this metric by applying it to a simple neural network learning the Procrustes algorithm for bilingual word mapping.
翻訳日:2021-06-07 21:04:25 公開日:2021-06-04
# (参考訳) ADTrack: リアルタイムアンチダークUAV追跡のためのターゲット認識デュアルフィルタ学習 [全文訳有]

ADTrack: Target-Aware Dual Filter Learning for Real-Time Anti-Dark UAV Tracking ( http://arxiv.org/abs/2106.02495v1 )

ライセンス: CC BY 4.0
Bowen Li, Changhong Fu, Fangqiang Ding, Junjie Ye, and Fuling Lin(参考訳) 先行相関フィルタ(cf)に基づく無人航空機の追跡手法(uavs)は、日中の追跡に事実上焦点を合わせている。 しかし、夜になるとトラッカーはより厳しいシーンに遭遇し、簡単に追跡の失敗につながる可能性がある。 そこで本研究では,アンチダーク機能付きトラッカー (ADTrack) を提案する。 提案手法は,効率的な低照度画像エンハンサーをCFベースのトラッカーに統合する。 また、画像照明変動により、目標認識マスクを同時に生成する。 目標認識マスクを適用して、ロバストトラッキングのためのコンテキストフィルタを支援するターゲット中心フィルタを協調訓練することができる。 特に、ADTrackはデュアルレグレッションを採用し、コンテキストフィルタとターゲット中心フィルタは二重フィルタ学習のために互いに制限する。 このベンチマークは、権威あるベンチマーク(uavdark)と新しく構築したベンチマークuavdark70(uavdark70) の37の典型的な夜間シーケンスで構成されています。 その結果、ADTrackは他の最先端トラッカーよりも優れ、単一のCPU上で34フレーム/秒のリアルタイム速度を実現し、堅牢なUAVトラッキングを夜景に拡張した。

Prior correlation filter (CF)-based tracking methods for unmanned aerial vehicles (UAVs) have virtually focused on tracking in the daytime. However, when the night falls, the trackers will encounter more harsh scenes, which can easily lead to tracking failure. In this regard, this work proposes a novel tracker with anti-dark function (ADTrack). The proposed method integrates an efficient and effective low-light image enhancer into a CF-based tracker. Besides, a target-aware mask is simultaneously generated by virtue of image illumination variation. The target-aware mask can be applied to jointly train a target-focused filter that assists the context filter for robust tracking. Specifically, ADTrack adopts dual regression, where the context filter and the target-focused filter restrict each other for dual filter learning. Exhaustive experiments are conducted on typical dark sceneries benchmark, consisting of 37 typical night sequences from authoritative benchmarks, i.e., UAVDark, and our newly constructed benchmark UAVDark70. The results have shown that ADTrack favorably outperforms other state-of-the-art trackers and achieves a real-time speed of 34 frames/s on a single CPU, greatly extending robust UAV tracking to night scenes.
翻訳日:2021-06-07 20:58:35 公開日:2021-06-04
# (参考訳) COINS: 物語の完成のための動的に共文化推論ルールを生成する [全文訳有]

COINS: Dynamically Generating COntextualized Inference Rules for Narrative Story Completion ( http://arxiv.org/abs/2106.02497v1 )

ライセンス: CC BY 4.0
Debjit Paul and Anette Frank(参考訳) 推論タスクの解決において、大規模な事前訓練された言語モデルが近年成功しているが、推論能力はいまだに不透明である。 このようなモデルは、インターミット推論ルールを明示的に生成し、タスク固有のテキスト出力の生成をガイドすることで、より解釈可能であると仮定する。 本稿では, 反復的に文脈文を読み取る再帰的推論フレームワークであるcoin, i) コンテキスト化推論ルールを動的に生成し, それらをエンコードし, iii) タスク固有の出力生成を導く。 物語完成タスクにコインを適用することで、モデルに欠文でストーリーを完了させ、妥当な論理的なつながり、因果関係、時間的依存関係を持つ一貫性のあるストーリーを作り出す。 リカレントモデルにおける推論と文生成ステップをモジュール化することにより,推論ステップとその文生成への影響を透明化することを目指す。 自動的および手動的評価は、特にコヒーレンスの観点から、SOTAベースラインよりも優れたストーリー文を生成することを示す。 さらに,コモンセンス推論ルールの生成において,強いトレーニング済みLMよりも優れた性能を示す。 COINSの再帰的性質は、長い配列の制御された生成の可能性を秘めている。

Despite recent successes of large pre-trained language models in solving reasoning tasks, their inference capabilities remain opaque. We posit that such models can be made more interpretable by explicitly generating interim inference rules, and using them to guide the generation of task-specific textual outputs. In this paper we present COINS, a recursive inference framework that i) iteratively reads context sentences, ii) dynamically generates contextualized inference rules, encodes them, and iii) uses them to guide task-specific output generation. We apply COINS to a Narrative Story Completion task that asks a model to complete a story with missing sentences, to produce a coherent story with plausible logical connections, causal relationships, and temporal dependencies. By modularizing inference and sentence generation steps in a recurrent model, we aim to make reasoning steps and their effects on next sentence generation transparent. Our automatic and manual evaluations show that the model generates better story sentences than SOTA baselines, especially in terms of coherence. We further demonstrate improved performance over strong pre-trained LMs in generating commonsense inference rules. The recursive nature of COINS holds the potential for controlled generation of longer sequences.
翻訳日:2021-06-07 20:38:57 公開日:2021-06-04
# (参考訳) 画像局所自己回帰変換器 [全文訳有]

The Image Local Autoregressive Transformer ( http://arxiv.org/abs/2106.02514v1 )

ライセンス: CC BY 4.0
Chenjie Cao, Yuxin Hong, Xiang Li, Chengrong Wang, Chengming Xu, XiangYang Xue, Yanwei Fu(参考訳) 近年、トランスフォーマーによってパワーアップされた画像生成全体のAutoRegressive(AR)モデルは、GAN(Generative Adversarial Networks)と同等あるいはそれ以上のパフォーマンスを達成した。 残念ながら、そのようなARモデルをローカル画像領域の編集/変更に直接適用することは、グローバルな情報の欠如、推論速度の遅さ、ローカルガイダンスの情報漏洩といった問題に悩まされる可能性がある。 これらの制約に対処するため,我々は,局所的に誘導される画像合成をより容易にするための新しいモデルであるイメージ・ローカル自己回帰トランスフォーマ(ilat)を提案する。 我々のiLATは、注目マスクと畳み込み機構の局所自己回帰変換器(LA)により、新しい局所離散表現を学習する。 これにより、キーガイダンス情報により局所画像領域を効率的に合成することができる。 iLATは、ポーズ誘導人物画像合成や顔編集など、様々な局所誘導画像合成に基づいて評価される。 定量的および質的結果から,本モデルの有効性が示された。

Recently, AutoRegressive (AR) models for the whole image generation empowered by transformers have achieved comparable or even better performance to Generative Adversarial Networks (GANs). Unfortunately, directly applying such AR models to edit/change local image regions, may suffer from the problems of missing global information, slow inference speed, and information leakage of local guidance. To address these limitations, we propose a novel model -- image Local Autoregressive Transformer (iLAT), to better facilitate the locally guided image synthesis. Our iLAT learns the novel local discrete representations, by the newly proposed local autoregressive (LA) transformer of the attention mask and convolution mechanism. Thus iLAT can efficiently synthesize the local image regions by key guidance information. Our iLAT is evaluated on various locally guided image syntheses, such as pose-guided person image synthesis and face editing. Both the quantitative and qualitative results show the efficacy of our model.
翻訳日:2021-06-07 20:15:35 公開日:2021-06-04
# (参考訳) 補助損失関数によるコンピュータ生成ダイアログの改善とカスタム評価基準 [全文訳有]

Improving Computer Generated Dialog with Auxiliary Loss Functions and Custom Evaluation Metrics ( http://arxiv.org/abs/2106.02516v1 )

ライセンス: CC BY 4.0
Thomas Conley, Jack St. Clair, Jugal Kalita(参考訳) 人々は無駄な対話を努力なしに行う能力を持っているが、これは独特な人間的特徴ではないかもしれない。 1960年代以降、研究者は人工会話を生成できるエージェントを作ろうと試みている。 これらのプログラムは一般的にチャットボットとして知られている。 対話生成にニューラルネットワークの利用が増加すると、この目標が達成されたと結論付ける者もいる。 本研究は,対話生成型リカレントニューラルネットワーク(rnn)を作成し,補助損失関数とビーム探索により,このネットワークの能力を高めることで,クエストに加わる。 我々のカスタム損失関数は、最大相互情報(MMI)とエントロピーの計算を含めることで、より優れた凝集とコヒーレンスを実現する。 本システムの有効性は,従来の研究成果から着想を得た,自然言語処理の試行と真理に基づく,一連のカスタム評価指標を用いて実証する。

Although people have the ability to engage in vapid dialogue without effort, this may not be a uniquely human trait. Since the 1960's researchers have been trying to create agents that can generate artificial conversation. These programs are commonly known as chatbots. With increasing use of neural networks for dialog generation, some conclude that this goal has been achieved. This research joins the quest by creating a dialog generating Recurrent Neural Network (RNN) and by enhancing the ability of this network with auxiliary loss functions and a beam search. Our custom loss functions achieve better cohesion and coherence by including calculations of Maximum Mutual Information (MMI) and entropy. We demonstrate the effectiveness of this system by using a set of custom evaluation metrics inspired by an abundance of previous research and based on tried-and-true principles of Natural Language Processing.
翻訳日:2021-06-07 19:56:04 公開日:2021-06-04
# (参考訳) トランスフォーマーと意味的対応 [全文訳有]

Semantic Correspondence with Transformers ( http://arxiv.org/abs/2106.02520v1 )

ライセンス: CC BY 4.0
Seokju Cho, Sunghwan Hong, Sangryul Jeon, Yunsung Lee, Kwanghoon Sohn and Seungryong Kim(参考訳) そこで我々は,CAT (Cost Aggregation with Transformers) と呼ばれる新しいコスト集約ネットワークを提案する。 厳しい変形に対する堅牢性の欠如や、限定的な受容場による不適切なマッチングの識別に失敗するCNNの制限を継承する従来の手作りあるいはCNNベースの手法と比較して、CATは、自己認識機構の可能性を最大限に活用できるアーキテクチャ設計の助けを借りて、初期相関マップのグローバルコンセンサスを探求する。 具体的には,初期相関マップとマルチレベルアグリゲーションを曖昧にすることで,トランスフォーマティブベースのアグリゲータ内の階層的特徴表現の恩恵を受けるとともに,一貫性のあるマッチングを強制するだけでなく,学習プロセスを容易にするために自己アグリゲータと残余接続の交換を組み合わせる,外観親和性モデリングを含む。 提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。 コードとトレーニングされたモデルはhttps://github.com/s unghwanhong/catsで利用可能になる。

We propose a novel cost aggregation network, called Cost Aggregation with Transformers (CATs), to find dense correspondences between semantically similar images with additional challenges posed by large intra-class appearance and geometric variations. Compared to previous hand-crafted or CNN-based methods addressing the cost aggregation stage, which either lack robustness to severe deformations or inherit the limitation of CNNs that fail to discriminate incorrect matches due to limited receptive fields, CATs explore global consensus among initial correlation map with the help of some architectural designs that allow us to exploit full potential of self-attention mechanism. Specifically, we include appearance affinity modelling to disambiguate the initial correlation maps and multi-level aggregation to benefit from hierarchical feature representations within Transformer-based aggregator, and combine with swapping self-attention and residual connections not only to enforce consistent matching, but also to ease the learning process. We conduct experiments to demonstrate the effectiveness of the proposed model over the latest methods and provide extensive ablation studies. Code and trained models will be made available at https://github.com/S unghwanHong/CATs.
翻訳日:2021-06-07 19:47:34 公開日:2021-06-04
# (参考訳) ニューラルネットワークによる多元素の吸収性と放射率スペクトルのモデル [全文訳有]

Neural Network Surrogate Models for Absorptivity and Emissivity Spectra of Multiple Elements ( http://arxiv.org/abs/2106.02528v1 )

ライセンス: CC BY 4.0
Michael D. Vander Wal (1), Ryan G. McClarren (1), Kelli D. Humbird (2) ((1) University of Notre Dame, (2) Lawrence Livermore National Laboratory)(参考訳) 高エネルギー密度物理のシミュレーションは計算資源の点で高価である。 特に、非局所熱平衡系(NLTE)における放射輸送を正確に計算するために必要となるプラズマの不透明度の計算は、シミュレーションの他の全てのコンポーネントの合計計算時間を何倍も容易に要求できる点において費用がかかる。 そのため,NLTE計算を高速化する方法の発見には大きな関心がある。 これまでの研究では、完全に接続されたオートエンコーダとディープジョイントインフォームドニューラルネットワーク(DJINN)を組み合わせることで、クリプトンの不透明度に対する標準的なNLTE計算を置き換えることに成功した。 この研究は、このアイデアを複数の要素に拡張し、個々のサロゲートモデルが他の要素に対しても生成可能であることを示すとともに、吸収率と放射率のスペクトルを正確にエンコードしデコードできるオートエンコーダを作成することに重点を置いている。 さらに本研究は, 畳み込みオートエンコーダを用いた場合, 個々の完全連結オートエンコーダに匹敵する精度を維持しつつ, 幅広い原子数にわたる複数の要素を単一のオートエンコーダに結合できることを示す。 最後に、DJINNは、複数の要素をエンコードできる畳み込みオートエンコーダの潜在空間を効果的に学習し、結合を代理モデルとして効果的に機能させることができることを示した。

Simulations of high energy density physics are expensive in terms of computational resources. In particular, the computation of opacities of plasmas, which are needed to accurately compute radiation transport in the non-local thermal equilibrium (NLTE) regime, are expensive to the point of easily requiring multiple times the sum-total compute time of all other components of the simulation. As such, there is great interest in finding ways to accelerate NLTE computations. Previous work has demonstrated that a combination of fully-connected autoencoders and a deep jointly-informed neural network (DJINN) can successfully replace the standard NLTE calculations for the opacity of krypton. This work expands this idea to multiple elements in demonstrating that individual surrogate models can be also be generated for other elements with the focus being on creating autoencoders that can accurately encode and decode the absorptivity and emissivity spectra. Furthermore, this work shows that multiple elements across a large range of atomic numbers can be combined into a single autoencoder when using a convolutional autoencoder while maintaining accuracy that is comparable to individual fully-connected autoencoders. Lastly, it is demonstrated that DJINN can effectively learn the latent space of a convolutional autoencoder that can encode multiple elements allowing the combination to effectively function as a surrogate model.
翻訳日:2021-06-07 19:29:03 公開日:2021-06-04
# (参考訳) 5Gとネットワークを越えたトランスファー可能な分散ユーザアソシエーションポリシー [全文訳有]

Transferable and Distributed User Association Policies for 5G and Beyond Networks ( http://arxiv.org/abs/2106.02540v1 )

ライセンス: CC BY 4.0
Mohamed Sana, Nicola di Pietro, Emilio Calvanese Strinati(参考訳) そこで本研究では,ネットワーク性能を達成するために,基地局へのユーザ機器の最適配置を求めるというユーザアソシエーションの問題について検討する。 本稿では,アソシエーション政策の知識伝達可能性に着目した。 実際、従来の非自明なユーザアソシエーションスキームはシナリオ固有のものやデプロイメント固有のものが多く、ユーザ数や位置が変わるとポリシーの再設計や再学習が必要になる。 これとは対照的に、トランスファビリティは、特定のシナリオのために考案された単一のユーザアソシエーションポリシを、重要な再学習や再設計フェーズを必要とせず、他の異なるユーザデプロイメントに適用し、計算と管理の複雑さを大幅に削減することができる。 転送性を実現するために,まず,ユーザアソシエーションをマルチエージェント強化学習問題として用いた。 そこで,本稿では,この文脈に特化して着目する神経的注意機構に基づいて,ゼロショットの一般化能力を持つユーザ間で,追加のトレーニングを必要とせずに転送可能な,新たな分散ポリシネットワークアーキテクチャを提案する。

We study the problem of user association, namely finding the optimal assignment of user equipment to base stations to achieve a targeted network performance. In this paper, we focus on the knowledge transferability of association policies. Indeed, traditional non-trivial user association schemes are often scenario-specific or deployment-specific and require a policy re-design or re-learning when the number or the position of the users change. In contrast, transferability allows to apply a single user association policy, devised for a specific scenario, to other distinct user deployments, without needing a substantial re-learning or re-design phase and considerably reducing its computational and management complexity. To achieve transferability, we first cast user association as a multi-agent reinforcement learning problem. Then, based on a neural attention mechanism that we specifically conceived for this context, we propose a novel distributed policy network architecture, which is transferable among users with zero-shot generalization capability i.e., without requiring additional training.Numerical results show the effectiveness of our solution in terms of overall network communication rate, outperforming centralized benchmarks even when the number of users doubles with respect to the initial training point.
翻訳日:2021-06-07 19:21:31 公開日:2021-06-04
# (参考訳) アクティブカバー [全文訳有]

Active Covering ( http://arxiv.org/abs/2106.02552v1 )

ライセンス: CC BY 4.0
Heinrich Jiang, Afshin Rostamizadeh(参考訳) 学習者がラベルのないデータセットを与えられ、クエリの例を順次ラベル付けできるアクティブカバーの問題を解析する。 目的は,最少数のラベルクエリにおいて,肯定的な例をすべてラベル付けすることである。 我々は、古典的サポート推定器を、最適な学習者と比較して、$\widetilde{\Theta}(n^{D/(D+1)})$の過剰なクエリコストが得られるようなオフラインアルゴリズムとして再利用できるという標準的な非パラメトリックな仮定を示す。 次に,より優れた過剰クエリコストを$\widetilde{O}(n^{(D-1)/D})$で実現する,シンプルな能動学習手法を提案する。 さらに、提案アルゴリズムは正のラベル付き例にのみアクセスする必要があるが、特定の設定では、さらなる計算とプライバシーの利点を提供する。 最後に、アクティブラーニング手法は、幅広いベンチマーク画像に基づくデータセットにおいて、オフラインメソッドと様々なベースラインを一貫して上回っていることを示す。

We analyze the problem of active covering, where the learner is given an unlabeled dataset and can sequentially label query examples. The objective is to label query all of the positive examples in the fewest number of total label queries. We show under standard non-parametric assumptions that a classical support estimator can be repurposed as an offline algorithm attaining an excess query cost of $\widetilde{\Theta}(n^{D/(D+1)})$ compared to the optimal learner, where $n$ is the number of datapoints and $D$ is the dimension. We then provide a simple active learning method that attains an improved excess query cost of $\widetilde{O}(n^{(D-1)/D})$. Furthermore, the proposed algorithms only require access to the positive labeled examples, which in certain settings provides additional computational and privacy benefits. Finally, we show that the active learning method consistently outperforms offline methods as well as a variety of baselines on a wide range of benchmark image-based datasets.
翻訳日:2021-06-07 19:07:25 公開日:2021-06-04
# (参考訳) syntactic Probesはsyntaxか? Jabberwocky Probingの実験 [全文訳有]

Do Syntactic Probes Probe Syntax? Experiments with Jabberwocky Probing ( http://arxiv.org/abs/2106.02559v1 )

ライセンス: CC BY 4.0
Rowan Hall Maudslay, Ryan Cotterell(参考訳) 言語情報をエンコードするニューラルネットワークモデルが、NLPで人気が高まっている。 bertエンコード構文のようなモデルがプロビング(probing)と呼ばれ、プローブは他のモデルの出力から言語情報を抽出するために訓練された小さな教師付きモデルである。 プローブが特定の構造を予測できるならば、それが訓練されたモデルが暗黙的にそれをエンコードすることを学ばなければならない、という議論がある。 しかし、プローブが何を学べるかに基づいて、特定の現象に関するモデルの言語知識を一般化することは、問題となるかもしれない:本研究では、トレーニングデータにおける意味的手がかりは、構文プローブが構文を適切に分離しないことを意味する。 意味論的に非意味的だが構文的によくできたjabberwocky文のコーパスを生成し,正規データに基づく2つのプローブの評価を行う。 我々は、いくつかの人気のある言語モデル(BERT、GPT、RoBERTa)でプローブをトレーニングし、これらのデータに基づいて評価した場合、平均15.4UASポイントのプローブに対して、すべての設定において、それらがより悪い結果をもたらすことを確かめる。 ほとんどの場合、基線より優れているが、例えば、鉛は大幅に減少する。 1つのプローブの bert の場合 53% 増加しました どんな経験的スコアが構文を知ることを構成するのか?

Analysing whether neural language models encode linguistic information has become popular in NLP. One method of doing so, which is frequently cited to support the claim that models like BERT encode syntax, is called probing; probes are small supervised models trained to extract linguistic information from another model's output. If a probe is able to predict a particular structure, it is argued that the model whose output it is trained on must have implicitly learnt to encode it. However, drawing a generalisation about a model's linguistic knowledge about a specific phenomena based on what a probe is able to learn may be problematic: in this work, we show that semantic cues in training data means that syntactic probes do not properly isolate syntax. We generate a new corpus of semantically nonsensical but syntactically well-formed Jabberwocky sentences, which we use to evaluate two probes trained on normal data. We train the probes on several popular language models (BERT, GPT, and RoBERTa), and find that in all settings they perform worse when evaluated on these data, for one probe by an average of 15.4 UUAS points absolute. Although in most cases they still outperform the baselines, their lead is reduced substantially, e.g. by 53% in the case of BERT for one probe. This begs the question: what empirical scores constitute knowing syntax?
翻訳日:2021-06-07 18:49:37 公開日:2021-06-04
# (参考訳) 素晴らしいサービス! 暗黙的引数のきめ細かい解析 [全文訳有]

Great Service! Fine-grained Parsing of Implicit Arguments ( http://arxiv.org/abs/2106.02561v1 )

ライセンス: CC BY 4.0
Ruixiang Cui, Daniel Hershcovich(参考訳) NLPの広範囲表現は、主に明示的に表現されたコンテンツに焦点を当てている。 さらに重要なことに、多様な暗黙的な役割を示すデータセットの不足は、経験的な研究を言語的なニュアンスに制限する。 例えば、Webレビューの "Great Service! プロバイダとコンシューマは、異なるタイプの暗黙の引数です。 微粒な暗黙的議論(Cui and Hershcovich, 2020)の注釈付きコーパスを慎重に再注釈し,いくつかの矛盾を解消する。 その後、暗黙の引数を動的に処理できる最初のトランジションベースのニューラルパーサを提案し、改良されたデータセット上で2つの異なる遷移システムを試す。 ある種の暗黙的論証は他よりも解析が難しいことや、より単純なシステムが暗黙的論証を復元する上でより正確であることに気付き、全体の解析スコアが低いにもかかわらず、現在のNLPモデルの推論限界を証明している。 この作業は、暗黙的かつ未特定な言語をより理解しやすくし、それを意味表現にホリスティックに組み込む。

Broad-coverage meaning representations in NLP mostly focus on explicitly expressed content. More importantly, the scarcity of datasets annotating diverse implicit roles limits empirical studies into their linguistic nuances. For example, in the web review "Great service!", the provider and consumer are implicit arguments of different types. We examine an annotated corpus of fine-grained implicit arguments (Cui and Hershcovich, 2020) by carefully re-annotating it, resolving several inconsistencies. Subsequently, we present the first transition-based neural parser that can handle implicit arguments dynamically, and experiment with two different transition systems on the improved dataset. We find that certain types of implicit arguments are more difficult to parse than others and that the simpler system is more accurate in recovering implicit arguments, despite having a lower overall parsing score, attesting current reasoning limitations of NLP models. This work will facilitate a better understanding of implicit and underspecified language, by incorporating it holistically into meaning representations.
翻訳日:2021-06-07 18:37:26 公開日:2021-06-04
# (参考訳) 注意の解釈性の向上 : 高速・高精度・高分解能注意モデル [全文訳有]

Improve the Interpretability of Attention: A Fast, Accurate, and Interpretable High-Resolution Attention Model ( http://arxiv.org/abs/2106.02566v1 )

ライセンス: CC BY 4.0
Tristan Gomez, Suiyi Ling, Thomas Fr\'eour, Harold Mouch\`ere(参考訳) 注意機構の利用頻度は、注意分布の解釈可能性に懸念を抱いている。 モデルがどのように動作しているかについての洞察を提供するが、モデル予測の説明として注意をあてはめることは、まだ非常に疑わしい。 コミュニティは、最終決定に最も寄与する地域活動地域をよりよく識別するための、より解釈可能な戦略を模索している。 既存のアテンションモデルの解釈可能性を改善するために,タスク関連情報を取り込む新しいbilinear Representative Non-Parametric Attention(BR-NPA)戦略を提案する。 ターゲットモデルは、まず高分解能中間特徴マップを持つように蒸留される。 そこから、代表的特徴を局所的なペアワイズ特徴類似度に基づいてグループ化し、入力のタスク関連部分を強調したよりきめ細かなより正確な注意マップを生成する。 得られた注意マップは、強調された領域の重要なレベルに関する情報を提供する複合特徴の「アクティブレベル」に従ってランク付けされる。 提案されたモデルは、分類にかかわる様々な現代の深層モデルに容易に適用することができる。 また、通常のニューラルアテンションモジュールよりも正確で高速で、メモリフットプリントも小さい。 大規模な実験では、いくつかのショット分類、人物の再識別、きめ細かい画像分類を含む複数のタスクにわたる最先端の可視化モデルと比較して、より包括的な視覚的説明が示される。 提案する可視化モデルは、異なるタスクでニューラルネットワークが注意を払わなければならないことを示唆する。

The prevalence of employing attention mechanisms has brought along concerns on the interpretability of attention distributions. Although it provides insights about how a model is operating, utilizing attention as the explanation of model predictions is still highly dubious. The community is still seeking more interpretable strategies for better identifying local active regions that contribute the most to the final decision. To improve the interpretability of existing attention models, we propose a novel Bilinear Representative Non-Parametric Attention (BR-NPA) strategy that captures the task-relevant human-interpretable information. The target model is first distilled to have higher-resolution intermediate feature maps. From which, representative features are then grouped based on local pairwise feature similarity, to produce finer-grained, more precise attention maps highlighting task-relevant parts of the input. The obtained attention maps are ranked according to the `active level' of the compound feature, which provides information regarding the important level of the highlighted regions. The proposed model can be easily adapted in a wide variety of modern deep models, where classification is involved. It is also more accurate, faster, and with a smaller memory footprint than usual neural attention modules. Extensive experiments showcase more comprehensive visual explanations compared to the state-of-the-art visualization model across multiple tasks including few-shot classification, person re-identification, fine-grained image classification. The proposed visualization model sheds imperative light on how neural networks `pay their attention' differently in different tasks.
翻訳日:2021-06-07 18:20:09 公開日:2021-06-04
# (参考訳) AI駆動の道路メンテナンス検査 [全文訳有]

AI Driven Road Maintenance Inspection ( http://arxiv.org/abs/2106.02567v1 )

ライセンス: CC BY 4.0
Ratnajit Mukherjee, Haris Iqbal, Shabbir Marzban, Ahmed Badar, Terence Brouns, Shruthi Gowda, Elahe Arani and Bahram Zonooz(参考訳) 道路インフラの整備検査は、通常、全ての道路利用者の安全を確保するために労働集約的で重要な作業である。 本研究では,人工知能とコンピュータビジョンの最先端技術を用いて,保守検査サブタスクの相当な部分を自動化し,作業コストを削減する方法を提案する。 提案手法は,オブジェクト検出やセマンティクスセグメンテーションといった最先端のコンピュータビジョン技術を用いて道路面,マーキング,バリア(ガードレール),交通標識などの主要道路構造物の検査を自動化する。 モデルは主に商用に実行可能なデータセットでトレーニングされ、プロプライエタリなデータで拡張される。 私たちのaiモデルは、主要な道路構造物のメンテナンス検査を自動化するだけでなく、従来の手動検査よりも高いリコールを実現できることを実証します。

Road infrastructure maintenance inspection is typically a labour-intensive and critical task to ensure the safety of all the road users. In this work, we propose a detailed methodology to use state-of-the-art techniques in artificial intelligence and computer vision to automate a sizeable portion of the maintenance inspection subtasks and reduce the labour costs. The proposed methodology uses state-of-the-art computer vision techniques such as object detection and semantic segmentation to automate inspections on primary road structures such as the road surface, markings, barriers (guardrails) and traffic signs. The models are mostly trained on commercially viable datasets and augmented with proprietary data. We demonstrate that our AI models can not only automate and scale maintenance inspections on primary road structures but also result in higher recall compared to traditional manual inspections.
翻訳日:2021-06-07 17:57:45 公開日:2021-06-04
# (参考訳) Alexa、Google、Siri:あなたの発音は? 会話アシスタントの設計と知覚におけるジェンダーと擬人化 [全文訳有]

Alexa, Google, Siri: What are Your Pronouns? Gender and Anthropomorphism in the Design and Perception of Conversational Assistants ( http://arxiv.org/abs/2106.02578v1 )

ライセンス: CC BY 4.0
Gavin Abercrombie, Amanda Cercas Curry, Mugdha Pandya, Verena Rieser(参考訳) テクノロジー企業は、会話型AIシステムの設計の影響に関する懸念に対して様々な反応を出している。 一部の人は、彼らの音声アシスタントは実際には性別や人間のようなものではないと主張している。 これらの主張を、AIアシスタントを参照する際に使用する代名詞を分析し、ユーザ認知と比較する。 また,システムの応答と,性別と擬人化された出力の程度についても検討した。 一部の企業は倫理的懸念に対処しているように見えるが、場合によっては彼らの主張は真実ではないようだ。 特に,本研究の結果から,システムの人文性には不明瞭な結果がみられ,その結果,ユーザの人格化や性別化の傾向が示唆された。

Technology companies have produced varied responses to concerns about the effects of the design of their conversational AI systems. Some have claimed that their voice assistants are in fact not gendered or human-like -- despite design features suggesting the contrary. We compare these claims to user perceptions by analysing the pronouns they use when referring to AI assistants. We also examine systems' responses and the extent to which they generate output which is gendered and anthropomorphic. We find that, while some companies appear to be addressing the ethical concerns raised, in some cases, their claims do not seem to hold true. In particular, our results show that system outputs are ambiguous as to the humanness of the systems, and that users tend to personify and gender them as a result.
翻訳日:2021-06-07 17:52:59 公開日:2021-06-04
# (参考訳) BERTに基づく感情分析:ソフトウェア工学の視点から [全文訳有]

BERT based sentiment analysis: A software engineering perspective ( http://arxiv.org/abs/2106.02581v1 )

ライセンス: CC BY 4.0
Himanshu Batra, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) 感性分析は、使用するAPIレコメンデーションシステムや関連するライブラリとともに、ソフトウェアエンジニアリングで使用されるツールに適したリードを提供することができます。 この文脈では、SentiCRやSentiStrength-SEといった既存のツールが使われています。 このような戦略の展開目的を完全に損なう低いf1スコアを示すため、十分なパフォーマンス改善の範囲があります。 最近の進歩は、トランスフォーマーベースの事前訓練モデル(BERT、RoBERTa、ALBERTなど)が示されている。 テキスト分類タスクで より良い結果を示しました この文脈に従い、本研究では、githubコメント、jiraコメント、stack overflow投稿中の文を分析するために、bertベースのさまざまなモデルを調査します。 本稿では、感情分析のためのBERTモデルを分析するための3つの異なる戦略を提案する。第1の戦略では、BERTベースの事前学習モデルが微調整され、第2の戦略では、BERTの変種からアンサンブルモデルが開発され、第3の戦略では圧縮モデル(Distil BERT)が使用される。 実験の結果, BERTに基づくアンサンブル手法と圧縮BERTモデルにより, 3つのデータセットのF1測定ツールよりも6-12%向上した。

Sentiment analysis can provide a suitable lead for the tools used in software engineering along with the API recommendation systems and relevant libraries to be used. In this context, the existing tools like SentiCR, SentiStrength-SE, etc. exhibited low f1-scores that completely defeats the purpose of deployment of such strategies, thereby there is enough scope of performance improvement. Recent advancements show that transformer based pre-trained models (e.g., BERT, RoBERTa, ALBERT, etc.) have displayed better results in the text classification task. Following this context, the present research explores different BERT-based models to analyze the sentences in GitHub comments, Jira comments, and Stack Overflow posts. The paper presents three different strategies to analyse BERT based model for sentiment analysis, where in the first strategy the BERT based pre-trained models are fine-tuned; in the second strategy an ensemble model is developed from BERT variants; and in the third strategy a compressed model (Distil BERT) is used. The experimental results show that the BERT based ensemble approach and the compressed BERT model attain improvements by 6-12% over prevailing tools for the F1 measure on all three datasets.
翻訳日:2021-06-07 17:39:58 公開日:2021-06-04
# (参考訳) 高次元線形モデルにおける空間緩和推論

Spatially relaxed inference on high-dimensional linear models ( http://arxiv.org/abs/2106.02590v1 )

ライセンス: CC BY 4.0
J\'er\^ome-Alexis Chevalier, Tuan-Binh Nguyen, Bertrand Thirion, Joseph Salmon(参考訳) 本研究では,高次元線形モデルの空間構造が相関に反映されている場合の推論問題を考察する。 このような設定の典型的な例は高解像度イメージングであり、隣接するピクセルは通常非常によく似ている。 正確な点と信頼区間の推定は、サンプルよりも多くの共変量を持つこの文脈では不可能であり、さらに共変量間の相関が高い。 このことは、基底となる空間構造を考慮に入れた統計的推論問題の再構成を要求する:共変量が局所的に相関している場合、与えられた空間不確実性までそれらを検出することは許容できる。 したがって、我々は$\delta$-FWER(これは真正から$\delta$より大きい距離で偽の発見をする確率である)に頼ることを提案する。 この目標を念頭に置いて,空間的制約付きクラスタリング,統計的推論,アンサンブルという3つの手法を組み合わせたクラスタ型推論アルゴリズムの特性について検討した。 クラスタ化推論アルゴリズムは、最大クラスター径に等しい$\delta$の標準的な仮定の下で$\delta$-fwerを制御する。 我々は理論解析を経験的結果で補完し,そのような推論アルゴリズムによって達成された精度の高い$\delta$fwer制御とまともなパワーを示す。

We consider the inference problem for high-dimensional linear models, when covariates have an underlying spatial organization reflected in their correlation. A typical example of such a setting is high-resolution imaging, in which neighboring pixels are usually very similar. Accurate point and confidence intervals estimation is not possible in this context with many more covariates than samples, furthermore with high correlation between covariates. This calls for a reformulation of the statistical inference problem, that takes into account the underlying spatial structure: if covariates are locally correlated, it is acceptable to detect them up to a given spatial uncertainty. We thus propose to rely on the $\delta$-FWER, that is the probability of making a false discovery at a distance greater than $\delta$ from any true positive. With this target measure in mind, we study the properties of ensembled clustered inference algorithms which combine three techniques: spatially constrained clustering, statistical inference, and ensembling to aggregate several clustered inference solutions. We show that ensembled clustered inference algorithms control the $\delta$-FWER under standard assumptions for $\delta$ equal to the largest cluster diameter. We complement the theoretical analysis with empirical results, demonstrating accurate $\delta$-FWER control and decent power achieved by such inference algorithms.
翻訳日:2021-06-07 17:32:21 公開日:2021-06-04
# (参考訳) ポースとセマンティックマップを用いた道路利用者軌道の確率予測 [全文訳有]

Pose and Semantic Map Based Probabilistic Forecast of Vulnerable Road Users' Trajectories ( http://arxiv.org/abs/2106.02598v1 )

ライセンス: CC BY 4.0
Viktor Kress, Fabian Jeske, Stefan Zernetsch, Konrad Doll, Bernhard Sick(参考訳) 本稿では,危険道路利用者(VRU)の確率的軌道予測手法について紹介し,過去の動きと周辺環境を考察する。 過去の動きは、個々の身体部位の姿勢と動きを反映した3dポーズで表される。 周囲のシーンは、道路、歩道、障害物の発生など、意味的な地図形式でモデル化されている。 予測は、空間を識別する格子と任意の離散確率分布の形で生成される。 分布は、その信頼性、鋭さ、位置精度の観点から評価される。 本手法をガウス分布の形で予測を提供する手法と比較し,それぞれの利点とデメリットについて考察する。 そこで,ポーズとセマンティックマップの利用が与える影響について検討する。 空間ラベル平滑化と呼ばれる手法により,本手法は信頼性の高い予測を行う。 概して、ポーズは予測にポジティブな影響を与えます。 セマンティックマップは個々の状況に確率分布を適応させる機会を提供するが、予測時間地平線は2.52秒であり、VRUの過去の動きと比べて小さな役割を果たしている。 本手法は,研究車両を用いて都市内交通に記録されたデータセットを用いて評価する。 データセットは公開されています。

In this article, an approach for probabilistic trajectory forecasting of vulnerable road users (VRUs) is presented, which considers past movements and the surrounding scene. Past movements are represented by 3D poses reflecting the posture and movements of individual body parts. The surrounding scene is modeled in the form of semantic maps showing, e.g., the course of streets, sidewalks, and the occurrence of obstacles. The forecasts are generated in grids discretizing the space and in the form of arbitrary discrete probability distributions. The distributions are evaluated in terms of their reliability, sharpness, and positional accuracy. We compare our method with an approach that provides forecasts in the form of Gaussian distributions and discuss the respective advantages and disadvantages. Thereby, we investigate the impact of using poses and semantic maps. With a technique called spatial label smoothing, our approach achieves reliable forecasts. Overall, the poses have a positive impact on the forecasts. The semantic maps offer the opportunity to adapt the probability distributions to the individual situation, although at the considered forecasted time horizon of 2.52 s they play a minor role compared to the past movements of the VRU. Our method is evaluated on a dataset recorded in inner-city traffic using a research vehicle. The dataset is made publicly available.
翻訳日:2021-06-07 17:31:13 公開日:2021-06-04
# (参考訳) SOUP-GAN:ジェネレーティブ・ディバイサル・ネットワークを用いた超解像MRI [全文訳有]

SOUP-GAN: Super-Resolution MRI Using Generative Adversarial Networks ( http://arxiv.org/abs/2106.02599v1 )

ライセンス: CC BY 4.0
Kuan Zhang, Haoji Hu, Kenneth Philbrick, Gian Marco Conte, Joseph D. Sobek, Pouria Rouzrokh, Bradley J. Erickson(参考訳) 臨床と研究の両方の応用において、高解像度(hr)医療画像の需要が高まっている。 画像の品質は、患者の快適さ、検査コストの低減、投与量、動きによって引き起こされるアーティファクトの削減のために、取得時間と必然的にトレードオフされる。 多くの画像ベースタスクでは、垂直面の見かけの解像度を高めて多平面再構成や3次元画像を生成するのが一般的である。 2次元画像の解像度を高めるために教師なし学習に基づくhr画像を提供する有望な技術であるsr(single image super- resolution)であるが、3次元srについてはほとんど報告されていない。さらに、事前学習された2次元ネットワーク(例えばvgg)の高次元特徴空間における意味距離を比較することにより、画素分割損失関数を使うよりもテキストの詳細とエッジをよりよく捉えるための知覚損失が文献で提案されている。 しかし, どのようにして3次元医用画像に一般化すべきかは不明であり, 関連性はいまだ不明である。 本稿では,より薄いスライス(例えば 'Z' 平面の高分解能)をアンチエイリアスとデブロアリングで生成するために,GANを用いた超高分解能最適化(SOUP-GAN: Super- resolution Optimized Using Perceptual-tuned Generative Adversarial Network)というフレームワークを提案する。 提案手法は, 質的, 定量的に比較し, 従来の分解能向上法と従来のsr法を上回っている。 具体的には,sr比の一般化とイメージングモダリティの観点からモデルを検討する。 これらの限界に対処することで,本モデルはpromiseを新たな3d sr補間技術として提示し,臨床と研究の両方において潜在的な応用を提供する。

There is a growing demand for high-resolution (HR) medical images in both the clinical and research applications. Image quality is inevitably traded off with the acquisition time for better patient comfort, lower examination costs, dose, and fewer motion-induced artifacts. For many image-based tasks, increasing the apparent resolution in the perpendicular plane to produce multi-planar reformats or 3D images is commonly used. Single image super-resolution (SR) is a promising technique to provide HR images based on unsupervised learning to increase resolution of a 2D image, but there are few reports on 3D SR. Further, perceptual loss is proposed in the literature to better capture the textual details and edges than using pixel-wise loss functions, by comparing the semantic distances in the high-dimensional feature space of a pre-trained 2D network (e.g., VGG). However, it is not clear how one should generalize it to 3D medical images, and the attendant implications are still unclear. In this paper, we propose a framework called SOUP-GAN: Super-resolution Optimized Using Perceptual-tuned Generative Adversarial Network (GAN), in order to produce thinner slice (e.g., high resolution in the 'Z' plane) medical images with anti-aliasing and deblurring. The proposed method outperforms other conventional resolution-enhanceme nt methods and previous SR work on medical images upon both qualitative and quantitative comparisons. Specifically, we examine the model in terms of its generalization for various SR ratios and imaging modalities. By addressing those limitations, our model shows promise as a novel 3D SR interpolation technique, providing potential applications in both clinical and research settings.
翻訳日:2021-06-07 17:11:22 公開日:2021-06-04
# (参考訳) ターゲットネットワークを超えて:関数正規化による深い$q$-learningの改善 [全文訳有]

Beyond Target Networks: Improving Deep $Q$-learning with Functional Regularization ( http://arxiv.org/abs/2106.02613v1 )

ライセンス: CC BY 4.0
Alexandre Pich\'e, Joseph Marino, Gian Maria Marconi, Christopher Pal, Mohammad Emtiyaz Khan(参考訳) ターゲットネットワークは、最近の強化学習の成功の核心にある。 q$-valuesを見積もるために古いパラメータを使用してトレーニングを安定化するが、これはまた、トレーニングを遅くする可能性のある、新たに登録された報酬の伝播を制限する。 本研究では,この不足を伴わない機能正規化に基づく代替訓練法を提案する。 ターゲットネットワークと異なり,最新のパラメータを用いて目標の$q$値を推定し,安定性を維持しながらトレーニングを高速化する。 驚くべきことに、いくつかのケースでは、ターゲットネットワークが特殊で制限された機能正規化器であることを示すことができる。 このアプローチを用いて,Atariおよびシミュレートされたロボット環境におけるサンプル効率と性能を実証的に改善した。

Target networks are at the core of recent success in Reinforcement Learning. They stabilize the training by using old parameters to estimate the $Q$-values, but this also limits the propagation of newly-encountered rewards which could ultimately slow down the training. In this work, we propose an alternative training method based on functional regularization which does not have this deficiency. Unlike target networks, our method uses up-to-date parameters to estimate the target $Q$-values, thereby speeding up training while maintaining stability. Surprisingly, in some cases, we can show that target networks are a special, restricted type of functional regularizers. Using this approach, we show empirical improvements in sample efficiency and performance across a range of Atari and simulated robotics environments.
翻訳日:2021-06-07 16:54:40 公開日:2021-06-04
# (参考訳) 極小空間は機能的特殊化を引き起こす [全文訳有]

Extreme sparsity gives rise to functional specialization ( http://arxiv.org/abs/2106.02626v1 )

ライセンス: CC BY 4.0
Gabriel B\'ena, Dan F. M. Goodman(参考訳) ニューラルネットワーク(生体と人工の両方)のモジュラリティは、構造的にも機能的にも考えることができ、これらの関係はオープンな問題である。 課題を解決するために通信を必要とする2つの密接なサブネットワーク間の疎結合による構造的モジュラリティの強制は、サブネットワークの機能的特殊化につながるが、極端に疎結合である。 適度な数の相互接続でも、サブネットワークは機能的に絡み合っている。 機能的特殊化の定義は、それ自体が普遍的に合意された解決策なしで難しい問題である。 これを解決するために、我々は3つの異なる特殊化尺度(重み付けマスク、リトレーニング、相関に基づく)を設計し、質的に一致することを発見した。 我々の結果は神経科学と機械学習の両方に影響を及ぼす。 脳のコネクトームを知ることは、それがどのように機能的なモジュールに分解されるかを理解するのに十分ではない。 マシンラーニングでは、ロバスト性と一般化に重要な機能的モジュール性を促進するために構造を使用することで、モジュール間のボトルネックが極めて狭くなる可能性がある。

Modularity of neural networks -- both biological and artificial -- can be thought of either structurally or functionally, and the relationship between these is an open question. We show that enforcing structural modularity via sparse connectivity between two dense sub-networks which need to communicate to solve the task leads to functional specialization of the sub-networks, but only at extreme levels of sparsity. With even a moderate number of interconnections, the sub-networks become functionally entangled. Defining functional specialization is in itself a challenging problem without a universally agreed solution. To address this, we designed three different measures of specialization (based on weight masks, retraining and correlation) and found them to qualitatively agree. Our results have implications in both neuroscience and machine learning. For neuroscience, it shows that we cannot conclude that there is functional modularity simply by observing moderate levels of structural modularity: knowing the brain's connectome is not sufficient for understanding how it breaks down into functional modules. For machine learning, using structure to promote functional modularity -- which may be important for robustness and generalization -- may require extremely narrow bottlenecks between modules.
翻訳日:2021-06-07 16:29:21 公開日:2021-06-04
# (参考訳) vivit:gauss-newtonの低ランク構造による曲率アクセス [全文訳有]

ViViT: Curvature access through the generalized Gauss-Newton's low-rank structure ( http://arxiv.org/abs/2106.02624v1 )

ライセンス: CC BY 4.0
Felix Dangel, Lukas Tatzel, Philipp Hennig(参考訳) ヘッセンあるいはその一般化されたガウスニュートン(GGN)近似の形での曲線は、深層ネットワークの訓練、圧縮、説明の損失に局所モデルに依存するアルゴリズムに有用である。 自動微分あるいはクロネッカー分解ブロック対角近似による暗黙的乗法に基づく既存の方法は、ミニバッチのノイズを考慮しない。 本稿では,GGNの低ランク構造を利用した曲率モデルViViTを提案する。 固有値、固有ベクトル、およびサンプルごとの1階および2階方向微分の効率的な計算を可能にする。 この表現は、1つの後方通過の勾配と平行に計算され、スケール可能な、きめ細かいコスト精度のトレードオフを提供する。 ViViTの有用性の例として、トレーニング中の方向勾配と曲率、および2次法の安定性向上にノイズ情報をどのように利用できるかを検討する。

Curvature in form of the Hessian or its generalized Gauss-Newton (GGN) approximation is valuable for algorithms that rely on a local model for the loss to train, compress, or explain deep networks. Existing methods based on implicit multiplication via automatic differentiation or Kronecker-factored block diagonal approximations do not consider noise in the mini-batch. We present ViViT, a curvature model that leverages the GGN's low-rank structure without further approximations. It allows for efficient computation of eigenvalues, eigenvectors, as well as per-sample first- and second-order directional derivatives. The representation is computed in parallel with gradients in one backward pass and offers a fine-grained cost-accuracy trade-off, which allows it to scale. As examples for ViViT's usefulness, we investigate the directional gradients and curvatures during training, and how noise information can be used to improve the stability of second-order methods.
翻訳日:2021-06-07 16:01:59 公開日:2021-06-04
# CAFLOW:条件付き自己回帰流

CAFLOW: Conditional Autoregressive Flows ( http://arxiv.org/abs/2106.02531v1 )

ライセンス: Link先を確認
Georgios Batzolis, Marcello Carioni, Christian Etmann, Soroosh Afyouni, Zoe Kourtzi, Carola Bibiane Sch\"onlieb(参考訳) 我々は、自動回帰モデリングのパワーと条件付き正規化フローのモデリング効率を同時に活用する、多様な画像間翻訳モデルであるCAFLOWを紹介する。 我々は,条件付き画像を多スケールの正規化フローを用いて潜時符号化に変換し,条件付き画像の処理を繰り返す。 自動回帰分布を効率的なマルチスケール正規化フローでモデル化し,各コンディショニング係数が各解像度スケールにおける画像合成に影響を与える条件分布をモデル化する。 提案するフレームワークは,画像から画像への翻訳作業でよく機能する。 表現力のある自己回帰構造のため、条件流の以前の設計よりも優れている。

We introduce CAFLOW, a new diverse image-to-image translation model that simultaneously leverages the power of auto-regressive modeling and the modeling efficiency of conditional normalizing flows. We transform the conditioning image into a sequence of latent encodings using a multi-scale normalizing flow and repeat the process for the conditioned image. We model the conditional distribution of the latent encodings by modeling the auto-regressive distributions with an efficient multi-scale normalizing flow, where each conditioning factor affects image synthesis at its respective resolution scale. Our proposed framework performs well on a range of image-to-image translation tasks. It outperforms former designs of conditional flows because of its expressive auto-regressive structure.
翻訳日:2021-06-07 15:27:45 公開日:2021-06-04
# 音声対話質問応答のための自己教師付き対話学習

Self-supervised Dialogue Learning for Spoken Conversational Question Answering ( http://arxiv.org/abs/2106.02182v1 )

ライセンス: Link先を確認
Nuo Chen, Chenyu You, Yuexian Zou(参考訳) 音声対話質問応答(SCQA)では、複数の会話を含む固定された音声文書を検索して分析することにより、対応する質問に対する回答を生成する。 ほとんどのSCQAシステムは、順序付けられた発話からのみ情報を取得することを検討している。 しかし,対話の順序は頑健な会話型質問応答システムを構築する上で重要であり,発話順の変化は低品質で不整合なコーパスをもたらす可能性がある。 そこで本研究では,不整合判定,挿入検出,質問予測などの自己教師型学習手法を導入し,音声文書間のコア参照の解決と対話のコヒーレンスを明確に把握する。 具体的には,先行学習されたSCQAシステムをより一貫性のある有意義な音声対話学習に活用する,協調学習フレームワークを設計する。 また,提案する自己教師付き学習タスクを利用して,sentence内コヒーレンスを捉える。 実験の結果,提案手法がより一貫性,有意義,適切な応答を提供し,従来の事前学習した言語モデルよりも優れた性能向上を実現することが示された。 本手法は,speak-coqaデータセット上で最先端の結果を得る。

In spoken conversational question answering (SCQA), the answer to the corresponding question is generated by retrieving and then analyzing a fixed spoken document, including multi-part conversations. Most SCQA systems have considered only retrieving information from ordered utterances. However, the sequential order of dialogue is important to build a robust spoken conversational question answering system, and the changes of utterances order may severely result in low-quality and incoherent corpora. To this end, we introduce a self-supervised learning approach, including incoherence discrimination, insertion detection, and question prediction, to explicitly capture the coreference resolution and dialogue coherence among spoken documents. Specifically, we design a joint learning framework where the auxiliary self-supervised tasks can enable the pre-trained SCQA systems towards more coherent and meaningful spoken dialogue learning. We also utilize the proposed self-supervised learning tasks to capture intra-sentence coherence. Experimental results demonstrate that our proposed method provides more coherent, meaningful, and appropriate responses, yielding superior performance gains compared to the original pre-trained language models. Our method achieves state-of-the-art results on the Spoken-CoQA dataset.
翻訳日:2021-06-07 15:27:35 公開日:2021-06-04
# Toxic Language Detection アノテーションにおける男女平等表現に向けて

Towards Equal Gender Representation in the Annotations of Toxic Language Detection ( http://arxiv.org/abs/2106.02183v1 )

ライセンス: Link先を確認
Elizabeth Excell and Noura Al Moubayed(参考訳) 分類器は、訓練されたデータに存在するバイアスを伝播する傾向がある。 したがって、コメントアノテータの人口密度が結果モデルの公平性にどのように影響するかを理解することが重要である。 本稿では,男女が有毒なコメントに注釈を付ける方法の違いに注目し,これらの違いが男性注釈者の意見を増幅するモデルにどのように影響するかを検討する。 BERTモデルは、男性アノテーターによる攻撃的な言葉を含む有毒なコメントを連想させ、男性によって注釈付けされたとして67.7%の有毒なコメントを予測した。 本研究では、この男女差を、攻撃的な言葉と非常に有毒なコメントをトレーニングデータから取り除くことで軽減できることを示す。 次に,性別と言語の関係を有毒な言語分類器に適用し,男称データのみにのみ訓練されたモデルよりも1.8%高いパフォーマンスを示し,不快な単語を全て取り除いた後にデータにトレーニングモデルを適用することで,モデルのバイアスを55.5%低減し,感度を0.4%向上させることを見いだした。

Classifiers tend to propagate biases present in the data on which they are trained. Hence, it is important to understand how the demographic identities of the annotators of comments affect the fairness of the resulting model. In this paper, we focus on the differences in the ways men and women annotate comments for toxicity, investigating how these differences result in models that amplify the opinions of male annotators. We find that the BERT model as-sociates toxic comments containing offensive words with male annotators, causing the model to predict 67.7% of toxic comments as having been annotated by men. We show that this disparity between gender predictions can be mitigated by removing offensive words and highly toxic comments from the training data. We then apply the learned associations between gender and language to toxic language classifiers, finding that models trained exclusively on female-annotated data perform 1.8% better than those trained solely on male-annotated data and that training models on data after removing all offensive words reduces bias in the model by 55.5% while increasing the sensitivity by 0.4%.
翻訳日:2021-06-07 15:27:18 公開日:2021-06-04
# エンティティ概念に基づくファウショット関係抽出

Entity Concept-enhanced Few-shot Relation Extraction ( http://arxiv.org/abs/2106.02401v1 )

ライセンス: Link先を確認
Shan Yang, Yongfei Zhang, Guanglin Niu, Qinghua Zhao, Shiliang Pu(参考訳) ロングテール分布問題、特に低リソースデータを持つ特殊領域において、少数ショット関係抽出(fsre)は非常に重要である。 既存のfsreアルゴリズムの多くは、限られたサンプルと知識の欠如のため、認識されたエンティティペアと文の情報のみに基づいて正確な関係を分類できない。 そこで,本稿では,関係予測のための手掛かりを提供し,関係分類性能を向上させるために,エンティティの固有概念を導入する新しいエンティティ概念拡張小ショット関係抽出スキーム (conceptfere) を提案する。 まず、文と概念間の意味的類似性を計算することにより、各実体の複数の概念から最も適切な概念を選択する。 次に、自己注意に基づく融合モジュールを提示し、異なる意味空間から概念の埋め込みと文の埋め込みのギャップを埋める。 FSREベンチマークデータセットFewRelの大規模な実験は、提案したConceptFEREスキームの有効性と優位性を、最先端のベースラインと比較して実証した。 コードはhttps://github.com/L ittleGuoKe/ConceptFE REで入手できる。

Few-shot relation extraction (FSRE) is of great importance in long-tail distribution problem, especially in special domain with low-resource data. Most existing FSRE algorithms fail to accurately classify the relations merely based on the information of the sentences together with the recognized entity pairs, due to limited samples and lack of knowledge. To address this problem, in this paper, we proposed a novel entity CONCEPT-enhanced FEw-shot Relation Extraction scheme (ConceptFERE), which introduces the inherent concepts of entities to provide clues for relation prediction and boost the relations classification performance. Firstly, a concept-sentence attention module is developed to select the most appropriate concept from multiple concepts of each entity by calculating the semantic similarity between sentences and concepts. Secondly, a self-attention based fusion module is presented to bridge the gap of concept embedding and sentence embedding from different semantic spaces. Extensive experiments on the FSRE benchmark dataset FewRel have demonstrated the effectiveness and the superiority of the proposed ConceptFERE scheme as compared to the state-of-the-art baselines. Code is available at https://github.com/L ittleGuoKe/ConceptFE RE.
翻訳日:2021-06-07 15:26:56 公開日:2021-06-04
# CLIP:病院退院ノートから医師の行動項目を抽出するためのデータセット

CLIP: A Dataset for Extracting Action Items for Physicians from Hospital Discharge Notes ( http://arxiv.org/abs/2106.02524v1 )

ライセンス: Link先を確認
James Mullenbach, Yada Pruksachatkun, Sean Adler, Jennifer Seale, Jordan Swartz, T. Greg McKelvey, Hui Dai, Yi Yang, David Sontag(参考訳) 入院病院から退院した患者の健康状態の健全性を確保するためには,ケアの継続性が不可欠であり,情報共有の改善が有効である。 情報を共有するために、介護者は、患者とその将来の介護者と共有するアクションアイテムを含む退院券を書くが、これらのアクションアイテムは、文書の長大さにより簡単に失われる。 本報告では,MIMIC-III上に注釈付き臨床行動項目のデータセットの作成について述べる。 このデータセットはCLIPと呼ばれ、医師によって注釈付けされており、100K文を表す718の文書をカバーしています。 本稿では,これらの文書からアクション項目を抽出するタスクを,対象とするアクションのタイプを表す各側面をマルチスペクトル抽出要約として記述する。 本稿では,この課題における機械学習モデルの評価を行い,59Kの未注釈文書を事前学習したドメイン内言語モデルを利用した最良のモデルを示す。 また、このタスクのために、事前トレーニングデータセットのサイズとドメイン固有性の間のトレードオフを調査できる事前トレーニングデータ選択へのアプローチを提案する。

Continuity of care is crucial to ensuring positive health outcomes for patients discharged from an inpatient hospital setting, and improved information sharing can help. To share information, caregivers write discharge notes containing action items to share with patients and their future caregivers, but these action items are easily lost due to the lengthiness of the documents. In this work, we describe our creation of a dataset of clinical action items annotated over MIMIC-III, the largest publicly available dataset of real clinical notes. This dataset, which we call CLIP, is annotated by physicians and covers 718 documents representing 100K sentences. We describe the task of extracting the action items from these documents as multi-aspect extractive summarization, with each aspect representing a type of action to be taken. We evaluate several machine learning models on this task, and show that the best models exploit in-domain language model pre-training on 59K unannotated documents, and incorporate context from neighboring sentences. We also propose an approach to pre-training data selection that allows us to explore the trade-off between size and domain-specificity of pre-training datasets for this task.
翻訳日:2021-06-07 15:26:38 公開日:2021-06-04
# MERLOT: マルチモーダルなニューラルスクリプト知識モデル

MERLOT: Multimodal Neural Script Knowledge Models ( http://arxiv.org/abs/2106.02636v1 )

ライセンス: Link先を確認
Rowan Zellers, Ximing Lu, Jack Hessel, Youngjae Yu, Jae Sung Park, Jize Cao, Ali Farhadi, Yejin Choi(参考訳) 人間として、私たちは視覚の世界における出来事を文脈的に理解し、過去、現在、未来について推測するために時間にわたって多モーダルな推論を行う。 私たちは、何百万ものyoutubeビデオを転写した音声で視聴することで、マルチモーダルなスクリプトの知識を学習するモデルmerlotを紹介します。 フレームレベル(空間的)とビデオレベル(時間的)の両方の目標を前もって訓練することで、我々のモデルは、画像と時間に対応する単語とのマッチングだけでなく、時間とともに世界中で起こっていることをコンテキスト化するためにも学習します。 その結果、MERLOTは時間的コモンセンスの強力なアウトオブボックス表現を示し、微調整時に12種類のビデオQAデータセット上で最先端のパフォーマンスを達成する。 また、静的な画像の世界にもうまく移行し、モデルが視覚的なシーンの背後にあるダイナミックなコンテキストを判断できるようにします。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、オブジェクト境界ボックスのような補助的教師付きデータを多用する者でさえ、同じ大きさの最先端のモデルよりも3%以上優れている。 アブレーション分析は,1)ビデオ対静的画像のトレーニング,2)プリトレーニングビデオコーパスの大きさと多様性のスケーリング,3)フルスタックのマルチモーダル推論を奨励する多様な目的の認識から認知レベルまで,補完的な重要性を示している。

As humans, we understand events in the visual world contextually, performing multimodal reasoning across time to make inferences about the past, present, and future. We introduce MERLOT, a model that learns multimodal script knowledge by watching millions of YouTube videos with transcribed speech -- in an entirely label-free, self-supervised manner. By pretraining with a mix of both frame-level (spatial) and video-level (temporal) objectives, our model not only learns to match images to temporally corresponding words, but also to contextualize what is happening globally over time. As a result, MERLOT exhibits strong out-of-the-box representations of temporal commonsense, and achieves state-of-the-art performance on 12 different video QA datasets when finetuned. It also transfers well to the world of static images, allowing models to reason about the dynamic context behind visual scenes. On Visual Commonsense Reasoning, MERLOT answers questions correctly with 80.6% accuracy, outperforming state-of-the-art models of similar size by over 3%, even those that make heavy use of auxiliary supervised data (like object bounding boxes). Ablation analyses demonstrate the complementary importance of: 1) training on videos versus static images; 2) scaling the magnitude and diversity of the pretraining video corpus; and 3) using diverse objectives that encourage full-stack multimodal reasoning, from the recognition to cognition level.
翻訳日:2021-06-07 15:26:19 公開日:2021-06-04
# シグモイド型ネットワークにおける消失勾配の正規化と再パラメータ化

Regularization and Reparameterization Avoid Vanishing Gradients in Sigmoid-Type Networks ( http://arxiv.org/abs/2106.02260v1 )

ライセンス: Link先を確認
Leni Ven and Johannes Lederer(参考訳) ディープラーニングには、ノードのアクティベーション機能や、レイヤの幅、タイプ、アレンジメントなど、いくつかの設計選択が必要である。 これらの選択を行う際の1つの考慮事項は、小さな勾配のためにアルゴリズムが最適でない点で立ち往生する現象である消滅勾配問題である。 本稿では,シグモイド型アクティベーションの文脈における消滅段階の問題を再考する。 この現象の2つの異なる源、すなわち層間の大きなパラメータと効果を数学的議論で強調し、正規化と再スケーリングという2つの単純な治療法を説明する。 次に,2つの治療法の有効性を実演する。 tanhや他のsgmoid型アクティベーションがrelu型アクティベーションよりもはるかに普及していない主な理由は,消失段階の問題を考えると,sgmoid型アクティベーションをテーブルに戻すことができる。

Deep learning requires several design choices, such as the nodes' activation functions and the widths, types, and arrangements of the layers. One consideration when making these choices is the vanishing-gradient problem, which is the phenomenon of algorithms getting stuck at suboptimal points due to small gradients. In this paper, we revisit the vanishing-gradient problem in the context of sigmoid-type activation. We use mathematical arguments to highlight two different sources of the phenomenon, namely large individual parameters and effects across layers, and to illustrate two simple remedies, namely regularization and rescaling. We then demonstrate the effectiveness of the two remedies in practice. In view of the vanishing-gradient problem being a main reason why tanh and other sigmoid-type activation has become much less popular than relu-type activation, our results bring sigmoid-type activation back to the table.
翻訳日:2021-06-07 15:25:49 公開日:2021-06-04
# RL-DARTS:強化学習のための微分可能なアーキテクチャ探索

RL-DARTS: Differentiable Architecture Search for Reinforcement Learning ( http://arxiv.org/abs/2106.02229v1 )

ライセンス: Link先を確認
Yingjie Miao, Xingyou Song, Daiyi Peng, Summer Yue, Eugene Brevdo, Aleksandra Faust(参考訳) 本稿では,RL-DARTS(Regressed Learning (RL)における微分可能なアーキテクチャ探索)の最初の応用として,Procgenベンチマークに適用した。 我々は、RLにニューラルネットワーク検索技術を適用することの難しさを概説し、画像エンコーダをDARTSスーパーネットに置き換えることによって、検索方法はサンプリング効率が良く、余分な計算資源が最小限必要であり、既存のコードにわずかな変更を加えることなく、オフ・ポリティクスやオン・ポリティクスのRLアルゴリズムと互換性を持つことを示した。 驚くべきことに、このスーパーネットは標準的なRLトレーニングループで再生データを生成し、エンドツーエンドのトレーニングを行うためにアクターとして使用できる。 このトレーニングプロセスを通じて、スーパーネットはより優れたセルを徐々に学習し、手動で設計したポリシーと高い競争力を持つ代替アーキテクチャを実現するとともに、RLポリシーの以前の設計選択を検証する。

We introduce RL-DARTS, one of the first applications of Differentiable Architecture Search (DARTS) in reinforcement learning (RL) to search for convolutional cells, applied to the Procgen benchmark. We outline the initial difficulties of applying neural architecture search techniques in RL, and demonstrate that by simply replacing the image encoder with a DARTS supernet, our search method is sample-efficient, requires minimal extra compute resources, and is also compatible with off-policy and on-policy RL algorithms, needing only minor changes in preexisting code. Surprisingly, we find that the supernet can be used as an actor for inference to generate replay data in standard RL training loops, and thus train end-to-end. Throughout this training process, we show that the supernet gradually learns better cells, leading to alternative architectures which can be highly competitive against manually designed policies, but also verify previous design choices for RL policies.
翻訳日:2021-06-07 15:25:33 公開日:2021-06-04
# LiDAR知覚における深部領域適応の検討

A Survey on Deep Domain Adaptation for LiDAR Perception ( http://arxiv.org/abs/2106.02377v1 )

ライセンス: Link先を確認
Larissa T. Triess and Mariella Dreissig and Christoph B. Rist and J. Marius Z\"ollner(参考訳) 自動運転のためのスケーラブルなシステムは、オープンワールド設定に確実に対応する必要があります。 つまり、知覚システムは、気象条件の変化、時間依存的な側面、地理的領域など、劇的な領域シフトにさらされる。 アノテーション付きデータですべてのドメインをカバーすることは、ドメインの無限のバリエーションと、時間と費用のかかるアノテーションプロセスのために不可能である。 さらに、システムの高速な開発サイクルでは、センサタイプや車両の設定といったハードウェアの変更や、シミュレーションから必要な知識の転送も追加されている。 スケーラブルな自動運転を実現するためには、これらのドメインシフトを堅牢かつ効率的な方法で対処することが不可欠である。 過去数年間で、膨大な量の異なるドメイン適応技術が進化しました。 カメラ画像へのドメイン適応に関する調査論文は数多く存在するが、LiDARの認識に関する調査は欠落している。 それでもLiDARは自動走行のための重要なセンサーであり、車両の周囲の詳細な3Dスキャンを提供する。 本稿では,近年のドメイン適応手法の進歩を概観し,LiDARの認識を対象とする興味深い研究課題を定式化する。

Scalable systems for automated driving have to reliably cope with an open-world setting. This means, the perception systems are exposed to drastic domain shifts, like changes in weather conditions, time-dependent aspects, or geographic regions. Covering all domains with annotated data is impossible because of the endless variations of domains and the time-consuming and expensive annotation process. Furthermore, fast development cycles of the system additionally introduce hardware changes, such as sensor types and vehicle setups, and the required knowledge transfer from simulation. To enable scalable automated driving, it is therefore crucial to address these domain shifts in a robust and efficient manner. Over the last years, a vast amount of different domain adaptation techniques evolved. There already exists a number of survey papers for domain adaptation on camera images, however, a survey for LiDAR perception is absent. Nevertheless, LiDAR is a vital sensor for automated driving that provides detailed 3D scans of the vehicle's surroundings. To stimulate future research, this paper presents a comprehensive review of recent progress in domain adaptation methods and formulates interesting research questions specifically targeted towards LiDAR perception.
翻訳日:2021-06-07 15:25:13 公開日:2021-06-04
# 物体検出における幻覚 --視覚部分検証の研究-

Hallucination In Object Detection -- A Study In Visual Part Verification ( http://arxiv.org/abs/2106.02523v1 )

ライセンス: Link先を確認
Osman Semih Kayhan, Bart Vredebregt and Jan C. van Gemert(参考訳) 物体検出装置は、行方不明の物体を幻覚し、検出することができる。 これは、視覚的部分の検証に依存するアプリケーションにとって特に問題となる。 一般的な物体検出装置が視覚的部分検証タスクでオブジェクトを幻覚させ、最初の視覚的部分検証データセットDelftBikesを紹介した。 我々は、各部分に対する追加のオブジェクト状態ラベルを明示的にアノテートし、ある部分が欠落しているか無傷であるかを反映する。 本稿では,DelftBikesのリコールに頼って視覚的部分の検証を行い,一般的な物体検出器との比較を行う。

We show that object detectors can hallucinate and detect missing objects; potentially even accurately localized at their expected, but non-existing, position. This is particularly problematic for applications that rely on visual part verification: detecting if an object part is present or absent. We show how popular object detectors hallucinate objects in a visual part verification task and introduce the first visual part verification dataset: DelftBikes, which has 10,000 bike photographs, with 22 densely annotated parts per image, where some parts may be missing. We explicitly annotated an extra object state label for each part to reflect if a part is missing or intact. We propose to evaluate visual part verification by relying on recall and compare popular object detectors on DelftBikes.
翻訳日:2021-06-07 15:24:55 公開日:2021-06-04
# 光電界ネットワーク:単一評価レンダリングによるニューラルシーン表現

Light Field Networks: Neural Scene Representations with Single-Evaluation Rendering ( http://arxiv.org/abs/2106.02634v1 )

ライセンス: Link先を確認
Vincent Sitzmann, Semon Rezchikov, William T. Freeman, Joshua B. Tenenbaum, Fredo Durand(参考訳) 2次元観察から3Dシーンの表現を推定することは、コンピュータグラフィックス、コンピュータビジョン、人工知能の基本的な問題である。 新たな3d構造化ニューラルシーン表現は、3dシーン理解に有望なアプローチである。 本研究では,ニューラルシーン表現(光場ネットワーク,LFN)を提案する。これは,ニューラルな暗黙的表現によってパラメータ化された360度4次元の光場において,基礎となる3次元シーンの形状と外観を両立させる。 LFNからレイをレンダリングするには、レイマーチやボリュームベースのレンダラーを3D構造化したニューラルシーン表現で評価するのに対して、*single*ネットワーク評価しか必要としない。 単純なシーンの設定では、メタラーニングを利用してlfns上で事前学習を行い、単一の画像観察から複数視点の一貫した光野再構成を可能にする。 これにより、時間とメモリの複雑さが劇的に減少し、リアルタイムレンダリングが可能になる。 LFNを介して360度光界を保存するコストは、ルミグラフのような従来の方法よりも2桁低い。 ニューラル暗示表現の解析的微分可能性と光空間の新たなパラメータ化を利用して, LFNからのスパース深度マップの抽出を更に実証する。

Inferring representations of 3D scenes from 2D observations is a fundamental problem of computer graphics, computer vision, and artificial intelligence. Emerging 3D-structured neural scene representations are a promising approach to 3D scene understanding. In this work, we propose a novel neural scene representation, Light Field Networks or LFNs, which represent both geometry and appearance of the underlying 3D scene in a 360-degree, four-dimensional light field parameterized via a neural implicit representation. Rendering a ray from an LFN requires only a *single* network evaluation, as opposed to hundreds of evaluations per ray for ray-marching or volumetric based renderers in 3D-structured neural scene representations. In the setting of simple scenes, we leverage meta-learning to learn a prior over LFNs that enables multi-view consistent light field reconstruction from as little as a single image observation. This results in dramatic reductions in time and memory complexity, and enables real-time rendering. The cost of storing a 360-degree light field via an LFN is two orders of magnitude lower than conventional methods such as the Lumigraph. Utilizing the analytical differentiability of neural implicit representations and a novel parameterization of light space, we further demonstrate the extraction of sparse depth maps from LFNs.
翻訳日:2021-06-07 15:23:55 公開日:2021-06-04
# 会話はフラットではない:対話発話における動的情報フローのモデル化

Conversations Are Not Flat: Modeling the Dynamic Information Flow across Dialogue Utterances ( http://arxiv.org/abs/2106.02227v1 )

ライセンス: Link先を確認
Zekang Li, Jinchao Zhang, Zhengcong Fei, Yang Feng, Jie Zhou(参考訳) 現在、オープンドメイン対話モデルは、大規模な事前学習言語モデルに基づいて、歴史的文脈に応じて許容可能な応答を生成することができる。 しかし、一般に、対話履歴をモデル入力として直接結合して応答を予測し、それをフラットパターンと呼び、対話発話間の動的情報の流れを無視する。 本研究では,コンテキストフローをモデル化する動的フロー機構を導入するダイアロフローモデルを提案し,大規模事前学習における各発話がもたらした意味的影響に対処し,対話発話間の情報ダイナミクスを捉えるための3つの学習目標を考案する。 マルチリファレンスredditデータセットとdailydialogデータセットの実験では、ダイアログフローが対話生成タスクのダイアログを大幅に上回っています。 また,11種類のチャットボットにおいて,チャットボットレベルの相関度が高い(r=0.9$)という,事前学習されたダイアロフローに基づいて対話型ボット対話品質を評価するための効果的な自動測定指標であるフロースコアを提案する。 コードと事前訓練されたモデルは公開されます。 \footnote{\url{https://github.com/i ctnlp/DialoFlow}}

Nowadays, open-domain dialogue models can generate acceptable responses according to the historical context based on the large-scale pre-trained language models. However, they generally concatenate the dialogue history directly as the model input to predict the response, which we named as the flat pattern and ignores the dynamic information flow across dialogue utterances. In this work, we propose the DialoFlow model, in which we introduce a dynamic flow mechanism to model the context flow, and design three training objectives to capture the information dynamics across dialogue utterances by addressing the semantic influence brought about by each utterance in large-scale pre-training. Experiments on the multi-reference Reddit Dataset and DailyDialog Dataset demonstrate that our DialoFlow significantly outperforms the DialoGPT on the dialogue generation task. Besides, we propose the Flow score, an effective automatic metric for evaluating interactive human-bot conversation quality based on the pre-trained DialoFlow, which presents high chatbot-level correlation ($r=0.9$) with human ratings among 11 chatbots. Code and pre-trained models will be public. \footnote{\url{https://github.com/i ctnlp/DialoFlow}}
翻訳日:2021-06-07 15:23:34 公開日:2021-06-04
# 歴史に関する問いに答える:オープンドメインチャットボットの一貫性を評価するための効率的かつ実用的なフレームワーク

Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency ( http://arxiv.org/abs/2106.02228v1 )

ライセンス: Link先を確認
Zekang Li, Jinchao Zhang, Zhengcong Fei, Yang Feng, Jie Zhou(参考訳) 優れたオープンドメインチャットボットは、その一貫性能力として知られる会話セッションにおいて、事実や意見に関する矛盾した応答を提示しないようにすべきである。 しかし、チャットボットの一貫性を評価することは依然として難しい。 人間の判断でチャットボットと対話して能力をチェックすることは、コストがかかり、効率が悪く、主観的偏見を取り除くのが難しい。 本稿では,一貫性評価のための効率的かつ実践的なフレームワークである歴史に関するアドレス問合せ(AIH)を提案する。 会話の段階では、AIHは対話履歴に関する適切な質問に対処し、チャットボットに歴史的事実や意見を再宣言する。 チャットボット間の会話は、人間とボットの相互作用よりも効率的であり、主観的バイアスを軽減することができる。 このようにして、高い矛盾の可能性を持つ応答を含むダイアログセッションを迅速に得ることができる。 矛盾認識段階では、人間の判断または自然言語推論(NLI)モデルを用いて、質問に対する回答が歴史と矛盾しているかどうかを認識することができる。 最後に、矛盾統計に基づいてチャットボットをランク付けできる。 オープンドメインチャットボットを用いた実験により,チャットボットの一貫性を効果的かつ確実に評価し,人間評価と高いランキング相関が得られることを示した。 フレームワークをリリースし、チャットボットの一貫性の向上を期待しています。 \footnote{\url{https://github.com/i ctnlp/AIH}}

A good open-domain chatbot should avoid presenting contradictory responses about facts or opinions in a conversational session, known as its consistency capacity. However, evaluating the consistency capacity of a chatbot is still challenging. Employing human judges to interact with chatbots on purpose to check their capacities is costly and low-efficient, and difficult to get rid of subjective bias. In this paper, we propose the Addressing Inquiries about History (AIH), an efficient and practical framework for the consistency evaluation. At the conversation stage, AIH attempts to address appropriate inquiries about the dialogue history to induce the chatbot to redeclare the historical facts or opinions. We carry out the conversation between chatbots, which is more efficient than the human-bot interaction and can also alleviate the subjective bias. In this way, we manage to rapidly obtain a dialog session that contains responses with high contradiction possibilities. At the contradiction recognition stage, we can either employ human judges or a natural language inference (NLI) model to recognize whether the answers to the inquiries are contradictory with history. Finally, we are able to rank chatbots according to the contradiction statistics. Experiments on open-domain chatbots show that our approach can efficiently and reliably assess the consistency capacity of chatbots and achieve a high ranking correlation with the human evaluation. We release the framework and hope to help improve the consistency capacity of chatbots. \footnote{\url{https://github.com/i ctnlp/AIH}}
翻訳日:2021-06-07 15:23:13 公開日:2021-06-04
# no-matchを知る: ダングリングケースとのエンティティアライメント

Knowing the No-match: Entity Alignment with Dangling Cases ( http://arxiv.org/abs/2106.02248v1 )

ライセンス: Link先を確認
Zequn Sun, Muhao Chen, Wei Hu(参考訳) 本稿では,知識グラフ(KG)におけるエンティティアライメントの新しい問題設定について検討する。 KG は異なる実体の集合を持つため、それらの間にアライメントが見つからない実体が存在する可能性があり、実体をダングリングする問題を引き起こす。 この問題の最初の試みとして、新しいデータセットを構築し、エンティティアライメントとダングリングエンティティ検出の両方のためのマルチタスク学習フレームワークを設計する。 このフレームワークは、検出されたダングリングエンティティのアライメントの予測を回避できる。 本研究では,近距離分布,すなわち近距離分類,辺縁ランキング,背景ランキングに基づくエンティティ検出のための3つの手法を提案する。 ダングリングエンティティを検出して削除した後、我々のフレームワークに組み込まれたエンティティアライメントモデルは、残りのエンティティに対してより堅牢なアライメントを提供することができる。 総合的な実験と分析は、我々のフレームワークの有効性を実証する。 さらに、ダングリングエンティティ検出モジュールは、アライメント学習と最終的なパフォーマンスを向上させることができることをさらに発見する。 貢献した資源は、さらなる研究を促進するために公開されている。

This paper studies a new problem setting of entity alignment for knowledge graphs (KGs). Since KGs possess different sets of entities, there could be entities that cannot find alignment across them, leading to the problem of dangling entities. As the first attempt to this problem, we construct a new dataset and design a multi-task learning framework for both entity alignment and dangling entity detection. The framework can opt to abstain from predicting alignment for the detected dangling entities. We propose three techniques for dangling entity detection that are based on the distribution of nearest-neighbor distances, i.e., nearest neighbor classification, marginal ranking and background ranking. After detecting and removing dangling entities, an incorporated entity alignment model in our framework can provide more robust alignment for remaining entities. Comprehensive experiments and analyses demonstrate the effectiveness of our framework. We further discover that the dangling entity detection module can, in turn, improve alignment learning and the final performance. The contributed resource is publicly available to foster further research.
翻訳日:2021-06-07 15:22:50 公開日:2021-06-04
# SemEval-2021 Task 1におけるcs60075_team2 : 様々なテキストコーパスを用いたトランスフォーマーベース言語モデルによる語彙複雑度予測

cs60075_team2 at SemEval-2021 Task 1 : Lexical Complexity Prediction using Transformer-based Language Models pre-trained on various text corpora ( http://arxiv.org/abs/2106.02340v1 )

ライセンス: Link先を確認
Abhilash Nandy, Sayantan Adak, Tanurima Halder, Sai Mahesh Pokala(参考訳) 本稿では,SemEval 2021 Task 1 - Lexical Complexity Predictionにおけるチームcs60075_team2の性能について述べる。 本論文の主な貢献は、いくつかのテキストコーパスで事前訓練されたトランスフォーマーベースの言語モデル(例えば、Wikipedia、ブックスコーパス)、CompLexデータセットが抽出されたコーパス(英語版)、ファイナンス、ローなどの他の特定のドメインからのモデルである。 変換器モデルの選択と個々の複雑性スコアの集約による複雑性スコアの獲得に関するアブレーション研究を行う。 提案手法は,サブタスク1(シングルワード)で0.784$,サブタスク2(複数ワード式)で0.836$という最適なピアソン相関を実現する。

This paper describes the performance of the team cs60075_team2 at SemEval 2021 Task 1 - Lexical Complexity Prediction. The main contribution of this paper is to fine-tune transformer-based language models pre-trained on several text corpora, some being general (E.g., Wikipedia, BooksCorpus), some being the corpora from which the CompLex Dataset was extracted, and others being from other specific domains such as Finance, Law, etc. We perform ablation studies on selecting the transformer models and how their individual complexity scores are aggregated to get the resulting complexity scores. Our method achieves a best Pearson Correlation of $0.784$ in sub-task 1 (single word) and $0.836$ in sub-task 2 (multiple word expressions).
翻訳日:2021-06-07 15:22:35 公開日:2021-06-04
# RLにおけるゼロショット一般化のためのクロストラジェクトリ表現学習

Cross-Trajectory Representation Learning for Zero-Shot Generalization in RL ( http://arxiv.org/abs/2106.02193v1 )

ライセンス: Link先を確認
Bogdan Mazoure, Ahmed M. Ahmed, Patrick MacAlpine, R Devon Hjelm, Andrey Kolobov(参考訳) 強化学習(RL)エージェントの非常に望ましい性質と、深いRLアプローチの大きな難しさは、高次元の観察空間上のいくつかのタスクで学んだポリシーを、訓練中に見られないようなタスクに一般化する能力である。 この課題に対する多くの有望なアプローチでは、rlは2つの関数を同時に訓練するプロセスである、すなわち、高次元の観測を潜在表現空間に写す複素非線形エンコーダと、この空間上の単純な線型ポリシーである。 rlにおけるゼロショット一般化のための優れたエンコーダは、トレーニングプロセスがエンコーダに類似した観察を類似の表現にマッピングすることを奨励し、エンコーダに報酬ベースの信号が過剰にフィットする可能性がある場合に、補助ssl目標のみを用いてトレーニングできると仮定する(raileanu et al., 2021)。 本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning, CTRL)を提案する。 CTRLは擬似ビシレーション指標の誘導と同じ効果を持つと見なすことができるが、重要なことは報酬の使用や関連する過度なリスクを避けることである。 我々の実験はCTRLの様々なコンポーネントを吸収し、PPOと組み合わせることで、挑戦的なProcgenベンチマークスイート(Cobbe et al., 2020)上でより優れた一般化性能が得られることを示した。

A highly desirable property of a reinforcement learning (RL) agent -- and a major difficulty for deep RL approaches -- is the ability to generalize policies learned on a few tasks over a high-dimensional observation space to similar tasks not seen during training. Many promising approaches to this challenge consider RL as a process of training two functions simultaneously: a complex nonlinear encoder that maps high-dimensional observations to a latent representation space, and a simple linear policy over this space. We posit that a superior encoder for zero-shot generalization in RL can be trained by using solely an auxiliary SSL objective if the training process encourages the encoder to map behaviorally similar observations to similar representations, as reward-based signal can cause overfitting in the encoder (Raileanu et al., 2021). We propose Cross-Trajectory Representation Learning (CTRL), a method that runs within an RL agent and conditions its encoder to recognize behavioral similarity in observations by applying a novel SSL objective to pairs of trajectories from the agent's policies. CTRL can be viewed as having the same effect as inducing a pseudo-bisimulation metric but, crucially, avoids the use of rewards and associated overfitting risks. Our experiments ablate various components of CTRL and demonstrate that in combination with PPO it achieves better generalization performance on the challenging Procgen benchmark suite (Cobbe et al., 2020).
翻訳日:2021-06-07 15:22:19 公開日:2021-06-04
# フェアネスを考慮した教師なし特徴選択

Fairness-Aware Unsupervised Feature Selection ( http://arxiv.org/abs/2106.02216v1 )

ライセンス: Link先を確認
Xiaoying Xing, Hongfu Liu, Chen Chen, Jundong Li(参考訳) 特徴選択は、様々な学習タスクのための一般的なデータ前処理パラダイムである。 管理情報の取得にコストがかかるため、教師なしの機能選択が近年大きな関心を集めている。 しかし、既存の教師なし特徴選択アルゴリズムは公平さを考慮せず、性別、人種、民族といった保護された属性に過剰な特徴を選択することで差別を増幅するリスクが高い。 本稿では,公平性に配慮した特徴選択問題の最初の調査を行い,カーネルアライメントを利用して,保護された属性と最小限の相関を保ちながら,元の特徴空間の情報を保存することのできる高品質な機能のサブセットを探索する原則付きフレームワークを開発した。 具体的には,本提案手法と異なり,下流学習アルゴリズムが関与する前に,偏見や差別を排除したモデル非依存脱バイアス戦略とみなすことができる。 複数の実世界のデータセットに対する実験結果から,本フレームワークは有効性最大化と公平性向上のトレードオフを達成できることが示された。

Feature selection is a prevalent data preprocessing paradigm for various learning tasks. Due to the expensive cost of acquiring supervision information, unsupervised feature selection sparks great interests recently. However, existing unsupervised feature selection algorithms do not have fairness considerations and suffer from a high risk of amplifying discrimination by selecting features that are over associated with protected attributes such as gender, race, and ethnicity. In this paper, we make an initial investigation of the fairness-aware unsupervised feature selection problem and develop a principled framework, which leverages kernel alignment to find a subset of high-quality features that can best preserve the information in the original feature space while being minimally correlated with protected attributes. Specifically, different from the mainstream in-processing debiasing methods, our proposed framework can be regarded as a model-agnostic debiasing strategy that eliminates biases and discrimination before downstream learning algorithms are involved. Experimental results on multiple real-world datasets demonstrate that our framework achieves a good trade-off between utility maximization and fairness promotion.
翻訳日:2021-06-07 15:21:50 公開日:2021-06-04
# 考慮すべき:目的、副作用、行動の仕方を決定する

Be Considerate: Objectives, Side Effects, and Deciding How to Act ( http://arxiv.org/abs/2106.02617v1 )

ライセンス: Link先を確認
Parand Alizadeh Alamdari, Toryn Q. Klassen, Rodrigo Toro Icarte, Sheila A. McIlraith(参考訳) AIの安全性に関する最近の研究は、シーケンシャルな意思決定において、目的はしばしば不特定または不完全であることが強調されている。 これは、望ましくない結果をもたらす可能性のある方法で、指示された目的を実現するために、代理エージェントに裁量を与える。 我々は、安全行動を学ぶために、強化学習(RL)エージェントは、他のエージェントや反応性プロセスを含む環境におけるその行動が他人の幸福や代理に与える影響の考察を含むべきであると主張する。 我々は,RLエージェントに,環境における将来的なリターン期待に基づいて報酬を増大させ,影響を特徴づけるための異なる基準を提供することにより,そのような影響を熟考する能力を与える。 さらに我々は、これらのエージェントに、この影響を意思決定に差分分解する能力を与え、グリッドワールド環境の実験で示されたように、自己中心から自己中心まで幅広い行動を示す。

Recent work in AI safety has highlighted that in sequential decision making, objectives are often underspecified or incomplete. This gives discretion to the acting agent to realize the stated objective in ways that may result in undesirable outcomes. We contend that to learn to act safely, a reinforcement learning (RL) agent should include contemplation of the impact of its actions on the wellbeing and agency of others in the environment, including other acting agents and reactive processes. We endow RL agents with the ability to contemplate such impact by augmenting their reward based on expectation of future return by others in the environment, providing different criteria for characterizing impact. We further endow these agents with the ability to differentially factor this impact into their decision making, manifesting behavior that ranges from self-centred to self-less, as demonstrated by experiments in gridworld environments.
翻訳日:2021-06-07 15:21:32 公開日:2021-06-04
# ステレオタイプ理解と対応:ステレオタイプコンテンツモデルへの計算的アプローチ

Understanding and Countering Stereotypes: A Computational Approach to the Stereotype Content Model ( http://arxiv.org/abs/2106.02596v1 )

ライセンス: Link先を確認
Kathleen C. Fraser, Isar Nejadgholi, Svetlana Kiritchenko(参考訳) ステレオタイプ言語は、様々な社会的カテゴリーに関する広く支持されている信念を表現する。 多くのステレオタイプは過度に否定的であるが、表面上で陽性に見えるものもあるが、それでも否定的な結果をもたらす。 本稿では,社会心理学の包括的因果論であるステレオタイプコンテンツモデル(scm)を用いて,テキスト中のステレオタイプを解釈する計算手法を提案する。 SCMは、ステレオタイプは温かさと能力の2つの主要な次元に沿って理解することができると提案している。 セマンティック埋め込み空間における暖かさとコンピテンス軸を定義する手法を提案し,この部分空間で定義される4つの四分項が暖かさとコンピテンスの概念を正確に表現していることを示す。 次に、テキストステレオタイプデータに計算SCMモデルを適用し、心理学文献における調査に基づく研究と比較した。 さらに,反ステレオタイプによるステレオタイプ的信念に対抗するための様々な戦略を探究する。 反ステレオタイプ的な例によるステレオタイプ対策は、偏見的思考を減らす最も効果的な方法の1つであることが知られているが、反ステレオタイプを生成する問題は、これまで研究されていない。 したがって、現実的で効果的なアンチステレオタイプをいかに生成するかをよりよく理解することは、ステレオタイプ、偏見、および差別の社会的な懸念に対処するのに役立つ。

Stereotypical language expresses widely-held beliefs about different social categories. Many stereotypes are overtly negative, while others may appear positive on the surface, but still lead to negative consequences. In this work, we present a computational approach to interpreting stereotypes in text through the Stereotype Content Model (SCM), a comprehensive causal theory from social psychology. The SCM proposes that stereotypes can be understood along two primary dimensions: warmth and competence. We present a method for defining warmth and competence axes in semantic embedding space, and show that the four quadrants defined by this subspace accurately represent the warmth and competence concepts, according to annotated lexicons. We then apply our computational SCM model to textual stereotype data and show that it compares favourably with survey-based studies in the psychological literature. Furthermore, we explore various strategies to counter stereotypical beliefs with anti-stereotypes. It is known that countering stereotypes with anti-stereotypical examples is one of the most effective ways to reduce biased thinking, yet the problem of generating anti-stereotypes has not been previously studied. Thus, a better understanding of how to generate realistic and effective anti-stereotypes can contribute to addressing pressing societal concerns of stereotyping, prejudice, and discrimination.
翻訳日:2021-06-07 15:21:15 公開日:2021-06-04
# 教師付き特徴選択のためのトップ$k$正規化

Top-$k$ Regularization for Supervised Feature Selection ( http://arxiv.org/abs/2106.02197v1 )

ライセンス: Link先を確認
Xinxing Wu, Qiang Cheng(参考訳) 特徴選択は、情報的特徴のサブセットを特定し、元の特徴空間の次元を減らし、データ生成やさまざまなドメイン問題に対する洞察を提供する。 既存の手法は主に特徴点数関数やスパース正規化に依存するが、特徴の表現性と相互関係を調整できる能力は限られている。 本稿では,回帰および分類タスクにおける特徴選択を監督する,新しい,単純かつ効果的な正規化手法であるtop-$k$ regularizationを提案する。 構造的には、トップ$の正規化は学習モデルのアーキテクチャのサブアーキテクチャを誘導し、最も情報性の高い特徴を選択し、複雑な非線形関係を同時にモデル化する能力を高める。 理論的には、この手法を用いて高次元スパース関数を近似する一様近似誤差を導出し、数学的に証明する。 様々なベンチマークデータセットに対する大規模な実験は、トップ$kの正規化が教師付き特徴選択に有効で安定であることを示している。

Feature selection identifies subsets of informative features and reduces dimensions in the original feature space, helping provide insights into data generation or a variety of domain problems. Existing methods mainly depend on feature scoring functions or sparse regularizations; nonetheless, they have limited ability to reconcile the representativeness and inter-correlations of features. In this paper, we introduce a novel, simple yet effective regularization approach, named top-$k$ regularization, to supervised feature selection in regression and classification tasks. Structurally, the top-$k$ regularization induces a sub-architecture on the architecture of a learning model to boost its ability to select the most informative features and model complex nonlinear relationships simultaneously. Theoretically, we derive and mathematically prove a uniform approximation error bound for using this approach to approximate high-dimensional sparse functions. Extensive experiments on a wide variety of benchmarking datasets show that the top-$k$ regularization is effective and stable for supervised feature selection.
翻訳日:2021-06-07 15:19:57 公開日:2021-06-04
# 不整合分布に対する分布スライスエンベディングの相違

Distributional Sliced Embedding Discrepancy for Incomparable Distributions ( http://arxiv.org/abs/2106.02542v1 )

ライセンス: Link先を確認
Mokhtar Z. Alaya, Gilles Gasso, Maxime Berar, Alain Rakotomamonjy(参考訳) gromov-wasserstein (gw)距離は多様体学習とクロスドメイン学習の重要なツールであり、同じ距離空間に存在しない分布を比較することができる。 計算複雑性が高いため、エントロピー正則化やスライシング、一次元GW計算に基づく近似的なGW距離が提案されている。 本稿では, 分散スライシング, 埋め込み, およびスライスされた分布間の閉形式ワッサーシュタイン距離の計算という2つの非競合分布を比較する新しい手法を提案する。 本稿では, 分散スライス埋め込み (DSE) の相違性に関する理論的解析を行い, 回転不変性を含むGW距離のいくつかの興味深い特性を保っていることを示す。 DSEの埋め込みを効率的に学習できることが示される。 最後に、DSEの振る舞いを、生成モデリングとクエリフレームワークの文脈における相違点として説明する実験の大規模なセットを提供する。

Gromov-Wasserstein (GW) distance is a key tool for manifold learning and cross-domain learning, allowing the comparison of distributions that do not live in the same metric space. Because of its high computational complexity, several approximate GW distances have been proposed based on entropy regularization or on slicing, and one-dimensional GW computation. In this paper, we propose a novel approach for comparing two incomparable distributions, that hinges on the idea of distributional slicing, embeddings, and on computing the closed-form Wasserstein distance between the sliced distributions. We provide a theoretical analysis of this new divergence, called distributional sliced embedding (DSE) discrepancy, and we show that it preserves several interesting properties of GW distance including rotation-invariance. We show that the embeddings involved in DSE can be efficiently learned. Finally, we provide a large set of experiments illustrating the behavior of DSE as a divergence in the context of generative modeling and in query framework.
翻訳日:2021-06-07 15:19:40 公開日:2021-06-04
# オキシマティックバーゲティングによる公正な探索

Fair Exploration via Axiomatic Bargaining ( http://arxiv.org/abs/2106.02553v1 )

ライセンス: Link先を確認
Jackie Baek, Vivek F. Farias(参考訳) 学習問題における複数のグループ間の探索コストの公平な共有を考慮し,多腕バンディットの文脈におけるナッシュ交渉ソリューションを開発した。 具体的には、任意の多重武装バンディット問題に付随する「群」バンディットは、時間ステップごとに、ある有限群の集合からの1つの群である。 ある学習方針の下である集団が得た効用は、その集団が「自分自身で」引き起こしたであろう後悔に対して、その集団の後悔の減少と見なされる。 我々は、いかなる政策でも可能なインクリメンタルユーティリティの集合に対してnash交渉ソリューションを提供するポリシーを導出する。 一方,このような政策の下での「公正価格」は限定的であり,一方,後悔的最適政策は総体的条件下では任意に不公平であることを示す。 我々の理論的発展は、複数の人種や年齢集団をまたがる探検のコストを懸念するウォーファリン服用の文脈的包帯に関するケーススタディによって補完される。

Motivated by the consideration of fairly sharing the cost of exploration between multiple groups in learning problems, we develop the Nash bargaining solution in the context of multi-armed bandits. Specifically, the 'grouped' bandit associated with any multi-armed bandit problem associates, with each time step, a single group from some finite set of groups. The utility gained by a given group under some learning policy is naturally viewed as the reduction in that group's regret relative to the regret that group would have incurred 'on its own'. We derive policies that yield the Nash bargaining solution relative to the set of incremental utilities possible under any policy. We show that on the one hand, the 'price of fairness' under such policies is limited, while on the other hand, regret optimal policies are arbitrarily unfair under generic conditions. Our theoretical development is complemented by a case study on contextual bandits for warfarin dosing where we are concerned with the cost of exploration across multiple races and age groups.
翻訳日:2021-06-07 15:19:21 公開日:2021-06-04
# データポイント間の自己認識:ディープラーニングにおける個々の入力出力ペアを超えて

Self-Attention Between Datapoints: Going Beyond Individual Input-Output Pairs in Deep Learning ( http://arxiv.org/abs/2106.02584v1 )

ライセンス: Link先を確認
Jannik Kossen, Neil Band, Clare Lyle, Aidan N. Gomez, Tom Rainforth, Yarin Gal(参考訳) モデルがそのパラメータと1つの入力の特徴のみに依存する予測を行うという、最も教師付き深層学習の基礎となる共通の仮定に挑戦する。 この目的のために,1つのデータポイントを一度に処理するのではなく,データセット全体を入力する汎用ディープラーニングアーキテクチャを導入する。 我々のアプローチでは,データポイント間の関係を明示的に推論するために自己注意を用いており,パラメトリックアテンション機構を用いた非パラメトリックモデルの実現と見ることができる。 しかし、従来の非パラメトリックモデルとは異なり、予測に他のデータポイントを使う方法をデータからエンド・ツー・エンドに学習させる。 経験的に、我々のモデルは、従来のディープラーニングモデルでは解決できない、データ間のルックアップと複雑な推論タスクを解決します。 表データとcifar-10の初期結果の競争力が高い結果を示し,そのモデルが点間の相互作用をどのように利用するのかを考察する。

We challenge a common assumption underlying most supervised deep learning: that a model makes a prediction depending only on its parameters and the features of a single input. To this end, we introduce a general-purpose deep learning architecture that takes as input the entire dataset instead of processing one datapoint at a time. Our approach uses self-attention to reason about relationships between datapoints explicitly, which can be seen as realizing non-parametric models using parametric attention mechanisms. However, unlike conventional non-parametric models, we let the model learn end-to-end from the data how to make use of other datapoints for prediction. Empirically, our models solve cross-datapoint lookup and complex reasoning tasks unsolvable by traditional deep learning models. We show highly competitive results on tabular data, early results on CIFAR-10, and give insight into how the model makes use of the interactions between points.
翻訳日:2021-06-07 15:19:04 公開日:2021-06-04
# 強化学習によるモデル非依存かつスケーラブルな対実説明

Model-agnostic and Scalable Counterfactual Explanations via Reinforcement Learning ( http://arxiv.org/abs/2106.02597v1 )

ライセンス: Link先を確認
Robert-Florian Samoilescu, Arnaud Van Looveren, Janis Klaise(参考訳) 対物的インスタンスは、自動決定プロセスに関する貴重な洞察を得るための強力なツールであり、所望の目標に向けて予測を変更するために必要な入力空間の最小限の変更を記述する。 以前のアプローチでは、インスタンスごとに計算コストがかかり、大量のデータと高次元データの両方に対して実用的でない最適化手順が必要だった。 さらに、これらの手法は機械学習モデルの特定のサブクラス(例)に制限されることが多い。 differentiable (複数形 differentiables) 本研究では,最適化手順をエンドツーエンド学習可能なプロセスに変換し,単一フォワードパスで偽インスタンスのバッチを生成することを可能にする,深層強化学習手法を提案する。 実世界データを用いた実験では,本手法はモデル非依存であり,モデル予測からのフィードバックのみに依拠していることを示す。 ii) 対象条件の反事実インスタンスの生成を可能にする。iii) 保護された特徴の不変性を含む数値的およびカテゴリ的属性に対する柔軟な特徴範囲制約を可能にする。 性別、人種(iv)は、画像などの他のデータモダリティに容易に拡張できる。

Counterfactual instances are a powerful tool to obtain valuable insights into automated decision processes, describing the necessary minimal changes in the input space to alter the prediction towards a desired target. Most previous approaches require a separate, computationally expensive optimization procedure per instance, making them impractical for both large amounts of data and high-dimensional data. Moreover, these methods are often restricted to certain subclasses of machine learning models (e.g. differentiable or tree-based models). In this work, we propose a deep reinforcement learning approach that transforms the optimization procedure into an end-to-end learnable process, allowing us to generate batches of counterfactual instances in a single forward pass. Our experiments on real-world data show that our method i) is model-agnostic (does not assume differentiability), relying only on feedback from model predictions; ii) allows for generating target-conditional counterfactual instances; iii) allows for flexible feature range constraints for numerical and categorical attributes, including the immutability of protected features (e.g. gender, race); iv) is easily extended to other data modalities such as images.
翻訳日:2021-06-07 15:18:50 公開日:2021-06-04
# ランダム特徴と神経接領域における記憶とロバスト性に関する基礎的トレードオフ

Fundamental tradeoffs between memorization and robustness in random features and neural tangent regimes ( http://arxiv.org/abs/2106.02630v1 )

ライセンス: Link先を確認
Elvis Dohmatob(参考訳) 本研究は,高次元線形化状態下での2層ニューラルネットワークの(非)ロバスト性について研究する。 我々は,モデルw.r.tのソボレフセミノルム,すなわちモデルw.r.tの勾配の平均平方根である$L_2$-normによって測定される,記憶と堅牢性の基本的なトレードオフを確立する。 More precisely, if $n$ is the number of training examples, $d$ is the input dimension, and $k$ is the number of hidden neurons in a two-layer neural network, we prove for a large class of activation functions that, if the model memorizes even a fraction of the training, then its Sobolev-seminorm is lower-bounded by (i) $\sqrt{n}$ in case of infinite-width random features (RF) or neural tangent kernel (NTK) with $d \gtrsim n$; (ii) $\sqrt{n}$ in case of finite-width RF with proportionate scaling of $d$ and $k$; and (iii) $\sqrt{n/k}$ in case of finite-width NTK with proportionate scaling of $d$ and $k$. さらに、これらの下限はすべて厳密であり、min-norm / least-squares interpolatorによって達成される($n$, $d$, $k$ が適切な補間状態にある場合)。 すべての結果は、データが対数凹等方的であるとすぐに保持され、ラベルノイズがあり、すなわち、ターゲット変数はデータ/機能の決定論的関数ではない。 我々は実験で理論結果を実証的に検証する。 偶然にも、これらの実験は初めて(iv)ミンノルム補間器のロバスト性における多重発光現象を明らかにした。

This work studies the (non)robustness of two-layer neural networks in various high-dimensional linearized regimes. We establish fundamental trade-offs between memorization and robustness, as measured by the Sobolev-seminorm of the model w.r.t the data distribution, i.e the square root of the average squared $L_2$-norm of the gradients of the model w.r.t the its input. More precisely, if $n$ is the number of training examples, $d$ is the input dimension, and $k$ is the number of hidden neurons in a two-layer neural network, we prove for a large class of activation functions that, if the model memorizes even a fraction of the training, then its Sobolev-seminorm is lower-bounded by (i) $\sqrt{n}$ in case of infinite-width random features (RF) or neural tangent kernel (NTK) with $d \gtrsim n$; (ii) $\sqrt{n}$ in case of finite-width RF with proportionate scaling of $d$ and $k$; and (iii) $\sqrt{n/k}$ in case of finite-width NTK with proportionate scaling of $d$ and $k$. Moreover, all of these lower-bounds are tight: they are attained by the min-norm / least-squares interpolator (when $n$, $d$, and $k$ are in the appropriate interpolating regime). All our results hold as soon as data is log-concave isotropic, and there is label-noise, i.e the target variable is not a deterministic function of the data / features. We empirically validate our theoretical results with experiments. Accidentally, these experiments also reveal for the first time, (iv) a multiple-descent phenomenon in the robustness of the min-norm interpolator.
翻訳日:2021-06-07 15:18:32 公開日:2021-06-04
# 属性と幾何学アノテーションによる浮世絵の分析と創造性

Ukiyo-e Analysis and Creativity with Attribute and Geometry Annotation ( http://arxiv.org/abs/2106.02267v1 )

ライセンス: Link先を確認
Yingtao Tian, Tarin Clanuwat, Chikahiko Suzuki, Asanobu Kitamoto(参考訳) 近代日本美術の重要なジャンルである浮世絵の研究は、他の美術研究と同様、対象や様式に焦点をあてている。 このような研究は、文化的に重要なトピックにおける機械学習コミュニティの新たな関心から恩恵を受け、画像の収集、定量的アプローチ、機械学習に基づく創造性といった学際的な研究につながった。 しかし、それらにはいくつかの欠点があり、これらの作品を包括的な視点に統合することは依然として困難である。 このギャップを埋めるために,我々はまずコヒーレントなセマンティックラベルと幾何学的アノテーションを備えた大規模浮世絵データセットを提示し,それらのラベルとアノテーションを用いた浮世絵のオブジェクトの定量的研究でその価値を示す。 さらに我々は、浮世絵の柔らかい色分解によるスタイル学習を支援する機械学習手法を実証し、遂にスケッチや色を彩色することで、オブジェクトとスタイルに関する共同洞察を提供する。 dataset available at https://github.com/r ois-codh/arc-ukiyoe- faces

The study of Ukiyo-e, an important genre of pre-modern Japanese art, focuses on the object and style like other artwork researches. Such study has benefited from the renewed interest by the machine learning community in culturally important topics, leading to interdisciplinary works including collections of images, quantitative approaches, and machine learning-based creativities. They, however, have several drawbacks, and it remains challenging to integrate these works into a comprehensive view. To bridge this gap, we propose a holistic approach We first present a large-scale Ukiyo-e dataset with coherent semantic labels and geometric annotations, then show its value in a quantitative study of Ukiyo-e paintings' object using these labels and annotations. We further demonstrate the machine learning methods could help style study through soft color decomposition of Ukiyo-e, and finally provides joint insights into object and style by composing sketches and colors using colorization. Dataset available at https://github.com/r ois-codh/arc-ukiyoe- faces
翻訳日:2021-06-07 15:17:58 公開日:2021-06-04
# 博士:誤分類エラーを簡易に検出する方法

DOCTOR: A Simple Method for Detecting Misclassification Errors ( http://arxiv.org/abs/2106.02395v1 )

ライセンス: Link先を確認
Federica Granese, Marco Romanelli, Daniele Gorla, Catuscia Palamidessi, Pablo Piantanida(参考訳) ディープニューラルネットワーク(DNN)は、大規模オブジェクト認識問題において非常によく機能し、DNNが"ブラックボックス"として実装される状況を含む、現実世界のアプリケーションに広く使用されることが示されている。 彼らの使用を確実にするための有望なアプローチは、他の人を捨てながら正しい可能性が高い決定を受け入れることです。 そこで本研究では,dnn分類器の予測を信頼すべき(あるいは否定すべきでない)かどうかを識別することを目的とした簡易な手法であるdoctorを提案する。 ソフト予測のみが可能な全ブラックボックス(TBB)と、入力前処理を行うための勾配プロパゲーションを許可する部分ブラックボックス(PBB)の2つのシナリオが検討されている。 経験的に、ドクターは様々な既知の画像や感情分析データセットで最先端の手法を全て上回っていることを示している。 特に, PBBシナリオにおける偽拒絶率(FRR)の最大4.5%の低減が観察された。 DOCTORは任意の事前訓練されたモデルに適用できるが、基礎となるデータセットに関する事前情報を必要としない。

Deep neural networks (DNNs) have shown to perform very well on large scale object recognition problems and lead to widespread use for real-world applications, including situations where DNN are implemented as "black boxes". A promising approach to secure their use is to accept decisions that are likely to be correct while discarding the others. In this work, we propose DOCTOR, a simple method that aims to identify whether the prediction of a DNN classifier should (or should not) be trusted so that, consequently, it would be possible to accept it or to reject it. Two scenarios are investigated: Totally Black Box (TBB) where only the soft-predictions are available and Partially Black Box (PBB) where gradient-propagation to perform input pre-processing is allowed. Empirically, we show that DOCTOR outperforms all state-of-the-art methods on various well-known images and sentiment analysis datasets. In particular, we observe a reduction of up to $4\%$ of the false rejection rate (FRR) in the PBB scenario. DOCTOR can be applied to any pre-trained model, it does not require prior information about the underlying dataset and is as simple as the simplest available methods in the literature.
翻訳日:2021-06-07 15:17:41 公開日:2021-06-04
# 継続的学習の体系的評価のための手続き的世界生成枠組み

A Procedural World Generation Framework for Systematic Evaluation of Continual Learning ( http://arxiv.org/abs/2106.02585v1 )

ライセンス: Link先を確認
Timm Hess, Martin Mundt, Iuliia Pliushch, Visvanathan Ramesh(参考訳) 非定常データに対するディープニューラルネットワークトレーニングにおける破滅的干渉を軽減するために、連続学習手法のいくつかのファミリーが提案されている。 しかし、適切なデータセットにアクセスできないため、制限の包括的比較と分析はほとんど公開されていない。 実験的な検証は個々の作品間で大きく異なるだけでなく、様々な一般的な静的視覚データセットの分割と連結を通じて、ベンチマークのコントリビュート合成に依存している。 本研究の目的は,都市景観の断片のみを無限にリアルタイムな手続き的世界生成プロセスで繰り返しレンダリングするコンピュータグラフィックスシミュレーションフレームワークを導入することで,このギャップを埋めることである。 中心となるのは、適応可能な生成因子を持つモジュラーパラメトリック生成モデルである。 後者は、データストリームを柔軟に構成するために使用することができ、詳細な分析を著しく促進し、様々な連続的な学習スキームを絶えず調査することができる。

Several families of continual learning techniques have been proposed to alleviate catastrophic interference in deep neural network training on non-stationary data. However, a comprehensive comparison and analysis of limitations remains largely open due to the inaccessibility to suitable datasets. Empirical examination not only varies immensely between individual works, it further currently relies on contrived composition of benchmarks through subdivision and concatenation of various prevalent static vision datasets. In this work, our goal is to bridge this gap by introducing a computer graphics simulation framework that repeatedly renders only upcoming urban scene fragments in an endless real-time procedural world generation process. At its core lies a modular parametric generative model with adaptable generative factors. The latter can be used to flexibly compose data streams, which significantly facilitates a detailed analysis and allows for effortless investigation of various continual learning schemes.
翻訳日:2021-06-07 15:17:21 公開日:2021-06-04
# 限られた例で新しいキーワードを見つけるためのキーワードスポッターを教える

Teaching keyword spotters to spot new keywords with limited examples ( http://arxiv.org/abs/2106.02443v1 )

ライセンス: Link先を確認
Abhijeet Awasthi, Kevin Kilgour, Hassan Rom(参考訳) キーワードスポッティング(KWS)モデルをユーザのキーワード選択にパーソナライズするには,いくつかの例で新しいキーワードを認識することが不可欠である。 しかし、現代のKWSモデルは一般的に大規模なデータセットで訓練され、キーワードの小さな語彙に制限され、その転送可能性も幅広い未知のキーワードに制限される。 KWSモデルのカスタマイズを容易にするために,多数のキーワードを認識するタスクに事前学習した音声埋め込みモデルKeySEM(Keyword Speech EMbedding)を提案する。 KeySEMが提供する音声表現は、限られた例から新しいキーワードを学ぶのに非常に効果的である。 複数のデータセットにまたがるさまざまな関連作業との比較から,本手法はトレーニング例が少なく,一貫して優れた性能を達成できることが示された。 KeySEMは英語の発話でのみ事前訓練されているが、パフォーマンス向上は、キーワードスポッティングのタスクとよく一致した有用な表現を学習することを示す他の4つの言語からのデータセットにも及んでいる。 最後に,これまでに学習したキーワードを再学習することなく,新しいキーワードを逐次学習する能力を示す。 実験結果から,KeySEMは,デプロイ後の学習やカスタマイズが容易なオンデバイス環境に適していることが示唆された。

Learning to recognize new keywords with just a few examples is essential for personalizing keyword spotting (KWS) models to a user's choice of keywords. However, modern KWS models are typically trained on large datasets and restricted to a small vocabulary of keywords, limiting their transferability to a broad range of unseen keywords. Towards easily customizable KWS models, we present KeySEM (Keyword Speech EMbedding), a speech embedding model pre-trained on the task of recognizing a large number of keywords. Speech representations offered by KeySEM are highly effective for learning new keywords from a limited number of examples. Comparisons with a diverse range of related work across several datasets show that our method achieves consistently superior performance with fewer training examples. Although KeySEM was pre-trained only on English utterances, the performance gains also extend to datasets from four other languages indicating that KeySEM learns useful representations well aligned with the task of keyword spotting. Finally, we demonstrate KeySEM's ability to learn new keywords sequentially without requiring to re-train on previously learned keywords. Our experimental observations suggest that KeySEM is well suited to on-device environments where post-deployment learning and ease of customization are often desirable.
翻訳日:2021-06-07 15:16:49 公開日:2021-06-04
# 抗ウイルス薬発見のための空間グラフの意識と好奇心による政策

Spatial Graph Attention and Curiosity-driven Policy for Antiviral Drug Discovery ( http://arxiv.org/abs/2106.02190v1 )

ライセンス: Link先を確認
Yulun Wu, Nicholas Choma, Andrew Chen, Mikaela Cashman, \'Erica T. Prates, Manesh Shah, Ver\'onica G. Melesse Vergara, Austin Clyde, Thomas S. Brettin, Wibe A. de Jong, Neeraj Kumar, Martha S. Head, Rick L. Stevens, Peter Nugent, Daniel A. Jacobson, James B. Brown(参考訳) DGAPN(Distilled Graph Attention Policy Networks)は、物理制約のある領域を効率的にナビゲートすることで、ユーザ定義の目的を最適化する新しいグラフ構造化化学表現を生成する好奇心駆動型強化学習モデルである。 このフレームワークは、SARS-CoV-2タンパク質の機能部位に非共有的に結合するように設計された分子を生成するタスクについて検討されている。 我々は,sgat(spatial graph attention network)を提案する。sgat(spatial graph attention network)は,ノードとエッジの属性だけでなく,空間構造もエンコードする。 次に、動的で断片的な化学環境の決定規則を学習するために注意政策ネットワークを導入し、安定度を高めてネットワークを訓練するために最先端の政策勾配技術を採用する。 ランダムネットワーク蒸留によって学習・提案されたイノベーション報酬ボーナスを取り入れた探索を効率的に行う。 実験では,提案する分子の多様性を高め,化学合成への経路の複雑さを低減しつつ,最先端のアルゴリズムと比較して優れた結果を得た。

We developed Distilled Graph Attention Policy Networks (DGAPNs), a curiosity-driven reinforcement learning model to generate novel graph-structured chemical representations that optimize user-defined objectives by efficiently navigating a physically constrained domain. The framework is examined on the task of generating molecules that are designed to bind, noncovalently, to functional sites of SARS-CoV-2 proteins. We present a spatial Graph Attention Network (sGAT) that leverages self-attention over both node and edge attributes as well as encoding spatial structure -- this capability is of considerable interest in areas such as molecular and synthetic biology and drug discovery. An attentional policy network is then introduced to learn decision rules for a dynamic, fragment-based chemical environment, and state-of-the-art policy gradient techniques are employed to train the network with enhanced stability. Exploration is efficiently encouraged by incorporating innovation reward bonuses learned and proposed by random network distillation. In experiments, our framework achieved outstanding results compared to state-of-the-art algorithms, while increasing the diversity of proposed molecules and reducing the complexity of paths to chemical synthesis.
翻訳日:2021-06-07 15:16:29 公開日:2021-06-04
# ディエンタングリングDense Multi-Cable Knots

Disentangling Dense Multi-Cable Knots ( http://arxiv.org/abs/2106.02252v1 )

ライセンス: Link先を確認
Vainavi Viswanath, Jennifer Grannen, Priya Sundaresan, Brijen Thananjeyan, Ashwin Balakrishna, Ellen Novoseller, Jeffrey Ichnowski, Michael Laskey, Joseph E. Gonzalez, Ken Goldberg(参考訳) 2つ以上のケーブルを遠ざけるには、ケーブル間の交差を取り除くための多くのステップが必要である。 我々は、複数のケーブルを切断する問題を形式化し、マルチケーブル構造の交差を除去するためのロボット動作を出力する、非平面多重cAble kNots (IRON-MAN) の反復還元アルゴリズムを提案する。 我々は、このアルゴリズムを、画像入力を与えられたシングルケーブルアンティリング(シングルケーブルアンティリング)における先行研究に触発されて、オーバーハンド、正方形、キャリックベンド、シート曲げ、クラウン、漁師の結び目などの2つまたは3つのケーブルの結び目で、2ケーブルのツイスト、3ケーブルのブレイド、および結び目を切り離すことができる。 iron-manは、目的とするケーブルエンドポイントと交差に対応するタスク関連キーポイントを追跡し、結び目構造に不可欠な交差を識別し解除することでケーブルを反復的に分離する。 da vinci手術ロボットを用いて,訓練データに出現するマルチカブル結び目に対するiron-manの有効性を実験的に評価し,新しいタイプのマルチカブル結び目への一般化を行った。 その結果、IRON-MANは80.5%の成功率で最大3本のケーブルを含む結び目を切り離し、トレーニング中に存在しない結び目への一般化に有効であることが示唆された。

Disentangling two or more cables requires many steps to remove crossings between and within cables. We formalize the problem of disentangling multiple cables and present an algorithm, Iterative Reduction Of Non-planar Multiple cAble kNots (IRON-MAN), that outputs robot actions to remove crossings from multi-cable knotted structures. We instantiate this algorithm with a learned perception system, inspired by prior work in single-cable untying that given an image input, can disentangle two-cable twists, three-cable braids, and knots of two or three cables, such as overhand, square, carrick bend, sheet bend, crown, and fisherman's knots. IRON-MAN keeps track of task-relevant keypoints corresponding to target cable endpoints and crossings and iteratively disentangles the cables by identifying and undoing crossings that are critical to knot structure. Using a da Vinci surgical robot, we experimentally evaluate the effectiveness of IRON-MAN on untangling multi-cable knots of types that appear in the training data, as well as generalizing to novel classes of multi-cable knots. Results suggest that IRON-MAN is effective in disentangling knots involving up to three cables with 80.5% success and generalizing to knot types that are not present during training, with cables of both distinct or identical colors.
翻訳日:2021-06-07 15:16:10 公開日:2021-06-04
# FedCCEA : フェデレーション学習における顧客貢献評価の実践的アプローチ

FedCCEA : A Practical Approach of Client Contribution Evaluation for Federated Learning ( http://arxiv.org/abs/2106.02310v1 )

ライセンス: Link先を確認
Sung Kuk Shyn, Donghee Kim, and Kwangsu Kim(参考訳) データバリュエーションとしても知られるクライアント貢献評価は、クライアント選択とインセンティブ割り当てのための連合学習(fl)において重要なアプローチである。 しかし、生データのアクセシビリティの制限のため、クライアントの貢献度を定量化するために、各クライアントのローカルウェイトやローカルデータサイズなどの限られた情報のみをオープンする。 利用可能な情報からのデータサイズを用いて,federated client contribution evaluation(fedccea)と呼ばれる経験的評価手法を提案する。 本手法は、サンプルデータサイズの入力を用いてシミュレーションされたテスト精度を推定し、クライアントのデータ品質とデータサイズを抽出し、クライアントのコントリビューションを測定する精度近似モデル(AAM)を構築する。 FedCCEAは、(1)クライアントへのデータサイズ選択の有効化、(2)クライアント数に関係なく実行可能な評価時間、(3)非IID設定での正確な評価など、いくつかの利点を強化している。 提案手法は, クライアント貢献分布, クライアント除去, ロバスト性テストなどの実験により, 従来手法と比較してfecceaの優越性を示す。

Client contribution evaluation, also known as data valuation, is a crucial approach in federated learning(FL) for client selection and incentive allocation. However, due to restrictions of accessibility of raw data, only limited information such as local weights and local data size of each client is open for quantifying the client contribution. Using data size from available information, we introduce an empirical evaluation method called Federated Client Contribution Evaluation through Accuracy Approximation(FedCCE A). This method builds the Accuracy Approximation Model(AAM), which estimates a simulated test accuracy using inputs of sampled data size and extracts the clients' data quality and data size to measure client contribution. FedCCEA strengthens some advantages: (1) enablement of data size selection to the clients, (2) feasible evaluation time regardless of the number of clients, and (3) precise estimation in non-IID settings. We demonstrate the superiority of FedCCEA compared to previous methods through several experiments: client contribution distribution, client removal, and robustness test to partial participation.
翻訳日:2021-06-07 15:15:42 公開日:2021-06-04
# 類似クエリによるファジィクラスタリング

Fuzzy Clustering with Similarity Queries ( http://arxiv.org/abs/2106.02212v1 )

ライセンス: Link先を確認
Wasim Huleihel, Arya Mazumdar, Soumyabrata Pal(参考訳) ファジィあるいはソフトな$k$-meansの目標は、よく知られた$k$-means問題の一般的な一般化であり、$k$-meansのクラスタリング機能を不確実で曖昧で、クラスタ化が難しいデータセットに拡張する。 本稿では,学習者がオラクル(ドメインエキスパート)と対話し,選択した項目間の類似性を求める,半教師付きアクティブクラスタリングフレームワークを提案する。 本稿では,クラスタリングの問合せと計算複雑性について考察する。 このような類似性クエリがいくつかあることで、多項式時間近似アルゴリズムを、そうでない意味ではNPハードな問題に適用できることを示す。 特に、この設定において、ファジィクラスタリングの確率的アルゴリズムを提供し、$o(\mathsf{poly}(k)\log n)$ similarity クエリをリクエストし、多項式時間複雑度で実行し、ここで $n$ はアイテム数である。 ファジィ $k$-means の目的は非凸であり、特別な場合として $k$-means を持ち、非負行列因子分解のような他の一般的な非凸問題と同値である。 ユビキタスなロイド型アルゴリズム(あるいは期待最大化アルゴリズム)は、ローカルなミニマで立ち往生することができる。 その結果,類似性のあるクエリが少ないと,解決が容易になることがわかった。 最後に、我々のアルゴリズムを実世界のデータセット上でテストし、実世界のアプリケーションでの有効性を示す。

The fuzzy or soft $k$-means objective is a popular generalization of the well-known $k$-means problem, extending the clustering capability of the $k$-means to datasets that are uncertain, vague, and otherwise hard to cluster. In this paper, we propose a semi-supervised active clustering framework, where the learner is allowed to interact with an oracle (domain expert), asking for the similarity between a certain set of chosen items. We study the query and computational complexities of clustering in this framework. We prove that having a few of such similarity queries enables one to get a polynomial-time approximation algorithm to an otherwise conjecturally NP-hard problem. In particular, we provide probabilistic algorithms for fuzzy clustering in this setting that asks $O(\mathsf{poly}(k)\log n)$ similarity queries and run with polynomial-time-comp lexity, where $n$ is the number of items. The fuzzy $k$-means objective is nonconvex, with $k$-means as a special case, and is equivalent to some other generic nonconvex problem such as non-negative matrix factorization. The ubiquitous Lloyd-type algorithms (or, expectation-maximiza tion algorithm) can get stuck at a local minima. Our results show that by making few similarity queries, the problem becomes easier to solve. Finally, we test our algorithms over real-world datasets, showing their effectiveness in real-world applications.
翻訳日:2021-06-07 15:14:56 公開日:2021-06-04
# Sparse Linear RegressionのためのAdiabatic Quantum Feature Selection

Adiabatic Quantum Feature Selection for Sparse Linear Regression ( http://arxiv.org/abs/2106.02357v1 )

ライセンス: Link先を確認
Surya Sai Teja Desu, P.K. Srijith, M.V. Panduranga Rao, Naveen Sivadasan(参考訳) 線形回帰は、独立した変数や特徴から実際の値付き出力や依存変数を学習し、予測するための一般的な機械学習アプローチである。 多くの実世界の問題において、依存変数を予測するのに役立つ重要な特徴を特定するために、疎線形回帰を実行することは有益である。 解釈可能な結果を得るのに役立つだけでなく、機能の数が大きければオーバーフィッティングを回避し、データの量も少なくなる。 これを実現する最も自然な方法は、最小二乗損失にパラメータ上の$\ell_0$ノルムを追加することで、ゼロでないモデルパラメータをペナルティ化する 'best subset selection' を使用することである。 しかし、これは目的関数が非凸であり、少数の機能であっても難解である。 本稿では,量子コンピューティングのパラダイムである adiabatic quantum computing を用いて,分散線形回帰を $\ell_0$ norm で解くことの難しさに対処し,最適化問題を高速に解く上で特に有用である。 擬似非拘束バイナリ最適化(QUBO)問題として$\ell_0$の最適化問題を定式化し、D波断熱量子コンピュータを用いて解く。 合成および実世界のデータセット上でQUBOソリューションの品質を比較し,比較する。 その結果,提案する断熱量子コンピューティング手法が最適解の探索に有効であることが示された。 QUBOソリューションは、データセット全体にわたる広い範囲のペナルティ値に対する最適なソリューションと一致します。

Linear regression is a popular machine learning approach to learn and predict real valued outputs or dependent variables from independent variables or features. In many real world problems, its beneficial to perform sparse linear regression to identify important features helpful in predicting the dependent variable. It not only helps in getting interpretable results but also avoids overfitting when the number of features is large, and the amount of data is small. The most natural way to achieve this is by using `best subset selection' which penalizes non-zero model parameters by adding $\ell_0$ norm over parameters to the least squares loss. However, this makes the objective function non-convex and intractable even for a small number of features. This paper aims to address the intractability of sparse linear regression with $\ell_0$ norm using adiabatic quantum computing, a quantum computing paradigm that is particularly useful for solving optimization problems faster. We formulate the $\ell_0$ optimization problem as a Quadratic Unconstrained Binary Optimization (QUBO) problem and solve it using the D-Wave adiabatic quantum computer. We study and compare the quality of QUBO solution on synthetic and real world datasets. The results demonstrate the effectiveness of the proposed adiabatic quantum computing approach in finding the optimal solution. The QUBO solution matches the optimal solution for a wide range of sparsity penalty values across the datasets.
翻訳日:2021-06-07 15:14:31 公開日:2021-06-04
# strategyproof learning: 信頼できるユーザ生成データセットの構築

Strategyproof Learning: Building Trustworthy User-Generated Datasets ( http://arxiv.org/abs/2106.02398v1 )

ライセンス: Link先を確認
Sadegh Farhadkhani, Rachid Guerraoui and L\^e-Nguy\^en Hoang(参考訳) 今日の大規模機械学習アルゴリズムは、大量のユーザー生成データを利用して大規模モデルをトレーニングする。 しかし、特に、特定の見解、製品、イデオロギーを促進するための巨大な社会的、経済的、政治的インセンティブを持つコンテンツレコメンデーションの文脈では、戦略的ユーザは、アルゴリズムに偏見を与えるために、データを作成または誤ラベルする傾向がある。 残念なことに、今日の学習方式は、このような戦略的データ誤報を強くインセンティブ付けている。 トレーニングデータセット全体の信頼性を脅かし、そのようなデータセットでトレーニングされたアルゴリズムの安全性を疑問視するからだ。 本稿では、おそらく驚くべきことに、データの誤レポートのインセンティブは致命的ではないことを示す。 本稿では,基礎となる損失関数を注意深く設計することで,戦略的安全性を保証できる最初のパーソナライズされた協調学習フレームワークであるlicchaviを提案する。 興味深いことに、Licchaviがビザンツのレジリエントであることも証明しています。

Today's large-scale machine learning algorithms harness massive amounts of user-generated data to train large models. However, especially in the context of content recommendation with enormous social, economical and political incentives to promote specific views, products or ideologies, strategic users might be tempted to fabricate or mislabel data in order to bias algorithms in their favor. Unfortunately, today's learning schemes strongly incentivize such strategic data misreporting. This is a major concern, as it endangers the trustworthiness of the entire training datasets, and questions the safety of any algorithm trained on such datasets. In this paper, we show that, perhaps surprisingly, incentivizing data misreporting is not a fatality. We propose the first personalized collaborative learning framework, Licchavi, with provable strategyproofness guarantees through a careful design of the underlying loss function. Interestingly, we also prove that Licchavi is Byzantine resilient: it tolerates a minority of users that provide arbitrary data.
翻訳日:2021-06-07 15:14:06 公開日:2021-06-04
# 機械学習型雑音を伴う確率的勾配降下 第2部:連続時間分析

Stochastic gradient descent with noise of machine learning type. Part II: Continuous time analysis ( http://arxiv.org/abs/2106.02588v1 )

ライセンス: Link先を確認
Stephan Wojtowytsch(参考訳) ニューラルネットワークによる関数の表現は、非線形な方法で多数のパラメータに依存する。 これらのパラメータは、一般に確率勾配勾配(SGD)や高度なSGDベースのアルゴリズムによって、'ロス汎関数'を最小化する。 機械学習のスケーリング」に追随する雑音を伴うsgdの連続時間モデルにおいて、ある種の雑音環境において、最適化アルゴリズムは、均質な雑音を伴う連続時間sgdの平坦な最小選択とは異なる意味で、目的関数の「平坦」極小度を好むことを示す。

The representation of functions by artificial neural networks depends on a large number of parameters in a non-linear fashion. Suitable parameters of these are found by minimizing a 'loss functional', typically by stochastic gradient descent (SGD) or an advanced SGD-based algorithm. In a continuous time model for SGD with noise that follows the 'machine learning scaling', we show that in a certain noise regime, the optimization algorithm prefers 'flat' minima of the objective function in a sense which is different from the flat minimum selection of continuous time SGD with homogeneous noise.
翻訳日:2021-06-07 15:13:50 公開日:2021-06-04
# ランダムフーリエ特徴に対するシグマデルタと分散ノイズシェーピング量子化法

Sigma-Delta and Distributed Noise-Shaping Quantization Methods for Random Fourier Features ( http://arxiv.org/abs/2106.02614v1 )

ライセンス: Link先を確認
Jinjie Zhang, Alexander Cloninger, Rayan Saab(参考訳) 本稿では、シフト不変カーネルに関連するランダムフーリエ特徴(RFF)を定量化するために、低ビット深度Sigma-Deltaと分散ノイズ整形手法を提案する。 我々は、量子化されたRFFが、ビット量子化の場合でさえ、基礎となるカーネルの高精度な近似を可能にすることを証明し、RFFの次元が大きくなるにつれて、近似誤差は少なくとも多項式的に早く崩壊する。 また、量子化 RFF をさらに圧縮することができ、メモリ使用量と精度のトレードオフに優れることを示す。 すなわち、近似誤差は使われるビットの関数として指数関数的に減少する。 さらに,本手法が他の数値化手法と好適に比較できるいくつかの機械学習タスクにおいて,本手法の性能を試験することにより実証的に示す。

We propose the use of low bit-depth Sigma-Delta and distributed noise-shaping methods for quantizing the Random Fourier features (RFFs) associated with shift-invariant kernels. We prove that our quantized RFFs -- even in the case of $1$-bit quantization -- allow a high accuracy approximation of the underlying kernels, and the approximation error decays at least polynomially fast as the dimension of the RFFs increases. We also show that the quantized RFFs can be further compressed, yielding an excellent trade-off between memory use and accuracy. Namely, the approximation error now decays exponentially as a function of the bits used. Moreover, we empirically show by testing the performance of our methods on several machine learning tasks that our method compares favorably to other state of the art quantization methods in this context.
翻訳日:2021-06-07 15:13:39 公開日:2021-06-04
# F-Drop&Match:高周波領域におけるデッドゾーンを持つGAN

F-Drop&Match: GANs with a Dead Zone in the High-Frequency Domain ( http://arxiv.org/abs/2106.02343v1 )

ライセンス: Link先を確認
Shin'ya Yamaguchi and Sekitoshi Kanai(参考訳) 深層畳み込みニューラルネットワーク(gans)から構築された生成的逆ネットワークは、自然画像の高周波成分を正確に再現する能力を持たない。 この問題を軽減するために,周波数降下(f-drop)と周波数マッチング(f-match)という2つの新しい訓練手法を導入する。 F-Dropの主な考え方は、識別器の入力画像から不要な高周波成分をフィルタリングすることである。 この単純な修正により、識別器は高周波成分の摂動によって混乱することを防ぐ。 さらに、F-Dropは、GANが自然画像の主成分である低周波領域への適合に焦点を当てる。 F-Matchは、よりリアルな画像を生成するために周波数領域における実画像と偽画像の違いを最小限にする。 f-matchはジェネレータの目的関数の正規化項として実装され、周波数領域のバッチ平均誤差をペナルティ化する。 fマッチングは、生成器が実画像にfドロップでフィルタされた高周波領域に収まるのに役立つ。 複数の画像ベンチマーク(CIFAR, TinyImageNet, STL-10, CelebA, ImageNet)において、F-DropとF-Matchの組み合わせにより、周波数領域と空間領域の両方におけるGANの生成性能が向上することを示した。

Generative adversarial networks built from deep convolutional neural networks (GANs) lack the ability to exactly replicate the high-frequency components of natural images. To alleviate this issue, we introduce two novel training techniques called frequency dropping (F-Drop) and frequency matching (F-Match). The key idea of F-Drop is to filter out unnecessary high-frequency components from the input images of the discriminators. This simple modification prevents the discriminators from being confused by perturbations of the high-frequency components. In addition, F-Drop makes the GANs focus on fitting in the low-frequency domain, in which there are the dominant components of natural images. F-Match minimizes the difference between real and fake images in the frequency domain for generating more realistic images. F-Match is implemented as a regularization term in the objective functions of the generators; it penalizes the batch mean error in the frequency domain. F-Match helps the generators to fit in the high-frequency domain filtered out by F-Drop to the real image. We experimentally demonstrate that the combination of F-Drop and F-Match improves the generative performance of GANs in both the frequency and spatial domain on multiple image benchmarks (CIFAR, TinyImageNet, STL-10, CelebA, and ImageNet).
翻訳日:2021-06-07 15:13:23 公開日:2021-06-04
# 画像テキスト検索のための深部局所・グローバルシーングラフマッチング

A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval ( http://arxiv.org/abs/2106.02400v1 )

ライセンス: Link先を確認
Manh-Duy Nguyen, Binh T. Nguyen, Cathal Gurrin(参考訳) 従来の画像テキスト検索のアプローチは、主に画像に現れる視覚オブジェクトをインデックス化するが、それらのオブジェクト間のインタラクションを無視する。 このようなオブジェクトや相互作用は、通常テキストで言及されるように、この分野において同等に有用で重要である。 シーングラフの提示は,画像テキストマッチング課題に適した手法であり,相互関係情報をキャプチャする能力から良好な結果が得られる。 画像とテキストはシーングラフレベルで表現され、シーングラフマッチングチャレンジとして検索課題を定式化する。 本稿では,グラフの一般情報を取得するためにグラフ畳み込みネットワークを統合することにより,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。 具体的には、画像とそのキャプションのシーングラフに対して、各グラフのノードとエッジの特徴を学習するために、2つの別々のモデルを使用する。 次に、シームズ構造グラフ畳み込みモデルを用いてグラフをベクトル形式に埋め込む。 最終的にグラフレベルとベクトルレベルを組み合わせて、この画像テキストペアの類似性を計算する。 実験により,Flickr30kデータセットのリコールを10%以上増やすことにより,レベルの組み合わせによる改善により,ベースライン法の性能向上が図られた。

Conventional approaches to image-text retrieval mainly focus on indexing visual objects appearing in pictures but ignore the interactions between these objects. Such objects occurrences and interactions are equivalently useful and important in this field as they are usually mentioned in the text. Scene graph presentation is a suitable method for the image-text matching challenge and obtained good results due to its ability to capture the inter-relationship information. Both images and text are represented in scene graph levels and formulate the retrieval challenge as a scene graph matching challenge. In this paper, we introduce the Local and Global Scene Graph Matching (LGSGM) model that enhances the state-of-the-art method by integrating an extra graph convolution network to capture the general information of a graph. Specifically, for a pair of scene graphs of an image and its caption, two separate models are used to learn the features of each graph's nodes and edges. Then a Siamese-structure graph convolution model is employed to embed graphs into vector forms. We finally combine the graph-level and the vector-level to calculate the similarity of this image-text pair. The empirical experiments show that our enhancement with the combination of levels can improve the performance of the baseline method by increasing the recall by more than 10% on the Flickr30k dataset.
翻訳日:2021-06-07 15:12:57 公開日:2021-06-04
# 前進超解像:ganが実世界分布の階層的生成モデルをどのように学習するか

Forward Super-Resolution: How Can GANs Learn Hierarchical Generative Models for Real-World Distributions ( http://arxiv.org/abs/2106.02619v1 )

ライセンス: Link先を確認
Zeyuan Allen-Zhu and Yuanzhi Li(参考訳) generative adversarial network (gans) は、複雑な実世界の分布を学習するための最も成功したモデルの一つである。 しかし理論上は、minmaxトレーニング対象の非常に非凸で非凸なランドスケープのため、ganは依然として最も理解されていない深層学習モデルの1つである。 本研究では,GANが画像の分布に近い階層的な分布を効率的に学習する方法を正式に研究する。 分布が「前方超解法」と呼ばれる構造を持つ場合、GDA(勾配勾配勾配上昇法)を用いて生成的敵ネットワークを訓練するだけで、サンプルおよび時間複雑度の両方において、この分布を効率的に学習できることを示す。 また,本論文では,我々の仮定である「先進超解法」が非常に自然であるだけでなく,本論文で研究する基礎的な学習メカニズム(理論上はGDAを効果的に学習可能にするため)が実世界の問題における実際の学習過程をシミュレートしている,という具体的な実証的証拠も提示する。

Generative adversarial networks (GANs) are among the most successful models for learning high-complexity, real-world distributions. However, in theory, due to the highly non-convex, non-concave landscape of the minmax training objective, GAN remains one of the least understood deep learning models. In this work, we formally study how GANs can efficiently learn certain hierarchically generated distributions that are close to the distribution of images in practice. We prove that when a distribution has a structure that we refer to as Forward Super-Resolution, then simply training generative adversarial networks using gradient descent ascent (GDA) can indeed learn this distribution efficiently, both in terms of sample and time complexities. We also provide concrete empirical evidence that not only our assumption "forward super-resolution&quo t; is very natural in practice, but also the underlying learning mechanisms that we study in this paper (to allow us efficiently train GAN via GDA in theory) simulates the actual learning process of GANs in practice on real-world problems.
翻訳日:2021-06-07 15:12:37 公開日:2021-06-04
# 回転不変モデルにおける近似メッセージパッシングの初期化

PCA Initialization for Approximate Message Passing in Rotationally Invariant Models ( http://arxiv.org/abs/2106.02356v1 )

ライセンス: Link先を確認
Marco Mondelli and Ramji Venkataramanan(参考訳) 本稿では、ガウス雑音よりも一般的な摂動のクラスである回転不変雑音の存在下でのランク1$信号の推定問題について検討する。 主成分分析(PCA)は自然推定器であり,その性能は高次元状態において急激な結果が得られた。 近年,pcaの精度を向上させる可能性を持つ代替推定器として近似メッセージパッシング(amp)アルゴリズムが提案されている。 しかし、AMPの既存の分析では、信号と相関する初期化とノイズの独立性の両方を必要とするが、実際は非現実的であることが多い。 本研究では,2つの手法を組み合わせて,AMPとPCAを初期化する手法を提案する。 我々の主な成果は、この推定器の性能の厳密な漸近的評価である。 AMPアルゴリズムは,各反復においてPCA初期化を考慮した特定の項を必要とするが,ガウスの場合,PCA初期化はAMPの最初のイテレーションにのみ影響する。 この証明は、まずPCA推定器を近似し、次に真のAMPを模倣する2相人工AMPに基づいている。 数値シミュレーションにより、AMP結果と理論予測との間に優れた一致を示し、ベイズ最適性能を達成するための興味深い開放方向を示唆する。

We study the problem of estimating a rank-$1$ signal in the presence of rotationally invariant noise-a class of perturbations more general than Gaussian noise. Principal Component Analysis (PCA) provides a natural estimator, and sharp results on its performance have been obtained in the high-dimensional regime. Recently, an Approximate Message Passing (AMP) algorithm has been proposed as an alternative estimator with the potential to improve the accuracy of PCA. However, the existing analysis of AMP requires an initialization that is both correlated with the signal and independent of the noise, which is often unrealistic in practice. In this work, we combine the two methods, and propose to initialize AMP with PCA. Our main result is a rigorous asymptotic characterization of the performance of this estimator. Both the AMP algorithm and its analysis differ from those previously derived in the Gaussian setting: at every iteration, our AMP algorithm requires a specific term to account for PCA initialization, while in the Gaussian case, PCA initialization affects only the first iteration of AMP. The proof is based on a two-phase artificial AMP that first approximates the PCA estimator and then mimics the true AMP. Our numerical simulations show an excellent agreement between AMP results and theoretical predictions, and suggest an interesting open direction on achieving Bayes-optimal performance.
翻訳日:2021-06-07 15:12:16 公開日:2021-06-04
# nlpにおける接地「接地」

Grounding 'Grounding' in NLP ( http://arxiv.org/abs/2106.02192v1 )

ライセンス: Link先を確認
Khyathi Raghavi Chandu, Yonatan Bisk, Alan W Black(参考訳) NLPコミュニティは近年、言語技術と世界との相互作用を促進するために基盤として大きな関心を集めている。 しかし、コミュニティとして、この用語は、テキストをデータや非テキストのモダリティに結びつけるために広く使われている。 対照的に、認知科学は「接地」をより形式的に定義し、2つの対話者間のコミュニケーションを成功させるために必要な相互情報を確立するプロセスとして定義している。 我々は,これらの定義のギャップについて検討し,(1)NLPタスクから基底のどの側面が欠落しているかという質問に対する回答を求める。 ここではコーディネーション、パービュー、制約の次元を示す。 2)最近の研究で「接地」という用語はどのように使われているか。 我々は最近のNLPカンファレンスで導入されたデータセット、ドメイン、タスクの傾向について調査する。 そして最後に,(3)認知科学とのギャップを埋めるために,現在の定義をどう進めるか? 我々は、新しいタスクを作成したり、既存のタスクを再利用したりして、より完全な接地感を達成する方法を提示します。

The NLP community has seen substantial recent interest in grounding to facilitate interaction between language technologies and the world. However, as a community, we use the term broadly to reference any linking of text to data or non-textual modality. In contrast, Cognitive Science more formally defines "grounding" as the process of establishing what mutual information is required for successful communication between two interlocutors -- a definition which might implicitly capture the NLP usage but differs in intent and scope. We investigate the gap between these definitions and seek answers to the following questions: (1) What aspects of grounding are missing from NLP tasks? Here we present the dimensions of coordination, purviews and constraints. (2) How is the term "grounding" used in the current research? We study the trends in datasets, domains, and tasks introduced in recent NLP conferences. And finally, (3) How to advance our current definition to bridge the gap with Cognitive Science? We present ways to both create new tasks or repurpose existing ones to make advancements towards achieving a more complete sense of grounding.
翻訳日:2021-06-07 15:10:52 公開日:2021-06-04
# BERTTune:BERTScoreによる微細チューニングニューラルマシン翻訳

BERTTune: Fine-Tuning Neural Machine Translation with BERTScore ( http://arxiv.org/abs/2106.02208v1 )

ライセンス: Link先を確認
Inigo Jauregi Unanue, Jacob Parnell, Massimo Piccardi(参考訳) ニューラルマシン翻訳モデルは、トレーニング中に見られる限られた翻訳基準に偏っていることが多い。 本稿では,最近提案されたBERTScore評価基準に基づいて,モデルに新たな学習目標を付与した微調整を提案する。 BERTScoreは、n-gramベースのメトリクス(例えば、)の典型的な制限を克服するコンテキスト埋め込みに基づくスコアリング関数である。 同義語、パラフレーズ) 参照とは異なる翻訳が可能で、文脈的な埋め込み空間では近いが、実質的に正しいものとして扱われる。 そこで本研究では,BERTScoreをトレーニング目的として使用するために,ソフトな予測を生成するための3つのアプローチを提案する。 4つの多様な言語ペアの実験は、BLEUスコアで最大0.58 pp (3.28%)、強いベースラインを微調整すると最大0.76 pp (0.98%)の改善を達成した。

Neural machine translation models are often biased toward the limited translation references seen during training. To amend this form of overfitting, in this paper we propose fine-tuning the models with a novel training objective based on the recently-proposed BERTScore evaluation metric. BERTScore is a scoring function based on contextual embeddings that overcomes the typical limitations of n-gram-based metrics (e.g. synonyms, paraphrases), allowing translations that are different from the references, yet close in the contextual embedding space, to be treated as substantially correct. To be able to use BERTScore as a training objective, we propose three approaches for generating soft predictions, allowing the network to remain completely differentiable end-to-end. Experiments carried out over four, diverse language pairs have achieved improvements of up to 0.58 pp (3.28%) in BLEU score and up to 0.76 pp (0.98%) in BERTScore (F_BERT) when fine-tuning a strong baseline.
翻訳日:2021-06-07 15:10:36 公開日:2021-06-04
# NAST:教師なしテキストスタイル転送のための単語アライメント付き非自動生成装置

NAST: A Non-Autoregressive Generator with Word Alignment for Unsupervised Text Style Transfer ( http://arxiv.org/abs/2106.02210v1 )

ライセンス: Link先を確認
Fei Huang, Zikai Chen, Chen Henry Wu, Qihan Guo, Xiaoyan Zhu, Minlie Huang(参考訳) 自動回帰モデルは教師なしのテキストスタイル転送で広く使われている。 その成功にもかかわらず、これらのモデルは、通常、原文の一部を無視し、強いスタイルを持つ無関係な単語を生成するコンテンツ保存問題に苦しんでいる。 本稿では,2つの側面から問題を緩和する非教師なしテキストスタイル転送(nast)のための非自己回帰生成器を提案する。 まず, 転置文中の単語のほとんどが, 語源文の関連語と整合できることを観察し, 無関係語を抑制するために, 単語のアライメントを明示的にモデル化する。 第二に、サイクル損失で訓練された既存のモデルは、単語レベルできめ細かい制御をしていない2つのスタイルのテキスト空間で文を整列させる。 提案した非自己回帰生成器は、スタイル間の単語レベルの伝達を学習する整列語間の接続に焦点を当てている。 実験では,提案する生成器を2つのベースモデルに統合し,2つのスタイル転送タスクで評価する。 その結果、nastは全体的な性能を大幅に向上させ、説明可能な単語アライメントを提供することができる。 さらに、非自己回帰生成器は推論時に10倍のスピードアップを達成している。 私たちのコードはhttps://github.com/t hu-coai/NASTで公開しています。

Autoregressive models have been widely used in unsupervised text style transfer. Despite their success, these models still suffer from the content preservation problem that they usually ignore part of the source sentence and generate some irrelevant words with strong styles. In this paper, we propose a Non-Autoregressive generator for unsupervised text Style Transfer (NAST), which alleviates the problem from two aspects. First, we observe that most words in the transferred sentence can be aligned with related words in the source sentence, so we explicitly model word alignments to suppress irrelevant words. Second, existing models trained with the cycle loss align sentences in two stylistic text spaces, which lacks fine-grained control at the word level. The proposed non-autoregressive generator focuses on the connections between aligned words, which learns the word-level transfer between styles. For experiments, we integrate the proposed generator into two base models and evaluate them on two style transfer tasks. The results show that NAST can significantly improve the overall performance and provide explainable word alignments. Moreover, the non-autoregressive generator achieves over 10x speedups at inference. Our codes are available at https://github.com/t hu-coai/NAST.
翻訳日:2021-06-07 15:10:19 公開日:2021-06-04
# ernie-tiny : 変圧器圧縮用プログレッシブ蒸留フレームワーク

ERNIE-Tiny : A Progressive Distillation Framework for Pretrained Transformer Compression ( http://arxiv.org/abs/2106.02241v1 )

ライセンス: Link先を確認
Weiyue Su, Xuyi Chen, Shikun Feng, Jiaxiang Liu, Weixin Liu, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang(参考訳) BERTのような事前訓練された言語モデル(PLM)は、まず一般的なデータでモデルを事前訓練し、タスク固有のデータでモデルを微調整する訓練パラダイムを採用し、最近大きな成功を収めた。 しかしplmは、その膨大なパラメータと実際のアプリケーションへのデプロイが難しいことで悪名高い。 知識蒸留は、大規模な教師からより小さな学生に一連のデータを通して知識を移すことによって、この問題に対処するために普及してきた。 我々は,教師,訓練データ,学習目標という3つの主成分の選択が蒸留の有効性に不可欠であると主張する。 そこで本研究では, PLMを圧縮するために, 4段階のプログレッシブ蒸留フレームワークERNIE-Tinyを提案する。 具体的には、第1段階の一般蒸留は、予め訓練された教師、ゲレナルデータ、潜在蒸留損失からの指導により蒸留を行う。 そして, 一般蒸留により, 予熟した教師から微調整された教師へと教師モデルを変化させる。 その後、タスク適応蒸留はトレーニングデータを一般的なデータからタスク固有のデータにシフトする。 最後に、タスク固有の蒸留により、最終段階でソフトラベルとハードラベルの2つの損失が加わった。 ERNIE-Tinyがもたらすフレームワークの有効性と一般化効果を実証した結果、特に実験では、4層ERNIE-TinyがGLUEベンチマーク上での12層BERTベースの性能を98.0%以上維持し、同じパラメータで11.0%GLUEスコアを上回ります。 さらに、ERNIE-Tinyは5つの中国のNLPタスクに対する新しい圧縮SOTAを実現し、BERTベースを0.4%、パラメータが7.5倍、推論速度が9.4倍に向上した。

Pretrained language models (PLMs) such as BERT adopt a training paradigm which first pretrain the model in general data and then finetune the model on task-specific data, and have recently achieved great success. However, PLMs are notorious for their enormous parameters and hard to be deployed on real-life applications. Knowledge distillation has been prevailing to address this problem by transferring knowledge from a large teacher to a much smaller student over a set of data. We argue that the selection of thee three key components, namely teacher, training data, and learning objective, is crucial to the effectiveness of distillation. We, therefore, propose a four-stage progressive distillation framework ERNIE-Tiny to compress PLM, which varies the three components gradually from general level to task-specific level. Specifically, the first stage, General Distillation, performs distillation with guidance from pretrained teacher, gerenal data and latent distillation loss. Then, General-Enhanced Distillation changes teacher model from pretrained teacher to finetuned teacher. After that, Task-Adaptive Distillation shifts training data from general data to task-specific data. In the end, Task-Specific Distillation, adds two additional losses, namely Soft-Label and Hard-Label loss onto the last stage. Empirical results demonstrate the effectiveness of our framework and generalization gain brought by ERNIE-Tiny.In particular, experiments show that a 4-layer ERNIE-Tiny maintains over 98.0%performance of its 12-layer teacher BERT base on GLUE benchmark, surpassing state-of-the-art (SOTA) by 1.0% GLUE score with the same amount of parameters. Moreover, ERNIE-Tiny achieves a new compression SOTA on five Chinese NLP tasks, outperforming BERT base by 0.4% accuracy with 7.5x fewer parameters and9.4x faster inference speed.
翻訳日:2021-06-07 15:09:57 公開日:2021-06-04
# ニューラルマシン変換のためのスケーラブルトランスフォーマー

Scalable Transformers for Neural Machine Translation ( http://arxiv.org/abs/2106.02242v1 )

ライセンス: Link先を確認
Peng Gao, Shijie Geng, Xiaogang Wang, Jifeng Dai, Hongsheng Li(参考訳) Transformerは、その容量とシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。 しかし、Transformerのデプロイは、さまざまなシナリオがさまざまな複雑さとスケールのモデルを必要とするため、難しい。 複数のトランスフォーマーをネイティブにトレーニングすることは、計算とメモリの両面で冗長である。 本稿では,スケールの異なるサブトランスフォーマを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマを提案する。 各サブトランスフォーマーは、最大のトランスフォーマーのパラメータをトリミングすることで容易に得ることができる。 単語レベルとシーケンスレベルの自己蒸留による追加の監督を導入するスケーラブルトランスフォーマーの訓練の難しさに対処するため、3段階のトレーニングスキームが提案されている。 WMT EN-De と En-Fr で大規模実験を行い,提案したスケーラブルトランスの検証を行った。

Transformer has been widely adopted in Neural Machine Translation (NMT) because of its large capacity and parallel training of sequence generation. However, the deployment of Transformer is challenging because different scenarios require models of different complexities and scales. Naively training multiple Transformers is redundant in terms of both computation and memory. In this paper, we propose a novel scalable Transformers, which naturally contains sub-Transformers of different scales and have shared parameters. Each sub-Transformer can be easily obtained by cropping the parameters of the largest Transformer. A three-stage training scheme is proposed to tackle the difficulty of training the scalable Transformers, which introduces additional supervisions from word-level and sequence-level self-distillation. Extensive experiments were conducted on WMT EN-De and En-Fr to validate our proposed scalable Transformers.
翻訳日:2021-06-07 15:09:26 公開日:2021-06-04
# agreementsum: 合意指向のマルチドキュメント要約

AgreeSum: Agreement-Oriented Multi-Document Summarization ( http://arxiv.org/abs/2106.02278v1 )

ライセンス: Link先を確認
Richard Yuanzhe Pang, Adam D. Lelkes, Vinh Q. Tran, Cong Yu(参考訳) 我々は,AgreeSumと呼ばれる,特定のマルチドキュメント要約(MDS)タスクに対する関心を新たにすることを目指している。 記事の集まりが与えられると、目標はすべての入力記事に共通で忠実な情報を表す抽象的な要約を提供することである。 既存のデータセットが不足しているため、AgreeSum用のデータセットを作成し、データセット内のクラスタのサブセットに関する記事と記事のentailment関係に関するアノテーションを提供します。 我々は,トップパフォーマンスの単一文書要約モデルPEGASUSをAgreeSumに適用し,教師付き損失によるアノテートクラスタと,T5ベースのエンタテインメント関連および言語関連損失によるアノテートクラスタの両方を活用することにより,タスクのための強力なベースラインを構築することを目指している。 他のベースラインと比較すると、自動評価とヒューマン評価は、生成したサマリーにおいて、より優れた記事要約とクラスタ要約を示す。 別途,本稿の要約アノテーションが,抽象的な要約の忠実性向上へのコミュニティの取り組みに寄与することを願っている。

We aim to renew interest in a particular multi-document summarization (MDS) task which we call AgreeSum: agreement-oriented multi-document summarization. Given a cluster of articles, the goal is to provide abstractive summaries that represent information common and faithful to all input articles. Given the lack of existing datasets, we create a dataset for AgreeSum, and provide annotations on article-summary entailment relations for a subset of the clusters in the dataset. We aim to create strong baselines for the task by applying the top-performing pretrained single-document summarization model PEGASUS onto AgreeSum, leveraging both annotated clusters by supervised losses, and unannotated clusters by T5-based entailment-related and language-related losses. Compared to other baselines, both automatic evaluation and human evaluation show better article-summary and cluster-summary entailment in generated summaries. On a separate note, we hope that our article-summary entailment annotations contribute to the community's effort in improving abstractive summarization faithfulness.
翻訳日:2021-06-07 15:09:13 公開日:2021-06-04
# マルチターンテキスト・トゥ・SQLのためのデカップリング対話モデリングと意味解析

Decoupled Dialogue Modeling and Semantic Parsing for Multi-Turn Text-to-SQL ( http://arxiv.org/abs/2106.02282v1 )

ライセンス: Link先を確認
Zhi Chen, Lu Chen Hanqi Li, Ruisheng Cao, Da Ma, Mengyue Wu and Kai Yu(参考訳) 近年,マルチターン対話のためのText-to-SQLが注目されている。 ここでは、これまでの対話履歴をすべて考慮し、現在のターンのユーザ入力を適切なデータベースの対応するSQLクエリに解析する。 現在のアプローチでは、主にエンドツーエンドモデルを採用しており、2つの課題に直面しています。 まず、対話履歴モデリングとText-to-SQL構文解析を暗黙的に組み合わせることで、解釈可能な解析を行い、目標とする改善を得るのは難しい。 第二に、マルチターンダイアログのSQLアノテーションは非常に高価で、データの分散をトレーニングします。 本稿では,対話コンテキストの補完を発話書き直しモデルで明示的に解き,その後に1ターンのテキスト---SQLパーサが従う,分離された新しいテキスト---SQLフレームワークを提案する。 データ疎性問題に対処する発話書き直しモデルにも,デュアルラーニング手法が提案されている。 提案手法は,エンド・ツー・エンドの手法と比較して,注釈付きドメインデータなしで優れた性能が得られる。 わずかなアノテーション付きリライトケースで、decoupledメソッドは、sparcとcosqlデータセットの両方でリリースされた最先端のエンドツーエンドモデルを上回る。

Recently, Text-to-SQL for multi-turn dialogue has attracted great interest. Here, the user input of the current turn is parsed into the corresponding SQL query of the appropriate database, given all previous dialogue history. Current approaches mostly employ end-to-end models and consequently face two challenges. First, dialogue history modeling and Text-to-SQL parsing are implicitly combined, hence it is hard to carry out interpretable analysis and obtain targeted improvement. Second, SQL annotation of multi-turn dialogue is very expensive, leading to training data sparsity. In this paper, we propose a novel decoupled multi-turn Text-to-SQL framework, where an utterance rewrite model first explicitly solves completion of dialogue context, and then a single-turn Text-to-SQL parser follows. A dual learning approach is also proposed for the utterance rewrite model to address the data sparsity problem. Compared with end-to-end approaches, the proposed decoupled method can achieve excellent performance without any annotated in-domain data. With just a few annotated rewrite cases, the decoupled method outperforms the released state-of-the-art end-to-end models on both SParC and CoSQL datasets.
翻訳日:2021-06-07 15:08:53 公開日:2021-06-04
# ユニグラム分布のモデル化

Modeling the Unigram Distribution ( http://arxiv.org/abs/2106.02289v1 )

ライセンス: Link先を確認
Irene Nikkarinen, Tiago Pimentel, Dami\'an E. Blasi, Ryan Cotterell(参考訳) 一グラム分布は、コーパス内の特定の単語形式を見つける非文脈確率である。 言語研究の中心的重要性は大きいが、コーパス内の各単語のサンプル周波数によって近似されることが多い。 このアプローチはサンプルサイズに大きく依存しており、任意の外語彙(oov)ワード形式にゼロ確率を割り当てる。 その結果、任意のoovワード形式に対して負の偏りが生じる一方で、コーパス語に対する正の偏りが生じる。 本研究では,ユニグラム分布を適切にモデル化することを支持し,自然言語処理における中心的なタスクであるべきだと主張している。 このことを念頭に, 言語で推定する新しいモデル(goldwaterらによる神経化)を提案する。 ニューラルキャラクタレベルの言語モデルを用いた場合よりも、多種多様な7言語に対してずっと優れた推定結果が得られることが示されています。

The unigram distribution is the non-contextual probability of finding a specific word form in a corpus. While of central importance to the study of language, it is commonly approximated by each word's sample frequency in the corpus. This approach, being highly dependent on sample size, assigns zero probability to any out-of-vocabulary (oov) word form. As a result, it produces negatively biased probabilities for any oov word form, while positively biased probabilities to in-corpus words. In this work, we argue in favor of properly modeling the unigram distribution -- claiming it should be a central task in natural language processing. With this in mind, we present a novel model for estimating it in a language (a neuralization of Goldwater et al.'s (2011) model) and show it produces much better estimates across a diverse set of 7 languages than the na\"ive use of neural character-level language models.
翻訳日:2021-06-07 15:08:36 公開日:2021-06-04
# advpicker: 言語間nerのためのadversarial discriminatorによるラベルなしデータを有効に活用する

AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial Discriminator for Cross-Lingual NER ( http://arxiv.org/abs/2106.02300v1 )

ライセンス: Link先を確認
Weile Chen, Huiqiang Jiang, Qianhui Wu, B\"orje F. Karlsson and Yi Guan(参考訳) ニューラルメソッドは、名前付きエンティティ認識(NER)で高いパフォーマンスを達成することが示されているが、トレーニングには高価で高品質なラベル付きデータに依存している。 従来の研究では,対象言語におけるラベルなしデータを用いて言語間モデルの性能を向上できることが示されているが,そのようなデータをより有効に活用し,結果をさらに改善するために,新たな敵対的アプローチ(AdvPicker)を提案する。 我々は,エンコーダがラベル付きソース言語データからエンティティドメインの知識を学習し,識別器がソースコードと類似性によってより少ない言語に依存しないターゲット言語データを選択する場合において,より良い共有機能を学習する逆学習フレームワークを設計する。 標準ベンチマークデータセットの実験結果は、提案手法がこのデータ選択プロセスから強く恩恵を受け、外部リソース(ガゼッタや機械翻訳など)を必要とせず、既存の最先端の手法より優れていることをよく示している。

Neural methods have been shown to achieve high performance in Named Entity Recognition (NER), but rely on costly high-quality labeled data for training, which is not always available across languages. While previous works have shown that unlabeled data in a target language can be used to improve cross-lingual model performance, we propose a novel adversarial approach (AdvPicker) to better leverage such data and further improve results. We design an adversarial learning framework in which an encoder learns entity domain knowledge from labeled source-language data and better shared features are captured via adversarial training - where a discriminator selects less language-dependent target-language data via similarity to the source language. Experimental results on standard benchmark datasets well demonstrate that the proposed method benefits strongly from this data selection process and outperforms existing state-of-the-art methods; without requiring any additional external resources (e.g., gazetteers or via machine translation).
翻訳日:2021-06-07 15:08:22 公開日:2021-06-04
# Retrieve & Memorize: マルチアクションメモリによる対話ポリシー学習

Retrieve & Memorize: Dialog Policy Learning with Multi-Action Memory ( http://arxiv.org/abs/2106.02317v1 )

ライセンス: Link先を確認
Yunhao Li, Yunyi Yang, Xiaojun Quan, Jianxing Yu(参考訳) タスク指向対話システムでは,システム応答生成の内容とタスク完了度を決定するサブタスクである対話ポリシ学習が不可欠である。 しかし、対話データセットにおけるシステムアクションの不均衡分布は、望ましいアクションや応答を生成することの難しさをしばしば引き起こす。 本稿では,システム行動の学習を促進するための検索・記憶フレームワークを提案する。 特に,対話コンテキストが与えられたトレーニングセットから複数の候補システムアクションを検索するために,まずニューラルコンテキスト認識検索モジュールを設計する。 そこで,提案するマルチデコーダネットワークは,候補動作を条件としたシステム動作を生成し,候補動作における鍵情報を適応的に選択し,ノイズを無視する。 大規模マルチドメインタスク指向対話データセットMultiWOZ 2.0とMultiWOZ 2.1.~実験結果から,提案手法がコンテキスト対応答生成タスクにおける最先端モデル間の競合性能を実現することを示す。

Dialogue policy learning, a subtask that determines the content of system response generation and then the degree of task completion, is essential for task-oriented dialogue systems. However, the unbalanced distribution of system actions in dialogue datasets often causes difficulty in learning to generate desired actions and responses. In this paper, we propose a retrieve-and-memoriz e framework to enhance the learning of system actions. Specially, we first design a neural context-aware retrieval module to retrieve multiple candidate system actions from the training set given a dialogue context. Then, we propose a memory-augmented multi-decoder network to generate the system actions conditioned on the candidate actions, which allows the network to adaptively select key information in the candidate actions and ignore noises. We conduct experiments on the large-scale multi-domain task-oriented dialogue dataset MultiWOZ 2.0 and MultiWOZ 2.1.~Experimental results show that our method achieves competitive performance among several state-of-the-art models in the context-to-response generation task.
翻訳日:2021-06-07 15:08:01 公開日:2021-06-04
# AdaTag: 適応デコーディングによる製品プロファイルからのマルチ属性値抽出

AdaTag: Multi-Attribute Value Extraction from Product Profiles with Adaptive Decoding ( http://arxiv.org/abs/2106.02318v1 )

ライセンス: Link先を確認
Jun Yan, Nasser Zalmout, Yan Liang, Christan Grant, Xiang Ren, Xin Luna Dong(参考訳) 製品属性値の自動抽出は、eコマースプラットフォームにおいて重要な実現技術である。 このタスクは通常、シーケンスラベリングアーキテクチャを使ってモデル化され、複数の拡張でマルチ属性抽出を処理する。 以前の作業の1行は、別々のデコーダや完全に独立したモデルを通じて属性固有のモデルを構築している。 しかし、このアプローチは異なる属性間の知識共有を制約する。 他のコントリビューションは、属性情報を埋め込む異なるテクニックを持つ単一のマルチ属性モデルを使用する。 しかし、すべての属性でネットワークパラメータ全体を共有することは、属性固有の特性をキャプチャするモデルの能力を制限することができる。 本稿では,アダプティブデコーディングを用いて抽出処理を行うAdaTagを提案する。 我々は、ハイパーネットワークとMixture-of-Experts (MoE)モジュールを通じて、事前訓練された属性埋め込みでデコーダをパラメータ化する。 これにより、異なる属性に対して、別々に、セマンティックに相関したデコーダをオンザフライで生成することができる。 このアプローチは、各属性の特異性を維持しながら、知識共有を促進する。 実世界のeコマースデータセットに関する実験では、これまでの方法よりも大幅に改善しています。

Automatic extraction of product attribute values is an important enabling technology in e-Commerce platforms. This task is usually modeled using sequence labeling architectures, with several extensions to handle multi-attribute extraction. One line of previous work constructs attribute-specific models, through separate decoders or entirely separate models. However, this approach constrains knowledge sharing across different attributes. Other contributions use a single multi-attribute model, with different techniques to embed attribute information. But sharing the entire network parameters across all attributes can limit the model's capacity to capture attribute-specific characteristics. In this paper we present AdaTag, which uses adaptive decoding to handle extraction. We parameterize the decoder with pretrained attribute embeddings, through a hypernetwork and a Mixture-of-Experts (MoE) module. This allows for separate, but semantically correlated, decoders to be generated on the fly for different attributes. This approach facilitates knowledge sharing, while maintaining the specificity of each attribute. Our experiments on a real-world e-Commerce dataset show marked improvements over previous methods.
翻訳日:2021-06-07 15:07:47 公開日:2021-06-04
# 二重グラニュラリティコントラスト学習による撮影後のシーンの学習

Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene ( http://arxiv.org/abs/2106.02327v1 )

ライセンス: Link先を確認
Ruikun Luo, Guanhuan Huang, Xiaojun Quan(参考訳) この問題を緩和する一つの方法は、微調整の前にラベルなしのタスクデータにポストトレーニングを適用し、トークンレベルまたはシーケンスレベルの類似性を検討する対照的な学習によって、事前トレーニングされたモデルをターゲット領域に適応させることである。 Inspired by the success of sequence masking, we argue that both token-level and sequence-level similarities can be captured with a pair of masked sequences.~Therefore , we propose complementary random masking (CRM) to generate a pair of masked sequences from an input sequence for sequence-level contrastive learning and then develop contrastive masked language modeling (CMLM) for post-training to integrate both token-level and sequence-level contrastive learnings.~Empirical results show that CMLM surpasses several recent post-training methods in few-shot settings without the need for data augmentation.

The major paradigm of applying a pre-trained language model to downstream tasks is to fine-tune it on labeled task data, which often suffers instability and low performance when the labeled examples are scarce.~One way to alleviate this problem is to apply post-training on unlabeled task data before fine-tuning, adapting the pre-trained model to target domains by contrastive learning that considers either token-level or sequence-level similarity. Inspired by the success of sequence masking, we argue that both token-level and sequence-level similarities can be captured with a pair of masked sequences.~Therefore , we propose complementary random masking (CRM) to generate a pair of masked sequences from an input sequence for sequence-level contrastive learning and then develop contrastive masked language modeling (CMLM) for post-training to integrate both token-level and sequence-level contrastive learnings.~Empirical results show that CMLM surpasses several recent post-training methods in few-shot settings without the need for data augmentation.
翻訳日:2021-06-07 15:07:34 公開日:2021-06-04
# 非専門的アノテーションを暗黙的に訓練するアノテーションカリキュラム

Annotation Curricula to Implicitly Train Non-Expert Annotators ( http://arxiv.org/abs/2106.02382v1 )

ライセンス: Link先を確認
Ji-Ung Lee and Jan-Christoph Klie and Iryna Gurevych(参考訳) アノテーション研究では、しばしば、アノテーションはタスク、そのアノテーションスキーム、データドメインに精通する必要がある。 これは初期の段階では圧倒的であり、特に市民科学やクラウドソーシングのシナリオでは、ドメインの専門知識は必要とせず、アノテーションガイドラインのみを提供する。 これらの問題を緩和するために、暗黙的にアノテーションを訓練する新しいアプローチであるアノテーションキュリキュラを提案する。 我々のゴールは、学習カリキュラムに従ってアノテートされたインスタンスを注文することで、タスクにアノテータを徐々に導入することである。 そこで我々はまず,文および段落レベルのアノテーションタスクのためのアノテーションキュリキュラを定式化し,順序付け戦略を定義し,既存の3つの英語データセット上で,優れたヒューリスティックと対話的に訓練されたモデルを特定する。 次に、Covid-19パンデミックに関する英語のツイートに対する最も適した誤解を特定するよう依頼される40人の自発的参加者とユーザスタディを実施します。 以上の結果から,単純なヒューリスティックな注文インスタンスを用いることで,アノテーションの品質を保ちつつ,アノテーション全体の時間を大幅に短縮できることがわかった。 これにより、アノテーションキュリキュラは、データ収集を改善する新しい方法を提供することができる。 今後の研究を促進するため、2,400のアノテーションからなるコードとデータをさらに共有します。

Annotation studies often require annotators to familiarize themselves with the task, its annotation scheme, and the data domain. This can be overwhelming in the beginning, mentally taxing, and induce errors into the resulting annotations; especially in citizen science or crowd sourcing scenarios where domain expertise is not required and only annotation guidelines are provided. To alleviate these issues, we propose annotation curricula, a novel approach to implicitly train annotators. Our goal is to gradually introduce annotators into the task by ordering instances that are annotated according to a learning curriculum. To do so, we first formalize annotation curricula for sentence- and paragraph-level annotation tasks, define an ordering strategy, and identify well-performing heuristics and interactively trained models on three existing English datasets. We then conduct a user study with 40 voluntary participants who are asked to identify the most fitting misconception for English tweets about the Covid-19 pandemic. Our results show that using a simple heuristic to order instances can already significantly reduce the total annotation time while preserving a high annotation quality. Annotation curricula thus can provide a novel way to improve data collection. To facilitate future research, we further share our code and data consisting of 2,400 annotations.
翻訳日:2021-06-07 15:07:20 公開日:2021-06-04
# 予測または比較:解釈可能な質的推論に向けて

Prediction or Comparison: Toward Interpretable Qualitative Reasoning ( http://arxiv.org/abs/2106.02399v1 )

ライセンス: Link先を確認
Mucheng Ren, Heyan Huang and Yang Gao(参考訳) 定性的な関係は、ある性質(例えば運動速度)が別の性質(例えば運動エネルギー)にどのように影響するかを示し、テキスト知識のかなりの部分を構成する。 現在のアプローチでは、セマンティックパーザを使用して自然言語入力を論理式に変換するか、あるいは1ステップで解決する"ブラックボックス"モデルを使用する。 前者は限定的な適用範囲を持つが、後者は解釈可能性に欠ける。 本研究では,質的推論タスクを予測と比較の2つのタイプに分類する。 特に,2つの推論プロセスをシミュレートするために,エンドツーエンドでトレーニングされたニューラルネットワークモジュールを採用する。 定性的推論質問応答データセットであるQuaRTzとQuaRelの実験は、我々の手法の有効性と一般化能力を示し、モジュールが提供する中間出力は推論プロセスの解釈を可能にする。

Qualitative relationships illustrate how changing one property (e.g., moving velocity) affects another (e.g., kinetic energy) and constitutes a considerable portion of textual knowledge. Current approaches use either semantic parsers to transform natural language inputs into logical expressions or a "black-box" model to solve them in one step. The former has a limited application range, while the latter lacks interpretability. In this work, we categorize qualitative reasoning tasks into two types: prediction and comparison. In particular, we adopt neural network modules trained in an end-to-end manner to simulate the two reasoning processes. Experiments on two qualitative reasoning question answering datasets, QuaRTz and QuaRel, show our methods' effectiveness and generalization capability, and the intermediate outputs provided by the modules make the reasoning process interpretable.
翻訳日:2021-06-07 15:06:57 公開日:2021-06-04
# 自然言語処理のための混合階層構造を持つリカレントニューラルネットワーク

Recurrent Neural Networks with Mixed Hierarchical Structures for Natural Language Processing ( http://arxiv.org/abs/2106.02562v1 )

ライセンス: Link先を確認
Zhaoxin Luo and Michael Zhu(参考訳) 階層構造は言語学と自然言語処理(nlp)の両方のタスクに存在する。 自然言語の階層的表現を学習するためにRNNを設計する方法は、長年にわたる課題である。 本稿では,静的境界と動的境界と呼ばれる2つの異なる境界を定義し,それらを文書分類タスクのための多層階層構造の構築に用いる。 特に,静的な単語層と文層,動的句層を持つ3層階層構造に着目した。 LSTMセルと2つの境界検出器が提案された構造を実装するために使用され、結果として得られるネットワークは混合階層型ニューラルネットワーク (MHS-RNN) と呼ばれる。 さらに,MHS-RNNモデルに注意機構を3層追加する。 注意機構を組み込むことで、より重要なコンテンツを用いて文書表現を構築し、文書分類タスクの性能を高めることができる。 5つの異なるデータセットの実験では、提案されたアーキテクチャが5つのタスクすべてで以前の手法より優れていることが示されている。

Hierarchical structures exist in both linguistics and Natural Language Processing (NLP) tasks. How to design RNNs to learn hierarchical representations of natural languages remains a long-standing challenge. In this paper, we define two different types of boundaries referred to as static and dynamic boundaries, respectively, and then use them to construct a multi-layer hierarchical structure for document classification tasks. In particular, we focus on a three-layer hierarchical structure with static word- and sentence- layers and a dynamic phrase-layer. LSTM cells and two boundary detectors are used to implement the proposed structure, and the resulting network is called the {\em Recurrent Neural Network with Mixed Hierarchical Structures} (MHS-RNN). We further add three layers of attention mechanisms to the MHS-RNN model. Incorporating attention mechanisms allows our model to use more important content to construct document representation and enhance its performance on document classification tasks. Experiments on five different datasets show that the proposed architecture outperforms previous methods on all the five tasks.
翻訳日:2021-06-07 15:06:43 公開日:2021-06-04
# 単言語単語アライメントのためのニューラルセミマルコフCRF

Neural semi-Markov CRF for Monolingual Word Alignment ( http://arxiv.org/abs/2106.02569v1 )

ライセンス: Link先を確認
Wuwei Lan, Chao Jiang, Wei Xu(参考訳) 単言語単語アライメントは、パラフレーズ生成、テキストの単純化、バイアス言語を中和するなど、テキストからテキスト生成タスクにおけるきめ細かい編集操作(削除、追加、置換)を研究する上で重要である。 本稿では,可変長スパンによる単語と句のアライメントを統一するニューラルセミマルコフCRFアライメントモデルを提案する。 また、4つの異なるテキストジャンルをカバーするヒューマンアノテーションによる新しいベンチマークを作成し、より現実的な設定で単言語単語アライメントモデルを評価する。 実験の結果,提案手法は,従来はバイリンガルデータにのみ適用されていた,単言語単語アライメントと競合するQAベースラインにおいて,従来の手法よりも優れていた。 本モデルは,3つのドメイン外のデータセットに対して優れた一般化性を示し,自動テキスト単純化と文ペア分類タスクという2つのダウンストリームアプリケーションに優れた有用性を示す。

Monolingual word alignment is important for studying fine-grained editing operations (i.e., deletion, addition, and substitution) in text-to-text generation tasks, such as paraphrase generation, text simplification, neutralizing biased language, etc. In this paper, we present a novel neural semi-Markov CRF alignment model, which unifies word and phrase alignments through variable-length spans. We also create a new benchmark with human annotations that cover four different text genres to evaluate monolingual word alignment models in more realistic settings. Experimental results show that our proposed model outperforms all previous approaches for monolingual word alignment as well as a competitive QA-based baseline, which was previously only applied to bilingual data. Our model demonstrates good generalizability to three out-of-domain datasets and shows great utility in two downstream applications: automatic text simplification and sentence pair classification tasks.
翻訳日:2021-06-07 15:06:26 公開日:2021-06-04
# 人工知能の公正認定に向けて

Towards Fairness Certification in Artificial Intelligence ( http://arxiv.org/abs/2106.02498v1 )

ライセンス: Link先を確認
Tatiana Tommasi, Silvia Bucci, Barbara Caputo, Pietro Asinari(参考訳) 過去数年間の機械学習の大きな進歩により、いくつかの人工知能(AI)技術は、制御された研究室の設定から日々の生活へとますます移行している。 AIは多くの意思決定シナリオにおいて明らかに支持的だが、医療、雇用政策、教育、銀行、正義といった繊細な分野において、個人や社会に大きな影響を与えている場合には、この技術を設計、開発、デプロイ、監視するためのガイドラインを確立することが重要である。 実際、機械学習モデルによって詳述された決定ルールはデータ駆動であり、差別バイアスがデータに浸透する複数の方法がある。 これらのデータに基づいて訓練されたアルゴリズムは、性別、民族、障害などの保護された属性を予測タスクと過剰に関連付けることで偏見や社会ステレオタイプを増幅するリスクを負う。 測定基準と認定ロードマップに関する国立メトロロジー研究所の広範な経験と、機械学習に関するPolitecnico di Torino、ドメインバイアス評価とマスタリングの方法から始まり、AIフェアネス認証に必要な運用手順を定義するための最初の共同作業を提案する。 具体的には、オフィシャルサービスに入る前にAIシステムが満たすべき基準と、公正な判断のためにその機能を監視するのに役立つ適合性評価手順を概観する。

Thanks to the great progress of machine learning in the last years, several Artificial Intelligence (AI) techniques have been increasingly moving from the controlled research laboratory settings to our everyday life. AI is clearly supportive in many decision-making scenarios, but when it comes to sensitive areas such as health care, hiring policies, education, banking or justice, with major impact on individuals and society, it becomes crucial to establish guidelines on how to design, develop, deploy and monitor this technology. Indeed the decision rules elaborated by machine learning models are data-driven and there are multiple ways in which discriminatory biases can seep into data. Algorithms trained on those data incur the risk of amplifying prejudices and societal stereotypes by over associating protected attributes such as gender, ethnicity or disabilities with the prediction task. Starting from the extensive experience of the National Metrology Institute on measurement standards and certification roadmaps, and of Politecnico di Torino on machine learning as well as methods for domain bias evaluation and mastering, we propose a first joint effort to define the operational steps needed for AI fairness certification. Specifically we will overview the criteria that should be met by an AI system before coming into official service and the conformity assessment procedures useful to monitor its functioning for fair decisions.
翻訳日:2021-06-07 15:05:57 公開日:2021-06-04
# 人間の意図推論のための履歴エンコーディング表現設計

History Encoding Representation Design for Human Intention Inference ( http://arxiv.org/abs/2106.02222v1 )

ライセンス: Link先を確認
Zhuo Xu, and Masayoshi Tomizuka(参考訳) 本稿では,人間の意図推論のための学習表現の設計について考察する。 設計した人間の意図予測タスクでは,解釈可能かつ予測に有効である歴史符号化表現を提案する。 広範な実験を通じて,人間の意図予測問題において,歴史をエンコードした表現設計を用いた予測フレームワークが有効であることを示す。

In this extended abstract, we investigate the design of learning representation for human intention inference. In our designed human intention prediction task, we propose a history encoding representation that is both interpretable and effective for prediction. Through extensive experiments, we show our prediction framework with a history encoding representation design is successful on the human intention prediction problem.
翻訳日:2021-06-07 15:05:03 公開日:2021-06-04
# X-volution: 畳み込みと自己意識の統合について

X-volution: On the unification of convolution and self-attention ( http://arxiv.org/abs/2106.02253v1 )

ライセンス: Link先を確認
Xuanhong Chen and Hang Wang and Bingbing Ni(参考訳) 畳み込みと自己アテンションはディープニューラルネットワークの2つの基本的なビルディングブロックとして機能し、前者は局所的な特徴を線形に抽出し、後者は非局所的に高次の文脈関係を符号化する。 本質的には相互補完的であるが、例えば、CNNやトランスフォーマーは、その不均一な計算パターンと視覚タスクに対するグローバルドット積の過剰な負荷のため、単一の計算モジュールに両方の操作を同時に適用する原則的な方法が欠如している。 本研究では,変換された特徴に対する畳み込み操作による自己注意を近似するグローバル自己注意近似法を理論的に導出する。 近似スキームに基づいて,局所的および非局所的特徴相互作用を統一可能な,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを構築した。 重要なことは、訓練されたこのマルチブランチモジュールは、構造的再パラメータ化によって単一の標準畳み込み操作に条件付き変換することができ、X-畳み込みと呼ばれる純粋な畳み込みスタイルの演算子を、アトミックな操作としてあらゆる現代のネットワークにプラグインする準備ができたことである。 広範な実験により、提案されたx-volutionは高度に競争力のある視覚的理解の改善(imagenet分類における+1.2% top-1精度、+1.7 box ap、coco検出とセグメンテーションにおける+1.5 mask ap)を実現した。

Convolution and self-attention are acting as two fundamental building blocks in deep neural networks, where the former extracts local image features in a linear way while the latter non-locally encodes high-order contextual relationships. Though essentially complementary to each other, i.e., first-/high-order, stat-of-the-art architectures, i.e., CNNs or transformers lack a principled way to simultaneously apply both operations in a single computational module, due to their heterogeneous computing pattern and excessive burden of global dot-product for visual tasks. In this work, we theoretically derive a global self-attention approximation scheme, which approximates a self-attention via the convolution operation on transformed features. Based on the approximated scheme, we establish a multi-branch elementary module composed of both convolution and self-attention operation, capable of unifying both local and non-local feature interaction. Importantly, once trained, this multi-branch module could be conditionally converted into a single standard convolution operation via structural re-parameterization, rendering a pure convolution styled operator named X-volution, ready to be plugged into any modern networks as an atomic operation. Extensive experiments demonstrate that the proposed X-volution, achieves highly competitive visual understanding improvements (+1.2% top-1 accuracy on ImageNet classification, +1.7 box AP and +1.5 mask AP on COCO detection and segmentation).
翻訳日:2021-06-07 15:04:58 公開日:2021-06-04
# 深層半監督顔面行動単位認識のための逆学習の探索

Exploring Adversarial Learning for Deep Semi-Supervised Facial Action Unit Recognition ( http://arxiv.org/abs/2106.02258v1 )

ライセンス: Link先を確認
Shangfei Wang, Yanan Chang, Guozhu Peng, Bowen Pan(参考訳) 現在、顔アクションユニット(AU)の認識を教師付き学習問題として定式化し、トレーニング中に完全にAUラベルの顔画像を必要とする。 多数の顔画像に対してAUアノテーションを提供することは不可能である。 幸いなことに、AUは手動でラベル付けされたかどうかに関わらず、すべての顔画像に現れ、基礎となる解剖学的メカニズムと人間の行動習慣を満たす。 本稿では,部分的にAUラベルの顔画像から顔動作単位を認識するための深い半教師付きフレームワークを提案する。 深層認識ネットワークRは、大規模な顔画像から顔表現を学習し、AU分類器は、限られた真実のAUラベルから学習する。 識別器Dは、地上真実AUラベルに固有のAU分布と、ラベル付き及び未ラベルの顔画像から予測されたAUラベルの分布とを統計的に類似させるために導入される。 深層認識ネットワークは、ラベル付き顔画像からの認識損失を最小限に抑え、ラベル付き顔画像とラベル付き顔画像の両方の固有au分布を忠実に表現し、判別器を混乱させることを目的としている。 訓練中、深度認識ネットワークRと判別器Dとを交互に最適化する。 このように、基礎となる解剖機構によって引き起こされる固有のAU分布を利用して、トレーニング中に部分的にAUラベル付きデータからより良い特徴表現とAU分類器を構築する。 2つのベンチマークデータベースの実験により、提案手法は対角学習によりAU分布を捕捉し、最先端のAU認識作業より優れていることが示された。

Current works formulate facial action unit (AU) recognition as a supervised learning problem, requiring fully AU-labeled facial images during training. It is challenging if not impossible to provide AU annotations for large numbers of facial images. Fortunately, AUs appear on all facial images, whether manually labeled or not, satisfy the underlying anatomic mechanisms and human behavioral habits. In this paper, we propose a deep semi-supervised framework for facial action unit recognition from partially AU-labeled facial images. Specifically, the proposed deep semi-supervised AU recognition approach consists of a deep recognition network and a discriminator D. The deep recognition network R learns facial representations from large-scale facial images and AU classifiers from limited ground truth AU labels. The discriminator D is introduced to enforce statistical similarity between the AU distribution inherent in ground truth AU labels and the distribution of the predicted AU labels from labeled and unlabeled facial images. The deep recognition network aims to minimize recognition loss from the labeled facial images, to faithfully represent inherent AU distribution for both labeled and unlabeled facial images, and to confuse the discriminator. During training, the deep recognition network R and the discriminator D are optimized alternately. Thus, the inherent AU distributions caused by underlying anatomic mechanisms are leveraged to construct better feature representations and AU classifiers from partially AU-labeled data during training. Experiments on two benchmark databases demonstrate that the proposed approach successfully captures AU distributions through adversarial learning and outperforms state-of-the-art AU recognition work.
翻訳日:2021-06-07 15:04:28 公開日:2021-06-04
# Glance-and-Gaze Vision Transformer

Glance-and-Gaze Vision Transformer ( http://arxiv.org/abs/2106.02277v1 )

ライセンス: Link先を確認
Qihang Yu, Yingda Xia, Yutong Bai, Yongyi Lu, Alan Yuille, Wei Shen(参考訳) 最近、トランスフォーマーが長距離依存をモデル化する強力な能力のおかげで、従来の畳み込みニューラルネットワークよりもコンパクトなモデルサイズで優れたパフォーマンスを示す一連のビジョントランスフォーマーが登場している。 しかし、視覚変換器の利点には価格もある: Transformerの中核部分であるSelf-attentionは入力シーケンスの長さに二次的な複雑さを持つ。 これにより、シーケンス長の増加に伴う計算とメモリコストの劇的な増加を招き、高分解能特徴マップに基づく密な予測を必要とするビジョンタスクにトランスフォーマーを適用することが困難になる。 本稿では,Glance-and-Gaze Transformer (GG-Transformer) と呼ばれる新しい視覚変換器を提案する。 自然界の物体を認識する際に人間のガンス・アンド・ゲイズ行動によって動機付けられ、長距離依存と局所文脈の両方を効率的にモデル化することができる。 GG-Transformer では、Glance と Gaze の動作は2つの並列分岐によって実現される: Glance のブランチは、入力の適応的に拡張された分割に対して自己アテンションを行い、大域的受容場を楽しみながら線形複雑になる; Gaze のブランチは、Glance のメカニズムによって得られる特徴に局所的なイメージコンテキストを補う単純な深度的な畳み込み層によって実装される。 本手法は,様々な視覚タスクやベンチマークにおいて,従来の最先端トランスフォーマーよりも一貫した性能を実現することを実証的に実証する。 コードとモデルはhttps://github.com/y ucornetto/GG-Transfo rmer.comで公開される。

Recently, there emerges a series of vision Transformers, which show superior performance with a more compact model size than conventional convolutional neural networks, thanks to the strong ability of Transformers to model long-range dependencies. However, the advantages of vision Transformers also come with a price: Self-attention, the core part of Transformer, has a quadratic complexity to the input sequence length. This leads to a dramatic increase of computation and memory cost with the increase of sequence length, thus introducing difficulties when applying Transformers to the vision tasks that require dense predictions based on high-resolution feature maps. In this paper, we propose a new vision Transformer, named Glance-and-Gaze Transformer (GG-Transformer), to address the aforementioned issues. It is motivated by the Glance and Gaze behavior of human beings when recognizing objects in natural scenes, with the ability to efficiently model both long-range dependencies and local context. In GG-Transformer, the Glance and Gaze behavior is realized by two parallel branches: The Glance branch is achieved by performing self-attention on the adaptively-dilated partitions of the input, which leads to a linear complexity while still enjoying a global receptive field; The Gaze branch is implemented by a simple depth-wise convolutional layer, which compensates local image context to the features obtained by the Glance mechanism. We empirically demonstrate our method achieves consistently superior performance over previous state-of-the-art Transformers on various vision tasks and benchmarks. The codes and models will be made available at https://github.com/y ucornetto/GG-Transfo rmer.
翻訳日:2021-06-07 15:04:03 公開日:2021-06-04
# MASA-SR:参照型画像超解の高速化と空間適応

MASA-SR: Matching Acceleration and Spatial Adaptation for Reference-Based Image Super-Resolution ( http://arxiv.org/abs/2106.02299v1 )

ライセンス: Link先を確認
Liying Lu, Wenbo Li, Xin Tao, Jiangbo Lu, Jiaya Jia(参考訳) 参照ベース画像スーパーレゾリューション(refsr)は、外部参照画像(ref)を利用して高周波ディテールの復元に有望な成功を収めている。 このタスクでは、テクスチャの詳細をRef画像から、そのポイントまたはパッチワイド対応に従って低解像度(LR)画像に転送する。 したがって、高品質な対応マッチングが重要である。 また、計算効率が良いことも望まれる。 さらに,既存のRefSR手法では,LR画像とRef画像の分布に大きな差異があることを無視し,情報利用の有効性を損なう傾向にある。 本稿では,これらの問題に対処するために2つの新しいモジュールをデザインしたrefsr用masネットワークを提案する。 提案したMatch & extract Moduleは、粗大な対応マッチング方式により計算コストを大幅に削減する。 空間適応モジュールは、LR画像とRef画像の分布の差を学習し、Ref特徴の分布を空間適応的にLR特徴の分布に再マップする。 このスキームにより、ネットワークは異なる参照画像を扱うことができる。 広範な定量的・定性的実験により,提案モデルの有効性が検証された。

Reference-based image super-resolution (RefSR) has shown promising success in recovering high-frequency details by utilizing an external reference image (Ref). In this task, texture details are transferred from the Ref image to the low-resolution (LR) image according to their point- or patch-wise correspondence. Therefore, high-quality correspondence matching is critical. It is also desired to be computationally efficient. Besides, existing RefSR methods tend to ignore the potential large disparity in distributions between the LR and Ref images, which hurts the effectiveness of the information utilization. In this paper, we propose the MASA network for RefSR, where two novel modules are designed to address these problems. The proposed Match & Extraction Module significantly reduces the computational cost by a coarse-to-fine correspondence matching scheme. The Spatial Adaptation Module learns the difference of distribution between the LR and Ref images, and remaps the distribution of Ref features to that of LR features in a spatially adaptive way. This scheme makes the network robust to handle different reference images. Extensive quantitative and qualitative experiments validate the effectiveness of our proposed model.
翻訳日:2021-06-07 15:03:34 公開日:2021-06-04
# サイクル整合変圧器による少数ショットセグメンテーション

Few-Shot Segmentation via Cycle-Consistent Transformer ( http://arxiv.org/abs/2106.02320v1 )

ライセンス: Link先を確認
Gengwei Zhang, Guoliang Kang, Yunchao Wei, Yi Yang(参考訳) 少数ショットセグメンテーションは、わずかな例で新しいクラスに素早く適応できるセグメンテーションモデルを訓練することを目的としている。 従来のトレーニングパラダイムは、サポートイメージから特徴を条件としたクエリイメージの予測を学ぶことである。 従来の手法では、条件情報としてサポート画像の意味レベルプロトタイプのみを使用していた。 これらの方法は問合せ予測に全ての画素毎のサポート情報を利用できないが、セグメンテーションタスクには不可欠である。 本稿では,支援画像と対象画像の画素間関係を利用して,意味セグメンテーション作業を容易にすることに焦点を当てる。 我々は,新しいCycle-Consistent Transformer (CyCTR) モジュールを設計し,画素単位のサポート機能をクエリに集約する。 CyCTRは異なる画像、すなわち異なる画像の特徴間の交差アテンションを実行する。 画像のサポートとクエリ。 我々は,予期せぬ画素レベルのサポート機能が存在することを観察した。 直接クロスアテンションを実行することで、クエリ機能のサポートからクエリ機能へのバイアスまで、これらの機能を集約することができる。 そこで本稿では, 有害なサポート機能をフィルタリングし, サポート画像から最も情報性の高いピクセルへのクエリ機能の導入を促すための, 新規なサイクル一貫性アテンション機構を提案する。 数発のセグメンテーションベンチマーク実験により,提案したCyCTRが従来の最先端手法と比較して顕著な改善をもたらすことが示された。 特に、Pascal-$5^i$とCOCO-$20^i$データセットでは、5ショットセグメンテーションで66.6%と45.6%のmIoUが達成され、それぞれ従来の最先端の4.6%と7.1%を上回った。

Few-shot segmentation aims to train a segmentation model that can fast adapt to novel classes with few exemplars. The conventional training paradigm is to learn to make predictions on query images conditioned on the features from support images. Previous methods only utilized the semantic-level prototypes of support images as the conditional information. These methods cannot utilize all pixel-wise support information for the query predictions, which is however critical for the segmentation task. In this paper, we focus on utilizing pixel-wise relationships between support and target images to facilitate the few-shot semantic segmentation task. We design a novel Cycle-Consistent Transformer (CyCTR) module to aggregate pixel-wise support features into query ones. CyCTR performs cross-attention between features from different images, i.e. support and query images. We observe that there may exist unexpected irrelevant pixel-level support features. Directly performing cross-attention may aggregate these features from support to query and bias the query features. Thus, we propose using a novel cycle-consistent attention mechanism to filter out possible harmful support features and encourage query features to attend to the most informative pixels from support images. Experiments on all few-shot segmentation benchmarks demonstrate that our proposed CyCTR leads to remarkable improvement compared to previous state-of-the-art methods. Specifically, on Pascal-$5^i$ and COCO-$20^i$ datasets, we achieve 66.6% and 45.6% mIoU for 5-shot segmentation, outperforming previous state-of-the-art by 4.6% and 7.1% respectively.
翻訳日:2021-06-07 15:03:16 公開日:2021-06-04
# 群集カウントのためのプログレッシブ埋め込みスケールコンテキストに基づくハイブリットアテンションネットワーク

Hybrid attention network based on progressive embedding scale-context for crowd counting ( http://arxiv.org/abs/2106.02324v1 )

ライセンス: Link先を確認
Fusen Wang and Jun Sang and Zhongyuan Wu and Qi Liu and Nong Sang(参考訳) 既存の群集カウント法では、バックグラウンドノイズに対処するためのアテンションメカニズムや、スケール変動に対処するためのマルチレベル特徴やマルチスケールコンテキスト融合が採用されている。 しかし、これらのアプローチは2つの問題を別々に扱う。 本稿では,音の抑制と頭部スケール変化の適応を同時に行うための,progressive embedded scale-context (pes) 情報を用いたハイブリッドアテンションネットワーク (han) を提案する。 本研究では,空間的注意とチャネル的注意モジュールの並列化によるハイブリットアテンション機構を構築し,ネットワークが人間の頭部領域に集中し,背景物体の干渉を低減する。 さらに,空間的およびチャネル的次元に沿ったハイブリッドな注意に一定のスケールコンテキストを組み込むことにより,視点や頭部規模の変化による計数誤差を軽減する。 最後に,複数のハイブリッドアテンションモジュールに異なるスケールコンテキストを組み込むことによって,グローバルからローカルまでの現在の機能マップに,スケールコンテキスト情報を段階的に統合する,プログレッシブ学習戦略を提案する。 アブレーション実験により、ネットワークアーキテクチャは徐々にマルチスケールの特徴を学習し、バックグラウンドノイズを抑制することができる。 大規模な実験により、HANetは4つの主流データセットで最先端のカウント性能を得ることができた。

The existing crowd counting methods usually adopted attention mechanism to tackle background noise, or applied multi-level features or multi-scales context fusion to tackle scale variation. However, these approaches deal with these two problems separately. In this paper, we propose a Hybrid Attention Network (HAN) by employing Progressive Embedding Scale-context (PES) information, which enables the network to simultaneously suppress noise and adapt head scale variation. We build the hybrid attention mechanism through paralleling spatial attention and channel attention module, which makes the network to focus more on the human head area and reduce the interference of background objects. Besides, we embed certain scale-context to the hybrid attention along the spatial and channel dimensions for alleviating these counting errors caused by the variation of perspective and head scale. Finally, we propose a progressive learning strategy through cascading multiple hybrid attention modules with embedding different scale-context, which can gradually integrate different scale-context information into the current feature map from global to local. Ablation experiments provides that the network architecture can gradually learn multi-scale features and suppress background noise. Extensive experiments demonstrate that HANet obtain state-of-the-art counting performance on four mainstream datasets.
翻訳日:2021-06-07 15:02:47 公開日:2021-06-04
# SOLQ: クエリの学習によるオブジェクトのセグメンテーション

SOLQ: Segmenting Objects by Learning Queries ( http://arxiv.org/abs/2106.02351v1 )

ライセンス: Link先を確認
Bin Dong, Fangao Zeng, Tiancai Wang, Xiangyu Zhang, Yichen Wei(参考訳) 本稿では,インスタンスセグメンテーションのためのエンドツーエンドフレームワークを提案する。 最近導入された DETR [1] に基づいて,SOLQ と呼ばれる手法でオブジェクトを分割し,統一クエリを学習する。 SOLQでは、各クエリは1つのオブジェクトを表し、クラス、ロケーション、マスクの複数の表現を持つ。 学習したオブジェクトクエリは、統一ベクトル形式で、分類、ボックス回帰、マスクエンコーディングを同時に行う。 トレーニングフェーズでは、符号化されたマスクベクトルは、生の空間マスクの圧縮符号化によって監視される。 推測時間において、生成したマスクベクトルは、圧縮符号化の逆過程により直接空間マスクに変換することができる。 実験の結果,SOLQは最先端の性能を達成でき,既存手法のほとんどを超越していることがわかった。 さらに、統一クエリ表現の合同学習により、オリジナルdetrの検出性能が大幅に向上する。 SOLQがTransformerベースのインスタンスセグメンテーションの強力なベースラインになることを期待しています。 コードはhttps://github.com/m egvii-research/solqで入手できる。

In this paper, we propose an end-to-end framework for instance segmentation. Based on the recently introduced DETR [1], our method, termed SOLQ, segments objects by learning unified queries. In SOLQ, each query represents one object and has multiple representations: class, location and mask. The object queries learned perform classification, box regression and mask encoding simultaneously in an unified vector form. During training phase, the mask vectors encoded are supervised by the compression coding of raw spatial masks. In inference time, mask vectors produced can be directly transformed to spatial masks by the inverse process of compression coding. Experimental results show that SOLQ can achieve state-of-the-art performance, surpassing most of existing approaches. Moreover, the joint learning of unified query representation can greatly improve the detection performance of original DETR. We hope our SOLQ can serve as a strong baseline for the Transformer-based instance segmentation. Code is available at https://github.com/m egvii-research/SOLQ.
翻訳日:2021-06-07 15:02:25 公開日:2021-06-04
# NMS-Loss: 群集歩行者検出のための非最大抑圧による学習

NMS-Loss: Learning with Non-Maximum Suppression for Crowded Pedestrian Detection ( http://arxiv.org/abs/2106.02426v1 )

ライセンス: Link先を確認
Zekun Luo, Zheng Fang, Sixiao Zheng, Yabiao Wang, Yanwei Fu(参考訳) 非最大抑制(NMS)は物体検出に必須であり,特に群集閉塞シーンにおいて,偽陽性(FP)と偽陰性(FN)を取り入れて評価結果に影響を与える。 本稿では,学習目標とnsmによる評価指標との弱結合問題を提起し,ネットワークパラメータを付加することなく,nms手順をエンドツーエンドで訓練できる新しいnss-lossを提案する。 我々のNMS-ロスは、FPが抑制されず、FNがNMSによって誤って排除された2例を罰する。 具体的には,同一ターゲットが互いに近接する予測をプルするプル損失と,異なるターゲットが互いに遠ざかる予測をプッシュ損失を提案する。 実験の結果、nms-lossの助けを借りて、nms-pedは、caltechデータセットでは5.92%、citypersonsデータセットでは10.08%のミス率で印象的な結果を得ることができた。

Non-Maximum Suppression (NMS) is essential for object detection and affects the evaluation results by incorporating False Positives (FP) and False Negatives (FN), especially in crowd occlusion scenes. In this paper, we raise the problem of weak connection between the training targets and the evaluation metrics caused by NMS and propose a novel NMS-Loss making the NMS procedure can be trained end-to-end without any additional network parameters. Our NMS-Loss punishes two cases when FP is not suppressed and FN is wrongly eliminated by NMS. Specifically, we propose a pull loss to pull predictions with the same target close to each other, and a push loss to push predictions with different targets away from each other. Experimental results show that with the help of NMS-Loss, our detector, namely NMS-Ped, achieves impressive results with Miss Rate of 5.92% on Caltech dataset and 10.08% on CityPersons dataset, which are both better than state-of-the-art competitors.
翻訳日:2021-06-07 15:02:14 公開日:2021-06-04
# 分類アルゴリズムテストのための新しい胃病理組織学サブサイズ画像データベース(gashissdb):線形回帰から視覚トランスフォーマーへ

A New Gastric Histopathology Subsize Image Database (GasHisSDB) for Classification Algorithm Test: from Linear Regression to Visual Transformer ( http://arxiv.org/abs/2106.02473v1 )

ライセンス: Link先を確認
Weiming Hu, Chen Li, Xiaoyan Li, Haoyuan Chen, Wanli Liu, Changhao Sun, Marcin Grzegorzek(参考訳) GasHisSDBは、245196の画像を持つ新しい胃病理組織分類画像データベースである。 GasHisSDBは160*160ピクセルのサブデータベース、120*120ピクセルのサブデータベース、80*80ピクセルのサブデータベースに分けられる。 GasHisSDBは画像分類を評価する機能を実現する。 画像分類の分野で異なる期間の手法がGasHisSDBに相違があることを証明するために,評価のための様々な分類器を選択する。 画像分類タスクをテストするため、7つの古典的機械学習分類器、3つのCNN分類器、新しいトランスフォーマーベースの分類器が選択される。 GasHisSDBは:https://github.com/ NEUhwm/GasHisSDB.git .comで利用できる。

GasHisSDB is a New Gastric Histopathology Subsize Image Database with a total of 245196 images. GasHisSDB is divided into 160*160 pixels sub-database, 120*120 pixels sub-database and 80*80 pixels sub-database. GasHisSDB is made to realize the function of valuating image classification. In order to prove that the methods of different periods in the field of image classification have discrepancies on GasHisSDB, we select a variety of classifiers for evaluation. Seven classical machine learning classifiers, three CNN classifiers and a novel transformer-based classifier are selected for testing on image classification tasks. GasHisSDB is available at the URL:https://github.c om/NEUhwm/GasHisSDB. git.
翻訳日:2021-06-07 15:01:50 公開日:2021-06-04
# 深さ推定のための領域不変特徴の自己教師付き学習

Self-Supervised Learning of Domain Invariant Features for Depth Estimation ( http://arxiv.org/abs/2106.02594v1 )

ライセンス: Link先を確認
Hiroyasu Akada, Shariq Farooq Bhat, Ibraheem Alhashim, Peter Wonka(参考訳) 単一画像深度推定のための教師なし合成-現実的領域適応の問題に取り組む。 単一画像深度推定の重要なビルディングブロックは、rgb画像を入力として出力として深度マップを生成するエンコーダ/デコーダタスクネットワークである。 本稿では,タスクネットワークにドメイン不変表現を自己教師型で学習させる新たなトレーニング戦略を提案する。 具体的には、1つのドメインからの画像を扱う従来の表現学習から、2つのドメインからの画像を扱うドメイン不変表現学習まで、画像から画像への変換ネットワークを利用して自己教師付き学習を拡張する。 まず、双方向画像変換ネットワークを用いて、ドメイン固有のスタイルを合成ドメインと実ドメイン間で転送する。 このスタイルの転送操作により、異なるドメインから同様の画像を得ることができる。 第2に、タスクネットワークと、異なるドメインから同じイメージを持つシャムネットワークを共同で訓練し、タスクネットワークに対するドメイン不変性を得る。 最後に,ラベル付き実世界のデータを用いてタスクネットワークを微調整する。 トレーニング戦略は,実世界の領域における一般化能力の向上をもたらす。 深度推定のための2つの一般的なデータセットであるKITTIとMake3Dについて広範な評価を行う。 その結果,提案手法は定性的にも定量的にも最先端の手法よりも優れていた。 ソースコードとモデルの重み付けが利用可能になる。

We tackle the problem of unsupervised synthetic-to-realist ic domain adaptation for single image depth estimation. An essential building block of single image depth estimation is an encoder-decoder task network that takes RGB images as input and produces depth maps as output. In this paper, we propose a novel training strategy to force the task network to learn domain invariant representations in a self-supervised manner. Specifically, we extend self-supervised learning from traditional representation learning, which works on images from a single domain, to domain invariant representation learning, which works on images from two different domains by utilizing an image-to-image translation network. Firstly, we use our bidirectional image-to-image translation network to transfer domain-specific styles between synthetic and real domains. This style transfer operation allows us to obtain similar images from the different domains. Secondly, we jointly train our task network and Siamese network with the same images from the different domains to obtain domain invariance for the task network. Finally, we fine-tune the task network using labeled synthetic and unlabeled real-world data. Our training strategy yields improved generalization capability in the real-world domain. We carry out an extensive evaluation on two popular datasets for depth estimation, KITTI and Make3D. The results demonstrate that our proposed method outperforms the state-of-the-art both qualitatively and quantitatively. The source code and model weights will be made available.
翻訳日:2021-06-07 15:01:39 公開日:2021-06-04
# オブジェクトレベルコントラスト学習による検出のための事前学習の調整

Aligning Pretraining for Detection via Object-Level Contrastive Learning ( http://arxiv.org/abs/2106.02637v1 )

ライセンス: Link先を確認
Fangyun Wei, Yue Gao, Zhirong Wu, Han Hu, Stephen Lin(参考訳) 画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。 しかし、移行学習のそのような一般化は、特定の下流タスクに興味がある場合、特異性を犠牲にする。 これは副最適化であり、従って、自己教師付きプリテキストタスクと下流タスクの整合を促進する設計原則を提唱する。 本稿では,物体検出に特化して設計された事前学習法を用いて,この原理に従う。 1)オブジェクトレベルの表現は、オブジェクトの提案として選択的な検索バウンディングボックスを介して導入される; 2)事前学習ネットワークアーキテクチャは、検出パイプライン(例えば、)で使用されるのと同じ専用モジュールを組み込む。 FPN); 3) 事前学習にはオブジェクトレベルの翻訳不変性やスケール不変性などのオブジェクト検出特性が備わっている。 提案手法はSelective Object Contrastive Learning (SoCo) と呼ばれ,Mask R-CNNフレームワークを用いたCOCO検出における伝達性能の最先端化を実現する。 コードとモデルは利用可能になる。

Image-level contrastive representation learning has proven to be highly effective as a generic model for transfer learning. Such generality for transfer learning, however, sacrifices specificity if we are interested in a certain downstream task. We argue that this could be sub-optimal and thus advocate a design principle which encourages alignment between the self-supervised pretext task and the downstream task. In this paper, we follow this principle with a pretraining method specifically designed for the task of object detection. We attain alignment in the following three aspects: 1) object-level representations are introduced via selective search bounding boxes as object proposals; 2) the pretraining network architecture incorporates the same dedicated modules used in the detection pipeline (e.g. FPN); 3) the pretraining is equipped with object detection properties such as object-level translation invariance and scale invariance. Our method, called Selective Object COntrastive learning (SoCo), achieves state-of-the-art results for transfer performance on COCO detection using a Mask R-CNN framework. Code and models will be made available.
翻訳日:2021-06-07 15:01:18 公開日:2021-06-04
# ビデオオブジェクトセグメンテーションのためのトランスフォーマーとオブジェクトを関連付ける

Associating Objects with Transformers for Video Object Segmentation ( http://arxiv.org/abs/2106.02638v1 )

ライセンス: Link先を確認
Zongxin Yang, Yunchao Wei, Yi Yang(参考訳) 本稿では,マルチオブジェクトシナリオに挑戦しながら,半教師付き映像オブジェクトセグメンテーションに取り組むための,より良く効率的な組込み学習を実現する方法について検討する。 最先端の手法は、1つの正のオブジェクトで機能をデコードし、複数のオブジェクトのシナリオで各ターゲットをマッチして分割し、複数のコンピューティングリソースを消費する。 そこで本研究では,複数のオブジェクトを一様に一致・復号化するためのAssociating Objects with Transformers (AOT)アプローチを提案する。 詳しくは、aotは複数のターゲットを同一の高次元埋め込み空間に関連付ける識別機構を採用している。 したがって、複数のオブジェクトのマッチングとセグメント化デコーディングを同時に処理できると同時に、単一のオブジェクトの処理も効率的に行うことができる。 多目的アソシエーションを十分にモデル化するために、階層的マッチングと伝播を構築するためにLong Short-Term Transformerを設計する。 マルチオブジェクトとシングルオブジェクトのベンチマークにおいて、異なる複雑さを持つAOT変種ネットワークを調べるために広範な実験を行う。 特に、AOT-Lは、YouTube-VOS (83.7% J&F)、DAVIS 2017 (83.0%)、DAVIS 2016 (91.0%)の3つの人気のあるベンチマークにおいて、最先端の競合他社よりも優れています。 一方、AOT-Tは上記のベンチマークでリアルタイムのマルチオブジェクト速度を維持できます。 第3回大規模ビデオオブジェクトセグメンテーションチャレンジで1位にランクインした。 コードはhttps://github.com/z -x-yang/AOT.comで公開される。

This paper investigates how to realize better and more efficient embedding learning to tackle the semi-supervised video object segmentation under challenging multi-object scenarios. The state-of-the-art methods learn to decode features with a single positive object and thus have to match and segment each target separately under multi-object scenarios, consuming multiple times computing resources. To solve the problem, we propose an Associating Objects with Transformers (AOT) approach to match and decode multiple objects uniformly. In detail, AOT employs an identification mechanism to associate multiple targets into the same high-dimensional embedding space. Thus, we can simultaneously process the matching and segmentation decoding of multiple objects as efficiently as processing a single object. For sufficiently modeling multi-object association, a Long Short-Term Transformer is designed for constructing hierarchical matching and propagation. We conduct extensive experiments on both multi-object and single-object benchmarks to examine AOT variant networks with different complexities. Particularly, our AOT-L outperforms all the state-of-the-art competitors on three popular benchmarks, i.e., YouTube-VOS (83.7% J&F), DAVIS 2017 (83.0%), and DAVIS 2016 (91.0%), while keeping better multi-object efficiency. Meanwhile, our AOT-T can maintain real-time multi-object speed on above benchmarks. We ranked 1st in the 3rd Large-scale Video Object Segmentation Challenge. The code will be publicly available at https://github.com/z -x-yang/AOT.
翻訳日:2021-06-07 15:01:03 公開日:2021-06-04
# データ強化とライナリートレーニングによる言語間文選択

Cross-language Sentence Selection via Data Augmentation and Rationale Training ( http://arxiv.org/abs/2106.02293v1 )

ライセンス: Link先を確認
Yanda Chen, Chris Kedzie, Suraj Nair, Petra Galu\v{s}\v{c}\'akov\'a, Rui Zhang, Douglas W. Oard, Kathleen McKeown(参考訳) 本稿では,低リソース環境における言語間文選択手法を提案する。 ノイズの多い並列文データに対するデータ拡張と負サンプリング技術を使用して、言語間埋め込みに基づくクエリ関連モデルを直接学習する。 その結果、このアプローチは、同じ並列データで訓練された複数の最先端機械翻訳+単言語検索システムよりも、あるいはそれ以上の性能を発揮することが示された。 さらに、フレーズベースの統計機械翻訳モデルから単語アライメントヒントと一致するようモデルに有理訓練二次目標を適用した場合、様々な最先端のベースラインに対して3つの言語対(英ソマリ語、英スワヒリ語、英タガログ語)で一貫した改善が見られる。

This paper proposes an approach to cross-language sentence selection in a low-resource setting. It uses data augmentation and negative sampling techniques on noisy parallel sentence data to directly learn a cross-lingual embedding-based query relevance model. Results show that this approach performs as well as or better than multiple state-of-the-art machine translation + monolingual retrieval systems trained on the same parallel data. Moreover, when a rationale training secondary objective is applied to encourage the model to match word alignment hints from a phrase-based statistical machine translation model, consistent improvements are seen across three language pairs (English-Somali, English-Swahili and English-Tagalog) over a variety of state-of-the-art baselines.
翻訳日:2021-06-07 15:00:35 公開日:2021-06-04
# ERICA:Covid-19 Quarantine用の共感的なAndroidコンパニオン

ERICA: An Empathetic Android Companion for Covid-19 Quarantine ( http://arxiv.org/abs/2106.02325v1 )

ライセンス: Link先を確認
Etsuko Ishii, Genta Indra Winata, Samuel Cahyawijaya, Divesh Lala, Tatsuya Kawahara, Pascale Fung(参考訳) 過去1年間で、自然言語処理(NLP)を含むさまざまな分野の研究は、新型コロナウイルス(COVID-19)のパンデミックに対抗するために加速されてきたが、そうした研究は対話システムで始まったばかりである。 本稿では,自律的な隔離を目的としたエンドツーエンド対話システムを提案する。 ユーザインタフェース, Nora 対 Android ERICA という Web ベースの仮想エージェントの効果をビデオ通話で評価するための制御シミュレーション実験を行った。 実験の結果,アンドロイドは表情や身振りなどの非言語的情報により,共感的であり,会話に係わる印象を与えることにより,より価値の高いユーザエクスペリエンスを提供することが示された。

Over the past year, research in various domains, including Natural Language Processing (NLP), has been accelerated to fight against the COVID-19 pandemic, yet such research has just started on dialogue systems. In this paper, we introduce an end-to-end dialogue system which aims to ease the isolation of people under self-quarantine. We conduct a control simulation experiment to assess the effects of the user interface, a web-based virtual agent called Nora vs. the android ERICA via a video call. The experimental results show that the android offers a more valuable user experience by giving the impression of being more empathetic and engaging in the conversation due to its nonverbal information, such as facial expressions and body gestures.
翻訳日:2021-06-07 15:00:15 公開日:2021-06-04
# リカレントニューラルネットワークにおける近似固定点

Approximate Fixed-Points in Recurrent Neural Networks ( http://arxiv.org/abs/2106.02417v1 )

ライセンス: Link先を確認
Zhengxiong Wang and Anton Ragni(参考訳) リカレントニューラルネットワークは、音声や言語処理で広く使われている。 過去に依存するため、BPTT(back-proagation through time)など、これらのモデルをトレーニングするための標準的なアルゴリズムは、効率的に並列化できない。 さらに、これらのモデルをシーケンスよりも複雑な構造に適用するには、推論時間近似が必要となる。 本稿では,リカレントニューラルネットワークを非線形方程式系の固定点として再構成できることを示す。 これらの固定点は、任意の列の長さの繰り返しを正確に反復アルゴリズムで計算することができる。 このアルゴリズムの各イテレーションには、再帰的なニューラルネットワークによってモデル化されたすべての依存関係が組み込まれるように、マルコフ的な依存関係の順序が1つ追加される。 正確な固定点は同じ並列化や不整合問題を継承するが、この論文は、近似固定点を並列に計算し、格子再構成などのタスクを含むトレーニングや推論に一貫して使用できることを示す。 実験的検証はpenn tree bankとwikitext-2の2つのタスクで行われ、近似不動点がbpttアルゴリズムで訓練された再帰ニューラルネットワークの競合予測性能をもたらすことを示している。

Recurrent neural networks are widely used in speech and language processing. Due to dependency on the past, standard algorithms for training these models, such as back-propagation through time (BPTT), cannot be efficiently parallelised. Furthermore, applying these models to more complex structures than sequences requires inference time approximations, which introduce inconsistency between inference and training. This paper shows that recurrent neural networks can be reformulated as fixed-points of non-linear equation systems. These fixed-points can be computed using an iterative algorithm exactly and in as many iterations as the length of any given sequence. Each iteration of this algorithm adds one additional Markovian-like order of dependencies such that upon termination all dependencies modelled by the recurrent neural networks have been incorporated. Although exact fixed-points inherit the same parallelization and inconsistency issues, this paper shows that approximate fixed-points can be computed in parallel and used consistently in training and inference including tasks such as lattice rescoring. Experimental validation is performed in two tasks, Penn Tree Bank and WikiText-2, and shows that approximate fixed-points yield competitive prediction performance to recurrent neural networks trained using the BPTT algorithm.
翻訳日:2021-06-07 15:00:00 公開日:2021-06-04
# 共有マルチエージェント強化学習における多様性の祝福

Celebrating Diversity in Shared Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2106.02195v1 )

ライセンス: Link先を確認
Chenghao Li, Chengjie WU, Tonghan Wang, Jun Yang, Qianchuan Zhao, Chongjie Zhang(参考訳) 近年, 深層多エージェント強化学習(MARL)は, 複雑な協調作業の解決を約束している。 その成功の一部は、エージェント間のパラメータ共有が原因である。 しかし、そのような共有はエージェントが同様に振舞い、調整能力を制限する可能性がある。 本稿では,共有マルチエージェント強化学習の最適化と表現における多様性について述べる。 具体的には,エージェントのアイデンティティとトラジェクトリ間の相互情報を最大化し,広範囲な探索と多様な個別化行動を促す情報理論正規化を提案する。 表現では、l1-normによって規則化された共有ニューラルネットワークアーキテクチャにエージェント固有のモジュールを組み込んで、必要な多様性を維持しながらエージェント間の学習共有を促進する。 実験の結果,本手法はGoogle Research Footballと超硬度StarCraft IIマイクロマネジメントタスクの最先端性能を実現する。

Recently, deep multi-agent reinforcement learning (MARL) has shown the promise to solve complex cooperative tasks. Its success is partly because of parameter sharing among agents. However, such sharing may lead agents to behave similarly and limit their coordination capacity. In this paper, we aim to introduce diversity in both optimization and representation of shared multi-agent reinforcement learning. Specifically, we propose an information-theoreti cal regularization to maximize the mutual information between agents' identities and their trajectories, encouraging extensive exploration and diverse individualized behaviors. In representation, we incorporate agent-specific modules in the shared neural network architecture, which are regularized by L1-norm to promote learning sharing among agents while keeping necessary diversity. Empirical results show that our method achieves state-of-the-art performance on Google Research Football and super hard StarCraft II micromanagement tasks.
翻訳日:2021-06-07 14:58:58 公開日:2021-06-04
# 確率回路のトラクタブル規則化

Tractable Regularization of Probabilistic Circuits ( http://arxiv.org/abs/2106.02264v1 )

ライセンス: Link先を確認
Anji Liu and Guy Van den Broeck(参考訳) 確率回路(PC)は確率的モデリングのための有望な道である。 これらは、確率的グラフィカルモデル(pgms)とニューラルネットワーク(nns)の利点を組み合わせる。 しかしながら、それらは扱いやすい確率モデルであり、マージンやマップのような多くの確率的推論クエリの効率的かつ正確な計算をサポートする。 さらに、pcは構造化計算グラフであるため、ディープラーニングスタイルのパラメータ更新を活用できるため、スケーラビリティが大幅に向上する。 しかし、この革新は、多くの標準ベンチマークで観察されている過度に適合するPCを難しくする。 PGMとNNの両方に豊富な正規化技術が存在するにもかかわらず、PCに適用しても効果は十分ではない。 代わりに,pcの正規化を再考し,データソフトニングとエントロピー正規化という2つの直感的な手法を提案する。 具体的には、データソフトニングは、pcパラメータを暗黙的に規則化するクローズドな形式でデータセットに不確実性を追加する原則的な方法を提供する。 ソフト化されたデータセットからパラメータを学習するには、PCはそのトラクタビリティによって線形時間しか必要としない。 エントロピー正規化では、pcで符号化された分布の正確なエントロピーは直接正規化することができ、他のほとんどの密度推定モデルでは実現不可能である。 両手法が多種多様なPCの一般化性能を一貫して向上することを示す。 さらに、簡単なPC構造と組み合わせることで、20の標準離散密度推定ベンチマークのうち10の最先端結果を得た。

Probabilistic Circuits (PCs) are a promising avenue for probabilistic modeling. They combine advantages of probabilistic graphical models (PGMs) with those of neural networks (NNs). Crucially, however, they are tractable probabilistic models, supporting efficient and exact computation of many probabilistic inference queries, such as marginals and MAP. Further, since PCs are structured computation graphs, they can take advantage of deep-learning-style parameter updates, which greatly improves their scalability. However, this innovation also makes PCs prone to overfitting, which has been observed in many standard benchmarks. Despite the existence of abundant regularization techniques for both PGMs and NNs, they are not effective enough when applied to PCs. Instead, we re-think regularization for PCs and propose two intuitive techniques, data softening and entropy regularization, that both take advantage of PCs' tractability and still have an efficient implementation as a computation graph. Specifically, data softening provides a principled way to add uncertainty in datasets in closed form, which implicitly regularizes PC parameters. To learn parameters from a softened dataset, PCs only need linear time by virtue of their tractability. In entropy regularization, the exact entropy of the distribution encoded by a PC can be regularized directly, which is again infeasible for most other density estimation models. We show that both methods consistently improve the generalization performance of a wide variety of PCs. Moreover, when paired with a simple PC structure, we achieved state-of-the-art results on 10 out of 20 standard discrete density estimation benchmarks.
翻訳日:2021-06-07 14:58:44 公開日:2021-06-04
# マルチステップ機械学習によるイベント分類

Event Classification with Multi-step Machine Learning ( http://arxiv.org/abs/2106.02301v1 )

ライセンス: Link先を確認
Masahiko Saito, Tomoe Kishimoto, Yuya Kaneta, Taichi Itoh, Yoshiaki Umeda, Junichi Tanaka, Yutaro Iiyama, Ryu Sawada, Koji Terashi(参考訳) 中間タスクなしで学習された1つの大規模モデルとは対照的に、タスクを既知の中間推論目標を持つ連結サブタスクに編成する多段階機械学習(ML)の有用性と価値を示す。 事前最適化MLモデルを接続し、接続したモデルを再最適化することで、より良い性能が得られる。 サブタスク毎に複数の小さなMLモデル候補からMLモデルを選択することは、ニューラルアーキテクチャサーチ(NAS)に基づくアイデアを用いて行われている。 本稿では,識別可能なアーキテクチャ探索 (DARTS) と単一パスワンショットNAS (SPOS-NAS) を検証し,損失関数の構成を改善し,すべてのMLモデルを円滑に学習する。 DARTSとSPOS-NASを最適化と選択、多段階機械学習システムとの接続として使用することにより、(1)高パフォーマンスモデルの組み合わせを迅速かつうまく選択でき、(2)選択したモデルがグリッド探索などのベースラインアルゴリズムと整合し、その出力がよく制御されることがわかった。

The usefulness and value of Multi-step Machine Learning (ML), where a task is organized into connected sub-tasks with known intermediate inference goals, as opposed to a single large model learned end-to-end without intermediate sub-tasks, is presented. Pre-optimized ML models are connected and better performance is obtained by re-optimizing the connected one. The selection of an ML model from several small ML model candidates for each sub-task has been performed by using the idea based on Neural Architecture Search (NAS). In this paper, Differentiable Architecture Search (DARTS) and Single Path One-Shot NAS (SPOS-NAS) are tested, where the construction of loss functions is improved to keep all ML models smoothly learning. Using DARTS and SPOS-NAS as an optimization and selection as well as the connections for multi-step machine learning systems, we find that (1) such a system can quickly and successfully select highly performant model combinations, and (2) the selected models are consistent with baseline algorithms, such as grid search, and their outputs are well controlled.
翻訳日:2021-06-07 14:58:19 公開日:2021-06-04
# マルチタスクオンラインミラーDescent

Multitask Online Mirror Descent ( http://arxiv.org/abs/2106.02393v1 )

ライセンス: Link先を確認
Nicol\`o Cesa-Bianchi, Pierre Laforgue, Andrea Paudice, Massimiliano Pontil(参考訳) MT-OMDは,タスク間の更新を共有して動作するオンラインミラー・ディクシブ(OMD)のマルチタスク一般化である。 MT-OMD の後悔は次数 $\sqrt{1 + \sigma^2(N-1)}\sqrt{T}$ であることを証明する。 タスクが似ている場合、すなわち$\sigma^2 \le 1$は、各タスクで独立したOMDを実行することで得られる$\sqrt{NT}$バウンドに改善される。 OMDの2つの重要な例である Online Gradient Descent と Exponentiated Gradient のマルチタスク拡張は、クローズドフォームの更新を楽しみ、実際に使用しやすいことを示す。 最後に,理論的な知見を裏付ける4つの実世界のデータセットについて数値実験を行う。

We introduce and analyze MT-OMD, a multitask generalization of Online Mirror Descent (OMD) which operates by sharing updates between tasks. We prove that the regret of MT-OMD is of order $\sqrt{1 + \sigma^2(N-1)}\sqrt{T}$, where $\sigma^2$ is the task variance according to the geometry induced by the regularizer, $N$ is the number of tasks, and $T$ is the time horizon. Whenever tasks are similar, that is, $\sigma^2 \le 1$, this improves upon the $\sqrt{NT}$ bound obtained by running independent OMDs on each task. Our multitask extensions of Online Gradient Descent and Exponentiated Gradient, two important instances of OMD, are shown to enjoy closed-form updates, making them easy to use in practice. Finally, we provide numerical experiments on four real-world datasets which support our theoretical findings.
翻訳日:2021-06-07 14:57:58 公開日:2021-06-04
# 非拘束遅延分布を有する確率的多腕バンディット

Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions ( http://arxiv.org/abs/2106.02436v1 )

ライセンス: Link先を確認
Tal Lancewicki, Shahar Segal, Tomer Koren, Yishay Mansour(参考訳) アルゴリズムが受信するフィードバックのランダム遅延を伴う確率的多腕バンディット問題(mab)について検討した。 報奨依存遅延設定では,報奨非依存遅延設定と報奨非依存遅延設定の2つの設定を検討する。 我々の主な貢献は、遅延分布の分位数に付加的に依存しながら、各設定でほぼ最適の後悔を達成するアルゴリズムです。 我々の結果は遅延分布については何も仮定していない:特に、それらは任意のパラメトリック分布族から来ており、無制限のサポートと期待を可能にするとは考えていない。

We study the stochastic Multi-Armed Bandit (MAB) problem with random delays in the feedback received by the algorithm. We consider two settings: the reward-dependent delay setting, where realized delays may depend on the stochastic rewards, and the reward-independent delay setting. Our main contribution is algorithms that achieve near-optimal regret in each of the settings, with an additional additive dependence on the quantiles of the delay distribution. Our results do not make any assumptions on the delay distributions: in particular, we do not assume they come from any parametric family of distributions and allow for unbounded support and expectation; we further allow for infinite delays where the algorithm might occasionally not observe any feedback.
翻訳日:2021-06-07 14:57:38 公開日:2021-06-04
# Graph Barlow Twins: グラフのための自己教師型表現学習フレームワーク

Graph Barlow Twins: A self-supervised representation learning framework for graphs ( http://arxiv.org/abs/2106.02466v1 )

ライセンス: Link先を確認
Piotr Bielak, Tomasz Kajdanowicz, Nitesh V. Chawla(参考訳) 自己教師型学習(SSL)パラダイムは,高価なデータラベリングの必要性を排除すべく,重要な調査領域である。 コンピュータビジョンや自然言語処理においてSSLメソッドが大きな成功を収めたにもかかわらず、そのほとんどは負のサンプルを必要とする対照的な学習目標を採用しており、定義は困難である。 これはグラフの場合さらに難しくなり、堅牢な表現を達成するためのボトルネックとなる。 このような制限を克服するために、負のサンプルの代わりに相互相関に基づく損失関数を利用するグラフバーロウツインズ(Graph Barlow Twins)を自己教師付きグラフ表現学習のためのフレームワークを提案する。 さらに、非対称ニューラルネットワークアーキテクチャに依存しない -- 最先端の自己教師付きグラフ表現学習法bgrlとは対照的である。 提案手法は,bgrl,最良自己監督法,完全監督法と同等の競争結果を達成でき,より早い段階では超パラメータと収束をかなり少なくできることを示した。

The self-supervised learning (SSL) paradigm is an essential exploration area, which tries to eliminate the need for expensive data labeling. Despite the great success of SSL methods in computer vision and natural language processing, most of them employ contrastive learning objectives that require negative samples, which are hard to define. This becomes even more challenging in the case of graphs and is a bottleneck for achieving robust representations. To overcome such limitations, we propose a framework for self-supervised graph representation learning -- Graph Barlow Twins, which utilizes a cross-correlation-ba sed loss function instead of negative samples. Moreover, it does not rely on non-symmetric neural network architectures -- in contrast to state-of-the-art self-supervised graph representation learning method BGRL. We show that our method achieves as competitive results as BGRL, best self-supervised methods, and fully supervised ones while requiring substantially fewer hyperparameters and converging in an order of magnitude training steps earlier.
翻訳日:2021-06-07 14:57:27 公開日:2021-06-04
# 近似バイレベル最適化のための1次ヒューリスティックのデバイアス

Debiasing a First-order Heuristic for Approximate Bi-level Optimization ( http://arxiv.org/abs/2106.02487v1 )

ライセンス: Link先を確認
Valerii Likhosherstov, Xingyou Song, Krzysztof Choromanski, Jared Davis, Adrian Weller(参考訳) 近似二レベル最適化(ablo)は、数値(インナーレベル)最適化ループを含む(外部レベル)最適化問題からなる。 ABLOはディープラーニングにまたがる多くのアプリケーションを持っているが、時間とメモリの複雑さは内部最適化ループの$r$に比例する。 この複雑さに対処するため、初期の1次法(FOM)は2次微分項を省略し、大きな速度ゲインをもたらし、メモリを一定に保つヒューリスティックとして提案された。 FOMの人気にもかかわらず、収束性に関する理論的理解が欠けている。 我々は,FOMの勾配バイアスを軽度仮定の下で理論的に特徴づけることにより寄与する。 さらに、FOMをベースとしたSGDがABLO目標の定常点に収束しないような、豊富な例の族を示す。 この懸念に対処するために、不偏のFOM(UFOM)を$r$の関数として一定のメモリ複雑性を享受することを提案する。 導入した時間分散トレードオフを特徴付け、収束境界を示し、与えられたABLO問題に対して最適なUFOMを求める。 最後に,効率的な適応ufomスキームを提案する。

Approximate bi-level optimization (ABLO) consists of (outer-level) optimization problems, involving numerical (inner-level) optimization loops. While ABLO has many applications across deep learning, it suffers from time and memory complexity proportional to the length $r$ of its inner optimization loop. To address this complexity, an earlier first-order method (FOM) was proposed as a heuristic that omits second derivative terms, yielding significant speed gains and requiring only constant memory. Despite FOM's popularity, there is a lack of theoretical understanding of its convergence properties. We contribute by theoretically characterizing FOM's gradient bias under mild assumptions. We further demonstrate a rich family of examples where FOM-based SGD does not converge to a stationary point of the ABLO objective. We address this concern by proposing an unbiased FOM (UFOM) enjoying constant memory complexity as a function of $r$. We characterize the introduced time-variance tradeoff, demonstrate convergence bounds, and find an optimal UFOM for a given ABLO problem. Finally, we propose an efficient adaptive UFOM scheme.
翻訳日:2021-06-07 14:57:11 公開日:2021-06-04
# 局所的にプライベートな重み付きマルチアームバンドの最適レート

Optimal Rates of (Locally) Differentially Private Heavy-tailed Multi-Armed Bandits ( http://arxiv.org/abs/2106.02575v1 )

ライセンス: Link先を確認
Youming Tao, Yulian Wu, Peng Zhao, Di Wang(参考訳) 本稿では,(局所)微分プライバシー(DP/LDP)モデルにおける確率的マルチアームバンディット(MAB)の問題について検討する。 有界な報酬分布を仮定する以前の結果とは異なり、ここでは主に各アームの報酬分布が、ある$v\in (0, 1]$で 1+v)$-番目のモーメントしか持たない場合に焦点を当てる。 最初の段階では、中央の$\epsilon$-dpモデルで問題を研究しています。 まず,プライベートでロバストなuper confidence bound (ucb)アルゴリズムを開発し,最適に近い結果を得る。 そこで我々は,逐次除去(SE)アルゴリズムのプライベートかつロバストなバージョンを用いて結果を改善する。 最後に,改良アルゴリズムのインスタンス依存的後悔境界は,その下限を示すことによって最適であることを示す。 論文の第2部では、$\epsilon$-ldpモデルでこの問題について研究している。 我々は,seアルゴリズムの局所的プライベートかつロバストなバージョンと見なすことができるアルゴリズムを提案し,インスタンス依存とインスタンス非依存の両方の後悔に対して(ほぼ)最適レートを達成できることを示す。 以上の結果はすべて、有界報酬とヘビーテール報酬の私的MAB問題の違いを明らかにすることができる。 これらの(ほぼ)最適率を達成するために、我々はいくつかの新しいハードインスタンスと、他の関連する問題に使用できる副産物としてのプライベートな頑健な推定器を開発した。 最後に,実験結果も理論的解析をサポートし,アルゴリズムの有効性を示す。

In this paper we study the problem of stochastic multi-armed bandits (MAB) in the (local) differential privacy (DP/LDP) model. Unlike the previous results which need to assume bounded reward distributions, here we mainly focus on the case the reward distribution of each arm only has $(1+v)$-th moment with some $v\in (0, 1]$. In the first part, we study the problem in the central $\epsilon$-DP model. We first provide a near-optimal result by developing a private and robust Upper Confidence Bound (UCB) algorithm. Then, we improve the result via a private and robust version of the Successive Elimination (SE) algorithm. Finally, we show that the instance-dependent regret bound of our improved algorithm is optimal by showing its lower bound. In the second part of the paper, we study the problem in the $\epsilon$-LDP model. We propose an algorithm which could be seen as locally private and robust version of the SE algorithm, and show it could achieve (near) optimal rates for both instance-dependent and instance-independent regrets. All of the above results can also reveal the differences between the problem of private MAB with bounded rewards and heavy-tailed rewards. To achieve these (near) optimal rates, we develop several new hard instances and private robust estimators as byproducts, which might could be used to other related problems. Finally, experimental results also support our theoretical analysis and show the effectiveness of our algorithms.
翻訳日:2021-06-07 14:56:56 公開日:2021-06-04
# 表現学習による原理的変化点検出

Principled change point detection via representation learning ( http://arxiv.org/abs/2106.02602v1 )

ライセンス: Link先を確認
Evgenia Romanenkova and Alexey Zaytsev and Ramil Zainulin and Matvey Morozov(参考訳) 変更点は、シーケンシャルデータの分配において突然の変化である。 変化点検出(CPD)モデルは、このような変化を素早く検出することを目的としている。 古典的なアプローチは、適切なデータ表現学習がないため、半構造化シーケンシャルなデータには不十分である。 そこで本研究では,cpdタスクの特異性を考慮した原理的微分可能損失関数を導入する。 理論的な結果は、この関数が古典的な厳密解に近似することを示唆している。 このような損失関数に対して,深層表現学習CPDモデルの訓練のためのエンドツーエンド手法を提案する。 提案手法は,実世界ビデオや画像シーケンスを含む各種データ型に対する変化点検出のベースライン結果を改善し,それらの表現を改善することを示す。

Change points are abrupt alterations in the distribution of sequential data. A change-point detection (CPD) model aims at quick detection of such changes. Classic approaches perform poorly for semi-structured sequential data because of the absence of adequate data representation learning. To deal with it, we introduce a principled differentiable loss function that considers the specificity of the CPD task. The theoretical results suggest that this function approximates well classic rigorous solutions. For such loss function, we propose an end-to-end method for the training of deep representation learning CPD models. Our experiments provide evidence that the proposed approach improves baseline results of change point detection for various data types, including real-world videos and image sequences, and improve representations for them.
翻訳日:2021-06-07 14:56:31 公開日:2021-06-04
# 金融貸付における解釈可能性に関する総合的アプローチ--モデル,可視化,要約-

A Holistic Approach to Interpretability in Financial Lending: Models, Visualizations, and Summary-Explanations ( http://arxiv.org/abs/2106.02605v1 )

ライセンス: Link先を確認
Chaofan Chen, Kangcheng Lin, Cynthia Rudin, Yaron Shaposhnik, Sijia Wang, Tong Wang(参考訳) 貸与決定は通常、ユーザに最小限の許容可能な説明を提供するプロプライエタリなモデルでなされる。 そのような機密性のない未来の世界では、正当な融資決定にどのような意思決定支援ツールを使いたいのか? この問題は、パンデミックの影響で経済が劇的に変化し、短期的に大量の新規融資が必要になるため、タイムリーである。 本稿では,グローバルな解釈可能な機械学習モデル,インタラクティブな可視化,および任意の決定に対するいくつかの要約と説明を含む,意思決定のためのフレームワークを提案する。 機械学習モデルは、2層ニューラルネットワークに似ているが、サブスケールに分解できる2層追加リスクモデルである。 このモデルでは、第1(隠れ)層の各ノードは有意義なサブスケールモデルを表し、すべての非線形性は透明である。 当社のオンラインビジュアライゼーションツールは,このモデルの探索を可能にします。 我々は、グローバルモデルよりも単純だが一貫性のある3種類の説明を提供する。すなわち、隣接する過去のケースを使用するケースベースの推論説明、モデル予測に最も重要な機能のセット、モデルによってなされた特定の貸出決定に対して、カスタマイズされたスパースな説明を提供する要約説明である。 私たちのフレームワークは、説明可能な機械学習の領域で最初のパブリックチャレンジである、説明可能な機械学習チャレンジでfico recognition awardを受賞しました。

Lending decisions are usually made with proprietary models that provide minimally acceptable explanations to users. In a future world without such secrecy, what decision support tools would one want to use for justified lending decisions? This question is timely, since the economy has dramatically shifted due to a pandemic, and a massive number of new loans will be necessary in the short term. We propose a framework for such decisions, including a globally interpretable machine learning model, an interactive visualization of it, and several types of summaries and explanations for any given decision. The machine learning model is a two-layer additive risk model, which resembles a two-layer neural network, but is decomposable into subscales. In this model, each node in the first (hidden) layer represents a meaningful subscale model, and all of the nonlinearities are transparent. Our online visualization tool allows exploration of this model, showing precisely how it came to its conclusion. We provide three types of explanations that are simpler than, but consistent with, the global model: case-based reasoning explanations that use neighboring past cases, a set of features that were the most important for the model's prediction, and summary-explanations that provide a customized sparse explanation for any particular lending decision made by the model. Our framework earned the FICO recognition award for the Explainable Machine Learning Challenge, which was the first public challenge in the domain of explainable machine learning.
翻訳日:2021-06-07 14:56:22 公開日:2021-06-04
# SE(3)等価な分子波動関数と電子密度の予測

SE(3)-equivariant prediction of molecular wavefunctions and electronic densities ( http://arxiv.org/abs/2106.02347v1 )

ライセンス: Link先を確認
Oliver T. Unke, Mihail Bogojeski, Michael Gastegger, Mario Geiger, Tess Smidt, Klaus-Robert M\"uller(参考訳) 機械学習は、高い精度と効率で量子化学特性の予測を可能にし、計算コストのかかるab initio計算をバイパスした。 固定された性質の組を訓練する代わりに、より最近のアプローチでは、電子波動関数(または密度)を原子論的システムの中心的量として学習し、他の全ての観測可能なものから導出しようとする。 これは波動関数が分子回転の下で非自明に変換されるという事実によって複雑であり、これは挑戦的な予測対象となる。 そこで本研究では,幾何点雲データのための深層学習アーキテクチャを構築するための一般的なse(3)同変演算とビルディングブロックを導入し,前例のない精度で原子系の波動関数を再構成する手法を提案する。 本モデルでは, 従来の最先端技術と比較して最大2桁の予測誤差を低減し, 終末的に波動関数から直接エネルギーや力などの特性を導出できるようにする。 そこでは,低精度参照波動関数で訓練されたモデルが,高レベルの理論で計算された可観測物から電子的多体相互作用の補正を暗黙的に学習する。 このような機械主導の波動関数は、新しい半経験的手法への道を開き、電子レベルで解像度を提供し、計算コストを劇的に削減する。 このコントリビューションにおける物理学の応用にフォーカスする一方で、ポイントクラウドでのディープラーニングのための同種フレームワークの提案は、コンピュータビジョンやグラフィックスなどにおいても有望である。

Machine learning has enabled the prediction of quantum chemical properties with high accuracy and efficiency, allowing to bypass computationally costly ab initio calculations. Instead of training on a fixed set of properties, more recent approaches attempt to learn the electronic wavefunction (or density) as a central quantity of atomistic systems, from which all other observables can be derived. This is complicated by the fact that wavefunctions transform non-trivially under molecular rotations, which makes them a challenging prediction target. To solve this issue, we introduce general SE(3)-equivariant operations and building blocks for constructing deep learning architectures for geometric point cloud data and apply them to reconstruct wavefunctions of atomistic systems with unprecedented accuracy. Our model reduces prediction errors by up to two orders of magnitude compared to the previous state-of-the-art and makes it possible to derive properties such as energies and forces directly from the wavefunction in an end-to-end manner. We demonstrate the potential of our approach in a transfer learning application, where a model trained on low accuracy reference wavefunctions implicitly learns to correct for electronic many-body interactions from observables computed at a higher level of theory. Such machine-learned wavefunction surrogates pave the way towards novel semi-empirical methods, offering resolution at an electronic level while drastically decreasing computational cost. While we focus on physics applications in this contribution, the proposed equivariant framework for deep learning on point clouds is promising also beyond, say, in computer vision or graphics.
翻訳日:2021-06-07 14:55:58 公開日:2021-06-04
# MRIを用いた医療画像評価におけるCNNとGAN

CNNs and GANs in MRI-based cross-modality medical image estimation ( http://arxiv.org/abs/2106.02198v1 )

ライセンス: Link先を確認
Azin Shokraei Fard, David C. Reutens, Viktor Vegh(参考訳) クロスモダリティ画像推定は、ある医療画像モダリティから別のモダリティの画像を生成することを含む。 畳み込みニューラルネットワーク(CNN)は、画像パターンの識別、特徴付け、抽出に有用であることが示されている。 generative adversarial network (gans) はcnnをジェネレータとして使用し、推定画像は追加のネットワークに基づいてtrueまたはfalseと識別される。 画像推定フレームワーク内のcnnとganは、画像データが大きい傾向があり、ネットワーク重みの増加につながるため、ディープラーニングアプローチとしてより一般的に考慮される可能性がある。 CNN/GAN画像推定文献におけるほとんどの研究は、MRIデータとPETまたはCTの他のモダリティの使用に関係している。 本稿では,MRI を用いた医療画像推定における CNN と GAN の利用について概説する。 本稿では,実装されたニューラルネットワークの概要と,cnnおよびgan画像から画像への推定に使用されるネットワーク構成の詳細について述べる。 クロスモダリティ画像推定の背後にあるモチベーションも提供される。 GANは、推定画像と実画像を比較した指標を含む分析結果であるCNNと比較して、モダリティ間画像推定において、より良い有用性を提供すると考えられる。 最後に, クロスモダリティ医療画像推定分野が直面する課題を強調し, 今後の研究への提言について概説する。

Cross-modality image estimation involves the generation of images of one medical imaging modality from that of another modality. Convolutional neural networks (CNNs) have been shown to be useful in identifying, characterising and extracting image patterns. Generative adversarial networks (GANs) use CNNs as generators and estimated images are discriminated as true or false based on an additional network. CNNs and GANs within the image estimation framework may be considered more generally as deep learning approaches, since imaging data tends to be large, leading to a larger number of network weights. Almost all research in the CNN/GAN image estimation literature has involved the use of MRI data with the other modality primarily being PET or CT. This review provides an overview of the use of CNNs and GANs for MRI-based cross-modality medical image estimation. We outline the neural networks implemented, and detail network constructs employed for CNN and GAN image-to-image estimators. Motivations behind cross-modality image estimation are provided as well. GANs appear to provide better utility in cross-modality image estimation in comparison with CNNs, a finding drawn based on our analysis involving metrics comparing estimated and actual images. Our final remarks highlight key challenges faced by the cross-modality medical image estimation field, and suggestions for future research are outlined.
翻訳日:2021-06-07 14:55:09 公開日:2021-06-04
# トポロジカルデータ解析によるモデル生成評価のためのバーコード法

Barcode Method for Generative Model Evaluation driven by Topological Data Analysis ( http://arxiv.org/abs/2106.02207v1 )

ライセンス: Link先を確認
Ryoungwoo Jang, Minjee Kim, Da-in Eun, Kyungjin Cho, Jiyeon Seo, Namkug Kim(参考訳) 画像合成における生成モデルの性能評価は難しい課題である。 Fr\'echet Inception Distanceは広く受け入れられている評価指標であるが、合成画像の異なる側面(例えば、忠実さと多様性)を単一のスコアに統合し、埋め込みベクトルの正規性を仮定する。 近年,k-nearest近傍法に基づく忠実度と多様性を分離する精度・リコール法や密度・カバー法などの変種が開発されている。 本研究では,位相データ解析に触発され,仮定やハイパーパラメータ選択がほとんどないbarcodeというアルゴリズムを提案する。 実世界のデータセットに関する広範な実験と高次元の正規化に関する理論的アプローチにおいて、埋め込みベクトルの「通常の」正規化仮定にはいくつかの欠点があることがわかった。 実験の結果,バーコードはGAN出力の忠実度や多様性を評価する他の手法よりも優れていた。 公式コードはhttps://github.com/m injeekim00/barcodeにある。

Evaluating the performance of generative models in image synthesis is a challenging task. Although the Fr\'echet Inception Distance is a widely accepted evaluation metric, it integrates different aspects (e.g., fidelity and diversity) of synthesized images into a single score and assumes the normality of embedded vectors. Recent methods such as precision-and-recall and its variants such as density-and-coverage have been developed to separate fidelity and diversity based on k-nearest neighborhood methods. In this study, we propose an algorithm named barcode, which is inspired by the topological data analysis and is almost free of assumption and hyperparameter selections. In extensive experiments on real-world datasets as well as theoretical approach on high-dimensional normal samples, it was found that the 'usual' normality assumption of embedded vectors has several drawbacks. The experimental results demonstrate that barcode outperforms other methods in evaluating fidelity and diversity of GAN outputs. Official codes can be found in https://github.com/m injeekim00/Barcode.
翻訳日:2021-06-07 14:54:50 公開日:2021-06-04
# ニューラルネットワークに基づく円柱鏡像の鏡面反射除去--先行知識のない教師あり訓練

Specular reflections removal in colposcopic images based on neural networks: Supervised training with no ground truth previous knowledge ( http://arxiv.org/abs/2106.02221v1 )

ライセンス: Link先を確認
Lauren Jimenez-Martin, Daniel A. Vald\'es P\'erez, Ana M. Solares Asteasuainzarra, Ludwig Leonard, Marta L. Baguer D\'iaz-Roma\~nach(参考訳) 頸部がんは女性の健康を脅かす悪性腫瘍であり、世界中で女性に影響を与える最も一般的な腫瘍の一つである。 早期発見には、子宮頸部の大腸鏡像が損傷や異常の可能性を検索するために用いられる。 これらの画像の固有の特徴は、いくつかの領域を観察することが困難になる光の反射(明度)の存在である。 本稿では, スペクトル反射を除去し, 未観測の解剖学的頸部領域を明るい領域下で推定するためのニューラルネットワークに基づく新しい手法を提案する。 本稿では,コポスコープ画像の隠れた領域を復元する方法を学習するために,ニューラルネットワークを訓練し,初期から基礎的真理を知らずに教師あり学習法を提案する。 スペクショナルリフレクションが特定されると、イメージから削除され、これらの削除された領域を満たすために、トレーニング済みのネットワークが使用される。 処理画像の品質を定量的に質的に評価した。 22枚の画像のうち21枚は、検出されたスペクトル反射が完全に除去され、残りの21枚は、ほぼ完全に除去された。 復元された画像の色や内容の分布はオリジナルと類似している。 Cervix Pathologyのスペシャリストが行った評価では、スペックル反射を除去した後、頸部の解剖学的および生理的要素が復元された画像で観察可能であることが判明し、頚部疾患の診断が容易になった。 本手法は頸部癌の早期発見を改善する可能性がある。

Cervical cancer is a malignant tumor that seriously threatens women's health, and is one of the most common that affects women worldwide. For its early detection, colposcopic images of the cervix are used for searching for possible injuries or abnormalities. An inherent characteristic of these images is the presence of specular reflections (brightness) that make it difficult to observe some regions, which might imply a misdiagnosis. In this paper, a new strategy based on neural networks is introduced for eliminating specular reflections and estimating the unobserved anatomical cervix portion under the bright zones. We present a supervised learning method, despite not knowing the ground truth from the beginning, based on training a neural network to learn how to restore any hidden region of colposcopic images. Once the specular reflections are identified, they are removed from the image and the previously trained network is used to fulfill these deleted areas. The quality of the processed images was evaluated quantitatively and qualitatively. In 21 of the 22 evaluated images, the detected specular reflections were totally eliminated, whereas, in the remaining one, these reflections were almost completely eliminated. The distribution of the colors and the content of the restored images are similar to those of the originals. The evaluation carried out by a specialist in Cervix Pathology concluded that, after eliminating the specular reflections, the anatomical and physiological elements of the cervix are observable in the restored images, which facilitates the medical diagnosis of cervical pathologies. Our method has the potential to improve the early detection of cervical cancer.
翻訳日:2021-06-07 14:54:32 公開日:2021-06-04
# RoadMap: 自律運転に向けた視覚的位置決めのための軽量セマンティックマップ

RoadMap: A Light-Weight Semantic Map for Visual Localization towards Autonomous Driving ( http://arxiv.org/abs/2106.02527v1 )

ライセンス: Link先を確認
Tong Qin, Yuxin Zheng, Tongqing Chen, Yilun Chen, and Qing Su(参考訳) 正確なローカライゼーションは自動運転タスクにとって極めて重要である。 今日では、センサーに富む車両(例)が多く見られる。 ロボタクシー(robotaxi) 道路を自律走行し、高精度なセンサー(例えば)に依存する。 lidarとrtk gps)と高解像度マップ。 しかし、低価格生産車はセンサーや地図にこれほど高い費用を支払えない。 コスト削減の方法? センサーに富んだ車は低コスト車にどう役立つのか? 本稿では,低コストカメラとコンパクトな視覚的セマンティックマップに依存する軽量なローカライゼーションソリューションを提案する。 地図は簡単に作成され、センサリッチな車両によってクラウドソースで更新される。 具体的には、地図は、車線、横断歩道、地上標識、路面上の停止線など、いくつかの意味要素から構成される。 本稿では,車載マッピング,クラウドメンテナンス,ユーザ・ローカライゼーションのフレームワーク全体を紹介する。 地図データは収集され、車両で前処理される。 そしてクラウドサーバにクラウドソースされたデータがアップロードされる。 複数の車両からの質量データはクラウド上にマージされ、セマンティックマップが時間内に更新される。 最後に、セマンティックマップは圧縮され、プロダクションカーに配布され、このマップをローカライゼーションに使用する。 提案する地図の性能を実世界実験で検証し,他のアルゴリズムと比較した。 セマンティックマップの平均サイズは36ドルkb/kmである。 このフレームワークは、自動運転のための信頼性が高く実用的なローカライズソリューションであることを強調する。

Accurate localization is of crucial importance for autonomous driving tasks. Nowadays, we have seen a lot of sensor-rich vehicles (e.g. Robo-taxi) driving on the street autonomously, which rely on high-accurate sensors (e.g. Lidar and RTK GPS) and high-resolution map. However, low-cost production cars cannot afford such high expenses on sensors and maps. How to reduce costs? How do sensor-rich vehicles benefit low-cost cars? In this paper, we proposed a light-weight localization solution, which relies on low-cost cameras and compact visual semantic maps. The map is easily produced and updated by sensor-rich vehicles in a crowd-sourced way. Specifically, the map consists of several semantic elements, such as lane line, crosswalk, ground sign, and stop line on the road surface. We introduce the whole framework of on-vehicle mapping, on-cloud maintenance, and user-end localization. The map data is collected and preprocessed on vehicles. Then, the crowd-sourced data is uploaded to a cloud server. The mass data from multiple vehicles are merged on the cloud so that the semantic map is updated in time. Finally, the semantic map is compressed and distributed to production cars, which use this map for localization. We validate the performance of the proposed map in real-world experiments and compare it against other algorithms. The average size of the semantic map is $36$ kb/km. We highlight that this framework is a reliable and practical localization solution for autonomous driving.
翻訳日:2021-06-07 14:54:07 公開日:2021-06-04
# Fre-GAN: 対向周波数一貫性オーディオ合成

Fre-GAN: Adversarial Frequency-consistent Audio Synthesis ( http://arxiv.org/abs/2106.02297v1 )

ライセンス: Link先を確認
Ji-Hoon Kim, Sang-Hoon Lee, Ji-Hyun Lee, Seong-Whan Lee(参考訳) 最近のニューラルボコーダの研究により、合成音声の品質は向上しているが、周波数空間における生成音声と接地音声の間にはギャップが残っている。 この違いは、ヒスリングノイズやロボット音などのスペクトルアーチファクトにつながり、サンプルの品質が低下する。 本稿では,周波数一貫性のある音声合成を実現するFre-GANを提案する。 具体的には,まず,複数の周波数帯域にわたるスペクトル分布の様々なスケールの学習を支援する,分解能結合型生成器と分解能方向判別器を提案する。 さらに、高周波成分を正確に再現するために、離散ウェーブレット変換を利用する。 実験結果から,Fre-GANは音質の標準モデルよりも高い精度で0.03MOSの高忠実度波形を生成することができた。

Although recent works on neural vocoder have improved the quality of synthesized audio, there still exists a gap between generated and ground-truth audio in frequency space. This difference leads to spectral artifacts such as hissing noise or robotic sound, and thus degrades the sample quality. In this paper, we propose Fre-GAN which achieves frequency-consistent audio synthesis with highly improved generation quality. Specifically, we first present resolution-connected generator and resolution-wise discriminators, which help learn various scales of spectral distributions over multiple frequency bands. Additionally, to reproduce high-frequency components accurately, we leverage discrete wavelet transform in the discriminators. From our experiments, Fre-GAN achieves high-fidelity waveform generation with a gap of only 0.03 MOS compared to ground-truth audio while outperforming standard models in quality.
翻訳日:2021-06-07 14:52:12 公開日:2021-06-04
# レジームスイッチングによる非線形時系列予測のためのDeep Switching State Space Model (DS$^3$M)

Deep Switching State Space Model (DS$^3$M) for Nonlinear Time Series Forecasting with Regime Switching ( http://arxiv.org/abs/2106.02329v1 )

ライセンス: Link先を確認
Xiuqin Xu, Ying Chen(参考訳) 本稿では,非線形時系列の効率良く予測し,様々なレジーム間で不規則に切替を行うためのディープスイッチング状態空間モデル(ds$^3$m)を提案する。 レジーム間のスイッチングは、リカレントニューラルネットワークを持つ離散変数と連続潜在変数の両方でキャプチャされる。 モデルは、再パラメータ化トリックを用いて変分推論により推定される。 我々は、様々なシミュレーションと実際のデータセットでアプローチをテストする。 いずれの場合も、DS$^3$Mはいくつかの最先端の手法(例えば)と比較して競争性能が向上する。 gru, srnn, dsarf, snlds) は予測精度が優れ, 離散的潜在変数の解釈可能性, 連続的潜在変数の様々な時系列に対する強力な表現が得られた。 具体的には、MAPEの値が2番目に高い代替モデルに対して 0.09 % から 15.71 % に増加する。

We propose a deep switching state space model (DS$^3$M) for efficient inference and forecasting of nonlinear time series with irregularly switching among various regimes. The switching among regimes is captured by both discrete and continuous latent variables with recurrent neural networks. The model is estimated with variational inference using a reparameterization trick. We test the approach on a variety of simulated and real datasets. In all cases, DS$^3$M achieves competitive performance compared to several state-of-the-art methods (e.g. GRU, SRNN, DSARF, SNLDS), with superior forecasting accuracy, convincing interpretability of the discrete latent variables, and powerful representation of the continuous latent variables for different kinds of time series. Specifically, the MAPE values increase by 0.09\% to 15.71\% against the second-best performing alternative models.
翻訳日:2021-06-07 14:51:59 公開日:2021-06-04
# Manifold-Aware Deep Clustering:正規表現に基づく埋め込みベクトル間の角度の最大化

Manifold-Aware Deep Clustering: Maximizing Angles between Embedding Vectors Based on Regular Simplex ( http://arxiv.org/abs/2106.02331v1 )

ライセンス: Link先を確認
Keitaro Tanaka, Ryosuke Sawata and Shusuke Takahashi(参考訳) 本稿では,従来のdcよりも高効率なハイパースペース利用を実現するために,m-dcと呼ばれる新しい深層クラスタリング手法を提案する。 元々のdcは、1つのホットベクトルに基づく損失関数を用いて直交関係を持つ2つの話者を組込む必要があり、一方、本手法は正則な単純性に基づいて超空間の目標角を最大化することを目的とした一意的な損失関数を導出する。 提案する損失は,話者が誤って割り当てられた場合,元のdcよりも高いペナルティを課す。 DC から M-DC への変更は、ネットワークアーキテクチャやモデルパラメータの変更なしに、DC の損失関数で 1 項だけ書き直すことで容易に実現できる。 したがって,本手法は元々の推論に影響を与えないため,高い実用性を有する。 実験の結果,提案手法は元のDCと拡張法の性能を向上することがわかった。

This paper presents a new deep clustering (DC) method called manifold-aware DC (M-DC) that can enhance hyperspace utilization more effectively than the original DC. The original DC has a limitation in that a pair of two speakers has to be embedded having an orthogonal relationship due to its use of the one-hot vector-based loss function, while our method derives a unique loss function aimed at maximizing the target angle in the hyperspace based on the nature of a regular simplex. Our proposed loss imposes a higher penalty than the original DC when the speaker is assigned incorrectly. The change from DC to M-DC can be easily achieved by rewriting just one term in the loss function of DC, without any other modifications to the network architecture or model parameters. As such, our method has high practicability because it does not affect the original inference part. The experimental results show that the proposed method improves the performances of the original DC and its expansion method.
翻訳日:2021-06-07 14:51:46 公開日:2021-06-04
# cold: 非インタラクティブ負荷監視のためのコンカレントロードディスアグリゲータ

COLD: Concurrent Loads Disaggregator for Non-Intrusive Load Monitoring ( http://arxiv.org/abs/2106.02352v1 )

ライセンス: Link先を確認
Ilia Kamyshev, Dmitrii Kriukov, Elena Gryazina(参考訳) 現代の人工知能技術は、非侵入負荷モニタリング(NILM)分野における優れた性能を示している。 しかし、同時に動作する多数の家電品の識別に関する問題は過小評価されている。 理由の1つは、特定のデータがないことだ。 本研究では,最大10個の並列負荷で集約消費をシミュレートする正規化シグネチャ(sns)アルゴリズムのシンセサイザを提案する。 以上の結果から,合成データは実世界の測定値と同等以上の精度でモデルを提供することがわかった。 我々は,従来のアプローチと比較して比較的シンプルで理解しやすい,コンカレント負荷分散器(COLD)というニューラルアーキテクチャを開発した。 このモデルは、平均f1-score 78.95%を同時に動作する1から10のアプライアンスを識別できる。 実験のソースコードはhttps://github.com/a rx7ti/cold-nilm.comで公開されている。

The modern artificial intelligence techniques show the outstanding performances in the field of Non-Intrusive Load Monitoring (NILM). However, the problem related to the identification of a large number of appliances working simultaneously is underestimated. One of the reasons is the absence of a specific data. In this research we propose the Synthesizer of Normalized Signatures (SNS) algorithm to simulate the aggregated consumption with up to 10 concurrent loads. The results show that the synthetic data provides the models with at least as a powerful identification accuracy as the real-world measurements. We have developed the neural architecture named Concurrent Loads Disaggregator (COLD) which is relatively simple and easy to understand in comparison to the previous approaches. Our model allows identifying from 1 to 10 appliances working simultaneously with mean F1-score 78.95%. The source code of the experiments performed is available at https://github.com/a rx7ti/cold-nilm.
翻訳日:2021-06-07 14:51:29 公開日:2021-06-04
# 血圧モニタリングとオフィス血圧測定:性差はあるか?

Ambulatory blood pressure monitoring versus office blood pressure measurement: Are there sex differences? ( http://arxiv.org/abs/2106.02392v1 )

ライセンス: Link先を確認
Aleksandar Miladinovi\'c, Milo\v{s} Aj\v{c}evi\'c, Giulia Siveri, Laura Liguori, Lorenzo Pascazio, Agostino Accardo(参考訳) 血圧(BP)の正確な測定は、高血圧やその他の疾患の信頼できる診断と効率的な管理のために重要な前提条件である。 オフィス血圧測定(英語: Office Blood Pressure Measurement, OBP)は、24時間間血圧を測定する技術である。 BPの変動は、身体活動、温度、気分、年齢、性別、あらゆる病理、ホルモン活動など他の要因にも依存しており、OBPとABPMの違いに本質的に影響を及ぼす可能性がある。 本研究の目的は,高血圧を疑う822名の患者において,性差がOBPとABPMの相違に及ぼす影響について検討することである。 両群とも昼夜24時間(abpmday, abpmnight, abpm24h)のobp値とabpm平均値との間に有意な相関が認められた(p<0.0001)。 本研究の主な発見は, 夜間において, OBP と ABMP の平均値との間に有意な差が認められなかったこと, サイストリック OBP と シストリック ABPM の差が認められた。 さらに, 本研究は, 2つのアプローチで得られたBPとレグレッションラインに大きく分散したBPの相関を適度に示し, 2つのアプローチを相互に使用できないことを示唆した。

The accurate measurement of blood pressure (BP) is an important prerequisite for the reliable diagnosis and efficient management of hypertension and other medical conditions. Office Blood Pressure Measurement (OBP) is a technique performed in-office with the sphygmomanometer, while Ambulatory Blood Pressure Monitoring (ABPM) is a technique that measures blood pressure during 24h. The BP fluctuations also depend on other factors such as physical activity, temperature, mood, age, sex, any pathologies, a hormonal activity that may intrinsically influence the differences between OBP and ABPM. The aim of this study is to examine the possible influence of sex on the discrepancies between OBP and ABPM in 872 subjects with known or suspected hypertension. A significant correlation was observed between OBP and ABPM mean values calculated during the day, night and 24h (ABPMday, ABPMnight, ABPM24h) in both groups (p<0.0001). The main finding of this study is that no difference between sexes was observed in the relation between OBP and mean ABMP values except between systolic OBP and systolic ABPM during the night. In addition, this study showed a moderate correlation between BPs obtained with the two approaches with a great dispersion around the regression line which suggests that the two approaches cannot be used interchangeably.
翻訳日:2021-06-07 14:51:17 公開日:2021-06-04
# ツールの選択と使用方法? マルチモーダル深層学習を用いた対象物の能動的知覚

How to select and use tools? : Active Perception of Target Objects Using Multimodal Deep Learning ( http://arxiv.org/abs/2106.02445v1 )

ライセンス: Link先を確認
Namiko Saito, Tetsuya Ogata, Satoshi Funabashi, Hiroki Mori and Shigeki Sugano(参考訳) 日常業務における適切なツールの選択と利用は、家庭アプリケーションのためのロボットの導入に欠かせない機能である。 しかし,従来の研究では対象物への適応性が制限されており,ツールの変更や動作の調整が困難であった。 様々な物体をツールで操作するには、ロボットはツール機能を理解し、物体の特徴を認識してツール・オブジェクト・アクション関係を識別する必要がある。 ロボットが物体と対話している間に,マルチモーダルセンサモジュレータデータを用いた能動的知覚に着目し,ロボットが自発的・本質的特徴を認識できるようにする。 我々は、物体の特徴を認識し、ツール-オブジェクト-アクション関係を取得し、ツール選択とハンドリングのための動きを生成するディープニューラルネットワーク(DNN)モデルを構築した。 ツール使用状況の例として、回転器またはろうそくを用いて材料を鍋からボウルに搬送する材料伝達作業を行う。 その結果,対象成分が不明な場合でも,ロボットは対象特性を認識し,機能することを確認した。 また, 画像, 力, 触覚データの寄与について検討し, 多様なマルチモーダル情報を学習することで, ツールの使用感が豊かになることを示す。

Selection of appropriate tools and use of them when performing daily tasks is a critical function for introducing robots for domestic applications. In previous studies, however, adaptability to target objects was limited, making it difficult to accordingly change tools and adjust actions. To manipulate various objects with tools, robots must both understand tool functions and recognize object characteristics to discern a tool-object-action relation. We focus on active perception using multimodal sensorimotor data while a robot interacts with objects, and allow the robot to recognize their extrinsic and intrinsic characteristics. We construct a deep neural networks (DNN) model that learns to recognize object characteristics, acquires tool-object-action relations, and generates motions for tool selection and handling. As an example tool-use situation, the robot performs an ingredients transfer task, using a turner or ladle to transfer an ingredient from a pot to a bowl. The results confirm that the robot recognizes object characteristics and servings even when the target ingredients are unknown. We also examine the contributions of images, force, and tactile data and show that learning a variety of multimodal information results in rich perception for tool use.
翻訳日:2021-06-07 14:50:47 公開日:2021-06-04
# 量子パーセプトロン:計算統計トレードオフ

Quantum Perceptron Revisited: Computational-Statis tical Tradeoffs ( http://arxiv.org/abs/2106.02496v1 )

ライセンス: Link先を確認
Mathieu Roget, Giuseppe Di Molfetta and Hachem Kadri(参考訳) 量子機械学習アルゴリズムは従来のアルゴリズムよりも大幅に高速化できるが、良い一般化を達成できるかどうかは不明だ。 近年、グローバーの探索を用いて古典的パーセプトロンアルゴリズムを二次的に改善する2つの量子パーセプトロンモデルがwiebeらによって提案されている。 arXiv:1602.04799。 第1のモデルは、トレーニングセットのサイズに関して複雑さを減少させるが、第2のモデルは、パーセプトロンによってなされる誤りの数の境界を改善する。 本稿では,従来のパーセプトロンよりも複雑性が低く,一般化能力のよいハイブリッド量子古典パーセプトロンアルゴリズムを提案する。 サンプル数とデータマージンの両方において,古典的パーセプトロンよりも2次的に改善したことを示す。 提案アルゴリズムは,従来のオンラインパーセプトロンと比較し,提案アルゴリズムによって返される仮説の予測誤差を導出する。 本稿では,量子パーセプトロン学習における計算複雑性と統計的精度のトレードオフを数値実験で説明し,量子パーセプトロンモデルを量子デバイスに実装する際の重要な現実的課題について論じる。 しかし、潜在的な利点は、この価値を是正する。

Quantum machine learning algorithms could provide significant speed-ups over their classical counterparts; however, whether they could also achieve good generalization remains unclear. Recently, two quantum perceptron models which give a quadratic improvement over the classical perceptron algorithm using Grover's search have been proposed by Wiebe et al. arXiv:1602.04799 . While the first model reduces the complexity with respect to the size of the training set, the second one improves the bound on the number of mistakes made by the perceptron. In this paper, we introduce a hybrid quantum-classical perceptron algorithm with lower complexity and better generalization ability than the classical perceptron. We show a quadratic improvement over the classical perceptron in both the number of samples and the margin of the data. We derive a bound on the expected error of the hypothesis returned by our algorithm, which compares favorably to the one obtained with the classical online perceptron. We use numerical experiments to illustrate the trade-off between computational complexity and statistical accuracy in quantum perceptron learning and discuss some of the key practical issues surrounding the implementation of quantum perceptron models into near-term quantum devices, whose practical implementation represents a serious challenge due to inherent noise. However, the potential benefits make correcting this worthwhile.
翻訳日:2021-06-07 14:50:16 公開日:2021-06-04
# コミュニケーションネットワークのためのグラフベースのディープラーニング:調査

Graph-based Deep Learning for Communication Networks: A Survey ( http://arxiv.org/abs/2106.02533v1 )

ライセンス: Link先を確認
Weiwei Jiang(参考訳) コミュニケーションネットワークは現代社会の重要な基盤である。 未解決の課題がまだ数多く残っており、この活発な研究領域で新しい解決策が継続的に提案されている。 近年,ネットワークトポロジをモデル化するために,グラフに基づくディープラーニングは,通信ネットワークにおける一連の問題において最先端の性能を達成した。 本稿では,グラフに基づくディープラーニングモデルを用いて,急速に成長する研究の体系を概観する。 グラフ畳み込みとグラフアテンションネットワークは、様々な通信ネットワークの様々な問題において、例えば、 無線ネットワーク、有線ネットワーク、ソフトウェア定義ネットワーク。 また,各研究の課題と解決策を整理し,今後の研究方向性を明らかにする。 我々の知る限り、この論文は、グラフベースのディープラーニング手法を通信ネットワークに適用することに焦点を当てた最初の調査である。 フォローアップ調査を追跡するために、公開githubリポジトリが作成され、関連する論文が継続的に更新される。

Communication networks are important infrastructures in contemporary society. There are still many challenges that are not fully solved and new solutions are proposed continuously in this active research area. In recent years, to model the network topology, graph-based deep learning has achieved state-of-the-art performance in a series of problems in communication networks. In this survey, we review the rapidly growing body of research using different graph-based deep learning models, e.g. graph convolutional and graph attention networks, in various problems from different communication networks, e.g. wireless networks, wired networks, and software-defined networks. We also present a well-organized list of the problem and solution for each study and identify future research directions. To the best of our knowledge, this paper is the first survey that focuses on the application of graph-based deep learning methods in communication networks. To track the follow-up research, a public GitHub repository is created, where the relevant papers will be updated continuously.
翻訳日:2021-06-07 14:49:54 公開日:2021-06-04
# 重要な相互作用を検出する:多体系の幾何学的注意

Detect the Interactions that Matter in Matter: Geometric Attention for Many-Body Systems ( http://arxiv.org/abs/2106.02549v1 )

ライセンス: Link先を確認
Thorben Frank and Stefan Chmiela(参考訳) アテンションメカニズムはnnの基本的なビルディングブロックとして畳み込み層に代わる存在へと発展しつつある。 主な利点は、入力のローカル依存関係をキャプチャするために制限されるのではなく、任意の接続を描画できる点である。 この前例のない能力は、分子力場やその他の多体問題における地球規模の原子間相互作用をモデル化する長年の問題と一致する。 しかし、元の定式化では、原子が生存する連続領域には注意が払われない。 この目的のために、ユークリッド空間における任意の原子配置の幾何学的関係を記述するための変種を提案する。 さらに,学習アテンション行列の連続的適用が分子幾何学をオンザフライの個々の原子貢献の集合に効果的に変換することを示す。

Attention mechanisms are developing into a viable alternative to convolutional layers as elementary building block of NNs. Their main advantage is that they are not restricted to capture local dependencies in the input, but can draw arbitrary connections. This unprecedented capability coincides with the long-standing problem of modeling global atomic interactions in molecular force fields and other many-body problems. In its original formulation, however, attention is not applicable to the continuous domains in which the atoms live. For this purpose we propose a variant to describe geometric relations for arbitrary atomic configurations in Euclidean space that also respects all relevant physical symmetries. We furthermore demonstrate, how the successive application of our learned attention matrices effectively translates the molecular geometry into a set of individual atomic contributions on-the-fly.
翻訳日:2021-06-07 14:49:42 公開日:2021-06-04
# ハード最適化問題の学習:データ生成の視点から

Learning Hard Optimization Problems: A Data Generation Perspective ( http://arxiv.org/abs/2106.02601v1 )

ライセンス: Link先を確認
James Kotary, Ferdinando Fioretto, Pascal Van Hentenryck(参考訳) 最適化問題は我々の社会では至るところに存在し、経済のほぼすべての部分に存在している。 これらの最適化問題のほとんどはnpハードで計算の要求があり、大規模インスタンスの近似解を必要とすることが多い。 このような厳密な最適化問題に対するソリューションの近似を学習する機械学習フレームワークは、これらの困難に対処するための、潜在的に有望な方法である。 教師付き学習フレームワークは、事前解決されたインスタンスのアウトプットを使用してモデルをトレーニングすることができる。 しかし、出力がそれ自体近似であるとき、最適化問題が対称解を持つとき、あるいは解法がランダム化を使用するとき、密接な関連のあるインスタンスに対する解は大きな差を示し、学習タスクは本質的により困難になる可能性がある。 本稿では,この課題を実証し,学習データのボラティリティとモデルを近似する能力とを結びつけ,教師あり学習タスクに適した最適化問題に対して(実か近似か)解を生成する手法を提案する。 本手法の有効性は, 硬質非線形非凸および離散組合せ問題に対して検証した。

Optimization problems are ubiquitous in our societies and are present in almost every segment of the economy. Most of these optimization problems are NP-hard and computationally demanding, often requiring approximate solutions for large-scale instances. Machine learning frameworks that learn to approximate solutions to such hard optimization problems are a potentially promising avenue to address these difficulties, particularly when many closely related problem instances must be solved repeatedly. Supervised learning frameworks can train a model using the outputs of pre-solved instances. However, when the outputs are themselves approximations, when the optimization problem has symmetric solutions, and/or when the solver uses randomization, solutions to closely related instances may exhibit large differences and the learning task can become inherently more difficult. This paper demonstrates this critical challenge, connects the volatility of the training data to the ability of a model to approximate it, and proposes a method for producing (exact or approximate) solutions to optimization problems that are more amenable to supervised learning tasks. The effectiveness of the method is tested on hard non-linear nonconvex and discrete combinatorial problems.
翻訳日:2021-06-07 14:49:30 公開日:2021-06-04
# consensus multiplicative weights update: learning to learn using projector-based game signatures

Consensus Multiplicative Weights Update: Learning to Learn using Projector-based Game Signatures ( http://arxiv.org/abs/2106.02615v1 )

ライセンス: Link先を確認
Nelson Vadori, Rahul Savani, Thomas Spooner, Sumitra Ganesh(参考訳) 近年、OMWU(Optimistic Multiplicative Weights Update)は、純粋な戦略を実行する確率を表す制約付きゼロサムビマトリクスの場合において、Nash Equilibriaへの最後の収束を楽しむオンラインノレグレットフレームワークにおいて、最初の一定のステップサイズアルゴリズムであることが証明された。 2つ目のアルゴリズムである「textit{Consensus MWU}」を導入し、局所収束を証明し、OMWUよりも高速で堅牢な収束を経験的に示す。 我々のアルゴリズムは、新しいオブジェクトである \textit{simplex hessian} の重要性を示し、ゲームとゼロに総和するベクトルの(固有)空間との相互作用を示している。 OMWUに関して、CMWUはゼロサムの場合のみ収束を保証するが、Cheung and Piliouras (2020) はゲームがゼロサムか協調的であるかによって、OMWU と MWU が反対収束性を示すことを示した。 この研究と最近の単一機能のための学習に関する文献に触発されて、cmwuを非ゼロサムゲームに拡張し、ゲームにおけるオンライン学習のための新しいフレームワークを導入し、更新ルールの勾配と軌道に沿ったヘッセン係数をゲームの性質を条件とした強化学習ポリシーによって学習する。 後者は,可換射影演算子に対応する8つの要素に分解し,文献で研究されている最近のゲーム概念の一般化と統一を行う。 我々は,新たな学習方針が,ゲームの種類によってゲームシグネチャを活用できることを実証的に示す。

Recently, Optimistic Multiplicative Weights Update (OMWU) was proven to be the first constant step-size algorithm in the online no-regret framework to enjoy last-iterate convergence to Nash Equilibria in the constrained zero-sum bimatrix case, where weights represent the probabilities of playing pure strategies. We introduce the second such algorithm, \textit{Consensus MWU}, for which we prove local convergence and show empirically that it enjoys faster and more robust convergence than OMWU. Our algorithm shows the importance of a new object, the \textit{simplex Hessian}, as well as of the interaction of the game with the (eigen)space of vectors summing to zero, which we believe future research can build on. As for OMWU, CMWU has convergence guarantees in the zero-sum case only, but Cheung and Piliouras (2020) recently showed that OMWU and MWU display opposite convergence properties depending on whether the game is zero-sum or cooperative. Inspired by this work and the recent literature on learning to optimize for single functions, we extend CMWU to non zero-sum games by introducing a new framework for online learning in games, where the update rule's gradient and Hessian coefficients along a trajectory are learnt by a reinforcement learning policy that is conditioned on the nature of the game: \textit{the game signature}. We construct the latter using a new canonical decomposition of two-player games into eight components corresponding to commutative projection operators, generalizing and unifying recent game concepts studied in the literature. We show empirically that our new learning policy is able to exploit the game signature across a wide range of game types.
翻訳日:2021-06-07 14:49:12 公開日:2021-06-04
# Memory Approximate Message Passing

Memory Approximate Message Passing ( http://arxiv.org/abs/2106.02237v1 )

ライセンス: Link先を確認
Lei Liu, Shunqi Huang, Brian M. Kurkoski(参考訳) 近似メッセージパッシング(AMP)は、ガウス分布のない高次元線形系の低コスト反復パラメータ推定手法である。 しかし、AMPは独立に均等分布(IID)変換行列にのみ適用されるが、他の行列アンサンブル、特に条件の悪い行列では信頼性が低い。 この問題に対処するため、直交ベクトルAMP (OAMP/VAMP) が一般右一様不変行列に対して提案された。 しかし、ベイズ最適OAMP/VAMPは、高複素度線形平均二乗誤差推定器を必要とする。 本稿では、AMPとOAMP/VAMPの欠点を解決するため、干渉抑制のための長メモリマッチングフィルタを提案するメモリAMP(MAMP)を提案する。 MAMPの複雑さはAMPに匹敵する。 MAMPにおける推定誤差の漸近ガウス性は直交原理によって保証される。 状態進化は、MAMPの性能を漸近的に特徴づけるために導かれる。 状態の進化に基づいて、MAMPの緩和パラメータと減衰ベクトルを最適化する。 すべての右単位不変行列に対して、最適化された MAMP は OAMP/VAMP に収束し、一意な不動点を持つならベイズ最適である。 最後に,理論結果の妥当性と正確性を検証するためにシミュレーションを行った。

Approximate message passing (AMP) is a low-cost iterative parameter-estimation technique for certain high-dimensional linear systems with non-Gaussian distributions. However, AMP only applies to independent identically distributed (IID) transform matrices, but may become unreliable for other matrix ensembles, especially for ill-conditioned ones. To handle this difficulty, orthogonal/vector AMP (OAMP/VAMP) was proposed for general right-unitarily-inva riant matrices. However, the Bayes-optimal OAMP/VAMP requires high-complexity linear minimum mean square error estimator. To solve the disadvantages of AMP and OAMP/VAMP, this paper proposes a memory AMP (MAMP), in which a long-memory matched filter is proposed for interference suppression. The complexity of MAMP is comparable to AMP. The asymptotic Gaussianity of estimation errors in MAMP is guaranteed by the orthogonality principle. A state evolution is derived to asymptotically characterize the performance of MAMP. Based on the state evolution, the relaxation parameters and damping vector in MAMP are optimized. For all right-unitarily-inva riant matrices, the optimized MAMP converges to OAMP/VAMP, and thus is Bayes-optimal if it has a unique fixed point. Finally, simulations are provided to verify the validity and accuracy of the theoretical results.
翻訳日:2021-06-07 14:48:36 公開日:2021-06-04
# $\mathcal{l}_1$適応制御による強化学習ポリシーの堅牢化

Robustifying Reinforcement Learning Policies with $\mathcal{L}_1$ Adaptive Control ( http://arxiv.org/abs/2106.02249v1 )

ライセンス: Link先を確認
Yikun Cheng, Pan Zhao, Manan Gandhi, Bo Li, Evangelos Theodorou, Naira Hovakimyan(参考訳) 名目環境で訓練された強化学習(RL)ポリシーは、動的変動が存在するため、新しい/摂動環境で失敗する可能性がある。 既存のロバストな手法では、ロバストあるいは逆のトレーニングを通じて、想定されたすべての動的変動シナリオに対する固定ポリシーを取得しようとする。 これらの手法は、最悪のケースに重点を置いて保守的なパフォーマンスをもたらす可能性があり、しばしばトレーニング環境への面倒な変更を伴う。 本稿では, 適応制御を$\mathcal{L}_1$とすることで, 事前学習した非ロバストRLポリシーを堅牢化する手法を提案する。 動的変動の高速な推定と能動補償における$\mathcal{L}_1$制御則の能力を生かして、我々の手法は、シミュレータや実世界で訓練された標準(非ロバストな)方法で訓練されたRLポリシーの堅牢性を大幅に向上させることができる。 提案手法の有効性を検証するための数値実験を行った。

A reinforcement learning (RL) policy trained in a nominal environment could fail in a new/perturbed environment due to the existence of dynamic variations. Existing robust methods try to obtain a fixed policy for all envisioned dynamic variation scenarios through robust or adversarial training. These methods could lead to conservative performance due to emphasis on the worst case, and often involve tedious modifications to the training environment. We propose an approach to robustifying a pre-trained non-robust RL policy with $\mathcal{L}_1$ adaptive control. Leveraging the capability of an $\mathcal{L}_1$ control law in the fast estimation of and active compensation for dynamic variations, our approach can significantly improve the robustness of an RL policy trained in a standard (i.e., non-robust) way, either in a simulator or in the real world. Numerical experiments are provided to validate the efficacy of the proposed approach.
翻訳日:2021-06-07 14:47:48 公開日:2021-06-04
# ニューラル特徴学習によるコールセンターエージェント不正検出のための新しい半教師付きフレームワーク

A Novel Semi-supervised Framework for Call Center Agent Malpractice Detection via Neural Feature Learning ( http://arxiv.org/abs/2106.02433v1 )

ライセンス: Link先を確認
\c{S}\"ukr\"u Ozan, Leonardo Obinna Iheme(参考訳) 本研究は,コールセンターエージェントの誤作動問題に対する実用的な解決法を提案する。 非線形電力変換、ニューラル特徴学習、k平均クラスタリングからなる半教師付きフレームワークを概説する。 これらのビルディングブロックをまとめてパラメータを調整し、最高のパフォーマンスが得られるようにしました。 実験で使用したデータは、当社の社内コールセンターから取得しました。 これは、畳み込みニューラルネットワークベースのセグメンタを使用して注釈付けされた記録されたエージェント-カストマー会話で構成されている。 これらの方法は、望ましい結果を得るためにニューラルネットワークのパラメータをチューニングする手段を提供する。 提案手法を用いることで,k-meansのみのクラスタリングモデルの誤動作分類誤差を大幅に低減できることを示す。 さらに,コール毎のサイレント量を重要なパフォーマンス指標として示すことにより,本システムでは,デプロイ以来,コールセンタにおけるエージェントのパフォーマンスが向上していることを示す。

This work presents a practical solution to the problem of call center agent malpractice. A semi-supervised framework comprising of non-linear power transformation, neural feature learning and k-means clustering is outlined. We put these building blocks together and tune the parameters so that the best performance was obtained. The data used in the experiments is obtained from our in-house call center. It is made up of recorded agent-customer conversations which have been annotated using a convolutional neural network based segmenter. The methods provided a means of tuning the parameters of the neural network to achieve a desirable result. We show that, using our proposed framework, it is possible to significantly reduce the malpractice classification error of a k-means-only clustering model which would serve the same purpose. Additionally, by presenting the amount of silence per call as a key performance indicator, we show that the proposed system has enhanced agents performance at our call center since deployment.
翻訳日:2021-06-07 14:47:29 公開日:2021-06-04
# Bregmanイテレーションによるニューラルアーキテクチャ検索

Neural Architecture Search via Bregman Iterations ( http://arxiv.org/abs/2106.02479v1 )

ライセンス: Link先を確認
Leon Bungert, Tim Roith, Daniel Tenbrinck, Martin Burger(参考訳) 本稿では,Bregman反復に基づくニューラルアーキテクチャ探索(NAS)の新たな戦略を提案する。 スパースニューラルネットワークから始めると、勾配に基づくワンショットアルゴリズムは徐々に関連するパラメータを逆スケール空間で追加する。 これにより、ネットワークは、特定のタスク(例えば、ニューロンの追加や接続のスキップなど)のためにうまく設計された、検索空間における最良のアーキテクチャを選択することができる。 提案手法を用いることで、例えば、残余の自己エンコーダ(denoising, deblurring, and classification task)を提示できることを実証する。 コードはhttps://github.com/T imRoith/BregmanLearn ingで入手できる。

We propose a novel strategy for Neural Architecture Search (NAS) based on Bregman iterations. Starting from a sparse neural network our gradient-based one-shot algorithm gradually adds relevant parameters in an inverse scale space manner. This allows the network to choose the best architecture in the search space which makes it well-designed for a given task, e.g., by adding neurons or skip connections. We demonstrate that using our approach one can unveil, for instance, residual autoencoders for denoising, deblurring, and classification tasks. Code is available at https://github.com/T imRoith/BregmanLearn ing.
翻訳日:2021-06-07 14:47:14 公開日:2021-06-04
# 物価グラフ:株価予測のための金融時系列構造情報の利用

Price graphs: Utilizing the structural information of financial time series for stock prediction ( http://arxiv.org/abs/2106.02522v1 )

ライセンス: Link先を確認
Junran Wu, Ke Xu, Xueyuan Chen, Shangzhe Li and Jichang Zhao(参考訳) 株価予測は、将来の株価動向を予測するために、株式投資の利益を最大化するために重要である。 深層ニューラルネットワークを利用して在庫予測を改善する研究が盛んに行われているが、既存の研究は依然として2つの大きな問題を抱えている。 まず、時系列の長距離依存性は十分にキャプチャされない。 第二に、金融時系列のカオス特性は予測性能を根本的に低下させる。 本研究では,ストック予測に関する両問題に対処する新しい枠組みを提案する。 具体的には、時系列を複雑なネットワークに変換する観点から、市場価格をグラフに変換する。 次に、時間点とノード重みの関連性を参照する構造情報をマッピングしたグラフから抽出し、長距離依存やカオス性に関する問題を解消する。 予測モデル入力として時間点間の関係を表すためにグラフ埋め込みを用いる。 ノード重みは、時間的注意の学習を強化するための事前知識として使用される。 提案手法の有効性は実世界のストックデータを用いて検証され,本手法は最先端ベンチマークで最高の性能を得る。 さらに,実施した取引シミュレーションにおいて,この枠組みはさらに高い累積利益を得る。 本研究は、金融分野における複雑なネットワーク手法の既存応用を補完し、金融市場における意思決定支援に関する投資アプリケーションに洞察力を与えるものである。

Stock prediction, with the purpose of forecasting the future price trends of stocks, is crucial for maximizing profits from stock investments. While great research efforts have been devoted to exploiting deep neural networks for improved stock prediction, the existing studies still suffer from two major issues. First, the long-range dependencies in time series are not sufficiently captured. Second, the chaotic property of financial time series fundamentally lowers prediction performance. In this study, we propose a novel framework to address both issues regarding stock prediction. Specifically, in terms of transforming time series into complex networks, we convert market price series into graphs. Then, structural information, referring to associations among temporal points and the node weights, is extracted from the mapped graphs to resolve the problems regarding long-range dependencies and the chaotic property. We take graph embeddings to represent the associations among temporal points as the prediction model inputs. Node weights are used as a priori knowledge to enhance the learning of temporal attention. The effectiveness of our proposed framework is validated using real-world stock data, and our approach obtains the best performance among several state-of-the-art benchmarks. Moreover, in the conducted trading simulations, our framework further obtains the highest cumulative profits. Our results supplement the existing applications of complex network methods in the financial realm and provide insightful implications for investment applications regarding decision support in financial markets.
翻訳日:2021-06-07 14:47:05 公開日:2021-06-04
# 収縮型ニューラルニュートンソルバ

Contracting Neural-Newton Solver ( http://arxiv.org/abs/2106.02543v1 )

ライセンス: Link先を確認
Samuel Chevalier, Jochen Stiasny, Spyros Chatzivasileiadis(参考訳) 近年のディープラーニングの進歩は、従来の数値解法を多くのアプリケーションで置き換えることに成功したニューラルネットワーク(NN)に焦点を絞った。 そのような応用の1つは時間領域シミュレーションであり、多くの工学系の設計、解析、運用に不可欠である。 暗黙のニュートンに基づく解法で力学系をシミュレートすることは計算的に重く、各時間ステップで微分方程式と代数方程式のパラメタライズドシステムの解を必要とする。 NNをベースとした様々な手法を用いて,数値時間領域の解法によって計算される動的軌跡を短時間で近似できることが示されている。 しかし、これまでのNNベースのモデルでは、時間領域軌道上の予測点が数値解法自体の定点でもあるという事実を明示的に捉えていない。 この特性を明示的に捉えると、nnの精度が大幅に向上し、nnサイズがはるかに小さくなります。 本稿では、暗黙のルンゲ・クッタ積分器の中心にあるニュートン解法を、この固定点を求める反復写像としてモデル化する。 我々の主な貢献は、繰り返しNNシミュレーションツールであるContracting Neural-Newton Solver(CoNNS)を開発することです。 CoNNSを構築するために、我々はフィードフォワードNNをトレーニングし、NNが提供するマッピングがバナッハの不動点定理を満たすことを保証する一連のトレーニング制約を埋め込むことにより、この収縮挙動を模倣する。

Recent advances in deep learning have set the focus on neural networks (NNs) that can successfully replace traditional numerical solvers in many applications, achieving impressive computing gains. One such application is time domain simulation, which is indispensable for the design, analysis and operation of many engineering systems. Simulating dynamical systems with implicit Newton-based solvers is a computationally heavy task, as it requires the solution of a parameterized system of differential and algebraic equations at each time step. A variety of NN-based methodologies have been shown to successfully approximate the dynamical trajectories computed by numerical time domain solvers at a fraction of the time. However, so far no previous NN-based model has explicitly captured the fact that any predicted point on the time domain trajectory also represents the fixed point of the numerical solver itself. As we show, explicitly capturing this property can lead to significantly increased NN accuracy and much smaller NN sizes. In this paper, we model the Newton solver at the heart of an implicit Runge-Kutta integrator as a contracting map iteratively seeking this fixed point. Our primary contribution is to develop a recurrent NN simulation tool, termed the Contracting Neural-Newton Solver (CoNNS), which explicitly captures the contracting nature of these Newton iterations. To build CoNNS, we train a feedforward NN and mimic this contraction behavior by embedding a series of training constraints which guarantee the mapping provided by the NN satisfies the Banach fixed-point theorem; thus, we are able to prove that successive passes through the NN are guaranteed to converge to a unique, fixed point.
翻訳日:2021-06-07 14:46:45 公開日:2021-06-04
# 音楽の韻律的感情分類--機械学習による感情表現の解釈

Musical Prosody-Driven Emotion Classification: Interpreting Vocalists Portrayal of Emotions Through Machine Learning ( http://arxiv.org/abs/2106.02556v1 )

ライセンス: Link先を確認
Farris Nicholas, Model Brian, Savery Richard, Weinberg Gil(参考訳) 音楽トラック内の感情を分類する作業は、音楽情報検索(MIR)コミュニティ内で広く注目を集めている。 音楽の感情認識は、伝統的に音響的特徴、言語的特徴、メタデータに基づくフィルタリングの使用に依存している。 音楽の韻律の役割は、韻律と感情の間に強い関係があることを示すいくつかの研究にもかかわらず、未検討のままである。 本研究では,従来の機械学習アルゴリズムの入力を音楽韻律の特徴に限定する。 さらに,本提案手法は,感情の遺伝子輪を用いて,感情の分類を拡張した感情分類法によって先行する手法である。 我々は,ボーカリストの個人データ収集手法と,アーティスト自身による個人的根拠的真理ラベル付け手法を利用する。 その結果,楽曲の韻律的特徴に限定した従来の機械学習アルゴリズムは,(1)シングルシンガーに高い確率を与え,(2)データセットを複数のシンガーに拡張した場合に高い精度を保ち,(3)総特徴の少ないサブセットで訓練した場合に高い精度を得られることがわかった。

The task of classifying emotions within a musical track has received widespread attention within the Music Information Retrieval (MIR) community. Music emotion recognition has traditionally relied on the use of acoustic features, verbal features, and metadata-based filtering. The role of musical prosody remains under-explored despite several studies demonstrating a strong connection between prosody and emotion. In this study, we restrict the input of traditional machine learning algorithms to the features of musical prosody. Furthermore, our proposed approach builds upon the prior by classifying emotions under an expanded emotional taxonomy, using the Geneva Wheel of Emotion. We utilize a methodology for individual data collection from vocalists, and personal ground truth labeling by the artist themselves. We found that traditional machine learning algorithms when limited to the features of musical prosody (1) achieve high accuracies for a single singer, (2) maintain high accuracy when the dataset is expanded to multiple singers, and (3) achieve high accuracies when trained on a reduced subset of the total features.
翻訳日:2021-06-07 14:46:19 公開日:2021-06-04
# 不規則サンプリング時系列からのグランガー因果関係の推定

Inferring Granger Causality from Irregularly Sampled Time Series ( http://arxiv.org/abs/2106.02600v1 )

ライセンス: Link先を確認
Song Wei, Yao Xie, Christopher S. Josef, Rishikesan Kamaleswaran(参考訳) 機械学習モデルを取り入れた継続的自動化された監視システムは、医療環境においてますます一般的になりつつある。 これらのモデルは、複数の患者変数にわたる時間的依存的な変化を捉え、敗血症のような差し迫った出来事を早期に警告することで、臨床医の状況意識を高めることができる。 しかしながら、XGBoostのような最も一般的な方法では、モデルが特定の時間にセシスアラームを発生させた理由を理解するための解釈可能なメカニズムを提供できない。 多くのモデルのブラックボックスの性質は、臨床医が敗血症アラームに寄与する生理的特徴を独立に腐食することを防ぐため、厳しい制限である。 この制限を克服するために,いくつかの主要な敗血症関連乱れ(SAD)の生理的特徴に基づくGranger因果グラフに適合する一般化線形モデル(GLM)を提案する。 本研究では,最近開発された確率的単調変分不等式に基づく推定器とフォワード特徴の選択を併用し,連続的および離散的両方の値からグラフ構造を学ぶ。 最も重要なことは、GLMにおける任意の単調リンク関数の推定誤差の非漸近上界を開発することである。 実データ実験を行い,提案手法が高レベルの解釈性を維持しながら,XGBoostのような人気かつ強力な予測手法に匹敵する性能が得られることを示す。

Continuous, automated surveillance systems that incorporate machine learning models are becoming increasingly more common in healthcare environments. These models can capture temporally dependent changes across multiple patient variables and can enhance a clinician's situational awareness by providing an early warning alarm of an impending adverse event such as sepsis. However, most commonly used methods, e.g., XGBoost, fail to provide an interpretable mechanism for understanding why a model produced a sepsis alarm at a given time. The black-box nature of many models is a severe limitation as it prevents clinicians from independently corroborating those physiologic features that have contributed to the sepsis alarm. To overcome this limitation, we propose a generalized linear model (GLM) approach to fit a Granger causal graph based on the physiology of several major sepsis-associated derangements (SADs). We adopt a recently developed stochastic monotone variational inequality-based estimator coupled with forwarding feature selection to learn the graph structure from both continuous and discrete-valued as well as regularly and irregularly sampled time series. Most importantly, we develop a non-asymptotic upper bound on the estimation error for any monotone link function in the GLM. We conduct real-data experiments and demonstrate that our proposed method can achieve comparable performance to popular and powerful prediction methods such as XGBoost while simultaneously maintaining a high level of interpretability.
翻訳日:2021-06-07 14:45:25 公開日:2021-06-04
# (参考訳) Cross Pseudo Supervision を用いた半監督セマンティックセマンティックセグメンテーション [全文訳有]

Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision ( http://arxiv.org/abs/2106.01226v2 )

ライセンス: CC BY 4.0
Xiaokang Chen, Yuhui Yuan, Gang Zeng, Jingdong Wang(参考訳) 本稿では,ラベル付きデータと追加ラベル付きデータの両方を探索し,半教師付きセマンティックセマンティックセマンティクス問題について検討する。 本稿では,クロス擬似監視(CPS)と呼ばれる新しい整合性正規化手法を提案する。 提案手法は,入力画像の初期化の異なる2つのセグメンテーションネットワークに一貫性を付与する。 1つの摂動セグメンテーションネットワークから出力される擬似1ホットラベルマップは、標準のクロスエントロピー損失で他のセグメンテーションネットワークを監督するために使用される。 CPS整合性には2つの役割がある: 同じ入力画像に対する2つの摂動ネットワークの予測間の高い類似性を奨励し、擬似ラベル付きラベル付きラベル付きデータを使用することでトレーニングデータを拡張する。 実験の結果,Cityscapes と PASCAL VOC 2012 を用いた半教師付きセグメンテーション性能が得られた。 コードはhttps://git.io/CPS.o rgで入手できる。

In this paper, we study the semi-supervised semantic segmentation problem via exploring both labeled data and extra unlabeled data. We propose a novel consistency regularization approach, called cross pseudo supervision (CPS). Our approach imposes the consistency on two segmentation networks perturbed with different initialization for the same input image. The pseudo one-hot label map, output from one perturbed segmentation network, is used to supervise the other segmentation network with the standard cross-entropy loss, and vice versa. The CPS consistency has two roles: encourage high similarity between the predictions of two perturbed networks for the same input image, and expand training data by using the unlabeled data with pseudo labels. Experiment results show that our approach achieves the state-of-the-art semi-supervised segmentation performance on Cityscapes and PASCAL VOC 2012. Code is available at https://git.io/CPS.
翻訳日:2021-06-07 11:40:28 公開日:2021-06-04
# (参考訳) Bandit Phase Retrieval [全文訳有]

Bandit Phase Retrieval ( http://arxiv.org/abs/2106.01660v2 )

ライセンス: CC BY 4.0
Tor Lattimore, Botao Hao(参考訳) そこで、学習者が$d$次元単位球において$(a_t)_{t=1}^n$を選択し、期待される報酬が$\langle a_t, \theta_\star\rangle^2$であり、ここで$\theta_\star \in \mathbb r^d$は未知のパラメータベクトルである。 この問題のminimax累積後悔は$\smash{\tilde \theta(d \sqrt{n})}$であることが証明され、これは$\smash{\sqrt{d}}$の係数によって最もよく知られた境界で改善される。 また、minimaxの単純な後悔は$\smash{\tilde \Theta(d / \sqrt{n})}$であり、適応アルゴリズムによってのみ達成可能であることを示す。 分析の結果,下限を推測するための説得力のあるヒューリスティックは誤解を招く可能性があり,情報指向サンプリングにおける情報比の均一な境界は,最適な後悔には不十分であることが示唆された。

We study a bandit version of phase retrieval where the learner chooses actions $(A_t)_{t=1}^n$ in the $d$-dimensional unit ball and the expected reward is $\langle A_t, \theta_\star\rangle^2$ where $\theta_\star \in \mathbb R^d$ is an unknown parameter vector. We prove that the minimax cumulative regret in this problem is $\smash{\tilde \Theta(d \sqrt{n})}$, which improves on the best known bounds by a factor of $\smash{\sqrt{d}}$. We also show that the minimax simple regret is $\smash{\tilde \Theta(d / \sqrt{n})}$ and that this is only achievable by an adaptive algorithm. Our analysis shows that an apparently convincing heuristic for guessing lower bounds can be misleading and that uniform bounds on the information ratio for information-directed sampling are not sufficient for optimal regret.
翻訳日:2021-06-07 11:26:11 公開日:2021-06-04
# E2E-VLP:視覚学習により強化されたエンド・ツー・エンド視覚言語事前学習

E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning ( http://arxiv.org/abs/2106.01804v2 )

ライセンス: Link先を確認
Haiyang Xu, Ming Yan, Chenliang Li, Bin Bi, Songfang Huang, Wenming Xiao and Fei Huang(参考訳) 大規模画像テキストペアによる視覚言語事前学習(vlp)は,クロスモーダルダウンストリームタスクで大きな成功を収めている。 最も既存の事前学習法は主に2段階の訓練手順を採用しており、まず、訓練済みの物体検出器を用いて地域ベースの視覚的特徴を抽出し、次にトランスフォーマーの入力として画像表現とテキスト埋め込みを結合する。 しかし、これらの手法は、汎用的なクロスモーダル理解のための特定の物体検出器のタスク固有の視覚表現と、2段階パイプラインの計算効率の低下に直面する。 本稿では,V+Lの理解と生成,すなわちE2E-VLPのための,視覚表現とテキスト間のセマンティックアライメントを協調的に学習する統合トランスフォーマフレームワークを構築するための,最初のエンドツーエンドの視覚言語事前学習モデルを提案する。 物体検出と画像キャプションのタスクを、視覚学習の強化を目的とした統合トランスフォーマーエンコーダデコーダアーキテクチャで事前学習に組み込む。 この新たなVLPパラダイムの有効性を実証するために、十分に確立された視覚言語下流タスクに関する広範な実験が実施されている。

Vision-language pre-training (VLP) on large-scale image-text pairs has achieved huge success for the cross-modal downstream tasks. The most existing pre-training methods mainly adopt a two-step training procedure, which firstly employs a pre-trained object detector to extract region-based visual features, then concatenates the image representation and text embedding as the input of Transformer to train. However, these methods face problems of using task-specific visual representation of the specific object detector for generic cross-modal understanding, and the computation inefficiency of two-stage pipeline. In this paper, we propose the first end-to-end vision-language pre-trained model for both V+L understanding and generation, namely E2E-VLP, where we build a unified Transformer framework to jointly learn visual representation, and semantic alignments between image and text. We incorporate the tasks of object detection and image captioning into pre-training with a unified Transformer encoder-decoder architecture for enhancing visual learning. An extensive set of experiments have been conducted on well-established vision-language downstream tasks to demonstrate the effectiveness of this novel VLP paradigm.
翻訳日:2021-06-07 10:53:15 公開日:2021-06-04
# Kullback-Leibler Divergence を用いた回転物体検出のための高精度バウンディングボックスの学習

Learning High-Precision Bounding Box for Rotated Object Detection via Kullback-Leibler Divergence ( http://arxiv.org/abs/2106.01883v2 )

ライセンス: Link先を確認
Xue Yang, Xiaojiang Yang, Jirui Yang, Qi Ming, Wentao Wang, Qi Tian, Junchi Yan(参考訳) 既存の回転物体検出器は、主に水平検出パラダイムから受け継がれており、後者は十分に発達した領域へと進化している。 しかし、これらの検出器は、特にアスペクト比が大きい物体において、現在の回帰損失設計の限界により、高精度検出において顕著に実行するのは難しい。 本稿では, 水平方向検出が回転物体検出の特別な場合であるという観点から, 回転物体検出と水平方向検出の関係の観点から, 回転回帰損失の設計を誘導パラダイムから導出手法に変更する動機付けを行う。 本研究は, 動的ジョイント最適化において, 推定パラメータが相互に影響を及ぼすように, 回転回帰損失の結合パラメータを適応的, 相乗的に変調する方法が重要な課題であることを示す。 具体的には、まず回転した有界箱を2次元ガウス分布に変換し、その後、ガウス分布間のKLDを回帰損失として計算する。 各パラメータの勾配を解析することにより、KLD(とその誘導体)が対象の特性に応じてパラメータ勾配を動的に調整できることを示す。 アスペクト比に応じて角度パラメータの重要性(漸進的な重み)を調整する。 この機構は、わずかな角度誤差が大きなアスペクト比オブジェクトに対して深刻な精度低下を引き起こすため、高精度検出に不可欠である。 さらに、KLDがスケール不変であることが証明された。 さらに、KLD損失は、水平検出のために人気のある$l_{n}$-norm損失に分解可能であることを示す。 異なる検出器を用いた7つのデータセットの実験結果は、一貫性のある優位性を示しており、コードはhttps://github.com/y angxue0827/rotationd etectionで利用可能である。

Existing rotated object detectors are mostly inherited from the horizontal detection paradigm, as the latter has evolved into a well-developed area. However, these detectors are difficult to perform prominently in high-precision detection due to the limitation of current regression loss design, especially for objects with large aspect ratios. Taking the perspective that horizontal detection is a special case for rotated object detection, in this paper, we are motivated to change the design of rotation regression loss from induction paradigm to deduction methodology, in terms of the relation between rotation and horizontal detection. We show that one essential challenge is how to modulate the coupled parameters in the rotation regression loss, as such the estimated parameters can influence to each other during the dynamic joint optimization, in an adaptive and synergetic way. Specifically, we first convert the rotated bounding box into a 2-D Gaussian distribution, and then calculate the Kullback-Leibler Divergence (KLD) between the Gaussian distributions as the regression loss. By analyzing the gradient of each parameter, we show that KLD (and its derivatives) can dynamically adjust the parameter gradients according to the characteristics of the object. It will adjust the importance (gradient weight) of the angle parameter according to the aspect ratio. This mechanism can be vital for high-precision detection as a slight angle error would cause a serious accuracy drop for large aspect ratios objects. More importantly, we have proved that KLD is scale invariant. We further show that the KLD loss can be degenerated into the popular $l_{n}$-norm loss for horizontal detection. Experimental results on seven datasets using different detectors show its consistent superiority, and codes are available at https://github.com/y angxue0827/RotationD etection.
翻訳日:2021-06-07 10:52:56 公開日:2021-06-04
# トランスフォーマー法を用いた短い会話文の自動タグ付け

Auto-tagging of Short Conversational Sentences using Transformer Methods ( http://arxiv.org/abs/2106.01735v2 )

ライセンス: Link先を確認
D. Emre Ta\c{s}ar,\c{S}\"ukr\"u Ozan, Umut \"Ozdil, M. Fatih Akca, O\u{g}uzhan \"Olmez, Semih G\"ul\"um, Se\c{c}ilay Kutal, Ceren Belhan(参考訳) 意味的特徴に応じた短い文を高精度に分類する問題は自然言語処理の分野で研究されている。 本研究では,46のカテゴリに分類されたサンプルを用いたデータセットを用いた。 例は、会社の顧客代表者と会社のウェブサイト訪問者とのチャット会話から得られた文章である。 主な目的は、チャットアプリケーションで使用する46のカテゴリに対して、訪問者からの質問やリクエストを最も正確な方法で自動的にタグ付けし、webサイト訪問者が求めた質問に対して有意義な回答を生成することである。 このため、様々なBERTモデルとトルコ語で事前訓練されたGPT-2モデルが好まれた。 関連モデルの分類性能を詳細に分析し,その結果を報告する。

The problem of categorizing short speech sentences according to their semantic features with high accuracy is a subject studied in natural language processing. In this study, a data set created with samples classified in 46 different categories was used. Examples consist of sentences taken from chat conversations between a company's customer representatives and the company's website visitors. The primary purpose is to automatically tag questions and requests from visitors in the most accurate way for 46 predetermined categories for use in a chat application to generate meaningful answers to the questions asked by the website visitors. For this, different BERT models and one GPT-2 model, pre-trained in Turkish, were preferred. The classification performances of the relevant models were analyzed in detail and reported accordingly.
翻訳日:2021-06-07 10:52:24 公開日:2021-06-04
# 機械学習を用いた変形性膝関節症診断のためのX線パテラのテクスチャー解析

Machine Learning Based Texture Analysis of Patella from X-Rays for Detecting Patellofemoral Osteoarthritis ( http://arxiv.org/abs/2106.01700v2 )

ライセンス: Link先を確認
Neslihan Bayramoglu, Miika T. Nieminen, Simo Saarakkala(参考訳) 本研究の目的は, 膝側頭蓋骨関節症(PFOA)の診断におけるテクスチャ機能の評価である。 ほとんどの公衆用データセット(n = 5507膝)の側方視膝x線写真を用いた。 Patellar region-of-interest(R OI)はランドマーク検出ツール(BoneFinder)を使用して自動的に検出される。 次に、LocalBinary Patterns (LBP)に基づく手作りの特徴を抽出し、パテラーテクスチャを記述した。 まず,LBP特徴量からPFOAを検出するための機械学習モデル(Gradient Boosting Machine)を訓練した。 さらに, PFOA検出のためのテクスチャパッチに直接, エンドツーエンドの深層畳み込みニューラルネットワーク(CNN)を用いた。 提案した分類モデルは, 年齢, 性別, 体重指数(BMI), 総WOMACスコア, およびKelgren-Lawrence(KL) グレードなどの, 臨床評価と参加者特性を用いた従来型の基準モデルと比較した。 MOSTパブリックユースデータセットで提供される専門家読者によるPFOA状態のアトラス誘導による視覚的評価をモデルの分類結果として用いた。 予測モデルの性能は, 入力特性曲線 (roc auc) 下の領域, 精度リコール (pr) 曲線平均精度 (ap) 以下の領域, 層状5倍クロス検証設定におけるブライアスコアを用いて評価した。 年齢,性別,BMI,WOMAC,Tybiofemo ral KL等を含む最強基準モデルでは,PFOAを推定するためのAUCとAPは0.817,0.487であった。 CNNを用いたテキストROI分類では予測性能が有意に向上した(ROC AUC=0.889, AP=0.714)。 本研究はPFOAの診断のための骨組織構造を解析する最初の研究である。 PFOAを予測するために膝蓋骨のテクスチャ的特徴を用いることの可能性を示した。

Objective is to assess the ability of texture features for detecting radiographic patellofemoral osteoarthritis (PFOA) from knee lateral view radiographs. We used lateral view knee radiographs from MOST public use datasets (n = 5507 knees). Patellar region-of-interest (ROI) was automatically detected using landmark detection tool (BoneFinder). Hand-crafted features, based on LocalBinary Patterns (LBP), were then extracted to describe the patellar texture. First, a machine learning model (Gradient Boosting Machine) was trained to detect radiographic PFOA from the LBP features. Furthermore, we used end-to-end trained deep convolutional neural networks (CNNs) directly on the texture patches for detecting the PFOA. The proposed classification models were eventually compared with more conventional reference models that use clinical assessments and participant characteristics such as age, sex, body mass index(BMI), the total WOMAC score, and tibiofemoral Kellgren-Lawrence (KL) grade. Atlas-guided visual assessment of PFOA status by expert readers provided in the MOST public use datasets was used as a classification outcome for the models. Performance of prediction models was assessed using the area under the receiver operating characteristic curve (ROC AUC), the area under the precision-recall (PR) curve-average precision (AP)-, and Brier score in the stratified 5-fold cross validation setting.Of the 5507 knees, 953 (17.3%) had PFOA. AUC and AP for the strongest reference model including age, sex, BMI, WOMAC score, and tibiofemoral KL grade to predict PFOA were 0.817 and 0.487, respectively. Textural ROI classification using CNN significantly improved the prediction performance (ROC AUC= 0.889, AP= 0.714). We present the first study that analyses patellar bone texture for diagnosing PFOA. Our results demonstrates the potential of using texture features of patella to predict PFOA.
翻訳日:2021-06-07 10:52:13 公開日:2021-06-04
# 不確実性定量化360:AIの不確かさの定量化とコミュニケーションのためのホロスティックツールキット

Uncertainty Quantification 360: A Holistic Toolkit for Quantifying and Communicating the Uncertainty of AI ( http://arxiv.org/abs/2106.01410v2 )

ライセンス: Link先を確認
Soumya Ghosh, Q. Vera Liao, Karthikeyan Natesan Ramamurthy, Jiri Navratil, Prasanna Sattigeri, Kush R. Varshney, Yunfeng Zhang(参考訳) 本稿では,AIモデルの不確実性定量化のためのオープンソースのPythonツールキットUncertainty Quantification 360 (UQ360)について述べる。 第一に、aiアプリケーション開発ライフサイクルにおける不確実性を定量化し、評価し、改善し、伝達する一般的なプラクティスを育むとともに、合理化するための幅広い機能を提供し、第二に、最新の研究や教育資料の普及を通じて、公正や透明性といった、信頼できるaiの他の柱とのuqのつながりをさらに探究することである。 Pythonパッケージ(\url{https://github.com/I BM/UQ360})の他に、インタラクティブな体験(\url{http://uq360.mybluem ix.net})と、研究者や開発者が高品質の不確かさを効果的に生成・伝達するのに役立つ教育ツールとしてのガイダンス教材を開発しました。

In this paper, we describe an open source Python toolkit named Uncertainty Quantification 360 (UQ360) for the uncertainty quantification of AI models. The goal of this toolkit is twofold: first, to provide a broad range of capabilities to streamline as well as foster the common practices of quantifying, evaluating, improving, and communicating uncertainty in the AI application development lifecycle; second, to encourage further exploration of UQ's connections to other pillars of trustworthy AI such as fairness and transparency through the dissemination of latest research and education materials. Beyond the Python package (\url{https://github.com/I BM/UQ360}), we have developed an interactive experience (\url{http://uq360.mybluem ix.net}) and guidance materials as educational tools to aid researchers and developers in producing and communicating high-quality uncertainties in an effective manner.
翻訳日:2021-06-07 10:51:40 公開日:2021-06-04
# アンカーフリーオブジェクト検出のための転送可能逆例

Transferable Adversarial Examples for Anchor Free Object Detection ( http://arxiv.org/abs/2106.01618v2 )

ライセンス: Link先を確認
Quanyu Liao, Xin Wang, Bin Kong, Siwei Lyu, Bin Zhu, Youbing Yin, Qi Song, Xi Wu(参考訳) 深いニューラルネットワークは敵の攻撃に弱いことが示されており、微妙な摂動は予測結果を完全に変える可能性がある。 この脆弱性は、オブジェクト検出ネットワークに対する敵意攻撃を含む、この方向の研究の急増につながった。 しかし、以前の研究はアンカーベースの物体検出器を攻撃することに専念している。 本稿では,アンカーフリー物体検出器に対する最初の対向攻撃を示す。 それまでのインスタンスワイドではなくカテゴリワイズでオブジェクト検出器を攻撃し、高レベルのセマンティック情報を活用して転送可能な敵の例を効率的に生成し、Faster R-CNNのようなアンカーベースの検出器でも他のオブジェクト検出器を攻撃できる。 2つのベンチマークデータセットによる実験結果から,提案手法が最先端の性能と伝達性を実現することを示す。

Deep neural networks have been demonstrated to be vulnerable to adversarial attacks: subtle perturbation can completely change prediction result. The vulnerability has led to a surge of research in this direction, including adversarial attacks on object detection networks. However, previous studies are dedicated to attacking anchor-based object detectors. In this paper, we present the first adversarial attack on anchor-free object detectors. It conducts category-wise, instead of previously instance-wise, attacks on object detectors, and leverages high-level semantic information to efficiently generate transferable adversarial examples, which can also be transferred to attack other object detectors, even anchor-based detectors such as Faster R-CNN. Experimental results on two benchmark datasets demonstrate that our proposed method achieves state-of-the-art performance and transferability.
翻訳日:2021-06-07 10:51:22 公開日:2021-06-04
# 一般化平均密度最密部分グラフ問題

The Generalized Mean Densest Subgraph Problem ( http://arxiv.org/abs/2106.00909v2 )

ライセンス: Link先を確認
Nate Veldt and Austin R. Benson and Jon Kleinberg(参考訳) 大きなグラフの密度の高い部分グラフを見つけることはグラフマイニングの標準的な問題であり、理論的な豊かさと多くの実用的応用の両方について広く研究されてきた。 本稿では,グラフの次数列の計算一般化に基づく1つのパラメータ$p$でパラメータ化された,高密度なサブグラフ対象の新たなファミリーを紹介する。 我々の目標は、標準密度のサブグラフ問題と最大$k$-coreを特別なケースとして捉え、他の密度のサブグラフの概念を探す際に、これらの2つの目的の間を補間し、外挿する方法を提供する。 アルゴリズム的貢献の観点で、我々はまず、繰り返しサブモジュラー最小化を用いて、すべての$p \geq 1$の多項式時間で目標を最小化できることを示した。 我々の研究の大きな貢献は、理論と実践の両方において密接な部分グラフに対する様々な種類の剥離アルゴリズムの性能を分析することである。 標準的な剥離アルゴリズムは、一般化された目的に対して任意に不利な動作をすることができることを証明するが、$p \geq 1$に対して少なくとも1/2$の近似保証を持ち、$p \rightarrow \infty$として1に収束するより洗練された剥離法を設計する。 実際、このアルゴリズムは最適解に対して極めて優れた近似値を求め、大きなグラフにスケールし、多くの領域から来るグラフの密度に関する様々な意味のある概念を強調する。 さらに、あるノードの除去が近隣の他のノードにどのように影響するかをよりよく説明することで、標準的な剥離アルゴリズムよりも最も密度の高い部分グラフ問題を近似することができる。

Finding dense subgraphs of a large graph is a standard problem in graph mining that has been studied extensively both for its theoretical richness and its many practical applications. In this paper we introduce a new family of dense subgraph objectives, parameterized by a single parameter $p$, based on computing generalized means of degree sequences of a subgraph. Our objective captures both the standard densest subgraph problem and the maximum $k$-core as special cases, and provides a way to interpolate between and extrapolate beyond these two objectives when searching for other notions of dense subgraphs. In terms of algorithmic contributions, we first show that our objective can be minimized in polynomial time for all $p \geq 1$ using repeated submodular minimization. A major contribution of our work is analyzing the performance of different types of peeling algorithms for dense subgraphs both in theory and practice. We prove that the standard peeling algorithm can perform arbitrarily poorly on our generalized objective, but we then design a more sophisticated peeling method which for $p \geq 1$ has an approximation guarantee that is always at least $1/2$ and converges to 1 as $p \rightarrow \infty$. In practice, we show that this algorithm obtains extremely good approximations to the optimal solution, scales to large graphs, and highlights a range of different meaningful notions of density on graphs coming from numerous domains. Furthermore, it is typically able to approximate the densest subgraph problem better than the standard peeling algorithm, by better accounting for how the removal of one node affects other nodes in its neighborhood.
翻訳日:2021-06-07 10:51:08 公開日:2021-06-04