このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210607となっている論文です。

PDF登録状況(公開日: 20210607)

TitleAuthorsAbstract論文公表日・翻訳日
# 複数の制御可能な属性を持つプログレッシブオープンドメイン応答生成

Progressive Open-Domain Response Generation with Multiple Controllable Attributes ( http://arxiv.org/abs/2106.14614v1 )

ライセンス: Link先を確認
Haiqin Yang, Xiaoyuan Yao, Yiqun Duan, Jianping Shen, Jie Zhong, Kun Zhang(参考訳) オープンドメイン対話システムで生成された応答の多様性を高めるために、より制御可能な属性を含めることが望ましい。 しかし、既存のメソッドは1つの制御可能な属性だけでレスポンスを生成できるし、複数の制御可能な属性でそれらを生成する柔軟な方法がない。 本稿では,この課題に対処するための階層型エンコーダデコーダ(PHED)を提案する。 より具体的には、PHEDはConditional Variational AutoEncoder (CVAE)をTransformerにデプロイし、1段階で属性の1つの側面を含むようにする。 CVAEの重要な特徴は、各ステージにおける潜伏変数を、共通の意味的特徴をキャプチャするグローバル変数と、そのステージで属性情報を吸収する特定の変数の2つのタイプに分けることである。 PHEDはCVAE潜伏変数とTransformerエンコーダを結合し、新たに派生したELBOを最小化し、損失を制御して次のステージの入力を生成し、必要に応じて応答を生成する。 最後に, phedが最先端のニューラルジェネレーションモデルを大幅に上回り, 期待通りに多様な応答を生成することを示すために, 広範な評価を行った。

It is desirable to include more controllable attributes to enhance the diversity of generated responses in open-domain dialogue systems. However, existing methods can generate responses with only one controllable attribute or lack a flexible way to generate them with multiple controllable attributes. In this paper, we propose a Progressively trained Hierarchical Encoder-Decoder (PHED) to tackle this task. More specifically, PHED deploys Conditional Variational AutoEncoder (CVAE) on Transformer to include one aspect of attributes at one stage. A vital characteristic of the CVAE is to separate the latent variables at each stage into two types: a global variable capturing the common semantic features and a specific variable absorbing the attribute information at that stage. PHED then couples the CVAE latent variables with the Transformer encoder and is trained by minimizing a newly derived ELBO and controlled losses to produce the next stage's input and produce responses as required. Finally, we conduct extensive evaluations to show that PHED significantly outperforms the state-of-the-art neural generation models and produces more diverse responses as expected.
翻訳日:2021-07-04 19:38:07 公開日:2021-06-07
# (参考訳) ニューラルネットワークにおける畳み込み不変性の符号化 [全文訳有]

Encoding Involutory Invariance in Neural Networks ( http://arxiv.org/abs/2106.12891v1 )

ライセンス: CC BY 4.0
Anwesh Bhattacharya, Marios Mattheakis, Pavlos Protopapas(参考訳) ある状況では、ニューラルネットワーク(NN)は基礎となる物理対称性に従うデータに基づいて訓練される。 しかし、nnsがネットワーク構造に埋め込まれない限り、基盤となる対称性に従うことは保証されない。 本研究では、関数がパリティ$p=\pm 1$まで不変な線型/アフィン変換に対して不変な特別な対称性について検討する。 数学的定理を開発し、不変性と普遍近似特性を保証するNNアーキテクチャを提案する。 数値実験により,提案モデルが与えられた対称性を尊重しながらベースラインネットワークより優れていることが示された。 水平/垂直反射対称性を持つデータセットに対する畳み込みNN分類タスクへの本手法の適用も提案されている。

In certain situations, Neural Networks (NN) are trained upon data that obey underlying physical symmetries. However, it is not guaranteed that NNs will obey the underlying symmetry unless embedded in the network structure. In this work, we explore a special kind of symmetry where functions are invariant with respect to involutory linear/affine transformations up to parity $p=\pm 1$. We develop mathematical theorems and propose NN architectures that ensure invariance and universal approximation properties. Numerical experiments indicate that the proposed models outperform baseline networks while respecting the imposed symmetry. An adaption of our technique to convolutional NN classification tasks for datasets with inherent horizontal/vertical reflection symmetry has also been proposed.
翻訳日:2021-06-27 11:38:12 公開日:2021-06-07
# MONCAE:畳み込みオートエンコーダの多目的神経進化

MONCAE: Multi-Objective Neuroevolution of Convolutional Autoencoders ( http://arxiv.org/abs/2106.11914v1 )

ライセンス: Link先を確認
Daniel Dimanov, Emili Balaguer-Ballester, Colin Singleton and Shahin Rostami(参考訳) 本稿では,畳み込みオートエンコーダのアーキテクチャとハイパーパラメータを同定する新しい神経進化法を提案する。 驚くべきことに、私たちは神経アーキテクチャの文脈でオートエンコーダを検索するためにハイパーボリュームインジケータを使いました。 その結果、画像は10倍圧縮され、多くのタスクで画像分類を達成するのに十分な情報を保持していた。 したがって、この新しいアプローチは、画像圧縮のためにAutoMLパイプラインを高速化するために使用できる。

In this paper, we present a novel neuroevolutionary method to identify the architecture and hyperparameters of convolutional autoencoders. Remarkably, we used a hypervolume indicator in the context of neural architecture search for autoencoders, for the first time to our current knowledge. Results show that images were compressed by a factor of more than 10, while still retaining enough information to achieve image classification for the majority of the tasks. Thus, this new approach can be used to speed up the AutoML pipeline for image compression.
翻訳日:2021-06-27 09:02:54 公開日:2021-06-07
# (参考訳) FedNILM: エッジのNILMアプリケーションにフェデレーション学習を適用する [全文訳有]

FedNILM: Applying Federated Learning to NILM Applications at the Edge ( http://arxiv.org/abs/2106.07751v1 )

ライセンス: CC BY 4.0
Yu Zhang, Guoming Tang, Qianyi Huang, Yi Wang, Xudong Wang, Jiadong Lou(参考訳) 非侵入負荷モニタリング(non-intrusive load monitoring, nilm)は、家庭の主な電力消費を個々の家電のエネルギー消費に分解するのに役立つ。 NILMアプリケーションで発生したプライバシー問題に対処するために、フェデレートラーニング(FL)はNILMモデルのトレーニングと共有に活用できる。 しかし,実世界のnilmアプリケーションにflパラダイムを適用する場合,エッジリソース制限やエッジモデルパーソナライゼーション,エッジトレーニングデータの不足といった課題に直面している。 本稿では、エッジクライアントにおけるNILMアプリケーションのための実用的なFLパラダイムであるFedNILMについて述べる。 具体的には、feednilmは、プライバシ保護とパーソナライズによるnilmサービスを大規模エッジクライアントに提供するように設計されている。i) フェデレーション学習によるセキュアなデータ集約、ii) フィルタプラニングとマルチタスク学習による効率的なクラウドモデル圧縮、iii) 教師なし転送学習によるパーソナライズされたエッジモデル構築。 実世界のエネルギーデータに関する実験により,FedNILMは最先端の精度で個人化されたエネルギー分散を実現することができ,エッジクライアントでのプライバシー保護も確保できることがわかった。

Non-intrusive load monitoring (NILM) helps disaggregate the household's main electricity consumption to energy usages of individual appliances, thus greatly cutting down the cost in fine-grained household load monitoring. To address the arisen privacy concern in NILM applications, federated learning (FL) could be leveraged for NILM model training and sharing. When applying the FL paradigm in real-world NILM applications, however, we are faced with the challenges of edge resource restriction, edge model personalization and edge training data scarcity. In this paper we present FedNILM, a practical FL paradigm for NILM applications at the edge client. Specifically, FedNILM is designed to deliver privacy-preserving and personalized NILM services to large-scale edge clients, by leveraging i) secure data aggregation through federated learning, ii) efficient cloud model compression via filter pruning and multi-task learning, and iii) personalized edge model building with unsupervised transfer learning. Our experiments on real-world energy data show that, FedNILM is able to achieve personalized energy disaggregation with the state-of-the-art accuracy, while ensuring privacy preserving at the edge client.
翻訳日:2021-06-20 18:31:39 公開日:2021-06-07
# グループICAと辞書学習を用いたRS-FMRIデータからの自閉症スペクトラム障害機能ネットワークの導出

Deriving Autism Spectrum Disorder Functional Networks from RS-FMRI Data using Group ICA and Dictionary Learning ( http://arxiv.org/abs/2106.09000v1 )

ライセンス: Link先を確認
Xin Yang, Ning Zhang, Donglin Wang(参考訳) 本研究の目的は,グループicaと辞書学習モデルを用いた自閉症スペクトラム障害(asd)集団のための機能的ネットワークの導出と,導出された機能的ネットワークから計算した機能的接続を用いて,asdと典型的(td)参加者を分類することである。 実験では, 静止状態磁気共鳴画像(rs-fMRI)データから, ASD関数ネットワークを導出した。 autism brain imaging data exchange i (abide i) の公開リポジトリから得られた,58名のasdと62名のtd参加者を含む120のトレーニングサンプルをダウンロードした。 私たちの方法論と結果には5つの主要部分があります。 まず、グループICAモデルを用いて、ASDグループから機能的ネットワークを抽出し、上位20の関心領域(ROI)をランク付けする。 次に,辞書学習モデルを用いて,asdグループから機能的ネットワークを抽出し,上位20のroisをランク付けする。 第3に,2モデルから選択した40個のroisをasd機能ネットワークとして統合した。 第4に、ICA群から選択した20ROI、辞書学習から選択した20ROI、および両群から選択した40ROIに基づいて、対応する3つのマスクを生成する。 最後に, 上記3つのマスクを用いたトレーニングサンプルのROIを抽出し, ASDおよびTD分類の特徴として機能接続を算出した。 分類の結果,ICAと辞書学習を併用した関数ネットワークは,単一のICAモデルや単一の辞書学習モデルよりも優れていた。

The objective of this study is to derive functional networks for the autism spectrum disorder (ASD) population using the group ICA and dictionary learning model together and to classify ASD and typically developing (TD) participants using the functional connectivity calculated from the derived functional networks. In our experiments, the ASD functional networks were derived from resting-state functional magnetic resonance imaging (rs-fMRI) data. We downloaded a total of 120 training samples, including 58 ASD and 62 TD participants, which were obtained from the public repository: Autism Brain Imaging Data Exchange I (ABIDE I). Our methodology and results have five main parts. First, we utilize a group ICA model to extract functional networks from the ASD group and rank the top 20 regions of interest (ROIs). Second, we utilize a dictionary learning model to extract functional networks from the ASD group and rank the top 20 ROIs. Third, we merged the 40 selected ROIs from the two models together as the ASD functional networks. Fourth, we generate three corresponding masks based on the 20 selected ROIs from group ICA, the 20 ROIs selected from dictionary learning, and the 40 combined ROIs selected from both. Finally, we extract ROIs for all training samples using the above three masks, and the calculated functional connectivity was used as features for ASD and TD classification. The classification results showed that the functional networks derived from ICA and dictionary learning together outperform those derived from a single ICA model or a single dictionary learning model.
翻訳日:2021-06-20 16:09:52 公開日:2021-06-07
# (参考訳) ターゲットネットワークを超えて:関数正規化による深い$q$-learningの改善 [全文訳有]

Beyond Target Networks: Improving Deep $Q$-learning with Functional Regularization ( http://arxiv.org/abs/2106.02613v2 )

ライセンス: CC BY 4.0
Alexandre Pich\'e, Joseph Marino, Gian Maria Marconi, Christopher Pal, Mohammad Emtiyaz Khan(参考訳) ターゲットネットワークは、最近の強化学習の成功の核心にある。 q$-valuesを見積もるために古いパラメータを使用してトレーニングを安定化するが、これはまた、トレーニングを遅くする可能性のある、新たに登録された報酬の伝播を制限する。 本研究では,この不足を伴わない機能正規化に基づく代替訓練法を提案する。 ターゲットネットワークと異なり,最新のパラメータを用いて目標の$q$値を推定し,安定性を維持しながらトレーニングを高速化する。 驚くべきことに、いくつかのケースでは、ターゲットネットワークが特殊で制限された機能正規化器であることを示すことができる。 このアプローチを用いて,Atariおよびシミュレートされたロボット環境におけるサンプル効率と性能を実証的に改善した。

Target networks are at the core of recent success in Reinforcement Learning. They stabilize the training by using old parameters to estimate the $Q$-values, but this also limits the propagation of newly-encountered rewards which could ultimately slow down the training. In this work, we propose an alternative training method based on functional regularization which does not have this deficiency. Unlike target networks, our method uses up-to-date parameters to estimate the target $Q$-values, thereby speeding up training while maintaining stability. Surprisingly, in some cases, we can show that target networks are a special, restricted type of functional regularizers. Using this approach, we show empirical improvements in sample efficiency and performance across a range of Atari and simulated robotics environments.
翻訳日:2021-06-15 11:48:15 公開日:2021-06-07
# (参考訳) EventDrop: イベントベースの学習のためのデータ拡張 [全文訳有]

EventDrop: data augmentation for event-based learning ( http://arxiv.org/abs/2106.05836v1 )

ライセンス: CC BY 4.0
Fuqiang Gu, Weicong Sng, Xuke Hu, Fangwen Yu(参考訳) 従来のセンサ(例えば、高ダイナミックレンジ、低レイテンシ、低消費電力)に対するイベントセンシングの利点は、イベントデータに対する機械学習の研究を刺激している。 典型的なセットアップでは、離散イベントと非同期イベントは最初、標準のディープネットワークを適用可能なフレームライクなテンソルに変換される。 しかし、特にイベントデータセットが従来のデータセット(例: imagenet)に比べて小さいため、過剰フィッティングは依然として課題である。 本稿では,深層モデルの一般化を改善するため,非同期イベントデータを拡張するための新しい手法であるEventDropを紹介する。 様々な戦略で選択されたイベントをドロップすることで、トレーニングデータの多様性を高めることができる(例えば、様々なレベルの閉塞をシミュレートする)。 現実的には、EventDropは実装が簡単で、計算コストも低い。 2つのイベントデータセット(N-Caltech101とN-Cars)の実験は、EventDropがさまざまなディープネットワークにおける一般化性能を大幅に改善できることを示した。

The advantages of event-sensing over conventional sensors (e.g., higher dynamic range, lower time latency, and lower power consumption) have spurred research into machine learning for event data. Unsurprisingly, deep learning has emerged as a competitive methodology for learning with event sensors; in typical setups, discrete and asynchronous events are first converted into frame-like tensors on which standard deep networks can be applied. However, over-fitting remains a challenge, particularly since event datasets remain small relative to conventional datasets (e.g., ImageNet). In this paper, we introduce EventDrop, a new method for augmenting asynchronous event data to improve the generalization of deep models. By dropping events selected with various strategies, we are able to increase the diversity of training data (e.g., to simulate various levels of occlusion). From a practical perspective, EventDrop is simple to implement and computationally low-cost. Experiments on two event datasets (N-Caltech101 and N-Cars) demonstrate that EventDrop can significantly improve the generalization performance across a variety of deep networks.
翻訳日:2021-06-13 06:00:30 公開日:2021-06-07
# (参考訳) DMIDAS:長期マルチ水平時系列予測のための深層混合データサンプリング回帰 [全文訳有]

DMIDAS: Deep Mixed Data Sampling Regression for Long Multi-Horizon Time Series Forecasting ( http://arxiv.org/abs/2106.05860v1 )

ライセンス: CC BY 4.0
Cristian Challu, Kin G. Olivares, Gus Welter, Artur Dubrawski(参考訳) ニューラル予測は大規模システムの精度を大幅に向上させたが、非常に長い水平線を予測することは難しい課題である。 2つの一般的な問題は予測のボラティリティと計算複雑性であり、スムーズな正規化と混合データサンプリング技術を多層パーセプトロンアーキテクチャ(NBEATS)に組み込むことで対処する。 提案手法であるDMIDASを,長期間の予測地平線(約1000タイムスタンプ)を有する高周波医療・電気価格データ上で検証し,その予測精度を最先端モデルに比べて5%向上させ,NBEATSのパラメータ数を約70%削減する。

Neural forecasting has shown significant improvements in the accuracy of large-scale systems, yet predicting extremely long horizons remains a challenging task. Two common problems are the volatility of the predictions and their computational complexity; we addressed them by incorporating smoothness regularization and mixed data sampling techniques to a well-performing multi-layer perceptron based architecture (NBEATS). We validate our proposed method, DMIDAS, on high-frequency healthcare and electricity price data with long forecasting horizons (~1000 timestamps) where we improve the prediction accuracy by 5% over state-of-the-art models, reducing the number of parameters of NBEATS by nearly 70%.
翻訳日:2021-06-13 05:48:16 公開日:2021-06-07
# 検証・構成可能な強化学習システム

Verifiable and Compositional Reinforcement Learning Systems ( http://arxiv.org/abs/2106.05864v1 )

ライセンス: Link先を確認
Cyrus Neary, Christos Verginis, Murat Cubuktepe, Ufuk Topcu(参考訳) 本稿では,個別のサブタスクの実現を学習するrlサブシステムの集合が,タスク全体を達成するために構成される,検証および構成強化学習(rl)のための新しい枠組みを提案する。 このフレームワークは、パラメトリックマルコフ決定プロセス(pMDP)として表される高レベルモデルで構成されており、サブシステムの構成を計画し分析し、低レベルのサブシステム自体の収集に使用される。 サブシステム間のインターフェースを定義することで、このフレームワークはタスク仕様の自動分解を可能にする。例えば、ターゲットのステートセットに少なくとも 0.95 の確率で到達し、個々のサブタスク仕様に到達できる。 エントリー条件が満たされていることを考慮すれば、サブシステムの終了条件を少なくともある程度の確率で達成する。 これにより、サブシステムの独立したトレーニングとテストが可能になり、それぞれが適切なサブタスク仕様を満たすポリシーを学ぶと、それらの構成が全体的なタスク仕様を満たすことが保証される。 逆に、サブタスク仕様が学習ポリシーで満たされない場合、pMDPにおけるパラメータの最適セットを見つける問題として定式化され、サブタスク仕様を自動的に更新し、観察された欠点を考慮に入れる方法を提案する。 その結果は、サブタスク仕様を定義し、サブシステムに適合するようにトレーニングするための反復的な手順である。 追加の利点として、この手順により、トレーニング中に、全体的なタスクの特に挑戦的または重要なコンポーネントを自動的に決定し、集中することができる。 実験結果は,提案フレームワークの新たな機能を示す。

We propose a novel framework for verifiable and compositional reinforcement learning (RL) in which a collection of RL sub-systems, each of which learns to accomplish a separate sub-task, are composed to achieve an overall task. The framework consists of a high-level model, represented as a parametric Markov decision process (pMDP) which is used to plan and to analyze compositions of sub-systems, and of the collection of low-level sub-systems themselves. By defining interfaces between the sub-systems, the framework enables automatic decompositons of task specifications, e.g., reach a target set of states with a probability of at least 0.95, into individual sub-task specifications, i.e. achieve the sub-system's exit conditions with at least some minimum probability, given that its entry conditions are met. This in turn allows for the independent training and testing of the sub-systems; if they each learn a policy satisfying the appropriate sub-task specification, then their composition is guaranteed to satisfy the overall task specification. Conversely, if the sub-task specifications cannot all be satisfied by the learned policies, we present a method, formulated as the problem of finding an optimal set of parameters in the pMDP, to automatically update the sub-task specifications to account for the observed shortcomings. The result is an iterative procedure for defining sub-task specifications, and for training the sub-systems to meet them. As an additional benefit, this procedure allows for particularly challenging or important components of an overall task to be determined automatically, and focused on, during training. Experimental results demonstrate the presented framework's novel capabilities.
翻訳日:2021-06-11 14:36:54 公開日:2021-06-07
# ハイブリッド機械学習によるuefa euro 2020の予測

Hybrid Machine Learning Forecasts for the UEFA EURO 2020 ( http://arxiv.org/abs/2106.05799v1 )

ライセンス: Link先を確認
Andreas Groll, Lars Magnus Hvattum, Christophe Ley, Franziska Popp, Gunther Schauberger, Hans Van Eetvelde, Achim Zeileis(参考訳) サッカーの試合を予測するための3つの最先端統計ランキング手法は、ハイブリッド機械学習モデルにおいて、他のいくつかの予測器と組み合わせられる。 すなわち、歴史的試合に基づく各チームに対する能力推定、ブックメーカーのコンセンサスに基づく各チームに対する能力推定、ホームクラブやナショナルチームにおける個々のパフォーマンスに基づく平均プラスマイナスプレイヤー評価、さらにチーム共変量(市場価値、チーム構造など)、国固有の社会経済的要因(人口、GDP)などである。 提案された組み合わせアプローチは、以前の4つのuefa euros 2004-2016から獲得したゴール数を学習し、現在の情報に適用し、今後のuefa euro 2020を予測するために使用される。 結果に基づいて、トーナメントを繰り返しシミュレートし、すべてのチームに対して勝利確率を得る。 ランダム森林モデルは、イングランド(13.5%)とスペイン(12.3%)よりも14.8%の勝利確率で、現在の世界チャンピオンフランスを好んでいる。 さらに、すべてのチームとすべてのトーナメントステージに生存確率を提供します。

Three state-of-the-art statistical ranking methods for forecasting football matches are combined with several other predictors in a hybrid machine learning model. Namely an ability estimate for every team based on historic matches; an ability estimate for every team based on bookmaker consensus; average plus-minus player ratings based on their individual performances in their home clubs and national teams; and further team covariates (e.g., market value, team structure) and country-specific socio-economic factors (population, GDP). The proposed combined approach is used for learning the number of goals scored in the matches from the four previous UEFA EUROs 2004-2016 and then applied to current information to forecast the upcoming UEFA EURO 2020. Based on the resulting estimates, the tournament is simulated repeatedly and winning probabilities are obtained for all teams. A random forest model favors the current World Champion France with a winning probability of 14.8% before England (13.5%) and Spain (12.3%). Additionally, we provide survival probabilities for all teams and at all tournament stages.
翻訳日:2021-06-11 14:04:21 公開日:2021-06-07
# Launchpad: 分散機械学習研究のためのプログラミングモデル

Launchpad: A Programming Model for Distributed Machine Learning Research ( http://arxiv.org/abs/2106.04516v1 )

ライセンス: Link先を確認
Fan Yang, Gabriel Barth-Maron, Piotr Sta\'nczyk, Matthew Hoffman, Siqi Liu, Manuel Kroiss, Aedan Pope, Alban Rrustemi(参考訳) 現代の機械学習アルゴリズムの成功の背後にある主要な要因は、ずっと大きなデータを処理する能力である。 その結果、この成長するデータへのスケール手段として、研究と生産の両方における分散システムの利用がますます普及している。 しかし同時に、学習プロセスの分散は、単純なアルゴリズムの実装を劇的に複雑にする可能性がある。 これは特に問題であり、多くの機械学習実践者は複雑なコミュニケーショントポロジを持つものを除いて、分散システムの設計に精通していない。 この作業では、マシンラーニングのオーディエンス向けに特別に調整された分散システムを定義し、ローンチするプロセスを簡単にするプログラミングモデルであるlaunchpadを紹介します。 提案するフレームワーク,設計哲学,実装について述べるとともに,このアプローチによって設計が大幅に単純化された共通学習アルゴリズムの例を多数紹介する。

A major driver behind the success of modern machine learning algorithms has been their ability to process ever-larger amounts of data. As a result, the use of distributed systems in both research and production has become increasingly prevalent as a means to scale to this growing data. At the same time, however, distributing the learning process can drastically complicate the implementation of even simple algorithms. This is especially problematic as many machine learning practitioners are not well-versed in the design of distributed systems, let alone those that have complicated communication topologies. In this work we introduce Launchpad, a programming model that simplifies the process of defining and launching distributed systems that is specifically tailored towards a machine learning audience. We describe our framework, its design philosophy and implementation, and give a number of examples of common learning algorithms whose designs are greatly simplified by this approach.
翻訳日:2021-06-10 15:19:17 公開日:2021-06-07
# (参考訳) 疑わしい場合: 流行予測のための神経非パラメトリック不確実性定量化 [全文訳有]

When in Doubt: Neural Non-Parametric Uncertainty Quantification for Epidemic Forecasting ( http://arxiv.org/abs/2106.03904v1 )

ライセンス: CC BY 4.0
Harshavardhan Kamarthi, Lingkai Kong, Alexander Rodr\'iguez, Chao Zhang, B. Aditya Prakash(参考訳) 正確で信頼できる流行予測は、公衆衛生計画や疾病の緩和に影響を及ぼす重要な問題である。 既存の流行予測モデルは不確実な定量化を無視し、誤校正予測をもたらす。 不確実性を認識した時系列予測のためのディープニューラルモデルの最近の研究にも、いくつかの制限がある。 ベイジアンNNにおける有意義な事前の特定は困難であるが,ディープアンサンブルのような手法は実際に計算的に高価である。 本稿では,この重要なギャップを埋める。 予測タスクを確率的生成過程としてモデル化し、予測値の確率密度を直接モデル化する epifnp と呼ばれる機能的ニューラルプロセスモデルを提案する。 EPIFNPは動的確率相関グラフを利用して、非パラメトリックな方法でシーケンス間の相関をモデル化し、異なる確率潜在変数を設計し、異なる視点から機能的不確実性を捉える。 リアルタイムインフルエンザ予測設定における広範囲な実験により,EPIFNPは従来の最先端モデルよりも精度,キャリブレーションの両指標において,2.5倍,キャリブレーションの2.4倍に優れていた。 さらに、その生成過程の性質から、EPIFNPは現在の季節と過去の季節の類似パターンの関係を学習し、解釈可能な予測を喚起する。 疫病予測以外にも、EPIFNPは予測分析のための深部連続モデルにおける原理的不確実性定量化を進めるために独立した関心を持つことができる

Accurate and trustworthy epidemic forecasting is an important problem that has impact on public health planning and disease mitigation. Most existing epidemic forecasting models disregard uncertainty quantification, resulting in mis-calibrated predictions. Recent works in deep neural models for uncertainty-aware time-series forecasting also have several limitations; e.g. it is difficult to specify meaningful priors in Bayesian NNs, while methods like deep ensembling are computationally expensive in practice. In this paper, we fill this important gap. We model the forecasting task as a probabilistic generative process and propose a functional neural process model called EPIFNP, which directly models the probability density of the forecast value. EPIFNP leverages a dynamic stochastic correlation graph to model the correlations between sequences in a non-parametric way, and designs different stochastic latent variables to capture functional uncertainty from different perspectives. Our extensive experiments in a real-time flu forecasting setting show that EPIFNP significantly outperforms previous state-of-the-art models in both accuracy and calibration metrics, up to 2.5x in accuracy and 2.4x in calibration. Additionally, due to properties of its generative process,EPIFNP learns the relations between the current season and similar patterns of historical seasons,enabling interpretable forecasts. Beyond epidemic forecasting, the EPIFNP can be of independent interest for advancing principled uncertainty quantification in deep sequential models for predictive analytics
翻訳日:2021-06-10 13:43:02 公開日:2021-06-07
# (参考訳) AutoPtosis [全文訳有]

AutoPtosis ( http://arxiv.org/abs/2106.03905v1 )

ライセンス: CC BY 4.0
Abdullah Aleem, Manoj Prabhakar Nallabothula, Pete Setabutr, Joelle A. Hallak and Darvin Yi(参考訳) ブレファロプトーシス(英: blepharoptosis、通称:ptosis)は、上まぶたが垂れ下がったまぶたの状態である。 現在診断されているのは、時間を要する手作業による測定で、人的ミスを生じやすいことだ。 本稿では,ptosis の迅速な診断のために,解釈可能な結果を持つ人工知能システム autoptosis を提案する。 我々はイリノイ大学病院で収集された多様なデータセットを用いて、予測のための堅牢な深層学習モデルの開発と、限界反射距離と虹彩比を計算する臨床的にインスピレーションを受けたモデルの開発に成功した。 AutoPtosisは、同等のクラスバランスを持つ医師認証データに対して95.5%の精度を達成した。 提案手法は,ptosisの迅速かつタイムリーな診断に役立ち,医療システムの負担を大幅に軽減し,患者や診療所の貴重な資源を節約できる。

Blepharoptosis, or ptosis as it is more commonly referred to, is a condition of the eyelid where the upper eyelid droops. The current diagnosis for ptosis involves cumbersome manual measurements that are time-consuming and prone to human error. In this paper, we present AutoPtosis, an artificial intelligence based system with interpretable results for rapid diagnosis of ptosis. We utilize a diverse dataset collected at the University of Illinois Hospital and Health to successfully develop a robust deep learning model for prediction and also develop a clinically inspired model that calculates the marginal reflex distance and iris ratio. AutoPtosis achieved 95.5% accuracy on physician verified data that had an equal class balance. The proposed algorithm can help in the rapid and timely diagnosis of ptosis, significantly reduce the burden on the healthcare system, and save the patients and clinics valuable resources.
翻訳日:2021-06-10 13:14:08 公開日:2021-06-07
# (参考訳) 深部プロキシ因果学習とバンドポリシー評価への活用

Deep Proxy Causal Learning and its Application to Confounded Bandit Policy Evaluation ( http://arxiv.org/abs/2106.03907v1 )

ライセンス: CC BY 4.0
Liyuan Xu, Heishiro Kanagawa, Arthur Gretton(参考訳) プロキシ因果学習 (proxy causal learning, pcl) は、共同設立者のプロキシ(構造化側情報)を用いて、観察されていない共同研究の存在下での成果に対する治療の因果効果を推定する手法である。 第1段階では、治療とプロキシの関係をモデル化し、第2段階では、プロキシによって提供されるコンテキストを考慮して、治療が結果に与える影響を学習するためにこのモデルを使用します。 pclは同一性条件下で真の因果効果の回復を保証する。 深部ニューラルネットワークの特徴によって表現されるような,高次元かつ非線形な複雑な関係を持つプロキシ,治療,結果を扱うため,PCLの新しい手法であるDFPV(Deep Feature proxy variable method)を提案する。 DFPVは,高次元画像データを含む設定を含む,最新のPCL法よりも高い性能を示すことを示す。 さらに, DFPV が競合性能を示す包括的バンディット問題に対して, PCL を非政治的評価に適用できることが示唆された。

Proxy causal learning (PCL) is a method for estimating the causal effect of treatments on outcomes in the presence of unobserved confounding, using proxies (structured side information) for the confounder. This is achieved via two-stage regression: in the first stage, we model relations among the treatment and proxies; in the second stage, we use this model to learn the effect of treatment on the outcome, given the context provided by the proxies. PCL guarantees recovery of the true causal effect, subject to identifiability conditions. We propose a novel method for PCL, the deep feature proxy variable method (DFPV), to address the case where the proxies, treatments, and outcomes are high-dimensional and have nonlinear complex relationships, as represented by deep neural network features. We show that DFPV outperforms recent state-of-the-art PCL methods on challenging synthetic benchmarks, including settings involving high dimensional image data. Furthermore, we show that PCL can be applied to off-policy evaluation for the confounded bandit problem, in which DFPV also exhibits competitive performance.
翻訳日:2021-06-10 13:05:29 公開日:2021-06-07
# (参考訳) xirl: クロスエンボディメント逆強化学習 [全文訳有]

XIRL: Cross-embodiment Inverse Reinforcement Learning ( http://arxiv.org/abs/2106.03911v1 )

ライセンス: CC BY 4.0
Kevin Zakka, Andy Zeng, Pete Florence, Jonathan Tompson, Jeannette Bohg, Debidatta Dwibedi(参考訳) エージェントが他のエージェント(人間など)のビデオからポリシーを学習し、同じタスクを実演するが、その実施形態(形状、アクション、エンド・エフェクター・ダイナミクスなど)が全く異なる視覚クロス・エンボディメント・イミテーション・セッティングを調査した。 本研究では,これらの差異に頑健な実演ビデオから視覚に基づく報酬関数を自動的に発見し,学習できることを実証する。 具体的には、時間的サイクル整合性制約を利用して、複数の専門家によるデモのオフラインビデオからタスクの進行を捉えた深い視覚的埋め込みを学習するクロス・エボディメント逆強化学習(XIRL)の自己指導手法を提案する。 我々の研究の前には、自己教師付き埋め込みから報酬を生成するには、通常、参照軌道と一致する必要がある。 埋め込みがタスクの進行に気付いていれば、学習した埋め込み空間における現在の状態と目標状態との負の距離を取るだけで、強化学習によるトレーニング政策の報奨となることを実証的に示す。 学習した報酬関数は、トレーニング中に見られる実施形態だけでなく、全く新しい実施形態へと一般化する。 また,XIRLポリシはベースラインよりもサンプリング効率が高く,場合によっては,基底真理スパース報酬をトレーニングした同一エージェントのサンプル効率を超える場合もある。

We investigate the visual cross-embodiment imitation setting, in which agents learn policies from videos of other agents (such as humans) demonstrating the same task, but with stark differences in their embodiments -- shape, actions, end-effector dynamics, etc. In this work, we demonstrate that it is possible to automatically discover and learn vision-based reward functions from cross-embodiment demonstration videos that are robust to these differences. Specifically, we present a self-supervised method for Cross-embodiment Inverse Reinforcement Learning (XIRL) that leverages temporal cycle-consistency constraints to learn deep visual embeddings that capture task progression from offline videos of demonstrations across multiple expert agents, each performing the same task differently due to embodiment differences. Prior to our work, producing rewards from self-supervised embeddings has typically required alignment with a reference trajectory, which may be difficult to acquire. We show empirically that if the embeddings are aware of task-progress, simply taking the negative distance between the current state and goal state in the learned embedding space is useful as a reward for training policies with reinforcement learning. We find our learned reward function not only works for embodiments seen during training, but also generalizes to entirely new embodiments. We also find that XIRL policies are more sample efficient than baselines, and in some cases exceed the sample efficiency of the same agent trained with ground truth sparse rewards.
翻訳日:2021-06-10 13:04:26 公開日:2021-06-07
# (参考訳) 混合露光による微粒な分布検出 [全文訳有]

Fine-grained Out-of-Distribution Detection with Mixup Outlier Exposure ( http://arxiv.org/abs/2106.03917v1 )

ライセンス: CC BY 4.0
Jingyang Zhang, Nathan Inkawhich, Yiran Chen, Hai Li(参考訳) DNNのアウト・オブ・ディストリビューション(OOD)検出は、"オープンワールド"における安全で信頼性の高い運用において重要である。 残念ながら、方法論と評価の両方の現在の研究は、かなり複雑な検出問題に焦点を当てており、粒度w.r.tの粗いレベルしか考慮していない。 1) 配当(ID)クラス,2) OODデータのIDデータに対する「クローズネス」。 このような設定は、自然にきめ細かな多くの現実世界のタスク(例えば、鳥類の種分類)の近似に乏しいため、報告された検出能力は過大評価される可能性があると仮定する。 この作業では、粒度を最優先にし、粒度ood検出に重点を置いています。 既存の手法が困難であることを示す5つの新しいきめ細かいテスト環境を慎重に構築することから始める。 そこで我々は,新たなDNNトレーニングアルゴリズムであるMixup Outlier Exposure (MixupOE)を提案する。 最後に、我々のカスタムテスト環境で広範な実験と分析を行い、MixupOEが微粒化検出性能を継続的に改善できることを示し、より現実的で挑戦的なOOD検出設定において強力なベースラインを確立する。

Enabling out-of-distribution (OOD) detection for DNNs is critical for their safe and reliable operation in the "open world". Unfortunately, current works in both methodology and evaluation focus on rather contrived detection problems, and only consider a coarse level of granularity w.r.t.: 1) the in-distribution (ID) classes, and 2) the OOD data's "closeness" to the ID data. We posit that such settings may be poor approximations of many real-world tasks that are naturally fine-grained (e.g., bird species classification), and thus the reported detection abilities may be over-estimates. Differently, in this work we make granularity a top priority and focus on fine-grained OOD detection. We start by carefully constructing five novel fine-grained test environments in which existing methods are shown to have difficulties. We then propose a new DNN training algorithm, Mixup Outlier Exposure (MixupOE), which leverages an outlier distribution and principles from vicinal risk minimization. Finally, we perform extensive experiments and analyses in our custom test environments and demonstrate that MixupOE can consistently improve fine-grained detection performance, establishing a strong baseline in these more realistic and challenging OOD detection settings.
翻訳日:2021-06-10 12:47:01 公開日:2021-06-07
# (参考訳) 推論順序の予測によるBERTの数学的能力の測定と改善 [全文訳有]

Measuring and Improving BERT's Mathematical Abilities by Predicting the Order of Reasoning ( http://arxiv.org/abs/2106.03921v1 )

ライセンス: CC BY 4.0
Piotr Pi\k{e}kos, Henryk Michalewski, Mateusz Malinowski(参考訳) あなたがスーパーマーケットにいることを想像してください。 バスケットにバナナが2つ入っており、リンゴを4つ買いたい。 果物は全部でいくつありますか。 この一見単純な質問は、たとえ大規模にトレーニングされたとしても、データ駆動型言語モデルでは難しい。 しかし、そのような汎用言語モデルは、典型的な言語能力に加えて、いくつかの数学的能力を持つものと期待する。 この目的に向けて、一般的な言語モデルであるBERTは、そのような数学的能力を持ち、もしそうであれば、どの程度の程度で調べる。 そのため、単語数学問題のための一般的なデータセットであるAQuA-RATでBERTを微調整し、学習した表現をよりよく理解するためのいくつかのテストを実行する。 我々は、自然言語で訓練されたモデルに形式的数学を教えるので、そのようなモデルが数学の結果の導出を説明する半形式的ステップの訓練の恩恵を受けると仮定する。 また,これらの学習をよりよく適応するために,数理規則を学ぶための新しい前文タスクを提案する。 我々はそれらを(近隣)推論順序予測(ROPまたはNROP)と呼ぶ。 この新しいモデルでは、データ駆動のベースラインや、よりカスタマイズされたモデルと同等の結果を得ることができます。 また,このようなモデルにおける位置バイアスの低減方法を示す。

Imagine you are in a supermarket. You have two bananas in your basket and want to buy four apples. How many fruits do you have in total? This seemingly straightforward question can be challenging for data-driven language models, even if trained at scale. However, we would expect such generic language models to possess some mathematical abilities in addition to typical linguistic competence. Towards this goal, we investigate if a commonly used language model, BERT, possesses such mathematical abilities and, if so, to what degree. For that, we fine-tune BERT on a popular dataset for word math problems, AQuA-RAT, and conduct several tests to understand learned representations better. Since we teach models trained on natural language to do formal mathematics, we hypothesize that such models would benefit from training on semi-formal steps that explain how math results are derived. To better accommodate such training, we also propose new pretext tasks for learning mathematical rules. We call them (Neighbor) Reasoning Order Prediction (ROP or NROP). With this new model, we achieve significantly better outcomes than data-driven baselines and even on-par with more tailored models. We also show how to reduce positional bias in such models.
翻訳日:2021-06-10 12:21:08 公開日:2021-06-07
# (参考訳) 予測状態表現による報酬の調整 [全文訳有]

Reconciling Rewards with Predictive State Representations ( http://arxiv.org/abs/2106.03926v1 )

ライセンス: CC BY 4.0
Andrea Baisero and Christopher Amato(参考訳) 予測状態表現(英語版)(psrs)は制御された非マルコフ観測シーケンスのモデルであり、基礎となる潜在状態に依存することなくpomdp観測を管理する同じ生成過程を示す。 その点において、PSRは対応するPOMDPと区別できない。 しかしながら、PSRは報酬の概念を無視しており、制御、計画、強化学習のためのPSRモデルの汎用性を損なう。 そこで,psrがpomdp報酬を正確にモデル化できるかどうかを判断するために必要な精度条件を述べるとともに,精度条件が満たされていない場合でも報酬を近似できることを示すとともに,既知の第三者リポジトリから取得したpomdpの非自明な数が精度条件を満たさないことを示す。 報奨予測状態表現(R-PSR)は、観測と報奨の両方を正確にモデル化したPSRの一般化であり、R-PSRの値反復を開発する。 最適POMDPポリシーと近似報酬から導かれる最適PSRポリシーとの間にはミスマッチがあることが示される。 一方、最適なR-PSRポリシーは最適なPMDPポリシーと完全に一致し、R-PSRを正確なステートレス生成モデルとして再確認する。

Predictive state representations (PSRs) are models of controlled non-Markov observation sequences which exhibit the same generative process governing POMDP observations without relying on an underlying latent state. In that respect, a PSR is indistinguishable from the corresponding POMDP. However, PSRs notoriously ignore the notion of rewards, which undermines the general utility of PSR models for control, planning, or reinforcement learning. Therefore, we describe a sufficient and necessary accuracy condition which determines whether a PSR is able to accurately model POMDP rewards, we show that rewards can be approximated even when the accuracy condition is not satisfied, and we find that a non-trivial number of POMDPs taken from a well-known third-party repository do not satisfy the accuracy condition. We propose reward-predictive state representations (R-PSRs), a generalization of PSRs which accurately models both observations and rewards, and develop value iteration for R-PSRs. We show that there is a mismatch between optimal POMDP policies and the optimal PSR policies derived from approximate rewards. On the other hand, optimal R-PSR policies perfectly match optimal POMDP policies, reconfirming R-PSRs as accurate state-less generative models of observations and rewards.
翻訳日:2021-06-10 12:03:29 公開日:2021-06-07
# (参考訳) パレート・メディエーターによる自律保存型社会福祉の改善 [全文訳有]

Improving Social Welfare While Preserving Autonomy via a Pareto Mediator ( http://arxiv.org/abs/2106.03927v1 )

ライセンス: CC BY 4.0
Stephen McAleer, John Lanier, Michael Dennis, Pierre Baldi, Roy Fox(参考訳) 機械学習アルゴリズムは、しばしば異なる、時には相反する利害関係を持つエージェントのために決定を下す。 エージェントが自身のアクションを選択したり、中央のメディエーターにアクションを委譲できるドメインでは、オープンな質問は、エージェントを委譲する代わりに仲介者がどのようにアクションをとるべきかである。 既存のアプローチでは、非委任エージェントを罰するために委任エージェントを使用し、すべてのエージェントを委譲しようとする。 我々は,降格エージェントの成果を悪化させることなく改善することを目的としたparetoメディエータを導入する。 ランダムなノーマルフォームゲーム,レストランレコメンデーションゲーム,強化学習型ソーシャルジレンマによる実験の結果,Pareto Mediatorは社会福祉を大幅に向上させることが示された。 また、パレート・メディエーターが不正なエージェントユーティリティのモデルに基づいている場合でも、自発的なメディエーターによって保存される個人の自律性のため、パフォーマンスは介入前のレベルに優雅に低下する。

Machine learning algorithms often make decisions on behalf of agents with varied and sometimes conflicting interests. In domains where agents can choose to take their own action or delegate their action to a central mediator, an open question is how mediators should take actions on behalf of delegating agents. The main existing approach uses delegating agents to punish non-delegating agents in an attempt to get all agents to delegate, which tends to be costly for all. We introduce a Pareto Mediator which aims to improve outcomes for delegating agents without making any of them worse off. Our experiments in random normal form games, a restaurant recommendation game, and a reinforcement learning sequential social dilemma show that the Pareto Mediator greatly increases social welfare. Also, even when the Pareto Mediator is based on an incorrect model of agent utility, performance gracefully degrades to the pre-intervention level, due to the individual autonomy preserved by the voluntary mediator.
翻訳日:2021-06-10 11:45:42 公開日:2021-06-07
# (参考訳) 最大エントロピー強化学習のための閉形式解析結果 [全文訳有]

Closed-Form Analytical Results for Maximum Entropy Reinforcement Learning ( http://arxiv.org/abs/2106.03931v1 )

ライセンス: CC BY-SA 4.0
Argenis Arriojas, Stas Tiomkin and Rahul V. Kulkarni(参考訳) 本稿では,最大エントロピー強化学習(maxent rl)と希少事象を条件としたマルコフ過程のマッピングを提案する。 長時間の極限において、このマッピングにより、マクセントrlにおける確率力学の一般的な場合に対する最適ポリシー、ダイナミクス、初期状態分布の解析式を導出することができる。 我々は、MaxEnt RL のソフト-$\mathcal{Q}$ 関数が、基底マルコフ決定過程(MDP)から導出される正則非負行列のペロン・フロベニウス固有値と対応する左固有ベクトルから得られることを発見した。 その結果,モデルベースおよびモデルフリーのMaxEnt RLの新しいアルゴリズムが導出され,数値シミュレーションにより検証した。 この研究で確立された写像は、MaxEnt RLにおける問題に対する新しい解析的および計算的アプローチの適用のためのさらなる道を開く。 https://github.com/a rgearriojas/maxent-r l-mdp-scripts

We introduce a mapping between Maximum Entropy Reinforcement Learning (MaxEnt RL) and Markovian processes conditioned on rare events. In the long time limit, this mapping allows us to derive analytical expressions for the optimal policy, dynamics and initial state distributions for the general case of stochastic dynamics in MaxEnt RL. We find that soft-$\mathcal{Q}$ functions in MaxEnt RL can be obtained from the Perron-Frobenius eigenvalue and the corresponding left eigenvector of a regular, non-negative matrix derived from the underlying Markov Decision Process (MDP). The results derived lead to novel algorithms for model-based and model-free MaxEnt RL, which we validate by numerical simulations. The mapping established in this work opens further avenues for the application of novel analytical and computational approaches to problems in MaxEnt RL. We make our code available at: https://github.com/a rgearriojas/maxent-r l-mdp-scripts
翻訳日:2021-06-10 11:29:51 公開日:2021-06-07
# (参考訳) TENGraD:魚ブロックインバージョンで時間効率の良い天然グラディエント染料 [全文訳有]

TENGraD: Time-Efficient Natural Gradient Descent with Exact Fisher-Block Inversion ( http://arxiv.org/abs/2106.03947v1 )

ライセンス: CC BY 4.0
Saeed Soori, Bugra Can, Baourun Mu, Mert G\"urb\"uzbalaban, Maryam Mehri Dehnavi(参考訳) この研究は、線形収束保証を備えた時間効率の良い自然勾配 Descent 法である TENGraD を提案する。 ニューラルネットワークのフィッシャー情報行列の逆計算は、フィッシャー行列が大きいためngdでは高価である。 KFACのような近似NGD法は、近似によるフィッシャー行列逆転コストを削減し、NGDの実行時間と実用性を改善する。 しかし、近似は全体の時間を大幅に削減することはなく、正確なパラメータ更新や曲率情報の喪失につながる。 TENGraDは、計算効率の良い共分散分解と再利用法でフィッシャーブロック逆数を計算することにより、NGDの時間効率を改善する。 ウッドベリー行列の正体を用いて各ブロックの逆計算を行い、(線形)高速収束率を許容しながら曲率情報を保存する。 CIFAR-10, CIFAR-100, Fashion-MNISTにおける最先端の深層ニューラルネットワークの画像分類タスクについて実験したところ, TENGraDは最先端のNGD法よりも優れており, 壁面時間では確率的勾配が顕著であることがわかった。

This work proposes a time-efficient Natural Gradient Descent method, called TENGraD, with linear convergence guarantees. Computing the inverse of the neural network's Fisher information matrix is expensive in NGD because the Fisher matrix is large. Approximate NGD methods such as KFAC attempt to improve NGD's running time and practical application by reducing the Fisher matrix inversion cost with approximation. However, the approximations do not reduce the overall time significantly and lead to less accurate parameter updates and loss of curvature information. TENGraD improves the time efficiency of NGD by computing Fisher block inverses with a computationally efficient covariance factorization and reuse method. It computes the inverse of each block exactly using the Woodbury matrix identity to preserve curvature information while admitting (linear) fast convergence rates. Our experiments on image classification tasks for state-of-the-art deep neural architecture on CIFAR-10, CIFAR-100, and Fashion-MNIST show that TENGraD significantly outperforms state-of-the-art NGD methods and often stochastic gradient descent in wall-clock time.
翻訳日:2021-06-10 11:17:05 公開日:2021-06-07
# (参考訳) 不健康なオンライン会話におけるサブトル毒性の予測 [全文訳有]

Predicting Different Types of Subtle Toxicity in Unhealthy Online Conversations ( http://arxiv.org/abs/2106.03952v1 )

ライセンス: CC BY 4.0
Shlok Gilda, Mirela Silva, Luiz Giovanini, Daniela Oliveira(参考訳) 本稿では、敵意、皮肉、一般化などの1つ以上の微妙な乱用を含む不健康なオンライン会話の分類に機械学習モデルを用いることを検討する。 7種類の微妙な毒性のラベルが付けられた健康で不健康なコメントを含む44kのオンラインコメントの公開データセットを利用した。 これらのコメントを上位のマイクロF1スコア、マクロF1スコア、ROC-AUCの88.76%、67.98%、0.71で区別することができた。 敵対的なコメントは、他のタイプの不健康なコメントよりも検出しやすい。 また感情分析を行い,不健全なコメントのほとんどがネガティブな感情と関連しており,敵対的なコメントが最もネガティブなコメントであることを明らかにした。

This paper investigates the use of machine learning models for the classification of unhealthy online conversations containing one or more forms of subtler abuse, such as hostility, sarcasm, and generalization. We leveraged a public dataset of 44K online comments containing healthy and unhealthy comments labeled with seven forms of subtle toxicity. We were able to distinguish between these comments with a top micro F1-score, macro F1-score, and ROC-AUC of 88.76%, 67.98%, and 0.71, respectively. Hostile comments were easier to detect than other types of unhealthy comments. We also conducted a sentiment analysis which revealed that most types of unhealthy comments were associated with a slight negative sentiment, with hostile comments being the most negative ones.
翻訳日:2021-06-10 10:45:48 公開日:2021-06-07
# (参考訳) アルゴリズム推薦問題に対するメタ機能選択の評価 [全文訳有]

Evaluating Meta-Feature Selection for the Algorithm Recommendation Problem ( http://arxiv.org/abs/2106.03954v1 )

ライセンス: CC BY 4.0
Geand Trindade Pereira, Moises Rocha dos Santos, Andre Carlos Ponce de Leon Ferreira de Carvalho(参考訳) 機械学習(ML)ソリューションの人気により、アルゴリズムとデータは処理能力よりも早くリリースされている。 この文脈では、アルゴリズム勧告(AR)の問題は近年大きな注目を集めている。 この問題は文学において学習タスクとして、しばしば特定のデータセットに対して最適な選択肢を推奨するメタラーニング問題として扱われてきた。 そのため、メタ機能でエンコードされたデータセットは、メタ表現と使用する最良のテクニックのマッピングを学習しようとするmlアルゴリズムによって探索される。 MLを成功させる上での課題のひとつは、いくつかのメタ機能を使用することができるため、特定のデータセットでもっとも価値のある機能を定義することだ。 本稿では,ar問題のメタレベルにおける特徴選択と特徴抽出に関する経験的分析を行う。 本研究は,予測性能,次元削減,パイプライン実行の3つの基準に着目した。 次元還元法 (dr) の適用は, 一般に予測性能の向上には至らなかった。 しかし、drソリューションはメタ機能の約80%を削減し、元のセットアップとほとんど同じ性能を得たが、ランタイムは低かった。 唯一の例外はPCAで、オリジナルのメタ機能と同じランタイムを提示した。 また, 実験結果から, 様々なデータセットが多くの非情報的メタ特徴を持ち, 元のメタ特徴の約20%を用いて高い予測性能が得られることを示した。 したがって, DR法は, 高次元化の自然な傾向から, メタ特徴抽出やメタ特徴抽出に利用すべきである。

With the popularity of Machine Learning (ML) solutions, algorithms and data have been released faster than the capacity of processing them. In this context, the problem of Algorithm Recommendation (AR) is receiving a significant deal of attention recently. This problem has been addressed in the literature as a learning task, often as a Meta-Learning problem where the aim is to recommend the best alternative for a specific dataset. For such, datasets encoded by meta-features are explored by ML algorithms that try to learn the mapping between meta-representations and the best technique to be used. One of the challenges for the successful use of ML is to define which features are the most valuable for a specific dataset since several meta-features can be used, which increases the meta-feature dimension. This paper presents an empirical analysis of Feature Selection and Feature Extraction in the meta-level for the AR problem. The present study was focused on three criteria: predictive performance, dimensionality reduction, and pipeline runtime. As we verified, applying Dimensionality Reduction (DR) methods did not improve predictive performances in general. However, DR solutions reduced about 80% of the meta-features, obtaining pretty much the same performance as the original setup but with lower runtimes. The only exception was PCA, which presented about the same runtime as the original meta-features. Experimental results also showed that various datasets have many non-informative meta-features and that it is possible to obtain high predictive performance using around 20% of the original meta-features. Therefore, due to their natural trend for high dimensionality, DR methods should be used for Meta-Feature Selection and Meta-Feature Extraction.
翻訳日:2021-06-10 10:30:34 公開日:2021-06-07
# (参考訳) 時間差学習における修正モーメント [全文訳有]

Correcting Momentum in Temporal Difference Learning ( http://arxiv.org/abs/2106.03955v1 )

ライセンス: CC BY 4.0
Emmanuel Bengio, Joelle Pineau, Doina Precup(参考訳) 深層強化学習でよく使われる最適化ツールはmomentmentで、過去の勾配を蓄積し、ディスカウントし、各イテレーションで再適用する。 教師付き学習とは異なり、時間差学習(td)の勢いは、二重に停滞する勾配を蓄積する:パラメータ更新によって損失の勾配が変化するだけでなく、ブートストラップによって損失自体が変化する。 まず、この現象の存在を示し、次に運動量に対する一階補正項を提案する。 この補正項は,目標値のドリフトを補正することで,政策評価におけるサンプル効率を向上させることを示す。 この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。

A common optimization tool used in deep reinforcement learning is momentum, which consists in accumulating and discounting past gradients, reapplying them at each iteration. We argue that, unlike in supervised learning, momentum in Temporal Difference (TD) learning accumulates gradients that become doubly stale: not only does the gradient of the loss change due to parameter updates, the loss itself changes due to bootstrapping. We first show that this phenomenon exists, and then propose a first-order correction term to momentum. We show that this correction term improves sample efficiency in policy evaluation by correcting target value drift. An important insight of this work is that deep RL methods are not always best served by directly importing techniques from the supervised setting.
翻訳日:2021-06-10 10:21:19 公開日:2021-06-07
# (参考訳) 双対表現を用いた新しいビュービデオ予測 [全文訳有]

Novel View Video Prediction Using a Dual Representation ( http://arxiv.org/abs/2106.03956v1 )

ライセンス: CC BY 4.0
Sarah Shiraz, Krishna Regmi, Shruti Vyas, Yogesh S. Rawat, Mubarak Shah(参考訳) 我々は,新しいビュー映像予測の問題に対処し,単一/複数ビューからの入力ビデオクリップのセットを考慮すれば,ネットワークは新規ビューからビデオを予測することができる。 提案手法は前もって必要とせず、視点の小さな変化を予測した最近の研究と比較して、最大45度までの角度距離で映像を予測できる。 さらに,提案手法はonrgbフレームのみに依存し,新たな視点から映像を生成するために使用される2重表現を学習する。 この双対表現は、新しいビュービデオ予測を可能にするために補完的な詳細を含むビュー依存およびグローバル表現を含んでいる。 NTU-RGB+DとCMU Panopticの2つの実世界のデータセット上でのフレームワークの有効性を示す。 最新の斬新なビュービデオ予測手法と比較すると、ssimでは26.1%、psnrでは13.6%、ターゲットビューでは明示的な優先順位を用いずに60%のinfvdスコアが向上した。

We address the problem of novel view video prediction; given a set of input video clips from a single/multiple views, our network is able to predict the video from a novel view. The proposed approach does not require any priors and is able to predict the video from wider angular distances, upto 45 degree, as compared to the recent studies predicting small variations in viewpoint. Moreover, our method relies only onRGB frames to learn a dual representation which is used to generate the video from a novel viewpoint. The dual representation encompasses a view-dependent and a global representation which incorporates complementary details to enable novel view video prediction. We demonstrate the effectiveness of our framework on two real world datasets: NTU-RGB+D and CMU Panoptic. A comparison with the State-of-the-art novel view video prediction methods shows an improvement of 26.1% in SSIM, 13.6% in PSNR, and 60% inFVD scores without using explicit priors from target views.
翻訳日:2021-06-10 09:53:17 公開日:2021-06-07
# (参考訳) Batch Normalization Orthogonalizes Representations in Deep Random Networks [全文訳有]

Batch Normalization Orthogonalizes Representations in Deep Random Networks ( http://arxiv.org/abs/2106.03970v1 )

ライセンス: CC BY 4.0
Hadi Daneshmand, Amir Joudaki, Francis Bach(参考訳) 本稿では,ランダム線形変換による逐次バッチ正規化により,ディープニューラルネットワークの層間における隠れ表現の直交性が増大する,バッチ正規化(bn)の微妙な性質を述べる。 我々は深度、幅、深度表現の直交性の間の相互作用の非漸近的特徴を確立する。 より正確には、穏やかな仮定の下で、直交性からの表現の偏差がネットワーク幅に逆比例する項まで深さで急速に減少することを証明する。 この結果は2つの主な意味を持つ: 1) 理論的には、深さが増加するにつれて、表現の分布は、線形層の後、等方ガウス分布の周りでワッサーシュタイン-2球に収縮する。 さらに、このワッサースタイン球の半径は、ネットワークの幅とともに縮小する。 2) 実際には, 表現の直交性は, 確率勾配降下(SGD)の性能に直接影響する。 最初に表現が整列すると、sgdは分類の前に表現を直交する多くのイテレーションを浪費する。 それでも、直交表現から最適化を始めることは、BNを必要とせず、SGDを加速するのに十分であることを示す。

This paper underlines a subtle property of batch-normalization (BN): Successive batch normalizations with random linear transformations make hidden representations increasingly orthogonal across layers of a deep neural network. We establish a non-asymptotic characterization of the interplay between depth, width, and the orthogonality of deep representations. More precisely, under a mild assumption, we prove that the deviation of the representations from orthogonality rapidly decays with depth up to a term inversely proportional to the network width. This result has two main implications: 1) Theoretically, as the depth grows, the distribution of the representation -- after the linear layers -- contracts to a Wasserstein-2 ball around an isotropic Gaussian distribution. Furthermore, the radius of this Wasserstein ball shrinks with the width of the network. 2) In practice, the orthogonality of the representations directly influences the performance of stochastic gradient descent (SGD). When representations are initially aligned, we observe SGD wastes many iterations to orthogonalize representations before the classification. Nevertheless, we experimentally show that starting optimization from orthogonal representations is sufficient to accelerate SGD, with no need for BN.
翻訳日:2021-06-10 09:36:06 公開日:2021-06-07
# (参考訳) 帰納的推論のための仮説事象の生成 [全文訳有]

Generating Hypothetical Events for Abductive Inference ( http://arxiv.org/abs/2106.03973v1 )

ライセンス: CC BY 4.0
Debjit Paul and Anette Frank(参考訳) 帰納的推論はいくつかの観測から始まり、これらの観測の最も妥当な説明を見つけることを目的としている。 誘拐を行うために、人間はしばしば時間的および因果推論を利用し、仮説的な状況がどのようにして異なる結果をもたらすかを知る。 この研究は、そのような知識が帰納的nliタスクにどのように影響するかに関する最初の研究を提供する。 特定のイベントから進化する仮説的なシナリオから次に起こり得ることを生成するために、特殊言語モデルLMIをトレーニングします。 次に、Abductive NLI タスクを解くためのマルチタスクモデル MTL を提案し、(a) 予測仮説から生じる可能性のある事象(LMI が生成する事象)と(b) 観測結果と最もよく似た事象を選択することを考える。 Abductive NLIで微調整したバニラ前訓練LMよりもMTLモデルが改善された。 我々の手動による評価と分析は、様々な仮説シナリオから起こりうる次の事象の学習が帰納的推論を支持することを示唆している。

Abductive reasoning starts from some observations and aims at finding the most plausible explanation for these observations. To perform abduction, humans often make use of temporal and causal inferences, and knowledge about how some hypothetical situation can result in different outcomes. This work offers the first study of how such knowledge impacts the Abductive NLI task -- which consists in choosing the more likely explanation for given observations. We train a specialized language model LMI that is tasked to generate what could happen next from a hypothetical scenario that evolves from a given event. We then propose a multi-task model MTL to solve the Abductive NLI task, which predicts a plausible explanation by a) considering different possible events emerging from candidate hypotheses -- events generated by LMI -- and b) selecting the one that is most similar to the observed outcome. We show that our MTL model improves over prior vanilla pre-trained LMs fine-tuned on Abductive NLI. Our manual evaluation and analysis suggest that learning about possible next events from different hypothetical scenarios supports abductive inference.
翻訳日:2021-06-10 08:59:39 公開日:2021-06-07
# (参考訳) Occode: 歴史的人口統計の書き起こしのためのエンドツーエンドの機械学習パイプライン [全文訳有]

Occode: an end-to-end machine learning pipeline for transcription of historical population censuses ( http://arxiv.org/abs/2106.03996v1 )

ライセンス: CC BY-SA 4.0
Bj{\o}rn-Richard Pedersen, Einar Holsb{\o}, Trygve Andersen, Nikita Shvetsov, Johan Ravn, Hilde Leikny Sommerseth, Lars Ailo Bongo(参考訳) 機械学習のアプローチは、テキスト認識において高い精度を達成し、手書きの史料の書き起こしにますます使われている。 しかし、本番環境で機械学習を使用するには、データセットのサイズにスケールするエンドツーエンドの機械学習パイプラインと、手作業による書き起こしが少なく、高い精度を実現するモデルが必要である。 さらに、モデル結果の正確性を検証する必要がある。 本稿では,Occodeのエンドツーエンド機械学習パイプラインを用いて,1950年のノルウェー人口調査において,手書きの職業コードを用いた7300万行の翻訳を行った。 自動書き起こされたコードに対して97%の精度を実現し,手作業による検証のために3%のコードを送信した。 調査の結果から得られた職業コード分布が,調査全体を代表するべき訓練データに含まれる分布と一致していることを確認した。 私たちが学んだアプローチと教訓は、機械学習を本番で使用する予定の他の書き起こしプロジェクトに役立ちます。 ソースコードはhttps://github.com/u it-hdl/rhd-codesで入手できる。

Machine learning approaches achieve high accuracy for text recognition and are therefore increasingly used for the transcription of handwritten historical sources. However, using machine learning in production requires a streamlined end-to-end machine learning pipeline that scales to the dataset size, and a model that achieves high accuracy with few manual transcriptions. In addition, the correctness of the model results must be verified. This paper describes our lessons learned developing, tuning, and using the Occode end-to-end machine learning pipeline for transcribing 7,3 million rows with handwritten occupation codes in the Norwegian 1950 population census. We achieve an accuracy of 97% for the automatically transcribed codes, and we send 3% of the codes for manual verification. We verify that the occupation code distribution found in our result matches the distribution found in our training data which should be representative for the census as a whole. We believe our approach and lessons learned are useful for other transcription projects that plan to use machine learning in production. The source code is available at: https://github.com/u it-hdl/rhd-codes
翻訳日:2021-06-10 08:42:38 公開日:2021-06-07
# (参考訳) FEAR: アーキテクチャをランク付けするシンプルな軽量メソッド

FEAR: A Simple Lightweight Method to Rank Architectures ( http://arxiv.org/abs/2106.04010v1 )

ライセンス: CC BY 4.0
Debadeepta Dey, Shital Shah, Sebastien Bubeck(参考訳) ニューラルネットワーク探索(NAS)の根本的な問題は、与えられた検索空間から高性能なアーキテクチャを効率的に見つけることである。 検索空間のアーキテクチャをランク付けするために,FEARと呼ぶシンプルだが強力な手法を提案する。 恐怖は、ニューラルネットワークが強力な非線形特徴抽出器であるという視点を利用する。 まず、検索空間で異なるアーキテクチャをトレーニングし、同じトレーニングや検証エラーを発生させる。 次に,各アーキテクチャから抽出した特徴の有用性を比較する。 私たちは、アーキテクチャの大部分を凍結したままに素早くトレーニングします。 これは相対的な性能を素早く見積もる。 最近提案されたゼロコスト手法と比較して, 競合するベースラインに対して, ナッツベンチトポロジ探索空間上のFEARを検証し, 高いランキング相関を示す。 FEARは特に検索分野における高性能アーキテクチャのランク付けに優れる。 ランダム検索のような離散探索アルゴリズムの内部ループで使用すると、精度を損なうことなく、約2.4倍の検索時間を削減できる。 さらに,最近提案したゼロコスト尺度を実証的に検討した結果,トレーニングが進むにつれてランキング性能が低下し,データセットを無視するデータ非依存ランキングスコアが異種データセット全体にわたって一般化されないことがわかった。

The fundamental problem in Neural Architecture Search (NAS) is to efficiently find high-performing architectures from a given search space. We propose a simple but powerful method which we call FEAR, for ranking architectures in any search space. FEAR leverages the viewpoint that neural networks are powerful non-linear feature extractors. First, we train different architectures in the search space to the same training or validation error. Then, we compare the usefulness of the features extracted by each architecture. We do so with a quick training keeping most of the architecture frozen. This gives fast estimates of the relative performance. We validate FEAR on Natsbench topology search space on three different datasets against competing baselines and show strong ranking correlation especially compared to recently proposed zero-cost methods. FEAR particularly excels at ranking high-performance architectures in the search space. When used in the inner loop of discrete search algorithms like random search, FEAR can cut down the search time by approximately 2.4X without losing accuracy. We additionally empirically study very recently proposed zero-cost measures for ranking and find that they breakdown in ranking performance as training proceeds and also that data-agnostic ranking scores which ignore the dataset do not generalize across dissimilar datasets.
翻訳日:2021-06-10 08:27:45 公開日:2021-06-07
# 中国語自然言語推論による多言語事前学習言語モデルのトランスファー学習の検討

Investigating Transfer Learning in Multilingual Pre-trained Language Models through Chinese Natural Language Inference ( http://arxiv.org/abs/2106.03983v1 )

ライセンス: Link先を確認
Hai Hu, He Zhou, Zuoyu Tian, Yiwen Zhang, Yina Ma, Yanting Li, Yixin Nie, Kyle Richardson(参考訳) マルチリンガルトランス (XLM, mT5) はゼロショット設定において顕著なトランスファー技術を有する。 しかし、ほとんどの転送研究は、自動的に翻訳されたリソース(xnli、xquad)に依存しているため、転送される特定の言語知識と、タスク固有のモデルを開発する際に専門的な単言語データセットの役割を識別することが困難である。 中国語と英語の自然言語推論(NLI)におけるXLM-Rの言語間移動能力について検討し,最近の大規模中国語データセットOCNLIに着目した。 言語移行をより深く理解するために、中国語の課題と敵対的タスク(17の新しいデータセットを集計する)を4つのカテゴリに分けて、英語(HANS、NLIストレステストなど)でよく知られたリソースを構築しました。 英語のNLIで訓練された言語間モデルは、中国語のタスク間でうまく伝達される(例えば、私たちの課題カテゴリの3/4では、イディオムやプロドロップのような中国固有の3/5の言語的現象であっても、最高のモノリンガルモデルよりも良い/悪い)。 言語横断モデルは英語と高品質なモノリンガルNLIデータ(OCNLI)を混合して訓練した場合によく機能し、自動翻訳リソース(XNLI-zh)によって妨げられることが多い。 多くの現象に対して、すべてのモデルが苦戦し続けており、中国語と言語間のモデルをベンチマークする新しい診断の必要性を強調しています。 新しいデータセット/コードはhttps://github.com/h uhailinguist/ chinesenliprobingでリリースされている。

Multilingual transformers (XLM, mT5) have been shown to have remarkable transfer skills in zero-shot settings. Most transfer studies, however, rely on automatically translated resources (XNLI, XQuAD), making it hard to discern the particular linguistic knowledge that is being transferred, and the role of expert annotated monolingual datasets when developing task-specific models. We investigate the cross-lingual transfer abilities of XLM-R for Chinese and English natural language inference (NLI), with a focus on the recent large-scale Chinese dataset OCNLI. To better understand linguistic transfer, we created 4 categories of challenge and adversarial tasks (totaling 17 new datasets) for Chinese that build on several well-known resources for English (e.g., HANS, NLI stress-tests). We find that cross-lingual models trained on English NLI do transfer well across our Chinese tasks (e.g., in 3/4 of our challenge categories, they perform as well/better than the best monolingual models, even on 3/5 uniquely Chinese linguistic phenomena such as idioms, pro drop). These results, however, come with important caveats: cross-lingual models often perform best when trained on a mixture of English and high-quality monolingual NLI data (OCNLI), and are often hindered by automatically translated resources (XNLI-zh). For many phenomena, all models continue to struggle, highlighting the need for our new diagnostics to help benchmark Chinese and cross-lingual models. All new datasets/code are released at https://github.com/h uhailinguist/Chinese NLIProbing.
翻訳日:2021-06-09 16:21:40 公開日:2021-06-07
# ニューラル抽象化によるオンラインニュース討論の要約

Neural Abstractive Unsupervised Summarization of Online News Discussions ( http://arxiv.org/abs/2106.03953v1 )

ライセンス: Link先を確認
Ignacio Tampe Palma, Marcelo Mendoza, and Evangelos Milios(参考訳) 要約は通常、抽出または抽象的なモデルを訓練するために金の標準要約に依存している。 ソーシャルメディアは、マルチドキュメントのマルチ著者アプローチに対処する必要があるため、要約テクニックにハードルをもたらす。 本稿では,オンラインニュース討論の要約を抽象的に生成する新しい手法を導入することで,この問題に対処する。 本手法はBERTをベースとしたアーキテクチャを拡張し,トレーニング期間中にコメントの好意を伝達するアテンションエンコーディングを含む。 モデルをトレーニングするために、人気(like)に基づいた高いインパクトのコメントを再構築するタスクを定義します。 そこで本モデルは,最も関連性の高いコメントに基づいて,オンラインディスカッションを要約する。 我々の新しいアプローチは、ユーザーがコメントするニュース記事の最も関連性の高い側面を表す要約を提供し、オンラインソーシャルネットワークでテキストを要約するための情報のソースとしてソーシャルコンテキストを取り入れている。 本モデルは,生成した要約とスレッド上の各コメントのROUGEスコアを用いて評価する。 本手法は, 社会的注意エンコーディングを含むモデルにおいて, 抽出的および抽象的要約法を有意に上回っている。

Summarization has usually relied on gold standard summaries to train extractive or abstractive models. Social media brings a hurdle to summarization techniques since it requires addressing a multi-document multi-author approach. We address this challenging task by introducing a novel method that generates abstractive summaries of online news discussions. Our method extends a BERT-based architecture, including an attention encoding that fed comments' likes during the training stage. To train our model, we define a task which consists of reconstructing high impact comments based on popularity (likes). Accordingly, our model learns to summarize online discussions based on their most relevant comments. Our novel approach provides a summary that represents the most relevant aspects of a news item that users comment on, incorporating the social context as a source of information to summarize texts in online social networks. Our model is evaluated using ROUGE scores between the generated summary and each comment on the thread. Our model, including the social attention encoding, significantly outperforms both extractive and abstractive summarization methods based on such evaluation.
翻訳日:2021-06-09 16:19:10 公開日:2021-06-07
# ニューラルシーケンスモデリングのためのレキシコン学習

Lexicon Learning for Few-Shot Neural Sequence Modeling ( http://arxiv.org/abs/2106.03993v1 )

ライセンス: Link先を確認
Ekin Aky\"urek and Jacob Andreas(参考訳) シーケンスからシーケンスへの変換は、意味解析、機械翻訳、命令追従など、言語処理アプリケーションにおける核となる問題である。 これらの問題に対して支配的な解決策を提供するニューラルネットワークモデルは、特に低リソース設定では不安定である。 過去の研究によると、体系的な一般化の失敗の多くは、神経モデルが構文的現象から語彙的現象を解離できないことから生じる。 これを解決するために、既存のコピー機構を一般化した語彙変換機構を用いてニューラルデコーダを強化し、学習された非コンテキスト化トークンレベルの翻訳ルールを組み込む。 様々な語彙学習アルゴリズムを用いて、このメカニズムを初期化する方法を説明し、認知科学、形式意味論、機械翻訳から引き出された様々なシーケンスモデリングタスクの体系的一般化を改善することを示す。

Sequence-to-sequence transduction is the core problem in language processing applications as diverse as semantic parsing, machine translation, and instruction following. The neural network models that provide the dominant solution to these problems are brittle, especially in low-resource settings: they fail to generalize correctly or systematically from small datasets. Past work has shown that many failures of systematic generalization arise from neural models' inability to disentangle lexical phenomena from syntactic ones. To address this, we augment neural decoders with a lexical translation mechanism that generalizes existing copy mechanisms to incorporate learned, decontextualized, token-level translation rules. We describe how to initialize this mechanism using a variety of lexicon learning algorithms, and show that it improves systematic generalization on a diverse set of sequence modeling tasks drawn from cognitive science, formal semantics, and machine translation.
翻訳日:2021-06-09 16:18:56 公開日:2021-06-07
# 限られた歴史的エージェント環境相互作用下におけるオフライン政策比較

Offline Policy Comparison under Limited Historical Agent-Environment Interactions ( http://arxiv.org/abs/2106.03934v1 )

ライセンス: Link先を確認
Anton Dereventsov and Joseph D. Daws Jr. and Clayton Webster(参考訳) 我々は,倫理的,実践的,あるいはセキュリティ上の配慮から利用可能な歴史データが制限されている強化学習システムの現実的な応用における政策評価の課題に対処する。 この制約付きデータサンプルの分散は、しばしばバイアス付きポリシー評価の見積もりにつながる。 これを改善するために,政策評価の代わりに政策比較を行うことを提案する。 利用可能な歴史データに基づいて 価値の観点から 利害政策をランク付けします さらに,環境と少数のインタラクションからポリシーを評価し,比較する簡単な方法として,LDE(Limited Data Estimator)を提案する。 理論的分析により,ldeは,歴史的データ分布の軽度な仮定の下で,政策比較タスクにおいて統計的に信頼性が高いことが示された。 また,我々は,ldeを他の政策評価手法と比較し,様々な環境でその利点を実証する実験を行った。

We address the challenge of policy evaluation in real-world applications of reinforcement learning systems where the available historical data is limited due to ethical, practical, or security considerations. This constrained distribution of data samples often leads to biased policy evaluation estimates. To remedy this, we propose that instead of policy evaluation, one should perform policy comparison, i.e. to rank the policies of interest in terms of their value based on available historical data. In addition we present the Limited Data Estimator (LDE) as a simple method for evaluating and comparing policies from a small number of interactions with the environment. According to our theoretical analysis, the LDE is shown to be statistically reliable on policy comparison tasks under mild assumptions on the distribution of the historical data. Additionally, our numerical experiments compare the LDE to other policy evaluation methods on the task of policy ranking and demonstrate its advantage in various settings.
翻訳日:2021-06-09 16:17:59 公開日:2021-06-07
# ブラックボックスモデルにおける逐次対数説明の補正生成

Amortized Generation of Sequential Counterfactual Explanations for Black-box Models ( http://arxiv.org/abs/2106.03962v1 )

ライセンス: Link先を確認
Sahil Verma, Keegan Hines, John P. Dickerson(参考訳) 説明可能な機械学習(ML)は、近年、多くの分野でMLベースのシステムが採用され、注目を集めている。 counterfactual descriptions (cfes)は、入力データポイントが$x$ではなく$x'$であるなら、mlベースのシステムの出力は$y$ではなく$y'$になります。 CFEは、動作可能なフィードバック、既存の法律フレームワークへのアメニビリティ、基盤となるMLモデルへの忠実さによって魅力的です。 しかし、現在のCFEアプローチはシングルショットであり、つまり、1つの期間で$x$が$x'$に変化すると仮定している。 我々は, 連続CFEを生成する新しい確率制御型アプローチ, すなわち, 中間状態から最終状態の$x'$まで, 確率的に, 逐次的に移動可能なCFEを提案する。 私たちのアプローチはモデル非依存とブラックボックスです。 さらに、cfesの計算は再最適化を必要とせずに複数のデータポイントに適用するように償却される。 これらの主な特徴に加えて,本手法では,データ多様体への付着,因果関係の尊重,空間性などのデシラタをCFEの望ましい性質として過去の研究で確認した。 実世界の3つのデータセットを用いてアプローチを評価し,他のデシラタを尊重するシーケンシャルなCFEの生成に成功したことを示す。

Explainable machine learning (ML) has gained traction in recent years due to the increasing adoption of ML-based systems in many sectors. Counterfactual explanations (CFEs) provide ``what if'' feedback of the form ``if an input datapoint were $x'$ instead of $x$, then an ML-based system's output would be $y'$ instead of $y$.'' CFEs are attractive due to their actionable feedback, amenability to existing legal frameworks, and fidelity to the underlying ML model. Yet, current CFE approaches are single shot -- that is, they assume $x$ can change to $x'$ in a single time period. We propose a novel stochastic-control-b ased approach that generates sequential CFEs, that is, CFEs that allow $x$ to move stochastically and sequentially across intermediate states to a final state $x'$. Our approach is model agnostic and black box. Furthermore, calculation of CFEs is amortized such that once trained, it applies to multiple datapoints without the need for re-optimization. In addition to these primary characteristics, our approach admits optional desiderata such as adherence to the data manifold, respect for causal relations, and sparsity -- identified by past research as desirable properties of CFEs. We evaluate our approach using three real-world datasets and show successful generation of sequential CFEs that respect other counterfactual desiderata.
翻訳日:2021-06-09 16:17:45 公開日:2021-06-07
# 実例に基づく対話型ラベルクリーニング

Interactive Label Cleaning with Example-based Explanations ( http://arxiv.org/abs/2106.03922v1 )

ライセンス: Link先を確認
Stefano Teso, Andrea Bontempelli, Fausto Giunchiglia, Andrea Passerini(参考訳) ラベルノイズ下での逐次学習を,人間の監督者が不審な事例を問合せできるアプリケーションに適用する。 既存のアプローチには欠陥があり、モデルの `suspicious'' に見えるrelabelのサンプルのみである。 結果として、このクリーニングステップを省略(あるいは実行しない)したラベルのついた例では、トレーニングデータとモデルがクリーニングされる可能性がなくなる。 我々は,新しいデータと過去のデータを相互に互換性のない例のペアを識別する新しい手法であるcincerを提案する。 疑わしい例を検出すると、cincerはトレーニングセット内のカウンターサンプルを特定し、モデルに従って、疑わしい例と最大に互換性がないことを識別し、アノテーションレータにその例をrelabelするか、または両方の例で解決するよう要求する。 反例は、モデルの疑念の説明として機能し、リラベル化すれば可能な限り多くの情報を伝えるために、最大限に互換性のないものとして選択される。 CincerはFisher InformationMatrix (FIM)に基づく影響関数の効率的で堅牢な近似を利用してこれを実現している。 実験結果から, 反例の清掃による疑念の背景にある理由を明らかにすることで, 特にFIM近似と組み合わせた場合, 極めて優れたデータやモデルが得られることがわかった。

We tackle sequential learning under label noise in applications where a human supervisor can be queried to relabel suspicious examples. Existing approaches are flawed, in that they only relabel incoming examples that look ``suspicious'' to the model. As a consequence, those mislabeled examples that elude (or don't undergo) this cleaning step end up tainting the training data and the model with no further chance of being cleaned. We propose Cincer, a novel approach that cleans both new and past data by identifying pairs of mutually incompatible examples. Whenever it detects a suspicious example, Cincer identifies a counter-example in the training set that -- according to the model -- is maximally incompatible with the suspicious example, and asks the annotator to relabel either or both examples, resolving this possible inconsistency. The counter-examples are chosen to be maximally incompatible, so to serve as explanations of the model' suspicion, and highly influential, so to convey as much information as possible if relabeled. Cincer achieves this by leveraging an efficient and robust approximation of influence functions based on the Fisher information matrix (FIM). Our extensive empirical evaluation shows that clarifying the reasons behind the model's suspicions by cleaning the counter-examples helps acquiring substantially better data and models, especially when paired with our FIM approximation.
翻訳日:2021-06-09 16:13:40 公開日:2021-06-07
# Log-Gaussianの将来: ResNetsとその初期化時の無限深度制限

The Future is Log-Gaussian: ResNets and Their Infinite-Depth-and-W idth Limit at Initialization ( http://arxiv.org/abs/2106.04013v1 )

ライセンス: Link先を確認
Mufan Bill Li, Mihai Nica, Daniel M. Roy(参考訳) 理論的には、ニューラルネットワークは無限幅極限のガウス過程によって近似できる。 しかし、完全接続されたネットワークでは、固定されたネットワーク幅が$n$の場合、ネットワークの深さが$d$が増えるにつれてガウス近似が悪化することが以前に示されている。 現代のネットワークが深いことを考えると、resnetsのような現代的なアーキテクチャが無限幅の限界によっていかにうまく捉えられるかという疑問が浮き彫りになる。 より優れた近似法として、深さと幅の両方が無限大となるような無限深さ幅のReLU ResNetsの研究を行い、その比が$d/n$であり続ける。 ガウス無限幅極限とは対照的に、ネットワークは無限深さおよび幅極限の初期化時に対数ガウス的挙動を示し、パラメータは$d/n$に依存する。 モンテカルロシミュレーションを用いて、標準ResNetアーキテクチャの基本的な性質でさえガウス極限では不十分であるが、対数ガウス極限では著しく良好であることを示した。 さらに,初期化時のReLU ResNetの活性化は,ReLUの半分以下であることがわかった。 さらに,ネットワーク出力のばらつきを指数関数的に増大させる効果を有する層間相関を計算する。 本分析では, 階層間相関を排除し, 理論的解析に適した単純なアーキテクチャ修正である Balanced ResNets を導入している。

Theoretical results show that neural networks can be approximated by Gaussian processes in the infinite-width limit. However, for fully connected networks, it has been previously shown that for any fixed network width, $n$, the Gaussian approximation gets worse as the network depth, $d$, increases. Given that modern networks are deep, this raises the question of how well modern architectures, like ResNets, are captured by the infinite-width limit. To provide a better approximation, we study ReLU ResNets in the infinite-depth-and-w idth limit, where both depth and width tend to infinity as their ratio, $d/n$, remains constant. In contrast to the Gaussian infinite-width limit, we show theoretically that the network exhibits log-Gaussian behaviour at initialization in the infinite-depth-and-w idth limit, with parameters depending on the ratio $d/n$. Using Monte Carlo simulations, we demonstrate that even basic properties of standard ResNet architectures are poorly captured by the Gaussian limit, but remarkably well captured by our log-Gaussian limit. Moreover, our analysis reveals that ReLU ResNets at initialization are hypoactivated: fewer than half of the ReLUs are activated. Additionally, we calculate the interlayer correlations, which have the effect of exponentially increasing the variance of the network output. Based on our analysis, we introduce Balanced ResNets, a simple architecture modification, which eliminates hypoactivation and interlayer correlations and is more amenable to theoretical analysis.
翻訳日:2021-06-09 16:13:14 公開日:2021-06-07
# 可逆的注意を伴う生成的流れ

Generative Flows with Invertible Attentions ( http://arxiv.org/abs/2106.03959v1 )

ライセンス: Link先を確認
Rhea Sanjay Sukthanker, Zhiwu Huang, Suryansh Kumar, Radu Timofte, Luc Van Gool(参考訳) フローベース生成モデルは、可逆変換のシーケンスを通してデータの確率密度関数を明示的に学習する優れた能力を示している。 しかし、フローの正規化に対する長距離依存性のモデリングは未検討のままである。 本稿では, このギャップを埋めるために, 生成流動モデルのための可逆的注意機構を2種類導入する。 正確には、無条件および条件付き生成フローモデルに対するマップベースおよびスケールドドット製品アテンションを提案する。 重要なアイデアは、スプリットベースのアテンションメカニズムを利用して、フロー特徴マップの2つの分割ごとに、アテンションの重み付けと入力表現を学ぶことである。 提案手法は, トラクタブルジャコビアン行列を用いた非可逆アテンションモジュールをフローベースモデルの任意の位置にシームレスに統合する。 提案する注意機構は、グローバルデータ依存をモデル化することができ、より包括的なフローモデルに繋がる。 マルチジェネレーションタスクの評価は、導入した注目フローのアイデアが効率的なフローモデルとなり、最先端の無条件および条件付き生成フロー手法と好適に比較できることを示す。

Flow-based generative models have shown excellent ability to explicitly learn the probability density function of data via a sequence of invertible transformations. Yet, modeling long-range dependencies over normalizing flows remains understudied. To fill the gap, in this paper, we introduce two types of invertible attention mechanisms for generative flow models. To be precise, we propose map-based and scaled dot-product attention for unconditional and conditional generative flow models. The key idea is to exploit split-based attention mechanisms to learn the attention weights and input representations on every two splits of flow feature maps. Our method provides invertible attention modules with tractable Jacobian determinants, enabling seamless integration of it at any positions of the flow-based models. The proposed attention mechanism can model the global data dependencies, leading to more comprehensive flow models. Evaluation on multiple generation tasks demonstrates that the introduced attention flow idea results in efficient flow models and compares favorably against the state-of-the-art unconditional and conditional generative flow methods.
翻訳日:2021-06-09 16:10:47 公開日:2021-06-07
# 微分可能な多重発射層

Differentiable Multiple Shooting Layers ( http://arxiv.org/abs/2106.03885v1 )

ライセンス: Link先を確認
Stefano Massaroli, Michael Poli, Sho Sonoda, Taji Suzuki, Jinkyoo Park, Atsushi Yamashita and Hajime Asama(参考訳) 暗黙的ニューラルモデルの新しいクラスについて詳述する。 微分方程式に対する時間並列法を利用して、多重射撃層(msls)は、並列化可能なルート探索アルゴリズムを通じて初期値問題の解を求める。 MSLは神経常微分方程式 (Neural ODEs) のドロップイン置換として機能し, 関数評価 (NFEs) の効率とウォールクロック推定時間を改善する。 我々は,MSLのアルゴリズム的枠組みを開発し,理論的および計算的観点から解法の選択の相違を解析する。 MSLは、ODEとPDEの長い水平方向最適制御と、シーケンス生成のための潜在モデルとして展示される。 最後に、医療データの時系列分類のためのニューラル制御微分方程式(ニューラルCDE)におけるMSL推論の適用により得られたスピードアップについて検討する。

We detail a novel class of implicit neural models. Leveraging time-parallel methods for differential equations, Multiple Shooting Layers (MSLs) seek solutions of initial value problems via parallelizable root-finding algorithms. MSLs broadly serve as drop-in replacements for neural ordinary differential equations (Neural ODEs) with improved efficiency in number of function evaluations (NFEs) and wall-clock inference time. We develop the algorithmic framework of MSLs, analyzing the different choices of solution methods from a theoretical and computational perspective. MSLs are showcased in long horizon optimal control of ODEs and PDEs and as latent models for sequence generation. Finally, we investigate the speedups obtained through application of MSL inference in neural controlled differential equations (Neural CDEs) for time series classification of medical data.
翻訳日:2021-06-09 16:07:44 公開日:2021-06-07
# 野生の音声・視覚アクティブ話者検出のための3段階アーキテクチャの設計法

How to Design a Three-Stage Architecture for Audio-Visual Active Speaker Detection in the Wild ( http://arxiv.org/abs/2106.03932v1 )

ライセンス: Link先を確認
Okan K\"op\"ukl\"u, Maja Taseska, Gerhard Rigoll(参考訳) アクティブな話者検出には、3段階のパイプラインが必要である: (i) クリップ内の全話者のための音声視覚符号化、 (ii) 基準話者と各フレーム内の背景話者の間の話者間関係モデリング、 (iii) 基準話者のための時間的モデリング。 このパイプラインの各ステージは、生成されたアーキテクチャの最終パフォーマンスに重要な役割を果たす。 一連の制御実験に基づき,音声-視覚アクティブ話者検出のための実用的なガイドラインをいくつか提示する。 ASDNetは、AVA-ActiveSpeakerデータセット上で新しい最先端技術を実現し、mAPは93.5%で、2番目に大きなマージンが4.7%である。 私たちのコードと事前トレーニングされたモデルは公開されています。

Successful active speaker detection requires a three-stage pipeline: (i) audio-visual encoding for all speakers in the clip, (ii) inter-speaker relation modeling between a reference speaker and the background speakers within each frame, and (iii) temporal modeling for the reference speaker. Each stage of this pipeline plays an important role for the final performance of the created architecture. Based on a series of controlled experiments, this work presents several practical guidelines for audio-visual active speaker detection. Correspondingly, we present a new architecture called ASDNet, which achieves a new state-of-the-art on the AVA-ActiveSpeaker dataset with a mAP of 93.5% outperforming the second best with a large margin of 4.7%. Our code and pretrained models are publicly available.
翻訳日:2021-06-09 16:05:52 公開日:2021-06-07
# アイデンティティ文書分類のためのインテリジェントハイブリッドモデル

An Intelligent Hybrid Model for Identity Document Classification ( http://arxiv.org/abs/2106.04345v1 )

ライセンス: Link先を確認
Nouna Khandan(参考訳) デジタル化(Digitization)、すなわち、情報をデジタル形式に変換するプロセスは、様々な機会(生産性の向上、災害復旧、環境に優しいソリューションなど)を提供し、ビジネスに挑戦する。 この文脈において、主な課題の1つは、顧客が毎日アップロードする多数のスキャンされたドキュメントを通常のビジネスプロセスとして正確に分類することである。 例えば、銀行(例えばローンの申請)やBDM(Births, Deaths, and Marriages)の政府登録簿(Government Registry of BDM)の申請では、運転免許証やパスポートなどの文書をアップロードすることがある。 画像分類の応用としてこの課題に対処する研究はほとんどない。 様々な手法を用いた研究もあるが、より正確なモデルが必要である。 本研究は,アイデンティティ文書の種類を正確に定義するための,堅牢な融合モデルを提案する。 提案手法は,画像の視覚的特徴とテキスト特徴に基づいて分類する2つの方法に基づいている。 特徴量に基づく分類器の信頼性レベルを計算するため,統計と回帰に基づく新しいモデルが提案されている。 ファジィ平均融合モデルを提案し,その信頼性スコアに基づいて分類結果を組み合わせた。 提案手法はPythonを用いて実装され、合成および実世界のデータセットで実験的に検証されている。 提案モデルの性能を受信者動作特性(ROC)曲線解析を用いて評価する。

Digitization, i.e., the process of converting information into a digital format, may provide various opportunities (e.g., increase in productivity, disaster recovery, and environmentally friendly solutions) and challenges for businesses. In this context, one of the main challenges would be to accurately classify numerous scanned documents uploaded every day by customers as usual business processes. For example, processes in banking (e.g., applying for loans) or the Government Registry of BDM (Births, Deaths, and Marriages) applications may involve uploading several documents such as a driver's license and passport. There are not many studies available to address the challenge as an application of image classification. Although some studies are available which used various methods, a more accurate model is still required. The current study has proposed a robust fusion model to define the type of identity documents accurately. The proposed approach is based on two different methods in which images are classified based on their visual features and text features. A novel model based on statistics and regression has been proposed to calculate the confidence level for the feature-based classifier. A fuzzy-mean fusion model has been proposed to combine the classifier results based on their confidence score. The proposed approach has been implemented using Python and experimentally validated on synthetic and real-world datasets. The performance of the proposed model is evaluated using the Receiver Operating Characteristic (ROC) curve analysis.
翻訳日:2021-06-09 16:05:41 公開日:2021-06-07
# 会話の取り込みの測定:学生と教師のインタラクションを事例として

Measuring Conversational Uptake: A Case Study on Student-Teacher Interactions ( http://arxiv.org/abs/2106.03873v1 )

ライセンス: Link先を確認
Dorottya Demszky, Jing Liu, Zid Mancenido, Julie Cohen, Heather Hill, Dan Jurafsky, Tatsunori Hashimoto(参考訳) 会話では、話者が、例えば、自分が言ったことを認識、繰り返し、あるいは修正することで、インターロケータの貢献の上にスピーカーが構築される。 教育における教員の学生貢献の獲得は、より高い生徒の達成と結びついている。 しかし,既存の手法では専門家による高価な注釈を必要とするため,教師の大規模獲得を計測し,改善することは困難である。 本研究は,(1)米国数学教室の教員間交流のデータセットを公開し,(2)次の発話分類によって推定されるポイントワイズjensen-shannon divergence(pjsd)の取得を定式化し,(3)異なる教師なし措置の言語的動機付けによる比較を行い,(4)これらの措置を教育成果に関連付けることによって,計算的に計測する枠組みを提案する。 繰り返しは取り込みのかなりの部分を捉えているが、pjsdは質問応答や再帰といった幅広い取り込み現象を識別できるため、反復ベースのベースラインを上回っている。 評価指標を用いた3つの異なる教育データセットに適用する。 pJSDはベースライン測度と異なり、3つすべてにおいて教育の質と大きく相関し、その一般化可能性と教師のための自動化された専門的開発ツールとして機能する可能性の証拠となる。

In conversation, uptake happens when a speaker builds on the contribution of their interlocutor by, for example, acknowledging, repeating or reformulating what they have said. In education, teachers' uptake of student contributions has been linked to higher student achievement. Yet measuring and improving teachers' uptake at scale is challenging, as existing methods require expensive annotation by experts. We propose a framework for computationally measuring uptake, by (1) releasing a dataset of student-teacher exchanges extracted from US math classroom transcripts annotated for uptake by experts; (2) formalizing uptake as pointwise Jensen-Shannon Divergence (pJSD), estimated via next utterance classification; (3) conducting a linguistically-motiv ated comparison of different unsupervised measures and (4) correlating these measures with educational outcomes. We find that although repetition captures a significant part of uptake, pJSD outperforms repetition-based baselines, as it is capable of identifying a wider range of uptake phenomena like question answering and reformulation. We apply our uptake measure to three different educational datasets with outcome indicators. Unlike baseline measures, pJSD correlates significantly with instruction quality in all three, providing evidence for its generalizability and for its potential to serve as an automated professional development tool for teachers.
翻訳日:2021-06-09 16:04:11 公開日:2021-06-07
# 低webリソース言語モデル適応のための言語関連性の利用--indic language study

Exploiting Language Relatedness for Low Web-Resource Language Model Adaptation: An Indic Languages Study ( http://arxiv.org/abs/2106.03958v1 )

ライセンス: Link先を確認
Yash Khemchandani, Sarvesh Mehtani, Vaidehi Patil, Abhijeet Awasthi, Partha Talukdar, Sunita Sarawagi(参考訳) 最近の多言語言語モデル(LM)の研究は、単一のモデルで複数の言語を効果的に扱う能力を示した。 これは、多言語モデルが高リソース言語からLRLへの監督の移行を可能にするため、低ウェブリソース言語(LRL)を約束する。 しかし、新しい言語をlmに組み込むことは依然として課題であり、特にコーパスが限られている言語や未熟なスクリプトでは課題である。 本稿では,言語ファミリーにおける言語間の関連性を利用してLRLのコーパス制限を克服し,RelateLMを提案する。 我々はインドの言語に焦点をあて,(1)スクリプト(ブラフミック文字から派生した多くのインデックススクリプト)と(2)文構造という2つの次元に沿った関連性を活用する。 RelateLMは、限られたLRLテキストの未知のスクリプトをRPL(Related Prominent Language)のスクリプトに変換するために、文字変換を使用する。 類似した文構造を利用して、RelateLMは容易に利用可能なバイリンガル辞書を利用してRPLテキストをLRLコーパスに変換する。 複数の実世界のベンチマークデータセットに対する実験は、関連する言語をピボットとして使うことと、翻訳や擬似翻訳に基づくデータ拡張は、直接学習や英語のピボットではなく、LRLにLMを適用する効果的な方法である、という仮説を裏付けるものである。

Recent research in multilingual language models (LM) has demonstrated their ability to effectively handle multiple languages in a single model. This holds promise for low web-resource languages (LRL) as multilingual models can enable transfer of supervision from high resource languages to LRLs. However, incorporating a new language in an LM still remains a challenge, particularly for languages with limited corpora and in unseen scripts. In this paper we argue that relatedness among languages in a language family may be exploited to overcome some of the corpora limitations of LRLs, and propose RelateLM. We focus on Indian languages, and exploit relatedness along two dimensions: (1) script (since many Indic scripts originated from the Brahmic script), and (2) sentence structure. RelateLM uses transliteration to convert the unseen script of limited LRL text into the script of a Related Prominent Language (RPL) (Hindi in our case). While exploiting similar sentence structures, RelateLM utilizes readily available bilingual dictionaries to pseudo translate RPL text into LRL corpora. Experiments on multiple real-world benchmark datasets provide validation to our hypothesis that using a related language as pivot, along with transliteration and pseudo translation based data augmentation, can be an effective way to adapt LMs for LRLs, rather than direct training or pivoting through English.
翻訳日:2021-06-09 16:03:43 公開日:2021-06-07
# 創発的言語の表現性は文脈複雑度と予測不可能性のトレードオフである

Expressivity of Emergent Language is a Trade-off between Contextual Complexity and Unpredictability ( http://arxiv.org/abs/2106.03982v1 )

ライセンス: Link先を確認
Shangmin Guo, Yi Ren, Kory Mathewson, Simon Kirby, Stefano V. Albrecht, Kenny Smith(参考訳) 研究者は現在、ディープラーニングモデルを使用して、さまざまな言語ゲームにおける言語の発生を探求している。 異なる種類の言語ゲームは、異なるレベルの情報をエンコードする創発的な言語を必要とするかもしれないが、創発的な言語の表現性を探求する既存の作業は存在しない。 本研究では,異なる言語ゲーム間での一般化性能に基づく表現性間の部分順序の定義を提案する。 また、創発的言語の表現性は、それらの言語が使われている文脈の複雑さと予測不能の間のトレードオフであるという仮説を検証する。 第2の新たな貢献は,レファレンシャルゲームの実装にコントラストロスを導入することである。 コントラスト損失を用いることで,標準参照損失関数を用いたメッセージタイプの崩壊を緩和できることを示す。

Researchers are now using deep learning models to explore the emergence of language in various language games, where simulated agents interact and develop an emergent language to solve a task. Although it is quite intuitive that different types of language games posing different communicative challenges might require emergent languages which encode different levels of information, there is no existing work exploring the expressivity of the emergent languages. In this work, we propose a definition of partial order between expressivity based on the generalisation performance across different language games. We also validate the hypothesis that expressivity of emergent languages is a trade-off between the complexity and unpredictability of the context those languages are used in. Our second novel contribution is introducing contrastive loss into the implementation of referential games. We show that using our contrastive loss alleviates the collapse of message types seen using standard referential loss functions.
翻訳日:2021-06-09 16:03:19 公開日:2021-06-07
# 異なる品質の多様性

Differentiable Quality Diversity ( http://arxiv.org/abs/2106.03894v1 )

ライセンス: Link先を確認
Matthew C. Fontaine, Stefanos Nikolaidis(参考訳) 品質多様性(QD)は、与えられた目的関数を最大化するが、特定の測度関数の集合に関しても多様である解のアーカイブを生成する問題を研究する確率最適化研究の分野である。 しかし、これらの関数が微分可能であったとしても、QDアルゴリズムは勾配情報を無視して「ブラックボックス」として扱う。 目的関数と測度関数の両方が一階微分可能であるqdの特別な場合である微分可能品質多様性(dqd)問題を提案する。 次に、勾配情報を利用して目的関数の結合範囲を効率的に探索するDQDアルゴリズムであるグラディエントアーボラッセンス(MEGA)を用いたMAP-Elitesを提案する。 2つのQDベンチマークドメインとStyleGANの潜在空間の探索の結果、MEGAは最先端のQDアルゴリズムを著しく上回り、勾配情報が得られる場合にDQDが効率よく品質の多様性を最適化するという約束を強調している。 ソースコードはhttps://github.com/i caros-usc/dqdで入手できる。

Quality diversity (QD) is a growing branch of stochastic optimization research that studies the problem of generating an archive of solutions that maximize a given objective function but are also diverse with respect to a set of specified measure functions. However, even when these functions are differentiable, QD algorithms treat them as "black boxes", ignoring gradient information. We present the differentiable quality diversity (DQD) problem, a special case of QD, where both the objective and measure functions are first order differentiable. We then present MAP-Elites via Gradient Arborescence (MEGA), a DQD algorithm that leverages gradient information to efficiently explore the joint range of the objective and measure functions. Results in two QD benchmark domains and in searching the latent space of a StyleGAN show that MEGA significantly outperforms state-of-the-art QD algorithms, highlighting DQD's promise for efficient quality diversity optimization when gradient information is available. Source code is available at https://github.com/i caros-usc/dqd.
翻訳日:2021-06-09 16:00:31 公開日:2021-06-07
# ロバストな分散検出のためのマルチタスク変換学習

Multi-task Transformation Learning for Robust Out-of-Distribution Detection ( http://arxiv.org/abs/2106.03899v1 )

ライセンス: Link先を確認
Sina Mohseni and Arash Vahdat and Jay Yadawa(参考訳) アウト・オブ・ディストリビューション(OOD)サンプルの検出は、自律システムや医療など、オープンワールドおよびセーフティクリティカルなアプリケーションにおいて重要な役割を果たす。 自己教師付き表現学習技術(例えば、コントラスト学習とプレテキスト学習)は、OODサンプルを識別できる学習表現に適している。 本稿では,複数の画像データセット上でのOOD検出性能とロバスト性に優れるOOD検出の効果的な表現の訓練にマルチタスク変換学習を利用するシンプルなフレームワークを提案する。 我々は、OODのパフォーマンスがドメイン内のトレーニングセットに依存しているデータ変換の選択に依存することを実証的に観察する。 この問題に対処するために,OODトレーニングサンプルを必要とせずに,変換を自動的に選択し,表現学習への影響を調節する簡単な機構を提案する。 我々は,現実の応用に望ましいOOD検出器の基準を定式化し,提案手法が最先端のOOD検出技術に対して有効であることを示す。

Detecting out-of-distribution (OOD) samples plays a key role in open-world and safety-critical applications such as autonomous systems and healthcare. Self-supervised representation learning techniques (e.g., contrastive learning and pretext learning) are well suited for learning representation that can identify OOD samples. In this paper, we propose a simple framework that leverages multi-task transformation learning for training effective representation for OOD detection which outperforms state-of-the-art OOD detection performance and robustness on several image datasets. We empirically observe that the OOD performance depends on the choice of data transformations which itself depends on the in-domain training set. To address this problem, we propose a simple mechanism for selecting the transformations automatically and modulate their effect on representation learning without requiring any OOD training samples. We characterize the criteria for a desirable OOD detector for real-world applications and demonstrate the efficacy of our proposed technique against a diverse range of the state-of-the-art OOD detection techniques.
翻訳日:2021-06-09 15:59:44 公開日:2021-06-07
# rgb-dサルエント物体検出のためのプログレッシブマルチスケール核融合ネットワーク

Progressive Multi-scale Fusion Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2106.03941v1 )

ライセンス: Link先を確認
Guangyu Ren, Yanchu Xie, Tianhong Dai, Tania Stathaki(参考訳) salient object detection(sod)は、画像内の最も重要なオブジェクトを見つけることを目的としている。 近年,多くの視覚タスクにSODを適用することが大きな進歩を遂げている。 深度マップは、性能を高めるために追加の空間的事前および境界的手がかりを提供することができる。 近年のSOD研究では,深度情報と標準視界カメラから得られる画像データの組み合わせが広く用いられているが,準最適核融合戦略における深度情報の導入は,SODの性能に悪影響を及ぼす可能性がある。 本稿では,いわゆるプログレッシブ・マルチスケール・フュージョン法の利点について論じ,マスク誘導機能集約モジュール(MGFA)を提案する。 提案手法は, 異なるモードの2つの特徴を効果的に組み合わせることができ, さらに, 必然的に, 深度品質の変動に起因する誤った深度特徴の影響を軽減することができる。 さらに,高レベルな意味的特徴を補完し,マルチスケール融合による無関係な特徴を低減し,検出の全体的な洗練を実現するために,マスクガイドリファインメントモジュール(mgrm)を導入する。 5つの難解なベンチマーク実験により,提案手法が11の最先端手法を異なる評価指標で上回ることを示した。

Salient object detection(SOD) aims at locating the most significant object within a given image. In recent years, great progress has been made in applying SOD on many vision tasks. The depth map could provide additional spatial prior and boundary cues to boost the performance. Combining the depth information with image data obtained from standard visual cameras has been widely used in recent SOD works, however, introducing depth information in a suboptimal fusion strategy may have negative influence in the performance of SOD. In this paper, we discuss about the advantages of the so-called progressive multi-scale fusion method and propose a mask-guided feature aggregation module(MGFA). The proposed framework can effectively combine the two features of different modalities and, furthermore, alleviate the impact of erroneous depth features, which are inevitably caused by the variation of depth quality. We further introduce a mask-guided refinement module(MGRM) to complement the high-level semantic features and reduce the irrelevant features from multi-scale fusion, leading to an overall refinement of detection. Experiments on five challenging benchmarks demonstrate that the proposed method outperforms 11 state-of-the-art methods under different evaluation metrics.
翻訳日:2021-06-09 15:59:29 公開日:2021-06-07
# 変形テンプレートを用いた弱補正ボリューム画像分割

Weakly Supervised Volumetric Image Segmentation with Deformed Templates ( http://arxiv.org/abs/2106.03987v1 )

ライセンス: Link先を確認
Udaranga Wickramasinghe and Pascal Fua(参考訳) 弱いスーパービジョンを使ってネットワークを訓練し、2d画像をセグメント化する多くのアプローチがある。 対照的に、既存の3Dアプローチは、3D画像ボリュームの2Dスライスの部分集合のフルスーパービジョンに依存している。 本稿では,対象オブジェクトの表面にスパースな3dポイントセットを提供するだけでよいという意味では,非常に弱い教師付きである手法を提案する。 我々は、3Dポイントを使用して3Dテンプレートを変形させ、ターゲットオブジェクトのアウトラインと大まかに一致するようにし、粗いテンプレートによって提供される監視を利用してネットワークをトレーニングして正確な境界を見つけるアーキテクチャを導入する。 我々はCT(CT)、MRI(MRI)、EM(EM)画像データセットの性能評価を行った。 監督コストの削減により、3Dの弱スーパービジョンに対する従来のアプローチよりも優れていることを示す。

There are many approaches that use weak-supervision to train networks to segment 2D images. By contrast, existing 3D approaches rely on full-supervision of a subset of 2D slices of the 3D image volume. In this paper, we propose an approach that is truly weakly-supervised in the sense that we only need to provide a sparse set of 3D point on the surface of target objects, an easy task that can be quickly done. We use the 3D points to deform a 3D template so that it roughly matches the target object outlines and we introduce an architecture that exploits the supervision provided by coarse template to train a network to find accurate boundaries. We evaluate the performance of our approach on Computed Tomography (CT), Magnetic Resonance Imagery (MRI) and Electron Microscopy (EM) image datasets. We will show that it outperforms a more traditional approach to weak-supervision in 3D at a reduced supervision cost.
翻訳日:2021-06-09 15:59:07 公開日:2021-06-07
# 4次元人体運動のマルチフレームシーケンス生成

Multi-frame sequence generator of 4D human body motion ( http://arxiv.org/abs/2106.04387v1 )

ライセンス: Link先を確認
Marsot Mathieu, Wuhrer Stefanie, Franco Jean-Sebastien, Durocher Stephane(参考訳) 本研究では,時間的および空間的に密集した4次元人体運動の発生問題について検討する。 一方、メッシュ表現のような高密度な3次元モデルに対する時間枠の静的適合問題として生成モデルが広く研究されており、時間的側面は生成モデルから外されている。 一方、マーカーベースのキャプチャー表現のような疎密な人間のモデルには時間的生成モデルが存在するが、我々の知識は高密度な3次元形状に拡張されたわけではない。 本稿では,このギャップを生成的オートエンコーダベースのフレームワークで橋渡しし,形態,翻訳・回転を含む大域的ロコモーション,複数フレームの時間運動を単一潜在空間ベクトルとして符号化する。 一般化と因子化能力を評価するため、我々はAMASSの循環移動サブセットにモデルを訓練し、より広範囲なモーションキャプチャーを提供する高密度表面モデルを活用する。 本研究は,低誤差境界内における人間の移動の4次元配列の再構成と,異なる多フレーム配列と移動型を表す潜在ベクトル間の潜時空間補間の有用性を検証した。 また,最初のロコモーションフレームから将来のフレームを4次元人力で予測する手法の利点を説明し,人間の運動の現実的な時空間的特徴を学習するモデルに有望な能力を示す。 このモデルにより,空間的および時間的にスパースなデータの補完が可能となることを示す。

We examine the problem of generating temporally and spatially dense 4D human body motion. On the one hand generative modeling has been extensively studied as a per time-frame static fitting problem for dense 3D models such as mesh representations, where the temporal aspect is left out of the generative model. On the other hand, temporal generative models exist for sparse human models such as marker-based capture representations, but have not to our knowledge been extended to dense 3D shapes. We propose to bridge this gap with a generative auto-encoder-based framework, which encodes morphology, global locomotion including translation and rotation, and multi-frame temporal motion as a single latent space vector. To assess its generalization and factorization abilities, we train our model on a cyclic locomotion subset of AMASS, leveraging the dense surface models it provides for an extensive set of motion captures. Our results validate the ability of the model to reconstruct 4D sequences of human locomotions within a low error bound, and the meaningfulness of latent space interpolation between latent vectors representing different multi-frame sequences and locomotion types. We also illustrate the benefits of the approach for 4D human motion prediction of future frames from initial human locomotion frames, showing promising abilities of our model to learn realistic spatio-temporal features of human motion. We show that our model allows for data completion of both spatially and temporally sparse data.
翻訳日:2021-06-09 15:53:15 公開日:2021-06-07
# スペクトル注意によるグラフトランスフォーマの再考

Rethinking Graph Transformers with Spectral Attention ( http://arxiv.org/abs/2106.03893v1 )

ライセンス: Link先を確認
Devin Kreuzer, Dominique Beaini, William L. Hamilton, Vincent L\'etourneau and Prudencio Tossou(参考訳) 近年、Transformerアーキテクチャはシーケンシャル処理において非常に成功したが、グラフなどの他のデータ構造への応用は、位置を適切に定義することが困難であるために制限され続けている。 ここでは、学習された位置符号化(LPE)を用いて、与えられたグラフ内の各ノードの位置を学習するためにラプラシアスペクトルを完全に活用できる$\textit{Spectral Attention Network}$(SAN)を示す。 このLPEはグラフのノード機能に追加され、完全に接続されたTransformerに渡される。 ラプラシアンの完全なスペクトルを利用することで、我々のモデルは理論上グラフの区別に強力であり、類似のサブ構造を共鳴からよりよく検出することができる。 さらに、グラフを完全に接続することで、トランスフォーマーはほとんどのGNNの情報ボトルネックであるオーバー・スクワッシングに悩まされず、熱伝達や電気的相互作用といった物理現象のモデリングを改善できる。 実験的に4つの標準データセットでテストした場合、我々のモデルは最先端のGNNよりも同等以上のパフォーマンスを示し、あらゆる注意ベースのモデルを広範囲にわたって上回り、グラフベンチマークでうまく機能する最初の完全接続アーキテクチャとなる。

In recent years, the Transformer architecture has proven to be very successful in sequence processing, but its application to other data structures, such as graphs, has remained limited due to the difficulty of properly defining positions. Here, we present the $\textit{Spectral Attention Network}$ (SAN), which uses a learned positional encoding (LPE) that can take advantage of the full Laplacian spectrum to learn the position of each node in a given graph. This LPE is then added to the node features of the graph and passed to a fully-connected Transformer. By leveraging the full spectrum of the Laplacian, our model is theoretically powerful in distinguishing graphs, and can better detect similar sub-structures from their resonance. Further, by fully connecting the graph, the Transformer does not suffer from over-squashing, an information bottleneck of most GNNs, and enables better modeling of physical phenomenons such as heat transfer and electric interaction. When tested empirically on a set of 4 standard datasets, our model performs on par or better than state-of-the-art GNNs, and outperforms any attention-based model by a wide margin, becoming the first fully-connected architecture to perform well on graph benchmarks.
翻訳日:2021-06-09 15:49:48 公開日:2021-06-07
# GANにおける二重発光と他の補間現象

Double Descent and Other Interpolation Phenomena in GANs ( http://arxiv.org/abs/2106.04003v1 )

ライセンス: Link先を確認
Lorenzo Luzi and Yehuda Dar and Richard Baraniuk(参考訳) 学習データを補間できるGAN(Generative Adversarial Network)の過度パラメータ化について検討する。 過パラメータ化によって一般化性能が向上し,トレーニングプロセスを高速化できることを示す。 一般化誤差を潜在空間次元の関数として検討し,学習条件に応じて2つの主な挙動を同定する。 まず、計量や$f$-divergenceを最小化して分布を学習する過パラメータ生成モデルは、一般化誤差において二重降下を示さないことを示し、特に、補間解は同じ一般化誤差を達成する。 第2に,実出力サンプルと組み合わせて一対の合成(雑音)入力を利用するGANのための擬似教師付き学習手法を開発した。 擬似教師設定は一般化誤差の二重降下(場合によっては三重降下)を示す。 擬似スーパービジョンと過パラメータ化(すなわち、過度に大きい潜在空間次元)を組み合わせてトレーニングを加速し、擬似スーパービジョンのない一般化性能を向上する。 解析は主に線形GANに焦点をあてるが、非線形多層GANの一般化に重要な洞察を与える。

We study overparameterization in generative adversarial networks (GANs) that can interpolate the training data. We show that overparameterization can improve generalization performance and accelerate the training process. We study the generalization error as a function of latent space dimension and identify two main behaviors, depending on the learning setting. First, we show that overparameterized generative models that learn distributions by minimizing a metric or $f$-divergence do not exhibit double descent in generalization errors; specifically, all the interpolating solutions achieve the same generalization error. Second, we develop a new pseudo-supervised learning approach for GANs where the training utilizes pairs of fabricated (noise) inputs in conjunction with real output samples. Our pseudo-supervised setting exhibits double descent (and in some cases, triple descent) of generalization errors. We combine pseudo-supervision with overparameterization (i.e., overly large latent space dimension) to accelerate training while performing better, or close to, the generalization performance without pseudo-supervision. While our analysis focuses mostly on linear GANs, we also apply important insights for improving generalization of nonlinear, multilayer GANs.
翻訳日:2021-06-09 15:49:27 公開日:2021-06-07
# TinyMLによる応用機械学習へのアクセス拡大

Widening Access to Applied Machine Learning with TinyML ( http://arxiv.org/abs/2106.04008v1 )

ライセンス: Link先を確認
Vijay Janapa Reddi, Brian Plancher, Susan Kennedy, Laurence Moroney, Pete Warden, Anant Agarwal, Colby Banbury, Massimo Banzi, Matthew Bennett, Benjamin Brown, Sharad Chitlangia, Radhika Ghosal, Sarah Grafman, Rupert Jaeger, Srivatsan Krishnan, Maximilian Lam, Daniel Leiker, Cara Mann, Mark Mazumder, Dominic Pajak, Dhilan Ramaprasad, J. Evan Smith, Matthew Stewart, Dustin Tingley(参考訳) 計算資源と教育資源の両方へのアクセスの拡大は、機械学習(ml)イノベーションの拡散に不可欠である。 しかし今日では、ほとんどのMLリソースと専門家がいくつかの国や組織でサイロ化されている。 本稿では,Tiny Machine Learning (TinyML) 上の大規模なオープンオンラインコース (MOOC) を通じて,応用MLへのアクセスを増やすための教育的アプローチについて述べる。 リソース制約のある組み込みデバイス上でのMLであるTinyMLは、低コストかつグローバルにアクセス可能なハードウェアを活用し、データ収集からデプロイメントに至るまで、完全な自己完結型アプリケーションの開発を促進するため、アクセスを拡大するための魅力的な手段である、と提案する。 この目的のために、学界(ハーバード大学)と産業(Google)の協力により、TinyMLを使ってソリューションを開発するためのアプリケーション指向の指導を提供する4つのMOOCを開発した。 このシリーズは、edX MOOCプラットフォームで公開されており、基本的なプログラミング以上の前提条件がなく、世界中のさまざまなバックグラウンドから学習者向けに設計されている。 現実世界のアプリケーション、MLアルゴリズム、データセットエンジニアリング、そしてクラウドと独自のマイクロコントローラの両方にTinyMLアプリケーションのハンズオンプログラミングとデプロイを通じて、これらの技術の倫理的考察を紹介する。 コースを越えた学習、コミュニティ構築、コラボレーションを促進するために、スタンドアロンのwebサイト、フォーラム、チャット、オプションのコースプロジェクトコンペティションを立ち上げました。 また、次世代のML実践者と教育者を刺激し、最先端のML技術へのアクセスをさらに拡大したいと考えています。

Broadening access to both computational and educational resources is critical to diffusing machine-learning (ML) innovation. However, today, most ML resources and experts are siloed in a few countries and organizations. In this paper, we describe our pedagogical approach to increasing access to applied ML through a massive open online course (MOOC) on Tiny Machine Learning (TinyML). We suggest that TinyML, ML on resource-constrained embedded devices, is an attractive means to widen access because TinyML both leverages low-cost and globally accessible hardware, and encourages the development of complete, self-contained applications, from data collection to deployment. To this end, a collaboration between academia (Harvard University) and industry (Google) produced a four-part MOOC that provides application-oriented instruction on how to develop solutions using TinyML. The series is openly available on the edX MOOC platform, has no prerequisites beyond basic programming, and is designed for learners from a global variety of backgrounds. It introduces pupils to real-world applications, ML algorithms, data-set engineering, and the ethical considerations of these technologies via hands-on programming and deployment of TinyML applications in both the cloud and their own microcontrollers. To facilitate continued learning, community building, and collaboration beyond the courses, we launched a standalone website, a forum, a chat, and an optional course-project competition. We also released the course materials publicly, hoping they will inspire the next generation of ML practitioners and educators and further broaden access to cutting-edge ML technologies.
翻訳日:2021-06-09 15:49:09 公開日:2021-06-07
# 回転するクモと反射犬--学習データ強化分布に対するクラス条件付きアプローチ

Rotating spiders and reflecting dogs: a class conditional approach to learning data augmentation distributions ( http://arxiv.org/abs/2106.04009v1 )

ライセンス: Link先を確認
Scott Mahan, Henry Kvinge, Tim Doster(参考訳) 非意味な変換に対する不変性の構築は、効率的で一般化可能な機械学習モデルを構築する上で不可欠である。 実際には、不変性を学ぶ最も一般的な方法は、データの強化である。 近年,トレーニングデータ自体から拡張変換の分布を学習する手法の開発への関心が高まっている。 このようなアプローチはデータに応答するので有益であるが、多くの状況において、モデルが特定のクラス入力に依存する不変な変更を必要とする変換の範囲が属するという事実を無視する。 例えば、もしあるモデルが、ある画像がヒトデかイヌを含んでいるかどうかを予測できる必要があるなら、トレーニング中に無作為な回転をヒトデの画像に適用したいかもしれません(これらは好ましい向きを持っていないので)が、犬の画像には当てはまらないでしょう。 本研究では,拡張変換のクラス条件分布を学習する手法を提案する。 提案手法は,クラスによって異なる非意味変換を学習する例を多数提示し,さらに,潜在的に複雑なデータセットに固有の対称性を探索するためのツールとして,我々の手法をどのように利用できるかを示す。

Building invariance to non-meaningful transformations is essential to building efficient and generalizable machine learning models. In practice, the most common way to learn invariance is through data augmentation. There has been recent interest in the development of methods that learn distributions on augmentation transformations from the training data itself. While such approaches are beneficial since they are responsive to the data, they ignore the fact that in many situations the range of transformations to which a model needs to be invariant changes depending on the particular class input belongs to. For example, if a model needs to be able to predict whether an image contains a starfish or a dog, we may want to apply random rotations to starfish images during training (since these do not have a preferred orientation), but we would not want to do this to images of dogs. In this work we introduce a method by which we can learn class conditional distributions on augmentation transformations. We give a number of examples where our methods learn different non-meaningful transformations depending on class and further show how our method can be used as a tool to probe the symmetries intrinsic to a potentially complex dataset.
翻訳日:2021-06-09 15:48:45 公開日:2021-06-07
# 不確かさのベースライン:ディープラーニングにおける不確かさとロバストさのベンチマーク

Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep Learning ( http://arxiv.org/abs/2106.04015v1 )

ライセンス: Link先を確認
Zachary Nado, Neil Band, Mark Collier, Josip Djolonga, Michael W. Dusenberry, Sebastian Farquhar, Angelos Filos, Marton Havasi, Rodolphe Jenatton, Ghassen Jerfel, Jeremiah Liu, Zelda Mariet, Jeremy Nixon, Shreyas Padhy, Jie Ren, Tim G. J. Rudner, Yeming Wen, Florian Wenzel, Kevin Murphy, D. Sculley, Balaji Lakshminarayanan, Jasper Snoek, Yarin Gal, Dustin Tran(参考訳) 高品質な不確実性と堅牢性の推定は、多くの実世界のアプリケーション、特に多くのデプロイされたMLシステムの基盤となるディープラーニングに不可欠である。 したがって、これらの見積もりを改善するためのテクニックを比較する能力は、研究や実践にとっても非常に重要です。 しかし、幅広いチューニングのための計算可用性、十分に多くのベースラインの組み入れ、再現性のための具体的なドキュメントなど、様々な理由により、メソッドの競合比較がしばしば欠落している。 本稿では,各種タスクにおける標準および最先端のディープラーニング手法の高品質実装である不確実性ベースラインを紹介する。 この執筆時点で、コレクションは9つのタスクにまたがる19のメソッドにまたがり、それぞれに少なくとも5つのメトリクスがある。 各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた自己完結型実験パイプラインである。 私たちの目標は、新しい方法やアプリケーションの実験のための即時の出発点を提供することです。 さらに、モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードも提供します。 コードはhttps://github.com/g oogle/uncertainty-ba selinesで入手できる。

High-quality estimates of uncertainty and robustness are crucial for numerous real-world applications, especially for deep learning which underlies many deployed ML systems. The ability to compare techniques for improving these estimates is therefore very important for research and practice alike. Yet, competitive comparisons of methods are often lacking due to a range of reasons, including: compute availability for extensive tuning, incorporation of sufficiently many baselines, and concrete documentation for reproducibility. In this paper we introduce Uncertainty Baselines: high-quality implementations of standard and state-of-the-art deep learning methods on a variety of tasks. As of this writing, the collection spans 19 methods across 9 tasks, each with at least 5 metrics. Each baseline is a self-contained experiment pipeline with easily reusable and extendable components. Our goal is to provide immediate starting points for experimentation with new methods or applications. Additionally we provide model checkpoints, experiment outputs as Python notebooks, and leaderboards for comparing results. Code available at https://github.com/g oogle/uncertainty-ba selines.
翻訳日:2021-06-09 15:48:25 公開日:2021-06-07
# Saturation-based Theorem Prover の学習

Learning to Guide a Saturation-Based Theorem Prover ( http://arxiv.org/abs/2106.03906v1 )

ライセンス: Link先を確認
Ibrahim Abdelaziz, Maxwell Crouse, Bassem Makni, Vernon Austil, Cristina Cornelio, Shajith Ikbal, Pavan Kapanipathi, Ndivhuwo Makondo, Kavitha Srinivas, Michael Witbrock, Achille Fokoue(参考訳) 従来の自動定理プローバーは、証明探索の実行方法を手動で調整したヒューリスティックに頼っている。 しかし、近年、定理プロバーに統合して自動的に性能を向上させる学習機構の設計への関心が高まっている。 本研究では、ニューラルネットワーク内での飽和に基づく定理のコア要素を特徴付ける、深層学習に基づく定理証明手法であるTRAILを紹介する。 TRAILは(a)論理式を表現する効果的なグラフニューラルネットワーク、(b)処理された節と利用可能なアクションの観点から飽和ベースの定理証明器の状態を示す新しい神経表現、(c)注意に基づくアクションポリシーとして推論選択プロセスの新たな表現を利用する。 提案手法は, TRAILが2つの標準ベンチマークデータセットにおいて, 従来の強化学習に基づく定理証明を著しく上回り, 最大36%の定理を証明できることを示す。 さらに、私たちの知る限りでは、TRAILは標準的な定理証明ベンチマーク(最大17%以上の問題を解く)における最先端の伝統的な定理証明器の性能を超える最初の強化学習ベースのアプローチである。

Traditional automated theorem provers have relied on manually tuned heuristics to guide how they perform proof search. Recently, however, there has been a surge of interest in the design of learning mechanisms that can be integrated into theorem provers to improve their performance automatically. In this work, we introduce TRAIL, a deep learning-based approach to theorem proving that characterizes core elements of saturation-based theorem proving within a neural framework. TRAIL leverages (a) an effective graph neural network for representing logical formulas, (b) a novel neural representation of the state of a saturation-based theorem prover in terms of processed clauses and available actions, and (c) a novel representation of the inference selection process as an attention-based action policy. We show through a systematic analysis that these components allow TRAIL to significantly outperform previous reinforcement learning-based theorem provers on two standard benchmark datasets (up to 36% more theorems proved). In addition, to the best of our knowledge, TRAIL is the first reinforcement learning-based approach to exceed the performance of a state-of-the-art traditional theorem prover on a standard theorem proving benchmark (solving up to 17% more problems).
翻訳日:2021-06-09 15:45:06 公開日:2021-06-07
# JANUS: 逆分子設計のためのディープニューラルネットワークによる並列摂動遺伝的アルゴリズム

JANUS: Parallel Tempered Genetic Algorithm Guided by Deep Neural Networks for Inverse Molecular Design ( http://arxiv.org/abs/2106.04011v1 )

ライセンス: Link先を確認
AkshatKumar Nigam, Robert Pollice, Alan Aspuru-Guzik(参考訳) 逆分子設計、すなわち特定の標的特性を持つ分子を設計することは最適化問題として考えられる。 自然科学における高次元最適化タスクは、進化的アルゴリズムのような集団に基づくメタヒューリスティック最適化アルゴリズムによって一般的に取り組まれる。 しかし、しばしば必要とされる高価な資産評価は、関連するコストが禁止されるため、そのようなアプローチの広範な使用を制限することができる。 本稿では並列テンパリングにインスパイアされた遺伝的アルゴリズムであるJANUSを紹介する。 2つの人口を伝播させ、1つは探検用、もう1つは搾取用であり、高価な資産評価を減らして最適化を改善している。 さらにjanusは、化学空間のサンプリングを強化するためにアクティブラーニングを通じて分子特性を近似するディープニューラルネットワークによって拡張される。 提案手法では,SELFIES分子表現とSTONEDアルゴリズムを用いて構造を効率的に生成し,その逆分子設計タスクにおける他の生成モデルよりも高い性能を実現している。

Inverse molecular design, i.e., designing molecules with specific target properties, can be posed as an optimization problem. High-dimensional optimization tasks in the natural sciences are commonly tackled via population-based metaheuristic optimization algorithms such as evolutionary algorithms. However, expensive property evaluation, which is often required, can limit the widespread use of such approaches as the associated cost can become prohibitive. Herein, we present JANUS, a genetic algorithm that is inspired by parallel tempering. It propagates two populations, one for exploration and another for exploitation, improving optimization by reducing expensive property evaluations. Additionally, JANUS is augmented by a deep neural network that approximates molecular properties via active learning for enhanced sampling of the chemical space. Our method uses the SELFIES molecular representation and the STONED algorithm for the efficient generation of structures, and outperforms other generative models in common inverse molecular design tasks achieving state-of-the-art performance.
翻訳日:2021-06-09 15:44:47 公開日:2021-06-07
# SIGTYP 2021 Shared Task: Robust Spoken Language Identification

SIGTYP 2021 Shared Task: Robust Spoken Language Identification ( http://arxiv.org/abs/2106.03895v1 )

ライセンス: Link先を確認
Elizabeth Salesky, Badr M. Abdullah, Sabrina J. Mielke, Elena Klyachko, Oleg Serikov, Edoardo Ponti, Ritesh Kumar, Ryan Cotterell, Ekaterina Vylomova(参考訳) 言語識別は基本的な言語と言語処理のタスクであるが、多くの言語や言語ファミリーにとっては難しい課題である。 より大きなデータセットが存在する場合、それらは望まれるアプリケーションシナリオと異なるドメインを持ち、ドメインおよび話者不変言語識別システムの必要性を要求される。 システムは1つのドメインから主に単一話者の音声で訓練されるが、異なる記録状況下で話者から記録された他のドメインのデータに基づいて評価され、現実的な低リソースシナリオを模倣する。 ドメインと話者のミスマッチは、ドメイン内で95%以上の精度で処理できる現在の手法では、ドメイン適応がある程度対処できるが、これらの条件は、多くのシナリオで音声言語を識別できるようにするためのさらなる調査に有効である。

While language identification is a fundamental speech and language processing task, for many languages and language families it remains a challenging task. For many low-resource and endangered languages this is in part due to resource availability: where larger datasets exist, they may be single-speaker or have different domains than desired application scenarios, demanding a need for domain and speaker-invariant language identification systems. This year's shared task on robust spoken language identification sought to investigate just this scenario: systems were to be trained on largely single-speaker speech from one domain, but evaluated on data in other domains recorded from speakers under different recording circumstances, mimicking realistic low-resource scenarios. We see that domain and speaker mismatch proves very challenging for current methods which can perform above 95% accuracy in-domain, which domain adaptation can address to some degree, but that these conditions merit further investigation to make spoken language identification accessible in many scenarios.
翻訳日:2021-06-09 15:44:13 公開日:2021-06-07
# VAEを用いたタスクジェネリック階層型人間の動作

Task-Generic Hierarchical Human Motion Prior using VAEs ( http://arxiv.org/abs/2106.04004v1 )

ライセンス: Link先を確認
Jiaman Li, Ruben Villegas, Duygu Ceylan, Jimei Yang, Zhengfei Kuang, Hao Li, Yajie Zhao(参考訳) 人間の動きを記述する深層生成モデルは、ビデオベースの人間のポーズ推定にロバスト性を提供し、咬合中のモーションキャプチャシステムのための完全な体の動きを予測し、可算な動きでキーフレームアニメーションを支援するなど、幅広い基本的なコンピュータビジョンとグラフィックタスクに役立つ。 本稿では,大域的および局所的な潜在空間を組み合わせて,複雑な人間の動作を個別に学習し,粗くきめ細かなモデリングを容易にする手法を提案する。 具体的には,2レベル階層的潜在空間からなる階層的動き変動オートエンコーダ(hm-vae)を提案する。 グローバル潜在空間は全体の身体の動きを捉えるが、ローカル潜在空間は異なる身体部位の洗練されたポーズを捉えることができる。 本稿では,映像に基づく人間のポーズ推定,部分的な観察からの動作完了,スパースキーフレームからの動作合成など,多種多様なタスクにおける階層的動き変動オートエンコーダの有効性を示す。 しかしながら、我々のモデルはこれらのタスクに特化して訓練されておらず、タスク固有の代替よりも優れたパフォーマンスを提供する。 汎用人間の運動先行モデルでは, 破損した人体のアニメーションを固定し, 不完全な観察から完全な動きを生成することができる。

A deep generative model that describes human motions can benefit a wide range of fundamental computer vision and graphics tasks, such as providing robustness to video-based human pose estimation, predicting complete body movements for motion capture systems during occlusions, and assisting key frame animation with plausible movements. In this paper, we present a method for learning complex human motions independent of specific tasks using a combined global and local latent space to facilitate coarse and fine-grained modeling. Specifically, we propose a hierarchical motion variational autoencoder (HM-VAE) that consists of a 2-level hierarchical latent space. While the global latent space captures the overall global body motion, the local latent space enables to capture the refined poses of the different body parts. We demonstrate the effectiveness of our hierarchical motion variational autoencoder in a variety of tasks including video-based human pose estimation, motion completion from partial observations, and motion synthesis from sparse key-frames. Even though, our model has not been trained for any of these tasks specifically, it provides superior performance than task-specific alternatives. Our general-purpose human motion prior model can fix corrupted human body animations and generate complete movements from incomplete observations.
翻訳日:2021-06-09 15:43:55 公開日:2021-06-07
# 高度結合深度とエゴモーションネットワークによる自己改善構造

Self-Supervised Structure-from-Motio n through Tightly-Coupled Depth and Egomotion Networks ( http://arxiv.org/abs/2106.04007v1 )

ライセンス: Link先を確認
Brandon Wagstaff and Valentin Peretroukhin and Jonathan Kelly(参考訳) 近年の文献では、ビュー合成を通じて深度とエゴモーションのニューラルネットワークモデルを共同で学習することを目的とした自己教師型学習問題として、Structure-from-motio n (SfM) が定式化されている。 本稿では,深度とエゴモーションのネットワークコンポーネントを最適に結合する方法というオープンな問題に対処する。 この目的に向けて,結合の概念をいくつか導入し,既存のアプローチを分類し,トレーニングや推論時間における深さと自我の相互依存性を利用した新しい密結合アプローチを提案する。 提案手法では,egomotionネットワーク入力を再帰的に更新するために反復的ビュー合成を用い,明示的な重み共有を伴わずにコンポーネント間でコンテキスト情報を渡せるようにする。 実際の実験を通じて,本手法はテスト時の深度とエゴモーション予測の整合性を促進し,新しいデータの一般化を促進し,室内および屋外の深度およびエゴモーション評価ベンチマークの最先端の精度向上につながることを示す。

Much recent literature has formulated structure-from-motio n (SfM) as a self-supervised learning problem where the goal is to jointly learn neural network models of depth and egomotion through view synthesis. Herein, we address the open problem of how to optimally couple the depth and egomotion network components. Toward this end, we introduce several notions of coupling, categorize existing approaches, and present a novel tightly-coupled approach that leverages the interdependence of depth and egomotion at training and at inference time. Our approach uses iterative view synthesis to recursively update the egomotion network input, permitting contextual information to be passed between the components without explicit weight sharing. Through substantial experiments, we demonstrate that our approach promotes consistency between the depth and egomotion predictions at test time, improves generalization on new data, and leads to state-of-the-art accuracy on indoor and outdoor depth and egomotion evaluation benchmarks.
翻訳日:2021-06-09 15:43:34 公開日:2021-06-07
# パラメトリズド量子回路の符号化依存一般化境界

Encoding-dependent generalization bounds for parametrized quantum circuits ( http://arxiv.org/abs/2106.03880v1 )

ライセンス: Link先を確認
Matthias C. Caro, Elies Gil-Fuster, Johannes Jakob Meyer, Jens Eisert, Ryan Sweke(参考訳) 最近の多くの研究が、ハイブリッド量子古典最適化の枠組みの中で、機械学習モデルとしてパラメタライズド量子回路(PQC)の可能性を探究し始めている。 特に、一般化境界の観点から、そのようなモデルのサンプル外性能に関する理論的保証が現れている。 しかしながら、これらの一般化は古典的な入力データをPQCにエンコードする方法に明示的に依存しない。 データエンコーディングの戦略に明示的に依存するPQCモデルに対して一般化境界を導出する。 これらは、トレーニング済みのpqcベースのモデルの未取得データに対するパフォーマンスに限界がある。 さらに, モデル選択のための数学的厳密な枠組みである構造リスク最小化により, 最適なデータエンコーディング戦略の選択を容易にする。 統計的学習理論から得られる2つの複雑性尺度であるラデマシェ複雑性と計量エントロピーによって測定されるpqcモデルの複雑性を境界として一般化境界を求める。 これを実現するために、三角関数によるPQCベースのモデルの表現に頼る。 一般化バウンダリは、PQCモデルに対するよく考えられたデータエンコーディング戦略の重要性を強調する。

A large body of recent work has begun to explore the potential of parametrized quantum circuits (PQCs) as machine learning models, within the framework of hybrid quantum-classical optimization. In particular, theoretical guarantees on the out-of-sample performance of such models, in terms of generalization bounds, have emerged. However, none of these generalization bounds depend explicitly on how the classical input data is encoded into the PQC. We derive generalization bounds for PQC-based models that depend explicitly on the strategy used for data-encoding. These imply bounds on the performance of trained PQC-based models on unseen data. Moreover, our results facilitate the selection of optimal data-encoding strategies via structural risk minimization, a mathematically rigorous framework for model selection. We obtain our generalization bounds by bounding the complexity of PQC-based models as measured by the Rademacher complexity and the metric entropy, two complexity measures from statistical learning theory. To achieve this, we rely on a representation of PQC-based models via trigonometric functions. Our generalization bounds emphasize the importance of well-considered data-encoding strategies for PQC-based models.
翻訳日:2021-06-09 15:41:08 公開日:2021-06-07
# NISQによる半有限計画法

NISQ Algorithm for Semidefinite Programming ( http://arxiv.org/abs/2106.03891v1 )

ライセンス: Link先を確認
Kishor Bharti, Tobias Haug, Vlatko Vedral, Leong-Chuan Kwek(参考訳) Semidefinite Programming (SDP) は、制御理論、量子情報、組合せ最適化、運用研究に広く応用された凸最適化プログラムのクラスである。 ノイズのある中間スケール量子(NISQ)アルゴリズムは、現在の世代の量子ハードウェアを効率的に利用することを目的としている。 しかし、変分量子アルゴリズムの最適化はNPハード問題であり、一般に解くのに指数関数時間が必要であり、多くの局所最小値を含むことができるため、課題である。 本稿では,SDP に対する現在の NISQ アルゴリズムを提案する。 NISQソルバの古典的最適化プログラムは、より小さな次元のアンザッツ空間上の別のSDPである。 NISQ固有解器の設計には,SDPに基づくハミルトン基底状態問題の定式化を利用する。 変分量子固有ソルバとは異なり、我々の固有ソルバの古典的最適化プログラムは、アンサッツパラメータの数で多項式時間で解くことができ、すべての局所最小値は大域的最小である。 さらに、NISQ SDPソルバのポテンシャルを、最大で2^{1000}$次元行列の固有値を見つけ、量子テクスチュアリティに関連するグラフ問題を解くことによって示す。 また、ランク制約付きSDPに対するNISQアルゴリズムについても論じる。 我々の研究は、過去数十年で最も成功したアルゴリズムフレームワークの1つにNISQコンピュータの適用を拡張しました。

Semidefinite Programming (SDP) is a class of convex optimization programs with vast applications in control theory, quantum information, combinatorial optimization and operational research. Noisy intermediate-scale quantum (NISQ) algorithms aim to make an efficient use of the current generation of quantum hardware. However, optimizing variational quantum algorithms is a challenge as it is an NP-hard problem that in general requires an exponential time to solve and can contain many far from optimal local minima. Here, we present a current term NISQ algorithm for SDP. The classical optimization program of our NISQ solver is another SDP over a smaller dimensional ansatz space. We harness the SDP based formulation of the Hamiltonian ground state problem to design a NISQ eigensolver. Unlike variational quantum eigensolvers, the classical optimization program of our eigensolver is convex, can be solved in polynomial time with the number of ansatz parameters and every local minimum is a global minimum. Further, we demonstrate the potential of our NISQ SDP solver by finding the largest eigenvalue of up to $2^{1000}$ dimensional matrices and solving graph problems related to quantum contextuality. We also discuss NISQ algorithms for rank-constrained SDPs. Our work extends the application of NISQ computers onto one of the most successful algorithmic frameworks of the past few decades.
翻訳日:2021-06-09 15:35:56 公開日:2021-06-07
# SPANet:Symmetry Preserving Attention を用いた粒子物理学の汎用置換なし集合割り当て

SPANet: Generalized Permutationless Set Assignment for Particle Physics using Symmetry Preserving Attention ( http://arxiv.org/abs/2106.03898v1 )

ライセンス: Link先を確認
Alexander Shmakov, Michael James Fenton, Ta-Wei Ho, Shih-Chieh Hsu, Daniel Whiteson, Pierre Baldi(参考訳) 大型ハドロン衝突型加速器における不安定な重粒子の生成は、物理学の最も深い問題に対処する最も直接的な方法である。 衝突は通常、重い粒子の崩壊生成物への観察粒子の割り当てを複雑にする固有のあいまいさを持つ観察粒子の可変サイズの集合を生成する。 物理学コミュニティにおけるこれらの課題に取り組む現在の戦略は、崩壊生成物の物理的対称性を無視し、全ての可能な割り当て置換を考慮し、複雑な構成にスケールしない。 シーケンスモデリングのための注意に基づくディープラーニング手法は、自然言語処理において最先端のパフォーマンスを達成したが、物理集合割り当て問題に見られるユニークな対称性を扱うための組み込みメカニズムは欠如している。 そこで本研究では,問題の自然不変性を反映した対称性保存型注意ネットワークの構築法を提案する。 この一般的なアプローチは、任意に複雑な構成に適用され、現在の手法を著しく上回り、典型的なベンチマーク問題での再構成効率を19\%から35\%に向上し、最も複雑な事象において推論時間を2から5桁減らす。 一般的なライブラリ、使用する特定の設定、完全なデータセットのリリースを含む完全なコードリポジトリはhttps://github.com/A lexanders101/SPANetで確認できる。

The creation of unstable heavy particles at the Large Hadron Collider is the most direct way to address some of the deepest open questions in physics. Collisions typically produce variable-size sets of observed particles which have inherent ambiguities complicating the assignment of observed particles to the decay products of the heavy particles. Current strategies for tackling these challenges in the physics community ignore the physical symmetries of the decay products and consider all possible assignment permutations and do not scale to complex configurations. Attention based deep learning methods for sequence modelling have achieved state-of-the-art performance in natural language processing, but they lack built-in mechanisms to deal with the unique symmetries found in physical set-assignment problems. We introduce a novel method for constructing symmetry-preserving attention networks which reflect the problem's natural invariances to efficiently find assignments without evaluating all permutations. This general approach is applicable to arbitrarily complex configurations and significantly outperforms current methods, improving reconstruction efficiency between 19\% - 35\% on typical benchmark problems while decreasing inference time by two to five orders of magnitude on the most complex events, making many important and previously intractable cases tractable. A full code repository containing a general library, the specific configuration used, and a complete dataset release, are avaiable at https://github.com/A lexanders101/SPANet
翻訳日:2021-06-09 15:35:35 公開日:2021-06-07
# パイロット:確率的音イベント定位のためのトランスフォーマーの導入

PILOT: Introducing Transformers for Probabilistic Sound Event Localization ( http://arxiv.org/abs/2106.03903v1 )

ライセンス: Link先を確認
Christopher Schymura, Benedikt B\"onninghoff, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Tomohiro Nakatani, Shoko Araki, Dorothea Kolossa(参考訳) 音のイベントの定位は,環境中の音源の位置を音響受信機に対して推定することを目的としている(例)。 マイクロホンアレイ)。 この領域の最近の進歩は、ディープリカレントニューラルネットワークの利用に焦点を当てている。 本稿では,従来のリカレントニューラルネットワークの代替手段としてのトランスフォーマーアーキテクチャの成功に触発されて,受信したマルチチャンネル音声信号の時間的依存性を自己認識機構によってキャプチャする,トランスフォーマーベースの音声イベントローカライゼーションフレームワークを提案する。 さらに、推定音声事象位置は多変量ガウス変数として表現され、従来提案されていた深層学習に基づくシステムでは提供されない不確実性の概念が付加される。 このフレームワークは3つの公開ソース音声イベントローカライズデータセット上で評価され、ローカライズエラーとイベント検出精度の観点から最先端の手法と比較される。 これは全てのデータセット上の競合するシステムにおいて、統計的にパフォーマンスに有意な違いがある。

Sound event localization aims at estimating the positions of sound sources in the environment with respect to an acoustic receiver (e.g. a microphone array). Recent advances in this domain most prominently focused on utilizing deep recurrent neural networks. Inspired by the success of transformer architectures as a suitable alternative to classical recurrent neural networks, this paper introduces a novel transformer-based sound event localization framework, where temporal dependencies in the received multi-channel audio signals are captured via self-attention mechanisms. Additionally, the estimated sound event positions are represented as multivariate Gaussian variables, yielding an additional notion of uncertainty, which many previously proposed deep learning-based systems designed for this application do not provide. The framework is evaluated on three publicly available multi-source sound event localization datasets and compared against state-of-the-art methods in terms of localization error and event detection accuracy. It outperforms all competing systems on all datasets with statistical significant differences in performance.
翻訳日:2021-06-09 15:35:10 公開日:2021-06-07
# ソーシャルメディアを利用したCOVID-19パンデミックのサーベイランス:ノースカロライナ州におけるReddit調査

Surveillance of COVID-19 Pandemic using Social Media: A Reddit Study in North Carolina ( http://arxiv.org/abs/2106.04515v1 )

ライセンス: Link先を確認
Christopher Whitfield, Yang Liu, Mohad Anwar(参考訳) 新型コロナウイルス(COVID-19)パンデミックは人々の生活や行動の様々な側面を変えてきた。 この段階では、マスクを着用したり、距離を観察したり、手を洗ったりといった緩和策を採用する以外に、病気の自然進行を制御する方法はない。 さらに、ソーシャルディスタンシングにおいて、ソーシャルメディアは人々をつなげ、感情を表現するためのプラットフォームを提供する上で重要な役割を果たす。 本研究では,ソーシャルメディアを活用し,緩和策と検出戦略の取組を調査し,パンデミックに関する問題や懸念を捉えた。 特に、研究課題として、「Redditの投稿で自然言語処理を使用することで、新型コロナウイルスのパンデミックに対する公衆の取り組みや懸念について、どの程度のことが学べるか? ノースカロライナの4大サブレディットコミュニティから6ヶ月にわたって新型コロナウイルス関連の投稿を抽出した後、ノイズの多いデータをきれいにするためにNLPベースの前処理を行いました。 redditコーパス上でトピックモデリングを行うために,独自の名前付きエンティティ認識 (ner) システムと潜在ディリクレ割り当て (lda) 方式を採用した。 我々は,「マスク」,「フル」,「テスト」が,「個人保護装置」,「症状」,「テスト」の各カテゴリーにおいて,最も多い名義であることを示した。 また、最も議論されたトピックは、テスト、マスク、雇用に関連することも確認した。 緩和策は、すべてのサブredditで最も一般的な議論テーマである。

Coronavirus disease (COVID-19) pandemic has changed various aspects of people's lives and behaviors. At this stage, there are no other ways to control the natural progression of the disease than adopting mitigation strategies such as wearing masks, watching distance, and washing hands. Moreover, at this time of social distancing, social media plays a key role in connecting people and providing a platform for expressing their feelings. In this study, we tap into social media to surveil the uptake of mitigation and detection strategies, and capture issues and concerns about the pandemic. In particular, we explore the research question, "how much can be learned regarding the public uptake of mitigation strategies and concerns about COVID-19 pandemic by using natural language processing on Reddit posts?" After extracting COVID-related posts from the four largest subreddit communities of North Carolina over six months, we performed NLP-based preprocessing to clean the noisy data. We employed a custom Named-entity Recognition (NER) system and a Latent Dirichlet Allocation (LDA) method for topic modeling on a Reddit corpus. We observed that 'mask', 'flu', and 'testing' are the most prevalent named-entities for "Personal Protective Equipment", "symptoms", and "testing" categories, respectively. We also observed that the most discussed topics are related to testing, masks, and employment. The mitigation measures are the most prevalent theme of discussion across all subreddits.
翻訳日:2021-06-09 15:33:32 公開日:2021-06-07
# Chow-Liu++: ツリーイジングモデルの最適予測中心学習

Chow-Liu++: Optimal Prediction-Centric Learning of Tree Ising Models ( http://arxiv.org/abs/2106.03969v1 )

ライセンス: Link先を確認
Enric Boix-Adsera, Guy Bresler, Frederic Koehler(参考訳) 木構造イジングモデルをデータから学習する際の問題点を考察し,そのモデルを用いて計算した後の予測が正確であることを示す。 具体的には、小変数集合に対して$P(X_i|X_S)$が正確であるようなモデルを学ぶことを目指している。 50年以上前に導入されたchow-liuアルゴリズムは、木構造のグラフィカルモデルを学ぶためのベンチマークアルゴリズムである。 予測中心の局所的全変量損失に関するChow-Liuアルゴリズムのサンプル複雑性を[BK19]に表した。 これらの結果は、真の基礎となるグラフの復元が不可能な場合でも有用なモデルを学ぶことができることを示したが、それらの境界は相互作用の最大強度に依存するため、情報理論の最適性は得られない。 本稿では,chow-liuアルゴリズムの要素とツリーメトリック再構成法を慎重に組み合わせ,予測中心損失下でのツリーイジングモデルを効率的かつ最適に学習するアルゴリズムを提案する。 我々のアルゴリズムは不特定性や敵の腐敗をモデル化するのに堅牢である。 対照的に、有名なChow-Liuアルゴリズムは任意に最適であることを示す。

We consider the problem of learning a tree-structured Ising model from data, such that subsequent predictions computed using the model are accurate. Concretely, we aim to learn a model such that posteriors $P(X_i|X_S)$ for small sets of variables $S$ are accurate. Since its introduction more than 50 years ago, the Chow-Liu algorithm, which efficiently computes the maximum likelihood tree, has been the benchmark algorithm for learning tree-structured graphical models. A bound on the sample complexity of the Chow-Liu algorithm with respect to the prediction-centric local total variation loss was shown in [BK19]. While those results demonstrated that it is possible to learn a useful model even when recovering the true underlying graph is impossible, their bound depends on the maximum strength of interactions and thus does not achieve the information-theoreti c optimum. In this paper, we introduce a new algorithm that carefully combines elements of the Chow-Liu algorithm with tree metric reconstruction methods to efficiently and optimally learn tree Ising models under a prediction-centric loss. Our algorithm is robust to model misspecification and adversarial corruptions. In contrast, we show that the celebrated Chow-Liu algorithm can be arbitrarily suboptimal.
翻訳日:2021-06-09 15:32:25 公開日:2021-06-07
# (参考訳) ビデオインプリント [全文訳有]

Video Imprint ( http://arxiv.org/abs/2106.03283v1 )

ライセンス: CC BY 4.0
Zhanning Gao, Le Wang, Nebojsa Jojic, Zhenxing Niu, Nanning Zheng, Gang Hua(参考訳) ビデオフレーム間の画像特徴間の時間的相関を利用した,ビデオインプリント表現に基づく複合イベント検索・認識・記録のための統合ビデオ分析フレームワーク(ER3)を提案する。 ビデオインプリント表現では、ビデオフレーム内の時間的位置と空間的位置の両方にマップを戻すのが便利であり、キーフレームの識別と各フレーム内のキー領域のローカライゼーションが可能である。 提案するフレームワークでは,フレーム間の冗長性除去のために専用機能アライメントモジュールを組み込んでテンソル表現,すなわちビデオインプリントを生成する。 その後、ビデオインプリントは、それぞれ、イベント認識/記録およびイベント検索タスクのために、推論ネットワークと特徴集約モジュールの両方に個別に供給される。 言語モデリングで使用されるメモリネットワークに着想を得たアテンション機構のおかげで、提案する推論ネットワークは、イベントカテゴリー認識とイベントリカウントのための重要な証拠のローカライズを同時に行うことができる。 さらに、我々の推論ネットワークにおける潜在構造は、イベント記録に直接使用できるビデオインプリントの領域を強調している。 イベント検索タスクでは、ビデオインプリントから集約されたコンパクトなビデオ表現が、既存の最先端手法よりも優れた検索結果に寄与する。

A new unified video analytics framework (ER3) is proposed for complex event retrieval, recognition and recounting, based on the proposed video imprint representation, which exploits temporal correlations among image features across video frames. With the video imprint representation, it is convenient to reverse map back to both temporal and spatial locations in video frames, allowing for both key frame identification and key areas localization within each frame. In the proposed framework, a dedicated feature alignment module is incorporated for redundancy removal across frames to produce the tensor representation, i.e., the video imprint. Subsequently, the video imprint is individually fed into both a reasoning network and a feature aggregation module, for event recognition/recounti ng and event retrieval tasks, respectively. Thanks to its attention mechanism inspired by the memory networks used in language modeling, the proposed reasoning network is capable of simultaneous event category recognition and localization of the key pieces of evidence for event recounting. In addition, the latent structure in our reasoning network highlights the areas of the video imprint, which can be directly used for event recounting. With the event retrieval task, the compact video representation aggregated from the video imprint contributes to better retrieval results than existing state-of-the-art methods.
翻訳日:2021-06-09 15:24:13 公開日:2021-06-07
# (参考訳) ニューラルマシン翻訳のための言語被覆バイアスについて [全文訳有]

On the Language Coverage Bias for Neural Machine Translation ( http://arxiv.org/abs/2106.03297v1 )

ライセンス: CC BY 4.0
Shuo Wang, Zhaopeng Tu, Zhixing Tan, Shuming Shi, Maosong Sun, Yang Liu(参考訳) 言語カバレッジバイアス(Language coverage bias)は、ソースから派生した文対とターゲット言語から派生した文対間の内容依存的な差異を示すもので、ニューラルネットワーク翻訳(NMT)において重要である。 実験を慎重に設計することにより,学習データにおける言語被覆バイアスの包括的解析を行い,原産地データのみを用いることで,完全なトレーニングデータを用いて同等の性能が得られることを示す。 これらの結果に基づき,6つのwmt20翻訳タスクにおいて,強いベースラインに対する性能を一貫して向上させるソースとターゲット固有のトレーニングデータを明確に区別することにより,言語カバレッジバイアス問題を緩和するための2つの簡易かつ効果的なアプローチを提案する。 翻訳効果の補完として、言語カバレッジバイアスは、バックトランスレーションによるパフォーマンス低下の別の説明を提供する。 また,言語カバレッジバイアスを緩和することで,2つの代表的なデータ拡張手法とタグ付き変種の性能を向上させることができることを示す。

Language coverage bias, which indicates the content-dependent differences between sentence pairs originating from the source and target languages, is important for neural machine translation (NMT) because the target-original training data is not well exploited in current practice. By carefully designing experiments, we provide comprehensive analyses of the language coverage bias in the training data, and find that using only the source-original data achieves comparable performance with using full training data. Based on these observations, we further propose two simple and effective approaches to alleviate the language coverage bias problem through explicitly distinguishing between the source- and target-original training data, which consistently improve the performance over strong baselines on six WMT20 translation tasks. Complementary to the translationese effect, language coverage bias provides another explanation for the performance drop caused by back-translation. We also apply our approach to both back- and forward-translation and find that mitigating the language coverage bias can improve the performance of both the two representative data augmentation methods and their tagged variants.
翻訳日:2021-06-09 15:00:53 公開日:2021-06-07
# (参考訳) 決定に基づくブラックボックスモデルによるゼロショット知識蒸留 [全文訳有]

Zero-Shot Knowledge Distillation from a Decision-Based Black-Box Model ( http://arxiv.org/abs/2106.03310v1 )

ライセンス: CC BY 4.0
Zi Wang(参考訳) 知識蒸留(kd)は、事前訓練された高容量ネットワーク(教師)のソフトマックス出力を模倣してコンパクトネットワーク(学生)を訓練するディープニューラルネットワークの高速化に成功している。 伝統的に、KDは通常、伝達された知識を得るためにトレーニングサンプルとホワイトボックスの教師のパラメータへのアクセスに依存する。 しかし、これらの前提条件は、現実のアプリケーションにおけるストレージコストやプライバシーの問題のために、必ずしも現実的ではない。 ここでは,意思決定に基づくブラックボックス(db3)知識蒸留の概念を提案し,生徒はソフトマックス出力ではなくクラスのみを返すブラックボックス教師(パラメータはアクセスできない)の知識を蒸留して学習する。 トレーニングセットにアクセス可能なシナリオから始めます。 我々は,教師の判断境界までの距離を計算し,学習サンプルごとにソフトラベルを構築することで,他のクラスに対するサンプルの堅牢性を表現している。 その後、生徒は標準kdで訓練することができる。 このアプローチを,トレーニングデータへのアクセスさえ実現不可能な,より困難なシナリオにまで拡張するのです。 そこで本研究では,教師の判断境界を最大値とする疑似サンプルを生成し,伝達集合として使用するソフトラベルを構築することを提案する。 各種ベンチマークネットワークとデータセットに対するアプローチを評価し,その効果を実証した。 コードはhttps://github.com/z wang84/zsdb3kd。

Knowledge distillation (KD) is a successful approach for deep neural network acceleration, with which a compact network (student) is trained by mimicking the softmax output of a pre-trained high-capacity network (teacher). In tradition, KD usually relies on access to the training samples and the parameters of the white-box teacher to acquire the transferred knowledge. However, these prerequisites are not always realistic due to storage costs or privacy issues in real-world applications. Here we propose the concept of decision-based black-box (DB3) knowledge distillation, with which the student is trained by distilling the knowledge from a black-box teacher (parameters are not accessible) that only returns classes rather than softmax outputs. We start with the scenario when the training set is accessible. We represent a sample's robustness against other classes by computing its distances to the teacher's decision boundaries and use it to construct the soft label for each training sample. After that, the student can be trained via standard KD. We then extend this approach to a more challenging scenario in which even accessing the training data is not feasible. We propose to generate pseudo samples distinguished by the teacher's decision boundaries to the largest extent and construct soft labels for them, which are used as the transfer set. We evaluate our approaches on various benchmark networks and datasets and experiment results demonstrate their effectiveness. Codes are available at: https://github.com/z wang84/zsdb3kd.
翻訳日:2021-06-09 14:44:35 公開日:2021-06-07
# (参考訳) 最適輸送による一般化の測定 [全文訳有]

Measuring Generalization with Optimal Transport ( http://arxiv.org/abs/2106.03314v1 )

ライセンス: CC BY 4.0
Ching-Yao Chuang, Youssef Mroueh, Kristjan Greenewald, Antonio Torralba, Stefanie Jegelka(参考訳) ディープニューラルネットワークの一般化を理解することは、ディープラーニングにおいて最も重要なタスクの1つだ。 多くの進展が見られたが、理論上の誤差境界はしばしば経験的な観察とは異なって振る舞う。 本研究では,訓練分布からサンプリングされた独立なランダム部分集合間の最適輸送コストでマージンが正規化されるマージンに基づく一般化境界を開発した。 特に、最適な輸送コストは、学習された特徴空間の構造的性質を捉える分散の一般化として解釈できる。 我々の境界は、大規模データセット上でトレーニングデータとネットワークパラメータを与えられた一般化誤差を強く予測する。 理論的には, 特徴の集中と分離が一般化において重要な役割を担い, 文献における経験的結果を支えることを実証する。 コードは \url{https://github.com/c hingyaoc/kv-margin} で入手できる。

Understanding the generalization of deep neural networks is one of the most important tasks in deep learning. Although much progress has been made, theoretical error bounds still often behave disparately from empirical observations. In this work, we develop margin-based generalization bounds, where the margins are normalized with optimal transport costs between independent random subsets sampled from the training distribution. In particular, the optimal transport cost can be interpreted as a generalization of variance which captures the structural properties of the learned feature space. Our bounds robustly predict the generalization error, given training data and network parameters, on large scale datasets. Theoretically, we demonstrate that the concentration and separation of features play crucial roles in generalization, supporting empirical results in the literature. The code is available at \url{https://github.com/c hingyaoc/kV-Margin}.
翻訳日:2021-06-09 14:10:56 公開日:2021-06-07
# (参考訳) CNNベースのRSRLによるマージ審美評価のための適切なモデルの構築:実証的研究 [全文訳有]

Exploring to establish an appropriate model for mage aesthetic assessment via CNN-based RSRL: An empirical study ( http://arxiv.org/abs/2106.03316v1 )

ライセンス: CC BY 4.0
Ying Dai(参考訳) フォト審美評価のための適切なモデルを確立するため、cnnの最終層fcノードの不等角度を反映するd測定器を導入する。 F測度とD測度を組み合わせてFD測度を求めることにより、CNNに基づく反復自己修正学習(RSRL)によって生成された複数光スコア予測モデルから最適なモデルを決定するアルゴリズムを提案する。 さらに、モデルの第一固定視点(FFP)と評価関心領域(AIR)を定義して算出する。 実験の結果、fd測度はcnn構造が異なる複数のスコア予測モデルから適切なモデルを確立するのに有効であることがわかった。 さらに、比較的高いFDを持つFD決定最適モデルは、写真を楽しむときに人間の審美的知覚に近いFFPとAIRを常に持っている。

To establish an appropriate model for photo aesthetic assessment, in this paper, a D-measure which reflects the disentanglement degree of the final layer FC nodes of CNN is introduced. By combining F-measure with D-measure to obtain a FD measure, an algorithm of determining the optimal model from the multiple photo score prediction models generated by CNN-based repetitively self-revised learning(RSRL) is proposed. Furthermore, the first fixation perspective(FFP) and the assessment interest region(AIR) of the models are defined and calculated. The experimental results show that the FD measure is effective for establishing the appropriate model from the multiple score prediction models with different CNN structures. Moreover, the FD-determined optimal models with the comparatively high FD always have the FFP an AIR which are close to the human's aesthetic perception when enjoying photos.
翻訳日:2021-06-09 13:34:34 公開日:2021-06-07
# (参考訳) 確率的知識を持つ不確定なプロセスデータ--問題キャラクタリゼーションと課題 [全文訳有]

Uncertain Process Data with Probabilistic Knowledge: Problem Characterization and Challenges ( http://arxiv.org/abs/2106.03324v1 )

ライセンス: CC BY-SA 4.0
Izack Cohen and Avigdor Gal(参考訳) 本稿では,物理デバイスやセンサを含む複数のソースからの不確定なイベントデータの多さに動機づけられ,確率的プロセス観測をデータセットからレンダリング可能なプロセスモデルに関連付けるタスクを提案する。 確率論的に知られたイベントログを,活動周波数の上下境界を持つより情報に乏しい不確実なログに変換するという従来の研究とは対照的に,確率的知識を適合性検査手法に変換するという課題を考察する。 確率的プロセス観察の下で適合性チェックケースのスペクトルを捉えた分類法に基づいて,3種類の挑戦事例を提示する。 1つ目は、所定のプロセスモデルに対する確率的に既知のログの適合性チェックを含む。 2つ目のケースは、確率的に知られているログを複数のプロセスモデルの1つに分類する最初のケースである。 第3のケースは、前の2つをプロセスモデルが確率的にしか知られていない設定に拡張します。 提案する問題は、センサが確率的プロセス情報を提供するアプリケーションの増加を捉えている。

Motivated by the abundance of uncertain event data from multiple sources including physical devices and sensors, this paper presents the task of relating a stochastic process observation to a process model that can be rendered from a dataset. In contrast to previous research that suggested to transform a stochastically known event log into a less informative uncertain log with upper and lower bounds on activity frequencies, we consider the challenge of accommodating the probabilistic knowledge into conformance checking techniques. Based on a taxonomy that captures the spectrum of conformance checking cases under stochastic process observations, we present three types of challenging cases. The first includes conformance checking of a stochastically known log with respect to a given process model. The second case extends the first to classify a stochastically known log into one of several process models. The third case extends the two previous ones into settings in which process models are only stochastically known. The suggested problem captures the increasingly growing number of applications in which sensors provide probabilistic process information.
翻訳日:2021-06-09 13:23:54 公開日:2021-06-07
# (参考訳) 半教師付きビデオインスタンスセグメンテーションのための文脈案内セグメンテーションフレームワーク [全文訳有]

Contextual Guided Segmentation Framework for Semi-supervised Video Instance Segmentation ( http://arxiv.org/abs/2106.03330v1 )

ライセンス: CC BY 4.0
Trung-Nghia Le and Tam V. Nguyen and Minh-Triet Tran(参考訳) 本稿では,ビデオインスタンスの3パスセグメンテーションのためのcgs(contextual guided segmentation)フレームワークを提案する。 プレビューセグメンテーション(プレビューセグメンテーション)の第1パスでは、プレビューマスクを他のフレームに伝搬することにより、各インスタンスの主特性(人間/非人間、剛性/変形性、既知の/未知のカテゴリ)を推定するインスタンス再識別フローを提案する。 第2のパス、すなわちコンテキストセグメンテーションでは、複数のコンテキストセグメンテーションスキームを導入する。 人間の場合、骨組み誘導セグメンテーションとオブジェクトフローを併用して、フレーム間の結果を修正・改善する。 非人間的な例では、インスタンスが外観の幅広いバリエーションを持ち、既知のカテゴリに属している場合(初期マスクから推測できる)、インスタンスセグメンテーションを採用する。 非人間のインスタンスがほぼ剛性である場合、ビデオシーケンスの最初のフレームから合成画像にFCNを訓練する。 最終パス、すなわちガイド付きセグメンテーションでは、非矩形関心領域(ROIs)に関する新しい微粒化セグメンテーション法を開発する。 自然形ROIは、異なる重複するインスタンスのセグメンテーションにおけるあいまいさを低減するために、現在のフレームの隣のフレームからガイドされた注意を施すことによって生成される。 前方のマスクの伝播に続いて後方のマスクの伝播が続き、再出現したインスタンス、高速動作、閉塞、重変形による欠落したインスタンスフラグメントを復元する。 最後に、各フレームのインスタンスは、その深さ値に基づいてマージされる。 DAVIS Test-Challengeデータセットを用いて実験を行い,提案手法の有効性を実証した。 DAVISチャレンジ2017-2019では,世界得点,地域類似度,輪郭精度の点でそれぞれ75.4%,72.4%,78.4%の順調に3位となった。

In this paper, we propose Contextual Guided Segmentation (CGS) framework for video instance segmentation in three passes. In the first pass, i.e., preview segmentation, we propose Instance Re-Identification Flow to estimate main properties of each instance (i.e., human/non-human, rigid/deformable, known/unknown category) by propagating its preview mask to other frames. In the second pass, i.e., contextual segmentation, we introduce multiple contextual segmentation schemes. For human instance, we develop skeleton-guided segmentation in a frame along with object flow to correct and refine the result across frames. For non-human instance, if the instance has a wide variation in appearance and belongs to known categories (which can be inferred from the initial mask), we adopt instance segmentation. If the non-human instance is nearly rigid, we train FCNs on synthesized images from the first frame of a video sequence. In the final pass, i.e., guided segmentation, we develop a novel fined-grained segmentation method on non-rectangular regions of interest (ROIs). The natural-shaped ROI is generated by applying guided attention from the neighbor frames of the current one to reduce the ambiguity in the segmentation of different overlapping instances. Forward mask propagation is followed by backward mask propagation to further restore missing instance fragments due to re-appeared instances, fast motion, occlusion, or heavy deformation. Finally, instances in each frame are merged based on their depth values, together with human and non-human object interaction and rare instance priority. Experiments conducted on the DAVIS Test-Challenge dataset demonstrate the effectiveness of our proposed framework. We achieved the 3rd consistently in the DAVIS Challenges 2017-2019 with 75.4%, 72.4%, and 78.4% in terms of global score, region similarity, and contour accuracy, respectively.
翻訳日:2021-06-09 13:18:27 公開日:2021-06-07
# (参考訳) 方向学習による広ベース相対カメラポーズ推定 [全文訳有]

Wide-Baseline Relative Camera Pose Estimation with Directional Learning ( http://arxiv.org/abs/2106.03336v1 )

ライセンス: CC BY 4.0
Kefan Chen, Noah Snavely, Ameesh Makadia(参考訳) 2つの画像間の相対的なカメラのポーズを遅らせる現代のディープラーニング技術は、大きなカメラの動きや、画像間の重複をほとんど残さない視点の著しい変化など、困難なシナリオを扱うのに苦労している。 これらのモデルは、大規模な教師付きトレーニングデータセットの恩恵を受けても、引き続き苦労している。 これらのモデルの限界に対処するために,キーポイント位置の離散分布を推定することにより,キーポイント位置を2次元および3次元で後退させる手法から着想を得た。 同様に,本稿では,カメラポーズの離散分布を予測してカメラポーズ回帰を改善する。 そこで本研究では, 5次元相対ポーズ空間上の離散分布を新しいパラメータ化を用いて推定し, 推定問題を扱いやすくする方向ネットを提案する。 具体的には、3d回転と翻訳方向によって特定される相対カメラポーズを、一連の3d方向ベクトルに分解する。 3次元方向は球面上の点と同一視できるため、DirectionNetは球面上の離散分布をその出力として推定する。 本研究では,matterport3d と interiornet から構築した合成および実ポーズ推定データセットに関するモデルを評価する。 その結果, 直接回帰法よりも50%近い誤差が減少した。

Modern deep learning techniques that regress the relative camera pose between two images have difficulty dealing with challenging scenarios, such as large camera motions resulting in occlusions and significant changes in perspective that leave little overlap between images. These models continue to struggle even with the benefit of large supervised training datasets. To address the limitations of these models, we take inspiration from techniques that show regressing keypoint locations in 2D and 3D can be improved by estimating a discrete distribution over keypoint locations. Analogously, in this paper we explore improving camera pose regression by instead predicting a discrete distribution over camera poses. To realize this idea, we introduce DirectionNet, which estimates discrete distributions over the 5D relative pose space using a novel parameterization to make the estimation problem tractable. Specifically, DirectionNet factorizes relative camera pose, specified by a 3D rotation and a translation direction, into a set of 3D direction vectors. Since 3D directions can be identified with points on the sphere, DirectionNet estimates discrete distributions on the sphere as its output. We evaluate our model on challenging synthetic and real pose estimation datasets constructed from Matterport3D and InteriorNet. Promising results show a near 50% reduction in error over direct regression methods.
翻訳日:2021-06-09 13:01:27 公開日:2021-06-07
# (参考訳) パラメータフリー統計連立補間:ヒルベルト核回帰のための次元非依存収束速度 [全文訳有]

Parameter-free Statistically Consistent Interpolation: Dimension-independen t Convergence Rates for Hilbert kernel regression ( http://arxiv.org/abs/2106.03354v1 )

ライセンス: CC BY 4.0
Partha P Mitra and Cl\'ement Sire(参考訳) これまで、統計教科書の知恵では、補間データの一般化は不十分であると考えられてきたが、最近の研究では、データの補間スキームがうまく一般化できることが示されている。 これは、過剰パラメータのディープネットが必ずしも過剰に適合しない理由を説明できる。 大規模データの任意の次元における過剰リスクの理論的下限を達成するための最適データ補間スキームが示されている(統計的に一貫性補間)。 これらは特異核を持つ非パラメトリックなナダラヤ・ワトソン推定器である。 最近提案された重み付き補間近接補間法(wiNN)は、前述のヒルベルト核補間スキームと同様に、推定器が $\hat{f}(x)=\sum_i y_i w_i(x)$, ここで$w_i(x)= \|x-x_i\|^{-d}/\sum_j \|x-x_j\|^{-d}$ である。 この推定器は完全にパラメータフリーであることに特有である。 統計的一貫性は以前は証明されていたが、収束速度は確立されなかった。 ここでは、ヒルベルト核回帰の有限サンプル特性を包括的に研究する。 我々は余剰リスクが漸近的に$\sigma^2(x)/\ln(n)$に等しいことを証明している。 プラグイン分類器の過剰なリスクは、2|f(x)-1/2|^{1-\alpha}\,(1+\varepsilon)^\alpha \sigma^\alpha(x)(\ln(n))^{-\frac{\alpha}{2}}$、任意の$0<\alpha<1$、ただし$f$ は回帰関数 $x\mapsto\mathbb{e}[y|x]$ である。 例えば $\beta>1$, $\mathbb{E}[w_i^{\beta}(x)]\sim_{n\rightarrow \infty}((\beta-1)n\ln(n))^{-1}$ である。 我々はラグランジュ函数に対する漸近同値を求め、この推定子の非自明な外挿特性を示す。 我々は、大きな$n$極限における重みの確率密度の普遍的w^{-2}$パワーロー挙動に関するヒューリスティックな議論を示す。

Previously, statistical textbook wisdom has held that interpolating noisy data will generalize poorly, but recent work has shown that data interpolation schemes can generalize well. This could explain why overparameterized deep nets do not necessarily overfit. Optimal data interpolation schemes have been exhibited that achieve theoretical lower bounds for excess risk in any dimension for large data (Statistically Consistent Interpolation). These are non-parametric Nadaraya-Watson estimators with singular kernels. The recently proposed weighted interpolating nearest neighbors method (wiNN) is in this class, as is the previously studied Hilbert kernel interpolation scheme, in which the estimator has the form $\hat{f}(x)=\sum_i y_i w_i(x)$, where $w_i(x)= \|x-x_i\|^{-d}/\sum_j \|x-x_j\|^{-d}$. This estimator is unique in being completely parameter-free. While statistical consistency was previously proven, convergence rates were not established. Here, we comprehensively study the finite sample properties of Hilbert kernel regression. We prove that the excess risk is asymptotically equivalent pointwise to $\sigma^2(x)/\ln(n)$ where $\sigma^2(x)$ is the noise variance. We show that the excess risk of the plugin classifier is less than $2|f(x)-1/2|^{1-\alpha}\,(1+\varepsilon)^\alpha \sigma^\alpha(x)(\ln(n))^{-\frac{\alpha}{2}}$, for any $0<\alpha<1$, where $f$ is the regression function $x\mapsto\mathbb{E}[y|x]$. We derive asymptotic equivalents of the moments of the weight functions $w_i(x)$ for large $n$, for instance for $\beta>1$, $\mathbb{E}[w_i^{\beta}(x)]\sim_{n\rightarrow \infty}((\beta-1)n\ln(n))^{-1}$. We derive an asymptotic equivalent for the Lagrange function and exhibit the nontrivial extrapolation properties of this estimator. We present heuristic arguments for a universal $w^{-2}$ power-law behavior of the probability density of the weights in the large $n$ limit.
翻訳日:2021-06-09 11:28:05 公開日:2021-06-07
# (参考訳) ベイズ最適性に対する最先端分類モデルの評価 [全文訳有]

Evaluating State-of-the-Art Classification Models Against Bayes Optimality ( http://arxiv.org/abs/2106.03357v1 )

ライセンス: CC BY 4.0
Ryan Theisen, Huan Wang, Lav R. Varshney, Caiming Xiong, Richard Socher(参考訳) データ駆動型分類問題の本質的困難さを評価することは、絶対的なベンチマークを確立し、その分野の進歩を評価するために重要である。 この目的のために考慮すべき自然な量は、与えられたデータ分布に対して理論的に達成可能な最適分類誤差を測定する \emph{bayes error} である。 一般に難解な量であるが、正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。 この手法は、ベイズ誤差が可逆変換の下で不変であることを示す基本的な結果に依存する。 したがって,ホームズ・ダイアコニス・ロス積分を用いて効率的なガウス基底分布を求めることにより,学習フローモデルの正確なベイズ誤差を計算することができる。 さらに, 学習フローモデルの温度を変化させることで, 標準ベンチマークデータセットによく似ているが, ほぼ所望のベイズ誤差を伴う合成データセットを生成できることを示した。 当社のアプローチは最先端の分類モデルの徹底的な調査に使用し、いくつかの(しかしすべてではない)ケースにおいて、これらのモデルが極めて最適に近い精度を得ることができることを見出します。 最後に,本手法を用いて標準ベンチマークデータセットの固有「硬度」とそれらのデータセット内のクラスを評価する。

Evaluating the inherent difficulty of a given data-driven classification problem is important for establishing absolute benchmarks and evaluating progress in the field. To this end, a natural quantity to consider is the \emph{Bayes error}, which measures the optimal classification error theoretically achievable for a given data distribution. While generally an intractable quantity, we show that we can compute the exact Bayes error of generative models learned using normalizing flows. Our technique relies on a fundamental result, which states that the Bayes error is invariant under invertible transformation. Therefore, we can compute the exact Bayes error of the learned flow models by computing it for Gaussian base distributions, which can be done efficiently using Holmes-Diaconis-Ross integration. Moreover, we show that by varying the temperature of the learned flow models, we can generate synthetic datasets that closely resemble standard benchmark datasets, but with almost any desired Bayes error. We use our approach to conduct a thorough investigation of state-of-the-art classification models, and find that in some -- but not all -- cases, these models are capable of obtaining accuracy very near optimal. Finally, we use our method to evaluate the intrinsic "hardness" of standard benchmark datasets, and classes within those datasets.
翻訳日:2021-06-09 10:45:26 公開日:2021-06-07
# (参考訳) LAWDR:事前学習モデルによる言語に依存しない重み付き文書表現 [全文訳有]

LAWDR: Language-Agnostic Weighted Document Representations from Pre-trained Models ( http://arxiv.org/abs/2106.03379v1 )

ライセンス: CC BY 4.0
Hongyu Gong, Vishrav Chaudhary, Yuqing Tang, Francisco Guzm\'an(参考訳) 言語間文書表現は、多言語文脈における言語理解を可能にし、文書レベルで高リソース言語から低リソース言語へのトランスファー学習を可能にする。 近年,BERT,XLM,XLM-RoBERT aといった大規模事前学習型言語モデルは,文レベルの下流タスクを微調整することで大きな成功を収めている。 これらの言語横断モデルを文書表現学習に適用する誘惑がある。 しかし、2つの課題がある:(1)これらのモデルが長い文書処理に高コストを課すため、その多くは厳密な長さ制限がある;(2)モデル微調整には余分なデータと計算資源が必要であり、リソース制限の設定では実用的ではない。 本稿では,教師なし言語非依存の重み付き文書表現(lawdr)を提案することで,これらの課題を解決する。 事前学習された文埋め込みの幾何学を研究し,それを微調整せずに文書表現を導出する。 言語間の文書アライメントを評価することで、LAWDRはベンチマークデータセットの最先端モデルに匹敵するパフォーマンスを示す。

Cross-lingual document representations enable language understanding in multilingual contexts and allow transfer learning from high-resource to low-resource languages at the document level. Recently large pre-trained language models such as BERT, XLM and XLM-RoBERTa have achieved great success when fine-tuned on sentence-level downstream tasks. It is tempting to apply these cross-lingual models to document representation learning. However, there are two challenges: (1) these models impose high costs on long document processing and thus many of them have strict length limit; (2) model fine-tuning requires extra data and computational resources, which is not practical in resource-limited settings. In this work, we address these challenges by proposing unsupervised Language-Agnostic Weighted Document Representations (LAWDR). We study the geometry of pre-trained sentence embeddings and leverage it to derive document representations without fine-tuning. Evaluated on cross-lingual document alignment, LAWDR demonstrates comparable performance to state-of-the-art models on benchmark datasets.
翻訳日:2021-06-09 10:32:33 公開日:2021-06-07
# (参考訳) 何を聞いたか... フィンランドニュースにおけるうわさ検出:データセットとベースライン [全文訳有]

Never guess what I heard... Rumor Detection in Finnish News: a Dataset and a Baseline ( http://arxiv.org/abs/2106.03389v1 )

ライセンス: CC BY 4.0
Mika H\"am\"al\"ainen, Khalid Alnajjar, Niko Partanen, Jack Rueter(参考訳) 本研究は,フィンランド語ニュースの見出しにおいて,うわさ検出に関する新しいデータセットを提示する。 2つのLSTMモデルと2つのBERTモデルを評価し,結果に大きな違いが認められた。 微調整のFiinBERTは94.3%の精度で、噂のラベルの精度は96.0%に達する。 しかし、Multilingual BERTで微調整されたモデルでは97.2%の精度でラベルが付けられている。 結果から,性能差はトレーニングデータの違いによるものであることが示唆された。 さらに、通常のLSTMモデルは、事前訓練されたワード2vecモデルで訓練されたモデルよりもうまく機能することがわかった。 これらの結果は、フィンランド語で事前訓練されたモデルに対して、小さく偏りのあるコーパスで訓練されたため、より多くの作業を行う必要があることを示唆している。

This study presents a new dataset on rumor detection in Finnish language news headlines. We have evaluated two different LSTM based models and two different BERT models, and have found very significant differences in the results. A fine-tuned FinBERT reaches the best overall accuracy of 94.3% and rumor label accuracy of 96.0% of the time. However, a model fine-tuned on Multilingual BERT reaches the best factual label accuracy of 97.2%. Our results suggest that the performance difference is due to a difference in the original training data. Furthermore, we find that a regular LSTM model works better than one trained with a pretrained word2vec model. These findings suggest that more work needs to be done for pretrained models in Finnish language as they have been trained on small and biased corpora.
翻訳日:2021-06-09 10:20:18 公開日:2021-06-07
# (参考訳) Apurin\~a Universal Dependencies Treebank [全文訳有]

Apurin\~a Universal Dependencies Treebank ( http://arxiv.org/abs/2106.03391v1 )

ライセンス: CC BY 4.0
Jack Rueter, Mar\'ilia Fernanda Pereira de Freitas, Sidney da Silva Facundes, Mika H\"am\"al\"ainen, Niko Partanen(参考訳) 本稿では,アプリン・ア言語における最初のユニバーサル依存ツリーバンクについて論じる。 ツリーバンクには76の注釈文が含まれており、14のパート・オブ・スパイチと7つの拡張または新機能が適用される。 ツリーバンクの構築は、言語の有限状態記述を開発し、オープンソースのインフラストラクチャ可能性のAmazonの絶滅危惧言語への移行を促進する機会にもなっている。 最初のツリーバンクで使われるソース資料は、すべての文のすべてのトークンが等しくアノテートされていないフィールドワークのプラクティスを表している。 このため、apurin\~aツリーバンク全体に対して通常のアノテーションプラクティスを確立することは進行中のプロジェクトである。

This paper presents and discusses the first Universal Dependencies treebank for the Apurin\~a language. The treebank contains 76 fully annotated sentences, applies 14 parts-of-speech, as well as seven augmented or new features - some of which are unique to Apurin\~a. The construction of the treebank has also served as an opportunity to develop finite-state description of the language and facilitate the transfer of open-source infrastructure possibilities to an endangered language of the Amazon. The source materials used in the initial treebank represent fieldwork practices where not all tokens of all sentences are equally annotated. For this reason, establishing regular annotation practices for the entire Apurin\~a treebank is an ongoing project.
翻訳日:2021-06-09 10:11:08 公開日:2021-06-07
# (参考訳) サンプルからのネットワーク推論と影響最大化 [全文訳有]

Network Inference and Influence Maximization from Samples ( http://arxiv.org/abs/2106.03403v1 )

ライセンス: CC BY 4.0
Wei Chen, Xiaoming Sun, Jialin Zhang, Zhijie Zhang(参考訳) 影響最大化は,これらの種子の拡散を最大化するために,ソーシャルネットワーク内の少数の種子ノードを選択する作業であり,過去20年間に広く研究されてきた。 標準設定では、ソーシャルネットワーク全体とその拡散パラメータが入力として与えられる。 本稿では,ネットワークが未知である,より現実的なサンプリング設定を検討し,各拡散ステップでアクティブノードの集合を記録するパッシブ観測カスケードのセットのみを有する。 これらのカスケード試料 (ims) からの影響最大化の課題について検討し, 種子集合分布の穏やかな条件下での近似アルゴリズムを提案する。 最適化目標を達成するために,ネットワーク推論問題,すなわち,カスケードデータから拡散パラメータとネットワーク構造を学習する新たなソリューションを提供する。 従来の手法と比較して,ネットワーク推論アルゴリズムでは仮定が弱く,最大線量推定や凸計画に頼らない。 我々のIMSアルゴリズムは、拡散パラメータが学習困難である場合でも一定の近似比を許容し、ネットワーク構造や拡散パラメータに関する仮定を必要とせず、学習と最適化のアプローチを強化する。

Influence maximization is the task of selecting a small number of seed nodes in a social network to maximize the spread of the influence from these seeds, and it has been widely investigated in the past two decades. In the canonical setting, the whole social network as well as its diffusion parameters is given as input. In this paper, we consider the more realistic sampling setting where the network is unknown and we only have a set of passively observed cascades that record the set of activated nodes at each diffusion step. We study the task of influence maximization from these cascade samples (IMS), and present constant approximation algorithms for this task under mild conditions on the seed set distribution. To achieve the optimization goal, we also provide a novel solution to the network inference problem, that is, learning diffusion parameters and the network structure from the cascade data. Comparing with prior solutions, our network inference algorithm requires weaker assumptions and does not rely on maximum-likelihood estimation and convex programming. Our IMS algorithms enhance the learning-and-then-op timization approach by allowing a constant approximation ratio even when the diffusion parameters are hard to learn, and we do not need any assumption related to the network structure or diffusion parameters.
翻訳日:2021-06-09 10:01:58 公開日:2021-06-07
# (参考訳) スケール空間理論を用いた深層畳み込みネットワークの解像学習 [全文訳有]

Resolution learning in deep convolutional networks using scale-space theory ( http://arxiv.org/abs/2106.03412v1 )

ライセンス: CC BY 4.0
Silvia L.Pintea and Nergis Tomen and Stanley F. Goes and Marco Loog and Jan C. van Gemert(参考訳) 深層畳み込みニューラルネットワーク(cnns)の分解能は、通常、フィルタサイズを通じて受容場サイズに制限され、特徴地図上のレイヤーまたはストレート畳み込みをサブサンプリングする。 最適な解像度はデータセットによって大きく異なる可能性がある。 現代のCNNは、そのようなハイパーパラメータのチューニングを煩雑にするネットワークアーキテクチャにおいて、その解像度のハイパーパラメータをハードコードしている。 我々は、ハードコードされた解像度ハイパーパラメータを廃止し、データから適切な解像度を学ぶことを提案する。 スケール空間理論を用いてフィルタの自己相似パラメトリゼーションを求め、ガウス微分フィルタの学習的組み合わせによりフィルタを近似するために、N-Jet: truncated Taylor級数を用いる。 ガウス基底のパラメータ {\sigma} は、フィルタが符号化する詳細度とフィルタの空間的範囲の両方を制御する。 {\sigma} は連続パラメータであるため、損失に関して最適化することができる。 提案したN-Jetレイヤは,各レイヤの解像度を自動的に学習しながら,最先端のアーキテクチャで使用する場合と同等のパフォーマンスを実現する。 我々はN-Jet層を分類とセグメンテーションの両方で評価し、学習は複数のサイズの入力に対して特に有益であることを示す。

Resolution in deep convolutional neural networks (CNNs) is typically bounded by the receptive field size through filter sizes, and subsampling layers or strided convolutions on feature maps. The optimal resolution may vary significantly depending on the dataset. Modern CNNs hard-code their resolution hyper-parameters in the network architecture which makes tuning such hyper-parameters cumbersome. We propose to do away with hard-coded resolution hyper-parameters and aim to learn the appropriate resolution from data. We use scale-space theory to obtain a self-similar parametrization of filters and make use of the N-Jet: a truncated Taylor series to approximate a filter by a learned combination of Gaussian derivative filters. The parameter {\sigma} of the Gaussian basis controls both the amount of detail the filter encodes and the spatial extent of the filter. Since {\sigma} is a continuous parameter, we can optimize it with respect to the loss. The proposed N-Jet layer achieves comparable performance when used in state-of-the art architectures, while learning the correct resolution in each layer automatically. We evaluate our N-Jet layer on both classification and segmentation, and we show that learning {\sigma} is especially beneficial for inputs at multiple sizes.
翻訳日:2021-06-09 09:38:42 公開日:2021-06-07
# (参考訳) 障害関数と正規化器の比較による解釈可能な機械学習の自動化 [全文訳有]

Automation for Interpretable Machine Learning Through a Comparison of Loss Functions to Regularisers ( http://arxiv.org/abs/2106.03428v1 )

ライセンス: CC BY 4.0
A. I. Parkes, J. Camilleri, D. A. Hudson and A. J. Sobey(参考訳) 機械学習の普及のためには、自動化する必要がある。 自動化はコスト効率が良いため、専門家がアプローチのチューニングに費やす時間が少なくなり、開発時間が短縮される。 しかし、この自動化は高度に正確なアーキテクチャを生み出すが、それらは解釈不可能であり、従来のエラーが少ないが、基礎となる入出力関係をモデル化できない'ブラックボックス'として振る舞うことができる。 本稿では,機械学習の回帰自動化におけるFit to Median Error測度の利用について,基底真実の近似を改善するために進化的計算を用いて検討する。 従来の誤差測定と併用すると、条件付き中央値に対する学習された入出力関係を規則化することにより、解釈性が向上する。 Fit to Median Errorの使用により、より一貫性のある入出力関係をモデル化する回帰ニューラルネットワークが生成されることを示すために、従来の正規化システムと比較される。 問題は、自然に非常に確率的な、省燃性空気潤滑システムを用いた船舶の電力予測である。 Fit to Median Error に最適化されたネットワークは、従来の Minkowski-r エラー値を犠牲にすることなく、より一貫して基底真理を近似することが示されている。

To increase the ubiquity of machine learning it needs to be automated. Automation is cost-effective as it allows experts to spend less time tuning the approach, which leads to shorter development times. However, while this automation produces highly accurate architectures, they can be uninterpretable, acting as `black-boxes' which produce low conventional errors but fail to model the underlying input-output relationships -- the ground truth. This paper explores the use of the Fit to Median Error measure in machine learning regression automation, using evolutionary computation in order to improve the approximation of the ground truth. When used alongside conventional error measures it improves interpretability by regularising learnt input-output relationships to the conditional median. It is compared to traditional regularisers to illustrate that the use of the Fit to Median Error produces regression neural networks which model more consistent input-output relationships. The problem considered is ship power prediction using a fuel-saving air lubrication system, which is highly stochastic in nature. The networks optimised for their Fit to Median Error are shown to approximate the ground truth more consistently, without sacrificing conventional Minkowski-r error values.
翻訳日:2021-06-09 09:13:23 公開日:2021-06-07
# (参考訳) 抽象的要約蒸留における注意温度 [全文訳有]

Attention Temperature Matters in Abstractive Summarization Distillation ( http://arxiv.org/abs/2106.03441v1 )

ライセンス: CC BY 4.0
Shengqiang Zhang, Xingxing Zhang, Hangbo Bao, Furu Wei(参考訳) 最近の抽象的テキスト要約の進歩は、計算コストが高い大きな事前学習されたシーケンス・ツー・シーケンストランスフォーマーモデルに大きく依存している。 本稿では,これらの大規模モデルをより高速な推論と最小性能損失のために,より小さなモデルに蒸留することを目的とする。 擬似ラベル法はシーケンス・ツー・シーケンス・モデル蒸留でよく用いられる。 本稿では,変圧器の注意温度を簡易に操作することで,学生モデルの学習が容易になることを示す。 3つの要約データセットを用いた実験により,提案手法がバニラ擬似ラベルベース手法を一貫して改善することを示す。 また,学生が作成した疑似ラベルと要約が,より短く,より抽象的であることもわかった。 コードとモデルを一般公開する予定です。

Recent progress of abstractive text summarization largely relies on large pre-trained sequence-to-sequence Transformer models, which are computationally expensive. This paper aims to distill these large models into smaller ones for faster inference and minimal performance loss. Pseudo-labeling based methods are popular in sequence-to-sequence model distillation. In this paper, we find simply manipulating attention temperatures in Transformers can make pseudo labels easier to learn for student models. Our experiments on three summarization datasets show our proposed method consistently improves over vanilla pseudo-labeling based methods. We also find that both the pseudo labels and summaries produced by our students are shorter and more abstractive. We will make our code and models publicly available.
翻訳日:2021-06-09 08:58:07 公開日:2021-06-07
# (参考訳) BayesIMP: 因果データ融合の不確実性定量化 [全文訳有]

BayesIMP: Uncertainty Quantification for Causal Data Fusion ( http://arxiv.org/abs/2106.03477v1 )

ライセンス: CC BY 4.0
Siu Lun Chau, Jean-Fran\c{c}ois Ton, Javier Gonz\'alez, Yee Whye Teh, Dino Sejdinovic(参考訳) 因果モデルが機械学習の主流となっている一方で、因果推論の不確実性定量化の問題はまだ難しい。 本稿では,複数の因果グラフに関連するデータセットを組み合わせて,対象変数の平均処理効果を推定する因果データ融合問題について検討する。 複数のソースからデータが生まれ、品質と量が異なるため、原理不確かさの定量化が不可欠となる。 そこで我々は,確率積分とカーネル平均埋め込みのアイデアを組み合わせて,各因果グラフ内の不確実性を考慮しつつ,再生されたカーネルヒルベルト空間内の干渉分布を表現する枠組みであるBayesian Interventional Mean Processesを紹介する。 不確実性推定の有用性を示すために,本手法を因果ベイズ最適化タスクに適用し,最先端手法に対する改善を示す。

While causal models are becoming one of the mainstays of machine learning, the problem of uncertainty quantification in causal inference remains challenging. In this paper, we study the causal data fusion problem, where datasets pertaining to multiple causal graphs are combined to estimate the average treatment effect of a target variable. As data arises from multiple sources and can vary in quality and quantity, principled uncertainty quantification becomes essential. To that end, we introduce Bayesian Interventional Mean Processes, a framework which combines ideas from probabilistic integration and kernel mean embeddings to represent interventional distributions in the reproducing kernel Hilbert space, while taking into account the uncertainty within each causal graph. To demonstrate the utility of our uncertainty estimation, we apply our method to the Causal Bayesian Optimisation task and show improvements over state-of-the-art methods.
翻訳日:2021-06-09 08:41:46 公開日:2021-06-07
# (参考訳) 表情認識のためのグラフ畳み込みネットワークによる感情依存の爆発 [全文訳有]

Exploiting Emotional Dependencies with Graph Convolutional Networks for Facial Expression Recognition ( http://arxiv.org/abs/2106.03487v1 )

ライセンス: CC BY 4.0
Panagiotis Antoniadis, Panagiotis P. Filntisis, Petros Maragos(参考訳) 近年,顔表情の自動認識(FER)など,多くの顔関連タスクにおいて,ディープラーニング手法が顕著な成果を上げている。 一方で、人間の感情状態を記述する多くのモデルが心理学コミュニティによって提案されている。 しかし、どの表現がより適切かという明確な証拠はなく、FER系の大半は、影響のカテゴリー的あるいは次元的モデルを用いている。 マルチラベル分類における最近の研究に触発されて,グラフ畳み込みネットワーク (GCN) を用いて2つのモデル間の依存関係を利用して表情を認識する,新しいマルチタスク学習(MTL)フレームワークを提案する。 特に、mtl設定における離散認識と連続認識の両方において共有特徴表現が学習される。 さらに、顔の表情分類器とvalence-arousal regressorは、それらの間の依存関係を明示的にキャプチャするgcnを通して学習される。 実環境下での手法の性能を評価するため,AffectNetデータセット上でモデルをトレーニングする。 実験の結果,本手法は離散ferの最先端手法よりも優れていることがわかった。

Over the past few years, deep learning methods have shown remarkable results in many face-related tasks including automatic facial expression recognition (FER) in-the-wild. Meanwhile, numerous models describing the human emotional states have been proposed by the psychology community. However, we have no clear evidence as to which representation is more appropriate and the majority of FER systems use either the categorical or the dimensional model of affect. Inspired by recent work in multi-label classification, this paper proposes a novel multi-task learning (MTL) framework that exploits the dependencies between these two models using a Graph Convolutional Network (GCN) to recognize facial expressions in-the-wild. Specifically, a shared feature representation is learned for both discrete and continuous recognition in a MTL setting. Moreover, the facial expression classifiers and the valence-arousal regressors are learned through a GCN that explicitly captures the dependencies between them. To evaluate the performance of our method under real-world conditions we train our models on AffectNet dataset. The results of our experiments show that our method outperforms the current state-of-the-art methods on discrete FER.
翻訳日:2021-06-09 08:06:15 公開日:2021-06-07
# (参考訳) オンボード映像を用いたグローバル知覚と幾何学的スムースネスを利用した自己教師付き深さ推定 [全文訳有]

Self-supervised Depth Estimation Leveraging Global Perception and Geometric Smoothness Using On-board Videos ( http://arxiv.org/abs/2106.03505v1 )

ライセンス: CC BY 4.0
Shaocheng Jia, Xin Pei, Wei Yao and S.C. Wong(参考訳) 近年,ラベル付きデータではなく画像シーケンスを必要とするため,自己教師付き深度推定が注目されている。 さらに、自律運転、ロボット工学、現実的なナビゲーション、スマートシティなど、さまざまなアプリケーションで使用することができる。 しかし、画像からグローバルな文脈情報を抽出し、幾何学的に自然な深度マップを予測することは依然として困難である。 本稿では,Linformerブロックを用いてグローバルな特徴と局所的な特徴を同時に抽出する,画素単位の深度推定のためのDLNetを提案する。 このブロックはLinformerと革新的なソフトスプリット多層パーセプトロンブロックで構成されている。 さらに, 予測された3次元点雲に2階の滑らかさ制約を課し, 副生成物としての性能向上を実現することにより, 幾何学的に自然な深度マップを予測できる3次元形状の滑らかさ損失を提案する。 最後に,マルチスケール予測戦略を検討し,性能向上のための最大マージンデュアルスケール予測戦略を提案する。 KITTI と Make3D ベンチマークの実験では,提案した DLNet は最先端の手法に比較して性能を向上し,時間と空間の複雑さをそれぞれ 62\%$ と 56\%$ に削減した。 実世界の様々な状況における広範囲なテストは、提案モデルの強力な実用性と一般化能力を示す。

Self-supervised depth estimation has drawn much attention in recent years as it does not require labeled data but image sequences. Moreover, it can be conveniently used in various applications, such as autonomous driving, robotics, realistic navigation, and smart cities. However, extracting global contextual information from images and predicting a geometrically natural depth map remain challenging. In this paper, we present DLNet for pixel-wise depth estimation, which simultaneously extracts global and local features with the aid of our depth Linformer block. This block consists of the Linformer and innovative soft split multi-layer perceptron blocks. Moreover, a three-dimensional geometry smoothness loss is proposed to predict a geometrically natural depth map by imposing the second-order smoothness constraint on the predicted three-dimensional point clouds, thereby realizing improved performance as a byproduct. Finally, we explore the multi-scale prediction strategy and propose the maximum margin dual-scale prediction strategy for further performance improvement. In experiments on the KITTI and Make3D benchmarks, the proposed DLNet achieves performance competitive to those of the state-of-the-art methods, reducing time and space complexities by more than $62\%$ and $56\%$, respectively. Extensive testing on various real-world situations further demonstrates the strong practicality and generalization capability of the proposed model.
翻訳日:2021-06-09 08:04:32 公開日:2021-06-07
# (参考訳) 位置バイアス軽減:感情分析のための知識認識グラフモデル [全文訳有]

Position Bias Mitigation: A Knowledge-Aware Graph Model for EmotionCause Extraction ( http://arxiv.org/abs/2106.03518v1 )

ライセンス: CC BY 4.0
Hanqi Yan, Lin Gui, Gabriele Pergola, Yulan He(参考訳) 感情原因抽出(ECE)タスクは、テキストで表現された特定の感情に対する感情誘発情報を含む節を特定することを目的としている。 広く使われているCEデータセットは、注釈付き原因節の大多数が関連する感情節の直前にあるか、あるいは感情節自体である、というバイアスを示す。 ECEの既存のモデルは、そのような相対的な位置情報を探索し、データセットバイアスに悩まされる傾向がある。 本研究では,既存のCEモデルが節の相対的な位置に依存する度合いを調べるために,相対的な位置情報がもはや原因節の指示的特徴ではない敵の例を生成する新しい手法を提案する。 既存のモデルの性能をこのような逆例で検証し、大幅な性能低下を観察する。 データセットのバイアスに対処するために,コモンセンス知識を活用して感情のトリガパスを明示的にモデル化し,候補節と感情節間の意味依存度を高めるグラフベース手法を提案する。 実験の結果,提案手法は従来のECEデータセットの既存手法と同等に動作し,既存モデルと比較して敵攻撃に対してより堅牢であることがわかった。

The Emotion Cause Extraction (ECE)} task aims to identify clauses which contain emotion-evoking information for a particular emotion expressed in text. We observe that a widely-used ECE dataset exhibits a bias that the majority of annotated cause clauses are either directly before their associated emotion clauses or are the emotion clauses themselves. Existing models for ECE tend to explore such relative position information and suffer from the dataset bias. To investigate the degree of reliance of existing ECE models on clause relative positions, we propose a novel strategy to generate adversarial examples in which the relative position information is no longer the indicative feature of cause clauses. We test the performance of existing models on such adversarial examples and observe a significant performance drop. To address the dataset bias, we propose a novel graph-based method to explicitly model the emotion triggering paths by leveraging the commonsense knowledge to enhance the semantic dependencies between a candidate clause and an emotion clause. Experimental results show that our proposed approach performs on par with the existing state-of-the-art methods on the original ECE dataset, and is more robust against adversarial attacks compared to existing models.
翻訳日:2021-06-09 07:38:55 公開日:2021-06-07
# (参考訳) RedditBias:会話型言語モデルのバイアス評価とデバイアスのための実世界のリソース [全文訳有]

RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of Conversational Language Models ( http://arxiv.org/abs/2106.03521v1 )

ライセンス: CC BY-SA 4.0
Soumya Barikeri, Anne Lauscher, Ivan Vuli\'c, and Goran Glava\v{s}(参考訳) テキスト表現モデルは、基礎となる事前学習データの非制御的かつ偏った性質を反映して、幅広い社会バイアスを示す傾向にあり、結果として厳しい倫理的問題やバイアス増幅につながる。 最近の研究は主に、事前訓練された言語モデルのバイアスの測定と緩和に焦点を当てている。 驚いたことに、会話型言語モデルのためのバイアス測定と緩和リソースと手法の展望は、まだ非常に乏しく、少数の種類のバイアスに限られており、人工的に構築されたリソースに限られており、会話型応答生成のようなダイアログタスクの最終的なパフォーマンスにデバイアス手法が与える影響を完全に無視している。 本研究では,redditの実際の会話に基礎を置いた最初の会話データであるredditbiasを提示し,性別,人種,宗教,クィアネスという4つの重要なバイアス次元におけるバイアス測定と緩和を可能にする。 さらに,1)開発したRedditBiasリソースのバイアスを同時に測定する評価フレームワークを開発し,2)モデルデバイアス後のダイアログタスクにおけるモデル能力を評価する。 評価フレームワークを用いて、広く使われている対話型ダイアロGPTモデルと4つのデバイアス手法の適応をベンチマークする。 以上の結果から,DialoGPTは宗教団体に偏りがあり,下流のタスク性能を保ちながら,偏りを除去する手法もあることが示唆された。

Text representation models are prone to exhibit a range of societal biases, reflecting the non-controlled and biased nature of the underlying pretraining data, which consequently leads to severe ethical issues and even bias amplification. Recent work has predominantly focused on measuring and mitigating bias in pretrained language models. Surprisingly, the landscape of bias measurements and mitigation resources and methods for conversational language models is still very scarce: it is limited to only a few types of bias, artificially constructed resources, and completely ignores the impact that debiasing methods may have on the final performance in dialog tasks, e.g., conversational response generation. In this work, we present RedditBias, the first conversational data set grounded in the actual human conversations from Reddit, allowing for bias measurement and mitigation across four important bias dimensions: gender, race, religion, and queerness. Further, we develop an evaluation framework which simultaneously 1) measures bias on the developed RedditBias resource, and 2) evaluates model capability in dialog tasks after model debiasing. We use the evaluation framework to benchmark the widely used conversational DialoGPT model along with the adaptations of four debiasing methods. Our results indicate that DialoGPT is biased with respect to religious groups and that some debiasing techniques can remove this bias while preserving downstream task performance.
翻訳日:2021-06-09 07:22:30 公開日:2021-06-07
# (参考訳) ホームクラスタ付きフリーチョイスネットはルーセント [全文訳有]

Free-Choice Nets With Home Clusters Are Lucent ( http://arxiv.org/abs/2106.03554v1 )

ライセンス: CC BY 4.0
Wil M.P. van der Aalst(参考訳) マークされたペトリネットは、2つの異なる到達可能なマーキングがなく、同じ遷移の集合、すなわち状態がそれらを可能にする遷移によって完全に特徴づけられる場合、光沢がある。 華やかなシステムのクラスを特徴づけることは、基礎的かつ挑戦的な問題である。 しかし、この話題に関する研究はほとんど行われていない。 本稿では,ホームクラスタを有するすべての自由選択ネットがキラキラであることを示す。 これらのネットはホームマーキングと呼ばれており、常にこのマーキングに到達することができる。 このようなホームマーキングは、再生ポイントまたはエンドポイントとして機能することができる。 この結果は、多くのアプリケーションにおいて、システムが華やかで、多くの良好なプロセスモデルがこの論文で特定されたクラスに該当することを望んでいます。 以前の仕事とは異なり、マークされたペトリネットを生かして強くつなげる必要はない。 フリーチョイスネットの分析技術のほとんどは、よくできたネットに合わせたものである。 本論文で提示されたアプローチは, 適切に構成される必要のないフリーチョイスネットに対して, 新たな解析手法を実現するための新しい視点を提供する。 したがって、終了または初期化フェーズを持つシステムやプロセスをモデル化することもできる。

A marked Petri net is lucent if there are no two different reachable markings enabling the same set of transitions, i.e., states are fully characterized by the transitions they enable. Characterizing the class of systems that are lucent is a foundational and also challenging question. However, little research has been done on the topic. In this paper, it is shown that all free-choice nets having a home cluster are lucent. These nets have a so-called home marking such that it is always possible to reach this marking again. Such a home marking can serve as a regeneration point or as an end-point. The result is highly relevant because in many applications, we want the system to be lucent and many well-behaved process models fall into the class identified in this paper. Unlike previous work, we do not require the marked Petri net to be live and strongly connected. Most of the analysis techniques for free-choice nets are tailored towards well-formed nets. The approach presented in this paper provides a novel perspective enabling new analysis techniques for free-choice nets that do not need to be well-formed. Therefore, we can also model systems and processes that are terminating and/or have an initialization phase.
翻訳日:2021-06-09 06:54:46 公開日:2021-06-07
# (参考訳) forward forward best-response multiplicative weights update methods [全文訳有]

Forward Looking Best-Response Multiplicative Weights Update Methods ( http://arxiv.org/abs/2106.03579v1 )

ライセンス: CC BY 4.0
Michail Fasoulakis, Evangelos Markakis, Yannis Pantazis, Constantinos Varsos(参考訳) 本稿では,一意な \emph{nash equilibrium} を持つ \emph{zero-sum games} のラストイテレート収束を保証する,前方向きの最良の応答戦略を持つ \emph{multiplicative weights update method} の新たな変種を提案する。 特に,本アルゴリズムは,学習率の十分に小さい場合において,少なくとも$\omega(\eta^{1+\frac{1}{\rho}})$の率で各反復のkullback-leiblerの発散を減少させることにより,$\rho > 1$の$\eta^{1/\rho}$-approximate nash平衡に収束することを示す。 我々の方法が解の十分小さな近傍に入ると、それは収縮となり、ゲームのナッシュ平衡に収束する。 さらに,最近提案された乗算重み更新法の楽観的な変種である \cite{Daskalakis2019LastIt erateCZ} との比較を行った。 その結果,本アルゴリズムは従来の手法と比較して収束率と収縮領域の両方において有意な利益をもたらすことがわかった。

We propose a novel variant of the \emph{multiplicative weights update method} with forward-looking best-response strategies, that guarantees last-iterate convergence for \emph{zero-sum games} with a unique \emph{Nash equilibrium}. Particularly, we show that the proposed algorithm converges to an $\eta^{1/\rho}$-approximate Nash equilibrium, with $\rho > 1$, by decreasing the Kullback-Leibler divergence of each iterate by a rate of at least $\Omega(\eta^{1+\frac{1}{\rho}})$, for sufficiently small learning rate $\eta$. When our method enters a sufficiently small neighborhood of the solution, it becomes a contraction and converges to the Nash equilibrium of the game. Furthermore, we perform an experimental comparison with the recently proposed optimistic variant of the multiplicative weights update method, by \cite{Daskalakis2019LastIt erateCZ}, which has also been proved to attain last-iterate convergence. Our findings reveal that our algorithm offers substantial gains both in terms of the convergence rate and the region of contraction relative to the previous approach.
翻訳日:2021-06-09 06:11:47 公開日:2021-06-07
# (参考訳) 不均一遅延による分散最適化:連続時間アプローチ

Decentralized Optimization with Heterogeneous Delays: a Continuous-Time Approach ( http://arxiv.org/abs/2106.03585v1 )

ライセンス: CC BY 4.0
Mathieu Even, Hadrien Hendrikx, Laurent Massoulie(参考訳) 分散最適化では、通信ネットワークのノードはローカルな目的関数を持ち、ノード毎の目的の平均を最小化するためにゴシップベースの手法で通信する。 同期アルゴリズムはグラフ内のいくつかのノードとエッジ(ストラグラー問題)によって大幅に遅くすることができるが、その非同期アルゴリズムは通信ネットワークの不均一な遅延を考慮した鋭い解析を欠いている。 本稿では、イベントのグローバルな順序付けを必要とせず、(不均一な)遅延の存在下での時間複雑性を微妙に特徴づけることができる非同期アルゴリズムを解析するための新しい連続時間フレームワークを提案する。 このフレームワークを用いて,滑らかかつ強い凸関数の和を最小化する完全非同期分散アルゴリズムについて述べる。 我々のアルゴリズム(dcdm, delay coordinate dual method)は遅延ランダム化ゴシップ通信と局所計算更新に基づいて非同期な高速化を実現している。

In decentralized optimization, nodes of a communication network privately possess a local objective function, and communicate using gossip-based methods in order to minimize the average of these per-node objectives. While synchronous algorithms can be heavily slowed down by a few nodes and edges in the graph (the straggler problem), their asynchronous counterparts lack from a sharp analysis taking into account heterogeneous delays in the communication network. In this paper, we propose a novel continuous-time framework to analyze asynchronous algorithms, which does not require to define a global ordering of the events, and allows to finely characterize the time complexity in the presence of (heterogeneous) delays. Using this framework, we describe a fully asynchronous decentralized algorithm to minimize the sum of smooth and strongly convex functions. Our algorithm (DCDM, Delayed Coordinate Dual Method), based on delayed randomized gossip communications and local computational updates, achieves an asynchronous speed-up: the rate of convergence is tightly characterized in terms of the eigengap of the graph weighted by local delays only, instead of the global worst-case delays as in previous analyses.
翻訳日:2021-06-09 05:48:22 公開日:2021-06-07
# (参考訳) pcdgan: 逆設計のための連続条件多元生成逆ネットワーク [全文訳有]

PcDGAN: A Continuous Conditional Diverse Generative Adversarial Network For Inverse Design ( http://arxiv.org/abs/2106.03620v1 )

ライセンス: CC BY 4.0
Amin Heyrani Nobari, Wei Chen, Faez Ahmed(参考訳) エンジニアリング設計タスクは、しばしば望ましい性能要求を満たす新しい設計を合成する必要がある。 繰り返し最適化と性能評価を必要とする従来の設計プロセスは遅く、初期設計に依存している。 過去の研究では条件付き生成敵ネットワーク(cgans)を使用して、与えられた目標性能に対して直接設計合成を行った。 しかし、既存のほとんどのcGANは分類条件に制限されている。 連続条件付きgan (ccgan) に関する最近の研究は、この問題に対処しようとしているが、それでも2つの課題に直面している。 そこで,本研究では,dpp(decisionantal point process)に基づく損失関数と組み合わせた特異なビクタナルロスを導入することで多様性を高める,パフォーマンス条件付き多様生成逆ネットワーク (pcdgan) という新しいモデルを提案する。 PcDGANは新しい自己強化スコアである Lambert Log Exponential Transition Score (LLETS) を使用して条件付けを改善する。 合成問題と実世界のエアフォイル設計問題に関する実験により、PcDGANは最先端のGANモデルより優れ、エアフォイル生成タスクでは69%、合成条件生成タスクでは78%の条件付け可能性を改善し、設計空間のカバレッジを向上させることが示されている。 提案手法はcadモデル生成からメタマテリアル選択まで,効率的な設計合成と設計空間探索を可能にする。

Engineering design tasks often require synthesizing new designs that meet desired performance requirements. The conventional design process, which requires iterative optimization and performance evaluation, is slow and dependent on initial designs. Past work has used conditional generative adversarial networks (cGANs) to enable direct design synthesis for given target performances. However, most existing cGANs are restricted to categorical conditions. Recent work on Continuous conditional GAN (CcGAN) tries to address this problem, but still faces two challenges: 1) it performs poorly on non-uniform performance distributions, and 2) the generated designs may not cover the entire design space. We propose a new model, named Performance Conditioned Diverse Generative Adversarial Network (PcDGAN), which introduces a singular vicinal loss combined with a Determinantal Point Processes (DPP) based loss function to enhance diversity. PcDGAN uses a new self-reinforcing score called the Lambert Log Exponential Transition Score (LLETS) for improved conditioning. Experiments on synthetic problems and a real-world airfoil design problem demonstrate that PcDGAN outperforms state-of-the-art GAN models and improves the conditioning likelihood by 69% in an airfoil generation task and up to 78% in synthetic conditional generation tasks and achieves greater design space coverage. The proposed method enables efficient design synthesis and design space exploration with applications ranging from CAD model generation to metamaterial selection.
翻訳日:2021-06-09 05:47:08 公開日:2021-06-07
# (参考訳) 対称および不等角化多目的表現の学習のための効率的反復不定形推論 [全文訳有]

Efficient Iterative Amortized Inference for Learning Symmetric and Disentangled Multi-Object Representations ( http://arxiv.org/abs/2106.03630v1 )

ライセンス: CC BY-SA 4.0
Patrick Emami, Pan He, Sanjay Ranka, Anand Rangarajan(参考訳) 教師なし多目的表現学習は、一般化する対象中心表現の発見を導く誘導バイアスに依存する。 しかし,これらの表現を学習する手法は,長時間の学習時間やメモリ消費の増大,あるいは先進的な帰納的バイアスなどにより実用的ではない。 本稿では,オブジェクト中心表現の教師なし学習のための効率的なフレームワークである efficientmorl を提案する。 対称性と乱れの両方を必要とすることによる最適化の課題は、その依存を最小限に抑えるためにフレームワークを設計することによって、コストのかかる反復的償却推論によって対処できることを示す。 まず,階層的変分オートエンコーダはボトムアップ推論によって対称表現と不等角表現を抽出し,次に,軽量ネットワークではトップダウンフィードバックで表現を洗練する。 トレーニング中の改良ステップの数はカリキュラムに従って減少し、テスト時にゼロステップで、洗練された分解性能の99.1%を達成する。 我々は、従来の最先端モデルよりもはるかに高速なトレーニングとテスト時間推定を実現しつつ、標準のマルチオブジェクトベンチマークで強力なオブジェクト分解と歪みを示す。

Unsupervised multi-object representation learning depends on inductive biases to guide the discovery of object-centric representations that generalize. However, we observe that methods for learning these representations are either impractical due to long training times and large memory consumption or forego key inductive biases. In this work, we introduce EfficientMORL, an efficient framework for the unsupervised learning of object-centric representations. We show that optimization challenges caused by requiring both symmetry and disentanglement can in fact be addressed by high-cost iterative amortized inference by designing the framework to minimize its dependence on it. We take a two-stage approach to inference: first, a hierarchical variational autoencoder extracts symmetric and disentangled representations through bottom-up inference, and second, a lightweight network refines the representations with top-down feedback. The number of refinement steps taken during training is reduced following a curriculum, so that at test time with zero steps the model achieves 99.1% of the refined decomposition performance. We demonstrate strong object decomposition and disentanglement on the standard multi-object benchmark while achieving nearly an order of magnitude faster training and test time inference over the previous state-of-the-art model.
翻訳日:2021-06-09 05:26:57 公開日:2021-06-07
# (参考訳) テキストの教師なし表現の絡み合い:合成データセットの評価 [全文訳有]

Unsupervised Representation Disentanglement of Text: An Evaluation on Synthetic Datasets ( http://arxiv.org/abs/2106.03631v1 )

ライセンス: CC BY-SA 4.0
Lan Zhang, Victor Prokhorov, Ehsan Shareghi(参考訳) 教師なし設定でテキストドメインの表現ミスを解消することの課題を強調するために,画像領域から有効なモデルの代表的なセットを選択する。 我々は,これらのモデルについて,下流の分類タスクやホモトピーと同様に,6つのアンタングルメント指標で評価する。 評価を容易にするために,既知の生成因子を持つ2つの合成データセットを提案する。 実験では、テキスト領域の既存のギャップを強調し、(帰納バイアスとして)表現の空間性やデコーダとの表現結合といった特定の要素が歪みに影響を及ぼすことを示した。 我々の知識を最大限に活用するために、我々の研究は、教師なし表現のゆがみとテキストの交差する最初の試みであり、この方向への将来の発展を調べるための実験的なフレームワークとデータセットを提供する。

To highlight the challenges of achieving representation disentanglement for text domain in an unsupervised setting, in this paper we select a representative set of successfully applied models from the image domain. We evaluate these models on 6 disentanglement metrics, as well as on downstream classification tasks and homotopy. To facilitate the evaluation, we propose two synthetic datasets with known generative factors. Our experiments highlight the existing gap in the text domain and illustrate that certain elements such as representation sparsity (as an inductive bias), or representation coupling with the decoder could impact disentanglement. To the best of our knowledge, our work is the first attempt on the intersection of unsupervised representation disentanglement and text, and provides the experimental framework and datasets for examining future developments in this direction.
翻訳日:2021-06-09 04:52:59 公開日:2021-06-07
# (参考訳) PROST:空間と時間による物体の物理的推論 [全文訳有]

PROST: Physical Reasoning of Objects through Space and Time ( http://arxiv.org/abs/2106.03634v1 )

ライセンス: CC BY 4.0
St\'ephane Aroca-Ouellette, Cory Paik, Alessandro Roncone, and Katharina Kann(参考訳) 空間と時間を通じてオブジェクトに関する物理的な推論を行う。 このデータセットには、14のテンプレートを手作業でキュレートした18,736の質問が含まれている。 すべての質問は、ゼロショット設定で因果モデルとマスク付き言語モデルの両方を調べるように設計されている。 我々は、最先端の事前学習モデルが物理的推論において不十分であることを示す広範囲な分析を行う。それらは、答えオプションが提示される順序に影響され、質問の最上位が逆転された場合(例えば、ほとんどの<->最小値)に苦労し、事前学習データやパラメータの増加は最小限の改善しか得られない。 これらの結果は、現在の事前訓練されたモデルが物理的相互作用を推論する能力は、現実世界の経験の欠如によって本質的に制限されているという仮説を支持する。 これらの制限を強調して、人間のような物理的世界を理解するモデルの開発を動機づけたいと考えています。

We present a new probing dataset named PROST: Physical Reasoning about Objects Through Space and Time. This dataset contains 18,736 multiple-choice questions made from 14 manually curated templates, covering 10 physical reasoning concepts. All questions are designed to probe both causal and masked language models in a zero-shot setting. We conduct an extensive analysis which demonstrates that state-of-the-art pretrained models are inadequate at physical reasoning: they are influenced by the order in which answer options are presented to them, they struggle when the superlative in a question is inverted (e.g., most <-> least), and increasing the amount of pretraining data and parameters only yields minimal improvements. These results provide support for the hypothesis that current pretrained models' ability to reason about physical interactions is inherently limited by a lack of real world experience. By highlighting these limitations, we hope to motivate the development of models with a human-like understanding of the physical world.
翻訳日:2021-06-09 04:09:40 公開日:2021-06-07
# (参考訳) efficientnetをより効率的にする:バッチ独立正規化、グループ畳み込み、解像度の低減 [全文訳有]

Making EfficientNet More Efficient: Exploring Batch-Independent Normalization, Group Convolutions and Reduced Resolution Training ( http://arxiv.org/abs/2106.03640v1 )

ライセンス: CC BY-SA 4.0
Dominic Masters, Antoine Labatie, Zach Eaton-Rosen and Carlo Luschi(参考訳) 最近の研究は、画像分類の訓練と推論の効率を改善することに注力している。 この取り組みは一般的に、FLOP当たりのImageNetバリデーション精度として測定される理論的効率の向上に重点を置いている。 しかし、これらの理論的な節約は、特にハイパフォーマンスなトレーニングアクセラレーターにおいて、実際に達成することが困難であることが証明されている。 本研究では,最新技術であるEfficientNetモデルの,新しいクラスのアクセラレータであるGraphcore IPU上での実用効率の向上に焦点をあてる。 i) 集団畳み込みへの深さ方向の畳み込みを一般化する; (ii) バッチ正規化性能とバッチ非依存統計とをマッチングするためにプロキシ正規化アクティベーションを追加する; (iii) トレーニング解像度を下げて計算量を削減し、より高解像度で安価に微調整する。 これら3つの手法が,訓練と推論の両面で実用的効率を向上させることを見出した。 私たちのコードはオンラインで利用できます。

Much recent research has been dedicated to improving the efficiency of training and inference for image classification. This effort has commonly focused on explicitly improving theoretical efficiency, often measured as ImageNet validation accuracy per FLOP. These theoretical savings have, however, proven challenging to achieve in practice, particularly on high-performance training accelerators. In this work, we focus on improving the practical efficiency of the state-of-the-art EfficientNet models on a new class of accelerator, the Graphcore IPU. We do this by extending this family of models in the following ways: (i) generalising depthwise convolutions to group convolutions; (ii) adding proxy-normalized activations to match batch normalization performance with batch-independent statistics; (iii) reducing compute by lowering the training resolution and inexpensively fine-tuning at higher resolution. We find that these three methods improve the practical efficiency for both training and inference. Our code will be made available online.
翻訳日:2021-06-09 03:53:59 公開日:2021-06-07
# (参考訳) 人工知能と画像処理によるサボテンのオープンソース病解析システム [全文訳有]

Open source disease analysis system of cactus by artificial intelligence and image processing ( http://arxiv.org/abs/2106.03669v1 )

ライセンス: CC BY-SA 4.0
Kanlayanee Kaweesinsakul, Siranee Nuchitprasitchai and Joshua M. Pearce(参考訳) サボテン栽培への関心が高まっているのは、ハウスプラントから食品や薬用用途への多くのサボテンの使用が原因である。 様々な病気がcactiの成長に影響を及ぼす。 サボテン病解析の自動化モデルを開発するとともに、サボテンの損傷を迅速かつ防止することができるサボテン病解析モデルを提供する。 The Faster R-CNN and YOLO algorithm technique was used to analyze cactus disease automatically group: 1) anthracnose, 2) canker, 3) lack of care, 4) aphid, 5) rusts and 6) normal group。 実験結果から, YOLOv5アルゴリズムは, より高速なR-CNNアルゴリズムよりもサボテン病の検出と同定に有効であることが判明した。 YOLOv5Sモデルを用いたデータトレーニングとテストの結果、89.7%の精度と98.5%の精度(リコール)が得られた。 YOLOv5アルゴリズムは、画像毎のテスト時間は26ミリ秒に過ぎなかった。 したがって、yolov5アルゴリズムはモバイルアプリケーションに適していることが判明し、このモデルはサボテン病解析プログラムにさらに発展することができた。

There is a growing interest in cactus cultivation because of numerous cacti uses from houseplants to food and medicinal applications. Various diseases impact the growth of cacti. To develop an automated model for the analysis of cactus disease and to be able to quickly treat and prevent damage to the cactus. The Faster R-CNN and YOLO algorithm technique were used to analyze cactus diseases automatically distributed into six groups: 1) anthracnose, 2) canker, 3) lack of care, 4) aphid, 5) rusts and 6) normal group. Based on the experimental results the YOLOv5 algorithm was found to be more effective at detecting and identifying cactus disease than the Faster R-CNN algorithm. Data training and testing with YOLOv5S model resulted in a precision of 89.7% and an accuracy (recall) of 98.5%, which is effective enough for further use in a number of applications in cactus cultivation. Overall the YOLOv5 algorithm had a test time per image of only 26 milliseconds. Therefore, the YOLOv5 algorithm was found to suitable for mobile applications and this model could be further developed into a program for analyzing cactus disease.
翻訳日:2021-06-09 03:27:34 公開日:2021-06-07
# (参考訳) 複雑なマルチソース音響環境における教師なしクラスタ型連合学習 [全文訳有]

Unsupervised Clustered Federated Learning in Complex Multi-source Acoustic Environments ( http://arxiv.org/abs/2106.03671v1 )

ライセンス: CC BY 4.0
Alexandru Nelus, Rene Glitza, and Rainer Martin(参考訳) 本稿では,現実的で挑戦的なマルチソース・マルチルーム音響環境と,音響センサネットワークにおける音源優先マイクロホンクラスタ推定のための改良アルゴリズムを提案する。 提案手法は,ノード毎の単一マイクロホンと,軽量オートエンコーダモデルを用いた教師なしクラスタ型フェデレーション学習に基づいている。 本稿では,アコースティックシーンの変動性を考慮したクラスタリング制御戦略の改善と,トレーニングデータの削減によるクラスタのダイナミックレンジの推定を可能にする。 提案手法はクラスタリングに基づく測度を用いて最適化され,ネットワークワイド分類タスクによって検証される。

In this paper we introduce a realistic and challenging, multi-source and multi-room acoustic environment and an improved algorithm for the estimation of source-dominated microphone clusters in acoustic sensor networks. Our proposed clustering method is based on a single microphone per node and on unsupervised clustered federated learning which employs a light-weight autoencoder model. We present an improved clustering control strategy that takes into account the variability of the acoustic scene and allows the estimation of a dynamic range of clusters using reduced amounts of training data. The proposed approach is optimized using clustering-based measures and validated via a network-wide classification task.
翻訳日:2021-06-09 03:17:47 公開日:2021-06-07
# (参考訳) 多目的ロボット看護アシスタントを目指して [全文訳有]

Towards a Multi-purpose Robotic Nursing Assistant ( http://arxiv.org/abs/2106.03683v1 )

ライセンス: CC BY 4.0
Krishna Chaitanya Kodur, Kaustubh Rajpathak, Akilesh Rajavenkatanarayanan , Maria Kyrarini, Fillia Makedon(参考訳) ロボット看護は、現在ロボット工学において非常に研究されている分野の1つである。 いくつかのロボットアシスタントは、看護師の援助や患者支援に関連する特定の機能のみに焦点を当てている。 看護師の負担軽減に役立つタスクを行うだけでなく、患者を助けるタスクを実行する統一システムが必要となる。 近年、新型コロナウイルス(COVID-19)のパンデミックにより、ウイルスの拡散を防ぐための遠隔操作機能を備えたロボットアシスタントの必要性が高まっている。 これらの要件に対処するため,患者に歩行支援を行い,グラフィカルユーザインタフェース(GUI)を用いて遠隔操作を行うことのできる,多目的知的看護支援ロボットシステム(MINA)を提案する。 本稿では,現在最先端の手法を改良した歩行支援タスクの予備的結果を提示し,遠隔操作のためのGUIについて述べる。

Robotic nursing aid is one of the heavily researched areas in robotics nowadays. Several robotic assistants exist that only focus on a specific function related to nurses assistance or functions related to patient aid. There is a need for a unified system that not only performs tasks that would assist nurses and reduce their burden but also perform tasks that help a patient. In recent times, due to the COVID-19 pandemic, there is also an increase in the need for robotic assistants that have teleoperation capabilities to provide better protection against the virus spread. To address these requirements, we propose a novel Multi-purpose Intelligent Nurse Aid (MINA) robotic system that is capable of providing walking assistance to the patients and perform teleoperation tasks with an easy-to-use and intuitive Graphical User Interface (GUI). This paper also presents preliminary results from the walking assistant task that improves upon the current state-of-the-art methods and shows the developed GUI for teleoperation.
翻訳日:2021-06-09 03:06:14 公開日:2021-06-07
# (参考訳) 斜めの意図を含む意図の反事実的説明の延長 [全文訳有]

Extending counterfactual accounts of intent to include oblique intent ( http://arxiv.org/abs/2106.03684v1 )

ライセンス: CC BY-SA 4.0
Hal Ashton(参考訳) Intentionを定義するアプローチのひとつは、Causalityを定義するために開発された偽物ツールを使用することだ。 直接意図は、コモン・ローにおける最高レベルの意図と見なされ、最も重大な犯罪を犯すのに十分な要素である。 緩やかに定義されたitは、望ましい、あるいは目標とする結果をもたらす行動の委員会である。 犯罪の最も深刻なカテゴリーには、必ずしも直接的意図は必要ではない。なぜなら社会は、斜め的意図(oblique intent)や間接的意図(indirect intent)として知られる副作用に関する意図の理論を発達させる必要があることも認識しているからである。 これは、俳優の目的ではなく自然の結果である、道徳的な害が無罪になることを防ぐためである。 本論文は, 航空機所有者の正統的な例を用いて, 自機に爆弾を仕掛けて保険を回収し, 航空機の乗客と乗員の殺害が直接意図されていると結論づけない2つの事実を述べる。 我々は両フレームワークをアシュトンで開発された斜め意図の定義を含むように拡張する(2021年)

One approach to defining Intention is to use the counterfactual tools developed to define Causality. Direct Intention is considered the highest level of intent in the common law, and is a sufficient component for the most serious crimes to be committed. Loosely defined it is the commission of actions to bring about a desired or targeted outcome. Direct Intention is not always necessary for the most serious category of crimes because society has also found it necessary to develop a theory of intention around side-effects, known as oblique intent or indirect intent. This is to prevent moral harms from going unpunished which were not the aim of the actor, but were natural consequences nevertheless. This paper uses a canonical example of a plane owner, planting a bomb on their own plane in order to collect insurance, to illustrate how two accounts of counterfactual intent do not conclude that murder of the plane's passengers and crew were directly intended. We extend both frameworks to include a definition of oblique intent developed in Ashton (2021)
翻訳日:2021-06-09 02:55:09 公開日:2021-06-07
# (参考訳) 単一ニューロンは量子論を学ぶことができるか? [全文訳有]

Can a single neuron learn quantiles? ( http://arxiv.org/abs/2106.03702v1 )

ライセンス: CC BY-SA 4.0
Edgardo Solano-Carrillo(参考訳) 単一ユニットからなる最小限のニューラルネットワークアーキテクチャに基づいて、連続確率変数に対する新しい非パラメトリック量子化推定法を導入する。 順序統計のランク付けによる推定に対する優位性は、特に小さなサンプルサイズに対して示される。 回帰文脈では、予測区間を事前学習したモデルの残差から推定し、将来の予測の不確かさを定量化するために、分割等角予測設定の下で予測の不確実性を定量化することができる。 ベンチマーク実験により、この手法は最先端のソリューションと品質とカバレッジの競争力があり、より計算効率が良いという利点が示された。

A novel non-parametric quantile estimation method for continuous random variables is introduced, based on a minimal neural network architecture consisting of a single unit. Its advantage over estimations from ranking the order statistics is shown, specifically for small sample size. In a regression context, the method can be used to quantify predictive uncertainty under the split conformal prediction setting, where prediction intervals are estimated from the residuals of a pre-trained model on a held-out validation set to quantify the uncertainty in future predictions. Benchmarking experiments demonstrate that the method is competitive in quality and coverage with state-of-the-art solutions, with the added benefit of being more computationally efficient.
翻訳日:2021-06-09 02:42:15 公開日:2021-06-07
# (参考訳) 局所認識トランスフォーマーによる人物再同定 [全文訳有]

Person Re-Identification with a Locally Aware Transformer ( http://arxiv.org/abs/2106.03720v1 )

ライセンス: CC BY 4.0
Charu Sharma, Siddhant R. Kapil, David Chapman(参考訳) 人物再同定はコンピュータビジョンに基づく監視アプリケーションにおいて重要な問題であり、同じ人物が近隣の様々な地域の監視写真から特定される。 現在、Person re-ID技術の大部分は畳み込みニューラルネットワーク(CNN)に基づいているが、視覚変換器はさまざまなオブジェクト認識タスクのために純粋なCNNを置き換え始めている。 視覚変換器の一次出力はグローバルな分類トークンであるが、視覚変換器は画像の局所領域に関する追加情報を含む局所トークンも生成する。 これらの局所トークンを用いて分類精度を向上させる技術は研究の活発な領域である。 そこで我々は,局所的に拡張された局所分類トークンを$\sqrt{N}$分類器のアンサンブルに集約する,Partsベースの畳み込みベースライン(PCB)にインスパイアされた戦略を取り入れた,局所認識変換器(LA-Transformer)を提案する。 さらに、ブロックワイズ細調整を取り入れることで、re-ID精度がさらに向上する点も新規である。 ブロックワイズ微調整付きla変換器は、マーケット-1501で0.13$の標準偏差で98.27$%、cuhk03データセットでそれぞれ0.2$の標準偏差で98.7\%のランク-1精度を達成し、執筆時点での他の最先端の公開メソッドよりも優れている。

Person Re-Identification is an important problem in computer vision-based surveillance applications, in which the same person is attempted to be identified from surveillance photographs in a variety of nearby zones. At present, the majority of Person re-ID techniques are based on Convolutional Neural Networks (CNNs), but Vision Transformers are beginning to displace pure CNNs for a variety of object recognition tasks. The primary output of a vision transformer is a global classification token, but vision transformers also yield local tokens which contain additional information about local regions of the image. Techniques to make use of these local tokens to improve classification accuracy are an active area of research. We propose a novel Locally Aware Transformer (LA-Transformer) that employs a Parts-based Convolution Baseline (PCB)-inspired strategy for aggregating globally enhanced local classification tokens into an ensemble of $\sqrt{N}$ classifiers, where $N$ is the number of patches. An additional novelty is that we incorporate blockwise fine-tuning which further improves re-ID accuracy. LA-Transformer with blockwise fine-tuning achieves rank-1 accuracy of $98.27 \%$ with standard deviation of $0.13$ on the Market-1501 and $98.7\%$ with standard deviation of $0.2$ on the CUHK03 dataset respectively, outperforming all other state-of-the-art published methods at the time of writing.
翻訳日:2021-06-09 02:17:33 公開日:2021-06-07
# (参考訳) エラー損失ネットワーク [全文訳有]

Error Loss Networks ( http://arxiv.org/abs/2106.03722v1 )

ライセンス: CC BY 4.0
Badong Chen, Yunfei Zheng, and Pengju Ren(参考訳) 教師付き学習のための誤り損失関数を構築するために,エラー損失ネットワーク(ELN)と呼ばれる新しいモデルを提案する。 ELNはRBFニューラルネットワークに似た構造であるが、入力はエラーサンプルであり、出力はエラーサンプルに対応する損失である。 つまり、ELNの非線形入出力マッパーはエラー損失関数を生成する。 提案するelnは、情報理論学習(itl)損失関数を特殊ケースとして含む、エラー損失関数の大規模クラスに対する統一モデルを提供する。 ELNの活性化関数、重みパラメータ、ネットワークサイズを、エラーサンプルから特定または学習することができる。 そこで本研究では,学習過程をelnを用いた損失関数の学習,学習継続のための学習損失関数の学習の2段階に分けた新しい機械学習パラダイムを提案する。 提案手法の望ましい性能を示す実験結果が提示された。

A novel model called error loss network (ELN) is proposed to build an error loss function for supervised learning. The ELN is in structure similar to a RBF neural network, but its input is an error sample and output is a loss corresponding to that error sample. That means the nonlinear input-output mapper of ELN creates an error loss function. The proposed ELN provides a unified model for a large class of error loss functions, which includes some information theoretic learning (ITL) loss functions as special cases. The activation function, weight parameters and network size of the ELN can be predetermined or learned from the error samples. On this basis, we propose a new machine learning paradigm where the learning process is divided into two stages: first, learning a loss function using an ELN; second, using the learned loss function to continue to perform the learning. Experimental results are presented to demonstrate the desirable performance of the new method.
翻訳日:2021-06-09 02:05:39 公開日:2021-06-07
# (参考訳) 近接ビューとチャネルコントラストを用いた自己教師付きグラフ学習 [全文訳有]

Self-Supervised Graph Learning with Proximity-based Views and Channel Contrast ( http://arxiv.org/abs/2106.03723v1 )

ライセンス: CC BY 4.0
Wei Zhuo and Guang Tan(参考訳) グラフ表現学習を自己指導的に検討する。 グラフニューラルネットワーク(GNN)は、近傍の集約をコアコンポーネントとして使用し、近接ノード間の機能を滑らかにする。 様々な予測タスクで成功する一方で、このようなパラダイムはノードの類似性を長距離で捉えることには至らず、高品質な学習に重要であることが証明される。 この問題に対処するため、我々は2つのグラフビューでグラフを強化し、ノードは最も類似した特徴や局所構造を持つものと直接リンクする。 オリジナルのグラフの接続性によって制限されないため、生成されたビューでは、ノード間の関係を見るための新しい補完的な視点で表現力を高めることができる。 対照的な学習アプローチに従って,生成したビュー間の表現と元のグラフとの一致を最大化する手法を提案する。 また,ノード数で2倍の計算コストを必要とするノードレベルのコントラストに比べて,計算コストを大幅に削減するチャネルレベルのコントラスト手法を提案する。 7つのアソートグラフと4つのアソートグラフに関する広範な実験により,本手法の有効性が示された。

We consider graph representation learning in a self-supervised manner. Graph neural networks (GNNs) use neighborhood aggregation as a core component that results in feature smoothing among nodes in proximity. While successful in various prediction tasks, such a paradigm falls short of capturing nodes' similarities over a long distance, which proves to be important for high-quality learning. To tackle this problem, we strengthen the graph with two additional graph views, in which nodes are directly linked to those with the most similar features or local structures. Not restricted by connectivity in the original graph, the generated views allow the model to enhance its expressive power with new and complementary perspectives from which to look at the relationship between nodes. Following a contrastive learning approach, We propose a method that aims to maximize the agreement between representations across generated views and the original graph. We also propose a channel-level contrast approach that greatly reduces computation cost, compared to the commonly used node level contrast, which requires computation cost quadratic in the number of nodes. Extensive experiments on seven assortative graphs and four disassortative graphs demonstrate the effectiveness of our approach.
翻訳日:2021-06-09 01:44:30 公開日:2021-06-07
# (参考訳) マニフォールドニューラルネットワークの変形に対する安定性 [全文訳有]

Stability of Manifold Neural Networks to Deformations ( http://arxiv.org/abs/2106.03725v1 )

ライセンス: CC0 1.0
Zhiyang Wang, Luana Ruiz, Alejandro Ribeiro(参考訳) 安定性はグラフニューラルネットワーク(GNN)の重要な性質であり、実践的な関心を持つ多くの問題においてその成功を説明する。 既存のGNNの安定性はグラフのサイズに依存し、適度なサイズのグラフに適用性を制限する。 大規模グラフ上でのGNNの安定性特性を理解するために,ニューラルネットワークを多様体上でサポートすることを考える。 これらはラプラス・ベルトラミ作用素(LB)によって媒介される多様体拡散の項で定義され、成長する大きさのグラフ上で走るGNNの極限として解釈される。 多様体の変形を定義し、それが絶対かつ相対的な摂動項からなる多様体のLB作用素の摂動につながることを示す。 次に、LB作用素の無限次元スペクトルを有限分割で分割するフィルタを定義し、これらのフィルタを持つ多様体ニューラルネットワーク(MNN)がLB作用素の絶対摂動と相対摂動の両方に対して安定であることを証明する。 無線ネットワークにおける資源割当問題において,安定性は数値的に示される。

Stability is an important property of graph neural networks (GNNs) which explains their success in many problems of practical interest. Existing GNN stability results depend on the size of the graph, restricting applicability to graphs of moderate size. To understand the stability properties of GNNs on large graphs, we consider neural networks supported on manifolds. These are defined in terms of manifold diffusions mediated by the Laplace-Beltrami (LB) operator and are interpreted as limits of GNNs running on graphs of growing size. We define manifold deformations and show that they lead to perturbations of the manifold's LB operator that consist of an absolute and a relative perturbation term. We then define filters that split the infinite dimensional spectrum of the LB operator in finite partitions, and prove that manifold neural networks (MNNs) with these filters are stable to both, absolute and relative perturbations of the LB operator. Stability results are illustrated numerically in resource allocation problems in wireless networks.
翻訳日:2021-06-09 01:23:35 公開日:2021-06-07
# (参考訳) 満足なターミノロジー制約に対するニューラルマシン翻訳の促進 [全文訳有]

Encouraging Neural Machine Translation to Satisfy Terminology Constraints ( http://arxiv.org/abs/2106.03730v1 )

ライセンス: CC BY 4.0
Melissa Ailem, Jinghsu Liu, Raheel Qader(参考訳) 語彙制約を満たすためにニューラルマシン翻訳を奨励する新しいアプローチを提案する。 本手法は,トレーニング段階において動作し,推論段階における計算オーバーヘッドの増大を回避する。 提案手法は3つの主成分を組み合わせたものである。 1つ目は、制約を指定するためのトレーニングデータの拡張である。 直感的には、制約項に遭遇するとモデルがコピー動作を学ぶことを奨励します。 これまでの作業と比較して,ソースファクタを使わずに拡張戦略を簡略化した。 第2の要素は制約トークンマスキングであり、モデルのコピー動作の学習と一般化がさらに容易になる。 3つめは、制約語に高い確率を割り当てるためにモデルをバイアスするために標準のクロスエントロピー損失を修正したことである。 実験の結果,提案手法はBLEUスコアと生成された制約項の比率の両方の観点から,関連するベースラインを改善した。

We present a new approach to encourage neural machine translation to satisfy lexical constraints. Our method acts at the training step and thereby avoiding the introduction of any extra computational overhead at inference step. The proposed method combines three main ingredients. The first one consists in augmenting the training data to specify the constraints. Intuitively, this encourages the model to learn a copy behavior when it encounters constraint terms. Compared to previous work, we use a simplified augmentation strategy without source factors. The second ingredient is constraint token masking, which makes it even easier for the model to learn the copy behavior and generalize better. The third one, is a modification of the standard cross entropy loss to bias the model towards assigning high probabilities to constraint words. Empirical results show that our method improves upon related baselines in terms of both BLEU score and the percentage of generated constraint terms.
翻訳日:2021-06-09 01:00:43 公開日:2021-06-07
# (参考訳) 対向攻撃に対する視覚トランスフォーマーのロバスト性 [全文訳有]

Reveal of Vision Transformers Robustness against Adversarial Attacks ( http://arxiv.org/abs/2106.03734v1 )

ライセンス: CC BY 4.0
Ahmed Aldahdooh, Wassim Hamidouche, Olivier Deforges(参考訳) 注意に基づくネットワークは、画像分類などの多くのコンピュータビジョンタスクにおいて最先端のパフォーマンスを達成した。 畳み込みニューラルネットワーク(CNN)とは異なり、バニラビジョントランスフォーマー(ViT)の主要な部分は、入力画像のグローバルコンテキストを模倣する力をもたらすアテンションブロックである。 このパワーはデータ空腹であり、従ってトレーニングデータが大きいほどパフォーマンスが向上する。 この制限を克服するために、多くのViTベースのネットワーク(ハイブリッドViT)がトレーニング中にローカルコンテキストを含むように提案されている。 敵対的攻撃に対するViTsとそのバリエーションの堅牢性は、文献に広く投資されていない。 いくつかのロバスト性属性は、以前のいくつかの作品で明らかにされており、それゆえ、より洞察力のあるロバスト性属性はまだ未解決である。 本研究は,前処理の防御手法を適用した上で,CNN(Adversarial Examples, AEs)において, 異なる$L_p$ベースの敵攻撃に対するViT変異体の堅牢性を検討した。 そのために、ImageNet-1kから1000の画像に対して一連の実験を行い、バニラViTやハイブリッドViTがCNNよりも堅牢であることを明らかにする分析を行った。 例えば、1)Vanilla ViTやハイブリッドViTは、$L_0$、$L_1$、$L_2$、$L_\infty$-based、Color Channel Perturbations (CCP)攻撃の下でCNNよりも堅牢であることがわかった。 2)バニラvitは,主に高周波成分を減少させる前処理防御に応答しないが,ハイブリッドvitはこれらの防御に応答する。 3) CCPは前処理防衛として使用することができ, 他のモデルよりも大きなViT変異体の方が応答性が高いことがわかった。 さらに, 特徴マップ, 注意マップ, および grad-cam 可視化を画像品質測定と共同で行い, 摂動エネルギースペクトルを注意に基づくモデルの見識として提供する。

Attention-based networks have achieved state-of-the-art performance in many computer vision tasks, such as image classification. Unlike Convolutional Neural Network (CNN), the major part of the vanilla Vision Transformer (ViT) is the attention block that brings the power of mimicking the global context of the input image. This power is data hunger and hence, the larger the training data the better the performance. To overcome this limitation, many ViT-based networks, or hybrid-ViT, have been proposed to include local context during the training. The robustness of ViTs and its variants against adversarial attacks has not been widely invested in the literature. Some robustness attributes were revealed in few previous works and hence, more insight robustness attributes are yet unrevealed. This work studies the robustness of ViT variants 1) against different $L_p$-based adversarial attacks in comparison with CNNs and 2) under Adversarial Examples (AEs) after applying preprocessing defense methods. To that end, we run a set of experiments on 1000 images from ImageNet-1k and then provide an analysis that reveals that vanilla ViT or hybrid-ViT are more robust than CNNs. For instance, we found that 1) Vanilla ViTs or hybrid-ViTs are more robust than CNNs under $L_0$, $L_1$, $L_2$, $L_\infty$-based, and Color Channel Perturbations (CCP) attacks. 2) Vanilla ViTs are not responding to preprocessing defenses that mainly reduce the high frequency components while, hybrid-ViTs are more responsive to such defense. 3) CCP can be used as a preprocessing defense and larger ViT variants are found to be more responsive than other models. Furthermore, feature maps, attention maps, and Grad-CAM visualization jointly with image quality measures, and perturbations' energy spectrum are provided for an insight understanding of attention-based models.
翻訳日:2021-06-09 00:51:51 公開日:2021-06-07
# (参考訳) 天文光曲線の複数カタログの分類における位相再帰単位の影響 [全文訳有]

The effect of phased recurrent units in the classification of multiple catalogs of astronomical lightcurves ( http://arxiv.org/abs/2106.03736v1 )

ライセンス: CC0 1.0
C. Donoso-Oliva, G. Cabrera-Vives, P. Protopapas, R. Carrasco-Davis, and P.A. Estevez(参考訳) データが科学知識の拡大に不可欠である超大型望遠鏡の新時代において、私たちは、光曲線の自動分類のための多くのディープラーニング応用を目撃しました。 リカレントニューラルネットワーク(RNN)はこれらのアプリケーションで使用されるモデルの1つであり、LSTMユニットは長い時系列の表現に優れた選択である。 一般に、rnnは離散時間に観測を仮定するが、これは光曲線の不規則なサンプリングには当てはまらない。 不規則なシーケンスに対処する伝統的なテクニックは、ネットワークの入力にサンプリング時間を追加することであるが、トレーニング中にサンプリング不規則をキャプチャすることは保証されていない。 あるいは、サンプリング時間を用いて状態を明示的に更新することで、この問題に対処するためにフェーズドLSTMユニットが作られた。 本研究では, LSTM と LSTM をベースとしたアーキテクチャが天文学的な光曲線の分類に有効であることを示す。 周期的および非周期的な天体を含む7つのカタログを使用する。 LSTMは6/7データセット上でPSSTMより優れていた。 しかし、両方のユニットの組み合わせは、すべてのデータセットの結果を高める。

In the new era of very large telescopes, where data is crucial to expand scientific knowledge, we have witnessed many deep learning applications for the automatic classification of lightcurves. Recurrent neural networks (RNNs) are one of the models used for these applications, and the LSTM unit stands out for being an excellent choice for the representation of long time series. In general, RNNs assume observations at discrete times, which may not suit the irregular sampling of lightcurves. A traditional technique to address irregular sequences consists of adding the sampling time to the network's input, but this is not guaranteed to capture sampling irregularities during training. Alternatively, the Phased LSTM unit has been created to address this problem by updating its state using the sampling times explicitly. In this work, we study the effectiveness of the LSTM and Phased LSTM based architectures for the classification of astronomical lightcurves. We use seven catalogs containing periodic and nonperiodic astronomical objects. Our findings show that LSTM outperformed PLSTM on 6/7 datasets. However, the combination of both units enhances the results in all datasets.
翻訳日:2021-06-09 00:21:30 公開日:2021-06-07
# (参考訳) バッチ依存を除去しながらバッチ正規化にマッチするプロキシ正規化アクティベーション

Proxy-Normalizing Activations to Match Batch Normalization while Removing Batch Dependence ( http://arxiv.org/abs/2106.03743v1 )

ライセンス: CC BY-SA 4.0
Antoine Labatie, Dominic Masters, Zach Eaton-Rosen, Carlo Luschi(参考訳) バッチ非依存正規化に伴う性能低下の原因について検討した。 階層正規化とインスタンス正規化の原型的手法は、ニューラルネットワークの事前活性化における障害モードの出現を誘導する: (i) 層正規化はチャネル毎の定数関数への崩壊を誘発する; (ii) インスタンス正規化はインスタンス統計における変動性の欠如を誘発する。 障害モード(II)を悪化させることなく障害モード(i)を緩和するため,プロキシ分布を用いてポストアクティベーションを正規化する手法であるProxy Normalizationを導入する。 層正規化や群正規化と組み合わせると、このバッチ独立正規化はバッチ正規化の振る舞いをエミュレートし、一貫してその性能を超える。

We investigate the reasons for the performance degradation incurred with batch-independent normalization. We find that the prototypical techniques of layer normalization and instance normalization both induce the appearance of failure modes in the neural network's pre-activations: (i) layer normalization induces a collapse towards channel-wise constant functions; (ii) instance normalization induces a lack of variability in instance statistics, symptomatic of an alteration of the expressivity. To alleviate failure mode (i) without aggravating failure mode (ii), we introduce the technique "Proxy Normalization" that normalizes post-activations using a proxy distribution. When combined with layer normalization or group normalization, this batch-independent normalization emulates batch normalization's behavior and consistently matches or exceeds its performance.
翻訳日:2021-06-08 23:52:29 公開日:2021-06-07
# (参考訳) 量子カーネルの誘導バイアス [全文訳有]

The Inductive Bias of Quantum Kernels ( http://arxiv.org/abs/2106.03747v1 )

ライセンス: CC BY 4.0
Jonas M. K\"ubler, Simon Buchholz, Bernhard Sch\"olkopf(参考訳) 量子コンピュータは機械学習の応用に適していると仮定されている。 本研究では,量子カーネルを介して定義される関数クラスを解析する。 量子コンピュータは、古典的に計算が難しい指数関数的に大きな密度演算子の内積を効率的に計算することができる。 しかし、指数的に大きな特徴空間を持つことは、一般化の問題を引き起こす。 さらに、高次元空間の内部積をそれ自体で効率的に評価できることは量子的な利点を保証しない、なぜなら古典的に扱いやすい核は高次元あるいは無限次元再現核ヒルベルト空間(英語版)(rkhs)に対応できるからである。 量子核のスペクトル特性を解析し、RKHSが低次元で古典的に計算が難しい関数を含む場合、利点を期待できることを見出した。 対象関数がこのクラスに存在することが知られているならば、量子コンピュータはこの帰納的バイアスを符号化できるが、同じ方法で関数クラスを制約する古典的効率のよい方法は存在しないため、量子的な利点を意味する。 しかし,核評価では指数関数的に多くの測定が必要となるため,適切な量子カーネルの発見は容易ではないことを示す。 量子機械学習モデルは、問題の知識を量子回路にエンコードし、同じバイアスを古典的なモデルにエンコードすることは困難である。 これらの状況は、量子プロセスによって生成されたデータで学習する場合に起こりうるが、古典的なデータセットでは困難に思われる。

It has been hypothesized that quantum computers may lend themselves well to applications in machine learning. In the present work, we analyze function classes defined via quantum kernels. Quantum computers offer the possibility to efficiently compute inner products of exponentially large density operators that are classically hard to compute. However, having an exponentially large feature space renders the problem of generalization hard. Furthermore, being able to evaluate inner products in high dimensional spaces efficiently by itself does not guarantee a quantum advantage, as already classically tractable kernels can correspond to high- or infinite-dimensional reproducing kernel Hilbert spaces (RKHS). We analyze the spectral properties of quantum kernels and find that we can expect an advantage if their RKHS is low dimensional and contains functions that are hard to compute classically. If the target function is known to lie in this class, this implies a quantum advantage, as the quantum computer can encode this inductive bias, whereas there is no classically efficient way to constrain the function class in the same way. However, we show that finding suitable quantum kernels is not easy because the kernel evaluation might require exponentially many measurements. In conclusion, our message is a somewhat sobering one: we conjecture that quantum machine learning models can offer speed-ups only if we manage to encode knowledge about the problem at hand into quantum circuits, while encoding the same bias into a classical model would be hard. These situations may plausibly occur when learning on data generated by a quantum process, however, they appear to be harder to come by for classical datasets.
翻訳日:2021-06-08 23:51:22 公開日:2021-06-07
# (参考訳) デジタル分類学者:市民科学者の写真で植物種を特定する [全文訳有]

Digital Taxonomist: Identifying Plant Species in Citizen Scientists' Photographs ( http://arxiv.org/abs/2106.03774v1 )

ライセンス: CC BY 4.0
Riccardo de Lutio, Yihang She, Stefano D'Aronco, Stefania Russo, Philipp Brun, Jan D. Wegner, Konrad Schindler(参考訳) アマチュア写真からの植物標本の自動識別は、種の範囲マップを改善し、生態系の研究と保全活動を支援する。 しかし、画像データのみに基づく植物標本の分類は困難であり、いくつかの種は視覚的な外観に大きなバリエーションを示し、同時に異なる種もしばしば視覚的に類似している。 一方、ほとんどの種は、空間的、時間的、生態的な文脈に関するサイド情報と共に観察される。 さらに、生物種は階層的な分類学的構造に埋め込まれた無秩序な分類のリストではない。 統合フレームワークにおけるこれらの追加手法を考慮した機械学習モデルを提案する。 我々のDigital Taxonomistは、写真の植物種をより正確に識別することができます。

Automatic identification of plant specimens from amateur photographs could improve species range maps, thus supporting ecosystems research as well as conservation efforts. However, classifying plant specimens based on image data alone is challenging: some species exhibit large variations in visual appearance, while at the same time different species are often visually similar; additionally, species observations follow a highly imbalanced, long-tailed distribution due to differences in abundance as well as observer biases. On the other hand, most species observations are accompanied by side information about the spatial, temporal and ecological context. Moreover, biological species are not an unordered list of classes but embedded in a hierarchical taxonomic structure. We propose a machine learning model that takes into account these additional cues in a unified framework. Our Digital Taxonomist is able to identify plant species in photographs more correctly.
翻訳日:2021-06-08 23:22:55 公開日:2021-06-07
# (参考訳) 深層強化学習駆動自律システムにおけるユーザ信頼向上のための説明可能な人工知能(xai) [全文訳有]

Explainable Artificial Intelligence (XAI) for Increasing User Trust in Deep Reinforcement Learning Driven Autonomous Systems ( http://arxiv.org/abs/2106.03775v1 )

ライセンス: CC BY 4.0
Jeff Druce, Michael Harradon, James Tittle(参考訳) 我々は,深い強化学習(rl)ベースのシステムのユーザに対して,そのアウトプットがいつ信頼できるかをよりよく理解する方法を提供する問題を考える。 ゲーム状態におけるシステムの一般化と性能のグラフィカルな描写、エージェントが意味論的に類似した環境でどれだけうまくプレイできるか、そしてグラフィカルな情報が何を意味するのかを記述可能な人工知能(XAI)フレームワークを提供する。 我々は,XAIフレームワークのユーザインタフェースを作成し,その有効性を評価した。 その結果、説明のないAIシステムに比べて、ユーザ信頼とAIシステムの受容が統計的に顕著に増加したことが示される。

We consider the problem of providing users of deep Reinforcement Learning (RL) based systems with a better understanding of when their output can be trusted. We offer an explainable artificial intelligence (XAI) framework that provides a three-fold explanation: a graphical depiction of the systems generalization and performance in the current game state, how well the agent would play in semantically similar environments, and a narrative explanation of what the graphical information implies. We created a user-interface for our XAI framework and evaluated its efficacy via a human-user experiment. The results demonstrate a statistically significant increase in user trust and acceptance of the AI system with explanation, versus the AI system without explanation.
翻訳日:2021-06-08 23:07:35 公開日:2021-06-07
# (参考訳) CDN-MEDAL:運動解析のための2段階密度と差分近似フレームワーク [全文訳有]

CDN-MEDAL: Two-stage Density and Difference Approximation Framework for Motion Analysis ( http://arxiv.org/abs/2106.03776v1 )

ライセンス: CC BY 4.0
Synh Viet-Uyen Ha, Cuong Tien Nguyen, Hung Ngoc Phan, Nhat Minh Chung, Phuong Hoai Ha(参考訳) 背景モデリングは様々なビデオ監視アプリケーションを用いたビデオ分析において有望な研究分野である。 近年,運動解析における効果的な学習に基づくアプローチによるディープニューラルネットワークの普及がみられている。 しかし,これらの手法は,対象背景の時間条件平均を近似するために単値マッピングが学習される場合の観測シーンの不十分な特性を限定的に記述することしかできない。 一方、画像領域における統計的学習は、特にガウス混合モデルや前景抽出のステップなど、動的文脈変換に高い適応性を持つ最も一般的なアプローチの1つとなっている。 本研究では,2つの畳み込みニューラルネットワークを用いた2段階変化検出手法を提案する。 最初のアーキテクチャは教師なしのガウシアン混合の統計学習に基づいており、シーンの突出した特徴を記述している。 2つめは前景検出の軽量パイプラインを実装している。 筆者らの2段階フレームワークは, 約3.5Kのパラメータを含むが, 複雑な動きパターンへの高速収束は維持されている。 公開データセットを用いた実験により,提案するネットワークは,望ましくない場合に移動物体の領域を一般化するだけでなく,前景のセグメンテーションに関する性能効率と有効性に競争力があることが示された。

Background modeling is a promising research area in video analysis with a variety of video surveillance applications. Recent years have witnessed the proliferation of deep neural networks via effective learning-based approaches in motion analysis. However, these techniques only provide a limited description of the observed scenes' insufficient properties where a single-valued mapping is learned to approximate the temporal conditional averages of the target background. On the other hand, statistical learning in imagery domains has become one of the most prevalent approaches with high adaptation to dynamic context transformation, notably Gaussian Mixture Models, combined with a foreground extraction step. In this work, we propose a novel, two-stage method of change detection with two convolutional neural networks. The first architecture is grounded on the unsupervised Gaussian mixtures statistical learning to describe the scenes' salient features. The second one implements a light-weight pipeline of foreground detection. Our two-stage framework contains approximately 3.5K parameters in total but still maintains rapid convergence to intricate motion patterns. Our experiments on publicly available datasets show that our proposed networks are not only capable of generalizing regions of moving objects in unseen cases with promising results but also are competitive in performance efficiency and effectiveness regarding foreground segmentation.
翻訳日:2021-06-08 23:00:10 公開日:2021-06-07
# (参考訳) 分布シフトに対する情報理論的アプローチ [全文訳有]

An Information-theoreti c Approach to Distribution Shifts ( http://arxiv.org/abs/2106.03783v1 )

ライセンス: CC BY 4.0
Marco Federici, Ryota Tomioka, Patrick Forr\'e(参考訳) 機械学習モデルを現実世界に安全にデプロイすることは、しばしば難しいプロセスである。 特定の地理的位置から得られたデータでトレーニングされたモデルは、別の場所で得られたデータでクエリされたときに失敗する傾向があり、シミュレーションでトレーニングされたエージェントは、現実世界や新しい環境にデプロイされた時に適応するのに苦労する。 本稿では,新しい情報理論的な視点からデータシフトの問題を, (i) 異なるエラー源を特定し, 記述すること, (ii) 最近のドメイン一般化で探究された最も有望な目標と, 公平な分類文献とを比較して述べる。 理論的解析と経験的評価から, モデル選択手順は, 観測データ, 補正に使用される要因, およびデータ生成過程の構造について, 慎重に検討する必要があると結論づける。

Safely deploying machine learning models to the real world is often a challenging process. Models trained with data obtained from a specific geographic location tend to fail when queried with data obtained elsewhere, agents trained in a simulation can struggle to adapt when deployed in the real world or novel environments, and neural networks that are fit to a subset of the population might carry some selection bias into their decision process. In this work, we describe the problem of data shift from a novel information-theoreti c perspective by (i) identifying and describing the different sources of error, (ii) comparing some of the most promising objectives explored in the recent domain generalization, and fair classification literature. From our theoretical analysis and empirical evaluation, we conclude that the model selection procedure needs to be guided by careful considerations regarding the observed data, the factors used for correction, and the structure of the data-generating process.
翻訳日:2021-06-08 22:31:38 公開日:2021-06-07
# (参考訳) generative adversarial networks: プライベートおよびセキュアなアプリケーションに対する調査

Generative Adversarial Networks: A Survey Towards Private and Secure Applications ( http://arxiv.org/abs/2106.03785v1 )

ライセンス: CC BY 4.0
Zhipeng Cai, Zuobin Xiong, Honghui Xu, Peng Wang, Wei Li, Yi Pan(参考訳) Generative Adversarial Networks (GAN) はコンピュータビジョンや自然言語処理などの様々な応用を推進してきた。 既存のサンプル分布から 引き出された 現実的な例を 生成できるという 説得力があるからです GANは、データ生成ベースのタスクで素晴らしいパフォーマンスを提供するだけでなく、ゲーム理論最適化戦略のために、プライバシとセキュリティ指向の研究の肥大化を促進する。 残念ながら、プライバシとセキュリティに関するganに関する包括的な調査は存在しません。 既存の著作物は,プライバシとセキュリティ機能に基づく適切なカテゴリに分類され,そのメリットと欠点を総合的に分析する。 プライバシとセキュリティのGANは、まだごく初期段階にあり、未解決のユニークな課題を課していることから、GANによる潜在的なプライバシとセキュリティアプリケーションにも光を当て、今後の研究方向性について詳しく述べる。

Generative Adversarial Networks (GAN) have promoted a variety of applications in computer vision, natural language processing, etc. due to its generative model's compelling ability to generate realistic examples plausibly drawn from an existing distribution of samples. GAN not only provides impressive performance on data generation-based tasks but also stimulates fertilization for privacy and security oriented research because of its game theoretic optimization strategy. Unfortunately, there are no comprehensive surveys on GAN in privacy and security, which motivates this survey paper to summarize those state-of-the-art works systematically. The existing works are classified into proper categories based on privacy and security functions, and this survey paper conducts a comprehensive analysis of their advantages and drawbacks. Considering that GAN in privacy and security is still at a very initial stage and has imposed unique challenges that are yet to be well addressed, this paper also sheds light on some potential privacy and security applications with GAN and elaborates on some future research directions.
翻訳日:2021-06-08 22:01:18 公開日:2021-06-07
# (参考訳) モノトンアームシーケンスを必要とするマルチアームバンド [全文訳有]

Multi-armed Bandit Requiring Monotone Arm Sequences ( http://arxiv.org/abs/2106.03790v1 )

ライセンス: CC BY 4.0
Ningyuan Chen(参考訳) 多くのオンライン学習やマルチアームの盗賊問題では、取られた行動や引き出された腕は規則的であり、時間とともに単調でなければならない。 例えば、企業が早期採用者や戦略的な待機を緩和するためにマークアップ価格ポリシーを使用する動的価格設定や、線量配分は通常、線量制限毒性を防止するために線量エスカレーション原則に従う臨床試験などがある。 腕列が単調である必要がある場合の連続腕包帯問題を考える。 未知の目的関数がリプシッツ連続であるとき、後悔は$O(T)$であることを示す。 さらに、目的関数がユニモーダルあるいは準凹である場合、その後悔は、提案されたアルゴリズムの下で$\tilde o(t^{3/4})$であり、これは最適速度でもある。 これは、連続武装バンディット文学における最適レート$\tilde O(T^{2/3})$から逸脱し、単調性要求によってもたらされる学習効率のコストを示す。

In many online learning or multi-armed bandit problems, the taken actions or pulled arms are ordinal and required to be monotone over time. Examples include dynamic pricing, in which the firms use markup pricing policies to please early adopters and deter strategic waiting, and clinical trials, in which the dose allocation usually follows the dose escalation principle to prevent dose limiting toxicities. We consider the continuum-armed bandit problem when the arm sequence is required to be monotone. We show that when the unknown objective function is Lipschitz continuous, the regret is $O(T)$. When in addition the objective function is unimodal or quasiconcave, the regret is $\tilde O(T^{3/4})$ under the proposed algorithm, which is also shown to be the optimal rate. This deviates from the optimal rate $\tilde O(T^{2/3})$ in the continuous-armed bandit literature and demonstrates the cost to the learning efficiency brought by the monotonicity requirement.
翻訳日:2021-06-08 22:00:16 公開日:2021-06-07
# (参考訳) 新型コロナウイルス(covid-19)パンデミックをめぐる現実の主張の事実抽出と検証 [全文訳有]

COVID-Fact: Fact Extraction and Verification of Real-World Claims on COVID-19 Pandemic ( http://arxiv.org/abs/2106.03794v1 )

ライセンス: CC BY 4.0
Arkadiy Saakyan, Tuhin Chakrabarty, and Smaranda Muresan(参考訳) われわれは、COVID-19パンデミックに関する4,086ドルというFEVERに似たデータセットを紹介。 データセットには、クレーム、クレームの証拠、および証拠によって否定される矛盾するクレームが含まれている。 従来のアプローチとは違って,真のクレームとそのソース記事を自動的に検出し,人間のアノテータを使わずに自動手法で反論文を生成する。 構築した資料とともに,クレームの関連証拠を同定し,その証拠が所定のクレームに反抗するか,支持するかを検証するタスクを正式に提示する。 科学的な主張に加えて、われわれのデータにはメディアソースからの簡易な一般的な主張が含まれており、COVID-19に関する一般的な誤報を検出するのに適している。 我々の実験は、COVID-Factが新しいシステムを開発するための挑戦的なテストベッドを提供することを示し、我々のアプローチは、誤情報を検出するためのドメイン固有のデータセットを構築するコストを削減できることを示唆している。

We introduce a FEVER-like dataset COVID-Fact of $4,086$ claims concerning the COVID-19 pandemic. The dataset contains claims, evidence for the claims, and contradictory claims refuted by the evidence. Unlike previous approaches, we automatically detect true claims and their source articles and then generate counter-claims using automatic methods rather than employing human annotators. Along with our constructed resource, we formally present the task of identifying relevant evidence for the claims and verifying whether the evidence refutes or supports a given claim. In addition to scientific claims, our data contains simplified general claims from media sources, making it better suited for detecting general misinformation regarding COVID-19. Our experiments indicate that COVID-Fact will provide a challenging testbed for the development of new systems and our approach will reduce the costs of building domain-specific datasets for detecting misinformation.
翻訳日:2021-06-08 21:44:01 公開日:2021-06-07
# (参考訳) 厳密な応用のためのKNN探索を用いた決定論的反復構築KD-Tree [全文訳有]

Deterministic Iteratively Built KD-Tree with KNN Search for Exact Applications ( http://arxiv.org/abs/2106.03799v1 )

ライセンス: CC BY 4.0
Aryan Naim, Joseph Bowkett, Sisir Karumanchi, Peyman Tavallali, Brett Kennedy(参考訳) K-Nearest Neighbors (KNN)サーチは、ロボット工学や自動運転車に応用された人工知能ソフトウェアの基本アルゴリズムである。 これらの広範囲のアプリケーションは、単純な分類のために直接KNNを利用するか、ローカル重み学習(LWL)のような他のアルゴリズムへの入力としてKNN結果を組み合わせる。 二分木と同様に、kd-treesはオンラインアプリケーションに新しいデータが付加され、木が再構築されない限り検索性能が急速に低下する可能性があるため、不均衡になる。 近似手法はクエリの精度よりもクエリの速度を優先するグラフィクスアプリケーションに適しているが、正確な解を求める自律システム、航空学、ロボット操作の特定の応用には適していない。 本稿では,非再帰的決定論的kd-tree関数とKNN関数の性能評価を試みる。 また、クエリ結果の正確性を損なうことなく、ツリー再構築の回数を減らす「間隔kd-treeの森」も提示する。

K-Nearest Neighbors (KNN) search is a fundamental algorithm in artificial intelligence software with applications in robotics, and autonomous vehicles. These wide-ranging applications utilize KNN either directly for simple classification or combine KNN results as input to other algorithms such as Locally Weighted Learning (LWL). Similar to binary trees, kd-trees become unbalanced as new data is added in online applications which can lead to rapid degradation in search performance unless the tree is rebuilt. Although approximate methods are suitable for graphics applications, which prioritize query speed over query accuracy, they are unsuitable for certain applications in autonomous systems, aeronautics, and robotic manipulation where exact solutions are desired. In this paper, we will attempt to assess the performance of non-recursive deterministic kd-tree functions and KNN functions. We will also present a "forest of interval kd-trees" which reduces the number of tree rebuilds, without compromising the exactness of query results.
翻訳日:2021-06-08 21:26:04 公開日:2021-06-07
# (参考訳) 生成逆数ネットワークを用いた高分解能太陽画像生成 [全文訳有]

High Resolution Solar Image Generation using Generative Adversarial Networks ( http://arxiv.org/abs/2106.03814v1 )

ライセンス: CC BY 4.0
Ankan Dash, Junyi Ye, Guiling Wang(参考訳) 我々は、GAN(Generative Adversarial Networks)と呼ばれるディープラーニングアルゴリズムを適用し、太陽画像から画像への変換を行った。 つまり、Solar Dynamics Observatory (SDO)/Helioseismic and Magnetic Imager (HMI) からSDO/Atmospheric Imaging Assembly (AIA) 0304-{\AA} まで。 SDO/AIA0304-{\AA}画像のような紫外線(UV)/極紫外(EUV)観測は、SDO/HMIのようなマジェネティックフィールドの観測が1970年代から行われているにもかかわらず、1990年代後半に科学者にしか利用できなかった。 したがって、GANのようなディープラーニングアルゴリズムを活用することで、分析のために完全なデータセットにアクセスできるようになる。 高解像度の太陽画像を生成するには、Pix2PixHDとPix2Pixアルゴリズムを用いる。 Pix2PixHDアルゴリズムは高解像度の画像生成タスク用に特別に設計されており、Pix2Pixアルゴリズムは最も広く使われている画像から画像への変換アルゴリズムである。 トレーニングとテストには、このデータを2012年、2013年、2014年に使用しました。 その結果,HMIマグネティックグラムから高解像度(1024×1024ピクセル)のAIA0304画像を生成することができることがわかった。 具体的には、pix2pixhdとオリジナル画像が生成する画像の画素対画素ピアソン相関係数が0.99である。 Pix2Pixが画像を生成するために使用される場合は0.962である。 Pix2PixHDモデルで得られた結果は、AIA0304画像を生成するために他の研究が行った結果より優れている。 したがって、AIA0304データが得られない場合、これらのモデルを使用してAIA0304画像を生成することができ、宇宙天気の理解や、太陽フレアやコロナ質量放出のような太陽現象を予測することができる。 私たちの研究は、SDO/HMIのPix2PixHDアルゴリズムをSDO/AIA0304画像から画像への変換に活用する最初の試みです。

We applied Deep Learning algorithm known as Generative Adversarial Networks (GANs) to perform solar image-to-image translation. That is, from Solar Dynamics Observatory (SDO)/Helioseismic and Magnetic Imager(HMI) line of sight magnetogram images to SDO/Atmospheric Imaging Assembly(AIA) 0304-{\AA} images. The Ultraviolet(UV)/Extr eme Ultraviolet(EUV) observations like the SDO/AIA0304-{\AA} images were only made available to scientists in the late 1990s even though the magenetic field observations like the SDO/HMI have been available since the 1970s. Therefore by leveraging Deep Learning algorithms like GANs we can give scientists access to complete datasets for analysis. For generating high resolution solar images we use the Pix2PixHD and Pix2Pix algorithms. The Pix2PixHD algorithm was specifically designed for high resolution image generation tasks, and the Pix2Pix algorithm is by far the most widely used image to image translation algorithm. For training and testing we used the data for the year 2012, 2013 and 2014. The results show that our deep learning models are capable of generating high resolution(1024 x 1024 pixels) AIA0304 images from HMI magnetograms. Specifically, the pixel-to-pixel Pearson Correlation Coefficient of the images generated by Pix2PixHD and original images is as high as 0.99. The number is 0.962 if Pix2Pix is used to generate images. The results we get for our Pix2PixHD model is better than the results obtained by previous works done by others to generate AIA0304 images. Thus, we can use these models to generate AIA0304 images when the AIA0304 data is not available which can be used for understanding space weather and giving researchers the capability to predict solar events such as Solar Flares and Coronal Mass Ejections. As far as we know, our work is the first attempt to leverage Pix2PixHD algorithm for SDO/HMI to SDO/AIA0304 image-to-image translation.
翻訳日:2021-06-08 21:13:27 公開日:2021-06-07
# (参考訳) 予測記述のための高精度でロバストなシェープリー値と局所的重要な変数に着目して [全文訳有]

Accurate and robust Shapley Values for explaining predictions and focusing on local important variables ( http://arxiv.org/abs/2106.03820v1 )

ライセンス: CC BY 4.0
Salim I. Amoukou, Nicolas J-B. Brunel, Tangi Sala\"un(参考訳) shapley values (sv) は説明可能なaiで広く使われているが、理解や推定が不十分であり、その分析が散発的な推論や説明につながる可能性がある。 始点として、SVの不変原理を思い起こさせ、使用する符号化に特に敏感な分類変数のSVを計算するための正しいアプローチを導出する。 木構造モデルの場合,木構造を効率的に利用し,最先端の手法よりも精度の高い2つのシェープ値推定器を導入する。 加法的説明を解釈するためには、非インフルエンシャル変数をフィルタリングし、影響力のある変数のグループに対してのみシェープ値を計算することを推奨する。 この目的のために,変数の欠落時の予測のロバスト性を評価する"same decision probability" (sdp) という概念を用いる。 この事前選択手順は、可視化および分析が容易なスパース付加説明を生成する。 シミュレーションと比較は最先端アルゴリズムを用いて行われ,本手法の実用的利益を示す。

Although Shapley Values (SV) are widely used in explainable AI, they can be poorly understood and estimated, which implies that their analysis may lead to spurious inferences and explanations. As a starting point, we remind an invariance principle for SV and derive the correct approach for computing the SV of categorical variables that are particularly sensitive to the encoding used. In the case of tree-based models, we introduce two estimators of Shapley Values that exploit efficiently the tree structure and are more accurate than state-of-the-art methods. For interpreting additive explanations, we recommend to filter the non-influential variables and to compute the Shapley Values only for groups of influential variables. For this purpose, we use the concept of "Same Decision Probability" (SDP) that evaluates the robustness of a prediction when some variables are missing. This prior selection procedure produces sparse additive explanations easier to visualize and analyse. Simulations and comparisons are performed with state-of-the-art algorithm, and show the practical gain of our approach.
翻訳日:2021-06-08 21:00:41 公開日:2021-06-07
# (参考訳) カットエッジオープンドメインQA技術を用いたナラティブ質問応答の総合的研究 [全文訳有]

Narrative Question Answering with Cutting-Edge Open-Domain QA Techniques: A Comprehensive Study ( http://arxiv.org/abs/2106.03826v1 )

ライセンス: CC BY 4.0
Xiangyang Mou, Chenghao Yang, Mo Yu, Bingsheng Yao, Xiaoxiao Guo, Saloni Potdar, Hui Su(参考訳) オープンドメイン質問応答(ODQA)の最近の進歩、すなわちウィキペディアのような大きなオープンドメインコーパスからの回答は、多くのデータセット上で人間レベルのパフォーマンスをもたらしている。 しかし、本記事(書籍QA)に関するQAの進展は、ODQAに類似したタスクの定式化にもかかわらず遅れている。 本研究は,本書の難易度に関する包括的かつ定量的な分析を提供する。(1)ナラティブQAデータセットの研究を,最先端ODQA技術を用いた広範な実験でベンチマークする。 このことは、書籍QAがもたらす課題を定量化するとともに、出版物である書籍QAのルージュ-Lにおける絶対的な改善を$\sim$7\%で進める。(2) 人間の研究を通して、書籍QAの詳細な課題をさらに分析する。 その結果,イベント中心の質問がこのタスクを支配しており,イベント指向シナリオを扱うための既存のQAモデルの欠如を実証していることがわかった。

Recent advancements in open-domain question answering (ODQA), i.e., finding answers from large open-domain corpus like Wikipedia, have led to human-level performance on many datasets. However, progress in QA over book stories (Book QA) lags behind despite its similar task formulation to ODQA. This work provides a comprehensive and quantitative analysis about the difficulty of Book QA: (1) We benchmark the research on the NarrativeQA dataset with extensive experiments with cutting-edge ODQA techniques. This quantifies the challenges Book QA poses, as well as advances the published state-of-the-art with a $\sim$7\% absolute improvement on Rouge-L. (2) We further analyze the detailed challenges in Book QA through human studies.\footnote{\url{https://github.com/g orov/BookQA}.} Our findings indicate that the event-centric questions dominate this task, which exemplifies the inability of existing QA models to handle event-oriented scenarios.
翻訳日:2021-06-08 20:24:12 公開日:2021-06-07
# (参考訳) MemStream:コンセプトドリフトを用いたマルチアスペクトストリームにおけるメモリベース異常検出 [全文訳有]

MemStream: Memory-Based Anomaly Detection in Multi-Aspect Streams with Concept Drift ( http://arxiv.org/abs/2106.03837v1 )

ライセンス: CC BY 4.0
Siddharth Bhatia, Arjit Jain, Shivin Srivastava, Kenji Kawaguchi, Bryan Hooi(参考訳) 概念ドリフトが存在するマルチスペクトルデータセットにおいて、時間とともにエントリのストリームが与えられると、異常なアクティビティを検出するにはどうすればよいのか? 既存の教師なし異常検出アプローチのほとんどは、オフラインで異常なイベントを検出し、トレーニングのために大量のデータを必要とする。 これは、ストリーミング形式でデータを受信し、事前にストリームのサイズを知らない実際のシナリオでは実用的ではありません。 したがって、データトレンドの変化やコンセプトドリフトをオンライン形式で検出し、適応できるデータ効率のよい方法が必要となる。 本研究では,ストリーミングマルチスペクトル異常検出フレームワークであるmemstreamを提案する。 雑音の自動エンコーダのパワーを利用して表現とメモリモジュールを学習し,ラベルを必要とせずに動的に変化するデータトレンドを学習する。 効率的なドリフトハンドリングに必要なメモリサイズを最適に証明する。 さらにMemStreamは、メモリ中毒に対して堅牢な2つのアーキテクチャ設計を選択している。 実験の結果,2つの合成データセットと11個の実世界のデータセットを用いた最先端ストリーミングベースラインと比較して,本手法の有効性が示された。

Given a stream of entries over time in a multi-aspect data setting where concept drift is present, how can we detect anomalous activities? Most of the existing unsupervised anomaly detection approaches seek to detect anomalous events in an offline fashion and require a large amount of data for training. This is not practical in real-life scenarios where we receive the data in a streaming manner and do not know the size of the stream beforehand. Thus, we need a data-efficient method that can detect and adapt to changing data trends, or concept drift, in an online manner. In this work, we propose MemStream, a streaming multi-aspect anomaly detection framework, allowing us to detect unusual events as they occur while being resilient to concept drift. We leverage the power of a denoising autoencoder to learn representations and a memory module to learn the dynamically changing trend in data without the need for labels. We prove the optimum memory size required for effective drift handling. Furthermore, MemStream makes use of two architecture design choices to be robust to memory poisoning. Experimental results show the effectiveness of our approach compared to state-of-the-art streaming baselines using 2 synthetic datasets and 11 real-world datasets.
翻訳日:2021-06-08 19:51:30 公開日:2021-06-07
# RoSearch: 事前訓練された言語モデルを蒸留する際のロバストな学生アーキテクチャの探索

RoSearch: Search for Robust Student Architectures When Distilling Pre-trained Language Models ( http://arxiv.org/abs/2106.03613v1 )

ライセンス: Link先を確認
Xin Guo, Jianlei Yang, Haoyi Zhou, Xucheng Ye, Jianxin Li(参考訳) 事前訓練された言語モデルは、NLPタスクにおいて優れたパフォーマンスを達成する。 事前学習した言語モデルの重い計算と保存要求を低減するため,様々な知識蒸留法が提案されている。 しかし,我々の観察では,知識蒸留によって獲得された学生モデルは,セキュリティに敏感なシナリオでの使用を制限する敵の攻撃に苦しむ。 これらのセキュリティ問題を解決するため、RoSearchは、知識蒸留を行う際に、より良い対角的堅牢性で学生モデルを探索するための包括的なフレームワークとして提案されている。 有向非巡回グラフに基づく探索空間を構築し、探索アプローチを導くために進化的探索戦略を利用する。 それぞれの探索されたアーキテクチャは、事前学習された言語モデルの知識蒸留によって訓練され、環境適合性として堅牢性、正確性、効率性が評価される。 実験の結果、rosearchは、既存の蒸留法と同等の重量圧縮率(教師モデルbert_baseから4.6$\times$~6.5$\tim es$改善)と低い精度で、異なるデータセットで7%~18%から45.8%〜47.8%までの学生モデルのロバスト性を向上させることが示されている。 また,検索モデルの統計を通じて,学生のアーキテクチャとロバスト性との関係を要約する。

Pre-trained language models achieve outstanding performance in NLP tasks. Various knowledge distillation methods have been proposed to reduce the heavy computation and storage requirements of pre-trained language models. However, from our observations, student models acquired by knowledge distillation suffer from adversarial attacks, which limits their usage in security sensitive scenarios. In order to overcome these security problems, RoSearch is proposed as a comprehensive framework to search the student models with better adversarial robustness when performing knowledge distillation. A directed acyclic graph based search space is built and an evolutionary search strategy is utilized to guide the searching approach. Each searched architecture is trained by knowledge distillation on pre-trained language model and then evaluated under a robustness-, accuracy- and efficiency-aware metric as environmental fitness. Experimental results show that RoSearch can improve robustness of student models from 7%~18% up to 45.8%~47.8% on different datasets with comparable weight compression ratio to existing distillation methods (4.6$\times$~6.5$\ti mes$ improvement from teacher model BERT_BASE) and low accuracy drop. In addition, we summarize the relationship between student architecture and robustness through statistics of searched models.
翻訳日:2021-06-08 18:51:46 公開日:2021-06-07
# GTM:対話型質問生成のためのジェネレーティブトリプルワイズモデル

GTM: A Generative Triple-Wise Model for Conversational Question Generation ( http://arxiv.org/abs/2106.03635v1 )

ライセンス: Link先を確認
Lei Shen, Fandong Meng, Jinchao Zhang, Yang Feng, Jie Zhou(参考訳) オープンドメインの会話で魅力的な質問を生成することは、人間と機械の対話を改善し、トピックをより広く、より深い方向に導く効果的な方法である。 退屈で逸脱した質問を避けるために、ある研究者は「将来の」情報を利用して質問生成を導こうとした。 しかし、PQA(Post-question-an swer)は、PQ(Post-question)とQA(QA)の2つの部分に分けられる。 さらに、QAの関係は、オープンドメインの会話では合理的ではない1対1のマッピングとしてモデル化されている。 これらの問題に対処するために,open-domain conversational question generation (cqg) のための階層的変動を伴う生成的三方向モデルを提案する。 3つの階層の潜在変数は、PQとQAのペアの3重および1対のセマンティックマッピングの共有背景を表すために使用される。 大規模CQGデータセットによる実験結果から,提案手法は,競争ベースラインよりも流線型,コヒーレンス,多様性の観点から,質問の質を著しく向上することが示された。

Generating some appealing questions in open-domain conversations is an effective way to improve human-machine interactions and lead the topic to a broader or deeper direction. To avoid dull or deviated questions, some researchers tried to utilize answer, the "future" information, to guide question generation. However, they separate a post-question-answer (PQA) triple into two parts: post-question (PQ) and question-answer (QA) pairs, which may hurt the overall coherence. Besides, the QA relationship is modeled as a one-to-one mapping that is not reasonable in open-domain conversations. To tackle these problems, we propose a generative triple-wise model with hierarchical variations for open-domain conversational question generation (CQG). Latent variables in three hierarchies are used to represent the shared background of a triple and one-to-many semantic mappings in both PQ and QA pairs. Experimental results on a large-scale CQG dataset show that our method significantly improves the quality of questions in terms of fluency, coherence and diversity over competitive baselines.
翻訳日:2021-06-08 18:51:19 公開日:2021-06-07
# 深層ネットワークの学習における最適解推定法

Counterfactual Maximum Likelihood Estimation for Training Deep Networks ( http://arxiv.org/abs/2106.03831v1 )

ライセンス: Link先を確認
Xinyi Wang, Wenhu Chen, Michael Saxon, William Yang Wang(参考訳) ディープラーニングモデルは、幅広いタスクにおいて最先端のパフォーマンスを駆動していますが、予測手がかりとして学習すべきでない素早い相関を学ぶ傾向があります。 この問題を軽減するために,観測可能な共同設立者による刺激的な相関を緩和する因果関係に基づくトレーニングフレームワークを提案する。 本稿では、基礎となる構造因果モデル(SCM)の理論解析を行い、観測分布ではなく、干渉分布の最大類似度推定(MLE)を行うことを提案する。 干渉分布は一般に観測データから隠蔽されるため,観測データを用いた深層学習モデルの因果予測のために,期待される負の対数関係の2つの上限を導出し,インプリシットCMLEとエクスプリシットCMLEという2つの一般アルゴリズムを提案する。 自然言語推論(nli)と画像キャプションの2つの実世界の課題について実験を行う。 その結果,CMLE法は領域外一般化性能において通常のMLE法よりも優れており,通常の評価に匹敵する性能を維持しつつ,突発的相関を低減していることがわかった。

Although deep learning models have driven state-of-the-art performance on a wide array of tasks, they are prone to learning spurious correlations that should not be learned as predictive clues. To mitigate this problem, we propose a causality-based training framework to reduce the spurious correlations caused by observable confounders. We give theoretical analysis on the underlying general Structural Causal Model (SCM) and propose to perform Maximum Likelihood Estimation (MLE) on the interventional distribution instead of the observational distribution, namely Counterfactual Maximum Likelihood Estimation (CMLE). As the interventional distribution, in general, is hidden from the observational data, we then derive two different upper bounds of the expected negative log-likelihood and propose two general algorithms, Implicit CMLE and Explicit CMLE, for causal predictions of deep learning models using observational data. We conduct experiments on two real-world tasks: Natural Language Inference (NLI) and Image Captioning. The results show that CMLE methods outperform the regular MLE method in terms of out-of-domain generalization performance and reducing spurious correlations, while maintaining comparable performance on the regular evaluations.
翻訳日:2021-06-08 18:50:56 公開日:2021-06-07
# 爆発機の力:大規模国家空間における確率的マルチエージェントRL

The Power of Exploiter: Provable Multi-Agent RL in Large State Spaces ( http://arxiv.org/abs/2106.03352v1 )

ライセンス: Link先を確認
Chi Jin, Qinghua Liu, Tiancheng Yu(参考訳) 現代の強化学習(RL)は、一般に、関数近似を、値関数またはポリシーを近似するために配置する必要がある大きな状態空間で実践的な問題に取り組む。 近年のRL理論の進歩は一般関数近似によるリッチなRL問題に対処しているが、そのような成功は主に単一エージェントの設定に限られている。 これらの結果をマルチエージェント RL に拡張する方法は,特にゲーム理論の性質から生じる新たな課題のため,いまだ解明されていない。 本稿では,2プレイヤーゼロサムマルコフゲーム(MG)について考察する。 本稿では, マルチエージェントのベルマン・エルダー次元が低い任意のMGに対して, 多項式数を用いてナッシュ均衡ポリシを確実に見つけることができる新しいアルゴリズムを提案する(Jin et al., 2021)。 新しいアルゴリズムの重要な要素はエクスプロイラーであり、その弱点を故意に活用することでメインプレイヤーの学習を容易にする。 理論的な枠組みは汎用的であり, 表型mgs, 線形あるいは核関数近似のmgs, 観測量の豊富なmgsなど, 幅広いモデルに適用できる。

Modern reinforcement learning (RL) commonly engages practical problems with large state spaces, where function approximation must be deployed to approximate either the value function or the policy. While recent progresses in RL theory address a rich set of RL problems with general function approximation, such successes are mostly restricted to the single-agent setting. It remains elusive how to extend these results to multi-agent RL, especially due to the new challenges arising from its game-theoretical nature. This paper considers two-player zero-sum Markov Games (MGs). We propose a new algorithm that can provably find the Nash equilibrium policy using a polynomial number of samples, for any MG with low multi-agent Bellman-Eluder dimension -- a new complexity measure adapted from its single-agent version (Jin et al., 2021). A key component of our new algorithm is the exploiter, which facilitates the learning of the main player by deliberately exploiting her weakness. Our theoretical framework is generic, which applies to a wide range of models including but not limited to tabular MGs, MGs with linear or kernel function approximation, and MGs with rich observations.
翻訳日:2021-06-08 18:49:13 公開日:2021-06-07
# ドメイン一般化における転送可能性の定量化と改善

Quantifying and Improving Transferability in Domain Generalization ( http://arxiv.org/abs/2106.03632v1 )

ライセンス: Link先を確認
Guojun Zhang, Han Zhao, Yaoliang Yu, Pascal Poupart(参考訳) アウト・オブ・ディストリビューションの一般化は、実験室から現実世界にモデルを移す際の重要な課題の1つである。 既存の取り組みは主にソースとターゲットドメイン間の不変機能の構築に焦点を当てている。 不変な特徴に基づいて、ソースドメイン上のハイパフォーマンスな分類器がターゲットドメイン上で同じように振る舞うことが望ましい。 言い換えると、不変な特徴は \emph{transferable} である。 しかし実際には、完全に転送可能な機能は存在せず、'より転送可能な'機能を学習するアルゴリズムもある。 そのような 'emph{transferability} を理解して定量化するには? 本稿では、ドメインの一般化において量子化と計算が可能な転送可能性を形式的に定義する。 総変量やワッサーシュタイン距離といった領域間の共通差測度との差と関係を指摘する。 次に, 転送可能性について十分なサンプルで推定できることを証明し, 転送可能性に基づいて, 対象誤差に対する新たな上限を与える。 実験により,既存アルゴリズムで学習した特徴埋め込みの領域一般化性を評価する。 驚くべきことに、多くのアルゴリズムは転送可能な機能を十分に学習していないことが分かりました。 そこで我々は,移動可能な特徴を学習し,RotatedMNIST,PACS,O ffice-Home,WILDS-FMo Wなど,さまざまなベンチマークデータセット上でテストするアルゴリズムを提案する。 実験の結果,提案アルゴリズムは,多くの最先端アルゴリズムに対して一貫した改善を達成し,理論的知見を裏付けることがわかった。

Out-of-distribution generalization is one of the key challenges when transferring a model from the lab to the real world. Existing efforts mostly focus on building invariant features among source and target domains. Based on invariant features, a high-performing classifier on source domains could hopefully behave equally well on a target domain. In other words, the invariant features are \emph{transferable}. However, in practice, there are no perfectly transferable features, and some algorithms seem to learn ''more transferable'' features than others. How can we understand and quantify such \emph{transferability}? In this paper, we formally define transferability that one can quantify and compute in domain generalization. We point out the difference and connection with common discrepancy measures between domains, such as total variation and Wasserstein distance. We then prove that our transferability can be estimated with enough samples and give a new upper bound for the target error based on our transferability. Empirically, we evaluate the transferability of the feature embeddings learned by existing algorithms for domain generalization. Surprisingly, we find that many algorithms are not quite learning transferable features, although few could still survive. In light of this, we propose a new algorithm for learning transferable features and test it over various benchmark datasets, including RotatedMNIST, PACS, Office-Home and WILDS-FMoW. Experimental results show that the proposed algorithm achieves consistent improvement over many state-of-the-art algorithms, corroborating our theoretical findings.
翻訳日:2021-06-08 18:48:52 公開日:2021-06-07
# 広範ニューラルネットワークにおける表現ミトーシス

Representation mitosis in wide neural networks ( http://arxiv.org/abs/2106.03485v1 )

ライセンス: Link先を確認
Diego Doimo, Aldo Glielmo, Sebastian Goldt, Alessandro Laio(参考訳) ディープニューラルネットワーク(DNN)は、古典的なバイアス分散トレードオフを否定する: トレーニングデータを正確に補間するパラメータをDNNに追加することで、一般化のパフォーマンスが向上する。 このような過剰パラメータ化の利点の背後にあるメカニズムを説明することは、深層学習理論にとって際立った課題である。 本稿では,画像分類のための広層網など,様々な深層アーキテクチャの最後の層表現について検討し, *representation mitosis*: 最後の隠れた表現が十分に広い場合,そのニューロンは同一の情報を持つグループに分けられる傾向にあり,統計的に独立したノイズによってのみ互いに異なる。 有糸分裂の過程と同様に、このような群の数(「クローン」)は層の幅と直線的に増加するが、幅が臨界値を超える場合に限られる。 有糸分裂を活性化する重要な要素は,訓練誤差がゼロになるまで訓練過程を継続していることを示す。 最後に,我々が検討した学習タスクの1つにおいて,複数の自動開発クローンを持つワイドモデルが,最後のレイヤがクローンと同じ大きさのアーキテクチャに基づくディープアンサンブルよりも有意に優れた性能を示すことを示す。

Deep neural networks (DNNs) defy the classical bias-variance trade-off: adding parameters to a DNN that exactly interpolates its training data will typically improve its generalisation performance. Explaining the mechanism behind the benefit of such over-parameterisatio n is an outstanding challenge for deep learning theory. Here, we study the last layer representation of various deep architectures such as Wide-ResNets for image classification and find evidence for an underlying mechanism that we call *representation mitosis*: if the last hidden representation is wide enough, its neurons tend to split into groups which carry identical information, and differ from each other only by a statistically independent noise. Like in a mitosis process, the number of such groups, or ``clones'', increases linearly with the width of the layer, but only if the width is above a critical value. We show that a key ingredient to activate mitosis is continuing the training process until the training error is zero. Finally, we show that in one of the learning tasks we considered, a wide model with several automatically developed clones performs significantly better than a deep ensemble based on architectures in which the last layer has the same size as the clones.
翻訳日:2021-06-08 18:46:26 公開日:2021-06-07
# キャリブレーションによる顔認識モデルのバイアス軽減

Bias Mitigation of Face Recognition Models Through Calibration ( http://arxiv.org/abs/2106.03761v1 )

ライセンス: Link先を確認
Tiago Salvador, Stephanie Cairns, Vikram Voleti, Noah Marshall, Adam Oberman(参考訳) 例えば、偽陽性(正しくない顔の一致)の確率は、民族性のような繊細な属性に強く依存する。 その結果、これらのモデルは法執行機関で使用されると少数派に不均等で否定的に影響を及ぼす可能性がある。 本研究では, (i) モデルの精度を向上させるバイアス緩和校正法 (bmc) を導入し, (ii) かなり校正された確率を生成し, (iii) 偽陽性率の差を大幅に低減し, (iv) 感度特性の知識を必要としない。

Face recognition models suffer from bias: for example, the probability of a false positive (incorrect face match) strongly depends on sensitive attributes like ethnicity. As a result, these models may disproportionately and negatively impact minority groups when used in law enforcement. In this work, we introduce the Bias Mitigation Calibration (BMC) method, which (i) increases model accuracy (improving the state-of-the-art), (ii) produces fairly-calibrated probabilities, (iii) significantly reduces the gap in the false positive rates, and (iv) does not require knowledge of the sensitive attribute.
翻訳日:2021-06-08 18:46:05 公開日:2021-06-07
# 3DB:コンピュータビジョンモデルをデバッグするフレームワーク

3DB: A Framework for Debugging Computer Vision Models ( http://arxiv.org/abs/2106.03805v1 )

ライセンス: Link先を確認
Guillaume Leclerc, Hadi Salman, Andrew Ilyas, Sai Vemprala, Logan Engstrom, Vibhav Vineet, Kai Xiao, Pengchuan Zhang, Shibani Santurkar, Greg Yang, Ashish Kapoor, Aleksander Madry(参考訳) フォトリアリスティックシミュレーションを用いて視覚モデルをテストおよびデバッグするための拡張可能な統合フレームワークである3DBを紹介する。 幅広いユースケースを通じて、ユーザがコンピュータビジョンシステムの脆弱性を発見し、モデルの意思決定方法に関する洞察を得ることができます。 3DBは、以前の作業から多くの堅牢性分析をキャプチャし、一般化し、それらの相互作用を研究することができる。 最後に、システムが生み出す洞察が物理的世界へと移ることを見出す。 私たちは3DBをライブラリとしてリリースしています(https://github.com/ 3db/3db)。

We introduce 3DB: an extendable, unified framework for testing and debugging vision models using photorealistic simulation. We demonstrate, through a wide range of use cases, that 3DB allows users to discover vulnerabilities in computer vision systems and gain insights into how models make decisions. 3DB captures and generalizes many robustness analyses from prior work, and enables one to study their interplay. Finally, we find that the insights generated by the system transfer to the physical world. We are releasing 3DB as a library (https://github.com/ 3db/3db) alongside a set of example analyses, guides, and documentation: https://3db.github.i o/3db/ .
翻訳日:2021-06-08 18:45:54 公開日:2021-06-07
# 堅牢かつドメインに依存しない強化学習コンペティションに向けて

Towards robust and domain agnostic reinforcement learning competitions ( http://arxiv.org/abs/2106.03748v1 )

ライセンス: Link先を確認
William Hebgen Guss, Stephanie Milani, Nicholay Topin, Brandon Houghton, Sharada Mohanty, Andrew Melnik, Augustin Harter, Benoit Buschmaas, Bjarne Jaster, Christoph Berganski, Dennis Heitkamp, Marko Henning, Helge Ritter, Chengjie Wu, Xiaotian Hao, Yiming Lu, Hangyu Mao, Yihuan Mao, Chao Wang, Michal Opanowicz, Anssi Kanervisto, Yanick Schraner, Christian Scheller, Xiren Zhou, Lu Liu, Daichi Nishio, Toi Tsuneda, Karolis Ramanauskas, Gabija Juceviciute(参考訳) 強化学習コンペティションは、標準的な研究ベンチマークの基礎を形成し、最先端の進歩を加速させ、フィールドの方向性を形作った。 提案された課題に対する参加者ソリューションは通常、ドメイン固有であり、最大で計算リソースを最大限活用するために偏りがあり、再現可能であることが保証されていない。 本稿では,これらの障壁を克服するアルゴリズムの開発を促進する競争設計の新しい枠組みを提案する。 この目的を達成するための4つの中心的なメカニズムを提案する: 提出のリトレーニング、ドメインのランダム化、ドメインの難読化による先延ばし、競争計算と環境サンプル予算の制限。 本設計の有効性を示すため,MineRL 2020 Competition on Sample-Efficient Reinforcement Learningを提案した。 本研究は,競争の組織的成果を概説し,その成果が再現可能であり,競争環境に特化せず,かつ,競争の困難な課題にもかかわらず,サンプル/資源効率がよいことを示す。

Reinforcement learning competitions have formed the basis for standard research benchmarks, galvanized advances in the state-of-the-art, and shaped the direction of the field. Despite this, a majority of challenges suffer from the same fundamental problems: participant solutions to the posed challenge are usually domain-specific, biased to maximally exploit compute resources, and not guaranteed to be reproducible. In this paper, we present a new framework of competition design that promotes the development of algorithms that overcome these barriers. We propose four central mechanisms for achieving this end: submission retraining, domain randomization, desemantization through domain obfuscation, and the limitation of competition compute and environment-sample budget. To demonstrate the efficacy of this design, we proposed, organized, and ran the MineRL 2020 Competition on Sample-Efficient Reinforcement Learning. In this work, we describe the organizational outcomes of the competition and show that the resulting participant submissions are reproducible, non-specific to the competition environment, and sample/resource efficient, despite the difficult competition task.
翻訳日:2021-06-08 18:45:43 公開日:2021-06-07
# 統一トランスフォーマーと自己監視を用いた言語命令からの階層的タスク学習

Hierarchical Task Learning from Language Instructions with Unified Transformers and Self-Monitoring ( http://arxiv.org/abs/2106.03427v1 )

ライセンス: Link先を確認
Yichi Zhang and Joyce Chai(参考訳) 最近の進歩にもかかわらず、言語指導による新しいタスクの学習は、依然として非常に難しい問題である。 alfred benchmark for task learningにおいて、公開された最先端のシステムは、90%以上の人間のパフォーマンスと比較して、目に見えない環境で10%未満のタスク成功率しか達成できない。 この問題に対処するため,本稿ではタスク学習について詳しく検討する。 広範に適用されたエンドツーエンドアーキテクチャから離れて,タスク学習をサブゴール計画,シーンナビゲーション,オブジェクト操作という3つのサブプロブレムに分解し,階層的なタスク構造を学ぶために,各サブプロブレムに統一的な方法で対処するHiTUTモデルを開発した。 ALFREDベンチマークでは、HiTUTは極めて高い一般化能力で最高のパフォーマンスを達成した。 目に見えない環境では、HiTUTは過去の技術と比べて160%以上のパフォーマンス向上を達成した。 タスク構造の明示的な表現はまた、問題の性質とエージェントの能力の詳細な理解を可能にし、将来のベンチマークの開発と評価の洞察を提供する。

Despite recent progress, learning new tasks through language instructions remains an extremely challenging problem. On the ALFRED benchmark for task learning, the published state-of-the-art system only achieves a task success rate of less than 10% in an unseen environment, compared to the human performance of over 90%. To address this issue, this paper takes a closer look at task learning. In a departure from a widely applied end-to-end architecture, we decomposed task learning into three sub-problems: sub-goal planning, scene navigation, and object manipulation; and developed a model HiTUT (stands for Hierarchical Tasks via Unified Transformers) that addresses each sub-problem in a unified manner to learn a hierarchical task structure. On the ALFRED benchmark, HiTUT has achieved the best performance with a remarkably higher generalization ability. In the unseen environment, HiTUT achieves over 160% performance gain in success rate compared to the previous state of the art. The explicit representation of task structures also enables an in-depth understanding of the nature of the problem and the ability of the agent, which provides insight for future benchmark development and evaluation.
翻訳日:2021-06-08 18:44:33 公開日:2021-06-07
# 文処理における相対的重要性

Relative Importance in Sentence Processing ( http://arxiv.org/abs/2106.03471v1 )

ライセンス: Link先を確認
Nora Hollenstein and Lisa Beinborn(参考訳) 文中の要素の相対的重要性を決定することは、無力な自然言語理解の重要な要因である。 人間の言語処理では,視線追跡技術を用いて読取量を測定することで,相対的重要性のパターンを近似することができる。 ニューラルネットワークモデルでは、勾配に基づく唾液度法は目標目標に対するトークンの相対的重要性を示す。 本研究では,人間とモデルによる英語処理における相対的重要性のパターンを比較し,基礎となる言語パターンを分析する。 英語における人間の処理パターンは,注目に基づく重要度ではなく,サリエンシに基づく言語モデルの重要性と強く相関していることがわかった。 以上の結果から, 塩分濃度は, 神経言語モデルの解釈において, 認知的に有意義な指標である可能性が示唆された。 コードはgithubで入手できる: https://github.com/b einborn/relative_imp ortance

Determining the relative importance of the elements in a sentence is a key factor for effortless natural language understanding. For human language processing, we can approximate patterns of relative importance by measuring reading fixations using eye-tracking technology. In neural language models, gradient-based saliency methods indicate the relative importance of a token for the target objective. In this work, we compare patterns of relative importance in English language processing by humans and models and analyze the underlying linguistic patterns. We find that human processing patterns in English correlate strongly with saliency-based importance in language models and not with attention-based importance. Our results indicate that saliency could be a cognitively more plausible metric for interpreting neural language models. The code is available on GitHub: https://github.com/b einborn/relative_imp ortance
翻訳日:2021-06-08 18:44:14 公開日:2021-06-07
# DialDoc21におけるCAiRE:情報検索対話システムのためのデータ拡張

CAiRE in DialDoc21: Data Augmentation for Information-Seeking Dialogue System ( http://arxiv.org/abs/2106.03530v1 )

ライセンス: Link先を確認
Etsuko Ishii, Yan Xu, Genta Indra Winata, Zhaojiang Lin, Andrea Madotto, Zihan Liu, Peng Xu, Pascale Fung(参考訳) 知識識別や応答生成を含む情報検索対話システムは,ユーザのニーズに応じて,流動的で一貫性のある情報応答をユーザに提供することを目的としている。 この課題に取り組むために,事前学習された言語モデルを用いたデータ拡張手法といくつかの訓練手法を用いて,タスクの一般的なパターンを学習し,有望なパフォーマンスを実現する。 DialDoc21コンペティションでは,サブタスク1で74.95 F1スコア,60.74 Exact Matchスコア,サブタスク2で37.72 SacreBLEUスコアを達成した。 本手法の有効性を説明するために実証分析を行った。

Information-seeking dialogue systems, including knowledge identification and response generation, aim to respond to users with fluent, coherent, and informative responses based on users' needs, which. To tackle this challenge, we utilize data augmentation methods and several training techniques with the pre-trained language models to learn a general pattern of the task and thus achieve promising performance. In DialDoc21 competition, our system achieved 74.95 F1 score and 60.74 Exact Match score in subtask 1, and 37.72 SacreBLEU score in subtask 2. Empirical analysis is provided to explain the effectiveness of our approaches.
翻訳日:2021-06-08 18:44:01 公開日:2021-06-07
# ダイアログ評価尺度の総合的評価

A Comprehensive Assessment of Dialog Evaluation Metrics ( http://arxiv.org/abs/2106.03706v1 )

ライセンス: Link先を確認
Yi-Ting Yeh, Maxine Eskenazi, Shikib Mehri(参考訳) 自動評価指標はダイアログシステム研究の重要な構成要素である。 標準言語評価指標はダイアログの評価に効果がないことが知られている。 このように、近年の研究では、人間の判断と相関する新しい対話特有の指標がいくつか提案されている。 研究の速さのため、これらの指標の多くは異なるデータセットで評価されており、それら間で体系的な比較を行う時間がまだない。 そこで本稿では,最近提案されている多数のデータセットのダイアログ評価指標の包括的評価を行う。 本稿では,17種類の自動評価指標を10種類のデータセットで評価する。 さらに、メトリクスは異なる設定で評価され、それぞれの強みと弱みをよりよく評価します。 1)ターンレベルとダイアログレベルの両方で、(2)異なるダイアログ長、(3)異なるダイアログ品質(例えば、コヒーレンス、エンゲージ)、(4)異なるタイプの応答生成モデル(例えば、生成、検索、シンプルなモデルと最先端モデル)、(5)異なるメトリクスの類似性、(6)異なるメトリクスの組み合わせを検討する。 この包括的評価は、概してダイアログ評価指標に関するいくつかの要約を提供する。 また、評価メトリクスを評価する最善の評価方法を提案し、将来の作業への有望な方向性を示す。

Automatic evaluation metrics are a crucial component of dialog systems research. Standard language evaluation metrics are known to be ineffective for evaluating dialog. As such, recent research has proposed a number of novel, dialog-specific metrics that correlate better with human judgements. Due to the fast pace of research, many of these metrics have been assessed on different datasets and there has as yet been no time for a systematic comparison between them. To this end, this paper provides a comprehensive assessment of recently proposed dialog evaluation metrics on a number of datasets. In this paper, 17 different automatic evaluation metrics are evaluated on 10 different datasets. Furthermore, the metrics are assessed in different settings, to better qualify their respective strengths and weaknesses. Metrics are assessed (1) on both the turn level and the dialog level, (2) for different dialog lengths, (3) for different dialog qualities (e.g., coherence, engaging), (4) for different types of response generation models (i.e., generative, retrieval, simple models and state-of-the-art models), (5) taking into account the similarity of different metrics and (6) exploring combinations of different metrics. This comprehensive assessment offers several takeaways pertaining to dialog evaluation metrics in general. It also suggests how to best assess evaluation metrics and indicates promising directions for future work.
翻訳日:2021-06-08 18:43:49 公開日:2021-06-07
# X2Parser:タスク指向のコンポジションセマンティックパーシングのための言語横断およびドメイン横断フレームワーク

X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented Compositional Semantic Parsing ( http://arxiv.org/abs/2106.03777v1 )

ライセンス: Link先を確認
Zihan Liu, Genta Indra Winata, Peng Xu, Pascale Fung(参考訳) タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理し、仮想アシスタントの重要なコンポーネントとして機能する。 現在のTCSPモデルは、十分なパフォーマンスを達成するために多数のトレーニングデータに依存しているが、低リソースのターゲット言語やドメインに一般化できない。 本稿では,tcsp用のトランスファー可能なクロス言語およびクロスドメインパーサであるx2parserを提案する。 ネストインテントとスロットの階層表現を学習する従来のモデルとは異なり、フラットなインテントとスロット表現を別々に予測し、両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。 その後、まず各トークンのラベル数を動的に検出し、次にスロットタイプを予測できる、出生率に基づくスロット予測器を提案する。 実験結果から,本モデルは言語間およびドメイン間設定において,既存の強いベースラインを著しく上回り,対象ドメインのターゲット言語に対して優れた一般化能力を得ることができることが示された。 さらに,本モデルでは, 生成モデルと比較して, 遅延を最大66%低減する効率的な非自己回帰手法でこの問題に取り組む。

Task-oriented compositional semantic parsing (TCSP) handles complex nested user queries and serves as an essential component of virtual assistants. Current TCSP models rely on numerous training data to achieve decent performance but fail to generalize to low-resource target languages or domains. In this paper, we present X2Parser, a transferable Cross-lingual and Cross-domain Parser for TCSP. Unlike previous models that learn to generate the hierarchical representations for nested intents and slots, we propose to predict flattened intents and slots representations separately and cast both prediction tasks into sequence labeling problems. After that, we further propose a fertility-based slot predictor that first learns to dynamically detect the number of labels for each token, and then predicts the slot types. Experimental results illustrate that our model can significantly outperform existing strong baselines in cross-lingual and cross-domain settings, and our model can also achieve a good generalization ability on target languages of target domains. Furthermore, our model tackles the problem in an efficient non-autoregressive way that reduces the latency by up to 66% compared to the generative model.
翻訳日:2021-06-08 18:43:30 公開日:2021-06-07
# アスペクトベース感情分析のための深い文脈・関連学習

Deep Context- and Relation-Aware Learning for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2106.03806v1 )

ライセンス: Link先を確認
Shinhyeok Oh, Dongyub Lee, Taesun Whang, IlNam Park, Gaeun Seo, EungGyun Kim and Harksoo Kim(参考訳) アスペクトベース感情分析(ABSA)の既存の研究は、サブタスク間の対話的な関係を可能にする統一的なアプローチを採用している。 しかし、これらの手法は、アスペクトや意見用語の文字通りの意味に基づいて極性を予測し、主に単語レベルでのサブタスク間の関係を暗黙的に考慮する傾向がある。 さらに、複数のアスペクト-オピニオン対とその極性を特定することはより難しい。 したがって、文脈情報 w.r.t の包括的理解。 ABSAにはその側面と意見がさらに必要である。 本稿では,2つのモジュール(Aspect and Opinion Propagation and Explicit Self-Supervised Strategies)に基づいて,サブタスク間の対話的関係と深いコンテキスト情報(ディープ・コンテクスト・アウェア・ネットワーク)を提案する。 特に,複数の側面に対処する上での強みを有するABSAのための,新たな自己監督戦略を設計する。 実験結果から、DCRANは3つの広く使用されているベンチマークにおいて、従来の最先端手法よりも大きなマージンで大幅に優れていた。

Existing works for aspect-based sentiment analysis (ABSA) have adopted a unified approach, which allows the interactive relations among subtasks. However, we observe that these methods tend to predict polarities based on the literal meaning of aspect and opinion terms and mainly consider relations implicitly among subtasks at the word level. In addition, identifying multiple aspect-opinion pairs with their polarities is much more challenging. Therefore, a comprehensive understanding of contextual information w.r.t. the aspect and opinion are further required in ABSA. In this paper, we propose Deep Contextualized Relation-Aware Network (DCRAN), which allows interactive relations among subtasks with deep contextual information based on two modules (i.e., Aspect and Opinion Propagation and Explicit Self-Supervised Strategies). Especially, we design novel self-supervised strategies for ABSA, which have strengths in dealing with multiple aspects. Experimental results show that DCRAN significantly outperforms previous state-of-the-art methods by large margins on three widely used benchmarks.
翻訳日:2021-06-08 18:43:09 公開日:2021-06-07
# SelfDoc: 自己監督型ドキュメント表現学習

SelfDoc: Self-Supervised Document Representation Learning ( http://arxiv.org/abs/2106.03331v1 )

ライセンス: Link先を確認
Peizhao Li, Jiuxiang Gu, Jason Kuen, Vlad I. Morariu, Handong Zhao, Rajiv Jain, Varun Manjunatha, Hongfu Liu(参考訳) 文書画像理解のためのタスクに依存しない事前学習フレームワークであるSelfDocを提案する。 文書はマルチモーダルであり、シーケンシャルな読みを意図しているため、本フレームワークは文書中の意味的に意味のある全てのコンポーネントの位置情報、テキスト情報、視覚情報を活用し、コンテンツブロック間のコンテキスト化をモデル化する。 既存の文書事前学習モデルとは異なり、我々のモデルは個々の単語を入力として扱うのではなく粗い粒度であり、過剰な文脈化を伴う過度に細かい粒度を避ける。 さらに,未ラベル文書からのマルチモーダル情報を完全に活用するために,モデルの事前学習フェーズでクロスモーダル学習を導入する。 本稿では,言語と視覚信号の適応的強調によるマルチモーダル特徴融合のための新しいモダリティ適応型アテンション機構を提案する。 我々のフレームワークは、フィーチャマスキングトレーニング戦略によるアノテーションを必要とせず、文書の自己教師による事前訓練の恩恵を受ける。 複数のダウンストリームタスクにおいて,事前学習段階の文書画像が従来よりも大幅に少ないパフォーマンスを実現している。

We propose SelfDoc, a task-agnostic pre-training framework for document image understanding. Because documents are multimodal and are intended for sequential reading, our framework exploits the positional, textual, and visual information of every semantically meaningful component in a document, and it models the contextualization between each block of content. Unlike existing document pre-training models, our model is coarse-grained instead of treating individual words as input, therefore avoiding an overly fine-grained with excessive contextualization. Beyond that, we introduce cross-modal learning in the model pre-training phase to fully leverage multimodal information from unlabeled documents. For downstream usage, we propose a novel modality-adaptive attention mechanism for multimodal feature fusion by adaptively emphasizing language and vision signals. Our framework benefits from self-supervised pre-training on documents without requiring annotations by a feature masking training strategy. It achieves superior performance on multiple downstream tasks with significantly fewer document images used in the pre-training stage compared to previous works.
翻訳日:2021-06-08 18:42:49 公開日:2021-06-07
# タスク認識アクティブラーニングのための視覚トランスフォーマー

Visual Transformer for Task-aware Active Learning ( http://arxiv.org/abs/2106.03801v1 )

ライセンス: Link先を確認
Razvan Caramalau, Binod Bhattarai, Tae-Kyun Kim(参考訳) Pool-based sample in active learning (AL) は、ディープラーニングモデルを扱う際の通知データのための重要なフレームワークである。 本稿では,プール型アクティブラーニングのための新しいパイプラインを提案する。 従来の研究と異なり,本手法は学習中に使用可能な未使用例を利用してラベル付き例と相関関係を推定する。 この論文のもうひとつの貢献は、ALパイプラインのサンプルとしてVisual Transformerを適用することだ。 視覚トランスフォーマーはラベル付き例とラベル付き例の間の非局所的な視覚概念依存性をモデル化する。 また,学習者やサンプル者が多段階的に学習する既存の手法と比較して,ラベル付き例を分類するタスクと,ラベル付き例を区別するタスクと,ラベル付け方向を区別するタスクとを協調的に学習する手法を提案する。 分類と検出タスクの4つの難解なベンチマークについて評価した。 CIFAR10、CIFAR100、FashionMNIST、RaFD、Pascal VOC 2007。 実験的および定性的な評価は,既存手法と比較して,本手法の優位性を示すものである。 コード提供:https://github.com/ razvancaramalau/Visu al-Transformer-for-T ask-aware-Active-Lea rning

Pool-based sampling in active learning (AL) represents a key framework for an-notating informative data when dealing with deep learning models. In this paper, we present a novel pipeline for pool-based Active Learning. Unlike most previous works, our method exploits accessible unlabelled examples during training to estimate their co-relation with the labelled examples. Another contribution of this paper is to adapt Visual Transformer as a sampler in the AL pipeline. Visual Transformer models non-local visual concept dependency between labelled and unlabelled examples, which is crucial to identifying the influencing unlabelled examples. Also, compared to existing methods where the learner and the sampler are trained in a multi-stage manner, we propose to train them in a task-aware jointly manner which enables transforming the latent space into two separate tasks: one that classifies the labelled examples; the other that distinguishes the labelling direction. We evaluated our work on four different challenging benchmarks of classification and detection tasks viz. CIFAR10, CIFAR100,FashionMNIS T, RaFD, and Pascal VOC 2007. Our extensive empirical and qualitative evaluations demonstrate the superiority of our method compared to the existing methods. Code available: https://github.com/r azvancaramalau/Visua l-Transformer-for-Ta sk-aware-Active-Lear ning
翻訳日:2021-06-08 18:42:17 公開日:2021-06-07
# 信頼領域法による平均逆強化学習

Average-Reward Reinforcement Learning with Trust Region Methods ( http://arxiv.org/abs/2106.03442v1 )

ライセンス: Link先を確認
Xiaoteng Ma, Xiaohang Tang, Li Xia, Jun Yang, Qianchuan Zhao(参考訳) ほとんどの強化学習アルゴリズムは、収束を加速し、見積もりのばらつきを減らすのに役立つ割引基準を最適化する。 割引基準は金融問題などの特定のタスクに適しているが、多くの工学的問題は将来の報酬を等しく扱い、長期平均基準を好む。 本稿では,長期平均基準を用いた強化学習問題について検討する。 まず,割引基準と平均基準を併用した統一信頼領域理論を考案する。 平均的な基準により、信頼領域内に束縛された新しいパフォーマンスは摂動解析(pa)理論によって導かれる。 次に,平均値制約と呼ばれる新しい手法を用いて,平均ポリシー最適化(apo)という実用的な手法を提案する。 我々の知る限り、我々の研究は信頼領域アプローチを平均基準で研究する最初のものであり、割引基準を超えた強化学習の枠組みを補完するものである。 最後に、連続制御環境である MuJoCo で実験を行う。 多くのタスクにおいて、APOは割引されたPPOよりも優れており、このアプローチの有効性を示している。

Most of reinforcement learning algorithms optimize the discounted criterion which is beneficial to accelerate the convergence and reduce the variance of estimates. Although the discounted criterion is appropriate for certain tasks such as financial related problems, many engineering problems treat future rewards equally and prefer a long-run average criterion. In this paper, we study the reinforcement learning problem with the long-run average criterion. Firstly, we develop a unified trust region theory with discounted and average criteria. With the average criterion, a novel performance bound within the trust region is derived with the Perturbation Analysis (PA) theory. Secondly, we propose a practical algorithm named Average Policy Optimization (APO), which improves the value estimation with a novel technique named Average Value Constraint. To the best of our knowledge, our work is the first one to study the trust region approach with the average criterion and it complements the framework of reinforcement learning beyond the discounted criterion. Finally, experiments are conducted in the continuous control environment MuJoCo. In most tasks, APO performs better than the discounted PPO, which demonstrates the effectiveness of our approach.
翻訳日:2021-06-08 18:38:56 公開日:2021-06-07
# 文脈的バンディットを用いた長い列のランク付けの学習

On Learning to Rank Long Sequences with Contextual Bandits ( http://arxiv.org/abs/2106.03546v1 )

ライセンス: Link先を確認
Anirban Santara, Claudio Gentile, Gaurav Aggarwal, Shuai Li(参考訳) 長い項目列をランク付けする学習の問題に動機づけられ,報酬や損失が異なるフレキシブルな長さ列を考えるcascading banditモデルの変種について紹介する。 一般化線形設定において,この問題に対して2つの生成モデルを定式化し,高信頼アルゴリズムの設計と解析を行う。 我々の分析は、バニラカスケードの盗賊に特化して、文献で以前よりも厳しい保証をもたらす厳格な後悔の限界を提供する。 実世界の複数のデータセットでアルゴリズムを評価し,カスケード帯域ベースラインと比較して経験的性能が有意に向上した。

Motivated by problems of learning to rank long item sequences, we introduce a variant of the cascading bandit model that considers flexible length sequences with varying rewards and losses. We formulate two generative models for this problem within the generalized linear setting, and design and analyze upper confidence algorithms for it. Our analysis delivers tight regret bounds which, when specialized to vanilla cascading bandits, results in sharper guarantees than previously available in the literature. We evaluate our algorithms on a number of real-world datasets, and show significantly improved empirical performance as compared to known cascading bandit baselines.
翻訳日:2021-06-08 18:38:41 公開日:2021-06-07
# 知識のない学習: 継続的伝達強化学習における観察されていない文脈

Learning without Knowing: Unobserved Context in Continuous Transfer Reinforcement Learning ( http://arxiv.org/abs/2106.03833v1 )

ライセンス: Link先を確認
Chenyu Liu, Yan Zhang, Yi Shen and Michael M. Zavlanos(参考訳) 本稿では,連続状態と行動空間における伝達強化学習(RL)問題について,観測不能な文脈情報に基づいて考察する。 例えば、コンテキストは、この世界との過去の相互作用を通じて、専門家エージェントが形成した世界のメンタルビューを表現することができる。 このコンテキストは、専門家データのみを観察できる学習者エージェントにはアクセスできないと仮定する。 次に,新しいデータサンプルのみを使用して,学習者の最適な文脈認識ポリシーを学ぶことを目的とする。 このような問題は、専門家と学習者の両方が同じ情報にアクセスできることを前提に、模倣学習を用いて解決される。 しかし、学習者が専門家の文脈を知らない場合、専門家のデータのみを使用することでバイアスのある学習者ポリシーが生まれ、多くの新しいデータサンプルが必要とされる。 本稿では,この課題に対処するために,学習問題を因果境界制約マルチアームバンド(mab)問題として定式化する。 このMABの紋章は、専門家データを用いて教師なしの方法で初期化でき、観測されていない文脈で影響を受ける異なる専門家の振る舞いを表現できる一連の基本ポリシー機能に対応する。 一方、MAB制約は、専門家データから計算したこれらの基本方針関数の累積報酬の因果境界に対応する。 このMABの解決策により、学習者は最良の基本方針を選択し、オンラインで改善することができる。 そして因果境界を用いることで、探索のばらつきが減少し、学習率が向上する。 提案手法は,既存の模倣学習法に比べて学習者の方針を高速に改善し,訓練中の分散度がはるかに低いことを示す自律運転例について数値実験を行った。

In this paper, we consider a transfer Reinforcement Learning (RL) problem in continuous state and action spaces, under unobserved contextual information. For example, the context can represent the mental view of the world that an expert agent has formed through past interactions with this world. We assume that this context is not accessible to a learner agent who can only observe the expert data. Then, our goal is to use the context-aware expert data to learn an optimal context-unaware policy for the learner using only a few new data samples. Such problems are typically solved using imitation learning that assumes that both the expert and learner agents have access to the same information. However, if the learner does not know the expert context, using the expert data alone will result in a biased learner policy and will require many new data samples to improve. To address this challenge, in this paper, we formulate the learning problem as a causal bound-constrained Multi-Armed-Bandit (MAB) problem. The arms of this MAB correspond to a set of basis policy functions that can be initialized in an unsupervised way using the expert data and represent the different expert behaviors affected by the unobserved context. On the other hand, the MAB constraints correspond to causal bounds on the accumulated rewards of these basis policy functions that we also compute from the expert data. The solution to this MAB allows the learner agent to select the best basis policy and improve it online. And the use of causal bounds reduces the exploration variance and, therefore, improves the learning rate. We provide numerical experiments on an autonomous driving example that show that our proposed transfer RL method improves the learner's policy faster compared to existing imitation learning methods and enjoys much lower variance during training.
翻訳日:2021-06-08 18:38:28 公開日:2021-06-07
# 検索広告における多様性駆動クエリ書き換え

Diversity driven Query Rewriting in Search Advertising ( http://arxiv.org/abs/2106.03816v1 )

ライセンス: Link先を確認
Akash Kumar Mohankumar, Nikit Begwani, Amit Singh(参考訳) 検索キーワード(bidwords)をクェリと同じ意図で検索することは、近種キーワードと呼ばれ、効果的なターゲティング検索広告にとって重要となる。 ヘッドとトーソ検索では、スポンサー付き検索エンジンは、前もって採掘された同じインテントクエリとキーワードの巨大なリポジトリを使用する。 オンラインでは、このレポジトリはクエリの書き直しと、大きな収益に寄与する入札キーワードのレポジトリの書き直しに使用される。 近年,このような問合せの書き直し作業において,生成的検索モデルが有効であることが示されている。 このような生成モデルの2つの主な制限を観察する。 第一に、これらのモデルによって生成される書き換えは、語彙の多様性が低く、したがって、様々な言語的バリエーションを持つ関連するキーワードを取得することができない。 第2に,トレーニング目標 – トレーニングデータの可能性,私たちが望むv/s – には,品質向上と書き直しのカバレッジ向上という誤解があります。 本研究は,我々の多様性駆動型強化学習アルゴリズムを用いて,人間の書き直し品質評価を最適化し,高品質かつ多様な書き直しを生成するフレームワークであるCLOVERを紹介する。 我々は,人間の判断を予測するように訓練された評価モデルを,生成方針を微調整する報酬機能として用いる。 提案手法の有効性を3つの主要言語にまたがる検索クエリのオフライン実験により実証的に示す。 また、大規模な商用検索エンジンであるBing上でオンラインA/B実験を実施し、(i)平均クリック数が12.83%増加し、平均欠陥が13.97%減少し、(ii)収益が21.29%向上した。

Retrieving keywords (bidwords) with the same intent as query, referred to as close variant keywords, is of prime importance for effective targeted search advertising. For head and torso search queries, sponsored search engines use a huge repository of same intent queries and keywords, mined ahead of time. Online, this repository is used to rewrite the query and then lookup the rewrite in a repository of bid keywords contributing to significant revenue. Recently generative retrieval models have been shown to be effective at the task of generating such query rewrites. We observe two main limitations of such generative models. First, rewrites generated by these models exhibit low lexical diversity, and hence the rewrites fail to retrieve relevant keywords that have diverse linguistic variations. Second, there is a misalignment between the training objective - the likelihood of training data, v/s what we desire - improved quality and coverage of rewrites. In this work, we introduce CLOVER, a framework to generate both high-quality and diverse rewrites by optimizing for human assessment of rewrite quality using our diversity-driven reinforcement learning algorithm. We use an evaluation model, trained to predict human judgments, as the reward function to finetune the generation policy. We empirically show the effectiveness of our proposed approach through offline experiments on search queries across geographies spanning three major languages. We also perform online A/B experiments on Bing, a large commercial search engine, which shows (i) better user engagement with an average increase in clicks by 12.83% accompanied with an average defect reduction by 13.97%, and (ii) improved revenue by 21.29%.
翻訳日:2021-06-08 18:37:32 公開日:2021-06-07
# 教師付き学習におけるランク付き範囲損失の和算

Sum of Ranked Range Loss for Supervised Learning ( http://arxiv.org/abs/2106.03300v1 )

ライセンス: Link先を確認
Shu Hu, Yiming Ying, Xin Wang, Siwei Lyu(参考訳) 学習目標を形成するには、個々の値をひとつのアウトプットに集約する必要があることが多い。 このようなケースは、トレーニングサンプル毎の学習モデルの個人的損失と、クラスラベル全体の予測スコアを結合したマルチラベル学習の個人的損失を組み合わせた集合的損失に発生する。 本研究では,学習目標を定式化するための一般的なアプローチとして,ランキング範囲(SoRR)の和を紹介する。 ランク付き範囲は、実数の集合のソートされた値の連続的なシーケンスである。 SoRRの最小化は凸アルゴリズム(DCA)の違いによって解決される。 サンプルレベルでのバイナリ/マルチクラス分類におけるAoRR集約損失と,ラベルレベルでのマルチラベル/マルチクラス分類におけるTKML個別損失という,SoRRフレームワークの最小化のための機械学習応用について検討する。 AoRRとTKMLの組み合わせ損失は、サンプルやラベル等における外れ値の面におけるマルチラベル学習の堅牢性向上のための新たな学習目標として提案される。 提案手法の有効性を実証し,合成データと実データを用いて提案手法の有効性を実証した。

In forming learning objectives, one oftentimes needs to aggregate a set of individual values to a single output. Such cases occur in the aggregate loss, which combines individual losses of a learning model over each training sample, and in the individual loss for multi-label learning, which combines prediction scores over all class labels. In this work, we introduce the sum of ranked range (SoRR) as a general approach to form learning objectives. A ranked range is a consecutive sequence of sorted values of a set of real numbers. The minimization of SoRR is solved with the difference of convex algorithm (DCA). We explore two applications in machine learning of the minimization of the SoRR framework, namely the AoRR aggregate loss for binary/multi-class classification at the sample level and the TKML individual loss for multi-label/multi-cl ass classification at the label level. A combination loss of AoRR and TKML is proposed as a new learning objective for improving the robustness of multi-label learning in the face of outliers in sample and labels alike. Our empirical results highlight the effectiveness of the proposed optimization frameworks and demonstrate the applicability of proposed losses using synthetic and real data sets.
翻訳日:2021-06-08 18:33:25 公開日:2021-06-07
# 局所微分プライバシーを持つ一般化線形バンディット

Generalized Linear Bandits with Local Differential Privacy ( http://arxiv.org/abs/2106.03365v1 )

ライセンス: Link先を確認
Yuxuan Han, Zhipeng Liang, Yang Wang, Jiheng Zhang(参考訳) コンテキストバンディットアルゴリズムは、パーソナライズされたオンライン意思決定に有用である。 しかし、パーソナライズされた医療やオンライン広告などの多くのアプリケーションは、個人の情報を効果的に学習するために利用する必要がある。 これは、局所微分プライバシー(LDP)というプライバシーの厳格な概念を文脈的盗賊に導入する動機となっている。 本稿では,確率的一般化線形帯域幅に対する LDP アルゴリズムを設計し,非プライバシ設定と同じ後悔点を実現する。 本研究の目的は, 確率勾配に基づく推定器と更新機構を開発し, LDPを確実にすることである。 次に,一般線形バンディットを扱う場合,バンディット問題に対する理論的保証がほとんど検討されない確率勾配降下 (sgd) の柔軟性を利用する。 また,線形包帯に対する正規最小広場(OLS)に基づく推定器と更新機構も開発した。 最後に、シミュレーションと実世界のデータセットの両方を用いて実験を行い、LDP制約下でのアルゴリズムの一貫して超越した性能を合理的に小さなパラメータ$(\varepsilon, \delta)$で実証し、強力なプライバシ保護を保証する。

Contextual bandit algorithms are useful in personalized online decision-making. However, many applications such as personalized medicine and online advertising require the utilization of individual-specific information for effective learning, while user's data should remain private from the server due to privacy concerns. This motivates the introduction of local differential privacy (LDP), a stringent notion in privacy, to contextual bandits. In this paper, we design LDP algorithms for stochastic generalized linear bandits to achieve the same regret bound as in non-privacy settings. Our main idea is to develop a stochastic gradient-based estimator and update mechanism to ensure LDP. We then exploit the flexibility of stochastic gradient descent (SGD), whose theoretical guarantee for bandit problems is rarely explored, in dealing with generalized linear bandits. We also develop an estimator and update mechanism based on Ordinary Least Square (OLS) for linear bandits. Finally, we conduct experiments with both simulation and real-world datasets to demonstrate the consistently superb performance of our algorithms under LDP constraints with reasonably small parameters $(\varepsilon, \delta)$ to ensure strong privacy protection.
翻訳日:2021-06-08 18:33:05 公開日:2021-06-07
# 回帰のための機械学習における不確実性評価方法

How to Evaluate Uncertainty Estimates in Machine Learning for Regression? ( http://arxiv.org/abs/2106.03395v1 )

ライセンス: Link先を確認
Laurens Sluijterman, Eric Cator, Tom Heskes(参考訳) ニューラルネットワークが普及するにつれて、不確実性推定に伴う必要性が増加する。 現在のテスト方法論では、予測の不確実性推定が予測と観測の違いをどの程度うまく説明できるかに焦点が当てられている。 直感的にはこれは論理的なアプローチです。 ベンチマークデータセットの現在の設定は、異なるメソッドの比較も容易である。 しかし,理論的な議論とシミュレーションを通じて,不確実性推定の質を評価する方法には重大な欠陥があることを実証する。 第一に、アレタリックをてんかんの不確実性から遠ざけることはできない。 第2に、現在の方法論では、すべてのテストサンプルの平均不確実性を考慮し、過信と過信の予測を暗黙的に平均化しています。 テストポイントの正しい割合が予測間隔内に収まるかどうかを確認すると、平均的な良いスコアは個々のポイントに対して適切な間隔を保証しない。 我々は,これらの効果が,信頼区間の望ましくない振る舞いを持つ予測的不確実性に基づく手法を好まざるを得ないことを実例で示す。 最後に,これらの問題に対処しつつ,異なる手法の比較を容易にするシミュレーションベースのテスト手法を提案する。

As neural networks become more popular, the need for accompanying uncertainty estimates increases. The current testing methodology focusses on how good the predictive uncertainty estimates explain the differences between predictions and observations in a previously unseen test set. Intuitively this is a logical approach. The current setup of benchmark data sets also allows easy comparison between the different methods. We demonstrate, however, through both theoretical arguments and simulations that this way of evaluating the quality of uncertainty estimates has serious flaws. Firstly, it cannot disentangle the aleatoric from the epistemic uncertainty. Secondly, the current methodology considers the uncertainty averaged over all test samples, implicitly averaging out overconfident and underconfident predictions. When checking if the correct fraction of test points falls inside prediction intervals, a good score on average gives no guarantee that the intervals are sensible for individual points. We demonstrate through practical examples that these effects can result in favoring a method, based on the predictive uncertainty, that has undesirable behaviour of the confidence intervals. Finally, we propose a simulation-based testing approach that addresses these problems while still allowing easy comparison between different methods.
翻訳日:2021-06-08 18:32:45 公開日:2021-06-07
# 不均質集団における非線形因果クラスタリングのための距離共分散型カーネル

A Distance Covariance-based Kernel for Nonlinear Causal Clustering in Heterogeneous Populations ( http://arxiv.org/abs/2106.03480v1 )

ライセンス: Link先を確認
Alex Markham and Moritz Grosse-Wentrup(参考訳) 本研究は, 生物・社会科学において一般的であるように, 単一因果構造がすべての集団を適切に表現していない不均質集団の設定における因果構造学習の問題を考える。 この目的のために, 異なる試料の非線形因果構造間の類似性を測定するために, 距離共分散に基づくカーネルを提案する。 このカーネルはクラスタリングを行い、同種サブポピュレーションを識別する。 実際、対応する特徴写像が非線形独立構造の統計的に一貫性のある推定子であることを証明し、カーネル自体が異なる生成因果構造からサンプルの集合が来るという仮説の統計的テストとなる。 既存の手法を使って各サブ集団の因果構造を学習することができる。 遺伝子学の応用による因果的クラスタリングにカーネルを用いることで、測定された遺伝子発現レベルを調節する潜在転写因子ネットワークを解明することができる。

We consider the problem of causal structure learning in the setting of heterogeneous populations, i.e., populations in which a single causal structure does not adequately represent all population members, as is common in biological and social sciences. To this end, we introduce a distance covariance-based kernel designed specifically to measure the similarity between the underlying nonlinear causal structures of different samples. This kernel enables us to perform clustering to identify the homogeneous subpopulations. Indeed, we prove the corresponding feature map is a statistically consistent estimator of nonlinear independence structure, rendering the kernel itself a statistical test for the hypothesis that sets of samples come from different generating causal structures. We can then use existing methods to learn a causal structure for each of these subpopulations. We demonstrate using our kernel for causal clustering with an application in genetics, allowing us to reason about the latent transcription factor networks regulating measured gene expression levels.
翻訳日:2021-06-08 18:32:27 公開日:2021-06-07
# マルチチャート流れ

Multi-chart flows ( http://arxiv.org/abs/2106.03500v1 )

ライセンス: Link先を確認
Dimitris Kalatzis, Johan Ziruo Ye, Jesper Wohlert, S{\o}ren Hauberg(参考訳) トポロジ的に非自明な多様体と統計密度を同時に学習するフローベースモデルであるマルチチャートフローを提案する。 現在の手法は、位相的にユークリッドである多様体に焦点をあて、学習されたモデルに強い構造的事前を強制したり、高次元にスケールしない操作を使用する。 対照的に、我々のモデルは、学習された座標チャートの集合を通して、局所多様体トポロジーを「グルー」することで断片的に学習する。 我々は、既知の多様体の合成データと未知位相の高次元多様体にアプローチの効率性を示す。

We present Multi-chart flows, a flow-based model for concurrently learning topologically non-trivial manifolds and statistical densities on them. Current methods focus on manifolds that are topologically Euclidean, enforce strong structural priors on the learned models or use operations that do not scale to high dimensions. In contrast, our model learns the local manifold topology piecewise by "gluing" it back together through a collection of learned coordinate charts. We demonstrate the efficiency of our approach on synthetic data of known manifolds, as well as higher dimensional manifolds of unknown topology, where we show better sample efficiency and competitive or superior performance against current state-of-the-art.
翻訳日:2021-06-08 18:32:11 公開日:2021-06-07
# Top-KAST:Top-K Always Sparse Training

Top-KAST: Top-K Always Sparse Training ( http://arxiv.org/abs/2106.03517v1 )

ライセンス: Link先を確認
Siddhant M. Jayakumar, Razvan Pascanu, Jack W. Rae, Simon Osindero, Erich Elsen(参考訳) スパースニューラルネットワークは、既存のモデルのスケールアップによるパフォーマンス向上と、消費電力と計算フットプリントの削減を同時に図りながら、ますます重要になっている。 残念なことに、パフォーマンススパースモデルを誘導する既存の手法は、トレーニング中も高密度パラメータや後方通過における密度勾配のインスタンス化を必要とする。 非常に大きなモデルでは、この要件は禁じられる。 本研究は,(前方パスと後方パスの両方において)トレーニングを通して一定のスパース性を保持する方法であるtop-kastを提案する。 提案手法の有効性は,既存のImageNetベンチマークのトレーニングモデルにおいて,従来と同等以上の性能を示しながら,空間性を完全に維持していることを示す。 ImageNetの結果に加えて、現在の最高のパフォーマンスアーキテクチャが数千億のパラメータを持つ傾向にあり、スケールアップがまだ飽和したパフォーマンスを持っていない言語モデリングの分野においても、私たちのアプローチを実証しています。 これらのアーキテクチャのスパースバージョンは、はるかに少ないリソースで実行でき、より広くアクセス可能で適用可能である。 さらに、効果的であることに加えて、私たちのアプローチは単純で、数行のコードだけで、幅広い既存の機械学習フレームワークで簡単に実装できます。 それゆえ私たちは、我々の貢献が、膨大な計算コストを伴わずに、広範囲のコミュニティが巨大なモデルが持つ可能性を探求するのに役立つことを期待しています。

Sparse neural networks are becoming increasingly important as the field seeks to improve the performance of existing models by scaling them up, while simultaneously trying to reduce power consumption and computational footprint. Unfortunately, most existing methods for inducing performant sparse models still entail the instantiation of dense parameters, or dense gradients in the backward-pass, during training. For very large models this requirement can be prohibitive. In this work we propose Top-KAST, a method that preserves constant sparsity throughout training (in both the forward and backward-passes). We demonstrate the efficacy of our approach by showing that it performs comparably to or better than previous works when training models on the established ImageNet benchmark, whilst fully maintaining sparsity. In addition to our ImageNet results, we also demonstrate our approach in the domain of language modeling where the current best performing architectures tend to have tens of billions of parameters and scaling up does not yet seem to have saturated performance. Sparse versions of these architectures can be run with significantly fewer resources, making them more widely accessible and applicable. Furthermore, in addition to being effective, our approach is straightforward and can easily be implemented in a wide range of existing machine learning frameworks with only a few additional lines of code. We therefore hope that our contribution will help enable the broader community to explore the potential held by massive models, without incurring massive computational cost.
翻訳日:2021-06-08 18:31:58 公開日:2021-06-07
# 破損に基づく校正による予測不確かさの改善

Improved Predictive Uncertainty using Corruption-based Calibration ( http://arxiv.org/abs/2106.03762v1 )

ライセンス: Link先を確認
Tiago Salvador, Vikram Voleti, Alexander Iannantuono, Adam Oberman(参考訳) 大規模データベンチマーク (ovadia et al, 2019) で示されるように,共変量シフトのデータに対してモデル予測が正しいという信頼度/不確実性を評価するための簡単なポストホック校正法を提案する。 我々は、既知の腐敗の強度の異なるキャリブレーションセットを破損させることにより、サロゲート校正セットを合成する。 本手法は,幅広い共変量シフトにおけるベンチマークの大幅な改善を示す。

We propose a simple post hoc calibration method to estimate the confidence/uncertain ty that a model prediction is correct on data with covariate shift, as represented by the large-scale corrupted data benchmark [Ovadia et al, 2019]. We achieve this by synthesizing surrogate calibration sets by corrupting the calibration set with varying intensities of a known corruption. Our method demonstrates significant improvements on the benchmark on a wide range of covariate shifts.
翻訳日:2021-06-08 18:31:35 公開日:2021-06-07
# 不均一処理効果推定のための誘導バイアスについて

On Inductive Biases for Heterogeneous Treatment Effect Estimation ( http://arxiv.org/abs/2106.03765v1 )

ライセンス: Link先を確認
Alicia Curth and Mihaela van der Schaar(参考訳) 有限標本における条件付き平均治療効果のより良い評価を得るために,異なる治療条件下で個人の潜在結果(pos)の構造的類似性をどのように活用するかを検討する。 特に、治療に効果があるかどうかがわからない場合、POsが類似しているという仮定は自然である - しかし、治療効果推定の既存の戦略では、たとえ存在せず、共有構造を完全に利用できない場合でも、暗黙的に不均一性を奨励する正規化スキームが採用されている。 本稿では,この問題を解決するための3つのエンドツーエンド学習戦略(正規化,再パラメータ化,フレキシブルなマルチタスクアーキテクチャ)を検証し,比較する。 相対的な強みを理解するために、ニューラルネットワークを用いて全ての戦略を実装し、幅広い半合成実験を行う。 3つのアプローチがすべて,多数のベースラインに大幅な改善をもたらし,さまざまな実験環境におけるパフォーマンス差の洞察を得ることが可能である。

We investigate how to exploit structural similarities of an individual's potential outcomes (POs) under different treatments to obtain better estimates of conditional average treatment effects in finite samples. Especially when it is unknown whether a treatment has an effect at all, it is natural to hypothesize that the POs are similar - yet, some existing strategies for treatment effect estimation employ regularization schemes that implicitly encourage heterogeneity even when it does not exist and fail to fully make use of shared structure. In this paper, we investigate and compare three end-to-end learning strategies to overcome this problem - based on regularization, reparametrization and a flexible multi-task architecture - each encoding inductive bias favoring shared behavior across POs. To build understanding of their relative strengths, we implement all strategies using neural networks and conduct a wide range of semi-synthetic experiments. We observe that all three approaches can lead to substantial improvements upon numerous baselines and gain insight into performance differences across various experimental settings.
翻訳日:2021-06-08 18:31:25 公開日:2021-06-07
# SGDにおける重機と過パラメータニューラルネットワークの圧縮性

Heavy Tails in SGD and Compressibility of Overparametrized Neural Networks ( http://arxiv.org/abs/2106.03795v1 )

ライセンス: Link先を確認
Melih Barsbey, Milad Sefidgaran, Murat A. Erdogdu, Ga\"el Richard, Umut \c{S}im\c{s}ekli(参考訳) ニューラルネットワーク圧縮技術は、非常に大きなネットワークのストレージと計算要求を大幅に削減できるため、ますます人気が高まっている。 最近の実証研究は、単純な刈り取り戦略でさえ驚くほど効果的であることを示し、いくつかの理論的研究は、圧縮可能なネットワーク(特定の意味で)が低い一般化誤差を達成することを示している。 しかし、そのような単純な圧縮スキームに対処できるネットワークの根本原因に関する理論的特徴はいまだに欠落している。 本研究では,この基本的な問題に対処し,学習アルゴリズムのダイナミクスが圧縮性ネットワークを得る上で重要な役割を担っていることを明らかにした。 確率勾配降下(SGD)に着目して、SGDの最近確立された2つの特性に圧縮性をリンクする: (i) ネットワークサイズが無限大になるにつれて、システムは平均場限界に収束し、ネットワークの重みは独立に振る舞う; (ii) 大きなステップサイズ/バッチサイズ比では、SGDは重尾定常分布に収束する。 これら2つの現象が同時に発生した場合、ネットワークが'$\ell_p$-compressibl e'であることが保証され、ネットワークサイズが大きくなるにつれて異なるプルーニング技法(マグニチュード、特異値、ノードプルーニング)の圧縮誤差が任意に小さくなることが証明される。 我々はさらに,より圧縮性のあるネットワークでは一般化誤差が低くなることを確認し,理論的な枠組みに適応した一般化境界を証明した。 様々なニューラルネットワークに関する理論と数値研究では、大きなステップサイズ/バッチサイズ比が重く、過パラメータ化と組み合わせて圧縮性をもたらすことが示されている。

Neural network compression techniques have become increasingly popular as they can drastically reduce the storage and computation requirements for very large networks. Recent empirical studies have illustrated that even simple pruning strategies can be surprisingly effective, and several theoretical studies have shown that compressible networks (in specific senses) should achieve a low generalization error. Yet, a theoretical characterization of the underlying cause that makes the networks amenable to such simple compression schemes is still missing. In this study, we address this fundamental question and reveal that the dynamics of the training algorithm has a key role in obtaining such compressible networks. Focusing our attention on stochastic gradient descent (SGD), our main contribution is to link compressibility to two recently established properties of SGD: (i) as the network size goes to infinity, the system can converge to a mean-field limit, where the network weights behave independently, (ii) for a large step-size/batch-size ratio, the SGD iterates can converge to a heavy-tailed stationary distribution. In the case where these two phenomena occur simultaneously, we prove that the networks are guaranteed to be '$\ell_p$-compressibl e', and the compression errors of different pruning techniques (magnitude, singular value, or node pruning) become arbitrarily small as the network size increases. We further prove generalization bounds adapted to our theoretical framework, which indeed confirm that the generalization error will be lower for more compressible networks. Our theory and numerical study on various neural networks show that large step-size/batch-size ratios introduce heavy-tails, which, in combination with overparametrization, result in compressibility.
翻訳日:2021-06-08 18:31:06 公開日:2021-06-07
# 不確実性に基づくマルチモーダルフュージョンを用いた多目的話者検出

Active Speaker Detection as a Multi-Objective Optimization with Uncertainty-based Multimodal Fusion ( http://arxiv.org/abs/2106.03821v1 )

ライセンス: Link先を確認
Baptiste Pouthier, Laurent Pilati, Leela K. Gudupudi, Charles Bouveyron and Frederic Precioso(参考訳) 様々な研究から、アクティブな話者の検出において、ビデオと音声のデータを組み合わせることで大きな利点があることが明らかになっている。 しかし、どちらのモダリティも、信頼できない情報や偽装情報を誘導することで、オーディオ視覚融合を誤解させる可能性がある。 本稿では, 能動話者検出を多目的学習問題として概説し, 新たな自己注意・不確実性に基づくマルチモーダル融合方式を用いて各モーダルを最大限活用する。 その結果,提案した多目的学習アーキテクチャは,mAPとAUCのスコアを改善する従来の手法よりも優れていた。 さらに,本研究の融合戦略が,様々な分野において報告された能動的話者検出,その他のモダリティ融合手法を上回ることを実証した。 最後に,提案手法がAVA-ActiveSpeakerデータセットの最先端性を大幅に向上することを示す。

It is now well established from a variety of studies that there is a significant benefit from combining video and audio data in detecting active speakers. However, either of the modalities can potentially mislead audiovisual fusion by inducing unreliable or deceptive information. This paper outlines active speaker detection as a multi-objective learning problem to leverage best of each modalities using a novel self-attention, uncertainty-based multimodal fusion scheme. Results obtained show that the proposed multi-objective learning architecture outperforms traditional approaches in improving both mAP and AUC scores. We further demonstrate that our fusion strategy surpasses, in active speaker detection, other modality fusion methods reported in various disciplines. We finally show that the proposed method significantly improves the state-of-the-art on the AVA-ActiveSpeaker dataset.
翻訳日:2021-06-08 18:30:34 公開日:2021-06-07
# 深層学習に基づく画像デハジングに関する総合的調査

A Comprehensive Survey on Image Dehazing Based on Deep Learning ( http://arxiv.org/abs/2106.03323v1 )

ライセンス: Link先を確認
Jie Gui, Xiaofeng Cong, Yuan Cao, Wenqi Ren, Jun Zhang, Jing Zhang, Dacheng Tao(参考訳) ヘイズの存在は画像の品質を大幅に低下させる。 研究者は、ヘイズ画像の品質を回復するために、画像デハージング(ID)のための様々なアルゴリズムを設計した。 しかし, 深層学習(DL)に基づく脱湿技術について概説する研究はほとんどない。 本稿では,最近提案されている除草方法に関する総合的な調査を行う。 まず、一般的に使用されるデータセット、損失関数、評価メトリクスを要約する。 次に,既存のID研究を,教師付きIDと教師なしIDの2つの主要なカテゴリに分類する。 様々な影響のあるデハージングモデルのコアアイデアが紹介されている。 最後に、idに関する今後の研究のオープンイシューが指摘されている。

The presence of haze significantly reduces the quality of images. Researchers have designed a variety of algorithms for image dehazing (ID) to restore the quality of hazy images. However, there are few studies that summarize the deep learning (DL) based dehazing technologies. In this paper, we conduct a comprehensive survey on the recent proposed dehazing methods. Firstly, we summarize the commonly used datasets, loss functions and evaluation metrics. Secondly, we group the existing researches of ID into two major categories: supervised ID and unsupervised ID. The core ideas of various influential dehazing models are introduced. Finally, the open issues for future research on ID are pointed out.
翻訳日:2021-06-08 18:29:19 公開日:2021-06-07
# 画像取得変化に対する機械学習モデルの効率的な適応のための連続能動学習

Continual Active Learning for Efficient Adaptation of Machine Learning Models to Changing Image Acquisition ( http://arxiv.org/abs/2106.03351v1 )

ライセンス: Link先を確認
Matthias Perkonigg, Johannes Hofmanninger, Georg Langs(参考訳) 臨床ルーチンでのイメージングは、通常不均一な取得ハードウェアのセットでスキャナープロトコル、ハードウェア、ポリシーを変更する必要がある。 ディープラーニングモデルの正確性と信頼性は、データとターゲットが最初の静的トレーニングセットと一致しないため、これらの変化に苦しむ。 連続学習は、変化する画像環境の連続データストリームに適応することができる。 本稿では,医用画像のデータストリームを用いた連続的能動学習手法を提案する。 新たな画像ソース – ドメイン – のシフトや追加を認識し、トレーニングに適応し、ラベリングの最適な例を選択する。 モデルトレーニングは、典型的な現実世界のシナリオに似た、限定的なラベル付け予算に対処する必要がある。 3種類のスキャナからt1強調磁気共鳴画像を得る方法を示し,脳年齢推定を行った。 提案手法は,手動ラベリングを少なくしながら,能動的学習に優れることを示した。

Imaging in clinical routine is subject to changing scanner protocols, hardware, or policies in a typically heterogeneous set of acquisition hardware. Accuracy and reliability of deep learning models suffer from those changes as data and targets become inconsistent with their initial static training set. Continual learning can adapt to a continuous data stream of a changing imaging environment. Here, we propose a method for continual active learning on a data stream of medical images. It recognizes shifts or additions of new imaging sources - domains -, adapts training accordingly, and selects optimal examples for labelling. Model training has to cope with a limited labelling budget, resembling typical real world scenarios. We demonstrate our method on T1-weighted magnetic resonance images from three different scanners with the task of brain age estimation. Results demonstrate that the proposed method outperforms naive active learning while requiring less manual labelling.
翻訳日:2021-06-08 18:29:13 公開日:2021-06-07
# ゆがみ学習のための可換リー群VAE

Commutative Lie Group VAE for Disentanglement Learning ( http://arxiv.org/abs/2106.03375v1 )

ライセンス: Link先を確認
Xinqi Zhu, Chang Xu, Dacheng Tao(参考訳) 我々は,データに表される因子的変動を同変的に反映する基盤構造を見いだしている。 伝統的に、そのような構造は個々の潜在次元に沿った変換によって表されるデータの変動を持つベクトル空間として固定される。 この単純な構造は、モデルがプロパティを破棄することを学ぶ必要がある(例えば、)ため、準最適であると主張する。 変化のスケール、抽象性の異なるレベル) データの変化、これは等分散学習よりも余分な仕事です。 その代わりに,データ変動をグループで符号化する手法を提案する。構造は変化を同変的に表現できるだけでなく,データ変動の特性を保存するために適応的に最適化することもできる。 群構造に関する訓練を行うことは困難であり, リー群に着目し, リー代数を用いたパラメータ化を適用する。 パラメータ化に基づいて、いくつかの非絡み合い学習制約が自然に導出される。 グループベースの非絡み合い学習を実現するために,Communative Lie Group VAEというシンプルなモデルを導入した。 実験の結果,本モデルでは,不連続表現を監視せずに効果的に学習し,余分な制約を伴わずに最先端のパフォーマンスを実現することができた。

We view disentanglement learning as discovering an underlying structure that equivariantly reflects the factorized variations shown in data. Traditionally, such a structure is fixed to be a vector space with data variations represented by translations along individual latent dimensions. We argue this simple structure is suboptimal since it requires the model to learn to discard the properties (e.g. different scales of changes, different levels of abstractness) of data variations, which is an extra work than equivariance learning. Instead, we propose to encode the data variations with groups, a structure not only can equivariantly represent variations, but can also be adaptively optimized to preserve the properties of data variations. Considering it is hard to conduct training on group structures, we focus on Lie groups and adopt a parameterization using Lie algebra. Based on the parameterization, some disentanglement learning constraints are naturally derived. A simple model named Commutative Lie Group VAE is introduced to realize the group-based disentanglement learning. Experiments show that our model can effectively learn disentangled representations without supervision, and can achieve state-of-the-art performance without extra constraints.
翻訳日:2021-06-08 18:29:02 公開日:2021-06-07
# マルチエクイト意味セグメンテーションネットワーク

Multi-Exit Semantic Segmentation Networks ( http://arxiv.org/abs/2106.03527v1 )

ライセンス: Link先を確認
Alexandros Kouris, Stylianos I. Venieris, Stefanos Laskaridis, Nicholas D. Lane(参考訳) セマンティックセグメンテーションは、自動運転車やロボットナビゲーションから拡張現実や遠隔会議まで、多くのビジョンシステムのバックボーンとして生じる。 制限されたリソースエンベロープ内で厳しいレイテンシ制約の下で頻繁に動作し、効率的な実行を最適化することが重要である。 この目的のために我々は,最先端のセグメンテーションモデルを乱雑なネットワークに変換するためのフレームワークを提案する。 このようなネットワークの設計とトレーニングは、パフォーマンスを損なう可能性がある。 そこで本研究では,ネットワークの早期に意味的に重要な機能をプッシュする2段階のトレーニングプロセスを提案する。 我々は、デバイス機能やアプリケーション固有の要求に適応するために、接続されたセグメンテーションヘッドの数、配置、アーキテクチャをエグジットポリシーとともに最適化する。 速度を最適化することで、MESSネットワークは精度を低下させることなく、最先端の手法よりも最大2.83倍のレイテンシ向上を達成することができる。 したがって, 精度を最適化し, 同じ計算予算で最大5.33ppの精度向上を実現した。

Semantic segmentation arises as the backbone of many vision systems, spanning from self-driving cars and robot navigation to augmented reality and teleconferencing. Frequently operating under stringent latency constraints within a limited resource envelope, optimising for efficient execution becomes important. To this end, we propose a framework for converting state-of-the-art segmentation models to MESS networks; specially trained CNNs that employ parametrised early exits along their depth to save computation during inference on easier samples. Designing and training such networks naively can hurt performance. Thus, we propose a two-staged training process that pushes semantically important features early in the network. We co-optimise the number, placement and architecture of the attached segmentation heads, along with the exit policy, to adapt to the device capabilities and application-specific requirements. Optimising for speed, MESS networks can achieve latency gains of up to 2.83x over state-of-the-art methods with no accuracy degradation. Accordingly, optimising for accuracy, we achieve an improvement of up to 5.33 pp, under the same computational budget.
翻訳日:2021-06-08 18:28:43 公開日:2021-06-07
# ディープランキングにおける敵対的攻撃と防御

Adversarial Attack and Defense in Deep Ranking ( http://arxiv.org/abs/2106.03614v1 )

ライセンス: Link先を確認
Mo Zhou, Le Wang, Zhenxing Niu, Qilin Zhang, Nanning Zheng, Gang Hua(参考訳) ディープニューラルネットワーク分類器は敵の攻撃に弱いため、知覚不能な摂動は誤分類をもたらす可能性がある。 しかし、DNNベースの画像ランキングシステムの脆弱性は未解明のままである。 本稿では,候補候補のランクを敵の摂動によって引き上げたり下げたりできる,ディープランキングシステム,すなわち候補攻撃とクエリアタックに対する2つの攻撃を提案する。 具体的には、予想順位はまず不等式の集合として表され、次に最適な摂動を得るために三重項のような目的関数が設計される。 逆に, 対向攻撃による正・負のサンプル同士の接近を防止するため, 全攻撃に対する格付けモデルロバスト性を改善するために, 反崩壊三重項防御法が提案されている。 そこで,我々は,ランキングモデルにおける経験的対向的ロバストネスを総合的に測定するために,ランキングモデルに対する一連の代表的攻撃を含む経験的ロバストネススコアを提案する。 MNIST, Fashion-MNIST, CUB200-2011, CARS196およびStanford Online Productsデータセットを用いて, 敵のランク付け攻撃と防御を評価した。 実験の結果,一般的な深層ランキングシステムは攻撃によって効果的に損なわれることが分かった。 それでも、我々の防衛はランキングシステムの堅牢性を大幅に向上させ、同時に広範囲の攻撃を軽減できます。

Deep Neural Network classifiers are vulnerable to adversarial attack, where an imperceptible perturbation could result in misclassification. However, the vulnerability of DNN-based image ranking systems remains under-explored. In this paper, we propose two attacks against deep ranking systems, i.e., Candidate Attack and Query Attack, that can raise or lower the rank of chosen candidates by adversarial perturbations. Specifically, the expected ranking order is first represented as a set of inequalities, and then a triplet-like objective function is designed to obtain the optimal perturbation. Conversely, an anti-collapse triplet defense is proposed to improve the ranking model robustness against all proposed attacks, where the model learns to prevent the positive and negative samples being pulled close to each other by adversarial attack. To comprehensively measure the empirical adversarial robustness of a ranking model with our defense, we propose an empirical robustness score, which involves a set of representative attacks against ranking models. Our adversarial ranking attacks and defenses are evaluated on MNIST, Fashion-MNIST, CUB200-2011, CARS196 and Stanford Online Products datasets. Experimental results demonstrate that a typical deep ranking system can be effectively compromised by our attacks. Nevertheless, our defense can significantly improve the ranking system robustness, and simultaneously mitigate a wide range of attacks.
翻訳日:2021-06-08 18:28:24 公開日:2021-06-07
# 小型データセットを用いた視覚変換器の効率的な訓練

Efficient Training of Visual Transformers with Small-Size Datasets ( http://arxiv.org/abs/2106.03746v1 )

ライセンス: Link先を確認
Yahui Liu, Enver Sangineto, Wei Bi, Nicu Sebe, Bruno Lepri and Marco De Nadai(参考訳) visual transformers (vts) は畳み込みネットワーク (cnns) に代わるアーキテクチャパラダイムとして登場している。 CNNと異なり、VTは画像要素間のグローバルな関係を捉えることができ、より大きな表現能力を持つ可能性がある。 しかし、典型的な畳み込み帰納バイアスの欠如により、これらのモデルは一般的なCNNよりもデータに強い。 実際、CNNアーキテクチャ設計に埋め込まれたビジュアルドメインのいくつかのローカルプロパティは、VTでサンプルから学ぶ必要がある。 本稿では,小さなトレーニングセットでのロバスト性を比較することで,異なるvtを経験的に分析し,imagenetでトレーニングした場合と同等の精度を持つものの,より小さなデータセットでの性能は大きく異なる可能性があることを示す。 さらに,計算オーバーヘッドが無視できる画像から追加情報を抽出できる自己教師ありタスクを提案する。 このタスクは、VTが画像内の空間関係を学習することを奨励し、トレーニングデータが不足している場合、VTトレーニングをより堅牢にする。 私たちのタスクは、標準(教師付き)トレーニングと共同で使用され、特定のアーキテクチャ選択に依存しないので、既存のVTに簡単にプラグインすることができます。 異なるVTとデータセットを用いて広範囲な評価を行うことで,VTの最終精度を劇的に向上させることができることを示す。 コードは受理後利用可能になる。

Visual Transformers (VTs) are emerging as an architectural paradigm alternative to Convolutional networks (CNNs). Differently from CNNs, VTs can capture global relations between image elements and they potentially have a larger representation capacity. However, the lack of the typical convolutional inductive bias makes these models more data-hungry than common CNNs. In fact, some local properties of the visual domain which are embedded in the CNN architectural design, in VTs should be learned from samples. In this paper, we empirically analyse different VTs, comparing their robustness in a small training-set regime, and we show that, despite having a comparable accuracy when trained on ImageNet, their performance on smaller datasets can be largely different. Moreover, we propose a self-supervised task which can extract additional information from images with only a negligible computational overhead. This task encourages the VTs to learn spatial relations within an image and makes the VT training much more robust when training data are scarce. Our task is used jointly with the standard (supervised) training and it does not depend on specific architectural choices, thus it can be easily plugged in the existing VTs. Using an extensive evaluation with different VTs and datasets, we show that our method can improve (sometimes dramatically) the final accuracy of the VTs. The code will be available upon acceptance.
翻訳日:2021-06-08 18:28:02 公開日:2021-06-07
# 複雑なシーンの教師なし画像翻訳

Few-Shot Unsupervised Image-to-Image Translation on complex scenes ( http://arxiv.org/abs/2106.03770v1 )

ライセンス: Link先を確認
Luca Barras, Samuel Chassot, Daniel Filipe Nunes Silva(参考訳) 教師なし画像間翻訳法はここ数年,注目されている。 さまざまな視点から最初の課題に取り組む複数のテクニックが現れました。 翻訳のための複数のターゲットスタイルの画像から可能な限り学習することに注力する者もいれば、コンテンツに富んだシーンでより現実的な結果を生み出すためにオブジェクト検出を利用する者もいる。 本研究では,より多様でコンテンツに富んだ画像に対して,単一オブジェクト翻訳のために最初に開発された手法がどのように動作するかを評価する。 我々の仕事はfunit[1]フレームワークに基づいており、より多様なデータセットでトレーニングしています。 これは、そのようなメソッドがアプリケーションの最初のフレームを超えてどのように振る舞うかを理解するのに役立つ。 オブジェクト検出に基づいてデータセットを拡張する方法を提案する。 さらに,他の手法で見られる物体検出のパワーを活用するために,funitフレームワークを適用する方法を提案する。

Unsupervised image-to-image translation methods have received a lot of attention in the last few years. Multiple techniques emerged tackling the initial challenge from different perspectives. Some focus on learning as much as possible from several target style images for translations while other make use of object detection in order to produce more realistic results on content-rich scenes. In this work, we assess how a method that has initially been developed for single object translation performs on more diverse and content-rich images. Our work is based on the FUNIT[1] framework and we train it with a more diverse dataset. This helps understanding how such method behaves beyond their initial frame of application. We present a way to extend a dataset based on object detection. Moreover, we propose a way to adapt the FUNIT framework in order to leverage the power of object detection that one can see in other methods.
翻訳日:2021-06-08 18:27:39 公開日:2021-06-07
# SIMONe: 教師なしビデオ分解によるビュー不変、一時抽象オブジェクト表現

SIMONe: View-Invariant, Temporally-Abstracte d Object Representations via Unsupervised Video Decomposition ( http://arxiv.org/abs/2106.03849v1 )

ライセンス: Link先を確認
Rishabh Kabra, Daniel Zoran, Goker Erdogan, Loic Matthey, Antonia Creswell, Matthew Botvinick, Alexander Lerchner, Christopher P. Burgess(参考訳) エージェントは,各シーンの構成構造(特にシーンを構成するオブジェクトの構成と特徴)を抽出したい。 この問題は、エージェントの位置・視点を推定しながらシーン構造を推定する必要がある場合に特に困難である。 我々はこの問題に対して教師なしの変分アプローチを提案する。 異なるシーンにまたがる共有構造を利用することで、rgbビデオ入力のみから2組の潜在表現を推測することを学ぶ:シーンの時間不変なオブジェクトレベルコンテンツに対応する「オブジェクト」潜在表現の集合と、視点のようなグローバルな時間変動要素に対応する「フレーム」潜在表現の集合である。 この潜在因子の分解により、我々のモデルSIMONeは、視点に依存しないアロセントリックな方法でオブジェクト属性を表現できる。 さらに、オブジェクトのダイナミクスを分解し、それらのトラジェクトリを時間制限、ビュー不変、オブジェクトごとの特性としてまとめることができます。 これらの機能と、ビュー合成とインスタンスセグメンテーションの観点からモデルのパフォーマンスを、3つのプロシージャで生成されたビデオデータセットで実証する。

To help agents reason about scenes in terms of their building blocks, we wish to extract the compositional structure of any given scene (in particular, the configuration and characteristics of objects comprising the scene). This problem is especially difficult when scene structure needs to be inferred while also estimating the agent's location/viewpoint, as the two variables jointly give rise to the agent's observations. We present an unsupervised variational approach to this problem. Leveraging the shared structure that exists across different scenes, our model learns to infer two sets of latent representations from RGB video input alone: a set of "object" latents, corresponding to the time-invariant, object-level contents of the scene, as well as a set of "frame" latents, corresponding to global time-varying elements such as viewpoint. This factorization of latents allows our model, SIMONe, to represent object attributes in an allocentric manner which does not depend on viewpoint. Moreover, it allows us to disentangle object dynamics and summarize their trajectories as time-abstracted, view-invariant, per-object properties. We demonstrate these capabilities, as well as the model's performance in terms of view synthesis and instance segmentation, across three procedurally generated video datasets.
翻訳日:2021-06-08 18:27:28 公開日:2021-06-07
# DMBGN:Voucher償還率予測のための深層多行動グラフネットワーク

DMBGN: Deep Multi-Behavior Graph Networks for Voucher Redemption Rate Prediction ( http://arxiv.org/abs/2106.03356v1 )

ライセンス: Link先を確認
Fengtong Xiao, Lin Li, Weinan Xu, Jingyu Zhao, Xiaofeng Yang, Jun Lang, Hao Wang(参考訳) 電子商取引では、Voucherはユーザーのエンゲージメントを高め、売上と収益を高める重要なマーケティングツールである。 ユーザがvoucherを償還する可能性は、voucherの配布決定の鍵となる要因である。 ユーザイットム Click-Through-Rate (CTR) モデルは、ユーザ-ヴォッシャーの償還率を予測するためにしばしば使用される。 しかし、voucherのシナリオはユーザー、アイテム、voucher間のより複雑な関係を含んでいる。 ブーチャー収集活動におけるユーザの履歴行動は、ユーザのブーチャー利用パターンを反映しており、それでもCTRベースのソリューションでは見落としている。 本稿では,voucher redemption rate 予測のために,この分野に光を当てる深層マルチビヘイビアグラフネットワーク (dmbgn) を提案する。 複雑な構造的ユーザ-ボウチャー-イテム関係は、User-Behavior Voucher Graph (UVG)によってキャプチャされる。 voucherコレクションの前後に発生するユーザの振る舞いを考慮に入れ、高次グラフニューラルネットワークによって高レベル表現を抽出する。 UVGのシーケンスの上にアテンションネットワークが構築され、ユーザの長期的ボウチャー償却の好みを学習するのに役立つ。 3つの大規模生産データセットに対する大規模な実験は、提案されたDMBGNモデルが有効であることを示し、Deep Neural Networks(DNN)よりも10%から16%、Deep Interest Network(DIN)よりも2%から4%のAUCの改善がある。 ソースコードとサンプルデータセットは、将来の研究を促進するために公開されている。

In E-commerce, vouchers are important marketing tools to enhance users' engagement and boost sales and revenue. The likelihood that a user redeems a voucher is a key factor in voucher distribution decision. User-item Click-Through-Rate (CTR) models are often applied to predict the user-voucher redemption rate. However, the voucher scenario involves more complicated relations among users, items and vouchers. The users' historical behavior in a voucher collection activity reflects users' voucher usage patterns, which is nevertheless overlooked by the CTR-based solutions. In this paper, we propose a Deep Multi-behavior Graph Networks (DMBGN) to shed light on this field for the voucher redemption rate prediction. The complex structural user-voucher-item relationships are captured by a User-Behavior Voucher Graph (UVG). User behavior happening both before and after voucher collection is taken into consideration, and a high-level representation is extracted by Higher-order Graph Neural Networks. On top of a sequence of UVGs, an attention network is built which can help to learn users' long-term voucher redemption preference. Extensive experiments on three large-scale production datasets demonstrate the proposed DMBGN model is effective, with 10% to 16% relative AUC improvement over Deep Neural Networks (DNN), and 2% to 4% AUC improvement over Deep Interest Network (DIN). Source code and a sample dataset are made publicly available to facilitate future research.
翻訳日:2021-06-08 18:26:17 公開日:2021-06-07
# 化学反応木に基づく分子生成生成モデル

A generative model for molecule generation based on chemical reaction trees ( http://arxiv.org/abs/2106.03394v1 )

ライセンス: Link先を確認
Dai Hai Nguyen and Koji Tsuda(参考訳) 深い生成モデルは、文字列、木、グラフなどの表現を通じて、望ましい化学的性質を持つ新しい分子を生成するために強力に示されている。 しかし、これらのモデルは実際に生成された分子の合成経路を推奨することに制限されている。 多段階化学反応木を用いた分子生成モデルを提案する。 具体的には, 反応テンプレートを予測し, 市販分子 (分子開始) を合成し, 生成物分子を得るための前処理を行う化学反応ツリーを提案する。 実験の結果, 生成物分子が所望の化学的性質を持つ化学反応を生成できることがわかった。 また、これらの生成物分子の完全な合成経路を提供する。

Deep generative models have been shown powerful in generating novel molecules with desired chemical properties via their representations such as strings, trees or graphs. However, these models are limited in recommending synthetic routes for the generated molecules in practice. We propose a generative model to generate molecules via multi-step chemical reaction trees. Specifically, our model first propose a chemical reaction tree with predicted reaction templates and commercially available molecules (starting molecules), and then perform forward synthetic steps to obtain product molecules. Experiments show that our model can generate chemical reactions whose product molecules are with desired chemical properties. Also, the complete synthetic routes for these product molecules are provided.
翻訳日:2021-06-08 18:25:54 公開日:2021-06-07
# neural auction:eコマース広告におけるオークションメカニズムのエンドツーエンド学習

Neural Auction: End-to-End Learning of Auction Mechanisms for E-Commerce Advertising ( http://arxiv.org/abs/2106.03593v1 )

ライセンス: Link先を確認
Xiangyu Liu, Chuan Yu, Zhilin Zhang, Zhenzhe Zheng, Yu Rong, Hongtao Lv, Da Huo, Yiqing Wang, Dagui Chen, Jian Xu, Fan Wu, Guihai Chen and Xiaoqiang Zhu(参考訳) eコマース広告では、ユーザエクスペリエンス、広告主ユーティリティ、プラットフォーム収益など、さまざまなパフォーマンス指標を共同で検討することが重要である。 gspやvcgオークションのような伝統的なオークションメカニズムは、単一のパフォーマンスメトリック(例えば収入や社会福祉)を最適化するための固定的な割り当てルールのために最適である。 近年、複数のパフォーマンス指標を最適化するためにオークション結果から直接学習したデータ駆動オークションが研究の関心を集めている。 しかしながら、オークション機構の手順には、さまざまな離散的な計算操作が含まれているため、機械学習における連続最適化パイプラインとの互換性が難しい。 本稿では,異なるモデルを提案して,離散的なソート操作を緩和し,エンド・ツー・エンドのオークション学習を可能にするために,<underline{D}eep \underline{N}eural \underline{A}uctions (DNA) を設計する。 我々は,オークションからコンテキストを効率的に抽出するディープモデルを開発することで,パフォーマンス指標を最適化する。 さらに,ゲーム理論条件をモデル設計の中に統合し,オークションの安定性を保証する。 タオバオのEコマース広告システムにDNAが配備されている。 大規模データセットとオンラインA/Bテストの両方の実験結果から、DNAは産業において広く採用されている他のメカニズムよりも著しく優れていることが示された。

In e-commerce advertising, it is crucial to jointly consider various performance metrics, e.g., user experience, advertiser utility, and platform revenue. Traditional auction mechanisms, such as GSP and VCG auctions, can be suboptimal due to their fixed allocation rules to optimize a single performance metric (e.g., revenue or social welfare). Recently, data-driven auctions, learned directly from auction outcomes to optimize multiple performance metrics, have attracted increasing research interests. However, the procedure of auction mechanisms involves various discrete calculation operations, making it challenging to be compatible with continuous optimization pipelines in machine learning. In this paper, we design \underline{D}eep \underline{N}eural \underline{A}uctions (DNAs) to enable end-to-end auction learning by proposing a differentiable model to relax the discrete sorting operation, a key component in auctions. We optimize the performance metrics by developing deep models to efficiently extract contexts from auctions, providing rich features for auction design. We further integrate the game theoretical conditions within the model design, to guarantee the stability of the auctions. DNAs have been successfully deployed in the e-commerce advertising system at Taobao. Experimental evaluation results on both large-scale data set as well as online A/B test demonstrated that DNAs significantly outperformed other mechanisms widely adopted in industry.
翻訳日:2021-06-08 18:25:43 公開日:2021-06-07
# 分布推論のリスクの形式化

Formalizing Distribution Inference Risks ( http://arxiv.org/abs/2106.03699v1 )

ライセンス: Link先を確認
Anshuman Suri and David Evans(参考訳) 特性推論攻撃は、トレーニングセットに関する統計特性を明らかにするが、分布に関する統計特性をキャプチャするモデルを作成する統計機械学習の主な目的と区別することが難しい。 yeomらに動機づけられた。 メンバシップ推論フレームワークでは,プロパティ推論攻撃の形式的かつ汎用的な定義を提案する。 提案された概念は、トレーニングデータセット内の特定のタイプのデータの比率を推測する以前のプロパティ推論攻撃を超えて、考えられるトレーニング分布を区別できる攻撃を記述する。 本稿では,我々の定義が過去のプロパティ推論攻撃を捉えた方法と,トレーニンググラフのノード数の平均値を明らかにする新しい攻撃と,プロパティ推論攻撃の潜在的なリスクに関する洞察を与える実験について報告する。

Property inference attacks reveal statistical properties about a training set but are difficult to distinguish from the primary purposes of statistical machine learning, which is to produce models that capture statistical properties about a distribution. Motivated by Yeom et al.'s membership inference framework, we propose a formal and generic definition of property inference attacks. The proposed notion describes attacks that can distinguish between possible training distributions, extending beyond previous property inference attacks that infer the ratio of a particular type of data in the training data set. In this paper, we show how our definition captures previous property inference attacks as well as a new attack that reveals the average degree of nodes of a training graph and report on experiments giving insight into the potential risks of property inference attacks.
翻訳日:2021-06-08 18:25:19 公開日:2021-06-07
# HERSスーパーピクセル:階層エントロピーレートセグメンテーションのための深層親和性学習

HERS Superpixels: Deep Affinity Learning for Hierarchical Entropy Rate Segmentation ( http://arxiv.org/abs/2106.03755v1 )

ライセンス: Link先を確認
Hankui Peng, Angelica I. Aviles-Rivero, Carola-Bibiane Schonlieb(参考訳) スーパーピクセルは多くのコンピュータビジョンタスクで強力な前処理ツールとして機能する。 超ピクセル表現を使用することで、画像プリミティブの数は桁違いに小さくすることができる。 スーパーピクセル法の大半は手作りの特徴を使い、通常はオブジェクトの境界に強く固執するものではない。 最近のいくつかのスーパーピクセル法は、スーパーピクセルセグメンテーションプロセスに深層学習を導入している。 しかし、これらの方法のいずれも、ほぼリアルタイムでスーパーピクセルを生成できないため、実際にはスーパーピクセル法の適用性に欠かせない。 本研究では,スーパーピクセルセグメンテーションのための2段階グラフベースフレームワークを提案する。 第1段階では,マルチスケール情報を集約することで,ペアワイズ画素親和性を学習するDAL(Deep Affinity Learning)ネットワークを導入する。 第2段階では階層エントロピーレートセグメンテーション(HERS)と呼ばれる高効率なスーパーピクセル法を提案する。 最初の段階から学んだ親和性を利用して、hersは階層的な木構造を構築し、様々な高度に適応したスーパーピクセルを瞬時に生成できる。 視覚および数値実験により, 様々な最先端のスーパーピクセル法と比較して, 提案手法の有効性と効率を実証した。

Superpixels serve as a powerful preprocessing tool in many computer vision tasks. By using superpixel representation, the number of image primitives can be largely reduced by orders of magnitudes. The majority of superpixel methods use handcrafted features, which usually do not translate well into strong adherence to object boundaries. A few recent superpixel methods have introduced deep learning into the superpixel segmentation process. However, none of these methods is able to produce superpixels in near real-time, which is crucial to the applicability of a superpixel method in practice. In this work, we propose a two-stage graph-based framework for superpixel segmentation. In the first stage, we introduce an efficient Deep Affinity Learning (DAL) network that learns pairwise pixel affinities by aggregating multi-scale information. In the second stage, we propose a highly efficient superpixel method called Hierarchical Entropy Rate Segmentation (HERS). Using the learned affinities from the first stage, HERS builds a hierarchical tree structure that can produce any number of highly adaptive superpixels instantaneously. We demonstrate, through visual and numerical experiments, the effectiveness and efficiency of our method compared to various state-of-the-art superpixel methods.
翻訳日:2021-06-08 18:25:08 公開日:2021-06-07
# PAC-Bayesはどのようにして小さなデータレジームに入るのか?

How Tight Can PAC-Bayes be in the Small Data Regime? ( http://arxiv.org/abs/2106.03542v1 )

ライセンス: Link先を確認
Andrew Y. K. Foong, Wessel P. Bruinsma, David R. Burt, Richard E. Turner(参考訳) 例えば、N = 30 のような少数のデータポイントを与えられた場合、PAC-Bayes とテストセット境界はどの程度厳密か? このような小さなデータセットの場合、テストセット境界はデータを捨てることで一般化性能に悪影響を及ぼす。 この設定では、PAC-Bayes境界は、すべてのデータを同時に学習し、その一般化リスクを束縛する能力のため、特に魅力的である。 i.i.d.の場合に焦点を当てる。 有界な損失を持つデータとgermain et alの一般的なpac-bayes定理を考える。 2009年)とBegin et al。 (2016). 彼らの定理は多くの既存のPAC-ベイズ境界を復元することが知られているが、彼らのフレームワークから最も厳密な境界が何であるかは明らかではない。 驚くべきことに、固定学習アルゴリズムとデータセットでは、この形式の最も厳密な境界は、カトーニ (2007) で考慮されたより制限的な境界の族の最強境界と一致する。 対照的に、データセット上の分布のより自然な場合、カトニ (2007) における境界の族が準最適であることを示す例(解析的および数値的)を挙げる。 Germainらによる証明フレームワーク内にある。 2009年)とBegin et al。 (2016) では, 後方が先行値と等しい場合に有界なチャーノフ検定セットを回収する, 期待できる最良有界上の下限を定めている。 最後に,これらの境界がいかに緊密であるかを説明するために,最強のPAC-Bayesおよびテストセット境界を得るための境界の事前および形の両方をメタ学習することが可能な合成一次元分類タスクについて検討する。 この単純で制御されたシナリオでは、PAC-Bayes境界は、よく使われるチャーノフテストセット境界と驚くほど競合する。 しかしながら、最も鋭いテストセット境界は、我々が検討するpac-bayes境界よりも、一般化エラーの保証が向上する。

In this paper, we investigate the question: Given a small number of datapoints, for example N = 30, how tight can PAC-Bayes and test set bounds be made? For such small datasets, test set bounds adversely affect generalisation performance by discarding data. In this setting, PAC-Bayes bounds are especially attractive, due to their ability to use all the data to simultaneously learn a posterior and bound its generalisation risk. We focus on the case of i.i.d. data with a bounded loss and consider the generic PAC-Bayes theorem of Germain et al. (2009) and Begin et al. (2016). While their theorem is known to recover many existing PAC-Bayes bounds, it is unclear what the tightest bound derivable from their framework is. Surprisingly, we show that for a fixed learning algorithm and dataset, the tightest bound of this form coincides with the tightest bound of the more restrictive family of bounds considered in Catoni (2007). In contrast, in the more natural case of distributions over datasets, we give examples (both analytic and numerical) showing that the family of bounds in Catoni (2007) can be suboptimal. Within the proof framework of Germain et al. (2009) and Begin et al. (2016), we establish a lower bound on the best bound achievable in expectation, which recovers the Chernoff test set bound in the case when the posterior is equal to the prior. Finally, to illustrate how tight these bounds can potentially be, we study a synthetic one-dimensional classification task in which it is feasible to meta-learn both the prior and the form of the bound to obtain the tightest PAC-Bayes and test set bounds possible. We find that in this simple, controlled scenario, PAC-Bayes bounds are surprisingly competitive with comparable, commonly used Chernoff test set bounds. However, the sharpest test set bounds still lead to better guarantees on the generalisation error than the PAC-Bayes bounds we consider.
翻訳日:2021-06-08 18:23:23 公開日:2021-06-07
# ディープニューラルネットワークによるノイズデータからの多次元複素ODEの校正

Calibrating multi-dimensional complex ODE from noisy data via deep neural networks ( http://arxiv.org/abs/2106.03591v1 )

ライセンス: Link先を確認
Kexuan Li, Fangfang Wang, Ruiqi Liu, Fan Yang, Zuofeng Shang(参考訳) 通常微分方程式(ODE)は、生物学、化学、工学、金融、物理学などにおいて生じる複雑な力学をモデル化するために広く用いられている。 ノイズの多いデータを用いた複雑なODEシステムの校正は非常に困難である。 本研究では,この問題に対する二段階非パラメトリックアプローチを提案する。 まず,境界カーネル法を用いて非有線データとその高次導関数を抽出し,reluアクティベーション関数を持つ疎結合深層ニューラルネットワークに供給する。 本手法は,次元と複雑なODE構造の呪いを伴わずに,ODEシステムを復元することができる。 ODEが汎用的なモジュール構造を持ち,各モジュールコンポーネントが少数の入力変数のみを含み,ネットワークアーキテクチャが適切に選択されている場合,本手法は一貫性があることが証明された。 理論特性は,提案手法の有効性と有効性を示す広範なシミュレーション研究によって裏付けられる。 最後に,米国50州におけるcovid-19の感染拡大率を同時に把握するために,本手法を用いた。

Ordinary differential equations (ODEs) are widely used to model complex dynamics that arises in biology, chemistry, engineering, finance, physics, etc. Calibration of a complicated ODE system using noisy data is generally very difficult. In this work, we propose a two-stage nonparametric approach to address this problem. We first extract the de-noised data and their higher order derivatives using boundary kernel method, and then feed them into a sparsely connected deep neural network with ReLU activation function. Our method is able to recover the ODE system without being subject to the curse of dimensionality and complicated ODE structure. When the ODE possesses a general modular structure, with each modular component involving only a few input variables, and the network architecture is properly chosen, our method is proven to be consistent. Theoretical properties are corroborated by an extensive simulation study that demonstrates the validity and effectiveness of the proposed method. Finally, we use our method to simultaneously characterize the growth rate of Covid-19 infection cases from 50 states of the USA.
翻訳日:2021-06-08 18:22:49 公開日:2021-06-07
# 大規模二次模型における確率運動量のダイナミクス

Dynamics of Stochastic Momentum Methods on Large-scale, Quadratic Models ( http://arxiv.org/abs/2106.03696v1 )

ライセンス: Link先を確認
Courtney Paquette, Elliot Paquette(参考訳) 高次元ランダム最小二乗問題に対する運動量を持つ確率的勾配アルゴリズムのクラスを解析した。 確率行列理論にインスパイアされた我々のフレームワークは、これらのアルゴリズムによって生成される損失値の列を正確に(決定論的)特徴づけ、ヘッセンの固有値の項でのみ表現する。 これにより、準最適ハイパーパラメーターの単純な表現、極限近傍の記述、平均ケース複雑性が導かれる。 その結果,固定運動量パラメータを持つ(小バッチ)確率的重球運動量は,ステップサイズが正しく調整された場合,sgdよりも性能が向上しないことが示された。 対照的に、非強凸条件では運動量を用いてSGDよりも大きな改善が得られる。 サンプル数に依存するハイパーパラメータを導入することで,パラメータを調整せずに強凸設定に線形収束し,漸近的に最適な平均ケース複雑性を求める新しいアルゴリズムsdana(stochastic dimension adaptive nesterov acceleration)を提案する。

We analyze a class of stochastic gradient algorithms with momentum on a high-dimensional random least squares problem. Our framework, inspired by random matrix theory, provides an exact (deterministic) characterization for the sequence of loss values produced by these algorithms which is expressed only in terms of the eigenvalues of the Hessian. This leads to simple expressions for nearly-optimal hyperparameters, a description of the limiting neighborhood, and average-case complexity. As a consequence, we show that (small-batch) stochastic heavy-ball momentum with a fixed momentum parameter provides no actual performance improvement over SGD when step sizes are adjusted correctly. For contrast, in the non-strongly convex setting, it is possible to get a large improvement over SGD using momentum. By introducing hyperparameters that depend on the number of samples, we propose a new algorithm sDANA (stochastic dimension adjusted Nesterov acceleration) which obtains an asymptotically optimal average-case complexity while remaining linearly convergent in the strongly convex setting without adjusting parameters.
翻訳日:2021-06-08 18:22:32 公開日:2021-06-07
# 一般線形モデルを用いたガウス混合学習:高次元の精密漸近

Learning Gaussian Mixtures with Generalised Linear Models: Precise Asymptotics in High-dimensions ( http://arxiv.org/abs/2106.03791v1 )

ライセンス: Link先を確認
Bruno Loureiro, Gabriele Sicuro, C\'edric Gerbelot, Alessandro Pacco, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。 本書では, コンベックス損失と正規化を伴わない経験的リスク最小化(ERM)を通じて, 一般的な手段と共分散を用いたK$ガウスの混合学習を特徴付ける。 特に、高次元のERM推定器を特徴付ける正確な漸近性を証明し、ガウス混合分類に関する過去の研究結果を拡張した。 a) スパース平均との混合に対する分類、そこでは$\ell_2$; b) max-margin multi-class分類に関する$\ell_1$ペナルティの効率を研究し、ここでは多クラスロジスティック最大確率推定器の存在に関する位相遷移を$k>2$で特徴づける。 最後に、我々の理論が合成データの範囲を超えてどのように適用できるかを議論し、ガウス混合が実データ集合における分類タスクの学習曲線を密に捉えていることを示す。

Generalised linear models for multi-class classification problems are one of the fundamental building blocks of modern machine learning tasks. In this manuscript, we characterise the learning of a mixture of $K$ Gaussians with generic means and covariances via empirical risk minimisation (ERM) with any convex loss and regularisation. In particular, we prove exact asymptotics characterising the ERM estimator in high-dimensions, extending several previous results about Gaussian mixture classification in the literature. We exemplify our result in two tasks of interest in statistical learning: a) classification for a mixture with sparse means, where we study the efficiency of $\ell_1$ penalty with respect to $\ell_2$; b) max-margin multi-class classification, where we characterise the phase transition on the existence of the multi-class logistic maximum likelihood estimator for $K>2$. Finally, we discuss how our theory can be applied beyond the scope of synthetic data, showing that in different cases Gaussian mixtures capture closely the learning curve of classification tasks in real data sets.
翻訳日:2021-06-08 18:22:16 公開日:2021-06-07
# 自然グラディエントブースティングによる多変量確率回帰

Multivariate Probabilistic Regression with Natural Gradient Boosting ( http://arxiv.org/abs/2106.03823v1 )

ライセンス: Link先を確認
Michael O'Malley, Adam M. Sykulski, Rick Lumpkin, Alejandro Schuler(参考訳) 単一目標回帰問題の多くは、点予測とともに不確実性の推定を必要とする。 確率回帰アルゴリズムはこれらのタスクに適している。 しかし、予測対象が多変量であり、不確実性のジョイント尺度が必要な場合、選択肢ははるかに制限される。 例えば、2次元の速度ベクトルを予測するとき、ジョイントの不確かさは平面内の任意のベクトルの確率を定量化し、x- と y-成分の2つの別々の不確かさよりも表現的になる。 連立確率回帰を実現するために,多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost)アプローチを提案する。 提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。 これらの主張をシミュレーションおよび2次元海洋速度データを予測したケーススタディで実証する。 このメソッドの実装はhttps://github.com/s tanfordmlgroup/ngboo stで利用可能です。

Many single-target regression problems require estimates of uncertainty along with the point predictions. Probabilistic regression algorithms are well-suited for these tasks. However, the options are much more limited when the prediction target is multivariate and a joint measure of uncertainty is required. For example, in predicting a 2D velocity vector a joint uncertainty would quantify the probability of any vector in the plane, which would be more expressive than two separate uncertainties on the x- and y- components. To enable joint probabilistic regression, we propose a Natural Gradient Boosting (NGBoost) approach based on nonparametrically modeling the conditional parameters of the multivariate predictive distribution. Our method is robust, works out-of-the-box without extensive tuning, is modular with respect to the assumed target distribution, and performs competitively in comparison to existing approaches. We demonstrate these claims in simulation and with a case study predicting two-dimensional oceanographic velocity data. An implementation of our method is available at https://github.com/s tanfordmlgroup/ngboo st.
翻訳日:2021-06-08 18:21:57 公開日:2021-06-07
# 逆問題に対するデータ駆動正規化を考慮したエンドツーエンド再構築

End-to-end reconstruction meets data-driven regularization for inverse problems ( http://arxiv.org/abs/2106.03538v1 )

ライセンス: Link先を確認
Subhadip Mukherjee, Marcello Carioni, Ozan \"Oktem, Carola-Bibiane Sch\"onlieb(参考訳) 本稿では,不適切な逆問題に対するエンドツーエンド再構成演算子を学習するための教師なしアプローチを提案する。 提案手法は, 従来の変分フレームワークと反復解法を組み合わせたもので, 基本的には, 測定空間における期待歪みとワッサースタイン-1の距離の重み付き結合を最小化することを目的としている。 より具体的には、変動設定の正規化子はディープニューラルネットワークによってパラメータ化され、未ロールの再構成演算子と同時に学習される。 変分問題は、無回転作用素の再構成によって初期化され、収束するまで反復的に解かれる。 特に、unrolled演算子を通じて得られる優れた初期化のおかげで、収束するイテレーションを著しく少なくする。 その結果、エンド・ツー・エンドのアンロール復元の計算効率と、変動設定の適切さとノイズ安定性の保証を組み合わせることができる。 さらに,本手法が最先端の非教師あり法を上回り,最先端の教師付き学習再構成法に匹敵する,あるいは同等であることを示すx線ctの例を示す。

We propose an unsupervised approach for learning end-to-end reconstruction operators for ill-posed inverse problems. The proposed method combines the classical variational framework with iterative unrolling, which essentially seeks to minimize a weighted combination of the expected distortion in the measurement space and the Wasserstein-1 distance between the distributions of the reconstruction and ground-truth. More specifically, the regularizer in the variational setting is parametrized by a deep neural network and learned simultaneously with the unrolled reconstruction operator. The variational problem is then initialized with the reconstruction of the unrolled operator and solved iteratively till convergence. Notably, it takes significantly fewer iterations to converge, thanks to the excellent initialization obtained via the unrolled operator. The resulting approach combines the computational efficiency of end-to-end unrolled reconstruction with the well-posedness and noise-stability guarantees of the variational setting. Moreover, we demonstrate with the example of X-ray computed tomography (CT) that our approach outperforms state-of-the-art unsupervised methods, and that it outperforms or is on par with state-of-the-art supervised learned reconstruction approaches.
翻訳日:2021-06-08 18:21:08 公開日:2021-06-07
# 制限固有値条件を用いたプラグ・アンド・プレイ先行値の回復解析

Recovery Analysis for Plug-and-Play Priors using the Restricted Eigenvalue Condition ( http://arxiv.org/abs/2106.03668v1 )

ライセンス: Link先を確認
Jiaming Liu, M. Salman Asif, Brendt Wohlberg, and Ulugbek S. Kamilov(参考訳) プラグ・アンド・プレイ先行(PnP)とレギュラー化法(RED)は,事前学習したディープ・デノイザを画像プリエントとして活用することで,逆問題の解決に広く利用されている。 これらのアルゴリズムの実証画像性能と理論的収束特性は広く研究されているが、その回復特性は理論的に解析されていない。 我々は, pnp/red の解がディープニューラルネットワークの固定点近傍にあることを仮定して, 理論的な回復保証を確立する方法を示すことにより, このギャップに対処する。 また, 圧縮センシングにおけるPnP/REDの回復性能を, 生成モデルに基づく最近の圧縮センシングアルゴリズムと比較した数値結果を示す。 以上の結果から,プレトレーニング済みのアーティファクト除去ネットワークを用いたPnPは,既存の最先端手法と比較して有意に優れた結果が得られることが示唆された。

The plug-and-play priors (PnP) and regularization by denoising (RED) methods have become widely used for solving inverse problems by leveraging pre-trained deep denoisers as image priors. While the empirical imaging performance and the theoretical convergence properties of these algorithms have been widely investigated, their recovery properties have not previously been theoretically analyzed. We address this gap by showing how to establish theoretical recovery guarantees for PnP/RED by assuming that the solution of these methods lies near the fixed-points of a deep neural network. We also present numerical results comparing the recovery performance of PnP/RED in compressive sensing against that of recent compressive sensing algorithms based on generative models. Our numerical results suggest that PnP with a pre-trained artifact removal network provides significantly better results compared to the existing state-of-the-art methods.
翻訳日:2021-06-08 18:20:48 公開日:2021-06-07
# GAN Cocktail: データセットアクセスなしでGANを混合する

GAN Cocktail: mixing GANs without dataset access ( http://arxiv.org/abs/2106.03847v1 )

ライセンス: Link先を確認
Omri Avrahami, Dani Lischinski, Ohad Fried(参考訳) 今日の生成モデルは高忠実度画像を合成できるが、それぞれのモデルは特定の対象領域に特化している。 これにより、2つ以上の事前訓練された生成モデルと1つの統一モデルを組み合わせるモデルマージの必要性が高まる。 本研究では,(1)トレーニングデータにアクセスできない,(2)ニューラルネットワークのサイズを増加させずに,実世界でしばしば生じる2つの制約を考慮し,モデルマージの問題に取り組む。 我々の知る限りでは、これらの制約の下でのモデルマージは今のところ研究されていない。 我々は新しい二段階解を提案する。 第一段階では、モデルルートと呼ぶ手法により、全てのモデルの重みを同じパラメータ空間に変換する。 第2段階では、元のトレーニングされたモデルによって生成されたデータのみを使用して、重みを平均化し、特定のドメインごとに微調整することで、ルート化されたモデルをマージします。 本手法は,ベースライン手法や既存のトランスファー学習手法よりも優れていることを実証し,いくつかの応用について検討する。

Today's generative models are capable of synthesizing high-fidelity images, but each model specializes on a specific target domain. This raises the need for model merging: combining two or more pretrained generative models into a single unified one. In this work we tackle the problem of model merging, given two constraints that often come up in the real world: (1) no access to the original training data, and (2) without increasing the size of the neural network. To the best of our knowledge, model merging under these constraints has not been studied thus far. We propose a novel, two-stage solution. In the first stage, we transform the weights of all the models to the same parameter space by a technique we term model rooting. In the second stage, we merge the rooted models by averaging their weights and fine-tuning them for each specific domain, using only data generated by the original trained models. We demonstrate that our approach is superior to baseline methods and to existing transfer learning techniques, and investigate several applications.
翻訳日:2021-06-08 18:20:33 公開日:2021-06-07
# 勾配降下による学習確率的最適政策

Learning Stochastic Optimal Policies via Gradient Descent ( http://arxiv.org/abs/2106.03780v1 )

ライセンス: Link先を確認
Stefano Massaroli, Michael Poli, Stefano Peluchetti, Jinkyoo Park, Atsushi Yamashita and Hajime Asama(参考訳) パラメトリック制御ポリシーの直接最適化に依存する確率的最適制御(SOC)を学習ベースで体系的に開発する。 本稿では,変分解析の直接的応用による確率微分方程式の随伴感度結果の導出を提案する。 次に、コントローラのデシデラタを指定する所定のタスクの目的関数を与えられたとき、それらのパラメータを反復勾配降下法で最適化する。 そこで,従来のSOC技術の適用範囲を拡大し,システムと制御の機能形式に関する厳密な仮定を必要とすることが多い。 本稿では,比例トランザクションコストを伴う連続時間有限地平線ポートフォリオ最適化における提案手法の有効性を検証する。

We systematically develop a learning-based treatment of stochastic optimal control (SOC), relying on direct optimization of parametric control policies. We propose a derivation of adjoint sensitivity results for stochastic differential equations through direct application of variational calculus. Then, given an objective function for a predetermined task specifying the desiderata for the controller, we optimize their parameters via iterative gradient descent methods. In doing so, we extend the range of applicability of classical SOC techniques, often requiring strict assumptions on the functional form of system and control. We verify the performance of the proposed approach on a continuous-time, finite horizon portfolio optimization with proportional transaction costs.
翻訳日:2021-06-08 18:19:37 公開日:2021-06-07
# buchbergerアルゴリズムの性能指標の学習

Learning a performance metric of Buchberger's algorithm ( http://arxiv.org/abs/2106.03676v1 )

ライセンス: Link先を確認
Jelena Mojsilovi\'c, Dylan Peifer, Sonja Petrovi\'c(参考訳) buchbergerのアルゴリズムの複雑さについて(機械)何を学べますか? 多項式の系が与えられたとき、Buchbergerのアルゴリズムは、多変量長分割に基づく反復的手順を用いてこれらの多項式が生成する理想のGr\"オブナー基底を計算する。 アルゴリズムの各ステップの実行は、典型的には一連の多項式加算によって支配され、これらの加算の総数は、様々な実装の選択を評価し最適化するためにしばしば使用されるハードウェアに依存しないパフォーマンス指標である。 本研究では,buchbergerアルゴリズムの1回の実行中に発生する多項式加算数を,開始入力のみを用いて予測する。 優れた予測は、難易度を素早く推定し、どの機能がgr\"obner基底計算を困難にするかを理解するのに役立つ。 当社の機能と手法は,[peifer, stillman, halpern-leistner, 2020]で導入されたbuchbergerのアルゴリズムを最適化するための強化学習アプローチにおけるバリューモデルにも利用できる。 計算が容易なイデアル生成統計量から構築した多重線形回帰モデルは、多項式付加数を、非形式モデルよりも幾分良く予測でき、計算が難しい直観的可換代数不変量に基づいて構築された回帰モデルよりも良いことを示す。 また、これらの線形モデルを上回る単純な再帰的ニューラルネットワークを訓練する。 我々の研究は概念実証として機能し、Buchbergerのアルゴリズムの多項式加算数を予測することは機械学習の観点から可能な問題であることを示した。

What can be (machine) learned about the complexity of Buchberger's algorithm? Given a system of polynomials, Buchberger's algorithm computes a Gr\"obner basis of the ideal these polynomials generate using an iterative procedure based on multivariate long division. The runtime of each step of the algorithm is typically dominated by a series of polynomial additions, and the total number of these additions is a hardware independent performance metric that is often used to evaluate and optimize various implementation choices. In this work we attempt to predict, using just the starting input, the number of polynomial additions that take place during one run of Buchberger's algorithm. Good predictions are useful for quickly estimating difficulty and understanding what features make Gr\"obner basis computation hard. Our features and methods could also be used for value models in the reinforcement learning approach to optimize Buchberger's algorithm introduced in [Peifer, Stillman, and Halpern-Leistner, 2020]. We show that a multiple linear regression model built from a set of easy-to-compute ideal generator statistics can predict the number of polynomial additions somewhat well, better than an uninformed model, and better than regression models built on some intuitive commutative algebra invariants that are more difficult to compute. We also train a simple recursive neural network that outperforms these linear models. Our work serves as a proof of concept, demonstrating that predicting the number of polynomial additions in Buchberger's algorithm is a feasible problem from the point of view of machine learning.
翻訳日:2021-06-08 18:18:08 公開日:2021-06-07
# セマンティック・シンタクティック強化アスペクト・センチメント・トリプレット抽出

Semantic and Syntactic Enhanced Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2106.03315v1 )

ライセンス: Link先を確認
Zhexue Chen, Hong Huang, Bang Liu, Xuanhua Shi, Hai Jin(参考訳) アスペクト感情三重項抽出(aspect sentiment triplet extraction, aste)は、各三重項にエンティティ、関連する感情、および感情の理由を説明する意見を含む文から三重項を抽出することを目的としている。 既存の研究の多くは、これらの3つの要素間の相互情報を無視する多段階パイプライン方式でこの問題に対処している。 本稿では,三重項要素間の統語的・意味的関係を完全に活用し,それらを共同抽出するセマンティック・シンタクティック・エンハンスメント・アスペクト・センティメント三重項抽出モデル(S3E2)を提案する。 具体的には,文中の単語ペア間の意味的・統語的関係をグラフで表現し,それをグラフニューラルネットワーク(GNN)で符号化し,LSTMで元の文をモデル化して逐次情報を保存する,ASTEのタスクのためのグラフシーケンスデュエル表現とモデリングパラダイムを設計する。 この設定の下では、トリプレットの抽出にさらに効率的な推論戦略を適用する。 4つのベンチマークデータセットの大規模な評価は、S3E2が既存のアプローチを大幅に上回っていることを示している。

Aspect Sentiment Triplet Extraction (ASTE) aims to extract triplets from sentences, where each triplet includes an entity, its associated sentiment, and the opinion span explaining the reason for the sentiment. Most existing research addresses this problem in a multi-stage pipeline manner, which neglects the mutual information between such three elements and has the problem of error propagation. In this paper, we propose a Semantic and Syntactic Enhanced aspect Sentiment triplet Extraction model (S3E2) to fully exploit the syntactic and semantic relationships between the triplet elements and jointly extract them. Specifically, we design a Graph-Sequence duel representation and modeling paradigm for the task of ASTE: we represent the semantic and syntactic relationships between word pairs in a sentence by graph and encode it by Graph Neural Networks (GNNs), as well as modeling the original sentence by LSTM to preserve the sequential information. Under this setting, we further apply a more efficient inference strategy for the extraction of triplets. Extensive evaluations on four benchmark datasets show that S3E2 significantly outperforms existing approaches, which proves our S3E2's superiority and flexibility in an end-to-end fashion.
翻訳日:2021-06-08 18:15:52 公開日:2021-06-07
# 要約 接地会話生成

Summary Grounded Conversation Generation ( http://arxiv.org/abs/2106.03337v1 )

ライセンス: Link先を確認
Chulaka Gunasekara, Guy Feigenblat, Benjamin Sznajder, Sachindra Joshi, David Konopnicki(参考訳) 近年,クラウドソーシングによって会話データセットが構築されている。 しかし、データ収集プロセスは時間がかかり、データ品質を保証するために多くの課題を提示します。 近年,事前学習型言語モデルの進歩により言語生成が飛躍的に向上しているため,会話の要約のみを入力として,そのようなモデルがどのように会話全体を生成するかを検討する。 要約的な会話を生成するための3つのアプローチを検討し,自動的尺度と人的判断を用いて生成した会話を評価する。 また,生成した会話を用いた会話要約データセットの強化により,会話要約の精度が向上することを示す。

Many conversation datasets have been constructed in the recent years using crowdsourcing. However, the data collection process can be time consuming and presents many challenges to ensure data quality. Since language generation has improved immensely in recent years with the advancement of pre-trained language models, we investigate how such models can be utilized to generate entire conversations, given only a summary of a conversation as the input. We explore three approaches to generate summary grounded conversations, and evaluate the generated conversations using automatic measures and human judgements. We also show that the accuracy of conversation summarization can be improved by augmenting a conversation summarization dataset with generated conversations.
翻訳日:2021-06-08 18:15:30 公開日:2021-06-07
# 中国語会話音声における失語代名詞回復と会話談話解析の合同モデル

A Joint Model for Dropped Pronoun Recovery and Conversational Discourse Parsing in Chinese Conversational Speech ( http://arxiv.org/abs/2106.03345v1 )

ライセンス: Link先を確認
Jingxuan Yang, Kerui Xu, Jun Xu, Si Li, Sheng Gao, Jun Guo, Nianwen Xue and Ji-Rong Wen(参考訳) 本稿では,中国語会話音声における対話的代名詞回復(dpr)と会話的談話解析(cdp)のニューラルモデルを提案する。 dprとcdpは密接な関係にあり,ジョイントモデルが両者に有益であることを示す。 当社のモデルをDisdisProRecoと呼び、まず最初に、有向グラフ畳み込みネットワーク(GCN)との対話において、各発話中のトークンを符号化する。 発話のトークン状態は集約され、各発話に対して単一の状態を生成する。 発話状態は、会話的談話グラフを構築するためにバイアフィン分類器に供給される。 次に、第2(多重関係)GCNを発話状態に適用し、発話に対する談話関係拡張表現を生成し、その後、ドロップした代名詞回復層への入力として各発話におけるトークン状態と融合する。 共同モデルは,2種類の情報を付加したSPDPR(Structure Parsing-enhanced Dropped Pronoun Recovery)データセットを用いて訓練および評価を行った。 SPDPRデータセットと他のベンチマークの実験結果から、Dis DiscProRecoは両方のタスクの最先端ベースラインを大きく上回っている。

In this paper, we present a neural model for joint dropped pronoun recovery (DPR) and conversational discourse parsing (CDP) in Chinese conversational speech. We show that DPR and CDP are closely related, and a joint model benefits both tasks. We refer to our model as DiscProReco, and it first encodes the tokens in each utterance in a conversation with a directed Graph Convolutional Network (GCN). The token states for an utterance are then aggregated to produce a single state for each utterance. The utterance states are then fed into a biaffine classifier to construct a conversational discourse graph. A second (multi-relational) GCN is then applied to the utterance states to produce a discourse relation-augmented representation for the utterances, which are then fused together with token states in each utterance as input to a dropped pronoun recovery layer. The joint model is trained and evaluated on a new Structure Parsing-enhanced Dropped Pronoun Recovery (SPDPR) dataset that we annotated with both two types of information. Experimental results on the SPDPR dataset and other benchmarks show that DiscProReco significantly outperforms the state-of-the-art baselines of both tasks.
翻訳日:2021-06-08 18:15:21 公開日:2021-06-07
# 意味解析のためのグローバル正規化ニューラルモデル

A Globally Normalized Neural Model for Semantic Parsing ( http://arxiv.org/abs/2106.03376v1 )

ライセンス: Link先を確認
Chenyang Huang, Wei Yang, Yanshuai Cao, Osmar Za\"iane, Lili Mou(参考訳) 本稿では,文脈自由文法に基づく意味解析のためのグローバル正規化モデルを提案する。 確率を予測する代わりに、我々のモデルは各ステップで実際のスコアを予測し、ラベルバイアスの問題に悩まされない。 実験により、我々のアプローチは、小さなデータセット上の局所正規化モデルよりも優れているが、大きなデータセットでは改善しないことを示した。

In this paper, we propose a globally normalized model for context-free grammar (CFG)-based semantic parsing. Instead of predicting a probability, our model predicts a real-valued score at each step and does not suffer from the label bias problem. Experiments show that our approach outperforms locally normalized models on small datasets, but it does not yield improvement on a large dataset.
翻訳日:2021-06-08 18:14:58 公開日:2021-06-07
# 自己分離条件付き変分オートエンコーダを用いた関連性とコヒーレントな対話応答の生成

Generating Relevant and Coherent Dialogue Responses using Self-separated Conditional Variational AutoEncoders ( http://arxiv.org/abs/2106.03410v1 )

ライセンス: Link先を確認
Bin Sun, Shaoxiong Feng, Yiwei Li, Jiamou Liu, Kan Li(参考訳) 条件変分自動エンコーダ (CVAE) は, 文脈ベクトルを潜時変数で拡張することにより, オープンエンド対話生成タスクにおける応答の多様性と情報伝達性を効果的に向上させる。 しかし、人間の対話に固有の1対1の現象のため、サンプルされた潜在変数は文脈の意味を正しく反映せず、無関係で一貫性のない応答に繋がる可能性がある。 そこで本研究では,潜在変数を正規化するグループ情報を導入する自己分離型条件変動オートエンコーダ(sepacvae)を提案する。 SepaCVAEは、入力データをグループに積極的に分割し、同じグループ内のデータペア間の相対距離を狭めながら、異なるグループからデータペア間の絶対差を広げる。 自動評価と詳細な分析の結果から、sepacvaeは確立されたオープンドメイン対話データセットにおいて、応答を著しく促進できることが示されている。

Conditional Variational AutoEncoder (CVAE) effectively increases the diversity and informativeness of responses in open-ended dialogue generation tasks through enriching the context vector with sampled latent variables. However, due to the inherent one-to-many and many-to-one phenomena in human dialogues, the sampled latent variables may not correctly reflect the contexts' semantics, leading to irrelevant and incoherent generated responses. To resolve this problem, we propose Self-separated Conditional Variational AutoEncoder (abbreviated as SepaCVAE) that introduces group information to regularize the latent variables, which enhances CVAE by improving the responses' relevance and coherence while maintaining their diversity and informativeness. SepaCVAE actively divides the input data into groups, and then widens the absolute difference between data pairs from distinct groups, while narrowing the relative distance between data pairs in the same group. Empirical results from automatic evaluation and detailed analysis demonstrate that SepaCVAE can significantly boost responses in well-established open-domain dialogue datasets.
翻訳日:2021-06-08 18:14:52 公開日:2021-06-07
# 低リソース言語のための多言語ニューラルセマンティックパーシング

Multilingual Neural Semantic Parsing for Low-Resourced Languages ( http://arxiv.org/abs/2106.03469v1 )

ライセンス: Link先を確認
Menglin Xia, Emilio Monti(参考訳) 多言語意味解析は、単一のモデルで異なる言語を理解できるコスト効率の良い手法である。 しかし、研究者はトレーニングデータの可用性の大きな不均衡に直面しており、英語はリソースが豊富であり、他の言語はデータが少ない。 データ制限問題に対処するため、より豊富な英語データから多言語学習データをブートストラップする機械翻訳を提案する。 機械翻訳学習データのデータ品質を補うために,事前学習された多言語エンコーダからの転送学習を用いて,モデルをさらに改善する。 機械翻訳文とは対照的に,人間文の多言語モデルを評価するために,facebook task oriented parse (top) データセットに基づいて,英語,イタリア語,日本語に新しい多言語意味解析データセットを導入する。 我々は,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回り,パブリックNLMapsデータセットの最先端モデルよりも優れていることを示す。 また、TOPデータセット上でゼロショット学習のための新しいベースラインを確立する。 英語データのみにトレーニングされた意味構文解析器は、イタリア語文の精度44.9%のゼロショット性能を達成している。

Multilingual semantic parsing is a cost-effective method that allows a single model to understand different languages. However, researchers face a great imbalance of availability of training data, with English being resource rich, and other languages having much less data. To tackle the data limitation problem, we propose using machine translation to bootstrap multilingual training data from the more abundant English data. To compensate for the data quality of machine translated training data, we utilize transfer learning from pretrained multilingual encoders to further improve the model. To evaluate our multilingual models on human-written sentences as opposed to machine translated ones, we introduce a new multilingual semantic parsing dataset in English, Italian and Japanese based on the Facebook Task Oriented Parsing (TOP) dataset. We show that joint multilingual training with pretrained encoders substantially outperforms our baselines on the TOP dataset and outperforms the state-of-the-art model on the public NLMaps dataset. We also establish a new baseline for zero-shot learning on the TOP dataset. We find that a semantic parser trained only on English data achieves a zero-shot performance of 44.9% exact-match accuracy on Italian sentences.
翻訳日:2021-06-08 18:14:34 公開日:2021-06-07
# BERTGEN:BERTによるマルチタスク生成

BERTGEN: Multi-task Generation through BERT ( http://arxiv.org/abs/2106.03484v1 )

ライセンス: Link先を確認
Faidon Mitzalis, Ozan Caglayan, Pranava Madhyastha, Lucia Specia(参考訳) 本稿では,多モーダルおよび多言語事前学習モデルであるVL-BERTとM-BERTを融合することにより,BERTを拡張する新しい生成デコーダのみのモデルであるBERTGENを提案する。 BERTGENは、画像キャプション、機械翻訳、マルチモーダル機械翻訳といった言語生成タスクをマルチタスク設定で自動回帰訓練する。 総合的な評価によって、BERTGENは探索されたタスク全体で多くの強いベースラインを上回ります。 また、BERTGENのゼロショット言語生成能力を示すとともに、教師付き言語と競合する性能を示す。 最後に,マルチタスクからベルトゲンが実質的に有益であることを示し,事前学習したモデルから関連する帰納バイアスを効果的に伝達するアブレーション研究を行う。

We present BERTGEN, a novel generative, decoder-only model which extends BERT by fusing multimodal and multilingual pretrained models VL-BERT and M-BERT, respectively. BERTGEN is auto-regressively trained for language generation tasks, namely image captioning, machine translation and multimodal machine translation, under a multitask setting. With a comprehensive set of evaluations, we show that BERTGEN outperforms many strong baselines across the tasks explored. We also show BERTGEN's ability for zero-shot language generation, where it exhibits competitive performance to supervised counterparts. Finally, we conduct ablation studies which demonstrate that BERTGEN substantially benefits from multi-tasking and effectively transfers relevant inductive biases from the pre-trained models.
翻訳日:2021-06-08 18:14:14 公開日:2021-06-07
# 意味セグメンテーションとしての文書レベル関係抽出

Document-level Relation Extraction as Semantic Segmentation ( http://arxiv.org/abs/2106.03618v1 )

ライセンス: Link先を確認
Ningyu Zhang, Xiang Chen, Xin Xie, Shumin Deng, Chuanqi Tan, Mosha Chen, Fei Huang, Luo Si, Huajun Chen(参考訳) 文書レベルの関係抽出は、文書から複数のエンティティペア間の関係を抽出することを目的としている。 従来提案されたグラフベースモデルやトランスフォーマーベースモデルは、関係三重項のグローバル情報にかかわらず、エンティティを独立して利用する。 本稿では,コンピュータビジョンにおける意味セグメンテーションタスクと並行して,エンティティレベルの関係行列を予測し,局所的および大域的な情報をキャプチャする。 本稿では,文書レベルの関係抽出のための文書U字型ネットワークを提案する。 具体的には、エンコーダモジュールを利用してエンティティのコンテキスト情報をキャプチャし、イメージスタイルの特徴マップ上にU字型のセグメンテーションモジュールを配置し、トリプル間のグローバル相互依存性をキャプチャする。 実験結果から, DocRED, CDR, GDAの3つのベンチマークデータに対して, 最先端の性能が得られることがわかった。

Document-level relation extraction aims to extract relations among multiple entity pairs from a document. Previously proposed graph-based or transformer-based models utilize the entities independently, regardless of global information among relational triples. This paper approaches the problem by predicting an entity-level relation matrix to capture local and global information, parallel to the semantic segmentation task in computer vision. Herein, we propose a Document U-shaped Network for document-level relation extraction. Specifically, we leverage an encoder module to capture the context information of entities and a U-shaped segmentation module over the image-style feature map to capture global interdependency among triples. Experimental results show that our approach can obtain state-of-the-art performance on three benchmark datasets DocRED, CDR, and GDA.
翻訳日:2021-06-08 18:13:59 公開日:2021-06-07
# 文書翻訳を改善する多言語事前学習コンテキスト符号化

Diverse Pretrained Context Encodings Improve Document Translation ( http://arxiv.org/abs/2106.03717v1 )

ライセンス: Link先を確認
Domenic Donato, Lei Yu, Chris Dyer(参考訳) 本稿では,複数の事前学習された文書コンテキスト信号を取り込んで,(1)異なる事前学習手法による翻訳性能への影響評価,(2)文書コンテキストが利用可能な並列データの量,(3)ソース,ターゲット,ターゲットコンテキストの条件付け,という,文レベルのシーケンスからシーケンスへの変換に適用する新しいアーキテクチャを提案する。 nist中国語-英語とiwsltとwmt英語-ドイツ語タスクの実験では、4つの一般的な結論が支持されている: 事前訓練されたコンテキスト表現を使用することでサンプル効率が著しく向上し、適切な並列データリソースがドキュメントコンテキストの使用に不可欠である。 最高のマルチコンテキストモデルは、既存のコンテクスト対応トランスフォーマーよりも一貫して優れています。

We propose a new architecture for adapting a sentence-level sequence-to-sequence transformer by incorporating multiple pretrained document context signals and assess the impact on translation performance of (1) different pretraining approaches for generating these signals, (2) the quantity of parallel data for which document context is available, and (3) conditioning on source, target, or source and target contexts. Experiments on the NIST Chinese-English, and IWSLT and WMT English-German tasks support four general conclusions: that using pretrained context representations markedly improves sample efficiency, that adequate parallel data resources are crucial for learning to use document context, that jointly conditioning on multiple context representations outperforms any single representation, and that source context is more valuable for translation performance than target side context. Our best multi-context model consistently outperforms the best existing context-aware transformers.
翻訳日:2021-06-08 18:13:46 公開日:2021-06-07
# 多言語文法的誤り訂正のための簡単なレシピ

A Simple Recipe for Multilingual Grammatical Error Correction ( http://arxiv.org/abs/2106.03830v1 )

ライセンス: Link先を確認
Sascha Rothe, Jonathan Mallinson, Eric Malmi, Sebastian Krause, Aliaksei Severyn(参考訳) 本稿では,最新の多言語文法的誤り訂正(GEC)モデルを訓練するための簡単なレシピを提案する。 まず,多数の合成例を生成するために,言語に依存しない手法を提案する。 第2の要素は、大規模多言語言語モデル(最大11Bパラメータ)を使用することである。 言語固有の教師付きセットを微調整すると、英語、チェコ語、ドイツ語、ロシア語の4つの言語でGECベンチマークの最先端結果を上回っます。 GECのための新しいベースラインセットを確立したので、cLang-8データセットを公開することにより、結果を再現しやすく、アクセスできるようにする。 gt5と呼ばれる最良のモデルを使って、広く使われているが騒がしいlang-8データセットのターゲットをきれいにする。 clang-8は、複数の微調整ステージからなる典型的なgecトレーニングパイプラインを非常に単純化している。我々は、市販の言語モデルでclang-8を1つの微調整ステップで実行すると、既にトップパフォーマンスの英語のgt5モデルよりもさらに精度が向上することを示す。

This paper presents a simple recipe to train state-of-the-art multilingual Grammatical Error Correction (GEC) models. We achieve this by first proposing a language-agnostic method to generate a large number of synthetic examples. The second ingredient is to use large-scale multilingual language models (up to 11B parameters). Once fine-tuned on language-specific supervised sets we surpass the previous state-of-the-art results on GEC benchmarks in four languages: English, Czech, German and Russian. Having established a new set of baselines for GEC, we make our results easily reproducible and accessible by releasing a cLang-8 dataset. It is produced by using our best model, which we call gT5, to clean the targets of a widely used yet noisy lang-8 dataset. cLang-8 greatly simplifies typical GEC training pipelines composed of multiple fine-tuning stages -- we demonstrate that performing a single fine-tuning step on cLang-8 with the off-the-shelf language models yields further accuracy improvements over an already top-performing gT5 model for English.
翻訳日:2021-06-08 18:13:29 公開日:2021-06-07
# 信じたいこと: オフラインマルチエージェント強化学習のための暗黙の制約アプローチ

Believe What You See: Implicit Constraint Approach for Offline Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2106.03400v1 )

ライセンス: Link先を確認
Yiqin Yang, Xiaoteng Ma, Chenghao Li, Zewu Zheng, Qiyuan Zhang, Gao Huang, Jun Yang, Qianchuan Zhao(参考訳) 環境との相互作用のないデータセットからの学習(Offline Learning)は、実世界のシナリオにReinforcement Learning (RL)アルゴリズムを適用するための重要なステップである。 しかし、単一エージェントと比較すると、オフラインマルチエージェントRLは、より大きな状態とアクション空間を持つより多くのエージェントを導入している。 累積外挿誤差により,現在のオフラインRLアルゴリズムはマルチエージェントシステムでは有効でないことを示す。 本稿では,データセットに与えられた状態-動作ペアのみを信頼し,外挿誤差を効果的に軽減する,Implicit Constraint Q-learning (ICQ) という新しいオフラインRLアルゴリズムを提案する。 さらに, icqをマルチエージェントタスクに拡張し, 暗黙の制約の下で共同政策を分解する。 実験の結果, 外挿誤差はほぼゼロに減少し, エージェント数に敏感であることがわかった。 さらに、ICQは、挑戦的なマルチエージェントオフラインタスク(StarCraft II)において最先端のパフォーマンスを達成することを示す。

Learning from datasets without interaction with environments (Offline Learning) is an essential step to apply Reinforcement Learning (RL) algorithms in real-world scenarios. However, compared with the single-agent counterpart, offline multi-agent RL introduces more agents with the larger state and action space, which is more challenging but attracts little attention. We demonstrate current offline RL algorithms are ineffective in multi-agent systems due to the accumulated extrapolation error. In this paper, we propose a novel offline RL algorithm, named Implicit Constraint Q-learning (ICQ), which effectively alleviates the extrapolation error by only trusting the state-action pairs given in the dataset for value estimation. Moreover, we extend ICQ to multi-agent tasks by decomposing the joint-policy under the implicit constraint. Experimental results demonstrate that the extrapolation error is reduced to almost zero and insensitive to the number of agents. We further show that ICQ achieves the state-of-the-art performance in the challenging multi-agent offline tasks (StarCraft II).
翻訳日:2021-06-08 18:13:11 公開日:2021-06-07
# 双曲空間におけるマルチモーダルエンティティアライメント

Multi-modal Entity Alignment in Hyperbolic Space ( http://arxiv.org/abs/2106.03619v1 )

ライセンス: Link先を確認
Hao Guo, Jiuyang Tang, Weixin Zeng, Xiang Zhao, Li Liu(参考訳) 多くのAI関連タスクは、複数のモードにおけるデータの相互作用を含む。 マルチモーダルな情報を知識グラフ(KG)にマージする新たなトレンドとなり,マルチモーダルな知識グラフ(MMKG)が誕生した。 しかし、MMKGは通常、カバーが低く不完全である。 この問題を緩和するために、他のMMKGからの補完的な知識を統合することが実行可能なアプローチである。 この目的のために、既存のエンティティアライメントアプローチを採用することができるが、それらはユークリッド空間で作用し、結果として生じるユークリッド実体表現はKGの階層構造に大きな歪みをもたらす。 さらに、視覚情報はまだ十分に活用されていない。 そこで本研究では, ユークリッド表現を双曲多様体へ拡張する, 新たな多様実体アライメントアプローチである双曲的多様実体アライメント(hmea)を提案する。 まず、ハイパーボリックグラフ畳み込みネットワーク(HGCN)を用いて、エンティティの構造表現を学習する。 視覚情報に関しては,HGCNを用いて双曲空間に投影される高密度ネットモデルを用いて画像埋め込みを生成する。 最後に、双曲空間の構造と視覚表現を結合し、集約埋め込みを用いて潜在的なアライメント結果を予測する。 広範な実験とアブレーション実験により,提案モデルとその構成成分の有効性が実証された。

Many AI-related tasks involve the interactions of data in multiple modalities. It has been a new trend to merge multi-modal information into knowledge graph(KG), resulting in multi-modal knowledge graphs (MMKG). However, MMKGs usually suffer from low coverage and incompleteness. To mitigate this problem, a viable approach is to integrate complementary knowledge from other MMKGs. To this end, although existing entity alignment approaches could be adopted, they operate in the Euclidean space, and the resulting Euclidean entity representations can lead to large distortion of KG's hierarchical structure. Besides, the visual information has yet not been well exploited. In response to these issues, in this work, we propose a novel multi-modal entity alignment approach, Hyperbolic multi-modal entity alignment(HMEA), which extends the Euclidean representation to hyperboloid manifold. We first adopt the Hyperbolic Graph Convolutional Networks (HGCNs) to learn structural representations of entities. Regarding the visual information, we generate image embeddings using the densenet model, which are also projected into the hyperbolic space using HGCNs. Finally, we combine the structure and visual representations in the hyperbolic space and use the aggregated embeddings to predict potential alignment results. Extensive experiments and ablation studies demonstrate the effectiveness of our proposed model and its components.
翻訳日:2021-06-08 18:12:55 公開日:2021-06-07
# フレーム間通信変換器を用いたビデオインスタンス分割

Video Instance Segmentation using Inter-Frame Communication Transformers ( http://arxiv.org/abs/2106.03299v1 )

ライセンス: Link先を確認
Sukjun Hwang, Miran Heo, Seoung Wug Oh, Seon Joo Kim(参考訳) 本稿では,トランスを用いたビデオインスタンスセグメンテーション(VIS)のための新しいエンドツーエンドソリューションを提案する。 近年,クリップ単位のパイプラインは,複数のフレームからよりリッチな情報を活用するフレーム単位よりも優れた性能を示している。 しかし、フレーム間通信を実現するために、従来のクリック単位のモデルは計算量とメモリ使用量を必要とするため、実用性は制限される。 本研究では,入力クリップ内のコンテキストを効率的にエンコードすることにより,フレーム間の情報転送のオーバーヘッドを大幅に低減するフレーム間通信トランス(ifc)を提案する。 具体的には,各フレームシーンの要約と情報伝達手段として,簡潔なメモリトークンの利用を提案する。 各フレームの特徴は、正確に符号化されたメモリトークン間の情報交換を通じて、他のフレームと豊かに関連付けられる。 提案手法を最新のベンチマークセットで検証し,非常に高速なランタイム(89.4 FPS)で最先端のパフォーマンス(YouTube-VIS 2019 valセットのAP 44.6)を達成した。 提案手法は,遅延の少ない映像をリアルタイムに処理するためのニアオンライン推論にも応用できる。 コードは利用可能になります。

We propose a novel end-to-end solution for video instance segmentation (VIS) based on transformers. Recently, the per-clip pipeline shows superior performance over per-frame methods leveraging richer information from multiple frames. However, previous per-clip models require heavy computation and memory usage to achieve frame-to-frame communications, limiting practicality. In this work, we propose Inter-frame Communication Transformers (IFC), which significantly reduces the overhead for information-passing between frames by efficiently encoding the context within the input clip. Specifically, we propose to utilize concise memory tokens as a mean of conveying information as well as summarizing each frame scene. The features of each frame are enriched and correlated with other frames through exchange of information between the precisely encoded memory tokens. We validate our method on the latest benchmark sets and achieved the state-of-the-art performance (AP 44.6 on YouTube-VIS 2019 val set using the offline inference) while having a considerably fast runtime (89.4 FPS). Our method can also be applied to near-online inference for processing a video in real-time with only a small delay. The code will be made available.
翻訳日:2021-06-08 18:03:30 公開日:2021-06-07
# ViTAE: 内因性誘導バイアスを探索するビジョントランス

ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias ( http://arxiv.org/abs/2106.03348v1 )

ライセンス: Link先を確認
Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao(参考訳) トランスフォーマーは、自己認識機構を用いて長距離依存をモデル化する能力の強いため、様々なコンピュータビジョンタスクにおいて大きなポテンシャルを示してきた。 それにもかかわらず、視覚トランスフォーマーは画像を視覚トークンの1次元列として扱い、局所的な視覚構造のモデリングやスケール分散の処理において内在的な帰納的バイアス(ib)を欠いている。 あるいは、IBを暗黙的に学習するために、大規模なトレーニングデータと長いトレーニングスケジュールが必要です。 本稿では,畳み込み法(convolutions, \ie, vitae)から内在するibを探索し,新しい視覚トランスフォーマを提案する。 技術的には、ViTAEは複数の空間ピラミッド還元モジュールを持ち、異なるダイレーションレートの複数の畳み込みを用いて入力画像をリッチなマルチスケールコンテキストのトークンに埋め込む。 このようにして、本質的なスケール不変IBを取得し、様々なスケールでオブジェクトのロバストな特徴表現を学習することができる。 さらに、各トランス層において、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴を融合してフィードフォワードネットワークに供給する。 そのため、固有の局所性ibを持ち、ローカル機能とグローバルな依存関係を協調的に学習することができる。 ImageNetと下流タスクの実験は、ベースライントランスフォーマーとコンカレントワークよりもViTAEの方が優れていることを証明している。 ソースコードと事前トレーニングされたモデルはgithubで入手できる。

Transformers have shown great potential in various computer vision tasks owing to their strong capability in modeling long-range dependency using the self-attention mechanism. Nevertheless, vision transformers treat an image as 1D sequence of visual tokens, lacking an intrinsic inductive bias (IB) in modeling local visual structures and dealing with scale variance. Alternatively, they require large-scale training data and longer training schedules to learn the IB implicitly. In this paper, we propose a novel Vision Transformer Advanced by Exploring intrinsic IB from convolutions, \ie, ViTAE. Technically, ViTAE has several spatial pyramid reduction modules to downsample and embed the input image into tokens with rich multi-scale context by using multiple convolutions with different dilation rates. In this way, it acquires an intrinsic scale invariance IB and is able to learn robust feature representation for objects at various scales. Moreover, in each transformer layer, ViTAE has a convolution block in parallel to the multi-head self-attention module, whose features are fused and fed into the feed-forward network. Consequently, it has the intrinsic locality IB and is able to learn local features and global dependencies collaboratively. Experiments on ImageNet as well as downstream tasks prove the superiority of ViTAE over the baseline transformer and concurrent works. Source code and pretrained models will be available at GitHub.
翻訳日:2021-06-08 18:03:13 公開日:2021-06-07
# ContourRender: 任意の輪郭形状を検知してインスタンスのセグメンテーションをワンパスで行う

ContourRender: Detecting Arbitrary Contour Shape For Instance Segmentation In One Pass ( http://arxiv.org/abs/2106.03382v1 )

ライセンス: Link先を確認
Tutian Tang, Wenqiang Xu, Ruolin Ye, Yan-Feng Wang, Cewu Lu(参考訳) 例のセグメンテーションに対する直接の輪郭回帰は難しい課題である。 先行研究は通常、輪郭予測を段階的に洗練するか、表現力に制限のある形状表現を採用することで達成される。 本研究では,滑らかな輪郭を多角形に識別する際,一パスの輪郭点の回帰の難しさは,主にあいまいさに起因すると論じる。 この曖昧さに対処するために、新しい微分可能なレンダリングベースアプローチである \textbf{contourrender} を提案する。 トレーニング中、まず可逆形状署名によって生成された輪郭を予測し、その後、輪郭メッシュに変換してメッシュを2dマップにすることで、より安定したシルエットとの輪郭を最適化する。 この手法は、反復や逐次的な改良なしに輪郭の質を大幅に改善する。 さらに、推論中に最適化が不要であるため、推論速度は影響を受けない。 実験では、提案されたContourRenderがCOCO上のすべてのcontourベースのインスタンスセグメンテーションアプローチより優れており、Cityscapesの反復ベースの最先端と競合する。 さらに、COCO val2017からCOCO ContourHard-valというサブセットを選択して、輪郭品質の改善をさらに実証する。 コード、モデル、データセットの分割がリリースされる。

Direct contour regression for instance segmentation is a challenging task. Previous works usually achieve it by learning to progressively refine the contour prediction or adopting a shape representation with limited expressiveness. In this work, we argue that the difficulty in regressing the contour points in one pass is mainly due to the ambiguity when discretizing a smooth contour into a polygon. To address the ambiguity, we propose a novel differentiable rendering-based approach named \textbf{ContourRender}. During training, it first predicts a contour generated by an invertible shape signature, and then optimizes the contour with the more stable silhouette by converting it to a contour mesh and rendering the mesh to a 2D map. This method significantly improves the quality of contour without iterations or cascaded refinements. Moreover, as optimization is not needed during inference, the inference speed will not be influenced. Experiments show the proposed ContourRender outperforms all the contour-based instance segmentation approaches on COCO, while stays competitive with the iteration-based state-of-the-art on Cityscapes. In addition, we specifically select a subset from COCO val2017 named COCO ContourHard-val to further demonstrate the contour quality improvements. Codes, models, and dataset split will be released.
翻訳日:2021-06-08 18:02:48 公開日:2021-06-07
# dins : 全身mriを用いた神経線維腫1型の神経線維腫分割のための深層ネットワーク

DINs: Deep Interactive Networks for Neurofibroma Segmentation in Neurofibromatosis Type 1 on Whole-Body MRI ( http://arxiv.org/abs/2106.03388v1 )

ライセンス: Link先を確認
Jian-Wei Zhang, Wei Chen, K. Ina Ly, Xubin Zhang, Fan Yan, Justin Jordan, Gordon Harris, Scott Plotkin, Pengyi Hao, and Wenli Cai(参考訳) 神経線維腫症1型(英: Neurofibromatosis type 1, NF1)は、中枢神経系と末梢神経系を含む常染色体優性腫瘍の前置症候群である。 神経線維腫の正確な検出とセグメンテーションは,腫瘍の負担と縦断的な腫瘍の大きさの変化を評価する上で重要である。 自動畳み込みニューラルネットワーク(cnns)は腫瘍の可変解剖学的位置やmri上の異種な外観として敏感で脆弱である。 本研究では,上記の制約に対処するために,深層インタラクティブネットワーク(dins)を提案する。 ユーザインタラクションは、複雑な腫瘍を認識し、異種腫瘍に迅速に適応するようにモデルを導く。 本稿では,ユーザインタラクションを空間的・外見的なガイドマップに変換する簡易かつ効果的なExpDT(Exponential Distance Transform)を提案する。 一般的なユークリッド距離や測地距離と比較して、ExpDTは様々な画像サイズに対してより堅牢であり、インタラクティブな入力の分布を保っている。 さらに,腫瘍関連機能を強化するため,ガイドをより深い層に伝播する深いインタラクティブモジュールを設計した。 NF1患者の3つのMRIデータセットからDINを訓練し,評価した。 実験の結果,dscでは44%,dscでは14%の大幅な改善が得られた。 また,従来の対話型手法と比較して,ユーザの負担を軽減するためのDINの効率を実験的に実証した。 我々のメソッドのソースコードは \url{https://github.com/J arvis73/DINs} で入手できる。

Neurofibromatosis type 1 (NF1) is an autosomal dominant tumor predisposition syndrome that involves the central and peripheral nervous systems. Accurate detection and segmentation of neurofibromas are essential for assessing tumor burden and longitudinal tumor size changes. Automatic convolutional neural networks (CNNs) are sensitive and vulnerable as tumors' variable anatomical location and heterogeneous appearance on MRI. In this study, we propose deep interactive networks (DINs) to address the above limitations. User interactions guide the model to recognize complicated tumors and quickly adapt to heterogeneous tumors. We introduce a simple but effective Exponential Distance Transform (ExpDT) that converts user interactions into guide maps regarded as the spatial and appearance prior. Comparing with popular Euclidean and geodesic distances, ExpDT is more robust to various image sizes, which reserves the distribution of interactive inputs. Furthermore, to enhance the tumor-related features, we design a deep interactive module to propagate the guides into deeper layers. We train and evaluate DINs on three MRI data sets from NF1 patients. The experiment results yield significant improvements of 44% and 14% in DSC comparing with automated and other interactive methods, respectively. We also experimentally demonstrate the efficiency of DINs in reducing user burden when comparing with conventional interactive methods. The source code of our method is available at \url{https://github.com/J arvis73/DINs}.
翻訳日:2021-06-08 18:02:27 公開日:2021-06-07
# 協調一貫性学習によるマルチターゲットドメイン適応

Multi-Target Domain Adaptation with Collaborative Consistency Learning ( http://arxiv.org/abs/2106.03418v1 )

ライセンス: Link先を確認
Takashi Isobe, Xu Jia, Shuaijun Chen, Jianzhong He, Yongjie Shi, Jianzhuang Liu, Huchuan Lu, Shengjin Wang(参考訳) 近年,実世界の画像におけるピクセルレベルのアノテーションの高コスト化により,セマンティックセグメンテーションタスクに対する教師なしドメイン適応が一般化している。 しかし、ほとんどのドメイン適応メソッドは単一ソース・シングル・ターゲットのペアに限定され、複数のターゲットドメインに直接拡張することはできない。 本研究では,教師なしマルチターゲットドメイン適応を実現するための協調学習フレームワークを提案する。 教師なしドメイン適応エキスパートモデルは、まず、ソースとターゲットのペアごとに訓練され、さらに異なるターゲットドメイン間で構築されたブリッジを介して互いに協力することが推奨される。 これらのエキスパートモデルは、同じ構造化されたコンテキストで各サンプルの一貫したピクセル単位での予測を規則化することでさらに改善される。 複数の対象領域にまたがって機能する単一モデルを得るために,各対象領域における各専門家の出力を模倣するだけでなく,それぞれの重みを正規化して互いに近づき合うように訓練された学生モデルを同時に学習することを提案する。 提案手法は,ラベル付きソースドメインとラベルなしターゲットドメインの両方に含まれるリッチな構造化情報を効果的に活用できることを示す。 複数のターゲットドメインでうまく機能するだけでなく、単一のソースとターゲットのペアで特別に訓練された最先端の教師なしドメイン適応メソッドに対して有利に機能する。

Recently unsupervised domain adaptation for the semantic segmentation task has become more and more popular due to high-cost of pixel-level annotation on real-world images. However, most domain adaptation methods are only restricted to single-source-single -target pair, and can not be directly extended to multiple target domains. In this work, we propose a collaborative learning framework to achieve unsupervised multi-target domain adaptation. An unsupervised domain adaptation expert model is first trained for each source-target pair and is further encouraged to collaborate with each other through a bridge built between different target domains. These expert models are further improved by adding the regularization of making the consistent pixel-wise prediction for each sample with the same structured context. To obtain a single model that works across multiple target domains, we propose to simultaneously learn a student model which is trained to not only imitate the output of each expert on the corresponding target domain, but also to pull different expert close to each other with regularization on their weights. Extensive experiments demonstrate that the proposed method can effectively exploit rich structured information contained in both labeled source domain and multiple unlabeled target domains. Not only does it perform well across multiple target domains but also performs favorably against state-of-the-art unsupervised domain adaptation methods specially trained on a single source-target pair
翻訳日:2021-06-08 18:02:05 公開日:2021-06-07
# 意味セグメンテーションにおけるソースフリーオープン化合物ドメイン適応

Source-Free Open Compound Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2106.03422v1 )

ライセンス: Link先を確認
Yuyang Zhao, Zhun Zhong, Zhiming Luo, Gim Hee Lee, Nicu Sebe(参考訳) 本研究では,オープンソースフリーオープン複合ドメイン適応(SF-OCDA)という新しい概念を導入し,セマンティックセグメンテーションで研究する。 sf-ocdaは従来のドメイン適応よりも難しいが、実用的だ。 1)データプライバシとデータストレージの問題,(2)複数のターゲットドメインと未認識のオープンドメインのシナリオを共同で検討する。 sf-ocdaでは、ターゲットモデルを学ぶために、ソース事前学習されたモデルとターゲットデータのみを利用できる。 モデルは、ターゲットドメインと未認識のオープンドメインのサンプルで評価される。 そこで本研究では,(1) 一般化ソースモデルの事前学習と(2) 目標モデルへの自己教師付き学習の適応という2つの段階に分け,効果的な枠組みを提案する。 本稿では,様々なパッチスタイルを特徴レベルで多様化するクロスパッチスタイルスワップ(cpss)を提案する。 まず、CPSSはソースモデルの一般化能力を大幅に向上させ、後者の段階でより正確な擬似ラベルを提供する。 第2に、cpsはノイズの多い擬似ラベルの影響を低減し、自己教師付き学習中にターゲットドメインに過度に適合するモデルを避けることで、ターゲットドメインとオープンドメインのパフォーマンスを一貫して向上させる。 実験により,本手法はC-Drivingデータセット上で最先端の結果を生成することを示した。 さらに,本モデルでは,CityScapesのドメイン一般化における主要な性能も達成している。

In this work, we introduce a new concept, named source-free open compound domain adaptation (SF-OCDA), and study it in semantic segmentation. SF-OCDA is more challenging than the traditional domain adaptation but it is more practical. It jointly considers (1) the issues of data privacy and data storage and (2) the scenario of multiple target domains and unseen open domains. In SF-OCDA, only the source pre-trained model and the target data are available to learn the target model. The model is evaluated on the samples from the target and unseen open domains. To solve this problem, we present an effective framework by separating the training process into two stages: (1) pre-training a generalized source model and (2) adapting a target model with self-supervised learning. In our framework, we propose the Cross-Patch Style Swap (CPSS) to diversify samples with various patch styles in the feature-level, which can benefit the training of both stages. First, CPSS can significantly improve the generalization ability of the source model, providing more accurate pseudo-labels for the latter stage. Second, CPSS can reduce the influence of noisy pseudo-labels and also avoid the model overfitting to the target domain during self-supervised learning, consistently boosting the performance on the target and open domains. Experiments demonstrate that our method produces state-of-the-art results on the C-Driving dataset. Furthermore, our model also achieves the leading performance on CityScapes for domain generalization.
翻訳日:2021-06-08 18:01:46 公開日:2021-06-07
# channel dropblock: 細粒度視覚分類のための改良正規化法

Channel DropBlock: An Improved Regularization Method for Fine-Grained Visual Classification ( http://arxiv.org/abs/2106.03432v1 )

ライセンス: Link先を確認
Yifeng Ding, Shuwei Dong, Yujun Tong, Zhanyu Ma, Bo Xiao, and Haibin Ling(参考訳) オブジェクトのサブカテゴリを同じスーパーカテゴリ(例えば鳥)から細粒度視覚分類(FGVC)タスクで分類することは、複数の識別的特徴のマイニングに大きく依存する。 既存のアプローチでは,識別的部分の同定や特徴エンコード手法の導入により,高パラメータ化特徴を弱教師付きで抽出することで,この問題に主に対処している。 本研究では,この問題を解決するために,チャネルドロップブロック(cdb)と呼ばれる軽量かつ効果的な正規化手法を提案する。 鍵となるアイデアは、トレーニング中に関連チャネルのグループをランダムにマスクして、特徴を共適応から破壊し、特徴表現を強化することである。 3つのベンチマークFGVCデータセットの大規模な実験は、CDBがパフォーマンスを効果的に改善することを示している。

Classifying the sub-categories of an object from the same super-category (e.g., bird) in a fine-grained visual classification (FGVC) task highly relies on mining multiple discriminative features. Existing approaches mainly tackle this problem by introducing attention mechanisms to locate the discriminative parts or feature encoding approaches to extract the highly parameterized features in a weakly-supervised fashion. In this work, we propose a lightweight yet effective regularization method named Channel DropBlock (CDB), in combination with two alternative correlation metrics, to address this problem. The key idea is to randomly mask out a group of correlated channels during training to destruct features from co-adaptations and thus enhance feature representations. Extensive experiments on three benchmark FGVC datasets show that CDB effectively improves the performance.
翻訳日:2021-06-08 18:01:23 公開日:2021-06-07
# インスタンスセグメンテーションのための教師付きadptive threshold network

supervised adptive threshold network for instance segmentation ( http://arxiv.org/abs/2106.03450v1 )

ライセンス: Link先を確認
Kuikun Liu, Jie Yang, Cai Sun, Haoyuan Chi(参考訳) 現在、インスタンスのセグメンテーションは機械学習の分野でますます注目を集めている。 しかし、以前のMask R-CNNや他のネットワークモデルでは、情報伝達にいくつかの欠陥がある。 本稿では,インスタンス分割のための教師付き適応しきい値ネットワークを提案する。 具体的には、適応しきい値に基づくMask R-CNN法を採用し、階層化適応ネットワーク構造を確立することにより、Mask RCNNが生成する確率グラフ上で適応二項化を行い、セグメンテーション効果の向上とエラー率の低減を図る。 同時に、適応的な特徴プールは、ネットワークの異なる層間の伝送をより正確かつ効果的にし、特徴伝達の過程における損失を低減し、マスク法をさらに改善するように設計されている。 ベンチマークデータセットにおける実験は,提案モデルの有効性を示唆する

Currently, instance segmentation is attracting more and more attention in machine learning region. However, there exists some defects on the information propagation in previous Mask R-CNN and other network models. In this paper, we propose supervised adaptive threshold network for instance segmentation. Specifically, we adopt the Mask R-CNN method based on adaptive threshold, and by establishing a layered adaptive network structure, it performs adaptive binarization on the probability graph generated by Mask RCNN to obtain better segmentation effect and reduce the error rate. At the same time, an adaptive feature pool is designed to make the transmission between different layers of the network more accurate and effective, reduce the loss in the process of feature transmission, and further improve the mask method. Experiments on benchmark data sets indicate that the effectiveness of the proposed model
翻訳日:2021-06-08 18:01:08 公開日:2021-06-07
# FINet: 部分-部分間クラウド登録のためのデュアルブランチ機能インタラクション

FINet: Dual Branches Feature Interaction for Partial-to-Partial Point Cloud Registration ( http://arxiv.org/abs/2106.03479v1 )

ライセンス: Link先を確認
Hao Xu, Nianjin Ye, Shuaicheng Liu, Guanghui Liu, Bing Zeng(参考訳) データアソシエーションはpoint cloud登録において重要である。 本研究では,特徴抽出段階におけるソースと参照クラウド間の特徴的相互作用を導入し,従来採用されていた重複検出に対する明示的なマスク推定や注意を伴わずに登録を実現することにより,新たな視点から部分的・部分的登録を解決することを提案する。 具体的には,複数の段階における入力間の関連情報を有効化・強化する機能を備えた,機能インタラクションに基づく構造である finet を提案する。 これを達成するために、まず特徴を回転と変換の2つの成分に分割し、それらは異なる解空間に属するという事実に基づいて二重分岐構造を生成する。 次に、データアソシエーションのための特徴抽出器に複数の相互作用モジュールを挿入する。 第3に,回転アテンテートおよび変換アテンテート特性を得るための変換感度損失を提案する。 実験により,本手法は従来の手法に比べて精度と堅牢性が高いことを示した。

Data association is important in the point cloud registration. In this work, we propose to solve the partial-to-partial registration from a new perspective, by introducing feature interactions between the source and the reference clouds at the feature extraction stage, such that the registration can be realized without the explicit mask estimation or attentions for the overlapping detection as adopted previously. Specifically, we present FINet, a feature interaction-based structure with the capability to enable and strengthen the information associating between the inputs at multiple stages. To achieve this, we first split the features into two components, one for the rotation and one for the translation, based on the fact that they belong to different solution spaces, yielding a dual branches structure. Second, we insert several interaction modules at the feature extractor for the data association. Third, we propose a transformation sensitivity loss to obtain rotation-attentive and translation-attentiv e features. Experiments demonstrate that our method performs higher precision and robustness compared to the state-of-the-art traditional and learning-based methods.
翻訳日:2021-06-08 18:00:56 公開日:2021-06-07
# ワンショット教師なしクロスドメイン検出のための自己スーパービジョンとメタラーニング

Self-Supervision & Meta-Learning for One-Shot Unsupervised Cross-Domain Detection ( http://arxiv.org/abs/2106.03496v1 )

ライセンス: Link先を確認
F. Cappio Borlino, S. Polizzotto, A. D'Innocente, S. Bucci, B. Caputo, T. Tommasi(参考訳) 深度検出モデルは制御された設定では極めて強力であることが証明されているが、未確認領域にオフザシェルフを適用すると脆く失敗するように見える。 この問題を修正するために開発されたすべての適応的アプローチは、トレーニング時に大量のターゲットサンプルにアクセスでき、ターゲットが不明で、そのデータが事前に入手できない場合に適さない戦略である。 例えば、ソーシャルメディアからのイメージフィードを監視するタスクを考えてみましょう。すべてのイメージが別のユーザによってアップロードされるように、トレーニング中に予測できない異なるターゲットドメインに属します。 我々の研究は、この設定に対処し、テスト時に見られる1つのターゲットサンプルのみを使用することで、ドメイン間の教師なし適応を実行できるオブジェクト検出アルゴリズムを提示した。 単発で任意のサンプルに適応するマルチタスクアーキテクチャを導入し,その上で自己教師型タスクを反復的に解決する。 さらにメタラーニングを利用して、単サンプルのクロスドメイン学習エピソードをシミュレートし、テスト条件に適合させる。 さらに、クロスタスクの擬似ラベル処理により、画像の前景に集中することができ、適応プロセスが向上する。 最近のクロスドメイン検出法に対する詳細なベンチマーク解析と詳細なアブレーション研究は,本手法の利点を示している。

Deep detection models have largely demonstrated to be extremely powerful in controlled settings, but appear brittle and fail when applied off-the-shelf on unseen domains. All the adaptive approaches developed to amend this issue access a sizable amount of target samples at training time, a strategy not suitable when the target is unknown and its data are not available in advance. Consider for instance the task of monitoring image feeds from social media: as every image is uploaded by a different user it belongs to a different target domain that is impossible to foresee during training. Our work addresses this setting, presenting an object detection algorithm able to perform unsupervised adaptation across domains by using only one target sample, seen at test time. We introduce a multi-task architecture that one-shot adapts to any incoming sample by iteratively solving a self-supervised task on it. We further exploit meta-learning to simulate single-sample cross domain learning episodes and better align to the test condition. Moreover, a cross-task pseudo-labeling procedure allows to focus on the image foreground and enhances the adaptation process. A thorough benchmark analysis against the most recent cross-domain detection methods and a detailed ablation study show the advantage of our approach.
翻訳日:2021-06-08 18:00:41 公開日:2021-06-07
# 潜在変数の階層的不整合表現に基づく将来の映像生成のための効率的な訓練

Efficient training for future video generation based on hierarchical disentangled representation of latent variables ( http://arxiv.org/abs/2106.03502v1 )

ライセンス: Link先を確認
Naoya Fushishita, Antonio Tejero-de-Pablos, Yusuke Mukuta, Tatsuya Harada(参考訳) 与えられたシーケンスの将来を予測するビデオの生成は、近年活発な研究領域となっている。 しかし、本質的な問題は未解決のままであり、ほとんどの方法は大きな計算コストとトレーニングのためのメモリ使用を必要とする。 本稿では,従来の手法よりも少ないメモリ使用量で将来の予測映像を生成する新しい手法を提案する。 これは、画像生成分野における最新の作品における生成画像と同様、高画質のビデオ生成への道のりにおける重要なステップストーンである。 本手法は,(1)ビデオフレームを潜在変数にエンコードする画像再構成,(2)潜在変数予測によるシーケンス生成の2段階において高い効率を実現する。 本手法は,各フレームを階層構造に従って分解することにより,ビデオの低次元潜在変数への効率的な圧縮を実現する。 すなわち、ビデオは背景オブジェクトと前景オブジェクトに分離でき、各オブジェクトは時間変化と時間に依存しない情報を独立に保持できると考える。 提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。

Generating videos predicting the future of a given sequence has been an area of active research in recent years. However, an essential problem remains unsolved: most of the methods require large computational cost and memory usage for training. In this paper, we propose a novel method for generating future prediction videos with less memory usage than the conventional methods. This is a critical stepping stone in the path towards generating videos with high image quality, similar to that of generated images in the latest works in the field of image generation. We achieve high-efficiency by training our method in two stages: (1) image reconstruction to encode video frames into latent variables, and (2) latent variable prediction to generate the future sequence. Our method achieves an efficient compression of video into low-dimensional latent variables by decomposing each frame according to its hierarchical structure. That is, we consider that video can be separated into background and foreground objects, and that each object holds time-varying and time-independent information independently. Our experiments show that the proposed method can efficiently generate future prediction videos, even for complex datasets that cannot be handled by previous methods.
翻訳日:2021-06-08 18:00:21 公開日:2021-06-07
# Shuffle Transformer:視覚変換器の空間シャッフル再考

Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer ( http://arxiv.org/abs/2106.03650v1 )

ライセンス: Link先を確認
Zilong Huang, Youcheng Ben, Guozhong Luo, Pei Cheng, Gang Yu, Bin Fu(参考訳) 最近では、重複しないローカルウィンドウ内で自己注意を計算したウィンドウベースのトランスフォーマーが、画像分類、セマンティックセグメンテーション、オブジェクト検出において有望な結果を示した。 しかし、表現能力を向上させるキー要素であるクロスウィンドウ接続に関する研究は少ない。 本研究では,空間的シャッフルをウィンドウ間の接続を効率的に構築する方法として再検討する。 その結果,Shuffle Transformerと呼ばれる新しい視覚変換器が提案され,2行のコードを修正することで実装が容易になった。 さらに,隣接ウインドウ接続強化のための空間シャッフルを補うために,深さ方向畳み込みを導入する。 提案するアーキテクチャは,画像レベルの分類,オブジェクト検出,セマンティクスセグメンテーションなど,幅広い視覚タスクにおいて優れた性能を実現する。 コードは再生のためにリリースされます。

Very recently, Window-based Transformers, which computed self-attention within non-overlapping local windows, demonstrated promising results on image classification, semantic segmentation, and object detection. However, less study has been devoted to the cross-window connection which is the key element to improve the representation ability. In this work, we revisit the spatial shuffle as an efficient way to build connections among windows. As a result, we propose a new vision transformer, named Shuffle Transformer, which is highly efficient and easy to implement by modifying two lines of code. Furthermore, the depth-wise convolution is introduced to complement the spatial shuffle for enhancing neighbor-window connections. The proposed architectures achieve excellent performance on a wide range of visual tasks including image-level classification, object detection, and semantic segmentation. Code will be released for reproduction.
翻訳日:2021-06-08 18:00:04 公開日:2021-06-07
# Consistent/Unbiased Automated Plans を用いた従来型肺IMRTのディープラーニング3次元線量予測

Deep Learning 3D Dose Prediction for Conventional Lung IMRT Using Consistent/Unbiased Automated Plans ( http://arxiv.org/abs/2106.03705v1 )

ライセンス: Link先を確認
Navdeep Dahiya, Gourav Jhanwar, Anthony Yezzi, Masoud Zarepisheh, and Saad Nadeem(参考訳) 近年,深層学習(DL)による3D線量予測が注目されている。 しかし、幅広い専門知識を持つプランナーが手動で作成したトレーニングデータセットにおけるプラン品質の変化は、最終的な予測の品質に劇的に影響する。 さらに、臨床基準の変更には、新しい予測モデルを構築するために、プランナーによる新しい手動生成計画セットが必要である。 この作業では、代わりに社内の自動計画システム(‘ECHO’と名づけられた)によって生成された一貫したプランを使用して、DLモデルをトレーニングします。 ECHO (expedited constrained hierarchical optimization) は、大規模な制約付き最適化問題を逐次解決することにより、一貫した計画を生成する。 臨床基準が変更された場合、新しいトレーニングデータセットをECHOを用いてオフラインで簡単に生成でき、人的介入が制限されないため、DLベースの予測モデルは臨床実践の変化に容易に適応できる。 従来型の120例 (100例, 試験20例) を異なるビーム構成で使用し, 手動生成と自動エコープランを用いてdl-modelを訓練した。 我々は,(1)CT+(PTV/OAR)コントラル,(2)CT+コントラル+ビーム構成,(1)MAE(mean absolute error),(2)MAE+DVH(dose volume histograms)の異なる損失関数の評価を行った。 予測の質は、最近AAPMの知識に基づく計画大挑戦によって導入された線量スコアとDVHスコアと同様に、異なるDVHメトリクスを用いて比較された。 自動ECHO計画とCT+contours+beamをトレーニング入力とし,MAE+DVHを損失関数とした。

Deep learning (DL) 3D dose prediction has recently gained a lot of attention. However, the variability of plan quality in the training dataset, generated manually by planners with wide range of expertise, can dramatically effect the quality of the final predictions. Moreover, any changes in the clinical criteria requires a new set of manually generated plans by planners to build a new prediction model. In this work, we instead use consistent plans generated by our in-house automated planning system (named ``ECHO'') to train the DL model. ECHO (expedited constrained hierarchical optimization) generates consistent/unbiased plans by solving large-scale constrained optimization problems sequentially. If the clinical criteria changes, a new training data set can be easily generated offline using ECHO, with no or limited human intervention, making the DL-based prediction model easily adaptable to the changes in the clinical practice. We used 120 conventional lung patients (100 for training, 20 for testing) with different beam configurations and trained our DL-model using manually-generated as well as automated ECHO plans. We evaluated different inputs: (1) CT+(PTV/OAR)contours, and (2) CT+contours+beam configurations, and different loss functions: (1) MAE (mean absolute error), and (2) MAE+DVH (dose volume histograms). The quality of the predictions was compared using different DVH metrics as well as dose-score and DVH-score, recently introduced by the AAPM knowledge-based planning grand challenge. The best results were obtained using automated ECHO plans and CT+contours+beam as training inputs and MAE+DVH as loss function.
翻訳日:2021-06-08 17:59:49 公開日:2021-06-07
# 精錬機:視覚トランスフォーマー用セルフアテンションの改良

Refiner: Refining Self-attention for Vision Transformers ( http://arxiv.org/abs/2106.03714v1 )

ライセンス: Link先を確認
Daquan Zhou, Yujun Shi, Bingyi Kang, Weihao Yu, Zihang Jiang, Yuan Li, Xiaojie Jin, Qibin Hou, Jiashi Feng(参考訳) 視覚変換器(ViT)は,CNNと比較して画像分類タスクにおいて競合精度を示す。 しかし、モデル事前トレーニングには、一般的にもっと多くのデータが必要です。 したがって、最近の研究の多くは、より複雑なアーキテクチャや、ViTのデータ効率の問題に対処する訓練方法の設計に重点を置いている。 しかし、VTとCNNを区別する重要な要因である自己認識機構の改善を検討するものはほとんどない。 既存の作品と異なり,vitsの自己アテンションマップを直接洗練するために,refinerと呼ばれる概念的に単純なスキームを導入する。 具体的には、refinerはマルチヘッドアテンションマップを高次元空間に投影して多様性を促進するアテンション拡大を探求する。 さらに,注目マップの局所的パターンを拡大するためにコンボリューションを適用し,学習可能なカーネルをローカルに集約し,自己注意でグローバルに集約する分散局所的注意特徴と等価であることを示す。 大規模な実験は、精錬機が驚くほどうまく機能することを示した。 81mのパラメータしか持たないimagenetでは、vitsが86%のtop-1分類精度を達成できる。

Vision Transformers (ViTs) have shown competitive accuracy in image classification tasks compared with CNNs. Yet, they generally require much more data for model pre-training. Most of recent works thus are dedicated to designing more complex architectures or training methods to address the data-efficiency issue of ViTs. However, few of them explore improving the self-attention mechanism, a key factor distinguishing ViTs from CNNs. Different from existing works, we introduce a conceptually simple scheme, called refiner, to directly refine the self-attention maps of ViTs. Specifically, refiner explores attention expansion that projects the multi-head attention maps to a higher-dimensional space to promote their diversity. Further, refiner applies convolutions to augment local patterns of the attention maps, which we show is equivalent to a distributed local attention features are aggregated locally with learnable kernels and then globally aggregated with self-attention. Extensive experiments demonstrate that refiner works surprisingly well. Significantly, it enables ViTs to achieve 86% top-1 classification accuracy on ImageNet with only 81M parameters.
翻訳日:2021-06-08 17:59:18 公開日:2021-06-07
# コントラスト学習のためのインクリメンタル偽陰性検出

Incremental False Negative Detection for Contrastive Learning ( http://arxiv.org/abs/2106.03719v1 )

ライセンス: Link先を確認
Tsai-Shien Chen, Wei-Chih Hung, Hung-Yu Tseng, Shao-Yi Chien, Ming-Hsuan Yang(参考訳) 自己教師付き学習は、データセット内の各画像や例を識別することを目的としたコントラスト学習を通じて、視覚タスクに大きな可能性を示している。 しかし、このようなインスタンスレベルの学習は、インスタンス間の意味的関係を無視し、anchorを同じ意味的に類似したサンプルから均等に撃退する。 本稿では,まず,より意味的な概念を持つ画像を含むデータセットにおいて,偽陰性による不利な影響がより重要であることを実証的に強調する。 この問題に対処するために,自己教師付きコントラスト学習のための新たな偽陰性検出手法を提案する。 トレーニングプロセスの後,エンコーダの訓練が徐々に向上し,組込み空間が意味的に構造的になった場合,本手法はより信頼性の高い偽陰性を検出する。 その後,対照学習中に検出された偽陰性を明示的に除去する2つの戦略について検討する。 実験の結果,提案手法は,複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れていることがわかった。

Self-supervised learning has recently shown great potential in vision tasks via contrastive learning, which aims to discriminate each image, or instance, in the dataset. However, such instance-level learning ignores the semantic relationship between instances and repels the anchor equally from the semantically similar samples, termed as false negatives. In this work, we first empirically highlight that the unfavorable effect from false negatives is more significant for the datasets containing images with more semantic concepts. To address the issue, we introduce a novel incremental false negative detection for self-supervised contrastive learning. Following the training process, when the encoder is gradually better-trained and the embedding space becomes more semantically structural, our method incrementally detects more reliable false negatives. Subsequently, during contrastive learning, we discuss two strategies to explicitly remove the detected false negatives. Extensive experiments show that our proposed method outperforms other self-supervised contrastive learning frameworks on multiple benchmarks within a limited compute.
翻訳日:2021-06-08 17:58:58 公開日:2021-06-07
# インストラクショナルビデオのための教師なしアクションセグメンテーション

Unsupervised Action Segmentation for Instructional Videos ( http://arxiv.org/abs/2106.03738v1 )

ライセンス: Link先を確認
AJ Piergiovanni and Anelia Angelova and Michael S. Ryoo and Irfan Essa(参考訳) 本稿では、教師なしのビデオから原子のアクションを自動的に検出する問題に対処するが、原子のアクションに注釈を付けることは滅多にない。 ビデオの時間的セグメンテーションのための逐次確率的自己回帰モデルに基づいて,様々な指導ビデオから構造化された人間のタスクの原子的動作を学習するための教師なしアプローチを提案する。 これは、タスクの異なるアトミックアクション間のシーケンシャルな関係を表現し発見することを学び、自動的で教師なしの自己ラベルを提供する。

In this paper we address the problem of automatically discovering atomic actions in unsupervised manner from instructional videos, which are rarely annotated with atomic actions. We present an unsupervised approach to learn atomic actions of structured human tasks from a variety of instructional videos based on a sequential stochastic autoregressive model for temporal segmentation of videos. This learns to represent and discover the sequential relationship between different atomic actions of the task, and which provides automatic and unsupervised self-labeling.
翻訳日:2021-06-08 17:58:39 公開日:2021-06-07
# 人文推定・追跡のためのグラフニューラルネットワークによる学習ダイナミクス

Learning Dynamics via Graph Neural Networks for Human Pose Estimation and Tracking ( http://arxiv.org/abs/2106.03772v1 )

ライセンス: Link先を確認
Yiding Yang, Zhou Ren, Haoxiang Li, Chunluan Zhou, Xinchao Wang, Gang Hua(参考訳) マルチパーソンのポーズ推定と追跡がビデオ理解の重要なステップである。 最先端のアプローチのほとんどは、各フレームで最初にポーズを推定し、データアソシエーションと改善を実装することに依存している。 望まれる結果にもかかわらず、このような戦略は、特に密集した場面での発見を見逃すことが必然的に難しく、この追跡・検出パラダイムは本質的には、閉塞の場合に欠落する視覚的証拠に大きく依存している。 本稿では,現在の名声におけるポーズ検出とは無関係なポーズダイナミクスを学習するための新しいオンライン手法を提案する。 具体的には、空間-時間情報と視覚情報の両方を明示的に考慮したグラフニューラルネットワーク~(gnn)を通じて、このダイナミクスの予測を導出する。 歴史的なポーズトラックレットを入力し、トラックレットごとに次のフレームで対応するポーズを直接予測する。 予測されたポーズは、検出されたポーズと同一のフレームで集約され、最終ポーズを生成する。 PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。

Multi-person pose estimation and tracking serve as crucial steps for video understanding. Most state-of-the-art approaches rely on first estimating poses in each frame and only then implementing data association and refinement. Despite the promising results achieved, such a strategy is inevitably prone to missed detections especially in heavily-cluttered scenes, since this tracking-by-detectio n paradigm is, by nature, largely dependent on visual evidences that are absent in the case of occlusion. In this paper, we propose a novel online approach to learning the pose dynamics, which are independent of pose detections in current fame, and hence may serve as a robust estimation even in challenging scenarios including occlusion. Specifically, we derive this prediction of dynamics through a graph neural network~(GNN) that explicitly accounts for both spatial-temporal and visual information. It takes as input the historical pose tracklets and directly predicts the corresponding poses in the following frame for each tracklet. The predicted poses will then be aggregated with the detected poses, if any, at the same frame so as to produce the final pose, potentially recovering the occluded joints missed by the estimator. Experiments on PoseTrack 2017 and PoseTrack 2018 datasets demonstrate that the proposed method achieves results superior to the state of the art on both human pose estimation and tracking tasks.
翻訳日:2021-06-08 17:58:31 公開日:2021-06-07
# doublefield: 高忠実な人間のレンダリングのための神経表面と放射野のブリッジ

DoubleField: Bridging the Neural Surface and Radiance Fields for High-fidelity Human Rendering ( http://arxiv.org/abs/2106.03798v1 )

ライセンス: Link先を確認
Ruizhi Shao, Hongwen Zhang, He Zhang, Yanpei Cao, Tao Yu, Yebin Liu(参考訳) 高忠実な人間のレンダリングのための表面場と放射場の両方の利点を組み合わせた新しい表現であるDoubleFieldを紹介する。 ダブルフィールド内では、表面場と放射場は共有特徴埋め込みと表面誘導サンプリング戦略によって関連付けられる。 このように、doublefieldは、幾何学と外観モデリングのための連続的だが不連続な学習空間を持ち、高速なトレーニング、推論、微調整をサポートする。 高精細度自由視点レンダリングを実現するために、DoubleFieldはさらに高精細度インプットを活用するように拡張され、ビュー・ツー・ビュー・トランスフォーマーとトランスファーラーニング・スキームが導入された。 ダブルフィールドの有効性は、複数のデータセットの定量的評価と、実世界のスパースマルチビューシステムにおける質的結果によって検証され、フォトリアリスティックなフリー視点のヒューマンレンダリングに優れた能力を示す。 コードとデモビデオについては、プロジェクトのページを参照してください。

We introduce DoubleField, a novel representation combining the merits of both surface field and radiance field for high-fidelity human rendering. Within DoubleField, the surface field and radiance field are associated together by a shared feature embedding and a surface-guided sampling strategy. In this way, DoubleField has a continuous but disentangled learning space for geometry and appearance modeling, which supports fast training, inference, and finetuning. To achieve high-fidelity free-viewpoint rendering, DoubleField is further augmented to leverage ultra-high-resolutio n inputs, where a view-to-view transformer and a transfer learning scheme are introduced for more efficient learning and finetuning from sparse-view inputs at original resolutions. The efficacy of DoubleField is validated by the quantitative evaluations on several datasets and the qualitative results in a real-world sparse multi-view system, showing its superior capability for photo-realistic free-viewpoint human rendering. For code and demo video, please refer to our project page: http://www.liuyebin. com/dbfield/dbfield. html.
翻訳日:2021-06-08 17:58:09 公開日:2021-06-07
# NTIRE 2021 バースト超解法に関する課題:方法と結果

NTIRE 2021 Challenge on Burst Super-Resolution: Methods and Results ( http://arxiv.org/abs/2106.03839v1 )

ライセンス: Link先を確認
Goutam Bhat and Martin Danelljan and Radu Timofte and Kazutoshi Akita and Wooyeong Cho and Haoqiang Fan and Lanpeng Jia and Daeshik Kim and Bruno Lecouat and Youwei Li and Shuaicheng Liu and Ziluan Liu and Ziwei Luo and Takahiro Maeda and Julien Mairal and Christian Micheloni and Xuan Mo and Takeru Oba and Pavel Ostyakov and Jean Ponce and Sanghyeok Son and Jian Sun and Norimichi Ukita and Rao Muhammad Umer and Youliang Yan and Lei Yu and Magauiya Zhussip and Xueyi Zou(参考訳) 本稿では,バースト超解像におけるntire2021チャレンジについて述べる。 RAWノイズバーストを入力として、課題は解像度が4倍のクリーンなRGB画像を生成することだった。 チャレンジには2つのトラックが含まれており、トラック1は合成されたデータを評価し、トラック2はモバイルカメラからの実世界バーストを使っていた。 最終テストフェーズでは、6つのチームがさまざまなソリューションを使って結果を提出した。 top-performingメソッドは、burstスーパーレゾリューションタスクの新たな最先端を設定する。

This paper reviews the NTIRE2021 challenge on burst super-resolution. Given a RAW noisy burst as input, the task in the challenge was to generate a clean RGB image with 4 times higher resolution. The challenge contained two tracks; Track 1 evaluating on synthetically generated data, and Track 2 using real-world bursts from mobile camera. In the final testing phase, 6 teams submitted results using a diverse set of solutions. The top-performing methods set a new state-of-the-art for the burst super-resolution task.
翻訳日:2021-06-08 17:57:50 公開日:2021-06-07
# 異常検出のための平均シフトコントラスト損失

Mean-Shifted Contrastive Loss for Anomaly Detection ( http://arxiv.org/abs/2106.03844v1 )

ライセンス: Link先を確認
Tal Reiss, Yedid Hoshen(参考訳) 深部異常検出法は、正常サンプルと異常サンプルを分離した表現を学習する。 強力な外部訓練された特徴抽出器(例)で非常に効果的な表現が得られる。 imagenetで事前トレーニングされたresnetは、通常のサンプルと異常のないトレーニングデータに基づいて微調整される。 しかし、これは壊滅的な崩壊に苦しむ難題である。 自明で非特有な特徴を学ぶ傾向があります。 本稿では,集中損失法とコントラッシブロス法の両方の障害モードを克服できる新たな損失関数を提案する。 さらに,前回の作業で使用したユークリッド距離に代えて,予測信頼度に敏感な信頼度不変角中心損失と組み合わせる。 我々の改善は、$\textit{Mean-Shifted Contrastive Loss}$に基づいて、新しい異常検出アプローチをもたらす。 提案手法は,CIFAR-10データセット上で97.5\%のROC-AUCを含む複数のベンチマークで,最先端の異常検出性能を実現する。

Deep anomaly detection methods learn representations that separate between normal and anomalous samples. Very effective representations are obtained when powerful externally trained feature extractors (e.g. ResNets pre-trained on ImageNet) are fine-tuned on the training data which consists of normal samples and no anomalies. However, this is a difficult task that can suffer from catastrophic collapse, i.e. it is prone to learning trivial and non-specific features. In this paper, we propose a new loss function which can overcome failure modes of both center-loss and contrastive-loss methods. Furthermore, we combine it with a confidence-invariant angular center loss, which replaces the Euclidean distance used in previous work, that was sensitive to prediction confidence. Our improvements yield a new anomaly detection approach, based on $\textit{Mean-Shifted Contrastive Loss}$, which is both more accurate and less sensitive to catastrophic collapse than previous methods. Our method achieves state-of-the-art anomaly detection performance on multiple benchmarks including $97.5\%$ ROC-AUC on the CIFAR-10 dataset.
翻訳日:2021-06-08 17:57:40 公開日:2021-06-07
# HoroPCA: 球面投影による双曲次元の低減

HoroPCA: Hyperbolic Dimensionality Reduction via Horospherical Projections ( http://arxiv.org/abs/2106.03306v1 )

ライセンス: Link先を確認
Ines Chami, Albert Gu, Dat Nguyen, Christopher R\'e(参考訳) 本稿では,双曲空間におけるデータに対する主成分分析(PCA)について検討する。 PCAは、(1)これらの方向で広がる部分空間のパラメータ化、(2)これらの方向の情報を保存する部分空間への射影法、(3)投影によって説明される分散を最適化する目的に依存する。 それぞれの概念を双曲空間に一般化し,双曲次元減少法であるHoroPCAを提案する。 主方向を抽出するコア問題に焦点をあてることで,PCAの従来の一般化よりも理論上,距離などの元データに情報を保存する方がよい。 実験により,HoroPCAは既存の次元減少法よりも優れており,距離保存における誤差を著しく低減することを確認した。 データホワイトニングでは、ホワイトニングを使用しない方法と比較して、下流の分類を最大3.9%改善する。 最後に,HoroPCAを用いて2次元の双曲的データを可視化できることを示す。

This paper studies Principal Component Analysis (PCA) for data lying in hyperbolic spaces. Given directions, PCA relies on: (1) a parameterization of subspaces spanned by these directions, (2) a method of projection onto subspaces that preserves information in these directions, and (3) an objective to optimize, namely the variance explained by projections. We generalize each of these concepts to the hyperbolic space and propose HoroPCA, a method for hyperbolic dimensionality reduction. By focusing on the core problem of extracting principal directions, HoroPCA theoretically better preserves information in the original data such as distances, compared to previous generalizations of PCA. Empirically, we validate that HoroPCA outperforms existing dimensionality reduction methods, significantly reducing error in distance preservation. As a data whitening method, it improves downstream classification by up to 3.9% compared to methods that don't use whitening. Finally, we show that HoroPCA can be used to visualize hyperbolic data in two dimensions.
翻訳日:2021-06-08 17:50:24 公開日:2021-06-07
# カーネル最大モーメント制限のための機器空間選択

Instrument Space Selection for Kernel Maximum Moment Restriction ( http://arxiv.org/abs/2106.03340v1 )

ライセンス: Link先を確認
Rui Zhang, Krikamol Muandet, Bernhard Sch\"olkopf, Masaaki Imaizumi(参考訳) カーネル最大モーメント制限(KMMR)は、最近、条件モーメントテスト(CM)およびパラメータ推定において重要な応用を持つ機器変数(IV)に基づく条件モーメント制限(CMR)モデルの一般的なフレームワークとして登場した。 しかしながら、このフレームワークの有効性は、楽器の空間として選択された再生カーネルヒルベルト空間(RKHS)の選択に大きく依存する。 本研究では,モデルパラメータを最小空間複雑性で識別する最小識別器空間(liis)の原理に基づいて,パラメータ推定のための計測器空間を体系的に選択する手法を提案する。 我々の選択基準は、そのような最適空間を決定するために、2つの異なる目的を組み合わせる: (i) 識別可能性をチェックするテスト基準; (ii) 複雑性尺度としてのRKHSの有効次元に基づく情報基準。 LIISを決定する際の手法の整合性を解析し,シミュレーションによるパラメータ推定の有効性を実証する。

Kernel maximum moment restriction (KMMR) recently emerges as a popular framework for instrumental variable (IV) based conditional moment restriction (CMR) models with important applications in conditional moment (CM) testing and parameter estimation for IV regression and proximal causal learning. The effectiveness of this framework, however, depends critically on the choice of a reproducing kernel Hilbert space (RKHS) chosen as a space of instruments. In this work, we presents a systematic way to select the instrument space for parameter estimation based on a principle of the least identifiable instrument space (LIIS) that identifies model parameters with the least space complexity. Our selection criterion combines two distinct objectives to determine such an optimal space: (i) a test criterion to check identifiability; (ii) an information criterion based on the effective dimension of RKHSs as a complexity measure. We analyze the consistency of our method in determining the LIIS, and demonstrate its effectiveness for parameter estimation via simulations.
翻訳日:2021-06-08 17:50:08 公開日:2021-06-07
# バイアスモデルに対するエネルギー整合

Energy Aligning for Biased Models ( http://arxiv.org/abs/2106.03343v1 )

ライセンス: Link先を確認
Bowen Zhao and Chen Chen and Qi Ju and ShuTao Xia(参考訳) クラス不均衡データのトレーニングは通常、大多数のクラスにサンプルを予測する傾向にあるバイアスのあるモデルをもたらす。 エネルギーモデルの観点から,「平衡」性能を目指す場合,カテゴリの自由エネルギーはラベル分布と理論的に一致し,異なるクラスのエネルギーは互いに近接することが期待される。 しかし,クラス不均衡データセットで訓練したモデルでは,重度のエネルギーバイアス現象がみられた。 バイアスをなくすために,計算されたシフトスカラーを推論中に出力ロジットに追加するだけで,(i)ネットワークアーキテクチャの変更を必要とせず,(ii)標準学習パラダイムに介入し,(iii)2段階の訓練を行うことで,Energy Aligningという簡便で効果的な手法を提案する。 提案アルゴリズムは,クラスインクリメンタル学習とロングテール認識という,2つのクラス不均衡関連タスクに基づいて評価する。 実験結果から,エネルギー整合性はクラス不均衡問題を効果的に軽減し,いくつかのベンチマークで最先端の手法より優れていることが示された。

Training on class-imbalanced data usually results in biased models that tend to predict samples into the majority classes, which is a common and notorious problem. From the perspective of energy-based model, we demonstrate that the free energies of categories are aligned with the label distribution theoretically, thus the energies of different classes are expected to be close to each other when aiming for ``balanced'' performance. However, we discover a severe energy-bias phenomenon in the models trained on class-imbalanced dataset. To eliminate the bias, we propose a simple and effective method named Energy Aligning by merely adding the calculated shift scalars onto the output logits during inference, which does not require to (i) modify the network architectures, (ii) intervene the standard learning paradigm, (iii) perform two-stage training. The proposed algorithm is evaluated on two class imbalance-related tasks under various settings: class incremental learning and long-tailed recognition. Experimental results show that energy aligning can effectively alleviate class imbalance issue and outperform state-of-the-art methods on several benchmarks.
翻訳日:2021-06-08 17:49:53 公開日:2021-06-07
# MixRL: 強化学習を用いた回帰のためのデータ混合強化

MixRL: Data Mixing Augmentation for Regression using Reinforcement Learning ( http://arxiv.org/abs/2106.03374v1 )

ライセンス: Link先を確認
Seong-Hyeon Hwang, Steven Euijong Whang(参考訳) 製造業や金融といった重要な応用において、回帰精度を向上させる上で、データ拡張が不可欠になっている。 データ拡張のための既存のテクニックは、主に分類タスクに焦点を当てており、回帰タスクに簡単に適用できない。 特に、最近のMixupの分類手法は、ラベル空間が離散であるならば妥当であるが、ラベル空間が回帰のように連続である場合に制限があるような訓練例の中で線形性が成り立つという重要な仮定に依存している。 大規模データまたはラベル距離を持つ混合例がモデル性能にますます負の影響を与えている可能性が示唆された。 したがって、線形性は、あるデータやラベル距離でしか持たないというより厳密な仮定を用いて、次数がそれぞれの例によって異なる可能性がある。 次に、回帰のためのデータ拡張メタ学習フレームワークであるmixrlを提案する。このフレームワークは、小さなバリデーションセットを使用して、最寄りの近傍の数を最適なモデルパフォーマンスのために混ぜる必要がある。 MixRLはモンテカルロ政策勾配強化学習を用いてこれらの目的を達成する。 合成データと実データの両方で実験した結果,mixrlは最先端のデータ拡張ベースラインを大きく上回っていることがわかった。 MixRLは、より良い結果を得るために、他の分類技術と統合することもできる。

Data augmentation is becoming essential for improving regression accuracy in critical applications including manufacturing and finance. Existing techniques for data augmentation largely focus on classification tasks and do not readily apply to regression tasks. In particular, the recent Mixup techniques for classification rely on the key assumption that linearity holds among training examples, which is reasonable if the label space is discrete, but has limitations when the label space is continuous as in regression. We show that mixing examples that either have a large data or label distance may have an increasingly-negativ e effect on model performance. Hence, we use the stricter assumption that linearity only holds within certain data or label distances for regression where the degree may vary by each example. We then propose MixRL, a data augmentation meta learning framework for regression that learns for each example how many nearest neighbors it should be mixed with for the best model performance using a small validation set. MixRL achieves these objectives using Monte Carlo policy gradient reinforcement learning. Our experiments conducted both on synthetic and real datasets show that MixRL significantly outperforms state-of-the-art data augmentation baselines. MixRL can also be integrated with other classification Mixup techniques for better results.
翻訳日:2021-06-08 17:49:33 公開日:2021-06-07
# 強化学習における効率向上のための因果影響検出

Causal Influence Detection for Improving Efficiency in Reinforcement Learning ( http://arxiv.org/abs/2106.03443v1 )

ライセンス: Link先を確認
Maximilian Seitzer and Bernhard Sch\"olkopf and Georg Martius(参考訳) 多くの強化学習(RL)環境は、わずかに相互作用する独立した実体で構成されている。 そのような環境では、rlエージェントは特定の状況において他のエンティティに対する影響を限定するだけである。 本研究の考え方は,エージェントが行動にいつ,どのような影響を与えることができるかを知ることで,学習を効率的に指導できる,というものです。 これを実現するために,条件付き相互情報に基づく状況依存因果影響尺度を導入し,影響状態を確実に検出できることを示す。 次に,この尺度をrlアルゴリズムに統合し,探索とオフポリシー学習を改善する方法について提案する。 修正アルゴリズムはすべて、ロボット操作タスクにおけるデータ効率の大幅な向上を示している。

Many reinforcement learning (RL) environments consist of independent entities that interact sparsely. In such environments, RL agents have only limited influence over other entities in any particular situation. Our idea in this work is that learning can be efficiently guided by knowing when and what the agent can influence with its actions. To achieve this, we introduce a measure of situation-dependent causal influence based on conditional mutual information and show that it can reliably detect states of influence. We then propose several ways to integrate this measure into RL algorithms to improve exploration and off-policy learning. All modified algorithms show strong increases in data efficiency on robotic manipulation tasks.
翻訳日:2021-06-08 17:49:12 公開日:2021-06-07
# 双子双生児の安定低次モデル学習

Learning stable reduced-order models for hybrid twins ( http://arxiv.org/abs/2106.03464v1 )

ライセンス: Link先を確認
Abel Sancarlos, Morgan Cameron, Jean-Marc Le Peuvedic, Juliette Groulier, Jean-Louis Duval, Elias Cueto, Francisco Chinesta(参考訳) ハイブリッドツイン(ht)の概念は最近、強力な機械学習技術が利用可能になったことで、関心が高まっている。 この双対の概念は、リアルタイムフィードバック率とデータサイエンスを得るために、モデル順序還元フレームワーク内の物理モデルを組み合わせる。 したがって、HTの主な考え方は、測定と物理に基づくモデル予測の偏差を補正するために、オンザフライのデータ駆動モデルを開発することである。 本稿では,Hybrid Twinフレームワークにおける安定,高速,高精度な補正の計算に着目する。 さらに,安定性の繊細で重要な問題に関して,いくつかの部分変数を導入し,低計算コストと安定な時間積分の達成を保証する新しい手法を提案する。

The concept of Hybrid Twin (HT) has recently received a growing interest thanks to the availability of powerful machine learning techniques. This twin concept combines physics-based models within a model-order reduction framework-to obtain real-time feedback rates-and data science. Thus, the main idea of the HT is to develop on-the-fly data-driven models to correct possible deviations between measurements and physics-based model predictions. This paper is focused on the computation of stable, fast and accurate corrections in the Hybrid Twin framework. Furthermore, regarding the delicate and important problem of stability, a new approach is proposed, introducing several sub-variants and guaranteeing a low computational cost as well as the achievement of a stable time-integration.
翻訳日:2021-06-08 17:49:02 公開日:2021-06-07
# 組合せノードラベルアルゴリズムの学習

Learning Combinatorial Node Labeling Algorithms ( http://arxiv.org/abs/2106.03594v1 )

ライセンス: Link先を確認
Lukas Gianinazzi, Maximilian Fries, Nikoli Dryden, Tal Ben-Nun, Torsten Hoefler(参考訳) 本稿では,強化学習を用いたグラフカラーヒューリスティックス学習のためのグラフニューラルネットワークを提案する。 我々の学習した決定論的ヒューリスティックスは古典的な次数に基づく欲求的ヒューリスティックよりも優れた解を与え、数万の頂点を持つグラフ上でのみ数秒で評価する。 当社のアプローチは政策段階に基づいており、確率的政策も学んでいます。 これらの確率的ポリシーは、すべての色付けベースラインと機械学習ベースラインを上回ります。 提案手法は,最小頂点被覆などの問題に適用された,従来の機械学習フレームワークを一般化する。 また,本手法は最小頂点被覆における2つのグリーディヒューリスティックよりも優れていることを示す。

We present a graph neural network to learn graph coloring heuristics using reinforcement learning. Our learned deterministic heuristics give better solutions than classical degree-based greedy heuristics and only take seconds to evaluate on graphs with tens of thousands of vertices. As our approach is based on policy-gradients, it also learns a probabilistic policy as well. These probabilistic policies outperform all greedy coloring baselines and a machine learning baseline. Our approach generalizes several previous machine-learning frameworks, which applied to problems like minimum vertex cover. We also demonstrate that our approach outperforms two greedy heuristics on minimum vertex cover.
翻訳日:2021-06-08 17:48:52 公開日:2021-06-07
# オンラインマルチクラス分類におけるバンディットフィードバックを超えて

Beyond Bandit Feedback in Online Multiclass Classification ( http://arxiv.org/abs/2106.03596v1 )

ライセンス: Link先を確認
Dirk van der Hoeven and Federico Fusco and Nicol\`o Cesa-Bianchi(参考訳) 学習者のフィードバックが任意の有向グラフによって決定される設定において,オンライン多クラス分類の問題点について検討する。 特別なケースとしてバンディットフィードバックを含める一方で、フィードバックグラフはフィルタリングやラベルの効率的な分類など、よりリッチなアプリケーションセットを可能にする。 任意のフィードバックグラフで動作する,初のオンラインマルチクラスアルゴリズムであるGappletronを紹介する。 この新しいアルゴリズムでは,大量のサロゲート損失に対して,期待と高い確率の両方で保持される後悔境界を仮定する。 私たちの境界は順に$B\sqrt{\rho KT}$で、$B$は予測空間の直径、$K$はクラスの数、$T$は時間地平線、$\rho$は支配数(探索の量に影響を与えるグラフ理論のパラメータ)である。 完全な情報の場合、gappletron は $b^2k$ の定期的な後悔を成す。 また、位数 $\max\big\{B^2K,\sqrt{T}\big\}$ の一般下界を証明し、上界があまり即効性がないことを示す。 合成データの実験により, 様々なフィードバックグラフに対して, アルゴリズムは既知のベースラインと競合することがわかった。

We study the problem of online multiclass classification in a setting where the learner's feedback is determined by an arbitrary directed graph. While including bandit feedback as a special case, feedback graphs allow a much richer set of applications, including filtering and label efficient classification. We introduce Gappletron, the first online multiclass algorithm that works with arbitrary feedback graphs. For this new algorithm, we prove surrogate regret bounds that hold, both in expectation and with high probability, for a large class of surrogate losses. Our bounds are of order $B\sqrt{\rho KT}$, where $B$ is the diameter of the prediction space, $K$ is the number of classes, $T$ is the time horizon, and $\rho$ is the domination number (a graph-theoretic parameter affecting the amount of exploration). In the full information case, we show that Gappletron achieves a constant surrogate regret of order $B^2K$. We also prove a general lower bound of order $\max\big\{B^2K,\sqrt{T}\big\}$ showing that our upper bounds are not significantly improvable. Experiments on synthetic data show that for various feedback graphs, our algorithm is competitive against known baselines.
翻訳日:2021-06-08 17:48:43 公開日:2021-06-07
# 変分オートエンコーダとDeep Metric Learningを用いた高次元ベイズ最適化

High-Dimensional Bayesian Optimisation with Variational Autoencoders and Deep Metric Learning ( http://arxiv.org/abs/2106.03609v1 )

ライセンス: Link先を確認
Antoine Grosnit, Rasul Tutunov, Alexandre Max Maraval, Ryan-Rhys Griffiths, Alexander I. Cowen-Rivers, Lin Yang, Lin Zhu, Wenlong Lyu, Zhitang Chen, Jun Wang, Jan Peters, Haitham Bou-Ammar(参考訳) 本稿では,可変オートエンコーダ(vaes)を用いた高次元構造化入力空間上でベイズ最適化を行うための,深部メトリック学習に基づく手法を提案する。 教師付き深層メトリック学習からアイデアを拡張することで、高次元ベイズ最適化における長年の問題、すなわち、帰納的バイアスとして判別的潜在空間を強制する方法について解決する。 重要な点は,従来の作業と比較してラベル付きデータの1%しか利用せず,提案手法のサンプル効率を浮き彫りにして,このような帰納的バイアスを実現することである。 理論的貢献として、我々の方法に対する後悔が消える証拠を示す。 本研究では,実世界の高次元ブラックボックス最適化問題に対して,特性誘導分子生成を含む最新結果を提示する。 この論文で示される結果は、効果的な高次元ベイズ最適化を実現するための指針となることを期待している。

We introduce a method based on deep metric learning to perform Bayesian optimisation over high-dimensional, structured input spaces using variational autoencoders (VAEs). By extending ideas from supervised deep metric learning, we address a longstanding problem in high-dimensional VAE Bayesian optimisation, namely how to enforce a discriminative latent space as an inductive bias. Importantly, we achieve such an inductive bias using just 1% of the available labelled data relative to previous work, highlighting the sample efficiency of our approach. As a theoretical contribution, we present a proof of vanishing regret for our method. As an empirical contribution, we present state-of-the-art results on real-world high-dimensional black-box optimisation problems including property-guided molecule generation. It is the hope that the results presented in this paper can act as a guiding principle for realising effective high-dimensional Bayesian optimisation.
翻訳日:2021-06-08 17:48:21 公開日:2021-06-07
# センサ信号に対する深い正準相関アライメント

Deep Canonical Correlation Alignment for Sensor Signals ( http://arxiv.org/abs/2106.03637v1 )

ライセンス: Link先を確認
Narayan Sch\"utz, Angela Botros, Michael Single, Philipp Buluschek, Tobias Nef(参考訳) センサー技術は、さまざまな分野や産業でますます普及している。 その結果,複数の相互関連信号の同時記録がますます一般的になりつつある。 これにより、センサ・クロック・ドリフト、オフセット、その他の合併症により、実用的な性質の問題がより多く現れる。 複数のセンサデータの処理は、しばしば時間次元に適切に整列されたデータに依存する。 アライメントプロセスは、データが適切に評価される前に必要なステップであるが、時間を要するプロセスであり、しばしば重要な手作業と専門知識を含んでいる。 通常のセンサー信号の整列法は、形態的相違、過度なノイズ、非常に長い生のセンサー信号といった現実世界の問題に対処するのに苦労する。 本研究では,これらの問題に対処するための手法として,ディープカノニカル相関センサアライメント(DCCA)を提案する。 これは、クロックドリフトやオフセットなどのセンサ回路が生み出すミスアライメントに特有な共通特性を利用する。 人工および実データセットの選択において,様々な条件下でのDCCAの性能を示す。

Sensor technology is becoming increasingly prevalent across a multitude of fields and industries. As a result, simultaneous recordings of multiple inter-correlated signals is becoming increasingly common. With this, more problems of a practical nature emerge due to sensor clock-drift, offsets, and other complications. Processing of multiple sensor data is often dependent on the data being properly aligned in the temporal dimension. The alignment process is a necessary step before the data can be evaluated properly but it is a time consuming process, often involving significant manual labor and expertise. Regularly used methods to align sensor signals have trouble addressing real-world issues such as morphological dissimilarities, excessive noise, or very long, raw sensor signals. In this work, we present Deep Canonical Correlation Sensor Alignment (DCCA), a method that is specifically tailored to address these problems. It exploits common properties specific to misalignments produced by sensor circuitry, such as clock-drift and offsets. On a selection of artificial and real datasets we demonstrate the performance of DCCA under a variety of conditions.
翻訳日:2021-06-08 17:48:08 公開日:2021-06-07
# OoD-Bench: 分布外一般化データセットとアルゴリズムのベンチマークと理解

OoD-Bench: Benchmarking and Understanding Out-of-Distribution Generalization Datasets and Algorithms ( http://arxiv.org/abs/2106.03721v1 )

ライセンス: Link先を確認
Nanyang Ye, Kaican Li, Lanqing Hong, Haoyue Bai, Yiting Chen, Fengwei Zhou, Zhenguo Li(参考訳) 深層学習は独立的で同一に分散した(d.d.)ことで大きな成功を収めた。 データだ しかし、ニューラルネットワークの性能は、アウト・オブ・ディストリビューション(OoD)データに遭遇した場合、しばしば劇的に低下する。 ood一般化に対処するために多くのアルゴリズムが提案されているが、これらのアルゴリズムを訓練し評価するために使用されるデータの理解は停滞している。 本研究では,複数の研究領域(ドメイン一般化,安定学習,不変リスク最小化など)から既存のデータセットとアルゴリズムを同一のコヒーレントな図形に含めないように配置する。 まず,様々なデータセットにおいてユビキタスな2種類の分布シフトを同定し,測定する。 次に,ood一般化アルゴリズムと2つの分布シフトに支配される新しいベンチマークを比較した。 実験により,ある分布シフトにおいて経験的リスクを最小化する既存のoodアルゴリズムは,他の分布シフトに制限があることを実証した。 新しいベンチマークは、将来のood一般化研究に頼れる強固な足場となるかもしれない。

Deep learning has achieved tremendous success with independent and identically distributed (i.i.d.) data. However, the performance of neural networks often degenerates drastically when encountering out-of-distribution (OoD) data, i.e., training and test data are sampled from different distributions. While a plethora of algorithms has been proposed to deal with OoD generalization, our understanding of the data used to train and evaluate these algorithms remains stagnant. In this work, we position existing datasets and algorithms from various research areas (e.g., domain generalization, stable learning, invariant risk minimization) seemingly unconnected into the same coherent picture. First, we identify and measure two distinct kinds of distribution shifts that are ubiquitous in various datasets. Next, we compare various OoD generalization algorithms with a new benchmark dominated by the two distribution shifts. Through extensive experiments, we show that existing OoD algorithms that outperform empirical risk minimization on one distribution shift usually have limitations on the other distribution shift. The new benchmark may serve as a strong foothold that can be resorted to by future OoD generalization research.
翻訳日:2021-06-08 17:47:53 公開日:2021-06-07
# DSelect-k:マルチタスク学習への応用とエキスパートの混合における微分可能選択

DSelect-k: Differentiable Selection in the Mixture of Experts with Applications to Multi-Task Learning ( http://arxiv.org/abs/2106.03760v1 )

ライセンス: Link先を確認
Hussein Hazimeh, Zhe Zhao, Aakanksha Chowdhery, Maheswaran Sathiamoorthy, Yihua Chen, Rahul Mazumder, Lichan Hong, Ed H. Chi(参考訳) Mixture-of-experts(M oE)アーキテクチャは、マルチタスク学習(MTL)と高容量ニューラルネットワークのスケーリングにおいて、有望な結果を示している。 最先端のMoEモデルはトレーニング可能なスパースゲートを使用して、入力例ごとに専門家のサブセットを選択する。 概念上は魅力的だが、Top-kのような既存のスパースゲートは滑らかではない。 滑らかさの欠如は、勾配に基づく手法で訓練する際の収束と統計的性能の問題を引き起こす。 本稿では,新しい2進符号化法に基づいて,moe に対する最初の連続的微分可能かつスパースゲート dselect-k を開発した。 我々のゲートは確率勾配降下のような一階法で訓練でき、選択する専門家の数を明示的に制御できる。 最大128タスクの合成データセットと実データの両方において,MDLの文脈におけるDSelect-kの有効性を示す。 DSelect-kに基づくMoEモデルは,予測および専門家の選択性能において統計的に有意な改善を達成できることを示す。 特に、現実世界の大規模レコメンデータシステムでは、DSelect-kはTop-kゲートと比較して予測性能が平均22%向上している。 ゲートのTensorFlow実装をオープンソースで提供しています。

The Mixture-of-experts (MoE) architecture is showing promising results in multi-task learning (MTL) and in scaling high-capacity neural networks. State-of-the-art MoE models use a trainable sparse gate to select a subset of the experts for each input example. While conceptually appealing, existing sparse gates, such as Top-k, are not smooth. The lack of smoothness can lead to convergence and statistical performance issues when training with gradient-based methods. In this paper, we develop DSelect-k: the first, continuously differentiable and sparse gate for MoE, based on a novel binary encoding formulation. Our gate can be trained using first-order methods, such as stochastic gradient descent, and offers explicit control over the number of experts to select. We demonstrate the effectiveness of DSelect-k in the context of MTL, on both synthetic and real datasets with up to 128 tasks. Our experiments indicate that MoE models based on DSelect-k can achieve statistically significant improvements in predictive and expert selection performance. Notably, on a real-world large-scale recommender system, DSelect-k achieves over 22% average improvement in predictive performance compared to the Top-k gate. We provide an open-source TensorFlow implementation of our gate.
翻訳日:2021-06-08 17:47:35 公開日:2021-06-07
# ランダム初期化深層ネットワークにおける適応手法の減衰曲線とパワー

Vanishing Curvature and the Power of Adaptive Methods in Randomly Initialized Deep Networks ( http://arxiv.org/abs/2106.03763v1 )

ライセンス: Link先を確認
Antonio Orvieto, Jonas Kohler, Dario Pavllo, Thomas Hofmann, Aurelien Lucchi(参考訳) 本稿では, ニューラルネットワークにおいて一般的に発生する, いわゆる消滅勾配現象を再考する。 ニューラルネットワークの奥行き解析を利用して、Xavier と He の初期化を初期化しても、ネットワーク幅が O(depth) 未満でスケールしても、消失する勾配を回避できないことを示す。 第二に、解析を二階微分に拡張し、ランダムな i.i.d を示す。 初期化はまた、ネットワークが深く成長するにつれて消滅する固有スペクトルを持つヘッセン行列をもたらす。 これが起こると、オプティマイザは、非常に平坦なサドルポイントのような台地で初期化され、その脱出時間が曲率と逆関係であるため、特に確率勾配降下(sgd)で逃げるのが困難である。 この観察は, (a) バニラsgdを用いた深層網の訓練の歴史的難しさ, (b) 適応勾配法の成功 (自然に曲率に適応し, 平坦な台地から素早く脱出する) および (c) 残留接続や正規化層のような近代的建築要素の有効性を完全に理解する上で重要である。

This paper revisits the so-called vanishing gradient phenomenon, which commonly occurs in deep randomly initialized neural networks. Leveraging an in-depth analysis of neural chains, we first show that vanishing gradients cannot be circumvented when the network width scales with less than O(depth), even when initialized with the popular Xavier and He initializations. Second, we extend the analysis to second-order derivatives and show that random i.i.d. initialization also gives rise to Hessian matrices with eigenspectra that vanish as networks grow in depth. Whenever this happens, optimizers are initialized in a very flat, saddle point-like plateau, which is particularly hard to escape with stochastic gradient descent (SGD) as its escaping time is inversely related to curvature. We believe that this observation is crucial for fully understanding (a) historical difficulties of training deep nets with vanilla SGD, (b) the success of adaptive gradient methods (which naturally adapt to curvature and thus quickly escape flat plateaus) and (c) the effectiveness of modern architectural components like residual connections and normalization layers.
翻訳日:2021-06-08 17:47:14 公開日:2021-06-07
# 自己愛行列の表現力について

On the Expressive Power of Self-Attention Matrices ( http://arxiv.org/abs/2106.03764v1 )

ライセンス: Link先を確認
Valerii Likhosherstov, Krzysztof Choromanski, Adrian Weller(参考訳) トランスフォーマーネットワークは、多くのドメイン(テキスト、画像、ビデオ、タンパク質など)から来るデータのパターンをキャプチャすることができる。 アーキテクチャコンポーネントの変更はほとんど、あるいはまったくありません。 元素間の信号伝達に寄与するコア成分の理論的解析を行う。 self-attention 行列。 実際には、この行列は一般に2つの性質を示す: (1) スパース(sparse)、つまり、各トークンは他のトークンの小さなサブセットにのみ対応し、(2) モジュールへの入力に応じて動的に変化する。 これらの考察を念頭に置いて、我々は以下の質問をする: 固定された自己完結モジュールは、入力に応じて任意のスパースパターンを近似できるか? そのような近似のために隠されたサイズ$d$はどのくらい小さいか? 我々はこの問題への回答を進歩させ、自着行列が各列と列の非零要素の有界数でスパース行列を近似できることを示す。 自己注意のパラメータは固定されているが、様々なスパース行列は入力を変更するだけで近似できる。 我々の証明はランダム射影法に基づいており、半音節の Johnson-Lindenstraus s lemma を用いる。 この証明は構成的であり、与えられた行列を近似するために適応入力と固定自己着パラメータを求めるアルゴリズムを提案することができる。 特に、任意のスパース行列を行列要素比を保存するために定義された精度まで近似するために、$d$は列長$L$(すなわち)と対数的にしか成長しないことを示す。 $d = O(\log L)$)。

Transformer networks are able to capture patterns in data coming from many domains (text, images, videos, proteins, etc.) with little or no change to architecture components. We perform a theoretical analysis of the core component responsible for signal propagation between elements, i.e. the self-attention matrix. In practice, this matrix typically exhibits two properties: (1) it is sparse, meaning that each token only attends to a small subset of other tokens; and (2) it changes dynamically depending on the input to the module. With these considerations in mind, we ask the following question: Can a fixed self-attention module approximate arbitrary sparse patterns depending on the input? How small is the hidden size $d$ required for such approximation? We make progress in answering this question and show that the self-attention matrix can provably approximate sparse matrices, where sparsity is in terms of a bounded number of nonzero elements in each row and column. While the parameters of self-attention are fixed, various sparse matrices can be approximated by only modifying the inputs. Our proof is based on the random projection technique and uses the seminal Johnson-Lindenstraus s lemma. Our proof is constructive, enabling us to propose an algorithm for finding adaptive inputs and fixed self-attention parameters in order to approximate a given matrix. In particular, we show that, in order to approximate any sparse matrix up to a given precision defined in terms of preserving matrix element ratios, $d$ grows only logarithmically with the sequence length $L$ (i.e. $d = O(\log L)$).
翻訳日:2021-06-08 17:46:52 公開日:2021-06-07
# 選択データコントラストを用いたデバイス上での自己監督型コントラスト学習の実現

Enabling On-Device Self-Supervised Contrastive Learning With Selective Data Contrast ( http://arxiv.org/abs/2106.03796v1 )

ライセンス: Link先を確認
Yawen Wu, Zhepeng Wang, Dewen Zeng, Yiyu Shi, Jingtong Hu(参考訳) エッジデバイスにモデルがデプロイされると、ラベルのないデータから学習して精度を継続的に向上することが望ましい。 対照的な学習はラベルのないデータから学ぶ上で大きな可能性を示しています。 しかし、オンラインの入力データは独立性がなく、同一の分散(非ID)であり、エッジデバイスのストレージは、通常、異なるデータクラスから十分な代表データを保存するには限られている。 動的学習のための小さなデータバッファのみを必要とするラベルなしの入力ストリームから、最も代表的なデータを自動的に選択するフレームワークを提案する。 実験の結果,精度と学習速度が大幅に向上した。

After a model is deployed on edge devices, it is desirable for these devices to learn from unlabeled data to continuously improve accuracy. Contrastive learning has demonstrated its great potential in learning from unlabeled data. However, the online input data are usually none independent and identically distributed (non-iid) and storages of edge devices are usually too limited to store enough representative data from different data classes. We propose a framework to automatically select the most representative data from the unlabeled input stream, which only requires a small data buffer for dynamic learning. Experiments show that accuracy and learning speed are greatly improved.
翻訳日:2021-06-08 17:46:29 公開日:2021-06-07
# 拡散確率モデルから効率的なサンプルの学習

Learning to Efficiently Sample from Diffusion Probabilistic Models ( http://arxiv.org/abs/2106.03802v1 )

ライセンス: Link先を確認
Daniel Watson and Jonathan Ho and Mohammad Norouzi and William Chan(参考訳) Denoising Diffusion Probabilistic Models (DDPM) は、画像や音声合成を含む様々な領域にわたる高忠実度サンプルと競合する対数類似度が得られる強力な生成モデルのファミリーとして登場した。 DDPMの主な利点は、生成的敵ネットワークとは対照的に訓練の容易さ、自己回帰モデルとは対照的に生成速度である。 しかし、DDPMは通常、高忠実度サンプルを生成するために数百から数千のステップを必要とするため、高次元問題に対して極めて高価である。 幸いなことにDDPMは、ポストプロセスとして精錬工程の数を調整することで、サンプル品質のトレーディング生成速度を許容している。 以前の作業は、試行錯誤によって時間スケジュールを手作りすることで、生成速度を改善することに成功した。 そこで我々は,予測時間スケジュールの選択を最適化問題とみなし,事前学習したDDPMに対して最適な離散時間スケジュールを求める,正確な動的プログラミングアルゴリズムを提案する。 提案手法では,elboを分離したkl項に分解し,計算予算を考慮すれば,エルボのトレーニングを最大化する時間スケジュールを発見することができる。 本手法は効率的であり,ハイパーパラメータを持たないため,事前学習したddpmをリトレーニングすることなく適用できる。 ImageNet 64x64[Ho et al., 2020; Nichol and Dhariwal, 2021]で使用されるデフォルトの4000ステップと比較して,1次元あたり0.1ビット以下を犠牲にしながら,32ステップまでの推論時間スケジュールを見つける。

Denoising Diffusion Probabilistic Models (DDPMs) have emerged as a powerful family of generative models that can yield high-fidelity samples and competitive log-likelihoods across a range of domains, including image and speech synthesis. Key advantages of DDPMs include ease of training, in contrast to generative adversarial networks, and speed of generation, in contrast to autoregressive models. However, DDPMs typically require hundreds-to-thousand s of steps to generate a high fidelity sample, making them prohibitively expensive for high dimensional problems. Fortunately, DDPMs allow trading generation speed for sample quality through adjusting the number of refinement steps as a post process. Prior work has been successful in improving generation speed through handcrafting the time schedule by trial and error. We instead view the selection of the inference time schedules as an optimization problem, and introduce an exact dynamic programming algorithm that finds the optimal discrete time schedules for any pre-trained DDPM. Our method exploits the fact that ELBO can be decomposed into separate KL terms, and given any computation budget, discovers the time schedule that maximizes the training ELBO exactly. Our method is efficient, has no hyper-parameters of its own, and can be applied to any pre-trained DDPM with no retraining. We discover inference time schedules requiring as few as 32 refinement steps, while sacrificing less than 0.1 bits per dimension compared to the default 4,000 steps used on ImageNet 64x64 [Ho et al., 2020; Nichol and Dhariwal, 2021].
翻訳日:2021-06-08 17:46:18 公開日:2021-06-07
# 商品レコメンデーション改善のためのライブストリームEコマースからのトリパーティイトインタラクション情報の活用

Leveraging Tripartite Interaction Information from Live Stream E-Commerce for Improving Product Recommendation ( http://arxiv.org/abs/2106.03415v1 )

ライセンス: Link先を確認
Sanshi Yu and Zhuoxuan Jiang and Dong-Dong Chen and Shanshan Feng and Dongsheng Li and Qi Liu and Jinfeng Yi(参考訳) 最近、オンラインショッピングの新たな形態がますます人気となり、ライブストリーミングとEコマースのアクティビティが組み合わさりつつある。 ストリーマーは製品を紹介し、オーディエンスと対話することで、製品販売のパフォーマンスを大幅に向上させる。 業界における成功例にもかかわらず、データサイエンスコミュニティでは、ライブストリームEコマースは十分に研究されていない。 このギャップを埋めるために、私たちはこの新しいシナリオを調査し、現実世界のLive Stream E-Commerce(LSEC)データセットを収集します。 従来のEコマースと異なり、ストリーマーはLSECイベントにおいて重要な役割を果たす。 したがって、キーとなるのは、ストリーマー、ユーザ、製品間のリッチなインタラクション情報をフル活用することだ。 まず,3部インタラクションデータのデータ分析を行い,ユーザの購買行動に対するストリーマーの影響を定量化する。 分析結果に基づき,三成分情報を不均質グラフとしてモデル化し,その影響をよりよく把握するために,複数の二成分グラフに分解することができる。 本稿では,各二部グラフのノード表現を学習するための新しいLive Stream E-Commerce Graph Neural Network (LSEC-GNN) を提案し,さらに製品レコメンデーションを改善するためにマルチタスク学習アプローチを設計する。 異なるスケールの2つの実世界のデータセットに対する大規模な実験により、本手法は様々なベースラインアプローチを著しく上回ることを示す。

Recently, a new form of online shopping becomes more and more popular, which combines live streaming with E-Commerce activity. The streamers introduce products and interact with their audiences, and hence greatly improve the performance of selling products. Despite of the successful applications in industries, the live stream E-commerce has not been well studied in the data science community. To fill this gap, we investigate this brand-new scenario and collect a real-world Live Stream E-Commerce (LSEC) dataset. Different from conventional E-commerce activities, the streamers play a pivotal role in the LSEC events. Hence, the key is to make full use of rich interaction information among streamers, users, and products. We first conduct data analysis on the tripartite interaction data and quantify the streamer's influence on users' purchase behavior. Based on the analysis results, we model the tripartite information as a heterogeneous graph, which can be decomposed to multiple bipartite graphs in order to better capture the influence. We propose a novel Live Stream E-Commerce Graph Neural Network framework (LSEC-GNN) to learn the node representations of each bipartite graph, and further design a multi-task learning approach to improve product recommendation. Extensive experiments on two real-world datasets with different scales show that our method can significantly outperform various baseline approaches.
翻訳日:2021-06-08 17:44:32 公開日:2021-06-07
# 点雲からの関節分割による立方体形状抽象化の教師なし学習

Unsupervised Learning for Cuboid Shape Abstraction via Joint Segmentation from Point Clouds ( http://arxiv.org/abs/2106.03437v1 )

ライセンス: Link先を確認
Kaizhi Yang and Xuejin Chen(参考訳) 複雑な3Dオブジェクトを、形状抽象化として知られる単純な幾何学的原始体として表現することは、幾何学的モデリング、構造解析、形状合成において重要である。 本稿では,点雲をコンパクトな立方体表現にマッピングするための教師なし形状抽象化手法を提案する。 我々は, 部分分節と立方体形状としての立方体配置を共同で予測し, 自己学習のための分節と形状抽象の整合性を強制する。 本研究では, 可変オートエンコーダネットワークを用いて, 入力点雲をパラメトリックキューブの集合に変換する。 セグメンテーションネットワークは、ポイントキューブイド親和性を考慮して、各点をキューブイドに割り当てる。 点雲の部分の手動アノテーションがなければ,幾何学的類似性と立方体コンパクト性の観点から2つの枝を共同で監督する4つの新たな損失をデザインする。 提案手法を複数形状集合において評価し,既存の形状抽象法よりも優れていることを示す。 さらに, ネットワークアーキテクチャと学習表現に基づいて, 構造形状の生成, 形状補間, 構造形状クラスタリングなどの様々な応用を支援する。

Representing complex 3D objects as simple geometric primitives, known as shape abstraction, is important for geometric modeling, structural analysis, and shape synthesis. In this paper, we propose an unsupervised shape abstraction method to map a point cloud into a compact cuboid representation. We jointly predict cuboid allocation as part segmentation and cuboid shapes and enforce the consistency between the segmentation and shape abstraction for self-learning. For the cuboid abstraction task, we transform the input point cloud into a set of parametric cuboids using a variational auto-encoder network. The segmentation network allocates each point into a cuboid considering the point-cuboid affinity. Without manual annotations of parts in point clouds, we design four novel losses to jointly supervise the two branches in terms of geometric similarity and cuboid compactness. We evaluate our method on multiple shape collections and demonstrate its superiority over existing shape abstraction methods. Moreover, based on our network architecture and learned representations, our approach supports various applications including structured shape generation, shape interpolation, and structural shape clustering.
翻訳日:2021-06-08 17:42:42 公開日:2021-06-07
# 点としての形状:微分可能なポアソン解法

Shape As Points: A Differentiable Poisson Solver ( http://arxiv.org/abs/2106.03452v1 )

ライセンス: Link先を確認
Songyou Peng, Chiyu "Max" Jiang, Yiyi Liao, Michael Niemeyer, Marc Pollefeys, Andreas Geiger(参考訳) 近年, その表現性や柔軟性から, 神経暗黙の表現が3次元再構成で人気を博している。 しかし、神経の暗黙的表現の暗黙的性質は推論時間が遅く、注意深い初期化を必要とする。 本稿では,古典的だがユビキタスなポイントクラウドの表現を再検討し,ポアソン表面再構成(PSR)の微分可能な定式化を用いて,配向点クラウドを付与したインジケータ関数のGPU加速高速解を実現する。 識別可能なPSR層は,暗黙の指標場を通じて,明示的な3次元点表現を3次元メッシュに効果的にブリッジし,チャンファー距離などの表面再構成指標のエンドツーエンドの最適化を可能にする。 したがって、ポイントとメッシュの双対性は、明示的で軽量で表現力に富んだ、向き付けられたポイントクラウドとして形を表現することができる。 ニューラル暗黙の表現と比較して、私たちのシェープ・アズ・ポイント(SAP)モデルはより解釈可能で、軽量で、1桁の推論時間を加速します。 点、パッチ、メッシュなどの他の明示的な表現と比較すると、SAPは位相に依存しない水密な多様体曲面を生成する。 本研究では,無向点雲の表面再構成と学習ベース再構成におけるSAPの有効性を示す。

In recent years, neural implicit representations gained popularity in 3D reconstruction due to their expressiveness and flexibility. However, the implicit nature of neural implicit representations results in slow inference time and requires careful initialization. In this paper, we revisit the classic yet ubiquitous point cloud representation and introduce a differentiable point-to-mesh layer using a differentiable formulation of Poisson Surface Reconstruction (PSR) that allows for a GPU-accelerated fast solution of the indicator function given an oriented point cloud. The differentiable PSR layer allows us to efficiently and differentiably bridge the explicit 3D point representation with the 3D mesh via the implicit indicator field, enabling end-to-end optimization of surface reconstruction metrics such as Chamfer distance. This duality between points and meshes hence allows us to represent shapes as oriented point clouds, which are explicit, lightweight and expressive. Compared to neural implicit representations, our Shape-As-Points (SAP) model is more interpretable, lightweight, and accelerates inference time by one order of magnitude. Compared to other explicit representations such as points, patches, and meshes, SAP produces topology-agnostic, watertight manifold surfaces. We demonstrate the effectiveness of SAP on the task of surface reconstruction from unoriented point clouds and learning-based reconstruction.
翻訳日:2021-06-08 17:42:24 公開日:2021-06-07
# Collaborative Skinsion Segmentation and Melanoma Recognitionのための知識認識深層フレームワーク

Knowledge-aware Deep Framework for Collaborative Skin Lesion Segmentation and Melanoma Recognition ( http://arxiv.org/abs/2106.03455v1 )

ライセンス: Link先を確認
Xiaohong Wang, Xudong Jiang, Henghui Ding, Yuqian Zhao, Jun Liu(参考訳) 深層学習技術は皮膚科臨床検査において優れた性能を示した。 それでもメラノーマの診断は、有用な皮膚科臨床知識を学習プロセスに組み込むことが困難であるため、依然として難しい課題である。 本稿では, 2つの重要なメラノーマ診断課題,すなわち皮膚病変分割とメラノーマ認識の協調学習に臨床知識を組み込んだ,新しい知識認識深層フレームワークを提案する。 具体的には、メラノーマ識別のための病変領域および周辺領域の形態的表現の知識を活用するために、皮膚病変のセグメンテーションから得られた構造情報をメラノーマ認識に転送する病変ベースのプールと形状抽出(LPSE)方式を設計する。 一方,メラノーマの診断から皮膚病変のセグメンテーションまで,皮膚病変診断の知識をパスするために,DGFF(Danged Feature fusion)戦略が考案されている。 さらに,マスク間協力をさらに促進する再帰的相互学習機構を提案し,皮膚病変のセグメンテーションとメラノーマの認識の両面において,モデルの関節学習能力を反復的に改善する。 2つの公開皮膚病変データセットの実験結果から,メラノーマ解析法の有効性が示された。

Deep learning techniques have shown their superior performance in dermatologist clinical inspection. Nevertheless, melanoma diagnosis is still a challenging task due to the difficulty of incorporating the useful dermatologist clinical knowledge into the learning process. In this paper, we propose a novel knowledge-aware deep framework that incorporates some clinical knowledge into collaborative learning of two important melanoma diagnosis tasks, i.e., skin lesion segmentation and melanoma recognition. Specifically, to exploit the knowledge of morphological expressions of the lesion region and also the periphery region for melanoma identification, a lesion-based pooling and shape extraction (LPSE) scheme is designed, which transfers the structure information obtained from skin lesion segmentation into melanoma recognition. Meanwhile, to pass the skin lesion diagnosis knowledge from melanoma recognition to skin lesion segmentation, an effective diagnosis guided feature fusion (DGFF) strategy is designed. Moreover, we propose a recursive mutual learning mechanism that further promotes the inter-task cooperation, and thus iteratively improves the joint learning capability of the model for both skin lesion segmentation and melanoma recognition. Experimental results on two publicly available skin lesion datasets show the effectiveness of the proposed method for melanoma analysis.
翻訳日:2021-06-08 17:41:59 公開日:2021-06-07
# 距離変換とその計算

The Distance Transform and its Computation ( http://arxiv.org/abs/2106.03503v1 )

ライセンス: Link先を確認
Tilo Strutz(参考訳) 距離変換は、多くの異なるアプリケーションで使用される画像処理技術である。 バイナリイメージに関連して、一般的な考え方は、すべてのバックグラウンドポイントから最も近いオブジェクトポイント(またはその逆)までの距離を決定することである。 このチュートリアルでは、様々なアプローチを詳細に説明し、例を使って比較する。 ソースコードは、独自の調査を促進するために提供される。 このチュートリアルの目的は、任意の距離変換と正確なユークリッド距離変換の違いを明らかにすることである。

Distance transformation is an image processing technique used for many different applications. Related to a binary image, the general idea is to determine the distance of all background points to the nearest object point (or vice versa). In this tutorial, different approaches are explained in detail and compared using examples. Corresponding source code is provided to facilitate own investigations. A particular objective of this tutorial is to clarify the difference between arbitrary distance transforms and exact Euclidean distance transformations.
翻訳日:2021-06-08 17:41:35 公開日:2021-06-07
# 緑内障における光コヒーレンストモグラフィーによる視点的視野推定 : 深層学習を用いた構造機能解析

Pointwise visual field estimation from optical coherence tomography in glaucoma: a structure-function analysis using deep learning ( http://arxiv.org/abs/2106.03793v1 )

ライセンス: Link先を確認
Ruben Hemelings, Bart Elen, Jo\~ao Barbosa Breda, Erwin Bellon, Matthew B Blaschko, Patrick De Boever, Ingeborg Stalmans(参考訳) 背景/背景:SAP(Standard Automated Perimetry)は緑内障治療における視野(VF)の喪失を監視するための金の標準であるが、物体内変動に起因している。 我々は、未分類光コヒーレンストモグラフィー(OCT)スキャンから、ポイントワイドおよび全体的なVF損失を推定する深層学習回帰モデルを開発し、検証した。 方法: 8種類のdl回帰モデルにおいて, 3.5mm, 4.1mm, 4.7mm, 走査型レーザー眼内視鏡 (slo) を用いて, 平均偏差 (md) と52閾値を推定した。 本研究は,HFA (Hunfrey Field Analyzer) 24-2 SITA Standard VF test, SPECTRALIS OCT scan using the Glaucoma Module Premium Editionを含む全緑内障検査を行った患者のデータを用いた。 結果: DLモデルのトレーニングおよび評価には496例(眼863例)のOCT-VF対が1378例含まれていた。 平均サンプルMDは-7.53dB(-33.8dBから+2.0dB)であった。 52VFしきい値の推定では、最大半径(4.7mm)のOCTスキャンが全ての個々のモデルの中で最高の性能を達成した(Pearson r=0.77, 95% CI=[0.72-0.82])。 MDの場合、OCT訓練モデルの予測平均(3.5mm、4.1mm、4.7mm)は検証セットで0.78[0.73-0.83]、テストセットで同等の性能(Pearson r=0.79 [0.75-0.82])となる。 結語: dl on unsegmented oct scansは緑内障患者における24-2vfの点差と平均偏差を正確に予測する。 octからの自動vfは、信頼性のある周縁検査結果が得られない患者にとって解決策になり得る。

Background/Aims: Standard Automated Perimetry (SAP) is the gold standard to monitor visual field (VF) loss in glaucoma management, but is prone to intra-subject variability. We developed and validated a deep learning (DL) regression model that estimates pointwise and overall VF loss from unsegmented optical coherence tomography (OCT) scans. Methods: Eight DL regression models were trained with various retinal imaging modalities: circumpapillary OCT at 3.5mm, 4.1mm, 4.7mm diameter, and scanning laser ophthalmoscopy (SLO) en face images to estimate mean deviation (MD) and 52 threshold values. This retrospective study used data from patients who underwent a complete glaucoma examination, including a reliable Humphrey Field Analyzer (HFA) 24-2 SITA Standard VF exam and a SPECTRALIS OCT scan using the Glaucoma Module Premium Edition. Results: A total of 1378 matched OCT-VF pairs of 496 patients (863 eyes) were included for training and evaluation of the DL models. Average sample MD was -7.53dB (from -33.8dB to +2.0dB). For 52 VF threshold values estimation, the circumpapillary OCT scan with the largest radius (4.7mm) achieved the best performance among all individual models (Pearson r=0.77, 95% CI=[0.72-0.82]). For MD, prediction averaging of OCT-trained models (3.5mm, 4.1mm, 4.7mm) resulted in a Pearson r of 0.78 [0.73-0.83] on the validation set and comparable performance on the test set (Pearson r=0.79 [0.75-0.82]). Conclusion: DL on unsegmented OCT scans accurately predicts pointwise and mean deviation of 24-2 VF in glaucoma patients. Automated VF from unsegmented OCT could be a solution for patients unable to produce reliable perimetry results.
翻訳日:2021-06-08 17:41:28 公開日:2021-06-07
# 深部メディアルフィールド

Deep Medial Fields ( http://arxiv.org/abs/2106.03804v1 )

ライセンス: Link先を確認
Daniel Rebain, Ke Li, Vincent Sitzmann, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi(参考訳) 占有場や符号付き距離場(sdf)のような幾何学の暗黙的な表現は、最近3dの立体形状を関数形式にエンコードすることに再び人気を集めている。 そこで本研究では,メディア軸変換(MAT)から導かれるフィールド関数を用いて,多数の下流タスクに即時に役立つ基礎となる3次元形状に関する情報を提供する。 特に、メディカルフィールドは3次元形状の局所的な厚さを符号化し、クエリポイントのO(1)をメディカル軸に投影することができる。 メディアル場を構築するには、形状自体のsdfしか必要としないので、符号付き距離場に依存する任意のアプリケーションで簡単に組み込むことができる。 SDFが支持するO(1)表面の投影と一致して作業することで、メディアフィールドは、暗黙の表現に対して、全く新しい効率的な形状の操作の扉を開く。 本稿では,より収束性の良い暗黙的表現を描画する球追跡の修正,メモリ効率の高い剛体衝突プロキシの高速構築法,視点変動に関して安定な環境閉塞の効率的な近似を含む3つの応用を提案する。

Implicit representations of geometry, such as occupancy fields or signed distance fields (SDF), have recently re-gained popularity in encoding 3D solid shape in a functional form. In this work, we introduce medial fields: a field function derived from the medial axis transform (MAT) that makes available information about the underlying 3D geometry that is immediately useful for a number of downstream tasks. In particular, the medial field encodes the local thickness of a 3D shape, and enables O(1) projection of a query point onto the medial axis. To construct the medial field we require nothing but the SDF of the shape itself, thus allowing its straightforward incorporation in any application that relies on signed distance fields. Working in unison with the O(1) surface projection supported by the SDF, the medial field opens the door for an entirely new set of efficient, shape-aware operations on implicit representations. We present three such applications, including a modification to sphere tracing that renders implicit representations with better convergence properties, a fast construction method for memory-efficient rigid-body collision proxies, and an efficient approximation of ambient occlusion that remains stable with respect to viewpoint variations.
翻訳日:2021-06-08 17:40:52 公開日:2021-06-07
# ブロックワイズデータを用いた高次元線形回帰の半教師付き統計的推測

Semi-Supervised Statistical Inference for High-Dimensional Linear Regression with Blockwise Missing Data ( http://arxiv.org/abs/2106.03344v1 )

ライセンス: Link先を確認
Fei Xue, Rong Ma, Hongzhe Li(参考訳) 異なるソースやモダリティが相補的な情報を含んでいるマルチソースまたはマルチモダリティデータを統合すると、ブロックワイドなデータが頻繁に発生する。 本稿では,ブロックワイド共変量と部分的な応答変数を持つ高次元線形回帰モデルについて考察する。 この半教師付きフレームワークでは、慎重に構築された非バイアス推定方程式と多重ブロックワイズ計算法に基づく回帰係数ベクトルの計算効率の高い推定器を提案し、その収束率を求める。 さらに,初期推定器のバイアス補正を本質的に達成する,革新的な半教師付き予測方程式法に基づいて,漸近的に通常分布する個々の回帰係数に対する偏りのない推定法を提案する。 これらの偏りのある推定器を慎重に分析することにより、漸近的に有効な信頼区間と各回帰係数に関する統計的検査を構築する。 アルツハイマー病の神経画像化イニシアチブデータの数値研究と応用分析により,提案法が従来の方法よりも良好で,教師なし検体より有益であることが示された。

Blockwise missing data occurs frequently when we integrate multisource or multimodality data where different sources or modalities contain complementary information. In this paper, we consider a high-dimensional linear regression model with blockwise missing covariates and a partially observed response variable. Under this semi-supervised framework, we propose a computationally efficient estimator for the regression coefficient vector based on carefully constructed unbiased estimating equations and a multiple blockwise imputation procedure, and obtain its rates of convergence. Furthermore, building upon an innovative semi-supervised projected estimating equation technique that intrinsically achieves bias-correction of the initial estimator, we propose nearly unbiased estimators for the individual regression coefficients that are asymptotically normally distributed under mild conditions. By carefully analyzing these debiased estimators, asymptotically valid confidence intervals and statistical tests about each regression coefficient are constructed. Numerical studies and application analysis of the Alzheimer's Disease Neuroimaging Initiative data show that the proposed method performs better and benefits more from unsupervised samples than existing methods.
翻訳日:2021-06-08 17:38:24 公開日:2021-06-07
# 点クラウドマッチングにおける不確実性推定のためのstein icp

Stein ICP for Uncertainty Estimation in Point Cloud Matching ( http://arxiv.org/abs/2106.03287v1 )

ライセンス: Link先を確認
Fahira Afzal Maken, Fabio Ramos, Lionel Ott(参考訳) 点雲マッチングの不確実性の定量化は、ポーズ推定、センサー融合、把握といった多くのタスクにおいて重要である。 反復最接近点 (icp) は、2つの点雲間の変換の点推定を提供する一般的なポーズ推定アルゴリズムである。 この過程にはセンサノイズ、あいまいな環境、および閉塞によって生じる可能性のある不確実性の原因が数多く存在する。 しかし、自動運転のような安全上重要な問題では、複数の解に関する情報を提供しないため、ポーズ変換のポイント推定は不十分である。 現在の確率的ICP法は、通常、不確実性のすべての源を捉えておらず、状態推定や意思決定タスクにおいて有害な影響を持つ信頼できない変換推定を提供する。 本研究では、ICPの変換パラメータの不確かさを正確に推定できる2点の雲を整列する新しいアルゴリズムを提案する。 我々はICPのコスト関数の勾配に基づく最適化を施したスタイン変分推論フレームワークを開発した。 この方法は変換の非パラメトリック推定を提供し、複雑なマルチモーダル分布をモデル化でき、GPU上で効果的に並列化することができる。 3d kinectデータと屋内外lidarデータを用いて実験した結果,精度の高いポーズ不確実性推定を効率的に生成できることがわかった。

Quantification of uncertainty in point cloud matching is critical in many tasks such as pose estimation, sensor fusion, and grasping. Iterative closest point (ICP) is a commonly used pose estimation algorithm which provides a point estimate of the transformation between two point clouds. There are many sources of uncertainty in this process that may arise due to sensor noise, ambiguous environment, and occlusion. However, for safety critical problems such as autonomous driving, a point estimate of the pose transformation is not sufficient as it does not provide information about the multiple solutions. Current probabilistic ICP methods usually do not capture all sources of uncertainty and may provide unreliable transformation estimates which can have a detrimental effect in state estimation or decision making tasks that use this information. In this work we propose a new algorithm to align two point clouds that can precisely estimate the uncertainty of ICP's transformation parameters. We develop a Stein variational inference framework with gradient based optimization of ICP's cost function. The method provides a non-parametric estimate of the transformation, can model complex multi-modal distributions, and can be effectively parallelized on a GPU. Experiments using 3D kinect data as well as sparse indoor/outdoor LiDAR data show that our method is capable of efficiently producing accurate pose uncertainty estimates.
翻訳日:2021-06-08 17:33:11 公開日:2021-06-07
# TUS軌道望遠鏡のデータ分類へのニューラルネットワークの適用

Application of neural networks to classification of data of the TUS orbital telescope ( http://arxiv.org/abs/2106.03361v1 )

ライセンス: Link先を確認
Mikhail Zotov(参考訳) 我々は、超高エネルギー宇宙線の世界初の軌道検出器であるTUS蛍光望遠鏡のデータ分類にニューラルネットワークを使用している。 TUSデータでは、光検出器の宇宙線照射によって発生するトラックライクフラッシュと、遠方の雷から発生するフラッシュの2種類の信号に焦点を当てる。 従来のデータ解析手法と組み合わせた単純なニューラルネットワークでさえ、蛍光望遠鏡のデータ分類のタスクに非常に効果的であることを示す。

We employ neural networks for classification of data of the TUS fluorescence telescope, the world's first orbital detector of ultra-high energy cosmic rays. We focus on two particular types of signals in the TUS data: track-like flashes produced by cosmic ray hits of the photodetector and flashes that originated from distant lightnings. We demonstrate that even simple neural networks combined with certain conventional methods of data analysis can be highly effective in tasks of classification of data of fluorescence telescopes.
翻訳日:2021-06-08 17:32:51 公開日:2021-06-07
# 部分ラベルグラフを用いた帰納学習のための逆正則グラフ注意ネットワーク

Adversarially Regularized Graph Attention Networks for Inductive Learning on Partially Labeled Graphs ( http://arxiv.org/abs/2106.03393v1 )

ライセンス: Link先を確認
Jiaren Xiao, Quanyu Dai, Xiaochen Xie, James Lam, Ka-Wai Kwok(参考訳) グラフ埋め込みは、ノードを低次元表現にエンコードすることでグラフ解析問題に取り組む一般的なアプローチである。 既存の埋め込み手法の多くは、予測されるノードを含むすべてのノードの情報を必要とするため、トランスダクティブである。 本稿では,グラフ上の半教師付き学習のための新しい帰納的埋め込み法を提案する。 この方法は、注意機構を用いて近隣から情報を集約するパラメトリック関数を学習してノード表現を生成し、従って自然に未認識のノードに一般化する。 さらに、敵意訓練は、学習された表現を事前分布に適合させる外部正規化として機能し、堅牢性と一般化能力を向上させる。 実世界のクリーングラフやノイズグラフの実験は、このアプローチの有効性を示すために用いられる。

Graph embedding is a general approach to tackling graph-analytic problems by encoding nodes into low-dimensional representations. Most existing embedding methods are transductive since the information of all nodes is required in training, including those to be predicted. In this paper, we propose a novel inductive embedding method for semi-supervised learning on graphs. This method generates node representations by learning a parametric function to aggregate information from the neighborhood using an attention mechanism, and hence naturally generalizes to previously unseen nodes. Furthermore, adversarial training serves as an external regularization enforcing the learned representations to match a prior distribution for improving robustness and generalization ability. Experiments on real-world clean or noisy graphs are used to demonstrate the effectiveness of this approach.
翻訳日:2021-06-08 17:32:43 公開日:2021-06-07
# ラベル識別プライバシのアンチポッド:PATEとALIBI

Antipodes of Label Differential Privacy: PATE and ALIBI ( http://arxiv.org/abs/2106.03408v1 )

ライセンス: Link先を確認
Mani Malek, Ilya Mironov, Karthik Prasad, Igor Shilov, Florian Tram\`er(参考訳) トレーニングモデルがトレーニング例のラベルに関して差分プライバシ(DP)を満たす必要があるという、プライバシ保護機械学習(ML)の設定について考察する。 本稿では,Laplace のメカニズムと PATE フレームワークに基づく2つの新しいアプローチを提案し,それらの性能を標準ベンチマークで実証する。 Ghaziらによる最近の作品。 ランダムな応答機構に基づくラベルDPスキームを提案し,ベイズ推論(ALIBI)と付加的なラプラス雑音は典型的なMLタスクに適していると主張した。 さらに,近年の半教師付き学習の進歩を基盤としたPATEフレームワークの適用により,いくつかの制度において,極めて強力なプライバシレベルを実現する方法を示す。 我々は,アルゴリズムのプライバシー保証を理論的に解析し,記憶特性を実証的に評価する。 評価の結果,提案するdp保証に従って異なるアルゴリズムを比較することは誤解を招く可能性があり,より厳密な解析でよりプライベートなアルゴリズムを好むことが示唆された。

We consider the privacy-preserving machine learning (ML) setting where the trained model must satisfy differential privacy (DP) with respect to the labels of the training examples. We propose two novel approaches based on, respectively, the Laplace mechanism and the PATE framework, and demonstrate their effectiveness on standard benchmarks. While recent work by Ghazi et al. proposed Label DP schemes based on a randomized response mechanism, we argue that additive Laplace noise coupled with Bayesian inference (ALIBI) is a better fit for typical ML tasks. Moreover, we show how to achieve very strong privacy levels in some regimes, with our adaptation of the PATE framework that builds on recent advances in semi-supervised learning. We complement theoretical analysis of our algorithms' privacy guarantees with empirical evaluation of their memorization properties. Our evaluation suggests that comparing different algorithms according to their provable DP guarantees can be misleading and favor a less private algorithm with a tighter analysis.
翻訳日:2021-06-08 17:32:31 公開日:2021-06-07
# 非母語音声における弱教師付き単語レベルの発音誤り検出

Weakly-supervised word-level pronunciation error detection in non-native English speech ( http://arxiv.org/abs/2106.03494v1 )

ライセンス: Link先を確認
Daniel Korzekwa, Jaime Lorenzo-Trueba, Thomas Drugman, Shira Calamaro, Bozena Kostek(参考訳) 非母語(l2)英語音声における単語レベル誤り検出のための弱教師付きモデルを提案する。 このモデルを訓練するためには、音声で書き起こされたL2音声は必要ない。 L2音声のための音素転写の欠如は、モデルが単語レベルの誤認識の弱い信号からのみ学習しなければならないことを意味する。 そのため、誤発音のL2音声が限られたため、モデルは過度に適合する可能性が高い。 このリスクを制限するため、マルチタスクのセットアップでトレーニングします。 最初のタスクでは、単語レベルの誤発音の確率を推定する。 第2のタスクでは、音素的に書き起こされたL1音声で訓練された音素認識器を使用し、容易にアクセスでき、自動的に注釈を付けることができる。 本研究では,L2ポーランド語話者のGUTアイルコーパスでは30%,L2ドイツ語話者とイタリア語話者のアイルコーパスでは21.5%の精度でAUCメトリックの単語レベルの発音誤りを検出する精度を向上させる。

We propose a weakly-supervised model for word-level mispronunciation detection in non-native (L2) English speech. To train this model, phonetically transcribed L2 speech is not required and we only need to mark mispronounced words. The lack of phonetic transcriptions for L2 speech means that the model has to learn only from a weak signal of word-level mispronunciations. Because of that and due to the limited amount of mispronounced L2 speech, the model is more likely to overfit. To limit this risk, we train it in a multi-task setup. In the first task, we estimate the probabilities of word-level mispronunciation. For the second task, we use a phoneme recognizer trained on phonetically transcribed L1 speech that is easily accessible and can be automatically annotated. Compared to state-of-the-art approaches, we improve the accuracy of detecting word-level pronunciation errors in AUC metric by 30% on the GUT Isle Corpus of L2 Polish speakers, and by 21.5% on the Isle Corpus of L2 German and Italian speakers.
翻訳日:2021-06-08 17:32:14 公開日:2021-06-07
# 逆強化学習における識別可能性

Identifiability in inverse reinforcement learning ( http://arxiv.org/abs/2106.03498v1 )

ライセンス: Link先を確認
Haoyang Cao, Samuel N. Cohen and Lukasz Szpruch(参考訳) 逆強化学習は,エージェント行動の観察を用いてマルコフ決定問題における報酬関数の再構成を試みる。 ラッセルが既に観察したように、問題は不適切であり、最適行動に関する完全な情報が存在する場合でも報酬関数は識別できない。 エントロピー正規化問題に対するこの非同一性に対する解決法を提案する。 与えられた環境に対して、与えられたポリシーに導かれる報酬関数を完全に特徴付け、同じ報酬に対する行動のデモを2つの異なる割引要因、あるいは十分に異なる環境下で行うと、観測されない報酬は一定まで回復できることを示す。 簡単な数値実験により,提案手法による報酬関数の正確な再構成を実証した。

Inverse reinforcement learning attempts to reconstruct the reward function in a Markov decision problem, using observations of agent actions. As already observed by Russell the problem is ill-posed, and the reward function is not identifiable, even under the presence of perfect information about optimal behavior. We provide a resolution to this non-identifiability for problems with entropy regularization. For a given environment, we fully characterize the reward functions leading to a given policy and demonstrate that, given demonstrations of actions for the same reward under two distinct discount factors, or under sufficiently different environments, the unobserved reward can be recovered up to a constant. Through a simple numerical experiment, we demonstrate the accurate reconstruction of the reward function through our proposed resolution.
翻訳日:2021-06-08 17:31:57 公開日:2021-06-07
# 平滑性を考慮した量子化技術

Smoothness-Aware Quantization Techniques ( http://arxiv.org/abs/2106.03524v1 )

ライセンス: Link先を確認
Bokun Wang, Mher Safaryan, Peter Richt\'arik(参考訳) 分散機械学習は、大規模な教師付き機械学習モデルのトレーニングに欠かせないツールとなっている。 現代のハイパフォーマンスモデルが一般的に過剰パラメータ化されているという事実によりさらに悪化する分散トレーニングの高コミュニケーションコストに対処するため、近年、スパーシフィケーションや量子化といった様々な圧縮戦略の設計や、それらを使用する最適化アルゴリズムに多くの作業が費やされている。 最近、Safaryan et al (2021) は、局所的なトレーニングデータを用いて局所的な滑らか度行列を形成するという、劇的に異なる圧縮設計アプローチを開拓し、次に、その滑らか度情報を活用できる圧縮機の設計を提案する。 この新しいアプローチは通信の大幅な節約につながるが、圧縮演算子の線形性に大きく依存するため、スパーシフィケーションに限定される。 本研究では,その平滑性を考慮した圧縮戦略を任意の非バイアス圧縮演算子に拡張することで,この問題を解消する。 その結果を量子化に特化することで、標準量子化と比較して通信複雑性の大幅な削減が観察できる。 特に、n$ブロックのブロック量子化は単一のブロック量子化よりも優れており、通信の複雑さを$\mathcal{o}(n)$因子で減少させ、ここで$n$は分散システムのノード数である。 最後に,我々のスムーズネス対応量子化戦略が既存の量子化スキームを上回り,上記のスムーズネス対応スペーシフィケーション戦略が関連するすべての成功策 – イテレーション数,通信ビットの総量,壁時計時間 – に対して優れていることを示す。

Distributed machine learning has become an indispensable tool for training large supervised machine learning models. To address the high communication costs of distributed training, which is further exacerbated by the fact that modern highly performing models are typically overparameterized, a large body of work has been devoted in recent years to the design of various compression strategies, such as sparsification and quantization, and optimization algorithms capable of using them. Recently, Safaryan et al (2021) pioneered a dramatically different compression design approach: they first use the local training data to form local {\em smoothness matrices}, and then propose to design a compressor capable of exploiting the smoothness information contained therein. While this novel approach leads to substantial savings in communication, it is limited to sparsification as it crucially depends on the linearity of the compression operator. In this work, we resolve this problem by extending their smoothness-aware compression strategy to arbitrary unbiased compression operators, which also includes sparsification. Specializing our results to quantization, we observe significant savings in communication complexity compared to standard quantization. In particular, we show theoretically that block quantization with $n$ blocks outperforms single block quantization, leading to a reduction in communication complexity by an $\mathcal{O}(n)$ factor, where $n$ is the number of nodes in the distributed system. Finally, we provide extensive numerical evidence that our smoothness-aware quantization strategies outperform existing quantization schemes as well the aforementioned smoothness-aware sparsification strategies with respect to all relevant success measures: the number of iterations, the total amount of bits communicated, and wall-clock time.
翻訳日:2021-06-08 17:31:45 公開日:2021-06-07
# SizeFlags:ファッションEコマースにおけるサイズとフィット関連リターンの削減

SizeFlags: Reducing Size and Fit Related Returns in Fashion E-Commerce ( http://arxiv.org/abs/2106.03532v1 )

ライセンス: Link先を確認
Andrea Nestler, Nour Karessli, Karl Hajjar, Rodrigo Weffer, Reza Shirvany(参考訳) 電子商取引は前例のないペースで成長しており、ファッション業界は最近、顧客の注文行動がより強力なオンラインショッピングへと顕著に変化しているのを目撃している。 しかし、オンラインで注文されたファッション記事は、必ずしも顧客のワードローブへの道を見つけるとは限らない。 実際、その大多数が返却されることになる。 オンラインにフィットする服を見つけることは非常に困難で、ファッションeコマースにおけるリターン率の上昇の主な要因の1つだ。 サイズと適合性による利益は,1.顧客体験とオンラインショッピングに対する不満,2.カーボンフットプリントの増加による環境,3.オンラインファッションプラットフォームの収益性に大きく影響する。 適合性が悪いため、顧客は好んではいるものの適合しない記事を返却し、異なるサイズで再注文しなければならない場合が多い。 この問題に対処するために、顧客からの弱い注釈付き大規模データに基づく確率ベイズモデルであるSizeFlagsを紹介します。 ベイジアンフレームワークの利点を生かして、人間の専門家からのフィードバックとコンピュータビジョンインテリジェンスのリッチプリエントをうまく統合できるようにモデルを拡張します。 大規模な実験,大規模A/Bテスト,生産モデルの継続的な評価を通じて,14か国にわたるオンラインファッションにおけるサイズ関連リターンの堅牢化に対する提案手法の強い影響を実証した。

E-commerce is growing at an unprecedented rate and the fashion industry has recently witnessed a noticeable shift in customers' order behaviour towards stronger online shopping. However, fashion articles ordered online do not always find their way to a customer's wardrobe. In fact, a large share of them end up being returned. Finding clothes that fit online is very challenging and accounts for one of the main drivers of increased return rates in fashion e-commerce. Size and fit related returns severely impact 1. the customers experience and their dissatisfaction with online shopping, 2. the environment through an increased carbon footprint, and 3. the profitability of online fashion platforms. Due to poor fit, customers often end up returning articles that they like but do not fit them, which they have to re-order in a different size. To tackle this issue we introduce SizeFlags, a probabilistic Bayesian model based on weakly annotated large-scale data from customers. Leveraging the advantages of the Bayesian framework, we extend our model to successfully integrate rich priors from human experts feedback and computer vision intelligence. Through extensive experimentation, large-scale A/B testing and continuous evaluation of the model in production, we demonstrate the strong impact of the proposed approach in robustly reducing size-related returns in online fashion over 14 countries.
翻訳日:2021-06-08 17:31:17 公開日:2021-06-07
# ネットワーク神経科学におけるグラフニューラルネットワーク

Graph Neural Networks in Network Neuroscience ( http://arxiv.org/abs/2106.03535v1 )

ライセンス: Link先を確認
Alaa Bessadok, Mohamed Ali Mahjoub and Islem Rekik(参考訳) 非侵襲的な医療用ニューロイメージングは、脳の接続性に関する多くの発見をもたらした。 形態学的、構造的、機能的な脳の結合性をマッピングするいくつかの重要な技術が開発され、人間の脳内の神経活動の包括的なロードマップ、すなわち脳グラフが作られた。 非ユークリッドデータ型に依存するグラフニューラルネットワーク(gnn)は、ディープグラフ構造を学ぶための巧妙な方法を提供すると同時に、さまざまなネットワークニューロサイエンスタスクのパフォーマンス向上につながる最先端技術になりつつある。 ここでは、現在のGNNベースの手法を概観し、脳グラフ合成の欠如や疾患分類など、脳グラフに関連するいくつかのアプリケーションで使用されている方法について述べる。 神経疾患の診断と集団グラフ統合のためのネットワーク神経科学分野におけるGNNモデルのより良い応用に向けての道筋をグラフ化して結論付ける。 私たちの研究で引用された論文のリストはhttps://github.com/b asiralab/GNNs-in-Net work-Neuroscience.co mで公開されている。

Noninvasive medical neuroimaging has yielded many discoveries about the brain connectivity. Several substantial techniques mapping morphological, structural and functional brain connectivities were developed to create a comprehensive road map of neuronal activities in the human brain -namely brain graph. Relying on its non-Euclidean data type, graph neural network (GNN) provides a clever way of learning the deep graph structure and it is rapidly becoming the state-of-the-art leading to enhanced performance in various network neuroscience tasks. Here we review current GNN-based methods, highlighting the ways that they have been used in several applications related to brain graphs such as missing brain graph synthesis and disease classification. We conclude by charting a path toward a better application of GNN models in network neuroscience field for neurological disorder diagnosis and population graph integration. The list of papers cited in our work is available at https://github.com/b asiralab/GNNs-in-Net work-Neuroscience.
翻訳日:2021-06-08 17:30:53 公開日:2021-06-07
# 適応非線形制御と予測のためのランダム特徴

Random features for adaptive nonlinear control and prediction ( http://arxiv.org/abs/2106.03589v1 )

ライセンス: Link先を確認
Nicholas M. Boffi, Stephen Tu, Jean-Jacques E. Slotine(参考訳) 非線形系に対する適応制御の理論における重要な仮定は、系の不確かさが既知の基底関数の集合の線型スパンで表現できるということである。 この仮定は効率的なアルゴリズムをもたらすが、実際にそれを検証することは、特に複雑なシステムでは難しい。 ここでは、カーネルヒルベルト空間、ランダムフーリエ特徴、普遍近似理論との接続を利用して、線形パラメータ化未知数に依存しない適応制御と適応予測の両方のための計算可能なアルゴリズムを提案する。 具体的には、$\textit{random}$基底関数の有限展開で未知のダイナミクスを近似し、所望の軌道を高い確率で追跡するのに必要なランダムな特徴の数を明示的に保証する。 驚くべきことに、明示的な境界はシステムの基礎となるパラメータに$\textit{polynomially}$しか依存せず、提案するアルゴリズムは効率的に高次元システムへ拡張できる。 本研究では,未知のダイナミクスを,システムの利用可能な物理的知識を通じてモデル化可能なコンポーネントと,再現されたカーネルヒルベルト空間に居住するコンポーネントに分割する。 我々のアルゴリズムは、物理基底関数とランダム特徴を同時にパラメータに適応させ、ダイナミクスの両コンポーネントをオンライン上で学習する。

A key assumption in the theory of adaptive control for nonlinear systems is that the uncertainty of the system can be expressed in the linear span of a set of known basis functions. While this assumption leads to efficient algorithms, verifying it in practice can be difficult, particularly for complex systems. Here we leverage connections between reproducing kernel Hilbert spaces, random Fourier features, and universal approximation theory to propose a computationally tractable algorithm for both adaptive control and adaptive prediction that does not rely on a linearly parameterized unknown. Specifically, we approximate the unknown dynamics with a finite expansion in $\textit{random}$ basis functions, and provide an explicit guarantee on the number of random features needed to track a desired trajectory with high probability. Remarkably, our explicit bounds only depend $\textit{polynomially}$ on the underlying parameters of the system, allowing our proposed algorithms to efficiently scale to high-dimensional systems. We study a setting where the unknown dynamics splits into a component that can be modeled through available physical knowledge of the system and a component that lives in a reproducing kernel Hilbert space. Our algorithms simultaneously adapt over parameters for physical basis functions and random features to learn both components of the dynamics online.
翻訳日:2021-06-08 17:30:39 公開日:2021-06-07
# 直接フィードバックアライメントを用いたフォトニック微分プライバシー

Photonic Differential Privacy with Direct Feedback Alignment ( http://arxiv.org/abs/2106.03645v1 )

ライセンス: Link先を確認
Ruben Ohana, Hamlet J. Medina Ruiz, Julien Launay, Alessandro Cappelli, Iacopo Poli, Liva Ralaivola, Alain Rakotomamonjy(参考訳) 大規模ランダムプロジェクション専用の低消費電力フォトニックチップである光処理ユニット(OPUs)は、バックプロパゲーションの効果的な代替手段であるダイレクトフィードバックアライメント(DFA)を使用してディープニューラルネットワークのトレーニングに使用されている。 本稿では,光ランダム射影の固有ノイズを生かして差動的にプライベートなdfa機構を構築する方法を示し,opusをプライベート・バイ・デザインのトレーニングとして選択する。 適応型プライバシ機構の理論解析を行い、光学ランダムプロジェクションのノイズがどのように伝播するかを慎重に測定し、証明可能な微分プライバシを生み出す。 最後に,エンドタスクのパフォーマンス向上のための学習手順の実証実験を行った。

Optical Processing Units (OPUs) -- low-power photonic chips dedicated to large scale random projections -- have been used in previous work to train deep neural networks using Direct Feedback Alignment (DFA), an effective alternative to backpropagation. Here, we demonstrate how to leverage the intrinsic noise of optical random projections to build a differentially private DFA mechanism, making OPUs a solution of choice to provide a private-by-design training. We provide a theoretical analysis of our adaptive privacy mechanism, carefully measuring how the noise of optical random projections propagates in the process and gives rise to provable Differential Privacy. Finally, we conduct experiments demonstrating the ability of our learning procedure to achieve solid end-task performance.
翻訳日:2021-06-08 17:30:17 公開日:2021-06-07
# ラフ2次元マップを用いた新しい環境における階層型ロボットナビゲーション

Hierarchical Robot Navigation in Novel Environments using Rough 2-D Maps ( http://arxiv.org/abs/2106.03665v1 )

ライセンス: Link先を確認
Chengguang Xu, Christopher Amato, Lawson L.S. Wong(参考訳) ロボットナビゲーションでは、見えない環境に素早く一般化することが不可欠である。 人間のナビゲーションにインスパイアされた階層的手法が提案されており、典型的にはハイレベルランドマークプロポーザルと低レベルコントローラで構成されている。 しかし、これらの手法は事前に与えられた正確な高レベル情報を必要とするか、環境との広範囲な相互作用からそのようなガイダンスを構築する必要がある。 そこで本研究では,環境の粗い2次元マップを利用して,学習を必要とせず,新しい環境をナビゲートする手法を提案する。 特に,大まかな2次元マップから初期化できる動的トポロジカルマップと,スタート地点とゴール地点の間の中間ランドマークの到達可能な2次元マップパッチを提案する高レベルな計画手法を導入する。 提案する2次元パッチを用いた深部生成モデルを用いて,低レベル目標条件強化学習のサブゴールとして使用される観測空間における中間ランドマークを生成する。 重要なのは、低レベルのコントローラはローカルな振る舞い(例えば)でのみトレーニングされるからです。 既存の環境の交差点を横切り、左に曲がる) このフレームワークは、粗い2dマップのみを与えられた新しい環境に一般化できます。 実測環境と新鮮環境の両方において,提案手法の有効性を示す実験結果が得られた。

In robot navigation, generalizing quickly to unseen environments is essential. Hierarchical methods inspired by human navigation have been proposed, typically consisting of a high-level landmark proposer and a low-level controller. However, these methods either require precise high-level information to be given in advance or need to construct such guidance from extensive interaction with the environment. In this work, we propose an approach that leverages a rough 2-D map of the environment to navigate in novel environments without requiring further learning. In particular, we introduce a dynamic topological map that can be initialized from the rough 2-D map along with a high-level planning approach for proposing reachable 2-D map patches of the intermediate landmarks between the start and goal locations. To use proposed 2-D patches, we train a deep generative model to generate intermediate landmarks in observation space which are used as subgoals by low-level goal-conditioned reinforcement learning. Importantly, because the low-level controller is only trained with local behaviors (e.g. go across the intersection, turn left at a corner) on existing environments, this framework allows us to generalize to novel environments given only a rough 2-D map, without requiring further learning. Experimental results demonstrate the effectiveness of the proposed framework in both seen and novel environments.
翻訳日:2021-06-08 17:30:02 公開日:2021-06-07
# 無線RFセンシングのための反復重み付けADMMの深部展開

Deep Unfolding of Iteratively Reweighted ADMM for Wireless RF Sensing ( http://arxiv.org/abs/2106.03686v1 )

ライセンス: Link先を確認
Udaya S.K.P. Miriya Thanthrige, Peter Jung, and Aydin Sezgin(参考訳) 本稿では,mimo(compressive sensing based multiple-output)無線レーダを用いて,層状材料構造の内部に存在する材料欠陥の検出について述べる。 ここでは、層状構造物の表面の反射による強い乱れが、しばしば欠陥の検出を困難にしている。 したがって、欠陥検出の改善には高度な信号分離法が必要である。 多くのシナリオでは、私たちが関心を持つ欠陥の数は限られており、階層構造のシグナル応答は低ランク構造としてモデル化できる。 そこで我々は,欠陥検出のための関節位と空間最小化を提案する。 特に, 繰り返し重み付けされた核と$\ell_1-$norm(二重重み付けアプローチ)に基づく非凸アプローチを提案し, 従来の核ノルムや$\ell_1-$normの最小化よりも高い精度を得る。 この目的のために、低ランクでスパースな貢献を見積もる反復アルゴリズムが設計されている。 さらに,アルゴリズムの精度と収束速度を改善するために,アルゴリズムのパラメータ(すなわち,展開するアルゴリズム)を学習する深層学習を提案する。 提案手法は, 回収した低ランクおよびスパース成分の平均二乗誤差と収束速度において, 従来の手法よりも優れていることを示す。

We address the detection of material defects, which are inside a layered material structure using compressive sensing based multiple-output (MIMO) wireless radar. Here, the strong clutter due to the reflection of the layered structure's surface often makes the detection of the defects challenging. Thus, sophisticated signal separation methods are required for improved defect detection. In many scenarios, the number of defects that we are interested in is limited and the signaling response of the layered structure can be modeled as a low-rank structure. Therefore, we propose joint rank and sparsity minimization for defect detection. In particular, we propose a non-convex approach based on the iteratively reweighted nuclear and $\ell_1-$norm (a double-reweighted approach) to obtain a higher accuracy compared to the conventional nuclear norm and $\ell_1-$norm minimization. To this end, an iterative algorithm is designed to estimate the low-rank and sparse contributions. Further, we propose deep learning to learn the parameters of the algorithm (i.e., algorithm unfolding) to improve the accuracy and the speed of convergence of the algorithm. Our numerical results show that the proposed approach outperforms the conventional approaches in terms of mean square errors of the recovered low-rank and sparse components and the speed of convergence.
翻訳日:2021-06-08 17:29:40 公開日:2021-06-07
# 教師なし・強化学習を統合した脳皮質における表現学習の計算モデル

A Computational Model of Representation Learning in the Brain Cortex, Integrating Unsupervised and Reinforcement Learning ( http://arxiv.org/abs/2106.03688v1 )

ライセンス: Link先を確認
Giovanni Granato, Emilio Cartoni, Federico Da Rold, Andrea Mattera, Gianluca Baldassarre(参考訳) 脳学習プロセスに関する一般的な見解では、脳皮質、基底ガングリア、小脳の3つの古典的な学習パラダイム(教師なし、強化、および教師付き)がそれぞれ行われることを示唆している。 しかし、通常報酬を符号化すると考えられているドーパミンアウトバーストは基底神経節に限らず、前頭前野、運動、高次感覚皮質にまで達する。 また, 大脳皮質では, 同じ報酬に基づく試行錯誤プロセスが運動表現の獲得だけでなく, 感覚表現の獲得も支持できる可能性が示唆された。 特に、報奨信号は、連想学習プロセスと混在する試行錯誤プロセスを誘導し、下流での行動選択に役立てる表現の獲得を支援する。 この仮説の健全性について,教師なし学習(contrastive divergence)と強化学習(reinforce)を統合した計算モデルを用いて検証した。 モデルは、色、形状、サイズを含むカテゴリにグループ化された異なる視覚イメージに対する異なる応答を必要とするタスクでテストされた。 その結果、教師なしと強化学習のバランスの取れた混合が、最高のパフォーマンスをもたらすことが示された。 実際、過剰な教師なし学習はタスク関連の特徴を過度に表現する傾向にあり、一方過剰な強化学習は最初はゆっくりと学習し、その後は局所的なミニマで発生する傾向にある。 これらの結果は, 外来視覚皮質における類似効果の検討を指向した, カテゴリー学習の今後の経験的研究を刺激する。 さらに、教師なしおよび強化学習プロセスを統合することの可能な利点を研究するために、さらに計算的な調査が進められている。

A common view on the brain learning processes proposes that the three classic learning paradigms -- unsupervised, reinforcement, and supervised -- take place in respectively the cortex, the basal-ganglia, and the cerebellum. However, dopamine outbursts, usually assumed to encode reward, are not limited to the basal ganglia but also reach prefrontal, motor, and higher sensory cortices. We propose that in the cortex the same reward-based trial-and-error processes might support not only the acquisition of motor representations but also of sensory representations. In particular, reward signals might guide trial-and-error processes that mix with associative learning processes to support the acquisition of representations better serving downstream action selection. We tested the soundness of this hypothesis with a computational model that integrates unsupervised learning (Contrastive Divergence) and reinforcement learning (REINFORCE). The model was tested with a task requiring different responses to different visual images grouped in categories involving either colour, shape, or size. Results show that a balanced mix of unsupervised and reinforcement learning processes leads to the best performance. Indeed, excessive unsupervised learning tends to under-represent task-relevant features while excessive reinforcement learning tends to initially learn slowly and then to incur in local minima. These results stimulate future empirical studies on category learning directed to investigate similar effects in the extrastriate visual cortices. Moreover, they prompt further computational investigations directed to study the possible advantages of integrating unsupervised and reinforcement learning processes.
翻訳日:2021-06-08 17:29:18 公開日:2021-06-07
# up and conquer: 成長グラフ上でのトレーニンググラフニューラルネットワーク

Increase and Conquer: Training Graph Neural Networks on Growing Graphs ( http://arxiv.org/abs/2106.03693v1 )

ライセンス: Link先を確認
Juan Cervino, Luana Ruiz and Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(GNN)は、ネットワーク不変性を利用したグラフ畳み込みを使用して、ネットワークデータから意味のある特徴を学習する。 しかし、大規模グラフの畳み込みは高い計算コストを伴い、スケーラビリティの限界をもたらす。 本稿では、グラフの極限オブジェクトであるgraphonを利用して、gnnの限界オブジェクトであるgraphon neural network(wnn)を学習する問題を、graphonからベルヌーイをサンプリングしたグラフ上でgnnをトレーニングすることで検討する。 平滑性条件下では, (i) gnn上の学習ステップとwnn上の学習ステップとの間の期待距離は, グラフの大きさと漸近的に減少し, (ii) 成長グラフのシーケンスでトレーニングすると, 勾配降下はwnnの学習方向に従う。 これらの結果に触発されて,中程度のノード数から,トレーニング中にグラフのサイズを順次増加させる大規模グラフ上でgnnを学習する新しいアルゴリズムを提案する。 このアルゴリズムは推奨システムと分散制御の問題の両方でベンチマークされ、計算コストを削減した大規模システムと比較して、同等の性能を維持することが示されている。

Graph neural networks (GNNs) use graph convolutions to exploit network invariances and learn meaningful features from network data. However, on large-scale graphs convolutions incur in high computational cost, leading to scalability limitations. Leveraging the graphon -- the limit object of a graph -- in this paper we consider the problem of learning a graphon neural network (WNN) -- the limit object of a GNN -- by training GNNs on graphs sampled Bernoulli from the graphon. Under smoothness conditions, we show that: (i) the expected distance between the learning steps on the GNN and on the WNN decreases asymptotically with the size of the graph, and (ii) when training on a sequence of growing graphs, gradient descent follows the learning direction of the WNN. Inspired by these results, we propose a novel algorithm to learn GNNs on large-scale graphs that, starting from a moderate number of nodes, successively increases the size of the graph during training. This algorithm is benchmarked on both a recommendation system and a decentralized control problem where it is shown to retain comparable performance, to its large-scale counterpart, at a reduced computational cost.
翻訳日:2021-06-08 17:28:50 公開日:2021-06-07
# Concave Utility Reinforcement Learning: the Mean-field Game perspective

Concave Utility Reinforcement Learning: the Mean-field Game viewpoint ( http://arxiv.org/abs/2106.03787v1 )

ライセンス: Link先を確認
Matthieu Geist, Julien P\'erolat, Mathieu Lauri\`ere, Romuald Elie, Sarah Perrin, Olivier Bachem, R\'emi Munos, Olivier Pietquin(参考訳) Concave Utility Reinforcement Learning (CURL) は、エージェントのポリシーによって引き起こされる占有度測定において、線形から凹凸ユーティリティまでRLを拡張する。 これはRLだけでなく、模倣学習や探索も含んでいる。 しかし、このより一般的なパラダイムは古典的なベルマン方程式を無効化し、新しいアルゴリズムを要求する。 平均場ゲーム (MFGs) は多エージェントRLの連続近似である。 彼らは、同一のエージェントの連続分布の極限ケースを、対称的な利害と無関係に考慮し、問題を全集団と相互作用する単一の代表エージェントの研究に還元する。 私たちのコアコントリビューションは、CURLがMFGのサブクラスであることを示すことです。 これは両方のコミュニティを橋渡しする上で重要だと考えています。 また、CURLの凹凸と関連するMFGの単調性の間の等価性、CURLの最適条件とMFGのナッシュ平衡の間の最適性、あるいはこのMFGのクラスに対する有限プレイ(FP)は単にフランク=ウルフであり、MFGの離散時間FPに対する最初の収束率をもたらす。 また、最近導入されたアルゴリズムを用いて、より効率的にCURL問題に対処できることを実験的に実証した。

Concave Utility Reinforcement Learning (CURL) extends RL from linear to concave utilities in the occupancy measure induced by the agent's policy. This encompasses not only RL but also imitation learning and exploration, among others. Yet, this more general paradigm invalidates the classical Bellman equations, and calls for new algorithms. Mean-field Games (MFGs) are a continuous approximation of many-agent RL. They consider the limit case of a continuous distribution of identical agents, anonymous with symmetric interests, and reduce the problem to the study of a single representative agent in interaction with the full population. Our core contribution consists in showing that CURL is a subclass of MFGs. We think this important to bridge together both communities. It also allows to shed light on aspects of both fields: we show the equivalence between concavity in CURL and monotonicity in the associated MFG, between optimality conditions in CURL and Nash equilibrium in MFG, or that Fictitious Play (FP) for this class of MFGs is simply Frank-Wolfe, bringing the first convergence rate for discrete-time FP for MFGs. We also experimentally demonstrate that, using algorithms recently introduced for solving MFGs, we can address the CURL problem more efficiently.
翻訳日:2021-06-08 17:28:26 公開日:2021-06-07
# 汎用コストによるmongeマップのスケーラブルな計算

Scalable Computation of Monge Maps with General Costs ( http://arxiv.org/abs/2106.03812v1 )

ライセンス: Link先を確認
Jiaojiao Fan, Shu Liu, Shaojun Ma, Yongxin Chen, Haomin Zhou(参考訳) モンジュ写像は、2つの確率分布の間の最適な輸送写像を示し、ある分布を別の分布に変換するための原理的アプローチを提供する。 最適輸送問題に対する数値的手法の急速な発展にもかかわらず、特に高次元問題において、モンジュ写像の計算は依然として困難である。 本稿では,2つの確率分布間のMongeマップをスケーラブルに計算するアルゴリズムを提案する。 我々のアルゴリズムは最適輸送問題の弱い形式に基づいており、解析式の代わりに限界からのサンプルしか必要とせず、異なる次元の2つの分布間の最適な輸送に適応できる。 本アルゴリズムは一般費用関数に適しており, 従来のサンプルを用いたモンジュマップ推定法と比較して, 通常は二次コストに適合する。 アルゴリズムの性能は、合成データと実データの両方を用いて一連の実験によって実証される。

Monge map refers to the optimal transport map between two probability distributions and provides a principled approach to transform one distribution to another. In spite of the rapid developments of the numerical methods for optimal transport problems, computing the Monge maps remains challenging, especially for high dimensional problems. In this paper, we present a scalable algorithm for computing the Monge map between two probability distributions. Our algorithm is based on a weak form of the optimal transport problem, thus it only requires samples from the marginals instead of their analytic expressions, and can accommodate optimal transport between two distributions with different dimensions. Our algorithm is suitable for general cost functions, compared with other existing methods for estimating Monge maps using samples, which are usually for quadratic costs. The performance of our algorithms is demonstrated through a series of experiments with both synthetic and realistic data.
翻訳日:2021-06-08 17:28:03 公開日:2021-06-07
# 音楽ストリーミングアプリにおける半パーソナライズされたユーザコールドスタート勧告システム

A Semi-Personalized System for User Cold Start Recommendation on Music Streaming Apps ( http://arxiv.org/abs/2106.03819v1 )

ライセンス: Link先を確認
L\'ea Briand and Guillaume Salha-Galvan and Walid Bendada and Mathieu Morlon and Viet-Anh Tran(参考訳) 音楽ストリーミングサービスは、大きな音楽カタログをナビゲートし、新しい曲、アルバム、アーティストを見つけるのを助けることで、ユーザー体験を改善するためにレコメンダシステムに大きく依存している。 しかし、関連性がありパーソナライズされたコンテンツを新しいユーザーに推薦することは、カタログとのやりとりがほとんど、あるいは全くない。 これをユーザコールドスタート問題と呼ぶのが一般的である。 本稿では,音楽ストリーミングサービスdeezerに最近導入したシステムについて紹介する。 このソリューションは、ディープニューラルネットワークアーキテクチャと、異種情報ソースからのユーザのクラスタリングに基づく、半個人化されたレコメンデーション戦略を活用する。 本システムは,オフラインおよびオンラインの大規模実験を通じて,Deezer上でのコールドスタートユーザの将来の音楽嗜好を予測するための実用的効果と,その効果を広く示す。 さらに、実験から得られた匿名利用データだけでなく、コードも公開しています。 今後,この産業資源の公開が,寒冷開始推奨の今後の研究に役立つことを期待している。

Music streaming services heavily rely on recommender systems to improve their users' experience, by helping them navigate through a large musical catalog and discover new songs, albums or artists. However, recommending relevant and personalized content to new users, with few to no interactions with the catalog, is challenging. This is commonly referred to as the user cold start problem. In this applied paper, we present the system recently deployed on the music streaming service Deezer to address this problem. The solution leverages a semi-personalized recommendation strategy, based on a deep neural network architecture and on a clustering of users from heterogeneous sources of information. We extensively show the practical impact of this system and its effectiveness at predicting the future musical preferences of cold start users on Deezer, through both offline and online large-scale experiments. Besides, we publicly release our code as well as anonymized usage data from our experiments. We hope that this release of industrial resources will benefit future research on user cold start recommendation.
翻訳日:2021-06-08 17:27:50 公開日:2021-06-07
# Stateful Strategic Regression

Stateful Strategic Regression ( http://arxiv.org/abs/2106.03827v1 )

ライセンス: Link先を確認
Keegan Harris, Hoda Heidari, Zhiwei Steven Wu(参考訳) 自動意思決定ツールは、高リスクの機会に適するかどうかを判断する個人をますます評価します。 近年の研究では、戦略的エージェントが評価を受けるための評価ツールにどのように反応するかが研究されている。 従来,意思決定機関(プリンシパルとしてモデル化)と個別意思決定対象(エージェントとしてモデル化)の短期的戦略的相互作用に注目してきたが,複数の時間ステップにまたがる相互作用について検討した。 特に、現在エージェントの努力投資が内部状態の形で時間の経過とともに蓄積されるような設定が、彼の将来の報酬とプリンシパルの報酬の両方に影響を及ぼすと考えている。 結果のゲームのスタックルバーグ平衡を特徴付け、計算のための新しいアルゴリズムを提供する。 第一に、私たちのステートフルな設定では、すべての線形評価ポリシーのクラスは、すべての単調評価ポリシーのより大きなクラスと同じくらい強力であることを確立します。 非凸最適化問題を解く必要のあるプリンシパルの最適ポリシーを回復する一方で、作業投資が観測可能な特徴に転換するプロセスに関する共通前提の下で、プリンシパルとエージェントの最適ポリシーを回復するための多項式時アルゴリズムを提供する。 最も重要なことは、複数のインタラクションを自由に行うことで、プリンシパルがエージェントに望ましい方向に努力を蓄積させるインセンティブをより効果的に行うことを示します。 我々の研究は、個人が時間とともに受ける決定の複雑な性質を考慮し、より長い時間的地平に焦点をあてることで、自動意思決定の社会的影響に関する文献の増大におけるいくつかの重要なギャップに対処します。

Automated decision-making tools increasingly assess individuals to determine if they qualify for high-stakes opportunities. A recent line of research investigates how strategic agents may respond to such scoring tools to receive favorable assessments. While prior work has focused on the short-term strategic interactions between a decision-making institution (modeled as a principal) and individual decision-subjects (modeled as agents), we investigate interactions spanning multiple time-steps. In particular, we consider settings in which the agent's effort investment today can accumulate over time in the form of an internal state - impacting both his future rewards and that of the principal. We characterize the Stackelberg equilibrium of the resulting game and provide novel algorithms for computing it. Our analysis reveals several intriguing insights about the role of multiple interactions in shaping the game's outcome: First, we establish that in our stateful setting, the class of all linear assessment policies remains as powerful as the larger class of all monotonic assessment policies. While recovering the principal's optimal policy requires solving a non-convex optimization problem, we provide polynomial-time algorithms for recovering both the principal and agent's optimal policies under common assumptions about the process by which effort investments convert to observable features. Most importantly, we show that with multiple rounds of interaction at her disposal, the principal is more effective at incentivizing the agent to accumulate effort in her desired direction. Our work addresses several critical gaps in the growing literature on the societal impacts of automated decision-making - by focusing on longer time horizons and accounting for the compounding nature of decisions individuals receive over time.
翻訳日:2021-06-08 17:27:33 公開日:2021-06-07
# 3次元高分子構造のための等価なグラフニューラルネットワーク

Equivariant Graph Neural Networks for 3D Macromolecular Structure ( http://arxiv.org/abs/2106.03843v1 )

ライセンス: Link先を確認
Bowen Jing, Stephan Eismann, Pratham N. Soni, Ron O. Dror(参考訳) マクロ分子の3d構造の表現と推論は、機械学習において明らかな課題として現れています。 本稿では,幾何ベクトルパーセプトロンに関する最近の研究を拡張し,構造生物学の幅広いタスクに等変グラフニューラルネットワークを適用する。 提案手法は,atom3dベンチマークで8タスク中4タスク中,すべての参照アーキテクチャを上回り,回転不変グラフニューラルネットワークを広範に改善する。 また,移動学習が高分子構造からの学習性能を向上させることを示す。

Representing and reasoning about 3D structures of macromolecules is emerging as a distinct challenge in machine learning. Here, we extend recent work on geometric vector perceptrons and apply equivariant graph neural networks to a wide range of tasks from structural biology. Our method outperforms all reference architectures on 4 out of 8 tasks in the ATOM3D benchmark and broadly improves over rotation-invariant graph neural networks. We also demonstrate that transfer learning can improve performance in learning from macromolecular structure.
翻訳日:2021-06-08 17:27:05 公開日:2021-06-07
# ディープニューラルネットワークによる画像・ビデオストリーミングシステムの強化:サーベイと今後の方向性

Deep Neural Network-based Enhancement for Image and Video Streaming Systems: A Survey and Future Directions ( http://arxiv.org/abs/2106.03727v1 )

ライセンス: Link先を確認
Royson Lee, Stylianos I. Venieris, Nicholas D. Lane(参考訳) インターネット対応のスマートフォンやウルトラワイドディスプレイは、オンデマンド映画や360{\deg}ビデオからビデオ会議やライブストリーミングまで、さまざまなビジュアルアプリを変えつつある。 しかしながら、多様な能力を持つデバイス上で変動するネットワーク条件下での視覚的コンテンツの堅牢な配信は、いまだに未解決の問題である。 近年,超解像や画像強調などのタスクにおける深層学習の進歩は,低品質の画像から高品質な画像を生成する上で,前例のないパフォーマンスをもたらしている。 本稿では,高速応答時間と高画質を実現する上で重要な要素としてニューラルエンハンスメントを用いた最先端コンテンツ配信システムについて検討する。 まず,既存のコンテンツ配信システムのコンポーネントとアーキテクチャを提示し,その課題を強調し,その対策としてニューラルエンハンスメントモデルの利用を動機づける。 次に、これらのモデルのデプロイメント課題を取り上げ、既存のシステムとその設計決定を分析し、これらの技術的課題を効率的に克服します。 さらに、多様なユースケースを対象とするシステム全体の主要なトレンドと共通アプローチを概説します。 最後に,deep learning researchの最新知見に基づいて,コンテンツ配信システムの体験の質をさらに高めるための今後の方向性を示す。

Internet-enabled smartphones and ultra-wide displays are transforming a variety of visual apps spanning from on-demand movies and 360{\deg} videos to video-conferencing and live streaming. However, robustly delivering visual content under fluctuating networking conditions on devices of diverse capabilities remains an open problem. In recent years, advances in the field of deep learning on tasks such as super-resolution and image enhancement have led to unprecedented performance in generating high-quality images from low-quality ones, a process we refer to as neural enhancement. In this paper, we survey state-of-the-art content delivery systems that employ neural enhancement as a key component in achieving both fast response time and high visual quality. We first present the components and architecture of existing content delivery systems, highlighting their challenges and motivating the use of neural enhancement models as a countermeasure. We then cover the deployment challenges of these models and analyze existing systems and their design decisions in efficiently overcoming these technical challenges. Additionally, we underline the key trends and common approaches across systems that target diverse use-cases. Finally, we present promising future directions based on the latest insights from deep learning research to further boost the quality of experience of content delivery systems.
翻訳日:2021-06-08 17:26:58 公開日:2021-06-07
# プログラムの単純化によるニューラルコードインテリジェンス理解

Understanding Neural Code Intelligence Through Program Simplification ( http://arxiv.org/abs/2106.03353v1 )

ライセンス: Link先を確認
Md Rafiqul Islam Rabin, Vincent J. Hellendoorn, Mohammad Amin Alipour(参考訳) 深層ニューラルネットワークを用いた幅広いコードインテリジェンス(ci)ツールが近年開発され,プログラム生産性の向上とプログラム解析が実現されている。 そのようなツールを確実に使用するには、開発者は基礎となるモデルの振る舞いとそれに影響する要因について考える必要がある。 これはディープニューラルネットワークが支援するツールにとって特に難しい。 様々な手法が「透明/解釈可能なAI」の静脈におけるこの不透明度を減らそうとしている。 しかし、これらのアプローチは、しばしば特定のネットワークアーキテクチャに特化しており、ネットワークのパラメータにアクセスする必要さえある。 これにより、平均的なプログラマでの使用が難しくなり、ニューラルCIシステムの信頼性が損なわれる。 本稿では,ソフトウェアデバッグ研究,特にデルタデバッギングを参考に,CIシステムにおけるモデルに対する重要な入力特徴を特定するための,シンプルなモデルに依存しないアプローチを提案する。 我々のアプローチであるSIVANDは、モデルの予測を保ちながらCIモデルの入力プログラムのサイズを縮小する単純化手法を用いています。 このアプローチは極めて小さな出力をもたらし、多くのモデルアーキテクチャや問題領域に広く適用可能であることを示す。 実験のモデルは、入力プログラムの構文的特徴にのみ依存することが多いことが分かりました。 SIVANDの抽出した特徴は、ニューラルCIシステムの予測と学習行動を理解するのに役立つと信じている。

A wide range of code intelligence (CI) tools, powered by deep neural networks, have been developed recently to improve programming productivity and perform program analysis. To reliably use such tools, developers often need to reason about the behavior of the underlying models and the factors that affect them. This is especially challenging for tools backed by deep neural networks. Various methods have tried to reduce this opacity in the vein of "transparent/interpre table-AI". However, these approaches are often specific to a particular set of network architectures, even requiring access to the network's parameters. This makes them difficult to use for the average programmer, which hinders the reliable adoption of neural CI systems. In this paper, we propose a simple, model-agnostic approach to identify critical input features for models in CI systems, by drawing on software debugging research, specifically delta debugging. Our approach, SIVAND, uses simplification techniques that reduce the size of input programs of a CI model while preserving the predictions of the model. We show that this approach yields remarkably small outputs and is broadly applicable across many model architectures and problem domains. We find that the models in our experiments often rely heavily on just a few syntactic features in input programs. We believe that SIVAND's extracted features may help understand neural CI systems' predictions and learned behavior.
翻訳日:2021-06-08 17:22:53 公開日:2021-06-07
# 有効抵抗推定のための局所アルゴリズム

Local Algorithms for Estimating Effective Resistance ( http://arxiv.org/abs/2106.03476v1 )

ライセンス: Link先を確認
Pan Peng, Daniel Lopatta, Yuichi Yoshida, Gramoz Goranci(参考訳) 有効抵抗はグラフ内の2つの頂点の類似性を測定する重要な指標である。 グラフクラスタリング、レコメンデーションシステム、ネットワーク信頼性などに応用されている。 効果的な抵抗の重要性にもかかわらず、巨大なグラフ上でそれらを正確に計算したり近似したりする効率的なアルゴリズムはいまだに欠けている。 本研究では,入力のごく一部だけを読み込むアルゴリズムであり,性能保証を保証できるアルゴリズムである,効率的な抵抗を推定するいくつかの \emph{local algorithms} を設計した。 説明するために、本アルゴリズムは任意の頂点対$s,t$と任意の小さな加法誤差$\varepsilon$ in time $o(\mathrm{poly}(\log n/\varepsilon))$の間の有効抵抗を近似する。 いくつかのベンチマークデータセットについて広範な実験を行い、アルゴリズムの性能を検証する。

Effective resistance is an important metric that measures the similarity of two vertices in a graph. It has found applications in graph clustering, recommendation systems and network reliability, among others. In spite of the importance of the effective resistances, we still lack efficient algorithms to exactly compute or approximate them on massive graphs. In this work, we design several \emph{local algorithms} for estimating effective resistances, which are algorithms that only read a small portion of the input while still having provable performance guarantees. To illustrate, our main algorithm approximates the effective resistance between any vertex pair $s,t$ with an arbitrarily small additive error $\varepsilon$ in time $O(\mathrm{poly}(\log n/\varepsilon))$, whenever the underlying graph has bounded mixing time. We perform an extensive empirical study on several benchmark datasets, validating the performance of our algorithms.
翻訳日:2021-06-08 17:22:35 公開日:2021-06-07
# ノード空間における未知偏微分方程式のディープニューラルネットワークモデリング

Deep Neural Network Modeling of Unknown Partial Differential Equations in Nodal Space ( http://arxiv.org/abs/2106.03603v1 )

ライセンス: Link先を確認
Zhen Chen, Victor Churchill, Kailiang Wu, Dongbin Xiu(参考訳) 本稿では,未知の時間依存偏微分方程式(PDE)の軌跡データを用いたディープニューラルネットワーク(DNN)モデリングのための数値的枠組みを提案する。 Wu と Xiu の最近の作品とは異なり、J. Comput である。 Phys 2020年]モーダル/フーリエ空間で学習が行われる場合,現在の手法では物理空間における学習とモデリングを行い,計測データをノーダル値として用いる。 本稿では、基礎となるPDEの進化演算子と直接対応するDNN構造を示し、DNNモデルの存在を確立する。 dnnモデルはまた、データノードの幾何学的情報を必要としない。 その結果、訓練されたDNNは、構造のないグリッド上の未知のPDEの予測モデルを定義する。 線形および非線形スカラーPDE, PDEのシステムを含む一次元および二次元の非構造格子を用いた一組の例を示し, 提案したDNNモデリングの有効性を実証する。 微分積分方程式のような他の方程式の拡張についても論じる。

We present a numerical framework for deep neural network (DNN) modeling of unknown time-dependent partial differential equations (PDE) using their trajectory data. Unlike the recent work of [Wu and Xiu, J. Comput. Phys. 2020], where the learning takes place in modal/Fourier space, the current method conducts the learning and modeling in physical space and uses measurement data as nodal values. We present a DNN structure that has a direct correspondence to the evolution operator of the underlying PDE, thus establishing the existence of the DNN model. The DNN model also does not require any geometric information of the data nodes. Consequently, a trained DNN defines a predictive model for the underlying unknown PDE over structureless grids. A set of examples, including linear and nonlinear scalar PDE, system of PDEs, in both one dimension and two dimensions, over structured and unstructured grids, are presented to demonstrate the effectiveness of the proposed DNN modeling. Extension to other equations such as differential-integra l equations is also discussed.
翻訳日:2021-06-08 17:22:18 公開日:2021-06-07
# 非平坦ゲインとノイズフィギュアを持つEDFAを用いたマルチスパン光通信システムのSNR最適化

SNR optimization of multi-span fiber optic communication systems employing EDFAs with non-flat gain and noise figure ( http://arxiv.org/abs/2106.03639v1 )

ライセンス: Link先を確認
Metodi Plamenov Yankov, Pawel Marcin Kaminski, Henrik Enggaard Hansen, Francesco Da Ros(参考訳) 光通信システムのスループット最適化は、現在の光ネットワークにとって重要な課題である。 ゲインフラット化フィルタ(GFF)の使用は、挿入損失、消費電力の増加、性能の低下といった問題を単純化する。 本研究では,snr(signal-to-noise )最適化のためのマルチスパン伝送システムのコンポーネントワイズモデルを提案する。 機械学習に基づくモデルは、gffのないcバンド増幅器の利得とノイズフィギュアのスペクトルプロファイルのために訓練される。 このモデルは、マルチスパン波長多重系の各チャネルにおけるsnrを予測するために、刺激ラマン散乱を含む光ファイバの非線形性に関するガウスノイズモデルと、バック・ツー・バックで測定された実装ペナルティスペクトルプロファイルとを組み合わせる。 システムモデルのすべての基本コンポーネントは微分可能であり、スパン数とスパンの長さの点で任意の構成のシステムの勾配降下に基づく最適化を可能にする。 入力電力プロファイルを1チャネル当たりのフラットかつ最大受信SNRに最適化すると、任意の3次元実験システムの最小性能を最大8dBw.r.tに向上させる。 フラットな入力パワープロファイルを持つシステム。 SNR平坦度を1.2dBまで同時に達成する。 モデルおよび最適化手法は、サンプルコアネットワークの性能を最適化するために使用され、利得0.2dbがw.r.tを示す。 非線形性を考慮していない解決策です この方法は、理想的な利得平坦化を持つシステムにも有用であり、利得w.r.tの0.3dBに達することが示されている。 フラットな入力パワープロファイル。

Throughput optimization of optical communication systems is a key challenge for current optical networks. The use of gain-flattening filters (GFFs) simplifies the problem at the cost of insertion loss, higher power consumption and potentially poorer performance. In this work, we propose a component wise model of a multi-span transmission system for signal-to-noise (SNR) optimization. A machine-learning based model is trained for the gain and noise figure spectral profile of a C-band amplifier without a GFF. The model is combined with the Gaussian noise model for nonlinearities in optical fibers including stimulated Raman scattering and the implementation penalty spectral profile measured in back-to-back in order to predict the SNR in each channel of a multi-span wavelength division multiplexed system. All basic components in the system model are differentiable and allow for the gradient descent-based optimization of a system of arbitrary configuration in terms of number of spans and length per span. When the input power profile is optimized for flat and maximized received SNR per channel, the minimum performance in an arbitrary 3-span experimental system is improved by up to 8 dB w.r.t. a system with flat input power profile. An SNR flatness down to 1.2 dB is simultaneously achieved. The model and optimization methods are used to optimize the performance of an example core network, and 0.2 dB of gain is shown w.r.t. solutions that do not take into account nonlinearities. The method is also shown to be beneficial for systems with ideal gain flattening, achieving up to 0.3 dB of gain w.r.t. a flat input power profile.
翻訳日:2021-06-08 17:22:02 公開日:2021-06-07
# アメーバのニューロン

Neurons on Amoebae ( http://arxiv.org/abs/2106.03695v1 )

ライセンス: Link先を確認
Jiakang Bao, Yang-Hui He, Edward Hirst(参考訳) 本研究では,ニューラルネットワーク,多様体学習,画像処理などの機械学習手法を適用し,代数幾何学や弦理論におけるアメーバの研究を行う。 埋め込み多様体射影の助けを借りて、いわゆるロッドサイドネスから得られる複雑な条件を復元する。 特定の場合(例) 正の係数がf_0$のlopsided amoebaは、$\sim99\%$精度に達するかもしれない。 重みとバイアスを用いて、計算コストの低いアメーバの属を決定するのに良い近似を求める。 一般に、このモデルは90\%$の確率で容易に種を予測できた。 同様の手法で会員問題についても検討する。

We apply methods of machine-learning, such as neural networks, manifold learning and image processing, in order to study amoebae in algebraic geometry and string theory. With the help of embedding manifold projection, we recover complicated conditions obtained from so-called lopsidedness. For certain cases (e.g. lopsided amoeba with positive coefficients for $F_0$), it could even reach $\sim99\%$ accuracy. Using weights and biases, we also find good approximations to determine the genus for an amoeba at lower computational cost. In general, the models could easily predict the genus with over $90\%$ accuracies. With similar techniques, we also investigate the membership problem.
翻訳日:2021-06-08 17:21:35 公開日:2021-06-07
# ディープラーニング重力波探索のための学習戦略

Training Strategies for Deep Learning Gravitational-Wave Searches ( http://arxiv.org/abs/2106.03741v1 )

ライセンス: Link先を確認
Marlin B. Sch\"afer (1 and 2), Ond\v{r}ej Zelenka (3 and 4), Alexander H. Nitz (1 and 2), Frank Ohme (1 and 2), Bernd Br\"ugmann (3 and 4) ((1) Max-Planck-Institut f\"ur Gravitationsphysik (Albert-Einstein-Ins titut), (2) Leibniz Universit\"at Hannover, (3) Friedrich-Schiller-U niversit\"at Jena, (4) Michael Stifel Center Jena)(参考訳) 小型のバイナリシステムは、現在の地球境界検出器で検出可能な重力放射を放出する。 これらの信号を楽器の背景雑音から抽出することは複雑な問題であり、現在の検索の計算コストはソースモデルの複雑さに依存する。 ディープラーニングは、現在のアルゴリズムが計算限界に達する信号を見つけることができる。 ここでは、スピンしない二進ブラックホールからの信号に分析を限定し、ネットワークにトレーニングデータを提示する異なる戦略を体系的にテストする。 トレーニング戦略の影響を評価するために、最初の公開ネットワークを再分析し、それらを同等のマッチングフィルタ検索と直接比較する。 深層学習アルゴリズムは低信号-雑音比(SNR)信号を高SNR信号に一般化できるが、その逆はできない。 そのため、訓練中に高いSNR信号を提供することは有益ではなく、低いSNRサンプルが早期に提供されると、最も速い収束が達成される。 テスト中、偽のアラーム確率が$<10^{-3}$である場合、ネットワークはいかなる信号も回復できないことがあることがわかった。 この制限は、トレーニング後にunbounded Softmax replacement (USR) と呼ぶ修正を適用して解決する。 この変更により、機械学習検索は、マッチングされたフィルタの感度の$\geq 97.5\%$を月1の偽アラームレートまで維持することがわかった。

Compact binary systems emit gravitational radiation which is potentially detectable by current Earth bound detectors. Extracting these signals from the instruments' background noise is a complex problem and the computational cost of most current searches depends on the complexity of the source model. Deep learning may be capable of finding signals where current algorithms hit computational limits. Here we restrict our analysis to signals from non-spinning binary black holes and systematically test different strategies by which training data is presented to the networks. To assess the impact of the training strategies, we re-analyze the first published networks and directly compare them to an equivalent matched-filter search. We find that the deep learning algorithms can generalize low signal-to-noise ratio (SNR) signals to high SNR ones but not vice versa. As such, it is not beneficial to provide high SNR signals during training, and fastest convergence is achieved when low SNR samples are provided early on. During testing we found that the networks are sometimes unable to recover any signals when a false alarm probability $<10^{-3}$ is required. We resolve this restriction by applying a modification we call unbounded Softmax replacement (USR) after training. With this alteration we find that the machine learning search retains $\geq 97.5\%$ of the sensitivity of the matched-filter search down to a false-alarm rate of 1 per month.
翻訳日:2021-06-08 17:21:26 公開日:2021-06-07
# セキュアアグリゲーションの確保 - フェデレートラーニングにおけるマルチロードプライバシリークの軽減

Securing Secure Aggregation: Mitigating Multi-Round Privacy Leakage in Federated Learning ( http://arxiv.org/abs/2106.03328v1 )

ライセンス: Link先を確認
Jinhyun So, Ramy E. Ali, Basak Guler, Jiantao Jiao, Salman Avestimehr(参考訳) セキュアアグリゲーションはフェデレーション学習において重要な要素であり、サーバはローカルモデルを観察することなくユーザのアグリゲーションモデルを学習することができる。 従来、セキュアな集約アルゴリズムは、単一のトレーニングラウンドで個々のユーザのプライバシを確保することだけに重点を置いています。 このような設計は、フェデレーション学習の各ラウンドにおけるユーザ選択/参加の部分的原因として、複数のトレーニングラウンドにおいて大きなプライバシーリークを引き起こす可能性がある、と私たちは主張しています。 実際,フェデレーション学習における従来のランダムなユーザ選択戦略が,ユーザ数に線形なラウンド数内で,ユーザの個人モデルを漏洩させることを実証的に示す。 この課題に対処するために,複数ラウンドのプライバシー保証を備えたセキュアアグリゲーションフレームワークを導入する。 特に,複数のトレーニングラウンドにおける連合学習のプライバシ保証を定量化するための新しい指標を導入し,各ユーザの(任意のトレーニングラウンドの)長期プライバシーを保証する構造化ユーザ選択戦略を開発した。 当社のフレームワークは、各ラウンドのフェアネスと参加ユーザの平均数についても慎重に説明しています。 In the IID and the non-IID settings, we performed several experiment on MNIST and CIFAR-10 datasets in the IID and the non-IID settings, to demonstrate the performance improvement over the baseline algorithm。

Secure aggregation is a critical component in federated learning, which enables the server to learn the aggregate model of the users without observing their local models. Conventionally, secure aggregation algorithms focus only on ensuring the privacy of individual users in a single training round. We contend that such designs can lead to significant privacy leakages over multiple training rounds, due to partial user selection/participat ion at each round of federated learning. In fact, we empirically show that the conventional random user selection strategies for federated learning lead to leaking users' individual models within number of rounds linear in the number of users. To address this challenge, we introduce a secure aggregation framework with multi-round privacy guarantees. In particular, we introduce a new metric to quantify the privacy guarantees of federated learning over multiple training rounds, and develop a structured user selection strategy that guarantees the long-term privacy of each user (over any number of training rounds). Our framework also carefully accounts for the fairness and the average number of participating users at each round. We perform several experiments on MNIST and CIFAR-10 datasets in the IID and the non-IID settings to demonstrate the performance improvement over the baseline algorithms, both in terms of privacy protection and test accuracy.
翻訳日:2021-06-08 17:21:03 公開日:2021-06-07
# (参考訳) 励磁の持続性によるロバスト学習 [全文訳有]

Robust Learning via Persistency of Excitation ( http://arxiv.org/abs/2106.02078v2 )

ライセンス: CC BY 4.0
Kaustubh Sridhar, Oleg Sokolsky, Insup Lee, James Weimer(参考訳) ニューラルネットワークの敵の堅牢性を改善することは、依然として大きな課題である。 基本的に、ネットワークのトレーニングはパラメータ推定の問題である。 適応制御理論では、励起(PoE)の持続性を維持することは、力学系におけるパラメータ推定の安定な最適性への収束を保証するために不可欠である。 本研究では,勾配降下を用いたネットワークトレーニングが,力学系パラメータ推定問題と同値であることを示す。 この関係を利用して, 学習速度が損失関数の勾配のリプシッツ定数の逆数よりも小さい場合には, 勾配降下のpoeが十分条件となることを示す。 極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案し、学習率スケジュールをスケーリングするだけで、ベンチマークデータセット上で最大15%の逆精度を向上できることを示した。 また,本手法は,自己攻撃ベンチマークにおいて,様々な最先端の敵意訓練モデルの敵意精度を0.1%から0.3%向上させる手法である。

Improving adversarial robustness of neural networks remains a major challenge. Fundamentally, training a network is a parameter estimation problem. In adaptive control theory, maintaining persistency of excitation (PoE) is integral to ensuring convergence of parameter estimates in dynamical systems to their robust optima. In this work, we show that network training using gradient descent is equivalent to a dynamical system parameter estimation problem. Leveraging this relationship, we prove a sufficient condition for PoE of gradient descent is achieved when the learning rate is less than the inverse of the Lipschitz constant of the gradient of loss function. We provide an efficient technique for estimating the corresponding Lipschitz constant using extreme value theory and demonstrate that by only scaling the learning rate schedule we can increase adversarial accuracy by up to 15% points on benchmark datasets. Our approach also universally increases the adversarial accuracy by 0.1% to 0.3% points in various state-of-the-art adversarially trained models on the AutoAttack benchmark, where every small margin of improvement is significant.
翻訳日:2021-06-08 15:24:03 公開日:2021-06-07
# (参考訳) アメリカ全12州における胸部X線人工知能診断支援ツールの性能調査の展望 病院

A Prospective Observational Study to Investigate Performance of a Chest X-ray Artificial Intelligence Diagnostic Support Tool Across 12 U.S. Hospitals ( http://arxiv.org/abs/2106.02118v2 )

ライセンス: CC BY 4.0
Ju Sun, Le Peng, Taihui Li, Dyah Adila, Zach Zaiman, Genevieve B. Melton, Nicholas Ingraham, Eric Murray, Daniel Boley, Sean Switzer, John L. Burns, Kun Huang, Tadashi Allen, Scott D. Steenburg, Judy Wawira Gichoya, Erich Kummerfeld, Christopher Tignanelli(参考訳) 重要性: 人工知能(AI)に基づく、胸部X線(CXR)所見から新型コロナウイルスの可能性を予測するためのモデルが、即時臨床意思決定を加速し、臨床意思決定を改善する重要な要素となる。 多大な努力にもかかわらず、これまで開発された新型コロナウイルスのAI診断モデルには多くの制限とバイアスが存在する。 局所的および国際的CXR画像の大規模な集合を利用して、時間的および外部的検証に高い性能を持つAIモデルを開発した。 結論と関連性: AIベースの診断ツールは、曝露履歴、兆候、症状に大きく依存する新型コロナウイルス(COVID-19)診断の臨床的決定支援のために、補助的だが代替ではない。 AIベースのツールは新型コロナウイルス(COVID-19)の完全な診断能力にはまだ達していないが、臨床症状や症状とともに検討された臨床医に貴重な情報を提供する可能性がある。

Importance: An artificial intelligence (AI)-based model to predict COVID-19 likelihood from chest x-ray (CXR) findings can serve as an important adjunct to accelerate immediate clinical decision making and improve clinical decision making. Despite significant efforts, many limitations and biases exist in previously developed AI diagnostic models for COVID-19. Utilizing a large set of local and international CXR images, we developed an AI model with high performance on temporal and external validation. Conclusions and Relevance: AI-based diagnostic tools may serve as an adjunct, but not replacement, for clinical decision support of COVID-19 diagnosis, which largely hinges on exposure history, signs, and symptoms. While AI-based tools have not yet reached full diagnostic potential in COVID-19, they may still offer valuable information to clinicians taken into consideration along with clinical signs and symptoms.
翻訳日:2021-06-08 12:49:18 公開日:2021-06-07
# (参考訳) 多属性予測のための材料表現と伝達学習 [全文訳有]

Materials Representation and Transfer Learning for Multi-Property Prediction ( http://arxiv.org/abs/2106.02225v2 )

ライセンス: CC BY 4.0
Shufeng Kong, Dan Guevarra, Carla P. Gomes, John M. Gregoire(参考訳) 材料科学における機械学習の採用は急速に材料特性予測に変化をもたらした。 機械学習における最近の進歩の完全な資本化を制限するハードルは、新しい合成空間における特性予測を促進するために、複数の要素の基本的な相互作用を学ぶ方法の限定的な開発を含む。 これらの課題に対処するために、材料組成のみを用いて(i)予測をシームレスに統合する階層的相関学習(H-CLMP)フレームワークを導入し、(ii)多目的回帰における対象特性間の相関関係の学習と活用、(iii)生成的伝達学習による接尾辞領域からのトレーニングデータを活用する。 このモデルは69個の3カチオン金属酸化物組成空間にまたがる複素金属酸化物の分光吸収を予測できる。 H-CLMPは、トレーニングデータがない合成空間における非線形合成-プロパティ関係を正確に予測し、機械学習のパービューを、例外的な特性を持つ材料発見まで広げる。 この成果は、潜在埋め込み学習、特性相関学習、生成的転送学習、注意モデルの原則的統合から生じる。 H-CLMPとTransfer Learning(H-CLMP(T))を用いて最適性能を得る。これは、生成的対向ネットワークが状態データの計算密度に基づいて訓練され、対象領域に展開され、合成からの光吸収の予測が増大する。 H-CLMP(T)は、物理科学の多目的回帰に適したフレームワークで複数の知識ソースを集約する。

The adoption of machine learning in materials science has rapidly transformed materials property prediction. Hurdles limiting full capitalization of recent advancements in machine learning include the limited development of methods to learn the underlying interactions of multiple elements, as well as the relationships among multiple properties, to facilitate property prediction in new composition spaces. To address these issues, we introduce the Hierarchical Correlation Learning for Multi-property Prediction (H-CLMP) framework that seamlessly integrates (i) prediction using only a material's composition, (ii) learning and exploitation of correlations among target properties in multi-target regression, and (iii) leveraging training data from tangential domains via generative transfer learning. The model is demonstrated for prediction of spectral optical absorption of complex metal oxides spanning 69 3-cation metal oxide composition spaces. H-CLMP accurately predicts non-linear composition-property relationships in composition spaces for which no training data is available, which broadens the purview of machine learning to the discovery of materials with exceptional properties. This achievement results from the principled integration of latent embedding learning, property correlation learning, generative transfer learning, and attention models. The best performance is obtained using H-CLMP with Transfer learning (H-CLMP(T)) wherein a generative adversarial network is trained on computational density of states data and deployed in the target domain to augment prediction of optical absorption from composition. H-CLMP(T) aggregates multiple knowledge sources with a framework that is well-suited for multi-target regression across the physical sciences.
翻訳日:2021-06-08 12:46:35 公開日:2021-06-07
# (参考訳) 注意の解釈性の向上 : 高速・高精度・高分解能注意モデル [全文訳有]

Improve the Interpretability of Attention: A Fast, Accurate, and Interpretable High-Resolution Attention Model ( http://arxiv.org/abs/2106.02566v2 )

ライセンス: CC BY 4.0
Tristan Gomez, Suiyi Ling, Thomas Fr\'eour, Harold Mouch\`ere(参考訳) 注意機構の利用頻度は、注意分布の解釈可能性に懸念を抱いている。 モデルがどのように動作しているかについての洞察を提供するが、モデル予測の説明として注意をあてはめることは、まだ非常に疑わしい。 コミュニティは、最終決定に最も寄与する地域活動地域をよりよく識別するための、より解釈可能な戦略を模索している。 既存のアテンションモデルの解釈可能性を改善するために,タスク関連情報を取り込む新しいbilinear Representative Non-Parametric Attention(BR-NPA)戦略を提案する。 ターゲットモデルは、まず高分解能中間特徴マップを持つように蒸留される。 そこから、代表的特徴を局所的なペアワイズ特徴類似度に基づいてグループ化し、入力のタスク関連部分を強調したよりきめ細かなより正確な注意マップを生成する。 得られた注意マップは、強調された領域の重要なレベルに関する情報を提供する複合特徴の「アクティブレベル」に従ってランク付けされる。 提案されたモデルは、分類にかかわる様々な現代の深層モデルに容易に適用することができる。 また、通常のニューラルアテンションモジュールよりも正確で高速で、メモリフットプリントも小さい。 大規模な実験では、いくつかのショット分類、人物の再識別、きめ細かい画像分類を含む複数のタスクにわたる最先端の可視化モデルと比較して、より包括的な視覚的説明が示される。 提案する可視化モデルは、異なるタスクでニューラルネットワークが注意を払わなければならないことを示唆する。

The prevalence of employing attention mechanisms has brought along concerns on the interpretability of attention distributions. Although it provides insights about how a model is operating, utilizing attention as the explanation of model predictions is still highly dubious. The community is still seeking more interpretable strategies for better identifying local active regions that contribute the most to the final decision. To improve the interpretability of existing attention models, we propose a novel Bilinear Representative Non-Parametric Attention (BR-NPA) strategy that captures the task-relevant human-interpretable information. The target model is first distilled to have higher-resolution intermediate feature maps. From which, representative features are then grouped based on local pairwise feature similarity, to produce finer-grained, more precise attention maps highlighting task-relevant parts of the input. The obtained attention maps are ranked according to the `active level' of the compound feature, which provides information regarding the important level of the highlighted regions. The proposed model can be easily adapted in a wide variety of modern deep models, where classification is involved. It is also more accurate, faster, and with a smaller memory footprint than usual neural attention modules. Extensive experiments showcase more comprehensive visual explanations compared to the state-of-the-art visualization model across multiple tasks including few-shot classification, person re-identification, fine-grained image classification. The proposed visualization model sheds imperative light on how neural networks `pay their attention' differently in different tasks.
翻訳日:2021-06-08 12:00:58 公開日:2021-06-07
# LiDAR知覚における深部領域適応の検討

A Survey on Deep Domain Adaptation for LiDAR Perception ( http://arxiv.org/abs/2106.02377v2 )

ライセンス: Link先を確認
Larissa T. Triess and Mariella Dreissig and Christoph B. Rist and J. Marius Z\"ollner(参考訳) 自動運転のためのスケーラブルなシステムは、オープンワールド設定に確実に対応する必要があります。 つまり、知覚システムは、気象条件の変化、時間依存的な側面、地理的領域など、劇的な領域シフトにさらされる。 アノテーション付きデータですべてのドメインをカバーすることは、ドメインの無限のバリエーションと、時間と費用のかかるアノテーションプロセスのために不可能である。 さらに、システムの高速な開発サイクルでは、センサタイプや車両の設定といったハードウェアの変更や、シミュレーションから必要な知識の転送も追加されている。 スケーラブルな自動運転を実現するためには、これらのドメインシフトを堅牢かつ効率的な方法で対処することが不可欠である。 過去数年間で、膨大な量の異なるドメイン適応技術が進化しました。 カメラ画像へのドメイン適応に関する調査論文は数多く存在するが、LiDARの認識に関する調査は欠落している。 それでもLiDARは自動走行のための重要なセンサーであり、車両の周囲の詳細な3Dスキャンを提供する。 本稿では,近年のドメイン適応手法の進歩を概観し,LiDARの認識を対象とする興味深い研究課題を定式化する。

Scalable systems for automated driving have to reliably cope with an open-world setting. This means, the perception systems are exposed to drastic domain shifts, like changes in weather conditions, time-dependent aspects, or geographic regions. Covering all domains with annotated data is impossible because of the endless variations of domains and the time-consuming and expensive annotation process. Furthermore, fast development cycles of the system additionally introduce hardware changes, such as sensor types and vehicle setups, and the required knowledge transfer from simulation. To enable scalable automated driving, it is therefore crucial to address these domain shifts in a robust and efficient manner. Over the last years, a vast amount of different domain adaptation techniques evolved. There already exists a number of survey papers for domain adaptation on camera images, however, a survey for LiDAR perception is absent. Nevertheless, LiDAR is a vital sensor for automated driving that provides detailed 3D scans of the vehicle's surroundings. To stimulate future research, this paper presents a comprehensive review of recent progress in domain adaptation methods and formulates interesting research questions specifically targeted towards LiDAR perception.
翻訳日:2021-06-08 11:38:11 公開日:2021-06-07
# 形状保存次元の低減 : トポロジカル等価性のアルゴリズムと対策

Shape-Preserving Dimensionality Reduction : An Algorithm and Measures of Topological Equivalence ( http://arxiv.org/abs/2106.02096v2 )

ライセンス: Link先を確認
Byeongsu Yu, Kisung You(参考訳) 位相的特徴を持続的ホモロジーで保存する線形次元減少手法を導入する。 この方法は線形射影$L$を見つけるよう設計されており、これは模擬アニールを通して点クラウド$\mathbb{X}$の持続図を保存している。 射影$L$は、Rips (または \v{C}ech) フィルターの$\mathbb{X}$から$L\mathbb{X}$への正準単純写像の集合を誘導する。 永続図形の間の距離に加えて、射影はフィルター準同型と呼ばれるフィルター間の写像を誘導する。 フィルター準同型を用いて、擬同型 $\mu_{\operatorname{quasi-iso}}$ あるいは強ホモトピー同値 $\mu_{\operatorname{equiv}}$ に対して、単体複体を直接比較する2つのフィルターの形状の差を測定することができる。 これらの $\mu_{\operatorname{quasi-iso}}$ と $\mu_{\operatorname{equiv}}$ は、対応する単純錯体のそれぞれが準同型あるいはホモトピー同値であるかを測定する。 フレームワークの有効性を簡単な例で検証します。

We introduce a linear dimensionality reduction technique preserving topological features via persistent homology. The method is designed to find linear projection $L$ which preserves the persistent diagram of a point cloud $\mathbb{X}$ via simulated annealing. The projection $L$ induces a set of canonical simplicial maps from the Rips (or \v{C}ech) filtration of $\mathbb{X}$ to that of $L\mathbb{X}$. In addition to the distance between persistent diagrams, the projection induces a map between filtrations, called filtration homomorphism. Using the filtration homomorphism, one can measure the difference between shapes of two filtrations directly comparing simplicial complexes with respect to quasi-isomorphism $\mu_{\operatorname{quasi-iso}}$ or strong homotopy equivalence $\mu_{\operatorname{equiv}}$. These $\mu_{\operatorname{quasi-iso}}$ and $\mu_{\operatorname{equiv}}$ measures how much portion of corresponding simplicial complexes is quasi-isomorphic or homotopy equivalence respectively. We validate the effectiveness of our framework with simple examples.
翻訳日:2021-06-08 11:37:53 公開日:2021-06-07
# advpicker: 言語間nerのためのadversarial discriminatorによるラベルなしデータを有効に活用する

AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial Discriminator for Cross-Lingual NER ( http://arxiv.org/abs/2106.02300v2 )

ライセンス: Link先を確認
Weile Chen, Huiqiang Jiang, Qianhui Wu, B\"orje F. Karlsson and Yi Guan(参考訳) ニューラルメソッドは、名前付きエンティティ認識(NER)で高いパフォーマンスを達成することが示されているが、トレーニングには高価で高品質なラベル付きデータに依存している。 従来の研究では,対象言語におけるラベルなしデータを用いて言語間モデルの性能を向上できることが示されているが,そのようなデータをより有効に活用し,結果をさらに改善するために,新たな敵対的アプローチ(AdvPicker)を提案する。 我々は,エンコーダがラベル付きソース言語データからエンティティドメインの知識を学習し,識別器がソースコードと類似性によってより少ない言語に依存しないターゲット言語データを選択する場合において,より良い共有機能を学習する逆学習フレームワークを設計する。 標準ベンチマークデータセットの実験結果は、提案手法がこのデータ選択プロセスから強く恩恵を受け、外部リソース(ガゼッタや機械翻訳など)を必要とせず、既存の最先端の手法より優れていることをよく示している。 コードはhttps://aka.ms/advpi ckerで入手できる。

Neural methods have been shown to achieve high performance in Named Entity Recognition (NER), but rely on costly high-quality labeled data for training, which is not always available across languages. While previous works have shown that unlabeled data in a target language can be used to improve cross-lingual model performance, we propose a novel adversarial approach (AdvPicker) to better leverage such data and further improve results. We design an adversarial learning framework in which an encoder learns entity domain knowledge from labeled source-language data and better shared features are captured via adversarial training - where a discriminator selects less language-dependent target-language data via similarity to the source language. Experimental results on standard benchmark datasets well demonstrate that the proposed method benefits strongly from this data selection process and outperforms existing state-of-the-art methods; without requiring any additional external resources (e.g., gazetteers or via machine translation). The code is available at https://aka.ms/AdvPi cker
翻訳日:2021-06-08 11:37:33 公開日:2021-06-07
# X-volution: 畳み込みと自己意識の統合について

X-volution: On the unification of convolution and self-attention ( http://arxiv.org/abs/2106.02253v2 )

ライセンス: Link先を確認
Xuanhong Chen and Hang Wang and Bingbing Ni(参考訳) 畳み込みと自己アテンションはディープニューラルネットワークの2つの基本的なビルディングブロックとして機能し、前者は局所的な特徴を線形に抽出し、後者は非局所的に高次の文脈関係を符号化する。 本質的には相互補完的であるが、例えば、CNNやトランスフォーマーは、その不均一な計算パターンと視覚タスクに対するグローバルドット積の過剰な負荷のため、単一の計算モジュールに両方の操作を同時に適用する原則的な方法が欠如している。 本研究では,変換された特徴に対する畳み込み操作による自己注意を近似するグローバル自己注意近似法を理論的に導出する。 近似スキームに基づいて,局所的および非局所的特徴相互作用を統一可能な,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを構築した。 重要なことは、訓練されたこのマルチブランチモジュールは、構造的再パラメータ化によって単一の標準畳み込み操作に条件付き変換することができ、X-畳み込みと呼ばれる純粋な畳み込みスタイルの演算子を、アトミックな操作としてあらゆる現代のネットワークにプラグインする準備ができたことである。 広範な実験により、提案されたx-volutionは高度に競争力のある視覚的理解の改善(imagenet分類における+1.2% top-1精度、+1.7 box ap、coco検出とセグメンテーションにおける+1.5 mask ap)を実現した。

Convolution and self-attention are acting as two fundamental building blocks in deep neural networks, where the former extracts local image features in a linear way while the latter non-locally encodes high-order contextual relationships. Though essentially complementary to each other, i.e., first-/high-order, stat-of-the-art architectures, i.e., CNNs or transformers lack a principled way to simultaneously apply both operations in a single computational module, due to their heterogeneous computing pattern and excessive burden of global dot-product for visual tasks. In this work, we theoretically derive a global self-attention approximation scheme, which approximates a self-attention via the convolution operation on transformed features. Based on the approximated scheme, we establish a multi-branch elementary module composed of both convolution and self-attention operation, capable of unifying both local and non-local feature interaction. Importantly, once trained, this multi-branch module could be conditionally converted into a single standard convolution operation via structural re-parameterization, rendering a pure convolution styled operator named X-volution, ready to be plugged into any modern networks as an atomic operation. Extensive experiments demonstrate that the proposed X-volution, achieves highly competitive visual understanding improvements (+1.2% top-1 accuracy on ImageNet classification, +1.7 box AP and +1.5 mask AP on COCO detection and segmentation).
翻訳日:2021-06-08 11:37:13 公開日:2021-06-07
# 深さ推定のための領域不変特徴の自己教師付き学習

Self-Supervised Learning of Domain Invariant Features for Depth Estimation ( http://arxiv.org/abs/2106.02594v2 )

ライセンス: Link先を確認
Hiroyasu Akada, Shariq Farooq Bhat, Ibraheem Alhashim, Peter Wonka(参考訳) 単一画像深度推定のための教師なし合成-現実的領域適応の問題に取り組む。 単一画像深度推定の重要なビルディングブロックは、rgb画像を入力として出力として深度マップを生成するエンコーダ/デコーダタスクネットワークである。 本稿では,タスクネットワークにドメイン不変表現を自己教師型で学習させる新たなトレーニング戦略を提案する。 具体的には、1つのドメインからの画像を扱う従来の表現学習から、2つのドメインからの画像を扱うドメイン不変表現学習まで、画像から画像への変換ネットワークを利用して自己教師付き学習を拡張する。 まず、双方向画像変換ネットワークを用いて、ドメイン固有のスタイルを合成ドメインと実ドメイン間で転送する。 このスタイルの転送操作により、異なるドメインから同様の画像を得ることができる。 第2に、タスクネットワークと、異なるドメインから同じイメージを持つシャムネットワークを共同で訓練し、タスクネットワークに対するドメイン不変性を得る。 最後に,ラベル付き実世界のデータを用いてタスクネットワークを微調整する。 トレーニング戦略は,実世界の領域における一般化能力の向上をもたらす。 深度推定のための2つの一般的なデータセットであるKITTIとMake3Dについて広範な評価を行う。 その結果,提案手法は定性的にも定量的にも最先端の手法よりも優れていた。 ソースコードとモデルの重み付けが利用可能になる。

We tackle the problem of unsupervised synthetic-to-realist ic domain adaptation for single image depth estimation. An essential building block of single image depth estimation is an encoder-decoder task network that takes RGB images as input and produces depth maps as output. In this paper, we propose a novel training strategy to force the task network to learn domain invariant representations in a self-supervised manner. Specifically, we extend self-supervised learning from traditional representation learning, which works on images from a single domain, to domain invariant representation learning, which works on images from two different domains by utilizing an image-to-image translation network. Firstly, we use our bidirectional image-to-image translation network to transfer domain-specific styles between synthetic and real domains. This style transfer operation allows us to obtain similar images from the different domains. Secondly, we jointly train our task network and Siamese network with the same images from the different domains to obtain domain invariance for the task network. Finally, we fine-tune the task network using labeled synthetic and unlabeled real-world data. Our training strategy yields improved generalization capability in the real-world domain. We carry out an extensive evaluation on two popular datasets for depth estimation, KITTI and Make3D. The results demonstrate that our proposed method outperforms the state-of-the-art both qualitatively and quantitatively. The source code and model weights will be made available.
翻訳日:2021-06-08 11:36:43 公開日:2021-06-07
# 局所的にプライベートな重み付きマルチアームバンドの最適レート

Optimal Rates of (Locally) Differentially Private Heavy-tailed Multi-Armed Bandits ( http://arxiv.org/abs/2106.02575v2 )

ライセンス: Link先を確認
Youming Tao, Yulian Wu, Peng Zhao, Di Wang(参考訳) 本稿では,(局所)微分プライバシー(DP/LDP)モデルにおける確率的マルチアームバンディット(MAB)の問題について検討する。 有界な報酬分布を仮定する以前の結果とは異なり、ここでは主に各アームの報酬分布が、ある$v\in (0, 1]$で 1+v)$-番目のモーメントしか持たない場合に焦点を当てる。 最初の段階では、中央の$\epsilon$-dpモデルで問題を研究しています。 まず,プライベートでロバストなuper confidence bound (ucb)アルゴリズムを開発し,最適に近い結果を得る。 そこで我々は,逐次除去(SE)アルゴリズムのプライベートかつロバストなバージョンを用いて結果を改善する。 最後に,改良アルゴリズムのインスタンス依存的後悔境界は,その下限を示すことによって最適であることを示す。 論文の第2部では、$\epsilon$-ldpモデルでこの問題について研究している。 我々は,seアルゴリズムの局所的プライベートかつロバストなバージョンと見なすことができるアルゴリズムを提案し,インスタンス依存とインスタンス非依存の両方の後悔に対して(ほぼ)最適レートを達成できることを示す。 以上の結果はすべて、有界報酬とヘビーテール報酬の私的MAB問題の違いを明らかにすることができる。 これらの(ほぼ)最適率を達成するために、我々はいくつかの新しいハードインスタンスと、他の関連する問題に使用できる副産物としてのプライベートな頑健な推定器を開発した。 最後に,実験結果も理論的解析をサポートし,アルゴリズムの有効性を示す。

In this paper we study the problem of stochastic multi-armed bandits (MAB) in the (local) differential privacy (DP/LDP) model. Unlike the previous results which need to assume bounded reward distributions, here we mainly focus on the case the reward distribution of each arm only has $(1+v)$-th moment with some $v\in (0, 1]$. In the first part, we study the problem in the central $\epsilon$-DP model. We first provide a near-optimal result by developing a private and robust Upper Confidence Bound (UCB) algorithm. Then, we improve the result via a private and robust version of the Successive Elimination (SE) algorithm. Finally, we show that the instance-dependent regret bound of our improved algorithm is optimal by showing its lower bound. In the second part of the paper, we study the problem in the $\epsilon$-LDP model. We propose an algorithm which could be seen as locally private and robust version of the SE algorithm, and show it could achieve (near) optimal rates for both instance-dependent and instance-independent regrets. All of the above results can also reveal the differences between the problem of private MAB with bounded rewards and heavy-tailed rewards. To achieve these (near) optimal rates, we develop several new hard instances and private robust estimators as byproducts, which might could be used to other related problems. Finally, experimental results also support our theoretical analysis and show the effectiveness of our algorithms.
翻訳日:2021-06-08 11:36:22 公開日:2021-06-07