このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210222となっている論文です。

PDF登録状況(公開日: 20210222)

TitleAuthorsAbstract論文公表日・翻訳日
# 色再現性に基づく教師なし異常検出によるイメージベース植物病診断

Image-based Plant Disease Diagnosis with Unsupervised Anomaly Detection Based on Reconstructability of Colors ( http://arxiv.org/abs/2011.14306v4 )

ライセンス: Link先を確認
Ryoya Katafuchi, Terumasa Tokunaga(参考訳) 本稿では,画像ベース植物病診断のための教師なし異常検出手法を提案する。 健康な作物のラベル付き画像を含む大規模かつ一般公開されたデータセットの構築は、自動植物病診断のためのコンピュータビジョン技術への関心を高めた。 深層学習に基づく画像分類器は、植物病の診断に強力なツールであるが、大量のラベル付きデータを必要とする。 異常検出のデータマイニング技術は、訓練用分類器に稀なサンプルを必要としない教師なしのアプローチを含む。 そこで本研究では,色再現性に基づく画像診断のための教師なし異常検出手法を提案する。 植物画像の色再構成を訓練したディープエンコーダ・デコーダネットワークは,症状領域の色再構成に失敗すべきである。 提案手法は,CIEDE2000色差に基づく条件付き逆数ネットワークであるPix2pixと,新しい異常スコアを用いた植物病検出のための画像ベースフレームワークを含む。 PlantVillageデータセットを用いた実験では,病原植物の画像の精度,解釈可能性,計算効率の面で既存の異常検出器と比較して,提案手法の優位性を示した。

This paper proposes an unsupervised anomaly detection technique for image-based plant disease diagnosis. The construction of large and publicly available datasets containing labeled images of healthy and diseased crop plants led to growing interest in computer vision techniques for automatic plant disease diagnosis. Although supervised image classifiers based on deep learning can be a powerful tool for plant disease diagnosis, they require a huge amount of labeled data. The data mining technique of anomaly detection includes unsupervised approaches that do not require rare samples for training classifiers. We propose an unsupervised anomaly detection technique for image-based plant disease diagnosis that is based on the reconstructability of colors; a deep encoder-decoder network trained to reconstruct the colors of \textit{healthy} plant images should fail to reconstruct colors of symptomatic regions. Our proposed method includes a new image-based framework for plant disease detection that utilizes a conditional adversarial network called pix2pix and a new anomaly score based on CIEDE2000 color difference. Experiments with PlantVillage dataset demonstrated the superiority of our proposed method compared to an existing anomaly detector at identifying diseased crop images in terms of accuracy, interpretability and computational efficiency.
翻訳日:2021-06-07 09:07:47 公開日:2021-02-22
# (参考訳) 操作する脳の創発的特性としての数感覚 [全文訳有]

A Number Sense as an Emergent Property of the Manipulating Brain ( http://arxiv.org/abs/2012.04132v2 )

ライセンス: CC BY 4.0
Neehar Kondapaneni, Pietro Perona(参考訳) 数量や量を理解・操作する能力は幼少期に出現するが、この能力が発達するメカニズムはいまだに理解されていない。 特に、教師の監督なくしてそのような「数感覚」を得ることが可能かどうかは不明である。 そこで本研究では,小型物体の自発的・非間接的操作が知覚を訓練し,シーン変化を予測できるモデルを提案する。 このタスクから、数と量を予測できる正則性を示す画像表現が現れていることが分かる。 それらには、ゼロと最初の数個の自然数、順序の概念、数値量と相関する信号の異なるカテゴリが含まれる。 その結果、このモデルでは、シーン内のオブジェクトの数を推定できるようになり、また {\em subitization {\displaystyle {\em subitization} も得られる。 小さなシーンでオブジェクトの正確な数を一目で認識する能力。 数値と量を持つ施設の重要な側面は教師の明示的な監督なしに学ぶことができると結論づけた。

The ability to understand and manipulate numbers and quantities emerges during childhood, but the mechanism through which this ability is developed is still poorly understood. In particular, it is not known whether acquiring such a {\em number sense} is possible without supervision from a teacher. To explore this question, we propose a model in which spontaneous and undirected manipulation of small objects trains perception to predict the resulting scene changes. We find that, from this task, an image representation emerges that exhibits regularities that foreshadow numbers and quantity. These include distinct categories for zero and the first few natural numbers, a notion of order, and a signal that correlates with numerical quantity. As a result, our model acquires the ability to estimate the number of objects in the scene, as well as {\em subitization}, i.e. the ability to recognize at a glance the exact number of objects in small scenes. We conclude that important aspects of a facility with numbers and quantities may be learned without explicit teacher supervision.
翻訳日:2021-05-18 04:36:00 公開日:2021-02-22
# (参考訳) 再ランク付きNetVLADに基づく書き手識別と書き手検索 [全文訳有]

Writer Identification and Writer Retrieval Based on NetVLAD with Re-ranking ( http://arxiv.org/abs/2012.06186v3 )

ライセンス: CC BY 4.0
Shervin Rasoulzadeh, Bagher Babaali(参考訳) 本稿では,文書解析と認識の分野で問題となっている著者識別と著者検索について述べる。 本研究では,ResNet-20を特徴抽出器として用い,局所集約記述子(VLAD)のベクトルにインスパイアされたNetVLAD層を統合した統合ニューラルネットワークアーキテクチャを用いて,この問題に対する新しいパイプラインを提案する。 このアーキテクチャを定義した三重項セミハード損失関数は、個々の入力画像パッチの埋め込みを直接学習するために使用される。 その後、各手書き画像の埋め込み記述子の集約に一般化された最大プール技術が使用される。 また,$k$-reciprocal Near neighbors に基づく識別と検索のタスクに対して,新たな階層化戦略を導入し,このステップからパイプラインのメリットを大いに享受できることが示唆された。 ICDAR 2013、CVL、KHATTデータセットの3つの公開データセットで実験的評価が行われた。 以上の結果から,我々はKHATTの最先端技術に相容れない性能を保ちながら,mAPの観点からICDAR 2013およびCVLデータセット上で優れた性能を達成していることがわかった。

This paper addresses writer identification and writer retrieval which is considered as a challenging problem in the document analysis and recognition field. In this work, a novel pipeline is proposed for the problem at hand by employing a unified neural network architecture consisting of the ResNet-20 as a feature extractor and an integrated NetVLAD layer, inspired by the vector of locally aggregated descriptors (VLAD), in the head of the latter part. Having defined this architecture, the triplet semi-hard loss function is used to directly learn an embedding for individual input image patches. Subsequently, generalized max-pooling technique is employed for the aggregation of embedded descriptors of each handwritten image. Also, a novel re-ranking strategy is introduced for the task of identification and retrieval based on $k$-reciprocal nearest neighbors, and it is shown that the pipeline can benefit tremendously from this step. Experimental evaluation has been done on the three publicly available datasets: the ICDAR 2013, CVL, and KHATT datasets. Results indicate that while we perform comparably to the state-of-the-art on the KHATT, our writer identification and writer retrieval pipeline achieves superior performance on the ICDAR 2013 and CVL datasets in terms of mAP.
翻訳日:2021-05-11 14:17:30 公開日:2021-02-22
# DEAAN:ロバスト話者表現学習のための斜め埋め込みと逆適応ネットワーク

DEAAN: Disentangled Embedding and Adversarial Adaptation Network for Robust Speaker Representation Learning ( http://arxiv.org/abs/2012.06896v2 )

ライセンス: Link先を確認
Mufan Sang, Wei Xia, John H.L. Hansen(参考訳) ディープニューラルネットワークの開発で話者検証が大幅なパフォーマンス向上を達成したにもかかわらず、ドメインミスマッチはこの分野では依然として困難な問題である。 本研究では,話者関連特徴とドメイン特化特徴を分離し,話者関連特徴空間にのみドメイン適応を適用する新しい枠組みを提案する。 ドメイン情報が削除されない機能空間に直接ドメイン適応を実行する代わりに、アンタングルメントを使用することで、適応性能を効率的に向上させることができる。 具体的には,対象領域とソース領域からの入力音声を,まず複数の潜在特徴空間に符号化する。 対向領域適応は、共有話者関連特徴空間上で行われ、ドメイン不変性の促進を行う。 さらに,両領域の話者関連特徴とドメイン固有特徴の相互情報を最小限に抑え,不整合を強制する。 VOiCESデータセットを用いた実験結果から,提案するフレームワークは,従来のResNetシステムと比較して,EERを20.3%削減した話者識別およびドメイン不変の話者表現を効果的に生成できることが示された。

Despite speaker verification has achieved significant performance improvement with the development of deep neural networks, domain mismatch is still a challenging problem in this field. In this study, we propose a novel framework to disentangle speaker-related and domain-specific features and apply domain adaptation on the speaker-related feature space solely. Instead of performing domain adaptation directly on the feature space where domain information is not removed, using disentanglement can efficiently boost adaptation performance. To be specific, our model's input speech from the source and target domains is first encoded into different latent feature spaces. The adversarial domain adaptation is conducted on the shared speaker-related feature space to encourage the property of domain-invariance. Further, we minimize the mutual information between speaker-related and domain-specific features for both domains to enforce the disentanglement. Experimental results on the VOiCES dataset demonstrate that our proposed framework can effectively generate more speaker-discriminati ve and domain-invariant speaker representations with a relative 20.3% reduction of EER compared to the original ResNet-based system.
翻訳日:2021-05-10 05:10:13 公開日:2021-02-22
# (参考訳) Calibrated Adaptive Probabilistic ODE Solvers [全文訳有]

Calibrated Adaptive Probabilistic ODE Solvers ( http://arxiv.org/abs/2012.08202v2 )

ライセンス: CC BY 4.0
Nathanael Bosch, Philipp Hennig, Filip Tronarp(参考訳) 通常の微分方程式に対する確率的解法は、初期値問題の解に後続測度を割り当てる。 この分布の合同共分散は(大域的)近似誤差の推定をもたらす。 この誤差をソルバのステップサイズ関数として推定する収縮速度は、よく説明された最悪のケースエラーと同定するが、その特定のステップサイズに対する明示的な数値は、明示的なエラーを正しく推定するものではない。 この問題に対処するために,不確実性推定を校正するいくつかの確率的動機付け手法を紹介し,議論し,評価する。 数値実験により, これらのキャリブレーション法は適応的なステップサイズ選択と効率的に相互作用し, 記述的かつ効率的に計算可能であることが示された。 本手法は,従来の4/5 runge-kutta法に対してベンチマークを行い,その効率性を示す。

Probabilistic solvers for ordinary differential equations assign a posterior measure to the solution of an initial value problem. The joint covariance of this distribution provides an estimate of the (global) approximation error. The contraction rate of this error estimate as a function of the solver's step size identifies it as a well-calibrated worst-case error, but its explicit numerical value for a certain step size is not automatically a good estimate of the explicit error. Addressing this issue, we introduce, discuss, and assess several probabilistically motivated ways to calibrate the uncertainty estimate. Numerical experiments demonstrate that these calibration methods interact efficiently with adaptive step-size selection, resulting in descriptive, and efficiently computable posteriors. We demonstrate the efficiency of the methodology by benchmarking against the classic, widely used Dormand-Prince 4/5 Runge-Kutta method.
翻訳日:2021-05-08 07:05:55 公開日:2021-02-22
# 低リソース言語のユーザフレンドリな自動転写:ESPnetをElpisに挿入する

User-friendly automatic transcription of low-resource languages: Plugging ESPnet into Elpis ( http://arxiv.org/abs/2101.03027v2 )

ライセンス: Link先を確認
Oliver Adams, Benjamin Galliot (LACITO), Guillaume Wisniewski (LLF UMR7110), Nicholas Lambourne, Ben Foley, Rahasya Sanders-Dwyer, Janet Wiles, Alexis Michaud (LACITO), S\'everine Guillaume (LACITO), Laurent Besacier (LIG), Christopher Cox, Katya Aplonova (LLACAN), Guillaume Jacques (CRLAO), Nathan Hill(参考訳) 本稿では,Kaldi 自動音声認識ツールキットへのアクセスを目的とした Web フロントエンドである Elpis に,音声認識ツールキット ESPnet の統合の進展について報告する。 この研究の目的は、ユーザフレンドリーなグラフィカルインタフェースを通じて、言語労働者にエンドツーエンドの音声認識モデルを提供することである。 i)エルピスで使用するESPnetレシピの開発について報告し、Persephoneツールキットでアコースティックモデルをトレーニングするためのデータセットと、これまで音声認識に使用されていなかった新しいデータセット、(ii)エルピスにESPnetを組み込んだUI拡張とCUDAをサポートするDockerfileについて予備的な結果を得た。

This paper reports on progress integrating the speech recognition toolkit ESPnet into Elpis, a web front-end originally designed to provide access to the Kaldi automatic speech recognition toolkit. The goal of this work is to make end-to-end speech recognition models available to language workers via a user-friendly graphical interface. Encouraging results are reported on (i) development of an ESPnet recipe for use in Elpis, with preliminary results on data sets previously used for training acoustic models with the Persephone toolkit along with a new data set that had not previously been used in speech recognition, and (ii) incorporating ESPnet into Elpis along with UI enhancements and a CUDA-supported Dockerfile.
翻訳日:2021-05-07 05:35:26 公開日:2021-02-22
# なぜ分類器は分布シフト下で線形傾向を示すのか?

Why do classifier accuracies show linear trends under distribution shift? ( http://arxiv.org/abs/2012.15483v2 )

ライセンス: Link先を確認
Horia Mania, Suvrit Sra(参考訳) 深層学習における一般化に関する最近の研究は、あるデータ分布上のモデルの精度は、あるデータ分布上のモデルの精度のおよそ線形関数である、という厄介な傾向を観察している。 先行研究で実証的に検証されたモデル類似性に関する直感的な仮定の下で,この傾向を説明する。 より正確には、2つのモデルが予測で一致する確率は、その正確性レベルだけで推測できることよりも高いと仮定する。 次に,分布シフトの大きさが大きければ,二つの分布モデルを評価する際に線形傾向が発生することを示す。 この研究は、分類モデルの一般化と堅牢性に影響を与えることができる理解モデル類似性の価値を強調する。

Recent studies of generalization in deep learning have observed a puzzling trend: accuracies of models on one data distribution are approximately linear functions of the accuracies on another distribution. We explain this trend under an intuitive assumption on model similarity, which was verified empirically in prior work. More precisely, we assume the probability that two models agree in their predictions is higher than what we can infer from their accuracy levels alone. Then, we show that a linear trend must occur when evaluating models on two distributions unless the size of the distribution shift is large. This work emphasizes the value of understanding model similarity, which can have an impact on the generalization and robustness of classification models.
翻訳日:2021-04-17 17:23:19 公開日:2021-02-22
# (参考訳) 視覚におけるトランスフォーマー: サーベイ [全文訳有]

Transformers in Vision: A Survey ( http://arxiv.org/abs/2101.01169v2 )

ライセンス: CC BY-SA 4.0
Salman Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad Shahbaz Khan, Mubarak Shah(参考訳) 自然言語タスクにおけるTransformerモデルの結果は、コンピュータビジョン問題への応用を研究するビジョンコミュニティの興味を引いている。 その顕著な利点のうち、トランスフォーマーは入力シーケンス要素間の長い依存関係をモデル化し、リカレントネットワーク(例えばlong short-term memory(lstm))と比較してシーケンスの並列処理をサポートする。 畳み込みネットワークと異なり、トランスフォーマーは設計に最小限の帰納的バイアスを必要とし、自然に集合関数として適合する。 さらに、トランスフォーマーの簡単な設計により、同様の処理ブロックを使用して複数のモダリティ(画像、ビデオ、テキスト、音声など)を処理でき、非常に大きな容量のネットワークや巨大なデータセットに対して優れたスケーラビリティを示す。 これらの強みは、Transformerネットワークを使った多くのビジョンタスクのエキサイティングな進歩につながった。 本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を明らかにすることを目的とする。 まず,トランスフォーマーの成功を支える基本概念,すなわち自己注意,大規模事前学習,双方向符号化の導入から始める。 We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). アーキテクチャ設計と実験的価値の両方の観点から,人気のある手法の長所と限界を比較した。 最後に,オープン研究の方向性と今後の課題について分析する。

Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works.
翻訳日:2021-04-12 01:34:59 公開日:2021-02-22
# 非凸$\ell_p$ボール射影に対する効率的なアプローチ:アルゴリズムと解析

Towards an efficient approach for the nonconvex $\ell_p$ ball projection: algorithm and analysis ( http://arxiv.org/abs/2101.01350v2 )

ライセンス: Link先を確認
Xiangyu Yang, Jiashan Wang, and Hao Wang(参考訳) 本稿では、主にベクトルのユークリッド射影を $p\in(0,1)$ の $\ell_{p}$ 球上に計算することに焦点を当てる。 このような問題は、統計的な機械学習と信号処理タスクの核となる構成要素として現れる。 しかし、特に大規模最適化では、射影を見つけるための効率的な数値アルゴリズムはまだ利用できない。 この課題に対処するために、まずFr'echet normal coneを用いて、この問題の1次必要最適条件を導出する。 この特性に基づいて,再重み付けされた$\ell_{1}$-balls 上の射影列を解いて定常点を計算する新しい数値的手法を開発した。 この手法は実装が簡単で計算効率が良い。 さらに,提案手法は穏やかな条件下で一意に収束し,最悪の場合$o(1/\sqrt{k})$収束率を持つことを示した。 数値実験により提案アルゴリズムの有効性が示された。

This paper primarily focuses on computing the Euclidean projection of a vector onto the $\ell_{p}$ ball in which $p\in(0,1)$. Such a problem emerges as the core building block in statistical machine learning and signal processing tasks because of its ability to promote sparsity. However, efficient numerical algorithms for finding the projections are still not available, particularly in large-scale optimization. To meet this challenge, we first derive the first-order necessary optimality conditions of this problem using Fr\'echet normal cone. Based on this characterization, we develop a novel numerical approach for computing the stationary point through solving a sequence of projections onto the reweighted $\ell_{1}$-balls. This method is practically simple to implement and computationally efficient. Moreover, the proposed algorithm is shown to converge uniquely under mild conditions and has a worst-case $O(1/\sqrt{k})$ convergence rate. Numerical experiments demonstrate the efficiency of our proposed algorithm.
翻訳日:2021-04-11 11:27:40 公開日:2021-02-22
# 官能強化学習のための平滑な関数ベース勾配アルゴリズム:非漸近的視点

Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint ( http://arxiv.org/abs/2101.02137v2 )

ライセンス: Link先を確認
Nithia Vijayan and Prashanth L. A(参考訳) 政治外強化学習(RL)の文脈で制御問題を解くための2つのポリシー勾配アルゴリズムを提案する。 どちらのアルゴリズムも、スムーズな関数的勾配推定スキームを取り入れている。 第1のアルゴリズムは、重要サンプリングに基づくオフポリシー評価とsfに基づく勾配推定の直接的な組み合わせである。 第2のアルゴリズムは確率分散還元勾配(SVRG)アルゴリズムにインスパイアされ、更新繰り返しにおける分散の低減を取り入れている。 両方のアルゴリズムに対して、近似定常点への収束を確立する非漸近境界を導出する。 これらの結果から,第1のアルゴリズムは,よく知られた強化アルゴリズムに匹敵する速度で収束するが,第2のアルゴリズムは収束速度が向上することを示す。

We propose two policy gradient algorithms for solving the problem of control in an off-policy reinforcement learning (RL) context. Both algorithms incorporate a smoothed functional (SF) based gradient estimation scheme. The first algorithm is a straightforward combination of importance sampling-based off-policy evaluation with SF-based gradient estimation. The second algorithm, inspired by the stochastic variance-reduced gradient (SVRG) algorithm, incorporates variance reduction in the update iteration. For both algorithms, we derive non-asymptotic bounds that establish convergence to an approximate stationary point. From these results, we infer that the first algorithm converges at a rate that is comparable to the well-known REINFORCE algorithm in an off-policy RL context, while the second algorithm exhibits an improved rate of convergence.
翻訳日:2021-04-11 00:05:45 公開日:2021-02-22
# (参考訳) HiPeを信じる:ブラックボックスモデルの高速かつロバストな説明のための階層的摂動 [全文訳有]

Believe The HiPe: Hierarchical Perturbation for Fast and Robust Explanation of Black Box Models ( http://arxiv.org/abs/2103.05108v1 )

ライセンス: CC BY 4.0
Jessica Cooper, Ognjen Arandjelovi\'c, David Harrison(参考訳) 人工知能(ai)システムによる予測を理解することは、深層学習モデルがますます複雑で高度なタスクに使われているため、ますます重要になっている。 簡易に解釈可能な視覚属性法であるサリエンシマッピングは、この方法にとって重要なツールであるが、既存の定式化は計算コストまたはアーキテクチャ上の制約によって制限される。 そこで我々は,モデル予測をロバストなサリエンシマップで説明するための,非常に高速かつ完全にモデルに依存しない階層摂動法を提案する。 標準的なベンチマークとデータセットを使用して、既存のブラックボックスメソッドが生成したマップよりも競争力や品質が優れており、計算が20倍以上高速であることを示す。

Understanding the predictions made by Artificial Intelligence (AI) systems is becoming more and more important as deep learning models are used for increasingly complex and high-stakes tasks. Saliency mapping - an easily interpretable visual attribution method - is one important tool for this, but existing formulations are limited by either computational cost or architectural constraints. We therefore propose Hierarchical Perturbation, a very fast and completely model-agnostic method for explaining model predictions with robust saliency maps. Using standard benchmarks and datasets, we show that our saliency maps are of competitive or superior quality to those generated by existing black-box methods - and are over 20x faster to compute.
翻訳日:2021-04-05 09:03:34 公開日:2021-02-22
# 5gultra-denseネットワークの無線バックホールにおけるゲートウェイ位置の高速ヒューリスティック

A Fast Heuristic for Gateway Location in Wireless Backhaul of 5G Ultra-Dense Networks ( http://arxiv.org/abs/2103.08408v1 )

ライセンス: Link先を確認
Mital Raithatha, Aizaz U. Chaudhry, Roshdy H.M. Hafez, John W. Chinneck(参考訳) 5G Ultra-Dense Networksでは、分散ワイヤレスバックホールは、コアへのトラフィックを転送するための魅力的なソリューションです。 マクロ細胞被覆領域は多くの小細胞に分けられる。 これらのセルのいくつかはゲートウェイとして指定され、高容量光ファイバーリンクによってコアにリンクされる。 各小さなセルはひとつのゲートウェイに関連付けられ、すべての小さなセルはマルチホップメッシュネットワークを介してそれぞれのゲートウェイにトラフィックを転送する。 ゲートウェイ位置問題を調査し,最適に近いゲートウェイ位置を見つけることでバックホールネットワーク容量が向上することを示す。 遺伝的アルゴリズム (GA) とK平均クラスタリングを組み合わせたK-GAヒューリスティックと比較し, ほぼ最適ゲートウェイ位置を求めるため, 正確な p-median 整数線形プログラムを定式化した。 我々は,ノード密度の異なるホップ数とバックホールネットワーク容量について,モンテカルロシミュレーションを用いて,kgaの性能を他の6つの手法と比較した。 すべてのアプローチは、一様分布、二変量ガウス分布、クラスタ分布など、さまざまなユーザー分布シナリオでテストされる。 すべてのケースにおいて、k-gaは最適に近い結果をもたらし、平均ホップ数とバックホールネットワーク容量を最適な2%以内で達成し、実行時間の95%を節約する。

In 5G Ultra-Dense Networks, a distributed wireless backhaul is an attractive solution for forwarding traffic to the core. The macro-cell coverage area is divided into many small cells. A few of these cells are designated as gateways and are linked to the core by high-capacity fiber optic links. Each small cell is associated with one gateway and all small cells forward their traffic to their respective gateway through multi-hop mesh networks. We investigate the gateway location problem and show that finding near-optimal gateway locations improves the backhaul network capacity. An exact p-median integer linear program is formulated for comparison with our novel K-GA heuristic that combines a Genetic Algorithm (GA) with K-means clustering to find near-optimal gateway locations. We compare the performance of KGA with six other approaches in terms of average number of hops and backhaul network capacity at different node densities through extensive Monte Carlo simulations. All approaches are tested in various user distribution scenarios, including uniform distribution, bivariate Gaussian distribution, and cluster distribution. In all cases K-GA provides near-optimal results, achieving average number of hops and backhaul network capacity within 2% of optimal while saving an average of 95% of the execution time.
翻訳日:2021-04-05 00:50:09 公開日:2021-02-22
# 近傍近傍近傍でのマニフォールド学習

Manifold learning with approximate nearest neighbors ( http://arxiv.org/abs/2103.11773v1 )

ライセンス: Link先を確認
Fan Cheng, Rob J Hyndman, Anastasios Panagiotelis(参考訳) マニフォールド学習アルゴリズムは、高次元データの分析に有用なツールであり、その多くが、すべての観測の最も近い隣人が見つかるステップを含む。 これは、観測数が大きい場合や、統計多様体のようなより一般的な距離空間にある場合、観測間の全ての対距離を計算する必要がある場合、計算ボトルネックを示すことができる。 本研究では,多様体学習アルゴリズムにおける近似近似近傍アルゴリズムを用いてこの問題を解決し,その埋め込み精度への影響を評価した。 離散分布に対するヘリンガー/トータル変動距離とl2/l1ノルムとの接続を利用して,統計多様体の近似近似近傍を用いる。 ベンチマークMNISTデータセットに基づく徹底的な実証調査の結果, 近似近傍では, 多様体学習アルゴリズムが生成した埋め込みの精度をほとんど, あるいは全く損なわず, 計算時間を大幅に改善することがわかった。 この結果は、異なる多様体学習アルゴリズムの使用、近傍の異なる近似アルゴリズムの使用、および埋め込み精度の異なる尺度の使用に対して堅牢である。 本手法は,電気利用の分布に関する統計多様体データの学習に応用する。 このアプリケーションでは,提案手法を用いて,大規模データセットにスケーラブルな方法で異常を可視化および識別し,高次元データの基盤構造を明らかにする方法を示す。

Manifold learning algorithms are valuable tools for the analysis of high-dimensional data, many of which include a step where nearest neighbors of all observations are found. This can present a computational bottleneck when the number of observations is large or when the observations lie in more general metric spaces, such as statistical manifolds, which require all pairwise distances between observations to be computed. We resolve this problem by using a broad range of approximate nearest neighbor algorithms within manifold learning algorithms and evaluating their impact on embedding accuracy. We use approximate nearest neighbors for statistical manifolds by exploiting the connection between Hellinger/Total variation distance for discrete distributions and the L2/L1 norm. Via a thorough empirical investigation based on the benchmark MNIST dataset, it is shown that approximate nearest neighbors lead to substantial improvements in computational time with little to no loss in the accuracy of the embedding produced by a manifold learning algorithm. This result is robust to the use of different manifold learning algorithms, to the use of different approximate nearest neighbor algorithms, and to the use of different measures of embedding accuracy. The proposed method is applied to learning statistical manifolds data on distributions of electricity usage. This application demonstrates how the proposed methods can be used to visualize and identify anomalies and uncover underlying structure within high-dimensional data in a way that is scalable to large datasets.
翻訳日:2021-04-05 00:46:28 公開日:2021-02-22
# (参考訳) ニューラルコントラクト要素抽出再考:瀬佐間通りからのレター [全文訳有]

Neural Contract Element Extraction Revisited: Letters from Sesame Street ( http://arxiv.org/abs/2101.04355v2 )

ライセンス: CC BY-SA 4.0
Ilias Chalkidis, Manos Fergadiotis, Prodromos Malakasiotis, Ion Androutsopoulos(参考訳) 契約要素抽出について検討する。 LSTMをベースとしたエンコーダは, 拡張CNN, Transformer, BERTよりも優れた性能を示す。 また,ドメイン固有のWORD2VEC埋め込みは,汎用的な事前学習型GLOVE埋め込みよりも優れていた。 POSタグやトークン形状の埋め込みのようなモルフォシンタクティックな機能や、コンテキスト対応のELMO埋め込みはパフォーマンスを向上しない。 これらの観察のいくつかは、コントラクト要素抽出とジェネリックシーケンスラベリングタスクに関する以前の作業の選択や発見と矛盾しており、コントラクト要素の抽出には注意深くタスク固有の選択が必要であることを示している。 i)プレーンな Transformer と (ii) BERT をベースとしたモデルの結果を解析した結果,エンティティが文脈に敏感な場合,変換器の繰り返しの欠如が性能に大きな影響を及ぼすことがわかった。

We investigate contract element extraction. We show that LSTM-based encoders perform better than dilated CNNs, Transformers, and BERT in this task. We also find that domain-specific WORD2VEC embeddings outperform generic pre-trained GLOVE embeddings. Morpho-syntactic features in the form of POS tag and token shape embeddings, as well as context-aware ELMO embeddings do not improve performance. Several of these observations contradict choices or findings of previous work on contract element extraction and generic sequence labeling tasks, indicating that contract element extraction requires careful task-specific choices. Analyzing the results of (i) plain TRANSFORMER-based and (ii) BERT-based models, we find that in the examined task, where the entities are highly context-sensitive, the lack of recurrency in TRANSFORMERs greatly affects their performance.
翻訳日:2021-04-04 10:05:00 公開日:2021-02-22
# 言語モデルにおける学習データ漏洩解析

Training Data Leakage Analysis in Language Models ( http://arxiv.org/abs/2101.05405v2 )

ライセンス: Link先を確認
Huseyin A. Inan, Osman Ramadan, Lukas Wutschitz, Daniel Jones, Victor R\"uhle, James Withers, Robert Sim(参考訳) ニューラルネットワークベースの言語モデルの最近の進歩は、そのようなモデルのデプロイを成功させ、さまざまなアプリケーションのユーザエクスペリエンスを向上させる。 言語モデルの強力なパフォーマンスは、希少なトレーニングサンプルを記憶すると同時に、モデルが秘密のユーザコンテンツでトレーニングされている場合、深刻なプライバシー上の脅威を引き起こすことが示されている。 本研究では,強い現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。 本研究では,学習データ中のユニークな文フラグメントを生成するモデルの能力を測定することによって,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。 当社のメトリクスは、同じデータ上でトレーニングされたさまざまなモデルを、プライバシーの観点から比較する上で有効です。 提案手法は,RNNモデルとTransformerモデルの両方に関する広範な数値的研究を通じて実証する。 さらに、提案手法を用いて、差分プライベートトレーニングやAPI硬化といった緩和効果を調査する方法について述べる。

Recent advances in neural network based language models lead to successful deployments of such models, improving user experience in various applications. It has been demonstrated that strong performance of language models comes along with the ability to memorize rare training samples, which poses serious privacy threats in case the model is trained on confidential user content. In this work, we introduce a methodology that investigates identifying the user content in the training data that could be leaked under a strong and realistic threat model. We propose two metrics to quantify user-level data leakage by measuring a model's ability to produce unique sentence fragments within training data. Our metrics further enable comparing different models trained on the same data in terms of privacy. We demonstrate our approach through extensive numerical studies on both RNN and Transformer based models. We further illustrate how the proposed metrics can be utilized to investigate the efficacy of mitigations like differentially private training or API hardening.
翻訳日:2021-03-29 00:56:24 公開日:2021-02-22
# 不変リスク最小化によるアウトオブディストリビューション予測:限界と有効修正

Out-of-distribution Prediction with Invariant Risk Minimization: The Limitation and An Effective Fix ( http://arxiv.org/abs/2101.07732v2 )

ライセンス: Link先を確認
Ruocheng Guo, Pengchuan Zhang, Hao Liu, Emre Kiciman(参考訳) 本研究は,(1)複数の領域からのトレーニングデータと(2)テスト領域が学習中に認識されていない場合の分散アウトオブディストリビューション(ood)予測問題を考える。 dnnは散発的な相関関係を取る傾向があるため、ood予測に失敗する。 近年、この問題に対処するため、不変リスク最小化(IRM)が提案されている。 この効果は色付きMNIST実験で実証されている。 それにもかかわらず、これらの特徴とクラスラベルの急激な相関が、共通の原因であるドメインラベルの強い因果的影響により強い場合、IRMの性能は劇的に低下する(Fig参照)。 1). この作業では、なぜITMが上記の設定で失敗するのかという疑問に答えようとしています。 IRMはなぜオリジナルの色付きMNISTデータセットで機能するのか? IRMのこの問題を解決するには? そこで我々は,irmの問題を解決するための単純かつ効果的な手法を提案する。 IRMと条件分布マッチングを組み合わせることで,強い$\Lambda$スプリアスネスの下で,特定の種類のスプリアス相関を回避する。 経験的に、色付きMNISTプラスの一連の半合成データセットを設計し、IRMの問題を明らかにし、提案手法の有効性を実証する。

This work considers the out-of-distribution (OOD) prediction problem where (1)~the training data are from multiple domains and (2)~the test domain is unseen in the training. DNNs fail in OOD prediction because they are prone to pick up spurious correlations. Recently, Invariant Risk Minimization (IRM) is proposed to address this issue. Its effectiveness has been demonstrated in the colored MNIST experiment. Nevertheless, we find that the performance of IRM can be dramatically degraded under \emph{strong $\Lambda$ spuriousness} -- when the spurious correlation between the spurious features and the class label is strong due to the strong causal influence of their common cause, the domain label, on both of them (see Fig. 1). In this work, we try to answer the questions: why does IRM fail in the aforementioned setting? Why does IRM work for the original colored MNIST dataset? How can we fix this problem of IRM? Then, we propose a simple and effective approach to fix the problem of IRM. We combine IRM with conditional distribution matching to avoid a specific type of spurious correlation under strong $\Lambda$ spuriousness. Empirically, we design a series of semi synthetic datasets -- the colored MNIST plus, which exposes the problems of IRM and demonstrates the efficacy of the proposed method.
翻訳日:2021-03-28 04:36:06 公開日:2021-02-22
# 自然言語理解における共同意図検出とスロット充足モデルの検討

A survey of joint intent detection and slot-filling models in natural language understanding ( http://arxiv.org/abs/2101.08091v3 )

ライセンス: Link先を確認
H. Weld, X. Huang, S. Long, J. Poon, S. C. Han (School of Computer Science, The University of Sydney)(参考訳) インテント分類とスロットフィリングは、自然言語理解にとって重要な2つのタスクである。 伝統的に、2つのタスクは独立して進行すると考えられてきた。 しかし、近年では、意図分類とスロットフィリングのジョイントモデルが最先端の性能を達成し、二つのタスクの間に強い関係があることが証明されている。 この記事は、自然言語理解、特に統合意図分類とスロットフィリングにおける過去の研究のまとめである。 本研究における3つのマイルストーンは,話者の意図を識別するインテント検出,各単語トークンを音声/テキストでラベル付けするためのスロットフィリング,そして最後に,共同意図分類とスロットフィリングタスクである。 本稿では,傾向,アプローチ,課題,データセット,意図分類における評価指標,スロット充填について述べる。 また、パフォーマンスの代表的な値を議論し、共有タスクを説明し、以前の作業で与えられたように、将来の作業へのポインタを提供する。 最先端のトレンドを解釈するために、特徴の種類、基本アプローチ、使用するデータセットドメインなど、さまざまな次元の過去の研究を記述し要約した複数のテーブルを提供する。

Intent classification and slot filling are two critical tasks for natural language understanding. Traditionally the two tasks have been deemed to proceed independently. However, more recently, joint models for intent classification and slot filling have achieved state-of-the-art performance, and have proved that there exists a strong relationship between the two tasks. This article is a compilation of past work in natural language understanding, especially joint intent classification and slot filling. We observe three milestones in this research so far: Intent detection to identify the speaker's intention, slot filling to label each word token in the speech/text, and finally, joint intent classification and slot filling tasks. In this article, we describe trends, approaches, issues, data sets, evaluation metrics in intent classification and slot filling. We also discuss representative performance values, describe shared tasks, and provide pointers to future work, as given in prior works. To interpret the state-of-the-art trends, we provide multiple tables that describe and summarise past research along different dimensions, including the types of features, base approaches, and dataset domain used.
翻訳日:2021-03-22 01:28:30 公開日:2021-02-22
# 5g無線ネットワークスライシングにおける洪水攻撃に対するadversarial machine learning

Adversarial Machine Learning for Flooding Attacks on 5G Radio Access Network Slicing ( http://arxiv.org/abs/2101.08724v2 )

ライセンス: Link先を確認
Yi Shi and Yalin E. Sagduyu(参考訳) ネットワークスライシングは 5G Radio Access Network (RAN) の仮想リソースブロック (RB) としてネットワークリソースを管理する。 各通信要求には、スループットやレイテンシ/遅延といったqoe(quality of experience)要件が付属する。 完了した要求に対して、得られた報酬は、この要求の重み(プライオリティ)によって測定される。 そして、例えば強化学習(RL)でリソースを割り当てることで、報酬を時間とともに最大化する。 本稿では, 5G RAN リソースを消費するために, 敵が偽のネットワークスライシング要求を発生させるような, 5G RAN ネットワークスライシングに対する新たなフラッディング攻撃を提案する。 相手はスペクトルを観察し、RLを通じてネットワークスライシングアルゴリズム上に代理モデルを構築し、実際のリクエストの報酬を最小限に抑えるために偽のリクエストを作成できる方法を決定する。 実際の要求によって達成される報酬の一部は、攻撃がなければ達成される報酬よりもはるかに少ない可能性があることを示す。 また,このフラッディング攻撃は,最小リソース要件(最小qoe要件)でランダムなフェイク要求やフェイク要求など,他のベンチマーク攻撃よりも効果的であることを示す。 フェイク要求はその固定重量のために検出される。 攻撃の強化として、偽要求の重みをランダム化するためのスキームを提案し、重み分布のバランスを維持しながら、実際の要求の報酬を低減できることを示す。

Network slicing manages network resources as virtual resource blocks (RBs) for the 5G Radio Access Network (RAN). Each communication request comes with quality of experience (QoE) requirements such as throughput and latency/deadline, which can be met by assigning RBs, communication power, and processing power to the request. For a completed request, the achieved reward is measured by the weight (priority) of this request. Then, the reward is maximized over time by allocating resources, e.g., with reinforcement learning (RL). In this paper, we introduce a novel flooding attack on 5G network slicing, where an adversary generates fake network slicing requests to consume the 5G RAN resources that would be otherwise available to real requests. The adversary observes the spectrum and builds a surrogate model on the network slicing algorithm through RL that decides on how to craft fake requests to minimize the reward of real requests over time. We show that the portion of the reward achieved by real requests may be much less than the reward that would be achieved when there was no attack. We also show that this flooding attack is more effective than other benchmark attacks such as random fake requests and fake requests with the minimum resource requirement (lowest QoE requirement). Fake requests may be detected due to their fixed weight. As an attack enhancement, we present schemes to randomize weights of fake requests and show that it is still possible to reduce the reward of real requests while maintaining the balance on weight distributions.
翻訳日:2021-03-21 07:51:05 公開日:2021-02-22
# Nigraha: TESSから惑星候補を特定し評価する機械学習ベースのパイプライン

Nigraha: Machine-learning based pipeline to identify and evaluate planet candidates from TESS ( http://arxiv.org/abs/2101.09227v2 )

ライセンス: Link先を確認
Sriram Rao, Ashish Mahabal, Niyanth Rao, and Cauligi Raghavendra(参考訳) トランジット太陽系外惑星探査衛星(TESS)は現在2年あまり運用されており、北半球と南半球をカバーしている。 TESSチームは、Science Processing Operations CenterパイプラインとQuick Lookパイプラインを使用して、ダウンリンクされたデータを処理し、フォローアップ用のアラートを生成する。 コミュニティの他の活動と組み合わさって、2千以上の惑星候補が発見され、そのうち数十個が惑星として確認されている。 これらのアプローチを補完するパイプラインであるNigrahaを紹介します。 Nigrahaは、トランジット発見、教師付き機械学習、詳細な検証を組み合わせることで、事前の検索で見落とされたいくつかの惑星候補を高い信頼性で特定する。 特に、より地球に似た惑星を表すsnr(high signal to noise ratio)の浅いトランジットを特定する。 オープンデータ探索の精神では、パイプラインの詳細を提供し、監視された機械学習モデルとコードをオープンソースとしてリリースし、セブンセクタで見つかった38の候補を公開します。 このモデルは、他のセクターでも簡単に実行できる。 将来の作業の一環として、私たちは、データムが1つか2つ欠けているために、保守的で破棄されたオブジェクトであるいくつかのステップを強化することで、収量を増やす方法を概説します。

The Transiting Exoplanet Survey Satellite (TESS) has now been operational for a little over two years, covering the Northern and the Southern hemispheres once. The TESS team processes the downlinked data using the Science Processing Operations Center pipeline and Quick Look pipeline to generate alerts for follow-up. Combined with other efforts from the community, over two thousand planet candidates have been found of which tens have been confirmed as planets. We present our pipeline, Nigraha, that is complementary to these approaches. Nigraha uses a combination of transit finding, supervised machine learning, and detailed vetting to identify with high confidence a few planet candidates that were missed by prior searches. In particular, we identify high signal to noise ratio (SNR) shallow transits that may represent more Earth-like planets. In the spirit of open data exploration we provide details of our pipeline, release our supervised machine learning model and code as open source, and make public the 38 candidates we have found in seven sectors. The model can easily be run on other sectors as is. As part of future work we outline ways to increase the yield by strengthening some of the steps where we have been conservative and discarded objects for lack of a datum or two.
翻訳日:2021-03-20 17:12:25 公開日:2021-02-22
# (参考訳) 糖尿病分類のための可変ウェイトニューラルネットワーク [全文訳有]

Variable Weights Neural Network For Diabetes Classification ( http://arxiv.org/abs/2102.12984v1 )

ライセンス: CC BY 4.0
Tanmay Rathi and Vipul(参考訳) 世界がパンデミックによって地上に持ち込まれた過去1年間に目撃されたように、生命を脅かす病気との戦いはこれまで以上に焦点を合わせています。 病気と戦う最初のステップは、適切なタイミングでそれを診断することだ。 糖尿病は長い間人々に影響を与え、人々の間でより速く成長しています。 2018年にWHOが報告した糖尿病患者数は4億2200万人に達し、18歳以上の成人の糖尿病の世界的な流行は8.5%に上昇しました。 今糖尿病は、長い間それの影響を受けた人々の間で症状を示さないまたは非常に少数の病気であり、場合によっては、人々はそれを制御するチャンスを失ったときにそれを持っていることに気づく。 したがって、糖尿病を早期に診断することは、糖尿病を治す方法に大きな違いをもたらします。 本稿では,この方向に向かって,ディープラーニングを用いて糖尿病を無費用で検出する液体機械学習手法を考案した。 この作業では、520インスタンスのデータセットを使用しました。 提案手法は, これまでの成果に有意な改善が認められた。 小さなデータセットをうまく一般化する能力は、医療科学におけるより少ないデータの重要な問題を扱う。

As witnessed in the past year, where the world was brought to the ground by a pandemic, fighting Life-threatening diseases have found greater focus than ever. The first step in fighting a disease is to diagnose it at the right time. Diabetes has been affecting people for a long time and is growing among people faster than ever. The number of people who have Diabetes reached 422 million in 2018, as reported by WHO, and the global prevalence of diabetes among adults above the age of 18 has risen to 8.5%. Now Diabetes is a disease that shows no or very few symptoms among the people affected by it for a long time, and even in some cases, people realize they have it when they have lost any chance of controlling it. So getting Diabetes diagnosed at an early stage can make a huge difference in how one can approach curing it. Moving in this direction in this paper, we have designed a liquid machine learning approach to detect Diabetes with no cost using deep learning. In this work, we have used a dataset of 520 instances. Our approach shows a significant improvement in the previous state-of-the-art results. Its power to generalize well on small dataset deals with the critical problem of lesser data in medical sciences.
翻訳日:2021-02-27 02:45:00 公開日:2021-02-22
# (参考訳) ヒルクライミング領域におけるニューラルアーキテクチャ探索のための新しいフレームワーク [全文訳有]

A Novel Framework for Neural Architecture Search in the Hill Climbing Domain ( http://arxiv.org/abs/2102.12985v1 )

ライセンス: CC BY 4.0
Mudit Verma, Pradyumna Sinha, Karan Goyal, Apoorva Verma and Seba Susan(参考訳) ニューラルネットワークは、画像ドメインの複雑な問題を解決するために長年使われてきたが、同じニーズを手作業で設計する。 さらに、与えられたデータセットに適したディープラーニングアーキテクチャを自動生成する技術は、広範囲な計算資源と時間を要する強化学習と進化的手法を頻繁に利用している。 本稿では,新しい勾配更新スキームを用いた準同型演算子を用いたヒルクライミング手順に基づくニューラルアーキテクチャ探索のための新しいフレームワークを提案する。 今回のアップデートは、ニューラルネットワークレイヤの老朽化と、全体的なトレーニング時間の短縮に基づくものだ。 この技術は、その後、競争結果をもたらす広い検索空間で検索することができます。 単一のGPUトレーニングの19.4時間でCIFAR-10データセットの4.96%のエラー率を達成した。

Neural networks have now long been used for solving complex problems of image domain, yet designing the same needs manual expertise. Furthermore, techniques for automatically generating a suitable deep learning architecture for a given dataset have frequently made use of reinforcement learning and evolutionary methods which take extensive computational resources and time. We propose a new framework for neural architecture search based on a hill-climbing procedure using morphism operators that makes use of a novel gradient update scheme. The update is based on the aging of neural network layers and results in the reduction in the overall training time. This technique can search in a broader search space which subsequently yields competitive results. We achieve a 4.96% error rate on the CIFAR-10 dataset in 19.4 hours of a single GPU training.
翻訳日:2021-02-27 02:38:41 公開日:2021-02-22
# エネルギー系物理システムのためのニューラルネットワークの普遍近似特性

Universal Approximation Properties of Neural Networks for Energy-Based Physical Systems ( http://arxiv.org/abs/2102.11923v1 )

ライセンス: Link先を確認
Yuhan Chen, Takashi Matsubara, Takaharu Yaguchi(参考訳) ハミルトン力学やランダウ理論では、多くの物理現象はエネルギーを用いてモデル化される。 本稿では,このような物理現象に対するニューラルネットワークモデルの普遍的な近似特性を証明する。 また、カム理論を適用して損失関数が完全に消滅しない場合の可積分ハミルトニアン系のモデルの挙動についても論じる。

In Hamiltonian mechanics and the Landau theory, many physical phenomena are modeled using energy. In this paper, we prove the universal approximation property of neural network models for such physical phenomena. We also discuss behaviors of the models for integrable Hamiltonian systems when the loss function does not vanish completely by applying the KAM theory.
翻訳日:2021-02-25 13:21:48 公開日:2021-02-22
# (参考訳) RUBERT:クロスリンガル変換学習を用いたバイリンガルローマ語Urdu BERT [全文訳有]

RUBERT: A Bilingual Roman Urdu BERT Using Cross Lingual Transfer Learning ( http://arxiv.org/abs/2102.11278v1 )

ライセンス: CC BY 4.0
Usama Khalid, Mirza Omer Beg, Muhammad Umair Arshad(参考訳) 近年の研究では、多言語言語モデルが単言語モデルに劣ることが示されている。 また、各言語に対する単言語モデルのトレーニングとメンテナンスがコストと時間を要するプロセスであることもよく知られている。 Roman Urduは、ソーシャルメディアプラットフォームやチャットアプリで広く使われているリソーススタベド言語である。 本研究では,54Mトークンと3M文を含むスクレイピングツイートのデータセットを提案する。 さらに,英語 BERT の事前学習を付加したバイリンガルなローマ語ウルドゥーモデル RUBERT を提案する。 私たちは、そのパフォーマンスを、ゼロから訓練されたモノリンガルローマUrdu BERTと、多言語BERTの追加の事前トレーニングによって作成された多言語ローマUrdu BERTと比較します。 実験を通じて、英語のBERTの予備トレーニングが最も顕著なパフォーマンス向上をもたらすことを示しています。

In recent studies, it has been shown that Multilingual language models underperform their monolingual counterparts. It is also a well-known fact that training and maintaining monolingual models for each language is a costly and time-consuming process. Roman Urdu is a resource-starved language used popularly on social media platforms and chat apps. In this research, we propose a novel dataset of scraped tweets containing 54M tokens and 3M sentences. Additionally, we also propose RUBERT a bilingual Roman Urdu model created by additional pretraining of English BERT. We compare its performance with a monolingual Roman Urdu BERT trained from scratch and a multilingual Roman Urdu BERT created by additional pretraining of Multilingual BERT. We show through our experiments that additional pretraining of the English BERT produces the most notable performance improvement.
翻訳日:2021-02-25 08:46:14 公開日:2021-02-22
# (参考訳) 生成的アルキメデス・コピュラス [全文訳有]

Generative Archimedean Copulas ( http://arxiv.org/abs/2102.11351v1 )

ライセンス: CC BY 4.0
Yuting Ng, Ali Hasan, Khalil Elkhalil, Vahid Tarokh(参考訳) 多次元累積分布関数(CDF)をコーミュラ形式で学習するための新しい生成モデリング手法を提案する。 具体的には、アルキメデスおよび階層的アルキメデスコプラと呼ばれるコプラの特定のクラスを検討し、その同義表現と異なる尾の依存性をモデル化する能力のために人気がある。 我々は、それらの表現を、生成ニューラルネットワークからの潜入ランダム変数のLaplace変換との混合モデルとして考える。 この代替表現は、特に高次元でのサンプリングと計算効率を容易にできる。 さらに、モデルパラメータを最適化する複数の方法を説明します。 最後に,従来の手法と比較して,多次元CDFの学習における提案手法の有効性と計算効率を実証する実験結果を示す。

We propose a new generative modeling technique for learning multidimensional cumulative distribution functions (CDFs) in the form of copulas. Specifically, we consider certain classes of copulas known as Archimedean and hierarchical Archimedean copulas, popular for their parsimonious representation and ability to model different tail dependencies. We consider their representation as mixture models with Laplace transforms of latent random variables from generative neural networks. This alternative representation allows for easy sampling and computational efficiencies especially in high dimensions. We additionally describe multiple methods for optimizing the model parameters. Finally, we present empirical results that demonstrate the efficacy of our proposed method in learning multidimensional CDFs and its computational efficiency compared to existing methods.
翻訳日:2021-02-25 06:58:53 公開日:2021-02-22
# (参考訳) サンドイッチバッチ正規化 [全文訳有]

Sandwich Batch Normalization ( http://arxiv.org/abs/2102.11382v1 )

ライセンス: CC BY 4.0
Xinyu Gong, Wuyang Chen, Tianlong Chen and Zhangyang Wang(参考訳) 数行のコード変更しか行わない,恥ずかしいほど簡単なバッチ正規化(BN)の改善であるサンドウィッチバッチ正規化(SaBN)を提案する。 SaBNは、データ不均質性(複数の入力ドメイン)またはモデル不均質性(動的アーキテクチャ、モデルコンディショニングなど)から生じる可能性がある多くのタスクで識別できる固有の特徴分布の不均質性に対処することによって動機づけられる。 我々のSaBNはBNアフィン層を1つのサンドイッチアフィン層に分解し、複数の平行な独立したアフィン層でカスケードする。 具体的な分析によると、最適化中、SaBNはバランスの取れた勾配ノルムを促進しながら、様々な勾配の方向を保っている。 私たちは、$\textbf{conditional image generation}$、$\textbf{neural architecture search}$(NAS)、$\textbf{adversarial training}$、$\textbf{arbitrary style transfer}$の4つのタスクにおいて、SaBNのドロップイン代替としての一般的な有効性を示す。 SaBNの活用により、CIFAR-10およびImageNetの3つの最先端のGANによる受信スコアとFIDがすぐに向上し、NAS-Bench-201で最先端の重量共有NASアルゴリズムのパフォーマンスが大幅に向上します。 SaBNが機能する理由を理解するために、視覚化と分析も提供しています。 コードはhttps://github.com/V ITA-Group/Sandwich-B atch-Normalizationで入手できる。

We present Sandwich Batch Normalization (SaBN), an embarrassingly easy improvement of Batch Normalization (BN) with only a few lines of code changes. SaBN is motivated by addressing the inherent feature distribution heterogeneity that one can be identified in many tasks, which can arise from data heterogeneity (multiple input domains) or model heterogeneity (dynamic architectures, model conditioning, etc.). Our SaBN factorizes the BN affine layer into one shared sandwich affine layer, cascaded by several parallel independent affine layers. Concrete analysis reveals that, during optimization, SaBN promotes balanced gradient norms while still preserving diverse gradient directions: a property that many application tasks seem to favor. We demonstrate the prevailing effectiveness of SaBN as a drop-in replacement in four tasks: $\textbf{conditional image generation}$, $\textbf{neural architecture search}$ (NAS), $\textbf{adversarial training}$, and $\textbf{arbitrary style transfer}$. Leveraging SaBN immediately achieves better Inception Score and FID on CIFAR-10 and ImageNet conditional image generation with three state-of-the-art GANs; boosts the performance of a state-of-the-art weight-sharing NAS algorithm significantly on NAS-Bench-201; substantially improves the robust and standard accuracies for adversarial defense; and produces superior arbitrary stylized results. We also provide visualizations and analysis to help understand why SaBN works. Codes are available at https://github.com/V ITA-Group/Sandwich-B atch-Normalization.
翻訳日:2021-02-25 01:39:58 公開日:2021-02-22
# (参考訳) MixUpトレーニングはトランスフォーマーアーキテクチャのオーバーフィッティングとキャリブレーションを改善する [全文訳有]

MixUp Training Leads to Reduced Overfitting and Improved Calibration for the Transformer Architecture ( http://arxiv.org/abs/2102.11402v1 )

ライセンス: CC BY 4.0
Wancong Zhang, Ieshan Vaidya(参考訳) MixUpは、入力データとそのラベルの凸補間を使用してトレーニング中のモデル一般化を強化するコンピュータビジョンデータ拡張技術です。 しかし、入力空間に直接テキストを補間することは困難であるため、自然言語理解(NLU)ドメインへのMixUpの適用は制限されている。 本研究では,トランスアーキテクチャにおける入力,マニホールド,文埋め込みレベルでのMixUp法を提案し,さまざまなNLUタスクに対してBERTモデルを微調整する。 mixupはモデルのパフォーマンスを向上し、テスト損失とモデルのキャリブレーションエラーを最大50%削減できることが分かりました。

MixUp is a computer vision data augmentation technique that uses convex interpolations of input data and their labels to enhance model generalization during training. However, the application of MixUp to the natural language understanding (NLU) domain has been limited, due to the difficulty of interpolating text directly in the input space. In this study, we propose MixUp methods at the Input, Manifold, and sentence embedding levels for the transformer architecture, and apply them to finetune the BERT model for a diverse set of NLU tasks. We find that MixUp can improve model performance, as well as reduce test loss and model calibration error by up to 50%.
翻訳日:2021-02-25 00:52:17 公開日:2021-02-22
# (参考訳) レジェンドメモリユニットトレーニングの並列化 [全文訳有]

Parallelizing Legendre Memory Unit Training ( http://arxiv.org/abs/2102.11417v1 )

ライセンス: CC BY 4.0
Narsimha Chilkuri, Chris Eliasmith(参考訳) 近年,リカレントニューラルネットワーク(rnn)であるlegendre memory unit(lmu)が提案され,いくつかのベンチマークデータセットで最先端のパフォーマンスを実現することが示されている。 ここでは、LMUの線形時間不変(LTI)メモリコンポーネントを利用して、トレーニング中に並列化できる(推論時にRNNとして実行される)単純化されたバリアントを構築し、GPU上でのRNNのトレーニングの制限を克服する。 並列化を支援するこの変換は、リカレントコンポーネントが線形であるディープネットワークに一般的に適用できるため、最大200倍の高速なトレーニングを実現する。 第2に,本手法の有用性を検証するため,psmnist,感情分析,機械翻訳の7つのベンチマークにおいて,その性能をオリジナルのlmuおよび様々なlstmおよびトランスフォーマネットワークと比較した。 モデルがすべてのデータセットに対して優れたパフォーマンスを示し、パラメータが少ないことがよく示されています。 例えば、我々のLMUは、psMNISTに新しい最先端結果を設定し、IMDBの感情分析で DistilBERT と LSTM モデルより優れています。

Recently, a new recurrent neural network (RNN) named the Legendre Memory Unit (LMU) was proposed and shown to achieve state-of-the-art performance on several benchmark datasets. Here we leverage the linear time-invariant (LTI) memory component of the LMU to construct a simplified variant that can be parallelized during training (and yet executed as an RNN during inference), thus overcoming a well known limitation of training RNNs on GPUs. We show that this reformulation that aids parallelizing, which can be applied generally to any deep network whose recurrent components are linear, makes training up to 200 times faster. Second, to validate its utility, we compare its performance against the original LMU and a variety of published LSTM and transformer networks on seven benchmarks, ranging from psMNIST to sentiment analysis to machine translation. We demonstrate that our models exhibit superior performance on all datasets, often using fewer parameters. For instance, our LMU sets a new state-of-the-art result on psMNIST, and uses half the parameters while outperforming DistilBERT and LSTM models on IMDB sentiment analysis.
翻訳日:2021-02-25 00:43:50 公開日:2021-02-22
# (参考訳) 犬のトーソラジオグラフをソートするための軽量複合機械学習アルゴリズム [全文訳有]

Lightweight Combinational Machine Learning Algorithm for Sorting Canine Torso Radiographs ( http://arxiv.org/abs/2102.11385v1 )

ライセンス: CC BY 4.0
Masuda Akter Tonima, Fatemeh Esfahani, Austin Dehart, Youmin Zhang(参考訳) 獣医分野は、人間の医療分野で行われた膨大な技術進歩とは対照的に、自動化を欠いています。 機械学習技術の実装は、自動化プロセスのあらゆるステップを短縮できます。 本稿では,犬歯のx線画像の表示と解剖による分類の自動化から,これらの中核概念を考察する。 これはAlexNet、Inception、SqueezeNetに触発された新しい軽量アルゴリズムの開発によって実現される。 提案されたモジュールは、AlexNet、ResNet、DenseNet、SqueezeNetよりも高い精度を維持しながら、SqueezeNetよりも軽量であることが証明されている。

The veterinary field lacks automation in contrast to the tremendous technological advances made in the human medical field. Implementation of machine learning technology can shorten any step of the automation process. This paper explores these core concepts and starts with automation in sorting radiographs for canines by view and anatomy. This is achieved by developing a new lightweight algorithm inspired by AlexNet, Inception, and SqueezeNet. The proposed module proves to be lighter than SqueezeNet while maintaining accuracy higher than that of AlexNet, ResNet, DenseNet, and SqueezeNet.
翻訳日:2021-02-24 23:23:24 公開日:2021-02-22
# (参考訳) Gumbel Softmaxによる重み付きグラフノードクラスタリング [全文訳有]

Weighted Graph Nodes Clustering via Gumbel Softmax ( http://arxiv.org/abs/2102.10775v1 )

ライセンス: CC0 1.0
Deepak Bhaskar Acharya, Huaming Zhang(参考訳) グラフはデータサイエンスにおけるユビキタスなデータ構造であり、ソーシャルネットワーク、知識表現グラフ、レコメンデーションシステムなどで広く利用されている。 グラフが一般に重み付けされる1つのグラフまたは複数のグラフからなるグラフデータセットが与えられると、最初のステップはグラフ内のクラスタを見つけることである。 本稿では,重み付きグラフデータセットをクラスタリングするためのグラフクラスタリングアルゴリズムについて,gumbel softmax(略してwgcgs)による重み付きグラフノードクラスタリングと呼ぶ,現在進行中の研究結果を紹介する。 WGCGSをKarate Clubの重み付きネットワークデータセットに適用する。 本研究では,wgcgsが空手クラブ重み付きネットワークデータセットのクラスタを効率的かつ効果的に発見できることを実証する。 本アルゴリズムの有効性は,(1)アルゴリズムから得られたクラスタリング結果とデータセットのラベルを比較し,(2)クラスタリングアルゴリズムと他の最先端グラフクラスタリングアルゴリズムとの各種メトリクスを比較することで実証される。

Graph is a ubiquitous data structure in data science that is widely applied in social networks, knowledge representation graphs, recommendation systems, etc. When given a graph dataset consisting of one graph or more graphs, where the graphs are weighted in general, the first step is often to find clusters in the graphs. In this paper, we present some ongoing research results on graph clustering algorithms for clustering weighted graph datasets, which we name as Weighted Graph Node Clustering via Gumbel Softmax (WGCGS for short). We apply WGCGS on the Karate club weighted network dataset. Our experiments demonstrate that WGCGS can efficiently and effectively find clusters in the Karate club weighted network dataset. Our algorithm's effectiveness is demonstrated by (1) comparing the clustering result obtained from our algorithm and the given labels of the dataset; and (2) comparing various metrics between our clustering algorithm and other state-of-the-art graph clustering algorithms.
翻訳日:2021-02-24 21:45:00 公開日:2021-02-22
# (参考訳) 多重照明学習スペクトル脱色法による定量的光音響オキシメトリイメージング [全文訳有]

Quantitative photoacoustic oximetry imaging by multiple illumination learned spectral decoloring ( http://arxiv.org/abs/2102.11201v1 )

ライセンス: CC BY 4.0
Thomas Kirchner and Martin Frenz(参考訳) 意義:光音響(PA)イメージングによる血液酸素飽和度(sO$_2$)の定量測定は、その広い範囲の生物医学的応用のために定量的PAイメージング研究の最も求められている目標の1つです。 Aim: PAイメージングを用いた局所sO$_2$の高精度かつ適用可能なリアルタイム定量化手法。 アプローチ:我々は、複数の照明(MI)センシングと学習されたスペクトル変色(LSD)を組み合わせて、実際のPA測定に訓練されたモデルを適用するために、スペクトル着色吸収エネルギースペクトルのモンテカルロシミュレーションのトレーニング。 銅および硫酸ニッケル溶液をベースとしたMI-LSD法を,信頼性が高く再現性が高く,スケーラブルなファントムモデルで検証した。 結果: この硫酸塩モデルではMI-LSDを用いた推定精度が一貫して高く, 絶対推定誤差は2.5~4.5ポイントであった。 また,MI-LSD推定ではLSDに比べてアウトリー数が少なくなった。 ランダムフォレスト回帰器は、以前報告されたニューラルネットワークアプローチより優れている。 結論: ランダムフォレストに基づくmi-lsdは, 定量的paオキシメトリーイメージングに有望な手法である。

Significance: Quantitative measurement of blood oxygen saturation (sO$_2$) with photoacoustic (PA) imaging is one of the most sought after goals of quantitative PA imaging research due to its wide range of biomedical applications. Aim: A method for accurate and applicable real-time quantification of local sO$_2$ with PA imaging. Approach: We combine multiple illumination (MI) sensing with learned spectral decoloring (LSD); training on Monte Carlo simulations of spectrally colored absorbed energy spectra, in order to apply the trained models to real PA measurements. We validate our combined MI-LSD method on a highly reliable, reproducible and easily scalable phantom model, based on copper and nickel sulfate solutions. Results: With this sulfate model we see a consistently high estimation accuracy using MI-LSD, with median absolute estimation errors of 2.5 to 4.5 percentage points. We further find fewer outliers in MI-LSD estimates compared to LSD. Random forest regressors outperform previously reported neural network approaches. Conclusions: Random forest based MI-LSD is a promising method for accurate quantitative PA oximetry imaging.
翻訳日:2021-02-24 20:56:12 公開日:2021-02-22
# (参考訳) Hide and Seek: コミュニティ検出アルゴリズムのアウトウィット [全文訳有]

Hide and Seek: Outwitting Community Detection Algorithms ( http://arxiv.org/abs/2102.10759v1 )

ライセンス: CC BY 4.0
Shravika Mittal, Debarka Sengupta, Tanmoy Chakraborty(参考訳) ノードのコミュニティ所属は、ネットワーク内のコンテキスト位置を決定する上で重要な役割を果たします。 標的となるコミュニティは、しばしば敵から身を守るために、その構成員がネットワークの中に隠れている。 本研究は,このようなセンシティブなコミュニティを隠蔽し,対象ノードのコミュニティ連携を隠蔽することに焦点を当てている。 これにより,ネットワーク内のノードを最小に切り換える手法を調査し,対象のコミュニティがコミュニティ検出アルゴリズムから最大限に隠れるようにするコミュニティの騙し問題が発生する。 コミュニティ・デセプションの問題を定式化し,ノード中心の目的関数をグレッシブに最適化した新しい手法であるneuralを導入する。 理論的設定は、目的関数を最適化するために使用できる戦略の数を制限し、それによって複数の選択肢から最良の戦略を選択するオーバーヘッドを減らす。 また,目的関数はサブモジュラーかつモノトーンであることが示される。 合成ネットワークと7つの実世界のネットワークでテストすると、neuralは6つのコミュニティ検出アルゴリズムを欺くことができる。 4つの評価指標において,その性能を最先端の4つの手法でベンチマークする。 さらに、他の3つの属性付き実世界のネットワークを定性分析した結果、NEURALは、その位相構造だけを観察することでは推測できないようなエッジに関する重要なメタ情報を非常に顕著に捉えていることが明らかになった。

Community affiliation of a node plays an important role in determining its contextual position in the network, which may raise privacy concerns when a sensitive node wants to hide its identity in a network. Oftentimes, a target community seeks to protect itself from adversaries so that its constituent members remain hidden inside the network. The current study focuses on hiding such sensitive communities so that the community affiliation of the targeted nodes can be concealed. This leads to the problem of community deception which investigates the avenues of minimally rewiring nodes in a network so that a given target community maximally hides from a community detection algorithm. We formalize the problem of community deception and introduce NEURAL, a novel method that greedily optimizes a node-centric objective function to determine the rewiring strategy. Theoretical settings pose a restriction on the number of strategies that can be employed to optimize the objective function, which in turn reduces the overhead of choosing the best strategy from multiple options. We also show that our objective function is submodular and monotone. When tested on both synthetic and 7 real-world networks, NEURAL is able to deceive 6 widely used community detection algorithms. We benchmark its performance with respect to 4 state-of-the-art methods on 4 evaluation metrics. Additionally, our qualitative analysis of 3 other attributed real-world networks reveals that NEURAL, quite strikingly, captures important meta-information about edges that otherwise could not be inferred by observing only their topological structures.
翻訳日:2021-02-24 19:29:36 公開日:2021-02-22
# (参考訳) 誰か歌って [全文訳有]

Anyone GAN Sing ( http://arxiv.org/abs/2102.11058v1 )

ライセンス: CC BY 4.0
Shreeviknesh Sankaran, Sukavanan Nanjundan, G. Paavai Anand(参考訳) 音声合成の問題はディープニューラルネットワークを用いてますます解決されている。 GAN(Generative Adversarial Networks)の導入により、この問題を解決するために、より効率的で形容詞的な経路が開かれた。 本稿では,Wasserstein損失関数を用いて最適化されたConvolutional Long Short-Term Memory (ConvLSTM)ベースのGANを用いて,人の歌声を合成する方法を提案する。 私たちの仕事は、ChandnaらによるWGANSingにインスパイアされています。 我々のモデルは連続したフレーム単位の言語的特徴と周波数的特徴と、歌手のアイデンティティとボコーダの特徴を入力します。 12人の非プロ歌手が歌って話した48の英語の歌のデータセットでモデルをトレーニングする。 推論では、シーケンシャルブロックはオーバーラップ加算手順を使って連結される。 本研究では,Mel-Cepstral Distance metricと主観的リスニングテストを18名で実施した。

The problem of audio synthesis has been increasingly solved using deep neural networks. With the introduction of Generative Adversarial Networks (GAN), another efficient and adjective path has opened up to solve this problem. In this paper, we present a method to synthesize the singing voice of a person using a Convolutional Long Short-term Memory (ConvLSTM) based GAN optimized using the Wasserstein loss function. Our work is inspired by WGANSing by Chandna et al. Our model inputs consecutive frame-wise linguistic and frequency features, along with singer identity and outputs vocoder features. We train the model on a dataset of 48 English songs sung and spoken by 12 non-professional singers. For inference, sequential blocks are concatenated using an overlap-add procedure. We test the model using the Mel-Cepstral Distance metric and a subjective listening test with 18 participants.
翻訳日:2021-02-24 18:37:06 公開日:2021-02-22
# (参考訳) 画像処理とニューラルネットワークを用いた送電線における断層位置の決定 [全文訳有]

Determination of Fault Location in Transmission Lines with Image Processing and Artificial Neural Networks ( http://arxiv.org/abs/2102.11073v1 )

ライセンス: CC BY 4.0
Serkan Budak and Bahadir Akbal(参考訳) 電気エネルギーを連続的かつ高品質に伝達するためには、生産点から消費点まで制御する必要がある。 したがって、生産から消費まで、あらゆる段階で送電線と配電線の保護が不可欠です。 電気設備における保護リレーの主な機能は、システム内の短絡が発生した場合にできるだけ早く解除されるべきである。 システムの最も重要な部分は、これらのラインを保護するエネルギー伝送ラインと距離保護リレーです。 高速かつ効率的な作業には、正確なエラーロケーション技術が必要である。 送電線で接地する変圧器の中立ポイントは電力系統の接地短絡の失敗に単一フェーズの間にゼロ部品流れの操作に影響を与えます。 接地システムと保護システムとの関係を考慮すると,適切な接地選択を行う必要がある。 ANN(Artificial Neural Network)は、伝送路内の異なる接地系における短い回路欠陥を正確に検出するために用いられる。 ANN内部のテストのためのサポートベクター機械(SVM)と比較されて送電線モデルはPSCAD-EMTDCのシミュレーション プログラムでなされます。 距離保護リレーのR-Xインピーダンス図のインピーダンス変化を、異なる接地系で生成された短絡断層に記録することにより、データセットを作成する。 特徴抽出および画像処理技術を用いた異なるANNモデルの紹介として画像内の関連する焦点が与えられ、最高欠陥位置推定精度のANNモデルが選択された。

In order to transmit electrical energy in a continuous and quality manner, it is necessary to control it from the point of production to the point of consumption. Therefore, protection of transmission and distribution lines is essential at every stage from production to consumption. The main function of the protection relays in electrical installations should be deactivated as soon as possible in the event of short circuits in the system. The most important part of the system is energy transmission lines and distance protection relays that protect these lines. An accurate error location technique is required to make fast and efficient work. Transformer neutral point grounding in transmission lines affects the operation of the zero component current during the single phase to ground short circuit failure of a power system. Considering the relationship between the grounding system and protection systems, an appropriate grounding choice should be made. Artificial neural network (ANN) has been used in order to accurately locate short circuit faults in different grounding systems in transmission lines. Compared with support vector machines (SVM) for testing inside ANN The transmission line model is made in the PSCAD-EMTDC simulation program. Data sets were created by recording the image of the impedance change of the R-X impedance diagram of the distance protection relay in short circuit faults created in different grounding systems. The related focal points in the images are given as an introduction to different ANN models using feature extraction and image processing techniques and the ANN model with the highest fault location estimation accuracy was chosen.
翻訳日:2021-02-24 18:26:11 公開日:2021-02-22
# (参考訳) 未知チャネルのないコミュニケーションシステムの残存支援エンドツーエンド学習 [全文訳有]

Residual-Aided End-to-End Learning of Communication System without Known Channel ( http://arxiv.org/abs/2102.10786v1 )

ライセンス: CC0 1.0
Hao Jiang, Shuangkaisheng Bi, and Linglong Dai(参考訳) 強力なディープラーニング技術を活用することで、通信システムのエンドツーエンド(E2E)学習は、古典的な通信システムより優れている。 残念ながら、この通信システムは、既知のチャネルなしではディープラーニングによってトレーニングすることはできない。 この問題に対処するために,最近,実チャネルを模倣する生成型逆ネットワーク(gan)ベースのトレーニングスキームが提案されている。 しかし、GANの勾配の消失と過度適合の問題は、通信システムのE2E学習の重大な性能劣化をもたらす。 この2つの問題を解決するため,本論文では残存補助GAN(RA-GAN)ベースのトレーニングスキームを提案する。 特に,残差学習の考え方に触発されて,より頑健な勾配バックプロパゲーションを実現することで勾配消失問題を緩和する残差生成器を提案する。 さらに,オーバーフィッティング問題に対処するために,ra-ganの表現能力を制限する正則化器を追加することで,トレーニングの損失関数を再構成する。 シミュレーションの結果、訓練された残差発生器は従来の生成器よりも優れた生成性能を示し、提案手法は理論チャネルモデルとレイトレーシングに基づくチャネルデータセットの両方において計算の複雑さを無視できるほど、最適化ブロックエラーレート(bler)の性能を達成できることがわかった。

Leveraging powerful deep learning techniques, the end-to-end (E2E) learning of communication system is able to outperform the classical communication system. Unfortunately, this communication system cannot be trained by deep learning without known channel. To deal with this problem, a generative adversarial network (GAN) based training scheme has been recently proposed to imitate the real channel. However, the gradient vanishing and overfitting problems of GAN will result in the serious performance degradation of E2E learning of communication system. To mitigate these two problems, we propose a residual aided GAN (RA-GAN) based training scheme in this paper. Particularly, inspired by the idea of residual learning, we propose a residual generator to mitigate the gradient vanishing problem by realizing a more robust gradient backpropagation. Moreover, to cope with the overfitting problem, we reconstruct the loss function for training by adding a regularizer, which limits the representation ability of RA-GAN. Simulation results show that the trained residual generator has better generation performance than the conventional generator, and the proposed RA-GAN based training scheme can achieve the near-optimal block error rate (BLER) performance with a negligible computational complexity increase in both the theoretical channel model and the ray-tracing based channel dataset.
翻訳日:2021-02-24 16:39:51 公開日:2021-02-22
# (参考訳) 言語特性のためのマルチモーダル埋め込みの探究:ビジュアルセマンティックケース [全文訳有]

Probing Multimodal Embeddings for Linguistic Properties: the Visual-Semantic Case ( http://arxiv.org/abs/2102.11115v1 )

ライセンス: CC BY 4.0
Adam Dahlgren Lindstr\"om, Suna Bensch, Johanna Bj\"orklund, Frank Drewes(参考訳) セマンティック埋め込みは無数の自然言語処理タスクのための最先端の技術であり、ビジュアルセマンティック埋め込みのようなマルチモーダルドメインへの様々な拡張が提案されている。 視覚的セマンティック埋め込みの力は、機械学習による情報の蒸留と充実から来ているが、その内部の働きは理解が悪く、分析ツールが不足している。 この問題に対処するために,探索タスクの概念を視覚的なケースに一般化する。 この目的のために、(i)画像キャプチャペアの埋め込みのための探索タスクの形式化、(ii)一般的なフレームワーク内の3つの具体的な探索タスクの定義、(iii)これらの特性を探索する列車分類器、(iv)提案された探索タスクのレンズ下の様々な最先端の埋め込みを比較した。 実験では,視覚・視覚組込みの精度が,対応するユニモーダル組込みに比べて最大12%向上することを明らかにし,前者で表されるテキストと画像の寸法が相補的であることが示唆された。

Semantic embeddings have advanced the state of the art for countless natural language processing tasks, and various extensions to multimodal domains, such as visual-semantic embeddings, have been proposed. While the power of visual-semantic embeddings comes from the distillation and enrichment of information through machine learning, their inner workings are poorly understood and there is a shortage of analysis tools. To address this problem, we generalize the notion of probing tasks to the visual-semantic case. To this end, we (i) discuss the formalization of probing tasks for embeddings of image-caption pairs, (ii) define three concrete probing tasks within our general framework, (iii) train classifiers to probe for those properties, and (iv) compare various state-of-the-art embeddings under the lens of the proposed probing tasks. Our experiments reveal an up to 12% increase in accuracy on visual-semantic embeddings compared to the corresponding unimodal embeddings, which suggest that the text and image dimensions represented in the former do complement each other.
翻訳日:2021-02-24 15:55:33 公開日:2021-02-22
# (参考訳) マルチモーダルなマルチタスク学習を統一トランスフォーマーで実現するtransformer [全文訳有]

Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer ( http://arxiv.org/abs/2102.10772v1 )

ライセンス: CC BY 4.0
Ronghang Hu, Amanpreet Singh(参考訳) 本稿では,オブジェクト検出から言語理解,マルチモーダル推論まで,さまざまな領域でもっとも顕著なタスクを同時に学習する統一トランスフォーマーモデルであるunitを提案する。 変換器エンコーダ-デコーダアーキテクチャに基づいて,我々のUniTモデルは各入力モダリティをエンコーダで符号化し,共有デコーダで各タスクの予測を行い,次いでタスク固有の出力ヘッドを出力する。 モデル全体は、各タスクからの損失を伴うエンドツーエンドのトレーニングを共同で行います。 トランスフォーマーを用いたマルチタスク学習における従来の取り組みと比較して、タスク固有のモデルを個別に微調整する代わりに、同じモデルパラメータをすべてのタスクに共有し、異なるドメインにわたるより高度なタスクを処理する。 実験では、8つのデータセットで7つのタスクを共同で学習し、モデルパラメータのコンパクトなセットで同じ監督の下で各ドメイン上で確立された事前作業に匹敵するパフォーマンスを達成する。 コードはMMFでhttps://mmf.sh.comでリリースされる。

We propose UniT, a Unified Transformer model to simultaneously learn the most prominent tasks across different domains, ranging from object detection to language understanding and multimodal reasoning. Based on the transformer encoder-decoder architecture, our UniT model encodes each input modality with an encoder and makes predictions on each task with a shared decoder over the encoded input representations, followed by task-specific output heads. The entire model is jointly trained end-to-end with losses from each task. Compared to previous efforts on multi-task learning with transformers, we share the same model parameters to all tasks instead of separately fine-tuning task-specific models and handle a much higher variety of tasks across different domains. In our experiments, we learn 7 tasks jointly over 8 datasets, achieving comparable performance to well-established prior work on each domain under the same supervision with a compact set of model parameters. Code will be released in MMF at https://mmf.sh.
翻訳日:2021-02-24 15:04:44 公開日:2021-02-22
# 組織マイクロアレイ画像のスコアリングのための低次元マニホールドの学習

Learning Low-dimensional Manifolds for Scoring of Tissue Microarray Images ( http://arxiv.org/abs/2102.11396v1 )

ライセンス: Link先を確認
Donghui Yan, Jian Zou, Zhenpeng Li(参考訳) 組織マイクロアレイ(TMA)画像は、がん研究およびバイオマーカーの検証のための重要な高スループットツールとして浮上しています。 TMA画像のための最先端の自動スコアリングアルゴリズムであるTACOMAの精度をさらに向上させるために努力しています。 主な進歩の1つは、群自然の適切な深部表現を組み込んだアルゴリズムであるdeeptacomaである。 半教師付き学習と深層学習の最近の進歩に触発されて,TMA画像スコアリングの文脈において,代替的な深部表現を学習するためのmfTacomaを提案する。 特に mfTacoma は、高次元データにおける共通の潜在構造である低次元多様体を学習する。 深層表現学習と多様体学習は通常大きなデータを必要とする。 多様体の深い表現を正規化特徴として符号化することで、mftacomaは小さなデータによって潜在的に粗い多様体情報を効果的に活用する。 実験により、多様体による深い特徴は、主成分分析を伴う線型多様体による深い特徴、あるいは群の性質を利用した2つの代替よりも優れていることが示された。

Tissue microarray (TMA) images have emerged as an important high-throughput tool for cancer study and the validation of biomarkers. Efforts have been dedicated to further improve the accuracy of TACOMA, a cutting-edge automatic scoring algorithm for TMA images. One major advance is due to deepTacoma, an algorithm that incorporates suitable deep representations of a group nature. Inspired by the recent advance in semi-supervised learning and deep learning, we propose mfTacoma to learn alternative deep representations in the context of TMA image scoring. In particular, mfTacoma learns the low-dimensional manifolds, a common latent structure in high dimensional data. Deep representation learning and manifold learning typically requires large data. By encoding deep representation of the manifolds as regularizing features, mfTacoma effectively leverages the manifold information that is potentially crude due to small data. Our experiments show that deep features by manifolds outperforms two alternatives -- deep features by linear manifolds with principal component analysis or by leveraging the group property.
翻訳日:2021-02-24 14:12:19 公開日:2021-02-22
# FaCells (複数形 FaCells) 顔スケッチ分類器上のLSTM層に関する探索的研究

The FaCells. An Exploratory Study about LSTM Layers on Face Sketches Classifiers ( http://arxiv.org/abs/2102.11361v1 )

ライセンス: Link先を確認
Xavier Ignacio Gonz\'alez(参考訳) 線は人間の精神的な抽象である。 ラインの束は図面を形成することができます。 図面のセットは、各描画を行のリストと点のリストとして考慮し、LSTMネットワーク入力層に供給することができます。 本稿では,セレブの肖像の性別を,幅広い,より芸術的な意味での探索の言い訳として分類する無意味な動機を提案する。 調査の結果、説得力のあるアイデアが議論された。 実験は、ネットワーク内の入力に描画を表現するさまざまな方法を比較し、絶対座標形式(x, y)が、レビューされた文献で最も頻繁に、先行点に関して相対的なもの(Dx, Dy)よりも優れたパフォーマーであることを示した。 実験はまた、LSTMの反復性のために、描画を形成する線の順序は、これまで研究されていないLSTM分類器の入力に関連する要因であることを示しました。 最小の「鉛筆」移動長さ基準は、TSP特定のインスタンスに減らすことにより、ラインオーダリングに適切であることが証明された。 性別分類のための最良の構成は、各入力ポイントステップの隠された状態値を返すLSTM層と、出力密度層の前にシーケンスに沿ってグローバル平均層で表示されます。 その結果、ネットワークパイプラインの平均を取り除き、テンソル次元を調整するだけでポイント毎の属性スコアを返すというアイデアが導かれた。 このトリックにより、モデルは描画中の属性を検出し、それに関連する点を認識する。 また、フィルタされた肖像画を重ね合わせることで、属性の視覚的本質が描かれる。 FaCellsをご覧ください。

Lines are human mental abstractions. A bunch of lines may form a drawing. A set of drawings can feed an LSTM network input layer, considering each draw as a list of lines and a line a list of points. This paper proposes the pointless motive to classify the gender of celebrities' portraits as an excuse for exploration in a broad, more artistic sense. Investigation results drove compelling ideas here discussed. The experiments compared different ways to represent draws to be input in a network and showed that an absolute format of coordinates (x, y) was a better performer than a relative one (Dx, Dy) with respect to prior points, most frequent in the reviewed literature. Experiments also showed that, due to the recurrent nature of LSTMs, the order of lines forming a drawing is a relevant factor for input in an LSTM classifier not studied before. A minimum 'pencil' traveled length criteria for line ordering proved suitable, possible by reducing it to a TSP particular instance. The best configuration for gender classification appears with an LSTM layer that returns the hidden state value for each input point step, followed by a global average layer along the sequence, before the output dense layer. That result guided the idea of removing the average in the network pipeline and return a per-point attribute score just by adjusting tensors dimensions. With this trick, the model detects an attribute in a drawing and also recognizes the points linked to it. Moreover, by overlapping filtered lines of portraits, an attribute's visual essence is depicted. Meet the FaCells.
翻訳日:2021-02-24 14:10:55 公開日:2021-02-22
# Stratified Experience Replay:Off-Policy Reinforcement Learningにおけるマルチプレシティーバイアスの修正

Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2102.11319v1 )

ライセンス: Link先を確認
Brett Daley, Cameron Hickert, Christopher Amato(参考訳) 深層強化学習(Deep Reinforcement Learning, RL)法は, 教師付き学習の最小限の設定を近似するために, 経験リプレイに依存するが, 多数のトレーニングデータへのアクセスが一般化に不可欠である教師付き学習とは異なり, リプレイベースの深部RLは, 余剰データの存在に苦慮しているように見える。 近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。 これは、古くなった経験がdeep rlのパフォーマンスに何らかの影響を与えていることを示唆している。 その結果,リプレイメモリ上で一様にサンプリングするモチベーションを再検討し,関数近似を用いた場合の欠陥を見出した。 従来の知識にもかかわらず,一様分布からのサンプリングは非相関なトレーニングサンプルを生成しないため,トレーニング中の勾配の偏りを示す。 本理論は,この効果を相殺するための特別な非一様分布を定式化し,効率的に実装するための階層化サンプリングスキームを提案する。

Deep Reinforcement Learning (RL) methods rely on experience replay to approximate the minibatched supervised learning setting; however, unlike supervised learning where access to lots of training data is crucial to generalization, replay-based deep RL appears to struggle in the presence of extraneous data. Recent works have shown that the performance of Deep Q-Network (DQN) degrades when its replay memory becomes too large. This suggests that outdated experiences somehow impact the performance of deep RL, which should not be the case for off-policy methods like DQN. Consequently, we re-examine the motivation for sampling uniformly over a replay memory, and find that it may be flawed when using function approximation. We show that -- despite conventional wisdom -- sampling from the uniform distribution does not yield uncorrelated training samples and therefore biases gradients during training. Our theory prescribes a special non-uniform distribution to cancel this effect, and we propose a stratified sampling scheme to efficiently implement it.
翻訳日:2021-02-24 14:09:49 公開日:2021-02-22
# GELATO:オフライン強化学習のためのジオメトリックエンリッチレイテンシモデル

GELATO: Geometrically Enriched Latent Model for Offline Reinforcement Learning ( http://arxiv.org/abs/2102.11327v1 )

ライセンス: Link先を確認
Guy Tennenholtz, Nir Baram, Shie Mannor(参考訳) オフライン強化学習アプローチは一般に近近法と不確実性認識法に分けられる。 本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。 我々は、状態と作用の潜在表現を課し、その固有リーマン幾何学を利用して潜在サンプルとデータの距離を測定する。 提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。 メトリクスをモデルベースのオフライン最適化フレームワークに統合し、近接性と不確実性を慎重に制御します。 単純な格子状の環境における測地学を、その自然固有のトポロジーを描写する。 最後に,我々のアプローチを分析し,現在のオフラインrlベンチマークを改善した。

Offline reinforcement learning approaches can generally be divided to proximal and uncertainty-aware methods. In this work, we demonstrate the benefit of combining the two in a latent variational model. We impose a latent representation of states and actions and leverage its intrinsic Riemannian geometry to measure distance of latent samples to the data. Our proposed metrics measure both the quality of out of distribution samples as well as the discrepancy of examples in the data. We integrate our metrics in a model-based offline optimization framework, in which proximity and uncertainty can be carefully controlled. We illustrate the geodesics on a simple grid-like environment, depicting its natural inherent topology. Finally, we analyze our approach and improve upon contemporary offline RL benchmarks.
翻訳日:2021-02-24 14:09:27 公開日:2021-02-22
# 強化学習における行動冗長性

Action Redundancy in Reinforcement Learning ( http://arxiv.org/abs/2102.11329v1 )

ライセンス: Link先を確認
Nir Baram, Guy Tennenholtz, Shie Mannor(参考訳) 最大エントロピー(MaxEnt)強化学習は、エントロピー正規化の下でのリターンを最大化しようとする強力な学習パラダイムです。 しかしながら、アクションエントロピーは必ずしも状態エントロピーと一致するとは限らない。例えば、複数のアクションが同じ遷移を引き起こす場合である。 代わりに、遷移エントロピー、すなわち次の状態のエントロピーを最大化することを提案する。 遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。 特に、決定論的および確率的設定で後者を探索し、ほぼモデルのない設定で抽出可能な近似法を開発する。 動作冗長性を最小化するアルゴリズムを構築し,複数の冗長な動作を伴う合成環境での有効性を示すとともに,atari や mujoco のコンテンポラリーベンチマークも構築する。 その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。

Maximum Entropy (MaxEnt) reinforcement learning is a powerful learning paradigm which seeks to maximize return under entropy regularization. However, action entropy does not necessarily coincide with state entropy, e.g., when multiple actions produce the same transition. Instead, we propose to maximize the transition entropy, i.e., the entropy of next states. We show that transition entropy can be described by two terms; namely, model-dependent transition entropy and action redundancy. Particularly, we explore the latter in both deterministic and stochastic settings and develop tractable approximation methods in a near model-free setup. We construct algorithms to minimize action redundancy and demonstrate their effectiveness on a synthetic environment with multiple redundant actions as well as contemporary benchmarks in Atari and Mujoco. Our results suggest that action redundancy is a fundamental problem in reinforcement learning.
翻訳日:2021-02-24 14:09:18 公開日:2021-02-22
# 分類・回帰のための深層学習における決定論的不確実性推定の改善

Improving Deterministic Uncertainty Estimation in Deep Learning for Classification and Regression ( http://arxiv.org/abs/2102.11409v1 )

ライセンス: Link先を確認
Joost van Amersfoort, Lewis Smith, Andrew Jesson, Oscar Key, Yarin Gal(参考訳) 本稿では,単一前方通過における不確かさを推定し,分類問題と回帰問題の両方に取り組む新しいモデルを提案する。 提案手法では,バイリプシッツ特徴抽出器とガウス過程の誘導点を組み合わせ,ロバストかつ原理的不確実性推定を行う。 これはDeep Kernel Learning(DKL)の改良と見られ、私たちの変更によりDKLはソフトマックスニューラルネットワークの精度を一致させることができます。 本手法は, アドホックハイパーパラメータに対する不確かさの依存性など, 決定論的不確実性定量化に対する先行研究の限界を克服する。 本手法は,ソフトマックスモデルの速度を保ちながら,CIFAR-10で96.2%のSotA精度と一致し,従来の単一前方通過不確実性モデルを上回った不確実性推定を提供する。 最後に,最近導入した回帰的不確実性ベンチマーク,すなわち個別化医療の因果モデルにおける治療遅滞について述べる。

We propose a new model that estimates uncertainty in a single forward pass and works on both classification and regression problems. Our approach combines a bi-Lipschitz feature extractor with an inducing point approximate Gaussian process, offering robust and principled uncertainty estimation. This can be seen as a refinement of Deep Kernel Learning (DKL), with our changes allowing DKL to match softmax neural networks accuracy. Our method overcomes the limitations of previous work addressing deterministic uncertainty quantification, such as the dependence of uncertainty on ad hoc hyper-parameters. Our method matches SotA accuracy, 96.2% on CIFAR-10, while maintaining the speed of softmax models, and provides uncertainty estimates that outperform previous single forward pass uncertainty models. Finally, we demonstrate our method on a recently introduced benchmark for uncertainty in regression: treatment deferral in causal models for personalized medicine.
翻訳日:2021-02-24 14:07:27 公開日:2021-02-22
# 最適関連マッピングによる連続学習における破滅的忘れと記憶の理解

Understanding Catastrophic Forgetting and Remembering in Continual Learning with Optimal Relevance Mapping ( http://arxiv.org/abs/2102.11343v1 )

ライセンス: Link先を確認
Prakhar Kaushik, Alex Gain, Adam Kortylewski and Alan Yuille(参考訳) ニューラルネットワークにおける破滅的な忘れは、継続的な学習にとって重要な問題です。 現在の手法の大半は、理想的な連続学習システムの制約に違反したトレーニング中に以前のデータを再生する。 さらに、現在のアプローチでは、破滅的な記憶の問題を無視している。 異なるタスクからデータを識別する能力を悪化させます 本研究では、最適オーバーラップ仮説に触発されたRelevance Mapping Networks(RMN)について紹介する。 マッピングは、重要なパラメータに大きな重みを割り当てることで、手前のタスクの重みの関連性を反映する。 我々は、RMNが破滅的な忘れと記憶の双対の問題を乗り越える最適化された表現重複を学ぶことを示しています。 提案手法は,すべての連続学習データセットの最先端性能を達成し,データ再生手法を著しく上回りながら,理想的な連続学習システムの制約に違反しない。 さらに、RMNは、監視されていない方法で新しいタスクからデータを検出する能力を保持し、破滅的な記憶に対する回復力を証明する。

Catastrophic forgetting in neural networks is a significant problem for continual learning. A majority of the current methods replay previous data during training, which violates the constraints of an ideal continual learning system. Additionally, current approaches that deal with forgetting ignore the problem of catastrophic remembering, i.e. the worsening ability to discriminate between data from different tasks. In our work, we introduce Relevance Mapping Networks (RMNs) which are inspired by the Optimal Overlap Hypothesis. The mappings reflects the relevance of the weights for the task at hand by assigning large weights to essential parameters. We show that RMNs learn an optimized representational overlap that overcomes the twin problem of catastrophic forgetting and remembering. Our approach achieves state-of-the-art performance across all common continual learning datasets, even significantly outperforming data replay methods while not violating the constraints for an ideal continual learning system. Moreover, RMNs retain the ability to detect data from new tasks in an unsupervised manner, thus proving their resilience against catastrophic remembering.
翻訳日:2021-02-24 14:05:52 公開日:2021-02-22
# 1回だけ圧縮:線形モデル推定のための最適データ圧縮

You Only Compress Once: Optimal Data Compression for Estimating Linear Models ( http://arxiv.org/abs/2102.11297v1 )

ライセンス: Link先を確認
Jeffrey Wong, Eskil Forsell, Randall Lewis, Tobias Mao and Matthew Wardrop(参考訳) 線形モデルは、機械学習、ポリシーアルゴリズム、実験プラットフォームなどのオンライン意思決定に使用されます。 線形モデルを用いる多くの工学システムは分散システムおよび専門家構成によって計算効率を達成します。 このアプローチには強みがありますが、研究者がデータとモデルをインタラクティブに反復して探索し、オープンソースコミュニティからの分析ソリューションを活用することができる環境を持つことは依然として困難です。 その結果、イノベーションはブロックされる。 条件付き十分な統計は、統合されたデータ圧縮と推定戦略であり、モデル開発プロセスだけでなく、エンジニアリングデプロイメントプロセスにも有用である。 この戦略は、誤差が観測のクラスタ内で自己相関である場合でも、推定パラメータと共分散の損失を伴わない圧縮データから線形モデルを推定する。 さらに、圧縮は元のデータとのほとんどすべてのインタラクションを保存し、研究者とエンジニアリングシステムの両方の生産性を解放する。

Linear models are used in online decision making, such as in machine learning, policy algorithms, and experimentation platforms. Many engineering systems that use linear models achieve computational efficiency through distributed systems and expert configuration. While there are strengths to this approach, it is still difficult to have an environment that enables researchers to interactively iterate and explore data and models, as well as leverage analytics solutions from the open source community. Consequently, innovation can be blocked. Conditionally sufficient statistics is a unified data compression and estimation strategy that is useful for the model development process, as well as the engineering deployment process. The strategy estimates linear models from compressed data without loss on the estimated parameters and their covariances, even when errors are autocorrelated within clusters of observations. Additionally, the compression preserves almost all interactions with the the original data, unlocking better productivity for both researchers and engineering systems.
翻訳日:2021-02-24 14:04:52 公開日:2021-02-22
# コンテキストを探索する:コンテキスト条件ダイナミクスモデルのための最適データ収集

Explore the Context: Optimal Data Collection for Context-Conditional Dynamics Models ( http://arxiv.org/abs/2102.11394v1 )

ライセンス: Link先を確認
Jan Achterhold and Joerg Stueckler(参考訳) 本稿では,特性の異なる動的系のパラメータ化族のダイナミクスモデルについて検討する。 力学モデルは、各系の観測された遷移から推定される潜在コンテキスト変数に基づく確率過程として定式化される。 確率的定式化により、限られた数の環境相互作用に対して、パラメトリズドファミリー内の与えられたシステムを最適に探索するアクションシーケンスを計算できる。 これは、コンテキスト変数に対して最も有益な遷移を通じてシステムをステアリングすることで達成される。 非線形トイプロブレムと2つの有名な強化学習環境における探索手法の有効性を実証する。

In this paper, we learn dynamics models for parametrized families of dynamical systems with varying properties. The dynamics models are formulated as stochastic processes conditioned on a latent context variable which is inferred from observed transitions of the respective system. The probabilistic formulation allows us to compute an action sequence which, for a limited number of environment interactions, optimally explores the given system within the parametrized family. This is achieved by steering the system through transitions being most informative for the context variable. We demonstrate the effectiveness of our method for exploration on a non-linear toy-problem and two well-known reinforcement learning environments.
翻訳日:2021-02-24 14:03:30 公開日:2021-02-22
# 同時機械翻訳のためのマルチモーダル強化学習

Exploiting Multimodal Reinforcement Learning for Simultaneous Machine Translation ( http://arxiv.org/abs/2102.11387v1 )

ライセンス: Link先を確認
Julia Ive, Andy Mingren Li, Yishu Miao, Ozan Caglayan, Pranava Madhyastha, Lucia Specia(参考訳) 本稿では, (a) 高翻訳品質と低レイテンシの良好なトレードオフを学習するための適応ポリシーと, (b) テキスト入力が生成される前に利用可能な追加の(視覚的な)文脈情報を提供することにより, このプロセスを支援する視覚情報とを探索することにより, 同時翻訳(SiMT)の問題に対処する。 そこで、強化学習を用いた同時機械翻訳のマルチモーダルアプローチを提案し、エージェントと環境の両方に視覚情報とテキスト情報を統合する戦略を提案します。 視覚情報と統合戦略の違いが同時翻訳モデルの質とレイテンシにどのように影響するかを探究し、視覚的な手がかりがレイテンシを低く保ちながら高品質に導くことを実証する。

This paper addresses the problem of simultaneous machine translation (SiMT) by exploring two main concepts: (a) adaptive policies to learn a good trade-off between high translation quality and low latency; and (b) visual information to support this process by providing additional (visual) contextual information which may be available before the textual input is produced. For that, we propose a multimodal approach to simultaneous machine translation using reinforcement learning, with strategies to integrate visual and textual information in both the agent and the environment. We provide an exploration on how different types of visual information and integration strategies affect the quality and latency of simultaneous translation models, and demonstrate that visual cues lead to higher quality while keeping the latency low.
翻訳日:2021-02-24 14:03:05 公開日:2021-02-22
# 機械翻訳における監督および監督されていない報酬の探索

Exploring Supervised and Unsupervised Rewards in Machine Translation ( http://arxiv.org/abs/2102.11403v1 )

ライセンス: Link先を確認
Julia Ive, Zixu Wang, Marina Fomicheva, Lucia Specia(参考訳) 強化学習(Reinforcement Learning, RL)は、トレーニングで使用する損失関数と、テスト時に使用する最終的な評価指標の相違に対処する強力なフレームワークである。 ニューラルマシン翻訳(MT)に適用すると、クロスエントロピー損失とBLEUのような非差別化評価指標のミスマッチを最小限に抑えます。 しかし、トレーニング時の報酬関数としてのこれらの指標の適合性は疑問視され、参照テキストで使われる特定の単語に対して疎く偏りがちである。 a) 報酬関数を最大化するだけでなく、ピーク分布を避けるために行動空間を探索するエントロピー正規化rl法(entropy-regularized rl method) と、探索と搾取のバランスをとるために動的に教師なし報酬関数を探索する新しいrl法(rl method)である。 SAC(Soft Actor-Critic)フレームワークに基づいて提案を行い、MTなどの言語生成アプリケーションにオフポリシの最大エントロピーモデルを適用します。 bleu報酬のあるsacは、トレーニングデータに過度に適合せず、ドメイン外データよりも優れたパフォーマンスを示す。 また、我々の動的教師なし報酬が曖昧な単語のより良い翻訳につながることも示している。

Reinforcement Learning (RL) is a powerful framework to address the discrepancy between loss functions used during training and the final evaluation metrics to be used at test time. When applied to neural Machine Translation (MT), it minimises the mismatch between the cross-entropy loss and non-differentiable evaluation metrics like BLEU. However, the suitability of these metrics as reward function at training time is questionable: they tend to be sparse and biased towards the specific words used in the reference texts. We propose to address this problem by making models less reliant on such metrics in two ways: (a) with an entropy-regularised RL method that does not only maximise a reward function but also explore the action space to avoid peaky distributions; (b) with a novel RL method that explores a dynamic unsupervised reward function to balance between exploration and exploitation. We base our proposals on the Soft Actor-Critic (SAC) framework, adapting the off-policy maximum entropy model for language generation applications such as MT. We demonstrate that SAC with BLEU reward tends to overfit less to the training data and performs better on out-of-domain data. We also show that our dynamic unsupervised reward can lead to better translation of ambiguous words.
翻訳日:2021-02-24 14:02:50 公開日:2021-02-22
# オンラインゲーム予測のための個別コンテキスト認識テンソルファクタリゼーション

Individualized Context-Aware Tensor Factorization for Online Games Predictions ( http://arxiv.org/abs/2102.11352v1 )

ライセンス: Link先を確認
Julie Jiang, Kristina Lerman, Emilio Ferrara(参考訳) 個人の行動や決定は、場所、環境、時間といった状況によって大きく影響を受ける。 これらの寸法に沿った変更は、マルチプレイヤーオンラインバトルアリーナゲーム(MOBA)で容易に観察することができ、プレイヤーは各試合の異なるゲーム内設定に直面し、頻繁なゲームパッチの対象となります。 既存の文脈情報を利用した手法は、人口全体に対する文脈の影響を一般化するが、各個人に適した文脈情報の方が効果的である。 これを実現するために、ユーザパフォーマンスとゲーム結果を予測するニューラルパーソナライズドコンテキスト認識埋め込み(NICE)モデルを提案する。 提案手法は,非負のテンソル因子化によるユーザとコンテキストの潜在表現を学習することにより,異なるコンテキストにおける個人的行動差を識別する。 我々は,MOBAゲームLeague of Legendsのデータセットを用いて,勝利の予測,個々のユーザパフォーマンス,ユーザエンゲージメントを大幅に改善することを示した。

Individual behavior and decisions are substantially influenced by their contexts, such as location, environment, and time. Changes along these dimensions can be readily observed in Multiplayer Online Battle Arena games (MOBA), where players face different in-game settings for each match and are subject to frequent game patches. Existing methods utilizing contextual information generalize the effect of a context over the entire population, but contextual information tailored to each individual can be more effective. To achieve this, we present the Neural Individualized Context-aware Embeddings (NICE) model for predicting user performance and game outcomes. Our proposed method identifies individual behavioral differences in different contexts by learning latent representations of users and contexts through non-negative tensor factorization. Using a dataset from the MOBA game League of Legends, we demonstrate that our model substantially improves the prediction of winning outcome, individual user performance, and user engagement.
翻訳日:2021-02-24 14:01:15 公開日:2021-02-22
# 影画像拡大歪除去

Shadow Image Enlargement Distortion Removal ( http://arxiv.org/abs/2102.11356v1 )

ライセンス: Link先を確認
Raid R. Al-Nima, Ali N. Hamoodi, Radhwan Y. Al-Jawadi and Ziad S. Mohammad(参考訳) このプロジェクトは、シャドウ画像拡大の歪みを減らすためにプリプロセッシング操作を採用することを目的としている。 前処理操作は、まず、任意の種類の補間法を用いて元のシャドウ画像を拡大し、第2の平均フィルタを拡大画像に適用し、最後に、アンシャープフィルタを以前の平均画像に適用する。 これらの前処理操作により、同じシャドウ画像の元の拡大画像に非常に近い拡大画像が得られる。 そして、異なる種類の補間と異なるalfa値を用いて、適用画像とオリジナル画像の比較を行い、二つの画像間の誤差が少ない最善の方法に到達する。

This project aims to adopt preprocessing operations to get less distortions for shadow image enlargement. The preprocessing operations consists of three main steps: first enlarge the original shadow image by using any kind of interpolation methods, second apply average filter to the enlargement image and finally apply the unsharp filter to the previous averaged image. These preprocessing operations leads to get an enlargement image very close to the original enlarge image for the same shadow image. Then comparisons established between the adopted image and original image by using different types of interpolation and different alfa values for unsharp filter to reach the best way which have less different errors between the two images.
翻訳日:2021-02-24 14:00:42 公開日:2021-02-22
# HALMA: 迅速な問題解決において、人間のような抽象学習が加速する

HALMA: Humanlike Abstraction Learning Meets Affordance in Rapid Problem Solving ( http://arxiv.org/abs/2102.11344v1 )

ライセンス: Link先を確認
Sirui Xie, Xiaojian Ma, Peiyu Yu, Yixin Zhu, Ying Nian Wu, Song-Chun Zhu(参考訳) 人間は自然主義的タスクの構造に応じて、構成的および因果的抽象、すなわち知識を学ぶ。 いくつかのオブジェクトを含む問題解決タスクを提示すると、幼児はまずこれらのオブジェクトと対話し、それらが何で何ができるのかを推測する。 これらの概念を活用することで、すべての問題インスタンスを見ることなく、このタスクの内部構造を理解することができる。 注目すべきは、新しい問題を解決するために認知的に実行可能な戦略をさらに構築することである。 学習エージェントに類似した能力を与えるためには,エージェントがその知識をどう表現するか,知覚的,概念的,アルゴリズム的な3段階の一般化が必要であると論じる。 本稿では,3つのレベルすべてをカバーする共同評価を行う,最初の体系的ベンチマークを考案する。 このベンチマークは、ビジュアルコンセプト開発と迅速な問題解決のための新しいタスクドメイン、HALMAを中心にしています。 HALMAには最小でも完全な概念空間があり、複雑で構造的な概念を理解し、一般化する学習エージェントの能力を厳格に診断し、識別する新しいパラダイムを導入する。 各種誘導バイアスを有する強化学習エージェントについて広範な実験を行い,その習熟度と弱点を慎重に報告する。

Humans learn compositional and causal abstraction, \ie, knowledge, in response to the structure of naturalistic tasks. When presented with a problem-solving task involving some objects, toddlers would first interact with these objects to reckon what they are and what can be done with them. Leveraging these concepts, they could understand the internal structure of this task, without seeing all of the problem instances. Remarkably, they further build cognitively executable strategies to \emph{rapidly} solve novel problems. To empower a learning agent with similar capability, we argue there shall be three levels of generalization in how an agent represents its knowledge: perceptual, conceptual, and algorithmic. In this paper, we devise the very first systematic benchmark that offers joint evaluation covering all three levels. This benchmark is centered around a novel task domain, HALMA, for visual concept development and rapid problem-solving. Uniquely, HALMA has a minimum yet complete concept space, upon which we introduce a novel paradigm to rigorously diagnose and dissect learning agents' capability in understanding and generalizing complex and structural concepts. We conduct extensive experiments on reinforcement learning agents with various inductive biases and carefully report their proficiency and weakness.
翻訳日:2021-02-24 13:57:20 公開日:2021-02-22
# MagNet: 方向性グラフのための磁気ニューラルネットワーク

MagNet: A Magnetic Neural Network for Directed Graphs ( http://arxiv.org/abs/2102.11391v1 )

ライセンス: Link先を確認
Xitong Zhang and Nathan Brugnone and Michael Perlmutter and Matthew Hirn(参考訳) グラフベースのデータの普及は、グラフニューラルネットワーク(gnns)と関連する機械学習アルゴリズムの急速な発展を促した。 しかし、引用、ウェブサイト、トラフィックネットワークなど、自然に有向グラフとしてモデル化された多くのデータセットにもかかわらず、この研究の大部分は無向グラフに焦点を当てている。 本稿では、磁気ラプラシアンとして知られる複素エルミート行列に基づく有向グラフのスペクトルGNNであるMagNetを提案する。 この行列は、そのエントリの大きさとエントリの段階での方向情報の無方向幾何学構造を符号化する。 チャージ」パラメータは、有向サイクル間の変動にスペクトル情報を調整する。 本稿では、MagNetのパフォーマンスが、有向グラフノード分類およびリンク予測タスクにおける他のスペクトルGNNを超え、その大多数で一般的に使用される空間GNNを超えることを示した。 MagNetの根底にある原則は、他のスペクトルGNNアーキテクチャに適応できることである。

The prevalence of graph-based data has spurred the rapid development of graph neural networks (GNNs) and related machine learning algorithms. Yet, despite the many data sets naturally modeled as directed graphs, including citation, website, and traffic networks, the vast majority of this research focuses on undirected graphs. In this paper, we propose MagNet, a spectral GNN for directed graphs based on a complex Hermitian matrix known as the magnetic Laplacian. This matrix encodes undirected geometric structure in the magnitude of its entries and directional information in the phase of its entries. A "charge" parameter attunes spectral information to variation among directed cycles. We show that MagNet's performance exceeds other spectral GNNs on directed graph node classification and link prediction tasks for a variety of datasets and exceeds commonly used spatial GNNs on a majority of such. The underlying principles of MagNet are such that it can be adapted to other spectral GNN architectures.
翻訳日:2021-02-24 13:57:02 公開日:2021-02-22
# 自宅と目的地のアタッチメント:Twitter上での文化統合に関する研究

Home and destination attachment: study of cultural integration on Twitter ( http://arxiv.org/abs/2102.11398v1 )

ライセンス: Link先を確認
Jisu Kim and Alina S\^irbu and Giulio Rossetti and Fosca Giannotti and Hillel Rapoport(参考訳) 移民の文化的統合は、社会経済的統合全体と、特に移民のグローバル化に対するネイティブの態度を条件にしている。 同時に、過度の統合(または認定)は、母国との関係を没収し、最終的に多様性の喪失(ホスト国の観点から)とグローバル接続(ホスト国と母国の両方の観点から)につながることを意味するという点で有害である可能性があります。 文化統合は、私たちがホームアタッチメントと呼ぶ故郷と文化とのつながりの保存、そして、目的地アタッチメント(destination attachment)と呼ぶ新しい居住国からの文化特性の導入とともに、新しい関係の創造、という2つの次元で説明できる。 本稿では,この2つの側面をTwitterデータに基づいて定量化する手法を提案する。 ホーム・デスティネーション・アタッチメント・インデックスを構築し,それらの決定要因(言語近接,国間距離など)を,hofstedeの文化的次元スコアに関連して分析する。 結果は、宛先アタッチメントを説明するためのホスト言語能力の重要性だけでなく、言語とホームアタッチメントの間のリンクを強調します。 特に、ホームと目的地間の共通言語は、ホスト言語の習熟度が低いため、ホームアタッチメントの増加に対応します。 共通の地理的境界は、家と目的地のアタッチメントを増加させるようにも見える。 文化的な寸法については、個人主義、男性性、不確実性の観点から、家庭と目的地の国間の大きな違いは、より大きな宛先アタッチメントと低いホームアタッチメントに対応しているようです。

The cultural integration of immigrants conditions their overall socio-economic integration as well as natives' attitudes towards globalisation in general and immigration in particular. At the same time, excessive integration -- or acculturation -- can be detrimental in that it implies forfeiting one's ties to the home country and eventually translates into a loss of diversity (from the viewpoint of host countries) and of global connections (from the viewpoint of both host and home countries). Cultural integration can be described using two dimensions: the preservation of links to the home country and culture, which we call home attachment, and the creation of new links together with the adoption of cultural traits from the new residence country, which we call destination attachment. In this paper we introduce a means to quantify these two aspects based on Twitter data. We build home and destination attachment indexes and analyse their possible determinants (e.g., language proximity, distance between countries), also in relation to Hofstede's cultural dimension scores. The results stress the importance of host language proficiency to explain destination attachment, but also the link between language and home attachment. In particular, the common language between home and destination countries corresponds to increased home attachment, as does low proficiency in the host language. Common geographical borders also seem to increase both home and destination attachment. Regarding cultural dimensions, larger differences among home and destination country in terms of Individualism, Masculinity and Uncertainty appear to correspond to larger destination attachment and lower home attachment.
翻訳日:2021-02-24 13:56:47 公開日:2021-02-22
# Approximate Knowledge Graph Query Answering: ランク付けからバイナリ分類へ

Approximate Knowledge Graph Query Answering: From Ranking to Binary Classification ( http://arxiv.org/abs/2102.11389v1 )

ライセンス: Link先を確認
Ruud van Bakel, Teodor Aleksiev, Daniel Daza, Dimitrios Alivanistos, Michael Cochez(参考訳) 大規模な異種データセットは、欠如あるいは誤った情報によって特徴づけられる。 これは、コミュニティの取り組みやテキストなどの外部ソースからの自動事実抽出方法の産物である場合、より明確です。 前述の現象の特別な例は知識グラフに見られ、これは主に欠落または不正確なエッジおよびノードの形で現れる。 このような不完全なグラフに対する構造化クエリは、たとえ正しいエンティティがグラフに存在するとしても、パターンにマッチする1つ以上のエッジが欠落しているため、不完全な回答の集合をもたらす。 この問題を解決するために, 近似型クエリ応答のアルゴリズムがいくつか提案されている。 現代の情報検索指標にインスパイアされたこれらのアルゴリズムは、グラフ内のすべてのエンティティのランキングを生成し、このランキングがどれだけ高いかに基づいて、そのパフォーマンスをさらに評価する。 この研究では、この評価の方法を批判的に検討します。 ランキングに基づく評価を行うことは、複雑な問合せ応答の方法を評価するのに十分ではないと我々は主張する。 そこで本研究では,最近提案されたクエリ埋め込み方式MPQEに与えた影響を,バイナリ分類メトリクスを再利用したMessage Passing Query Box(MPQB)を提案する。

Large, heterogeneous datasets are characterized by missing or even erroneous information. This is more evident when they are the product of community effort or automatic fact extraction methods from external sources, such as text. A special case of the aforementioned phenomenon can be seen in knowledge graphs, where this mostly appears in the form of missing or incorrect edges and nodes. Structured querying on such incomplete graphs will result in incomplete sets of answers, even if the correct entities exist in the graph, since one or more edges needed to match the pattern are missing. To overcome this problem, several algorithms for approximate structured query answering have been proposed. Inspired by modern Information Retrieval metrics, these algorithms produce a ranking of all entities in the graph, and their performance is further evaluated based on how high in this ranking the correct answers appear. In this work we take a critical look at this way of evaluation. We argue that performing a ranking-based evaluation is not sufficient to assess methods for complex query answering. To solve this, we introduce Message Passing Query Boxes (MPQB), which takes binary classification metrics back into use and shows the effect this has on the recently proposed query embedding method MPQE.
翻訳日:2021-02-24 13:52:24 公開日:2021-02-22
# モバイルデバイスによるガイドラインに基づく意思決定支援の分散適用:実装と評価

Distributed Application of Guideline-Based Decision Support through Mobile Devices: Implementation and Evaluation ( http://arxiv.org/abs/2102.11314v1 )

ライセンス: Link先を確認
Erez Shalom, Ayelet Goldstein, Elior Ariel, Moshe Sheinberger, Valerie Jones, Boris Van Schooten, and Yuval Shahar(参考訳) 従来のガイドライン(GL)ベースの意思決定支援システム(DSS)は、中央集権型インフラストラクチャを使用してケアプロバイダーにレコメンデーションを生成します。 しかし、在宅患者の管理が望ましいため、コストを削減し、患者を力づける。 本研究の目的は,患者にパーソナライズされた,文脈に敏感なエビデンスベースのガイダンスをモバイルデバイスを通じて提供し,患者長手記録へのアクセスと最新のエビデンスベースのGLリポジトリへのアクセスを維持しつつ,GLの分散アプリケーションの堅牢性を高める分散DSSのための新しいアーキテクチャの設計,実装,実現可能性の実現である。 私たちは、患者の好みや現在の状況に適応した証拠ベースのGL手続き的知識のごく一部が、中央DSSサーバーから、その知識を適用する患者モバイルデバイス上のローカルDSSに投影される新しい投影およびコールバック(PCB)モデルを設計し、実装しました。 計画中の時間パターンによって適切に定義された場合、ローカルDSSは中央DSSを呼び戻し、さらなる支援を要求する。 したがって、GL仕様には2つのレベルがある: 1つは中央DSS、1つは局所DSSである。 スペインにおけるGestational Diabetes Mellitus患者とイタリアにおけるAtrial Fibrillation患者を管理することにより,MobiGuide EUプロジェクトにおけるPCBモデルの評価に成功した。 2つのGL表現の間には大きな違いがあり、GLを特徴付ける追加の方法が示唆されている。 中央と局所の相互作用の平均時間は2つのGLでかなり異なっていた:3.95日間の妊娠糖尿病、23.80日間の心房細動である。 ほとんどの相互作用は83%がmDSSへの投射によるものだった。 他にも、主にコンテキスト変更のためのデータ通知があった。 ロバスト性は、複数のローカルDSSクラッシュからの回復の成功によって実証された。

Traditionally Guideline(GL)based Decision Support Systems (DSSs) use a centralized infrastructure to generate recommendations to care providers. However, managing patients at home is preferable, reducing costs and empowering patients. We aimed to design, implement, and demonstrate the feasibility of a new architecture for a distributed DSS that provides patients with personalized, context-sensitive, evidence based guidance through their mobile device, and increases the robustness of the distributed application of the GL, while maintaining access to the patient longitudinal record and to an up to date evidence based GL repository. We have designed and implemented a novel projection and callback (PCB) model, in which small portions of the evidence based GL procedural knowledge, adapted to the patient preferences and to their current context, are projected from a central DSS server, to a local DSS on the patient mobile device that applies that knowledge. When appropriate, as defined by a temporal pattern within the projected plan, the local DSS calls back the central DSS, requesting further assistance, possibly another projection. Thus, the GL specification includes two levels: one for the central DSS, one for the local DSS. We successfully evaluated the PCB model within the MobiGuide EU project by managing Gestational Diabetes Mellitus patients in Spain, and Atrial Fibrillation patients in Italy. Significant differences exist between the two GL representations, suggesting additional ways to characterize GLs. Mean time between the central and local interactions was quite different for the two GLs: 3.95 days for gestational diabetes, 23.80 days for atrial fibrillation. Most interactions, 83%, were due to projections to the mDSS. Others were data notifications, mostly to change context. Robustness was demonstrated through successful recovery from multiple local DSS crashes.
翻訳日:2021-02-24 13:50:44 公開日:2021-02-22
# 平面ターゲットの単一ポースからのプロカムキャリブレーション

Procam Calibration from a Single Pose of a Planar Target ( http://arxiv.org/abs/2102.11395v1 )

ライセンス: Link先を確認
Ghani O. Lawal and Michael Greenspan(参考訳) 平面チェス盤ターゲットの単一ポーズからプロカムシステムを校正するための新しいユーザフレンドリーな手法を提案する。 ユーザーは単一の適切なポーズでチェスボードをオリエントする必要がある。 チェスボード上にグレイコードパターンのシーケンスが投影され、カメラとプロジェクタとチェスボードの対応が自動的に抽出される。 これらの対応は、原理点のプロジェクタをチェスボードにモデル化し、カメラとプロジェクタの両方の本質的および外部的なパラメータとカメラの歪み係数を正確に計算する非線形最適化方法に入力として供給されます。 提案手法は,既存の多目的手法に匹敵する精度を示すプロカムシステム上で実験的に検証されている。 また,プロカム撮像位置に対するチェス盤の向きの影響を広範囲なシミュレーションにより検討した。

A novel user friendly method is proposed for calibrating a procam system from a single pose of a planar chessboard target. The user simply needs to orient the chessboard in a single appropriate pose. A sequence of Gray Code patterns are projected onto the chessboard, which allows correspondences between the camera, projector and the chessboard to be automatically extracted. These correspondences are fed as input to a nonlinear optimization method that models the projector of the principle points onto the chessboard, and accurately calculates the intrinsic and extrinsic parameters of both the camera and the projector, as well as the camera's distortion coefficients. The method is experimentally validated on the procam system, which is shown to be comparable in accuracy with existing multi-pose approaches. The impact of the orientation of the chessboard with respect to the procam imaging places is also explored through extensive simulation.
翻訳日:2021-02-24 13:50:12 公開日:2021-02-22
# 確率的min-max問題のクラスに対する直接探索

Direct-Search for a Class of Stochastic Min-Max Problems ( http://arxiv.org/abs/2102.11386v1 )

ライセンス: Link先を確認
Sotiris Anagnostidis, Aurelien Lucchi, Youssef Diouane(参考訳) 機械学習の最近の適用は、最小最大最適化問題におけるコミュニティの関心を新たにした。 勾配に基づく最適化手法はこのような問題を解決するために広く利用されているが、勾配が利用できない場合にも適用できないシナリオが数多く存在する。 本研究では,オラクルを介して目的関数にのみアクセスする非誘導的手法のクラスに属する直接探索手法の利用を検討する。 本研究では,minとmaxを順次更新するmin-maxサドルポイントゲームにおいて,新たなアルゴリズムを設計する。 我々は、このアルゴリズムの収束を、max-player の目的が polyak-\l{}ojasiewicz (pl) 条件を満たすと仮定し、min-player は非凸目的によって特徴づけられることを証明する。 本手法は,動的な精度の推定値のみを定確率で推定する。 私たちの知る限りでは、確率的な設定でmin-max目的に対する直接探索法の収束に対処するのは、私たちの分析が初めてです。

Recent applications in machine learning have renewed the interest of the community in min-max optimization problems. While gradient-based optimization methods are widely used to solve such problems, there are however many scenarios where these techniques are not well-suited, or even not applicable when the gradient is not accessible. We investigate the use of direct-search methods that belong to a class of derivative-free techniques that only access the objective function through an oracle. In this work, we design a novel algorithm in the context of min-max saddle point games where one sequentially updates the min and the max player. We prove convergence of this algorithm under mild assumptions, where the objective of the max-player satisfies the Polyak-\L{}ojasiewicz (PL) condition, while the min-player is characterized by a nonconvex objective. Our method only assumes dynamically adjusted accurate estimates of the oracle with a fixed probability. To the best of our knowledge, our analysis is the first one to address the convergence of a direct-search method for min-max objectives in a stochastic setting.
翻訳日:2021-02-24 13:48:55 公開日:2021-02-22
# 多周波情報と局所球状自然度解析による360度画像の非参照品質評価

No-Reference Quality Assessment for 360-degree Images by Analysis of Multi-frequency Information and Local-global Naturalness ( http://arxiv.org/abs/2102.11393v1 )

ライセンス: Link先を確認
Wei Zhou, Jiahua Xu, Qiuping Jiang, Zhibo Chen(参考訳) 360-degree/omnidirec tional images (ois) は仮想現実 (vr) の応用が増加していることで注目を浴びている。 従来の2D画像と比較して、OIは消費者により没入的な体験を提供し、より高い解像度と豊富な視野(FoV)の恩恵を受けることができます。 さらに、OIsの観察は通常、参照なしでヘッドマウントディスプレイ(HMD)に置かれる。 そのため、360度画像用に特別に設計された効率的なブラインド品質評価方法が緊急に望まれる。 本稿では,人間視覚システム(HVS)の特性とVR映像コンテンツの視聴過程を動機として,マルチ周波数情報と局所グローバル自然度(MFILGN)を用いた非参照全方位画像品質評価(NR OIQA)アルゴリズムを提案する。 具体的には、視覚野の周波数依存性特性に触発され、まず投影された等角投影(ERP)マップをウェーブレットサブバンドに分解する。 そして、低周波サブバンドと高周波サブバンドのエントロピー強度を利用して、OIの多周波情報を測定する。 また,ERPマップのグローバルな自然性を考慮した場合を除き,各ビューポート画像から自然景観の統計的特徴を局所自然性尺度として抽出する。 提案する多周波情報計測と局所的グローバル自然度測定により,サポートベクター回帰を最終画質レグレッタとして活用し,視覚品質関連特徴から人間の評価までの品質評価モデルを訓練する。 本研究では, 多周波情報と画像自然度を組み合わせた360度画像の無参照品質評価法を提案する。 2つのOIQAデータベースの実験結果は、提案されたMFILGNが最先端のアプローチを上回っていることを示しています。

360-degree/omnidirec tional images (OIs) have achieved remarkable attentions due to the increasing applications of virtual reality (VR). Compared to conventional 2D images, OIs can provide more immersive experience to consumers, benefitting from the higher resolution and plentiful field of views (FoVs). Moreover, observing OIs is usually in the head mounted display (HMD) without references. Therefore, an efficient blind quality assessment method, which is specifically designed for 360-degree images, is urgently desired. In this paper, motivated by the characteristics of the human visual system (HVS) and the viewing process of VR visual contents, we propose a novel and effective no-reference omnidirectional image quality assessment (NR OIQA) algorithm by Multi-Frequency Information and Local-Global Naturalness (MFILGN). Specifically, inspired by the frequency-dependent property of visual cortex, we first decompose the projected equirectangular projection (ERP) maps into wavelet subbands. Then, the entropy intensities of low and high frequency subbands are exploited to measure the multi-frequency information of OIs. Besides, except for considering the global naturalness of ERP maps, owing to the browsed FoVs, we extract the natural scene statistics features from each viewport image as the measure of local naturalness. With the proposed multi-frequency information measurement and local-global naturalness measurement, we utilize support vector regression as the final image quality regressor to train the quality evaluation model from visual quality-related features to human ratings. To our knowledge, the proposed model is the first no-reference quality assessment method for 360-degreee images that combines multi-frequency information and image naturalness. Experimental results on two publicly available OIQA databases demonstrate that our proposed MFILGN outperforms state-of-the-art approaches.
翻訳日:2021-02-24 13:46:28 公開日:2021-02-22
# PsとQs: 効率的な低レイテンシニューラルネットワーク推論のための量子化対応プルーニング

Ps and Qs: Quantization-aware pruning for efficient low latency neural network inference ( http://arxiv.org/abs/2102.11289v1 )

ライセンス: Link先を確認
Benjamin Hawks, Javier Duarte, Nicholas J. Fraser, Alessandro Pappalardo, Nhan Tran, Yaman Umuroglu(参考訳) ハードウェアでの推論に最適化された効率的な機械学習実装は、より低い推論遅延から高いデータスループット、より効率的なエネルギー消費まで、アプリケーションによって幅広い利点がある。 ニューラルネットワークの計算を削減するための2つの一般的なテクニックは、プルーニング、重要なシナプスの除去、量子化、計算の精度の低減である。 本研究では,高エネルギー物理ユースケースを対象とした超低レイテンシアプリケーションのためのニューラルネットワークのトレーニングにおけるプルーニングと量子化の相互作用について検討する。 しかし、この研究のために開発された技術は、他の多くの領域にまたがる可能性がある。 量子化アウェアトレーニング中のプルーニングの様々な構成について検討し,それを「emph{quantization-aware pruning}」と呼び,正規化,バッチ正規化,異なるプルーニングスキームが複数の計算量や神経効率指標に与える影響について検討した。 量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。 さらに、量子化認識プルーニングは、通常、標準的なニューラルアーキテクチャ最適化技術と比較して、計算効率の点で同様の性能を発揮します。 ベンチマークアプリケーションの精度は似ているかもしれないが、ネットワークの情報内容はトレーニング構成によって大きく異なる可能性がある。

Efficient machine learning implementations optimized for inference in hardware have wide-ranging benefits depending on the application from lower inference latencies to higher data throughputs to more efficient energy consumption. Two popular techniques for reducing computation in neural networks are pruning, removing insignificant synapses, and quantization, reducing the precision of the calculations. In this work, we explore the interplay between pruning and quantization during the training of neural networks for ultra low latency applications targeting high energy physics use cases. However, techniques developed for this study have potential application across many other domains. We study various configurations of pruning during quantization-aware training, which we term \emph{quantization-aware pruning} and the effect of techniques like regularization, batch normalization, and different pruning schemes on multiple computational or neural efficiency metrics. We find that quantization-aware pruning yields more computationally efficient models than either pruning or quantization alone for our task. Further, quantization-aware pruning typically performs similar to or better in terms of computational efficiency compared to standard neural architecture optimization techniques. While the accuracy for the benchmark application may be similar, the information content of the network can vary significantly based on the training configuration.
翻訳日:2021-02-24 13:45:57 公開日:2021-02-22
# (参考訳) Wider Vision: 外部知識ベースへのアライメントによる畳み込みニューラルネットワークの拡張 [全文訳有]

Wider Vision: Enriching Convolutional Neural Networks via Alignment to External Knowledge Bases ( http://arxiv.org/abs/2102.11132v1 )

ライセンス: CC0 1.0
Xuehao Liu, Sarah Jane Delany, Susan McKeever(参考訳) ディープラーニングモデルは不透明さに苦しむ。 Convolutional Neural Networks(CNN)では、モデルを説明するための現在の研究戦略は、関連するトレーニングデータセット内のターゲットクラスに焦点を当てている。 その結果、隠れた特徴マップのアクティベーションの理解は、トレーニング中に獲得した識別的知識によって制限されます。 本研究の目的は、CNNを外部知識ベースにミラーリングまたはアライメントすることで、CNNモデルを説明・拡張することである。 これにより、視覚機能ごとにセマンティックなコンテキストやラベルを与えることができます。 CNN機能のアクティベーションを外部知識ベースのノードにマッチさせることができます。 これはモデル決定に関連する機能の知識に基づく解釈をサポートする。 アプローチを実証するために、2つの別々のグラフを構築します。 我々は、cnnの機能ノードを概念ネットベースの知識グラフのノードにアライメントするためにエンティティアライメント法を用いる。 次に、CNNグラフノードと意味のある知識ベースノードの近接度を測定します。 その結果,アライメント埋め込み空間において,ナレッジグラフからのノードは,類似した意味を持つcnn特徴ノードに近く,外部知識ベースからのノードがモデルの特徴の説明的意味参照として機能することが示された。 埋め込み空間の結果を改善するために,様々なグラフ構築手法を分析した。 さらに,外部知識ベースからの階層的関係を利用することで,視覚特徴のアクティベーションに基づいて,埋め込み空間内のcnnトレーニングセットの外部に新たな未認識クラスを配置できることを実証する。 このことは,CNN機能アクティベーションに基づいた未知のクラスを識別するために,我々のアプローチに適応できることを示唆している。 cnnを外部の知識ベースと整合させるアプローチは、トレーニングされたモデルに対する推論方法と、説明可能なモデルとゼロショット学習への将来の適応方法を提供します。

Deep learning models suffer from opaqueness. For Convolutional Neural Networks (CNNs), current research strategies for explaining models focus on the target classes within the associated training dataset. As a result, the understanding of hidden feature map activations is limited by the discriminative knowledge gleaned during training. The aim of our work is to explain and expand CNNs models via the mirroring or alignment of CNN to an external knowledge base. This will allow us to give a semantic context or label for each visual feature. We can match CNN feature activations to nodes in our external knowledge base. This supports knowledge-based interpretation of the features associated with model decisions. To demonstrate our approach, we build two separate graphs. We use an entity alignment method to align the feature nodes in a CNN with the nodes in a ConceptNet based knowledge graph. We then measure the proximity of CNN graph nodes to semantically meaningful knowledge base nodes. Our results show that in the aligned embedding space, nodes from the knowledge graph are close to the CNN feature nodes that have similar meanings, indicating that nodes from an external knowledge base can act as explanatory semantic references for features in the model. We analyse a variety of graph building methods in order to improve the results from our embedding space. We further demonstrate that by using hierarchical relationships from our external knowledge base, we can locate new unseen classes outside the CNN training set in our embeddings space, based on visual feature activations. This suggests that we can adapt our approach to identify unseen classes based on CNN feature activations. Our demonstrated approach of aligning a CNN with an external knowledge base paves the way to reason about and beyond the trained model, with future adaptations to explainable models and zero-shot learning.
翻訳日:2021-02-24 13:20:24 公開日:2021-02-22
# (参考訳) マルチタスク学習によるユーザ埋め込みのユーザファクタ適応 [全文訳有]

User Factor Adaptation for User Embedding via Multitask Learning ( http://arxiv.org/abs/2102.11103v1 )

ライセンス: CC BY 4.0
Xiaolei Huang, Michael J. Paul, Robin Burke, Franck Dernoncourt, Mark Dredze(参考訳) 言語は、ユーザーとその興味ある分野のソーシャルメディアデータによって異なる:ユーザーの興味を巡って書かれた単語は、異なる意味(例えば、クールな)または感情(例えば、速い)を持つことがある。 しかし、ユーザー埋め込みを訓練する既存の方法のほとんどは、製品カテゴリや映画カテゴリ(ドラマ対アクションなど)などのユーザー関心の多様性を無視している。 本研究では,ユーザの関心をドメインとして扱い,ユーザ言語が3つの英語ソーシャルメディアデータセットのユーザ因子によってどのように変化するかを実証的に検討する。 次に,マルチタスク学習フレームワークを用いて,ユーザ興味の言語多様性を考慮したユーザ埋め込みモデルを提案する。 モデルは人間の監督なしにユーザ言語とそのバリエーションを学習する。 既存の研究は、主に外在タスクによるユーザ埋め込みを評価する一方で、クラスタリングによる内在的評価を提案し、外在タスクによるユーザ埋め込みの評価、テキスト分類を行う。 英語の3つのソーシャルメディアデータセットに対する実験により,提案手法は,ユーザファクタを適応させることで,一般的にベースラインを上回り得ることが示された。

Language varies across users and their interested fields in social media data: words authored by a user across his/her interests may have different meanings (e.g., cool) or sentiments (e.g., fast). However, most of the existing methods to train user embeddings ignore the variations across user interests, such as product and movie categories (e.g., drama vs. action). In this study, we treat the user interest as domains and empirically examine how the user language can vary across the user factor in three English social media datasets. We then propose a user embedding model to account for the language variability of user interests via a multitask learning framework. The model learns user language and its variations without human supervision. While existing work mainly evaluated the user embedding by extrinsic tasks, we propose an intrinsic evaluation via clustering and evaluate user embeddings by an extrinsic task, text classification. The experiments on the three English-language social media datasets show that our proposed approach can generally outperform baselines via adapting the user factor.
翻訳日:2021-02-24 12:56:29 公開日:2021-02-22
# (参考訳) 不正処理による公正アルゴリズムの符号化 [全文訳有]

Coping with Mistreatment in Fair Algorithms ( http://arxiv.org/abs/2102.10750v1 )

ライセンス: CC BY 4.0
Ankit Kulshrestha, Ilya Safro(参考訳) 機械学習は、医療、金融、エネルギーといったほぼすべての取り組みや領域において、私たちの日常生活に積極的に影響を与えます。 機械学習への依存が高まるにつれて、これらのアルゴリズムが個人選択から世界規模の政策に至るまで、社会に直接的な影響を与える決定を下すために使われることは避けられません。 したがって、意図しないバイアスが機械学習アルゴリズムに影響を与えないことを保証することは、特に意図しない結果をもたらす可能性のある決定をしなければならない場合に重要である。 アルゴリズムの公平性は機械学習コミュニティに牽引され、アルゴリズムとデータ収集における公平性を確保し評価する多くの方法やメトリクスが提案されている。 本稿では,教師付き学習環境におけるアルゴリズムの公平性を検討し,等価機会指標の分類器最適化の効果を検討する。 このような分類器はセンシティブなグループ間で偽陽性率が増加することを実証し、このバイアスを緩和するための概念的に単純な方法を提案する。 提案手法を厳密に解析し,その効果を示す実世界データセット上で評価する。

Machine learning actively impacts our everyday life in almost all endeavors and domains such as healthcare, finance, and energy. As our dependence on the machine learning increases, it is inevitable that these algorithms will be used to make decisions that will have a direct impact on the society spanning all resolutions from personal choices to world-wide policies. Hence, it is crucial to ensure that (un)intentional bias does not affect the machine learning algorithms especially when they are required to take decisions that may have unintended consequences. Algorithmic fairness techniques have found traction in the machine learning community and many methods and metrics have been proposed to ensure and evaluate fairness in algorithms and data collection. In this paper, we study the algorithmic fairness in a supervised learning setting and examine the effect of optimizing a classifier for the Equal Opportunity metric. We demonstrate that such a classifier has an increased false positive rate across sensitive groups and propose a conceptually simple method to mitigate this bias. We rigorously analyze the proposed method and evaluate it on several real world datasets demonstrating its efficacy.
翻訳日:2021-02-24 11:46:55 公開日:2021-02-22
# (参考訳) LogME:トランスファー学習のための事前学習モデルの実践的評価 [全文訳有]

LogME: Practical Assessment of Pre-trained Models for Transfer Learning ( http://arxiv.org/abs/2102.11005v1 )

ライセンス: CC BY 4.0
Kaichao You, Yong Liu, Mingsheng Long, Jianmin Wang(参考訳) 本論文では,前訓練モデルを評価するタスク適応型事前学習モデル選択問題である,タスクに適したモデルを微調整することなくモデル動物園から選択できるように検討する。 パイロットワーク~\cite{nguyen_leep:_2020}は、教師付きプリトレーニングモデルを分類タスクに転送する問題に対処したが、新しい未監督のプリトレーニングモデルや回帰タスクを扱うことはできない。 実用的評価法を追求するために,事前学習したモデルから抽出したラベルの最大エビデンス(マージ化可能性)を推定する。 最大の証拠は、その可能性よりも「emph{less likely to over-fitting}」であり、慎重に設計されたアルゴリズムによって、その「emph{expensive computing"」を劇的に減らすことができる。 最大証拠の対数(LogME)は、転送学習のための事前学習モデルを評価するために使用することができる。 LogMEは高速で正確であり、一般には「emph{the first practical evaluation method for transfer learning}」として特徴づけられる。 ブルートフォースの微調整と比較して、logmeは壁時計時間に3000\times$のスピードアップをもたらす。 これは、その設定において、以前のメソッドを大きなマージンで上回り、以前のメソッドが処理できない新しい設定に適用できる。 多様な事前訓練モデル(教師付き事前訓練と教師なし事前訓練)、下流タスク(分類と回帰)、モダリティ(ビジョンと言語)に十分一般的です。 コードは \url{https://github.com/t huml/LogME} にある。

This paper studies task adaptive pre-trained model selection, an \emph{underexplored} problem of assessing pre-trained models so that models suitable for the task can be selected from the model zoo without fine-tuning. A pilot work~\cite{nguyen_leep:_2020} addressed the problem in transferring supervised pre-trained models to classification tasks, but it cannot handle emerging unsupervised pre-trained models or regression tasks. In pursuit of a practical assessment method, we propose to estimate the maximum evidence (marginalized likelihood) of labels given features extracted by pre-trained models. The maximum evidence is \emph{less prone to over-fitting} than the likelihood, and its \emph{expensive computation can be dramatically reduced} by our carefully designed algorithm. The Logarithm of Maximum Evidence (LogME) can be used to assess pre-trained models for transfer learning: a pre-trained model with high LogME is likely to have good transfer performance. LogME is fast, accurate, and general, characterizing it as \emph{the first practical assessment method for transfer learning}. Compared to brute-force fine-tuning, LogME brings over $3000\times$ speedup in wall-clock time. It outperforms prior methods by a large margin in their setting and is applicable to new settings that prior methods cannot deal with. It is general enough to diverse pre-trained models (supervised pre-trained and unsupervised pre-trained), downstream tasks (classification and regression), and modalities (vision and language). Code is at \url{https://github.com/t huml/LogME}.
翻訳日:2021-02-24 11:28:24 公開日:2021-02-22
# (参考訳) Recurrenceで深く考える: 簡単からハードなシーケンス推論問題への一般化 [全文訳有]

Thinking Deeply with Recurrence: Generalizing from Easy to Hard Sequential Reasoning Problems ( http://arxiv.org/abs/2102.11011v1 )

ライセンス: CC BY 4.0
Avi Schwarzschild, Arjun Gupta, Micah Goldblum, Tom Goldstein(参考訳) ディープニューラルネットワークは視覚パターン認識のための強力なマシンですが、人間にとって簡単な推論タスクはまだニューラルネットワークモデルでは難しいかもしれません。 人間は、抽象的な操作の長いシーケンスを使用して難しい問題を解決するための単純な推論戦略を外挿することができます。 対照的に、フィードフォワードネットワークの逐次コンピューティング予算は、その深さによって制限されており、単純な問題で訓練されたネットワークは、再トレーニングなしに推論能力を拡張する方法がない。 本研究では,リカレントネットワークが非リカレント深層モデルの挙動を密にエミュレートする能力を有し,画像分類と迷路解像タスクの両方において,より少ないパラメータで実施することが多いことを検証した。 また、テスト時間として使用される反復回数を増加させることで、再帰ネットワークが単純な問題から難しい問題へと一般化できるかどうかについても検討する。 そこで本研究では,単純な迷路を少ないステップで解くために訓練された再帰的ネットワークが,推論中に追加の繰り返しを実行するだけで,より複雑な問題を解くことができることを示す。

Deep neural networks are powerful machines for visual pattern recognition, but reasoning tasks that are easy for humans may still be difficult for neural models. Humans can extrapolate simple reasoning strategies to solve difficult problems using long sequences of abstract manipulations, i.e., harder problems are solved by thinking for longer. In contrast, the sequential computing budget of feed-forward networks is limited by their depth, and networks trained on simple problems have no way of extending their reasoning capabilities without retraining. In this work, we observe that recurrent networks have the uncanny ability to closely emulate the behavior of non-recurrent deep models, often doing so with far fewer parameters, on both image classification and maze solving tasks. We also explore whether recurrent networks can make the generalization leap from simple problems to hard problems simply by increasing the number of recurrent iterations used as test time. To this end, we show that recurrent networks that are trained to solve simple mazes with few recurrent steps can indeed solve much more complex problems simply by performing additional recurrences during inference.
翻訳日:2021-02-24 11:03:32 公開日:2021-02-22
# (参考訳) 逆襲によるベイズ層別説明のレジリエンス [全文訳有]

Resilience of Bayesian Layer-Wise Explanations under Adversarial Attacks ( http://arxiv.org/abs/2102.11010v1 )

ライセンス: CC BY 4.0
Ginevra Carbone, Guido Sanguinetti, Luca Bortolussi(参考訳) 分類タスクにおける敵対攻撃時におけるニューラルネットワーク予測のサラリエンスに基づく説明の安定性の問題を検討する。 決定論的ニューラルネットワークでは,攻撃が失敗した場合でも,サリエンシの解釈が著しく脆弱であることを示す。 分類ラベルを変更しない攻撃に対して。 近年の成果を生かして,敵の攻撃の幾何学的側面から,この結果の理論的説明を行う。 これらの理論的考察に基づき,ベイズニューラルネットワークによるサリエンシの説明は,逆方向の摂動下ではかなり安定であることを示す。 その結果,ベイジアンニューラルネットワークが敵攻撃に対してより堅牢であるだけでなく,ベイジアン手法がニューラルネットワーク予測をより安定かつ解釈可能な評価を提供する可能性を実証した。

We consider the problem of the stability of saliency-based explanations of Neural Network predictions under adversarial attacks in a classification task. We empirically show that, for deterministic Neural Networks, saliency interpretations are remarkably brittle even when the attacks fail, i.e. for attacks that do not change the classification label. By leveraging recent results, we provide a theoretical explanation of this result in terms of the geometry of adversarial attacks. Based on these theoretical considerations, we suggest and demonstrate empirically that saliency explanations provided by Bayesian Neural Networks are considerably more stable under adversarial perturbations. Our results not only confirm that Bayesian Neural Networks are more robust to adversarial attacks, but also demonstrate that Bayesian methods have the potential to provide more stable and interpretable assessments of Neural Network predictions.
翻訳日:2021-02-24 09:51:20 公開日:2021-02-22
# (参考訳) 局所平滑化条件下での非パラメトリック適応型アクティブ学習 [全文訳有]

Nonparametric adaptive active learning under local smoothness condition ( http://arxiv.org/abs/2102.11077v1 )

ライセンス: CC BY 4.0
Boris Ndjia Njike, Xavier Siebert(参考訳) アクティブラーニングは通常、ラベル付けプロセスが高価である場合、データのラベル付けに使用される。 いくつかのアクティブな学習アルゴリズムは、理論上、受動的学習アルゴリズムよりも優れていることが証明されている。 しかし、これらのアルゴリズムは特定のパラメータを含むいくつかの仮定に依存している。 本稿では,最小仮定の非パラメトリック環境における適応型アクティブラーニングの問題に対処する。 本稿では,従来のアルゴリズムよりも一般的な仮定の下で有効であり,これらの仮定で用いられるパラメータに適応できる新しいアルゴリズムを提案する。 これにより、より大きなクラスの分布を扱うことができ、ガウジアンのような重要な密度を排除することを避けます。 我々のアルゴリズムは最小収束率を達成し、最もよく知られた非適応アルゴリズムと同等に機能する。

Active learning is typically used to label data, when the labeling process is expensive. Several active learning algorithms have been theoretically proved to perform better than their passive counterpart. However, these algorithms rely on some assumptions, which themselves contain some specific parameters. This paper adresses the problem of adaptive active learning in a nonparametric setting with minimal assumptions. We present a novel algorithm that is valid under more general assumptions than the previously known algorithms, and that can moreover adapt to the parameters used in these assumptions. This allows us to work with a larger class of distributions, thereby avoiding to exclude important densities like gaussians. Our algorithm achieves a minimax rate of convergence, and therefore performs almost as well as the best known non-adaptive algorithms.
翻訳日:2021-02-24 09:39:28 公開日:2021-02-22
# (参考訳) タスク関連ラベルからの純粋特徴表現の学習 [全文訳有]

Learning Purified Feature Representations from Task-irrelevant Labels ( http://arxiv.org/abs/2102.10955v1 )

ライセンス: CC BY 4.0
Yinghui Li, Ruiyang Liu, Chen Wang, Li Yangning, Ning Ding, Hai-Tao Zheng(参考訳) 限られたデータで一般化した経験的有効モデルを学ぶことは、ディープニューラルネットワークにとって難しい課題である。 本論文では,小規模データセットのトレーニングモデルにおいて,タスク非関連ラベルから抽出したタスク非関連機能を利用するための,PureifiedLearningという新しい学習フレームワークを提案する。 特に,タスク関連情報の表現を用いて特徴表現を浄化し,分類の学習プロセスを容易にする。 本研究は,PurifiedLearningの有効性を実証する,ソリッド理論解析と広範囲な実験に基づいている。 証明した理論によると、PurifiedLearningはモデルに依存しないため、必要なモデルに制限はないため、既存のディープニューラルネットワークと組み合わせて、より優れたパフォーマンスを実現することができます。 この論文のソースコードは、再現性のために将来利用可能になる予定です。

Learning an empirically effective model with generalization using limited data is a challenging task for deep neural networks. In this paper, we propose a novel learning framework called PurifiedLearning to exploit task-irrelevant features extracted from task-irrelevant labels when training models on small-scale datasets. Particularly, we purify feature representations by using the expression of task-irrelevant information, thus facilitating the learning process of classification. Our work is built on solid theoretical analysis and extensive experiments, which demonstrate the effectiveness of PurifiedLearning. According to the theory we proved, PurifiedLearning is model-agnostic and doesn't have any restrictions on the model needed, so it can be combined with any existing deep neural networks with ease to achieve better performance. The source code of this paper will be available in the future for reproducibility.
翻訳日:2021-02-24 08:44:01 公開日:2021-02-22
# (参考訳) 自然腐敗のロバスト性における増補と腐敗の相互作用について [全文訳有]

On Interaction Between Augmentations and Corruptions in Natural Corruption Robustness ( http://arxiv.org/abs/2102.11273v1 )

ライセンス: CC BY 4.0
Eric Mintun, Alexander Kirillov, and Saining Xie(参考訳) ワープ、ノイズ、カラーシフトなど、幅広い画像の破損に対する不変性は、コンピュータビジョンにおいて堅牢なモデルを構築する上で重要な側面である。 近年,imagenet-cのパフォーマンスを著しく向上させる新たなデータ拡張が提案されている。 しかし、データ拡張とテストタイムの汚職の関係に関する基本的な理解はいまだに欠けている。 この目的のために,画像変換のための特徴空間を開発し,類似度と性能の間に強い相関があることを示すために,拡張と破損の間の新たな尺度であるminimum sample distanceを用いた。 そこで本研究では,この特徴空間におけるImageNet-Cと知覚的に異質なテストタイムの破損をサンプリングした場合に,最近のデータ拡張を調査し,腐敗堅牢性の大幅な低下を観察する。 以上の結果から,テストエラーは知覚的に類似した拡張をトレーニングすることで改善できる可能性が示唆された。 結果とツールにより、画像の破損に対する堅牢性を向上させるためのより堅牢な進歩が期待できます。

Invariance to a broad array of image corruptions, such as warping, noise, or color shifts, is an important aspect of building robust models in computer vision. Recently, several new data augmentations have been proposed that significantly improve performance on ImageNet-C, a benchmark of such corruptions. However, there is still a lack of basic understanding on the relationship between data augmentations and test-time corruptions. To this end, we develop a feature space for image transforms, and then use a new measure in this space between augmentations and corruptions called the Minimal Sample Distance to demonstrate there is a strong correlation between similarity and performance. We then investigate recent data augmentations and observe a significant degradation in corruption robustness when the test-time corruptions are sampled to be perceptually dissimilar from ImageNet-C in this feature space. Our results suggest that test error can be improved by training on perceptually similar augmentations, and data augmentations may not generalize well beyond the existing benchmark. We hope our results and tools will allow for more robust progress towards improving robustness to image corruptions.
翻訳日:2021-02-24 08:21:43 公開日:2021-02-22
# (参考訳) コミュニケーション効率のよい並列強化学習

Communication Efficient Parallel Reinforcement Learning ( http://arxiv.org/abs/2102.10740v1 )

ライセンス: CC BY-SA 4.0
Mridul Agarwal, Bhargav Ganguly, Vaneet Aggarwal(参考訳) 我々は、$M$エージェントが$M$同一かつ独立した環境と$S$状態と$A$アクションと相互作用し、$T$ラウンドで強化学習を使用する問題を考える。 エージェントは、後悔を最小限に抑えるため、データを中央サーバーと共有します。 我々はエージェントが不適切なコミュニケーションラウンドで後悔を最小限に抑えるアルゴリズムを見つけることを目的としている。 私たちは、各エージェントで実行され、$M$エージェントの累積後悔が$Tilde{O}(DS\sqrt{MAT})$に上限があることを証明して、直径$D$、状態$S$の数、およびアクション$A$のマルコフ決定プロセスを提供します。 エージェントは、任意のステートアクションペアへの訪問後に同期し、特定のしきい値を超えます。 これを使用して、通信ラウンドの総数に対して$O\left(MSA\log(MT)\ right)$の境界を得る。 最後に,このアルゴリズムを複数の環境に対して評価し,UCRL2アルゴリズムの常時通信バージョンと同等に動作し,通信速度が有意に低いことを実証した。

We consider the problem where $M$ agents interact with $M$ identical and independent environments with $S$ states and $A$ actions using reinforcement learning for $T$ rounds. The agents share their data with a central server to minimize their regret. We aim to find an algorithm that allows the agents to minimize the regret with infrequent communication rounds. We provide \NAM\ which runs at each agent and prove that the total cumulative regret of $M$ agents is upper bounded as $\Tilde{O}(DS\sqrt{MAT})$ for a Markov Decision Process with diameter $D$, number of states $S$, and number of actions $A$. The agents synchronize after their visitations to any state-action pair exceeds a certain threshold. Using this, we obtain a bound of $O\left(MSA\log(MT)\ right)$ on the total number of communications rounds. Finally, we evaluate the algorithm against multiple environments and demonstrate that the proposed algorithm performs at par with an always communication version of the UCRL2 algorithm, while with significantly lower communication.
翻訳日:2021-02-24 07:19:07 公開日:2021-02-22
# (参考訳) ニューラル遅延微分方程式 [全文訳有]

Neural Delay Differential Equations ( http://arxiv.org/abs/2102.10801v1 )

ライセンス: CC BY 4.0
Qunxi Zhu, Yao Guo, Wei Lin(参考訳) ニューラルネットワークのフレームワークであるNeural Ordinary Differential Equations (NODE)は広く適用されており、いくつかの代表的なデータセットに対処する上で極めて有効である。 最近、拡張フレームワークが開発され、オリジナルのフレームワークの適用時に発生するいくつかの制限を克服した。 本稿では,ニューラル遅延微分方程式 (nddes) と呼ばれる遅延を持つ新しい連続的深層ニューラルネットワークのクラスを提案し,それに対応する勾配を計算するために随伴感度法を用いて随伴系の遅延ダイナミクスを得る。 遅延を持つ微分方程式は、通常、より実効的なダイナミクスを持つ無限次元の力学系と見なされるので、ノードと比較してnddesは、より強い非線形表現能力を持っている。 実際、我々はNDDEが普遍近似器であることを解析的に検証し、さらにNDDEの拡張を明確にし、NDDEの初期関数がODEを満たすことを想定する。 さらに重要なことは、NDDEとNDDEの卓越した能力をODEの初期値で示すために、いくつかの例を使っています。 具体的には、(1) 低次元位相空間の軌道が相互に交差できる遅延ダイナミクスのモデル化に成功し、(2) 引数のない従来のNODEはそのようなモデリングには直接適用されず、(2) 複雑なモデルによって合成されたデータだけでなく、CIFAR10、MNIST、SVHNといった実世界の画像データセットに対しても、より低い損失とより高い精度を実現しました。 NDDEの結果から,動的システムの要素をネットワーク設計に適切に表現することは,ネットワーク性能の促進に真に有益であることが判明した。

Neural Ordinary Differential Equations (NODEs), a framework of continuous-depth neural networks, have been widely applied, showing exceptional efficacy in coping with some representative datasets. Recently, an augmented framework has been successfully developed for conquering some limitations emergent in application of the original framework. Here we propose a new class of continuous-depth neural networks with delay, named as Neural Delay Differential Equations (NDDEs), and, for computing the corresponding gradients, we use the adjoint sensitivity method to obtain the delayed dynamics of the adjoint. Since the differential equations with delays are usually seen as dynamical systems of infinite dimension possessing more fruitful dynamics, the NDDEs, compared to the NODEs, own a stronger capacity of nonlinear representations. Indeed, we analytically validate that the NDDEs are of universal approximators, and further articulate an extension of the NDDEs, where the initial function of the NDDEs is supposed to satisfy ODEs. More importantly, we use several illustrative examples to demonstrate the outstanding capacities of the NDDEs and the NDDEs with ODEs' initial value. Specifically, (1) we successfully model the delayed dynamics where the trajectories in the lower-dimensional phase space could be mutually intersected, while the traditional NODEs without any argumentation are not directly applicable for such modeling, and (2) we achieve lower loss and higher accuracy not only for the data produced synthetically by complex models but also for the real-world image datasets, i.e., CIFAR10, MNIST, and SVHN. Our results on the NDDEs reveal that appropriately articulating the elements of dynamical systems into the network design is truly beneficial to promoting the network performance.
翻訳日:2021-02-24 07:18:01 公開日:2021-02-22
# (参考訳) 物理構造ニューラルネットワークを用いた接触ダイナミクスの学習 [全文訳有]

Learning Contact Dynamics using Physically Structured Neural Networks ( http://arxiv.org/abs/2102.11206v1 )

ライセンス: CC BY 4.0
Andreas Hochlehnert and Alexander Terenin and Steind\'or S{\ae}mundsson and Marc Peter Deisenroth(参考訳) 異なる物体間の接触を含む力学系の物理的構造化表現の学習は、ロボット工学における学習ベースのアプローチにとって重要な問題である。 ブラックボックスニューラルネットワークは、不連続なダイナミクスをほぼ表わすことができるが、通常、大量のデータを必要とし、長い時間軸を予測するとき、しばしば病的行動に苦しむ。 本研究では,深層ニューラルネットワークと微分方程式の接続を用いて,物体間の接触ダイナミクスを表現する深層ネットワークアーキテクチャ群を設計する。 これらのネットワークは、ブラックボックスアプローチや最近の物理学に触発されたニューラルネットワークでは伝統的に難しい設定でのノイズ観測から、データ効率のよい方法で不連続な接触イベントを学習できることが示されている。 生体システムに大きく依存するタッチフィードバックの理想化形態は、この学習問題を扱いやすくするための重要な要素であることが示唆された。 ネットワークアーキテクチャを通じて導入される帰納的バイアスと相まって,本手法は観測からコンタクトダイナミクスの正確な学習を可能にする。

Learning physically structured representations of dynamical systems that include contact between different objects is an important problem for learning-based approaches in robotics. Black-box neural networks can learn to approximately represent discontinuous dynamics, but they typically require large quantities of data and often suffer from pathological behaviour when forecasting for longer time horizons. In this work, we use connections between deep neural networks and differential equations to design a family of deep network architectures for representing contact dynamics between objects. We show that these networks can learn discontinuous contact events in a data-efficient manner from noisy observations in settings that are traditionally difficult for black-box approaches and recent physics inspired neural networks. Our results indicate that an idealised form of touch feedback -- which is heavily relied upon by biological systems -- is a key component of making this learning problem tractable. Together with the inductive biases introduced through the network architectures, our techniques enable accurate learning of contact dynamics from observations.
翻訳日:2021-02-24 06:35:02 公開日:2021-02-22
# (参考訳) Debiased Kernel Methods

Debiased Kernel Methods ( http://arxiv.org/abs/2102.11076v1 )

ライセンス: CC BY 4.0
Rahul Singh(参考訳) 汎用カーネル法の関数に対する信頼区間を計算するために,バイアス補正とサンプル分割に基づく実用的手順を提案する。 再生カーネルヒルベルト空間(RKHS)で学習された非パラメトリック推定器。 例えば、アナリストはカーネルリッジ回帰やカーネルインストゥルメンタル変数回帰の関数に対する信頼区間を求めるかもしれない。 本フレームワークは, (i) 個別領域に対する評価, (ii) 個別処理による治療効果, (iii) 連続処理による漸進的な治療効果を含む。 対象量について、(i)-(iii) であっても、有限サンプル引数による点方向のルート-n整合、ガウス近似、半パラメトリック効率を証明します。 RKHS学習理論の古典的な仮定もまた推論を示唆していることを示す。

I propose a practical procedure based on bias correction and sample splitting to calculate confidence intervals for functionals of generic kernel methods, i.e. nonparametric estimators learned in a reproducing kernel Hilbert space (RKHS). For example, an analyst may desire confidence intervals for functionals of kernel ridge regression or kernel instrumental variable regression. The framework encompasses (i) evaluations over discrete domains, (ii) treatment effects of discrete treatments, and (iii) incremental treatment effects of continuous treatments. For the target quantity, whether it is (i)-(iii), I prove pointwise root-n consistency, Gaussian approximation, and semiparametric efficiency by finite sample arguments. I show that the classic assumptions of RKHS learning theory also imply inference.
翻訳日:2021-02-24 06:00:14 公開日:2021-02-22
# (参考訳) ソフトマックス政策のグラディエント手法は収束に時間を要する

Softmax Policy Gradient Methods Can Take Exponential Time to Converge ( http://arxiv.org/abs/2102.11270v1 )

ライセンス: CC BY 4.0
Gen Li and Yuting Wei and Yuejie Chi and Yuantao Gu and Yuxin Chen(参考訳) Softmax Policy gradient (PG)メソッドは、Softmax Policy parametersizationの下で勾配上昇を実行するが、現代の強化学習におけるポリシー最適化のデファクト実装の1つである。 また、$\gamma$-discounted infinite-horizon tabular Markov decision process (MDPs) では、近最適政策の発見において Softmax PG メソッドのグローバル収束の確立に向けた目覚ましい進歩が最近達成されている。 しかし、事前の結果は、状態空間 $\mathcal{S}$ の濃度や有効地平線 $\frac{1}{1-\gamma}$ のような正則なパラメータに対する収束率の明確な依存関係を導出できない。 本稿では,厳密な勾配計算を前提としながら,ソフトマックスPG法の繰り返し複雑性に関する悲観的なメッセージを提供する。 具体的には、良性ポリシー初期化や探索可能な初期状態分布の存在下においても、軟マックスPG法が指数時間($|\mathcal{S}|$と$\frac{1}{1-\gamma}$)を収束させることを実証する。 これは、3つのアクションのみを含む慎重に構成されたMDP上でアルゴリズム力学を特徴付けることで達成される。 当社の指数的な下限のヒントは、更新ルールを慎重に調整したり、PGメソッドを加速するために適切な正規化を強制する必要性です。

The softmax policy gradient (PG) method, which performs gradient ascent under softmax policy parameterization, is arguably one of the de facto implementations of policy optimization in modern reinforcement learning. For $\gamma$-discounted infinite-horizon tabular Markov decision processes (MDPs), remarkable progress has recently been achieved towards establishing global convergence of softmax PG methods in finding a near-optimal policy. However, prior results fall short of delineating clear dependencies of convergence rates on salient parameters such as the cardinality of the state space $\mathcal{S}$ and the effective horizon $\frac{1}{1-\gamma}$, both of which could be excessively large. In this paper, we deliver a pessimistic message regarding the iteration complexity of softmax PG methods, despite assuming access to exact gradient computation. Specifically, we demonstrate that softmax PG methods can take exponential time -- in terms of $|\mathcal{S}|$ and $\frac{1}{1-\gamma}$ -- to converge, even in the presence of a benign policy initialization and an initial state distribution amenable to exploration. This is accomplished by characterizing the algorithmic dynamics over a carefully-constructe d MDP containing only three actions. Our exponential lower bound hints at the necessity of carefully adjusting update rules or enforcing proper regularization in accelerating PG methods.
翻訳日:2021-02-24 05:59:26 公開日:2021-02-22
# (参考訳) 情報検証のためのショット学習 [全文訳有]

Few Shot Learning for Information Verification ( http://arxiv.org/abs/2102.10956v1 )

ライセンス: CC BY 4.0
Usama Khalid, Mirza Omer Beg(参考訳) 情報検証は極めて難しい課題であり、クレームを検証する場合、複雑な意味関係の階層を持つ可能性のある複数の証拠から情報を取り出す必要があるためである。 これまで多くの研究者は、主張を受け入れたり拒否したりするために、複数の証拠文を結合することに集中してきた。 これらのアプローチは、証拠が階層的な情報と依存関係を含むことができるため、制限される。 本研究では,ウィキペディアの記事リストから選択された証拠に基づいて事実を検証することを目的とする。 XLNETのような事前訓練された言語モデルは有意義な表現を生成するのに使用され、グラフベースの注目と畳み込みは、システムが事実を検証するために少し追加の訓練を必要とするように使用されます。

Information verification is quite a challenging task, this is because many times verifying a claim can require picking pieces of information from multiple pieces of evidence which can have a hierarchy of complex semantic relations. Previously a lot of researchers have mainly focused on simply concatenating multiple evidence sentences to accept or reject claims. These approaches are limited as evidence can contain hierarchical information and dependencies. In this research, we aim to verify facts based on evidence selected from a list of articles taken from Wikipedia. Pretrained language models such as XLNET are used to generate meaningful representations and graph-based attention and convolutions are used in such a way that the system requires little additional training to learn to verify facts.
翻訳日:2021-02-24 05:57:59 公開日:2021-02-22
# (参考訳) 単語類似性タスクのためのFasttext Embeddingsを用いたUrduの共起 [全文訳有]

Co-occurrences using Fasttext embeddings for word similarity tasks in Urdu ( http://arxiv.org/abs/2102.10957v1 )

ライセンス: CC BY 4.0
Usama Khalid, Aizaz Hussain, Muhammad Umair Arshad, Waseem Shahzad and Mirza Omer Beg(参考訳) ウルドゥ語は南アジアで広く話されている言語である。 ウルドゥー語には不変の文献が存在するが、NLP技術によって言語を自然に処理するのに十分なデータはない。 高資源言語である英語には、非常に効率的な言語モデルが存在するが、ウルドゥー語や他の非資源言語は長い間無視されてきた。 これらの言語の効率的な言語モデルを作成するには、優れた単語埋め込みモデルが必要です。 Urduでは、スキップグラムモデルを用いて訓練され開発されている単語埋め込みしか見つからない。 本稿では,様々な情報源からデータを抽出・統合し,ウルドゥー語の語彙をコンパイルすることで,ウルドゥー語のコーパスを構築した。 また、Fasttext埋め込みとN-Gramsモデルを変更して、構築されたコーパスでトレーニングできるようにします。 これらのトレーニング済み埋め込みを単語の類似性タスクに使用し、その結果を既存の技術と比較しました。

Urdu is a widely spoken language in South Asia. Though immoderate literature exists for the Urdu language still the data isn't enough to naturally process the language by NLP techniques. Very efficient language models exist for the English language, a high resource language, but Urdu and other under-resourced languages have been neglected for a long time. To create efficient language models for these languages we must have good word embedding models. For Urdu, we can only find word embeddings trained and developed using the skip-gram model. In this paper, we have built a corpus for Urdu by scraping and integrating data from various sources and compiled a vocabulary for the Urdu language. We also modify fasttext embeddings and N-Grams models to enable training them on our built corpus. We have used these trained embeddings for a word similarity task and compared the results with existing techniques.
翻訳日:2021-02-24 05:45:10 公開日:2021-02-22
# (参考訳) ローマ語ウルドゥー語のトランスファー学習手法であるバイリンガル言語モデリング [全文訳有]

Bilingual Language Modeling, A transfer learning technique for Roman Urdu ( http://arxiv.org/abs/2102.10958v1 )

ライセンス: CC BY 4.0
Usama Khalid, Mirza Omer Beg, Muhammad Umair Arshad(参考訳) 事前訓練された言語モデルは、自然言語処理で広く使われている。 成功にもかかわらず、低リソース言語に適用することは依然として大きな課題である。 多言語モデルには大きな約束がありますが、特定の低リソース言語などに適用できます。 ローマのウルドゥー語は過剰である。 本稿では,対応する高資源言語から言語間トランスファー学習を行うために,言語のコードスイッチング特性をどのように利用するかを示す。 また、このトランスファー学習技術であるバイリンガル言語モデリングを用いて、ロマン・ウルドゥのより良いパフォーマンスモデルを作成する方法を示す。 トレーニングと実験を可能にするために,様々なソースやソーシャルネットワークサイトから抽出されたローマ・ウルドゥー語の新しいコーポラのコレクション,例えば,紹介する。 Twitter。 提案されたバイリンガルモデルは、Masked Language Modeling(MLM)タスクにおいて、それぞれ、モノリンガルモデルと多言語モデルの2%と11%と比較して23%の精度を達成しています。

Pretrained language models are now of widespread use in Natural Language Processing. Despite their success, applying them to Low Resource languages is still a huge challenge. Although Multilingual models hold great promise, applying them to specific low-resource languages e.g. Roman Urdu can be excessive. In this paper, we show how the code-switching property of languages may be used to perform cross-lingual transfer learning from a corresponding high resource language. We also show how this transfer learning technique termed Bilingual Language Modeling can be used to produce better performing models for Roman Urdu. To enable training and experimentation, we also present a collection of novel corpora for Roman Urdu extracted from various sources and social networking sites, e.g. Twitter. We train Monolingual, Multilingual, and Bilingual models of Roman Urdu - the proposed bilingual model achieves 23% accuracy compared to the 2% and 11% of the monolingual and multilingual models respectively in the Masked Language Modeling (MLM) task.
翻訳日:2021-02-24 05:36:14 公開日:2021-02-22
# (参考訳) Spoken Frisian-Dutchコード切替データのユニバーサル依存性ツリーバンクの作成 [全文訳有]

Creating a Universal Dependencies Treebank of Spoken Frisian-Dutch Code-switched Data ( http://arxiv.org/abs/2102.11152v1 )

ライセンス: CC BY 4.0
Anouck Braggaar, Rob van der Goot(参考訳) 本論文では,オランダ語とフリジアン語のコードスイッチ発話に注釈を付けることの難しさについて考察する。 FAMEのデータを活用しています! コーパスは、書き起こしと音声データで構成される。 通常のアノテーションの難しさに加えて、このデータセットは、低リソースであること、データの非公式な性質、コード切り換え、非標準文のセグメンテーションのため、さらに難しい。 出発点として、2人の注釈者が50発話の3段階で150個の無作為発話を注釈した。 各段階の後、議論し、解決する意見の相違。 第1ラウンドと第3ラウンドの間に7.8 UASと10.5 LASポイントの増加を達成した。 本稿では,書き起こされた音声コーパスに注釈をつける際に生じる問題に焦点をあてる。 これらの問題を解決するためにいくつかの解決策が提案されている。

This paper explores the difficulties of annotating transcribed spoken Dutch-Frisian code-switch utterances into Universal Dependencies. We make use of data from the FAME! corpus, which consists of transcriptions and audio data. Besides the usual annotation difficulties, this dataset is extra challenging because of Frisian being low-resource, the informal nature of the data, code-switching and non-standard sentence segmentation. As a starting point, two annotators annotated 150 random utterances in three stages of 50 utterances. After each stage, disagreements where discussed and resolved. An increase of 7.8 UAS and 10.5 LAS points was achieved between the first and third round. This paper will focus on the issues that arise when annotating a transcribed speech corpus. To resolve these issues several solutions are proposed.
翻訳日:2021-02-24 05:21:47 公開日:2021-02-22
# (参考訳) 地中における点雲の3次元一意的識別子に基づく自動測地図作成 [全文訳有]

Three dimensional unique identifier based automated georeferencing and coregistration of point clouds in underground environment ( http://arxiv.org/abs/2102.10731v1 )

ライセンス: CC BY 4.0
Sarvesh Kumar Singh, Bikram Pratap Banerjee and Simit Raval(参考訳) 空間的および幾何学的に正確なレーザースキャンは、土木、鉱業、輸送のモデリングインフラストラクチャーに不可欠である。 地雷やトンネルなどの地下環境や屋内環境のモニタリングは、センサー測位フレームワーク、複雑な構造対称レイアウト、反復的な特徴、および閉塞性のために困難である。 現在のプラクティスには、ジオ参照と登録目的のために識別可能な参照点を手動で選択することが含まれる。 本研究は,地下・室内レーザースキャンにおけるこれらの課題を克服することを目的とする。 開発されたアプローチでは、レーザースキャンにおける3次元ユニークな識別子(3DUID)と、3D登録(3DReG)ワークフローが自動で一意に識別される。 地下トンネルの現場試験では, 精度, 有効性, 効率性が確認できた。 さらに、道路トンネルプロファイルを自動的に抽出する方法が示されています。 開発された3DUIDは、道路プロファイル抽出、ガイド付き自動化、センサーキャリブレーション、定期的な調査および変形監視の基準目標に使用できます。

Spatially and geometrically accurate laser scans are essential in modelling infrastructure for applications in civil, mining and transportation. Monitoring of underground or indoor environments such as mines or tunnels is challenging due to unavailability of a sensor positioning framework, complicated structurally symmetric layouts, repetitive features and occlusions. Current practices largely include a manual selection of discernable reference points for georeferencing and coregistration purpose. This study aims at overcoming these practical challenges in underground or indoor laser scanning. The developed approach involves automatically and uniquely identifiable three dimensional unique identifiers (3DUIDs) in laser scans, and a 3D registration (3DReG) workflow. Field testing of the method in an underground tunnel has been found accurate, effective and efficient. Additionally, a method for automatically extracting roadway tunnel profile has been exhibited. The developed 3DUID can be used in roadway profile extraction, guided automation, sensor calibration, reference targets for routine survey and deformation monitoring.
翻訳日:2021-02-24 03:29:45 公開日:2021-02-22
# (参考訳) 脳MRIによるポストホック全生存時間予測 [全文訳有]

Post-hoc Overall Survival Time Prediction from Brain MRI ( http://arxiv.org/abs/2102.10765v1 )

ライセンス: CC BY 4.0
Renato Hermoza, Gabriel Maicas, Jacinto C. Nascimento, Gustavo Carneiro(参考訳) 総合生存時間予測はグリオーマの予後の最も一般的な推定値の1つであり、適切な治療計画を設計するために使用される。 OSタイム予測のための最先端の(SOTA)手法は、OSタイムを推定するためにグリオーマ腫瘍サブリージョン(壊死性、浮腫性腫瘍、増強腫瘍)のセグメンテーションマップを計算する必要があるプリホックアプローチに従います。 しかし, セグメンテーション手法の訓練には, 難易度が高く, 入手に費用がかかる地下の真理セグメンテーションラベルが必要である。 病院から入手可能な大規模なデータセットの多くは、そのような正確なセグメンテーションを含まないため、これらのSOTA手法は適用範囲が限られている。 本稿では,訓練用セグメンテーションマップアノテーションを必要としないOS時間予測のためのポストホック法を提案する。 本モデルでは,手術画像と患者の人口統計(年齢別に表される)を入力として,OS時刻を推定し,腫瘍を局在化するサリエンシーマップを推定し,OS時刻予測をポストホックな方法で説明する。 私たちのモデルは腫瘍を局在化することができますが、トレーニング信号として地上の真実のOS時間のみを使用する、すなわちセグメンテーションラベルは必要ありません。 マルチモーダル脳腫瘍分画チャレンジ(brats)2019データセットのポストホック法を評価し,トレーニングに分節ラベルを必要とせず,プレホック法と比較して競争力のある結果が得られることを示した。

Overall survival (OS) time prediction is one of the most common estimates of the prognosis of gliomas and is used to design an appropriate treatment planning. State-of-the-art (SOTA) methods for OS time prediction follow a pre-hoc approach that require computing the segmentation map of the glioma tumor sub-regions (necrotic, edema tumor, enhancing tumor) for estimating OS time. However, the training of the segmentation methods require ground truth segmentation labels which are tedious and expensive to obtain. Given that most of the large-scale data sets available from hospitals are unlikely to contain such precise segmentation, those SOTA methods have limited applicability. In this paper, we introduce a new post-hoc method for OS time prediction that does not require segmentation map annotation for training. Our model uses medical image and patient demographics (represented by age) as inputs to estimate the OS time and to estimate a saliency map that localizes the tumor as a way to explain the OS time prediction in a post-hoc manner. It is worth emphasizing that although our model can localize tumors, it uses only the ground truth OS time as training signal, i.e., no segmentation labels are needed. We evaluate our post-hoc method on the Multimodal Brain Tumor Segmentation Challenge (BraTS) 2019 data set and show that it achieves competitive results compared to pre-hoc methods with the advantage of not requiring segmentation labels for training.
翻訳日:2021-02-24 03:03:26 公開日:2021-02-22
# (参考訳) オープンワールドにおけるロバストな特徴に基づく人物再同定 [全文訳有]

Person Re-identification based on Robust Features in Open-world ( http://arxiv.org/abs/2102.10798v1 )

ライセンス: CC BY 4.0
Yaguan Qian and Anlin Sun(参考訳) ディープラーニング技術は、人の再識別(再ID)の急速な発展を促進します。 しかし、いくつかの課題はまだオープンワールドに存在する。 まず、既存のre-ID研究は通常、オープンワールドにおける多要素変数の複雑さを無視しながら、1つの因子変数(ビュー、衣服、歩行者ポーズ、歩行者閉塞、画像解像度、RGB/IRモダリティ)だけを仮定する。 第二に、既存の再ID方法は、簡単に変装または変更される歩行者の衣類の色および他の明らかな特徴に依存します。 さらに、マルチファクタ変数を含むベンチマークデータセットの欠如は、オープンワールドにおけるre-IDの実際的な適用を妨げている。 本稿では,信頼性の低い特徴選択や特徴抽出の低効率,単一研究変数など,既存のre-id研究の欠点を解決するための低コストかつ高効率な手法を提案する。 提案手法は,グループ畳み込みによるポーズ推定モデルに基づく歩行者の連続キーポイント獲得と動的時間ウォーピング(dtw)を用いて,歩行者間の特徴の類似度を測定する。 同時に,本手法の有効性を検証するために,歩行者の着替えやクロスモダリティ係数変数の融合を含む,現実世界に近いミニチュアデータセットを提供する。 広範囲な実験を行い,本手法がランク-1: 60.9%, ランク-5: 78.1%, mAP: 49.2%を達成した。

Deep learning technology promotes the rapid development of person re-identifica-tion (re-ID). However, some challenges are still existing in the open-world. First, the existing re-ID research usually assumes only one factor variable (view, clothing, pedestrian pose, pedestrian occlusion, image resolution, RGB/IR modality) changing, ignoring the complexity of multi-factor variables in the open-world. Second, the existing re-ID methods are over depend on clothing color and other apparent features of pedestrian, which are easily disguised or changed. In addition, the lack of benchmark datasets containing multi-factor variables is also hindering the practically application of re-ID in the open-world. In this paper, we propose a low-cost and high-efficiency method to solve shortcomings of the existing re-ID research, such as unreliable feature selection, low efficiency of feature extraction, single research variable, etc. Our approach based on pose estimation model improved by group convolution to obtain the continuous key points of pedestrian, and utilize dynamic time warping (DTW) to measure the similarity of features between different pedestrians. At the same time, to verify the effectiveness of our method, we provide a miniature dataset which is closer to the real world and includes pedestrian changing clothes and cross-modality factor variables fusion. Extensive experiments are conducted and the results show that our method achieves Rank-1: 60.9%, Rank-5: 78.1%, and mAP: 49.2% on this dataset, which exceeds most existing state-of-art re-ID models.
翻訳日:2021-02-24 02:53:32 公開日:2021-02-22
# (参考訳) 非統計カメラによるロバストモーションセグメンテーションの深層学習

Deep Learning for Robust Motion Segmentation with Non-Static Cameras ( http://arxiv.org/abs/2102.10929v1 )

ライセンス: CC BY 4.0
Markus Bosch(参考訳) 本研究では、モーションセグメンテーションのための新しいDCNNベースのアプローチ、特にMOSNETと呼ばれる非静電カメラで撮影されたビデオシーケンスについて提案する。 他のアプローチは空間的または時間的コンテキストのみに焦点を当てているが、提案されたアプローチは3D畳み込みを、コヒーシブビデオフレームにおける時空間的特徴を決定づける重要な技術として利用する。 これは低レベルの機能と高レベルの抽象化を備えた時間的情報をキャプチャすることで実現される。 約21kのトレーニング可能なパラメータを持つリーンネットワークアーキテクチャは、主にトレーニング済みのVGG-16ネットワークに基づいている。 MOSNETは新たな機能マップ融合技術を用いており、ネットワークは入力に関する適切な抽象化レベル、解像度、および受容領域の適切なサイズにフォーカスすることができる。 さらに、エンドツーエンドのディープラーニングベースのアプローチは、機能ベースのイメージアライメントを前処理ステップとして拡張することができるため、いくつかのシーンのパフォーマンスが向上する。 エンドツーエンドのディープラーニングベースのMOSNETネットワークをシーン独立に評価すると、CDNet2014データセット上での全体的なF測定は0.803となる。 この結果を得るために、初期化を必要としない5つの入力フレームからなる小さな時間窓を使用する。 したがって、ネットワークは、シーン中に画像内容が大きく変化する非静的カメラで撮影されたシーンでうまく動作することができる。 移動カメラで撮影したシーンで堅牢な結果を得るために、特徴ベースの画像アライメントを前処理ステップとして実装することができる。 MOSNETと前処理を組み合わせることで、MOSNETの機能一般化を支えるLASIESTAデータセットとの相互評価において、F値が0.685になる。

This work proposes a new end-to-end DCNN based approach for motion segmentation, especially for video sequences captured with such non-static cameras, called MOSNET. While other approaches focus on spatial or temporal context only, the proposed approach uses 3D convolutions as a key technology to factor in, spatio-temporal features in cohesive video frames. This is done by capturing temporal information in features with a low and also with a high level of abstraction. The lean network architecture with about 21k trainable parameters is mainly based on a pre-trained VGG-16 network. The MOSNET uses a new feature map fusion technique, which enables the network to focus on the appropriate level of abstraction, resolution, and the appropriate size of the receptive field regarding the input. Furthermore, the end-to-end deep learning based approach can be extended by feature based image alignment as a pre-processing step, which brings a gain in performance for some scenes. Evaluating the end-to-end deep learning based MOSNET network in a scene independent manner leads to an overall F-measure of 0.803 on the CDNet2014 dataset. A small temporal window of five input frames, without the need of any initialization is used to obtain this result. Therefore the network is able to perform well on scenes captured with non-static cameras where the image content changes significantly during the scene. In order to get robust results in scenes captured with a moving camera, feature based image alignment can implemented as pre-processing step. The MOSNET combined with pre-processing leads to an F-measure of 0.685 when cross-evaluating with a relabeled LASIESTA dataset, which underpins the capability generalise of the MOSNET.
翻訳日:2021-02-24 02:36:45 公開日:2021-02-22
# (参考訳) デジタル病理学における乳癌サブタイピングの階層的細胞間グラフ表現 [全文訳有]

Hierarchical Cell-to-Tissue Graph Representations for Breast Cancer Subtyping in Digital Pathology ( http://arxiv.org/abs/2102.11057v1 )

ライセンス: CC0 1.0
Pushpak Pati and Guillaume Jaume and Antonio Foncubierta and Florinda Feroce and Anna Maria Anniciello and Giosu\`e Scognamiglio and Nadia Brancati and Maryse Fiche and Estelle Dubruc and Daniel Riccio and Maurizio Di Bonito and Giuseppe De Pietro and Gerardo Botti and Jean-Philippe Thiran and Maria Frucci and Orcun Goksel and Maria Gabrani(参考訳) 組織標本の癌診断および予後は、構成する組織学的実体の表現型およびトポロジカルな分布に大きく影響される。 したがって、組織学的実体をコードし、組織表出と組織機能との関係を定量化することにより、適切な組織表出が、コンピュータ支援がん患者医療に不可欠である。 この目的のために、細胞形態と組織をエンコードする細胞グラフを利用して組織情報を表現し、グラフ理論と機械学習を使って組織機能に表現をマッピングした。 細胞情報は重要ですが、組織を包括的に特徴付けることは不完全です。 そこで我々は,組織を,多変量組織の情報を多次元で表現する,微細から粗いレベルの組織学的実体群の階層的構成として捉える。 本稿では,複数の病的関連のあるエンティティタイプ,組織内および組織間相互作用をコードする組織標本を示す新しい階層的エンティティグラフ表現を提案する。 その後、組織構造を組織機能にマップするために実体-グラフ表現で動作する階層グラフニューラルネットワークが提案される。 具体的には、組織内の細胞と組織領域を利用して、HACTグラフ表現を構築し、HACT-Net(グラフニューラルネットワーク)を用いて組織像を分類する。 本研究では、Huematoxylin & Eosin染色乳癌領域の大きなコホートであるBReAst Carcinoma Subtyping (BRACS)データセットを提案し、病理学者や最新のコンピュータ支援診断アプローチに対して提案された方法論を評価し、ベンチマークする。 比較評価とアブレーションにより,提案手法の優れた分類効果が示された。

Cancer diagnosis and prognosis for a tissue specimen are heavily influenced by the phenotype and topological distribution of the constituting histological entities. Thus, adequate tissue representation by encoding the histological entities, and quantifying the relationship between the tissue representation and tissue functionality is imperative for computer aided cancer patient care. To this end, several approaches have leveraged cell-graphs, that encode cell morphology and organization, to denote the tissue information, and utilize graph theory and machine learning to map the representation to tissue functionality. Though cellular information is crucial, it is incomplete to comprehensively characterize the tissue. Therefore, we consider a tissue as a hierarchical composition of multiple types of histological entities from fine to coarse level, that depicts multivariate tissue information at multiple levels. We propose a novel hierarchical entity-graph representation to depict a tissue specimen, which encodes multiple pathologically relevant entity types, intra- and inter-level entity-to-entity interactions. Subsequently, a hierarchical graph neural network is proposed to operate on the entity-graph representation to map the tissue structure to tissue functionality. Specifically, we utilize cells and tissue regions in a tissue to build a HierArchical Cell-to-Tissue (HACT) graph representation, and HACT-Net, a graph neural network, to classify histology images. As part of this work, we propose the BReAst Carcinoma Subtyping (BRACS) dataset, a large cohort of Haematoxylin & Eosin stained breast tumor regions-of-interest, to evaluate and benchmark our proposed methodology against pathologists and state-of-the-art computer-aided diagnostic approaches. Thorough comparative assessment and ablation studies demonstrated the superior classification efficacy of the proposed methodology.
翻訳日:2021-02-24 02:35:34 公開日:2021-02-22
# (参考訳) セグメンテーションのための外観モデルの直接推定 [全文訳有]

Direct Estimation of Appearance Models for Segmentation ( http://arxiv.org/abs/2102.11121v1 )

ライセンス: CC BY 4.0
Jeova F. S. Rocha Neto, Pedro Felzenszwalb, Marilyn Vazquez(参考訳) 画像分割アルゴリズムは、しばしば異なる画像領域における画素値の分布を特徴付ける外観モデルに依存する。 本稿では,各領域を構成する画素を明示的に考慮することなく,画像から直接外観モデルを推定する新しい手法について述べる。 本手法は局所的な画像統計と空間的コヒーレントな領域の出現モデルとを関連づけた代数的表現に基づく。 本稿では、上記の代数式を用いて外観モデルを推定する2つのアルゴリズムについて述べる。 最初のアルゴリズムは線形方程式と二次方程式の解法に基づいている。 第2のアルゴリズムは固有ベクトル計算に基づくスペクトル法である。 本研究では,提案手法が実用的に有効であることを示す実験結果を示し,効果的な画像分割アルゴリズムを提案する。

Image segmentation algorithms often depend on appearance models that characterize the distribution of pixel values in different image regions. We describe a novel approach for estimating appearance models directly from an image, without explicit consideration of the pixels that make up each region. Our approach is based on algebraic expressions that relate local image statistics to the appearance models of spatially coherent regions. We describe two algorithms that can use the aforementioned algebraic expressions for estimating appearance models. The first algorithm is based on solving a system of linear and quadratic equations. The second algorithm is a spectral method based on an eigenvector computation. We present experimental results that demonstrate the proposed methods work well in practice and lead to effective image segmentation algorithms.
翻訳日:2021-02-24 02:05:48 公開日:2021-02-22
# (参考訳) Convolutional Vision Transformerを用いたディープフェイク映像検出 [全文訳有]

Deepfake Video Detection Using Convolutional Vision Transformer ( http://arxiv.org/abs/2102.11126v1 )

ライセンス: CC BY 4.0
Deressa Wodajo, Solomon Atnafu(参考訳) Deepfakesと呼ばれるハイパーリアルなビデオの生成と合成が可能なディープラーニングモデルの急速な進歩と、一般大衆へのアクセスの容易さは、すべての関係者から悪意のある意図の使用の可能性への懸念を引き起こしました。 深層学習技術は、顔を生成し、ビデオ内の2つの被験者の間で顔を交換したり、表情を変更したり、性別を変更したり、顔の特徴を変更したりすることができます。 これらの強力なビデオ操作法は多くの分野で潜在的に有用である。 しかし、身元を盗み、フィッシング、詐欺など、有害な目的に利用された場合、すべての人に脅かされる恐れもある。 本研究では,Deepfakes検出のためのConvolutional Vision Transformerを提案する。 Convolutional Vision Transformerには、Convolutional Neural Network (CNN) と Vision Transformer (ViT) の2つのコンポーネントがある。 CNNは学習可能な特徴を抽出し、ViTは学習した特徴を入力として取り込み、注意メカニズムを使用して分類します。 我々は、DeepFake Detection Challenge Dataset (DFDC)でモデルをトレーニングし、91.5パーセントの精度、AUC値0.91、損失値0.32を達成した。 私たちの貢献は、ViTアーキテクチャにCNNモジュールを追加し、DFDCデータセット上で競合的な結果を得たことです。

The rapid advancement of deep learning models that can generate and synthesis hyper-realistic videos known as Deepfakes and their ease of access to the general public have raised concern from all concerned bodies to their possible malicious intent use. Deep learning techniques can now generate faces, swap faces between two subjects in a video, alter facial expressions, change gender, and alter facial features, to list a few. These powerful video manipulation methods have potential use in many fields. However, they also pose a looming threat to everyone if used for harmful purposes such as identity theft, phishing, and scam. In this work, we propose a Convolutional Vision Transformer for the detection of Deepfakes. The Convolutional Vision Transformer has two components: Convolutional Neural Network (CNN) and Vision Transformer (ViT). The CNN extracts learnable features while the ViT takes in the learned features as input and categorizes them using an attention mechanism. We trained our model on the DeepFake Detection Challenge Dataset (DFDC) and have achieved 91.5 percent accuracy, an AUC value of 0.91, and a loss value of 0.32. Our contribution is that we have added a CNN module to the ViT architecture and have achieved a competitive result on the DFDC dataset.
翻訳日:2021-02-24 01:37:03 公開日:2021-02-22
# (参考訳) レーン侵入行動認識のための位相空間再構成ネットワーク [全文訳有]

Phase Space Reconstruction Network for Lane Intrusion Action Recognition ( http://arxiv.org/abs/2102.11149v1 )

ライセンス: CC BY 4.0
Ruiwen Zhang and Zhidong Deng and Hongsen Lin and Hongchao Lu(参考訳) 複雑な道路交通シーンでは、歩行者やサイクリストの違法レーン侵入は、自動運転アプリケーションの主な安全上の課題の1つです。 本稿では,移動車に固定された単眼カメラを通して150m前方に発生する車線侵入行動を認識することを目的とした,運動時系列分類のための新しいオブジェクトレベル位相空間再構成ネットワーク(PSRNet)を提案する。 PSRNetでは、歩行者やサイクリストの移動は、特に観測可能な対象レベルのダイナミックなプロセスと見なすことができ、潜在位相空間における状態ベクトルの軌跡として再構成することができ、さらに学習可能なリャプノフ指数のような分類器によって特徴付けられる。 さらに、まず映像入力を各物体の1次元モーション時系列に変換するために、視覚物体追跡検出に基づくレーン幅正規化を提示する。 実際の都市道路から収集したTHU-IntrudBehaviorデータセットに対して大規模な実験を行った。 その結果、我々のPSRNetは98.0%の精度に到達し、既存の行動認識アプローチを30%以上上回る結果となった。

In a complex road traffic scene, illegal lane intrusion of pedestrians or cyclists constitutes one of the main safety challenges in autonomous driving application. In this paper, we propose a novel object-level phase space reconstruction network (PSRNet) for motion time series classification, aiming to recognize lane intrusion actions that occur 150m ahead through a monocular camera fixed on moving vehicle. In the PSRNet, the movement of pedestrians and cyclists, specifically viewed as an observable object-level dynamic process, can be reconstructed as trajectories of state vectors in a latent phase space and further characterized by a learnable Lyapunov exponent-like classifier that indicates discrimination in terms of average exponential divergence of state trajectories. Additionally, in order to first transform video inputs into one-dimensional motion time series of each object, a lane width normalization based on visual object tracking-by-detectio n is presented. Extensive experiments are conducted on the THU-IntrudBehavior dataset collected from real urban roads. The results show that our PSRNet could reach the best accuracy of 98.0%, which remarkably exceeds existing action recognition approaches by more than 30%.
翻訳日:2021-02-24 01:23:55 公開日:2021-02-22
# (参考訳) 圧縮センシング用発電機手術 [全文訳有]

Generator Surgery for Compressed Sensing ( http://arxiv.org/abs/2102.11163v1 )

ライセンス: CC BY 4.0
Niklas Smedemark-Margulies, Jung Yeon Park, Max Daniels, Rose Yu, Jan-Willem van de Meent, Paul Hand(参考訳) 圧縮測定からの画像回復には、画像が再構築される前に信号が必要です。 近年,そのような問題に対する信号優先として,潜在次元の低い深部生成モデルの利用が検討されている。 しかし、その回復性能は高い表現誤差によって制限される。 信号優先度として生成器を用いて低表現誤差を実現する手法を提案する。 事前学習したジェネレータを用いて、テスト時に1つ以上の初期ブロックを除去し、新しい高次元ラテント空間を最適化し、ターゲット画像の復元を行う。 実験により、様々なネットワークアーキテクチャの復元品質が大幅に向上した。 このアプローチはトレーニング外の分散イメージにも有効であり、他の最先端の手法と競合する。 実験により, 圧縮センシングのための発電機信号の再生品質が大幅に向上することが確認された。

Image recovery from compressive measurements requires a signal prior for the images being reconstructed. Recent work has explored the use of deep generative models with low latent dimension as signal priors for such problems. However, their recovery performance is limited by high representation error. We introduce a method for achieving low representation error using generators as signal priors. Using a pre-trained generator, we remove one or more initial blocks at test time and optimize over the new, higher-dimensional latent space to recover a target image. Experiments demonstrate significantly improved reconstruction quality for a variety of network architectures. This approach also works well for out-of-training-dist ribution images and is competitive with other state-of-the-art methods. Our experiments show that test-time architectural modifications can greatly improve the recovery quality of generator signal priors for compressed sensing.
翻訳日:2021-02-24 01:07:46 公開日:2021-02-22
# (参考訳) 連続学習モデルに基づく関節インテント検出とスロット充填 [全文訳有]

Joint Intent Detection And Slot Filling Based on Continual Learning Model ( http://arxiv.org/abs/2102.10905v1 )

ライセンス: CC BY 4.0
Yanfei Hui, Jianzong Wang, Ning Cheng, Fengying Yu, Tianbo Wu, Jing Xiao(参考訳) スロット充填とインテント検出は自然言語理解の分野で重要なテーマとなっている。 スロットフィリングはインテント検出と密接に関連しているが、両方のタスクに必要な情報の特徴は異なるが、これらのアプローチのほとんどはこの問題を十分に認識していない。 さらに、2つのタスクの精度を効果的にバランスさせることは、共同学習モデルにとって必然的な問題である。 本稿では,異なる特徴を持つ意味情報を考察し,意図検出とスロットフィリングの精度のバランスをとるために,CLIM(Continuous Learning Interrelated Model)を提案する。 実験結果から,CLIMは,ATISおよびSnipsにおけるスロット充填とインテント検出の最先端を実現していることがわかった。

Slot filling and intent detection have become a significant theme in the field of natural language understanding. Even though slot filling is intensively associated with intent detection, the characteristics of the information required for both tasks are different while most of those approaches may not fully aware of this problem. In addition, balancing the accuracy of two tasks effectively is an inevitable problem for the joint learning model. In this paper, a Continual Learning Interrelated Model (CLIM) is proposed to consider semantic information with different characteristics and balance the accuracy between intent detection and slot filling effectively. The experimental results show that CLIM achieves state-of-the-art performace on slot filling and intent detection on ATIS and Snips.
翻訳日:2021-02-24 00:50:45 公開日:2021-02-22
# (参考訳) フェデレーション学習における競合検出のためのクラスタリングアルゴリズム [全文訳有]

Clustering Algorithm to Detect Adversaries in Federated Learning ( http://arxiv.org/abs/2102.10799v1 )

ライセンス: CC BY 4.0
Krishna Yadav, B.B Gupta(参考訳) 近年、連合機械学習はiotデバイスのインテリジェント侵入検知システムを構築するのに非常に有用である。 IoTデバイスは、さまざまな攻撃に対して脆弱なセキュリティアーキテクチャを備えているため、これらのセキュリティの抜け穴は、分散IoTデバイスの連合トレーニング中にリスクをもたらす可能性がある。 敵はこれらのIoTデバイスを制御でき、誤った勾配を注入してグローバルモデルのパフォーマンスを低下させることができる。 本稿では,クラスタリングアルゴリズムの助けを借りて敵を検出する手法を提案する。 クラスタリング後、それはさらに誠実で悪意のあるクライアントを検出するためにクライアントに報います。 提案手法では,クライアント側からの処理パワーを必要とせず,帯域幅を過大に使用せず,IoTデバイスで実現可能である。 さらに、我々のアプローチは、40%の敵が存在する場合でも、グローバルモデル精度を99%まで向上させることに成功した。

In recent times, federated machine learning has been very useful in building intelligent intrusion detection systems for IoT devices. As IoT devices are equipped with a security architecture vulnerable to various attacks, these security loopholes may bring a risk during federated training of decentralized IoT devices. Adversaries can take control over these IoT devices and inject false gradients to degrade the global model performance. In this paper, we have proposed an approach that detects the adversaries with the help of a clustering algorithm. After clustering, it further rewards the clients for detecting honest and malicious clients. Our proposed gradient filtration approach does not require any processing power from the client-side and does not use excessive bandwidth, making it very much feasible for IoT devices. Further, our approach has been very successful in boosting the global model accuracy, up to 99% even in the presence of 40% adversaries.
翻訳日:2021-02-24 00:41:06 公開日:2021-02-22
# (参考訳) 事前増強データによる不確実性キャリブレーションの改善 [全文訳有]

Improving Uncertainty Calibration via Prior Augmented Data ( http://arxiv.org/abs/2102.10803v1 )

ライセンス: CC BY 4.0
Jeffrey Willette, Juho Lee, Sung Ju Hwang(参考訳) ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。 しかし、それらはしばしば予測を過信しており、不正確で誤った確率的予測をもたらす。 テストタイムのデータ分布がトレーニング中に見られたものと異なる場合、過信の問題が特に明らかになります。 本稿では, モデルが不当に過信である特徴空間の領域を探索し, ラベルの事前分布に対する予測のエントロピーを条件的に高めることにより, この問題に対する解決策を提案する。 提案手法は, モデル構造に依存しない, キャリブレーションの良いネットワークを実現するため, 確率密度を出力として生成する任意のニューラルネットワークに適用できる。 本手法の有効性を実証し,最近の確率的ニューラルネットワークモデルに適用し,分類問題と回帰問題の両方においてその性能を検証する。

Neural networks have proven successful at learning from complex data distributions by acting as universal function approximators. However, they are often overconfident in their predictions, which leads to inaccurate and miscalibrated probabilistic predictions. The problem of overconfidence becomes especially apparent in cases where the test-time data distribution differs from that which was seen during training. We propose a solution to this problem by seeking out regions of feature space where the model is unjustifiably overconfident, and conditionally raising the entropy of those predictions towards that of the prior distribution of the labels. Our method results in a better calibrated network and is agnostic to the underlying model structure, so it can be applied to any neural network which produces a probability density as an output. We demonstrate the effectiveness of our method and validate its performance on both classification and regression problems, applying it to recent probabilistic neural network models.
翻訳日:2021-02-24 00:30:19 公開日:2021-02-22
# (参考訳) Deep Kalman Filter: ロールアウト軌道予測法のためのリファインメントモジュール [全文訳有]

Deep Kalman Filter: A Refinement Module for the Rollout Trajectory Prediction Methods ( http://arxiv.org/abs/2102.10859v1 )

ライセンス: CC BY 4.0
Qifan Xue, Xuanpeng Li, Jingwen Zhao, Weigong Zhang(参考訳) 軌道予測は、インテリジェント車両の分野で重要な役割を果たします。 例えば、ロールアウトプロセスにおける累積誤差や、さまざまなシナリオにおける弱い適応性などである。 本稿では,軌道予測のための深層ニューラルネットワークに基づくパラメトリック学習カルマンフィルタを提案する。 我々は、ほとんどのロールアウトアプローチに簡単に組み込むことができるフレキシブルなプラグインモジュールを設計する。 カルマン点を世界的視点から長期予測安定性を捉えることを提案する。 NGSIMデータセットを用いて実験を行った。 その結果,本手法はロールアウト軌道予測法を効果的に改善できる可能性が示唆された。

Trajectory prediction plays a pivotal role in the field of intelligent vehicles. It currently suffers from several challenges, e.g., accumulative error in rollout process and weak adaptability in various scenarios. This paper proposes a parametric-learning Kalman filter based on deep neural network for trajectory prediction. We design a flexible plug-in module which can be readily implanted into most rollout approaches. Kalman points are proposed to capture the long-term prediction stability from the global perspective. We carried experiments out on the NGSIM dataset. The promising results indicate that our method could improve rollout trajectory prediction methods effectively.
翻訳日:2021-02-24 00:24:08 公開日:2021-02-22
# (参考訳) 複数カーネルに基づくオンラインフェデレーション学習 [全文訳有]

Multiple Kernel-Based Online Federated Learning ( http://arxiv.org/abs/2102.10861v1 )

ライセンス: CC BY 4.0
Jeongmin Chae and Songnam Hong(参考訳) オンラインフェデレーション学習(OFL)は、エッジノードが連続的なストリーミングローカルデータでオンライン学習を行い、サーバが集約されたローカルモデルからグローバルモデルを構築する、新たな学習フレームワークとなる。 事前選択されたpカーネルセットを使用したオンラインマルチカーネル学習(omkl)は、低複雑さとスケーラビリティを備えた優れたパフォーマンスを提供するため、oflフレームワークのよい候補となり得る。 本稿では,OMKLの非自明な拡張として,新しいカーネルベースOFL(MK-OFL)を提案する。 理論的には、MK-OFLは、後視における最適関数と比較した場合、最適サブ線形後悔境界を達成できる。 最後に,実世界のデータセットに対するアプローチの数値実験を行い,その実用性を示唆する。

Online federated learning (OFL) becomes an emerging learning framework, in which edge nodes perform online learning with continuous streaming local data and a server constructs a global model from the aggregated local models. Online multiple kernel learning (OMKL), using a preselected set of P kernels, can be a good candidate for OFL framework as it has provided an outstanding performance with a low-complexity and scalability. Yet, an naive extension of OMKL into OFL framework suffers from a heavy communication overhead that grows linearly with P. In this paper, we propose a novel multiple kernel-based OFL (MK-OFL) as a non-trivial extension of OMKL, which yields the same performance of the naive extension with 1/P communication overhead reduction. We theoretically prove that MK-OFL achieves the optimal sublinear regret bound when compared with the best function in hindsight. Finally, we provide the numerical tests of our approach on real-world datasets, which suggests its practicality.
翻訳日:2021-02-24 00:17:56 公開日:2021-02-22
# (参考訳) 確率最適化のための確率的学習率適応法 [全文訳有]

A Probabilistically Motivated Learning Rate Adaptation for Stochastic Optimization ( http://arxiv.org/abs/2102.10880v1 )

ライセンス: CC BY 4.0
Filip de Roos, Carl Jidling, Adrian Wills, Thomas Sch\"on and Philipp Hennig(参考訳) 機械学習の実践者は、最適化アルゴリズムに適した学習率を見つけることに重要な手動および計算リソースを投資します。 一般の確率的一階法に対して,ガウス推論の観点からの確率的動機付けを提供する。 重要な特別なケースとして、一般的なメトリックでPolyakステップを回復します。 この推論により、制御アルゴリズムによるトレーニング中に自動的に適応できる無次元量に学習率を関連付けることができる。 結果のメタアルゴリズムは、ディープラーニングベンチマーク問題に適用した場合に、幅広い初期値に対して頑健な方法で学習率を適用することが示される。

Machine learning practitioners invest significant manual and computational resources in finding suitable learning rates for optimization algorithms. We provide a probabilistic motivation, in terms of Gaussian inference, for popular stochastic first-order methods. As an important special case, it recovers the Polyak step with a general metric. The inference allows us to relate the learning rate to a dimensionless quantity that can be automatically adapted during training by a control algorithm. The resulting meta-algorithm is shown to adapt learning rates in a robust manner across a large range of initial values when applied to deep learning benchmark problems.
翻訳日:2021-02-23 23:49:38 公開日:2021-02-22
# (参考訳) SENTINEL: エンサンブルベースの分布強化学習による不確実性評価 [全文訳有]

SENTINEL: Taming Uncertainty with Ensemble-based Distributional Reinforcement Learning ( http://arxiv.org/abs/2102.11075v1 )

ライセンス: CC BY 4.0
Hannes Eriksson, Debabrota Basu, Mina Alibeigi, Christos Dimitrakakis(参考訳) 本稿では,モデルベース強化学習(RL)におけるリスク敏感な逐次的意思決定について考察する。 本研究では,学習過程におけるアレーショナルリスクとてんかんリスクの両方を考慮した,新たなリスクの定量化,すなわち \emph{composite risk} を提案する。 以前の著作では、個別に、またはこれら2つの組み合わせとして、排卵リスクまたは認識リスクを考慮していた。 この添加剤は,ガウスの混合物を学習しながらも実際のcvarリスクを過小評価する複合リスクの特定の場合であることを示す。 対照的に、複合リスクはより正確な見積もりを提供する。 ブートストラップ法であるSENTINEL-Kを分散RLに用いることを提案する。 SENTINEL-Kは、返却分布を推定するために$K$の学習者のアンサンブルを使用し、さらに、返却分布のリスクをより正確に見積もるために、ランディット文学からの正規化リーダ(FTRL)に従う。 最後に、SENTINEL-Kが回帰分布をよりよく推定できることを実験的に検証し、複合リスク推定と併用しながら、競合するRLアルゴリズムよりもリスクに敏感な性能を示す。

In this paper, we consider risk-sensitive sequential decision-making in model-based reinforcement learning (RL). We introduce a novel quantification of risk, namely \emph{composite risk}, which takes into account both aleatory and epistemic risk during the learning process. Previous works have considered aleatory or epistemic risk individually, or, an additive combination of the two. We demonstrate that the additive formulation is a particular case of the composite risk, which underestimates the actual CVaR risk even while learning a mixture of Gaussians. In contrast, the composite risk provides a more accurate estimate. We propose to use a bootstrapping method, SENTINEL-K, for distributional RL. SENTINEL-K uses an ensemble of $K$ learners to estimate the return distribution and additionally uses follow the regularized leader (FTRL) from bandit literature for providing a better estimate of the risk on the return distribution. Finally, we experimentally verify that SENTINEL-K estimates the return distribution better, and while used with composite risk estimate, demonstrates better risk-sensitive performance than competing RL algorithms.
翻訳日:2021-02-23 23:27:55 公開日:2021-02-22
# (参考訳) クロスネットワークメタラーニングによるフェーショットネットワーク異常検出 [全文訳有]

Few-shot Network Anomaly Detection via Cross-network Meta-learning ( http://arxiv.org/abs/2102.11165v1 )

ライセンス: CC BY 4.0
Kaize Ding, Qinghai Zhou, Hanghang Tong, Huan Liu(参考訳) ネットワーク異常検出は、大多数とは大きく異なる振る舞いを持つネットワーク要素(ノード、エッジ、サブグラフなど)を見つけることを目的とする。 金融、ヘルスケア、ソーシャルネットワーク分析など、さまざまなアプリケーションに大きな影響を与えています。 ラベル付けコストが低いため、既存の手法は教師なしの方法で優先的に開発されている。 それでも、彼らが特定した異常は、関心の異常に関する事前の知識がないために、データノイズや興味のないデータインスタンスである可能性がある。 したがって,ネットワーク異常検出のためのマイナショット学習を調査,開発することが重要である。 現実のシナリオでは、ターゲットネットワークと同じドメインから類似のネットワークにアクセスしやすいラベル付き異常も少なく、既存の作業の多くはそれらを活用せず、単に単一のネットワークに集中するだけである。 Taking advantage of this potential, in this work, we tackle the problem of few-shot network anomaly detection by (1) proposing a new family of graph neural networks -- Graph Deviation Networks (GDN) that can leverage a small number of labeled anomalies for enforcing statistically significant deviations between abnormal and normal nodes on a network; and (2) equipping the proposed GDN with a new cross-network meta-learning algorithm to realize few-shot network anomaly detection by transferring meta-knowledge from multiple auxiliary networks. 広範に評価した結果,提案手法が数発あるいは1発のネットワーク異常検出に有効であることが示された。

Network anomaly detection aims to find network elements (e.g., nodes, edges, subgraphs) with significantly different behaviors from the vast majority. It has a profound impact in a variety of applications ranging from finance, healthcare to social network analysis. Due to the unbearable labeling cost, existing methods are predominately developed in an unsupervised manner. Nonetheless, the anomalies they identify may turn out to be data noises or uninteresting data instances due to the lack of prior knowledge on the anomalies of interest. Hence, it is critical to investigate and develop few-shot learning for network anomaly detection. In real-world scenarios, few labeled anomalies are also easy to be accessed on similar networks from the same domain as of the target network, while most of the existing works omit to leverage them and merely focus on a single network. Taking advantage of this potential, in this work, we tackle the problem of few-shot network anomaly detection by (1) proposing a new family of graph neural networks -- Graph Deviation Networks (GDN) that can leverage a small number of labeled anomalies for enforcing statistically significant deviations between abnormal and normal nodes on a network; and (2) equipping the proposed GDN with a new cross-network meta-learning algorithm to realize few-shot network anomaly detection by transferring meta-knowledge from multiple auxiliary networks. Extensive evaluations demonstrate the efficacy of the proposed approach on few-shot or even one-shot network anomaly detection.
翻訳日:2021-02-23 23:07:44 公開日:2021-02-22
# (参考訳) リニアトランスは超高速な軽量メモリシステム [全文訳有]

Linear Transformers Are Secretly Fast Weight Memory Systems ( http://arxiv.org/abs/2102.11174v1 )

ライセンス: CC BY 4.0
Imanol Schlag, Kazuki Irie, J\"urgen Schmidhuber(参考訳) 線形化自己保持機構とファストウェイト記憶の90年代前半の形式的等価性を示す。 この観測から、最近の線形化ソフトマックスアテンションのメモリc容量制限を推定する。 有限メモリでは、高速重量メモリモデルの望ましい動作は、メモリの内容を制御し、動的にそれと相互作用することです。 高速重みに関する以前の研究に触発されて、このような振る舞いをもたらす代替ルールに更新ルールを置き換えることを提案する。 また,注意を線形化し,単純さと有効性をバランスさせる新しいカーネル関数を提案する。 本手法の利点を実証するために, 標準機械翻訳および言語モデリングタスクとともに, 合成検索問題に関する実験を行う。

We show the formal equivalence of linearised self-attention mechanisms and fast weight memories from the early '90s. From this observation we infer a memory c Capacity limitation of recent linearised softmax attention variants. With finite memory, a desirable behaviour of fast weight memory models is to manipulate the contents of memory and dynamically interact with it. Inspired by previous work on fast weights, we propose to replace the update rule by an alternative rule yielding such behaviour. We also propose a new kernel function to linearise attention, balancing simplicity and effectiveness. We conduct experiments on synthetic retrieval problems as well as standard machine translation and language modelling tasks which demonstrate the benefits of our methods.
翻訳日:2021-02-23 22:50:49 公開日:2021-02-22
# (参考訳) サインレギュラー化マルチタスク学習 [全文訳有]

Sign-regularized Multi-task Learning ( http://arxiv.org/abs/2102.11191v1 )

ライセンス: CC BY 4.0
Johnny Torres, Guangji Bai, Junxiang Wang, Liang Zhao, Carmen Vaca, Cristina Abad(参考訳) マルチタスク学習は、さまざまな学習タスクを強制して知識を共有し、一般化のパフォーマンスを向上させるフレームワークです。 ホットでアクティブなドメインであり、いくつかのコア問題、特にどのタスクが相関して類似しているか、どのように関連するタスク間で知識を共有するか、を扱う。 既存の作業は、通常、特徴量の極性と大きさを区別せず、一般的に線形相関に依存している: 1) 特徴量の極性を正則化するモデルの最適化、2) 符号の正則化か等級を決定すること、3) どのタスクをその符号と/または等級パターンを共有するべきかを特定すること。 そこで本論文では,タスクの重み付けを正規化できるマルチタスク学習フレームワークを提案する。 スラックによる二凸不等式制約最適化として革新的に定式化し、一般化性能と収束性を理論的に保証した最適化のための新しい効率的なアルゴリズムを提案する。 複数のデータセットに関する広範囲な実験により、正規化特徴重み付けパターンの有効性、効率性、妥当性が示された。

Multi-task learning is a framework that enforces different learning tasks to share their knowledge to improve their generalization performance. It is a hot and active domain that strives to handle several core issues; particularly, which tasks are correlated and similar, and how to share the knowledge among correlated tasks. Existing works usually do not distinguish the polarity and magnitude of feature weights and commonly rely on linear correlation, due to three major technical challenges in: 1) optimizing the models that regularize feature weight polarity, 2) deciding whether to regularize sign or magnitude, 3) identifying which tasks should share their sign and/or magnitude patterns. To address them, this paper proposes a new multi-task learning framework that can regularize feature weight signs across tasks. We innovatively formulate it as a biconvex inequality constrained optimization with slacks and propose a new efficient algorithm for the optimization with theoretical guarantees on generalization performance and convergence. Extensive experiments on multiple datasets demonstrate the proposed methods' effectiveness, efficiency, and reasonableness of the regularized feature weighted patterns.
翻訳日:2021-02-23 22:24:16 公開日:2021-02-22
# (参考訳) AutoMLシステムの解釈可能なフィードバック [全文訳有]

Interpret-able feedback for AutoML systems ( http://arxiv.org/abs/2102.11267v1 )

ライセンス: CC BY 4.0
Behnaz Arzani, Kevin Hsieh, Haoxian Chen(参考訳) 自動機械学習(AutoML)システムは、非ML専門家のための機械学習(ML)モデルのトレーニングを可能にすることを目的としている。 これらのシステムの欠点は、高精度なモデルの作成に失敗した場合、ユーザーはデータサイエンティストの雇用やMLの学習以外にモデルを改善する道がないということです。 AutoML用の解釈可能なデータフィードバックソリューションを紹介します。 提案手法では,モデルの精度を向上させるためにラベル付けを行う(ラベルなしデータのプールを必要とせずに)新しいデータポイントを提案する。 提案手法は,automlアンサンブルにおけるすべてのmlモデルの予測に機能がどのように影響するかを分析し,その分析に高いばらつきを持つ特徴範囲からより多くのデータサンプルを提案する。 評価の結果,本ソリューションはautomlの精度を7~8%向上させ,データ効率において一般的なアクティブラーニングソリューションを著しく上回っていることが示された。

Automated machine learning (AutoML) systems aim to enable training machine learning (ML) models for non-ML experts. A shortcoming of these systems is that when they fail to produce a model with high accuracy, the user has no path to improve the model other than hiring a data scientist or learning ML -- this defeats the purpose of AutoML and limits its adoption. We introduce an interpretable data feedback solution for AutoML. Our solution suggests new data points for the user to label (without requiring a pool of unlabeled data) to improve the model's accuracy. Our solution analyzes how features influence the prediction among all ML models in an AutoML ensemble, and we suggest more data samples from feature ranges that have high variance in such analysis. Our evaluation shows that our solution can improve the accuracy of AutoML by 7-8% and significantly outperforms popular active learning solutions in data efficiency, all the while providing the added benefit of being interpretable.
翻訳日:2021-02-23 21:05:04 公開日:2021-02-22
# (参考訳) クラウドのためのEDAフローの特性と最適化 [全文訳有]

Characterizing and Optimizing EDA Flows for the Cloud ( http://arxiv.org/abs/2102.10800v1 )

ライセンス: CC BY 4.0
Abdelrahman Hosny and Sherief Reda(参考訳) クラウドコンピューティングは論理合成における設計空間探索と物理設計におけるパラメータチューニングを加速する。 しかし、EDAのジョブをクラウドにデプロイするには、EDAチームはクラウド環境におけるジョブの特徴を深く理解する必要がある。 残念ながら、これらの特性に関する公開情報はほとんどありませんでした。 そこで本論文では,EDAジョブをクラウドに移行するという問題を定式化する。 まず、合成、配置、ルーティング、静的タイミング分析の4つの主要なEDAアプリケーションのパフォーマンスを特徴付けます。 異なるEDAジョブは異なるマシン構成を必要とすることを示す。 第2に,評価から得られた観測データを用いて,異なるマシン構成上で,与えられたアプリケーションの総実行時間を予測するためのグラフ畳み込みネットワークに基づく新しいモデルを提案する。 予測精度は87%である。 第3に,納期制約を満たしながらデプロイメントコストを削減するために,クラウドデプロイメントを最適化するための新たな定式化を開発する。 マルチチョイスナップサックマッピングを用いた擬多項式最適解を提案し,コストを35.29%削減する。

Cloud computing accelerates design space exploration in logic synthesis, and parameter tuning in physical design. However, deploying EDA jobs on the cloud requires EDA teams to deeply understand the characteristics of their jobs in cloud environments. Unfortunately, there has been little to no public information on these characteristics. Thus, in this paper, we formulate the problem of migrating EDA jobs to the cloud. First, we characterize the performance of four main EDA applications, namely: synthesis, placement, routing and static timing analysis. We show that different EDA jobs require different machine configurations. Second, using observations from our characterization, we propose a novel model based on Graph Convolutional Networks to predict the total runtime of a given application on different machine configurations. Our model achieves a prediction accuracy of 87%. Third, we develop a new formulation for optimizing cloud deployments in order to reduce deployment costs while meeting deadline constraints. We present a pseudo-polynomial optimal solution using a multi-choice knapsack mapping that reduces costs by 35.29%.
翻訳日:2021-02-23 20:13:29 公開日:2021-02-22
# (参考訳) Gaussian Process Nowcasting: COVID-19死亡報告への適用 [全文訳有]

Gaussian Process Nowcasting: Application to COVID-19 Mortality Reporting ( http://arxiv.org/abs/2102.11249v1 )

ライセンス: CC BY 4.0
Iwona Hawryluk, Henrique Hoeltgebaum, Swapnil Mishra, Xenia Miscouridou, Ricardo P Schnekenberg, Charles Whittaker, Michaela Vollmer, Seth Flaxman, Samir Bhatt, Thomas A Mellan(参考訳) 測定プロセスの遅延による信号の観測の更新は、信号処理において一般的な問題であり、幅広い分野において顕著な例がある。 この問題の重要な例は、COVID-19の死亡率の今の予測です。毎日の死亡数の報告の流れを考えると、不確実性のある現在の正確な絵を描くために報告の遅れを修正できますか? この補正がなければ、生データは改善状況を提案することで誤解されることが多い。 本稿では,報告時間遅延面に存在する自己相関構造の変化を記述可能な潜在ガウス過程を用いた柔軟なアプローチを提案する。 このアプローチは、現在予測されている死者数に対する不確実性の堅牢な推定も生み出す。 カーネルやハイパープリミティブの選択などのモデル仕様の仮定をテストし、ブラジルからの挑戦的な実際のデータセット上でモデルパフォーマンスを評価します。 実験の結果,gaussian process nowcastingは,比較手法と専門家による予測のサンプルの両方に対して好適に機能することが示された。 当社のアプローチは,ブラジルのCOVID-19死亡率データにアプローチを適用することで,現在の有効再生数などの重要な疫学的量について,有益な予測を行うことができる。

Updating observations of a signal due to the delays in the measurement process is a common problem in signal processing, with prominent examples in a wide range of fields. An important example of this problem is the nowcasting of COVID-19 mortality: given a stream of reported counts of daily deaths, can we correct for the delays in reporting to paint an accurate picture of the present, with uncertainty? Without this correction, raw data will often mislead by suggesting an improving situation. We present a flexible approach using a latent Gaussian process that is capable of describing the changing auto-correlation structure present in the reporting time-delay surface. This approach also yields robust estimates of uncertainty for the estimated nowcasted numbers of deaths. We test assumptions in model specification such as the choice of kernel or hyper priors, and evaluate model performance on a challenging real dataset from Brazil. Our experiments show that Gaussian process nowcasting performs favourably against both comparable methods, and a small sample of expert human predictions. Our approach has substantial practical utility in disease modelling -- by applying our approach to COVID-19 mortality data from Brazil, where reporting delays are large, we can make informative predictions on important epidemiological quantities such as the current effective reproduction number.
翻訳日:2021-02-23 20:04:32 公開日:2021-02-22
# (参考訳) LTEとNRの動的スペクトル共有のための深部強化学習 [全文訳有]

Deep Reinforcement Learning for Dynamic Spectrum Sharing of LTE and NR ( http://arxiv.org/abs/2102.11176v1 )

ライセンス: CC BY 4.0
Ursula Challita, David Sandberg(参考訳) 本稿では, 4G 系と 5G 系の動的スペクトル共有方式を提案する。 特に、コントローラは、高干渉サブフレームやマルチメディア放送単一周波数ネットワーク(MBSFN)サブフレームなどの将来のネットワーク状態を考慮しながら、NRとLTEのサブフレーム毎にリソース分割を決定する。 この問題を解決するために、モンテカルロツリー探索(MCTS)に基づく深層強化学習(RL)アルゴリズムが提案されている。 導入したディープRLアーキテクチャはオフラインでトレーニングされ、コントローラは現在のネットワーク状態から始まる時間経過とともに仮説的帯域分割をシミュレートすることで、無線アクセスネットワークの将来状態のシーケンスを予測する。 その後、最高の報酬をもたらすアクションシーケンスが割り当てられます。 これは、計画に最も直接関連する量、すなわち報酬、行動確率、および各ネットワーク状態の価値を予測することによって実現される。 シミュレーションの結果,提案手法は,各サブフレームのグリーディではなく,将来の状態を考慮しつつ行動を取ることができることがわかった。 また,提案フレームワークによりシステムレベルの性能が向上することを示す。

In this paper, a proactive dynamic spectrum sharing scheme between 4G and 5G systems is proposed. In particular, a controller decides on the resource split between NR and LTE every subframe while accounting for future network states such as high interference subframes and multimedia broadcast single frequency network (MBSFN) subframes. To solve this problem, a deep reinforcement learning (RL) algorithm based on Monte Carlo Tree Search (MCTS) is proposed. The introduced deep RL architecture is trained offline whereby the controller predicts a sequence of future states of the wireless access network by simulating hypothetical bandwidth splits over time starting from the current network state. The action sequence resulting in the best reward is then assigned. This is realized by predicting the quantities most directly relevant to planning, i.e., the reward, the action probabilities, and the value for each network state. Simulation results show that the proposed scheme is able to take actions while accounting for future states instead of being greedy in each subframe. The results also show that the proposed framework improves system-level performance.
翻訳日:2021-02-23 18:57:01 公開日:2021-02-22
# 自然言語理解のための関係的Tsetlinマシン

A Relational Tsetlin Machine with Applications to Natural Language Understanding ( http://arxiv.org/abs/2102.10952v1 )

ライセンス: Link先を確認
Rupsa Saha, Ole-Christoffer Granmo, Vladimir I. Zadorozhny, Morten Goodwin(参考訳) TMは、パターンを表現するために学習と命題論理に有限状態マシンを使用するパターン認識アプローチです。 ネイティブに解釈できるだけでなく、様々なタスクの競争精度も提供してきた。 本稿では,Herbrandセマンティクスを用いた一階論理ベースのフレームワークを提案することにより,TMの計算能力を高める。 結果のTMはリレーショナルであり、自然言語に現れる論理構造を利用して、実世界でのアクションと結果がどのように関連しているかを表す規則を学ぶことができる。 結果はホーン節の論理プログラムであり、構造化されていないデータの構造化ビューをもたらす。 クローズドドメインの質問応答では、1次表現は10倍のコンパクトkbを生成し、回答精度は94.83%から99.48%に向上した。 このアプローチは、誤り、欠落、過剰な情報に対してさらに堅牢であり、現実世界の理解にとって重要なテキストの側面を蒸留します。

TMs are a pattern recognition approach that uses finite state machines for learning and propositional logic to represent patterns. In addition to being natively interpretable, they have provided competitive accuracy for various tasks. In this paper, we increase the computing power of TMs by proposing a first-order logic-based framework with Herbrand semantics. The resulting TM is relational and can take advantage of logical structures appearing in natural language, to learn rules that represent how actions and consequences are related in the real world. The outcome is a logic program of Horn clauses, bringing in a structured view of unstructured data. In closed-domain question-answering, the first-order representation produces 10x more compact KBs, along with an increase in answering accuracy from 94.83% to 99.48%. The approach is further robust towards erroneous, missing, and superfluous information, distilling the aspects of a text that are important for real-world understanding.
翻訳日:2021-02-23 15:28:42 公開日:2021-02-22
# 音声コマースにおけるワンショットタイトル圧縮のための教師なしメタ学習

Unsupervised Meta Learning for One Shot Title Compression in Voice Commerce ( http://arxiv.org/abs/2102.10760v1 )

ライセンス: Link先を確認
Snehasish Mukherjee(参考訳) 音声およびモバイルコマース向けの製品タイトル圧縮は、これまで提案されたいくつかの監督モデルでよく研究された問題です。 しかし、これらのモデルには2つの大きな制限がある。推論時のキューに基づいて動的に圧縮を生成するように設計されていないため、テスト時に異なるカテゴリにうまく転送されない。 これらの欠点に対処するために、タイトル圧縮をメタ学習問題としてモデル化し、1例の圧縮のみを与えられたタイトル圧縮モデルを学習できるかを問う。 4つの非オブザーブドプロセスの結果として観測されたラベル生成プロセスをモデル化する自動タスク生成アルゴリズムを提案することにより,教師なしのメタトレーニング手法を採用する。 これら4つの潜在プロセスそれぞれにパラメータ化近似を作成し、異なるタスクとして扱われるランダムな圧縮ルールを生成する原則的な方法を得る。 主要なメタ学習では、M1とM2の2つのモデルを使用します。 M1はタスク依存の埋め込みジェネレータであり、その出力はタスク固有のラベルジェネレータであるM2に供給される。 我々は、メタトレーニングプロセス中にセグメントをランク付けすることを学ぶセグメントジェネレータとしてm1を扱える新しい教師なしセグメントランク予測タスクをm1に事前トレーニングする。 16000人の群衆が生成したメタテスト実験の結果、教師なしのメタトレーニングシステムでは、各タスクに1つの例しか見つからず、異なるタスクの学習アルゴリズムを習得できることがわかった。 さらに,本モデルでは,ブラックボックスメタ学習者として終末訓練を行い,非パラメトリックアプローチよりも優れていることを示す。 我々の最良のモデルではF1スコアが0.8412であり、ベースラインを25F1ポイントの大差で打ち負かしている。

Product title compression for voice and mobile commerce is a well studied problem with several supervised models proposed so far. However these models have 2 major limitations; they are not designed to generate compressions dynamically based on cues at inference time, and they do not transfer well to different categories at test time. To address these shortcomings we model title compression as a meta learning problem where we ask can we learn a title compression model given only 1 example compression? We adopt an unsupervised approach to meta training by proposing an automatic task generation algorithm that models the observed label generation process as the outcome of 4 unobserved processes. We create parameterized approximations to each of these 4 latent processes to get a principled way of generating random compression rules, which are treated as different tasks. For our main meta learner, we use 2 models; M1 and M2. M1 is a task agnostic embedding generator whose output feeds into M2 which is a task specific label generator. We pre-train M1 on a novel unsupervised segment rank prediction task that allows us to treat M1 as a segment generator that also learns to rank segments during the meta-training process. Our experiments on 16000 crowd generated meta-test examples show that our unsupervised meta training regime is able to acquire a learning algorithm for different tasks after seeing only 1 example for each task. Further, we show that our model trained end to end as a black box meta learner, outperforms non parametric approaches. Our best model obtains an F1 score of 0.8412, beating the baseline by a large margin of 25 F1 points.
翻訳日:2021-02-23 15:28:04 公開日:2021-02-22
# LightCAKE - コンテキスト対応の知識グラフ埋め込みのための軽量フレームワーク

LightCAKE: A Lightweight Framework for Context-Aware Knowledge Graph Embedding ( http://arxiv.org/abs/2102.10826v1 )

ライセンス: Link先を確認
Zhiyuan Ning, Ziyue Qiao, Hao Dong, Yi Du, Yuanchun Zhou(参考訳) 知識グラフの場合、知識グラフ埋め込み(KGE)モデルは、観測された三重項に基づいて記号的実体と関係を低次元連続ベクトル空間に投影することを学ぶ。 しかし、既存のKGEモデルは、グラフコンテキストとモデルの複雑さとの間に適切なトレードオフを行うことはできません。 本稿では,コンテキスト認識型KGEのための軽量フレームワークLightCAKEを提案する。 LightCAKEは反復アグリゲーション戦略を使用して、マルチホップのコンテキスト情報をエンティティ/リレー埋め込みに統合し、埋め込み以外のトレーニング可能なパラメータを導入することなく、グラフコンテキストを明示的にモデル化します。 さらに、公開ベンチマークに関する広範な実験により、我々のフレームワークの効率性と有効性を示す。

For knowledge graphs, knowledge graph embedding (KGE) models learn to project the symbolic entities and relations into a low-dimensional continuous vector space based on the observed triplets. However, existing KGE models can not make a proper trade-off between the graph context and the model complexity, which makes them still far from satisfactory. In this paper, we propose a lightweight framework named LightCAKE for context-aware KGE. LightCAKE uses an iterative aggregation strategy to integrate the context information in multi-hop into the entity/relation embeddings, also explicitly models the graph context without introducing extra trainable parameters other than embeddings. Moreover, extensive experiments on public benchmarks demonstrate the efficiency and effectiveness of our framework.
翻訳日:2021-02-23 15:27:38 公開日:2021-02-22
# shapley value for features selection: the good, the bad, and the axioms

Shapley values for feature selection: The good, the bad, and the axioms ( http://arxiv.org/abs/2102.10936v1 )

ライセンス: Link先を確認
Daniel Fryer and Inga Str\"umke and Hien Nguyen(参考訳) 説明可能なAI(XAI)文学において、Shapleyの価値は、転送可能なユーティリティゲームにおいて帰属する4つの"favourable and fair"公理を含む、しっかりとした理論的基盤のおかげで、人気を博している。 Shapley値は、これらの公理を満たす唯一のソリューションコンセプトです。 本稿では,Shapleyの価値を紹介し,特徴選択ツールとしての最近の利用に注意を向ける。 私たちは、単純で抽象的な"toy"反例を用いて、Shapley値のこの使用に疑問を投げかけ、公理が特徴選択の目標に反する可能性があることを示す。 このことから、SHapley Additive exPlanations (SHAP) や Shapley Additive Global importancE (SAGE) など、Shapley値の様々な定式化を使用して、具体的なシミュレーション設定で調査される多くの洞察を開発しています。

The Shapley value has become popular in the Explainable AI (XAI) literature, thanks, to a large extent, to a solid theoretical foundation, including four "favourable and fair" axioms for attribution in transferable utility games. The Shapley value is provably the only solution concept satisfying these axioms. In this paper, we introduce the Shapley value and draw attention to its recent uses as a feature selection tool. We call into question this use of the Shapley value, using simple, abstract "toy" counterexamples to illustrate that the axioms may work against the goals of feature selection. From this, we develop a number of insights that are then investigated in concrete simulation settings, with a variety of Shapley value formulations, including SHapley Additive exPlanations (SHAP) and Shapley Additive Global importancE (SAGE).
翻訳日:2021-02-23 15:26:57 公開日:2021-02-22
# サブポピュレーションシフトのためのラベル伝播の理論

A Theory of Label Propagation for Subpopulation Shift ( http://arxiv.org/abs/2102.11203v1 )

ライセンス: Link先を確認
Tianle Cai, Ruiqi Gao, Jason D. Lee, Qi Lei(参考訳) 機械学習の中心的な問題のひとつは、ドメイン適応である。 過去の理論的研究とは異なり、入力空間や表現空間におけるサブポピュレーションシフトの新しいモデルを考える。 本研究では,ラベル伝播に基づくドメイン適応のための有効なフレームワークを提案する。 分析では、簡単なが現実的な ``expansion'' の仮定を \citet{wei2021theoretical} で提案する。 ソースドメインでトレーニングされた教師分類器を使用すると、アルゴリズムはターゲットドメインに伝播するだけでなく、教師を改良する。 既存の一般化境界を利用することにより、アルゴリズム全体のエンドツーエンドの有限サンプル保証を得る。 さらに,様々な学習シナリオで容易に適用可能な,第3のラベル付きデータセットに基づく,より一般的なソース間転送設定に理論的な枠組みを拡張した。

One of the central problems in machine learning is domain adaptation. Unlike past theoretical work, we consider a new model for subpopulation shift in the input or representation space. In this work, we propose a provably effective framework for domain adaptation based on label propagation. In our analysis, we use a simple but realistic ``expansion'' assumption, proposed in \citet{wei2021theoretical}. Using a teacher classifier trained on the source domain, our algorithm not only propagates to the target domain but also improves upon the teacher. By leveraging existing generalization bounds, we also obtain end-to-end finite-sample guarantees on the entire algorithm. In addition, we extend our theoretical framework to a more general setting of source-to-target transfer based on a third unlabeled dataset, which can be easily applied in various learning scenarios.
翻訳日:2021-02-23 15:26:23 公開日:2021-02-22
# ビジョントランスフォーマーの明示的な位置符号化は本当に必要ですか?

Do We Really Need Explicit Position Encodings for Vision Transformers? ( http://arxiv.org/abs/2102.10882v1 )

ライセンス: Link先を確認
Xiangxiang Chu and Bo Zhang and Zhi Tian and Xiaolin Wei and Huaxia Xia(参考訳) ViTやDeiTのようなほとんど全てのビジュアルトランスフォーマーは、各入力トークンの順序を組み込むために予め定義された位置エンコーディングに依存している。 これらの符号化はしばしば、異なる周波数の学習可能な固定次元ベクトルや正弦波関数として実装され、可変長入力シーケンスに対応できない。 これは必然的に、多くのタスクがオンザフライで入力サイズを変更する必要がある視覚におけるトランスフォーマーの幅広い応用を制限する。 本稿では,入力トークンの局所近傍を条件とする条件付き位置符号化方式を提案する。 これは、現在のトランスフレームワークにシームレスに組み込むことができるポジショニングエンコーディングジェネレータ(PEG)と呼ばれるものとして簡単に実装されます。 PEGを使った新しいモデルはConditional Position encoding Visual Transformer (CPVT)と呼ばれ、任意の長さの入力シーケンスを自然に処理できます。 我々は, cpvt が視覚的に類似したアテンションマップとなり, 予め定義された位置符号化よりも優れた性能が得られることを示す。 ビジュアルトランスフォーマーと比較して、ImageNet分類タスクで最新の結果が得られます。 私たちのコードはhttps://github.com/M eituan-AutoML/CPVTで公開されます。

Almost all visual transformers such as ViT or DeiT rely on predefined positional encodings to incorporate the order of each input token. These encodings are often implemented as learnable fixed-dimension vectors or sinusoidal functions of different frequencies, which are not possible to accommodate variable-length input sequences. This inevitably limits a wider application of transformers in vision, where many tasks require changing the input size on-the-fly. In this paper, we propose to employ a conditional position encoding scheme, which is conditioned on the local neighborhood of the input token. It is effortlessly implemented as what we call Position Encoding Generator (PEG), which can be seamlessly incorporated into the current transformer framework. Our new model with PEG is named Conditional Position encoding Visual Transformer (CPVT) and can naturally process the input sequences of arbitrary length. We demonstrate that CPVT can result in visually similar attention maps and even better performance than those with predefined positional encodings. We obtain state-of-the-art results on the ImageNet classification task compared with visual Transformers to date. Our code will be made available at https://github.com/M eituan-AutoML/CPVT .
翻訳日:2021-02-23 15:25:12 公開日:2021-02-22
# deep stacked lstms, context word embeddeds and data augmentationを用いた画像キャプション

Image Captioning using Deep Stacked LSTMs, Contextual Word Embeddings and Data Augmentation ( http://arxiv.org/abs/2102.11237v1 )

ライセンス: Link先を確認
Sulabh Katiyar, Samir Kumar Borgohain(参考訳) 画像キャプション、あるいは画像記述の自動生成は、コンピュータビジョンの核となる問題の一つであり、ディープラーニング技術を用いてかなりの進歩を遂げている。 画像のエンコーダとしてInception-ResNet Convolutional Neural Network、単語表現のための階層的コンテキストベースの単語埋め込み、デコーダとしてDeep Stacked Long Term Memory Network、オーバーフィッティングを避けるためにImage Data Augmentationを使用することを提案する。 データ拡張には、画像のパースペクティブトランスフォーメーションに加えて、水平および垂直フリップを使用します。 提案手法を,エンコーダデコーダとソフトアテンションの2つの画像キャプションフレームワークを用いて評価した。 広く使われているメトリクスの評価は、我々のアプローチがモデルパフォーマンスを大幅に改善することを示している。

Image Captioning, or the automatic generation of descriptions for images, is one of the core problems in Computer Vision and has seen considerable progress using Deep Learning Techniques. We propose to use Inception-ResNet Convolutional Neural Network as encoder to extract features from images, Hierarchical Context based Word Embeddings for word representations and a Deep Stacked Long Short Term Memory network as decoder, in addition to using Image Data Augmentation to avoid over-fitting. For data Augmentation, we use Horizontal and Vertical Flipping in addition to Perspective Transformations on the images. We evaluate our proposed methods with two image captioning frameworks- Encoder-Decoder and Soft Attention. Evaluation on widely used metrics have shown that our approach leads to considerable improvement in model performance.
翻訳日:2021-02-23 15:23:59 公開日:2021-02-22
# 先行知識を用いた意味的テキストマッチング作業におけるBERTの注意喚起

Using Prior Knowledge to Guide BERT's Attention in Semantic Textual Matching Tasks ( http://arxiv.org/abs/2102.10934v1 )

ライセンス: Link先を確認
Tingyu Xia, Yue Wang, Yuan Tian, Yi Chang(参考訳) 本研究では,Bidirectional Encoder Representations from Transformers (BERT) という深層トランスフォーマーに基づくモデルに事前知識を組み込むことで,意味的テキストマッチングタスクのパフォーマンスを高める問題を検討する。 この課題を解く際に、BERTがすでに知っていることを探索し分析することにより、BERTが最も必要とするタスク固有の知識と、それが最も必要である場所をよりよく理解する。 この分析は、既存のほとんどの作品と異なるアプローチを取る動機にもなります。 BERTを微調整するための新しいトレーニングタスクを作成するために、事前知識を使用する代わりに、BERTのマルチヘッドアテンションメカニズムに直接知識を注入する。 これにより、メインタスク以外の追加データやタスクのトレーニングからモデルを節約し、迅速なトレーニングステージを楽しむ、シンプルで効果的なアプローチが実現できます。 包括的な実験により,提案した知識を付加したBERTは,元のBERTモデルよりもセマンティックテキストマッチング性能を一貫して向上できることが示された。

We study the problem of incorporating prior knowledge into a deep Transformer-based model,i.e.,Bidirecti onal Encoder Representations from Transformers (BERT), to enhance its performance on semantic textual matching tasks. By probing and analyzing what BERT has already known when solving this task, we obtain better understanding of what task-specific knowledge BERT needs the most and where it is most needed. The analysis further motivates us to take a different approach than most existing works. Instead of using prior knowledge to create a new training task for fine-tuning BERT, we directly inject knowledge into BERT's multi-head attention mechanism. This leads us to a simple yet effective approach that enjoys fast training stage as it saves the model from training on additional data or tasks other than the main task. Extensive experiments demonstrate that the proposed knowledge-enhanced BERT is able to consistently improve semantic textual matching performance over the original BERT model, and the performance benefit is most salient when training data is scarce.
翻訳日:2021-02-23 15:22:55 公開日:2021-02-22
# 変圧器における位置情報:概要

Position Information in Transformers: An Overview ( http://arxiv.org/abs/2102.11090v1 )

ライセンス: Link先を確認
Philipp Dufter, Martin Schmitt, Hinrich Sch\"utze(参考訳) トランスフォーマーは、おそらく最近の自然言語処理研究の主要な仕事です。 定義により、Transformerは入力の再順序付けに関して不変である。 しかし、言語は本質的にシーケンシャルであり、語順は発話の意味論と構文に不可欠である。 本稿では,トランスフォーマーモデルに位置情報を組み込むための一般的な方法の概要について述べる。 本調査の目的は, トランスフォーマーにおける位置情報が活気ある広範な研究領域であること, 読者が統一的な表記と意味的クラスタリングを提供することによって既存の手法を比較できること, (3) 位置符号化を選択する際にアプリケーションの特徴を考慮に入れるべきであること, (4) 将来の研究に刺激を与えること, を示すことである。

Transformers are arguably the main workhorse in recent Natural Language Processing research. By definition a Transformer is invariant with respect to reorderings of the input. However, language is inherently sequential and word order is essential to the semantics and syntax of an utterance. In this paper, we provide an overview of common methods to incorporate position information into Transformer models. The objectives of this survey are to i) showcase that position information in Transformer is a vibrant and extensive research area; ii) enable the reader to compare existing methods by providing a unified notation and meaningful clustering; iii) indicate what characteristics of an application should be taken into account when selecting a position encoding; iv) provide stimuli for future research.
翻訳日:2021-02-23 15:22:37 公開日:2021-02-22
# 認知支援型ゼロショット自動エッセイグレーディング

Cognitively Aided Zero-Shot Automatic Essay Grading ( http://arxiv.org/abs/2102.11258v1 )

ライセンス: Link先を確認
Sandeep Mathias, Rudra Murthy, Diptesh Kanojia, and Pushpak Bhattacharyya(参考訳) 自動エッセイグレーティング(automatic essay grading、aeg)は、プロンプトと呼ばれるトピックに応答して書かれたエッセイに、機械がグレードを割り当てるプロセスである。 Zero-shot AEGは、トレーニングデータに存在しない新しいプロンプトに書かれたエッセイを格付けするシステムをトレーニングする時です。 本稿では,認知情報を用いたゼロショット自動エッセイグレーディングの問題に対する,視線行動の形での解決法について述べる。 特にスコア付けのための新しいプロンプトに応答して書かれた新しいエッセイをqwkの約5%のポイントで提供した場合,アイズ行動を用いることが aeg システムの性能向上に寄与することが示された。

Automatic essay grading (AEG) is a process in which machines assign a grade to an essay written in response to a topic, called the prompt. Zero-shot AEG is when we train a system to grade essays written to a new prompt which was not present in our training data. In this paper, we describe a solution to the problem of zero-shot automatic essay grading, using cognitive information, in the form of gaze behaviour. Our experiments show that using gaze behaviour helps in improving the performance of AEG systems, especially when we provide a new essay written in response to a new prompt for scoring, by an average of almost 5 percentage points of QWK.
翻訳日:2021-02-23 15:22:24 公開日:2021-02-22
# MetaDelta: フェーショット画像分類のためのメタラーニングシステム

MetaDelta: A Meta-Learning System for Few-shot Image Classification ( http://arxiv.org/abs/2102.10744v1 )

ライセンス: Link先を確認
Yudong Chen, Chaoyu Guan, Zhikun Wei, Xin Wang, Wenwu Zhu(参考訳) メタラーニングは、従来のタスクから学んだ汎用的な経験を伝達することで、限られたデータで新しいタスクを素早く学習することを目指しています。 当然ながら、数ショット学習はメタ学習の最も一般的なアプリケーションの1つです。 しかし、既存のメタ学習アルゴリズムでは、未知のデータセットの時間とリソース効率や一般化能力を考慮することはめったにない。 本論文では,数ショット画像分類のための新しい実用的メタラーニングシステムであるMetaDeltaを提案する。 MetaDeltaは2つのコアコンポーネントから構成される: i) 中央コントローラが管理する複数のメタラーナーで効率を確保、i) 統合推論とより良い一般化を担当するメタアンサンブルモジュール。 特にMetaDeltaの各メタラーナーは、バッチトレーニングによって微調整された独自の事前訓練エンコーダと、予測に使用されるパラメータフリーデコーダで構成されている。 MetaDelta は AAAI 2021 MetaDL Challenge\footnote{https://competitions .codalab.org/competi tions/26638} の最終段階にランクインし、提案システムの利点を実証した。 コードはhttps://github.com/F rozenmad/MetaDelta.c omで公開されている。

Meta-learning aims at learning quickly on novel tasks with limited data by transferring generic experience learned from previous tasks. Naturally, few-shot learning has been one of the most popular applications for meta-learning. However, existing meta-learning algorithms rarely consider the time and resource efficiency or the generalization capacity for unknown datasets, which limits their applicability in real-world scenarios. In this paper, we propose MetaDelta, a novel practical meta-learning system for the few-shot image classification. MetaDelta consists of two core components: i) multiple meta-learners supervised by a central controller to ensure efficiency, and ii) a meta-ensemble module in charge of integrated inference and better generalization. In particular, each meta-learner in MetaDelta is composed of a unique pretrained encoder fine-tuned by batch training and parameter-free decoder used for prediction. MetaDelta ranks first in the final phase in the AAAI 2021 MetaDL Challenge\footnote{https://competitions .codalab.org/competi tions/26638}, demonstrating the advantages of our proposed system. The codes are publicly available at https://github.com/F rozenmad/MetaDelta.
翻訳日:2021-02-23 15:21:55 公開日:2021-02-22
# 深層学習におけるポイントクラウドに対する注意モデル--調査

Attention Models for Point Clouds in Deep Learning: A Survey ( http://arxiv.org/abs/2102.10788v1 )

ライセンス: Link先を確認
Xu Wang, Yi Jin, Yigang Cen, Tao Wang and Yidong Li(参考訳) 近年、ディープラーニングにおける3dポイントクラウドの進歩は、コンピュータビジョンやロボットタスクなど、さまざまなアプリケーション領域で集中的に研究されている。 しかし、不規則で不規則な点雲からロバストで識別可能な特徴表現を作成するのは困難である。 本論文では,注目モデルを用いた点群特徴表現を総合的に概観することを目的とする。 この3年間で75以上の重要な貢献が,3dの客観的検出,3dセマンティックセグメンテーション,3dポーズ推定,ポイントクラウドの完成など,この調査でまとめられている。 注意メカニズムの役割,(2)注意モデルの異なるタスクへの使用性,(3)鍵技術の発展動向について詳細な特徴付けを行う。

Recently, the advancement of 3D point clouds in deep learning has attracted intensive research in different application domains such as computer vision and robotic tasks. However, creating feature representation of robust, discriminative from unordered and irregular point clouds is challenging. In this paper, our ultimate goal is to provide a comprehensive overview of the point clouds feature representation which uses attention models. More than 75+ key contributions in the recent three years are summarized in this survey, including the 3D objective detection, 3D semantic segmentation, 3D pose estimation, point clouds completion etc. We provide a detailed characterization (1) the role of attention mechanisms, (2) the usability of attention models into different tasks, (3) the development trend of key technology.
翻訳日:2021-02-23 15:21:35 公開日:2021-02-22
# decoupled and memory-reinforced network : one-step person searchのための効果的な特徴学習に向けて

Decoupled and Memory-Reinforced Networks: Towards Effective Feature Learning for One-Step Person Search ( http://arxiv.org/abs/2102.10795v1 )

ライセンス: Link先を確認
Chuchu Han, Zhedong Zheng, Changxin Gao, Nong Sang, Yi Yang(参考訳) 人物検索のゴールは、シーンイメージから質問者をローカライズし、マッチングすることである。 高効率のために、単一ネットワークを用いて歩行者検出と識別サブタスクを共同処理するワンステップ手法が開発されている。 現在のワンステップアプローチには2つの大きな課題があります。 1つは、複数のサブタスクの最適化目標間の相互干渉である。 もう1つは、エンドツーエンドのトレーニング時に小さなバッチサイズによって引き起こされる最適の識別機能学習です。 これらの問題を解決するために,分離型メモリ強化ネットワーク(DMRNet)を提案する。 具体的には、複数の目的の矛盾を解決するために、標準の密結合パイプラインを簡素化し、深く分離されたマルチタスク学習フレームワークを確立する。 さらに,認識機能学習を促進するために,メモリ強化機構を構築する。 最近アクセスされたインスタンスの識別機能をメモリバンクにキューすることで、このメカニズムはペアワイズメトリックラーニングの類似性ペア構築を増強する。 保存された特徴の一貫性をより良くエンコードするために、これらの特徴を抽出するために、ネットワークの遅い移動平均が適用される。 このように、二重ネットワークは互いに強化し、堅牢な解状態に収束する。 提案手法は、CUHK-SYSUおよびPRWデータセット上で93.2%および46.9%のmAPを得る。

The goal of person search is to localize and match query persons from scene images. For high efficiency, one-step methods have been developed to jointly handle the pedestrian detection and identification sub-tasks using a single network. There are two major challenges in the current one-step approaches. One is the mutual interference between the optimization objectives of multiple sub-tasks. The other is the sub-optimal identification feature learning caused by small batch size when end-to-end training. To overcome these problems, we propose a decoupled and memory-reinforced network (DMRNet). Specifically, to reconcile the conflicts of multiple objectives, we simplify the standard tightly coupled pipelines and establish a deeply decoupled multi-task learning framework. Further, we build a memory-reinforced mechanism to boost the identification feature learning. By queuing the identification features of recently accessed instances into a memory bank, the mechanism augments the similarity pair construction for pairwise metric learning. For better encoding consistency of the stored features, a slow-moving average of the network is applied for extracting these features. In this way, the dual networks reinforce each other and converge to robust solution states. Experimentally, the proposed method obtains 93.2% and 46.9% mAP on CUHK-SYSU and PRW datasets, which exceeds all the existing one-step methods.
翻訳日:2021-02-23 15:21:23 公開日:2021-02-22
# コンピュータによる肺がん診断 : 放射線分析から悪性度評価まで

Interpretative Computer-aided Lung Cancer Diagnosis: from Radiology Analysis to Malignancy Evaluation ( http://arxiv.org/abs/2102.10919v1 )

ライセンス: Link先を確認
Shaohua Zheng, Zhiqiang Shen, Chenhao Peia, Wangbin Ding, Haojin Lin, Jiepeng Zheng, Lin Pan, Bin Zheng, Liqin Huang(参考訳) 背景と目的:cadシステムは診断の有効性を促進し,放射線科医の圧力を軽減する。 肺癌診断のためのCADシステムは、結節候補検出および結節悪性度評価を含む。 近年,深層学習による肺結節検出は,臨床応用に十分対応している。 しかしながら、深層学習に基づく結節悪性度の評価は、低用量ct量から悪性確率までのヒューリスティックな推論に依存する。 方法: 本報告では, 肺結節悪性度評価ネットワーク(R2MNet)について, 放射線学的特徴解析を用いて検討する。 放射線学的特徴をチャネルディスクリプタとして抽出し、結節悪性度評価に不可欠な入力ボリュームの特定の領域を強調する。 さらに,モデル説明のために,特徴を可視化するためにチャネル依存のアクティベーションマッピングを提案し,ディープニューラルネットワークの意思決定プロセスに光を当てる。 結果: LIDC-IDRIデータセットによる実験結果から, 本手法は結節放射線学解析では96.27%, 結節悪性度評価では97.52%であった。 また,CDAMの特徴を説明したところ,結節領域の形状と密度は悪性と推定される結節に影響を及ぼす2つの重要な因子であることが判明した。 結語: 結節悪性評価による放射線学解析を取り入れたネットワーク推論は, 放射線技師の診断に適合し, 評価結果の信頼性を高める。 さらに、CDAMを用いたモデル解釈では、DNNが結節性悪性度を推定する領域に光を当てている。

Background and Objective:Computer-a ided diagnosis (CAD) systems promote diagnosis effectiveness and alleviate pressure of radiologists. A CAD system for lung cancer diagnosis includes nodule candidate detection and nodule malignancy evaluation. Recently, deep learning-based pulmonary nodule detection has reached satisfactory performance ready for clinical application. However, deep learning-based nodule malignancy evaluation depends on heuristic inference from low-dose computed tomography volume to malignant probability, which lacks clinical cognition. Methods:In this paper, we propose a joint radiology analysis and malignancy evaluation network (R2MNet) to evaluate the pulmonary nodule malignancy via radiology characteristics analysis. Radiological features are extracted as channel descriptor to highlight specific regions of the input volume that are critical for nodule malignancy evaluation. In addition, for model explanations, we propose channel-dependent activation mapping to visualize the features and shed light on the decision process of deep neural network. Results:Experimental results on the LIDC-IDRI dataset demonstrate that the proposed method achieved area under curve of 96.27% on nodule radiology analysis and AUC of 97.52% on nodule malignancy evaluation. In addition, explanations of CDAM features proved that the shape and density of nodule regions were two critical factors that influence a nodule to be inferred as malignant, which conforms with the diagnosis cognition of experienced radiologists. Conclusion:Incorpora ting radiology analysis with nodule malignant evaluation, the network inference process conforms to the diagnostic procedure of radiologists and increases the confidence of evaluation results. Besides, model interpretation with CDAM features shed light on the regions which DNNs focus on when they estimate nodule malignancy probabilities.
翻訳日:2021-02-23 15:21:03 公開日:2021-02-22
# ニューラルネットワークの構造的制約を加えるための拡散に基づく空間関係の近似

Approximation of dilation-based spatial relations to add structural constraints in neural networks ( http://arxiv.org/abs/2102.10923v1 )

ライセンス: Link先を確認
Mateus Riva, Pietro Gori, Florian Yger, Roberto Cesar, Isabelle Bloch(参考訳) 画像中の物体間の空間的関係は、構造的物体認識に有用であることが証明された。 構造的制約はニューラルネットワークトレーニングの正規化として機能し、小さなデータセットによる一般化能力を向上させる。 いくつかの関係は、関係の意味を表す構造要素を持つ参照対象の形態的拡張としてモデル化することができ、そこから他の対象と参照対象との関係の満足度を導出することができる。 しかし、拡張は微分可能ではなく、ネットワークの勾配-descentトレーニングの文脈で使われる近似を必要とする。 構造要素に等しいカーネルに基づく畳み込みを用いた近似的拡張を提案する。 提案手法は,従来の近似よりもわずかに精度が低いとしても,計算速度が速く,計算集約型ニューラルネットワークアプリケーションに適していることを示す。

Spatial relations between objects in an image have proved useful for structural object recognition. Structural constraints can act as regularization in neural network training, improving generalization capability with small datasets. Several relations can be modeled as a morphological dilation of a reference object with a structuring element representing the semantics of the relation, from which the degree of satisfaction of the relation between another object and the reference object can be derived. However, dilation is not differentiable, requiring an approximation to be used in the context of gradient-descent training of a network. We propose to approximate dilations using convolutions based on a kernel equal to the structuring element. We show that the proposed approximation, even if slightly less accurate than previous approximations, is definitely faster to compute and therefore more suitable for computationally intensive neural network applications.
翻訳日:2021-02-23 15:20:37 公開日:2021-02-22
# 双方向蒸留による対話生成のための多視点特徴表現

Multi-View Feature Representation for Dialogue Generation with Bidirectional Distillation ( http://arxiv.org/abs/2102.10780v1 )

ライセンス: Link先を確認
Shaoxiong Feng, Xuancheng Ren, Kan Li, Xu Sun(参考訳) 神経対話モデルは、実際に対話する際には低品質の反応に苦しめられ、訓練データを超えた一般化の困難さを示している。 近年,教員から知識を伝達することで,学生の正規化に成功している。 しかし、教師と学生は同じデータセットで訓練され、同様の機能表現を学ぶ傾向がありますが、最も一般的な知識は違いによって見つけるべきです。 一般知識の発見は、学生が教師に従わなければならない一方向の蒸留によってさらに妨げられ、真に一般的な知識を放棄する可能性がある。 そこで本研究では,一般知識の学習がコンセンサス(コンセンサス)に到達すること,すなわち,多様な学習パートナーを通じて,異なるがすべてのデータセットにとって有益な共通知識の発見に合致する,新たなトレーニングフレームワークを提案する。 具体的には、トレーニングタスクを、同じ数の学生を持つサブタスクのグループに分割する。 1つのサブタスクに割り当てられた各学生は、割り当てられたサブタスクに最適化されるだけでなく、他の学生(例えば、学生仲間)から集約された多視点の特徴表現を模倣する。 汎用化をさらに促進するため,留学生と留学生が相補的知識を交換することで共進化を促す双方向蒸留に一方向蒸留を拡張した。 実験結果と分析結果から,トレーニング効率を犠牲にすることなく,モデルの一般化を効果的に改善できることが示唆された。

Neural dialogue models suffer from low-quality responses when interacted in practice, demonstrating difficulty in generalization beyond training data. Recently, knowledge distillation has been used to successfully regularize the student by transferring knowledge from the teacher. However, the teacher and the student are trained on the same dataset and tend to learn similar feature representations, whereas the most general knowledge should be found through differences. The finding of general knowledge is further hindered by the unidirectional distillation, as the student should obey the teacher and may discard some knowledge that is truly general but refuted by the teacher. To this end, we propose a novel training framework, where the learning of general knowledge is more in line with the idea of reaching consensus, i.e., finding common knowledge that is beneficial to different yet all datasets through diversified learning partners. Concretely, the training task is divided into a group of subtasks with the same number of students. Each student assigned to one subtask not only is optimized on the allocated subtask but also imitates multi-view feature representation aggregated from other students (i.e., student peers), which induces students to capture common knowledge among different subtasks and alleviates the over-fitting of students on the allocated subtasks. To further enhance generalization, we extend the unidirectional distillation to the bidirectional distillation that encourages the student and its student peers to co-evolve by exchanging complementary knowledge with each other. Empirical results and analysis demonstrate that our training framework effectively improves the model generalization without sacrificing training efficiency.
翻訳日:2021-02-23 15:20:09 公開日:2021-02-22
# 意識とコントラスト学習によるコンテキストベースオフラインメタRLの改良

Improved Context-Based Offline Meta-RL with Attention and Contrastive Learning ( http://arxiv.org/abs/2102.10774v1 )

ライセンス: Link先を確認
Lanqing Li, Yuanhao Huang, Dijun Luo(参考訳) オフライン強化学習(OMRL)のためのメタラーニングは、多くの実世界のアプリケーションでRLアルゴリズムを有効にすることで、潜在的に大きな影響を持つ。 この問題の一般的な解決策は、タスク表現の効率的な学習が依然としてオープンな課題であるコンテキストベースのエンコーダを用いて、タスクアイデンティティを拡張状態として推論することである。 本研究では,より効果的なタスク推論と制御学習のために,タスク内注目機構とタスク間コントラスト学習目標を組み込むことにより,SOTA OMRLアルゴリズムの1つであるFOOCALを改善した。 複数のメタRLベンチマークにおける先行アルゴリズムと比較して、エンドツーエンドおよびモデルフリー手法の優れた性能、効率、堅牢性を示すため、理論的解析および実験を行った。

Meta-learning for offline reinforcement learning (OMRL) is an understudied problem with tremendous potential impact by enabling RL algorithms in many real-world applications. A popular solution to the problem is to infer task identity as augmented state using a context-based encoder, for which efficient learning of task representations remains an open challenge. In this work, we improve upon one of the SOTA OMRL algorithms, FOCAL, by incorporating intra-task attention mechanism and inter-task contrastive learning objectives for more effective task inference and learning of control. Theoretical analysis and experiments are presented to demonstrate the superior performance, efficiency and robustness of our end-to-end and model free method compared to prior algorithms across multiple meta-RL benchmarks.
翻訳日:2021-02-23 15:18:44 公開日:2021-02-22
# 物理誘起ニューラルネットワークを用いた心内図からの心房線維配向と導電テンソルの学習

Learning atrial fiber orientations and conductivity tensors from intracardiac maps using physics-informed neural networks ( http://arxiv.org/abs/2102.10863v1 )

ライセンス: Link先を確認
Thomas Grandits, Simone Pezzuto, Francisco Sahli Costabal, Paris Perdikaris, Thomas Pock, Gernot Plank, Rolf Krause(参考訳) 心電図は心房細動の診断と治療における重要なツールである。 現在のアプローチは、記録されたアクティベーション時間に焦点を当てている。 ただし、利用可能なデータからより多くの情報を抽出できます。 心臓組織の繊維はより速く電気波を伝導し、その方向は活性化時間から推定できる。 本研究では,最近開発された物理インフォームドニューラルネットワークを用いて,電波伝搬の物理を考慮に入れて,電気解剖学的な地図から繊維の配向を学習する。 特に、異方性固有方程式を弱く満たし、測定された活性化時間を予測するためにニューラルネットワークを訓練する。 私達は繊維のオリエンテーションをエンコードする異方性伝導性テンソルのためのローカル基礎を使用します。 この方法論は、合成例と患者データの両方でテストされる。 このアプローチは,両症例とも良好な一致を示し,患者データにおけるアートメソッドの状態を上回っている。 その結果、物理インフォームドニューラルネットワークを用いた電気解剖学的マップから繊維配向を学習する第一歩が示された。

Electroanatomical maps are a key tool in the diagnosis and treatment of atrial fibrillation. Current approaches focus on the activation times recorded. However, more information can be extracted from the available data. The fibers in cardiac tissue conduct the electrical wave faster, and their direction could be inferred from activation times. In this work, we employ a recently developed approach, called physics informed neural networks, to learn the fiber orientations from electroanatomical maps, taking into account the physics of the electrical wave propagation. In particular, we train the neural network to weakly satisfy the anisotropic eikonal equation and to predict the measured activation times. We use a local basis for the anisotropic conductivity tensor, which encodes the fiber orientation. The methodology is tested both in a synthetic example and for patient data. Our approach shows good agreement in both cases and it outperforms a state of the art method in the patient data. The results show a first step towards learning the fiber orientations from electroanatomical maps with physics-informed neural networks.
翻訳日:2021-02-23 15:18:31 公開日:2021-02-22
# 不変発見のための線形ユニットテスト

Linear unit-tests for invariance discovery ( http://arxiv.org/abs/2102.10867v1 )

ライセンス: Link先を確認
Benjamin Aubin, Agnieszka S{\l}owik, Martin Arjovsky, Leon Bottou, David Lopez-Paz(参考訳) トレーニング環境間で不変相関を学ぶアルゴリズムへの関心が高まっている。 現在の提案の多くは因果関係の文献で理論的に支持されているが、実際にはどの程度有用か? 本研究の目的は,6つの線形低次元問題 -- ユニットテスト -- を提案し,異なる種類の分散一般化を高精度に評価することである。 初期の実験の後、最近提案された3つの代替案はいずれもすべてのテストに合格しなかった。 この原稿のすべての結果を自動で複製するコード(https://www.github. com/facebookresearch /InvarianceUnitTests )を提供することで、我々のユニットテストが、配布外一般化の研究者の標準となることを願っています。

There is an increasing interest in algorithms to learn invariant correlations across training environments. A big share of the current proposals find theoretical support in the causality literature but, how useful are they in practice? The purpose of this note is to propose six linear low-dimensional problems -- unit tests -- to evaluate different types of out-of-distribution generalization in a precise manner. Following initial experiments, none of the three recently proposed alternatives passes all tests. By providing the code to automatically replicate all the results in this manuscript (https://www.github. com/facebookresearch /InvarianceUnitTests ), we hope that our unit tests become a standard steppingstone for researchers in out-of-distribution generalization.
翻訳日:2021-02-23 15:18:15 公開日:2021-02-22
# 因果表現学習に向けて

Towards Causal Representation Learning ( http://arxiv.org/abs/2102.11107v1 )

ライセンス: Link先を確認
Bernhard Sch\"olkopf, Francesco Locatello, Stefan Bauer, Nan Rosemary Ke, Nal Kalchbrenner, Anirudh Goyal, Yoshua Bengio(参考訳) 機械学習とグラフィカル因果関係の2つの分野が生まれ、別々に発展した。 しかし、今は相互受粉があり、双方の進歩から利益を得るために両方の分野への関心が高まっています。 本稿では,因果推論の基本概念を,移動や一般化を含む機械学習の重要なオープン問題と関連づけ,因果性が現代の機械学習研究にどのように寄与するかを検証する。 因果関係のほとんどの仕事は因果変数が与えられるという前提から始まることに注意してください。 したがって、AIと因果関係の主な問題は、因果表現学習、低レベルの観察から高レベルの因果変数の発見である。 最後に,機械学習の因果関係を概説し,両コミュニティの交点における重要な研究分野を提案する。

The two fields of machine learning and graphical causality arose and developed separately. However, there is now cross-pollination and increasing interest in both fields to benefit from the advances of the other. In the present paper, we review fundamental concepts of causal inference and relate them to crucial open problems of machine learning, including transfer and generalization, thereby assaying how causality can contribute to modern machine learning research. This also applies in the opposite direction: we note that most work in causality starts from the premise that the causal variables are given. A central problem for AI and causality is, thus, causal representation learning, the discovery of high-level causal variables from low-level observations. Finally, we delineate some implications of causality for machine learning and propose key research areas at the intersection of both communities.
翻訳日:2021-02-23 15:17:55 公開日:2021-02-22
# 原型表現を用いた強化学習

Reinforcement Learning with Prototypical Representations ( http://arxiv.org/abs/2102.11271v1 )

ライセンス: Link先を確認
Denis Yarats, Rob Fergus, Alessandro Lazaric, Lerrel Pinto(参考訳) 画像ベースの環境で効果的な表現を学ぶことは、サンプル効率的な強化学習(RL)に不可欠です。 残念なことに、RLでは、表現学習はエージェントの探索的な経験と融合する -- 有用な表現を学ぶには多様なデータが必要であるが、効果的な探索はコヒーレントな表現でのみ可能である。 さらに,タスク全般を一般化するだけでなく,より効率的なタスク特化訓練のために下流探索を加速する表現を学習したい。 これらの課題に対処するため,プロトタイプ表現による学習と探索を結びつける自己教師型フレームワークProto-RLを提案する。 これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。 これらのタスクに依存しない表現とプロトタイプを下流のタスク情報のない環境で事前トレーニングします。 これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。

Learning effective representations in image-based environments is crucial for sample efficient Reinforcement Learning (RL). Unfortunately, in RL, representation learning is confounded with the exploratory experience of the agent -- learning a useful representation requires diverse data, while effective exploration is only possible with coherent representations. Furthermore, we would like to learn representations that not only generalize across tasks but also accelerate downstream exploration for efficient task-specific training. To address these challenges we propose Proto-RL, a self-supervised framework that ties representation learning with exploration through prototypical representations. These prototypes simultaneously serve as a summarization of the exploratory experience of an agent as well as a basis for representing observations. We pre-train these task-agnostic representations and prototypes on environments without downstream task information. This enables state-of-the-art downstream policy learning on a set of difficult continuous control tasks.
翻訳日:2021-02-23 15:17:42 公開日:2021-02-22
# the wild: make surrogate explanationers robust to distortions through perception

Explainers in the Wild: Making Surrogate Explainers Robust to Distortions through Perception ( http://arxiv.org/abs/2102.10951v1 )

ライセンス: Link先を確認
Alexander Hepburn, Raul Santos-Rodriguez(参考訳) モデル決定の説明は、ポストホックメソッドの使用、または本質的に解釈可能なモデルの作成など、画像処理領域で広まりつつある。 代用説明器の普及はブラックボックスモデルの検査と理解を歓迎する追加であり、説明の堅牢性と信頼性を評価することが彼らの成功の鍵である。 さらに、説明可能性分野における既存の作業では、この問題に対処するための様々な戦略が提案されているが、荒野でデータを扱うことの課題はしばしば見過ごされている。 例えば、画像分類において、画像の歪みはモデルによって割り当てられた予測だけでなく、説明にも影響を及ぼす。 画像の清潔で歪んだバージョンを考えると、たとえ予測確率が似ているとしても、説明は相変わらず異なるかもしれない。 そこで本論文では,説明者の訓練に使用する近傍の知覚距離を組み込むことにより,説明における歪みの影響を評価する手法を提案する。 また,このような操作を行うことで,歪みに対してより強固な説明ができることを示す。 Imagenet-Cデータセットの画像の説明を生成し、サロゲート説明書の知覚距離を使用して歪んだ画像と参照画像のより一貫性のある説明を作成する方法を示しています。

Explaining the decisions of models is becoming pervasive in the image processing domain, whether it is by using post-hoc methods or by creating inherently interpretable models. While the widespread use of surrogate explainers is a welcome addition to inspect and understand black-box models, assessing the robustness and reliability of the explanations is key for their success. Additionally, whilst existing work in the explainability field proposes various strategies to address this problem, the challenges of working with data in the wild is often overlooked. For instance, in image classification, distortions to images can not only affect the predictions assigned by the model, but also the explanation. Given a clean and a distorted version of an image, even if the prediction probabilities are similar, the explanation may still be different. In this paper we propose a methodology to evaluate the effect of distortions in explanations by embedding perceptual distances that tailor the neighbourhoods used to training surrogate explainers. We also show that by operating in this way, we can make the explanations more robust to distortions. We generate explanations for images in the Imagenet-C dataset and demonstrate how using a perceptual distances in the surrogate explainer creates more coherent explanations for the distorted and reference images.
翻訳日:2021-02-23 15:17:13 公開日:2021-02-22
# 楽観主義は必要なものすべて:観察からモデルに基づく模倣を学ぶ

Optimism is All You Need: Model-Based Imitation Learning From Observation Alone ( http://arxiv.org/abs/2102.10769v1 )

ライセンス: Link先を確認
Rahul Kidambi, Jonathan Chang, Wen Sun(参考訳) 本論文は、専門家が遭遇した状態(専門家の行動にアクセスせずに)のみからなる専門家によるデモンストレーションを行うILFO(Imitation Learning from Observations)について研究する。 ILFO問題の解決に有効なモデルベースフレームワークであるMobILEを提案する。 これは、不確実性に直面した楽観主義のアイデアを、分布マッチング模倣学習(distribution matching imitation learning, il)フレームワークに統合することによって達成される。 我々は MobILE の統一解析を行い、MobILE がある種のよく研究された複雑性の概念を満たす MDP 力学のクラスに対して強い性能保証を享受していることを示す。 また,ILFOの探索が必須であることを示すマルチアームバンディット問題に対するILFOの低減により,ILFOの問題は標準的なIL問題よりも厳しくなることを示す。 我々はこれらの理論結果を,MobILEの有効性を示すベンチマークOpenAI Gymタスクの実験シミュレーションで補完する。

This paper studies Imitation Learning from Observations alone (ILFO) where the learner is presented with expert demonstrations that only consist of states encountered by an expert (without access to actions taken by the expert). We present a provably efficient model-based framework MobILE to solve the ILFO problem. MobILE involves carefully trading off exploration against imitation - this is achieved by integrating the idea of optimism in the face of uncertainty into the distribution matching imitation learning (IL) framework. We provide a unified analysis for MobILE, and demonstrate that MobILE enjoys strong performance guarantees for classes of MDP dynamics that satisfy certain well studied notions of complexity. We also show that the ILFO problem is strictly harder than the standard IL problem by reducing ILFO to a multi-armed bandit problem indicating that exploration is necessary for ILFO. We complement these theoretical results with experimental simulations on benchmark OpenAI Gym tasks that indicate the efficacy of MobILE.
翻訳日:2021-02-23 15:15:13 公開日:2021-02-22
# ビッグデータ解析のための分別対数法

Divide-and-conquer methods for big data analysis ( http://arxiv.org/abs/2102.10771v1 )

ライセンス: Link先を確認
Xueying Chen, Jerry Q. Cheng, Min-ge Xie(参考訳) ビッグデータ分析の文脈では、分割・問合せの方法論は、まずデータセットをいくつかの小さなプロセスに分割し、次に各セットを別々に分析し、最後に各分析の結果を組み合わせる、多段階のプロセスを指す。 このアプローチは、メモリストレージや計算時間による制限のため、単一のコンピュータで完全に解析できない大規模なデータセットを扱うのに有効である。 組み合わせた結果は、データセット全体の分析から得られるものと類似した統計的推論を提供する。 この記事では、パラメトリック、セミパラメトリック、ノンパラメトリックモデルに基づく組み合わせ、オンラインシーケンシャル更新方法など、さまざまな設定における分割および並列メソッドの最近の開発をレビューします。 また,分割・分散手法の効率に関する理論的発展についても論じる。

In the context of big data analysis, the divide-and-conquer methodology refers to a multiple-step process: first splitting a data set into several smaller ones; then analyzing each set separately; finally combining results from each analysis together. This approach is effective in handling large data sets that are unsuitable to be analyzed entirely by a single computer due to limits either from memory storage or computational time. The combined results will provide a statistical inference which is similar to the one from analyzing the entire data set. This article reviews some recently developments of divide-and-conquer methods in a variety of settings, including combining based on parametric, semiparametric and nonparametric models, online sequential updating methods, among others. Theoretical development on the efficiency of the divide-and-conquer methods is also discussed.
翻訳日:2021-02-23 15:14:58 公開日:2021-02-22
# 適応型マルチビューICA:最適推論のための騒音レベルの推定

Adaptive Multi-View ICA: Estimation of noise levels for optimal inference ( http://arxiv.org/abs/2102.10964v1 )

ライセンス: Link先を確認
Hugo Richard (1) and Pierre Ablin (2) and Aapo Hyv\"arinen (1 and 3) and Alexandre Gramfort (1) and Bertrand Thirion (1) ((1) Inria, Universit\'e-Paris Saclay, Saclay, France (2) Ecole normale sup\'erieure, Paris, France (3) University of Helsinky, Finland)(参考訳) グループ独立成分分析(group independent component analysis, Group ICA)と呼ばれるマルチビュー学習問題を検討し、共有独立ソースを多くの視点から回復することを目標としている。 この問題の統計的モデリングにはノイズを考慮する必要がある。 モデルが観測に付加的なノイズを含む場合、その確率は難解である。 対照的に,各視点が音源に付加ノイズを持つ共有独立音源の線形混合であるような雑音モデルである適応型マルチビューica (avica) を提案する。 この設定では、確率は扱いやすい表現を持ち、擬似ニュートン法や一般化emを用いたログ類似度の直接最適化が可能となる。 重要なことは、ノイズレベルもデータから学習されるパラメータであると考えている。 これは、各ビューを相対的なノイズレベルに応じて重み付けするクローズドフォーム最小方形誤差(MMSE)推定器でソース推定を可能にします。 AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。 実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。 最後に、機能的磁気共鳴イメージング(fMRI)データにおいて、AVICAはビュー間で情報を転送する際の最高の性能を示す。

We consider a multi-view learning problem known as group independent component analysis (group ICA), where the goal is to recover shared independent sources from many views. The statistical modeling of this problem requires to take noise into account. When the model includes additive noise on the observations, the likelihood is intractable. By contrast, we propose Adaptive multiView ICA (AVICA), a noisy ICA model where each view is a linear mixture of shared independent sources with additive noise on the sources. In this setting, the likelihood has a tractable expression, which enables either direct optimization of the log-likelihood using a quasi-Newton method, or generalized EM. Importantly, we consider that the noise levels are also parameters that are learned from the data. This enables sources estimation with a closed-form Minimum Mean Squared Error (MMSE) estimator which weights each view according to its relative noise level. On synthetic data, AVICA yields better sources estimates than other group ICA methods thanks to its explicit MMSE estimator. On real magnetoencephalograp y (MEG) data, we provide evidence that the decomposition is less sensitive to sampling noise and that the noise variance estimates are biologically plausible. Lastly, on functional magnetic resonance imaging (fMRI) data, AVICA exhibits best performance in transferring information across views.
翻訳日:2021-02-23 15:14:45 公開日:2021-02-22
# ベイズニューラルネットワークのモデル不確実性に及ぼす量子化の影響

On the Effects of Quantisation on Model Uncertainty in Bayesian Neural Networks ( http://arxiv.org/abs/2102.11062v1 )

ライセンス: Link先を確認
Martin Ferianc, Partha Maji, Matthew Mattina and Miguel Rodrigues(参考訳) ベイジアンニューラルネットワーク(BNN)は、意思決定が不確実性推定を伴う必要がある多くの研究分野で大きな進歩を遂げています。 不確実性を定量化し、意思決定を可能にすることは、モデルが過剰/過信である場合の理解に不可欠であり、BNNは、自動運転、医療、ロボット工学などの安全クリティカルなアプリケーションに関心を寄せています。 しかしながら、BNNは、主にメモリと計算コストの増大のために、工業的にはあまり使われていない。 本研究では,32ビットの浮動小数点重みとアクティベーションを整数に圧縮することにより,BNNの量子化について検討する。 我々は,3種類の量子化BNNについて検討し,幅広い設定で評価し,BNNに適用される一様量子化方式が不確実性評価の質を著しく低下させないことを実証した。

Bayesian neural networks (BNNs) are making significant progress in many research areas where decision making needs to be accompanied by uncertainty estimation. Being able to quantify uncertainty while making decisions is essential for understanding when the model is over-/under-confiden t, and hence BNNs are attracting interest in safety-critical applications, such as autonomous driving, healthcare and robotics. Nevertheless, BNNs have not been as widely used in industrial practice, mainly because of their increased memory and compute costs. In this work, we investigate quantisation of BNNs by compressing 32-bit floating-point weights and activations to their integer counterparts, that has already been successful in reducing the compute demand in standard pointwise neural networks. We study three types of quantised BNNs, we evaluate them under a wide range of different settings, and we empirically demonstrate that an uniform quantisation scheme applied to BNNs does not substantially decrease their quality of uncertainty estimation.
翻訳日:2021-02-23 15:14:23 公開日:2021-02-22
# スケッチモデルを用いたマルチデスティネーショントリップのモデル化

Modeling Multi-Destination Trips with Sketch-Based Model ( http://arxiv.org/abs/2102.11252v1 )

ライセンス: Link先を確認
Micha{\l} Daniluk, Barbara Rychalska, Konrad Go{\l}uchowski, Jacek D\k{a}browski(参考訳) 最近提案されたEMDE(Efficient Manifold Density Estimator)モデルは、セッションベースのレコメンデーションで最新の結果を達成します。 本研究では,Booking.com Data Challengeコンペティションへの適用を検討する。 この課題の目的は、数百万の匿名の宿泊予約を持つデータセットに基づいて、ユーザー旅行の次の目的地に最適なレコメンデーションを行うことである。 このコンペで2位を獲得します。 まず,都市を有向グラフとして表現し,そのベクトル表現を学習するために,Cleoraour graph Embedding法を用いる。 次に、これまで訪れた都市と旅行に関連するいくつかの特徴に基づいて、次のユーザ目的地を予測するためにEMDEを適用した。 ソースコードはhttps://github.com/S ynerise/booking-chal lenge.comで公開しています。

The recently proposed EMDE (Efficient Manifold Density Estimator) model achieves state of-the-art results in session-based recommendation. In this work we explore its application to Booking.com Data Challenge competition. The aim of the challenge is to make the best recommendation for the next destination of a user trip, based on dataset with millions of real anonymized accommodation reservations. We achieve 2nd place in this competition. First, we use Cleora - our graph embedding method - to represent cities as a directed graph and learn their vector representation. Next, we apply EMDE to predict the next user destination based on previously visited cities and some features associated with each trip. We release the source code at: https://github.com/S ynerise/booking-chal lenge.
翻訳日:2021-02-23 15:14:05 公開日:2021-02-22
# 触覚内在的動機づけによるロボット操作タスクの学習改善

Improved Learning of Robot Manipulation Tasks via Tactile Intrinsic Motivation ( http://arxiv.org/abs/2102.11051v1 )

ライセンス: Link先を確認
Nikola Vulin, Sammy Christen, Stefan Stevsic and Otmar Hilliges(参考訳) 本稿では,ロボット操作タスクにおける深層強化学習の探究の課題について述べる。 スパースゴール設定では、エージェントはランダムに目標を達成するまでポジティブなフィードバックを受けません。 子どもの触覚による探索から着想を得て,ロボットの力センサと操作対象との力の合計に基づいて本質的な報酬を定式化する。 さらに,リッチなエピソードやトランジションを優先するサンプリング方式である,コンタクト優先体験リプレイを導入する。 提案手法は,3つの基本ロボット操作ベンチマークにおける最先端手法の探索と性能向上を促進させる。

In this paper we address the challenge of exploration in deep reinforcement learning for robotic manipulation tasks. In sparse goal settings, an agent does not receive any positive feedback until randomly achieving the goal, which becomes infeasible for longer control sequences. Inspired by touch-based exploration observed in children, we formulate an intrinsic reward based on the sum of forces between a robot's force sensors and manipulation objects that encourages physical interaction. Furthermore, we introduce contact-prioritized experience replay, a sampling scheme that prioritizes contact rich episodes and transitions. We show that our solution accelerates the exploration and outperforms state-of-the-art methods on three fundamental robot manipulation benchmarks.
翻訳日:2021-02-23 15:11:21 公開日:2021-02-22
# 混合伝送線路における画像処理による故障位置推定の比較

Comparative Fault Location Estimation by Using Image Processing in Mixed Transmission Lines ( http://arxiv.org/abs/2102.11085v1 )

ライセンス: Link先を確認
Serkan Budak and Bahadir Akbal(参考訳) 距離保護リレーを用いて、送電線内の電流及び電圧の大きさに応じてインピーダンスベースの故障位置を決定する。 しかし、高電圧ケーブル線の特性インピーダンスがオーバーヘッド線と有意に異なるため、ユニット長ごとの特性インピーダンスが異なるため、混合伝送線では故障位置を正しく検出できません。 したがって、混合伝送路では、故障区間と距離保護リレーによる位置の判定が困難である。 本研究では, 距離保護リレー用混合送電線として, 154kVの送電線と地下ケーブル線を検討した。 混合送電線では、位相から地盤の断層が形成される。 PSCAD-EMTDCを用いて架線部と地下ケーブル部をシミュレートし、架線伝送線と地下ケーブル伝送線障害の間隔保護リレーに短絡断層画像を生成する。 画像は断層のR-Xインピーダンス図を含み、R-Xインピーダンス図は画像処理ステップを適用して検出されている。 人工ニューラルネットワーク(ANN)と回帰法を用いて断層位置の予測を行い、画像処理の結果をANNの訓練過程の入力パラメータと回帰法として用いる。 ANNおよび回帰法の結果は、伝送路の断層位置を予測するためのこの研究の終わりに最も適した方法を選択するために比較されます。

The distance protection relays are used to determine the impedance based fault location according to the current and voltage magnitudes in the transmission lines. However, the fault location cannot be correctly detected in mixed transmission lines due to different characteristic impedance per unit length because the characteristic impedance of high voltage cable line is significantly different from overhead line. Thus, determinations of the fault section and location with the distance protection relays are difficult in the mixed transmission lines. In this study, 154 kV overhead transmission line and underground cable line are examined as the mixed transmission line for the distance protection relays. Phase to ground faults are created in the mixed transmission line. overhead line section and underground cable section are simulated by using PSCAD-EMTDC.The short circuit fault images are generated in the distance protection relay for the overhead transmission line and underground cable transmission line faults. The images include the R-X impedance diagram of the fault, and the R-X impedance diagram have been detected by applying image processing steps. Artificial neural network (ANN) and the regression methods are used for prediction of the fault location, and the results of image processing are used as the input parameters for the training process of ANN and the regression methods. The results of ANN and regression methods are compared to select the most suitable method at the end of this study for forecasting of the fault location in transmission lines.
翻訳日:2021-02-23 15:11:11 公開日:2021-02-22
# 緩やかに変化する退行

Slowly Varying Regression under Sparsity ( http://arxiv.org/abs/2102.10773v1 )

ライセンス: Link先を確認
Dimitris Bertsimas, Vassilis Digalakis Jr., Michael Linghzi Li, Omar Skali Lami(参考訳) 疎性制約を伴うゆるやかに変化する回帰モデルにおけるパラメータ推定の問題を考える。 この問題を混合整数最適化問題として定式化し,新しい厳密緩和による二元凸最適化問題として正確に再構成できることを実証する。 この緩和はムーア-ペンローズ逆関数の新たな等式を利用し、非凸目的関数を凸化しつつ、すべての実現可能な二分点上の元の目的と一致する。 これにより,切削平面型アルゴリズムを用いてより効率的に解くことができ,最適性が証明できる。 このようなアルゴリズムの高度に最適化された実装を開発し、簡単な実装の漸近的計算複雑性を大幅に改善する。 我々はさらに,実現可能な解を生成することを保証するヒューリスティックな手法を開発し,経験的に,二元最適化問題に対して高品質なウォームスタート解を生成する。 合成と実世界の両方のデータセットにおいて、結果のアルゴリズムは、アウト・オブ・サンプル予測性能、回復精度のサポート、偽陽性率など、様々な指標で競合する定式化よりも優れていることを示す。 このアルゴリズムにより、1万のパラメータを持つモデルをトレーニングでき、ノイズに強く、データ生成プロセスの根本的なゆっくりと変化するサポートを効果的にキャプチャできます。

We consider the problem of parameter estimation in slowly varying regression models with sparsity constraints. We formulate the problem as a mixed integer optimization problem and demonstrate that it can be reformulated exactly as a binary convex optimization problem through a novel exact relaxation. The relaxation utilizes a new equality on Moore-Penrose inverses that convexifies the non-convex objective function while coinciding with the original objective on all feasible binary points. This allows us to solve the problem significantly more efficiently and to provable optimality using a cutting plane-type algorithm. We develop a highly optimized implementation of such algorithm, which substantially improves upon the asymptotic computational complexity of a straightforward implementation. We further develop a heuristic method that is guaranteed to produce a feasible solution and, as we empirically illustrate, generates high quality warm-start solutions for the binary optimization problem. We show, on both synthetic and real-world datasets, that the resulting algorithm outperforms competing formulations in comparable times across a variety of metrics including out-of-sample predictive performance, support recovery accuracy, and false positive rate. The algorithm enables us to train models with 10,000s of parameters, is robust to noise, and able to effectively capture the underlying slowly changing support of the data generating process.
翻訳日:2021-02-23 15:09:35 公開日:2021-02-22
# Federated $f$-differential Privacy

Federated $f$-Differential Privacy ( http://arxiv.org/abs/2102.11158v1 )

ライセンス: Link先を確認
Qinqing Zheng, Shuxiao Chen, Qi Long, Weijie J. Su(参考訳) Federated Learning (FL) は、クライアントがローカルな機密データのプライバシーを犠牲にすることなく、情報を繰り返し共有することによって、モデルを共同学習するトレーニングパラダイムです。 この論文では、ガウス微分プライバシーの枠組みに基づいて、フェデレーション設定に特化した新しい概念であるフェデレーション$f$-差分プライバシーを紹介します。 フェデレーションされた$f$-差分プライバシーは、レコードレベルで動作します:それは、敵対するクライアントのデータの各個々のレコードのプライバシー保証を提供します。 そこで我々は,最先端のflアルゴリズム群を包含する汎用的federated learning framework {prifedsync} を提案し,federated $f$-differential privacy を実現する。 最後に、コンピュータビジョンタスクで{PriFedSync}によって訓練されたモデルのプライバシー保証と予測パフォーマンスのトレードオフを実証します。

Federated learning (FL) is a training paradigm where the clients collaboratively learn models by repeatedly sharing information without compromising much on the privacy of their local sensitive data. In this paper, we introduce federated $f$-differential privacy, a new notion specifically tailored to the federated setting, based on the framework of Gaussian differential privacy. Federated $f$-differential privacy operates on record level: it provides the privacy guarantee on each individual record of one client's data against adversaries. We then propose a generic private federated learning framework {PriFedSync} that accommodates a large family of state-of-the-art FL algorithms, which provably achieves federated $f$-differential privacy. Finally, we empirically demonstrate the trade-off between privacy guarantee and prediction performance for models trained by {PriFedSync} in computer vision tasks.
翻訳日:2021-02-23 15:09:14 公開日:2021-02-22
# SALT: RGB-Dビデオシーケンスのための半自動ラベリングツール

SALT: A Semi-automatic Labeling Tool for RGB-D Video Sequences ( http://arxiv.org/abs/2102.10820v1 )

ライセンス: Link先を確認
Dennis Stumpf, Stephan Krau\ss, Gerd Reis, Oliver Wasenm\"uller, Didier Stricker(参考訳) 大規模なラベル付きデータセットは、現代のディープラーニング技術の重要な基礎の1つです。 そのため、大量のデータを可能な限り直感的にラベル付けできるツールの必要性が高まっています。 本稿では,全6自由度(DoF)オブジェクトポーズ用の3次元バウンディングボックスを生成するためのRGB-Dビデオシーケンスを半自動アノテートするツールであるSALTと,RGBと深度の両方の画素レベルのインスタンスセグメンテーションマスクを紹介する。 さまざまな補間技術やアルゴリズムで導いたインスタンスセグメンテーションによる境界ボックスの伝搬に加えて、私たちのパイプラインはデータセット生成プロセスを容易にするためのプリプロセス機能も備えています。 SALTをフル活用することで、バウンディングボックス作成では33.95まで、RGBセグメンテーションでは8.55まで、自動生成されたグラウンド真実の品質を損なうことなく、アノテーション時間を短縮できます。

Large labeled data sets are one of the essential basics of modern deep learning techniques. Therefore, there is an increasing need for tools that allow to label large amounts of data as intuitively as possible. In this paper, we introduce SALT, a tool to semi-automatically annotate RGB-D video sequences to generate 3D bounding boxes for full six Degrees of Freedom (DoF) object poses, as well as pixel-level instance segmentation masks for both RGB and depth. Besides bounding box propagation through various interpolation techniques, as well as algorithmically guided instance segmentation, our pipeline also provides built-in pre-processing functionalities to facilitate the data set creation process. By making full use of SALT, annotation time can be reduced by a factor of up to 33.95 for bounding box creation and 8.55 for RGB segmentation without compromising the quality of the automatically generated ground truth.
翻訳日:2021-02-23 15:08:19 公開日:2021-02-22
# モンテカルロビットバック符号化によるロスレス圧縮率の向上

Improving Lossless Compression Rates via Monte Carlo Bits-Back Coding ( http://arxiv.org/abs/2102.11086v1 )

ライセンス: Link先を確認
Yangjun Ruan, Karen Ullrich, Daniel Severo, James Townsend, Ashish Khisti, Arnaud Doucet, Alireza Makhzani, Chris J. Maddison(参考訳) 潜在変数モデルはビットバック符号化アルゴリズムでロスレス圧縮にうまく適用されている。 しかし、ビットバックは、近似後部と真の後部の間のKL偏差と等しいビットレートの増加に悩まされる。 本稿では,ビットバック符号化アルゴリズムをより厳密な変動境界から導出することにより,このギャップを漸近的に除去する方法を示す。 鍵となるアイデアは、限界確率のモンテカルロ推定子の拡張空間表現を利用することである。 つまり、我々のスキームは標準ビットバックコーダよりも多くの初期ビットを必要とするが、潜在空間における結合によってこの追加コストを劇的に削減する方法を示す。 並列アーキテクチャを活用できる場合、プログラマはビットバックよりも高いレートで、追加コストがほとんどありません。 損失圧縮のためのエントロピー符号化を含む,各種設定におけるロスレス圧縮率の改善を実証した。

Latent variable models have been successfully applied in lossless compression with the bits-back coding algorithm. However, bits-back suffers from an increase in the bitrate equal to the KL divergence between the approximate posterior and the true posterior. In this paper, we show how to remove this gap asymptotically by deriving bits-back coding algorithms from tighter variational bounds. The key idea is to exploit extended space representations of Monte Carlo estimators of the marginal likelihood. Naively applied, our schemes would require more initial bits than the standard bits-back coder, but we show how to drastically reduce this additional cost with couplings in the latent space. When parallel architectures can be exploited, our coders can achieve better rates than bits-back with little additional cost. We demonstrate improved lossless compression rates in a variety of settings, including entropy coding for lossy compression.
翻訳日:2021-02-23 15:07:28 公開日:2021-02-22
# Private Image Retrievalのようなアプリケーションによる個人監督型マニフォールド学習

Differentially Private Supervised Manifold Learning with Applications like Private Image Retrieval ( http://arxiv.org/abs/2102.10802v1 )

ライセンス: Link先を確認
Praneeth Vepakomma, Julia Balla, Ramesh Raskar(参考訳) 差分プライバシーは、ポスト処理下で不変のプライバシーなどの強力な保証を提供する。 したがって、散在した孤立したデータから学ぶための解決策としてよく見なされる。 この研究は、ターゲットユースケースのための微調整マニホールドを生成することができるパラダイムである、教師付きマニホールド学習に焦点を当てている。 私たちの貢献は2つある。 1) 教師付きマニホールド学習のための新しい微分プライベートメソッドである \textit{PrivateMail} を我々の知識に提示する。 2) 実験用として, 新規なプライベートな幾何学的埋め込み方式を提案する。 プライベートな「コンテンツベースの画像検索」 - 画像の近傍をプライベートな方法で埋め込み、クエリし、広範なプライバシーとユーティリティのトレードオフ結果だけでなく、私たちの方法の計算効率と実用性を示す。

Differential Privacy offers strong guarantees such as immutable privacy under post processing. Thus it is often looked to as a solution to learning on scattered and isolated data. This work focuses on supervised manifold learning, a paradigm that can generate fine-tuned manifolds for a target use case. Our contributions are two fold. 1) We present a novel differentially private method \textit{PrivateMail} for supervised manifold learning, the first of its kind to our knowledge. 2) We provide a novel private geometric embedding scheme for our experimental use case. We experiment on private "content based image retrieval" - embedding and querying the nearest neighbors of images in a private manner - and show extensive privacy-utility tradeoff results, as well as the computational efficiency and practicality of our methods.
翻訳日:2021-02-23 15:06:53 公開日:2021-02-22
# 再構成可能なインテリジェントサーフェスによるCSITフリーフェデレーションエッジ学習

CSIT-Free Federated Edge Learning via Reconfigurable Intelligent Surface ( http://arxiv.org/abs/2102.10749v1 )

ライセンス: Link先を確認
Hang Liu, Xiaojun Yuan, Ying-Jun Angela Zhang(参考訳) 送信機(CSIT)のチャネル状態情報が利用できないと仮定したフェデレーションエッジラーニング(FEEL)システムにおけるオーバー・ザ・エアモデルアグリゲーションについて検討する。 再構成可能なインテリジェントサーフェス(RIS)技術を活用して、CSITフリーモデルアグリゲーションのためのカスケードチャネル係数を調整します。 そこで我々は,チャネルアライメント制約下でのアグリゲーション誤差を最小化し,risと受信機を共同で最適化する。 得られた非凸最適化のための差分凸アルゴリズムを開発する。 画像分類における数値的実験により,提案手法は最新のCSITベースのソリューションと同様の学習精度を達成し,CSITの不足に対するアプローチの効率性を示した。

We study over-the-air model aggregation in federated edge learning (FEEL) systems, where channel state information at the transmitters (CSIT) is assumed to be unavailable. We leverage the reconfigurable intelligent surface (RIS) technology to align the cascaded channel coefficients for CSIT-free model aggregation. To this end, we jointly optimize the RIS and the receiver by minimizing the aggregation error under the channel alignment constraint. We then develop a difference-of-convex algorithm for the resulting non-convex optimization. Numerical experiments on image classification show that the proposed method is able to achieve a similar learning accuracy as the state-of-the-art CSIT-based solution, demonstrating the efficiency of our approach in combating the lack of CSIT.
翻訳日:2021-02-23 15:06:39 公開日:2021-02-22
# ReINTEL Challenge 2020:ベトナムのソーシャルネットワークサイトにおける信頼できるインテリジェンス識別のための転送学習モデルを公開

ReINTEL Challenge 2020: Exploiting Transfer Learning Modelsfor Reliable Intelligence Identification on Vietnamese Social Network Sites ( http://arxiv.org/abs/2102.10794v1 )

ライセンス: Link先を確認
Kim Thi-Thanh Nguyen, Kiet Nguyen Van(参考訳) 本稿ではベトナム語・音声処理2020(VLSP 2020)共有タスクのベトナム語ソーシャルネットワークサイト(ReINTEL)タスクにおける信頼性の高いインテリジェンス・インデント化を提案する。 このタスクでは、VLSP 2020は、信頼性または信頼性の低いラベルで注釈付けされた約6,000のトレーニングニュース/ポストのデータセットを提供し、テストセットはラベルなしで2,000のサンプルで構成されている。 本稿では, bert4news と PhoBERT を微調整して, ニュースが信頼できるかどうかを推定する, 異なる伝達学習モデルの実験を行う。 実験では,ReINTELのオーガナイザによるプライベートテストセットのAUCスコアが94.52%に達した。

This paper presents the system that we propose for the Reliable Intelligence Indentification on Vietnamese Social Network Sites (ReINTEL) task of the Vietnamese Language and Speech Processing 2020 (VLSP 2020) Shared Task. In this task, the VLSP 2020 provides a dataset with approximately 6,000 trainning news/posts annotated with reliable or unreliable labels, and a test set consists of 2,000 examples without labels. In this paper, we conduct experiments on different transfer learning models, which are bert4news and PhoBERT fine-tuned to predict whether the news is reliable or not. In our experiments, we achieve the AUC score of 94.52% on the private test set from ReINTEL's organizers.
翻訳日:2021-02-23 15:04:31 公開日:2021-02-22
# ハンガリー語の文脈言語モデルの評価

Evaluating Contextualized Language Models for Hungarian ( http://arxiv.org/abs/2102.10848v1 )

ライセンス: Link先を確認
Judit \'Acs and D\'aniel L\'evai and D\'avid M\'ark Nemeskey and Andr\'as Kornai(参考訳) 本稿では,ハンガリー語の文脈化言語モデルの拡張比較について述べる。 ハンガリーのモデルhubertと多言語bertモデルを含む4つの多言語モデルを比較した。 これらのモデルを形態学的プロービング、POSタグ付け、NERの3つのタスクで評価します。 huBERTは他のモデルよりも、特にグローバルな最適(通常は中間層)に近い大きなマージンで、うまく機能することがわかった。 また、huBERTは1つの単語のサブワードを少なくする傾向があり、トークンレベルのタスクに最後のサブワードを使用することは、一般的に最初の単語を使用するよりも良い選択です。

We present an extended comparison of contextualized language models for Hungarian. We compare huBERT, a Hungarian model against 4 multilingual models including the multilingual BERT model. We evaluate these models through three tasks, morphological probing, POS tagging and NER. We find that huBERT works better than the other models, often by a large margin, particularly near the global optimum (typically at the middle layers). We also find that huBERT tends to generate fewer subwords for one word and that using the last subword for token-level tasks is generally a better choice than using the first one.
翻訳日:2021-02-23 15:04:16 公開日:2021-02-22
# サブワードプーリングは違いをもたらす

Subword Pooling Makes a Difference ( http://arxiv.org/abs/2102.10864v1 )

ライセンス: Link先を確認
Judit \'Acs and \'Akos K\'ad\'ar and Andr\'as Kornai(参考訳) 文脈表現は現代の自然言語処理システムの標準となった。 これらのモデルは、大きな語彙と未知語を扱うためにサブワードトークン化を使用する。 そのようなシステムの単語レベルの使用には、単一の単語に対応する複数のサブワードをプールする方法が必要です。 本稿では,9種類の言語において,サブワードプーリングの選択が3つのタスク(形態素探索,POSタグ付け,NER)のダウンストリーム性能に与える影響について検討する。 これらをmBERTとXLM-RoBERTaの2つの大規模多言語モデルで比較します。 形態的タスクでは、広く使われている「第1サブワードの選択」が最悪の戦略であり、そのサブワードに注意を払って最良の結果が得られる。 POSタグ付けでは、どちらの戦略も性能が悪く、サブワードに小さなLSTMを使用するのが最適である。 同じ戦略がNERでも有効であり、すべての9言語でmBERTがXLM-RoBERTaより優れていることを示す。 すべてのコード、データ、および完全な結果表を \url{https://github.com/j uditacs/subword-choi ce} で公開します。

Contextual word-representations became a standard in modern natural language processing systems. These models use subword tokenization to handle large vocabularies and unknown words. Word-level usage of such systems requires a way of pooling multiple subwords that correspond to a single word. In this paper we investigate how the choice of subword pooling affects the downstream performance on three tasks: morphological probing, POS tagging and NER, in 9 typologically diverse languages. We compare these in two massively multilingual models, mBERT and XLM-RoBERTa. For morphological tasks, the widely used `choose the first subword' is the worst strategy and the best results are obtained by using attention over the subwords. For POS tagging both of these strategies perform poorly and the best choice is to use a small LSTM over the subwords. The same strategy works best for NER and we show that mBERT is better than XLM-RoBERTa in all 9 languages. We publicly release all code, data and the full result tables at \url{https://github.com/j uditacs/subword-choi ce}.
翻訳日:2021-02-23 15:04:07 公開日:2021-02-22
# トランスファーとメタラーニングを用いた対話システムにおけるドメイン適応

Domain Adaptation in Dialogue Systems using Transfer and Meta-Learning ( http://arxiv.org/abs/2102.11146v1 )

ライセンス: Link先を確認
Rui Ribeiro, Alberto Abad and Jos\'e Lopes(参考訳) 現在の生成ベースの対話システムはデータ格納型であり、少量のターゲットデータしか利用できない場合、新しい未知のドメインに適応できない。 さらに、現実世界のアプリケーションでは、ほとんどのドメインは表現が不足しているため、最小限のデータを使ってこれらのドメインに一般化できるシステムを構築する必要がある。 本稿では,トランスファーとメタラーニング(DATML)を組み合わせることで,目に見えない領域に適応する手法を提案する。 DATMLは、メタラーニングという異なる学習手法を導入することで、従来の最先端の対話モデルであるDiKTNetを改善している。 改良したトレーニング手法として,一階最適化に基づくメタラーニングアルゴリズムである reptile を用いた。 複数のWOZデータセット上のモデルを評価し、同じ量のデータが利用可能である場合にBLEUとEntity F1スコアの両方でDiKTNetを上回りました。

Current generative-based dialogue systems are data-hungry and fail to adapt to new unseen domains when only a small amount of target data is available. Additionally, in real-world applications, most domains are underrepresented, so there is a need to create a system capable of generalizing to these domains using minimal data. In this paper, we propose a method that adapts to unseen domains by combining both transfer and meta-learning (DATML). DATML improves the previous state-of-the-art dialogue model, DiKTNet, by introducing a different learning technique: meta-learning. We use Reptile, a first-order optimization-based meta-learning algorithm as our improved training method. We evaluated our model on the MultiWOZ dataset and outperformed DiKTNet in both BLEU and Entity F1 scores when the same amount of data is available.
翻訳日:2021-02-23 15:03:49 公開日:2021-02-22
# 人工知能の抽象化とアナロジー-メイキング

Abstraction and Analogy-Making in Artificial Intelligence ( http://arxiv.org/abs/2102.10717v1 )

ライセンス: Link先を確認
Melanie Mitchell(参考訳) 概念的抽象化と類推は、知識を新しい領域にしっかりと適応させる人間の能力の根底にある重要な能力である。 これらの能力を持つAIシステムの構築に関する長い研究にもかかわらず、現在のAIシステムは人間のような抽象化やアナロジーを形成する能力に近づきません。 本稿では,記号的手法,深層学習,確率的プログラム誘導など,この目標に対するいくつかのアプローチの利点と限界についてレビューする。 本論文では, この領域における定量的かつ一般化可能な進展を実現するために, 課題タスクの設計と評価手法に関するいくつかの提案を締めくくる。

Conceptual abstraction and analogy-making are key abilities underlying humans' abilities to learn, reason, and robustly adapt their knowledge to new domains. Despite of a long history of research on constructing AI systems with these abilities, no current AI system is anywhere close to a capability of forming humanlike abstractions or analogies. This paper reviews the advantages and limitations of several approaches toward this goal, including symbolic methods, deep learning, and probabilistic program induction. The paper concludes with several proposals for designing challenge tasks and evaluation measures in order to make quantifiable and generalizable progress in this area.
翻訳日:2021-02-23 15:02:52 公開日:2021-02-22
# 確率回路における疫学の扱いと不確実性

Handling Epistemic and Aleatory Uncertainties in Probabilistic Circuits ( http://arxiv.org/abs/2102.10865v1 )

ライセンス: Link先を確認
Federico Cerutti, Lance M. Kaplan, Angelika Kimmig, Murat Sensoy(参考訳) AIシステムとの共同作業では、その推奨事項をいつ信頼するかを評価する必要があります。 errになりそうな地域で誤ってそれを信頼すると、破滅的な失敗が起こりうるため、トレーニングデータに基づいて確率の信頼性(あるいは認識の不確実性)を決定するために、確率的推論のためのベイズ的アプローチが必要である。 ベイズネットワークや数種類の確率論的論理を含む、大規模な確率論的推論を扱うアプローチの大部分の背後にある独立仮定を克服するアプローチを提案する。 確率回路によって提供される統一的な計算形式の中で操作された変数間の依存性を追跡するために、ベイズ学習をスパース、完全、観察、推論を導き出すためのアルゴリズムを提供する。 そのような回路の各リーフは、不確実な確率を表すエレガントなフレームワークを提供するベータ分散ランダム変数でラベル付けされています。 一般回路の処理が可能で, ポイント確率を用いた場合に比べて計算量もわずかに増加しており, 最先端の手法よりも認識の不確実性の推定精度が向上した。

When collaborating with an AI system, we need to assess when to trust its recommendations. If we mistakenly trust it in regions where it is likely to err, catastrophic failures may occur, hence the need for Bayesian approaches for probabilistic reasoning in order to determine the confidence (or epistemic uncertainty) in the probabilities in light of the training data. We propose an approach to overcome the independence assumption behind most of the approaches dealing with a large class of probabilistic reasoning that includes Bayesian networks as well as several instances of probabilistic logic. We provide an algorithm for Bayesian learning from sparse, albeit complete, observations, and for deriving inferences and their confidences keeping track of the dependencies between variables when they are manipulated within the unifying computational formalism provided by probabilistic circuits. Each leaf of such circuits is labelled with a beta-distributed random variable that provides us with an elegant framework for representing uncertain probabilities. We achieve better estimation of epistemic uncertainty than state-of-the-art approaches, including highly engineered ones, while being able to handle general circuits and with just a modest increase in the computational effort compared to using point probabilities.
翻訳日:2021-02-23 15:02:42 公開日:2021-02-22
# プログラム合成による強化学習

Program Synthesis Guided Reinforcement Learning ( http://arxiv.org/abs/2102.11137v1 )

ライセンス: Link先を確認
Yichen Yang, Jeevana Priya Inala, Osbert Bastani, Yewen Pu, Armando Solar-Lezama, Martin Rinard(参考訳) 強化学習の重要な課題は、長期計画と制御問題の解決である。 最近の研究は、これらの設定で学習アルゴリズムを導くのに役立つプログラムを活用することを提案している。 しかし、これらのアプローチは、達成しようとする新しいタスクごとにガイドプログラムを提供しなければならないため、ユーザに対して高い手作業の負担を課す。 本稿では,プログラム合成を利用して指導プログラムを自動生成する手法を提案する。 重要な課題は、部分的に観察可能な環境を扱う方法だ。 本研究では,世界の未観測領域を予測するために生成モデルを訓練し,その不確実性に頑健な方法で,このモデルからのサンプルに基づいてプログラムを合成するモデル予測プログラム合成を提案する。 エージェントが目標を達成するために複雑なサブタスクを実行する必要がある2Dマインクラフトの「クラフト」環境、抽象的な推論を必要とするボックスワールド環境、エージェントがMuJoCo Antであるクラフト環境の変種など、挑戦的なベンチマークのセットに関するアプローチを評価します。 提案手法は,いくつかのベースラインを著しく上回り,効果的なプログラムを与えられる託宣と同様に,本質的には機能する。

A key challenge for reinforcement learning is solving long-horizon planning and control problems. Recent work has proposed leveraging programs to help guide the learning algorithm in these settings. However, these approaches impose a high manual burden on the user since they must provide a guiding program for every new task they seek to achieve. We propose an approach that leverages program synthesis to automatically generate the guiding program. A key challenge is how to handle partially observable environments. We propose model predictive program synthesis, which trains a generative model to predict the unobserved portions of the world, and then synthesizes a program based on samples from this model in a way that is robust to its uncertainty. We evaluate our approach on a set of challenging benchmarks, including a 2D Minecraft-inspired ``craft'' environment where the agent must perform a complex sequence of subtasks to achieve its goal, a box-world environment that requires abstract reasoning, and a variant of the craft environment where the agent is a MuJoCo Ant. Our approach significantly outperforms several baselines, and performs essentially as well as an oracle that is given an effective program.
翻訳日:2021-02-23 15:02:23 公開日:2021-02-22
# 部分可観測領域における不確実性最大化:認知的視点

Uncertainty Maximization in Partially Observable Domains: A Cognitive Perspective ( http://arxiv.org/abs/2102.11232v1 )

ライセンス: Link先を確認
Mirza Ramicic and Andrea Bonarini(参考訳) ますます複雑化するアプリケーション領域に直面している人工知能エージェントは、環境との相互作用から生じる圧倒的な量の情報を処理する能力でスケールアップすることができます。 しかし、このスケーリングのプロセスには、学習プロセス自体にとって必ずしも有益ではない冗長な情報のエンコードと処理のコストが伴います。 この研究は、環境の遷移状態間の因果相互作用を表現する可能性が高い特定のタイプの情報に選択的に焦点を合わせることによって、部分可観測領域で定義された学習システムの特性を利用する。 textit{temporal difference displacement} の基準に基づく観測空間の適応的マスキングは、部分可観測マルコフ過程上で定義される時間差アルゴリズムの収束を大幅に改善した。

Faced with an ever-increasing complexity of their domains of application, artificial learning agents are now able to scale up in their ability to process an overwhelming amount of information coming from their interaction with an environment. However, this process of scaling does come with a cost of encoding and processing an increasing amount of redundant information that is not necessarily beneficial to the learning process itself. This work exploits the properties of the learning systems defined over partially observable domains by selectively focusing on the specific type of information that is more likely to express the causal interaction among the transitioning states of the environment. Adaptive masking of the observation space based on the \textit{temporal difference displacement} criterion enabled a significant improvement in convergence of temporal difference algorithms defined over a partially observable Markov process.
翻訳日:2021-02-23 15:02:04 公開日:2021-02-22
# PCB-Fire:PCBの自動分類と故障検出

PCB-Fire: Automated Classification and Fault Detection in PCB ( http://arxiv.org/abs/2102.10777v1 )

ライセンス: Link先を確認
Tejas Khare, Vaibhav Bahel and Anuradha C. Phadke(参考訳) プリント回路基板は、あらゆる電子機器の機能の基礎であり、自動車、通信、計算などの様々な産業にとって不可欠な要素である。 しかし、PCBの製造プロセスにおいてPCBメーカーが直面している課題の1つは、欠落した部品を含む部品の配置の欠陥である。 現在のシナリオでは、PCBの適切な品質を確保するために必要なインフラストラクチャには、多くの時間と労力が必要です。 著者らは、欠落したコンポーネントを検出し、それらを資源的に分類する新しいソリューションを提案する。 提案アルゴリズムは、与えられたデータセットの結果の最適化に使用される画素理論とオブジェクト検出に重点を置いている。

Printed Circuit Boards are the foundation for the functioning of any electronic device, and therefore are an essential component for various industries such as automobile, communication, computation, etc. However, one of the challenges faced by the PCB manufacturers in the process of manufacturing of the PCBs is the faulty placement of its components including missing components. In the present scenario the infrastructure required to ensure adequate quality of the PCB requires a lot of time and effort. The authors present a novel solution for detecting missing components and classifying them in a resourceful manner. The presented algorithm focuses on pixel theory and object detection, which has been used in combination to optimize the results from the given dataset.
翻訳日:2021-02-23 14:56:57 公開日:2021-02-22
# k段階距離変換画像によるインスタンスセグメンテーションの輪郭損失

Contour Loss for Instance Segmentation via k-step Distance Transformation Image ( http://arxiv.org/abs/2102.10854v1 )

ライセンス: Link先を確認
Xiaolong Guo, Xiaosong Lan, Kunfeng Wang, Shuxiao Li(参考訳) インスタンスセグメンテーションは、画像中のターゲットを特定し、各ターゲット領域をピクセルレベルでセグメンテーションすることを目的としており、これはコンピュータビジョンにおいて最も重要なタスクの1つである。 Mask R-CNNは、インスタンスセグメンテーションの古典的な方法ですが、その予測マスクが不明確で輪郭付近で不正確であることが分かりました。 この問題に対処するために,距離変換画像に基づく輪郭マッチングのアイデアと,輪郭損失と呼ばれる新たな損失関数を提案する。 輪郭損失は予測マスクの輪郭部を特に最適化するよう設計されており、より正確なインスタンスセグメンテーションを保証することができる。 提案する輪郭損失を現代のニューラルネットワークフレームワークで共同訓練するために,予測されたマスクと対応する地対面マスクの切り離し距離変換画像を概ね計算できる,微分可能なkステップ距離変換画像計算モジュールを設計した。 提案する輪郭損失はマスクr-cnnのような既存のインスタンス分割法に統合でき、推論ネットワーク構造を変更せずに元の損失関数と組み合わせることで、高い汎用性を有する。 COCO実験の結果、輪郭損失が効果的であることを示し、インスタンスセグメンテーション性能をさらに向上させることができる。

Instance segmentation aims to locate targets in the image and segment each target area at pixel level, which is one of the most important tasks in computer vision. Mask R-CNN is a classic method of instance segmentation, but we find that its predicted masks are unclear and inaccurate near contours. To cope with this problem, we draw on the idea of contour matching based on distance transformation image and propose a novel loss function, called contour loss. Contour loss is designed to specifically optimize the contour parts of the predicted masks, thus can assure more accurate instance segmentation. In order to make the proposed contour loss to be jointly trained under modern neural network frameworks, we design a differentiable k-step distance transformation image calculation module, which can approximately compute truncated distance transformation images of the predicted mask and corresponding ground-truth mask online. The proposed contour loss can be integrated into existing instance segmentation methods such as Mask R-CNN, and combined with their original loss functions without modification of the inference network structures, thus has strong versatility. Experimental results on COCO show that contour loss is effective, which can further improve instance segmentation performances.
翻訳日:2021-02-23 14:56:49 公開日:2021-02-22
# CSTR: シーンテキスト認識の分類的視点

CSTR: A Classification Perspective on Scene Text Recognition ( http://arxiv.org/abs/2102.10884v1 )

ライセンス: Link先を確認
Hongxiang Cai, Jun Sun, Yichao Xiong(参考訳) シーンテキスト認識の一般的な視点は、シーケンスからシーケンス(seq2seq)とセグメンテーションである。 本稿では,シーンテキスト認識を画像分類問題としてモデル化するシーンテキスト認識の新たな視点を提案する。 画像分類の観点から,CSTRと命名されたシーンテキスト認識モデルを提案する。 CSTRモデルは一連の畳み込み層と終端のグローバル平均プール層から構成され、その後に独立した多クラス分類ヘッドが続き、それぞれが入力画像中の単語列の対応する文字を予測する。 CSTRモデルは並列クロスエントロピー損失を用いた訓練が容易である。 CSTRはResNet \cite{he2016deep}のようなイメージ分類モデルと同じくらいシンプルで、実装が容易であり、完全な畳み込みニューラルネットワークアーキテクチャにより、トレーニングとデプロイが効率的になる。 シーンテキスト認識における分類視点の有効性を徹底した実験により示す。 さらに、CSTRは、通常のテキスト、不規則なテキストを含む6つの公開ベンチマークで最先端のパフォーマンスを実現します。 コードはhttps://github.com/M edia-Smart/vedastr.c omから入手できる。

The prevalent perspectives of scene text recognition are from sequence to sequence (seq2seq) and segmentation. In this paper, we propose a new perspective on scene text recognition, in which we model the scene text recognition as an image classification problem. Based on the image classification perspective, a scene text recognition model is proposed, which is named as CSTR. The CSTR model consists of a series of convolutional layers and a global average pooling layer at the end, followed by independent multi-class classification heads, each of which predicts the corresponding character of the word sequence in input image. The CSTR model is easy to train using parallel cross entropy losses. CSTR is as simple as image classification models like ResNet \cite{he2016deep} which makes it easy to implement, and the fully convolutional neural network architecture makes it efficient to train and deploy. We demonstrate the effectiveness of the classification perspective on scene text recognition with thorough experiments. Futhermore, CSTR achieves nearly state-of-the-art performance on six public benchmarks including regular text, irregular text. The code will be available at https://github.com/M edia-Smart/vedastr.
翻訳日:2021-02-23 14:56:27 公開日:2021-02-22
# 大規模ロバスト推定における貧弱局所ミニマのエスケープ

Escaping Poor Local Minima in Large Scale Robust Estimation ( http://arxiv.org/abs/2102.10928v1 )

ライセンス: Link先を確認
Huu Le and Christopher Zach(参考訳) ロバストパラメータ推定は、Structure from Motion (SfM)などのいくつかの3Dコンピュータビジョンパイプラインにおいて重要なタスクです。 しかし、堅牢な推定のための最先端のアルゴリズムは、最適化のランドスケープに多くの貧弱なローカルミニマまたはフラットリージョンが存在するため、満足のいくソリューションへの収束の困難にまだ苦しんでいます。 本稿では,ロバストパラメータ推定のための2つの新しい手法を提案する。 第1のアルゴリズムは,アルゴリズム選択の自由度が高い制約付き最適化のフレームワークである filter method (fm) を用いて,最小値の低さを回避し,高速な収束率を達成する適応型カーネルスケーリング戦略を導出する。 第2のアルゴリズムは、一般化メジャー化最小化(GeMM)フレームワークと半二次昇降式を組み合わせて、堅牢な推定のためのシンプルで効率的な解法を得る。 提案手法は, 従来のロバストフィットアルゴリズムと比較して, 局所的最小化を回避し, 競争力のある結果が得られることを実証的に示している。

Robust parameter estimation is a crucial task in several 3D computer vision pipelines such as Structure from Motion (SfM). State-of-the-art algorithms for robust estimation, however, still suffer from difficulties in converging to satisfactory solutions due to the presence of many poor local minima or flat regions in the optimization landscapes. In this paper, we introduce two novel approaches for robust parameter estimation. The first algorithm utilizes the Filter Method (FM), which is a framework for constrained optimization allowing great flexibility in algorithmic choices, to derive an adaptive kernel scaling strategy that enjoys a strong ability to escape poor minima and achieves fast convergence rates. Our second algorithm combines a generalized Majorization Minimization (GeMM) framework with the half-quadratic lifting formulation to obtain a simple yet efficient solver for robust estimation. We empirically show that both proposed approaches show encouraging capability on avoiding poor local minima and achieve competitive results compared to existing state-of-the art robust fitting algorithms.
翻訳日:2021-02-23 14:56:11 公開日:2021-02-22
# VHRリモートセンシング画像における建物抽出のための対比形状学習

Adversarial Shape Learning for Building Extraction in VHR Remote Sensing Images ( http://arxiv.org/abs/2102.11262v1 )

ライセンス: Link先を確認
Lei Ding, Hao Tang, Yahui Liu, Yilei Shi and Lorenzo Bruzzone(参考訳) VHR RSIにおけるビルディング抽出は, 閉塞性や境界曖昧性の問題により, 依然として困難な課題である。 従来の畳み込みニューラルネットワーク(CNN)ベースの手法は、局所的なテクスチャやコンテキスト情報を利用することができるが、人間の認識に必要な制約である建物の形状パターンを捉えることができない。 そこで本研究では,建物の形状パターンをモデル化するための対比形状学習ネットワーク(ASLNet)を提案し,建物のセグメンテーションの精度を向上させる。 提案するASLNetでは,形状制約を明示的にモデル化するための対角学習戦略と,形状特徴の埋め込みを強化するためのCNN形状正規化器を導入する。 さらに,建物分割結果の幾何的精度を評価するために,複数のオブジェクトベース評価指標を導入した。 2つのオープンベンチマークデータセットの実験は、提案されたASLNetがピクセルベースの精度とオブジェクトベースの測定の両方を大きなマージンで改善することを示しています。 https://github.com/g gsding/aslnet

Building extraction in VHR RSIs remains to be a challenging task due to occlusion and boundary ambiguity problems. Although conventional convolutional neural networks (CNNs) based methods are capable of exploiting local texture and context information, they fail to capture the shape patterns of buildings, which is a necessary constraint in the human recognition. In this context, we propose an adversarial shape learning network (ASLNet) to model the building shape patterns, thus improving the accuracy of building segmentation. In the proposed ASLNet, we introduce the adversarial learning strategy to explicitly model the shape constraints, as well as a CNN shape regularizer to strengthen the embedding of shape features. To assess the geometric accuracy of building segmentation results, we further introduced several object-based assessment metrics. Experiments on two open benchmark datasets show that the proposed ASLNet improves both the pixel-based accuracy and the object-based measurements by a large margin. The code is available at: https://github.com/g gsDing/ASLNet
翻訳日:2021-02-23 14:55:52 公開日:2021-02-22
# 単眼視による人間の画像合成のためのスタイルとポーズ制御

Style and Pose Control for Image Synthesis of Humans from a Single Monocular View ( http://arxiv.org/abs/2102.11263v1 )

ライセンス: Link先を確認
Kripasindhu Sarkar and Vladislav Golyanik and Lingjie Liu and Christian Theobalt(参考訳) 身体のポーズ、形状、外観を明示的に制御した単一の画像からの人間の写真現実的再レンダリングは、人間の外観転送、仮想試行、モーション模倣、および新しいビュー合成などの幅広いアプリケーションを可能にします。 GANのような学習ベースの画像生成ツールを使用して、この方向で大きな進歩を遂げていますが、既存のアプローチは、細かい細部のぼやけ、身体の部品や衣服の非現実的な歪み、およびテクスチャの深刻な変化などの顕著な成果物を生み出します。 そこで本研究では,ポーズとパートベースの外観を明示的に制御した,フォトリアリスティックな人間のイメージを合成する新しい方法,すなわちStylePoseGANを提案する。ここでは,ポーズと外観のコンディショニングを個別に受け入れる非制御ジェネレータを拡張する。 私たちのネットワークは、人間のイメージと完全に監督された方法でトレーニングでき、ポーズ、外観、体の一部を区別することができます。 この不整合表現は,衣服の移動,移動移動,仮想トライオン,頭部(同一性)スワップ,外観補間など,さらなる応用を開拓する。 StylePoseGANは、現在の最高のパフォーマンス手法や総合的なユーザスタディの納得度と比較して、一般的な知覚的メトリクスにおける最先端の画像生成フィデリティを達成する。

Photo-realistic re-rendering of a human from a single image with explicit control over body pose, shape and appearance enables a wide range of applications, such as human appearance transfer, virtual try-on, motion imitation, and novel view synthesis. While significant progress has been made in this direction using learning-based image generation tools, such as GANs, existing approaches yield noticeable artefacts such as blurring of fine details, unrealistic distortions of the body parts and garments as well as severe changes of the textures. We, therefore, propose a new method for synthesising photo-realistic human images with explicit control over pose and part-based appearance, i.e., StylePoseGAN, where we extend a non-controllable generator to accept conditioning of pose and appearance separately. Our network can be trained in a fully supervised way with human images to disentangle pose, appearance and body parts, and it significantly outperforms existing single image re-rendering methods. Our disentangled representation opens up further applications such as garment transfer, motion transfer, virtual try-on, head (identity) swap and appearance interpolation. StylePoseGAN achieves state-of-the-art image generation fidelity on common perceptual metrics compared to the current best-performing methods and convinces in a comprehensive user study.
翻訳日:2021-02-23 14:55:35 公開日:2021-02-22
# 利害関係者

Entities of Interest ( http://arxiv.org/abs/2102.10962v1 )

ライセンス: Link先を確認
David Graus(参考訳) ビッグデータの時代では、私たちは、閲覧、共有、投稿、好み、検索、視聴、そしてオンラインコンテンツを聴くことによって、デジタルの痕跡を残しています。 集約されると、これらのデジタルトレースは人々の行動、好み、活動、特性に関する強力な洞察を提供する。 多くの人は、集約されたデジタルトレースの使用に関してプライバシー上の懸念を抱いているが、ユーザから学び、予期せぬ量のデータ、知識、情報へのアクセスを可能にする検索エンジンから、かつて未知の薬物反応を検索エンジンログから発見するなど、多くの進歩をもたらした。 オンラインサービス、ジャーナリズム、デジタル鑑識、法律、研究などにおいて、私たちは新たな情報を見つけるために大量のデジタルトレースを探索しようと試みています。 例えば、エンロンスキャンダル、ヒラリー・クリントンのメール論争、パナマ文書など、大量のデジタルトレースを分析し、調査し、調査し、逆さまにすることで、新たな洞察、知識、情報を得るケースを考えてみよう。 この発見タスクは「現実世界における活動の証拠を見つける」ことの核心にある。 この論文はデジタルトレースの発見を中心に展開され、Information Retrieval、自然言語処理、応用機械学習の交差点に位置する。 本研究では,デジタルトレースの大規模コレクションの探索と感覚形成を支援する計算手法を提案する。 電子メールやソーシャルメディアストリームなどのテキストトレースに焦点を当て、デジタルトレースの発見の中心となる2つの側面に取り組んでいます。

In the era of big data, we continuously - and at times unknowingly - leave behind digital traces, by browsing, sharing, posting, liking, searching, watching, and listening to online content. When aggregated, these digital traces can provide powerful insights into the behavior, preferences, activities, and traits of people. While many have raised privacy concerns around the use of aggregated digital traces, it has undisputedly brought us many advances, from the search engines that learn from their users and enable our access to unforeseen amounts of data, knowledge, and information, to, e.g., the discovery of previously unknown adverse drug reactions from search engine logs. Whether in online services, journalism, digital forensics, law, or research, we increasingly set out to exploring large amounts of digital traces to discover new information. Consider for instance, the Enron scandal, Hillary Clinton's email controversy, or the Panama papers: cases that revolve around analyzing, searching, investigating, exploring, and turning upside down large amounts of digital traces to gain new insights, knowledge, and information. This discovery task is at its core about "finding evidence of activity in the real world." This dissertation revolves around discovery in digital traces, and sits at the intersection of Information Retrieval, Natural Language Processing, and applied Machine Learning. We propose computational methods that aim to support the exploration and sense-making process of large collections of digital traces. We focus on textual traces, e.g., emails and social media streams, and address two aspects that are central to discovery in digital traces.
翻訳日:2021-02-23 14:55:11 公開日:2021-02-22
# より優れたPlumber: 動的情報抽出パイプラインのオーケストレーション

Better Call the Plumber: Orchestrating Dynamic Information Extraction Pipelines ( http://arxiv.org/abs/2102.10966v1 )

ライセンス: Link先を確認
Mohamad Yaser Jaradeh, Kuldeep Singh, Markus Stocker, Andreas Both, S\"oren Auer(参考訳) 過去10年間で、多くの知識グラフ(KG)情報抽出手法が提案された。 有効ではあるが、これらの取り組みは相容れないものであり、KG情報抽出(IE)におけるその集団的強みと弱点は文献で研究されていない。 Plumberは、研究コミュニティのIEとの相反する取り組みをまとめた最初のフレームワークである。 Plumberアーキテクチャは、コア参照解決、エンティティリンク、関係抽出などの様々なKG情報抽出サブタスクのための33の再利用可能なコンポーネントを含む。 これらのコンポーネントを用いて、Plumberは適切な情報抽出パイプラインを動的に生成し、入力文に基づいて適切なパイプラインを選択する際の最適化問題について検討する。 そこで我々は,入力からコンテキスト埋め込みを抽出し,適切なパイプラインを見つける変換器に基づく分類モデルを訓練する。 DBpedia と Open Research Knowledge Graph (ORKG) の2つの KG 上の標準データセットを用いて KG トリプルを抽出するための Plumber の有効性を検討する。 本研究は,KG情報抽出パイプラインの動的生成におけるPlumberの有効性を示すものである。 さらに,集合的障害事例の分析を行い,統合コンポーネント間の類似性と相乗効果について検討し,その限界について考察する。

In the last decade, a large number of Knowledge Graph (KG) information extraction approaches were proposed. Albeit effective, these efforts are disjoint, and their collective strengths and weaknesses in effective KG information extraction (IE) have not been studied in the literature. We propose Plumber, the first framework that brings together the research community's disjoint IE efforts. The Plumber architecture comprises 33 reusable components for various KG information extraction subtasks, such as coreference resolution, entity linking, and relation extraction. Using these components,Plumber dynamically generates suitable information extraction pipelines and offers overall 264 distinct pipelines.We study the optimization problem of choosing suitable pipelines based on input sentences. To do so, we train a transformer-based classification model that extracts contextual embeddings from the input and finds an appropriate pipeline. We study the efficacy of Plumber for extracting the KG triples using standard datasets over two KGs: DBpedia, and Open Research Knowledge Graph (ORKG). Our results demonstrate the effectiveness of Plumber in dynamically generating KG information extraction pipelines,outperform ing all baselines agnostics of the underlying KG. Furthermore,we provide an analysis of collective failure cases, study the similarities and synergies among integrated components, and discuss their limitations.
翻訳日:2021-02-23 14:54:46 公開日:2021-02-22
# kindergarden量子力学の卒業生たち(または、レゴを組み立てるのをやめてzx-calculusを好きになる方法)

Kindergarden quantum mechanics graduates (...or how I learned to stop gluing LEGO together and love the ZX-calculus) ( http://arxiv.org/abs/2102.10984v1 )

ライセンス: Link先を確認
Bob Coecke, Dominic Horsman, Aleks Kissinger, Quanlong Wang(参考訳) 本論文は,2005年度の講義ノート「幼稚園の量子力学」の「スピリチュアル・チャイルド」であり,ディラック表記の単純で絵画的な拡張により,いくつかの量子的特徴の表現と導出が容易になることを示した。 このアプローチの中心は、量子論と計算の特徴を理解し、導出するために画像と図形変換規則を使うことであった。 しかし、このアプローチは多くの人が「牛肉はどこ?」と疑問に思った。 言い換えれば、この新しいアプローチは新しい結果を生み出すことができたのか、それとも単に私たちがすでに知っているものを休息させる審美的に楽しい方法だったのか? この続編の論文の目的は「牛肉だ!」と言うことである。 は、幼稚園量子力学で提唱されたアプローチの主な成果と、実際の量子コンピュータの実用的な問題に取り組むためにどのように適用されているかを強調します。 私たちは主に、絵画形式主義のスイス軍ナイフになったものに焦点を当てます:ZX-計算。 まず、zx計算の背後にあるいくつかのアイデアを見て、通常の量子回路形式と比較し、対比する。 その結果,(1)zx-calculusルールの完全性,(2)zxに依存した商用およびオープンソースの量子コンパイラにおける最先端量子回路最適化の結果,(3)自然言語などの実世界のものを今日の(非常に限られた)量子ハードウェア上で動作可能な量子回路に変換する上でのzxの利用,の3つのカテゴリに分類された。 また、ZX計算によって子どもたちが最先端の量子コンピューティングを実現できることを示す実験も進行中です。 もしそうなら、「幼稚園の量子力学」が単なるジョークではないことを真に証明するでしょう。

This paper is a `spiritual child' of the 2005 lecture notes Kindergarten Quantum Mechanics, which showed how a simple, pictorial extension of Dirac notation allowed several quantum features to be easily expressed and derived, using language even a kindergartner can understand. Central to that approach was the use of pictures and pictorial transformation rules to understand and derive features of quantum theory and computation. However, this approach left many wondering `where's the beef?' In other words, was this new approach capable of producing new results, or was it simply an aesthetically pleasing way to restate stuff we already know? The aim of this sequel paper is to say `here's the beef!', and highlight some of the major results of the approach advocated in Kindergarten Quantum Mechanics, and how they are being applied to tackle practical problems on real quantum computers. We will focus mainly on what has become the Swiss army knife of the pictorial formalism: the ZX-calculus. First we look at some of the ideas behind the ZX-calculus, comparing and contrasting it with the usual quantum circuit formalism. We then survey results from the past 2 years falling into three categories: (1) completeness of the rules of the ZX-calculus, (2) state-of-the-art quantum circuit optimisation results in commercial and open-source quantum compilers relying on ZX, and (3) the use of ZX in translating real-world stuff like natural language into quantum circuits that can be run on today's (very limited) quantum hardware. We also take the title literally, and outline an ongoing experiment aiming to show that ZX-calculus enables children to do cutting-edge quantum computing stuff. If anything, this would truly confirm that `kindergarten quantum mechanics' wasn't just a joke.
翻訳日:2021-02-23 14:54:23 公開日:2021-02-22
# REMOD:オンライン談話のモデル化のための関係抽出

REMOD: Relation Extraction for Modeling Online Discourse ( http://arxiv.org/abs/2102.11105v1 )

ライセンス: Link先を確認
Matthew Sumpter and Giovanni Luca Ciampaglia(参考訳) オンラインで行われる膨大な量の談話は、市民的および情報化された公共の領域の機能に課題を引き起こします。 ClaimReviewのようなオンライン談話データを標準化する試みは、サードパーティのファクトチェッカーによってレビューされた潜在的に不正確な主張に関する豊富な新しいデータを利用できるようにしている。 これらのデータは、オンライン談話の性質、それを増幅する政治エリートの役割、およびオンライン情報エコシステムの整合性に対するその影響について光を当てるのに役立ちます。 残念ながら、このデータの半構造化された性質は、オンラインの談話に関するモデリングと推論に関して大きな課題をもたらしている。 重要な課題は、クレーム内の名前付きエンティティ間の意味的関係を決定するタスクである関係抽出である。 本稿では,関係抽出のための教師付き学習手法を開発し,意味依存グラフ上のグラフ埋め込み手法とパストラバーサルを組み合わせた。 我々のアプローチは、対象と対象(例えば、三重項)の間の経路に沿った実体の知識を直感的に観察することに基づいている。 ワシントンd.c. そして United_States_of_Ame rica) は意味関係の抽出に利用できる有用な情報を提供する。 capitalOf)。 オンライン談話のモデル化におけるこの手法の潜在的な応用例として,本手法をパイプラインに統合して誤情報クレームを推定できることを示す。

The enormous amount of discourse taking place online poses challenges to the functioning of a civil and informed public sphere. Efforts to standardize online discourse data, such as ClaimReview, are making available a wealth of new data about potentially inaccurate claims, reviewed by third-party fact-checkers. These data could help shed light on the nature of online discourse, the role of political elites in amplifying it, and its implications for the integrity of the online information ecosystem. Unfortunately, the semi-structured nature of much of this data presents significant challenges when it comes to modeling and reasoning about online discourse. A key challenge is relation extraction, which is the task of determining the semantic relationships between named entities in a claim. Here we develop a novel supervised learning method for relation extraction that combines graph embedding techniques with path traversal on semantic dependency graphs. Our approach is based on the intuitive observation that knowledge of the entities along the path between the subject and object of a triple (e.g. Washington,_D.C.}, and United_States_of_Ame rica) provides useful information that can be leveraged for extracting its semantic relation (i.e. capitalOf). As an example of a potential application of this technique for modeling online discourse, we show that our method can be integrated into a pipeline to reason about potential misinformation claims.
翻訳日:2021-02-23 14:53:50 公開日:2021-02-22
# 不安定な学習率を持つ超収束

Super-Convergence with an Unstable Learning Rate ( http://arxiv.org/abs/2102.10734v1 )

ライセンス: Link先を確認
Samet Oymak(参考訳) 従来の知恵は、学習率が安定的な体制にあるべきであり、勾配に基づくアルゴリズムが爆発しないようにしている。 本稿では,不安定な学習率スキームが超高速収束に導く単純なシナリオを紹介し,その収束率は問題の条件数に対数的にのみ依存する。 我々は周期的に大きな不安定なステップといくつかの小さな安定ステップを取り、不安定さを補うサイクル学習率を用いている。 これらの調査結果は、最大学習率のCLRが「超収束」につながると主張する[Smith and Topin, 2019]の実証的観察を説明するのにも役立ちます。 このスキームは、ヘッセンがバイモーダルスペクトルを示し、固有値を2つのクラスタ(小型および大規模)にグループ化できる問題において優れていることを証明します。 不安定なステップは、小さな固有スペクトル上の高速収束を可能にする鍵です。

Conventional wisdom dictates that learning rate should be in the stable regime so that gradient-based algorithms don't blow up. This note introduces a simple scenario where an unstable learning rate scheme leads to a super fast convergence, with the convergence rate depending only logarithmically on the condition number of the problem. Our scheme uses a Cyclical Learning Rate where we periodically take one large unstable step and several small stable steps to compensate for the instability. These findings also help explain the empirical observations of [Smith and Topin, 2019] where they claim CLR with a large maximum learning rate leads to "super-convergence&qu ot;. We prove that our scheme excels in the problems where Hessian exhibits a bimodal spectrum and the eigenvalues can be grouped into two clusters (small and large). The unstable step is the key to enabling fast convergence over the small eigen-spectrum.
翻訳日:2021-02-23 14:51:14 公開日:2021-02-22
# 線形グラフ畳み込みネットワークにおける拡散過程の分割

Dissecting the Diffusion Process in Linear Graph Convolutional Networks ( http://arxiv.org/abs/2102.10739v1 )

ライセンス: Link先を確認
Yifei Wang, Yisen Wang, Jiansheng Yang, Zhouchen Lin(参考訳) 近年、グラフ畳み込みネットワーク(GCN)が注目を集めています。 典型的なGCN層は、線形特徴伝搬ステップと非線形変換ステップからなる。 近年の研究では、線形GCNは元の非線形GCNに匹敵する性能を達成でき、計算効率ははるかに高いことが示されている。 本稿では, 連続グラフ拡散の観点から, 線形GCNの特徴伝搬ステップを識別し, 線形GCNがさらなる伝播ステップの恩恵を受けることができない理由を分析する。 その後,DGC(Decoupled Graph Convolution)を提案し,端末時間と機能伝搬ステップを分離することで,非常に多くの機能伝搬ステップを柔軟かつ活用することができるようにした。 実験により,提案したDGCはリニアGCNを大きなマージンで改善し,最近の多くの非線形GCNと競合することを示した。

Graph Convolutional Networks (GCNs) have attracted more and more attentions in recent years. A typical GCN layer consists of a linear feature propagation step and a nonlinear transformation step. Recent works show that a linear GCN can achieve comparable performance to the original non-linear GCN while being much more computationally efficient. In this paper, we dissect the feature propagation steps of linear GCNs from a perspective of continuous graph diffusion, and analyze why linear GCNs fail to benefit from more propagation steps. Following that, we propose Decoupled Graph Convolution (DGC) that decouples the terminal time and the feature propagation steps, making it more flexible and capable of exploiting a very large number of feature propagation steps. Experiments demonstrate that our proposed DGC improves linear GCNs by a large margin and makes them competitive with many modern variants of non-linear GCNs.
翻訳日:2021-02-23 14:50:57 公開日:2021-02-22
# グラフニューラルネットワークの自己教師付き学習:統一レビュー

Self-Supervised Learning of Graph Neural Networks: A Unified Review ( http://arxiv.org/abs/2102.10757v1 )

ライセンス: Link先を確認
Yaochen Xie, Zhao Xu, Zhengyang Wang, Shuiwang Ji(参考訳) 監督モードで訓練された深いモデルは、さまざまなタスクで驚くべき成功を達成しました。 ラベル付きサンプルが制限されると、大量のラベルなしサンプルを利用するための新しいパラダイムとして、自己監視学習(SSL)が出現しています。 SSLは自然言語と画像学習タスクで有望なパフォーマンスを達成した。 近年,グラフニューラルネットワーク(GNN)を用いたグラフデータにその成功を拡大する傾向にある。 本調査では,SSLを用いたGNNのトレーニング方法を統一的に検討する。 具体的には、SSLメソッドをコントラストおよび予測モデルに分類する。 いずれのカテゴリでも、メソッドの統一フレームワークと、これらのメソッドがフレームワークの下にある各コンポーネントでどのように異なるかを提供します。 GNNsのためのSSLメソッドの統一された処理は、さまざまな方法の類似性と相違に光を当て、新しい方法とアルゴリズムを開発するための段階を設定します。 また、異なるSSL設定と各設定で使用される対応するデータセットを要約します。 手法開発と経験的比較を容易にするため,共通ベースライン手法,データセット,評価指標の実装を含む,GNNにおけるSSLの標準化テストベッドを開発した。

Deep models trained in supervised mode have achieved remarkable success on a variety of tasks. When labeled samples are limited, self-supervised learning (SSL) is emerging as a new paradigm for making use of large amounts of unlabeled samples. SSL has achieved promising performance on natural language and image learning tasks. Recently, there is a trend to extend such success to graph data using graph neural networks (GNNs). In this survey, we provide a unified review of different ways of training GNNs using SSL. Specifically, we categorize SSL methods into contrastive and predictive models. In either category, we provide a unified framework for methods as well as how these methods differ in each component under the framework. Our unified treatment of SSL methods for GNNs sheds light on the similarities and differences of various methods, setting the stage for developing new methods and algorithms. We also summarize different SSL settings and the corresponding datasets used in each setting. To facilitate methodological development and empirical comparison, we develop a standardized testbed for SSL in GNNs, including implementations of common baseline methods, datasets, and evaluation metrics.
翻訳日:2021-02-23 14:50:44 公開日:2021-02-22
# NTopo:暗黙のニューラル表現を用いたメッシュフリートポロジー最適化

NTopo: Mesh-free Topology Optimization using Implicit Neural Representations ( http://arxiv.org/abs/2102.10782v1 )

ライセンス: Link先を確認
Jonas Zehnder, Yue Li, Stelian Coros, Bernhard Thomaszewski(参考訳) 近年の暗黙的な神経表現の進歩は、偏微分方程式(PDE)に対する数値解を生成する際に大きな期待を示す。 従来の代替法と比較して、そのような表現はパラメータ化されたニューラルネットワークを使用して、メッシュのない方法で、高度に詳細で連続的で、完全に微分可能な信号を定義する。 多くの先行研究は、PDEが支配する前方問題や、少数のパラメータによって定義される関連する逆問題を解決するためにこれらの利点を活用することを目的としている。 本研究では,トポロジ最適化(TO)問題に取り組むための新しい機械学習手法を提案する。 位相最適化は、通常非常に高次元のパラメータ空間と非常に非線形な客観的景観を特徴とする逆問題の重要なクラスを指す。 TO問題における神経表現を効果的に活用するために,多層パーセプトロン(MLP)を用いて密度場と変位場の両方をパラメータ化する。 移動平均二乗誤差を伴う感度解析を用いて,従来の構造適合目標を効率的に最小化できることを示す。 実験を通じて示すように、我々のアプローチの大きな利点は、連続的なソリューション空間の自己教師付き学習をトポロジ最適化問題に適用できることです。

Recent advances in implicit neural representations show great promise when it comes to generating numerical solutions to partial differential equations (PDEs). Compared to conventional alternatives, such representations employ parameterized neural networks to define, in a mesh-free manner, signals that are highly-detailed, continuous, and fully differentiable. Most prior works aim to exploit these benefits in order to solve PDE-governed forward problems, or associated inverse problems that are defined by a small number of parameters. In this work, we present a novel machine learning approach to tackle topology optimization (TO) problems. Topology optimization refers to an important class of inverse problems that typically feature very high-dimensional parameter spaces and objective landscapes which are highly non-linear. To effectively leverage neural representations in the context of TO problems, we use multilayer perceptrons (MLPs) to parameterize both density and displacement fields. Using sensitivity analysis with a moving mean squared error, we show that our formulation can be used to efficiently minimize traditional structural compliance objectives. As we show through our experiments, a major benefit of our approach is that it enables self-supervised learning of continuous solution spaces to topology optimization problems.
翻訳日:2021-02-23 14:50:26 公開日:2021-02-22
# 局所キャリブレーション:測定値と再キャリブレーション

Localized Calibration: Metrics and Recalibration ( http://arxiv.org/abs/2102.10809v1 )

ライセンス: Link先を確認
Rachel Luo, Aadyot Bhatnagar, Huan Wang, Caiming Xiong, Silvio Savarese, Yu Bai, Shengjia Zhao, Stefano Ermon(参考訳) 確率的分類器は、その予測と共に信頼スコアを出力し、これらの信頼スコアは十分に校正されなければならない。 イベントの本当の確率を反映する) 下流のタスクに意味があり有用である。 しかし、既存の校正測定基準では不十分である。 期待校正誤差(ECE)のような一般的に使用されるメトリクスは、グローバルな傾向のみを測定し、特定のサンプルまたはサブグループの校正を測定するために効果がありません。 スペクトルの反対側では、完全に個別化された校正誤差は一般に有限サンプルから推定することは困難である。 本研究では,完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション法である局所キャリブレーション誤差(LCE)を提案する。 LCEは学習した特徴を活用して、リッチなサブグループを自動的にキャプチャし、類似関数を通じて個々のサンプルのキャリブレーション誤差を測定する。 次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。 最後に,提案手法を適用することで,下流タスクの意思決定が向上することを示す。

Probabilistic classifiers output confidence scores along with their predictions, and these confidence scores must be well-calibrated (i.e. reflect the true probability of an event) to be meaningful and useful for downstream tasks. However, existing metrics for measuring calibration are insufficient. Commonly used metrics such as the expected calibration error (ECE) only measure global trends, making them ineffective for measuring the calibration of a particular sample or subgroup. At the other end of the spectrum, a fully individualized calibration error is in general intractable to estimate from finite samples. In this work, we propose the local calibration error (LCE), a fine-grained calibration metric that spans the gap between fully global and fully individualized calibration. The LCE leverages learned features to automatically capture rich subgroups, and it measures the calibration error around each individual example via a similarity function. We then introduce a localized recalibration method, LoRe, that improves the LCE better than existing recalibration methods. Finally, we show that applying our recalibration method improves decision-making on downstream tasks.
翻訳日:2021-02-23 14:50:06 公開日:2021-02-22
# 逆例に対するランダム化分類器の堅牢性について

On the robustness of randomized classifiers to adversarial examples ( http://arxiv.org/abs/2102.10875v1 )

ライセンス: Link先を確認
Rafael Pinot and Laurent Meunier and Florian Yger and C\'edric Gouy-Pailler and Yann Chevaleyre and Jamal Atif(参考訳) 本稿では,敵対的攻撃に対する堅牢性理論について考察する。 ランダム化分類器 (\emph{i.e.}) に焦点を当てる。 確率変数を出力し、統計学習理論と情報理論のレンズを通してそれらの振る舞いを徹底的に分析する分類器。 そこで本研究では,確率メトリクスを用いた局所リプシッツネスを強制するランダム化分類器に対する新しいロバスト性概念を提案する。 この定義を満たして、私たちは2つの新しい貢献をする。 1つ目は、ランダム化分類器の逆一般化ギャップに新しい上界を考案することである。 より正確には、一般化ギャップと対角ギャップ (\emph{i.e}) の境界を考案する。 ランダム化分類器のリスクと攻撃中の最悪のリスクの間のギャップ。 第2の貢献は、堅牢なランダム化分類器を設計するためのシンプルで効率的なノイズ注入方法を提示する。 本研究の結果は,温和な仮説下での幅広い機械学習モデルに適用可能であることを示す。 さらに, CIFAR-10 や CIFAR-100 といった標準画像データセットの深層ニューラルネットワークを用いた実験結果と相関する。 トレーニングした全てのロバストモデルは、最先端の精度(CIFAR-10で0.82ドル以上)を同時に達成し、CIFAR-10で0.5ドル以上の敵に対して0.45ドル以上の堅牢な精度バウンダリを楽しめる。

This paper investigates the theory of robustness against adversarial attacks. We focus on randomized classifiers (\emph{i.e.} classifiers that output random variables) and provide a thorough analysis of their behavior through the lens of statistical learning theory and information theory. To this aim, we introduce a new notion of robustness for randomized classifiers, enforcing local Lipschitzness using probability metrics. Equipped with this definition, we make two new contributions. The first one consists in devising a new upper bound on the adversarial generalization gap of randomized classifiers. More precisely, we devise bounds on the generalization gap and the adversarial gap (\emph{i.e.} the gap between the risk and the worst-case risk under attack) of randomized classifiers. The second contribution presents a yet simple but efficient noise injection method to design robust randomized classifiers. We show that our results are applicable to a wide range of machine learning models under mild hypotheses. We further corroborate our findings with experimental results using deep neural networks on standard image datasets, namely CIFAR-10 and CIFAR-100. All robust models we trained models can simultaneously achieve state-of-the-art accuracy (over $0.82$ clean accuracy on CIFAR-10) and enjoy \emph{guaranteed} robust accuracy bounds ($0.45$ against $\ell_2$ adversaries with magnitude $0.5$ on CIFAR-10).
翻訳日:2021-02-23 14:49:48 公開日:2021-02-22
# 再帰型コントラスト表現学習による強化学習

Return-Based Contrastive Representation Learning for Reinforcement Learning ( http://arxiv.org/abs/2102.10960v1 )

ライセンス: Link先を確認
Guoqing Liu, Chuheng Zhang, Li Zhao, Tao Qin, Jinhua Zhu, Jian Li, Nenghai Yu, Tie-Yan Liu(参考訳) 近年, 深部強化学習(RL)における表現学習の高速化とサンプル効率向上のために, 様々な補助的タスクが提案されている。 しかし、既存の補助タスクはRL問題の特徴を考慮に入れておらず、監督されていません。 rlにおける最も重要なフィードバック信号である戻り値を活用することで、学習表現に異なる戻り値を持つ状態-動作ペアを識別させる新しい補助タスクを提案する。 我々の補助的損失は、新しい状態-作用抽象化の構造を捉えた表現を学習するために理論的に正当化され、そこでは、同様の戻り分布を持つ状態-作用対が集約される。 低データ体制では、アルゴリズムはAtariゲームやDeepMindコントロールスイートの複雑なタスクの強力なベースラインを上回り、既存の補助タスクと組み合わせることでさらに優れたパフォーマンスを実現します。

Recently, various auxiliary tasks have been proposed to accelerate representation learning and improve sample efficiency in deep reinforcement learning (RL). However, existing auxiliary tasks do not take the characteristics of RL problems into consideration and are unsupervised. By leveraging returns, the most important feedback signals in RL, we propose a novel auxiliary task that forces the learnt representations to discriminate state-action pairs with different returns. Our auxiliary loss is theoretically justified to learn representations that capture the structure of a new form of state-action abstraction, under which state-action pairs with similar return distributions are aggregated together. In low data regime, our algorithm outperforms strong baselines on complex tasks in Atari games and DeepMind Control suite, and achieves even better performance when combined with existing auxiliary tasks.
翻訳日:2021-02-23 14:49:25 公開日:2021-02-22
# ゼロ勾配からの脱出:フランク=ウルフ政策最適化による行動制約強化学習の再考

Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement Learning via Frank-Wolfe Policy Optimization ( http://arxiv.org/abs/2102.11055v1 )

ライセンス: Link先を確認
Jyun-Li Lin, Wei Hung, Shang-Hsuan Yang, Ping-Chun Hsieh, Xi Liu(参考訳) アクション制約強化学習(RL)は、リソース制約のあるネットワークシステムのスケジューリングや、キネマティック制約のあるロボットの制御など、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。 既存のプロジェクションベースのアプローチは制約違反をゼロにするが、政策勾配とプロジェクションの密結合によるゼロ段階の問題に悩まされ、サンプル非効率なトレーニングと緩やかな収束をもたらす。 この問題に対処するために,Frank-Wolfeと回帰ベースのポリシー更新スキームを活用することで,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。 さらに,提案アルゴリズムは,表の場合の収束性や政策改善性を享受し,一般の場合の行動制約付きRLに対するDDPGアルゴリズムを一般化することを示した。 実験により,提案アルゴリズムが各種制御タスクにおけるベンチマーク法を有意に上回ることを実証した。

Action-constrained reinforcement learning (RL) is a widely-used approach in various real-world applications, such as scheduling in networked systems with resource constraints and control of a robot with kinematic constraints. While the existing projection-based approaches ensure zero constraint violation, they could suffer from the zero-gradient problem due to the tight coupling of the policy gradient and the projection, which results in sample-inefficient training and slow convergence. To tackle this issue, we propose a learning algorithm that decouples the action constraints from the policy parameter update by leveraging state-wise Frank-Wolfe and a regression-based policy update scheme. Moreover, we show that the proposed algorithm enjoys convergence and policy improvement properties in the tabular case as well as generalizes the popular DDPG algorithm for action-constrained RL in the general case. Through experiments, we demonstrate that the proposed algorithm significantly outperforms the benchmark methods on a variety of control tasks.
翻訳日:2021-02-23 14:49:11 公開日:2021-02-22
# スペクトルラジウス正規化による非凸最適化

Non-Convex Optimization with Spectral Radius Regularization ( http://arxiv.org/abs/2102.11210v1 )

ライセンス: Link先を確認
Adam Sandler, Diego Klabjan and Yuan Luo(参考訳) 深層ニューラルネットワークやその他の機械学習モデルのトレーニング中に平坦な最小値を求める正規化手法を開発した。 これらのミニマはシャープなミニマよりも一般化され、トレーニングデータとは異なる分散が可能な実語テストデータにモデルをより一般化することができる。 具体的には、損失関数のヘッシアンのスペクトル半径を低減するための正規化最適化法を提案する。 さらに,この最適化をニューラルネットワーク上で効率的に行うアルゴリズムを導出し,それらのアルゴリズムの収束結果を証明する。 さらに,本アルゴリズムが医療を含む複数の領域の複数の実世界アプリケーションに対して効果的に動作することを実証する。 モデルがうまく一般化することを示すために、様々なテスト方法を導入する。

We develop a regularization method which finds flat minima during the training of deep neural networks and other machine learning models. These minima generalize better than sharp minima, allowing models to better generalize to real word test data, which may be distributed differently from the training data. Specifically, we propose a method of regularized optimization to reduce the spectral radius of the Hessian of the loss function. Additionally, we derive algorithms to efficiently perform this optimization on neural networks and prove convergence results for these algorithms. Furthermore, we demonstrate that our algorithm works effectively on multiple real world applications in multiple domains including healthcare. In order to show our models generalize well, we introduce different methods of testing generalizability.
翻訳日:2021-02-23 14:48:53 公開日:2021-02-22
# 神経薬理力学状態空間モデリング

Neural Pharmacodynamic State Space Modeling ( http://arxiv.org/abs/2102.11218v1 )

ライセンス: Link先を確認
Zeshan Hussain, Rahul G. Krishnan, David Sontag(参考訳) 高次元長手データの時系列モデリングは、患者の疾患進行を予測する上で重要である。 しかし、既存のニューラルネットワークベースのアプローチでは、患者の状態の表現を非常に柔軟に学習するが、過剰に適合しやすい。 本研究では,治療が疾患状態に与える影響を物理にインスパイアした,新たな注意に基づくニューラルアーキテクチャを活用した深層生成モデルを提案する。 その結果は、時間とともに変化する高次元患者バイオマーカーのスケーラブルで正確なモデルとなった。 提案モデルでは, 一般化が大幅に改善され, 実世界の臨床データから, 癌進展のダイナミクスに関する解釈可能な知見が得られる。

Modeling the time-series of high-dimensional, longitudinal data is important for predicting patient disease progression. However, existing neural network based approaches that learn representations of patient state, while very flexible, are susceptible to overfitting. We propose a deep generative model that makes use of a novel attention-based neural architecture inspired by the physics of how treatments affect disease state. The result is a scalable and accurate model of high-dimensional patient biomarkers as they vary over time. Our proposed model yields significant improvements in generalization and, on real-world clinical data, provides interpretable insights into the dynamics of cancer progression.
翻訳日:2021-02-23 14:48:42 公開日:2021-02-22
# 次世代AI計画システムのためのソフトウェアアーキテクチャ

Software Architecture for Next-Generation AI Planning Systems ( http://arxiv.org/abs/2102.10985v1 )

ライセンス: Link先を確認
Sebastian Graef and Ilche Georgievski(参考訳) 人工知能(AI)計画(英: Artificial Intelligence Planing)は、ユーザー目標を達成するための強力なツールを提供する研究・開発分野である。 これらの計画ツールはベンチマーク計画上の問題に優れたパフォーマンスを示しますが、実際のアプリケーションの使用と統合に関して困難なソフトウェアシステムを表しています。 実際、内部メカニズムの深い理解でさえ、既存の計画ツールをうまくセットアップ、使用、操作できることを保証していません。 我々は、次世代のai計画システムの設計、開発、使用の能力の核となるサービス指向計画アーキテクチャを提案することで、この状況の緩和に寄与します。 共通の計画能力を収集し、分類し、計画アーキテクチャの構成要素を形成します。 ソフトウェア設計の原則とパターンをアーキテクチャに組み込んで、計画機能のユーザビリティ、相互運用性、再利用性を可能にします。 本システムでは,システム構成の高速なプロトタイピングとフレキシブル化に向けたアプローチの可能性を実証する。 最後に、一般的な計画ツールと比較して、アプローチの質的な利点についての洞察を提供する。

Artificial Intelligence (AI) planning is a flourishing research and development discipline that provides powerful tools for searching a course of action that achieves some user goal. While these planning tools show excellent performance on benchmark planning problems, they represent challenging software systems when it comes to their use and integration in real-world applications. In fact, even in-depth understanding of their internal mechanisms does not guarantee that one can successfully set up, use and manipulate existing planning tools. We contribute toward alleviating this situation by proposing a service-oriented planning architecture to be at the core of the ability to design, develop and use next-generation AI planning systems. We collect and classify common planning capabilities to form the building blocks of the planning architecture. We incorporate software design principles and patterns into the architecture to allow for usability, interoperability and reusability of the planning capabilities. Our prototype planning system demonstrates the potential of our approach for rapid prototyping and flexibility of system composition. Finally, we provide insight into the qualitative advantages of our approach when compared to a typical planning tool.
翻訳日:2021-02-23 14:47:38 公開日:2021-02-22
# 左派権威主義の道徳的基礎--部族的平等主義論の性格、結束、および排他性について

The Moral Foundations of Left-Wing Authoritarianism: On the Character, Cohesion, and Clout of Tribal Equalitarian Discourse ( http://arxiv.org/abs/2102.11009v1 )

ライセンス: Link先を確認
Justin E. Lane, Kevin McCaffree, F. LeRon Shults(参考訳) 左翼の権威主義は右翼の権威主義ほど理解されていない。 我々は、ソーシャルメディア分析の新しいアプローチを用いて、通常調査に依存する前者に関する文献にコントリビュートする。 我々は、政治イデオロギー(部族平等主義)の概要を、19世紀と20世紀の社会哲学に起源を持つ探索的なスケッチとして60の用語のリストを使用する。 次に、Google Booksの英語コーパス(800万冊以上)の分析と、Twitterからのユニークなツイート(n = 202,852)を抽出して、このイデオロギーが一般大衆の間で結束している範囲を識別する一連の調査を行い、権威主義の署名を明らかにし、人気が高まっている。 探索的ではあるが,本研究は,(1)モラル・ファンデーション・セオリーの尺度を用いた,表向きの自由主義者間の独特な保守的道徳的署名と,(2)不安や悲しみに対する怒りの実質的流行という2形態の左翼権威主義の証拠を提供する。 一般的に、結果は、この世界観は人気が高まり、凝集性が高まり、権威主義の署名を示しています。

Left-wing authoritarianism remains far less understood than right-wing authoritarianism. We contribute to the literature on the former, which typically relies on surveys, using a new social media analytics approach. We use a list of 60 terms to provide an exploratory sketch of the outlines of a political ideology (tribal equalitarianism) with origins in 19th and 20th century social philosophy. We then use analyses of the English Corpus of Google Books (over 8 million books) and scraped unique tweets from Twitter (n = 202,852) to conduct a series of investigations to discern the extent to which this ideology is cohesive amongst the public, reveals signatures of authoritarianism and has been growing in popularity. Though exploratory, our results provide some evidence of left-wing authoritarianism in two forms (1) a uniquely conservative moral signature amongst ostensible liberals using measures from Moral Foundations Theory and (2) a substantial prevalence of anger, relative to anxiety or sadness. In general, results indicate that this worldview is growing in popularity, is increasingly cohesive, and shows signatures of authoritarianism.
翻訳日:2021-02-23 14:47:22 公開日:2021-02-22
# 雑誌はどう引用されているか。 引用方式によるジャーナル引用の特徴付け

How are journals cited? characterizing journal citations by type of citation ( http://arxiv.org/abs/2102.11043v1 )

ライセンス: Link先を確認
Domenic Rosati(参考訳) 品質のためのジャーナルの評価は、雑誌が奨学金の審査と配布の主な会場であるため、バイブリオメトリックスの主要なテーマの1つです。 バイブリオメトリックスによるジャーナルインパクトの定量化には、ジャーナル間の学際的差異、ソース資料の使用方法、測定対象作品を含めるためのタイムウィンドウ、引用分布のスキューネスなど、多くの批判があります(Lariviere & Sugimoto、2019)。 しかし、これらをSJR、SNIP、Eigenfactor(Walters, 2017)などの新しく提案された指標にリメディエートしようとする様々な試みにもかかわらず、引用数に基づいており、ジャーナルの影響を定量化するときの作業を支持しているかどうかにかかわらず、引用の種類が行った重要な違いを認識できていません。 バイブリオメトリックスプロジェクトにおける引用コンテンツ分析の適用と包含は様々なプログラムが提案されているが、引用コンテンツ分析は、引用引用指数が作成されるまでジャーナル引用分析を定量化するために必要な規模で行われていない。 引用関数に基づく引用型を含むこの引用インデックス(支持、議論、言及)を用いて、引用関数に基づくジャーナルへの引用の統計的評価に関する最初の結果を提示する。 また,学術誌が受理した支持と論争の比率を品質指標として特徴付ける最初の結果を提示し,支持と論争の比率は総引用と相関せず,この比率の分布は正規分布を表わさない,という2つの興味深い結果を示す。 本稿では,引用関数に修飾された引用分析を用いた将来の研究の提案と,引用関数を用いた評価や情報検索などの書誌処理の意義について述べる。

Evaluation of journals for quality is one of the dominant themes of bibliometrics since journals are the primary venue of vetting and distribution of scholarship. There are many criticisms of quantifying journal impact with bibliometrics including disciplinary differences among journals, what source materials are used, time windows for the inclusion of works to measure, and skewness of citation distributions (Lariviere & Sugimoto, 2019). However, despite various attempts to remediate these in newly proposed indicators such as SJR, SNIP, and Eigenfactor (Walters, 2017) indicators still remain based on citation counts and fail to acknowledge the critical differences that the type of citation made, whether it's supporting or disputing a work when quantifying journal impact. While various programs have been suggested to apply and encompass citation content analysis within bibliometrics projects, citation content analysis has not been done at the scale needed in order to supplement quantitate journal citation analysis until the scite citation index was produced. Using this citation index containing citation types based on citation function (supporting, disputing, or mentioning) we present initial results on the statistical characterization of citations to journals based on citation function. We also present initial results of characterizing the ratio of supports and disputes received by a journal as a potential indicator of quality and show two interesting results: the ratio of supports and disputes do not correlate with total citations and that the distribution of this ratio is not skewed showing a normal distribution. We conclude with a proposal for future research using citation analysis qualified by citation function as well as the implications of performing bibliometrics tasks such as research evaluation and information retrieval using citation function.
翻訳日:2021-02-23 14:46:59 公開日:2021-02-22
# 事前学習言語モデルを用いた自動音声認識のための可読文字の生成

Generating Human Readable Transcript for Automatic Speech Recognition with Pre-trained Language Model ( http://arxiv.org/abs/2102.11114v1 )

ライセンス: Link先を確認
Junwei Liao, Yu Shi, Ming Gong, Linjun Shou, Sefik Eskimez, Liyang Lu, Hong Qu, Michael Zeng(参考訳) 現代の自動音声認識(ASR)システムは、認識精度の点で高性能を達成できます。 しかし, 音声通信に共通する不規則性, フィルタ語, その他のエラタのため, 完全に正確な文字起こしは読めない場合がある。 多くのダウンストリームタスクとヒューマンリーダーは、ASRシステムの出力に依存しているため、スピーカーとASRシステムによってもたらされたエラーは、パイプラインの次のタスクに伝達される。 本研究では,不正確でノイズの多いASR出力を人間や下流タスクの可読テキストに変換することを目的としたASR後処理モデルを提案する。 メタデータ抽出(MDE)コーパスを利用して,タスク固有のデータセットを構築した。 データセットが小さいので,新しいデータ拡張法を提案し,roberta事前学習モデルの微調整に2段階のトレーニング戦略を用いる。 構築されたテストセットでは、私たちのモデルは、可読性認識WER(RA-WER)の13.26とBLEUメトリックの17.53の大きなマージンで、生産2ステップパイプラインベースの後処理方法よりも優れています。 ヒトの評価はまた、本手法がベースライン法よりも可読性の高い書き起こしを生成できることを実証する。

Modern Automatic Speech Recognition (ASR) systems can achieve high performance in terms of recognition accuracy. However, a perfectly accurate transcript still can be challenging to read due to disfluency, filter words, and other errata common in spoken communication. Many downstream tasks and human readers rely on the output of the ASR system; therefore, errors introduced by the speaker and ASR system alike will be propagated to the next task in the pipeline. In this work, we propose an ASR post-processing model that aims to transform the incorrect and noisy ASR output into a readable text for humans and downstream tasks. We leverage the Metadata Extraction (MDE) corpus to construct a task-specific dataset for our study. Since the dataset is small, we propose a novel data augmentation method and use a two-stage training strategy to fine-tune the RoBERTa pre-trained model. On the constructed test set, our model outperforms a production two-step pipeline-based post-processing method by a large margin of 13.26 on readability-aware WER (RA-WER) and 17.53 on BLEU metrics. Human evaluation also demonstrates that our method can generate more human-readable transcripts than the baseline method.
翻訳日:2021-02-23 14:46:27 公開日:2021-02-22
# 「私は優れたセラピストですか?」 音声と言語技術を用いた心理療法スキルの自動評価

"Am I A Good Therapist?" Automated Evaluation Of Psychotherapy Skills Using Speech And Language Technologies ( http://arxiv.org/abs/2102.11265v1 )

ライセンス: Link先を確認
Nikolaos Flemotomos, Victor R. Martinez, Zhuohao Chen, Karan Singla, Victor Ardulov, Raghuveer Peri, Derek D. Caperton, James Gibson, Michael J. Tanana, Panayiotis Georgiou, Jake Van Epps, Sarah P. Lord, Tad Hirsch, Zac E. Imel, David C. Atkins, Shrikanth Narayanan(参考訳) 心理的介入の増加に伴い、サービスの訓練、監督、および品質保証を支援するために、心理的ケアの有効性を評価する手段を持つことが不可欠です。 伝統的に、品質アセスメントは、特定の次元に沿って記録されたセッションを評価し、しばしばアプローチやドメインに関連する構造を通してコード化される。 しかし、これはコスト抑制と時間のかかる手法であり、実現可能性の低下と現実の環境での使用制限につながる。 このプロセスを容易にするために、セッションの録音された音声を処理し、誰がいつ、何と言ったか、健康専門家がどのように言語を使ってセラピーを提供するかを分析する自動能力評価ツールを開発した。 動機付け面接と呼ばれる特定のタイプの心理療法のユースケースに焦点を当て、私たちのシステムは、セッションのダイナミクス(例えば、セラピスト対クライアントの会話時間)、低レベルの心理言語記述子(例えば、質問の種類)、ならびに他の高レベルの行動構造(例えば、セラピストがクライアントの視点を理解する範囲)に関する情報を含む、セラピストに包括的なフィードバックを提供します。 我々は,新しいセラピストの訓練に使用される実世界の臨床環境において,5000以上の記録のデータセットを用いて,我々のプラットフォームとその性能について述べる。 近い将来に自動心理療法評価ツールが普及すれば、より効果的なトレーニングとスキル向上のための手段を提供することで専門家の能力を増強し、最終的により肯定的な臨床結果につながると確信しています。

With the growing prevalence of psychological interventions, it is vital to have measures which rate the effectiveness of psychological care, in order to assist in training, supervision, and quality assurance of services. Traditionally, quality assessment is addressed by human raters who evaluate recorded sessions along specific dimensions, often codified through constructs relevant to the approach and domain. This is however a cost-prohibitive and time-consuming method which leads to poor feasibility and limited use in real-world settings. To facilitate this process, we have developed an automated competency rating tool able to process the raw recorded audio of a session, analyzing who spoke when, what they said, and how the health professional used language to provide therapy. Focusing on a use case of a specific type of psychotherapy called Motivational Interviewing, our system gives comprehensive feedback to the therapist, including information about the dynamics of the session (e.g., therapist's vs. client's talking time), low-level psychological language descriptors (e.g., type of questions asked), as well as other high-level behavioral constructs (e.g., the extent to which the therapist understands the clients' perspective). We describe our platform and its performance, using a dataset of more than 5,000 recordings drawn from its deployment in a real-world clinical setting used to assist training of new therapists. We are confident that a widespread use of automated psychotherapy rating tools in the near future will augment experts' capabilities by providing an avenue for more effective training and skill improvement and will eventually lead to more positive clinical outcomes.
翻訳日:2021-02-23 14:46:05 公開日:2021-02-22
# BayesPerf: ベイズ統計を用いたパフォーマンス監視エラーの最小化

BayesPerf: Minimizing Performance Monitoring Errors Using Bayesian Statistics ( http://arxiv.org/abs/2102.10837v1 )

ライセンス: Link先を確認
Subho S. Banerjee, Saurabh Jha, Zbigniew T. Kalbarczyk, Ravishankar K. Iyer(参考訳) 低レベルのアーキテクチャおよびマイクロアーキテクチャイベントを測定するハードウェアパフォーマンスカウンタ(HPC)は、システムの状態に関する動的コンテキスト情報を提供する。 しかし、HPC測定は非決定性(例えば、イベント多重化によるアンダーカウント、OS割り込み処理の動作)によってエラーを起こしやすい。 本稿では,hpc間のミクロ構造的関係を捉えるドメイン駆動ベイズモデルを用いて,hpc測定における不確かさを定量化するシステムであるベイズパーフを提案する。 x86およびppc64CPU用のBayesPerfモデルの低遅延低消費電力推論を可能にするアクセラレータの設計と実装を提供します。 BayesPerfはHPC測定の平均誤差を40.1%から7.6%に減らす。 リアルタイム意思決定におけるBayesPerfの値は、PCIe転送のスケジューリングの簡単な例で示される。

Hardware performance counters (HPCs) that measure low-level architectural and microarchitectural events provide dynamic contextual information about the state of the system. However, HPC measurements are error-prone due to non determinism (e.g., undercounting due to event multiplexing, or OS interrupt-handling behaviors). In this paper, we present BayesPerf, a system for quantifying uncertainty in HPC measurements by using a domain-driven Bayesian model that captures microarchitectural relationships between HPCs to jointly infer their values as probability distributions. We provide the design and implementation of an accelerator that allows for low-latency and low-power inference of the BayesPerf model for x86 and ppc64 CPUs. BayesPerf reduces the average error in HPC measurements from 40.1% to 7.6% when events are being multiplexed. The value of BayesPerf in real-time decision-making is illustrated with a simple example of scheduling of PCIe transfers.
翻訳日:2021-02-23 14:44:44 公開日:2021-02-22
# ワンショット画像意味セグメンテーションのための意味論的クラスプロトタイプ学習

Semantically Meaningful Class Prototype Learning for One-Shot Image Semantic Segmentation ( http://arxiv.org/abs/2102.10935v1 )

ライセンス: Link先を確認
Tao Chen, Guosen Xie, Yazhou Yao, Qiong Wang, Fumin Shen, Zhenmin Tang, and Jian Zhang(参考訳) ワンショットセマンティックイメージセグメンテーションは、1つの注釈付きイメージで新しいクラスのオブジェクト領域を分割することを目的としている。 最近の研究では、テスト時に予想される状況を模倣するために、エピソディクストレーニング戦略を採用している。 しかしながら、これらの既存のアプローチは、トレーニングプロセス中にテスト条件を厳密にシミュレートするので、与えられたラベル情報をフルに利用できない。 さらに、これらのアプローチは、主に前景と背景のターゲットクラスのセグメンテーション設定に焦点を当てます。 トレーニングにはバイナリマスクラベルのみを使用する。 本稿では,エピソディクス訓練において,マルチクラスラベル情報を活用することを提案する。 ネットワークが各カテゴリに対してより意味のある機能を生成するように促すだろう。 対象のクラスキューをクエリ機能に統合した後、最終的な分類器の融合特徴をマイニングするピラミッド特徴融合モジュールを提案します。 さらに,支援画像マスクペアをより活用するために,画像セグメンテーションをサポートする自己プロトタイプガイダンスブランチを提案する。 よりコンパクトな機能を生成するためにネットワークを制約し、セマンティッククラスごとに堅牢なプロトタイプを作成できる。 推測のために,クエリ画像のセグメンテーションのための融合プロトタイプガイダンスブランチを提案する。 具体的には,クエリ画像の予測を利用して疑似プロトタイプを抽出し,初期プロトタイプと組み合わせる。 次に,この融合プロトタイプを用いて,問合せ画像の最終セグメント化を導出する。 提案手法の優位性を,広範な実験で実証した。

One-shot semantic image segmentation aims to segment the object regions for the novel class with only one annotated image. Recent works adopt the episodic training strategy to mimic the expected situation at testing time. However, these existing approaches simulate the test conditions too strictly during the training process, and thus cannot make full use of the given label information. Besides, these approaches mainly focus on the foreground-backgroun d target class segmentation setting. They only utilize binary mask labels for training. In this paper, we propose to leverage the multi-class label information during the episodic training. It will encourage the network to generate more semantically meaningful features for each category. After integrating the target class cues into the query features, we then propose a pyramid feature fusion module to mine the fused features for the final classifier. Furthermore, to take more advantage of the support image-mask pair, we propose a self-prototype guidance branch to support image segmentation. It can constrain the network for generating more compact features and a robust prototype for each semantic class. For inference, we propose a fused prototype guidance branch for the segmentation of the query image. Specifically, we leverage the prediction of the query image to extract the pseudo-prototype and combine it with the initial prototype. Then we utilize the fused prototype to guide the final segmentation of the query image. Extensive experiments demonstrate the superiority of our proposed approach.
翻訳日:2021-02-23 14:44:04 公開日:2021-02-22
# RCoNet: 堅牢なCOVID-19検出のための変形可能な相互情報最大化と高階不確実性認識学習

RCoNet: Deformable Mutual Information Maximization and High-order Uncertainty-aware Learning for Robust COVID-19 Detection ( http://arxiv.org/abs/2102.11099v1 )

ライセンス: Link先を確認
Shunjie Dong and Qianqian Yang and Yu Fu and Mei Tian and Cheng Zhuo(参考訳) 2019年のコロナウイルス(COVID-19)感染は世界中に広まり、現在、世界中で大きな医療課題となっている。 胸部ct(ct)とx線画像は,臨床診断に有効な2つの手法として認識されている。 胸部X線(CXR)画像中のCOVID-19の検出はCTよりも高速で低コストであり, 診断, 評価, 治療に有用である。 しかし、covid-19と肺炎の類似性を考慮すると、カテゴリー境界付近に分布する深い特徴を持つcxrサンプルは、限られたトレーニングデータから学んだ超平面によって容易に誤分類される。 さらに、既存のCOVID-19検出のアプローチのほとんどは、予測の精度に焦点を当て、ノイズの多いデータセットを扱う際に特に重要である不確実性推定を見落としています。 これらの懸念を緩和するために、DeIM(Deim Deformable Mutual Information Maximization)、MMMF(Mhem Mixed High-order Moment Feature)、MUL(Multi-expert Uncertainty-aware Learning)を用いた、ロバストなCOVID-19検出のための新しいディープネットワークを提案する。 DeIMでは、入力データと対応する潜在表現との相互情報(MI)を適切に推定し、最大化し、コンパクトかつ非絡み合った表現特性をキャプチャすることができる。 一方、MHMFは高次統計を用いて、医用画像における複雑な分布の識別的特徴を抽出する利点を十分に探求することができる。 最後に、MULは、各CXR画像に対して複数の並列ドロップアウトネットワークを生成し、不確実性を評価し、データのノイズによる性能劣化を防止する。

The novel 2019 Coronavirus (COVID-19) infection has spread world widely and is currently a major healthcare challenge around the world. Chest Computed Tomography (CT) and X-ray images have been well recognized to be two effective techniques for clinical COVID-19 disease diagnoses. Due to faster imaging time and considerably lower cost than CT, detecting COVID-19 in chest X-ray (CXR) images is preferred for efficient diagnosis, assessment and treatment. However, considering the similarity between COVID-19 and pneumonia, CXR samples with deep features distributed near category boundaries are easily misclassified by the hyper-planes learned from limited training data. Moreover, most existing approaches for COVID-19 detection focus on the accuracy of prediction and overlook the uncertainty estimation, which is particularly important when dealing with noisy datasets. To alleviate these concerns, we propose a novel deep network named {\em RCoNet$^k_s$} for robust COVID-19 detection which employs {\em Deformable Mutual Information Maximization} (DeIM), {\em Mixed High-order Moment Feature} (MHMF) and {\em Multi-expert Uncertainty-aware Learning} (MUL). With DeIM, the mutual information (MI) between input data and the corresponding latent representations can be well estimated and maximized to capture compact and disentangled representational characteristics. Meanwhile, MHMF can fully explore the benefits of using high-order statistics and extract discriminative features of complex distributions in medical imaging. Finally, MUL creates multiple parallel dropout networks for each CXR image to evaluate uncertainty and thus prevent performance degradation caused by the noise in the data.
翻訳日:2021-02-23 14:43:41 公開日:2021-02-22
# 土地被覆分類のためのハイパースペクトル・マルチスペクトル画像からの部分空間的特徴融合

Subspace-Based Feature Fusion From Hyperspectral And Multispectral Image For Land Cover Classification ( http://arxiv.org/abs/2102.11228v1 )

ライセンス: Link先を確認
Juan Ram\'irez, H\'ector Vargas, Jos\'e Ignacio Mart\'inez, Henry Arguello(参考訳) リモートセンシングでは、データセットの解像度を改善する合成ツールとして、ハイパースペクトル(hs)とマルチスペクトル(ms)イメージ融合が登場している。 しかし,従来の画像融合法は,土地被覆分類の性能を低下させるのが一般的である。 本論文では, HS画像とMS画像の画素分類のための特徴融合法を提案する。 より正確には、まず形態素プロファイルを用いてms画像から空間的特徴を抽出する。 そして, 特徴融合モデルでは, 抽出した形態的プロファイルとHS画像の両方を, 異なる部分空間に有する特徴行列として記述できると仮定する。 特徴融合問題を効率的に解くために、交互最適化(AO)と乗算器の交互方向法(ADMM)を組み合わせたアルゴリズムを開発した。 最後に,2つのデータセットを対象とした機能融合手法の性能評価のために,広範なシミュレーションを行った。 一般に,提案手法は,他の特徴抽出法と比較して高い性能を示す。

In remote sensing, hyperspectral (HS) and multispectral (MS) image fusion have emerged as a synthesis tool to improve the data set resolution. However, conventional image fusion methods typically degrade the performance of the land cover classification. In this paper, a feature fusion method from HS and MS images for pixel-based classification is proposed. More precisely, the proposed method first extracts spatial features from the MS image using morphological profiles. Then, the feature fusion model assumes that both the extracted morphological profiles and the HS image can be described as a feature matrix lying in different subspaces. An algorithm based on combining alternating optimization (AO) and the alternating direction method of multipliers (ADMM) is developed to solve efficiently the feature fusion problem. Finally, extensive simulations were run to evaluate the performance of the proposed feature fusion approach for two data sets. In general, the proposed approach exhibits a competitive performance compared to other feature extraction methods.
翻訳日:2021-02-23 14:43:08 公開日:2021-02-22
# ディザコンピューティング:ハイブリッド決定論的確率コンピューティングフレームワーク

Dither computing: a hybrid deterministic-stocha stic computing framework ( http://arxiv.org/abs/2102.10732v1 )

ライセンス: Link先を確認
Chai Wah Wu(参考訳) 確率計算はコンピュータ上で演算を実行する代替方法として長い歴史を持つ。 それは実数の偏りのない推定値と考えることができるが、$\Omega(\frac{1}{N})$の順序で分散とMSEを持つ。 一方、確率計算の決定論的変種は確率的側面を除去するが、任意の精度で任意の実数を近似することはできない。 しかし、それらは$O(\frac{1}{N^2})$の順序で無症状に優れたMSEを持つ。 確率的丸めによるディープラーニングの最近の結果は、丸めのバイアスがパフォーマンスを低下させることを示唆している。 我々は,確率コンピューティングの側面とその決定論的変異を組み合わせ,同様の効率で計算を行え,バイアスがなく,分散とMSEも最適な$\Theta(\frac{1}{N^2})$で処理できるディザ・コンピューティング(Dither Computing)という別のフレームワークを提案した。 また、確率的丸めアプリケーションでも有益であることも示しています。 提案手法の利点を比較検討するために,実装の詳細と実験結果を提供する。

Stochastic computing has a long history as an alternative method of performing arithmetic on a computer. While it can be considered an unbiased estimator of real numbers, it has a variance and MSE on the order of $\Omega(\frac{1}{N})$. On the other hand, deterministic variants of stochastic computing remove the stochastic aspect, but cannot approximate arbitrary real numbers with arbitrary precision and are biased estimators. However, they have an asymptotically superior MSE on the order of $O(\frac{1}{N^2})$. Recent results in deep learning with stochastic rounding suggest that the bias in the rounding can degrade performance. We proposed an alternative framework, called dither computing, that combines aspects of stochastic computing and its deterministic variants and that can perform computing with similar efficiency, is unbiased, and with a variance and MSE also on the optimal order of $\Theta(\frac{1}{N^2})$. We also show that it can be beneficial in stochastic rounding applications as well. We provide implementation details and give experimental results to comparatively show the benefits of the proposed scheme.
翻訳日:2021-02-23 14:39:56 公開日:2021-02-22
# パスラッソペナル化オートエンコーダによる非線形, スパース次元の低減

Non-linear, Sparse Dimensionality Reduction via Path Lasso Penalized Autoencoders ( http://arxiv.org/abs/2102.10873v1 )

ライセンス: Link先を確認
Oskar Allerbo, Rebecka J\"ornsten(参考訳) 高次元データセットは、簡易な可視化と効率的な予測モデリングやクラスタリングを可能にする潜在低次元空間の構築を通じて、しばしば分析され、探求される。 複雑なデータ構造の場合、PCAのような線形次元削減技術は低次元表現を実現するのに十分な柔軟性がないかもしれない。 カーネルPCAやオートエンコーダのような非線形次元低減技術は、各潜伏変数が全ての入力次元に依存するため、解釈可能性を失う。 この制限に対処するため、ここではパスラッソペナルテッドオートエンコーダを紹介する。 この構造化正則化は、エンコーダを通る各パスを入力から潜在変数にペナライズすることで解釈性を高め、各潜在次元で表現される入力変数の数を制限する。 アルゴリズムは,群ラスソペナルティと非負行列分解を用いて,スパースで非線形な潜在表現を構築する。 我々はパスラッソ正規化オートエンコーダとpca,スパースpca,オートエンコーダ,スパースオートエンコーダを実データとシミュレーションデータで比較した。 このアルゴリズムは,低次元表現のためのスパースPCAやパラメータワイドラッソ正規化オートエンコーダよりもはるかに低い再構成誤差を示す。 さらに、パスラッソ表現はより正確な再構成マッチングを提供する。 元の空間と再建された空間の 物体間の相対距離を保存した

High-dimensional data sets are often analyzed and explored via the construction of a latent low-dimensional space which enables convenient visualization and efficient predictive modeling or clustering. For complex data structures, linear dimensionality reduction techniques like PCA may not be sufficiently flexible to enable low-dimensional representation. Non-linear dimension reduction techniques, like kernel PCA and autoencoders, suffer from loss of interpretability since each latent variable is dependent of all input dimensions. To address this limitation, we here present path lasso penalized autoencoders. This structured regularization enhances interpretability by penalizing each path through the encoder from an input to a latent variable, thus restricting how many input variables are represented in each latent dimension. Our algorithm uses a group lasso penalty and non-negative matrix factorization to construct a sparse, non-linear latent representation. We compare the path lasso regularized autoencoder to PCA, sparse PCA, autoencoders and sparse autoencoders on real and simulated data sets. We show that the algorithm exhibits much lower reconstruction errors than sparse PCA and parameter-wise lasso regularized autoencoders for low-dimensional representations. Moreover, path lasso representations provide a more accurate reconstruction match, i.e. preserved relative distance between objects in the original and reconstructed spaces.
翻訳日:2021-02-23 14:39:37 公開日:2021-02-22
# 学習型逆観測演算子による変動データ同化

Variational Data Assimilation with a Learned Inverse Observation Operator ( http://arxiv.org/abs/2102.11192v1 )

ライセンス: Link先を確認
Thomas Frerix, Dmitrii Kochkov, Jamie A. Smith, Daniel Cremers, Michael P. Brenner, Stephan Hoyer(参考訳) 変動データ同化は、その進化が観測データに適合するように、力学系の初期状態に最適化する。 物理モデルはその後、予測を行うために未来へと進化することができる。 この原理は、数値気象予測のような大規模予測応用の基礎である。 そのため、世界中の気象予報機関の現在の運用システムで実施されている。 しかし、良い初期状態を見つけることは、物理的状態とそれに対応する観測の間の非可逆的な関係のために、難しい最適化問題を引き起こす。 観測データから物理状態へのマッピングを学習し、最適化性を改善するためにどのように使用できるかを示す。 このマッピングは、非凸最適化問題をよりよく初期化し、観察空間ではなく、よりよく振る舞う物理空間で客観的関数を再構成する2つの方法を用いています。 lorenz96モデルと2次元乱流流の実験結果は, この手法がカオスシステムの予測品質を著しく改善することを示した。

Variational data assimilation optimizes for an initial state of a dynamical system such that its evolution fits observational data. The physical model can subsequently be evolved into the future to make predictions. This principle is a cornerstone of large scale forecasting applications such as numerical weather prediction. As such, it is implemented in current operational systems of weather forecasting agencies across the globe. However, finding a good initial state poses a difficult optimization problem in part due to the non-invertible relationship between physical states and their corresponding observations. We learn a mapping from observational data to physical states and show how it can be used to improve optimizability. We employ this mapping in two ways: to better initialize the non-convex optimization problem, and to reformulate the objective function in better behaved physics space instead of observation space. Our experimental results for the Lorenz96 model and a two-dimensional turbulent fluid flow demonstrate that this procedure significantly improves forecast quality for chaotic systems.
翻訳日:2021-02-23 14:39:15 公開日:2021-02-22
# 対向ロバスト重み付きフーバー回帰

Adversarial robust weighted Huber regression ( http://arxiv.org/abs/2102.11120v1 )

ライセンス: Link先を確認
Takeyuki Sasai and Hironori Fujisawa(参考訳) 出力と入力が悪意のある外れ値によって汚染された場合の線形回帰係数を推定する新しい手法を提案する。 i) 適切な重みを$\left\{\hat{w}_i\right\}_{i=1}^n$とすることで、回帰共変の重み付き標本平均が、回帰共変の人口平均を堅牢に推定し、(ii) プロセスフーバー回帰を $\left\{\hat{w}_i\right\}_{i=1}^n$ で推定する。 a) 回帰共変体が i.i.d の列であるとき 非ガウス分布から引き出された非ガウス分布と既知の同一性共分散と(b)ランダムノイズの絶対モーメントは有限であり、我々の手法はダイアコニコラス、コング、スチュワート (2019) やチェラパナムジェリらよりも高速な収束速度に達する。 (2020). さらに、この結果は、定数係数まで極小最適である。 a) 回帰共変体が i.i.d の列であるとき 未知の平均値と有界カルト症の重尾分布から引き出されたランダムベクトルと(b)ランダムノイズの絶対モーメントは有限であり、この手法は収束速度を達成し、定数係数まで最適である。

We propose a novel method to estimate the coefficients of linear regression when outputs and inputs are contaminated by malicious outliers. Our method consists of two-step: (i) Make appropriate weights $\left\{\hat{w}_i\right\}_{i=1}^n$ such that the weighted sample mean of regression covariates robustly estimates the population mean of the regression covariate, (ii) Process Huber regression using $\left\{\hat{w}_i\right\}_{i=1}^n$. When (a) the regression covariate is a sequence with i.i.d. random vectors drawn from sub-Gaussian distribution with unknown mean and known identity covariance and (b) the absolute moment of the random noise is finite, our method attains a faster convergence rate than Diakonikolas, Kong and Stewart (2019) and Cherapanamjeri et al. (2020). Furthermore, our result is minimax optimal up to constant factor. When (a) the regression covariate is a sequence with i.i.d. random vectors drawn from heavy tailed distribution with unknown mean and bounded kurtosis and (b) the absolute moment of the random noise is finite, our method attains a convergence rate, which is minimax optimal up to constant factor.
翻訳日:2021-02-23 14:39:02 公開日:2021-02-22
# 到達性解析を用いたニューラルネットワークコントローラの正解訓練

Provably Correct Training of Neural Network Controllers Using Reachability Analysis ( http://arxiv.org/abs/2102.10806v1 )

ライセンス: Link先を確認
Xiaowu Sun, Yasser Shoukry(参考訳) 本稿では,サイバーフィジカルシステム(cps)のためのニューラルネットワーク(nn)コントローラの安全性と動作特性を保証したトレーニング問題について考察する。 我々のアプローチは、動的システムのためのモデルベース設計手法とデータ駆動アプローチを組み合わせることで、この目標を達成することである。 力学系の数学的モデルを考えると、全ての可能なニューラルネットワークコントローラの下で閉ループの挙動を捉える有限状態抽象モデルを計算する。 この有限状態抽象モデルを用いて,安全要件を満たすことが保証されるNN重みのサブセットを特定する。 トレーニング中、NNウェイトプロジェクション演算子を用いて学習アルゴリズムを拡張し、NNが確実に安全であることを強制する。 提案手法では,生存特性を考慮した有限状態抽象モデルを用いて,生存特性を満たす可能性のあるnn重み候補を同定する。 提案フレームワークは,このようなnnの重み付けを用いてnnのトレーニングを偏り,ライブネス仕様を実現する。 上記の保証を達成することは、NNの表現力を制御するNNアーキテクチャの正確性保証なしには保証できない。 したがって、提案フレームワークの要となるのは、確実に正しいNNアーキテクチャを自動選択できる点である。

In this paper, we consider the problem of training neural network (NN) controllers for cyber-physical systems (CPS) that are guaranteed to satisfy safety and liveness properties. Our approach is to combine model-based design methodologies for dynamical systems with data-driven approaches to achieve this target. Given a mathematical model of the dynamical system, we compute a finite-state abstract model that captures the closed-loop behavior under all possible neural network controllers. Using this finite-state abstract model, our framework identifies the subset of NN weights that are guaranteed to satisfy the safety requirements. During training, we augment the learning algorithm with a NN weight projection operator that enforces the resulting NN to be provably safe. To account for the liveness properties, the proposed framework uses the finite-state abstract model to identify candidate NN weights that may satisfy the liveness properties. Using such candidate NN weights, the proposed framework biases the NN training to achieve the liveness specification. Achieving the guarantees above, can not be ensured without correctness guarantees on the NN architecture, which controls the NN's expressiveness. Therefore, and as a corner step in the proposed framework is the ability to select provably correct NN architectures automatically.
翻訳日:2021-02-23 14:33:22 公開日:2021-02-22
# ギャップセーフスクリーニングの境界の拡大

Expanding boundaries of Gap Safe screening ( http://arxiv.org/abs/2102.10846v1 )

ライセンス: Link先を確認
Cassio Dantas (IRIT-SC), Emmanuel Soubies (IRIT-SC), C\'edric F\'evotte (IRIT-SC)(参考訳) スパース最適化問題は、統計、信号/画像処理、機械学習など、多くの分野で普遍的です。 これにより、それらを解くための多くの反復アルゴリズムが誕生しました。 これらのアルゴリズムの性能を高める強力な戦略はセーフスクリーニング(Safe screening)と呼ばれ、ソリューション内のゼロ座標の早期同定を可能にし、問題のサイズを減らし収束を加速するために排除することができる。 本研究では,二元コスト関数に対するグローバルな強結合性仮定を緩和することにより,既存のギャップセーフスクリーニングフレームワークを拡張する。 その代わり、局所正規性、すなわちドメインの well-chosen 部分集合上の強い連続性を利用する。 非負の制約も既存のフレームワークに統合される。 ベータ・ダイバージェンス(例えば、Kulback-Leiblerの発散)を含む幅広い機能に対して安全なスクリーニングを可能にすることに加えて、提案されたアプローチは、以前に適用されたケース(例えば、ロジスティック回帰)における既存のGap Safeスクリーニングルールを改善する。 提案された一般的なフレームワークは、ロジスティック関数、beta = 1.5、kullback-leibler divergencesといった特別なケースで例示されている。 最後に,異なる解法(座標降下法,乗法更新法,近距離勾配法)と異なるデータセット(バイナリ分類,ハイパースペクトル法,カウント法)を用いたスクリーニングルールの有効性を示す。

Sparse optimization problems are ubiquitous in many fields such as statistics, signal/image processing and machine learning. This has led to the birth of many iterative algorithms to solve them. A powerful strategy to boost the performance of these algorithms is known as safe screening: it allows the early identification of zero coordinates in the solution, which can then be eliminated to reduce the problem's size and accelerate convergence. In this work, we extend the existing Gap Safe screening framework by relaxing the global strong-concavity assumption on the dual cost function. Instead, we exploit local regularity properties, that is, strong concavity on well-chosen subsets of the domain. The non-negativity constraint is also integrated to the existing framework. Besides making safe screening possible to a broader class of functions that includes beta-divergences (e.g., the Kullback-Leibler divergence), the proposed approach also improves upon the existing Gap Safe screening rules on previously applicable cases (e.g., logistic regression). The proposed general framework is exemplified by some notable particular cases: logistic function, beta = 1.5 and Kullback-Leibler divergences. Finally, we showcase the effectiveness of the proposed screening rules with different solvers (coordinate descent, multiplicative-updat e and proximal gradient algorithms) and different data sets (binary classification, hyperspectral and count data).
翻訳日:2021-02-23 14:33:05 公開日:2021-02-22
# モデル予測制御における予測地平線の強化学習

Reinforcement Learning of the Prediction Horizon in Model Predictive Control ( http://arxiv.org/abs/2102.11122v1 )

ライセンス: Link先を確認
Eivind B{\o}hn, Sebastien Gros, Signe Moe, Tor Arne Johansen(参考訳) モデル予測制御(MPC)は、システムの制約を尊重しつつ複雑な非線形システムを制御し、安全な運転を確保することができる強力な軌道最適化制御技術である。 MPCの能力は、高いオンライン計算の複雑さ、システムのダイナミクスの正確なモデルの要件、および特定の制御アプリケーションにパラメータを調整する必要性のコストが伴います。 計算複雑性に影響を与える主な調整可能なパラメータは予測水平長であり、MPCがシステム応答を予測するまでの距離を制御し、計算された軌道の最適性を評価する。 より長い地平線は一般に制御性能を向上させるが、特定の制御アプリケーションを除いて、より強力なコンピューティングプラットフォームを必要とし、予測地平線長に対する性能感度は状態空間によって異なるため、いくつかの基準に従って予測地平線を適応する適応地平線モデル予測制御(AHMPC)が動機付けられる。 本稿では,強化学習(RL)を用いて状態の関数として最適予測地平線を学習することを提案する。 RL学習の問題をどのように定式化し、2つの制御タスクでテストし、固定地平線MPCスキームよりも明確な改善を示しながら、わずか数分の学習を必要とします。

Model predictive control (MPC) is a powerful trajectory optimization control technique capable of controlling complex nonlinear systems while respecting system constraints and ensuring safe operation. The MPC's capabilities come at the cost of a high online computational complexity, the requirement of an accurate model of the system dynamics, and the necessity of tuning its parameters to the specific control application. The main tunable parameter affecting the computational complexity is the prediction horizon length, controlling how far into the future the MPC predicts the system response and thus evaluates the optimality of its computed trajectory. A longer horizon generally increases the control performance, but requires an increasingly powerful computing platform, excluding certain control applications.The performance sensitivity to the prediction horizon length varies over the state space, and this motivated the adaptive horizon model predictive control (AHMPC), which adapts the prediction horizon according to some criteria. In this paper we propose to learn the optimal prediction horizon as a function of the state using reinforcement learning (RL). We show how the RL learning problem can be formulated and test our method on two control tasks, showing clear improvements over the fixed horizon MPC scheme, while requiring only minutes of learning.
翻訳日:2021-02-23 14:32:41 公開日:2021-02-22
# 持続的連合学習

Sustainable Federated Learning ( http://arxiv.org/abs/2102.11274v1 )

ライセンス: Link先を確認
Basak Guler, Aylin Yener(参考訳) 大規模無線ネットワークによる機械学習の潜在的環境影響は、将来のスマートエコシステムの持続可能性にとって大きな課題である。 本稿では,環境環境からエネルギーを収集できる充電可能なデバイスを用いて,連合学習環境における持続的機械学習を提案する。 本稿では,間欠的なエネルギー到着を訓練に活用する実践的なフェデレート学習フレームワークを提案する。 我々のフレームワークは、無線およびエッジネットワークにおける分散学習やフェデレーション学習を含む、ネットワーク環境における幅広い機械学習設定に適用できる。 実験により,提案フレームワークは,ベンチマークのエネルギー非依存なフェデレーション学習環境よりも,大幅なパフォーマンス向上を実現することを実証した。

Potential environmental impact of machine learning by large-scale wireless networks is a major challenge for the sustainability of future smart ecosystems. In this paper, we introduce sustainable machine learning in federated learning settings, using rechargeable devices that can collect energy from the ambient environment. We propose a practical federated learning framework that leverages intermittent energy arrivals for training, with provable convergence guarantees. Our framework can be applied to a wide range of machine learning settings in networked environments, including distributed and federated learning in wireless and edge networks. Our experiments demonstrate that the proposed framework can provide significant performance improvement over the benchmark energy-agnostic federated learning settings.
翻訳日:2021-02-23 14:32:20 公開日:2021-02-22
# (参考訳) Sim-Env:OpenAIジム環境をシミュレーションモデルから分離 [全文訳有]

Sim-Env: Decoupling OpenAI Gym Environments from Simulation Models ( http://arxiv.org/abs/2102.09824v2 )

ライセンス: CC BY 4.0
Andreas Schuderer (1 and 2), Stefano Bromuri (1) and Marko van Eekelen (1 and 3) ((1) Open University of the Netherlands, (2) APG Algemene Pensioen Groep N.V., (3) Radboud University)(参考訳) 強化学習(RL)は、AI研究の最も活発な分野の1つです。 強化学習における研究コミュニティの関心にもかかわらず、開発方法論はいまだに遅れており、RLアプリケーションの開発を促進するための標準APIが不足している。 OpenAI GymはおそらくRLアプリケーションやシミュレーションを開発するのに最も使用される環境ですが、そのようなフレームワークで提案された抽象化のほとんどは、まだ半構造化された方法論を想定しています。 これは、シミュレーションで自己学習エージェントによって表示される適応行動を分析することを目的としているエージェントベースのモデルに特に関連します。 このギャップを埋めるために、我々は、多目的エージェントベースのモデルと派生した単一目的強化学習環境の分離開発と保守のためのワークフローとツールを提示し、基礎となるドメインモデルを無傷で分離しながら、研究者が異なる視点または異なる報酬モデルを表す環境を交換できるようにします。 Sim-Env Pythonライブラリは、既存のまたは目的に作成されたドメインモデルをシミュレーションバックエンドとして使用するOpenAI-Gym互換の強化学習環境を生成する。 その設計は使いやすさ、モジュール性、コード分離を強調している。

Reinforcement learning (RL) is one of the most active fields of AI research. Despite the interest demonstrated by the research community in reinforcement learning, the development methodology still lags behind, with a severe lack of standard APIs to foster the development of RL applications. OpenAI Gym is probably the most used environment to develop RL applications and simulations, but most of the abstractions proposed in such a framework are still assuming a semi-structured methodology. This is particularly relevant for agent-based models whose purpose is to analyse adaptive behaviour displayed by self-learning agents in the simulation. In order to bridge this gap, we present a workflow and tools for the decoupled development and maintenance of multi-purpose agent-based models and derived single-purpose reinforcement learning environments, enabling the researcher to swap out environments with ones representing different perspectives or different reward models, all while keeping the underlying domain model intact and separate. The Sim-Env Python library generates OpenAI-Gym-compatibl e reinforcement learning environments that use existing or purposely created domain models as their simulation back-ends. Its design emphasizes ease-of-use, modularity and code separation.
翻訳日:2021-02-23 12:18:21 公開日:2021-02-22
# (参考訳) 対数時間におけるガウス過程回帰 [全文訳有]

Gaussian Process Regression in Logarithmic Time ( http://arxiv.org/abs/2102.09964v2 )

ライセンス: CC BY 4.0
Adrien Corenflos, Zheng Zhao, Simo S\"arkk\"a(参考訳) 本稿では,時間的ガウス過程(GP)回帰問題に対する新しい並列化手法を提案する。 この方法では、対数 $o(\log n)$ time でgp回帰問題を解くことができ、ここで $n$ は時間ステップの数である。 提案手法では,Kalmanフィルタおよび平滑化手法を利用して,線形な$O(N)$時間GP回帰を可能にするGPの状態空間表現を用いる。 近年提案されているベイズフィルタとスムーザの並列化手法を用いることで、kalmanフィルタの線形計算複雑性を低減し、gp回帰問題に対するより滑らかな解を対数スパン複雑性に還元し、gpu(graphics processing unit)のような並列ハードウェアに実装した場合に対数時間複雑性に変換できる。 GPflowフレームワークを利用したオープンソース実装により,シミュレーションおよび実データセットの計算効果を実験的に実証した。

The aim of this article is to present a novel parallelization method for temporal Gaussian process (GP) regression problems. The method allows for solving GP regression problems in logarithmic $O(\log N)$ time, where $N$ is the number of time steps. Our approach uses the state-space representation of GPs which in its original form allows for linear $O(N)$ time GP regression by leveraging the Kalman filtering and smoothing methods. By using a recently proposed parallelization method for Bayesian filters and smoothers, we are able to reduce the linear computational complexity of the Kalman filter and smoother solutions to the GP regression problems into logarithmic span complexity, which transforms into logarithm time complexity when implemented in parallel hardware such as a graphics processing unit (GPU). We experimentally demonstrate the computational benefits one simulated and real datasets via our open-source implementation leveraging the GPflow framework.
翻訳日:2021-02-23 12:15:06 公開日:2021-02-22
# (参考訳) Farasa Segmentation と AraBERT を用いたナンスアラビアつぶやきの方言識別 [全文訳有]

Dialect Identification in Nuanced Arabic Tweets Using Farasa Segmentation and AraBERT ( http://arxiv.org/abs/2102.09749v2 )

ライセンス: CC BY 4.0
Anshul Wadhawan(参考訳) 本稿では,EACL WANLP-2021 Shared Task 1: Nuanced Arabic Dialect Identification (NADI) へのアプローチについて述べる。 この課題は、現代の標準アラビア語や方言の形でアラビア語のつぶやきが発せられる場所(国・地域)を識別するシステムを開発することを目的としている。 私たちはその仕事を2つの部分で解決する。 第1部は、テキストの様々な部分をクリーニング、追加、セグメンテーションすることにより、提供されたデータセットを前処理することを含む。 その後、2つのTransformerベースのモデルであるAraBERTとAraELECTRAの異なるバージョンで実験が行われた。 最終アプローチは4つのサブタスクにおいて0.216, 0.235, 0.054, 0.043のマクロF1スコアを獲得し, MSA識別サブタスクでは2位, DA識別サブタスクでは4位となった。

This paper presents our approach to address the EACL WANLP-2021 Shared Task 1: Nuanced Arabic Dialect Identification (NADI). The task is aimed at developing a system that identifies the geographical location(country/pro vince) from where an Arabic tweet in the form of modern standard Arabic or dialect comes from. We solve the task in two parts. The first part involves pre-processing the provided dataset by cleaning, adding and segmenting various parts of the text. This is followed by carrying out experiments with different versions of two Transformer based models, AraBERT and AraELECTRA. Our final approach achieved macro F1-scores of 0.216, 0.235, 0.054, and 0.043 in the four subtasks, and we were ranked second in MSA identification subtasks and fourth in DA identification subtasks.
翻訳日:2021-02-23 11:41:00 公開日:2021-02-22
# 意外と少ないサンプルで止まることを学ぶ

Learning to Stop with Surprisingly Few Samples ( http://arxiv.org/abs/2102.10025v2 )

ライセンス: Link先を確認
Daniel Russo, Assaf Zeevi, Tianyi Zhang(参考訳) 我々は、無限の地平線最適停止問題を考える。 根底にある分布が事前に知られている場合、この問題の解は動的プログラミング(DP)を介して得られ、よく知られたしきい値の規則によって与えられる。 この分布に関する情報が欠如している場合、自然(素朴な)アプローチは「探索と探索」(explore-then-exploi t)であり、未知の分布またはそのパラメータが初期探索段階にわたって推定され、この推定はDPで残存搾取段階に対する行動を決定するのに用いられる。 i)適切なチューニングを行うと、この手法はフルインフォメーションdpソリューションに匹敵するパフォーマンスをもたらす。(ii) 推定誤差の伝播によるdpにおけるこのような「プラグイン」アプローチの感度に関する一般的な知識にもかかわらず、驚くほどの「短い」(地平線の対数)探索地平線が、そのパフォーマンスを得るために十分である。 根底にある分布が重尾な場合、これらの観測はより顕著である:${\it single \, sample}$ 探索位相は十分である。

We consider a discounted infinite horizon optimal stopping problem. If the underlying distribution is known a priori, the solution of this problem is obtained via dynamic programming (DP) and is given by a well known threshold rule. When information on this distribution is lacking, a natural (though naive) approach is "explore-then-exploit ," whereby the unknown distribution or its parameters are estimated over an initial exploration phase, and this estimate is then used in the DP to determine actions over the residual exploitation phase. We show: (i) with proper tuning, this approach leads to performance comparable to the full information DP solution; and (ii) despite common wisdom on the sensitivity of such "plug in" approaches in DP due to propagation of estimation errors, a surprisingly "short" (logarithmic in the horizon) exploration horizon suffices to obtain said performance. In cases where the underlying distribution is heavy-tailed, these observations are even more pronounced: a ${\it single \, sample}$ exploration phase suffices.
翻訳日:2021-02-23 11:33:27 公開日:2021-02-22
# 上肢X線における自己検出半監督異常検出

Self-Taught Semi-Supervised Anomaly Detection on Upper Limb X-rays ( http://arxiv.org/abs/2102.09895v2 )

ライセンス: Link先を確認
Antoine Spahr, Behzad Bozorgtabar, Jean-Philippe Thiran(参考訳) 筋骨格x線写真における異常の検出は, 放射線検査における大規模スクリーニングにおいて重要である。 監視された深層ネットワークは、放射線学者によって多くのアノテーションが与えられており、しばしば取得するのに非常に時間がかかります。 さらに、監視されたシステムはクローズドセットのシナリオに合わせて調整される。例えば、トレーニングされたモデルは、トレーニングで以前に見たことのあるまれな異常にオーバーフィットする。 代わりに、我々のアプローチの理論的根拠は、タスク非依存のプレテキストタスクを使用して、クロスサンプル類似度尺度に基づくラベルなしデータを活用することである。 さらに, フレームワーク内の正規クラスからのデータの複雑な分布を定式化し, 異常側の潜在的なバイアスを回避する。 広範な実験により,本手法は,現実世界の医療データセットである村データセットにおける非監視および自己監視の異常検出設定のベースラインを上回っていることを示した。 また,各トレーニングステージの効果と損失条件が最終パフォーマンスに与える影響を分析するために,豊富なアブレーション研究を行った。

Detecting anomalies in musculoskeletal radiographs is of paramount importance for large-scale screening in the radiology workflow. Supervised deep networks take for granted a large number of annotations by radiologists, which is often prohibitively very time-consuming to acquire. Moreover, supervised systems are tailored to closed set scenarios, e.g., trained models suffer from overfitting to previously seen rare anomalies at training. Instead, our approach's rationale is to use task agnostic pretext tasks to leverage unlabeled data based on a cross-sample similarity measure. Besides, we formulate a complex distribution of data from normal class within our framework to avoid a potential bias on the side of anomalies. Through extensive experiments, we show that our method outperforms baselines across unsupervised and self-supervised anomaly detection settings on a real-world medical dataset, the MURA dataset. We also provide rich ablation studies to analyze each training stage's effect and loss terms on the final performance.
翻訳日:2021-02-23 11:33:05 公開日:2021-02-22