このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201116となっている論文です。

PDF登録状況(公開日: 20201116)

TitleAuthorsAbstract論文公表日・翻訳日
# CNNデノイザと非局所フィルタのニューラルタンジェントリンク

The Neural Tangent Link Between CNN Denoisers and Non-Local Filters ( http://arxiv.org/abs/2006.02379v4 )

ライセンス: Link先を確認
Juli\'an Tachella and Junqi Tang and Mike Davies(参考訳) 畳み込みニューラルネットワーク(cnns)は現在、計算画像問題を解決するための確立されたツールである。 現代のCNNベースのアルゴリズムは、様々な画像復元問題において最先端の性能を得る。 さらに、高度に過小評価されているにもかかわらず、単一の破損した画像で訓練されたネットワークは、完全に訓練されたネットワークと同様に機能することが最近示されている。 我々は,そのようなネットワーク間の形式的リンクとして,神経接核 (ntk) と非局所的手段やbm3dなどの非局所的フィルタリング技術を導入する。 与えられたネットワークアーキテクチャに関連するフィルタリング関数は、ネットワークのトレーニングを必要とせずにクローズド形式で得ることができ、ネットワーク重みのランダムな初期化によって完全に特徴付けられる。 NTK理論は、標準勾配降下法を用いてトレーニングされたネットワークに関連するフィルタを正確に予測するが、一般的なAdamオプティマイザを用いてトレーニングしたネットワークの動作を説明するには不十分であることを示す。 後者は、非局所フィルタリング機能をトレーニング中に適応させ、隠れた層における重みの変化を大きくする。 本研究は広範囲な画像復調実験により評価した。

Convolutional Neural Networks (CNNs) are now a well-established tool for solving computational imaging problems. Modern CNN-based algorithms obtain state-of-the-art performance in diverse image restoration problems. Furthermore, it has been recently shown that, despite being highly overparameterized, networks trained with a single corrupted image can still perform as well as fully trained networks. We introduce a formal link between such networks through their neural tangent kernel (NTK), and well-known non-local filtering techniques, such as non-local means or BM3D. The filtering function associated with a given network architecture can be obtained in closed form without need to train the network, being fully characterized by the random initialization of the network weights. While the NTK theory accurately predicts the filter associated with networks trained using standard gradient descent, our analysis shows that it falls short to explain the behaviour of networks trained using the popular Adam optimizer. The latter achieves a larger change of weights in hidden layers, adapting the non-local filtering function during training. We evaluate our findings via extensive image denoising experiments.
翻訳日:2022-11-25 18:37:34 公開日:2020-11-16
# 連続状態と行動MDPのためのランダム化政策学習

Randomized Policy Learning for Continuous State and Action MDPs ( http://arxiv.org/abs/2006.04331v2 )

ライセンス: Link先を確認
Hiteshi Sharma and Rahul Jain(参考訳) 深層強化学習法は、ビデオゲームから移動まで、様々な挑戦的な高次元領域において最先端の結果を得た。 成功の鍵は、ポリシーと価値関数を近似するために使用されるディープニューラルネットワークの使用である。 しかし、適切な結果を得るためには重みの調整が必要となる。 代わりにランダム化関数近似を用いる。 このようなネットワークは、完全接続ネットワークのトレーニングよりも安価であるだけでなく、数値性能も向上している。 本稿では,連続状態と動作空間を持つmdpのための一般化ポリシー反復アルゴリズムである \texttt{randpol} を提案する。 ポリシーと値関数はどちらもランダムネットワークで表現される。 また,アルゴリズムの性能を有限時間に保証する。 次に,課題環境における数値的性能を示し,ディープニューラルネットワークに基づくアルゴリズムと比較する。

Deep reinforcement learning methods have achieved state-of-the-art results in a variety of challenging, high-dimensional domains ranging from video games to locomotion. The key to success has been the use of deep neural networks used to approximate the policy and value function. Yet, substantial tuning of weights is required for good results. We instead use randomized function approximation. Such networks are not only cheaper than training fully connected networks but also improve the numerical performance. We present \texttt{RANDPOL}, a generalized policy iteration algorithm for MDPs with continuous state and action spaces. Both the policy and value functions are represented with randomized networks. We also give finite time guarantees on the performance of the algorithm. Then we show the numerical performance on challenging environments and compare them with deep neural network based algorithms.
翻訳日:2022-11-23 23:55:47 公開日:2020-11-16
# 産業用ワイヤレスセンシングのための大型インテリジェントサーフェス(lis)のプライマー

A Primer on Large Intelligent Surface (LIS) for Wireless Sensing in an Industrial Setting ( http://arxiv.org/abs/2006.06563v3 )

ライセンス: Link先を確認
Cristian J. Vaca-Rubio, Pablo Ramirez-Espinosa, Robin Jess Williams, Kimmo Kansanen, Zheng-Hua Tan, Elisabeth de Carvalho and Petar Popovski(参考訳) しばしば強調される5Gを超える発展の1つは、無線通信と無線センシングの統合である。 本稿では,Large Intelligent Surfaces (LIS) の通信センシング統合の可能性について述べる。 無線リンクのスループットと効率的な多重化の可能性に加えて、LISは伝搬環境の高解像度レンダリングを提供することができる。 これは、屋内では感知された現象に近接して配置できるが、高分解能は広い範囲に配置された密集した小さなアンテナによって提供されるためである。 LISを環境の無線画像として扱うことにより,コンピュータビジョンと機械学習を併用したセンシング技術を開発した。 我々は,産業用ロボットが事前に定義された経路から逸脱するかどうかを検出するシナリオとして,これらの手法を検証した。 その結果, LISをベースとしたセンシングは高精度で, 屋内の産業環境にも適用可能性が高いことがわかった。

One of the beyond-5G developments that is often highlighted is the integration of wireless communication and radio sensing. This paper addresses the potential of communication-sensing integration of Large Intelligent Surfaces (LIS) in an exemplary Industry 4.0 scenario. Besides the potential for high throughput and efficient multiplexing of wireless links, an LIS can offer a high-resolution rendering of the propagation environment. This is because, in an indoor setting, it can be placed in proximity to the sensed phenomena, while the high resolution is offered by densely spaced tiny antennas deployed over a large area. By treating an LIS as a radio image of the environment, we develop sensing techniques that leverage the usage of computer vision combined with machine learning. We test these methods for a scenario where we need to detect whether an industrial robot deviates from a predefined route. The results show that the LIS-based sensing offers high precision and has a high application potential in indoor industrial environments.
翻訳日:2022-11-22 13:31:48 公開日:2020-11-16
# 深層強化とインフォマックス学習

Deep Reinforcement and InfoMax Learning ( http://arxiv.org/abs/2006.07217v3 )

ライセンス: Link先を確認
Bogdan Mazoure, Remi Tachet des Combes, Thang Doan, Philip Bachman, R Devon Hjelm(参考訳) 我々は、表現が将来の状態(期待される報酬に加えて)の性質を予測できるモデルフリーエージェントは、新しいRL問題に解き、適応する能力が高いという仮説から始める。 この仮説を検証するために、エージェントが連続した時間ステップの内部表現間の相互情報を最大化し、未来を予測するよう訓練するDeep InfoMax(DIM)に基づく目的を導入する。 提案手法をいくつかの合成条件で検証し,将来予測可能な表現の学習に成功した。 最後に,強力なRLベースラインであるC51を時間的DIM目標で拡張し,連続学習タスクと最近導入されたProcgen環境の性能向上を実証する。

We begin with the hypothesis that a model-free agent whose representations are predictive of properties of future states (beyond expected rewards) will be more capable of solving and adapting to new RL problems. To test that hypothesis, we introduce an objective based on Deep InfoMax (DIM) which trains the agent to predict the future by maximizing the mutual information between its internal representation of successive timesteps. We test our approach in several synthetic settings, where it successfully learns representations that are predictive of the future. Finally, we augment C51, a strong RL baseline, with our temporal DIM objective and demonstrate improved performance on a continual learning task and on the recently introduced Procgen environment.
翻訳日:2022-11-22 02:48:25 公開日:2020-11-16
# 1000時間と1時間:自動運転モーション予測データセット

One Thousand and One Hours: Self-driving Motion Prediction Dataset ( http://arxiv.org/abs/2006.14480v2 )

ライセンス: Link先を確認
John Houston, Guido Zuidhof, Luca Bergamini, Yawei Ye, Long Chen, Ashesh Jain, Sammy Omari, Vladimir Iglovikov, Peter Ondruska(参考訳) 大規模なデータセットがMLシステムに与える影響に触発されて、これまでに1000時間以上のデータを含む、動作予測のための最大の自動運転データセットを提示しました。 これはカリフォルニア州パロアルトの固定ルートに沿って4ヶ月にわたって20台の自動運転車によって収集された。 このシーンは170,000シーンで構成され、各シーンが25秒の長さで、近くの車、自転車、歩行者の正確な位置と動きをエンコードする自動運転システムの知覚出力をキャプチャする。 これに加えて、データセットには15,242個のラベル付き要素と、その領域を横断する高解像度の空中ビューがある。 このサイズのデータセットを使用することで、重要な自動運転問題のパフォーマンスが劇的に向上することを示す。 提供されるソフトウェアキットと組み合わせることで、このコレクションは、モーション予測、モーション計画、シミュレーションなどの自動運転機械学習タスクの開発において、これまでで最大かつ最も詳細なデータセットを形成する。 完全なデータセットはhttp://level5.lyft.com/で入手できる。

Motivated by the impact of large-scale datasets on ML systems we present the largest self-driving dataset for motion prediction to date, containing over 1,000 hours of data. This was collected by a fleet of 20 autonomous vehicles along a fixed route in Palo Alto, California, over a four-month period. It consists of 170,000 scenes, where each scene is 25 seconds long and captures the perception output of the self-driving system, which encodes the precise positions and motions of nearby vehicles, cyclists, and pedestrians over time. On top of this, the dataset contains a high-definition semantic map with 15,242 labelled elements and a high-definition aerial view over the area. We show that using a dataset of this size dramatically improves performance for key self-driving problems. Combined with the provided software kit, this collection forms the largest and most detailed dataset to date for the development of self-driving machine learning tasks, such as motion forecasting, motion planning and simulation. The full dataset is available at http://level5.lyft.com/.
翻訳日:2022-11-17 03:47:46 公開日:2020-11-16
# 深層ニューラルネットワークを用いた勾配型メタラーニングのグローバル収束と一般化

Global Convergence and Generalization Bound of Gradient-Based Meta-Learning with Deep Neural Nets ( http://arxiv.org/abs/2006.14606v2 )

ライセンス: Link先を確認
Haoxiang Wang, Ruoyu Sun, Bo Li(参考訳) ディープニューラルネット(DNN)を備えたグラディエントベースメタラーニング(GBML)は、数ショット学習において一般的なアプローチとなっている。 しかし、DNNの非凸性とGBMLの双レベル最適化のため、GBMLとDNNの理論的性質はほとんど不明である。 本稿では,まず,dnnを用いたgbmlはグローバル収束保証を持つか,という疑問に答えることを目的とする。 我々は、過パラメータDNNを持つGBMLが線形速度でグローバル最適に収束することが保証されていることを証明して、この問題に対する肯定的な回答を提供する。 GBMLは、過去のタスクでの経験を持つ新しいタスクへの迅速な適応をどのように達成しますか? 理論的には,GBMLは,過去のタスクから新しいタスクへの経験を明示的に伝達する関数勾配降下演算と等価であることを示し,その上で,過パラメータDNNによるGBMLの一般化誤差を証明した。

Gradient-based meta-learning (GBML) with deep neural nets (DNNs) has become a popular approach for few-shot learning. However, due to the non-convexity of DNNs and the bi-level optimization in GBML, the theoretical properties of GBML with DNNs remain largely unknown. In this paper, we first aim to answer the following question: Does GBML with DNNs have global convergence guarantees? We provide a positive answer to this question by proving that GBML with over-parameterized DNNs is guaranteed to converge to global optima at a linear rate. The second question we aim to address is: How does GBML achieve fast adaption to new tasks with prior experience on past tasks? To answer it, we theoretically show that GBML is equivalent to a functional gradient descent operation that explicitly propagates experience from the past tasks to new ones, and then we prove a generalization error bound of GBML with over-parameterized DNNs.
翻訳日:2022-11-17 03:21:59 公開日:2020-11-16
# robo-gym - 実・模擬ロボットによる分散深層強化学習用オープンソースツールキット

robo-gym -- An Open Source Toolkit for Distributed Deep Reinforcement Learning on Real and Simulated Robots ( http://arxiv.org/abs/2007.02753v2 )

ライセンス: Link先を確認
Matteo Lucchi, Friedemann Zindler, Stephan M\"uhlbacher-Karrer, Horst Pichler(参考訳) 近年,ロボット工学の分野における複雑なタスクにDeep Reinforcement Learning (DRL)を適用することに成功している。 しかし、ほとんどの出版物は、シミュレーションのタスクに適用するか、現実のセットアップでタスクに適用することに焦点を当てている。 トランスファー学習の助けを借りて2つの世界を組み合わせる素晴らしい例がありますが、セットアップを効果的にするために、多くの追加作業と微調整が必要になります。 実ロボットとのDRL利用を向上し,シミュレーションと実世界のロボット工学のギャップを減らすために,オープンソースのツールキットRobo-gymを提案する。 シミュレーションにおけるトレーニングからロボットへのシームレスな移動を可能にするシミュレーション環境と実環境の統一的なセットアップを実証する。 本稿では,産業用ロボットとロボットアームの2つの実世界のアプリケーションを用いて,このフレームワークの能力と有効性を示す。 フレームワークの分散機能により、分散アルゴリズムの使用、異なる物理マシン上でのシミュレーションとトレーニングのワークロードの分離、シミュレーションと実世界のトレーニングを同時に行う将来の機会など、いくつかのメリットが期待できる。 最後に、Robo-gymを他のよく使われている最先端のDRLフレームワークと比較する。

Applying Deep Reinforcement Learning (DRL) to complex tasks in the field of robotics has proven to be very successful in the recent years. However, most of the publications focus either on applying it to a task in simulation or to a task in a real world setup. Although there are great examples of combining the two worlds with the help of transfer learning, it often requires a lot of additional work and fine-tuning to make the setup work effectively. In order to increase the use of DRL with real robots and reduce the gap between simulation and real world robotics, we propose an open source toolkit: robo-gym. We demonstrate a unified setup for simulation and real environments which enables a seamless transfer from training in simulation to application on the robot. We showcase the capabilities and the effectiveness of the framework with two real world applications featuring industrial robots: a mobile robot and a robot arm. The distributed capabilities of the framework enable several advantages like using distributed algorithms, separating the workload of simulation and training on different physical machines as well as enabling the future opportunity to train in simulation and real world at the same time. Finally we offer an overview and comparison of robo-gym with other frequently used state-of-the-art DRL frameworks.
翻訳日:2022-11-13 02:17:45 公開日:2020-11-16
# GGPONC : 臨床実習ガイドラインに基づく豊富なメタデータを持つドイツの医用テキストコーパス

GGPONC: A Corpus of German Medical Text with Rich Metadata Based on Clinical Practice Guidelines ( http://arxiv.org/abs/2007.06400v2 )

ライセンス: Link先を確認
Florian Borchert, Christina Lohr, Luise Modersohn, Thomas Langer, Markus Follmann, Jan Philipp Sachs, Udo Hahn and Matthieu-P. Schapranow(参考訳) 公開されているテキストコーパスの欠如は、自然言語処理の進歩の大きな障害である。 医療分野では、残念ながら英語以外の言語コミュニティは低リソースである。 本稿では,臨床ガイドラインに基づいた自由に配布可能なドイツ語コーパスであるggponc (german guideline program in oncology nlp corpus) を提案する。 このコーパスは、ドイツの医療文書から作られた中で最大のものである。 臨床文書とは異なり、臨床ガイドラインには患者に関連する情報が含まれておらず、したがってデータ保護の制限なしに使用できる。 さらに、GGPONCは、大きな医療分野における様々な条件をカバーし、文献参照やエビデンスレベルなどの様々なメタデータを提供する、ドイツの最初のコーパスである。 既存のドイツ語テキストの医療情報抽出パイプラインを適用・評価することにより、他のコーパス、医療、非医療用と医療用言語の使用の比較を行うことができる。

The lack of publicly accessible text corpora is a major obstacle for progress in natural language processing. For medical applications, unfortunately, all language communities other than English are low-resourced. In this work, we present GGPONC (German Guideline Program in Oncology NLP Corpus), a freely distributable German language corpus based on clinical practice guidelines for oncology. This corpus is one of the largest ever built from German medical documents. Unlike clinical documents, clinical guidelines do not contain any patient-related information and can therefore be used without data protection restrictions. Moreover, GGPONC is the first corpus for the German language covering diverse conditions in a large medical subfield and provides a variety of metadata, such as literature references and evidence levels. By applying and evaluating existing medical information extraction pipelines for German text, we are able to draw comparisons for the use of medical language to other corpora, medical and non-medical ones.
翻訳日:2022-11-11 00:00:10 公開日:2020-11-16
# squeezefaceposenet:モバイルプラットフォーム用のさまざまなポーズにわたる軽量顔認証

SqueezeFacePoseNet: Lightweight Face Verification Across Different Poses for Mobile Platforms ( http://arxiv.org/abs/2007.08566v2 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Javier Barrachina, Kevin Hernandez-Diaz, Josef Bigun(参考訳) モバイルプラットフォーム経由での仮想アプリケーションは、ユビキタスでリアルタイムな個人認証がモバイルデバイス経由で提供されるすべてのサービスの突破口となったAIにおいて、最も重要で成長を続ける分野の1つだ。 このコンテキストにおいて、顔認証技術は、これらのデバイスでカメラが利用できることや、日々のアプリケーションで広く使われていることを考えると、信頼性が高く堅牢なユーザー認証を提供することができる。 深層畳み込みニューラルネットワークの急速な発展は、多くの正確な顔検証アーキテクチャを生み出した。 しかし、それらの典型的サイズ(数十メガバイト)は、ファイル全体が通常100mbを超えない可能性のあるダウンロード可能なモバイルアプリケーションに組み込むことができない。 そこで,我々は,より大規模モデルと比較して十分な精度で動作可能な,わずか数メガバイトの軽量な顔認識ネットワークを開発するという課題に対処した。 モバイルデバイスが一般的に使用されている制御されていない環境で自然に観察される変動性を考えると、ネットワークは異なるポーズの下でも動作可能である必要がある。 本稿では、わずか4.4MBの軽量SqueezeNetモデルを適用し、効果的に顔認証を実現する。 MS-Celeb-1M と VGGFace2 データベースでトレーニングを行った結果,プロファイル比較の難易度は 1.23%,プロファイル比較の0.54% が得られた。 いずれかのエンローメント/クエリー画像対における前面画像の極端な変動の下では、EERは<0.3%まで押し下げられ、FAR=0.1%から1%未満のFRRとなる。 これにより、少なくともエンローメント画像の取得を制御できる顔認識に適した光モデルが得られる。 性能がわずかに低下するコストで、通常の畳み込みを深度的に分離可能な畳み込みに置き換えるより軽いモデル(2.5MB)をテストする。

Virtual applications through mobile platforms are one of the most critical and ever-growing fields in AI, where ubiquitous and real-time person authentication has become critical after the breakthrough of all services provided via mobile devices. In this context, face verification technologies can provide reliable and robust user authentication, given the availability of cameras in these devices, as well as their widespread use in everyday applications. The rapid development of deep Convolutional Neural Networks has resulted in many accurate face verification architectures. However, their typical size (hundreds of megabytes) makes them infeasible to be incorporated in downloadable mobile applications where the entire file typically may not exceed 100 Mb. Accordingly, we address the challenge of developing a lightweight face recognition network of just a few megabytes that can operate with sufficient accuracy in comparison to much larger models. The network also should be able to operate under different poses, given the variability naturally observed in uncontrolled environments where mobile devices are typically used. In this paper, we adapt the lightweight SqueezeNet model, of just 4.4MB, to effectively provide cross-pose face recognition. After trained on the MS-Celeb-1M and VGGFace2 databases, our model achieves an EER of 1.23% on the difficult frontal vs. profile comparison, and0.54% on profile vs. profile images. Under less extreme variations involving frontal images in any of the enrolment/query images pair, EER is pushed down to<0.3%, and the FRR at FAR=0.1%to less than 1%. This makes our light model suitable for face recognition where at least acquisition of the enrolment image can be controlled. At the cost of a slight degradation in performance, we also test an even lighter model (of just 2.5MB) where regular convolutions are replaced with depth-wise separable convolutions.
翻訳日:2022-11-09 23:44:13 公開日:2020-11-16
# 低ランク近似のための最適$\ell_1$カラムサブセット選択と高速PTAS

Optimal $\ell_1$ Column Subset Selection and a Fast PTAS for Low Rank Approximation ( http://arxiv.org/abs/2007.10307v2 )

ライセンス: Link先を確認
Arvind V. Mahankali (1), David P. Woodruff (1) ((1) Carnegie Mellon University)(参考訳) 我々はエントリワイズ$\ell_1$低ランク近似の問題を考察する。 最初の多項式時間列サブセット選択ベースである$\ell_1$ローランク近似アルゴリズムをサンプリングし、$\tilde{O}(k^{1/2})$-approximationを任意の$k$に対して達成し、前の$\tilde{O}(k)$-approximationを改善し、カラムサブセット選択ベースである$\ell_1$-lowランク近似にマッチさせる。 この結果を拡張し、列部分集合選択に基づく$\ell_p$低階近似を1 < p < 2$ とすることで、この問題の長い行を閉じる。 次に、エントリワイズ$\ell_p$低ランク近似に対する$(1 + \varepsilon)$近似アルゴリズムを、1 \leq p < 2$に対して与える。 まず、行列 $A \in \mathbb{R}^{n \times d}$ が与えられたとき、ランク-$k$ matrix $\hat{A}$ in $2^{\text{poly}(k/\varepsilon)} + \text{poly}(nd)$ run time が与えられるアルゴリズムを得る:$$$\|A - \hat{A}\|_p \leq (1 + \varepsilon) \cdot OPT + \frac {\varepsilon}{\text{poly}(k)}\|A\|_p$ ここで$OPT = \min_{A_k \text{ rank }k} \|A - A_k\|_p$。 Using this algorithm, in the same running time we give an algorithm which obtains error at most $(1 + \varepsilon) \cdot OPT$ and outputs a matrix of rank at most $3k$ -- these algorithms significantly improve upon all previous $(1 + \varepsilon)$- and $O(1)$-approximation algorithms for the $\ell_p$ low rank approximation problem, which required at least $n^{\text{poly}(k/\varepsilon)}$ or $n^{\text{poly}(k)}$ running time, and either required strong bit complexity assumptions (our algorithms do not) or had bicriteria rank $3k$. 最後に、我々は2^{\text{poly}(k)} + \text{poly}(nd)$ 実行時間と上記の加算誤差保証にほぼ一致するハードネス結果を示す。

We study the problem of entrywise $\ell_1$ low rank approximation. We give the first polynomial time column subset selection-based $\ell_1$ low rank approximation algorithm sampling $\tilde{O}(k)$ columns and achieving an $\tilde{O}(k^{1/2})$-approximation for any $k$, improving upon the previous best $\tilde{O}(k)$-approximation and matching a prior lower bound for column subset selection-based $\ell_1$-low rank approximation which holds for any $\text{poly}(k)$ number of columns. We extend our results to obtain tight upper and lower bounds for column subset selection-based $\ell_p$ low rank approximation for any $1 < p < 2$, closing a long line of work on this problem. We next give a $(1 + \varepsilon)$-approximation algorithm for entrywise $\ell_p$ low rank approximation, for $1 \leq p < 2$, that is not a column subset selection algorithm. First, we obtain an algorithm which, given a matrix $A \in \mathbb{R}^{n \times d}$, returns a rank-$k$ matrix $\hat{A}$ in $2^{\text{poly}(k/\varepsilon)} + \text{poly}(nd)$ running time such that: $$\|A - \hat{A}\|_p \leq (1 + \varepsilon) \cdot OPT + \frac{\varepsilon}{\text{poly}(k)}\|A\|_p$$ where $OPT = \min_{A_k \text{ rank }k} \|A - A_k\|_p$. Using this algorithm, in the same running time we give an algorithm which obtains error at most $(1 + \varepsilon) \cdot OPT$ and outputs a matrix of rank at most $3k$ -- these algorithms significantly improve upon all previous $(1 + \varepsilon)$- and $O(1)$-approximation algorithms for the $\ell_p$ low rank approximation problem, which required at least $n^{\text{poly}(k/\varepsilon)}$ or $n^{\text{poly}(k)}$ running time, and either required strong bit complexity assumptions (our algorithms do not) or had bicriteria rank $3k$. Finally, we show hardness results which nearly match our $2^{\text{poly}(k)} + \text{poly}(nd)$ running time and the above additive error guarantee.
翻訳日:2022-11-08 13:24:30 公開日:2020-11-16
# BiTraP:マルチモーダルゴール推定による双方向歩行者軌道予測

BiTraP: Bi-directional Pedestrian Trajectory Prediction with Multi-modal Goal Estimation ( http://arxiv.org/abs/2007.14558v2 )

ライセンス: Link先を確認
Yu Yao, Ella Atkins, Matthew Johnson-Roberson, Ram Vasudevan, Xiaoxiao Du(参考訳) 歩行者の軌跡予測は、自動運転やロボットナビゲーションなどのロボット応用において不可欠なタスクである。 最先端の軌跡予測器は条件付き変分オートエンコーダ(CVAE)とリカレントニューラルネットワーク(RNN)を使用して観測された軌跡を符号化し、マルチモーダルな将来の軌跡を復号する。 このプロセスは、長い予測水平線(>=2秒)で蓄積された誤差に悩まされる。 本稿では,CVAEに基づく目標条件付き双方向多方向軌道予測手法BiTraPを提案する。 bitrapは軌道の目標(終点)を推定し、長期的な軌道予測精度を向上させるために新しい双方向デコーダを導入する。 大規模な実験により、BiTraPはFPV(First-person view)とBEV(Bird's-eye view)の両方のシナリオに一般化し、最先端の結果を約10-50%上回った。 また, cvaeにおける非パラメトリックモデルとパラメトリックモデルの異なる選択は, 予測されたマルチモーダル軌道分布に直接影響することを示した。 これらの結果は、衝突回避やナビゲーションシステムなどのロボット応用のための軌道予測設計のガイダンスを提供する。

Pedestrian trajectory prediction is an essential task in robotic applications such as autonomous driving and robot navigation. State-of-the-art trajectory predictors use a conditional variational autoencoder (CVAE) with recurrent neural networks (RNNs) to encode observed trajectories and decode multi-modal future trajectories. This process can suffer from accumulated errors over long prediction horizons (>=2 seconds). This paper presents BiTraP, a goal-conditioned bi-directional multi-modal trajectory prediction method based on the CVAE. BiTraP estimates the goal (end-point) of trajectories and introduces a novel bi-directional decoder to improve longer-term trajectory prediction accuracy. Extensive experiments show that BiTraP generalizes to both first-person view (FPV) and bird's-eye view (BEV) scenarios and outperforms state-of-the-art results by ~10-50%. We also show that different choices of non-parametric versus parametric target models in the CVAE directly influence the predicted multi-modal trajectory distributions. These results provide guidance on trajectory predictor design for robotic applications such as collision avoidance and navigation systems.
翻訳日:2022-11-05 20:44:10 公開日:2020-11-16
# ダイナミクスミスマッチを用いた移動学習への観察的アプローチからの模擬

An Imitation from Observation Approach to Transfer Learning with Dynamics Mismatch ( http://arxiv.org/abs/2008.01594v3 )

ライセンス: Link先を確認
Siddharth Desai, Ishan Durugkar, Haresh Karnan, Garrett Warnell, Josiah Hanna, Peter Stone(参考訳) 特に,学習中の対象環境との相互作用量を減らすことが重要となる場合において,ソース環境で学習したポリシーを,動的に異なる対象環境に転送する問題について検討する。 この問題は、シミュレーターが必然的に現実世界のダイナミクスを不完全にモデル化するため、sim-to-real転送において特に重要である。 本稿では,この伝達問題に対する既存の解である接地行動変換 (grounded action transformation) が,観察からの模倣問題 (ifo: learning behaviors that mimic the observations of behavior demonstrations) と密接に関連していることを示す。 この関係を確立した後、近年のifo文献からの最先端のアプローチは、接地移動学習に効果的に活用できると仮定し、この仮説を検証するために、観察手法からの敵対的模倣に基づく新しいアルゴリズム、ジェネラティブ・アドバーサリアン強化行動変換(garat)を導出する。 我々は,不整合ダイナミクスを持つ複数の領域で実験を行い,ガラットで訓練されたエージェントが,既存のブラックボックス転送法よりも高いリターンを達成することを発見した。

We examine the problem of transferring a policy learned in a source environment to a target environment with different dynamics, particularly in the case where it is critical to reduce the amount of interaction with the target environment during learning. This problem is particularly important in sim-to-real transfer because simulators inevitably model real-world dynamics imperfectly. In this paper, we show that one existing solution to this transfer problem - grounded action transformation - is closely related to the problem of imitation from observation (IfO): learning behaviors that mimic the observations of behavior demonstrations. After establishing this relationship, we hypothesize that recent state-of-the-art approaches from the IfO literature can be effectively repurposed for grounded transfer learning.To validate our hypothesis we derive a new algorithm - generative adversarial reinforced action transformation (GARAT) - based on adversarial imitation from observation techniques. We run experiments in several domains with mismatched dynamics, and find that agents trained with GARAT achieve higher returns in the target environment compared to existing black-box transfer methods
翻訳日:2022-11-02 23:31:29 公開日:2020-11-16
# STDP非教師SNNにおけるアストロサイトの役割について

On the Self-Repair Role of Astrocytes in STDP Enabled Unsupervised SNNs ( http://arxiv.org/abs/2009.03473v2 )

ライセンス: Link先を確認
Mehul Rastogi, Sen Lu, Nafiul Islam, Abhronil Sengupta(参考訳) ニューロモルフィックコンピューティングは、次世代機械学習プラットフォームのアルゴリズムとハードウェア設計において、脳の構造と機能に関する様々な側面をエミュレートしようとする破壊的な計算パラダイムとして現れつつある。 この研究は、認知、特に自己修復に寄与する可能性のある生物学的脳の他の計算単位を調べるために、ニューロンとシナプスの計算モデルに現在のニューロモルフィックコンピューティングアーキテクチャーの焦点を超える。 我々は、グリア細胞の機能に関する計算神経科学からインスピレーションと洞察を得て、スパイクタイミング依存塑性(STDP)を用いて教師なしで訓練されたスパイキングニューラルネットワーク(SNN)のフォールトトレラント能力におけるそれらの役割を探求する。 MNISTデータセットとFashion-MNISTデータセットで提案した提案を,50%から90%までのさまざまな障害度を持つネットワークで実現可能な自己修復の程度を特徴付ける。

Neuromorphic computing is emerging to be a disruptive computational paradigm that attempts to emulate various facets of the underlying structure and functionalities of the brain in the algorithm and hardware design of next-generation machine learning platforms. This work goes beyond the focus of current neuromorphic computing architectures on computational models for neuron and synapse to examine other computational units of the biological brain that might contribute to cognition and especially self-repair. We draw inspiration and insights from computational neuroscience regarding functionalities of glial cells and explore their role in the fault-tolerant capacity of Spiking Neural Networks (SNNs) trained in an unsupervised fashion using Spike-Timing Dependent Plasticity (STDP). We characterize the degree of self-repair that can be enabled in such networks with varying degree of faults ranging from 50% - 90% and evaluate our proposal on the MNIST and Fashion-MNIST datasets.
翻訳日:2022-10-20 20:55:09 公開日:2020-11-16
# 生成対向ネットワークを用いた脳血管分割のためのラベル付きTOF-MRA画像の匿名化

Anonymization of labeled TOF-MRA images for brain vessel segmentation using generative adversarial networks ( http://arxiv.org/abs/2009.04227v3 )

ライセンス: Link先を確認
Tabea Kossen, Pooja Subramaniam, Vince I. Madai, Anja Hennemuth, Kristian Hildebrand, Adam Hilbert, Jan Sobesky, Michelle Livne, Ivana Galinovic, Ahmed A. Khalil, Jochen B. Fiebach and Dietmar Frey(参考訳) 匿名化とデータ共有は、医療画像分析のための大規模データセットのプライバシー保護と取得に不可欠である。 これは特に神経画像にとって大きな課題です。 ここで、脳のユニークな構造は再同定を可能にし、非慣習的な匿名化を必要とする。 generative adversarial networks (gans) は予測特性を維持しながら匿名画像を提供する可能性がある。 脳血管のセグメンテーションを解析し、画像ラベル生成のための時間飛行(TOF)磁気共鳴血管造影(MRA)パッチで3つのGANを訓練した。 1)深層畳み込みGAN 2)勾配ペナルティ(wgan-gp)を有するwasserstein-ganおよび 3)スペクトル正規化WGAN-GP(WGAN-GP-SN)。 各GANから生成された画像ラベルは、セグメント化のためのU-netのトレーニングに使用され、実際のデータでテストされた。 さらに,第2のデータセットに転送学習を用いた合成パッチを適用した。 最大15名までの患者に対して,事前トレーニングを行わずに実データ上でのモデル性能を評価した。 全てのモデルの性能はDice similarity Coefficient (DSC)とHausdorff Distance (95HD)の95%で評価された。 3つのGANと比較すると、WGAN-GP-SNによって生成された合成データに基づいて訓練されたU-netは、実際のデータ(0.89/26.61)に基づいて訓練されたU-netによってベンチマークされた船舶(DSC/95HD 0.82/28.97)の予測性能が最も高かった。 トランスファー・ラーニング・アプローチは,同じganに対して,特に1例のみ (0.91/25.68 対 0.85/27.36) に比較して優れた成績を示した。 本研究は, 合成画像ラベル対が一般化可能な情報を保持し, 容器のセグメンテーションに優れた性能を示した。 さらに,独立データを用いた伝達学習手法では,合成パッチが利用できることを示した。 これは、医療画像における不足データや匿名化の課題を克服する手段となる。

Anonymization and data sharing are crucial for privacy protection and acquisition of large datasets for medical image analysis. This is a big challenge, especially for neuroimaging. Here, the brain's unique structure allows for re-identification and thus requires non-conventional anonymization. Generative adversarial networks (GANs) have the potential to provide anonymous images while preserving predictive properties. Analyzing brain vessel segmentation, we trained 3 GANs on time-of-flight (TOF) magnetic resonance angiography (MRA) patches for image-label generation: 1) Deep convolutional GAN, 2) Wasserstein-GAN with gradient penalty (WGAN-GP) and 3) WGAN-GP with spectral normalization (WGAN-GP-SN). The generated image-labels from each GAN were used to train a U-net for segmentation and tested on real data. Moreover, we applied our synthetic patches using transfer learning on a second dataset. For an increasing number of up to 15 patients we evaluated the model performance on real data with and without pre-training. The performance for all models was assessed by the Dice Similarity Coefficient (DSC) and the 95th percentile of the Hausdorff Distance (95HD). Comparing the 3 GANs, the U-net trained on synthetic data generated by the WGAN-GP-SN showed the highest performance to predict vessels (DSC/95HD 0.82/28.97) benchmarked by the U-net trained on real data (0.89/26.61). The transfer learning approach showed superior performance for the same GAN compared to no pre-training, especially for one patient only (0.91/25.68 vs. 0.85/27.36). In this work, synthetic image-label pairs retained generalizable information and showed good performance for vessel segmentation. Besides, we showed that synthetic patches can be used in a transfer learning approach with independent data. This paves the way to overcome the challenges of scarce data and anonymization in medical imaging.
翻訳日:2022-10-20 12:06:29 公開日:2020-11-16
# QRnet:LQR強化ニューラルネットワークによる最適レギュレータ設計

QRnet: optimal regulator design with LQR-augmented neural networks ( http://arxiv.org/abs/2009.05686v2 )

ライセンス: Link先を確認
Tenavi Nakamura-Zimmerer, Qi Gong, Wei Kang(参考訳) 本稿では,高次元非線形系の最適レギュレータ設計のための新しい計算手法を提案する。 提案手法は, 最適フィードバック制御による高次元ハミルトン・ヤコビ・ベルマン方程式を解くために, 物理インフォームド・機械学習を利用する。 具体的には,線形二次レギュレータをニューラルネットワークで拡張し,非線形性を扱う。 我々は、状態空間を離散化せずに生成されたデータで拡張モデルを訓練し、高次元問題への応用を可能にする。 提案手法を用いて不安定なバーガー方程式の最適レギュレータを設計し、この例を通して既存のニューラルネットワークの定式化よりも堅牢性と精度が向上したことを示す。

In this paper we propose a new computational method for designing optimal regulators for high-dimensional nonlinear systems. The proposed approach leverages physics-informed machine learning to solve high-dimensional Hamilton-Jacobi-Bellman equations arising in optimal feedback control. Concretely, we augment linear quadratic regulators with neural networks to handle nonlinearities. We train the augmented models on data generated without discretizing the state space, enabling application to high-dimensional problems. We use the proposed method to design a candidate optimal regulator for an unstable Burgers' equation, and through this example, demonstrate improved robustness and accuracy compared to existing neural network formulations.
翻訳日:2022-10-19 22:15:56 公開日:2020-11-16
# ハードウェアフレンドリーなブロック構造解析を用いたトランスフォーマーを用いた大規模言語表現

Efficient Transformer-based Large Scale Language Representations using Hardware-friendly Block Structured Pruning ( http://arxiv.org/abs/2009.08065v4 )

ライセンス: Link先を確認
Bingbing Li, Zhenglun Kong, Tianyun Zhang, Ji Li, Zhengang Li, Hang Liu, Caiwen Ding(参考訳) 事前訓練された大規模言語モデルは、多くの自然言語処理(NLP)タスクにおいて高い精度を証明している。 しかし、ハードウェアプラットフォームの重量ストレージと計算速度の制限は、特にエッジコンピューティングの時代において、事前訓練されたモデルの人気を妨げている。 本研究では,ハードウェアフレンドリーなブロック構造プルーニングを用いたトランスフォーマーに基づく大規模言語表現を提案する。 再重み付きグループLassoをブロック構造化プルーニングに組み込んで最適化を行う。 重み付けと計算の大幅な削減に加えて,提案手法は高い圧縮率を達成する。 general language understanding evaluation(glue)ベンチマークタスクにおける異なるモデル(bert、roberta、distilbert)の実験結果から、特定のタスクにおいて0またはマイナーな精度低下で最大5.0倍まで達成できることが分かる。 In this method is orthogonal to existing compact pre-trained language model as DistilBERT using knowledge distillation, because a more 1.79x average compression rate can be achieved on the DistilBERT with zero or minor accuracy degradation。 リソース制約のあるエッジデバイスに最終的な圧縮モデルをデプロイするのに適している。

Pre-trained large-scale language models have increasingly demonstrated high accuracy on many natural language processing (NLP) tasks. However, the limited weight storage and computational speed on hardware platforms have impeded the popularity of pre-trained models, especially in the era of edge computing. In this work, we propose an efficient transformer-based large-scale language representation using hardware-friendly block structure pruning. We incorporate the reweighted group Lasso into block-structured pruning for optimization. Besides the significantly reduced weight storage and computation, the proposed approach achieves high compression rates. Experimental results on different models (BERT, RoBERTa, and DistilBERT) on the General Language Understanding Evaluation (GLUE) benchmark tasks show that we achieve up to 5.0x with zero or minor accuracy degradation on certain task(s). Our proposed method is also orthogonal to existing compact pre-trained language models such as DistilBERT using knowledge distillation, since a further 1.79x average compression rate can be achieved on top of DistilBERT with zero or minor accuracy degradation. It is suitable to deploy the final compressed model on resource-constrained edge devices.
翻訳日:2022-10-17 07:59:28 公開日:2020-11-16
# 配置中の物体検出の連続的性能モニタリングのためのフレームごとのmAP予測

Per-frame mAP Prediction for Continuous Performance Monitoring of Object Detection During Deployment ( http://arxiv.org/abs/2009.08650v2 )

ライセンス: Link先を確認
Quazi Marufur Rahman and Niko S\"underhauf and Feras Dayoub(参考訳) オブジェクト検出のパフォーマンス監視は、様々な複雑な環境条件下で動作する自動運転車のような安全上重要なアプリケーションに不可欠である。 現在、オブジェクト検出器は、将来のすべてのデプロイメント条件を表すと仮定された単一のデータセットに基づいて、サマリメトリクスを使用して評価されている。 実際には、この仮定は成立せず、デプロイメント条件の関数としてパフォーマンスが変動する。 この問題に対処するため,本研究では,地上の真理データを必要とせずに,デプロイメント中のパフォーマンス監視に対するイントロスペクションアプローチを提案する。 我々は,検出器の内部特徴を用いてフレーム当たりの平均精度が臨界しきい値を下回るタイミングを予測した。 我々は,アラームを鳴らし,検出を欠くことによって誤った判断をすることでリスクを低減できる手法を定量的に評価し,実証する。

Performance monitoring of object detection is crucial for safety-critical applications such as autonomous vehicles that operate under varying and complex environmental conditions. Currently, object detectors are evaluated using summary metrics based on a single dataset that is assumed to be representative of all future deployment conditions. In practice, this assumption does not hold, and the performance fluctuates as a function of the deployment conditions. To address this issue, we propose an introspection approach to performance monitoring during deployment without the need for ground truth data. We do so by predicting when the per-frame mean average precision drops below a critical threshold using the detector's internal features. We quantitatively evaluate and demonstrate our method's ability to reduce risk by trading off making an incorrect decision by raising the alarm and absenting from detection.
翻訳日:2022-10-17 03:07:35 公開日:2020-11-16
# アーカートテッセルレーションを施した森林における位置認識

Place Recognition in Forests with Urquhart Tessellations ( http://arxiv.org/abs/2010.03026v2 )

ライセンス: Link先を確認
Guilherme V. Nardari, Avraham Cohen, Steven W. Chen, Xu Liu, Vaibhav Arcot, Roseli A. F. Romero, and Vijay Kumar(参考訳) 本書では,森林における樹木の位置から得られたurquhart tessellationに基づく新しい記述子を提案する。 本稿では,これらのディスクリプタを用いて,部分的重複やノイズを伴っても,先行観測された観測やランドマーク対応を検出するフレームワークを提案する。 松林における無人航空機(UAV)の飛行のシミュレーションと実世界のデータマップの融合によるループ閉鎖検出実験を行い,精度とロバスト性において,本手法が最先端の手法より優れていることを示す。

In this letter, we present a novel descriptor based on Urquhart tessellations derived from the position of trees in a forest. We propose a framework that uses these descriptors to detect previously seen observations and landmark correspondences, even with partial overlap and noise. We run loop closure detection experiments in simulation and real-world data map-merging from different flights of an Unmanned Aerial Vehicle (UAV) in a pine tree forest and show that our method outperforms state-of-the-art approaches in accuracy and robustness.
翻訳日:2022-10-15 16:47:38 公開日:2020-11-16
# スパースベクトル法 再訪しました

The Sparse Vector Technique, Revisited ( http://arxiv.org/abs/2010.00917v2 )

ライセンス: Link先を確認
Haim Kaplan, Yishay Mansour, Uri Stemmer(参考訳) 我々は、微分プライバシーの文献において最も基礎的で広く適用可能なテクニックの1つ、スパースベクトル技術 [Dwork et al., STOC 2009]を再考する。 この単純なアルゴリズムは、データベース上の与えられたクエリの値が、私たちが期待する値に近いかどうかをプライベートにテストします。 答えが期待に近づいている限り、無制限のクエリを問うことができ、これがそうでない最初のクエリの後に停止する。 我々は、ある個人が、我々が期待するものを実質的に逸脱しているクエリの回答に寄与しない限り、クエリを引き続きテストできる、同等にシンプルなアルゴリズムを提案する。 我々の分析は微妙であり、その成分のいくつかはより広く適用できる可能性がある。 場合によっては、我々の新しいアルゴリズムは、データベースからオリジナルよりもずっと多くの情報をプライベートに抽出することができる。 私たちは、アルゴリズムをシフトするヘビーヒット問題に適用することで、これを実証する: ステップ毎に、$n$のユーザがそれぞれ新しい入力を受け取り、タスクは、現在のヘビーヒットをすべてプライベートに識別する。 つまり、ステップ$i$の時点では、現在の入力として多くのユーザが$x$を持つように、すべてのデータ要素を$x$で識別することが目標だ。 そこで本研究では,既存の手法で得られる誤りの保証を改善するアルゴリズムを提案する。 具体的には,本アルゴリズムの誤差は,単一ユーザが重ヒッタを入力として保持する最大回数に依存するが,重ヒッタが存在する総回数には依存しない。

We revisit one of the most basic and widely applicable techniques in the literature of differential privacy - the sparse vector technique [Dwork et al., STOC 2009]. This simple algorithm privately tests whether the value of a given query on a database is close to what we expect it to be. It allows to ask an unbounded number of queries as long as the answer is close to what we expect, and halts following the first query for which this is not the case. We suggest an alternative, equally simple, algorithm that can continue testing queries as long as any single individual does not contribute to the answer of too many queries whose answer deviates substantially form what we expect. Our analysis is subtle and some of its ingredients may be more widely applicable. In some cases our new algorithm allows to privately extract much more information from the database than the original. We demonstrate this by applying our algorithm to the shifting heavy-hitters problem: On every time step, each of $n$ users gets a new input, and the task is to privately identify all the current heavy-hitters. That is, on time step $i$, the goal is to identify all data elements $x$ such that many of the users have $x$ as their current input. We present an algorithm for this problem with improved error guarantees over what can be obtained using existing techniques. Specifically, the error of our algorithm depends on the maximal number of times that a single user holds a heavy-hitter as input, rather than the total number of times in which a heavy-hitter exists.
翻訳日:2022-10-12 01:14:53 公開日:2020-11-16
# マイクロコントローラを用いた機械学習のための対角メモリ最適化

Diagonal Memory Optimisation for Machine Learning on Micro-controllers ( http://arxiv.org/abs/2010.01668v2 )

ライセンス: Link先を確認
Peter Blacker, Christopher Paul Bridges, Simon Hadfield(参考訳) 機械学習がアプリケーション領域に広がるにつれて、マイクロコントローラと低消費電力CPUが機械学習モデルによる推論の実行にますます利用されている。 これらの限られたハードウェアターゲットにデプロイする機能により、機械学習モデルがさまざまな新しいドメインで使用できるようになる。 これらのターゲット上での推論プロセスの最適化は、デスクトップCPUやGPU実装とは異なる課題をもたらします。 11台の機械学習モデルのメモリ使用パターンの解析を行った。 valgrindデバッギングツールの修正版を使ってメモリ負荷とストアパターンを観察し、推論が進むにつれて計算に必要な値を保持するメモリ領域を特定した。 これらの分析により、個々のテンソル演算の入力バッファと出力バッファをオーバーラップすることで、これらのモデルのメモリ使用率を最適化する。 テンソル演算のための入力バッファと出力バッファの安全なオーバーラップを計算する3つの方法が提示される。 計算コストの高いアプローチやコンパイルされたレイヤ操作の操作能力から、レイヤのオリジナルのソースコードへのアクセスを必要とする汎用的な分析ソリューションまで、さまざまです。 対角メモリ最適化手法を記述し、11の共通モデルに適用すると最大34.5%のメモリ節約が得られることを示した。 マイクロコントローラターゲットは、対角メモリ最適化を使用する場合にのみ、いくつかのモデルをデプロイできる場所を特定する。

As machine learning spreads into more and more application areas, micro controllers and low power CPUs are increasingly being used to perform inference with machine learning models. The capability to deploy onto these limited hardware targets is enabling machine learning models to be used across a diverse range of new domains. Optimising the inference process on these targets poses different challenges from either desktop CPU or GPU implementations, where the small amounts of RAM available on these targets sets limits on size of models which can be executed. Analysis of the memory use patterns of eleven machine learning models was performed. Memory load and store patterns were observed using a modified version of the Valgrind debugging tool, identifying memory areas holding values necessary for the calculation as inference progressed. These analyses identified opportunities optimise the memory use of these models by overlapping the input and output buffers of individual tensor operations. Three methods are presented which can calculate the safe overlap of input and output buffers for tensor operations. Ranging from a computationally expensive approach with the ability to operate on compiled layer operations, to a versatile analytical solution which requires access to the original source code of the layer. The diagonal memory optimisation technique is described and shown to achieve memory savings of up to 34.5% when applied to eleven common models. Micro-controller targets are identified where it is only possible to deploy some models if diagonal memory optimisation is used.
翻訳日:2022-10-11 04:18:41 公開日:2020-11-16
# Pareto Probing: 複雑さの正確さの排除

Pareto Probing: Trading Off Accuracy for Complexity ( http://arxiv.org/abs/2010.02180v2 )

ライセンス: Link先を確認
Tiago Pimentel, Naomi Saphra, Adina Williams, Ryan Cotterell(参考訳) 言語構造のための文脈表現を原理的かつ有用な方法でどのように探索するかという問題は近年,NLP文学において注目されている。 この議論へのコントリビューションにおいて、我々は、プローブの複雑さと性能の基本的なトレードオフを反映したプローブ計量(Pareto hypervolume)を論じる。 複雑性を測定するために、パラメトリックおよび非パラメトリックメトリクスを多数提示する。 評価指標としてPareto hypervolumeを用いた実験では,プローブが期待に合わない場合が多いことが示されている。 これらの結果から,文節ラベリングや係り受けアークラベリングなどの単純なプロビングタスクは,文脈的単語表現にエンコードされる言語構造を評価するのに不適当であることが示唆された。 これにより、探索タスクとして完全な依存性解析を提案します。 より厳密な探索作業が必要であるという我々の提案を支持するため、依存関係解析による実験により、文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかになった。

The question of how to probe contextual word representations for linguistic structure in a way that is both principled and useful has seen significant attention recently in the NLP literature. In our contribution to this discussion, we argue for a probe metric that reflects the fundamental trade-off between probe complexity and performance: the Pareto hypervolume. To measure complexity, we present a number of parametric and non-parametric metrics. Our experiments using Pareto hypervolume as an evaluation metric show that probes often do not conform to our expectations---e.g., why should the non-contextual fastText representations encode more morpho-syntactic information than the contextual BERT representations? These results suggest that common, simplistic probing tasks, such as part-of-speech labeling and dependency arc labeling, are inadequate to evaluate the linguistic structure encoded in contextual word representations. This leads us to propose full dependency parsing as a probing task. In support of our suggestion that harder probing tasks are necessary, our experiments with dependency parsing reveal a wide gap in syntactic knowledge between contextual and non-contextual representations.
翻訳日:2022-10-10 20:21:59 公開日:2020-11-16
# 電子健康記録(EHR)による患者データの深部表現学習 : システムレビュー

Deep Representation Learning of Patient Data from Electronic Health Records (EHR): A Systematic Review ( http://arxiv.org/abs/2010.02809v2 )

ライセンス: Link先を確認
Yuqi Si, Jingcheng Du, Zhao Li, Xiaoqian Jiang, Timothy Miller, Fei Wang, W. Jim Zheng, Kirk Roberts(参考訳) 患者表現学習とは、電子健康記録(EHR)から意味のある情報をエンコードする患者の密度の高い数学的表現を学ぶことを指す。 これは一般的に高度な深層学習法を用いて行われる。 本研究は, この分野を体系的に検討し, 方法論的観点からの質的, 定量的分析を提供する。 MEDLINE, EMBASE, Scopus, Association for Computing Machinery (ACM) Digital Library, Institute of Electrical and Electronics Engineers (IEEE) Xplore Digital Library の深層学習手法を用いた患者表現の開発について検討した。 363の論文をスクリーニングした後、49の論文が包括的なデータ収集に含まれた。 そこで本研究では,生データを入力し,深層学習モデルを適用し,臨床結果の予測を学習表現の評価として行う典型的なワークフローに気付いた。 具体的には、構造化EHRデータからの学習表現が優勢であった(49件中37件)。 ニューラルネットワークはディープラーニングアーキテクチャ(lstm: 13 studies, gru: 11 studies)として広く適用された。 疾患予測は最も一般的な応用と評価(31研究)であった。 ベンチマークデータセットは、EHRデータのプライバシー上の懸念から、ほとんど利用不可能(28の研究)であり、コード可用性は20の研究で保証された。 患者ehrデータの包括的表現を体系的レビューを通して学習することの重要性と実現可能性を示す。 患者表現学習技術の進歩は、患者レベルのEHR分析のパワーアップに不可欠である。 今後の作業は、利用可能なEHRデータの豊かさと可能性を活用することに集中します。 知識の蒸留と高度な学習技術は、患者表現のさらなる学習を支援するために活用される。

Patient representation learning refers to learning a dense mathematical representation of a patient that encodes meaningful information from Electronic Health Records (EHRs). This is generally performed using advanced deep learning methods. This study presents a systematic review of this field and provides both qualitative and quantitative analyses from a methodological perspective. We identified studies developing patient representations from EHRs with deep learning methods from MEDLINE, EMBASE, Scopus, the Association for Computing Machinery (ACM) Digital Library, and Institute of Electrical and Electronics Engineers (IEEE) Xplore Digital Library. After screening 363 articles, 49 papers were included for a comprehensive data collection. We noticed a typical workflow starting with feeding raw data, applying deep learning models, and ending with clinical outcome predictions as evaluations of the learned representations. Specifically, learning representations from structured EHR data was dominant (37 out of 49 studies). Recurrent Neural Networks were widely applied as the deep learning architecture (LSTM: 13 studies, GRU: 11 studies). Disease prediction was the most common application and evaluation (31 studies). Benchmark datasets were mostly unavailable (28 studies) due to privacy concerns of EHR data, and code availability was assured in 20 studies. We show the importance and feasibility of learning comprehensive representations of patient EHR data through a systematic review. Advances in patient representation learning techniques will be essential for powering patient-level EHR analyses. Future work will still be devoted to leveraging the richness and potential of available EHR data. Knowledge distillation and advanced learning techniques will be exploited to assist the capability of learning patient representation further.
翻訳日:2022-10-10 05:35:15 公開日:2020-11-16
# 言語文化における音楽のジャンル認識のモデル化

Modeling the Music Genre Perception across Language-Bound Cultures ( http://arxiv.org/abs/2010.06325v2 )

ライセンス: Link先を確認
Elena V. Epure and Guillaume Salha and Manuel Moussallam and Romain Hennequin(参考訳) アーティストやアルバムの人間の注釈を通して表現される音楽ジャンルの知覚は、言語に縛られた文化によって大きく異なる。 これらのバリエーションは、音楽ジャンル知覚の文化的差異も考慮する必要があるため、単なる翻訳としてモデル化することはできない。 本研究では,言語固有の意味表現,すなわち分散概念埋め込みとオントロジーのみに基づく,関連する言語間・文化特化音楽ジャンルアノテーションの実現可能性について検討する。 本研究は、6言語に焦点をあてて、教師なし言語間音楽ジャンルのアノテーションが、特に両種類の表現の組み合わせにおいて、高い精度で実現可能であることを示す。 音楽ジャンルを研究するこのアプローチは、これまでで最も広く、音楽学や音楽情報検索に多くの意味を持つ。 また,多言語多言語組込みモデルのベンチマークを行うために,新たなドメイン依存のクロスリンガルコーパスを導入する。

The music genre perception expressed through human annotations of artists or albums varies significantly across language-bound cultures. These variations cannot be modeled as mere translations since we also need to account for cultural differences in the music genre perception. In this work, we study the feasibility of obtaining relevant cross-lingual, culture-specific music genre annotations based only on language-specific semantic representations, namely distributed concept embeddings and ontologies. Our study, focused on six languages, shows that unsupervised cross-lingual music genre annotation is feasible with high accuracy, especially when combining both types of representations. This approach of studying music genres is the most extensive to date and has many implications in musicology and music information retrieval. Besides, we introduce a new, domain-dependent cross-lingual corpus to benchmark state of the art multilingual pre-trained embedding models.
翻訳日:2022-10-07 22:44:24 公開日:2020-11-16
# AMPA-Net:Deep Compressed Sensingのための最適化型注意ニューラルネットワーク

AMPA-Net: Optimization-Inspired Attention Neural Network for Deep Compressed Sensing ( http://arxiv.org/abs/2010.06907v6 )

ライセンス: Link先を確認
Nanyu Li, Charles C. Zhou(参考訳) 圧縮センシング(CS)は、限られた測定値からほぼ完全な画像の再構成を行うため、画像処理において難しい問題である。 高速かつ正確なCS再構成を実現するため、AMP-Netと呼ばれる新しい最適化手法を提案するために、よく知られた2つの手法(ニューラルネットワークと最適化アルゴリズム)の利点を合成する。 amp-netは近似メッセージパッシング(amp)アルゴリズムとニューラルネットワークの融合を実現する。 すべてのパラメータは自動的に学習される。 さらに,3つの注意ネットワークを用いてAMP-Netの表現能力を向上させるAMPA-Netを提案する。 最後に, amp-net と ampa-net の4つの標準csレコンストラクションベンチマークデータセットにおける有効性を示す。 私たちのコードはhttps://github.com/puallee/AMPA-Net.comで利用可能です。

Compressed sensing (CS) is a challenging problem in image processing due to reconstructing an almost complete image from a limited measurement. To achieve fast and accurate CS reconstruction, we synthesize the advantages of two well-known methods (neural network and optimization algorithm) to propose a novel optimization inspired neural network which dubbed AMP-Net. AMP-Net realizes the fusion of the Approximate Message Passing (AMP) algorithm and neural network. All of its parameters are learned automatically. Furthermore, we propose an AMPA-Net which uses three attention networks to improve the representation ability of AMP-Net. Finally, We demonstrate the effectiveness of AMP-Net and AMPA-Net on four standard CS reconstruction benchmark data sets. Our code is available on https://github.com/puallee/AMPA-Net.
翻訳日:2022-10-07 14:13:02 公開日:2020-11-16
# 微分可能なインシシシト層

Differentiable Implicit Layers ( http://arxiv.org/abs/2010.07078v2 )

ライセンス: Link先を確認
Andreas Look, Simona Doneva, Melih Kandemir, Rainer Gemulla, Jan Peters(参考訳) 本稿では,非拘束暗黙関数に対する効率的なバックプロパゲーションスキームを提案する。 これらの関数は学習可能な重みのセットによってパラメータ化され、任意の入力に依存する可能性がある。 異なるアプリケーションでこのスキームを実演します (i)暗黙のオイラー法によるニューラルヌクレオチド、及び (ii)モデル予測制御におけるシステム同定

In this paper, we introduce an efficient backpropagation scheme for non-constrained implicit functions. These functions are parametrized by a set of learnable weights and may optionally depend on some input; making them perfectly suitable as a learnable layer in a neural network. We demonstrate our scheme on different applications: (i) neural ODEs with the implicit Euler method, and (ii) system identification in model predictive control.
翻訳日:2022-10-07 12:25:42 公開日:2020-11-16
# 強化学習を用いた制約歩行者環境におけるロボットナビゲーション

Robot Navigation in Constrained Pedestrian Environments using Reinforcement Learning ( http://arxiv.org/abs/2010.08600v2 )

ライセンス: Link先を確認
Claudia P\'erez-D'Arpino, Can Liu, Patrick Goebel, Roberto Mart\'in-Mart\'in, Silvio Savarese(参考訳) 歩行者のまわりをスムーズに移動することは、建物や家などの人間環境に展開する移動ロボットに必要な能力である。 ソーシャルナビゲーションの研究は、オープンスペースでの歩行者数のスケーラビリティに重点を置いてきたが、典型的な屋内環境は、操作性や歩行者の相互作用の影響パターンを制限する廊下や戸口などの制約された空間のさらなる課題を呈している。 本稿では,制約環境における所望の場所間をナビゲートしながら,移動歩行者の存在に動的に適応できる政策を学習するための強化学習(rl)に基づくアプローチを提案する。 ポリシーネットワークは、グローバルに計画された軌道に従うためのウェイポイントを提供するモーションプランナーからガイダンスを受け取り、RLは局所的な相互作用を処理する。 我々はマルチレイアウトトレーニングのための構成原理を探求し、幾何的に単純なレイアウトの小さなセットで訓練されたポリシーが、トレーニング中に利用可能な構造要素の構成を示すより複雑で見えないレイアウトに一般化できることを見出した。 ドメインのような壁の世界を超えて、我々は学習したポリシーを2つの実環境の未認識の3d再構成に移す。 これらの結果は,実世界の建築物のナビゲーションにおける構成原理の適用可能性をサポートし,対話を伴うタスクの再構築環境におけるマルチエージェントシミュレーションの有望な利用を示唆する。

Navigating fluently around pedestrians is a necessary capability for mobile robots deployed in human environments, such as buildings and homes. While research on social navigation has focused mainly on the scalability with the number of pedestrians in open spaces, typical indoor environments present the additional challenge of constrained spaces such as corridors and doorways that limit maneuverability and influence patterns of pedestrian interaction. We present an approach based on reinforcement learning (RL) to learn policies capable of dynamic adaptation to the presence of moving pedestrians while navigating between desired locations in constrained environments. The policy network receives guidance from a motion planner that provides waypoints to follow a globally planned trajectory, whereas RL handles the local interactions. We explore a compositional principle for multi-layout training and find that policies trained in a small set of geometrically simple layouts successfully generalize to more complex unseen layouts that exhibit composition of the structural elements available during training. Going beyond walls-world like domains, we show transfer of the learned policy to unseen 3D reconstructions of two real environments. These results support the applicability of the compositional principle to navigation in real-world buildings and indicate promising usage of multi-agent simulation within reconstructed environments for tasks that involve interaction.
翻訳日:2022-10-06 21:39:39 公開日:2020-11-16
# aiをリードする裁判所のディベートケース調査

AI-lead Court Debate Case Investigation ( http://arxiv.org/abs/2010.11604v2 )

ライセンス: Link先を確認
Changzhen Ji, Xin Zhou, Conghui Zhu and Tiejun Zhao(参考訳) 原告、被告、および裁判官で構成される多目的の司法論争は、裁判の重要な部分である。 他のタイプの対話とは異なり、裁判官、原告、原告の代理人被告、被告の代理人によって質問が提起され、裁判が秩序的に進行できるように議論する。 質問生成は自然言語生成において重要な課題である。 裁判では、裁判官がその事件をより明確に理解できるように、効率的な質問を提起するのに役立つ。 本研究では,原告と被告との歴史的対話を通じて,裁判員が問うべき質問を生成できる,革新的なエンドツーエンド質問生成モデル-Trial Brain Model (TBM)を提案する。 自然言語生成における従来の取り組みとは異なり、我々のモデルは事前定義された知識を通じて裁判官の質問意図を学習することができる。 実世界のデータセットで実験を行い,実験結果から,マルチロール法廷の議論場面において,より正確な疑問を提示できることが示された。

The multi-role judicial debate composed of the plaintiff, defendant, and judge is an important part of the judicial trial. Different from other types of dialogue, questions are raised by the judge, The plaintiff, plaintiff's agent defendant, and defendant's agent would be to debating so that the trial can proceed in an orderly manner. Question generation is an important task in Natural Language Generation. In the judicial trial, it can help the judge raise efficient questions so that the judge has a clearer understanding of the case. In this work, we propose an innovative end-to-end question generation model-Trial Brain Model (TBM) to build a Trial Brain, it can generate the questions the judge wants to ask through the historical dialogue between the plaintiff and the defendant. Unlike prior efforts in natural language generation, our model can learn the judge's questioning intention through predefined knowledge. We do experiments on real-world datasets, the experimental results show that our model can provide a more accurate question in the multi-role court debate scene.
翻訳日:2022-10-04 06:31:31 公開日:2020-11-16
# HoVer:Multi-Hop Factの抽出とクレーム検証のためのデータセット

HoVer: A Dataset for Many-Hop Fact Extraction And Claim Verification ( http://arxiv.org/abs/2011.03088v2 )

ライセンス: Link先を確認
Yichen Jiang, Shikha Bordia, Zheng Zhong, Charles Dognin, Maneesh Singh, Mohit Bansal(参考訳) マルチホップエビデンス抽出と事実検証のためのデータセットであるHoVer(Hoppy VERification)を紹介する。 それは、クレームに関連する複数のwikipedia記事から事実を抽出するモデルに挑戦し、そのクレームがその事実によって支持されているかどうかを分類する。 HoVerでは、4つのウィキペディア記事から証拠を抽出し、多様な形状の推論グラフを具現化する必要がある。 さらに、3/4ホップのクレームのほとんどは複数の文で書かれており、コア参照のような長距離依存関係を理解する複雑さが増している。 従来のセマンティックマッチングモデルの性能は、推論ホップの数が増えるにつれてデータセット上で著しく低下し、多くのホップ推論が強力な結果を得る必要があることを示す。 この挑戦的なデータセットの導入とそれに伴う評価タスクが,多項目事実検索と情報検証の研究を促進することを願っている。 HoVerデータセットをhttps://hover-nlp.github.ioで公開しています。

We introduce HoVer (HOppy VERification), a dataset for many-hop evidence extraction and fact verification. It challenges models to extract facts from several Wikipedia articles that are relevant to a claim and classify whether the claim is Supported or Not-Supported by the facts. In HoVer, the claims require evidence to be extracted from as many as four English Wikipedia articles and embody reasoning graphs of diverse shapes. Moreover, most of the 3/4-hop claims are written in multiple sentences, which adds to the complexity of understanding long-range dependency relations such as coreference. We show that the performance of an existing state-of-the-art semantic-matching model degrades significantly on our dataset as the number of reasoning hops increases, hence demonstrating the necessity of many-hop reasoning to achieve strong results. We hope that the introduction of this challenging dataset and the accompanying evaluation task will encourage research in many-hop fact retrieval and information verification. We make the HoVer dataset publicly available at https://hover-nlp.github.io
翻訳日:2022-09-29 11:22:56 公開日:2020-11-16
# MP-ResNet:高分解能POSAR画像のセマンティックセグメンテーションのためのマルチパス残留ネットワーク

MP-ResNet: Multi-path Residual Network for the Semantic segmentation of High-Resolution PolSAR Images ( http://arxiv.org/abs/2011.05088v2 )

ライセンス: Link先を確認
Lei Ding, Kai Zheng, Dong Lin, Yuxing Chen, Bing Liu, Jiansheng Li and Lorenzo Bruzzone(参考訳) 高分解能ポラリメトリック合成開口レーダ(PolSAR)画像のセマンティックセグメンテーションについては,トレーニングデータの不足とスペックルノイズの推測による限定的な研究がある。 Gaofenコンテストは高品質な PolSAR セマンティックセグメンテーションデータセットのオープンアクセスを提供している。 この機会に,高解像度PolSAR画像のセマンティックセグメンテーションのためのマルチパスResNet(MP-ResNet)アーキテクチャを提案する。 従来のu字型エンコーダ・デコーダ畳み込みニューラルネットワーク(cnn)アーキテクチャと比較して、mp-resnetはその並列マルチスケールブランチで意味的文脈を学習し、有効な受容野を大きく拡大し、局所的な識別特徴の埋め込みを改善する。 さらに、MP-ResNetはデコーダにマルチレベル機能融合設計を採用し、異なるブランチから学んだ機能を最大限活用している。 アブレーション研究によると、MPResNetはベースライン法(FCN with ResNet34)に対して大きな利点がある。 また、全体的な精度(OA)、平均F1、fwIoUといった古典的な最先端の手法を超越しているが、計算コストはそれほど高くない。 このCNNアーキテクチャは,将来PolSAR画像のセマンティックセグメンテーション研究のベースラインとして利用することができる。 コードは、https://github.com/ggsDing/SARSeg.comで入手できる。

There are limited studies on the semantic segmentation of high-resolution Polarimetric Synthetic Aperture Radar (PolSAR) images due to the scarcity of training data and the inference of speckle noises. The Gaofen contest has provided open access of a high-quality PolSAR semantic segmentation dataset. Taking this chance, we propose a Multi-path ResNet (MP-ResNet) architecture for the semantic segmentation of high-resolution PolSAR images. Compared to conventional U-shape encoder-decoder convolutional neural network (CNN) architectures, the MP-ResNet learns semantic context with its parallel multi-scale branches, which greatly enlarges its valid receptive fields and improves the embedding of local discriminative features. In addition, MP-ResNet adopts a multi-level feature fusion design in its decoder to make the best use of the features learned from its different branches. Ablation studies show that the MPResNet has significant advantages over its baseline method (FCN with ResNet34). It also surpasses several classic state-of-the-art methods in terms of overall accuracy (OA), mean F1 and fwIoU, whereas its computational costs are not much increased. This CNN architecture can be used as a baseline method for future studies on the semantic segmentation of PolSAR images. The code is available at: https://github.com/ggsDing/SARSeg.
翻訳日:2022-09-27 07:39:58 公開日:2020-11-16
# アンサンブルネットワークを用いた適応的未来フレーム予測

Adaptive Future Frame Prediction with Ensemble Network ( http://arxiv.org/abs/2011.06788v2 )

ライセンス: Link先を確認
Wonjik Kim, Masayuki Tanaka, Masatoshi Okutomi, Yoko Sasaki(参考訳) ビデオのフレーム予測は、複雑な動きや大きな外見の変化を含むため、難しい問題である。 学習に基づく将来のフレーム予測手法が文献に提案されている。 既存の学習ベースのアプローチの一般的な制限は、トレーニングデータとテストデータのミスマッチである。 将来のフレーム予測タスクでは,数フレームを待つだけで,基礎的真理データを得ることができる。 つまり、テストフェーズで予測モデルをオンラインで更新できるということです。 次に,今後のフレーム予測タスクのための適応型更新フレームワークを提案する。 提案する適応更新フレームワークは,事前学習した予測ネットワーク,連続更新予測ネットワーク,重み推定ネットワークから構成される。 また,事前学習した予測モデルにより,既存の最先端手法に匹敵する性能が得られることを示す。 提案手法は,特に動的に変化するシーンにおいて,既存の手法よりも優れていることを示す。

Future frame prediction in videos is a challenging problem because videos include complicated movements and large appearance changes. Learning-based future frame prediction approaches have been proposed in kinds of literature. A common limitation of the existing learning-based approaches is a mismatch of training data and test data. In the future frame prediction task, we can obtain the ground truth data by just waiting for a few frames. It means we can update the prediction model online in the test phase. Then, we propose an adaptive update framework for the future frame prediction task. The proposed adaptive updating framework consists of a pre-trained prediction network, a continuous-updating prediction network, and a weight estimation network. We also show that our pre-trained prediction model achieves comparable performance to the existing state-of-the-art approaches. We demonstrate that our approach outperforms existing methods especially for dynamically changing scenes.
翻訳日:2022-09-26 00:10:37 公開日:2020-11-16
# クローズドパターンを用いたネットワークトラフィックのコントラストパターンマイニングのスケーラビリティ向上

Improving Scalability of Contrast Pattern Mining for Network Traffic Using Closed Patterns ( http://arxiv.org/abs/2011.14830v1 )

ライセンス: Link先を確認
Elaheh AlipourChavary, Sarah M. Erfani, Christopher Leckie(参考訳) コントラストパターンマイニング(CPM)は、ターゲットデータセットと比較して背景データセットからサポートが大幅に増加するパターンを発見することを目的としている。 CPMは特に、ネットワークトラフィック分析などの進化するシステムの変化を特徴付け、異常な活動を検出するのに有用である。 既存の手法の多くはコントラストパターン全体(CP)または最小セットの抽出に重点を置いているが、特に高次元データセットにおいてCPの関連部分集合を効率的に見つけるという問題はオープンな課題である。 本稿では,2つのデータセット間の有意な変化を発見するために,cpsの最も具体的な集合の抽出に注目する。 この問題に対する我々のアプローチは、冗長パターンを著しく削減するためにクローズドパターンを使用する。 実およびエミュレートされたネットワークトラフィックデータセットに対する実験結果から,提案アルゴリズムはネットワークトラフィックデータに対する既存のCPMのアプローチの最大100倍高速であることを示す[2]。 さらに,CPの応用として,ネットワークトラフィックの有意義な変化を検出する上で,CPMが有効であることを示す。

Contrast pattern mining (CPM) aims to discover patterns whose support increases significantly from a background dataset compared to a target dataset. CPM is particularly useful for characterising changes in evolving systems, e.g., in network traffic analysis to detect unusual activity. While most existing techniques focus on extracting either the whole set of contrast patterns (CPs) or minimal sets, the problem of efficiently finding a relevant subset of CPs, especially in high dimensional datasets, is an open challenge. In this paper, we focus on extracting the most specific set of CPs to discover significant changes between two datasets. Our approach to this problem uses closed patterns to substantially reduce redundant patterns. Our experimental results on several real and emulated network traffic datasets demonstrate that our proposed unsupervised algorithm is up to 100 times faster than an existing approach for CPM on network traffic data [2]. In addition, as an application of CPs, we demonstrate that CPM is a highly effective method for detection of meaningful changes in network traffic.
翻訳日:2022-09-25 01:28:02 公開日:2020-11-16
# 動的環境下で無線リソースを継続的に最適化する学習

Learning to Continuously Optimize Wireless Resource In Episodically Dynamic Environment ( http://arxiv.org/abs/2011.07782v1 )

ライセンス: Link先を確認
Haoran Sun, Wenqiang Pu, Minghe Zhu, Xiao Fu, Tsung-Hui Chang, Mingyi Hong(参考訳) 現代のコミュニケーションタスクのための、データ駆動、特にディープニューラルネットワーク(DNN)ベースの手法の開発に対する関心が高まっている。 電力制御、ビームフォーミング、MIMO検出など、いくつかの一般的なタスクでは、これらの手法は、計算の労力を減らし、チャネル状態情報(CSI)を減らしながら最先端のパフォーマンスを達成する。 しかし、CSIのようなパラメータが変化し続ける動的な環境でこれらのアプローチを学ぶことは、しばしば困難である。 この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。 具体的には, ``episodically dynamic" において, ``episodes" において環境が変化する ``episodically dynamic' の設定を考える。 本研究では,無線システム学習のモデリングプロセスに連続学習(cl)の概念を組み込むことによって,学習モデルが前回から学んだ知識を忘れることなく,新たなエピソードに漸進的に適応できるようにする。 我々の設計は、異なるデータサンプル間で「公正」を保証する新しいmin-maxの定式化に基づいている。 CL手法の有効性を,2つの一般的なDNNモデル(電力制御用とビームフォーミング用)にカスタマイズし,合成データと実データの両方を用いたテストにより示す。 これらの数値計算結果から,提案手法は,新しいシナリオに迅速かつシームレスに適応できるだけでなく,これまで遭遇したシナリオよりも高い性能を維持できることがわかった。

There has been a growing interest in developing data-driven and in particular deep neural network (DNN) based methods for modern communication tasks. For a few popular tasks such as power control, beamforming, and MIMO detection, these methods achieve state-of-the-art performance while requiring less computational efforts, less channel state information (CSI), etc. However, it is often challenging for these approaches to learn in a dynamic environment where parameters such as CSIs keep changing. This work develops a methodology that enables data-driven methods to continuously learn and optimize in a dynamic environment. Specifically, we consider an ``episodically dynamic" setting where the environment changes in ``episodes", and in each episode the environment is stationary. We propose to build the notion of continual learning (CL) into the modeling process of learning wireless systems, so that the learning model can incrementally adapt to the new episodes, {\it without forgetting} knowledge learned from the previous episodes. Our design is based on a novel min-max formulation which ensures certain ``fairness" across different data samples. We demonstrate the effectiveness of the CL approach by customizing it to two popular DNN based models (one for power control and one for beamforming), and testing using both synthetic and real data sets. These numerical results show that the proposed CL approach is not only able to adapt to the new scenarios quickly and seamlessly, but importantly, it maintains high performance over the previously encountered scenarios as well.
翻訳日:2022-09-25 01:26:50 公開日:2020-11-16
# 量子深部場:データ駆動波動関数、電子密度生成、原子化エネルギー予測と機械学習による外挿

Quantum deep field: data-driven wave function, electron density generation, and atomization energy prediction and extrapolation with machine learning ( http://arxiv.org/abs/2011.07923v1 )

ライセンス: Link先を確認
Masashi Tsubaki and Teruyasu Mizoguchi(参考訳) ディープニューラルネットワーク(DNN)は、コーン-シャム密度汎関数理論(KS-DFT)に基づいて計算された分子特性の予測に用いられている。 この予測は高速かつ正確であるが、KS-DFTのDNNモデルは特性を予測できるだけでなく、分子の電子密度も示さなければならないと考えている。 このレターは量子深層場(qdf)を示し、大規模データセットで微粒化エネルギーを学習することで、電子密度に教師なしだがエンドツーエンドの物理モデルを提供する。 QDFは原子化エネルギー予測に優れ、有効な電子密度を生成し、外挿を実証した。 QDFの実装はhttps://github.com/masashitsubaki/QuantumDeepField_moleculeで公開しています。

Deep neural networks (DNNs) have been used to successfully predict molecular properties calculated based on the Kohn--Sham density functional theory (KS-DFT). Although this prediction is fast and accurate, we believe that a DNN model for KS-DFT must not only predict the properties but also provide the electron density of a molecule. This letter presents the quantum deep field (QDF), which provides the electron density with an unsupervised but end-to-end physics-informed modeling by learning the atomization energy on a large-scale dataset. QDF performed well at atomization energy prediction, generated valid electron density, and demonstrated extrapolation. Our QDF implementation is available at https://github.com/masashitsubaki/QuantumDeepField_molecule.
翻訳日:2022-09-25 01:26:24 公開日:2020-11-16
# 弱基底集合をもつ分子グラフ畳み込みと分子波関数の等価性について

On the equivalence of molecular graph convolution and molecular wave function with poor basis set ( http://arxiv.org/abs/2011.07929v1 )

ライセンス: Link先を確認
Masashi Tsubaki and Teruyasu Mizoguchi(参考訳) 本研究では、1920年代にポーリングとレナード・ジョーンズが導入した量子物理学の近似である原子軌道(LCAO)の線形結合が、分子のグラフ畳み込みネットワーク(GCN)に対応することを示した。 しかし、GCNは不要な非線形性と深いアーキテクチャを含む。 また, 分子gcnは, 理論計算や量子化学シミュレーションで用いられる標準関数と比較して, 基底関数が貧弱であることを検証した。 これらの観測から、基礎となる量子物理学、特に密度汎関数理論(DFT)に基づく機械学習(ML)モデルである量子深度場(QDF)について述べる。 単一線形層GCNとみなすことができるため,QDFモデルは容易に理解できると考えている。 さらに、2つのバニラフィードフォワードニューラルネットワークを用いてエネルギー関数と、量子物理学とDFTに固有の非線形性を持つホヘンベルク-コーン写像を学習する。 分子エネルギー予測タスクにおいて,我々は小分子を用いたQDFモデルを訓練し,大きな分子で実験し,高い外挿性能を実現した「外挿」の実現可能性を示した。 これにより、有効な材料を発見するための信頼性と実用性がもたらされる。 実装はhttps://github.com/masashitsubaki/quantumdeepfield_moleculeで利用可能である。

In this study, we demonstrate that the linear combination of atomic orbitals (LCAO), an approximation of quantum physics introduced by Pauling and Lennard-Jones in the 1920s, corresponds to graph convolutional networks (GCNs) for molecules. However, GCNs involve unnecessary nonlinearity and deep architecture. We also verify that molecular GCNs are based on a poor basis function set compared with the standard one used in theoretical calculations or quantum chemical simulations. From these observations, we describe the quantum deep field (QDF), a machine learning (ML) model based on an underlying quantum physics, in particular the density functional theory (DFT). We believe that the QDF model can be easily understood because it can be regarded as a single linear layer GCN. Moreover, it uses two vanilla feedforward neural networks to learn an energy functional and a Hohenberg--Kohn map that have nonlinearities inherent in quantum physics and the DFT. For molecular energy prediction tasks, we demonstrated the viability of an ``extrapolation,'' in which we trained a QDF model with small molecules, tested it with large molecules, and achieved high extrapolation performance. This will lead to reliable and practical applications for discovering effective materials. The implementation is available at https://github.com/masashitsubaki/QuantumDeepField_molecule.
翻訳日:2022-09-25 01:26:10 公開日:2020-11-16
# 三進的閉包による多重ネットワークにおけるリンク予測

Link prediction in multiplex networks via triadic closure ( http://arxiv.org/abs/2011.09126v1 )

ライセンス: Link先を確認
Alberto Aleta, Marta Tuninetti, Daniela Paolotti, Yamir Moreno, and Michele Starnini(参考訳) リンク予測アルゴリズムは、複雑なシステムの構造とダイナミクスを理解し、不完全なデータセットからネットワークを再構築し、進化するネットワークにおける将来の相互作用を予測するのに役立つ。 ノード間の類似性に基づく利用可能なアルゴリズムは、これらのネットワークに存在する限られた量のリンクによって境界づけられる。 本研究では,後者の本質的な制限を減らし,新しいリンクの予測を改善するために,異なる種類の関係データを活用できることを示す。 そこで本研究では,Adamic-Adar法を任意の数の層からなる多重化ネットワークに一般化し,多様な相互作用形式を符号化したリンク予測アルゴリズムを提案する。 新しい測定基準は、いくつかの社会的、生物学的、技術的システムにおいて、古典的な単層アダミック・エイダースコアや他の最先端の手法よりも優れています。 副産物として、多重化adamic-adarメトリックを最大化する係数は、多重化ネットワークで構成された情報がリンク予測タスクにどのように最適化できるかを示し、どの層が冗長であるかを明らかにする。 興味深いことに、この効果は異なる層の予測に関して非対称である。 我々の研究は、新しい相互作用を予測するために異なる関係データの役割をより深く理解する方法を開拓し、複数のシステムに適用可能な多重ネットワークにおけるリンク予測の新しいアルゴリズムを提供する。

Link prediction algorithms can help to understand the structure and dynamics of complex systems, to reconstruct networks from incomplete data sets and to forecast future interactions in evolving networks. Available algorithms based on similarity between nodes are bounded by the limited amount of links present in these networks. In this work, we reduce this latter intrinsic limitation and show that different kind of relational data can be exploited to improve the prediction of new links. To this aim, we propose a novel link prediction algorithm by generalizing the Adamic-Adar method to multiplex networks composed by an arbitrary number of layers, that encode diverse forms of interactions. We show that the new metric outperforms the classical single-layered Adamic-Adar score and other state-of-the-art methods, across several social, biological and technological systems. As a byproduct, the coefficients that maximize the Multiplex Adamic-Adar metric indicate how the information structured in a multiplex network can be optimized for the link prediction task, revealing which layers are redundant. Interestingly, this effect can be asymmetric with respect to predictions in different layers. Our work paves the way for a deeper understanding of the role of different relational data in predicting new interactions and provides a new algorithm for link prediction in multiplex networks that can be applied to a plethora of systems.
翻訳日:2022-09-25 01:25:15 公開日:2020-11-16
# EventDetectR -- オープンソースのイベント検出システム

EventDetectR -- An Open-Source Event Detection System ( http://arxiv.org/abs/2011.09833v1 )

ライセンス: Link先を確認
Sowmya Chandrasekaran, Margarita Rebolledo, Thomas Bartz-Beielstein(参考訳) eventdetectr: 予期しない水質条件を検出することができる効率的なイベント検出システム(eds)。 このアプローチは多変量水質信号間の関係をモデル化するために複数のアルゴリズムを使用する。 次に,各時間ステップにおける事象の確率を連続的に測定するイベント検出アルゴリズムの構築において,モデルの残差を利用した。 提案手法は, 水質自動センサによる産業データを用いて, 水質汚染イベントに対する評価を行った。 その結果,フレームワークの性能は向上し,イベント検出に非常に適していることがわかった。

EventDetectR: An efficient Event Detection System (EDS) capable of detecting unexpected water quality conditions. This approach uses multiple algorithms to model the relationship between various multivariate water quality signals. Then the residuals of the models were utilized in constructing the event detection algorithm, which provides a continuous measure of the probability of an event at every time step. The proposed framework was tested for water contamination events with industrial data from automated water quality sensors. The results showed that the framework is reliable with better performance and is highly suitable for event detection.
翻訳日:2022-09-25 01:24:53 公開日:2020-11-16
# 静止状態fmriデータのための時間力学モデル--神経常微分方程式によるアプローチ

Temporal Dynamic Model for Resting State fMRI Data: A Neural Ordinary Differential Equation approach ( http://arxiv.org/abs/2011.08146v1 )

ライセンス: Link先を確認
Zheyu Wen(参考訳) 本研究の目的は, 静止状態機能型磁気共鳴画像(fmri)軌道の時間的動的モデルを提供することであり, 与えられたシーケンスに基づいて将来の脳画像を予測することである。 そこで我々は,表現学習と神経常微分方程式(neural ordinary differential equation,neural ode)を利用して,fmri画像データを潜在表現に圧縮し,微分方程式に従う軌道を予測するモデルを開発した。 潜在空間はガウス混合モデルにより解析された。 学習されたfMRI軌跡埋め込みは、軌跡のばらつきを説明し、各被験者の人間の特性を予測するのに利用できる。 本手法は,予測軌道全体の平均0.5空間相関を達成し,さらに解析を行うための訓練されたODEパラメータを提供する。

The objective of this paper is to provide a temporal dynamic model for resting state functional Magnetic Resonance Imaging (fMRI) trajectory to predict future brain images based on the given sequence. To this end, we came up with the model that takes advantage of representation learning and Neural Ordinary Differential Equation (Neural ODE) to compress the fMRI image data into latent representation and learn to predict the trajectory following differential equation. Latent space was analyzed by Gaussian Mixture Model. The learned fMRI trajectory embedding can be used to explain the variance of the trajectory and predict human traits for each subject. This method achieves average 0.5 spatial correlation for the whole predicted trajectory, and provide trained ODE parameter for further analysis.
翻訳日:2022-09-25 01:18:50 公開日:2020-11-16
# リジッドポイントクラウドオブジェクト操作のための長期水平計画フレームワーク

A Long Horizon Planning Framework for Manipulating Rigid Pointcloud Objects ( http://arxiv.org/abs/2011.08177v1 )

ライセンス: Link先を確認
Anthony Simeonov, Yilun Du, Beomjoon Kim, Francois R. Hogan, Joshua Tenenbaum, Pulkit Agrawal, Alberto Rodriguez(参考訳) 本稿では,従来の物体モデルを使わずに,点雲観測から直接動作する剛体物体の操作に関わる長期計画問題の解決フレームワークを提案する。 提案手法は,オブジェクトサブゴールの空間を計画し,汎用的な操作プリミティブのセットに頼って,ロボットとオブジェクトの相互作用のダイナミクスを推論する。 剛体では、物体との接触を保ち、サブゴールを3次元変換として表現する低レベルの操作技術を用いて、この抽象化を実現することができる。 そこで本稿では,非知覚オブジェクトの一般化と計画性能の向上を目的として,剛体操作のためのサブゴール表現法と,ポイントクラウド入力を処理するグラフアテンションベースのニューラルネットワークアーキテクチャを提案する。 我々は,YuMiロボットのシミュレーションおよび実世界実験を用いて,これらの選択を実験的に検証した。 その結果、新しいオブジェクトを長期計画を必要とするターゲット設定にうまく操作できることが判明した。 全体として、我々のフレームワークはタスク・アンド・モーション・プランニング(tamp)と学習ベースのアプローチの最高の世界を実現します。 プロジェクトwebサイト: https://anthonysimeonov.github.io/rpo-planning-framework/

We present a framework for solving long-horizon planning problems involving manipulation of rigid objects that operates directly from a point-cloud observation, i.e. without prior object models. Our method plans in the space of object subgoals and frees the planner from reasoning about robot-object interaction dynamics by relying on a set of generalizable manipulation primitives. We show that for rigid bodies, this abstraction can be realized using low-level manipulation skills that maintain sticking contact with the object and represent subgoals as 3D transformations. To enable generalization to unseen objects and improve planning performance, we propose a novel way of representing subgoals for rigid-body manipulation and a graph-attention based neural network architecture for processing point-cloud inputs. We experimentally validate these choices using simulated and real-world experiments on the YuMi robot. Results demonstrate that our method can successfully manipulate new objects into target configurations requiring long-term planning. Overall, our framework realizes the best of the worlds of task-and-motion planning (TAMP) and learning-based approaches. Project website: https://anthonysimeonov.github.io/rpo-planning-framework/.
翻訳日:2022-09-25 01:18:36 公開日:2020-11-16
# 縦断逆分類によるパーソナライズされた心血管疾患リスク軽減

Personalized Cardiovascular Disease Risk Mitigation via Longitudinal Inverse Classification ( http://arxiv.org/abs/2011.08254v1 )

ライセンス: Link先を確認
Michael T. Lash and W. Nick Street(参考訳) 心臓血管疾患(cvd)は世界中で何百万もの患者に影響を与える重篤な疾患であり、米国の主要な死因である。 しかし、近年では、患者を医療意思決定と治療のプロセスの中心に置く医療分野であるパーソナライズ医療の分野が急速に成長している。 多くのCVDに焦点を当てたパーソナライズドメディカル・イノベーションは遺伝子バイオマーカーに焦点を絞っている。 本研究では,cvdリスクの予測可能性を最小限に抑えるために,ライフスタイルをパーソナライズした推奨フレームワークである縦逆分類を提案する。 本フレームワークは, 歴史的CVDリスク, その他の患者特性を考慮したレコメンデーションの提供を目的としている。 実験の結果,提案手法の早期導入はCVDリスクを著しく低減させることがわかった。

Cardiovascular disease (CVD) is a serious illness affecting millions world-wide and is the leading cause of death in the US. Recent years, however, have seen tremendous growth in the area of personalized medicine, a field of medicine that places the patient at the center of the medical decision-making and treatment process. Many CVD-focused personalized medicine innovations focus on genetic biomarkers, which provide person-specific CVD insights at the genetic level, but do not focus on the practical steps a patient could take to mitigate their risk of CVD development. In this work we propose longitudinal inverse classification, a recommendation framework that provides personalized lifestyle recommendations that minimize the predicted probability of CVD risk. Our framework takes into account historical CVD risk, as well as other patient characteristics, to provide recommendations. Our experiments show that earlier adoption of the recommendations elicited from our framework produce significant CVD risk reduction.
翻訳日:2022-09-25 01:18:20 公開日:2020-11-16
# 機械学習と土壌湿度センシング:信号強度アプローチ

Machine Learning and Soil Humidity Sensing: Signal Strength Approach ( http://arxiv.org/abs/2011.08273v1 )

ライセンス: Link先を確認
Lea Duji\'c Rodi\'c, Tomislav \v{Z}upanovi\'c, Toni Perkovi\'c, and Petar \v{S}oli\'c (Corresponding Author, University of Split, Croatia), Joel J. P. C. Rodrigues (Federal University of Piau\'i (UFPI), Teresina - PI, Brazil and Instituto de Telecomunica\c{c}\~oes, Portugal)(参考訳) ユビキタスで広く普及するコンピューティングのiotビジョンは、物理世界とデジタル世界からなる未来のスマート灌水システムを生み出します。 機械学習と組み合わせることで、最適な水利用を確保するために土壌の湿度検知タスクをうまく解決するソリューションを提供することができる。 既存のソリューションは、感知されたデータを無線チャネルを介して送信する、空腹/露光センサーから受信したデータに基づいています。 時間が経つにつれて、多くのデバイスでバッテリー交換の問題があるため、特に遠隔地ではシステムのメンテナンスが難しくなっている。 したがって、新しいソリューションは、既存のソリューションに特有の利点を持つ代替、コスト、エネルギー効率のよいデバイスを提供する必要がある。 本研究は, 地中ビーコン装置の信号強度を簡易に測定することにより, 土壌湿度を高精度に検出する深層学習技術を用いて, 湿度センシングを実現する新しい低消費電力ロラに基づく費用効率システムの概念を検討するものである。

The IoT vision of ubiquitous and pervasive computing gives rise to future smart irrigation systems comprising physical and digital world. Smart irrigation ecosystem combined with Machine Learning can provide solutions that successfully solve the soil humidity sensing task in order to ensure optimal water usage. Existing solutions are based on data received from the power hungry/expensive sensors that are transmitting the sensed data over the wireless channel. Over time, the systems become difficult to maintain, especially in remote areas due to the battery replacement issues with large number of devices. Therefore, a novel solution must provide an alternative, cost and energy effective device that has unique advantage over the existing solutions. This work explores a concept of a novel, low-power, LoRa-based, cost-effective system which achieves humidity sensing using Deep learning techniques that can be employed to sense soil humidity with the high accuracy simply by measuring signal strength of the given underground beacon device.
翻訳日:2022-09-25 01:18:01 公開日:2020-11-16
# ロジスティック回帰におけるコミュニケーションの回避

Avoiding Communication in Logistic Regression ( http://arxiv.org/abs/2011.08281v1 )

ライセンス: Link先を確認
Aditya Devarakonda, James Demmel(参考訳) 確率勾配勾配(SGD)は、様々な機械学習問題を解くために最も広く使われている最適化手法の1つである。 SGDは、入力データからいくつかのデータポイントを反復的にサンプリングし、選択したデータポイントの計算勾配を計算し、ソリューションを更新することで最適化問題を解決する。 しかし、並列環境では、SGDは反復ごとにプロセス間通信を必要とする。 本稿では,SGDを用いたロジスティック回帰問題を解くための新しいコミュニケーション回避手法を提案する。 このテクニックは、sgd計算を、$s$がチューニングパラメータである各イテレーションの代わりに$s$イテレーションごとに通信する形式に再編成する。 我々は,SGDの理論的フロップ,帯域幅,遅延上限とその新しい通信回避変種を証明した。 さらに,新しい通信回避SGD(CA-SGD)法は,収束挙動や精度を変化させることなく,高速なインファイニバンドクラスタ上で最大4.97\times$の高速化を実現することを示す実験結果を示す。

Stochastic gradient descent (SGD) is one of the most widely used optimization methods for solving various machine learning problems. SGD solves an optimization problem by iteratively sampling a few data points from the input data, computing gradients for the selected data points, and updating the solution. However, in a parallel setting, SGD requires interprocess communication at every iteration. We introduce a new communication-avoiding technique for solving the logistic regression problem using SGD. This technique re-organizes the SGD computations into a form that communicates every $s$ iterations instead of every iteration, where $s$ is a tuning parameter. We prove theoretical flops, bandwidth, and latency upper bounds for SGD and its new communication-avoiding variant. Furthermore, we show experimental results that illustrate that the new Communication-Avoiding SGD (CA-SGD) method can achieve speedups of up to $4.97\times$ on a high-performance Infiniband cluster without altering the convergence behavior or accuracy.
翻訳日:2022-09-25 01:17:46 公開日:2020-11-16
# lstmオートエンコーダによるリアルタイム無線技術と変調分類

Real-Time Radio Technology and Modulation Classification via an LSTM Auto-Encoder ( http://arxiv.org/abs/2011.08295v1 )

ライセンス: Link先を確認
Ziqi Ke and Haris Vikalo(参考訳) 検出された無線信号に基づく通信技術および/または変調方式の特定は、スペクトル割り当てや電波干渉緩和など様々な用途で直面する課題である。 放射体の種類が増加し、無線信号に対する現実世界のチャネルの影響が変化するため、それらは困難である。 既存のスペクトラム監視技術は、様々な設定に配置された小型センサーを使用して、大量の無線およびリアルタイムスペクトラムデータを取得することができる。 しかし、そのようなデータを用いてエミッタのタイプを分類し、通信方式を検知する最先端の手法は、低コストの計算プラットフォーム上で実装できる計算効率において、必要なレベルの精度を達成するのに苦労する。 本稿では,ノイズ信号から安定かつロバストな特徴を自動的に抽出し,学習した特徴量を用いて変調や技術タイプを推定するlstm自動エンコーダに基づく学習フレームワークを提案する。 このアルゴリズムは、最先端の精度を超えながら、低コストの計算プラットフォームに容易に実装できるコンパクトニューラルネットワークアーキテクチャを利用する。 実写的な合成と空中無線データの結果から,提案手法は受信無線信号を安定かつ効率的に分類し,最先端の手法よりも優れた性能を示すことが判明した。

Identification of the type of communication technology and/or modulation scheme based on detected radio signal are challenging problems encountered in a variety of applications including spectrum allocation and radio interference mitigation. They are rendered difficult due to a growing number of emitter types and varied effects of real-world channels upon the radio signal. Existing spectrum monitoring techniques are capable of acquiring massive amounts of radio and real-time spectrum data using compact sensors deployed in a variety of settings. However, state-of-the-art methods that use such data to classify emitter types and detect communication schemes struggle to achieve required levels of accuracy at a computational efficiency that would allow their implementation on low-cost computational platforms. In this paper, we present a learning framework based on an LSTM denoising auto-encoder designed to automatically extract stable and robust features from noisy radio signals, and infer modulation or technology type using the learned features. The algorithm utilizes a compact neural network architecture readily implemented on a low-cost computational platform while exceeding state-of-the-art accuracy. Results on realistic synthetic as well as over-the-air radio data demonstrate that the proposed framework reliably and efficiently classifies received radio signals, often demonstrating superior performance compared to state-of-the-art methods.
翻訳日:2022-09-25 01:17:32 公開日:2020-11-16
# フェデレートラーニングに参加するための候補IoTクライアントの予算付きオンライン選択

Budgeted Online Selection of Candidate IoT Clients to Participate in Federated Learning ( http://arxiv.org/abs/2011.09849v1 )

ライセンス: Link先を確認
Ihab Mohammed, Shadha Tabatabai, Ala Al-Fuqaha, Faissal El Bouanani, Junaid Qadir, Basheer Qolomany, Mohsen Guizani(参考訳) 特に機械学習(ML)とディープラーニング(DL)は、業界にスマートサービスを提供する上で重要な役割を担います。 しかしこれらの技術は、データがクライアントから収集され、中央に格納され、処理されるため、プライバシやセキュリティ上の問題に悩まされる。 モデルパラメータがクライアントデータの代わりに交換されるアーキテクチャであるフェデレーション学習(fl)が、これらの懸念の解決策として提案されている。 それでもflは、通信ラウンドを通じてクライアントと通信することでグローバルモデルをトレーニングし、ネットワーク上のトラフィックを増やし、ターゲット精度への収束時間を増加させる。 そこで本研究では,テストの正確性の観点から最適な候補クライアントを選択することで,予算の多い候補クライアント数でステートフルFLの精度を最適化する問題を解く。 次に、ベストクライアントを見つけるためのオンラインステートフルflヒューリスティックを提案する。 さらに、提案したヒューリスティックを利用して、IoTデバイスタイプ分類に基づくステートフルなFLグローバルモデルをトレーニングし、クライアントに彼らの環境における不正なIoTデバイスについて警告するIoTクライアントアラームアプリケーションを提案する。 提案したオンラインヒューリスティックの効率をテストするために,実データを用いていくつかの実験を行い,その結果を最先端のアルゴリズムと比較する。 その結果,提案手法はオンライン乱数アルゴリズムを最大27%の精度で上回っていることがわかった。 さらに、提案したオンラインヒューリスティックのパフォーマンスは、最高のオフラインアルゴリズムの性能に匹敵する。

Machine Learning (ML), and Deep Learning (DL) in particular, play a vital role in providing smart services to the industry. These techniques however suffer from privacy and security concerns since data is collected from clients and then stored and processed at a central location. Federated Learning (FL), an architecture in which model parameters are exchanged instead of client data, has been proposed as a solution to these concerns. Nevertheless, FL trains a global model by communicating with clients over communication rounds, which introduces more traffic on the network and increases the convergence time to the target accuracy. In this work, we solve the problem of optimizing accuracy in stateful FL with a budgeted number of candidate clients by selecting the best candidate clients in terms of test accuracy to participate in the training process. Next, we propose an online stateful FL heuristic to find the best candidate clients. Additionally, we propose an IoT client alarm application that utilizes the proposed heuristic in training a stateful FL global model based on IoT device type classification to alert clients about unauthorized IoT devices in their environment. To test the efficiency of the proposed online heuristic, we conduct several experiments using a real dataset and compare the results against state-of-the-art algorithms. Our results indicate that the proposed heuristic outperforms the online random algorithm with up to 27% gain in accuracy. Additionally, the performance of the proposed online heuristic is comparable to the performance of the best offline algorithm.
翻訳日:2022-09-25 01:16:50 公開日:2020-11-16
# 乳がん治療と出生率データにおける欠損値の計算手法

Imputation techniques on missing values in breast cancer treatment and fertility data ( http://arxiv.org/abs/2011.09912v1 )

ライセンス: Link先を確認
Xuetong Wu, Hadi Akbarzadeh Khorshidi, Uwe Aickelin, Zobaida Edib, Michelle Peate(参考訳) データマイニング技術を用いた臨床判断サポートは、ここ数年で意思決定エラーを減らすためのよりインテリジェントな方法を提供する。 しかし、臨床データセットは、しばしば高い欠如に苦しめられ、不適切に処理された場合のモデリングの品質に悪影響を及ぼす。 価値の欠如を暗示することは、問題を解決する機会を与える。 従来のインプテーション法では、平均インプテーションや欠落事例などの単純な統計解析が採用されており、多くの制限があり、学習性能が低下する。 本研究では,良質な乳癌(bc)データセットの作成において,bc治療と化学療法関連アメノロエアの関係を明らかにするための効率的な手法を提案する。

Clinical decision support using data mining techniques offers more intelligent way to reduce the decision error in the last few years. However, clinical datasets often suffer from high missingness, which adversely impacts the quality of modelling if handled improperly. Imputing missing values provides an opportunity to resolve the issue. Conventional imputation methods adopt simple statistical analysis, such as mean imputation or discarding missing cases, which have many limitations and thus degrade the performance of learning. This study examines a series of machine learning based imputation methods and suggests an efficient approach to in preparing a good quality breast cancer (BC) dataset, to find the relationship between BC treatment and chemotherapy-related amenorrhoea, where the performance is evaluated with the accuracy of the prediction.
翻訳日:2022-09-25 01:16:25 公開日:2020-11-16
# アンチラーニングデータセットを用いたキー機械学習原則の指導

Teaching Key Machine Learning Principles Using Anti-learning Datasets ( http://arxiv.org/abs/2011.10660v1 )

ライセンス: Link先を確認
Chris Roadknight, Prapa Rattadilok, Uwe Aickelin(参考訳) 機械学習の教育の多くは、反復的なヒルクライミングアプローチと、ローカルあるいはグローバルの最大化につながる情報を得るためのローカル知識の利用に焦点を当てている。 本稿では,アンチラーニング(アンチラーニング)と呼ばれる手法を含む,最適解への代替手法の教育を提唱する。 簡単な指導方法を用いることで、学生はトレーニングプロセスから除外されたデータに対する検証の重要性をより深く理解することができ、各問題には独自の解決方法が必要である。 また, クロスバリデーションの粒度が異なっており, 結果が全く異なることを示すことにより, 十分なデータを用いてモデルを訓練する必要性を例示する。

Much of the teaching of machine learning focuses on iterative hill-climbing approaches and the use of local knowledge to gain information leading to local or global maxima. In this paper we advocate the teaching of alternative methods of generalising to the best possible solution, including a method called anti-learning. By using simple teaching methods, students can achieve a deeper understanding of the importance of validation on data excluded from the training process and that each problem requires its own methods to solve. We also exemplify the requirement to train a model using sufficient data by showing that different granularities of cross-validation can yield very different results.
翻訳日:2022-09-25 01:16:12 公開日:2020-11-16
# 分散ネットワークトポロジーのレジリエント同定

Resilient Identification of Distribution Network Topology ( http://arxiv.org/abs/2011.07981v1 )

ライセンス: Link先を確認
Mohammad Jafarian, Alireza Soroudi, Andrew Keane(参考訳) ネットワークトポロジ識別(TI)は、分散エネルギー資源管理システム(DERMS)において、分散エネルギー資源(DER)を組織化し、運用するための重要な機能である。 本稿では,DerMSで利用可能な測定値のみに依存するネットワークTI関数を開発するために,識別分析(DA)を配置する。 提案手法は、ネットワークスイッチング構成と保護デバイスの状態を特定することができる。 次に、通信チャネルの中断に対するti回復性を改善するため、欠落信号の復元のために二次計画最適化手法を提案する。 提案したデータリカバリ手法とベイズの定理を併用して, 異常値の同定を行うベンチマークを開発した。 このベンチマークにより、TI機能はサイバー攻撃に対して耐性がある。 計算負荷が低いため、このアプローチは高速追跡であり、リアルタイムアプリケーションに適用できる。 異なる測定値の寄与と, システム負荷タイプおよび負荷レベルが, 提案手法の性能に与える影響を評価するために, 感度解析を行った。

Network topology identification (TI) is an essential function for distributed energy resources management systems (DERMS) to organize and operate widespread distributed energy resources (DERs). In this paper, discriminant analysis (DA) is deployed to develop a network TI function that relies only on the measurements available to DERMS. The propounded method is able to identify the network switching configuration, as well as the status of protective devices. Following, to improve the TI resiliency against the interruption of communication channels, a quadratic programming optimization approach is proposed to recover the missing signals. By deploying the propounded data recovery approach and Bayes' theorem together, a benchmark is developed afterward to identify anomalous measurements. This benchmark can make the TI function resilient against cyber-attacks. Having a low computational burden, this approach is fast-track and can be applied in real-time applications. Sensitivity analysis is performed to assess the contribution of different measurements and the impact of the system load type and loading level on the performance of the proposed approach.
翻訳日:2022-09-25 01:10:30 公開日:2020-11-16
# インドネシアにおける新型コロナウイルス(covid-19)流行に関する批判的データ分析

Critical data analysis of COVID-19 spreading in Indonesia to measure the readiness of new-normal policy ( http://arxiv.org/abs/2011.07679v1 )

ライセンス: Link先を確認
Muhammad Ariful Furqon, Nina Fadilah Najwa, Endah Septa Sintiya, Erista Maya Safitri, Iqbal Ramadhani Mukhlis(参考訳) 新型コロナウイルスのパンデミックが世界的な問題となっている。 新型コロナウイルスの感染拡大の連鎖を打破する様々な取り組みが行われている。 インドネシア政府は、新型コロナウイルスの感染拡大を防ぐための大規模な社会規制政策を発表した。 しかし、大規模な社会制限政策はインドネシアの経済に影響を与えた。 いくつかの検討の後、インドネシア政府は、厳格な健康プロトコルで家庭外の活動を規制する新しい正常な政策を実行した。 本研究の目的は,大規模社会制限期以降のインドネシアの即応度を,新正常期に向けて測定することである。 準備レベルを特定するために、統計分析および予測モデリングの形で必要とされる測定パラメータを指定する。 統計分析と予測の結果から,過去1カ月で新たに確認された症例は2回以上増加した。 また, 新たに確認された症例の成長率は, 予測結果と比較して急上昇した。 したがって、政府は新たな政策を再検討し、経済要因を強調し、健康要因について考える必要がある。

COVID-19 pandemic has become a global issue nowadays. Various efforts have been made to break the chain of the spread of the COVID-19. Indonesia's government issued a large-scale social restrictions policy to prevent the spread of the COVID-19. However, large-scale social restrictions policy impacted the economy of the Indonesian. After several considerations, the Indonesian government implemented a new-normal policy, which regulates the activities outside the home with strict health protocols. This study's objective is to measure Indonesia's readiness level after the large-scale social restrictions period towards the new-normal period. To specify the readiness level, the measurement parameters required in the form of statistical analysis and forecasting modeling. Based on the results of statistical analysis and forecasting, over the past month, new confirmed cases increased more than two times. Besides, the growth rate of new confirmed cases dramatically increased rapidly compared to the prediction results. Therefore, the government must review the new-normal policy again and emphasize economic factors and think about health factors
翻訳日:2022-09-25 01:10:12 公開日:2020-11-16
# QoS予測のための確率分布と位置認識ResNetアプローチ

A Probability Distribution and Location-aware ResNet Approach for QoS Prediction ( http://arxiv.org/abs/2011.07780v1 )

ライセンス: Link先を確認
Wenyan Zhang, Ling Xu, Meng Yan, Ziliang Wang, and Chunlei Fu(参考訳) 近年、オンラインサービスの数は急速に増加し、クラウドプラットフォームを通じて必要なサービスを呼び出すことが主要なトレンドとなっている。 大量の未使用サービスの中から高品質サービスを選択して推奨する方法は、研究においてホットな問題となっている。 従来のQoS予測手法の中で,協調フィルタリング(CF)法は低次元線形特性しか学習できず,その効果はスパースデータによって制限される。 既存のディープラーニング手法は高次元非線形特徴をよりよく捉えることができるが、そのほとんどはアイデンティティの単一特徴しか使用せず、ネットワークの深い勾配の消失の問題も深刻であり、QoS予測の影響は不十分である。 そこで本研究では,QoS予測(PLRes)のための高度な確率分布と位置認識型ResNetアプローチを提案する。 提案手法では,ユーザやサービスの位置特性と確率分布の履歴的実行を考慮し,まずQoS予測にResNetを用いて特徴を再利用し,勾配の消失やモデル劣化の問題を緩和する。 実世界のWebサービスデータセットWS-DREAMで一連の実験が行われた。 その結果, PLRes モデルはQoS 予測に有効であり, 密度 5%-30% で, データは疎結合であり, LDCF を 12.35%-15.37% 上回っていることがわかった。

In recent years, the number of online services has grown rapidly, invoke the required services through the cloud platform has become the primary trend. How to help users choose and recommend high-quality services among huge amounts of unused services has become a hot issue in research. Among the existing QoS prediction methods, the collaborative filtering(CF) method can only learn low-dimensional linear characteristics, and its effect is limited by sparse data. Although existing deep learning methods could capture high-dimensional nonlinear features better, most of them only use the single feature of identity, and the problem of network deepening gradient disappearance is serious, so the effect of QoS prediction is unsatisfactory. To address these problems, we propose an advanced probability distribution and location-aware ResNet approach for QoS Prediction(PLRes). This approach considers the historical invocations probability distribution and location characteristics of users and services, and first use the ResNet in QoS prediction to reuses the features, which alleviates the problems of gradient disappearance and model degradation. A series of experiments are conducted on a real-world web service dataset WS-DREAM. The results indicate that PLRes model is effective for QoS prediction and at the density of 5%-30%, which means the data is sparse, it significantly outperforms a state-of-the-art approach LDCF by 12.35%-15.37% in terms of MAE.
翻訳日:2022-09-25 01:09:58 公開日:2020-11-16
# ADAMとSGDを混合した最適化手法

Mixing ADAM and SGD: a Combined Optimization Method ( http://arxiv.org/abs/2011.08042v1 )

ライセンス: Link先を確認
Nicola Landro, Ignazio Gallo, Riccardo La Grassa(参考訳) 最適化手法(最適化)は、ディープラーニングの分野におけるニューラルネットワークの効率的なトレーニングに特に注目される。 文献では、トレーニングされた神経モデルと異なるオプティマイザの使用を比較する多くの論文がある。 各論文は、特定の問題に対してオプティマイザは他の問題よりも優れていることを示したが、問題が変化するにつれてこのタイプの結果はもはや有効ではなく、ゼロから始める必要がある。 本稿では,2つの異なる最適化器の組み合わせを提案するが,同時に使用すると,異なる問題で単一最適化器の性能を克服できる。 我々はSGDとADAMを同時に統合するMAS (Mixing ADAM and SGD) と呼ばれる新しいオプティマイザを提案する。 SGDやADAMを改善するのではなく、両方の利点を最大限に活用するのです。 我々は,様々なcnnを用いて画像とテキスト文書の分類実験を行い,提案するmasオプティマイザが単一のsgdやadamオプティマイザよりも優れた性能をもたらすことを実証した。 実験のソースコードとすべての結果は、以下のリンクhttps://gitlab.com/nicolalandro/multi\_optimizerでオンラインで入手できる。

Optimization methods (optimizers) get special attention for the efficient training of neural networks in the field of deep learning. In literature there are many papers that compare neural models trained with the use of different optimizers. Each paper demonstrates that for a particular problem an optimizer is better than the others but as the problem changes this type of result is no longer valid and we have to start from scratch. In our paper we propose to use the combination of two very different optimizers but when used simultaneously they can overcome the performances of the single optimizers in very different problems. We propose a new optimizer called MAS (Mixing ADAM and SGD) that integrates SGD and ADAM simultaneously by weighing the contributions of both through the assignment of constant weights. Rather than trying to improve SGD or ADAM we exploit both at the same time by taking the best of both. We have conducted several experiments on images and text document classification, using various CNNs, and we demonstrated by experiments that the proposed MAS optimizer produces better performance than the single SGD or ADAM optimizers. The source code and all the results of the experiments are available online at the following link https://gitlab.com/nicolalandro/multi\_optimizer
翻訳日:2022-09-25 01:08:29 公開日:2020-11-16
# ドメインベース前処理が主観的クラスタリングに及ぼす影響

The Influence of Domain-Based Preprocessing on Subject-Specific Clustering ( http://arxiv.org/abs/2011.08127v1 )

ライセンス: Link先を確認
Alexandra Gkolia, Nikhil Fernandes, Nicolas Pizzo, James Davenport and Akshar Nair(参考訳) 世界的な新型コロナウイルス(covid-19)パンデミックでオンライン教育の大半を大学に移すという突然の変化は、学者の労働負荷を増加させている。 寄与する要因の1つは、学生から来る大量のクエリに答えることである。 これらのクエリは講義の同期時間フレームに制限されないため、それらの多くは関連しているか、同等である可能性が高い。 この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。 これまでの研究では,繰り返し発生するLDAモデルを用いて,高い効率性が得られるクラスタリング法の改善を目指していた。 私たちのデータセットには、バース大学のコンピュータサイエンスコースからオンラインに投稿された質問が含まれていました。 これらの質問の多くは、特定の単語が英語の一般的な単語と見なされ、特定の符号語として認識されていないため、クラスタリングに問題を引き起こしたコード抜粋を含んでいた。 これを解決するために、データセットの事前処理の一環として、Pythonを使ってこれらの技術的用語のタグ付けを実装しました。 本稿では,データ集合をタグ付けし,コードの抜粋を識別し,推論を正当化するために経験的な結果を提供する領域について検討する。

The sudden change of moving the majority of teaching online at Universities due to the global Covid-19 pandemic has caused an increased amount of workload for academics. One of the contributing factors is answering a high volume of queries coming from students. As these queries are not limited to the synchronous time frame of a lecture, there is a high chance of many of them being related or even equivalent. One way to deal with this problem is to cluster these questions depending on their topic. In our previous work, we aimed to find an improved method of clustering that would give us a high efficiency, using a recurring LDA model. Our data set contained questions posted online from a Computer Science course at the University of Bath. A significant number of these questions contained code excerpts, which we found caused a problem in clustering, as certain terms were being considered as common words in the English language and not being recognised as specific code terms. To address this, we implemented tagging of these technical terms using Python, as part of preprocessing the data set. In this paper, we explore the realms of tagging data sets, focusing on identifying code excerpts and providing empirical results in order to justify our reasoning.
翻訳日:2022-09-25 01:07:29 公開日:2020-11-16
# トランスフォーマネットワークと自己教師付き事前学習特徴を用いたエンドツーエンド音声理解

End-to-end spoken language understanding using transformer networks and self-supervised pre-trained features ( http://arxiv.org/abs/2011.08238v1 )

ライセンス: Link先を確認
Edmilson Morais, Hong-Kwang J. Kuo, Samuel Thomas, Zoltan Tuske and Brian Kingsbury(参考訳) トランスフォーマーネットワークと自己教師型事前学習は、自然言語処理(NLP)分野における最先端の成果を一貫して提供してきたが、音声言語理解(SLU)分野における彼らのメリットは、まださらなる調査が必要である。 本稿では,自己教師付き事前学習音響特徴,事前学習モデルの初期化,マルチタスクトレーニングを実現するモジュール型エンドツーエンド(e2e)sluトランスフォーマネットワークアーキテクチャを提案する。 ATISデータセットを用いて意図と実体のラベル/値を予測するためのSLU実験を行った。 これらの実験は,事前学習モデルの初期化とマルチタスク訓練と従来のフィルタバンクと自己指導型事前学習音響特性の相互作用について検討した。 その結果, 自己教師付き事前学習音響特性は, ほぼすべての実験においてフィルタバンク特性より優れるだけでなく, マルチタスクトレーニングと組み合わせて使用する場合, 事前学習モデル初期化の必要性をほとんど排除できることがわかった。

Transformer networks and self-supervised pre-training have consistently delivered state-of-art results in the field of natural language processing (NLP); however, their merits in the field of spoken language understanding (SLU) still need further investigation. In this paper we introduce a modular End-to-End (E2E) SLU transformer network based architecture which allows the use of self-supervised pre-trained acoustic features, pre-trained model initialization and multi-task training. Several SLU experiments for predicting intent and entity labels/values using the ATIS dataset are performed. These experiments investigate the interaction of pre-trained model initialization and multi-task training with either traditional filterbank or self-supervised pre-trained acoustic features. Results show not only that self-supervised pre-trained acoustic features outperform filterbank features in almost all the experiments, but also that when these features are used in combination with multi-task training, they almost eliminate the necessity of pre-trained model initialization.
翻訳日:2022-09-25 01:01:26 公開日:2020-11-16
# 磁気共鳴前立腺セグメンテーションにおける深層学習 : レビューと新しい展望

Deep learning in magnetic resonance prostate segmentation: A review and a new perspective ( http://arxiv.org/abs/2011.07795v1 )

ライセンス: Link先を確認
David Gillespie, Connah Kendrick, Ian Boon, Cheng Boon, Tim Rattay, Moi Hoon Yap(参考訳) 前立腺放射線療法は, 将来的にはMRIベースの放射線療法により, 日常適応放射線治療の目標定義が確立される。 しかし、MRIデータから前立腺を正確に切り離すのに必要な時間は、時間のかかるプロセスである。 深層学習は、正確な前立腺分画ががんの検出と治療に役立つ前立腺がんの精密放射線治療の潜在的な新しい技術として認識されている。 しかし、トレーニングされたモデルは、異なる取得プロトコル、限られた公開データセット、データセットのサイズが比較的小さいため、臨床的な設定に限定することができる。 そこで, 前立腺のセグメンテーションの分野を探究し, 一般化可能な解を見つけるために, MR前立腺のセグメンテーションにおける最先端のディープラーニングアルゴリズムを概観し, 限界と強度を議論して分野への洞察を提供し, MR前立腺セグメンテーションのための最適化された2次元U-Netを提案する。 Dice similarity Coefficient (DSC) を用いた4つの公開データセットの性能評価を行った。 実験にはデータセット評価とデータセット間評価が含まれる。 最良の結果は複合評価(decathlon test setでのdsc 0.9427)により達成され、最も低い結果はクロスデータセット評価(dsc 0.5892、prostate x training set、promise 12 test set)によって達成される。 課題を概説し、今後の作業に推奨する。 我々の研究はMR前立腺セグメンテーションの新しい視点を提供し、さらに重要なことは、研究者がアルゴリズムを評価するための標準化された実験環境を提供することである。 私たちのコードはhttps://github.com/aiemmu/mri\_prostateで利用可能です。

Prostate radiotherapy is a well established curative oncology modality, which in future will use Magnetic Resonance Imaging (MRI)-based radiotherapy for daily adaptive radiotherapy target definition. However the time needed to delineate the prostate from MRI data accurately is a time consuming process. Deep learning has been identified as a potential new technology for the delivery of precision radiotherapy in prostate cancer, where accurate prostate segmentation helps in cancer detection and therapy. However, the trained models can be limited in their application to clinical setting due to different acquisition protocols, limited publicly available datasets, where the size of the datasets are relatively small. Therefore, to explore the field of prostate segmentation and to discover a generalisable solution, we review the state-of-the-art deep learning algorithms in MR prostate segmentation; provide insights to the field by discussing their limitations and strengths; and propose an optimised 2D U-Net for MR prostate segmentation. We evaluate the performance on four publicly available datasets using Dice Similarity Coefficient (DSC) as performance metric. Our experiments include within dataset evaluation and cross-dataset evaluation. The best result is achieved by composite evaluation (DSC of 0.9427 on Decathlon test set) and the poorest result is achieved by cross-dataset evaluation (DSC of 0.5892, Prostate X training set, Promise 12 testing set). We outline the challenges and provide recommendations for future work. Our research provides a new perspective to MR prostate segmentation and more importantly, we provide standardised experiment settings for researchers to evaluate their algorithms. Our code is available at https://github.com/AIEMMU/MRI\_Prostate.
翻訳日:2022-09-25 01:00:44 公開日:2020-11-16
# Scanning-robust Stylized QRコード生成のためのエンドツーエンド手法

An End-to-end Method for Producing Scanning-robust Stylized QR Codes ( http://arxiv.org/abs/2011.07815v1 )

ライセンス: Link先を確認
Hao Su, Jianwei Niu, Xuefeng Liu, Qingfeng Li, Ji Wan, Mingliang Xu, Tao Ren(参考訳) QRコード(Quick Response)は、世界でもっとも使われている2次元コードの一つである。 QRコードは、視覚的意味論や美的要素が欠けている白黒モジュールのランダムコレクションとして現れ、QRコードの外観を美化するための最近の研究に刺激を与えている。 しかし、これらは固定生成アルゴリズムを採用するため、事前定義されたスタイルでQRコードしか生成できない。 本稿では,ニューラルスタイル転送技術を組み合わせることで,パーソナライズされ,多様性があり,魅力的な,走査ロバストなQRコードを生成する,ArtCoderという新しいエンドツーエンド手法を提案する。 〜 生成されたスタイリッシュqrコードがスキャニングロバストであることを保証するため,サンプリングシミュレーション層,モジュールベースのコードロス,競合機構を提案する。 実験結果から,本方式のQRコードは視覚効果とスキャニング・ロバスト性の両方において高品質であり,実世界のアプリケーションをサポートすることができることがわかった。

Quick Response (QR) code is one of the most worldwide used two-dimensional codes.~Traditional QR codes appear as random collections of black-and-white modules that lack visual semantics and aesthetic elements, which inspires the recent works to beautify the appearances of QR codes. However, these works adopt fixed generation algorithms and therefore can only generate QR codes with a pre-defined style. In this paper, combining the Neural Style Transfer technique, we propose a novel end-to-end method, named ArtCoder, to generate the stylized QR codes that are personalized, diverse, attractive, and scanning-robust.~To guarantee that the generated stylized QR codes are still scanning-robust, we propose a Sampling-Simulation layer, a module-based code loss, and a competition mechanism. The experimental results show that our stylized QR codes have high-quality in both the visual effect and the scanning-robustness, and they are able to support the real-world application.
翻訳日:2022-09-25 01:00:12 公開日:2020-11-16
# FRDet: 自動走行の組込みプロセッサのための消火モジュールに基づくバランスと軽量物体検出装置

FRDet: Balanced and Lightweight Object Detector based on Fire-Residual Modules for Embedded Processor of Autonomous Driving ( http://arxiv.org/abs/2011.08061v1 )

ライセンス: Link先を確認
Seontaek Oh, Ji-Hwan You, Young-Keun Kim(参考訳) 自動運転のための組み込みプロセッサにデプロイするには、オブジェクト検出ネットワークは、精度、リアルタイム推論、軽量モデルサイズ要件をすべて満たさなければならない。 従来のディープcnnベースの検出器は高精度を目指しており、メモリ容量の少ない組み込みシステムではモデルサイズが重くなる。 対照的に、軽量物体検出器は大幅に圧縮されるが、精度はかなり犠牲になる。 そこで本研究では,自動運転アプリケーションのための組込みgpuプロセッサにおいて,精度,モデルサイズ,リアルタイム処理の制約を満たした軽量な一段階物体検出器frdetを提案する。 我々のネットワークは、yolov3レベルの精度を達成または超えながら、モデルの圧縮を最大化することを目指している。 本稿では,残差のスキップ接続を持つファイアモジュールを適応させることにより,低精度な損失の軽量ネットワークを設計するための,ファイアレジシデント(fr)モジュールを提案する。 さらに、境界ボックスのガウス的不確実性モデリングを適用して、局所化精度をさらに高める。 KITTIデータセットの実験では、FRDetはメモリサイズを50.8%削減したが、YOLOv3に比べて1.12%精度が向上した。 さらに、リアルタイム検出速度は組み込みGPUボード(NVIDIA Xavier)で31.3FPSに達した。 提案ネットワークは他の深層cnnオブジェクト検出器と比較して高い圧縮率を達成し,軽量検出器ベースラインよりも精度が向上した。 したがって,提案するfrdetは,精度,実時間推定,光モデルサイズといったすべての基準を満たす自律走行の実用的応用のための,バランスの取れた効率的な物体検出器である。

For deployment on an embedded processor for autonomous driving, the object detection network should satisfy all of the accuracy, real-time inference, and light model size requirements. Conventional deep CNN-based detectors aim for high accuracy, making their model size heavy for an embedded system with limited memory space. In contrast, lightweight object detectors are greatly compressed but at a significant sacrifice of accuracy. Therefore, we propose FRDet, a lightweight one-stage object detector that is balanced to satisfy all the constraints of accuracy, model size, and real-time processing on an embedded GPU processor for autonomous driving applications. Our network aims to maximize the compression of the model while achieving or surpassing YOLOv3 level of accuracy. This paper proposes the Fire-Residual (FR) module to design a lightweight network with low accuracy loss by adapting fire modules with residual skip connections. In addition, the Gaussian uncertainty modeling of the bounding box is applied to further enhance the localization accuracy. Experiments on the KITTI dataset showed that FRDet reduced the memory size by 50.8% but achieved higher accuracy by 1.12% mAP compared to YOLOv3. Moreover, the real-time detection speed reached 31.3 FPS on an embedded GPU board(NVIDIA Xavier). The proposed network achieved higher compression with comparable accuracy compared to other deep CNN object detectors while showing improved accuracy than the lightweight detector baselines. Therefore, the proposed FRDet is a well-balanced and efficient object detector for practical application in autonomous driving that can satisfies all the criteria of accuracy, real-time inference, and light model size.
翻訳日:2022-09-25 00:59:52 公開日:2020-11-16
# 野生の歩行者の回復とシミュレーション

Recovering and Simulating Pedestrians in the Wild ( http://arxiv.org/abs/2011.08106v1 )

ライセンス: Link先を確認
Ze Yang, Siva Manivasagam, Ming Liang, Bin Yang, Wei-Chiu Ma, Raquel Urtasun(参考訳) センサーシミュレーションは、自動運転車の性能テストと、知覚システムを改善するためのデータ拡張のための重要なコンポーネントである。 典型的なアプローチは、アーティストが新しいシナリオを生成するために3Dアセットとアニメーションを作成することに依存する。 しかし、これはスケールしない。 対照的に,自動車の走行によって野生で捕獲されたセンサから歩行者の形状や動きを復元することを提案する。 この目的に向けて, 人体形状の先行情報を利用する深層構造モデルにおけるエネルギー最小化, 画像から抽出した2Dポーズとの投影整合性, 再構成メッシュがLiDARの読み値に一致するように促すレイキャスターの課題を定式化する。 重要なのは、3Dスキャンや3Dポーズアノテーションは必要ありません。 次に、再構成された歩行者資産銀行をリアルなLiDARシミュレーションシステムに組み込み、シミュレーションされたLiDARデータを用いて、視覚的知覚タスクに必要な注釈付き現実世界データの量を大幅に削減できることを示す。

Sensor simulation is a key component for testing the performance of self-driving vehicles and for data augmentation to better train perception systems. Typical approaches rely on artists to create both 3D assets and their animations to generate a new scenario. This, however, does not scale. In contrast, we propose to recover the shape and motion of pedestrians from sensor readings captured in the wild by a self-driving car driving around. Towards this goal, we formulate the problem as energy minimization in a deep structured model that exploits human shape priors, reprojection consistency with 2D poses extracted from images, and a ray-caster that encourages the reconstructed mesh to agree with the LiDAR readings. Importantly, we do not require any ground-truth 3D scans or 3D pose annotations. We then incorporate the reconstructed pedestrian assets bank in a realistic LiDAR simulation system by performing motion retargeting, and show that the simulated LiDAR data can be used to significantly reduce the amount of annotated real-world data required for visual perception tasks.
翻訳日:2022-09-25 00:59:14 公開日:2020-11-16
# 歩行者行動予測のためのマルチモーダルハイブリッドアーキテクチャ

Multi-Modal Hybrid Architecture for Pedestrian Action Prediction ( http://arxiv.org/abs/2012.00514v1 )

ライセンス: Link先を確認
Amir Rasouli, Tiffany Yau, Mohsen Rohani and Jun Luo(参考訳) 歩行者行動予測は、都市環境におけるインテリジェント運転システムの大きな課題の1つである。 歩行者は、歩行者の外観、他の道路利用者の状態、環境レイアウトなど、様々な情報ソースに依存する様々な行動や適切な解釈を示すことが多い。 そこで本研究では, 歩行者の横断行動を予測するために, 環境から取得した異なる情報ソースを組み込んだマルチモーダル予測アルゴリズムを提案する。 提案モデルは,環境の視覚的特徴とシーンのダイナミックスを分析するために,フィードフォワードとリカレントネットワークで構成されるハイブリッド学習アーキテクチャの恩恵を受ける。 既存の2次元歩行者行動ベンチマークと新たにアノテートされた3次元運転データセットを用いて,提案モデルが歩行者横断予測における最先端性能を実現することを示す。

Pedestrian behavior prediction is one of the major challenges for intelligent driving systems in urban environments. Pedestrians often exhibit a wide range of behaviors and adequate interpretations of those depend on various sources of information such as pedestrian appearance, states of other road users, the environment layout, etc. To address this problem, we propose a novel multi-modal prediction algorithm that incorporates different sources of information captured from the environment to predict future crossing actions of pedestrians. The proposed model benefits from a hybrid learning architecture consisting of feedforward and recurrent networks for analyzing visual features of the environment and dynamics of the scene. Using the existing 2D pedestrian behavior benchmarks and a newly annotated 3D driving dataset, we show that our proposed model achieves state-of-the-art performance in pedestrian crossing prediction.
翻訳日:2022-09-25 00:58:53 公開日:2020-11-16
# 腫瘍セグメンテーションのためのマルチデノジング入力を用いたマルチデノジングネットワーク

Multi-Decoder Networks with Multi-Denoising Inputs for Tumor Segmentation ( http://arxiv.org/abs/2012.03684v1 )

ライセンス: Link先を確認
Minh H. Vu and Tufve Nyholm and Tommy L\"ofstedt(参考訳) マルチモーダルMRIスキャンによる脳神経グリオーマの自動分離は臨床試験や診療において重要な役割を担っている。 残念なことに、手動のセグメンテーションは非常に困難で、時間を要する、コストがかかり、しばしば不正確である。 本研究では,部分共有エンコーダを用いて3つのサブプロブレムを共同学習することにより,マルチデコーダアーキテクチャを用いたエンドツーエンドのディープラーニングに基づくセグメンテーション手法を提案する。 また,入力画像に平滑化手法を適用し,ネットワークへの追加入力として定型バージョンを生成することを提案する。 検証性能は,提案手法を用いた場合の改善を示す。 提案手法は脳腫瘍のセグメンテーションの不確かさの定量化課題であるmultimodal magnetic resonance imaging challenge 2020で2位にランクインした。

Automatic segmentation of brain glioma from multimodal MRI scans plays a key role in clinical trials and practice. Unfortunately, manual segmentation is very challenging, time-consuming, costly, and often inaccurate despite human expertise due to the high variance and high uncertainty in the human annotations. In the present work, we develop an end-to-end deep-learning-based segmentation method using a multi-decoder architecture by jointly learning three separate sub-problems using a partly shared encoder. We also propose to apply smoothing methods to the input images to generate denoised versions as additional inputs to the network. The validation performance indicate an improvement when using the proposed method. The proposed method was ranked 2nd in the task of Quantification of Uncertainty in Segmentation in the Brain Tumors in Multimodal Magnetic Resonance Imaging Challenge 2020.
翻訳日:2022-09-25 00:58:41 公開日:2020-11-16
# 証明型ブロックチェーンを用いた安全車両通信

Secure Vehicle Communications Using Proof-of-Nonce Blockchain ( http://arxiv.org/abs/2011.07846v1 )

ライセンス: Link先を確認
N. Y. Ahn, D.H. Lee(参考訳) 本稿では,物理層セキュリティを実現する自律運転について述べる。 提案する車両通信は、Proof-of-Nonce(PoN)ブロックチェーンアルゴリズムに基づいて実装される。 PoNブロックチェーンアルゴリズムは、軽量で実装可能なコンセンサスアルゴリズムである。 本稿では,PoNアルゴリズムと機密容量を欠いた物理層セキュリティを実現しつつ,よりセキュアな車両通信方式を提案する。 機密容量が基準値以上である場合にのみブロックを生成することにより、物理的な層セキュリティを有する車両にのみ交通情報を提供できる。 この車両通信方式は、量子コンピューティングに基づくハッカーでも十分な安全性を確保することができる。

This paper presents an autonomous driving that achieves physical layer security. Proposed vehicle communication is implemented based on Proof-of-Nonce (PoN) blockchain algorithm. PoN blockchain algorithm is a consensus algorithm that can be implemented in light weight. We propose a more secure vehicle communication scheme while achieving physical layer security by defecting PoN algorithm and secrecy capacity. By generating a block only when secrecy capacity is greater than or equal to the reference value, traffic information can be provided only to vehicles with physical layer security. This vehicle communication scheme can secure sufficient safety even from hackers based on quantum computing.
翻訳日:2022-09-25 00:58:28 公開日:2020-11-16
# LOss-based SensiTivity rEgulaRization--ディープスパースニューラルネットワークに向けて

LOss-Based SensiTivity rEgulaRization: towards deep sparse neural networks ( http://arxiv.org/abs/2011.09905v1 )

ライセンス: Link先を確認
Enzo Tartaglione, Andrea Bragagnolo, Attilio Fiandrotti and Marco Grangetto(参考訳) LOBSTER (LOss-Based SensiTivity rEgulaRization) は、疎トポロジを持つニューラルネットワークを訓練する手法である。 ネットワークパラメータの感度を、パラメータの変動に対する損失関数の変動とする。 感度の低いパラメータ、すなわち摂動時の損失にほとんど影響を与えないパラメータを縮小し、ネットワークのスパース化のために刈り取る。 本手法では,事前学習や巻き戻しをせずにネットワークをスクラッチからトレーニングすることができる。 複数のアーキテクチャとデータセットの実験では、最小の計算オーバーヘッドで競合的な圧縮比を示す。

LOBSTER (LOss-Based SensiTivity rEgulaRization) is a method for training neural networks having a sparse topology. Let the sensitivity of a network parameter be the variation of the loss function with respect to the variation of the parameter. Parameters with low sensitivity, i.e. having little impact on the loss when perturbed, are shrunk and then pruned to sparsify the network. Our method allows to train a network from scratch, i.e. without preliminary learning or rewinding. Experiments on multiple architectures and datasets show competitive compression ratios with minimal computational overhead.
翻訳日:2022-09-25 00:51:31 公開日:2020-11-16
# ケガ患者のヘルスサービスパターン同定のための多目的半教師付きクラスタリング

Multi-objective semi-supervised clustering to identify health service patterns for injured patients ( http://arxiv.org/abs/2011.09911v1 )

ライセンス: Link先を確認
Hadi Akbarzadeh Khorshidi, Uwe Aickelin, Gholamreza Haffari, Behrooz Hassani-Mahmooei(参考訳) 本研究は,パターンの類似性と興味のある結果との関係に基づいてパターンを識別するパターン認識手法を開発した。 このパターン認識法を開発する実践的目的は,外傷後早期に搬送事故で負傷した患者をグループ化することである。 このグループ化は、負傷後1週間以内の医療サービス利用における特徴的なパターンに基づいている。 グループはまた、薬物処理の総コストに関する予測情報も提供する。 その結果、望ましくない結果の患者群を、できるだけ早く、医療サービス利用パターンに基づいて同定した。

This study develops a pattern recognition method that identifies patterns based on their similarity and their association with the outcome of interest. The practical purpose of developing this pattern recognition method is to group patients, who are injured in transport accidents, in the early stages post-injury. This grouping is based on distinctive patterns in health service use within the first week post-injury. The groups also provide predictive information towards the total cost of medication process. As a result, the group of patients who have undesirable outcomes are identified as early as possible based health service use patterns.
翻訳日:2022-09-25 00:51:22 公開日:2020-11-16
# 強化学習に基づくパラメータ最適化手法を用いた自律走行車両検証のための効率的な改ざん手法

Efficient falsification approach for autonomous vehicle validation using a parameter optimisation technique based on reinforcement learning ( http://arxiv.org/abs/2011.07699v1 )

ライセンス: Link先を確認
Dhanoop Karunakaran, Stewart Worrall, Eduardo Nebot(参考訳) 自動運転車(AV)の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているように見える。 絶対安全性を保証する普遍的に合意された検証・検証(vv)方法論が存在しないことはよく知られている。 交通参加者とダイナミックな世界の振る舞いの不確実性は、先進的な自律システムにおいて確率的反応を引き起こす。 mlアルゴリズムと確率的手法の追加は、従来の方法と比較して実世界のテストのプロセスにかなりの複雑さをもたらす。 この領域のほとんどの研究は、実世界のデータから抽出されたパラメータの頻度分布を見て、システム性能を評価するための挑戦的な具体的なシナリオやテストケースの作成に焦点を当てている。 これらのアプローチは一般的にモンテカルロシミュレーションと重要サンプリングを用いて臨界ケースを生成する。 本稿では,テスト中のシステムを評価するための効率的な改ざん手法を提案する。 このアプローチは、困難なシナリオを探すためのパラメータ最適化問題に基づいている。 最適化プロセスは、最大リターンを持つ挑戦的なケースを見つけることを目的としている。 この方法は、学習を可能にするためにポリシー勾配強化学習アルゴリズムを適用する。 シナリオの危険度は、よく確立されたrss安全基準、ユークリッド距離、衝突の例によって測定される。 提案手法を用いることで,安全要件を満たすためにシステムに障害が発生する可能性のあるシナリオをより効率的に探索できることを実証する。

The widescale deployment of Autonomous Vehicles (AV) appears to be imminent despite many safety challenges that are yet to be resolved. It is well-known that there are no universally agreed Verification and Validation (VV) methodologies guarantee absolute safety, which is crucial for the acceptance of this technology. The uncertainties in the behaviour of the traffic participants and the dynamic world cause stochastic reactions in advanced autonomous systems. The addition of ML algorithms and probabilistic techniques adds significant complexity to the process for real-world testing when compared to traditional methods. Most research in this area focuses on generating challenging concrete scenarios or test cases to evaluate the system performance by looking at the frequency distribution of extracted parameters as collected from the real-world data. These approaches generally employ Monte-Carlo simulation and importance sampling to generate critical cases. This paper presents an efficient falsification method to evaluate the System Under Test. The approach is based on a parameter optimisation problem to search for challenging scenarios. The optimisation process aims at finding the challenging case that has maximum return. The method applies policy-gradient reinforcement learning algorithm to enable the learning. The riskiness of the scenario is measured by the well established RSS safety metric, euclidean distance, and instance of a collision. We demonstrate that by using the proposed method, we can more efficiently search for challenging scenarios which could cause the system to fail in order to satisfy the safety requirements.
翻訳日:2022-09-25 00:51:15 公開日:2020-11-16
# 複数のドローンによる同時カバレッジと充電の時間効率の良い火星探査

Time-Efficient Mars Exploration of Simultaneous Coverage and Charging with Multiple Drones ( http://arxiv.org/abs/2011.07759v1 )

ライセンス: Link先を確認
Yuan Chang, Chao Yan, Xingyu Liu, Xiangke Wang, Han Zhou, Xiaojia Xiang, Dengqing Tang(参考訳) 本稿では,複数のドローンとローバーの協調による火星探査の時間効率向上手法を提案する。 火星表面の長期的有効カバレッジを最大化するために, 限られたエネルギー, センサモデル, 通信範囲, 安全半径を考慮し, time-sc2 (time- efficient mars exploration of concurrent coverage and charging) と呼ぶ包括的枠組みを開発した。 まず, 深層強化学習を活用し, 動的システム状態を表す新しい情報マップを設計し, マルチドローンのカバレッジ制御アルゴリズムを提案する。 第2に、各ドローンを個別の充電スロットにナビゲートする準最適充電スケジューリングアルゴリズムを提案し、実現可能な解決策が常に存在することを証明した。 この枠組みの魅力は、探索効率を最大化する能力だけでなく、非探索時間を大幅に削減した高い自律性にも依存している。 時間効率,適応性,柔軟性の観点から,TIME-SC2の顕著な性能を示す大規模なシミュレーションが実施されている。

This paper presents a time-efficient scheme for Mars exploration by the cooperation of multiple drones and a rover. To maximize effective coverage of the Mars surface in the long run, a comprehensive framework has been developed with joint consideration for limited energy, sensor model, communication range and safety radius, which we call TIME-SC2 (TIme-efficient Mars Exploration of Simultaneous Coverage and Charging). First, we propose a multi-drone coverage control algorithm by leveraging emerging deep reinforcement learning and design a novel information map to represent dynamic system states. Second, we propose a near-optimal charging scheduling algorithm to navigate each drone to an individual charging slot, and we have proven that there always exists feasible solutions. The attractiveness of this framework not only resides on its ability to maximize exploration efficiency, but also on its high autonomy that has greatly reduced the non-exploring time. Extensive simulations have been conducted to demonstrate the remarkable performance of TIME-SC2 in terms of time-efficiency, adaptivity and flexibility.
翻訳日:2022-09-25 00:50:56 公開日:2020-11-16
# デモから学習した眼内手術用ツールを自律的に操作する

Autonomously Navigating a Surgical Tool Inside the Eye by Learning from Demonstration ( http://arxiv.org/abs/2011.07785v1 )

ライセンス: Link先を確認
Ji Woong Kim, Changyan He, Muller Urias, Peter Gehlbach, Gregory D. Hager, Iulian Iordachita, Marin Kobilarov(参考訳) 網膜外科における基本的な課題は、手術器具を、周囲組織への損傷を避けながら、網膜表面の所望の目標位置まで安全に移動させることである。 実際には、外科医は、ツールナビゲーションタスクを実行するために、網膜に関してツールチップをローカライズするために、深さ推定スキルに依存している。 このような不確実性を軽減するために、先行研究は、網膜へのツールチップ距離を推定し、触覚的または聴覚的フィードバックを提供することで、外科医を支援する方法を導入した。 しかし、ツールナビゲーションタスク自体の自動化は未解決であり、ほとんど探索されていない。 このような機能は、確実に自動化できれば、複雑な手順を合理化し、組織損傷の機会を減らすためのビルディングブロックとして機能することができる。 そこで本研究では,タスクの専門的な実演を模倣するために学習し,ツールナビゲーションタスクの自動化を提案する。 具体的には、ユーザが指定した目標に対して、記録された視覚サーボに基づいて、網膜の様々な位置に専門家の軌跡を模倣するようにディープネットワークを訓練する。 提案する自律ナビゲーションシステムはシミュレーションおよびシリコーンアイファントムを用いた物理実験で評価されている。 実験では, 針状手術用具を137ミクロン, シミュレーションで94ミクロンの範囲内, 様々な所望の所まで平均で確実に移動でき, 補助手術用具の有無, 可変眼球背景, 明るさ条件など, 目に見えない状況によく対応できることを示した。

A fundamental challenge in retinal surgery is safely navigating a surgical tool to a desired goal position on the retinal surface while avoiding damage to surrounding tissues, a procedure that typically requires tens-of-microns accuracy. In practice, the surgeon relies on depth-estimation skills to localize the tool-tip with respect to the retina in order to perform the tool-navigation task, which can be prone to human error. To alleviate such uncertainty, prior work has introduced ways to assist the surgeon by estimating the tool-tip distance to the retina and providing haptic or auditory feedback. However, automating the tool-navigation task itself remains unsolved and largely unexplored. Such a capability, if reliably automated, could serve as a building block to streamline complex procedures and reduce the chance for tissue damage. Towards this end, we propose to automate the tool-navigation task by learning to mimic expert demonstrations of the task. Specifically, a deep network is trained to imitate expert trajectories toward various locations on the retina based on recorded visual servoing to a given goal specified by the user. The proposed autonomous navigation system is evaluated in simulation and in physical experiments using a silicone eye phantom. We show that the network can reliably navigate a needle surgical tool to various desired locations within 137 microns accuracy in physical experiments and 94 microns in simulation on average, and generalizes well to unseen situations such as in the presence of auxiliary surgical tools, variable eye backgrounds, and brightness conditions.
翻訳日:2022-09-25 00:50:37 公開日:2020-11-16
# 外国語学習のための会話エージェント -調査-

Conversational agents for learning foreign languages -- a survey ( http://arxiv.org/abs/2011.07901v1 )

ライセンス: Link先を確認
Jasna Petrovic, Mladjan Jovanovic(参考訳) 会話の実践は、すべての言語学習者にとって不可欠であるが、十分かつ非常に高価になるには困難である。 チャットボット(Chatbot)は、人間と会話するコンピュータプログラムである。 それらは限定的ではあるが会話能力が増大するソフトウェアアバターとして設計されている。 チャットボットの最も自然で、潜在的に強力な応用は、その基本的な性質である言語実践に則っている。 しかし、(イン)形式言語学習における彼らの役割と成果は、現在、最も接している。 既存の研究は、チャットボットの理解度とユーザーを刺激する動機に焦点を当てている。 本稿では,言語学習のためのチャットボットの概要を述べるとともに,既存のアプローチを批判的に分析し,今後の課題について論じる。

Conversational practice, while crucial for all language learners, can be challenging to get enough of and very expensive. Chatbots are computer programs developed to engage in conversations with humans. They are designed as software avatars with limited, but growing conversational capability. The most natural and potentially powerful application of chatbots is in line with their fundamental nature - language practice. However, their role and outcomes within (in)formal language learning are currently tangential at best. Existing research in the area has generally focused on chatbots' comprehensibility and the motivation they inspire in their users. In this paper, we provide an overview of the chatbots for learning languages, critically analyze existing approaches, and discuss the major challenges for future work.
翻訳日:2022-09-25 00:50:12 公開日:2020-11-16
# 脚部移動における実現可能性保証のための効率的パラダイム

An Efficient Paradigm for Feasibility Guarantees in Legged Locomotion ( http://arxiv.org/abs/2011.07967v1 )

ライセンス: Link先を確認
Abdelrahman Abdalla1, Michele Focchi, Romeo Orsolino and Claudio Semini(参考訳) 任意の地形における足場システムのための実現可能な身体軌道の開発は難しい課題である。 いくつかの接触点が与えられた場合、Center of Mass (CoM) の軌道と、ロボットを動かすために設計された身体の向きは、バランスを維持するために重要な制約を満たさなければならない。 本稿では,実現可能な軌道を効率的に設計できるパラダイムを提案する。 先行研究の続きとして,提案する許容領域内にcomの投影が存在する場合,静的バランスとアクティベーション限界の満足度が保証された2次元実現可能領域の概念を拡張した。 本稿では, 任意の地形に対する運動限界と運動限界の双方の満足度とともに, 動的バランスを保証するため, 改良可能な領域の一般的な定式化を行う。 キネマティック限界の実現可能性を考慮するために,comの到達可能な領域を計算するアルゴリズムを提案する。 さらに, 改良された実現可能領域を利用して, 実現可能なcomおよびボディオリエンテーショントラジェクタを設計する効率的な計画戦略を提案する。 最後に,HyQロボットのシミュレーションと実験を用いて,改良可能な領域の能力と提案した計画戦略の有効性を評価し,これまで開発されたヒューリスティックなアプローチと比較した。 限定的で困難な環境を模倣する様々なシナリオや地形が検証に使用される。

Developing feasible body trajectories for legged systems on arbitrary terrains is a challenging task. Given some contact points, the trajectories for the Center of Mass (CoM) and body orientation, designed to move the robot, must satisfy crucial constraints to maintain balance, and to avoid violating physical actuation and kinematic limits. In this paper, we present a paradigm that allows to design feasible trajectories in an efficient manner. In continuation to our previous work, we extend the notion of the 2D feasible region, where static balance and the satisfaction of actuation limits were guaranteed, whenever the projection of the CoM lies inside the proposed admissible region. We here develop a general formulation of the improved feasible region to guarantee dynamic balance alongside the satisfaction of both actuation and kinematic limits for arbitrary terrains in an efficient manner. To incorporate the feasibility of the kinematic limits, we introduce an algorithm that computes the reachable region of the CoM. Furthermore, we propose an efficient planning strategy that utilizes the improved feasible region to design feasible CoM and body orientation trajectories. Finally, we validate the capabilities of the improved feasible region and the effectiveness of the proposed planning strategy, using simulations and experiments on the HyQ robot and comparing them to a previously developed heuristic approach. Various scenarios and terrains that mimic confined and challenging environments are used for the validation.
翻訳日:2022-09-25 00:50:03 公開日:2020-11-16
# ACDER: 好奇心駆動体験リプレイの強化

ACDER: Augmented Curiosity-Driven Experience Replay ( http://arxiv.org/abs/2011.08027v1 )

ライセンス: Link先を確認
Boyao Li, Tao Lu, Jiayi Li, Ning Lu, Yinghao Cai, Shuo Wang(参考訳) 緩やかなフィードバックを持つ環境での探索は、強化学習(RL)において難しい研究課題である。 rlエージェントがランダムに環境を探索すると、特に高次元の連続状態と動作空間を持つロボット操作タスクにおいて、探索効率が低下する。 本稿では,Augmented Curiosity-Driven Experience Replay(ACDER)と呼ばれる新しい手法を提案する。 一 目的志向の好奇心を駆使した新規・課題関連国家の追求を奨励する新たな探究 (ii)サンプル効率をさらに向上させるための自動探索カリキュラムとしての動的初期状態選択。 我々のアプローチは、価値ある状態を追求する新しい方法を導入することで、HER(Hindsight Experience Replay)を補完します。 Reach、Push、Pick&Place、Multi-step Pushの4つの挑戦的なロボット操作タスクの実験を行った。 実験の結果,提案手法は,最初の3つの基本課題において既存の手法を著しく上回り,多段階のロボットタスク学習において良好な性能を発揮することが示された。

Exploration in environments with sparse feedback remains a challenging research problem in reinforcement learning (RL). When the RL agent explores the environment randomly, it results in low exploration efficiency, especially in robotic manipulation tasks with high dimensional continuous state and action space. In this paper, we propose a novel method, called Augmented Curiosity-Driven Experience Replay (ACDER), which leverages (i) a new goal-oriented curiosity-driven exploration to encourage the agent to pursue novel and task-relevant states more purposefully and (ii) the dynamic initial states selection as an automatic exploratory curriculum to further improve the sample-efficiency. Our approach complements Hindsight Experience Replay (HER) by introducing a new way to pursue valuable states. Experiments conducted on four challenging robotic manipulation tasks with binary rewards, including Reach, Push, Pick&Place and Multi-step Push. The empirical results show that our proposed method significantly outperforms existing methods in the first three basic tasks and also achieves satisfactory performance in multi-step robotic task learning.
翻訳日:2022-09-25 00:49:39 公開日:2020-11-16
# 動的基準を複数の基準決定に組み込むシミュレーションの利用

Using simulation to incorporate dynamic criteria into multiple criteria decision-making ( http://arxiv.org/abs/2011.09891v1 )

ライセンス: Link先を確認
Uwe Aickelin, Jenna Marie Reps, Peer-Olaf Siebers, Peng Li(参考訳) 本稿では,離散的事象シミュレーションを用いて動的かつ不確定な基準をマルチクリテリア解析に組み込む方法を示す事例研究を行う。 シミュレーションガイドによるマルチ基準分析では、静的基準と動的基準の両方を含むことができるが、標準的なマルチ基準分析は静的基準のみを扱い、コスト利益分析は静的基準のみを扱う。 動的かつ不確実な基準は、決定オプションがどのように機能するかをシミュレーションによって調べる。 シミュレーションの結果は、マルチクレーター分析に入力される。 動的かつ不確定な基準を組み込むことにより、動的多重基準解析は問題に対するユニークな視点を取ることができた。 動的多基準解析により得られた最上位の選択肢は他の決定支援手法と異なる。

In this paper, we present a case study demonstrating how dynamic and uncertain criteria can be incorporated into a multicriteria analysis with the help of discrete event simulation. The simulation guided multicriteria analysis can include both monetary and non-monetary criteria that are static or dynamic, whereas standard multi criteria analysis only deals with static criteria and cost benefit analysis only deals with static monetary criteria. The dynamic and uncertain criteria are incorporated by using simulation to explore how the decision options perform. The results of the simulation are then fed into the multicriteria analysis. By enabling the incorporation of dynamic and uncertain criteria, the dynamic multiple criteria analysis was able to take a unique perspective of the problem. The highest ranked option returned by the dynamic multicriteria analysis differed from the other decision aid techniques.
翻訳日:2022-09-25 00:49:21 公開日:2020-11-16
# 雑音ラベル学習のためのデカップリング表現と分類器

Decoupling Representation and Classifier for Noisy Label Learning ( http://arxiv.org/abs/2011.08145v1 )

ライセンス: Link先を確認
Hui Zhang, Quanming Yao(参考訳) 畳み込みニューラルネットワーク(ConvNets)は、視覚分類タスクにおいてユビキタスなノイズラベルを容易に記憶することができるため、ConvNetsを堅牢にトレーニングすることは大きな課題である。 この課題に対して、サンプル選択、ラベル補正、ロバスト化損失関数などの様々な解が提案され、そのほとんどは表現(機能抽出器)と分類器のエンドツーエンドの訓練に固執している。 本稿では,表現と分類器の学習行動を深く再検討し,注意深い再検討を行い,その表現が分類器よりも雑音ラベルの存在下ではずっと脆弱であることを示す。 そこで我々は,上記の発見を生かして雑音ラベルから頑健に学習するための新しい手法,すなわちreedの設計を動機付ける。 提案手法は,ラベル無しで自己教師付き学習による表現を得る,雑音ラベル学習問題を分類器によって直接かつ確実に訓練された半教師付き学習に移す,表現と分類器の両方の半教師付き再訓練を行うという3つの段階を含む。 総合的な実験は、合成および実際のベンチマークデータセットの両方で実施される。 提案手法は,特に高騒音下で,最先端の手法を大きなマージンで打ち負かすことができることを示す。

Since convolutional neural networks (ConvNets) can easily memorize noisy labels, which are ubiquitous in visual classification tasks, it has been a great challenge to train ConvNets against them robustly. Various solutions, e.g., sample selection, label correction, and robustifying loss functions, have been proposed for this challenge, and most of them stick to the end-to-end training of the representation (feature extractor) and classifier. In this paper, by a deep rethinking and careful re-examining on learning behaviors of the representation and classifier, we discover that the representation is much more fragile in the presence of noisy labels than the classifier. Thus, we are motivated to design a new method, i.e., REED, to leverage above discoveries to learn from noisy labels robustly. The proposed method contains three stages, i.e., obtaining the representation by self-supervised learning without any labels, transferring the noisy label learning problem into a semisupervised one by the classifier directly and reliably trained with noisy labels, and joint semi-supervised retraining of both the representation and classifier. Extensive experiments are performed on both synthetic and real benchmark datasets. Results demonstrate that the proposed method can beat the state-of-the-art ones by a large margin, especially under high noise level.
翻訳日:2022-09-25 00:44:25 公開日:2020-11-16
# 識別的ダイナミックレンジ強調とマルチスケール学習による2d+3d表情認識

2D+3D Facial Expression Recognition via Discriminative Dynamic Range Enhancement and Multi-Scale Learning ( http://arxiv.org/abs/2011.08333v1 )

ライセンス: Link先を確認
Yang Jiao, Yi Niu, Trac D. Tran, Guangming Shi(参考訳) 2D+3D顔表情認識(FER)において、既存の手法は深度特徴表現を強化するために多視点幾何マップを生成する。 しかし、これは不完全点雲からの局所面の嵌合による誤推定をもたらす可能性がある。 本稿では,情報理論の観点からの新たな地図生成手法を提案する。 まず、HDR深度データを調べ、識別的ダイナミックレンジ$r_{dis}$を抽出し、r_{dis}$のエントロピーを大域的最適に最大化する。 次に,過エンハンスメントによる大きな変形を防止するため,深さ歪み制約を導入し,複雑さを$O(KN^2)$から$O(KN\tau)$に低減する。 さらに、制約付き最適化は有向非巡回グラフにおいて、k$-edges 最大重みパス問題としてモデル化され、動的計画法によって効率的に解く。 最後に,多段階学習のための微妙な識別的顔部品を自動的に検出する効率的な顔注意構造を設計し,顔のランドマークのない損失関数$\mathcal{L}_{FA}$で訓練する。 実験結果から,提案手法はferの精度と出力エントロピーの両方において,最先端の2D+3D FER法より優れていることが示された。

In 2D+3D facial expression recognition (FER), existing methods generate multi-view geometry maps to enhance the depth feature representation. However, this may introduce false estimations due to local plane fitting from incomplete point clouds. In this paper, we propose a novel Map Generation technique from the viewpoint of information theory, to boost the slight 3D expression differences from strong personality variations. First, we examine the HDR depth data to extract the discriminative dynamic range $r_{dis}$, and maximize the entropy of $r_{dis}$ to a global optimum. Then, to prevent the large deformation caused by over-enhancement, we introduce a depth distortion constraint and reduce the complexity from $O(KN^2)$ to $O(KN\tau)$. Furthermore, the constrained optimization is modeled as a $K$-edges maximum weight path problem in a directed acyclic graph, and we solve it efficiently via dynamic programming. Finally, we also design an efficient Facial Attention structure to automatically locate subtle discriminative facial parts for multi-scale learning, and train it with a proposed loss function $\mathcal{L}_{FA}$ without any facial landmarks. Experimental results on different datasets show that the proposed method is effective and outperforms the state-of-the-art 2D+3D FER methods in both FER accuracy and the output entropy of the generated maps.
翻訳日:2022-09-25 00:43:09 公開日:2020-11-16
# RNN-Tパーソナライゼーションのための深浅核融合

Deep Shallow Fusion for RNN-T Personalization ( http://arxiv.org/abs/2011.07754v1 )

ライセンス: Link先を確認
Duc Le, Gil Keren, Julian Chan, Jay Mahadeokar, Christian Fuegen, Michael L. Seltzer(参考訳) エンド・ツー・エンドモデルやリカレントニューラルネットワークトランスデューサ(rnn-t)は、そのシンプルさ、コンパクト性、汎用的な書き起こしタスクにおける優れた性能により、ここ数年で音声認識コミュニティで大きな注目を集めている。 しかしながら、これらのモデルは、外部言語モデルの欠如と稀な長尾語、特にエンティティ名を認識することの難しさにより、従来のハイブリッドシステムと比較してパーソナライズが困難である。 本研究では,レアなWordPiecesをモデル化し,エンコーダに余分な情報を注入し,代用文法の発音を有効にし,より堅牢なバイアス付けのためにパーソナライズされた言語モデルと深く融合する手法を提案する。 これらの組み合わせによって単語誤り率を15.4%-34.5%向上させるのに対し、浅い融合とテキスト音声強調を用いたRNN-Tベースラインは強い。 我々の研究は、RNN-Tのパーソナライズの境界を押し上げ、バイアスやエンティティ認識が不可欠であるユースケースにおけるハイブリッドシステムとのギャップを埋めるのに役立ちます。

End-to-end models in general, and Recurrent Neural Network Transducer (RNN-T) in particular, have gained significant traction in the automatic speech recognition community in the last few years due to their simplicity, compactness, and excellent performance on generic transcription tasks. However, these models are more challenging to personalize compared to traditional hybrid systems due to the lack of external language models and difficulties in recognizing rare long-tail words, specifically entity names. In this work, we present novel techniques to improve RNN-T's ability to model rare WordPieces, infuse extra information into the encoder, enable the use of alternative graphemic pronunciations, and perform deep fusion with personalized language models for more robust biasing. We show that these combined techniques result in 15.4%-34.5% relative Word Error Rate improvement compared to a strong RNN-T baseline which uses shallow fusion and text-to-speech augmentation. Our work helps push the boundary of RNN-T personalization and close the gap with hybrid systems on use cases where biasing and entity recognition are crucial.
翻訳日:2022-09-25 00:42:43 公開日:2020-11-16
# 愛と憎しみの境界線: 人種差別的オンラインコミュニティのモデリングにechoを使う

It's a Thin Line Between Love and Hate: Using the Echo in Modeling Dynamics of Racist Online Communities ( http://arxiv.org/abs/2012.01133v1 )

ライセンス: Link先を確認
Eyal Arviv, Simo Hanouna, Oren Tsur(参考訳) この(((echo)))シンボル -- 名前を取り巻く三つ組の括弧は、2016年初頭にアメリカ合衆国大統領選挙の激化とともに、主流のソーシャルネットワークになった。 ナチス・ドイツで使われた悪名高い黄色いバッジ(ジューデンシュテルン)の近代的な化身であるユダヤ人の遺産の人々をタグ付けするために、アルト右翼、白人至上主義者、インターネットトロルのメンバーが使用した。 この傾向のあるミーム、その意味、そしてその関数を追跡することは、その意味的な曖昧さ(例えば、仮想抱擁のシンボル)について明らかにされている。 本稿では,人種差別コミュニティのネットワークの再構築を可能にする適切なデータセットの構築と,それをより広いコミュニティに組み込む方法について報告する。 自然言語処理と構造的ネットワーク分析を組み合わせることで,憎しみを促進するコミュニティの研究を行う。 言語的あいまいさを克服するため,ツイートレベルでBERTトランスフォーマーとBiLSTMネットワークをベースとしたマルチモーダルニューラルネットワークを提案するとともに,ユーザのエゴネットワークやメタ機能を考慮したマルチモーダルニューラルネットワークを提案する。 当社のマルチモーダルニューラルネットワークは、強力なベースラインセットよりも優れています。 さらに,タンデムにおける言語とネットワーク構造の利用によって,ヘイトコミュニティのリーダーがいかに検出されるかを示す。 さらに,憎悪の「間断性」について検討し,反セミティックエコーが他の少数民族や保護集団を対象とするヘイトスピーチと相関することを示した。 最後に、このネットワークにおけるIRAトロルの役割をロシアの干渉作戦の一環として分析する。 我々の発見は、人種差別の最近の発現とそれを促進するダイナミックスをよりよく理解することを可能にする。

The (((echo))) symbol -- triple parenthesis surrounding a name, made it to mainstream social networks in early 2016, with the intensification of the U.S. Presidential race. It was used by members of the alt-right, white supremacists and internet trolls to tag people of Jewish heritage -- a modern incarnation of the infamous yellow badge (Judenstern) used in Nazi-Germany. Tracking this trending meme, its meaning, and its function has proved elusive for its semantic ambiguity (e.g., a symbol for a virtual hug). In this paper we report of the construction of an appropriate dataset allowing the reconstruction of networks of racist communities and the way they are embedded in the broader community. We combine natural language processing and structural network analysis to study communities promoting hate. In order to overcome dog-whistling and linguistic ambiguity, we propose a multi-modal neural architecture based on a BERT transformer and a BiLSTM network on the tweet level, while also taking into account the users ego-network and meta features. Our multi-modal neural architecture outperforms a set of strong baselines. We further show how the the use of language and network structure in tandem allows the detection of the leaders of the hate communities. We further study the ``intersectionality'' of hate and show that the antisemitic echo correlates with hate speech that targets other minority and protected groups. Finally, we analyze the role IRA trolls assumed in this network as part of the Russian interference campaign. Our findings allow a better understanding of recent manifestations of racism and the dynamics that facilitate it.
翻訳日:2022-09-25 00:42:21 公開日:2020-11-16
# dyna型強化学習によるアナログ回路設計

Analog Circuit Design with Dyna-Style Reinforcement Learning ( http://arxiv.org/abs/2011.07665v1 )

ライセンス: Link先を確認
Wook Lee, Frans A. Oliehoek(参考訳) そこで本研究では,特定の設計制約を考慮した回路性能の最適化を目標とし,アナログ回路設計の学習ベースアプローチを提案する。 この問題を最適化するのが難しくする側面の1つは、特にレイアウト後の設計において、シミュレーションによる候補構成のパフォーマンスを測定するのに計算コストがかかることである。 さらに、多数の設計制約と関連する量間の相互作用が問題を複雑にしている。 したがって、人間設計者を支援するため、実現可能なソリューションの全体について知識を得ることが望ましい。 これらの課題に取り組むために,モデルに基づく強化学習から着想を得て,二つの重要な特性を持つ手法を提案する。 まず、ニューラルネットワークによって近似された性能の代理モデルである報酬モデルを学び、必要なシミュレーション数を削減します。 第二に、制約を満たす多様な解空間を探索するために確率的政策生成器を使う。 それらをDynaOptと呼ぶDynaスタイルの最適化フレームワークに組み合わせて、2段動作増幅器の回路ベンチマークの性能を実証的に評価する。 その結果,DynaOptは,2万の回路シミュレーションを適用したモデルフリー法と比較して,500のシミュレーションでゼロから学習することで,さらに優れた性能が得られることがわかった。

In this work, we present a learning based approach to analog circuit design, where the goal is to optimize circuit performance subject to certain design constraints. One of the aspects that makes this problem challenging to optimize, is that measuring the performance of candidate configurations with simulation can be computationally expensive, particularly in the post-layout design. Additionally, the large number of design constraints and the interaction between the relevant quantities makes the problem complex. Therefore, to better facilitate supporting the human designers, it is desirable to gain knowledge about the whole space of feasible solutions. In order to tackle these challenges, we take inspiration from model-based reinforcement learning and propose a method with two key properties. First, it learns a reward model, i.e., surrogate model of the performance approximated by neural networks, to reduce the required number of simulation. Second, it uses a stochastic policy generator to explore the diverse solution space satisfying constraints. Together we combine these in a Dyna-style optimization framework, which we call DynaOpt, and empirically evaluate the performance on a circuit benchmark of a two-stage operational amplifier. The results show that, compared to the model-free method applied with 20,000 circuit simulations to train the policy, DynaOpt achieves even much better performance by learning from scratch with only 500 simulations.
翻訳日:2022-09-25 00:41:52 公開日:2020-11-16
# ブラインド意思決定:遅延観察による強化学習

Blind Decision Making: Reinforcement Learning with Delayed Observations ( http://arxiv.org/abs/2011.07715v1 )

ライセンス: Link先を確認
Mridul Agarwal, Vaneet Aggarwal(参考訳) 強化学習は、通常、以前のアクションからの状態更新が瞬時に起こると仮定し、将来の決定に使用できる。 しかし、これは必ずしも真実ではないかもしれない。 状態更新が利用できない場合、現在の状態情報に依存することができないため、決定は一部盲目となる。 本稿では,現状情報を含まない可能性のある情報に基づいて,状態の知識の遅延を利用した意思決定を行う手法を提案する。 一つのアプローチは、状態情報の一部として、最後の既知の状態以降のアクションを含めることであるが、それによって状態空間が増大し、問題が複雑になり収束が遅くなる。 提案されたアルゴリズムは、状態更新に遅延がない場合と比較して、状態空間が拡大されない別のアプローチを与える。 基本RL環境の評価により,提案アルゴリズムの性能が向上した。

Reinforcement learning typically assumes that the state update from the previous actions happens instantaneously, and thus can be used for making future decisions. However, this may not always be true. When the state update is not available, the decision taken is partly in the blind since it cannot rely on the current state information. This paper proposes an approach, where the delay in the knowledge of the state can be used, and the decisions are made based on the available information which may not include the current state information. One approach could be to include the actions after the last-known state as a part of the state information, however, that leads to an increased state-space making the problem complex and slower in convergence. The proposed algorithm gives an alternate approach where the state space is not enlarged, as compared to the case when there is no delay in the state update. Evaluations on the basic RL environments further illustrate the improved performance of the proposed algorithm.
翻訳日:2022-09-25 00:41:32 公開日:2020-11-16
# 医療機関全体での破滅的忘れに対処するバッチノーム統計の理不尽な効果

The unreasonable effectiveness of Batch-Norm statistics in addressing catastrophic forgetting across medical institutions ( http://arxiv.org/abs/2011.08096v1 )

ライセンス: Link先を確認
Sharut Gupta, Praveer Singh, Ken Chang, Mehak Aggarwal, Nishanth Arun, Liangqiong Qu, Katharina Hoebel, Jay Patel, Mishka Gidwani, Ashwin Vaswani, Daniel L Rubin and Jayashree Kalpathy-Cramer(参考訳) モデルの脆さは、患者の人口動態や複数のスキャナータイプのような施設内変異といった、施設間変異による医療環境におけるディープラーニングモデルの展開において、主要な関心事である。 組み合わせたデータセットのトレーニングにはデータプライバシの制限が伴うが、元の機関でトレーニングした後、後の機関でモデルを微調整すると、元のデータセットのパフォーマンスが低下する。 本稿では, モデル改良と事前学習知識の保持のトレードオフについて検討し, その後, 乳房の乳房密度評価のための破滅的な忘れ込みに対処する。 具体的には、従来のデータセットのグローバルバッチ正規化(BN)統計を用いて、弾性重み付け(EWC)を適応する、単純で効果的なアプローチを提案する。 本研究は, ドメイン拡張に継続的学習を必要とする臨床ディープラーニングモデルの展開のためのガイダンスを提供する。

Model brittleness is a primary concern when deploying deep learning models in medical settings owing to inter-institution variations, like patient demographics and intra-institution variation, such as multiple scanner types. While simply training on the combined datasets is fraught with data privacy limitations, fine-tuning the model on subsequent institutions after training it on the original institution results in a decrease in performance on the original dataset, a phenomenon called catastrophic forgetting. In this paper, we investigate trade-off between model refinement and retention of previously learned knowledge and subsequently address catastrophic forgetting for the assessment of mammographic breast density. More specifically, we propose a simple yet effective approach, adapting Elastic weight consolidation (EWC) using the global batch normalization (BN) statistics of the original dataset. The results of this study provide guidance for the deployment of clinical deep learning models where continuous learning is needed for domain expansion.
翻訳日:2022-09-25 00:40:54 公開日:2020-11-16
# アクティブラーニングのマージナルベネフィットについて:自己スーパービジョンはケーキを食べるか?

On the Marginal Benefit of Active Learning: Does Self-Supervision Eat Its Cake? ( http://arxiv.org/abs/2011.08121v1 )

ライセンス: Link先を確認
Yao-Chun Chan, Mingchen Li, Samet Oymak(参考訳) アクティブラーニング(active learning)は、大きなラベルのないデータセットをインテリジェントにラベル付けし、ラベル付け作業を減らすためのテクニックのセットである。 並行して、S4L(Self-supervised and semi-supervised learning)の最近の開発は、データ強化、コントラスト学習、自己学習に基づく強力な技術を提供し、標準機械学習ベンチマークにおける要求ラベルの大幅な削減につながった。 自然な疑問は、これらのパラダイムがより優れた結果を得るために統一できるかどうかである。 本稿では,自己教師付き事前学習,アクティブラーニング,一貫性正規化自己学習を統合した新しいアルゴリズムフレームワークを提案する。 我々は、CIFAR10およびCIFAR100データセットに関するフレームワークで広範な実験を行う。 これらの実験により、最先端のメソッド(例えば~Core-Set, VAAL, simCLR, FixMatch)を使って評価される個々のコンポーネントの利点を分離し、評価することができる。 私たちの実験は2つの重要な洞察を示します。 一 自己指導型事前学習は、特に少数レーベル体制において、セミ教師型学習を著しく改善する。 (II) 能動学習の利点はS4L技術によって損なわれ, 仮定される。 具体的には、最先端のS4L技術と組み合わせることで、最先端のアクティブな学習アルゴリズムのさらなるメリットを観察できない。

Active learning is the set of techniques for intelligently labeling large unlabeled datasets to reduce the labeling effort. In parallel, recent developments in self-supervised and semi-supervised learning (S4L) provide powerful techniques, based on data-augmentation, contrastive learning, and self-training, that enable superior utilization of unlabeled data which led to a significant reduction in required labeling in the standard machine learning benchmarks. A natural question is whether these paradigms can be unified to obtain superior results. To this aim, this paper provides a novel algorithmic framework integrating self-supervised pretraining, active learning, and consistency-regularized self-training. We conduct extensive experiments with our framework on CIFAR10 and CIFAR100 datasets. These experiments enable us to isolate and assess the benefits of individual components which are evaluated using state-of-the-art methods (e.g.~Core-Set, VAAL, simCLR, FixMatch). Our experiments reveal two key insights: (i) Self-supervised pre-training significantly improves semi-supervised learning, especially in the few-label regime, (ii) The benefit of active learning is undermined and subsumed by S4L techniques. Specifically, we fail to observe any additional benefit of state-of-the-art active learning algorithms when combined with state-of-the-art S4L techniques.
翻訳日:2022-09-25 00:40:37 公開日:2020-11-16
# クロスオーダークロスセマンティクスディープネットワークによるロバストな顔ランドマーク検出

Robust Facial Landmark Detection by Cross-order Cross-semantic Deep Network ( http://arxiv.org/abs/2011.07777v1 )

ライセンス: Link先を確認
Jun Wan, Zhihui Lai, Linlin Shen, Jie Zhou, Can Gao, Gang Xiao and Xianxu Hou(参考訳) 近年,畳み込みニューラルネットワーク(cnns)ベースの顔ランドマーク検出手法が大きな成功を収めている。 しかし、既存のcnnベースの顔ランドマーク検出手法のほとんどは、複数の相関した顔部位を活性化して異なる意味的特徴を学習しようとはしていないため、局所的詳細の関係を正確にモデル化できず、より識別的で微妙な意味的特徴を十分に探求できないため、部分的な閉塞と大きなポーズ変化に苦しむ。 これらの問題に対処するため,顔のランドマーク検出のためのセマンティック特徴学習を促進するために,クロスオーダー・クロスセマンティック・ディープ・ネットワーク(CCDN)を提案する。 具体的には、より識別的な表現学習と複数注意特化部分アクティベーションのためのクロスオーダーチャネル相関を導入するために、CTMモジュールを提案する。 さらに, 顔のランドマーク検出のための異なるアクティベーションから, クロスセマンティック特徴を学習するために, ネットワークを駆動する新しいクロスセマンティック正規化器が設計された。 CTMモジュールとCOCS正規化器を統合することで、CCDNはより微細で相補的なクロスセマンティックな特徴を効果的に活性化し、学習し、極めて困難なシナリオ下で顔のランドマーク検出の精度を向上させることができることを示すことは興味深い。 挑戦的なベンチマークデータセットの実験結果は、最先端の顔ランドマーク検出法よりもCCDNの方が優れていることを示している。

Recently, convolutional neural networks (CNNs)-based facial landmark detection methods have achieved great success. However, most of existing CNN-based facial landmark detection methods have not attempted to activate multiple correlated facial parts and learn different semantic features from them that they can not accurately model the relationships among the local details and can not fully explore more discriminative and fine semantic features, thus they suffer from partial occlusions and large pose variations. To address these problems, we propose a cross-order cross-semantic deep network (CCDN) to boost the semantic features learning for robust facial landmark detection. Specifically, a cross-order two-squeeze multi-excitation (CTM) module is proposed to introduce the cross-order channel correlations for more discriminative representations learning and multiple attention-specific part activation. Moreover, a novel cross-order cross-semantic (COCS) regularizer is designed to drive the network to learn cross-order cross-semantic features from different activation for facial landmark detection. It is interesting to show that by integrating the CTM module and COCS regularizer, the proposed CCDN can effectively activate and learn more fine and complementary cross-order cross-semantic features to improve the accuracy of facial landmark detection under extremely challenging scenarios. Experimental results on challenging benchmark datasets demonstrate the superiority of our CCDN over state-of-the-art facial landmark detection methods.
翻訳日:2022-09-25 00:34:14 公開日:2020-11-16
# オープンソースシミュレータによる手動ラベルフリー3d検出

Manual-Label Free 3D Detection via An Open-Source Simulator ( http://arxiv.org/abs/2011.07784v1 )

ライセンス: Link先を確認
Zhen Yang and Chi Zhang and Huiming Guo and Zhaoxiang Zhang(参考訳) LiDARベースの3Dオブジェクト検出器は通常、トレーニングのために大量の詳細なラベル付きポイントクラウドデータを必要とする。 本稿では,CARLAシミュレータを利用して大量の自己ラベル付きトレーニングサンプルを生成する手動ラベルフリー3D検出アルゴリズムを提案し,合成データから実シナリオへの分布ギャップを埋める新しいDomain Adaptive VoxelNet(DA-VoxelNet)を提案する。 自己ラベル付きトレーニングサンプルは、CARLAシミュレータに埋め込まれた高品質な3Dモデルと、LiDAR誘導サンプリングアルゴリズムによって生成される。 そこで,サンプルレベルDAモジュールとアンカーレベルDAモジュールの両方を統合したDA-VoxelNetを提案する。 実験の結果、KITTI評価セットのDA 3D検出器は、それぞれBEVモードと3Dモードで76.66%と56.64%のmAPを達成することができた。 この結果から, LIDARをベースとした3D検出器を手触りラベルなしでトレーニングできる可能性が示唆された。

LiDAR based 3D object detectors typically need a large amount of detailed-labeled point cloud data for training, but these detailed labels are commonly expensive to acquire. In this paper, we propose a manual-label free 3D detection algorithm that leverages the CARLA simulator to generate a large amount of self-labeled training samples and introduces a novel Domain Adaptive VoxelNet (DA-VoxelNet) that can cross the distribution gap from the synthetic data to the real scenario. The self-labeled training samples are generated by a set of high quality 3D models embedded in a CARLA simulator and a proposed LiDAR-guided sampling algorithm. Then a DA-VoxelNet that integrates both a sample-level DA module and an anchor-level DA module is proposed to enable the detector trained by the synthetic data to adapt to real scenario. Experimental results show that the proposed unsupervised DA 3D detector on KITTI evaluation set can achieve 76.66% and 56.64% mAP on BEV mode and 3D mode respectively. The results reveal a promising perspective of training a LIDAR-based 3D detector without any hand-tagged label.
翻訳日:2022-09-25 00:33:45 公開日:2020-11-16
# JOLO-GCN: 骨格に基づく行動認識のための光重み情報マイニング

JOLO-GCN: Mining Joint-Centered Light-Weight Information for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2011.07787v1 )

ライセンス: Link先を確認
Jinmiao Cai, Nianjuan Jiang, Xiaoguang Han, Kui Jia, Jiangbo Lu(参考訳) 骨格に基づく行動認識は近年研究の注目を集めている。 現在一般的なスケルトンベースのヒューマンアクション認識方法の一般的な欠点は、スパーススケルトン情報だけでは人間の動きを完全に特徴付けるには不十分である。 この制限により、いくつかの既存の手法では微妙な動きの違いしか示さないアクションカテゴリを正しく分類できない。 本稿では,2ストリームグラフ畳み込みネットワーク,JOLO-GCNにおいて,人間のポーズスケルトンと共同中心の軽量情報を活用するための新しいフレームワークを提案する。 具体的には、関節周囲の局所的な微妙な動きを中心的な関節中心視覚情報として捉えるために、関節アライン・オプティカル・フロー・パッチ(JFP)を用いる。 純粋なスケルトンベースのベースラインと比較して、このハイブリッドスキームは、計算とメモリのオーバーヘッドを低く保ちながら、性能を効果的に向上させる。 NTU RGB+D, NTU RGB+D 120 および Kinetics-Skeleton データセットを用いた実験により, 現状の骨格法に比べて, 提案手法により得られた精度の向上が示された。

Skeleton-based action recognition has attracted research attentions in recent years. One common drawback in currently popular skeleton-based human action recognition methods is that the sparse skeleton information alone is not sufficient to fully characterize human motion. This limitation makes several existing methods incapable of correctly classifying action categories which exhibit only subtle motion differences. In this paper, we propose a novel framework for employing human pose skeleton and joint-centered light-weight information jointly in a two-stream graph convolutional network, namely, JOLO-GCN. Specifically, we use Joint-aligned optical Flow Patches (JFP) to capture the local subtle motion around each joint as the pivotal joint-centered visual information. Compared to the pure skeleton-based baseline, this hybrid scheme effectively boosts performance, while keeping the computational and memory overheads low. Experiments on the NTU RGB+D, NTU RGB+D 120, and the Kinetics-Skeleton dataset demonstrate clear accuracy improvements attained by the proposed method over the state-of-the-art skeleton-based methods.
翻訳日:2022-09-25 00:33:24 公開日:2020-11-16
# LAP-Net:オンライン行動検出のための学習行動進行による適応的特徴サンプリング

LAP-Net: Adaptive Features Sampling via Learning Action Progression for Online Action Detection ( http://arxiv.org/abs/2011.07915v1 )

ライセンス: Link先を確認
Sanqing Qu, Guang Chen, Dan Xu, Jinhu Dong, Fan Lu, Alois Knoll(参考訳) オンラインアクション検出は、サイド情報や将来のフレームへのアクセスなしに、ストリーミングビデオから進行中のアクションを識別するタスクである。 近年の手法では, 将来予測されるフレームの固定時間範囲を補足的特徴として集約し, 有望な性能を実現している。 それらは、人間はしばしば将来のビジョンを同時に考えながら、継続的な行動を検出するという観察に基づいている。 しかし, 異なる行動進行において, 最適な補足的特徴は, 単に将来の時間的範囲を固定するのではなく, 異なる時間的範囲から得られるべきである。 そこで本稿では,最適な補足的特徴の変数範囲を克服する適応的特徴サンプリング手法を提案する。 本稿では,適応的な特徴抽出戦略を統合した学習行動進行ネットワーク LAP-Net を提案する。 それぞれの時間ステップで、このサンプリング戦略は、まず現在のアクションの進行を推定し、次に最適な補足的な特徴を集約するためにどの時間範囲を使用するべきかを決定する。 我々は,3つのベンチマークデータセット,TVSeries,THUMOS-14,HDDでLAP-Netを評価した。 適応的特徴サンプリング戦略により,提案したLAP-Netは,最先端の手法よりも大きなマージンを持つことを示す。

Online action detection is a task with the aim of identifying ongoing actions from streaming videos without any side information or access to future frames. Recent methods proposed to aggregate fixed temporal ranges of invisible but anticipated future frames representations as supplementary features and achieved promising performance. They are based on the observation that human beings often detect ongoing actions by contemplating the future vision simultaneously. However, we observed that at different action progressions, the optimal supplementary features should be obtained from distinct temporal ranges instead of simply fixed future temporal ranges. To this end, we introduce an adaptive features sampling strategy to overcome the mentioned variable-ranges of optimal supplementary features. Specifically, in this paper, we propose a novel Learning Action Progression Network termed LAP-Net, which integrates an adaptive features sampling strategy. At each time step, this sampling strategy first estimates current action progression and then decide what temporal ranges should be used to aggregate the optimal supplementary features. We evaluated our LAP-Net on three benchmark datasets, TVSeries, THUMOS-14 and HDD. The extensive experiments demonstrate that with our adaptive feature sampling strategy, the proposed LAP-Net can significantly outperform current state-of-the-art methods with a large margin.
翻訳日:2022-09-25 00:33:05 公開日:2020-11-16
# 弱教師付き物体定位のための階層的補完学習

Hierarchical Complementary Learning for Weakly Supervised Object Localization ( http://arxiv.org/abs/2011.08014v1 )

ライセンス: Link先を確認
Sabrina Narimene Benassou, Wuzhen Shi, Feng Jiang, Abdallah Benzine(参考訳) 弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトをローカライズすることを目的とした課題である。 基底的真理のバウンディングボックスが欠如しているため、クラスラベルは主にモデルのトレーニングに使用されている。 このモデルは、最も差別化された特徴を活性化するクラスアクティベーションマップ(CAM)を生成する。 しかし、CAMの主な欠点は、オブジェクトの一部だけを検出する能力である。 この問題を解決するために、検出された対象 \cite{b1, b2, b4} または画像 \cite{b3} から部分を取り除く研究者もいる。 オブジェクトのイメージや検出された部分から部品を取り除く目的は、モデルに他の特徴を検出するように強制することである。 しかし、これらの方法は画像上の適切なピクセルを消去するために1つ以上のハイパーパラメータを必要とする。 これとは対照的に,CNNが画像上のオブジェクトのより優れた分類とローカライズを行うのに役立つ階層型補完学習ネットワーク(HCLNet)を提案する。 HCLNetは補足マップを使用して、ネットワークにオブジェクトの他の部分を検出するように強制する。 従来の手法とは異なり、この手法では異なるCAMを生成するために余分なハイパーパラメータは必要ない。 これらの異なるマップを融合させるために、加法戦略とl1-ノルム戦略という2つの異なる融合戦略が用いられてきた。 これらの戦略により、背景を除外しながらオブジェクト全体を検出できる。 広範な実験により、hclnetは最先端のメソッドよりも優れた性能を得ることが示された。

Weakly supervised object localization (WSOL) is a challenging problem which aims to localize objects with only image-level labels. Due to the lack of ground truth bounding boxes, class labels are mainly employed to train the model. This model generates a class activation map (CAM) which activates the most discriminate features. However, the main drawback of CAM is the ability to detect just a part of the object. To solve this problem, some researchers have removed parts from the detected object \cite{b1, b2, b4}, or the image \cite{b3}. The aim of removing parts from image or detected parts of the object is to force the model to detect the other features. However, these methods require one or many hyper-parameters to erase the appropriate pixels on the image, which could involve a loss of information. In contrast, this paper proposes a Hierarchical Complementary Learning Network method (HCLNet) that helps the CNN to perform better classification and localization of objects on the images. HCLNet uses a complementary map to force the network to detect the other parts of the object. Unlike previous works, this method does not need any extras hyper-parameters to generate different CAMs, as well as does not introduce a big loss of information. In order to fuse these different maps, two different fusion strategies known as the addition strategy and the l1-norm strategy have been used. These strategies allowed to detect the whole object while excluding the background. Extensive experiments show that HCLNet obtains better performance than state-of-the-art methods.
翻訳日:2022-09-25 00:32:43 公開日:2020-11-16
# スティル化ニューラルペイント

Stylized Neural Painting ( http://arxiv.org/abs/2011.08114v1 )

ライセンス: Link先を確認
Zhengxia Zou (1), Tianyang Shi (2), Shuang Qiu (1), Yi Yuan (2), Zhenwei Shi (3) ((1) University of Michigan, Ann Arbor, (2) NetEase Fuxi AI Lab, (3) Beihang University)(参考訳) 本稿では,鮮明でリアルな絵画を制御可能なスタイルで生成する画像から絵画への翻訳手法を提案する。 画像から画像への変換をピクセル単位で予測する従来の方法とは異なり、ベクトル化環境ではこのような芸術的創造プロセスを処理し、さらにレンダリングに使用できる物理的意味のあるストロークパラメータのシーケンスを生成する。 そこで我々は,ベクトルレンダラーの動作を模倣した新しいニューラルレンダラーを設計し,入力と描画出力の類似性を最大化するパラメータ探索プロセスとして,ストローク予測をフレーム化する。 パラメータ探索におけるゼロ勾配問題について検討し, 最適輸送の観点からこの問題を解くことを提案する。 また, 従来のニューラルレンダラーにはパラメータ結合の問題があり, ラスタ化ネットワークとシェーディングネットワークでレンダリングネットワークを再設計し, 形状や色が乱れやすいことを示した。 実験により,本手法で生成した絵画は,グローバルな外観と局所的なテクスチャの両方において高い忠実度を示すことがわかった。 我々の手法は、他の画像から視覚スタイルを転送するニューラルスタイル転送と共同で最適化することもできる。 私たちのコードとアニメーション結果は \url{https://jiupinjia.github.io/neuralpainter/} で入手できる。

This paper proposes an image-to-painting translation method that generates vivid and realistic painting artworks with controllable styles. Different from previous image-to-image translation methods that formulate the translation as pixel-wise prediction, we deal with such an artistic creation process in a vectorized environment and produce a sequence of physically meaningful stroke parameters that can be further used for rendering. Since a typical vector render is not differentiable, we design a novel neural renderer which imitates the behavior of the vector renderer and then frame the stroke prediction as a parameter searching process that maximizes the similarity between the input and the rendering output. We explored the zero-gradient problem on parameter searching and propose to solve this problem from an optimal transportation perspective. We also show that previous neural renderers have a parameter coupling problem and we re-design the rendering network with a rasterization network and a shading network that better handles the disentanglement of shape and color. Experiments show that the paintings generated by our method have a high degree of fidelity in both global appearance and local textures. Our method can be also jointly optimized with neural style transfer that further transfers visual style from other images. Our code and animated results are available at \url{https://jiupinjia.github.io/neuralpainter/}.
翻訳日:2022-09-25 00:32:10 公開日:2020-11-16
# 医療シナリオにおける言語表現の合意の測定

Measuring agreement on linguistic expressions in medical treatment scenarios ( http://arxiv.org/abs/2011.07693v1 )

ライセンス: Link先を確認
J Navrro, C Wagner, Uwe Aickelin, L Green, R Ashford(参考訳) 生活評価の質は、治療の成功と生存性を決定する重要なプロセスである。 このように、機能的地位と幸福感に対する患者の認識は、障害評価の重要なインプットである。 患者アンケートが患者の地位を評価し,今後の治療オプションを決定するためにしばしば使用されることを考えると,患者と医療専門家の異なる集団の言葉の一致度を知ることが重要である。 本稿では,ファジィ集合(fss)を通して単語をモデル化する際の全体合意の比率を提供する合意比と呼ばれる尺度を提案する。 この尺度は、患者の反応などのデータから生成されるファジィセットでこの合意を評価するために特別に設計されている。 この尺度は、生成されたFSの異なるレベルの合意を比較するために、ジャカード類似度尺度を使用することに依存している。

Quality of life assessment represents a key process of deciding treatment success and viability. As such, patients' perceptions of their functional status and well-being are important inputs for impairment assessment. Given that patient completed questionnaires are often used to assess patient status and determine future treatment options, it is important to know the level of agreement of the words used by patients and different groups of medical professionals. In this paper, we propose a measure called the Agreement Ratio which provides a ratio of overall agreement when modelling words through Fuzzy Sets (FSs). The measure has been specifically designed for assessing this agreement in fuzzy sets which are generated from data such as patient responses. The measure relies on using the Jaccard Similarity Measure for comparing the different levels of agreement in the FSs generated.
翻訳日:2022-09-25 00:25:10 公開日:2020-11-16
# タッカー分解に基づく時間知識グラフの完成

Tucker decomposition-based Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2011.07751v1 )

ライセンス: Link先を確認
Pengpeng Shao, Guohua Yang, Dawei Zhang, Jianhua Tao, Feihu Che, Tong Liu(参考訳) 知識グラフは多くのインテリジェントなアプリケーションに有効なツールであることが示されている。 しかし、多くの貴重な知識が知識グラフに暗黙的に存在している。 既存の知識グラフを豊かにするために、リンク予測と知識グラフの埋め込みのための多くのアルゴリズムが、新しい事実を推測するために設計されていることを近年目撃している。 しかし,これらの研究の大部分は静的知識グラフに注目し,知識の有効性を反映した時間的情報を無視している。 時間的知識グラフの補完モデルの開発はますます重要な課題である。 本論文では,次数4のタッカー分解にインスパイアされた時間知識グラフ補完のための新しいテンソル分解モデルを構築する。 提案モデルは完全に表現力があり,公開ベンチマークの結果を報告できることを実証した。 さらに,戦略改善のためのいくつかの正規化スキームと,その提案モデルへの影響について検討する。 3つの時間的データセット(ICEWS2014,ICEWS 2005-15,GDELT)に関する実験的研究は、我々の設計を正当化し、我々のモデルがリンク予測タスクの明確なマージンでベースラインより優れていることを示す。

Knowledge graphs have been demonstrated to be an effective tool for numerous intelligent applications. However, a large amount of valuable knowledge still exists implicitly in the knowledge graphs. To enrich the existing knowledge graphs, recent years witness that many algorithms for link prediction and knowledge graphs embedding have been designed to infer new facts. But most of these studies focus on the static knowledge graphs and ignore the temporal information that reflects the validity of knowledge. Developing the model for temporal knowledge graphs completion is an increasingly important task. In this paper, we build a new tensor decomposition model for temporal knowledge graphs completion inspired by the Tucker decomposition of order 4 tensor. We demonstrate that the proposed model is fully expressive and report state-of-the-art results for several public benchmarks. Additionally, we present several regularization schemes to improve the strategy and study their impact on the proposed model. Experimental studies on three temporal datasets (i.e. ICEWS2014, ICEWS2005-15, GDELT) justify our design and demonstrate that our model outperforms baselines with an explicit margin on link prediction task.
翻訳日:2022-09-25 00:24:55 公開日:2020-11-16
# 経路埋め込みと凝集によるFact Checking

Fact Checking via Path Embedding and Aggregation ( http://arxiv.org/abs/2011.08028v1 )

ライセンス: Link先を確認
Giuseppe Pirr\`o(参考訳) 知識グラフ (KGs) は、背景知識の有用な情報源であり、形 (s, p, o) の事実を (dis) 証明する。 s と o の間の経路を見つけることは、いくつかのファクトチェックアプローチの基盤となる。 パスは(視覚的に)ある事実が真実であるか偽であるかを説明するのに役立つが、事実に最も関係のあるパスを識別し、エンコードし、その重要性を重くする方法については完全には明確ではない。 本稿では,FEA(Fact Checking through path Embedding and Aggregation)システムを提案する。 FEAは、p の領域に最も意味的に関係している s と o の間の経路を慎重に収集することから始まる。 しかし、全てのパスのこのサブセットを直接扱う代わりに、ベクトル化されたパス表現を学び、異なる戦略に従ってそれらを集約し、最終的に事実を証明するためにそれらを使用する。 様々なkgについて大規模な実験を行い、我々のハイブリッドソリューションが性能面でいくつかの利点をもたらすことを見出しました。

Knowledge graphs (KGs) are a useful source of background knowledge to (dis)prove facts of the form (s, p, o). Finding paths between s and o is the cornerstone of several fact-checking approaches. While paths are useful to (visually) explain why a given fact is true or false, it is not completely clear how to identify paths that are most relevant to a fact, encode them and weigh their importance. The goal of this paper is to present the Fact Checking via path Embedding and Aggregation (FEA) system. FEA starts by carefully collecting the paths between s and o that are most semantically related to the domain of p. However, instead of directly working with this subset of all paths, it learns vectorized path representations, aggregates them according to different strategies, and use them to finally (dis)prove a fact. We conducted a large set of experiments on a variety of KGs and found that our hybrid solution brings some benefits in terms of performance.
翻訳日:2022-09-25 00:24:37 公開日:2020-11-16
# 複数基準決定における確率的ハシタントファジィ集合の不確実性対策

Uncertainty measures for probabilistic hesitant fuzzy sets in multiple criteria decision making ( http://arxiv.org/abs/2011.08182v1 )

ライセンス: Link先を確認
Bahram Farhadinia, Uwe Aickelin, Hadi Akbarzadeh Khorshidi(参考訳) この貢献は、確率的重畳ファジィ集合(PHFS)に対する既存のエントロピー測度を批判的に評価し、これらのエントロピー測度が、いくつかのケースにおいて様々な異なるPHFSを効果的に区別できないことを示す。 本研究は,不確実性と非特異性(fuzziness and nonspecificity)として知られるPHFEに関連付けられた不確実性の2つの側面を考慮し,確率的ヘシタントファジィ要素(PHFE)に対するエントロピー尺度の新しい公理的枠組みを開発する。 それぞれの不確実性に関して、PHFEエントロピー尺度の柔軟な選択を可能にするために、いくつかの公式が導出される。 さらに,提案したPHFEエントロピー測度に基づいて,比較分析において用いられるエントロピーに基づく距離測度を導入する。

This contribution reviews critically the existing entropy measures for probabilistic hesitant fuzzy sets (PHFSs), and demonstrates that these entropy measures fail to effectively distinguish a variety of different PHFSs in some cases. In the sequel, we develop a new axiomatic framework of entropy measures for probabilistic hesitant fuzzy elements (PHFEs) by considering two facets of uncertainty associated with PHFEs which are known as fuzziness and nonspecificity. Respect to each kind of uncertainty, a number of formulae are derived to permit flexible selection of PHFE entropy measures. Moreover, based on the proposed PHFE entropy measures, we introduce some entropy-based distance measures which are used in the portion of comparative analysis.
翻訳日:2022-09-25 00:24:21 公開日:2020-11-16
# 高次重み付きファジィチョケット積分作用素とその多重基準決定への応用

Higher order hesitant fuzzy Choquet integral operator and its application to multiple criteria decision making ( http://arxiv.org/abs/2011.08183v1 )

ライセンス: Link先を確認
B Farhadinia, Uwe Aickelin, HA Khorshidi(参考訳) 一般に、意思決定問題に関わる基準は対話的あるいは相互依存的であるため、加法的尺度に基づく従来の演算子を用いてそれらを集約することは論理的ではない。 これは、基準間の相互作用現象をモデル化するためのファジィ測度を実装しなければならないことを検証し、一方、与えられた要素の帰属をいくつかの一般化されたファジィ集合の形式で定義できる高次ヘシタンファジィ集合(hohfs)と呼ばれる最近のヘシタンファジィ集合の拡張に基づき、高次ヘシタンファジィ(hohf)チョケ積分作用素を提案することを推奨する。 この概念は、高階の難解な議論の重要性だけでなく、それらの議論間の相関を反映することができる。 次に、HOHF Choquet積分作用素の集合特性に関する詳細な議論を行い、HOHF Choquet積分作用素の意思決定への応用を強化するため、まず社会経済発展のための適切なエネルギー政策を評価する。 そして,TODIM(ポルトガル語の対話的・複数基準決定法)の技法に関連する別の意思決定問題を用いることで,複数の出口技術に対するHOHF Choquet積分演算子法の有効性をさらに検証する。

Generally, the criteria involved in a decision making problem are interactive or inter-dependent, and therefore aggregating them by the use of traditional operators which are based on additive measures is not logical. This verifies that we have to implement fuzzy measures for modelling the interaction phenomena among the criteria.On the other hand, based on the recent extension of hesitant fuzzy set, called higher order hesitant fuzzy set (HOHFS) which allows the membership of a given element to be defined in forms of several possible generalized types of fuzzy set, we encourage to propose the higher order hesitant fuzzy (HOHF) Choquet integral operator. This concept not only considers the importance of the higher order hesitant fuzzy arguments, but also it can reflect the correlations among those arguments. Then,a detailed discussion on the aggregation properties of the HOHF Choquet integral operator will be presented.To enhance the application of HOHF Choquet integral operator in decision making, we first assess the appropriate energy policy for the socio-economic development. Then, the efficiency of the proposed HOHF Choquet integral operator-based technique over a number of exiting techniques is further verified by employing another decision making problem associated with the technique of TODIM (an acronym in Portuguese of Interactive and Multicriteria Decision Making).
翻訳日:2022-09-25 00:24:06 公開日:2020-11-16
# 確率的サービスネットワーク設計のためのファジィC平均シナリオバンドル

Fuzzy C-means-based scenario bundling for stochastic service network design ( http://arxiv.org/abs/2011.09890v1 )

ライセンス: Link先を確認
Xiaoping Jiang, Ruibin Bai, Dario Landa-Silva, Uwe Aickelin(参考訳) 一連のシナリオに代表される不確実な需要を持つ確率的サービスネットワークの設計は、大規模な2段階確率的混合整数プログラム(SMIP)としてモデル化することができる。 プログレッシブ・ヘッジアルゴリズム(PHA)は、結果のSMIPを解決するための分解法である。 PHAの計算性能は個々のシナリオではなくシナリオバンドルに従って分解することで大幅に向上することができる。 バンドルベースの分解の核心は、シナリオをバンドルにグループ化する方法である。 本稿では,この問題に対処するために,ファジィ c-means-based scenario bundling 法を提案する。 k-平均のような既存のシナリオバンドル戦略では、バンドルの完全なメンバシップではなく、シナリオは各バンドルに部分的なメンバシップを持ち、我々の方法では複数のバンドルに割り当てられる。

Stochastic service network designs with uncertain demand represented by a set of scenarios can be modelled as a large-scale two-stage stochastic mixed-integer program (SMIP). The progressive hedging algorithm (PHA) is a decomposition method for solving the resulting SMIP. The computational performance of the PHA can be greatly enhanced by decomposing according to scenario bundles instead of individual scenarios. At the heart of bundle-based decomposition is the method for grouping the scenarios into bundles. In this paper, we present a fuzzy c-means-based scenario bundling method to address this problem. Rather than full membership of a bundle, which is typically the case in existing scenario bundling strategies such as k-means, a scenario has partial membership in each of the bundles and can be assigned to more than one bundle in our method.
翻訳日:2022-09-25 00:23:42 公開日:2020-11-16
# ブラックボックス攻撃に対する敵対的ロバスト防御のためのキーベース変換画像によるモデルのアンサンブル

Ensemble of Models Trained by Key-based Transformed Images for Adversarially Robust Defense Against Black-box Attacks ( http://arxiv.org/abs/2011.07697v1 )

ライセンス: Link先を確認
MaungMaung AprilPyone and Hitoshi Kiya(参考訳) 本稿では,ブロックワイズ変換された画像と秘密鍵を用いて,対向的に頑健な防御のために学習したモデルの投票アンサンブルを提案する。 鍵ベースの敵防衛は、勾配に基づく(ホワイトボックス)攻撃に対する最先端の防御よりも優れていた。 しかし、鍵ベースの防御は秘密鍵を必要とせず、グラデーションフリー(ブラックボックス)攻撃に対して十分効果がない。 そこで我々は,モデルの投票アンサンブルを用いて,ブラックボックス攻撃に対する堅牢性を高めることを目指している。 提案するアンサンブルでは,異なるキーとブロックサイズで変換された画像を用いて複数のモデルを訓練し,そのモデルに投票アンサンブルを適用する。 画像分類実験において、提案した防御は最先端の攻撃を防御する。 提案する防御は、cifar-10データセット上のノイズ距離8/255で、95.56 %、攻撃成功率9 %未満のクリーンな精度を達成している。

We propose a voting ensemble of models trained by using block-wise transformed images with secret keys for an adversarially robust defense. Key-based adversarial defenses were demonstrated to outperform state-of-the-art defenses against gradient-based (white-box) attacks. However, the key-based defenses are not effective enough against gradient-free (black-box) attacks without requiring any secret keys. Accordingly, we aim to enhance robustness against black-box attacks by using a voting ensemble of models. In the proposed ensemble, a number of models are trained by using images transformed with different keys and block sizes, and then a voting ensemble is applied to the models. In image classification experiments, the proposed defense is demonstrated to defend state-of-the-art attacks. The proposed defense achieves a clean accuracy of 95.56 % and an attack success rate of less than 9 % under attacks with a noise distance of 8/255 on the CIFAR-10 dataset.
翻訳日:2022-09-25 00:23:30 公開日:2020-11-16
# 多視点3次元形状検索のためのグラム正規化

Gram Regularization for Multi-view 3D Shape Retrieval ( http://arxiv.org/abs/2011.07733v1 )

ライセンス: Link先を確認
Zhaoqun Li(参考訳) 3次元形状の望ましい表現の獲得は,3次元形状検索タスクにおいて重要な課題である。 既存の3d形状検索手法のほとんどは、異なるニューラルネットワークアーキテクチャによる形状表現の取得に重点を置いているが、ネットワークの各レイヤの学習能力は無視されている。 ネットワークの容量を制限している一般的で難しい問題は、過度に適合することです。 これを解決するため、L2正規化は既存のディープラーニングフレームワークに広く適用されている。 しかし、L2正則化による一般化能力への影響は、パラメータの大きな値のみを制御するため制限される。 そこで本稿では,重みカーネルに対応する特徴マップの異なる情報を抽出するよう促すことにより,ネットワークの学習能力を強化する「グラム正規化」という新しい正規化用語を提案する。 重みカーネル間の分散を強要することにより、正規化器は識別的特徴を抽出するのに役立つ。 提案するグラム正則化はデータ独立であり、ベルやホイッスルなしで安定かつ迅速に収束することができる。 さらに、既存のオフ・ザ・シェルフ・アーキテクチャに簡単に接続できる。 人気のある3dオブジェクト検索ベンチマーク・モデルネットの広範な実験結果から,本手法の有効性を実証した。

How to obtain the desirable representation of a 3D shape is a key challenge in 3D shape retrieval task. Most existing 3D shape retrieval methods focus on capturing shape representation with different neural network architectures, while the learning ability of each layer in the network is neglected. A common and tough issue that limits the capacity of the network is overfitting. To tackle this, L2 regularization is applied widely in existing deep learning frameworks. However,the effect on the generalization ability with L2 regularization is limited as it only controls large value in parameters. To make up the gap, in this paper, we propose a novel regularization term called Gram regularization which reinforces the learning ability of the network by encouraging the weight kernels to extract different information on the corresponding feature map. By forcing the variance between weight kernels to be large, the regularizer can help to extract discriminative features. The proposed Gram regularization is data independent and can converge stably and quickly without bells and whistles. Moreover, it can be easily plugged into existing off-the-shelf architectures. Extensive experimental results on the popular 3D object retrieval benchmark ModelNet demonstrate the effectiveness of our method.
翻訳日:2022-09-25 00:23:17 公開日:2020-11-16
# 樹脂識別コードに基づくプラスチックの偏析へのコンピュータビジョン技術の応用

Application of Computer Vision Techniques for Segregation of PlasticWaste based on Resin Identification Code ( http://arxiv.org/abs/2011.07747v1 )

ライセンス: Link先を確認
Shivaank Agarwal, Ravindra Gudi, Paresh Saxena(参考訳) 本稿では, その樹脂識別コードに基づいてプラスチック廃棄物を同定し, 市販後プラスチック廃棄物の効率的なリサイクルを行う方法を提案する。 我々は,異なる機械学習手法の設計,トレーニング,テストを提案する。 (i)システムが訓練されたときに既知のプラスチック廃棄物の分類に属するプラスチック廃棄物を識別すること。 (ii) システムが訓練されている間、既知のプラスチック廃棄物のカテゴリーに属さない新しいプラスチック廃棄物を特定する。 まず,シアームと三重項損失ネットワークを用いたワンショット学習手法を提案する。 提案手法では,データベースサイズを増加させるための拡張は必要とせず,99.74%の精度を達成した。 第2のケースでは, 教師付き・教師なしの次元低減技術を用いて, 95%の精度で新しいプラスチック廃棄物を正しく同定する手法を提案する。

This paper presents methods to identify the plastic waste based on its resin identification code to provide an efficient recycling of post-consumer plastic waste. We propose the design, training and testing of different machine learning techniques to (i) identify a plastic waste that belongs to the known categories of plastic waste when the system is trained and (ii) identify a new plastic waste that do not belong the any known categories of plastic waste while the system is trained. For the first case,we propose the use of one-shot learning techniques using Siamese and Triplet loss networks. Our proposed approach does not require any augmentation to increase the size of the database and achieved a high accuracy of 99.74%. For the second case, we propose the use of supervised and unsupervised dimensionality reduction techniques and achieved an accuracy of 95% to correctly identify a new plastic waste.
翻訳日:2022-09-25 00:23:00 公開日:2020-11-16
# 低資源環境における並列コーパスフィルタの改良のためのスコア結合

Score Combination for Improved Parallel Corpus Filtering for Low Resource Conditions ( http://arxiv.org/abs/2011.07933v1 )

ライセンス: Link先を確認
Muhammad N. ElNokrashy, Amr Hendy, Mohamed Abdelghaffar, Mohamed Afify, Ahmed Tawfik and Hany Hassan Awadalla(参考訳) 本稿では,WMT20文フィルタリングタスクについて述べる。 本研究では,(1)各ソース言語用に構築されたカスタムLASER,(2)正と負のペアをセマンティックアライメントで識別する分類器,(3)タスクデキットに含まれる元のスコアからスコアを合成する。 オーガナイザが提供したmBARTファインタニング装置では, Pashto と Khmer の試験セットにおける SareBLEU スコアにおいて, ベースラインよりも7% と 5% の相対的な改善が見られた。

This paper describes our submission to the WMT20 sentence filtering task. We combine scores from (1) a custom LASER built for each source language, (2) a classifier built to distinguish positive and negative pairs by semantic alignment, and (3) the original scores included in the task devkit. For the mBART finetuning setup, provided by the organizers, our method shows 7% and 5% relative improvement over baseline, in sacreBLEU score on the test set for Pashto and Khmer respectively.
翻訳日:2022-09-25 00:16:23 公開日:2020-11-16
# イタリアの個人著作における著者属性のデータセットとモデル

Datasets and Models for Authorship Attribution on Italian Personal Writings ( http://arxiv.org/abs/2011.07975v1 )

ライセンス: Link先を確認
Gaetana Ruggiero, Albert Gatt, Malvina Nissim(参考訳) 著者の帰属に関する既存の研究(aa)は、多くのデータ(小説など)が英語を中心に利用できるテキストに焦点を当てている。 我々は2つの新しいデータセットで短いイタリア語のテキストについてAAにアプローチし、ジャンル、話題、性別、長さの相互作用を分析する。 結果は、avはわずかなデータでも実現可能だが、より多くの証拠が役立つことを示している。 性別や話題は手掛かりとなり得るし、もし制御されていない場合は、パーソナルスタイルをより具体的な側面に取って代わることができる。

Existing research on Authorship Attribution (AA) focuses on texts for which a lot of data is available (e.g novels), mainly in English. We approach AA via Authorship Verification on short Italian texts in two novel datasets, and analyze the interaction between genre, topic, gender and length. Results show that AV is feasible even with little data, but more evidence helps. Gender and topic can be indicative clues, and if not controlled for, they might overtake more specific aspects of personal style.
翻訳日:2022-09-25 00:16:10 公開日:2020-11-16
# person index challenge: 乱雑で短いテキストからの人物の抽出

The Person Index Challenge: Extraction of Persons from Messy, Short Texts ( http://arxiv.org/abs/2011.07990v1 )

ライセンス: Link先を確認
Markus Schr\"oder, Christian Jilek, Michael Schulze, Andreas Dengel(参考訳) ファーストネーム、ラストネーム、ミドルネームのテキストで言及される場合、どの名前が使われているか、どのように名前が順序付けされ、その名前が省略されているかなど、多種多様である。 複数の人が全く異なる方法で連続して言及される場合、特に短いテキストは「メッシー」と認識される。 ひとたび曖昧な名前が発生すると、人との関連性は正しく推測されない。 これらの結果にもかかわらず、本論文では教師なしのアルゴリズムがいかに短いテキストから人格を作成できるかを問う。 個人インデックスを、個人を名前で明確に分類する構造化表として定義する。 まず,この問題を形式的に定義し,今後の評価のための真理データを生成する手順について述べる。 この課題に対する最初のソリューションを提供するために、ベースラインアプローチが実装されている。 提案した評価戦略を用いて,ベースラインの性能を検証し,さらなる改善を提案する。 将来の研究のために、ソースコードが公開されている。

When persons are mentioned in texts with their first name, last name and/or middle names, there can be a high variation which of their names are used, how their names are ordered and if their names are abbreviated. If multiple persons are mentioned consecutively in very different ways, especially short texts can be perceived as "messy". Once ambiguous names occur, associations to persons may not be inferred correctly. Despite these eventualities, in this paper we ask how well an unsupervised algorithm can build a person index from short texts. We define a person index as a structured table that distinctly catalogs individuals by their names. First, we give a formal definition of the problem and describe a procedure to generate ground truth data for future evaluations. To give a first solution to this challenge, a baseline approach is implemented. By using our proposed evaluation strategy, we test the performance of the baseline and suggest further improvements. For future research the source code is publicly available.
翻訳日:2022-09-25 00:15:59 公開日:2020-11-16
# 認知的可塑性と技術的有用性に関する語彙意味論の比較研究

Comparative Probing of Lexical Semantics Theories for Cognitive Plausibility and Technological Usefulness ( http://arxiv.org/abs/2011.07997v1 )

ライセンス: Link先を確認
Ant\'onio Branco, Jo\~ao Rodrigues, Ma{\l}gorzata Salawa, Ruben Branco, Chakaveh Saedi(参考訳) 語彙意味論の理論は、単語の意味が推論グラフ、特徴写像、ベクトル空間として表現されていることを主張する点で異なっており、そこで疑問を提起している。 あるいは、その非敵対的な部分:これらのアプローチが(部分的な)コアセマンティクスの知識ベースにおける(異なる)側面の(部分的な)レンダリングとしてシームレスに現れるという、語彙的セマンティクスの統一的な説明があるだろうか? 本稿では,これらの研究課題に対して,認知的妥当性と技術的有用性のレベルについて,様々な語彙意味論理論を体系的に研究する実験を行った。 これらの実験から得られた経験的発見は、特徴に基づくアプローチが他のものよりも優れているとして、語彙的意味論に関する洞察を前進させ、また、上記の研究課題に対する答えを見つけるために、私たちを最も近づきつつある。

Lexical semantics theories differ in advocating that the meaning of words is represented as an inference graph, a feature mapping or a vector space, thus raising the question: is it the case that one of these approaches is superior to the others in representing lexical semantics appropriately? Or in its non antagonistic counterpart: could there be a unified account of lexical semantics where these approaches seamlessly emerge as (partial) renderings of (different) aspects of a core semantic knowledge base? In this paper, we contribute to these research questions with a number of experiments that systematically probe different lexical semantics theories for their levels of cognitive plausibility and of technological usefulness. The empirical findings obtained from these experiments advance our insight on lexical semantics as the feature-based approach emerges as superior to the other ones, and arguably also move us closer to finding answers to the research questions above.
翻訳日:2022-09-25 00:15:45 公開日:2020-11-16
# タスク記述から学ぶ

Learning from Task Descriptions ( http://arxiv.org/abs/2011.08115v1 )

ライセンス: Link先を確認
Orion Weller, Nicholas Lourie, Matt Gardner, Matthew E. Peters(参考訳) 通常、機械学習システムは数千のサンプルでトレーニングすることで新しいタスクを解決します。 対照的に、人間はいくつかの命令を読むことで新しいタスクを解くことができる。 このギャップを埋めるために、我々はNLPシステム開発のためのフレームワークを導入し、それらの記述を読んだ後に新しいタスクを解決し、この分野の先行作業を合成する。 我々は、このフレームワークを新しい英語データセットであるZESTでインスタンス化し、未知のタスクに対するタスク指向の評価を行う。 タスク記述を質問として定式化することで、各タスクが多くの可能な入力に適用できるほど一般的であることを保証し、各タスクを解決するモデルの能力を包括的に評価する。 さらにデータセットの構造は、特定の種類の体系的一般化をテストする。 現状のT5モデルはZESTで12%のスコアを獲得し、NLP研究者にとって大きな課題となっている。

Typically, machine learning systems solve new tasks by training on thousands of examples. In contrast, humans can solve new tasks by reading some instructions, with perhaps an example or two. To take a step toward closing this gap, we introduce a framework for developing NLP systems that solve new tasks after reading their descriptions, synthesizing prior work in this area. We instantiate this framework with a new English language dataset, ZEST, structured for task-oriented evaluation on unseen tasks. Formulating task descriptions as questions, we ensure each is general enough to apply to many possible inputs, thus comprehensively evaluating a model's ability to solve each task. Moreover, the dataset's structure tests specific types of systematic generalization. We find that the state-of-the-art T5 model achieves a score of 12% on ZEST, leaving a significant challenge for NLP researchers.
翻訳日:2022-09-25 00:15:28 公開日:2020-11-16
# 歴史言語学における単語の順序変化に関する確率論的アプローチ--ラテン語から古フランス語へ

A Probabilistic Approach in Historical Linguistics Word Order Change in Infinitival Clauses: from Latin to Old French ( http://arxiv.org/abs/2011.08262v1 )

ライセンス: Link先を確認
Olga Scrivner(参考訳) この研究は、計算言語学、NLP、ベイズ統計学、社会言語学の手法を用いて、新しい言語学分野への学際的アプローチを提供する。 この論文は、ラテン語と古フランス語の歴史において、不定詞節の語順変化をObject-Verb(OV)からVerb-Object(VO)に変更する。 変分主義的アプローチを適用することで,言語変化の各段階における単語順序の同時変化について検討し,その特徴,周期性,制約を推定する。 また,ラテン語や古フランス語などの談話構成言語では,情報構造アノテーションを用いて実践的に中立な文脈を識別できることを示した。 さらに,言語カテゴリーを構文構造にマッピングすることで,単語の順序がどう変化するかを検出することができる。 この調査のために、データは数世紀にわたるラテン語と古フランス語にまたがる注釈付きコーパスと、計算言語的手法によって作成された追加のリソースから抽出される。 データはさらに、実用的、意味的、構文的、社会言語的要因について体系化される。 本研究は,単語順の交代と変化を考慮した先行する因子についても評価する。 情報構造と統語的制約が時間とともにどのように変化するかを示し、安定な語順変更と変化を示す語順変更を区別する手法を提案する。 最後に,従来の言語変化パターンにも準拠した,単語順序変化の3段階確率モデルを提案する。

This research offers a new interdisciplinary approach to the field of Linguistics by using Computational Linguistics, NLP, Bayesian Statistics and Sociolinguistics methods. This thesis investigates word order change in infinitival clauses from Object-Verb (OV) to Verb-Object (VO) in the history of Latin and Old French. By applying a variationist approach, I examine a synchronic word order variation in each stage of language change, from which I infer the character, periodization and constraints of diachronic variation. I also show that in discourse-configurational languages, such as Latin and Early Old French, it is possible to identify pragmatically neutral contexts by using information structure annotation. I further argue that by mapping pragmatic categories into a syntactic structure, we can detect how word order change unfolds. For this investigation, the data are extracted from annotated corpora spanning several centuries of Latin and Old French and from additional resources created by using computational linguistic methods. The data are then further codified for various pragmatic, semantic, syntactic and sociolinguistic factors. This study also evaluates previous factors proposed to account for word order alternation and change. I show how information structure and syntactic constraints change over time and propose a method that allows researchers to differentiate a stable word order alternation from alternation indicating a change. Finally, I present a three-stage probabilistic model of word order change, which also conforms to traditional language change patterns.
翻訳日:2022-09-25 00:15:13 公開日:2020-11-16
# 抽象ポッドキャスト要約のための2相アプローチ

A Two-Phase Approach for Abstractive Podcast Summarization ( http://arxiv.org/abs/2011.08291v1 )

ライセンス: Link先を確認
Chujie Zheng, Kunpeng Zhang, Harry Jiannan Wang, Ling Fan(参考訳) ポッドキャストの要約は、ニュース、特許、科学論文などの他のデータフォーマットの要約とは違い、ポッドキャストは長く、会話的、口語的であり、スポンサーシップや広告情報が多いため、既存のモデルには大きな課題が伴う。 本稿では,要約的ポッドキャスト要約に着目し,文選択とseq2seq学習という2段階のアプローチを提案する。 具体的には、まず、ノイズの多い長いポッドキャストの書き起こしから重要な文を選択する。 この選択は、セマンティクスを保存するために冗長性と関連する潜在トピックを減らすために、参照と文の類似性に基づいている。 そして、選択した文を訓練済みエンコーダデコーダフレームワークに入力して要約生成する。 提案手法は,ROUGEに基づく測定と人的評価の両面で有望な結果をもたらす。

Podcast summarization is different from summarization of other data formats, such as news, patents, and scientific papers in that podcasts are often longer, conversational, colloquial, and full of sponsorship and advertising information, which imposes great challenges for existing models. In this paper, we focus on abstractive podcast summarization and propose a two-phase approach: sentence selection and seq2seq learning. Specifically, we first select important sentences from the noisy long podcast transcripts. The selection is based on sentence similarity to the reference to reduce the redundancy and the associated latent topics to preserve semantics. Then the selected sentences are fed into a pre-trained encoder-decoder framework for the summary generation. Our approach achieves promising results regarding both ROUGE-based measures and human evaluations.
翻訳日:2022-09-25 00:14:49 公開日:2020-11-16
# Facebook AIのWMT20ニュース翻訳タスクの提出

Facebook AI's WMT20 News Translation Task Submission ( http://arxiv.org/abs/2011.08298v1 )

ライセンス: Link先を確認
Peng-Jen Chen, Ann Lee, Changhan Wang, Naman Goyal, Angela Fan, Mary Williamson, Jiatao Gu(参考訳) 本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。 低リソース設定に重点を置き、Tamil <-> English と Inuktitut <-> English の2つの言語ペアに参加する。 我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。 自己教師付きモデル事前学習,多言語モデル,データ拡張,再ランキングなど,すべての言語からバイテキストとモノリンガルデータを活用する手法を検討する。 翻訳システムをテストドメインに適合させるために,データタギングとドメイン内データの微調整について検討する。 異なる手法が言語ペアの利用可能なデータに基づいて様々な改善を提供するのを観察する。 発見に基づいて、これらのテクニックを1つのトレーニングパイプラインに統合します。 En->Ta では,Tamil bitext とモノリンガルデータを付加した制約のない設定を探索し,さらなる改善が期待できることを示す。 テストセットでは,Ta->EnとEn->Taのそれぞれ21.5と13.7のBLEU,Iu->EnとEn->Iuのそれぞれ27.9と13.0を達成する。

This paper describes Facebook AI's submission to WMT20 shared news translation task. We focus on the low resource setting and participate in two language pairs, Tamil <-> English and Inuktitut <-> English, where there are limited out-of-domain bitext and monolingual data. We approach the low resource problem using two main strategies, leveraging all available data and adapting the system to the target news domain. We explore techniques that leverage bitext and monolingual data from all languages, such as self-supervised model pretraining, multilingual models, data augmentation, and reranking. To better adapt the translation system to the test domain, we explore dataset tagging and fine-tuning on in-domain data. We observe that different techniques provide varied improvements based on the available data of the language pair. Based on the finding, we integrate these techniques into one training pipeline. For En->Ta, we explore an unconstrained setup with additional Tamil bitext and monolingual data and show that further improvement can be obtained. On the test set, our best submitted systems achieve 21.5 and 13.7 BLEU for Ta->En and En->Ta respectively, and 27.9 and 13.0 for Iu->En and En->Iu respectively.
翻訳日:2022-09-25 00:14:37 公開日:2020-11-16
# 私をパトロンにしないで! 脆弱なコミュニティに対するパトロンと譲歩言語を備えた注釈付きデータセット

Don't Patronize Me! An Annotated Dataset with Patronizing and Condescending Language towards Vulnerable Communities ( http://arxiv.org/abs/2011.08320v1 )

ライセンス: Link先を確認
Carla P\'erez-Almendros, Luis Espinosa-Anke and Steven Schockaert(参考訳) 本稿では,nlpモデルの開発を支援し,脆弱なコミュニティ(難民,ホームレス,貧乏家族など)を保護あるいは軽視する言語を識別し分類することを目的とした,新しい注釈付きデータセットを提案する。 一般メディアにおけるそのような言語の普及は長年に渡り有害な効果があることが示されているが、他の種類の有害な言語とは異なっている。 さらに,PCLの微妙な性質は,NLPコミュニティにとって興味深い技術的課題であると考えている。 提案したデータセットを解析した結果,標準NLPモデルではPCLの同定が困難であり,BERTなどの言語モデルが最適であることがわかった。

In this paper, we introduce a new annotated dataset which is aimed at supporting the development of NLP models to identify and categorize language that is patronizing or condescending towards vulnerable communities (e.g. refugees, homeless people, poor families). While the prevalence of such language in the general media has long been shown to have harmful effects, it differs from other types of harmful language, in that it is generally used unconsciously and with good intentions. We furthermore believe that the often subtle nature of patronizing and condescending language (PCL) presents an interesting technical challenge for the NLP community. Our analysis of the proposed dataset shows that identifying PCL is hard for standard NLP models, with language models such as BERT achieving the best results.
翻訳日:2022-09-25 00:14:12 公開日:2020-11-16
# 2段階ニューラルマッチングモデルによる短い医療質問の検索とランキング

Retrieving and ranking short medical questions with two stages neural matching model ( http://arxiv.org/abs/2012.01254v1 )

ライセンス: Link先を確認
Xiang Li, Xinyu Fu, Zheng Lu, Ruibin Bai, Uwe Aickelin, Peiming Ge, Gong Liu(参考訳) インターネット病院はモバイルウェブ技術の進歩と医療サービスの需要の高まりにより、ビジネスが盛んになっている。 オンライン医療サービスが普及し、活発になる。 2018年の米国データによると、インターネットユーザーの80%がオンライン上で健康関連の質問をしている。 多数のデータが前例のないスピードとスケールで生成される。 医学分野における代表的な質問や回答は、医療データマイニングに有用な原資料である。 これらの大量のデータに対する自動機械解釈は、情報検索と機械学習のアプローチの観点から、医師が頻繁に質問された医療関連質問に答える機会を与える。 本研究では,クエリレベルの医療質問のセマンティックマッチングのための新しい2段階フレームワークを提案する。

Internet hospital is a rising business thanks to recent advances in mobile web technology and high demand of health care services. Online medical services become increasingly popular and active. According to US data in 2018, 80 percent of internet users have asked health-related questions online. Numerous data is generated in unprecedented speed and scale. Those representative questions and answers in medical fields are valuable raw data sources for medical data mining. Automated machine interpretation on those sheer amount of data gives an opportunity to assist doctors to answer frequently asked medical-related questions from the perspective of information retrieval and machine learning approaches. In this work, we propose a novel two-stage framework for the semantic matching of query-level medical questions.
翻訳日:2022-09-25 00:14:00 公開日:2020-11-16
# 多重分解単一画像の高分解能化のための高速・ロバストカスケードモデル

Fast and Robust Cascade Model for Multiple Degradation Single Image Super-Resolution ( http://arxiv.org/abs/2011.07068v1 )

ライセンス: Link先を確認
Santiago L\'opez-Tapia and Nicol\'as P\'erez de la Blanca(参考訳) SISR(Single Image Super-Resolution)は、近年注目されている低レベルのコンピュータビジョン問題の一つである。 現在のアプローチは主に、ディープラーニングモデルと最適化手法のパワーを活用して、劣化モデルを逆転させることに基づいている。 その硬さのため、小さな異方性変形を持つ等方的ぼかしやガウスが主に検討されている。 ここでは、実際のカメラの動きで発生する大きな非ゲージのぼやけを含むことで、このシナリオを広げる。 提案手法は,分解モデルを活用し,各ネットワークサブモジュールが特定の劣化を解決するために制約される畳み込みニューラルネットワーク(CNN)カスケードモデルの新たな定式化を提案する。 各サブモジュールの出力を外部知識を用いて制限し,特定のタスクに集中させる,新たな密結合型CNNアーキテクチャを提案する。 モジュールレベルでのドメイン知識の使用は、SISRでは新しくなっています。 最も細かいモデルに適合するために、ファイナルサブモジュールは、前のサブモジュールによって伝播される残差エラーを処理する。 SISRの3つの最先端技術(SOTA)データセットでモデルを確認し、その結果をSOTAモデルと比較する。 その結果,より広い変形を管理できるのは,モデルのみであることが判明した。 さらに, 本モデルは, 標準変形集合に対する現在のsoma法をすべて克服する。 計算負荷の面では、我々のモデルは効率の点で最も近い2つの競合も改善する。 このアプローチはblindではなく、ぼやけカーネルの推定を必要とするが、カーネル推定エラーをぼかすための堅牢性を示し、ブラインドモデルに代わる優れた選択肢となる。

Single Image Super-Resolution (SISR) is one of the low-level computer vision problems that has received increased attention in the last few years. Current approaches are primarily based on harnessing the power of deep learning models and optimization techniques to reverse the degradation model. Owing to its hardness, isotropic blurring or Gaussians with small anisotropic deformations have been mainly considered. Here, we widen this scenario by including large non-Gaussian blurs that arise in real camera movements. Our approach leverages the degradation model and proposes a new formulation of the Convolutional Neural Network (CNN) cascade model, where each network sub-module is constrained to solve a specific degradation: deblurring or upsampling. A new densely connected CNN-architecture is proposed where the output of each sub-module is restricted using some external knowledge to focus it on its specific task. As far we know this use of domain-knowledge to module-level is a novelty in SISR. To fit the finest model, a final sub-module takes care of the residual errors propagated by the previous sub-modules. We check our model with three state of the art (SOTA) datasets in SISR and compare the results with the SOTA models. The results show that our model is the only one able to manage our wider set of deformations. Furthermore, our model overcomes all current SOTA methods for a standard set of deformations. In terms of computational load, our model also improves on the two closest competitors in terms of efficiency. Although the approach is non-blind and requires an estimation of the blur kernel, it shows robustness to blur kernel estimation errors, making it a good alternative to blind models.
翻訳日:2022-09-25 00:08:04 公開日:2020-11-16
# 適応型オートエンコーダを用いたモードペナルティ生成対向ネットワーク

Mode Penalty Generative Adversarial Network with adapted Auto-encoder ( http://arxiv.org/abs/2011.07706v1 )

ライセンス: Link先を確認
Gahye Lee and Seungkyu Lee(参考訳) GAN(Generative Adversarial Networks)は、関心分布のサンプル画像を生成するために訓練される。 この目的のためにganのジェネレータネットワークは、候補生成サンプルの分類から実データ集合の暗黙的分布を学習する。 近年,ネットワークを安定的に最適化するための新しいアイデアが提案されている。 しかし、実際の実装では、真の分布の唯一の狭い部分を表すか、収束しない場合がある。 この不適切な問題の原因は, 判別器の目的関数からの勾配の低下によるものと仮定し, 悪条件下で容易に発電機をトラップする。 そこで本研究では,符号化空間における生成データおよび実データサンプルを明示的に表現するために,事前学習済みオートエンコーダと組み合わせたモードペナルティganを提案する。 この空間では、対象分布の全モードを見つけることによって、実多様体に従うように生成多様体を作る。 さらに、ターゲット分散の露見モードに対するペナルティがジェネレータに与えられ、全体的なターゲット分散を見つけるように促される。 提案手法をGANに適用することにより, ジェネレータの最適化がより安定し, 実験による収束が早くなることを示す。

Generative Adversarial Networks (GAN) are trained to generate sample images of interest distribution. To this end, generator network of GAN learns implicit distribution of real data set from the classification with candidate generated samples. Recently, various GANs have suggested novel ideas for stable optimizing of its networks. However, in real implementation, sometimes they still represent a only narrow part of true distribution or fail to converge. We assume this ill posed problem comes from poor gradient from objective function of discriminator, which easily trap the generator in a bad situation. To address this problem, we propose a mode penalty GAN combined with pre-trained auto encoder for explicit representation of generated and real data samples in the encoded space. In this space, we make a generator manifold to follow a real manifold by finding entire modes of target distribution. In addition, penalty for uncovered modes of target distribution is given to the generator which encourages it to find overall target distribution. We demonstrate that applying the proposed method to GANs helps generator's optimization becoming more stable and having faster convergence through experimental evaluations.
翻訳日:2022-09-25 00:07:37 公開日:2020-11-16
# CNNに基づくDeepFakeビデオ検出におけるトレーニング戦略とデータ拡張

Training Strategies and Data Augmentations in CNN-based DeepFake Video Detection ( http://arxiv.org/abs/2011.07792v1 )

ライセンス: Link先を確認
Luca Bondi, Edoardo Daniele Cannas, Paolo Bestagini, Stefano Tubaro(参考訳) ディープフェイク動画の数と品質の迅速かつ継続的な成長は、ソーシャルメディアやインターネット上で、そのコンテンツの真偽を自動で警告できる信頼性の高い検出システムの開発を呼びかけている。 アルゴリズム、ソフトウェア、スマートフォンアプリは、操作されたビデオの生成や顔の交換において日々良くなっているが、ビデオにおける顔偽造検出のための自動化システムの精度は、まだかなり限られており、特定の検出システムの設計とトレーニングに使用されるデータセットに偏っている。 本稿では,異なるトレーニング戦略とデータ拡張技術が,同一データセット上でトレーニングやテストを行う場合,CNNベースのディープフェイク検出器に与える影響を分析する。

The fast and continuous growth in number and quality of deepfake videos calls for the development of reliable detection systems capable of automatically warning users on social media and on the Internet about the potential untruthfulness of such contents. While algorithms, software, and smartphone apps are getting better every day in generating manipulated videos and swapping faces, the accuracy of automated systems for face forgery detection in videos is still quite limited and generally biased toward the dataset used to design and train a specific detection system. In this paper we analyze how different training strategies and data augmentation techniques affect CNN-based deepfake detectors when training and testing on the same dataset or across different datasets.
翻訳日:2022-09-25 00:07:18 公開日:2020-11-16
# 伝達学習に基づく脳腫瘍分類のための能動学習フレームワーク

A Transfer Learning Based Active Learning Framework for Brain Tumor Classification ( http://arxiv.org/abs/2011.09265v1 )

ライセンス: Link先を確認
Ruqian Hao, Khashayar Namdar, Lin Liu, Farzad Khalvati(参考訳) 脳腫瘍は、小児や成人のがん関連死の主要な原因の1つである。 早期の脳腫瘍グレード(低次・高次グリオーマ)の正確な分類は予後と治療計画において重要な役割を担っている。 近年のディープラーニングの進歩により、人工知能による脳腫瘍評価システムは、医療画像の解釈を数秒以内に行うことができる。 しかし、ディープラーニング技術の性能は、注釈付きデータセットのサイズに大きく依存している。 医療データの複雑さと量を考えると、大量の医療画像にラベルをつけることは極めて困難である。 本研究では,脳腫瘍分類におけるモデル性能の安定性とロバスト性を維持しつつ,アノテーションコストを低減できる新しいトランスファー学習ベースのアクティブラーニングフレームワークを提案する。 我々は,203例のMRIトレーニングデータセットと,ベースラインとして使用した66例の検証データセットに,2次元スライス法を用いてモデルを訓練し,微調整した。 提案手法を用いて,66例の別検体を用いて,AUC(Area Under Receiver Operating Characteristics, ROC)曲線の82.89%を達成し,少なくとも40%のラベリングコストを節約しながら,AUCよりも2.92%高い結果を得た。 提案手法のロバスト性をさらに検証するために,同じ手順を経たバランスの取れたデータセットを作成した。 モデルでは, ベースラインに対するAUCの78.48%と比較して82%のAUCを実現し, アクティブラーニングフレームワークを付加したトランスファーラーニングの堅牢性と安定性を保証し, トレーニングデータのサイズを大幅に削減した。

Brain tumor is one of the leading causes of cancer-related death globally among children and adults. Precise classification of brain tumor grade (low-grade and high-grade glioma) at early stage plays a key role in successful prognosis and treatment planning. With recent advances in deep learning, Artificial Intelligence-enabled brain tumor grading systems can assist radiologists in the interpretation of medical images within seconds. The performance of deep learning techniques is, however, highly depended on the size of the annotated dataset. It is extremely challenging to label a large quantity of medical images given the complexity and volume of medical data. In this work, we propose a novel transfer learning based active learning framework to reduce the annotation cost while maintaining stability and robustness of the model performance for brain tumor classification. We employed a 2D slice-based approach to train and finetune our model on the Magnetic Resonance Imaging (MRI) training dataset of 203 patients and a validation dataset of 66 patients which was used as the baseline. With our proposed method, the model achieved Area Under Receiver Operating Characteristic (ROC) Curve (AUC) of 82.89% on a separate test dataset of 66 patients, which was 2.92% higher than the baseline AUC while saving at least 40% of labeling cost. In order to further examine the robustness of our method, we created a balanced dataset, which underwent the same procedure. The model achieved AUC of 82% compared with AUC of 78.48% for the baseline, which reassures the robustness and stability of our proposed transfer learning augmented with active learning framework while significantly reducing the size of training data.
翻訳日:2022-09-25 00:06:45 公開日:2020-11-16
# IIT_kgp at FinCausal 2020, Shared Task 1: Causality Detection using Sentence Embeddings in Financial Reports

IIT_kgp at FinCausal 2020, Shared Task 1: Causality Detection using Sentence Embeddings in Financial Reports ( http://arxiv.org/abs/2011.07670v1 )

ライセンス: Link先を確認
Arka Mitra, Harshvardhan Srivastava, Yugam Tiwari(参考訳) この記事では、FinCausal 2020 Shared Taskにチームが提出した作業について説明する。 この研究は文中の因果関係を識別する最初のサブタスクに関連している。 実験で用いられた様々なモデルは、各文に対して潜在空間表現を得ることを試みた。 これらの表現に対して線形回帰を行い,文が因果であるか否かを分類した。 実験の結果、BERT (Large) は、財務文書や報告書の文の因果性を検出する作業において、F1スコア0.958の成績を示した。 クラス不均衡は、評価により良いメトリックスコアを与えるために修正された損失関数に対処された。

The paper describes the work that the team submitted to FinCausal 2020 Shared Task. This work is associated with the first sub-task of identifying causality in sentences. The various models used in the experiments tried to obtain a latent space representation for each of the sentences. Linear regression was performed on these representations to classify whether the sentence is causal or not. The experiments have shown BERT (Large) performed the best, giving a F1 score of 0.958, in the task of detecting the causality of sentences in financial texts and reports. The class imbalance was dealt with a modified loss function to give a better metric score for the evaluation.
翻訳日:2022-09-25 00:05:35 公開日:2020-11-16
# wikiasp:マルチドメインアスペクトベースの要約のためのデータセット

WikiAsp: A Dataset for Multi-domain Aspect-based Summarization ( http://arxiv.org/abs/2011.07832v1 )

ライセンス: Link先を確認
Hiroaki Hayashi, Prashant Budania, Peng Wang, Chris Ackerson, Raj Neervannan, Graham Neubig(参考訳) アスペクトベースの要約は、特定の関心点に基づいて集中的な要約を生成するタスクである。 このような要約は、レビューや異なる角度からの意見の迅速な理解など、テキストの効率的な分析に役立つ。 しかし、異なるドメイン(例えば、感情、製品の特徴)のアスペクトのタイプに大きな違いがあるため、以前のモデルの開発はドメイン固有の傾向にある。 本稿では、オープンドメインアスペクトベースの要約の方向の研究を促進するために、マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。 具体的には、20の異なるドメインのwikipediaの記事を使って、各記事のセクションタイトルとバウンダリをアスペクトアノテーションのプロキシとして使用してデータセットを構築します。 本稿では,このタスクのベースラインモデルをいくつか提案し,データセット上で実験を行う。 その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。

Aspect-based summarization is the task of generating focused summaries based on specific points of interest. Such summaries aid efficient analysis of text, such as quickly understanding reviews or opinions from different angles. However, due to large differences in the type of aspects for different domains (e.g., sentiment, product features), the development of previous models has tended to be domain-specific. In this paper, we propose WikiAsp, a large-scale dataset for multi-domain aspect-based summarization that attempts to spur research in the direction of open-domain aspect-based summarization. Specifically, we build the dataset using Wikipedia articles from 20 different domains, using the section titles and boundaries of each article as a proxy for aspect annotation. We propose several straightforward baseline models for this task and conduct experiments on the dataset. Results highlight key challenges that existing summarization models face in this setting, such as proper pronoun handling of quoted sources and consistent explanation of time-sensitive events.
翻訳日:2022-09-25 00:05:22 公開日:2020-11-16
# エストニア語 web テキストにおける文分割と単語トークン化システムの評価

Evaluating Sentence Segmentation and Word Tokenization Systems on Estonian Web Texts ( http://arxiv.org/abs/2011.07868v1 )

ライセンス: Link先を確認
Kairit Sirts and Kairit Peekman(参考訳) webから得られるテキストはノイズが多く、必ずしも正書文や単語境界規則に従わない。 したがって、文のセグメンテーションや単語のトークン化システムは、未編集のWebテキストではうまく機能しない可能性がある。 本稿では,エストニアのWebデータセットの文境界のマニュアルアノテーションをまず記述し,EstNLTK,Stanza,UDPipeの3つの既存の文セグメント化および単語トークン化システムの評価結果を示す。 EstNLTKは、このデータセットの他の文セグメント化システムと比較して高い性能を得るが、StanzaとUDPipeの文セグメント化性能は、よりよく形成されたエストニアのUDテストセットで得られた結果よりかなり低い。

Texts obtained from web are noisy and do not necessarily follow the orthographic sentence and word boundary rules. Thus, sentence segmentation and word tokenization systems that have been developed on well-formed texts might not perform so well on unedited web texts. In this paper, we first describe the manual annotation of sentence boundaries of an Estonian web dataset and then present the evaluation results of three existing sentence segmentation and word tokenization systems on this corpus: EstNLTK, Stanza and UDPipe. While EstNLTK obtains the highest performance compared to other systems on sentence segmentation on this dataset, the sentence segmentation performance of Stanza and UDPipe remains well below the results obtained on the more well-formed Estonian UD test set.
翻訳日:2022-09-25 00:05:05 公開日:2020-11-16
# マルチクラス分類への理論的視点:高次元漸近的視点

Theoretical Insights Into Multiclass Classification: A High-dimensional Asymptotic View ( http://arxiv.org/abs/2011.07729v1 )

ライセンス: Link先を確認
Christos Thrampoulidis, Samet Oymak, Mahdi Soltanolkotabi(参考訳) 現代の機械学習アプリケーションは、多くのクラスで分類タスクを伴います。 その広範な使用にもかかわらず、分類アルゴリズムの統計特性と振る舞いの正確な理解はいまだに欠けており、特にクラス数がかなり大きい現代の制度ではなお欠落している。 本稿では,線形多クラス分類の最初の漸近的精度解析を提供することにより,この方向への一歩を踏み出す。 理論的解析により,異なる学習アルゴリズム,データ分布,問題次元,クラス数,クラス間の相関,クラス先行など,テストエラーがどのように変化するのかを正確に把握することができる。 具体的には,異なるデータ分布および/またはトレーニング/特徴サイズに対して最適な性能を達成するアルゴリズムによって,分類精度が分布依存性が高いことを明らかにする。 線形回帰/二項分類とは異なり、多クラス分類におけるテスト誤差は、漸近的な振る舞いを特徴付けるのが難しい訓練されたモデルの複雑な機能(例えば、訓練された重みの間の相関)に依存する。 この課題は、平方損失を最小化するような単純な分類器にはすでに存在する。 我々の新しい理論技術は、これらの課題のいくつかを克服することができる。 得られた知見は、本論文で研究されている他の分類アルゴリズムの正確な理解の道を開く可能性がある。

Contemporary machine learning applications often involve classification tasks with many classes. Despite their extensive use, a precise understanding of the statistical properties and behavior of classification algorithms is still missing, especially in modern regimes where the number of classes is rather large. In this paper, we take a step in this direction by providing the first asymptotically precise analysis of linear multiclass classification. Our theoretical analysis allows us to precisely characterize how the test error varies over different training algorithms, data distributions, problem dimensions as well as number of classes, inter/intra class correlations and class priors. Specifically, our analysis reveals that the classification accuracy is highly distribution-dependent with different algorithms achieving optimal performance for different data distributions and/or training/features sizes. Unlike linear regression/binary classification, the test error in multiclass classification relies on intricate functions of the trained model (e.g., correlation between some of the trained weights) whose asymptotic behavior is difficult to characterize. This challenge is already present in simple classifiers, such as those minimizing a square loss. Our novel theoretical techniques allow us to overcome some of these challenges. The insights gained may pave the way for a precise understanding of other classification algorithms beyond those studied in this paper.
翻訳日:2022-09-24 23:58:07 公開日:2020-11-16
# GLRTに基づく逆ロバスト分類

Adversarially Robust Classification based on GLRT ( http://arxiv.org/abs/2011.07835v1 )

ライセンス: Link先を確認
Bhagyashree Puranik, Upamanyu Madhow, Ramtin Pedarsani(参考訳) 機械学習モデルは、小さながよく設計された摂動を導入することで、しばしば誤分類を引き起こす敵攻撃に対して脆弱である。 本稿では,古典的合成仮説テストの設定において,興味のクラスと敵の摂動を共同で推定する一般化可能性比検定(GLRT)に基づく防衛戦略について検討する。 我々は,最悪の場合の攻撃を最適化するミニマックス戦略が知られている条件である,標準有界逆摂動条件下での白色ガウス雑音に対する二元仮説検定の特殊な場合に対するGLRT手法の評価を行った。 glrtアプローチは,最悪の場合の攻撃におけるminimaxアプローチと性能面での競合を生じさせ,攻撃予算に対する信号成分の値によって,より弱い攻撃下でのロバストネス・精度のトレードオフを生じさせることを示した。 また、GLRTディフェンスは、最適ミニマックス分類器が不明なより複雑なモデルに自然に一般化する。

Machine learning models are vulnerable to adversarial attacks that can often cause misclassification by introducing small but well designed perturbations. In this paper, we explore, in the setting of classical composite hypothesis testing, a defense strategy based on the generalized likelihood ratio test (GLRT), which jointly estimates the class of interest and the adversarial perturbation. We evaluate the GLRT approach for the special case of binary hypothesis testing in white Gaussian noise under $\ell_{\infty}$ norm-bounded adversarial perturbations, a setting for which a minimax strategy optimizing for the worst-case attack is known. We show that the GLRT approach yields performance competitive with that of the minimax approach under the worst-case attack, and observe that it yields a better robustness-accuracy trade-off under weaker attacks, depending on the values of signal components relative to the attack budget. We also observe that the GLRT defense generalizes naturally to more complex models for which optimal minimax classifiers are not known.
翻訳日:2022-09-24 23:57:48 公開日:2020-11-16
# 2次元3次元モダリティ変換のためのサイクル一貫性生成レンダリング

Cycle-Consistent Generative Rendering for 2D-3D Modality Translation ( http://arxiv.org/abs/2011.08026v1 )

ライセンス: Link先を確認
Tristan Aumentado-Armstrong, Alex Levinshtein, Stavros Tsogkas, Konstantinos G. Derpanis, and Allan D. Jepson(参考訳) 人間にとって、視覚的な理解は本質的に生成的であり、3d形状が与えられると、世界がどのように見えるかを仮定することができる。 したがって、与えられたオブジェクトの2次元視覚と3次元構造モダリティを変換できる。 コンピュータビジョンの文脈では、これは2つの目的を果たす学習可能なモジュールに対応する。 (i)3Dオブジェクトのリアルなレンダリング(形状変換)を生成して (ii)画像からリアルな3次元形状を推定する(画像から形への変換)。 本稿では,大規模な2D-3Dデータセットを得る際の困難を意識しながら,そのようなモジュールを学習する。 生成型ドメイン翻訳法を利用することで,弱い監視のみを必要とする学習アルゴリズムを非ペアデータで定義することができる。 得られたモデルは、2D画像から3D形状、ポーズ、テクスチャ推論を行うだけでなく、グラフィックパイプラインのような新しいテクスチャ化された3D形状やレンダリングを生成することもできる。 より具体的には (i)明示的な3Dメッシュ表現を推論する。 (ii) 推論を正則化するために例の形を用いる。 (iii)画像マスクのみを必要とする(キーポイントやカメラ外接は不要)。 (iv)生成能力を有する。 以前の研究はこれらの性質のサブセットを探求するが、それらの組み合わせは新しいものである。 我々は、学習した表現の有用性と、画像生成と不対面な3次元形状推論タスクの性能を実証する。

For humans, visual understanding is inherently generative: given a 3D shape, we can postulate how it would look in the world; given a 2D image, we can infer the 3D structure that likely gave rise to it. We can thus translate between the 2D visual and 3D structural modalities of a given object. In the context of computer vision, this corresponds to a learnable module that serves two purposes: (i) generate a realistic rendering of a 3D object (shape-to-image translation) and (ii) infer a realistic 3D shape from an image (image-to-shape translation). In this paper, we learn such a module while being conscious of the difficulties in obtaining large paired 2D-3D datasets. By leveraging generative domain translation methods, we are able to define a learning algorithm that requires only weak supervision, with unpaired data. The resulting model is not only able to perform 3D shape, pose, and texture inference from 2D images, but can also generate novel textured 3D shapes and renders, similar to a graphics pipeline. More specifically, our method (i) infers an explicit 3D mesh representation, (ii) utilizes example shapes to regularize inference, (iii) requires only an image mask (no keypoints or camera extrinsics), and (iv) has generative capabilities. While prior work explores subsets of these properties, their combination is novel. We demonstrate the utility of our learned representation, as well as its performance on image generation and unpaired 3D shape inference tasks.
翻訳日:2022-09-24 23:49:36 公開日:2020-11-16
# 大規模カーネル化GRANGER因果関係による有向グラフの位相推定と脳ネットワークへの応用

Large-scale kernelized GRANGER causality to infer topology of directed graphs with applications to brain networks ( http://arxiv.org/abs/2011.08261v1 )

ライセンス: Link先を確認
M. Ali Vosoughi, Axel Wismuller(参考訳) 協調進化と相互作用する時系列を伴うネットワークプロセスのグラフトポロジー推論は、ネットワーク研究に不可欠である。 ベクトル自己回帰モデル(var)は有向グラフの位相推論に一般的なアプローチであるが、短い時系列を持つ大規模ネットワークでは位相推定が不適切になる。 本稿では, 有向ネットワークに対する非線形保存トポロジー推定法を提案する。 提案手法である大規模カーネル化グランジャー因果関係(lskgc)は,カーネル関数を用いて低次元特徴空間にデータを変換し,特徴空間における自己回帰問題を解く。 非線形および線形に依存する合成データセットと既知の地下構造に関する広範囲なシミュレーションにより、受信機動作特性曲線(AUC)の下では、既存の手法と比較して、受信機動作特性が大幅に改善された。 さらに、機能的磁気共鳴イメージング(fMRI)による実際のデータセットの試験では、統合失調症患者の診断タスクにおいて96.3%の精度が示され、これは脳の時系列情報のみを持つ文献の中で最も高い。

Graph topology inference of network processes with co-evolving and interacting time-series is crucial for network studies. Vector autoregressive models (VAR) are popular approaches for topology inference of directed graphs; however, in large networks with short time-series, topology estimation becomes ill-posed. The present paper proposes a novel nonlinearity-preserving topology inference method for directed networks with co-evolving nodal processes that solves the ill-posedness problem. The proposed method, large-scale kernelized Granger causality (lsKGC), uses kernel functions to transform data into a low-dimensional feature space and solves the autoregressive problem in the feature space, then finds the pre-images in the input space to infer the topology. Extensive simulations on synthetic datasets with nonlinear and linear dependencies and known ground-truth demonstrate significant improvement in the Area Under the receiver operating characteristic Curve ( AUC ) of the receiver operating characteristic for network recovery compared to existing methods. Furthermore, tests on real datasets from a functional magnetic resonance imaging (fMRI) study demonstrate 96.3 percent accuracy in diagnosis tasks of schizophrenia patients, which is the highest in the literature with only brain time-series information.
翻訳日:2022-09-24 23:48:53 公開日:2020-11-16
# オーバーコンプリート深部宇宙クラスタリングネットワーク

Overcomplete Deep Subspace Clustering Networks ( http://arxiv.org/abs/2011.08306v1 )

ライセンス: Link先を確認
Jeya Maria Jose Valanarasu, Vishal M. Patel(参考訳) ディープサブスペースクラスタリングネットワーク(dsc)は、完全接続層を持つ未完成のディープオートエンコーダを使用して自己表現性を利用することにより、教師なしサブスペースクラスタリングの問題に対する効率的な解決策を提供する。 この方法は入力データの不完全な表現を使用するため、あまり堅牢ではなく、事前トレーニングに依存する。 これを解決するために,オーバーコンプリート・サブスペース・クラスタリング・ネットワーク(ODSC)という単純な代替手法を提案し,サブスペース・クラスタリングにオーバーコンプリート表現を用いる。 提案手法では,自己表現層を通過する前に,不完全かつ過完全なオートエンコーダネットワークから機能を融合することで,クラスタ化のための入力データのより有意義でロバストな表現を抽出できる。 4つのベンチマークデータセットの実験結果から,クラスタリング誤差の観点から,DSCや他のクラスタリング手法に対する提案手法の有効性が示された。 提案手法は,最高の性能を得るために事前学習を停止すべき場所や,雑音に対してより頑健なdsc法ほど依存しない。 Code\href{https://github.com/jeya-maria-jose/Overcomplete-Deep-Subspace-Clustering}{https://github.com/jeya-maria-jose/Overcomplete-Deep-Subspace-Clustering

Deep Subspace Clustering Networks (DSC) provide an efficient solution to the problem of unsupervised subspace clustering by using an undercomplete deep auto-encoder with a fully-connected layer to exploit the self expressiveness property. This method uses undercomplete representations of the input data which makes it not so robust and more dependent on pre-training. To overcome this, we propose a simple yet efficient alternative method - Overcomplete Deep Subspace Clustering Networks (ODSC) where we use overcomplete representations for subspace clustering. In our proposed method, we fuse the features from both undercomplete and overcomplete auto-encoder networks before passing them through the self-expressive layer thus enabling us to extract a more meaningful and robust representation of the input data for clustering. Experimental results on four benchmark datasets show the effectiveness of the proposed method over DSC and other clustering methods in terms of clustering error. Our method is also not as dependent as DSC is on where pre-training should be stopped to get the best performance and is also more robust to noise. Code - \href{https://github.com/jeya-maria-jose/Overcomplete-Deep-Subspace-Clustering}{https://github.com/jeya-maria-jose/Overcomplete-Deep-Subspace-Clustering
翻訳日:2022-09-24 23:48:32 公開日:2020-11-16
# サンプリングアプローチの課題:ロボット言語習得のためのアクティブラーニング

Sampling Approach Matters: Active Learning for Robotic Language Acquisition ( http://arxiv.org/abs/2011.08021v1 )

ライセンス: Link先を確認
Nisha Pillai, Edward Raff, Francis Ferraro, Cynthia Matuszek(参考訳) アクティブラーニングを用いたトレーニングデータの順序付けは、より小さなコーパスから効率的に学習することにつながる。 本稿では,学習におけるデータ効率向上に適した手法を探索するために,様々な複雑さを持つ3つの基礎言語問題に適用した能動的学習手法を提案する。 本稿では, この共同問題空間におけるデータの複雑さを解析し, 特徴選択や分類モデルなどの設計決定とともに, 課題の特徴がどのように結果を駆動するかを報告する。 データサンプルの選択には,多様性とともに代表性も不可欠である。

Ordering the selection of training data using active learning can lead to improvements in learning efficiently from smaller corpora. We present an exploration of active learning approaches applied to three grounded language problems of varying complexity in order to analyze what methods are suitable for improving data efficiency in learning. We present a method for analyzing the complexity of data in this joint problem space, and report on how characteristics of the underlying task, along with design decisions such as feature selection and classification model, drive the results. We observe that representativeness, along with diversity, is crucial in selecting data samples.
翻訳日:2022-09-24 23:47:54 公開日:2020-11-16
# DARE:マルチチャネルCNNを用いたAIに基づくダイバーアクション認識システム

DARE: AI-based Diver Action Recognition System using Multi-Channel CNNs for AUV Supervision ( http://arxiv.org/abs/2011.07713v1 )

ライセンス: Link先を確認
Jing Yang and James P. Wilson and Shalabh Gupta(参考訳) センシング、制御、ロボット技術の発展に伴い、自律型水中車両(AUV)は、様々な水中操作を行うための人間のダイバーの補助となる。 現在の慣行では、ダイバーはAUVの監督と制御のために高価な防水キーボードやジョイスティックベースのコントローラーを運ぶ必要がある。 そのため、より便利で、使いやすく、より速く、費用対効果が高いため、ダイバーアクションベースの監視がますます普及している。 しかし,水中に存在する様々な環境,ダイバー,センシングの不確実性は,ロバストで信頼性の高いダイバー行動認識システムの訓練を困難にしている。 本稿では,多様なダイバージェスチャの画像と複数の異なる現実的な水中環境下でのポーズを含むリッチなデータセットであるCADDYデータセットに基づいて訓練されたダイバー行動認識システムDAREについて述べる。 DAREは、分類性能を高めるために、系統的に訓練されたツリートポロジカルディープニューラルネットワーク分類器でサポートされたマルチチャネル畳み込みニューラルネットワークを用いて、カメラ画像のステレオペアの融合に基づいている。 DAREは高速で、1つのステレオペアを分類するのに数ミリ秒しか必要としないため、リアルタイム水中実装に適している。 DAREは,複数の既存分類器アーキテクチャに対して相対的に評価され,この結果から,各クラス精度およびF1スコアとともに,各分類器の性能に取って代わる結果が得られた。

With the growth of sensing, control and robotic technologies, autonomous underwater vehicles (AUVs) have become useful assistants to human divers for performing various underwater operations. In the current practice, the divers are required to carry expensive, bulky, and waterproof keyboards or joystick-based controllers for supervision and control of AUVs. Therefore, diver action-based supervision is becoming increasingly popular because it is convenient, easier to use, faster, and cost effective. However, the various environmental, diver and sensing uncertainties present underwater makes it challenging to train a robust and reliable diver action recognition system. In this regard, this paper presents DARE, a diver action recognition system, that is trained based on Cognitive Autonomous Driving Buddy (CADDY) dataset, which is a rich set of data containing images of different diver gestures and poses in several different and realistic underwater environments. DARE is based on fusion of stereo-pairs of camera images using a multi-channel convolutional neural network supported with a systematically trained tree-topological deep neural network classifier to enhance the classification performance. DARE is fast and requires only a few milliseconds to classify one stereo-pair, thus making it suitable for real-time underwater implementation. DARE is comparatively evaluated against several existing classifier architectures and the results show that DARE supersedes the performance of all classifiers for diver action recognition in terms of overall as well as individual class accuracies and F1-scores.
翻訳日:2022-09-24 23:47:44 公開日:2020-11-16
# カーネル平均の適応マッチング

Adaptive Matching of Kernel Means ( http://arxiv.org/abs/2011.07798v1 )

ライセンス: Link先を確認
Miao Cheng, Xinge You(参考訳) 有望なステップとして、あるパターンマッチングメカニズムが利用可能であれば、データ分析と機能学習のパフォーマンスを改善することができる。 実現可能なソリューションの1つは、インスタンスの重要度を推定することであり、したがってカーネル平均マッチング(KMM)は、カーネルマシンにおける知識発見と新規性検出の重要な方法となっている。 さらに,既存のKMM手法は具体的な学習フレームワークに重点を置いている。 本研究では,カーネル手段の適応マッチングのための新しい手法を提案し,高い重要性を持つ選択データを用いて計算効率を最適化する。 さらに,付加データのマッチングを一般化した手法として,スケーラブルな学習を行うことができる。 様々な実世界のデータセットに対する実験結果から,提案手法はいくつかの最先端手法と比較して優れた性能を示し,計算効率は維持可能である。

As a promising step, the performance of data analysis and feature learning are able to be improved if certain pattern matching mechanism is available. One of the feasible solutions can refer to the importance estimation of instances, and consequently, kernel mean matching (KMM) has become an important method for knowledge discovery and novelty detection in kernel machines. Furthermore, the existing KMM methods have focused on concrete learning frameworks. In this work, a novel approach to adaptive matching of kernel means is proposed, and selected data with high importance are adopted to achieve calculation efficiency with optimization. In addition, scalable learning can be conducted in proposed method as a generalized solution to matching of appended data. The experimental results on a wide variety of real-world data sets demonstrate the proposed method is able to give outstanding performance compared with several state-of-the-art methods, while calculation efficiency can be preserved.
翻訳日:2022-09-24 23:47:17 公開日:2020-11-16
# 「あなたの心はどうなっていますか。 青年期・青年期におけるマインドリーディングの自動化

"What is on your mind?" Automated Scoring of Mindreading in Childhood and Early Adolescence ( http://arxiv.org/abs/2011.08035v1 )

ライセンス: Link先を確認
Venelin Kovatchev, Phillip Smith, Mark Lee, Imogen Grumley Traynor, Irene Luque Aguilera and Rory T. Devine(参考訳) 本稿では,幼児期と青年期におけるマインドリード能力の自動スコアリングに関する最初の研究について述べる。 MIND-CAは7歳から14歳までの1,066人の子どもから英語で11,311人の質問応答対のコーパスを作成する。 機械学習実験を行い、定量的かつ定性的な評価を行う。 我々は、最先端のnlpソリューションを新しいドメインとタスクに適用する可能性を示す有望な結果を得る。

In this paper we present the first work on the automated scoring of mindreading ability in middle childhood and early adolescence. We create MIND-CA, a new corpus of 11,311 question-answer pairs in English from 1,066 children aged 7 to 14. We perform machine learning experiments and carry out extensive quantitative and qualitative evaluation. We obtain promising results, demonstrating the applicability of state-of-the-art NLP solutions to a new domain and task.
翻訳日:2022-09-24 23:41:44 公開日:2020-11-16
# オントロジーに基づくパーソナルアシスタントにおける対話ワークフローモデリングボットネックの拡張

Widening the Dialogue Workflow Modeling Bottleneck in Ontology-Based Personal Assistants ( http://arxiv.org/abs/2011.08334v1 )

ライセンス: Link先を確認
Michael Wessel, Edgar Kalns, Girish Acharya, Andreas Kathol(参考訳) 本稿では,いわゆる対話ワークフローグラフに基づく仮想パーソナルアシスタント(vpas)の対話仕様に対する新しいアプローチを提案する。 当社の新しい対話仕様言語(dsl)は,ユーザフレンドリなモデリングフレームワークによって,vbaモデリングプロセスへの参加が容易になります。 結果モデルもはるかにコンパクトである。 VPAはより迅速に開発できる。 DSLは、オントロジーベースの対話管理(DM)フレームワークOntoVPAの上に新しいモデリングレイヤを提供します。 我々は、新しい言語の背景にある理論的根拠と利点を説明し、最近の2つのontvpaプロジェクトからのloe(level-of-effort)数を具体的に減らした。

We present a new approach to dialogue specification for Virtual Personal Assistants (VPAs) based on so-called dialogue workflow graphs, with several demonstrated advantages over current ontology-based methods. Our new dialogue specification language (DSL) enables customers to more easily participate in the VPA modeling process due to a user-friendly modeling framework. Resulting models are also significantly more compact. VPAs can be developed much more rapidly. The DSL is a new modeling layer on top of our ontology-based Dialogue Management (DM) framework OntoVPA. We explain the rationale and benefits behind the new language and support our claims with concrete reduced Level-of-Effort (LOE) numbers from two recent OntoVPA projects.
翻訳日:2022-09-24 23:41:23 公開日:2020-11-16
# 連続学習のためのソフト制約付きグラディエントエピソード記憶

Gradient Episodic Memory with a Soft Constraint for Continual Learning ( http://arxiv.org/abs/2011.07801v1 )

ライセンス: Link先を確認
Guannan Hu, Wu Zhang, Hu Ding, Wenhao Zhu(参考訳) 連続学習における破滅的な忘れは、連続的なタスクを学習する勾配ベースのニューラルネットワークにおいて一般的な破壊的な現象であり、人生を通して知識を学習し蓄積できる人間を忘れることとは大きく異なる。 破滅的な忘れは、モデルが新しいタスクを学習しているときに、以前のタスクでパフォーマンスが大幅に低下する致命的な欠点である。 この問題を軽減するために、モデルは新しい知識を学び、学習した知識を保存する能力を持つべきである。 本稿では,新しい知識の学習と学習知識の保存のバランス因子であるソフト制約$\epsilon \in [0, 1]$を持つ平均勾配エピソディックメモリ (a-gem) を提案し,この手法をソフト制約$\epsilon$ (\epsilon$-soft-gem) の勾配エピソディックメモリと呼ぶ。 さらに、A-GEMのような計算とメモリの最先端の平均精度と効率も備えており、学習知識の保存の安定性と新しい知識の学習の可塑性との間には、よりよいトレードオフを提供する。

Catastrophic forgetting in continual learning is a common destructive phenomenon in gradient-based neural networks that learn sequential tasks, and it is much different from forgetting in humans, who can learn and accumulate knowledge throughout their whole lives. Catastrophic forgetting is the fatal shortcoming of a large decrease in performance on previous tasks when the model is learning a novel task. To alleviate this problem, the model should have the capacity to learn new knowledge and preserve learned knowledge. We propose an average gradient episodic memory (A-GEM) with a soft constraint $\epsilon \in [0, 1]$, which is a balance factor between learning new knowledge and preserving learned knowledge; our method is called gradient episodic memory with a soft constraint $\epsilon$ ($\epsilon$-SOFT-GEM). $\epsilon$-SOFT-GEM outperforms A-GEM and several continual learning benchmarks in a single training epoch; additionally, it has state-of-the-art average accuracy and efficiency for computation and memory, like A-GEM, and provides a better trade-off between the stability of preserving learned knowledge and the plasticity of learning new knowledge.
翻訳日:2022-09-24 23:41:13 公開日:2020-11-16
# テンソル固有値分解を用いたハイパーグラフ分割

Hypergraph Partitioning using Tensor Eigenvalue Decomposition ( http://arxiv.org/abs/2011.07683v1 )

ライセンス: Link先を確認
Deepak Maurya and Balaraman Ravindran(参考訳) 最近、ハイパーグラフは、エンティティ間の超動的相互作用をキャプチャするグラフよりも優れているため、機械学習コミュニティで注目を集めている。 本稿では,k-一様超グラフの分割に対する新しいアプローチを提案する。 既存の手法のほとんどは、ハイパーグラフをグラフに還元し、次に標準的なグラフ分割アルゴリズムを適用する。 削減ステップでは、アルゴリズムが重み付けされた対の相互作用のみをキャプチャすることを制限するため、元のハイパーグラフに関する必須情報を失う。 我々は、テンソルに基づくハイパーグラフの表現を利用してこの問題を克服し、実際の超動的相互作用をキャプチャする。 グラフ縮小へのハイパーグラフはテンソル収縮の特別な場合であることを示す。 最小比カットと正規化カットの概念をグラフからハイパーグラフに拡張し、緩和最適化問題はテンソル固有値分解と同値であることを示す。 この新規な定式化により、既存の還元アプローチとは異なり、ハイパーエッジの切断方法も異なっています。 スペクトルグラフ理論から着想を得たハイパーグラフ分割アルゴリズムを提案する。 また、等階超グラフラプラシアンテンソルの最小正の固有値に対して、その導電率の観点からより強い上限を導出し、分割アルゴリズムを用いて正規化カットを近似する。 提案手法の有効性を簡単なハイパーグラフで数値的に示す。 また、標準的なスペクトル分割アルゴリズムよりも2ユニフォームハイパーグラフ(グラフ)上でのmin-cutソリューションの改善を示す。

Hypergraphs have gained increasing attention in the machine learning community lately due to their superiority over graphs in capturing super-dyadic interactions among entities. In this work, we propose a novel approach for the partitioning of k-uniform hypergraphs. Most of the existing methods work by reducing the hypergraph to a graph followed by applying standard graph partitioning algorithms. The reduction step restricts the algorithms to capturing only some weighted pairwise interactions and hence loses essential information about the original hypergraph. We overcome this issue by utilizing the tensor-based representation of hypergraphs, which enables us to capture actual super-dyadic interactions. We prove that the hypergraph to graph reduction is a special case of tensor contraction. We extend the notion of minimum ratio-cut and normalized-cut from graphs to hypergraphs and show the relaxed optimization problem is equivalent to tensor eigenvalue decomposition. This novel formulation also enables us to capture different ways of cutting a hyperedge, unlike the existing reduction approaches. We propose a hypergraph partitioning algorithm inspired from spectral graph theory that can accommodate this notion of hyperedge cuts. We also derive a tighter upper bound on the minimum positive eigenvalue of even-order hypergraph Laplacian tensor in terms of its conductance, which is utilized in the partitioning algorithm to approximate the normalized cut. The efficacy of the proposed method is demonstrated numerically on simple hypergraphs. We also show improvement for the min-cut solution on 2-uniform hypergraphs (graphs) over the standard spectral partitioning algorithm.
翻訳日:2022-09-24 23:40:25 公開日:2020-11-16
# dart: 非線形top-kサブセット識別のためのadaptive accept reject

DART: aDaptive Accept RejecT for non-linear top-K subset identification ( http://arxiv.org/abs/2011.07687v1 )

ライセンス: Link先を確認
Mridul Agarwal, Vaneet Aggarwal, Christopher J. Quinn, Abhishek Umrawal(参考訳) 私たちは、各時間ステップで$n$ armsから$k$を選択するというバンディットの問題を考えています。 報酬は、選択された個々の腕の報酬の非線形機能である。 マルチアームのbanditアルゴリズムを直接使用するには、$\binom{n}{k}$オプションを選択する必要がある。 問題を単純化するため、既存の組合せバンディットの作品は、フィードバックを個々の報酬の線形関数として想定している。 本稿では,上位$K$サブセット選択の下位境界を,潜在的に相関した報酬を持つ帯域フィードバックで証明する。 本稿では,個別のアームフィードバックや報酬関数の線形性を必要としない組合せ設定のための新しいアルゴリズムを提案する。 さらに,本アルゴリズムは個々の腕の報酬に相関する。 我々のアルゴリズムであるaDaptive Accept RejecT (DART)は、良好な腕を逐次見つけ、信頼境界に基づいて悪い腕を取り除く。 DARTは計算効率が良く、容量は$N$で線形である。 さらに、DART は、時間的地平線に対して $\tilde{\mathcal{O}}(K\sqrt{KNT})$ の後悔境界を達成する。 クロスセールス最適化と個人報酬の平均値の最大化の問題に適用した場合,提案アルゴリズムの性能は最先端のアルゴリズムを上回る。 また,DARTは線形および非線形の連接報酬環境において既存手法よりも優れていた。

We consider the bandit problem of selecting $K$ out of $N$ arms at each time step. The reward can be a non-linear function of the rewards of the selected individual arms. The direct use of a multi-armed bandit algorithm requires choosing among $\binom{N}{K}$ options, making the action space large. To simplify the problem, existing works on combinatorial bandits {typically} assume feedback as a linear function of individual rewards. In this paper, we prove the lower bound for top-$K$ subset selection with bandit feedback with possibly correlated rewards. We present a novel algorithm for the combinatorial setting without using individual arm feedback or requiring linearity of the reward function. Additionally, our algorithm works on correlated rewards of individual arms. Our algorithm, aDaptive Accept RejecT (DART), sequentially finds good arms and eliminates bad arms based on confidence bounds. DART is computationally efficient and uses storage linear in $N$. Further, DART achieves a regret bound of $\tilde{\mathcal{O}}(K\sqrt{KNT})$ for a time horizon $T$, which matches the lower bound in bandit feedback up to a factor of $\sqrt{\log{2NT}}$. When applied to the problem of cross-selling optimization and maximizing the mean of individual rewards, the performance of the proposed algorithm surpasses that of state-of-the-art algorithms. We also show that DART significantly outperforms existing methods for both linear and non-linear joint reward environments.
翻訳日:2022-09-24 23:40:03 公開日:2020-11-16
# マルチラベル分類:ハミング損失とサブセット精度は本当に相反するのか?

Multi-label classification: do Hamming loss and subset accuracy really conflict with each other? ( http://arxiv.org/abs/2011.07805v1 )

ライセンス: Link先を確認
Guoqiang Wu, Jun Zhu(参考訳) マルチラベル分類では、ハミング損失(hl)、サブセット精度(sa)、ランキング損失(rl)など様々な評価手法が開発されている。 しかし、経験的な結果と既存の理論の間にはギャップがある。 1) 公式な理論的分析が欠如している一方で,アルゴリズムは,ある尺度に対して実験的によく機能することが多い。 2) ラベル空間の場合, HL を最適化するアルゴリズムは SA を最適化するアルゴリズムとSA を直接最適化するアルゴリズムと同等あるいはそれ以上の性能を持つことが多いが, 既存の理論的結果は SA と HL が矛盾していることを示している。 本稿では,SA と HL の双方で対応する学習アルゴリズムの学習保証を解析することにより,このギャップを埋める試みを示す。 学習アルゴリズムがそのサロゲート損失でHLを最適化すると、HL測度が$c$(ラベル数)に依存しないエラーバウンドを享受し、SA測度に対するバウンドは少なくとも$O(c)$に依存することを示した。 一方、サロゲート損失でSAを直接最適化する場合、HLとSAの両測度に対して$O(\sqrt{c})$に依存する学習保証がある。 これはラベル空間が大きくない場合、そのサーロゲート損失によるhlの最適化がsaに有望な性能をもたらすという観測を説明する。 さらに,本手法は,RLなどの他の手法によるアルゴリズムの学習保証の分析に適用可能であることを示す。 最後に、理論解析は実験結果によって支持される。

Various evaluation measures have been developed for multi-label classification, including Hamming Loss (HL), Subset Accuracy (SA) and Ranking Loss (RL). However, there is a gap between empirical results and the existing theories: 1) an algorithm often empirically performs well on some measure(s) while poorly on others, while a formal theoretical analysis is lacking; and 2) in small label space cases, the algorithms optimizing HL often have comparable or even better performance on the SA measure than those optimizing SA directly, while existing theoretical results show that SA and HL are conflicting measures. This paper provides an attempt to fill up this gap by analyzing the learning guarantees of the corresponding learning algorithms on both SA and HL measures. We show that when a learning algorithm optimizes HL with its surrogate loss, it enjoys an error bound for the HL measure independent of $c$ (the number of labels), while the bound for the SA measure depends on at most $O(c)$. On the other hand, when directly optimizing SA with its surrogate loss, it has learning guarantees that depend on $O(\sqrt{c})$ for both HL and SA measures. This explains the observation that when the label space is not large, optimizing HL with its surrogate loss can have promising performance for SA. We further show that our techniques are applicable to analyze the learning guarantees of algorithms on other measures, such as RL. Finally, the theoretical analyses are supported by experimental results.
翻訳日:2022-09-24 23:39:13 公開日:2020-11-16
# iPerceive:マルチモードビデオキャプチャとビデオ質問応答に常識推論を適用する

iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering ( http://arxiv.org/abs/2011.07735v1 )

ライセンス: Link先を確認
Aman Chadha, Gurneet Arora, Navpreet Kaloty(参考訳) 視覚的理解におけるほとんどの先行技術は、「何」(例えば、イベント認識)と「どこで」(例えば、イベントローカライゼーション)の分析にのみ依存している。 例えば、イベントXの直接的な結果として発生したイベントY。この目的のために、ビデオ内のオブジェクト間の因果関係を推論するために、コンテクスト的な手がかりを用いて、ビデオ内のイベント間の"なぜ"を理解することができるフレームワークiPerceiveを提案する。 本稿では,ビデオキャプション(DVC)とビデオ質問応答(ビデオQA)を用いた手法の有効性を示す。 さらに,DVC や VideoQA における先行研究のほとんどは視覚情報のみに依存しているのに対して,音声や音声などの他のモダリティは,人間の観察者の環境に対する認識に不可欠である。 複数のモードを利用する機械翻訳問題としてDVCおよびビデオQAタスクを定式化する。 また,iPerceive DVC と iPerceive VideoQA のActivityNet Captions と TVQA のデータセット上での性能を評価することにより,本手法が最先端技術をさらに向上させることを示す。 コードとサンプルは、 iperceive.amanchadha.comで入手できる。

Most prior art in visual understanding relies solely on analyzing the "what" (e.g., event recognition) and "where" (e.g., event localization), which in some cases, fails to describe correct contextual relationships between events or leads to incorrect underlying visual attention. Part of what defines us as human and fundamentally different from machines is our instinct to seek causality behind any association, say an event Y that happened as a direct result of event X. To this end, we propose iPerceive, a framework capable of understanding the "why" between events in a video by building a common-sense knowledge base using contextual cues to infer causal relationships between objects in the video. We demonstrate the effectiveness of our technique using the dense video captioning (DVC) and video question answering (VideoQA) tasks. Furthermore, while most prior work in DVC and VideoQA relies solely on visual information, other modalities such as audio and speech are vital for a human observer's perception of an environment. We formulate DVC and VideoQA tasks as machine translation problems that utilize multiple modalities. By evaluating the performance of iPerceive DVC and iPerceive VideoQA on the ActivityNet Captions and TVQA datasets respectively, we show that our approach furthers the state-of-the-art. Code and samples are available at: iperceive.amanchadha.com.
翻訳日:2022-09-24 23:31:37 公開日:2020-11-16
# 逆問題における不確かさ定量化のためのスコアマッチング

Denoising Score-Matching for Uncertainty Quantification in Inverse Problems ( http://arxiv.org/abs/2011.08698v1 )

ライセンス: Link先を確認
Zaccharie Ramzi, Benjamin Remy, Francois Lanusse, Jean-Luc Starck, Philippe Ciuciu(参考訳) ディープニューラルネットワークは、幅広い逆問題を解くのに非常に効率的であることが証明されているが、その解に対する不確実性は、定量化が難しいことが多い。 本研究では、逆問題を解決するための一般的なベイズフレームワークを提案し、信号の事前分布を学習するためのディープニューラルネットワークの使用を制限する。 データから先行してこれを学習するために、最近のデノイズスコアマッチング技術を採用し、アニールされたハミルトニアンモンテカルロスキームの一部として使用し、画像逆問題の全後方をサンプリングする。 この枠組みを磁気共鳴画像再構成(MRI)に適用し、この手法が高品質な再構成を実現するだけでなく、再構成画像の特定の特徴の不確実性を評価するためにも利用できることを示す。

Deep neural networks have proven extremely efficient at solving a wide rangeof inverse problems, but most often the uncertainty on the solution they provideis hard to quantify. In this work, we propose a generic Bayesian framework forsolving inverse problems, in which we limit the use of deep neural networks tolearning a prior distribution on the signals to recover. We adopt recent denoisingscore matching techniques to learn this prior from data, and subsequently use it aspart of an annealed Hamiltonian Monte-Carlo scheme to sample the full posteriorof image inverse problems. We apply this framework to Magnetic ResonanceImage (MRI) reconstruction and illustrate how this approach not only yields highquality reconstructions but can also be used to assess the uncertainty on particularfeatures of a reconstructed image.
翻訳日:2022-09-24 23:31:11 公開日:2020-11-16
# ニューラルネットワークアルゴリズムと反応性蒸留への応用

Neural network algorithm and its application in reactive distillation ( http://arxiv.org/abs/2011.09969v1 )

ライセンス: Link先を確認
Huihui Wang, Ruyang Mo(参考訳) 反応性蒸留(reactive distillation)は、化学反応と蒸留の結合に基づく特殊蒸留技術である。 低いエネルギー消費と高い分離効率の特性を持つ。 しかし, 反応と分離の組み合わせは極めて非線形な堅牢な挙動をもたらすため, 反応蒸留プロセスの制御と最適化は従来の手法では利用できないが, ニューラルネットワークアルゴリズムに頼らなければならない。 本稿では, 反応蒸留技術とニューラルネットワークアルゴリズムの特徴と研究の進展を簡潔に述べるとともに, ニューラルネットワークアルゴリズムの反応蒸留への応用を概説する。

Reactive distillation is a special distillation technology based on the coupling of chemical reaction and distillation. It has the characteristics of low energy consumption and high separation efficiency. However, because the combination of reaction and separation produces highly nonlinear robust behavior, the control and optimization of the reactive distillation process cannot use conventional methods, but must rely on neural network algorithms. This paper briefly describes the characteristics and research progress of reactive distillation technology and neural network algorithms, and summarizes the application of neural network algorithms in reactive distillation, aiming to provide reference for the development and innovation of industry technology.
翻訳日:2022-09-24 23:30:45 公開日:2020-11-16
# 中心性を考慮したテキスト情報集約

Text Information Aggregation with Centrality Attention ( http://arxiv.org/abs/2011.07916v1 )

ライセンス: Link先を確認
Jingjing Gong, Hang Yan, Yining Zheng, Xipeng Qiu and Xuanjing Huang(参考訳) 自然言語処理の多くの問題は、テキストシーケンスを固定長ベクトルとしてエンコードする必要がある。 しかし、これらの広く使われる集約アプローチは、単語間の高次関係を考慮に入れていない。 そこで本研究では,固有中央集権自己注意という,集約重みを求める新しい手法を提案する。 より具体的には、文中のすべての単語に対する完全連結グラフを構築し、各単語の注意点として固有中央性を計算する。 グラフとして関係を明示的にモデル化することで,単語間の高階依存を捉えることができ,プーリングや自己注意,動的ルーティングといったベースラインモデルよりも,5つのテキスト分類タスクと1つのSNLIタスクにおいて,よりよい結果が得られる。 さらに,グラフの固有ベクトルを計算するために,固有分散度測定値を得るためにパワーメソッドアルゴリズムを採用する。 さらに,メモリ消費と計算要求の両方を減らすために電力法プロセスの勾配を得るための反復的アプローチも導出する。 }

A lot of natural language processing problems need to encode the text sequence as a fix-length vector, which usually involves aggregation process of combining the representations of all the words, such as pooling or self-attention. However, these widely used aggregation approaches did not take higher-order relationship among the words into consideration. Hence we propose a new way of obtaining aggregation weights, called eigen-centrality self-attention. More specifically, we build a fully-connected graph for all the words in a sentence, then compute the eigen-centrality as the attention score of each word. The explicit modeling of relationships as a graph is able to capture some higher-order dependency among words, which helps us achieve better results in 5 text classification tasks and one SNLI task than baseline models such as pooling, self-attention and dynamic routing. Besides, in order to compute the dominant eigenvector of the graph, we adopt power method algorithm to get the eigen-centrality measure. Moreover, we also derive an iterative approach to get the gradient for the power method process to reduce both memory consumption and computation requirement.}
翻訳日:2022-09-24 23:30:34 公開日:2020-11-16
# NLPGym -- 自然言語処理タスクにおけるRLエージェントの評価ツールキット

NLPGym -- A toolkit for evaluating RL agents on Natural Language Processing Tasks ( http://arxiv.org/abs/2011.08272v1 )

ライセンス: Link先を確認
Rajkumar Ramamurthy, Rafet Sifa and Christian Bauckhage(参考訳) 強化学習(RL)は、最近、複雑なゲームAIとロボティクスタスクで素晴らしいパフォーマンスを示した。 これは、openai gym、atari learning environment、malmoといったシミュレーション環境が利用可能であり、エージェントが仮想環境とのインタラクションを通じて複雑なタスクを学習できるためである。 RLはまた、自然言語処理(NLP)にもますます適用されているが、研究者がNLPタスクにRLを適用し、一貫したベンチマークを行うためのシミュレートされたテキスト環境は存在しない。 そこで我々はNLPGymをリリースした。NLPGymはオープンソースのPythonツールキットで、シーケンシャルタグ付け、複数ラベル分類、質問応答などの標準NLPタスクのためのインタラクティブなテキスト環境を提供する。 また,研究の基盤となるRLアルゴリズムの異なる6つのタスクについて実験を行った。 このツールキットはhttps://github.com/rajcscw/nlp-gymで公開されている。

Reinforcement learning (RL) has recently shown impressive performance in complex game AI and robotics tasks. To a large extent, this is thanks to the availability of simulated environments such as OpenAI Gym, Atari Learning Environment, or Malmo which allow agents to learn complex tasks through interaction with virtual environments. While RL is also increasingly applied to natural language processing (NLP), there are no simulated textual environments available for researchers to apply and consistently benchmark RL on NLP tasks. With the work reported here, we therefore release NLPGym, an open-source Python toolkit that provides interactive textual environments for standard NLP tasks such as sequence tagging, multi-label classification, and question answering. We also present experimental results for 6 tasks using different RL algorithms which serve as baselines for further research. The toolkit is published at https://github.com/rajcscw/nlp-gym
翻訳日:2022-09-24 23:30:16 公開日:2020-11-16
# プール型シミュレートアニーリングと単語ベクトルモデルを用いた解釈可能な医用テキスト分類のための正規表現の学習

Learning Regular Expressions for Interpretable Medical Text Classification Using a Pool-based Simulated Annealing and Word-vector Models ( http://arxiv.org/abs/2011.09351v1 )

ライセンス: Link先を確認
Chaofan Tu, Ruibin Bai, Zheng Lu, Uwe Aickelin, Peiming Ge, Jianshuang Zhao(参考訳) 本稿では,医用テキスト分類のための高品質かつ解釈可能な正規表現からなるルールベースエンジンを提案する。 正規表現は構成的ヒューリスティック法によって自動生成され、Pool-based Simulated Annealing (PSA) アプローチを用いて最適化される。 既存のディープニューラルネットワーク(DNN)手法は、ほとんどの自然言語処理(NLP)アプリケーションで高品質な性能を示すが、その解決策は人間には解釈不能なブラックボックスと見なされている。 したがって、特に医療分野において、解釈可能なソリューションが必要な場合、ルールベースの手法がしばしば導入される。 しかし、正規表現の構築は大規模データセットにとって非常に労働集約的である。 本研究は,高品質なソリューションを維持しながら手作業を削減することを目的とする。

In this paper, we propose a rule-based engine composed of high quality and interpretable regular expressions for medical text classification. The regular expressions are auto generated by a constructive heuristic method and optimized using a Pool-based Simulated Annealing (PSA) approach. Although existing Deep Neural Network (DNN) methods present high quality performance in most Natural Language Processing (NLP) applications, the solutions are regarded as uninterpretable black boxes to humans. Therefore, rule-based methods are often introduced when interpretable solutions are needed, especially in the medical field. However, the construction of regular expressions can be extremely labor-intensive for large data sets. This research aims to reduce the manual efforts while maintaining high-quality solutions
翻訳日:2022-09-24 23:29:58 公開日:2020-11-16
# LSTMネットワークを用いたモジュール型マルチターゲットトラッキング

Modular Multi Target Tracking Using LSTM Networks ( http://arxiv.org/abs/2011.09839v1 )

ライセンス: Link先を確認
Rishabh Verma, R Rajesh and MS Easwaran(参考訳) センサ検出の関連付けと追跡のプロセスは、状況認識を提供する上で重要な要素である。 シナリオのターゲットが密集し、高い操作性を示す場合、マルチターゲットトラッキング(MTT)は難しい課題となる。 このようなNPハード組合せ最適化問題を解決する従来の手法は、複数の複雑なモデルを含み、パラメータの面倒なチューニングが必要であり、計算制約の中で許容できる性能を提供していない。 本稿では,マルチターゲットトラッキングの重要な要素であるメモリとディープラーニングを用いたアソシエーション,予測,フィルタリングを統合した,センサ計測を用いた空中目標追跡システムのためのモデルフリーエンド・ツー・エンドアプローチを提案する。 関連性の難しいタスクは双方向長短期メモリ(LSTM)で行うのに対し、フィルタリングと予測はLSTMモデルで行う。 提案されたモジュールブロックは、非協調(レーダーなど)や協調センサー(AIS、IFF、ADS-Bなど)を含む多数の追跡アプリケーションで、独立して訓練および使用することができる。 このようなモジュールブロックは、ディープラーニングアプリケーションの解釈可能性を高める。 提案手法の性能は,相互干渉多重モデル (JPDA-IMM) フィルタを用いた共同確率データアソシエーションの従来の状態よりも優れていた。

The process of association and tracking of sensor detections is a key element in providing situational awareness. When the targets in the scenario are dense and exhibit high maneuverability, Multi-Target Tracking (MTT) becomes a challenging task. The conventional techniques to solve such NP-hard combinatorial optimization problem involves multiple complex models and requires tedious tuning of parameters, failing to provide an acceptable performance within the computational constraints. This paper proposes a model free end-to-end approach for airborne target tracking system using sensor measurements, integrating all the key elements of multi target tracking -- association, prediction and filtering using deep learning with memory. The challenging task of association is performed using the Bi-Directional Long short-term memory (LSTM) whereas filtering and prediction are done using LSTM models. The proposed modular blocks can be independently trained and used in multitude of tracking applications including non co-operative (e.g., radar) and co-operative sensors (e.g., AIS, IFF, ADS-B). Such modular blocks also enhances the interpretability of the deep learning application. It is shown that performance of the proposed technique outperforms conventional state of the art technique Joint Probabilistic Data Association with Interacting Multiple Model (JPDA-IMM) filter.
翻訳日:2022-09-24 23:23:46 公開日:2020-11-16
# 目標指向型会話システムの実時間変動を考慮した対話シミュレーション

Dialog Simulation with Realistic Variations for Training Goal-Oriented Conversational Systems ( http://arxiv.org/abs/2011.08243v1 )

ライセンス: Link先を確認
Chien-Wei Lin, Vincent Auvray, Daniel Elkind, Arijit Biswas, Maryam Fazel-Zarandi, Nehal Belgamwar, Shubhra Chandra, Matt Zhao, Angeliki Metallinou, Tagyoung Chung, Charlie Shucheng Zhu, Suranjit Adhikari, Dilek Hakkani-Tur(参考訳) ゴール指向のダイアログシステムでは,映画に関する情報の要求やチケットの予約といった,特定の目標を達成することができる。 通常、ダイアログシステムパイプラインには、自然言語理解、状態追跡、アクション予測(政治学習)など、複数のMLモデルが含まれている。 これらのモデルは教師付きあるいは強化学習の手法を組み合わせて訓練され、そのためラベル付きドメイン固有のデータセットの収集が必要である。 しかし、言語とダイアログフローのバリエーションによる注釈付きデータセットの収集はコストがかかり、時間を要するため、人間の関与によってスケールが低下する。 本稿では,いくつかのアノテーション付きサンプルダイアログとダイアログスキーマから,注釈付きダイアログの大規模なコーパスを自動的に作成する手法を提案する。 提案手法には,ユーザとシステム(Alexa)間のヒューリスティックな対話を利用した対話シミュレーション手法と,ユーザによるユーザ目標のサンプリングのための新たなゴールサンプリング手法が含まれている。 我々は、データを生成し、3つの異なる下流会話型MLモデルをトレーニングすることで、アプローチを検証する。 達成は18か? 既存のカタログから自然言語とエンティティ値のバリエーションのみをサンプリングするが、新しいダイアログフローのバリエーションを生成しないベースラインダイアログ生成アプローチと比較して、ホールドアウトテストセットの相対精度が50%向上した。 また,提案手法がベースラインよりも優れていることを定性的に証明する。 さらに、この方法を使っていくつかの異なる会話体験が構築されているため、顧客はAlexaと幅広い会話ができる。

Goal-oriented dialog systems enable users to complete specific goals like requesting information about a movie or booking a ticket. Typically the dialog system pipeline contains multiple ML models, including natural language understanding, state tracking and action prediction (policy learning). These models are trained through a combination of supervised or reinforcement learning methods and therefore require collection of labeled domain specific datasets. However, collecting annotated datasets with language and dialog-flow variations is expensive, time-consuming and scales poorly due to human involvement. In this paper, we propose an approach for automatically creating a large corpus of annotated dialogs from a few thoroughly annotated sample dialogs and the dialog schema. Our approach includes a novel goal-sampling technique for sampling plausible user goals and a dialog simulation technique that uses heuristic interplay between the user and the system (Alexa), where the user tries to achieve the sampled goal. We validate our approach by generating data and training three different downstream conversational ML models. We achieve 18 ? 50% relative accuracy improvements on a held-out test set compared to a baseline dialog generation approach that only samples natural language and entity value variations from existing catalogs but does not generate any novel dialog flow variations. We also qualitatively establish that the proposed approach is better than the baseline. Moreover, several different conversational experiences have been built using this method, which enables customers to have a wide variety of conversations with Alexa.
翻訳日:2022-09-24 23:22:54 公開日:2020-11-16
# X線留置と繰り返し罰を併用した強化医療報告

Reinforced Medical Report Generation with X-Linear Attention and Repetition Penalty ( http://arxiv.org/abs/2011.07680v1 )

ライセンス: Link先を確認
Wenting Xu, Chang Qi, Zhenghua Xu and Thomas Lukasiewicz(参考訳) 近年,医師の負担を軽減するため,深層学習に基づく自動医療レポート生成は,注目機構と強化学習を従来のエンコーダ・デコーダアーキテクチャに統合し,深層モデルの性能向上に寄与する研究努力が増えている。 しかし、これらの最先端のソリューションは主に2つの欠点に悩まされている。 (i)その注意機構は高次特徴相互作用を利用することができず、 (II)TF-IDFに基づく報酬関数を用いることで、繰り返し項を生成すると脆弱である。 そこで本研究では,これらの問題を克服するために,X線的注意と繰り返しペナルティ機構(ReMRG-XR)を備えた強化医療報告生成ソリューションを提案する。 特に、x-線形注意モジュールは高階特徴の相互作用を探索し、マルチモーダル推論を達成するのに使われ、反復ペナルティはモデルのトレーニングプロセス中に繰り返しの項にペナルティを適用するために使用される。 2つの公開データセットに関する広範な実験研究が行われており、remrg-xrがすべてのメトリクスで最先端のベースラインを大きく上回っていることが示されている。

To reduce doctors' workload, deep-learning-based automatic medical report generation has recently attracted more and more research efforts, where attention mechanisms and reinforcement learning are integrated with the classic encoder-decoder architecture to enhance the performance of deep models. However, these state-of-the-art solutions mainly suffer from two shortcomings: (i) their attention mechanisms cannot utilize high-order feature interactions, and (ii) due to the use of TF-IDF-based reward functions, these methods are fragile with generating repeated terms. Therefore, in this work, we propose a reinforced medical report generation solution with x-linear attention and repetition penalty mechanisms (ReMRG-XR) to overcome these problems. Specifically, x-linear attention modules are used to explore high-order feature interactions and achieve multi-modal reasoning, while repetition penalty is used to apply penalties to repeated terms during the model's training process. Extensive experimental studies have been conducted on two public datasets, and the results show that ReMRG-XR greatly outperforms the state-of-the-art baselines in terms of all metrics.
翻訳日:2022-09-24 23:22:29 公開日:2020-11-16
# 教師付き機械学習の説明可能性に関する調査

A Survey on the Explainability of Supervised Machine Learning ( http://arxiv.org/abs/2011.07876v1 )

ライセンス: Link先を確認
Nadia Burkart and Marco F. Huber(参考訳) 例えば、ニューラルネットワークによって得られる予測は精度が高いが、人間はしばしばモデルをブラックボックスとして認識する。 意思決定に関する洞察は、ほとんど人間には不透明である。 特に,医療やファイナンスといった高度に敏感な領域における意思決定を理解することは,非常に重要である。 ブラックボックスの背後にある意思決定は、より透明で説明責任があり、人間にとって理解しやすくする必要がある。 本稿では,説明可能な教師付き機械学習(sml)の原理と方法論を概説する本質的定義について述べる。 我々は、過去および最近の説明可能なSMLアプローチをレビューし、導入した定義に従ってそれらを分類する最先端の調査を行う。 最後に,説明的ケーススタディを用いて原則を説明し,今後の重要な方向性について論じる。

Predictions obtained by, e.g., artificial neural networks have a high accuracy but humans often perceive the models as black boxes. Insights about the decision making are mostly opaque for humans. Particularly understanding the decision making in highly sensitive areas such as healthcare or fifinance, is of paramount importance. The decision-making behind the black boxes requires it to be more transparent, accountable, and understandable for humans. This survey paper provides essential definitions, an overview of the different principles and methodologies of explainable Supervised Machine Learning (SML). We conduct a state-of-the-art survey that reviews past and recent explainable SML approaches and classifies them according to the introduced definitions. Finally, we illustrate principles by means of an explanatory case study and discuss important future directions.
翻訳日:2022-09-24 23:21:50 公開日:2020-11-16
# 空間コンピューティングのためのアクティブノイズキャンセラによるロバスト深層学習

Robust Deep Learning with Active Noise Cancellation for Spatial Computing ( http://arxiv.org/abs/2011.08341v1 )

ライセンス: Link先を確認
Li Chen, David Yang, Purvi Goel, Ilknur Kabul(参考訳) 本稿では,超雑音ラベルで訓練された深層学習に空間計算を適用した共学アクティブノイズキャンセラ法CANCを提案する。 深層学習アルゴリズムは土地の空間計算や足跡認識に成功している。 しかし、空間計算や衛星画像におけるラベルの収集方法により、地上の真理ラベルには多くのノイズが存在する。 極端ラベルノイズに対処する既存の方法はクリーンサンプル選択を行い、残りのサンプルは利用しない。 このような手法は、データ検索のコストのために無駄になる可能性がある。 提案したCANCアルゴリズムは,高コストトレーニングサンプルを保存できるだけでなく,能動的ラベル補正により,極端雑音ラベルによる堅牢な深層学習を改善する。 空間コンピューティングのフットプリント認識におけるCANCの有効性を実証する。

This paper proposes CANC, a Co-teaching Active Noise Cancellation method, applied in spatial computing to address deep learning trained with extreme noisy labels. Deep learning algorithms have been successful in spatial computing for land or building footprint recognition. However a lot of noise exists in ground truth labels due to how labels are collected in spatial computing and satellite imagery. Existing methods to deal with extreme label noise conduct clean sample selection and do not utilize the remaining samples. Such techniques can be wasteful due to the cost of data retrieval. Our proposed CANC algorithm not only conserves high-cost training samples but also provides active label correction to better improve robust deep learning with extreme noisy labels. We demonstrate the effectiveness of CANC for building footprint recognition for spatial computing.
翻訳日:2022-09-24 23:20:58 公開日:2020-11-16