このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210220となっている論文です。

PDF登録状況(公開日: 20210220)

TitleAuthorsAbstract論文公表日・翻訳日
# 深層学習とグローバルワークスペース理論

Deep Learning and the Global Workspace Theory ( http://arxiv.org/abs/2012.10390v2 )

ライセンス: Link先を確認
Rufin VanRullen and Ryota Kanai(参考訳) 近年のディープラーニングの進歩により、人工知能(AI)は多くの感覚、知覚、言語、認知のタスクにおいて、人間レベルのパフォーマンスに近いものになった。 しかし、新しい脳にインスパイアされた認知アーキテクチャの必要性は高まっている。 グローバルワークスペース理論(global workspace theory)は、特殊モジュールのネットワーク間で情報を統合・配布し、より高レベルの認知と認識を作り出す大規模システムを指す。 深層学習技術を用いて,この理論の明示的な実装を考えるのは時期尚早である。 本稿では,複数の潜在空間(異なるタスク,異なる感覚入力および/またはモダリティを訓練したニューラルネットワーク)間の教師なしのニューラル翻訳に基づいて,ユニークなグローバル潜在空間(glw)を作成するロードマップを提案する。 glwの機能的利点と神経科学的な影響について検討する。

Recent advances in deep learning have allowed Artificial Intelligence (AI) to reach near human-level performance in many sensory, perceptual, linguistic or cognitive tasks. There is a growing need, however, for novel, brain-inspired cognitive architectures. The Global Workspace theory refers to a large-scale system integrating and distributing information among networks of specialized modules to create higher-level forms of cognition and awareness. We argue that the time is ripe to consider explicit implementations of this theory using deep learning techniques. We propose a roadmap based on unsupervised neural translation between multiple latent spaces (neural networks trained for distinct tasks, on distinct sensory inputs and/or modalities) to create a unique, amodal global latent workspace (GLW). Potential functional advantages of GLW are reviewed, along with neuroscientific implications.
翻訳日:2021-05-22 20:35:35 公開日:2021-02-20
# CNNとCPPNを併用した3次元超音波による新生児脳室の自動分離と位置学習

Automatic Segmentation and Location Learning of Neonatal Cerebral Ventricles in 3D Ultrasound Data Combining CNN and CPPN ( http://arxiv.org/abs/2012.03014v2 )

ライセンス: Link先を確認
Matthieu Martin, Bruno Sciolla, Micha\"el Sdika, Philippe Qu\'etin, Philippe Delachartre(参考訳) 早期の新生児は、脳室系(cvs)の拡張である心室大動脈瘤に苦しむ可能性が高い。 この状態は生命を脅かす水頭症に発展し、将来の神経発達障害と相関する。 そのため、医師によって検出・監視されなければならない。 臨床ルーティングでは, 2次元超音波(us)画像を用いて手作業による2次元計測を行い, cvs体積を推定するが, 3次元情報の活用が困難である。 この問題を解決する方法は、3DUSデータのための自動CVSセグメンテーションアルゴリズムを開発することである。 本稿では,2次元および3次元畳み込みニューラルネットワーク(cnn)の可能性を調査し,この複雑な課題を解決し,合成パターン生成ネットワーク(cppn)を用いてcnnがcvs位置を学習できるようにする。 我々のデータベースは、妊娠数週間で35.8 pm 1.6$で21の事前のネノネートで収集された25の3DUS巻で構成されていた。 CPPNはCVS位置を符号化することができ、レイヤーが少ない場合にCNNの精度を高めることができる。 Diceが0.893 \pm 0.008$、$0.886 \pm 0.004$がそれぞれ(IOV = $0.898 \pm 0.008$)、ボリュームエラーが0.45 \pm 0.42$ cm$^3$と$0.36 \pm 0.24$ cm$^3$である(IOV = $0.41 \pm 0.05$ cm^3$)。 Diceが0.797 \pm 0.041$対0.776 \pm 0.038$(IOV = $0.816 \pm 0.009$)、ボリュームエラーが0.35 \pm 0.29$ cm^3$対$0.35 \pm 0.24$ cm^3$(IOV = $0.2 \pm 0.11$ cm^3$)である。 サイズ320 \times 320 \times 320$の最良のセグメンテーションタイムは、2D CNNが3.5 \pm 0.2$ sで取得した。

Preterm neonates are highly likely to suffer from ventriculomegaly, a dilation of the Cerebral Ventricular System (CVS). This condition can develop into life-threatening hydrocephalus and is correlated with future neuro-developmental impairments. Consequently, it must be detected and monitored by physicians. In clinical routing, manual 2D measurements are performed on 2D ultrasound (US) images to estimate the CVS volume but this practice is imprecise due to the unavailability of 3D information. A way to tackle this problem would be to develop automatic CVS segmentation algorithms for 3D US data. In this paper, we investigate the potential of 2D and 3D Convolutional Neural Networks (CNN) to solve this complex task and propose to use Compositional Pattern Producing Network (CPPN) to enable the CNNs to learn CVS location. Our database was composed of 25 3D US volumes collected on 21 preterm nenonates at the age of $35.8 \pm 1.6$ gestational weeks. We found that the CPPN enables to encode CVS location, which increases the accuracy of the CNNs when they have few layers. Accuracy of the 2D and 3D CNNs reached intraobserver variability (IOV) in the case of dilated ventricles with Dice of $0.893 \pm 0.008$ and $0.886 \pm 0.004$ respectively (IOV = $0.898 \pm 0.008$) and with volume errors of $0.45 \pm 0.42$ cm$^3$ and $0.36 \pm 0.24$ cm$^3$ respectively (IOV = $0.41 \pm 0.05$ cm$^3$). 3D CNNs were more accurate than 2D CNNs in the case of normal ventricles with Dice of $0.797 \pm 0.041$ against $0.776 \pm 0.038$ (IOV = $0.816 \pm 0.009$) and volume errors of $0.35 \pm 0.29$ cm$^3$ against $0.35 \pm 0.24$ cm$^3$ (IOV = $0.2 \pm 0.11$ cm$^3$). The best segmentation time of volumes of size $320 \times 320 \times 320$ was obtained by a 2D CNN in $3.5 \pm 0.2$ s.
翻訳日:2021-05-22 12:01:43 公開日:2021-02-20
# TEM ImageNetトレーニングライブラリとAtomSegNetによる原子分割・局所化・分解・超解像処理のための深層学習モデル

TEMImageNet Training Library and AtomSegNet Deep-Learning Models for High-Precision Atom Segmentation, Localization, Denoising, and Super-Resolution Processing of Atomic-Resolution Images ( http://arxiv.org/abs/2012.09093v2 )

ライセンス: Link先を確認
Ruoqian Lin, Rui Zhang, Chunyang Wang, Xiao-Qing Yang, Huolin L. Xin(参考訳) 原子分割, 局所化, ノイズ低減, STEM(Atom- resolution scan transmission electron microscopy)画像の高精度, 堅牢性は難しい課題である。 しきい値検出、エッジ検出、クラスタリングなどのいくつかの従来のアルゴリズムは、予め定義されたシーンで適切な性能を達成することができるが、背景からの干渉が強く予測不可能な場合には失敗する傾向がある。 特に、原子分解能stem画像では、記録された画像の厚さのばらつきが大きい場合、すべての原子列を分割または検出できるほど頑健なアルゴリズムは存在しない。 本稿では,実験画像のロバストかつ高精度なアトムセグメンテーション,局所化,雑音除去,超解像処理を行うための学習ライブラリと深層学習手法の開発について報告する。 シミュレーション画像をトレーニングデータセットとして用いながら、ディープラーニングモデルは実験的なSTEM画像に適応し、挑戦的なコントラスト条件における原子検出と局所化の優れた性能を示し、精度は最先端の2次元ガウス適合法より一貫して優れている。 さらに一歩進めて、私たちはディープラーニングモデルをグラフィカルユーザインターフェースを備えたデスクトップアプリにデプロイし、アプリは無償でオープンソースです。 また、トレーニングデータの閲覧とダウンロードを容易にするTEM ImageNetプロジェクトウェブサイトも構築しました。

Atom segmentation and localization, noise reduction and deblurring of atomic-resolution scanning transmission electron microscopy (STEM) images with high precision and robustness is a challenging task. Although several conventional algorithms, such has thresholding, edge detection and clustering, can achieve reasonable performance in some predefined sceneries, they tend to fail when interferences from the background are strong and unpredictable. Particularly, for atomic-resolution STEM images, so far there is no well-established algorithm that is robust enough to segment or detect all atomic columns when there is large thickness variation in a recorded image. Herein, we report the development of a training library and a deep learning method that can perform robust and precise atom segmentation, localization, denoising, and super-resolution processing of experimental images. Despite using simulated images as training datasets, the deep-learning model can self-adapt to experimental STEM images and shows outstanding performance in atom detection and localization in challenging contrast conditions and the precision consistently outperforms the state-of-the-art two-dimensional Gaussian fit method. Taking a step further, we have deployed our deep-learning models to a desktop app with a graphical user interface and the app is free and open-source. We have also built a TEM ImageNet project website for easy browsing and downloading of the training data.
翻訳日:2021-05-03 03:07:02 公開日:2021-02-20
# (参考訳) 最適深層アクティブ学習アルゴリズムの挙動理解に向けて [全文訳有]

Towards Understanding the Behaviors of Optimal Deep Active Learning Algorithms ( http://arxiv.org/abs/2101.00977v2 )

ライセンス: CC BY 4.0
Yilun Zhou, Adithya Renduchintala, Xian Li, Sida Wang, Yashar Mehdad, Asish Ghoshal(参考訳) アクティブラーニング(AL)アルゴリズムは、データ選択プロセスを導くため、少ないデータでより良いパフォーマンスを達成することができる。 多くのアルゴリズムが提案されているが、最適なALアルゴリズムがどのようなものかはほとんど研究されていない。 本稿では,この最適オラクルを探索し,複数のタスクに対して解析するシミュレーションアニールアルゴリズムを提案する。 我々は、この神託の行動に関する質的で定量的な洞察を示し、それらを様々なヒューリスティクスの行動と比較し、対比する。 さらに、私たちは特定の洞察を使って、一貫してヒューリスティックスを改善することができます。 今後のアクティブラーニング研究によりよい情報を提供できることを願っています。 コードはhttps://github.com/y ilunzhou/optimal-act ive-learningで入手できる。

Active learning (AL) algorithms may achieve better performance with fewer data because the model guides the data selection process. While many algorithms have been proposed, there is little study on what the optimal AL algorithm looks like, which would help researchers understand where their models fall short and iterate on the design. In this paper, we present a simulated annealing algorithm to search for this optimal oracle and analyze it for several tasks. We present qualitative and quantitative insights into the behaviors of this oracle, comparing and contrasting them with those of various heuristics. Moreover, we are able to consistently improve the heuristics using one particular insight. We hope that our findings can better inform future active learning research. The code is available at https://github.com/Y ilunZhou/optimal-act ive-learning.
翻訳日:2021-04-18 21:41:19 公開日:2021-02-20
# (参考訳) 条件付きGANによる高次元非線形最適化 [全文訳有]

Augmenting High-dimensional Nonlinear Optimization with Conditional GANs ( http://arxiv.org/abs/2103.04748v1 )

ライセンス: CC BY 4.0
Pouya Rezazadeh Kalehbasti and Michael D. Lepech(参考訳) 多くの数理最適化アルゴリズムは、次元の呪いによる高次元非線形最適化問題の解空間を十分に探すことができない。 本稿では,高次元問題における性能向上のための最適化アルゴリズムを補完する生成モデルを提案する。 この方法を示すために、遺伝的アルゴリズム(ga)が生成する311次元非凸多目的混合整数非線形最適化の解を補うために条件付き生成逆逆ネットワーク(c-gan)が用いられる。 C-GANは、完全に連結された3つの層を持つ2つのネットワークから構成され、GAによって生成される解に基づいて訓練され、その後、所望のラベルのセット(すなわち、目的関数値)が与えられる。 提案手法の有効性を評価するために6つの実験を行った。 生成された相補解は、最適性と多様性の観点から元の解と比較される。 生成モデルは、目的関数が最大100%、超体積が元の解よりも最大100%高い解を生成する。 これらの結果から,C-GANは単純なトレーニングアプローチと単純なアーキテクチャさえあれば,高次元非線形最適化問題に対する最適化アルゴリズムによる解の多様性と最適性を向上させることができることがわかった。

Many mathematical optimization algorithms fail to sufficiently explore the solution space of high-dimensional nonlinear optimization problems due to the curse of dimensionality. This paper proposes generative models as a complement to optimization algorithms to improve performance in problems with high dimensionality. To demonstrate this method, a conditional generative adversarial network (C-GAN) is used to augment the solutions produced by a genetic algorithm (GA) for a 311-dimensional nonconvex multi-objective mixed-integer nonlinear optimization. The C-GAN, composed of two networks with three fully connected hidden layers, is trained on solutions generated by the GA, and then given sets of desired labels (i.e., objective function values), generates complementary solutions corresponding to those labels. Six experiments are conducted to evaluate the capabilities of the proposed method. The generated complementary solutions are compared to the original solutions in terms of optimality and diversity. The generative model generates solutions with objective functions up to 100% better, and with hypervolumes up to 100% higher, than the original solutions. These findings show that a C-GAN with even a simple training approach and simple architecture can highly improve the diversity and optimality of solutions found by an optimization algorithm for a high-dimensional nonlinear optimization problem.
翻訳日:2021-04-05 10:26:34 公開日:2021-02-20
# (参考訳) バイオメディカルドメインのための知識ベース強化単語埋め込み [全文訳有]

Knowledge-Base Enriched Word Embeddings for Biomedical Domain ( http://arxiv.org/abs/2103.00479v1 )

ライセンス: CC BY 4.0
Kishlay Jha(参考訳) 単語の埋め込みは、自然言語テキストの意味的および構文的規則性を捉えるのに適しており、その結果、これらの表現は様々な下流コンテンツ分析タスクにおいて有用であることがわかった。 一般に、これらの単語埋め込み技術は、局所的な文脈情報に基づく単語の分散表現を導出する。 しかし、そのようなアプローチは知識ベースに存在する大量の明示的な情報を無視している。 これは問題であり、ドメイン特化語のような局所的な文脈が不十分な単語の表現不足につながる可能性がある。 さらに、これらのドメイン固有の単語の存在が比較的高いバイオメディシンのようなドメインでは、この問題が顕著になる。 この目的に向けて,本研究では,利用可能なコーパスとドメイン知識の情報を共同で活用し,知識ベースの組込みを生成するバイオメディカルドメインのための新たな単語組込みモデルを提案する。 既存のアプローチとは異なり、提案手法は単純だが、ドメインリソースで利用可能な正確な知識を正しく捉えることに長けている。 生体医学的概念の類似性と関連性タスクの実験結果は,提案手法の有効性を検証する。

Word embeddings have been shown adept at capturing the semantic and syntactic regularities of the natural language text, as a result of which these representations have found their utility in a wide variety of downstream content analysis tasks. Commonly, these word embedding techniques derive the distributed representation of words based on the local context information. However, such approaches ignore the rich amount of explicit information present in knowledge-bases. This is problematic, as it might lead to poor representation for words with insufficient local context such as domain specific words. Furthermore, the problem becomes pronounced in domain such as bio-medicine where the presence of these domain specific words are relatively high. Towards this end, in this project, we propose a new word embedding based model for biomedical domain that jointly leverages the information from available corpora and domain knowledge in order to generate knowledge-base powered embeddings. Unlike existing approaches, the proposed methodology is simple but adept at capturing the precise knowledge available in domain resources in an accurate way. Experimental results on biomedical concept similarity and relatedness task validates the effectiveness of the proposed approach.
翻訳日:2021-04-05 10:15:25 公開日:2021-02-20
# (参考訳) PySensors: スパースセンサー配置のためのPythonパッケージ [全文訳有]

PySensors: A Python Package for Sparse Sensor Placement ( http://arxiv.org/abs/2102.13476v1 )

ライセンス: CC BY 4.0
Brian M. de Silva, Krithika Manohar, Emily Clark, Bingni W. Brunton, Steven L. Brunton, J. Nathan Kutz(参考訳) PySensorsは、分類および再構築タスクのためのスパースなセンサーセットを選択および配置するためのPythonパッケージである。 具体的には、pysensorsはデータ駆動スパースセンサ配置最適化(sspor)とスパースセンサ配置最適化(sspoc)のためのアルゴリズムを実装している。 本研究では,スパースセンサ最適化のための数学的アルゴリズムと理論の簡単な記述と,PySensorsで実装された機能の概要とデモ(コード例を含む)について述べる。 また、ユーザへの実用的なアドバイスや、PySensorsの潜在的な拡張のリストも含んでいます。 ソフトウェアはhttps://github.com/d ynamicslab/pysensors で入手できる。

PySensors is a Python package for selecting and placing a sparse set of sensors for classification and reconstruction tasks. Specifically, PySensors implements algorithms for data-driven sparse sensor placement optimization for reconstruction (SSPOR) and sparse sensor placement optimization for classification (SSPOC). In this work we provide a brief description of the mathematical algorithms and theory for sparse sensor optimization, along with an overview and demonstration of the features implemented in PySensors (with code examples). We also include practical advice for user and a list of potential extensions to PySensors. Software is available at https://github.com/d ynamicslab/pysensors .
翻訳日:2021-04-05 10:08:58 公開日:2021-02-20
# (参考訳) エネルギー分散のためのnilmアルゴリズムの包括的考察 [全文訳有]

A Comprehensive Review on the NILM Algorithms for Energy Disaggregation ( http://arxiv.org/abs/2102.12578v1 )

ライセンス: CC BY 4.0
Akriti Verma, Adnan Anwar(参考訳) 都市化に伴う住宅構造の変化と、世界中の高層建築物の建設による成長により、エンドユース家電の省エネと管理がリアルタイムに求められるようになった。 このシフトは、建物の総消費電力から家電固有の消費電力を推定できるスマートメーターと共に行われた。 非侵入負荷モニタリング(NILM)またはエネルギー分散は、集合レベルで測定された家庭用エネルギーを構成機器に分離することを目的としている。 長年にわたり、信号処理と機械学習アルゴリズムが組み合わさってこれを実現してきた。 エネルギーの分散、非侵入的な負荷モニタリング、家庭用エネルギー管理、家電の分類に関する驚くべき研究と出版が行われてきた。 再現可能なベンチマークアルゴリズムであるNILMTKというAPIが存在する。 ディープニューラルネットワークアーキテクチャや家庭用エネルギー分散のためのビッグデータアプローチなど、エネルギー分散を行う他の多くのアプローチが適応されている。 本稿では,効果的なnilmシステムフレームワークに関する調査を行い,ベンチマークアルゴリズムの性能を包括的に評価する。 本稿では,3つの公開データセットに対する適用範囲とアルゴリズム性能の有効性についても概説する。

The housing structures have changed with urbanization and the growth due to the construction of high-rise buildings all around the world requires end-use appliance energy conservation and management in real-time. This shift also came along with smart-meters which enabled the estimation of appliance-specific power consumption from the buildings aggregate power consumption reading. Non-intrusive load monitoring (NILM) or energy disaggregation is aimed at separating the household energy measured at the aggregate level into constituent appliances. Over the years, signal processing and machine learning algorithms have been combined to achieve this. Incredible research and publications have been conducted on energy disaggregation, non-intrusive load monitoring, home energy management and appliance classification. There exists an API, NILMTK, a reproducible benchmark algorithm for the same. Many other approaches to perform energy disaggregation has been adapted such as deep neural network architectures and big data approach for household energy disaggregation. This paper provides a survey of the effective NILM system frameworks and reviews the performance of the benchmark algorithms in a comprehensive manner. This paper also summarizes the wide application scope and the effectiveness of the algorithmic performance on three publicly available data sets.
翻訳日:2021-04-05 09:57:06 公開日:2021-02-20
# 余剰畳み込みを伴う注目の進化

Evolving Attention with Residual Convolutions ( http://arxiv.org/abs/2102.12895v1 )

ライセンス: Link先を確認
Yujing Wang, Yaming Yang, Jiangang Bai, Mingliang Zhang, Jing Bai, Jing Yu, Ce Zhang, Gao Huang, Yunhai Tong(参考訳) Transformerは自然言語処理のユビキタスモデルであり、コンピュータビジョンにおいて広く注目を集めている。 入力トークン間の依存関係をエンコードするトランスモデルには,アテンションマップが不可欠である。 しかし、それらは各層で独立して学習され、時には正確なパターンを捉えることができない。 本稿では, 変圧器の性能向上のために, 進化的注意に基づく新しい汎用機構を提案する。 一方、異なる層におけるアテンションマップは共通の知識を共有しており、従って前層のアテンションマップは、残差接続を通じて、後続層のアテンションを指示することができる。 一方、低レベルおよび高レベルの注意は抽象化のレベルによって異なるため、注意マップの進化過程をモデル化するために畳み込み層を採用する。 提案手法は, 画像分類, 自然言語理解, 機械翻訳など, 各種タスクの最先端モデルに対して, 大幅な性能向上を実現する。

Transformer is a ubiquitous model for natural language processing and has attracted wide attentions in computer vision. The attention maps are indispensable for a transformer model to encode the dependencies among input tokens. However, they are learned independently in each layer and sometimes fail to capture precise patterns. In this paper, we propose a novel and generic mechanism based on evolving attention to improve the performance of transformers. On one hand, the attention maps in different layers share common knowledge, thus the ones in preceding layers can instruct the attention in succeeding layers through residual connections. On the other hand, low-level and high-level attentions vary in the level of abstraction, so we adopt convolutional layers to model the evolutionary process of attention maps. The proposed evolving attention mechanism achieves significant performance improvement over various state-of-the-art models for multiple tasks, including image classification, natural language understanding and machine translation.
翻訳日:2021-04-05 00:44:16 公開日:2021-02-20
# BERTを用いた赤信号待ち時間予測

Predicting times of waiting on red signals using BERT ( http://arxiv.org/abs/2102.12896v1 )

ライセンス: Link先を確認
Witold Szejgis, Anna Warno, Pawe{\l} Gora(参考訳) 本稿では,BERTモデルを用いた道路交通シミュレーションの結果の近似手法を提案する。 実験は、Traffic Simulation Frameworkソフトウェアを用いて、現実的な道路ネットワーク上で実行されるデータセット上で実施された。 bertベースのモデルは、他の4種類の機械学習モデル(lightgbm、完全連結ニューラルネットワーク、2種類のグラフニューラルネットワーク)と比較され、考慮されたすべてのメトリクスで最高の結果を得た。

We present a method for approximating outcomes of road traffic simulations using BERT-based models, which may find applications in, e.g., optimizing traffic signal settings, especially with the presence of autonomous and connected vehicles. The experiments were conducted on a dataset generated using the Traffic Simulation Framework software runs on a realistic road network. The BERT-based models were compared with 4 other types of machine learning models (LightGBM, fully connected neural networks and 2 types of graph neural networks) and gave the best results in terms of all the considered metrics.
翻訳日:2021-04-05 00:44:01 公開日:2021-02-20
# 知識工学 混合整数線形プログラミング:制約型

Knowledge engineering mixed-integer linear programming: constraint typology ( http://arxiv.org/abs/2102.12574v1 )

ライセンス: Link先を確認
Vicky Mak-Hau and John Yearwood and William Moran(参考訳) 本稿では,混合整数線形計画milpの制約タイプ論について検討する。 MILPは、現実のスケジューリング、ルーティング、計画、リソース割り当て、タイムタブル最適化問題、製造業、農業、防衛、医療、医療、エネルギー、金融、輸送といった産業分野に最適化されたビジネスソリューションを提供するための一般的な数学的プログラミング手法である。 多くの現実的なコンビニアル最適化の問題が発見され、解決され、まだ発見され、定式化されていないが、MILPの構成要素である制約の種類は比較的小さい。 そこで本研究では,MILPのオントロジーに基づいて構築された最適化モデル木を,組換えビジネス最適化問題に基づいて,エンドユーザーからMILPモデルを引き出すための自動システムのためのガイダンスとして用いることを提案する。

In this paper, we investigate the constraint typology of mixed-integer linear programming MILP formulations. MILP is a commonly used mathematical programming technique for modelling and solving real-life scheduling, routing, planning, resource allocation, timetabling optimization problems, providing optimized business solutions for industry sectors such as: manufacturing, agriculture, defence, healthcare, medicine, energy, finance, and transportation. Despite the numerous real-life Combinatorial Optimization Problems found and solved, and millions yet to be discovered and formulated, the number of types of constraints, the building blocks of a MILP, is relatively much smaller. In the search of a suitable machine readable knowledge representation for MILPs, we propose an optimization modelling tree built based upon an MILP ontology that can be used as a guidance for automated systems to elicit an MILP model from end-users on their combinatorial business optimization problems.
翻訳日:2021-04-05 00:43:44 公開日:2021-02-20
# Info-Evo:進化的プログラム学習のガイドに情報幾何学を使う

Info-Evo: Using Information Geometry to Guide Evolutionary Program Learning ( http://arxiv.org/abs/2103.04747v1 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) 非パラメトリックフィッシャー情報を用いた自然勾配探索を用いて進化学習アルゴリズムへの継続的な指導を行い、進化過程が自然勾配に従って「最短経路」として識別される方向を優先的に移動する新しい最適化戦略であるinfo-evoについて述べる。 MOSESプログラム学習フレームワークにInfo-Evoを統合する戦略など、このアプローチのプログラム自動学習への適用に関するいくつかの具体的な内容がレビューされている。

A novel optimization strategy, Info-Evo, is described, in which natural gradient search using nonparametric Fisher information is used to provide ongoing guidance to an evolutionary learning algorithm, so that the evolutionary process preferentially moves in the directions identified as "shortest paths" according to the natural gradient. Some specifics regarding the application of this approach to automated program learning are reviewed, including a strategy for integrating Info-Evo into the MOSES program learning framework.
翻訳日:2021-04-05 00:43:27 公開日:2021-02-20
# (参考訳) 因果無名歩行による時間ネットワークにおける帰納的表現学習 [全文訳有]

Inductive Representation Learning in Temporal Networks via Causal Anonymous Walks ( http://arxiv.org/abs/2101.05974v2 )

ライセンス: CC BY 4.0
Yanbang Wang, Yen-Yu Chang, Yunyu Liu, Jure Leskovec, Pan Li(参考訳) テンポラルネットワークは多くの現実世界の動的システムの抽象化として機能する。 これらのネットワークは通常、ソーシャルネットワークにおいて普遍的な三進法のような特定の法則に従って進化する。 時間的ネットワークの帰納的表現学習は、そのような法則を捉えることができ、さらに同じ法則に従うが訓練段階では認識されていないシステムに適用できるべきである。 この領域の以前の作業はネットワークノードのアイデンティティかリッチエッジ属性に依存しており、典型的にはこれらの法則を抽出できない。 本稿では,時間的ネットワークを誘導的に表現するCausal Anonymous Walks (CAWs)を提案する。 CAWは時間的ランダムウォークによって抽出され、時間的選択とそれらのモチーフのカウントを回避しつつ、時間的ネットワークモチーフの自動検索として機能する。 CAWは、ノードのアイデンティティをサンプルウォークのセットに基づいてノードのヒット数に置き換える新しい匿名化戦略を採用し、メソッドを誘導し、同時にモチーフ間の相関を確立する。 さらに、cawsを符号化するニューラルネットワークモデルcaw-nを提案し、オンライントレーニングと推論をサポートするために、一定のメモリと時間コストのcawサンプリング戦略と組み合わせる。 CAW-Nは、6つの実時間ネットワーク上のリンクを予測し、インダクティブ環境で平均15%のAUCゲインで従来のSOTA手法を均一に上回ります。 caw-nは、トランスダクティブ設定の6つのネットワークのうち5つで以前の方法よりも優れている。

Temporal networks serve as abstractions of many real-world dynamic systems. These networks typically evolve according to certain laws, such as the law of triadic closure, which is universal in social networks. Inductive representation learning of temporal networks should be able to capture such laws and further be applied to systems that follow the same laws but have not been unseen during the training stage. Previous works in this area depend on either network node identities or rich edge attributes and typically fail to extract these laws. Here, we propose Causal Anonymous Walks (CAWs) to inductively represent a temporal network. CAWs are extracted by temporal random walks and work as automatic retrieval of temporal network motifs to represent network dynamics while avoiding the time-consuming selection and counting of those motifs. CAWs adopt a novel anonymization strategy that replaces node identities with the hitting counts of the nodes based on a set of sampled walks to keep the method inductive, and simultaneously establish the correlation between motifs. We further propose a neural-network model CAW-N to encode CAWs, and pair it with a CAW sampling strategy with constant memory and time cost to support online training and inference. CAW-N is evaluated to predict links over 6 real temporal networks and uniformly outperforms previous SOTA methods by averaged 15% AUC gain in the inductive setting. CAW-N also outperforms previous methods in 5 out of the 6 networks in the transductive setting.
翻訳日:2021-03-28 21:43:20 公開日:2021-02-20
# 自動変調と無線信号分類のためのマルチタスク学習手法

Multi-task Learning Approach for Automatic Modulation and Wireless Signal Classification ( http://arxiv.org/abs/2101.10254v2 )

ライセンス: Link先を確認
Anu Jagannath, Jithin Jagannath(参考訳) 無線信号認識は、スペクトルモニタリング、スペクトル管理、安全な通信においてますます重要になりつつある。 その結果、新たな第5世代(5G)や、5G通信、モノのインターネットネットワークなど、重要な実現要因となるでしょう。 無線信号認識における最先端の研究は、多くの場合、システムが動作するための不十分な情報である単一のタスクにのみ焦点を合わせています。 本研究では、無線通信分野で初めて、マルチタスク学習(MTL)フレームワークと連動した深層ニューラルネットワークの可能性を利用して、変調と信号分類のタスクを同時に学習する。 提案したMTLアーキテクチャは,2つのタスク間の相互関係から,分類精度の向上と,軽量ニューラルネットワークモデルによる学習効率の向上に有効である。 また、電磁スペクトルにおけるレーダや通信信号等の異種無線信号の問題についても考察する。 そこで,提案したMTLモデルが,より軽量なアーキテクチャを維持しながら,同時に2つの信号特性評価タスクを実行しながら,最先端の単一タスク学習分類器を上回っていることを示す。 最後に、レーダーと複数のラベルとの通信信号で構成される唯一の既知のオープン異種無線信号データセットをリリースします。

Wireless signal recognition is becoming increasingly more significant for spectrum monitoring, spectrum management, and secure communications. Consequently, it will become a key enabler with the emerging fifth-generation (5G) and beyond 5G communications, Internet of Things networks, among others. State-of-the-art studies in wireless signal recognition have only focused on a single task which in many cases is insufficient information for a system to act on. In this work, for the first time in the wireless communication domain, we exploit the potential of deep neural networks in conjunction with multi-task learning (MTL) framework to simultaneously learn modulation and signal classification tasks. The proposed MTL architecture benefits from the mutual relation between the two tasks in improving the classification accuracy as well as the learning efficiency with a lightweight neural network model. Additionally, we consider the problem of heterogeneous wireless signals such as radar and communication signals in the electromagnetic spectrum. Accordingly, we have shown how the proposed MTL model outperforms several state-of-the-art single-task learning classifiers while maintaining a lighter architecture and performing two signal characterization tasks simultaneously. Finally, we also release the only known open heterogeneous wireless signals dataset that comprises of radar and communication signals with multiple labels.
翻訳日:2021-03-14 18:57:29 公開日:2021-02-20
# シーン分類のためのディープラーニング:調査

Deep Learning for Scene Classification: A Survey ( http://arxiv.org/abs/2101.10531v2 )

ライセンス: Link先を確認
Delu Zeng, Minyu Liao, Mohammad Tavakolian, Yulan Guo, Bolei Zhou, Dewen Hu, Matti Pietik\"ainen, Li Liu(参考訳) シーンの分類は、画像全体を解釈することで、事前に定義されたシーンカテゴリの1つに分類することを目的としており、コンピュータビジョンにおける長年の、基本的で挑戦的な問題である。 多様な実世界のシーンの密集サンプリングを構成する大規模データセットの台頭と、大規模生データから直接強力な特徴表現を学習するディープラーニング技術のルネッサンスは、シーン表現と分類の分野において顕著な進歩をもたらしている。 本研究の目的は,深層学習を用いたシーン分類における最近の成果を包括的に調査することである。 この調査には、課題、ベンチマークデータセット、分類学、レビューされた方法の定量的パフォーマンス比較など、シーン分類のさまざまな側面をカバーする200以上の主要な出版物が含まれています。 これまでの成果を振り返って、本論文では有望な研究機会のリストもまとめています。

Scene classification, aiming at classifying a scene image to one of the predefined scene categories by comprehending the entire image, is a longstanding, fundamental and challenging problem in computer vision. The rise of large-scale datasets, which constitute the corresponding dense sampling of diverse real-world scenes, and the renaissance of deep learning techniques, which learn powerful feature representations directly from big raw data, have been bringing remarkable progress in the field of scene representation and classification. To help researchers master needed advances in this field, the goal of this paper is to provide a comprehensive survey of recent achievements in scene classification using deep learning. More than 200 major publications are included in this survey covering different aspects of scene classification, including challenges, benchmark datasets, taxonomy, and quantitative performance comparisons of the reviewed methods. In retrospect of what has been achieved so far, this paper is also concluded with a list of promising research opportunities.
翻訳日:2021-03-13 19:55:24 公開日:2021-02-20
# (参考訳) 話者検証のための学習可能なMFCC [全文訳有]

Learnable MFCCs for Speaker Verification ( http://arxiv.org/abs/2102.10322v1 )

ライセンス: CC BY 4.0
Xuechen Liu and Md Sahidullah and Tomi Kinnunen(参考訳) 深層ニューラルネットワーク(DNN)を用いた自動話者検証のための学習可能なMFCCフロントエンドアーキテクチャを提案する。 当社のアーキテクチャは、MFCCベースの機能のシンプルさと解釈性を保ち、モデルが柔軟にデータに適応できるようにします。 実際には、標準MFCC抽出器の4つの線形変換(ウィンドウリング、離散フーリエ変換(DFT)、メルフィルタバンク、離散コサイン変換(DCT))のデータ駆動バージョンを定式化する。 その結果、静的 MFCC による等誤差率 (EER) の観点で6.7\% (VoxCeleb1) と9.7\% (SITW) の相対的な改善に到達したが、追加のチューニングは行わなかった。

We propose a learnable mel-frequency cepstral coefficient (MFCC) frontend architecture for deep neural network (DNN) based automatic speaker verification. Our architecture retains the simplicity and interpretability of MFCC-based features while allowing the model to be adapted to data flexibly. In practice, we formulate data-driven versions of the four linear transforms of a standard MFCC extractor -- windowing, discrete Fourier transform (DFT), mel filterbank and discrete cosine transform (DCT). Results reported reach up to 6.7\% (VoxCeleb1) and 9.7\% (SITW) relative improvement in term of equal error rate (EER) from static MFCCs, without additional tuning effort.
翻訳日:2021-02-24 20:34:41 公開日:2021-02-20
# (参考訳) MHDeep:身体領域と深部ニューラルネットワークに基づくメンタルヘルス障害検出システム [全文訳有]

MHDeep: Mental Health Disorder Detection System based on Body-Area and Deep Neural Networks ( http://arxiv.org/abs/2102.10435v1 )

ライセンス: CC BY 4.0
Shayan Hassantabar, Joe Zhang, Hongxu Yin, and Niraj K. Jha(参考訳) メンタルヘルス問題は世界中の何百万人もの人々の生活の質に影響を与える。 しかし、メンタルヘルス障害の診断は、しばしば患者の行動パターンに関する自己報告に依存する困難な問題である。 そのため,精神疾患の診断には新たな方策が必要である。 最近のボディエリアネットワークの導入は、スマートウォッチやスマートフォンに埋め込まれた多数の正確なセンサーとディープニューラルネットワーク(DNN)で構成される。 しかしながら、WMSとDNNに基づく疾患診断とエッジデバイスへの展開は、依然として困難な問題である。 この目的のために、市販のWMSと効率的なDNNモデルを用いて、schizoaffective、Major depressive、bipolarの3つの重要なメンタルヘルス障害を診断するMHDeepというフレームワークを提案する。 MHDeepは、スマートウォッチとスマートフォンに組み込まれたセンサーから得られる8種類のデータを使用する。 利用可能なデータが少ないため、MHDeepは合成データ生成モジュールを使用して、同じ確率分布から引き出された合成データを用いて実データを拡張する。 合成データセットを使用して、DNNモデルを事前にトレーニングするため、ウェイトを優先します。 トレーニングプロセス中にアーキテクチャと重みの両方を学ぶために、成長と創発的なDNN合成アプローチを使用します。 74人の個人から収集したデータでトレーニングしたMHDeepモデルを評価するために、3つの異なるデータパーティションを使用します。 データインスタンスレベルと患者レベルの評価を行います。 MHDeepの平均テスト精度は90.4%、87.3%、82.4%で、健康なインスタンスと、schizoaffective disorder(英語版)、Major depressive disorder(英語版)、bipolar disorder(英語版)のインスタンスを分類する。 患者レベルでは、MHDeep DNNは3つのメンタルヘルス障害に対してそれぞれ100%、100%、90.0%の精度を達成する。

Mental health problems impact quality of life of millions of people around the world. However, diagnosis of mental health disorders is a challenging problem that often relies on self-reporting by patients about their behavioral patterns. Therefore, there is a need for new strategies for diagnosis of mental health problems. The recent introduction of body-area networks consisting of a plethora of accurate sensors embedded in smartwatches and smartphones and deep neural networks (DNNs) points towards a possible solution. However, disease diagnosis based on WMSs and DNNs, and their deployment on edge devices, remains a challenging problem. To this end, we propose a framework called MHDeep that utilizes commercially available WMSs and efficient DNN models to diagnose three important mental health disorders: schizoaffective, major depressive, and bipolar. MHDeep uses eight different categories of data obtained from sensors integrated in a smartwatch and smartphone. Due to limited available data, MHDeep uses a synthetic data generation module to augment real data with synthetic data drawn from the same probability distribution. We use the synthetic dataset to pre-train the DNN models, thus imposing a prior on the weights. We use a grow-and-prune DNN synthesis approach to learn both the architecture and weights during the training process. We use three different data partitions to evaluate the MHDeep models trained with data collected from 74 individuals. We conduct data instance level and patient level evaluations. MHDeep achieves an average test accuracy of 90.4%, 87.3%, and 82.4%, respectively, for classifications between healthy instances and schizoaffective disorder instances, major depressive disorder instances, and bipolar disorder instances. At the patient level, MHDeep DNNs achieve an accuracy of 100%, 100%, and 90.0% for the three mental health disorders, respectively.
翻訳日:2021-02-24 20:23:55 公開日:2021-02-20
# (参考訳) 確率的シナプスを用いたニューラルネットワークによる脳様学習と推論 [全文訳有]

Neural Sampling Machine with Stochastic Synapse allows Brain-like Learning and Inference ( http://arxiv.org/abs/2102.10477v1 )

ライセンス: CC BY 4.0
Sourav Dutta, Georgios Detorakis, Abhishek Khanna, Benjamin Grisafe, Emre Neftci and Suman Datta(参考訳) 多くの実世界のミッションクリティカルなアプリケーションは、ノイズの多いデータから連続的なオンライン学習と、信頼度の高いリアルタイム意思決定を必要とする。 確率的モデルと確率的ニューラルネットワークは、データの不確実性を明示的に処理し、適応的な学習を可能にする。 本稿では,ニューラルサンプリング・マヒネという,ベイズ近似推論のためのシナプス接続における確率性を生かした,新しい確率的NNを実装したハードウェアファブリックを提案する。 創発物質や装置の原子レベルで生じる固有非線形性と確率を利用して、生物学的シナプスの分子レベルで起こるシナプス確率を捉えることができる。 強誘電体電界効果トランジスタを用いたアナログウエイトセルと2端子の確率的セレクタ素子を組み合わせることで,in-silico hybrid stochastic synapseを実験的に実証した。 このような確率シナプスは、計算インメモリのための確立されたクロスバーアレイアーキテクチャ内に組み込むことができる。 実験により, 絶縁体と金属状態の間のセレクタ素子の固有の確率的切替は, 学習と推論の両方においてFeFETの伝導状態をサンプリングするNSMのシナプス内に乗算的確率的ノイズをもたらすことを示した。 我々は,NSMの確率論的シナプスによって導入された,オフラインのバッチ正規化を伴わずに連続的なオンライン学習を実現する健全な自動重み正規化機能を強調するために,ネットワークレベルのシミュレーションを行う。 また,推論モード中に確率的シナプスによって導入されたベイズ的参照能力を示し,データの不確実性を説明する。 標準画像分類タスク98.25%の精度と回転試料におけるデータ不確かさの推定について報告する。

Many real-world mission-critical applications require continual online learning from noisy data and real-time decision making with a defined confidence level. Probabilistic models and stochastic neural networks can explicitly handle uncertainty in data and allow adaptive learning-on-the-fly, but their implementation in a low-power substrate remains a challenge. Here, we introduce a novel hardware fabric that implements a new class of stochastic NN called Neural-Sampling-Mach ine that exploits stochasticity in synaptic connections for approximate Bayesian inference. Harnessing the inherent non-linearities and stochasticity occurring at the atomic level in emerging materials and devices allows us to capture the synaptic stochasticity occurring at the molecular level in biological synapses. We experimentally demonstrate in-silico hybrid stochastic synapse by pairing a ferroelectric field-effect transistor -based analog weight cell with a two-terminal stochastic selector element. Such a stochastic synapse can be integrated within the well-established crossbar array architecture for compute-in-memory. We experimentally show that the inherent stochastic switching of the selector element between the insulator and metallic state introduces a multiplicative stochastic noise within the synapses of NSM that samples the conductance states of the FeFET, both during learning and inference. We perform network-level simulations to highlight the salient automatic weight normalization feature introduced by the stochastic synapses of the NSM that paves the way for continual online learning without any offline Batch Normalization. We also showcase the Bayesian inferencing capability introduced by the stochastic synapse during inference mode, thus accounting for uncertainty in data. We report 98.25%accuracy on standard image classification task as well as estimation of data uncertainty in rotated samples.
翻訳日:2021-02-24 20:03:52 公開日:2021-02-20
# (参考訳) 隠れ変数を持つ因果グラフィカルモデルにおける最適調整セットに必要な十分条件 [全文訳有]

Necessary and sufficient conditions for optimal adjustment sets in causal graphical models with hidden variables ( http://arxiv.org/abs/2102.10324v1 )

ライセンス: CC BY 4.0
Jakob Runge(参考訳) 隠れ変数および条件変数を持つグラフィカルモデルにおける総因果効果を推定するために最適な有効バックドア調整セットを選択する問題に対処する。 以前の研究では、最適性は他の調整集合と比較して最小の漸近分散を達成し、隠れた変数を持たない場合の最適集合のグラフィカルな基準を特定した。 隠れた変数の場合、現在十分なグラフィカルな基準と対応する構成アルゴリズムが存在する。 ここでの最適性は、原因、効果、調整セット、条件付き変数の相互情報に基づく情報理論的アプローチによって特徴づけられる。 このキャラクタリゼーションにより、本論文の主な貢献を導出することができる:最適な調整集合が存在するための必要十分十分なグラフィカルな基準とそれを構成するアルゴリズムである。 結果は、分散が特定の情報理論分解を認めている推定値のクラスに対して有効である。

The problem of selecting optimal valid backdoor adjustment sets to estimate total causal effects in graphical models with hidden and conditioned variables is addressed. Previous work has defined optimality as achieving the smallest asymptotic variance compared to other adjustment sets and identified a graphical criterion for an optimal set for the case without hidden variables. For the case with hidden variables currently a sufficient graphical criterion and a corresponding construction algorithm exists. Here optimality is characterized by an information-theoreti c approach based on the mutual informations among cause, effect, adjustment set, and conditioned variables. This characterization allows to derive the main contributions of this paper: A necessary and sufficient graphical criterion for the existence of an optimal adjustment set and an algorithm to construct it. The results are valid for a class of estimators whose variance admits a certain information-theoreti c decomposition.
翻訳日:2021-02-24 17:03:18 公開日:2021-02-20
# (参考訳) 不利用可能なトランジットフィード仕様: 繰り返しニューラルネットワークで利用可能に [全文訳有]

Unavailable Transit Feed Specification: Making it Available with Recurrent Neural Networks ( http://arxiv.org/abs/2102.10323v1 )

ライセンス: CC BY 4.0
Ludovico Iovino, Phuong T. Nguyen, Amleto Di Salle, Francesco Gallo, Michele Flammini(参考訳) ヨーロッパにおける公共交通機関の研究は、ヨーロッパ人がcaでバスを使用していることを示唆している。 全公共交通機関の56%を占める。 このような割合に影響を与える重要な要因の1つは、一般に公共交通機関の需要が高まり、それを使うのを拒むことが、その品質である。 エンドユーザは、情報の提供、すなわち、トランジットと提供されたサービスの詳細へのアクセスなど、さまざまな観点から品質を知覚することができる。 本稿では,データマイニングと機械学習技術を活用した革新的な手法を用いて,公共交通機関に関する利用できないデータの利用を目標とする。 特に、GPSの痕跡を採掘することで、公共交通機関の完全なトランジットグラフを再構築することができる。 このアプローチは、L'Aquila市(イタリア)のローカルバスシステムから収集された実際のデータセットで正常に検証されました。 実験の結果,提案手法と実装フレームワークはともに効率的かつ効率的であることを示し,デプロイの準備が整った。

Studies on public transportation in Europe suggest that European inhabitants use buses in ca. 56% of all public transport travels. One of the critical factors affecting such a percentage and more, in general, the demand for public transport services, with an increasing reluctance to use them, is their quality. End-users can perceive quality from various perspectives, including the availability of information, i.e., the access to details about the transit and the provided services. The approach proposed in this paper, using innovative methodologies resorting on data mining and machine learning techniques, aims to make available the unavailable data about public transport. In particular, by mining GPS traces, we manage to reconstruct the complete transit graph of public transport. The approach has been successfully validated on a real dataset collected from the local bus system of the city of L'Aquila (Italy). The experimental results demonstrate that the proposed approach and implemented framework are both effective and efficient, thus being ready for deployment.
翻訳日:2021-02-24 12:41:01 公開日:2021-02-20
# (参考訳) Dynamics-Awareモデルを用いた物理推論 [全文訳有]

Physical Reasoning Using Dynamics-Aware Models ( http://arxiv.org/abs/2102.10336v1 )

ライセンス: CC BY 4.0
Eltayeb Ahmed, Anton Bakhtin, Laurens van der Maaten, Rohit Girdhar(参考訳) 物理分析タスクを解決する一般的なアプローチは、例のタスクで値学習者をトレーニングすることです。 このようなアプローチの限界は、環境のロールアウトの最終状態に割り当てられた報酬値のみからオブジェクトのダイナミクスを学ぶ必要があることである。 本研究の目的は、オブジェクトのダイナミクスに関する追加の監視信号で報酬値を増大させることによって、この制限に対処することである。 具体的には、2つの対象物の軌道間の距離測度を定義し、2つの環境ロールアウトの類似性を特徴付けるためにこの距離測度を使用し、正しい報酬の予測に加えて、この測度に従ってロールアウトを正しくランク付けするモデルを訓練します。 実証的に、このアプローチは物理推論のためのPHYREベンチマークの大幅なパフォーマンス改善につながることが分かりました。

A common approach to solving physical-reasoning tasks is to train a value learner on example tasks. A limitation of such an approach is it requires learning about object dynamics solely from reward values assigned to the final state of a rollout of the environment. This study aims to address this limitation by augmenting the reward value with additional supervisory signals about object dynamics. Specifically,we define a distance measure between the trajectory of two target objects, and use this distance measure to characterize the similarity of two environment rollouts.We train the model to correctly rank rollouts according to this measure in addition to predicting the correct reward. Empirically, we find that this approach leads to substantial performance improvements on the PHYRE benchmark for physical reasoning: our approach obtains a new state-of-the-art on that benchmark.
翻訳日:2021-02-24 12:20:56 公開日:2021-02-20
# (参考訳) 等価モデルに対する厳密一般化のメリット

Provably Strict Generalisation Benefit for Equivariant Models ( http://arxiv.org/abs/2102.10333v1 )

ライセンス: CC BY 4.0
Bryn Elesedy and Sheheryar Zaidi(参考訳) 不変/等価であるモデルのエンジニアリングは一般化を改善すると広く信じられている。 このアプローチの人気は高まっているが、一般化の利点の正確な特徴付けが欠けている。 線形モデルの最も単純な場合を考えることで、対象分布がコンパクト群に対して不変/同変であるとき、不変/同変モデルの一般化における最初の証明可能な非零改善を提供する。 さらに, 一般化, 訓練例数, 集団行動の性質との間には興味深い関係があることを明らかにした。 その結果、平均作用素の下での関数空間の構造を観測し、特徴平均化の結果とともに独立な関心事となる。

It is widely believed that engineering a model to be invariant/equivarian t improves generalisation. Despite the growing popularity of this approach, a precise characterisation of the generalisation benefit is lacking. By considering the simplest case of linear models, this paper provides the first provably non-zero improvement in generalisation for invariant/equivarian t models when the target distribution is invariant/equivarian t with respect to a compact group. Moreover, our work reveals an interesting relationship between generalisation, the number of training examples and properties of the group action. Our results rest on an observation of the structure of function spaces under averaging operators which, along with its consequences for feature averaging, may be of independent interest.
翻訳日:2021-02-24 10:47:32 公開日:2021-02-20
# (参考訳) SSFG:グラフ畳み込みネットワークの正規化のための確率的スケーリング機能と勾配 [全文訳有]

SSFG: Stochastically Scaling Features and Gradients for Regularizing Graph Convolution Networks ( http://arxiv.org/abs/2102.10338v1 )

ライセンス: CC BY 4.0
Haimin Zhang, Min Xu(参考訳) グラフ畳み込みネットワークは、様々なグラフベースのタスクにうまく適用されている。 典型的なグラフ畳み込み層では、ノードの特徴は近傍情報を集約することで計算される。 繰り返しグラフの畳み込みを適用すると、過剰な問題、すなわちノードの特徴が同様の値に収束する。 これは、グラフ学習が過剰に適合する主な理由の1つであり、モデルがテストデータにうまく一般化せず、トレーニングデータに適合する結果となる。 本稿では,この問題に対処する確率正規化手法を提案する。 本手法では、訓練手順における確率分布から抽出した因子により、特徴と勾配(SSFG)を確率的にスケールする。 機能レベルで確率的スケーリングを適用することは、全体的なパフォーマンスを改善するための勾配レベルでのスケーリングと相補的であることを示す。 ReLUと併用すると,この手法は確率的ReLUと見なすことができる。 グラフベースのタスクの7つのベンチマークデータセット上で,SSFG正規化手法を実験的に検証した。 広範な実験結果から,本手法がベースライングラフネットワーク全体の性能を効果的に改善できることが示された。

Graph convolutional networks have been successfully applied in various graph-based tasks. In a typical graph convolutional layer, node features are computed by aggregating neighborhood information. Repeatedly applying graph convolutions can cause the oversmoothing issue, i.e., node features converge to similar values. This is one of the major reasons that cause overfitting in graph learning, resulting in the model fitting well to training data while not generalizing well on test data. In this paper, we present a stochastic regularization method to address this issue. In our method, we stochastically scale features and gradients (SSFG) by a factor sampled from a probability distribution in the training procedure. We show that applying stochastic scaling at the feature level is complementary to that at the gradient level in improving the overall performance. When used together with ReLU, our method can be seen as a stochastic ReLU. We experimentally validate our SSFG regularization method on seven benchmark datasets for different graph-based tasks. Extensive experimental results demonstrate that our method effectively improves the overall performance of the baseline graph networks.
翻訳日:2021-02-24 09:26:25 公開日:2021-02-20
# (参考訳) BSQ:Mixed-Precision Neural Network Quantizationのためのビットレベルスパーシティの探索 [全文訳有]

BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network Quantization ( http://arxiv.org/abs/2102.10462v1 )

ライセンス: CC BY 4.0
Huanrui Yang, Lin Duan, Yiran Chen, Hai Li(参考訳) 混合精度量子化はディープニューラルネットワークの性能と圧縮速度の最適なトレードオフを実現できる可能性があり、広く研究されている。 しかし、正確な量子化スキームを決定する体系的な方法が欠けている。 従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。 これらのアプローチは最適量子化スキームを効率的に導くことはできない。 本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。 我々は、各ビットの量子化重みを独立な訓練可能な変数と考え、微分可能なビットスパーシティ正規化器を導入する。 BSQは、重み要素のグループ間で全ゼロビットを誘導し、動的精度の低減を実現し、元のモデルの混合精度量子化スキームをもたらす。 1つのグラデーションベースの最適化プロセスで完全な混合精度空間を探索し、1つのハイパーパラメータだけでパフォーマンスと圧縮をトレードオフできます。 BSQは、CIFAR-10とImageNetデータセット上の様々なモデルアーキテクチャにおいて、以前の手法と比較して高い精度と高いビット削減を実現する。

Mixed-precision quantization can potentially achieve the optimal tradeoff between performance and compression rate of deep neural networks, and thus, have been widely investigated. However, it lacks a systematic method to determine the exact quantization scheme. Previous methods either examine only a small manually-designed search space or utilize a cumbersome neural architecture search to explore the vast search space. These approaches cannot lead to an optimal quantization scheme efficiently. This work proposes bit-level sparsity quantization (BSQ) to tackle the mixed-precision quantization from a new angle of inducing bit-level sparsity. We consider each bit of quantized weights as an independent trainable variable and introduce a differentiable bit-sparsity regularizer. BSQ can induce all-zero bits across a group of weight elements and realize the dynamic precision reduction, leading to a mixed-precision quantization scheme of the original model. Our method enables the exploration of the full mixed-precision space with a single gradient-based optimization process, with only one hyperparameter to tradeoff the performance and compression. BSQ achieves both higher accuracy and higher bit reduction on various model architectures on the CIFAR-10 and ImageNet datasets comparing to previous methods.
翻訳日:2021-02-24 09:02:46 公開日:2021-02-20
# (参考訳) GIST:大規模グラフ畳み込みネットワークのための分散トレーニング [全文訳有]

GIST: Distributed Training for Large-Scale Graph Convolutional Networks ( http://arxiv.org/abs/2102.10424v1 )

ライセンス: CC BY 4.0
Cameron R. Wolfe, Jingkang Yang, Arindam Chowdhury, Chen Dun, Artun Bayer, Santiago Segarra, Anastasios Kyrillidis(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフ上の機械学習のためのゴーツーソリューションですが、そのトレーニングは、グラフのサイズとモデルパラメータの数の両方の観点からスケールするのが非常に困難です。 これらの制限は、ディープラーニング研究における実験のスケール(データサイズとモデルサイズ)の増加とは対照的です。 本研究では,大規模グラフ上で広帯域(過パラメータ化)GCNの効率的なトレーニングを可能にする,新しい分散手法であるGISTを提案する。 GISTはハイブリッド層とグラフサンプリング手法であり、グローバルモデルを複数の小さなサブGCNに分割し、複数のGPU間で独立して並列に訓練する。 この分散フレームワークはモデルのパフォーマンスを改善し、ウォールクロックのトレーニング時間を大幅に短縮します。 GISTは、グラフ機械学習とディープラーニングの既存のギャップを埋めることを目的として、大規模なGCN実験を可能にすることを目指している。

The graph convolutional network (GCN) is a go-to solution for machine learning on graphs, but its training is notoriously difficult to scale in terms of both the size of the graph and the number of model parameters. These limitations are in stark contrast to the increasing scale (in data size and model size) of experiments in deep learning research. In this work, we propose GIST, a novel distributed approach that enables efficient training of wide (overparameterized) GCNs on large graphs. GIST is a hybrid layer and graph sampling method, which disjointly partitions the global model into several, smaller sub-GCNs that are independently trained across multiple GPUs in parallel. This distributed framework improves model performance and significantly decreases wall-clock training time. GIST seeks to enable large-scale GCN experimentation with the goal of bridging the existing gap in scale between graph machine learning and deep learning.
翻訳日:2021-02-24 07:55:18 公開日:2021-02-20
# (参考訳) 強化学習における環境設計の重要性 : ロボット環境に関する研究 [全文訳有]

Importance of Environment Design in Reinforcement Learning: A Study of a Robotic Environment ( http://arxiv.org/abs/2102.10447v1 )

ライセンス: CC BY 4.0
M\'onika Farsang and Luca Szegletes(参考訳) 特定の環境の深い理解は強化学習(RL)において重要である。 この課題に対処するために,マルコフ決定プロセス(MDP)フレームワークをモデルとした移動ロボットアシスタントの意思決定プロセスについて検討した。 MDPの最適状態-作用結合は非線形ベルマン最適方程式で計算される。 この方程式系はWolfram Mathematicaの計算力によって比較的容易に解くことができ、そこで得られる最適作用値の結果は最適政策を指し示す。 他のRLアルゴリズムとは異なり、この手法は最適挙動を近似せず、正確な明確な解を提供し、我々の研究に強力な基礎を与える。 これにより、RLの行動選択メカニズムを理解するための新しい洞察を提供します。 ロボット環境の分析では, 異なる最適方針を導くような, まったく同じスキーマ上で, 様々な小さな修正を提示する。 最後に、効率的なRLアルゴリズムを構築すること以外に、環境の適切な設計だけが望ましい結果を保証することを強調する。

An in-depth understanding of the particular environment is crucial in reinforcement learning (RL). To address this challenge, the decision-making process of a mobile collaborative robotic assistant modeled by the Markov decision process (MDP) framework is studied in this paper. The optimal state-action combinations of the MDP are calculated with the non-linear Bellman optimality equations. This system of equations can be solved with relative ease by the computational power of Wolfram Mathematica, where the obtained optimal action-values results point to the optimal policy. Unlike other RL algorithms, this methodology does not approximate the optimal behavior, it provides the exact, explicit solution, which provides a strong foundation for our study. With this, we offer new insights into understanding the action selection mechanisms in RL. During the analysis of the robotic environment, we present various small modifications on the very same schema that lead to different optimal policies. Finally, we emphasize that beyond building efficient RL algorithms, only the proper design of the environment can ensure the desired results.
翻訳日:2021-02-24 07:34:16 公開日:2021-02-20
# (参考訳) 近位政策最適化における減衰クリッピング範囲 [全文訳有]

Decaying Clipping Range in Proximal Policy Optimization ( http://arxiv.org/abs/2102.10456v1 )

ライセンス: CC BY 4.0
M\'onika Farsang and Luca Szegletes(参考訳) PPO(Proximal Policy Optimization)は、強化学習において最も広く使用されているアルゴリズムの1つです。 その成功の鍵は、クリッピングメカニズムによる信頼できるポリシー更新と、ミニバッチ更新の複数のエポックである。 この研究の目的は、新しいシンプルで効果的な代替手段を提供することです。 そこで本研究では,訓練中,直線的かつ指数関数的に縮小するクリップング範囲アプローチを提案する。 これらにより、学習フェーズの終わりに、始めにより高い探索とより強い制限を提供したいと考えています。 我々は,いくつかの古典的制御と機関車ロボット環境における性能について検討した。 分析の結果,多くの強化学習タスクにおいて,達成した報酬に影響を与え,一定のクリッピング法に代わる有効な方法であることが判明した。

Proximal Policy Optimization (PPO) is among the most widely used algorithms in reinforcement learning, which achieves state-of-the-art performance in many challenging problems. The keys to its success are the reliable policy updates through the clipping mechanism and the multiple epochs of minibatch updates. The aim of this research is to give new simple but effective alternatives to the former. For this, we propose linearly and exponentially decaying clipping range approaches throughout the training. With these, we would like to provide higher exploration at the beginning and stronger restrictions at the end of the learning phase. We investigate their performance in several classical control and locomotive robotic environments. During the analysis, we found that they influence the achieved rewards and are effective alternatives to the constant clipping method in many reinforcement learning tasks.
翻訳日:2021-02-24 07:26:48 公開日:2021-02-20
# (参考訳) 重尾勾配の近位政策最適化について

On Proximal Policy Optimization's Heavy-tailed Gradients ( http://arxiv.org/abs/2102.10264v1 )

ライセンス: CC BY 4.0
Saurabh Garg, Joshua Zhanson, Emilio Parisotto, Adarsh Prasad, J. Zico Kolter, Sivaraman Balakrishnan, Zachary C. Lipton, Ruslan Salakhutdinov and Pradeep Ravikumar(参考訳) 現代のポリシーグラデーションアルゴリズム、特にPPO(Proximal Policy Optimization)は、学習を成功させるために、損失クリッピングと勾配クリッピングを含むヒューリスティックの武器に依存しています。 これらのヒューリスティックはロバストな統計学の手法を想起させるもので、通常、外向きの「重み付き」("heavy-tailed")レジームの推定に用いられる。 本稿では、PPOサーロゲート報酬関数の勾配の重尾特性を特徴づける詳細な実証的研究について述べる。 本研究では,特にアクターネットワークにおいて,エージェントの行動方針が行動方針から逸脱するにつれて,エージェントの行動方針が変化していくにつれて,その勾配が顕著に高くなることを示す。 さらなる検査は、観察された重尾の主な原因として、代理報酬の確率比と利点を暗示する。 次に,勾配の重み付き性質によって生じる問題を強調する。 この光では、標準的なPPOクリッピングヒューリスティックの効果を研究し、これらのトリックが主に勾配の重尾を相殺するのに役立つことを実証する。 そこで,3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。 ハイパーパラメータチューニングは少ないが,MuJoCo連続制御タスクのバッテリ上でのPPO(すべてのヒューリスティックを有効化)の性能にマッチする。

Modern policy gradient algorithms, notably Proximal Policy Optimization (PPO), rely on an arsenal of heuristics, including loss clipping and gradient clipping, to ensure successful learning. These heuristics are reminiscent of techniques from robust statistics, commonly used for estimation in outlier-rich ("heavy-tailed") regimes. In this paper, we present a detailed empirical study to characterize the heavy-tailed nature of the gradients of the PPO surrogate reward function. We demonstrate that the gradients, especially for the actor network, exhibit pronounced heavy-tailedness and that it increases as the agent's policy diverges from the behavioral policy (i.e., as the agent goes further off policy). Further examination implicates the likelihood ratios and advantages in the surrogate reward as the main sources of the observed heavy-tailedness. We then highlight issues arising due to the heavy-tailed nature of the gradients. In this light, we study the effects of the standard PPO clipping heuristics, demonstrating that these tricks primarily serve to offset heavy-tailedness in gradients. Thus motivated, we propose incorporating GMOM, a high-dimensional robust estimator, into PPO as a substitute for three clipping tricks. Despite requiring less hyperparameter tuning, our method matches the performance of PPO (with all heuristics enabled) on a battery of MuJoCo continuous control tasks.
翻訳日:2021-02-24 06:37:04 公開日:2021-02-20
# (参考訳) gmlight:幾何分布近似による照明推定 [全文訳有]

GMLight: Lighting Estimation via Geometric Distribution Approximation ( http://arxiv.org/abs/2102.10244v1 )

ライセンス: CC BY 4.0
Fangneng Zhan, Yingchen Yu, Rongliang Wu, Changgong Zhang, Shijian Lu, Ling Shao, Feiying Ma, Xuansong Xie(参考訳) 単一の画像からの照明推定は、コンピュータビジョンとコンピュータグラフィックスにおいて不可欠かつ困難な作業です。 既存の作業では、代表的な照明パラメータを回帰したり、照明マップを直接生成することで照明を推定する。 しかし、これらの手法はしばしば精度や一般化に欠ける。 本稿では,レグレッションネットワークを用いた照明推定フレームワークであるgemetry mover's light (gmlight) と,効率的な照明推定のための生成プロジェクタを提案する。 幾何学的な光の分布、光強度、周囲条件、および補助深さの点から照明シーンをパラメータ化し、純粋な回帰タスクとして推定します。 地中移動子の距離にインスパイアされて、光分布パラメータの正確な回帰を導くために、新しい幾何学的移動子の損失を設計する。 推定照明パラメータを用いて、生成プロジェクタはパノラマ照明マップを現実的な外観と周波数で合成する。 幅広い実験により、GMLightは正確な照明推定と3Dオブジェクト挿入のためのリライトにおける優れた忠実度を実現します。

Lighting estimation from a single image is an essential yet challenging task in computer vision and computer graphics. Existing works estimate lighting by regressing representative illumination parameters or generating illumination maps directly. However, these methods often suffer from poor accuracy and generalization. This paper presents Geometric Mover's Light (GMLight), a lighting estimation framework that employs a regression network and a generative projector for effective illumination estimation. We parameterize illumination scenes in terms of the geometric light distribution, light intensity, ambient term, and auxiliary depth, and estimate them as a pure regression task. Inspired by the earth mover's distance, we design a novel geometric mover's loss to guide the accurate regression of light distribution parameters. With the estimated lighting parameters, the generative projector synthesizes panoramic illumination maps with realistic appearance and frequency. Extensive experiments show that GMLight achieves accurate illumination estimation and superior fidelity in relighting for 3D object insertion.
翻訳日:2021-02-24 05:04:34 公開日:2021-02-20
# (参考訳) 概念的物体検出 [全文訳有]

Concealed Object Detection ( http://arxiv.org/abs/2102.10274v1 )

ライセンス: CC BY 4.0
Deng-Ping Fan, Ge-Peng Ji, Ming-Ming Cheng, Ling Shao(参考訳) 本研究では,その背景に「完全に」埋め込まれた物体を識別することを目的とした,隠れ物体検出(cod)に関する最初の体系的研究を行う。 隠された目的と背景間の高い本質的な類似性は従来の目的の検出/区分よりはるかに困難にします。 このタスクをよりよく理解するために、78のオブジェクトカテゴリから、隠蔽されたオブジェクトをカバーする1万の画像からなる大規模なデータセットCOD10Kを収集します。 さらに、オブジェクトカテゴリ、オブジェクトバウンダリ、チャレンジング属性、オブジェクトレベルのラベル、インスタンスレベルのアノテーションなど、豊富なアノテーションを提供します。 COD10Kは、これまでで最大のCODデータセットであり、最もリッチなアノテーションにより、包括的な隠蔽オブジェクト理解を可能にし、検出、セグメンテーション、分類などの他の視覚タスクの進行にも使用できます。 動物が野生で狩猟する方法に動機づけられて、我々はまた、検索識別ネットワーク(SINet)と呼ばれるCODのためのシンプルで強力なベースラインを設計します。 sinetは、すべてのデータセットで12の最先端ベースラインを上回っており、codにおける今後の研究の触媒となるような、堅牢で一般的なアーキテクチャになっている。 最後に、いくつかの興味深い発見を提供し、潜在的なアプリケーションと今後の方向性を強調します。 この新分野の研究をきっかけに、私たちのコード、データセット、オンラインデモがプロジェクトページで公開されています。

We present the first systematic study on concealed object detection (COD), which aims to identify objects that are "perfectly" embedded in their background. The high intrinsic similarities between the concealed objects and their background make COD far more challenging than traditional object detection/segmentati on. To better understand this task, we collect a large-scale dataset, called COD10K, which consists of 10,000 images covering concealed objects in diverse real-world scenarios from 78 object categories. Further, we provide rich annotations including object categories, object boundaries, challenging attributes, object-level labels, and instance-level annotations. Our COD10K is the largest COD dataset to date, with the richest annotations, which enables comprehensive concealed object understanding and can even be used to help progress several other vision tasks, such as detection, segmentation, classification, etc. Motivated by how animals hunt in the wild, we also design a simple but strong baseline for COD, termed the Search Identification Network (SINet). Without any bells and whistles, SINet outperforms 12 cutting-edge baselines on all datasets tested, making them robust, general architectures that could serve as catalysts for future research in COD. Finally, we provide some interesting findings and highlight several potential applications and future directions. To spark research in this new field, our code, dataset, and online demo are available on our project page: http://mmcheng.net/c od.
翻訳日:2021-02-24 04:47:28 公開日:2021-02-20
# (参考訳) EMDS-5:複数画像解析タスクのための環境微生物画像データセット第5版 [全文訳有]

EMDS-5: Environmental Microorganism Image Dataset Fifth Version for Multiple Image Analysis Tasks ( http://arxiv.org/abs/2102.10370v1 )

ライセンス: CC BY 4.0
Zihan Li, Chen Li, Yudong Yao, Jinghua Zhang, Md Mamunur Rahaman, Hao Xu, Frank Kulwa, Bolin Lu, Xuemin Zhu, Tao Jiang(参考訳) 環境微生物データセット第5版(EMDS-5)は、オリジナルの環境微生物(EM)画像と2組の地上真実(GT)画像を含む顕微鏡画像データセットです。 GT画像セットは、単目的GT画像セットと多目的GT画像セットとを含む。 EMDS-5データセットには21種類のEMがあり、それぞれが20個のオリジナルEMイメージ、20個のシングルオブジェクトGTイメージ、20個のマルチオブジェクトGTイメージを含んでいる。 EMDS-5は、画像前処理、画像分割、特徴抽出、画像分類、画像検索機能を評価することができる。 emds-5の有効性を証明するために,各関数に対して最も代表的なアルゴリズムと価格指標を選択し,その評価を行った。 画像前処理関数は、画像デノイジングと画像エッジ検出の2つの部分を含む。 Image Denoisingは9種類のフィルタを使って、それぞれ13種類のノイズを識別する。 エッジ検出の面では、画像のエッジを検出するために6つのエッジ検出オペレータが使用され、ノイズ比と平均構造類似性に対するピーク信号の2つの評価指標が評価に使用されます。 画像セグメンテーションは、単目的画像セグメンテーションと多目的画像セグメンテーションを含む。 K平均とU-netは多目的セグメンテーションに使用され、EMDS-5の画像から9つの特徴を抽出し、Support Vector Machine分類器を用いてテストする。 画像分類に関して、異なる分類器をテストするためにVGG16機能を選択する。 テクスチャ特徴検索とディープラーニング特徴検索の2つのタイプの検索手法をテストする。 これら2つのディープラーニングネットワークの最終層を特徴ベクトルとして選択する。 検索評価指標として平均精度を用いた。

Environmental Microorganism Data Set Fifth Version (EMDS-5) is a microscopic image dataset including original Environmental Microorganism (EM) images and two sets of Ground Truth (GT) images. The GT image sets include a single-object GT image set and a multi-object GT image set. The EMDS-5 dataset has 21 types of EMs, each of which contains 20 original EM images, 20 single-object GT images and 20 multi-object GT images. EMDS-5 can realize to evaluate image preprocessing, image segmentation, feature extraction, image classification and image retrieval functions. In order to prove the effectiveness of EMDS-5, for each function, we select the most representative algorithms and price indicators for testing and evaluation. The image preprocessing functions contain two parts: image denoising and image edge detection. Image denoising uses nine kinds of filters to denoise 13 kinds of noises, respectively. In the aspect of edge detection, six edge detection operators are used to detect the edges of the images, and two evaluation indicators, peak-signal to noise ratio and mean structural similarity, are used for evaluation. Image segmentation includes single-object image segmentation and multi-object image segmentation. Six methods are used for single-object image segmentation, while k-means and U-net are used for multi-object segmentation.We extract nine features from the images in EMDS-5 and use the Support Vector Machine classifier for testing. In terms of image classification, we select the VGG16 feature to test different classifiers. We test two types of retrieval approaches: texture feature retrieval and deep learning feature retrieval. We select the last layer of features of these two deep learning networks as feature vectors. We use mean average precision as the evaluation index for retrieval.
翻訳日:2021-02-24 03:56:35 公開日:2021-02-20
# (参考訳) pet画像とct画像の併用による頭頸部原発腫瘍の自動切除法の検討 [全文訳有]

Squeeze-and-Excitati on Normalization for Automated Delineation of Head and Neck Primary Tumors in Combined PET and CT Images ( http://arxiv.org/abs/2102.10446v1 )

ライセンス: CC BY 4.0
Andrei Iantsen, Dimitris Visvikis, Mathieu Hatt(参考訳) 医用画像分割のための堅牢で正確な完全自動化手法の開発は,臨床および放射線医学研究において重要である。 本研究では、MICCAI 2020 Head and Neck Tumor segmentation Challenge (HECKTOR) の文脈において、ポジトロン放射トモグラフィ/計算トモグラフィ(PET/CT)画像を組み合わせることで、ヘッドアンドネック(H&N)プライマリ腫瘍セグメンテーション(H&N)の自動アプローチに貢献した。 残層を持つU-Netアーキテクチャを設計し,Squeeze-and-Excitat ion Normalizationを補足した。 提案手法は,異なるセンターで実施したクロスバリデーション (dsc 0.745, precision 0.760, recall 0.789) とテストセット (dsc 0.759, precision 0.833, recall 0.740) において,21チーム中21チームがヘクターチャレンジで優勝した。 PyTorchとトレーニングされたモデルに基づく完全な実装はhttps://github.com/i antsen/hecktorで公開されている。

Development of robust and accurate fully automated methods for medical image segmentation is crucial in clinical practice and radiomics studies. In this work, we contributed an automated approach for Head and Neck (H&N) primary tumor segmentation in combined positron emission tomography / computed tomography (PET/CT) images in the context of the MICCAI 2020 Head and Neck Tumor segmentation challenge (HECKTOR). Our model was designed on the U-Net architecture with residual layers and supplemented with Squeeze-and-Excitati on Normalization. The described method achieved competitive results in cross-validation (DSC 0.745, precision 0.760, recall 0.789) performed on different centers, as well as on the test set (DSC 0.759, precision 0.833, recall 0.740) that allowed us to win first prize in the HECKTOR challenge among 21 participating teams. The full implementation based on PyTorch and the trained models are available at https://github.com/i antsen/hecktor
翻訳日:2021-02-24 03:44:25 公開日:2021-02-20
# (参考訳) テディ・セイデンフェルトが提唱した独立概念について

On a notion of independence proposed by Teddy Seidenfeld ( http://arxiv.org/abs/2102.10342v1 )

ライセンス: CC BY 4.0
Jasper De Bock and Gert de Cooman(参考訳) テディ・サイデンフェルド(teddy seidenfeld)は、二項選好モデルは不確定性や不確定性の多くの重要な側面に対処できるほど強力ではないと長い間主張してきた。 いわゆる望ましい選択肢集合の研究に着手し、他の場所では、不確実性の下で、汎用的、二項的、非バイナリ的、意思決定を扱うためのエレガントで強力なアプローチを提供してきた、と彼は主張している。 このアプローチは、最初にセイデンフェルトによって提案された、(凸)バイナリの選好に基づくいくつかの特定の決定方法論の批判の例で、無関係(および独立)の興味深い概念を探求するためにここに使用します。 このような無関係や独立性評価を行うことの結果は、非常に強く、いわゆる混合選択関数やe-許容性(e-acmissibility)を決定スキームとして用いるために使われる可能性がある。

Teddy Seidenfeld has been arguing for quite a long time that binary preference models are not powerful enough to deal with a number of crucial aspects of imprecision and indeterminacy in uncertain inference and decision making. It is at his insistence that we initiated our study of so-called sets of desirable option sets, which we have argued elsewhere provides an elegant and powerful approach to dealing with general, binary as well as non-binary, decision-making under uncertainty. We use this approach here to explore an interesting notion of irrelevance (and independence), first suggested by Seidenfeld in an example intended as a criticism of a number of specific decision methodologies based on (convex) binary preferences. We show that the consequences of making such an irrelevance or independence assessment are very strong, and might be used to argue for the use of so-called mixing choice functions, and E-admissibility as the resulting decision scheme.
翻訳日:2021-02-23 20:48:10 公開日:2021-02-20
# (参考訳) 教育可能な会話エージェントを目指して [全文訳有]

Towards Teachable Conversational Agents ( http://arxiv.org/abs/2102.10387v1 )

ライセンス: CC BY 4.0
Nalin Chhibber, Edith Law(参考訳) 対話型機械学習システムを構築する従来のプロセスは、機械教師が1人以上の人間教師によって訓練される教師と教師の相互作用シナリオと見なすことができます。 本研究では,人間-教師と対話型機械学習者とのインタラクションを,対話型インタフェースを用いて検討する。 具体的には、学習可能なAIエージェントが会話インタラクションを通じて人間-教師から確実に学習できるかどうか、そしてこの学習が従来の教師付き学習アルゴリズムとどのように比較できるかを検討する。 その結果,対話型エージェントの概念を検証し,対話型インタラクションから学習しようとする機械学習システムの開発に関連する要因を明らかにする。

The traditional process of building interactive machine learning systems can be viewed as a teacher-learner interaction scenario where the machine-learners are trained by one or more human-teachers. In this work, we explore the idea of using a conversational interface to investigate the interaction between human-teachers and interactive machine-learners. Specifically, we examine whether teachable AI agents can reliably learn from human-teachers through conversational interactions, and how this learning compare with traditional supervised learning algorithms. Results validate the concept of teachable conversational agents and highlight the factors relevant for the development of machine learning systems that intend to learn from conversational interactions.
翻訳日:2021-02-23 20:47:10 公開日:2021-02-20
# (参考訳) インスタンス転送学習による汎用性とロバストな過渡安定性評価 [全文訳有]

Versatile and Robust Transient Stability Assessment via Instance Transfer Learning ( http://arxiv.org/abs/2102.10296v1 )

ライセンス: CC BY 4.0
Seyedali Meghdadi, Guido Tack, Ariel Liebman, Nicolas Langren\'e, Christoph Bergmeir(参考訳) 本稿では,N-1前過渡安定性評価を支援するために,パワーシステムダイナミクスの知識を取り入れたデータ駆動アルゴリズムを用いた新たなデータ収集手法を提案する。 ネットワークの障害位置から他の部分への障害効果の伝播に関するドメイン知識は、システムの安定性を決定する支配的な条件を認識するために活用される。 そこで我々は,不安定領域に関する重要な情報を提供する断層影響領域という新しい概念を紹介した。 この情報は拡張データセットに埋め込まれ、インスタンス転送学習フレームワークを使用してアンサンブルモデルをトレーニングする。 IEEE 39-busシステムにおけるテスト結果から,従来は見つからなかった運用シナリオの安定性を正確に予測し,不安定なインスタンスの誤予測のリスクを低減できることを確認した。

To support N-1 pre-fault transient stability assessment, this paper introduces a new data collection method in a data-driven algorithm incorporating the knowledge of power system dynamics. The domain knowledge on how the disturbance effect will propagate from the fault location to the rest of the network is leveraged to recognise the dominant conditions that determine the stability of a system. Accordingly, we introduce a new concept called Fault-Affected Area, which provides crucial information regarding the unstable region of operation. This information is embedded in an augmented dataset to train an ensemble model using an instance transfer learning framework. The test results on the IEEE 39-bus system verify that this model can accurately predict the stability of previously unseen operational scenarios while reducing the risk of false prediction of unstable instances compared to standard approaches.
翻訳日:2021-02-23 19:27:11 公開日:2021-02-20
# (参考訳) 歌声音声認識における音源特徴の活用 [全文訳有]

The Use of Voice Source Features for Sung Speech Recognition ( http://arxiv.org/abs/2102.10376v1 )

ライセンス: CC BY 4.0
Gerardo Roa Dabike, Jon Barker(参考訳) 本稿では, 発声音源の特徴(ピッチ, シャッター, ジッタなど)が, 自動発声音声認識の性能を向上させることができるかどうかを問う。 まず, 歌唱音声コーパス (nus-48e) を用いて, ピッチ範囲, 音節長, ビブラート, ジッター, シマーなど, 歌唱音声の特徴の違いを示す。 次に,この分析を用いて,歌唱音声dsingコーパスの音声認識実験を行い,アート音響モデルの状況と,各種音源パラメータを用いた従来の特徴の強化を行った。 実験は、DSing1 (15.1時間)、DSing3 (44.7時間)、DSing30 (149.1時間)の3つの標準訓練セットで実施されている。 発声度と組み合わせることで、DSing1のトレーニングではWERが38.1%から36.7%に大幅に減少するが、より多彩なDSing3とDSing30のトレーニングでは統計的に有意ではない。 音声品質特性は認識性能を改善しなかったが、音声/無声音素対の区別の改善に寄与することが分析によって示唆された。

In this paper, we ask whether vocal source features (pitch, shimmer, jitter, etc) can improve the performance of automatic sung speech recognition, arguing that conclusions previously drawn from spoken speech studies may not be valid in the sung speech domain. We first use a parallel singing/speaking corpus (NUS-48E) to illustrate differences in sung vs spoken voicing characteristics including pitch range, syllables duration, vibrato, jitter and shimmer. We then use this analysis to inform speech recognition experiments on the sung speech DSing corpus, using a state of the art acoustic model and augmenting conventional features with various voice source parameters. Experiments are run with three standard (increasingly large) training sets, DSing1 (15.1 hours), DSing3 (44.7 hours) and DSing30 (149.1 hours). Pitch combined with degree of voicing produces a significant decrease in WER from 38.1% to 36.7% when training with DSing1 however smaller decreases in WER observed when training with the larger more varied DSing3 and DSing30 sets were not seen to be statistically significant. Voicing quality characteristics did not improve recognition performance although analysis suggests that they do contribute to an improved discrimination between voiced/unvoiced phoneme pairs.
翻訳日:2021-02-23 19:19:18 公開日:2021-02-20
# (参考訳) WaNet -- 受け入れ難いワープベースのバックドア攻撃 [全文訳有]

WaNet -- Imperceptible Warping-based Backdoor Attack ( http://arxiv.org/abs/2102.10369v1 )

ライセンス: CC BY 4.0
Anh Nguyen, Anh Tran(参考訳) ディープラーニングの繁栄と事前訓練されたネットワークの使用の広範な実践により、バックドア攻撃は近年多くの研究の関心を引くセキュリティの脅威となっています。 サードパーティーのモデルは、通常の状況でうまく機能するようにトレーニング中に毒を盛るが、トリガーパターンが現れると悪質に振る舞う。 しかし、既存のバックドア攻撃はすべてノイズの摂動トリガーに基づいており、人間に顕著です。 本稿では,ワーピングに基づくトリガーの使用を提案する。 提案したバックドアは、人間の検査試験における従来の方法よりも広いマージンで優れており、そのステルス性を証明している。 このようなモデルをマシンディフェンダーによって検出不能にするために, ``noise mode" と呼ばれる新しいトレーニングモードを提案する。 訓練されたネットワークは、MNIST、CIFAR-10、GTSRB、CelebAといった標準分類データセットの最先端の防衛手法を攻撃および回避することに成功している。 行動分析により,我々のバックドアはネットワーク検査に透過的であり,この新たな攻撃機構の効率性がさらに証明された。

With the thriving of deep learning and the widespread practice of using pre-trained networks, backdoor attacks have become an increasing security threat drawing many research interests in recent years. A third-party model can be poisoned in training to work well in normal conditions but behave maliciously when a trigger pattern appears. However, the existing backdoor attacks are all built on noise perturbation triggers, making them noticeable to humans. In this paper, we instead propose using warping-based triggers. The proposed backdoor outperforms the previous methods in a human inspection test by a wide margin, proving its stealthiness. To make such models undetectable by machine defenders, we propose a novel training mode, called the ``noise mode. The trained networks successfully attack and bypass the state-of-the-art defense methods on standard classification datasets, including MNIST, CIFAR-10, GTSRB, and CelebA. Behavior analyses show that our backdoors are transparent to network inspection, further proving this novel attack mechanism's efficiency.
翻訳日:2021-02-23 18:45:47 公開日:2021-02-20
# (参考訳) CrowdsensingとFederated Learning: プライバシー保護されたモバイルCrowdsensingシステム [全文訳有]

When Crowdsensing Meets Federated Learning: Privacy-Preserving Mobile Crowdsensing System ( http://arxiv.org/abs/2102.10109v1 )

ライセンス: CC BY 4.0
Bowen Zhao, Ximeng Liu, Wei-neng Chen(参考訳) モバイルクラウドセンシング(MCS)は、スケーラビリティ、デプロイメントコストの低減、分散特性を備えた、新たなセンシングデータ収集パターンである。 従来のMCSシステムはプライバシーの懸念と公正な報酬分配に苦しんでいます。 さらに、既存のプライバシー保護MCSソリューションは、通常、データ処理ではなく、データ収集のプライバシー保護に焦点を当てています。 本稿では,MLSの課題に対処するため,フェデレートラーニング(FL)をMCSに統合し,プライバシ保護型MCSシステムである「textsc{CrowdFL}」を提案する。 具体的には、プライバシーを保護するために、参加者は連合学習を通じてローカルにセンシングデータを処理し、暗号化されたトレーニングモデルのみをアップロードする。 特に,平均暗号化トレーニングモデルに対して,プライバシ保存型フェデレーション平均化アルゴリズムを提案する。 落下した参加者を抑える際の計算および通信オーバーヘッドを低減するため、廃棄・再送戦略を設計する。 さらに、プライバシー保護の投稿価格インセンティブメカニズムが設計されており、プライバシー保護とデータ評価のジレンマを打破しようとします。 実用MCSアプリケーションの理論的解析と実験的評価により,提案した‘textsc{CrowdFL}’は,参加者のプライバシを効果的に保護し,有効かつ効果的であることを示す。

Mobile crowdsensing (MCS) is an emerging sensing data collection pattern with scalability, low deployment cost, and distributed characteristics. Traditional MCS systems suffer from privacy concerns and fair reward distribution. Moreover, existing privacy-preserving MCS solutions usually focus on the privacy protection of data collection rather than that of data processing. To tackle faced problems of MCS, in this paper, we integrate federated learning (FL) into MCS and propose a privacy-preserving MCS system, called \textsc{CrowdFL}. Specifically, in order to protect privacy, participants locally process sensing data via federated learning and only upload encrypted training models. Particularly, a privacy-preserving federated averaging algorithm is proposed to average encrypted training models. To reduce computation and communication overhead of restraining dropped participants, discard and retransmission strategies are designed. Besides, a privacy-preserving posted pricing incentive mechanism is designed, which tries to break the dilemma of privacy protection and data evaluation. Theoretical analysis and experimental evaluation on a practical MCS application demonstrate the proposed \textsc{CrowdFL} can effectively protect participants privacy and is feasible and efficient.
翻訳日:2021-02-23 18:07:53 公開日:2021-02-20
# (参考訳) 分子コンフォメーション生成のための学習神経生成ダイナミクス [全文訳有]

Learning Neural Generative Dynamics for Molecular Conformation Generation ( http://arxiv.org/abs/2102.10240v1 )

ライセンス: CC BY 4.0
Minkai Xu, Shitong Luo, Yoshua Bengio, Jian Peng, Jian Tang(参考訳) 分子配座を生成する方法(\textit{i.e。 }、分子グラフからの3D構造)。 分子動力学のような従来の方法、計算的に高価なシミュレーションによるサンプルのコンフォーメーション。 近年,大量のコンフォーメーションデータのトレーニングによって,機械学習の手法は大きな可能性を秘めている。 コンフォーメーションの複雑な分布を捉えるための限られたモデル能力と、原子間の長距離依存性のモデリングが困難であることから、課題が生じます。 本論文では,近年の深層生成モデルの発展に触発されて,分子グラフから有効かつ多様なコンフォーメーションを生成する新しい確率論的枠組みを提案する。 本研究では,フローベースモデルとエネルギーベースモデルの両方の利点を組み合わせた手法を提案する。(1)マルチモーダルコンフォーメーション分布を推定する高いモデル容量,(2)観測空間内の原子間の複雑な長距離依存性を明示的に把握する。 分子コンフォメーションサンプリングのための既存の生成モデルよりも大幅に改善され、コンフォメーション生成や距離モデリングタスクを含むいくつかのベンチマークにおいて提案手法の優れた性能を示す。

We study how to generate molecule conformations (\textit{i.e.}, 3D structures) from a molecular graph. Traditional methods, such as molecular dynamics, sample conformations via computationally expensive simulations. Recently, machine learning methods have shown great potential by training on a large collection of conformation data. Challenges arise from the limited model capacity for capturing complex distributions of conformations and the difficulty in modeling long-range dependencies between atoms. Inspired by the recent progress in deep generative models, in this paper, we propose a novel probabilistic framework to generate valid and diverse conformations given a molecular graph. We propose a method combining the advantages of both flow-based and energy-based models, enjoying: (1) a high model capacity to estimate the multimodal conformation distribution; (2) explicitly capturing the complex long-range dependencies between atoms in the observation space. Extensive experiments demonstrate the superior performance of the proposed method on several benchmarks, including conformation generation and distance modeling tasks, with a significant improvement over existing generative models for molecular conformation sampling.
翻訳日:2021-02-23 17:07:16 公開日:2021-02-20
# (参考訳) すべてが相対的: 最適輸送による公平性を理解する [全文訳有]

Everything is Relative: Understanding Fairness with Optimal Transport ( http://arxiv.org/abs/2102.10349v1 )

ライセンス: CC BY 4.0
Kweku Kwegyir-Aggrey, Rebecca Santorella, Sarah M. Brown(参考訳) 自動意思決定システムにおける差別を研究するために、学者は公正性の定義をいくつか提案し、それぞれが異なる公正な理想を表現している。 これらの定義は、検出された不公平の構造を説明するのではなく、システムが公平または不公平であるため、どの概念を採用するかについて複雑な決定を下す必要があり、実際には使用が困難であることが多い。 ペアの成果を互いに比較することにより,バイアスとその構造を解釈可能かつ定量に探索する,公平性に対する最適なトランスポートベースアプローチを提案する。 本研究では, 最適な輸送地図を用いて, 個人, サブグループ, グループ公平性を検討する。 我々のフレームワークは、アルゴリズムによる差別のよく知られた例を復元し、他の指標が失敗したときの不公平さを検知し、レコメンデーションの機会を探ることができる。

To study discrimination in automated decision-making systems, scholars have proposed several definitions of fairness, each expressing a different fair ideal. These definitions require practitioners to make complex decisions regarding which notion to employ and are often difficult to use in practice since they make a binary judgement a system is fair or unfair instead of explaining the structure of the detected unfairness. We present an optimal transport-based approach to fairness that offers an interpretable and quantifiable exploration of bias and its structure by comparing a pair of outcomes to one another. In this work, we use the optimal transport map to examine individual, subgroup, and group fairness. Our framework is able to recover well known examples of algorithmic discrimination, detect unfairness when other metrics fail, and explore recourse opportunities.
翻訳日:2021-02-23 16:38:28 公開日:2021-02-20
# (参考訳) ヘロンのトレーニング方法 [全文訳有]

How To Train Your HERON ( http://arxiv.org/abs/2102.10357v1 )

ライセンス: CC BY 4.0
Antoine Richard, Stephanie Aravecchia, Thomas Schillaci, Matthieu Geist, Cedric Pradalier(参考訳) 本稿では、Deep Reinforcement Learning(Deep RL)とDomain Randomizationを適用し、2Dレーザースキャナーのみに依存する自然環境でのナビゲーションタスクを解決する。 シミュレーションでモデルベースのRLエージェントを訓練し、湖岸や河川岸を追従し、ゼロショット設定で本物の無人サーフェス車両に適用します。 私たちは、エージェントが現実世界で訓練されていないにもかかわらず、そのタスクを成功裏に達成し、ロボットの環境とダイナミクスの変化に適応できることを示しています。 最後に、RLエージェントがステートアウェアなModel-Predictive-Con trollerよりも堅牢で高速で正確であることを示します。

In this paper we apply Deep Reinforcement Learning (Deep RL) and Domain Randomization to solve a navigation task in a natural environment relying solely on a 2D laser scanner. We train a model-based RL agent in simulation to follow lake and river shores and apply it on a real Unmanned Surface Vehicle in a zero-shot setup. We demonstrate that even though the agent has not been trained in the real world, it can fulfill its task successfully and adapt to changes in the robot's environment and dynamics. Finally, we show that the RL agent is more robust, faster, and more accurate than a state-aware Model-Predictive-Con troller.
翻訳日:2021-02-23 16:23:21 公開日:2021-02-20
# VisualGPT:事前学習による視覚入力と言語知識のバランスによるデータ効率のよい画像キャプション

VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and Linguistic Knowledge from Pretraining ( http://arxiv.org/abs/2102.10407v1 )

ライセンス: Link先を確認
Jun Chen, Han Guo, Kai Yi, Boyang Li, Mohamed Elhoseiny(参考訳) 本稿では,画像キャプションのデータ効率を改善することを目的とする。 大規模学習言語モデル(LM)の言語知識を活用した,データ効率の高い画像キャプションモデルであるVisualGPTを提案する。 画像における視覚情報の利用とプリトレーニングから得られた以前の言語知識のバランスをとることが重要な課題であり、少量のインドメイントレーニングデータにプリトレーニングされたLMを言語デコーダとして迅速に適応する新しい自己回復型エンコーダデコーダ注意メカニズムを設計しました。 pro-posed self-rerecting activation unitはスパースアクティベーションを生成するが、勾配がゼロになることはない。 MSCOCOとコンセプチュアルキャプションの0.1%、0.5%、1%でトレーニングすると、提案されたモデルVisualGPTは強力なイメージキャプションベースラインを超えます。 VisualGPTは、MS COCOで最大10.8%のCIDEr、コンセプチュアルキャプションで最大5.4%のCIDErで最高のベースラインモデルを超え、また、各システムコンポーネントの有用性を定量化する一連のアブレーション研究を行っています。 私たちの知る限りでは、ユニモーダルデータで事前トレーニングされたlmを利用することで、画像キャプションのデータ効率を向上させる最初の作業です。 コードはhttps://github.com/V ision-CAIR/VisualGPT で入手できます。

In this paper, we aim to improve the data efficiency of image captioning. We propose VisualGPT, a data-efficient image captioning model that leverages the linguistic knowledge from a large pretrained language model (LM). A crucial challenge is to balance between the use of visual information in the image and prior linguistic knowledge acquired from pretraining.We designed a novel self-resurrecting encoder-decoder attention mechanism to quickly adapt the pretrained LM as the language decoder on a small amount of in-domain training data. The pro-posed self-resurrecting activation unit produces sparse activations but is not susceptible to zero gradients. When trained on 0.1%, 0.5% and 1% of MSCOCO and Conceptual Captions, the proposed model, VisualGPT, surpasses strong image captioning baselines. VisualGPT outperforms the best baseline model by up to 10.8% CIDEr on MS COCO and up to 5.4% CIDEr on Conceptual Captions.We also perform a series of ablation studies to quantify the utility of each system component. To the best of our knowledge, this is the first work that improves data efficiency of image captioning by utilizing LM pretrained on unimodal data. Our code is available at: https://github.com/V ision-CAIR/VisualGPT .
翻訳日:2021-02-23 15:29:32 公開日:2021-02-20
# 対話システムの自動評価に向けて:モデルフリーのオフポリシ評価手法

Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach ( http://arxiv.org/abs/2102.10242v1 )

ライセンス: Link先を確認
Haoming Jiang, Bo Dai, Mengjiao Yang, Wei Wei, Tuo Zhao(参考訳) 対話環境下での対話システムの信頼性の高い自動評価は長らく遅れてきました。 対話システムを評価するための理想的な環境、別名チューリングテストは、通常大規模な実験のために手頃な価格である人間の相互作用を含む必要があります。 研究者は、言語生成タスクやいくつかのモデルに基づく強化学習手法(例えば、自己評価)にメトリクス(例えば、パープレキシティ、BLEU)を自動評価に利用しようとしたが、これらの手法は実際の人間の評価と非常に弱い相関しか示さなかった。 このようなギャップを埋めるために,強化学習におけるオフポリシー評価の最近の進歩に基づいて,人間評価スコアを推定するフレームワークenigmaを提案する。 ENIGMAは、事前に収集された少数の経験データのみを必要とするため、評価中にターゲットポリシーとの人間の相互作用を含まず、自動評価が可能です。 さらに重要なのは、ENIGMAは、複雑な対話環境や人間の振る舞いをモデル化することの技術的困難を著しく軽減する経験データ収集の行動ポリシーに無関係である(第2節の細部を参照)。 実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。

Reliable automatic evaluation of dialogue systems under an interactive environment has long been overdue. An ideal environment for evaluating dialog systems, also known as the Turing test, needs to involve human interaction, which is usually not affordable for large-scale experiments. Though researchers have attempted to use metrics (e.g., perplexity, BLEU) in language generation tasks or some model-based reinforcement learning methods (e.g., self-play evaluation) for automatic evaluation, these methods only show a very weak correlation with the actual human evaluation in practice. To bridge such a gap, we propose a new framework named ENIGMA for estimating human evaluation scores based on recent advances of off-policy evaluation in reinforcement learning. ENIGMA only requires a handful of pre-collected experience data, and therefore does not involve human interaction with the target policy during the evaluation, making automatic evaluations feasible. More importantly, ENIGMA is model-free and agnostic to the behavior policies for collecting the experience data (see details in Section 2), which significantly alleviates the technical difficulties of modeling complex dialogue environments and human behaviors. Our experiments show that ENIGMA significantly outperforms existing methods in terms of correlation with human evaluation scores.
翻訳日:2021-02-23 15:29:05 公開日:2021-02-20
# インド語の効率的なテキスト分類のための注意アンサンブルアプローチ

An Attention Ensemble Approach for Efficient Text Classification of Indian Languages ( http://arxiv.org/abs/2102.10275v1 )

ライセンス: Link先を確認
Atharva Kulkarni, Amey Hengle, Rutuja Udyawar(参考訳) 最近の複雑な注意に基づくディープラーニングアーキテクチャの台頭は、英語における様々な下流のNLPタスクで並外れた結果をもたらしました。 しかし、このような資源制約と形態学的に豊かなインド言語の研究は比較的限られたものとなっている。 本稿では,Devanagariスクリプトベースのインドの言語であるMarathiにおける短文文書の粗粒度の技術的ドメイン識別に焦点を当てた,TechDOfication 2020 subtask-1fに対するSPPU\_AKAHのソリューションを提供する。 大規模なデータセットを用いて、畳み込みニューラルネットワークによって生成された中間文表現と双方向の長期メモリを有能に組み合わせたハイブリッドCNN-BiLSTMアテンションアンサンブルモデルを提案し、効率的なテキスト分類を実現します。 実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57\%,f1スコア0.8875の検証精度が得られた。 さらに、このソリューションは、このサブタスクの最良のシステム提案となり、テスト精度が64.26\%、f1-scoreが0.0157となり、他のチームのパフォーマンスと共有タスクのオーガナイザによって与えられたベースラインシステムを超えた。

The recent surge of complex attention-based deep learning architectures has led to extraordinary results in various downstream NLP tasks in the English language. However, such research for resource-constrained and morphologically rich Indian vernacular languages has been relatively limited. This paper proffers team SPPU\_AKAH's solution for the TechDOfication 2020 subtask-1f: which focuses on the coarse-grained technical domain identification of short text documents in Marathi, a Devanagari script-based Indian language. Availing the large dataset at hand, a hybrid CNN-BiLSTM attention ensemble model is proposed that competently combines the intermediate sentence representations generated by the convolutional neural network and the bidirectional long short-term memory, leading to efficient text classification. Experimental results show that the proposed model outperforms various baseline machine learning and deep learning models in the given task, giving the best validation accuracy of 89.57\% and f1-score of 0.8875. Furthermore, the solution resulted in the best system submission for this subtask, giving a test accuracy of 64.26\% and f1-score of 0.6157, transcending the performances of other teams as well as the baseline system given by the organizers of the shared task.
翻訳日:2021-02-23 15:28:26 公開日:2021-02-20
# 因果政策の勾配

Causal Policy Gradients ( http://arxiv.org/abs/2102.10362v1 )

ライセンス: Link先を確認
Thomas Spooner, Nelson Vadori, Sumitra Ganesh(参考訳) ポリシー勾配法は複雑なタスクを解決できるが、アクション空間や客観的な多重性の次元が大きくなると失敗することが多い。 これは、スコアベースの勾配推定器のばらつきが目標数と2次的にスケールするためである。 本稿では,新たな行動目標影響ネットワークで符号化された独立構造を利用する因果ベースラインを提案する。 主要な最先端のアルゴリズムを分析するための共通のフレームワークを提供する因果的政策勾配(CPG)は、伝統的な政策勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。 提案した推定値の分析を行い、ばらつきの改善が保証される条件を特定します。 CPGのアルゴリズム的側面についても論じられ、最適政策因数分解、その複雑さ、非常に大きな並行タスクに効率的にスケールするための条件付けの使用などが議論されている。 このアルゴリズムの2つの変種の性能上の利点は,大規模バンディットとコンカレント在庫管理の問題で実証された。

Policy gradient methods can solve complex tasks but often fail when the dimensionality of the action-space or objective multiplicity grow very large. This occurs, in part, because the variance on score-based gradient estimators scales quadratically with the number of targets. In this paper, we propose a causal baseline which exploits independence structure encoded in a novel action-target influence network. Causal policy gradients (CPGs), which follow, provide a common framework for analysing key state-of-the-art algorithms, are shown to generalise traditional policy gradients, and yield a principled way of incorporating prior knowledge of a problem domain's generative processes. We provide an analysis of the proposed estimator and identify the conditions under which variance is guaranteed to improve. The algorithmic aspects of CPGs are also discussed, including optimal policy factorisations, their complexity, and the use of conditioning to efficiently scale to extremely large, concurrent tasks. The performance advantages for two variants of the algorithm are demonstrated on large-scale bandit and concurrent inventory management problems.
翻訳日:2021-02-23 15:27:27 公開日:2021-02-20
# モデル診断メタラーニングにおける高速対比ロバストネス適応について

On Fast Adversarial Robustness Adaptation in Model-Agnostic Meta-Learning ( http://arxiv.org/abs/2102.10454v1 )

ライセンス: Link先を確認
Ren Wang, Kaidi Xu, Sijia Liu, Pin-Yu Chen, Tsui-Wei Weng, Chuang Gan, Meng Wang(参考訳) モデルに依存しないメタラーニング(MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。 モデルパラメータ(メタモデルと呼ぶ)のメタ初期化を学習し、少量のラベル付きトレーニングデータを使用して新しいタスクに迅速に適応することができます。 メタモデルの一般化力にもかかわらず、マルチショット学習においてMDLがいかに敵対的堅牢性を維持することができるかは明らかではない。 一般化に加えて、敵の例(攻撃)を守るメタモデルにもロバスト性が望まれる。 本研究は,MAMLが2段階(微調整とメタ更新)の学習手順を採用することを踏まえ,まず,WHENに頑健な正規化を取り入れるべきであることを考察する。 メタ更新段階のロバスト化は,タスク固有の微調整段階に適合するロバスト性を実現するのに十分であることを示す。 また、ニューロンの活性化マップの解釈可能性を調べることにより、獲得したロバスト性適応をさらに正当化する。 さらに、MAMLで効率的に設計できる堅牢な正規化について検討します。 本稿では,ラベルなしデータ拡張,高速な攻撃生成,計算量軽微な微調整を可能にする,汎用的かつ最適化が容易なロバストネス正規化メタラーニングフレームワークを提案する。 特に、我々は初めて、補助コントラスト学習タスクがMMLの敵対的堅牢性を高めることができることを示しています。 最後に,頑健な数発学習における提案手法の有効性を実証するために,広範な実験を行った。

Model-agnostic meta-learning (MAML) has emerged as one of the most successful meta-learning techniques in few-shot learning. It enables us to learn a meta-initialization} of model parameters (that we call meta-model) to rapidly adapt to new tasks using a small amount of labeled training data. Despite the generalization power of the meta-model, it remains elusive that how adversarial robustness can be maintained by MAML in few-shot learning. In addition to generalization, robustness is also desired for a meta-model to defend adversarial examples (attacks). Toward promoting adversarial robustness in MAML, we first study WHEN a robustness-promoting regularization should be incorporated, given the fact that MAML adopts a bi-level (fine-tuning vs. meta-update) learning procedure. We show that robustifying the meta-update stage is sufficient to make robustness adapted to the task-specific fine-tuning stage even if the latter uses a standard training protocol. We also make additional justification on the acquired robustness adaptation by peering into the interpretability of neurons' activation maps. Furthermore, we investigate HOW robust regularization can efficiently be designed in MAML. We propose a general but easily-optimized robustness-regulariz ed meta-learning framework, which allows the use of unlabeled data augmentation, fast adversarial attack generation, and computationally-ligh t fine-tuning. In particular, we for the first time show that the auxiliary contrastive learning task can enhance the adversarial robustness of MAML. Finally, extensive experiments are conducted to demonstrate the effectiveness of our proposed methods in robust few-shot learning.
翻訳日:2021-02-23 15:26:11 公開日:2021-02-20
# ドキュメント・レベル関係抽出のための心的依存のモデル化

Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction ( http://arxiv.org/abs/2102.10249v1 )

ライセンス: Link先を確認
Benfeng Xu, Quan Wang, Yajuan Lyu, Yong Zhu, Zhendong Mao(参考訳) 関係抽出タスクの必須要素としての実体は、特定の構造を示す。 本研究では,言及対間の特異な依存性のような構造を定式化する。 次に,これらの構造的依存関係を標準自己保持機構と全符号化段階に組み込んだSSANを提案する。 具体的には,注意の流れを適応的に定式化するために,各自着型ビルディングブロック内に2つの代替変換モジュールを設計し,注意バイアスを生成する。 本実験では,提案された実体構造の有用性およびSSANの有効性を示す。 競争ベースラインを大きく上回り、3つの人気のある文書レベルの関係抽出データセットで新たな最先端結果を達成する。 さらに,エンティティ構造がモデルをどのように導くかを示すために,アブレーションと可視化を提供する。 コードは公開されています。

Entities, as the essential elements in relation extraction tasks, exhibit certain structure. In this work, we formulate such structure as distinctive dependencies between mention pairs. We then propose SSAN, which incorporates these structural dependencies within the standard self-attention mechanism and throughout the overall encoding stage. Specifically, we design two alternative transformation modules inside each self-attention building block to produce attentive biases so as to adaptively regularize its attention flow. Our experiments demonstrate the usefulness of the proposed entity structure and the effectiveness of SSAN. It significantly outperforms competitive baselines, achieving new state-of-the-art results on three popular document-level relation extraction datasets. We further provide ablation and visualization to show how the entity structure guides the model for better relation extraction. Our code is publicly available.
翻訳日:2021-02-23 15:23:45 公開日:2021-02-20
# NUBOT: ローマ・ウルドゥー語でセマンティックなインテント応答を生成するためのRASAフレームワークを組み込んだ知識グラフ

NUBOT: Embedded Knowledge Graph With RASA Framework for Generating Semantic Intents Responses in Roman Urdu ( http://arxiv.org/abs/2102.10410v1 )

ライセンス: Link先を確認
Johar Shabbir, Muhammad Umair Arshad, Waseem Shahzad(参考訳) 人間の言語の理解は、意図と実体を特定することによって定量化される。 ラベル付き情報に依存する分類手法は、言語理解の理解によく用いられるが、高い広義の教師付きデータセットを生成するのに非常に時間がかかり、面倒なプロセスである。 本稿では,対応するローマ・ウルドゥ非構造化データの正確なインテントの生成と,このコーパスをrasa nluモジュールに統合してインテント分類を行う。 RASA Frameworkにナレッジグラフを組み込んで、チャットボット通信のセマンティックベースの自然言語メカニズムのダイアログ履歴を維持します。 既存の言語システムとセマンティック技術を組み合わせた研究結果を比較します。 インテント生成の最小精度は64%であり、応答生成部では最小精度は82.1%、最大精度は96.7%である。 すべてのスコアは、かつて要約された各インテントのログ精度、リコール、f1測度を指します。 さらに、どの意図があいまいにアプローチによって認識されるかを表す混乱行列を作成する。

The understanding of the human language is quantified by identifying intents and entities. Even though classification methods that rely on labeled information are often used for the comprehension of language understanding, it is incredibly time consuming and tedious process to generate high propensity supervised datasets. In this paper, we present the generation of accurate intents for the corresponding Roman Urdu unstructured data and integrate this corpus in RASA NLU module for intent classification. We embed knowledge graph with RASA Framework to maintain the dialog history for semantic based natural language mechanism for chatbot communication. We compare results of our work with existing linguistic systems combined with semantic technologies. Minimum accuracy of intents generation is 64 percent of confidence and in the response generation part minimum accuracy is 82.1 percent and maximum accuracy gain is 96.7 percent. All the scores refers to log precision, recall, and f1 measure for each intents once summarized for all. Furthermore, it creates a confusion matrix represents that which intents are ambiguously recognized by approach.
翻訳日:2021-02-23 15:23:31 公開日:2021-02-20
# 小児のMycoplasma Pneumoniae pneumoniaの人工知能による迅速かつ効率的な診断

Artificial Intelligence Enhanced Rapid and Efficient Diagnosis of Mycoplasma Pneumoniae Pneumonia in Children Patients ( http://arxiv.org/abs/2102.10284v1 )

ライセンス: Link先を確認
Chenglin Pan, Kuan Yan, Xiao Liu, Yanjie Chen, Yanyan Luo, Xiaoming Li, Zhenguo Nie, Xinjun Liu(参考訳) 人工知能の手法は、病気の診断と管理において潜在的に強力なツールになりつつある。 本研究では, 小児患者において, ロジスティック回帰(LR), 決定木(DT), グラジエントブースト決定木(GBDT), サポートベクターマシン(SVM), 多層パーセプトロン(MLP)を機械学習モデルとして利用し, マイコプラズマ肺炎(MPP)を迅速に診断した。 mppデータセットに前処理手順を適用して分類処理を行った。 最も効率的な結果はGBDTによって得られる。 93.7%の精度で最高の性能を提供します。 標準の生の機能重み付けとは対照的に、特徴の重要性は特徴の基本的な相関構造を考慮に入れます。 GBDTの最も重要な特徴は、0.5925のスコアを持つ「肺浸潤範囲」であり、「cough」(0.0953)と「pleural effusion」(0.0492)が続く。 データセットとトレーニングモデルの完全な実装をhttps://github.com/z henguonie/2021_ai4mp pで公開しています。

Artificial intelligence methods have been increasingly turning into a potentially powerful tool in the diagnosis and management of diseases. In this study, we utilized logistic regression (LR), decision tree (DT), gradient boosted decision tree (GBDT), support vector machine (SVM), and multilayer perceptron (MLP) as machine learning models to rapidly diagnose the mycoplasma pneumoniae pneumonia (MPP) in children patients. The classification task was carried out after applying the preprocessing procedure to the MPP dataset. The most efficient results are obtained by GBDT. It provides the best performance with an accuracy of 93.7%. In contrast to standard raw feature weighting, the feature importance takes the underlying correlation structure of the features into account. The most crucial feature of GBDT is the "pulmonary infiltrates range" with a score of 0.5925, followed by "cough" (0.0953) and "pleural effusion" (0.0492). We publicly share our full implementation with the dataset and trained models at https://github.com/z henguonie/2021_AI4MP P.
翻訳日:2021-02-23 15:19:41 公開日:2021-02-20
# 強化学習における一般化の価値と政策の分離

Decoupling Value and Policy for Generalization in Reinforcement Learning ( http://arxiv.org/abs/2102.10330v1 )

ライセンス: Link先を確認
Roberta Raileanu, Rob Fergus(参考訳) 標準深層強化学習アルゴリズムは、ポリシーと値関数の共有表現を使用する。 しかし, 最適方針を学習するよりも, 価値関数を正確に推定するためには, より多くの情報が必要である。 したがって、ポリシーと値関数に対する共有表現の使用は、過度に適合する可能性がある。 この問題を解決するために、IDAACを作成するために結合された2つのアプローチを提案します。 まず、IDAACはポリシーと値関数の最適化を分離し、個別のネットワークを使ってモデル化する。 第二に、環境のタスク関連プロパティに不変であるように表現を奨励する補助損失を導入する。 IDAACは、目に見えない環境に良い一般化を示し、Procgenベンチマークで新しい最先端を実現し、イントラクタでDeepMind Controlタスクで一般的なメソッドを上回ります。 さらに、IDAACは、環境の基本的な状態を変えない観察の美的変化に対してより堅牢な表現、価値予測、ポリシーを学びます。

Standard deep reinforcement learning algorithms use a shared representation for the policy and value function. However, we argue that more information is needed to accurately estimate the value function than to learn the optimal policy. Consequently, the use of a shared representation for the policy and value function can lead to overfitting. To alleviate this problem, we propose two approaches which are combined to create IDAAC: Invariant Decoupled Advantage Actor-Critic. First, IDAAC decouples the optimization of the policy and value function, using separate networks to model them. Second, it introduces an auxiliary loss which encourages the representation to be invariant to task-irrelevant properties of the environment. IDAAC shows good generalization to unseen environments, achieving a new state-of-the-art on the Procgen benchmark and outperforming popular methods on DeepMind Control tasks with distractors. Moreover, IDAAC learns representations, value predictions, and policies that are more robust to aesthetic changes in the observations that do not change the underlying state of the environment.
翻訳日:2021-02-23 15:19:21 公開日:2021-02-20
# CDA: コスト効率の高いコンテンツベースの多言語Webドキュメントアグリゲーナ

CDA: a Cost Efficient Content-based Multilingual Web Document Aligner ( http://arxiv.org/abs/2102.10246v1 )

ライセンス: Link先を確認
Thuy Vu and Alessandro Moschitti(参考訳) 産業レベルで動作する機械翻訳(mt)システムの並列学習データを作成する際に,コンテンツに基づく多言語web文書のアライメントを効率的に行うためのcda(content-based document alignment approach)を提案する。 CDAは2つのステップで機能する: (i) Webドメインのドキュメントを共有多言語空間に投影し、 (ii) それらの表現の類似性に基づいてそれらを整列する。 我々はtf-idfを用いたベクトル表現構築に語彙翻訳モデルを利用する。 CDAは、多言語空間で動作しながら、WMT-16バイリンガル文書アライメント共有タスクベンチマークにおける最先端システムに匹敵する性能を達成する。 さらに、28の言語と数百万のドキュメントを含む産業環境でcdaの堅牢性を調べるために、2つのwebスケールデータセットを作成しました。 実験によれば、cdaは堅牢でコスト効率が高く、(i)大規模でノイズの多いwebデータの処理や(ii)新しくて低リソースな言語へのスケーリングにおいて著しく優れている。

We introduce a Content-based Document Alignment approach (CDA), an efficient method to align multilingual web documents based on content in creating parallel training data for machine translation (MT) systems operating at the industrial level. CDA works in two steps: (i) projecting documents of a web domain to a shared multilingual space; then (ii) aligning them based on the similarity of their representations in such space. We leverage lexical translation models to build vector representations using TF-IDF. CDA achieves performance comparable with state-of-the-art systems in the WMT-16 Bilingual Document Alignment Shared Task benchmark while operating in multilingual space. Besides, we created two web-scale datasets to examine the robustness of CDA in an industrial setting involving up to 28 languages and millions of documents. The experiments show that CDA is robust, cost-effective, and is significantly superior in (i) processing large and noisy web data and (ii) scaling to new and low-resourced languages.
翻訳日:2021-02-23 15:17:30 公開日:2021-02-20
# 多変量時系列分類のための弾性類似性尺度

Elastic Similarity Measures for Multivariate Time Series Classification ( http://arxiv.org/abs/2102.10231v1 )

ライセンス: Link先を確認
Ahmed Shifaz, Charlotte Pelletier, Francois Petitjean, Geoffrey I. Webb(参考訳) 弾性類似度測定は、時系列データで動作するように特別に設計された類似度測定のクラスです。 2つの時系列の類似性をスコアすると、タイムスタンプに一致しない点を並べることができる。 これは時系列データの時間軸におけるミスアライメントや、変化と異なるペースで進行する類似のプロセスに補償することができる。 弾性類似度測定は、時系列データを使用する際に、分類、クラスタリング、外れ値検出などの機械学習タスクで広く使用される。 様々な単変量弾性類似度尺度に関する数多くの研究がある。 しかし、よく知られたDynamic Time Warping(DTW)の多変量バージョンを除いて、多変量ケースの他の類似度尺度を一般化する作業は不足している。 本稿では,多変量 DTW における2つの既存の戦略,すなわち Independent と Dependent DTW を,いくつかの一般的な弾性類似度尺度に適応する。 東アングリア大学(uea)の多変量アーカイブ(multivariate archive)の23のデータセットを用いて、各指標が少なくとも1つのデータセットで他のすべての指標よりも優れており、すべての尺度の従属バージョンが独立した尺度よりも正確であるか、あるいはその逆であることを示す。 後者の発見は、これらの違いがデータの基本的な特性から生じることを示唆している。 また,このような最寄りの分類器のアンサンブルが,他の最先端の多変量時系列分類器と高い競合性を示す。

Elastic similarity measures are a class of similarity measures specifically designed to work with time series data. When scoring the similarity between two time series, they allow points that do not correspond in timestamps to be aligned. This can compensate for misalignments in the time axis of time series data, and for similar processes that proceed at variable and differing paces. Elastic similarity measures are widely used in machine learning tasks such as classification, clustering and outlier detection when using time series data. There is a multitude of research on various univariate elastic similarity measures. However, except for multivariate versions of the well known Dynamic Time Warping (DTW) there is a lack of work to generalise other similarity measures for multivariate cases. This paper adapts two existing strategies used in multivariate DTW, namely, Independent and Dependent DTW, to several commonly used elastic similarity measures. Using 23 datasets from the University of East Anglia (UEA) multivariate archive, for nearest neighbour classification, we demonstrate that each measure outperforms all others on at least one dataset and that there are datasets for which either the dependent versions of all measures are more accurate than their independent counterparts or vice versa. This latter finding suggests that these differences arise from a fundamental property of the data. We also show that an ensemble of such nearest neighbour classifiers is highly competitive with other state-of-the-art multivariate time series classifiers.
翻訳日:2021-02-23 15:16:14 公開日:2021-02-20
# Rademacher複雑性によるグラフ畳み込みニューラルネットワークの一般化境界

Generalization bounds for graph convolutional neural networks via Rademacher complexity ( http://arxiv.org/abs/2102.10234v1 )

ライセンス: Link先を確認
Shaogao Lv(参考訳) 本論文では,単一の隠れ層を持つGCNモデルに対して,Rademacherの複雑性の高い上限を提供することにより,グラフ畳み込みネットワーク(GCN)のサンプル複雑性を検討する。 正則性条件下では、これらの複雑性境界はグラフ畳み込みフィルタの最大固有値とグラフの次数分布に明示的に依存する。 繰り返しますが、GCNが派生した上界の最適性を示すために、Rademacherの複雑さの低い境界を提供します。 代表的な例として,グラフ畳み込みフィルタをグラフ分布として設計する際の結果の影響について考察する。

This paper aims at studying the sample complexity of graph convolutional networks (GCNs), by providing tight upper bounds of Rademacher complexity for GCN models with a single hidden layer. Under regularity conditions, theses derived complexity bounds explicitly depend on the largest eigenvalue of graph convolution filter and the degree distribution of the graph. Again, we provide a lower bound of Rademacher complexity for GCNs to show optimality of our derived upper bounds. Taking two commonly used examples as representatives, we discuss the implications of our results in designing graph convolution filters an graph distribution.
翻訳日:2021-02-23 15:15:52 公開日:2021-02-20
# ntreeclus: カテゴリ系列をクラスタリングするツリーベースのシーケンスエンコーダ

nTreeClus: a Tree-based Sequence Encoder for Clustering Categorical Series ( http://arxiv.org/abs/2102.10252v1 )

ライセンス: Link先を確認
Hadi Jahanshahi and Mustafa Gokce Baydogan(参考訳) 多様な領域におけるカテゴリ/シーケンスデータの圧倒的存在は、シーケンスマイニングの重要性を強調している。 シーケンスの困難な性質は、(dis)類似性をよりよく理解するより正確で高速なアプローチを見つけるために、研究を続ける必要性を証明している。 本稿では,nTreeClusというクラスタリングシーケンスデータに対するモデルに基づく新しいアプローチを提案する。 提案手法では,木に基づく学習者,k-mer,自動回帰モデルを分類時系列に展開し,分類系列の数値表現を新たに行う。 この新しい表現を採用することで、分類的時系列に固有のパターンを考慮し、シーケンスをクラスタ化する。 したがって、モデルはパラメータに堅牢性を示した。 異なるシミュレートシナリオの下で、nTreeClusは、それぞれ10.7%と2.7%の様々な内部および外部クラスタ検証メトリクスのベースラインメソッドを改善した。 合成および実際のデータセット、タンパク質配列、カテゴリー時系列を用いた経験的評価は、nTreeClusが最先端のアルゴリズムよりも競合的あるいは優れていることを示した。

The overwhelming presence of categorical/sequenti al data in diverse domains emphasizes the importance of sequence mining. The challenging nature of sequences proves the need for continuing research to find a more accurate and faster approach providing a better understanding of their (dis)similarities. This paper proposes a new Model-based approach for clustering sequence data, namely nTreeClus. The proposed method deploys Tree-based Learners, k-mers, and autoregressive models for categorical time series, culminating with a novel numerical representation of the categorical sequences. Adopting this new representation, we cluster sequences, considering the inherent patterns in categorical time series. Accordingly, the model showed robustness to its parameter. Under different simulated scenarios, nTreeClus improved the baseline methods for various internal and external cluster validation metrics for up to 10.7% and 2.7%, respectively. The empirical evaluation using synthetic and real datasets, protein sequences, and categorical time series showed that nTreeClus is competitive or superior to most state-of-the-art algorithms.
翻訳日:2021-02-23 15:15:40 公開日:2021-02-20
# Retrain or not retrain: Conformal test martingales for change-point detection

Retrain or not retrain: Conformal test martingales for change-point detection ( http://arxiv.org/abs/2102.10439v1 )

ライセンス: Link先を確認
Vladimir Vovk, Ivan Petej, Ilia Nouretdinov, Ernst Ahlberg, Lars Carlsson, and Alex Gammerman(参考訳) 我々は,データ分布とアルゴリズムの再学習が必要なタイミングを検出するためのスキームを設定することで,予測アルゴリズムの学習過程を補うことを主張する。 私たちの提案するスキームは、交換可能なマーチンゲール、すなわちデータの交換可能な分配の下でマーチンゲールであるプロセスに基づいています。 本手法は, 共形予測に基づく手法が一般的であり, 現代の予測アルゴリズムでも適用可能である。 その妥当性は保証されており,本稿ではその効率性を探るための第一歩を踏み出す。

We argue for supplementing the process of training a prediction algorithm by setting up a scheme for detecting the moment when the distribution of the data changes and the algorithm needs to be retrained. Our proposed schemes are based on exchangeability martingales, i.e., processes that are martingales under any exchangeable distribution for the data. Our method, based on conformal prediction, is general and can be applied on top of any modern prediction algorithm. Its validity is guaranteed, and in this paper we make first steps in exploring its efficiency.
翻訳日:2021-02-23 15:15:23 公開日:2021-02-20
# GroupifyVAE:グループベースの定義からVAEベースのUnsupervised Representation Disentanglementへ

GroupifyVAE: from Group-based Definition to VAE-based Unsupervised Representation Disentanglement ( http://arxiv.org/abs/2102.10303v1 )

ライセンス: Link先を確認
Tao Yang, Xuanchi Ren, Yuwang Wang, Wenjun Zeng, Nanning Zheng, Pengju Ren(参考訳) 最先端のVAEベースの非監視表現解束法の鍵となるアイデアは、潜在変数分布の総相関を最小化することである。 しかし、他の誘導バイアスを導入しないと、VAEベースの非監視的束縛は達成できないことが証明されている。 本稿では,グループ理論に基づく定義から導かれる制約を非確率的帰納的バイアスとして活用し,vaeに基づく教師なし不連続性に対処する。 より具体的には、n番目の二面体群(正規多角形の置換群)に触発され、その定義の特定の形式を提案し、その2つの等価な条件を証明した:同型と「置換の定数」である。 さらに, 2 つの群制約(交換可能性に対する abel 制約と巡回性の順序制約)に基づく同型の実装も提供する。 次に、これらを、グループ理論に基づく定義からギャップを埋めるために、VAEベースのモデルに組み込むことができる自己指導型トレーニング損失に変換する。 提案手法の有効性を検証するために,5つのデータセット上で,vaeベースモデルが最も目立つ1800モデルをトレーニングした。 元のモデルと比較して、Groupidied VAEは一貫して小さなばらつきでより良い平均性能を達成し、意味のある寸法を制御可能にします。

The key idea of the state-of-the-art VAE-based unsupervised representation disentanglement methods is to minimize the total correlation of the latent variable distributions. However, it has been proved that VAE-based unsupervised disentanglement can not be achieved without introducing other inductive bias. In this paper, we address VAE-based unsupervised disentanglement by leveraging the constraints derived from the Group Theory based definition as the non-probabilistic inductive bias. More specifically, inspired by the nth dihedral group (the permutation group for regular polygons), we propose a specific form of the definition and prove its two equivalent conditions: isomorphism and "the constancy of permutations". We further provide an implementation of isomorphism based on two Group constraints: the Abel constraint for the exchangeability and Order constraint for the cyclicity. We then convert them into a self-supervised training loss that can be incorporated into VAE-based models to bridge their gaps from the Group Theory based definition. We train 1800 models covering the most prominent VAE-based models on five datasets to verify the effectiveness of our method. Compared to the original models, the Groupidied VAEs consistently achieve better mean performance with smaller variances, and make meaningful dimensions controllable.
翻訳日:2021-02-23 15:13:54 公開日:2021-02-20
# ニューラルネットワークサブスペースの学習

Learning Neural Network Subspaces ( http://arxiv.org/abs/2102.10472v1 )

ライセンス: Link先を確認
Mitchell Wortsman, Maxwell Horton, Carlos Guestrin, Ali Farhadi, Mohammad Rastegari(参考訳) 近年の観察により、ニューラルネットワーク最適化の展望の理解が深まり、(1)多様な解を含む高精度経路の存在、(2)性能向上のためのより広いミニマの存在が明らかになった。 様々な経路を観察する従来の方法は、複数の訓練を必要とする。 対照的に、私たちはプロパティ(1)と(2)の両方を単一の方法と単一のトレーニング実行で活用することを目指しています。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。 これらのニューラルネットワークサブスペースは、アンサンブル可能な多様なソリューションを含み、トレーニングコストなしで独立してトレーニングされたネットワークのアンサンブルパフォーマンスにアプローチする。 さらに、サブスペースミドルポイントを使用することで、精度、キャリブレーション、ロバスト性が向上し、Stochastic Weight Averagingよりも優れる。

Recent observations have advanced our understanding of the neural network optimization landscape, revealing the existence of (1) paths of high accuracy containing diverse solutions and (2) wider minima offering improved performance. Previous methods observing diverse paths require multiple training runs. In contrast we aim to leverage both property (1) and (2) with a single method and in a single training run. With a similar computational cost as training one model, we learn lines, curves, and simplexes of high-accuracy neural networks. These neural network subspaces contain diverse solutions that can be ensembled, approaching the ensemble performance of independently trained networks without the training cost. Moreover, using the subspace midpoint boosts accuracy, calibration, and robustness to label noise, outperforming Stochastic Weight Averaging.
翻訳日:2021-02-23 15:13:31 公開日:2021-02-20
# Trumpets:推論と逆問題のためのインジェクティブフロー

Trumpets: Injective Flows for Inference and Inverse Problems ( http://arxiv.org/abs/2102.10461v1 )

ライセンス: Link先を確認
Konik Kothari, AmirEhsan Khorashadizadeh, Maarten de Hoop, Ivan Dokmani\'c(参考訳) 非可逆正規化フローを一般化するTrumpetsと呼ばれる注射生成モデルを提案する。 提案する生成器は低次元の潜在空間から徐々に次元を増加させる。 我々は,トランペットを標準流よりも桁違いに訓練でき,同等あるいは優れた音質のサンプルが得られることを実証する。 最大可能性に基づくトレーニングや発電機の高速で正確な逆流など、標準フローの利点の多くを保持しています。 トランペットは射出性があり、高速な逆数を持つため、下流のベイズ推論に効果的に使用できる。 ここでは, 圧縮計測による画像再構成の文脈において, 最大後部推定にTrumpetプレジデントを用い, 再現品質と速度の点で, 競争ベースラインを上回った。 そこで我々は,低次元潜在空間を生かして,Trumpetを用いた後部評価と不確実性定量化の効率的な方法を提案する。

We propose injective generative models called Trumpets that generalize invertible normalizing flows. The proposed generators progressively increase dimension from a low-dimensional latent space. We demonstrate that Trumpets can be trained orders of magnitudes faster than standard flows while yielding samples of comparable or better quality. They retain many of the advantages of the standard flows such as training based on maximum likelihood and a fast, exact inverse of the generator. Since Trumpets are injective and have fast inverses, they can be effectively used for downstream Bayesian inference. To wit, we use Trumpet priors for maximum a posteriori estimation in the context of image reconstruction from compressive measurements, outperforming competitive baselines in terms of reconstruction quality and speed. We then propose an efficient method for posterior characterization and uncertainty quantification with Trumpets by taking advantage of the low-dimensional latent space.
翻訳日:2021-02-23 15:11:56 公開日:2021-02-20
# 特徴量に基づく動的価格設定における対数回帰

Logarithmic Regret in Feature-based Dynamic Pricing ( http://arxiv.org/abs/2102.10221v1 )

ライセンス: Link先を確認
Jianyu Xu and Yu-xiang Wang (Computer Science Department, UC Santa Barbara)(参考訳) 機能ベースの動的価格設定は、デジタルマーケティング、オンライン販売、不動産など、高度に差別化された製品の価格設定のモデルとして人気が高まっている。 この問題は、オンライン学習の問題として公式に研究され(Cohen et al., 2016; Javanmard & Nazerzadeh, 2019)、売り手は、最高の -- "万能" -- に対して小さな後悔をしながらも、その機能に基づいた一連のT$製品に対して、すぐに価格を提示する必要がある。 この問題を再検討し,確率的特徴設定と敵対的特徴設定のための2つのアルゴリズム(emlpとonsp)を提供し,両者に対して最適な$o(d\log{t})$ regretboundsを証明する。 比較すると、最良の既存の結果は $O\left(\min\left\{\frac{1}{\lambda_{\min}^2}\log{T}, \sqrt{T}\right\}\right)$ と $O(T^{2/3})$ であり、$\lambda_{\min}$ は $\mathbb{E}[xx^T]$ の最小固有値であり、$0$ に任意に近づくことができる。 また、より一般的な設定では、$\Omega(\sqrt{T})$ information-theoreti c lower bound を証明し、"knowing-the-demand-c urve" が機能ベースの動的価格を指数関数的に改善することを示した。

Feature-based dynamic pricing is an increasingly popular model of setting prices for highly differentiated products with applications in digital marketing, online sales, real estate and so on. The problem was formally studied as an online learning problem (Cohen et al., 2016; Javanmard & Nazerzadeh, 2019) where a seller needs to propose prices on the fly for a sequence of $T$ products based on their features $x$ while having a small regret relative to the best -- "omniscient" -- pricing strategy she could have come up with in hindsight. We revisit this problem and provide two algorithms (EMLP and ONSP) for stochastic and adversarial feature settings, respectively, and prove the optimal $O(d\log{T})$ regret bounds for both. In comparison, the best existing results are $O\left(\min\left\{\frac{1}{\lambda_{\min}^2}\log{T}, \sqrt{T}\right\}\right)$ and $O(T^{2/3})$ respectively, with $\lambda_{\min}$ being the smallest eigenvalue of $\mathbb{E}[xx^T]$ that could be arbitrarily close to $0$. We also prove an $\Omega(\sqrt{T})$ information-theoreti c lower bound for a slightly more general setting, which demonstrates that "knowing-the-demand-c urve" leads to an exponential improvement in feature-based dynamic pricing.
翻訳日:2021-02-23 15:10:51 公開日:2021-02-20
# ALMA: クラスタリング混合多層ネットワークのための交代最小化アルゴリズム

ALMA: Alternating Minimization Algorithm for Clustering Mixture Multilayer Network ( http://arxiv.org/abs/2102.10226v1 )

ライセンス: Link先を確認
Xing Fan, Marianna Pensky, Feng Yu, Teng Zhang(参考訳) 本論文では,Mixture Multilayer Stochastic Block Model (MMLSBM) について検討し,各グループのネットワークには異なるStochastic Block Model が設けられている。 目標は、多層ネットワークを同様のレイヤのクラスタに分割し、それらのレイヤ内のコミュニティを特定することだ。 Jing et al。 (2020)はMMLSBMを導入し、正規化テンソル分解に基づくクラスタリング手法TWISTを開発した。 本論文では, 層分割の同時回復を目的とした交互最小化アルゴリズム (ALMA) と, 異なる層間の接続確率の行列を推定する手法を提案する。 TWISTと比較して、ALMAは理論上も数値上も高い精度を達成する。

The paper considers a Mixture Multilayer Stochastic Block Model (MMLSBM), where layers can be partitioned into groups of similar networks, and networks in each group are equipped with a distinct Stochastic Block Model. The goal is to partition the multilayer network into clusters of similar layers, and to identify communities in those layers. Jing et al. (2020) introduced the MMLSBM and developed a clustering methodology, TWIST, based on regularized tensor decomposition. The present paper proposes a different technique, an alternating minimization algorithm (ALMA), that aims at simultaneous recovery of the layer partition, together with estimation of the matrices of connection probabilities of the distinct layers. Compared to TWIST, ALMA achieves higher accuracy both theoretically and numerically.
翻訳日:2021-02-23 15:10:19 公開日:2021-02-20
# 多クラス分類問題に対する階層の誘導

Inducing a hierarchy for multi-class classification problems ( http://arxiv.org/abs/2102.10263v1 )

ライセンス: Link先を確認
Hayden S. Helm, Weiwei Yang, Sujeeth Bharadwaj, Kate Lytvynets, Oriana Riva, Christopher White, Ali Geisa, Carey E. Priebe(参考訳) 分類的ラベルが自然な階層に従ったアプリケーションでは、ラベル構造を利用する分類方法は、そうでないものをしばしば上回る。 残念ながら、分類データセットの大部分は、階層構造と古典的なフラット分類器を事前に装備していない。 本稿では,フラット分類器に対する分類性能を向上できる階層構造を誘導する手法のクラスについて検討する。 メソッドのクラスは、条件分布を最初にクラスタリングし、次に誘導階層を持つ階層型分類器を使用する構造に従う。 原理シミュレーションと3つの実データアプリケーションにおいて、潜入階層の発見と精度向上のためのメソッドのクラスの有効性を実証する。

In applications where categorical labels follow a natural hierarchy, classification methods that exploit the label structure often outperform those that do not. Un-fortunately, the majority of classification datasets do not come pre-equipped with a hierarchical structure and classical flat classifiers must be employed. In this paper, we investigate a class of methods that induce a hierarchy that can similarly improve classification performance over flat classifiers. The class of methods follows the structure of first clustering the conditional distributions and subsequently using a hierarchical classifier with the induced hierarchy. We demonstrate the effectiveness of the class of methods both for discovering a latent hierarchy and for improving accuracy in principled simulation settings and three real data applications.
翻訳日:2021-02-23 15:10:08 公開日:2021-02-20
# 深いガウスニューラルネットのための大幅機能的漸近

Large-width functional asymptotics for deep Gaussian neural networks ( http://arxiv.org/abs/2102.10307v1 )

ライセンス: Link先を確認
Daniele Bracale, Stefano Favaro, Sandra Fortini, Stefano Peluchetti(参考訳) 本稿では,重みとバイアスが独立かつガウス分布に等しく分布する完全連結型フィードフォワード深層ニューラルネットワークについて検討する。 以前の結果(Matthews et al., 2018a;b; Yang, 2019)を拡張するために、関数空間の視点を採用している。 ニューラルネットワークを入力空間 $\mathbb{r}^i$ 上の無限次元ランダム要素として捉える。 i) 入力空間上の連続ガウス過程を定義する: $\mathbb{R}^I$; ii) 再スケールした重みを持つネットワークは、大幅極限における連続ガウス過程に弱収束する; iii) 制限ガウス過程は、ほぼ確実に局所的に$\gamma$-H\"older連続経路を持ち、$0 < \gamma <1$である。 この結果は, 関数空間における弱収束性を確立することにより, 無限大の深層ニューラルネットワークとガウス過程の相互作用に関する最近の理論的研究に寄与する。

In this paper, we consider fully connected feed-forward deep neural networks where weights and biases are independent and identically distributed according to Gaussian distributions. Extending previous results (Matthews et al., 2018a;b; Yang, 2019) we adopt a function-space perspective, i.e. we look at neural networks as infinite-dimensional random elements on the input space $\mathbb{R}^I$. Under suitable assumptions on the activation function we show that: i) a network defines a continuous Gaussian process on the input space $\mathbb{R}^I$; ii) a network with re-scaled weights converges weakly to a continuous Gaussian process in the large-width limit; iii) the limiting Gaussian process has almost surely locally $\gamma$-H\"older continuous paths, for $0 < \gamma <1$. Our results contribute to recent theoretical studies on the interplay between infinitely wide deep neural networks and Gaussian processes by establishing weak convergence in function-space with respect to a stronger metric.
翻訳日:2021-02-23 15:09:59 公開日:2021-02-20
# Webからの自動トレーニングデータ選択による機械翻訳のカスタマイズ

Machine Translation Customization via Automatic Training Data Selection from the Web ( http://arxiv.org/abs/2102.10243v1 )

ライセンス: Link先を確認
Thuy Vu and Alessandro Moschitti(参考訳) 特に産業環境向けに設計された機械翻訳(MT)システムは、Webから派生した一般的な並列データで訓練されます。 したがって、それらのスタイルは一般に、多くのドメインの平均から来る単語/構造分布によって駆動される。 対照的に、mtの顧客は翻訳を自分のドメインに特化したいと考えており、テキストサンプルを提供するのが一般的である。 対象の顧客データに類似したデータを選択して神経翻訳モデルを訓練することにより、特定のドメインでMTシステムをカスタマイズするアプローチについて説明します。 ユーザが提供するモノリンガルなターゲットデータを用いて文書分類器を構築し,Webクローリングデータから並列トレーニングデータを選択する。 最後に、自動選択したデータに基づいてMTモデルをトレーニングし、対象領域に特化したシステムを得る。 我々は、WMT-18翻訳タスクから、最新のMTシステムとの比較を可能にするベンチマークで、我々のアプローチを検証した。 その結果、データが少なくて小さいモデルを使用して、私たちのモデルはトップシステムよりも優れています。

Machine translation (MT) systems, especially when designed for an industrial setting, are trained with general parallel data derived from the Web. Thus, their style is typically driven by word/structure distribution coming from the average of many domains. In contrast, MT customers want translations to be specialized to their domain, for which they are typically able to provide text samples. We describe an approach for customizing MT systems on specific domains by selecting data similar to the target customer data to train neural translation models. We build document classifiers using monolingual target data, e.g., provided by the customers to select parallel training data from Web crawled data. Finally, we train MT models on our automatically selected data, obtaining a system specialized to the target domain. We tested our approach on the benchmark from WMT-18 Translation Task for News domains enabling comparisons with state-of-the-art MT systems. The results show that our models outperform the top systems while using less data and smaller models.
翻訳日:2021-02-23 15:06:12 公開日:2021-02-20
# 自動翻訳データによる多言語回答文の再評価

Multilingual Answer Sentence Reranking via Automatically Translated Data ( http://arxiv.org/abs/2102.10250v1 )

ライセンス: Link先を確認
Thuy Vu and Alessandro Moschitti(参考訳) 本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。 主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。 i) 対象言語に翻訳されたAS2のトレーニングデータは、その言語のためのトランスフォーマーベースモデルを効果的に微調整することができる; (ii) 複数言語での回答をランク付けするのに十分な1つの多言語トランスフォーマーモデル; (iii) 混合言語質問/回答ペアは、入力質問が1つの言語にある任意の言語から答えを選択するために、微調整モデルに使用できる。 これは多言語QAシステムの複雑さと技術的要求を著しく低減する。 実験では, 現状の英語モデルに関して, わずか3%の減少率を示し, 上述の知見を検証した。

We present a study on the design of multilingual Answer Sentence Selection (AS2) models, which are a core component of modern Question Answering (QA) systems. The main idea is to transfer data, created from one resource rich language, e.g., English, to other languages, less rich in terms of resources. The main findings of this paper are: (i) the training data for AS2 translated into a target language can be used to effectively fine-tune a Transformer-based model for that language; (ii) one multilingual Transformer model it is enough to rank answers in multiple languages; and (iii) mixed-language question/answer pairs can be used to fine-tune models to select answers from any language, where the input question is just in one language. This highly reduces the complexity and technical requirement of a multilingual QA system. Our experiments validate the findings above, showing a modest drop, at most 3%, with respect to the state-of-the-art English model.
翻訳日:2021-02-23 15:05:57 公開日:2021-02-20
# スキャンドファイナンシャル文書画像からの表検出と表データ抽出のためのディープ構造化機能ネットワーク

Deep Structured Feature Networks for Table Detection and Tabular Data Extraction from Scanned Financial Document Images ( http://arxiv.org/abs/2102.10287v1 )

ライセンス: Link先を確認
Siwen Luo, Mengting Wu, Yiwen Gong, Wanying Zhou, Josiah Poon(参考訳) pdf文書の自動テーブル検出は大きな成功を収めているが、検出されたテーブル領域の整合性とノイズ問題のために、表データ抽出は依然として困難である。 正確なデータ抽出は金融分野で極めて重要である。 このことから着想を得た本研究の目的は,財務用pdf文書からテーブルの自動検出と表データ抽出を提案することである。 本稿では,各ページ画像に特徴ピラミッドネットワーク(fpn)を付加した高速なr-cnnモデルによるテーブル領域の検出,光学的文字認識(ocr)に基づく複合レイアウトセグメンテーション手法によるコンテンツと構造抽出,テーブルヘッダ分離のための正規表現規則の定式化という,3つの主要なプロセスからなる手法を提案する。 表型データ抽出機能には、高度にスケーラブルなルールベースのフィルタリングと再構成機能が組み込まれている。 実験用のテーブル領域を備えた新たなFinancial Documentsデータセットをアノテートする。 提案したデータセットから,検出モデルの卓越したテーブル検出性能を得た。 本論文の主な貢献は,テーブル領域アノテーションを用いた財務文書データセットの提案,優れた検出モデル,pdfファイルからの表データ抽出のための規則に基づくレイアウト分割手法である。

Automatic table detection in PDF documents has achieved a great success but tabular data extraction are still challenging due to the integrity and noise issues in detected table areas. The accurate data extraction is extremely crucial in finance area. Inspired by this, the aim of this research is proposing an automated table detection and tabular data extraction from financial PDF documents. We proposed a method that consists of three main processes, which are detecting table areas with a Faster R-CNN (Region-based Convolutional Neural Network) model with Feature Pyramid Network (FPN) on each page image, extracting contents and structures by a compounded layout segmentation technique based on optical character recognition (OCR) and formulating regular expression rules for table header separation. The tabular data extraction feature is embedded with rule-based filtering and restructuring functions that are highly scalable. We annotate a new Financial Documents dataset with table regions for the experiment. The excellent table detection performance of the detection model is obtained from our customized dataset. The main contributions of this paper are proposing the Financial Documents dataset with table-area annotations, the superior detection model and the rule-based layout segmentation technique for the tabular data extraction from PDF files.
翻訳日:2021-02-23 15:05:37 公開日:2021-02-20
# クラスディスカッションにおける文脈引数成分分類

Contextual Argument Component Classification for Class Discussions ( http://arxiv.org/abs/2102.10290v1 )

ライセンス: Link先を確認
Luca Lugini, Diane Litman(参考訳) argument mining system はしばしば文脈情報、すなわち、文脈情報を考える。 引数成分の識別、分類、および関係抽出などのタスクを達成するために訓練されたとき、議論対話ユニット外の情報。 しかし、先行研究は文脈認識モデルにおける異なる文脈特性の有用性を慎重に分析していない。 本研究では,2種類の文脈情報(局所会話コンテキストと話者コンテキスト)を,マルチパーティの教室ディスカッションにおける引数コンポーネントを分類するための計算モデルに組み込む方法を示す。 いずれのコンテキストタイプもパフォーマンスを改善することができるが、改善はコンテキストサイズと位置に依存している。

Argument mining systems often consider contextual information, i.e. information outside of an argumentative discourse unit, when trained to accomplish tasks such as argument component identification, classification, and relation extraction. However, prior work has not carefully analyzed the utility of different contextual properties in context-aware models. In this work, we show how two different types of contextual information, local discourse context and speaker context, can be incorporated into a computational model for classifying argument components in multi-party classroom discussions. We find that both context types can improve performance, although the improvements are dependent on context size and position.
翻訳日:2021-02-23 15:05:14 公開日:2021-02-20
# ディスカッショントラッカ : 高等学校における生徒の協調的議論に関する教師の学習支援

Discussion Tracker: Supporting Teacher Learning about Students' Collaborative Argumentation in High School Classrooms ( http://arxiv.org/abs/2102.10293v1 )

ライセンス: Link先を確認
Luca Lugini, Christopher Olshefski, Ravneet Singh, Diane Litman, Amanda Godley(参考訳) 協力的な議論は、多くのK-12教師が開発に苦労する高度なスキルです。 そこで我々は,議論の移動,具体性,コラボレーションを分類する新しいアルゴリズムに基づく教室ディスカッション分析システムであるディスカッショントラッカーを開発した。 教室の配置の結果、教師は分析が役に立ち、下位の分類器は中程度から実質的な人間との合意で機能することがわかった。

Teaching collaborative argumentation is an advanced skill that many K-12 teachers struggle to develop. To address this, we have developed Discussion Tracker, a classroom discussion analytics system based on novel algorithms for classifying argument moves, specificity, and collaboration. Results from a classroom deployment indicate that teachers found the analytics useful, and that the underlying classifiers perform with moderate to substantial agreement with humans.
翻訳日:2021-02-23 15:05:04 公開日:2021-02-20
# 機械翻訳におけるコンテキストの使用の理解と強化

Understanding and Enhancing the Use of Context for Machine Translation ( http://arxiv.org/abs/2102.10437v1 )

ライセンス: Link先を確認
Marzieh Fadaee(参考訳) 言語の意味を理解し推論するには、ニューラルネットワークは複雑なニュアンスを学ぶ必要がある。 データから独特の言語現象を発見するのは容易ではない。 例えば、語彙の曖昧さは、学習が難しい言語の基本的な特徴である。 さらに顕著に、まれで目に見えない語彙単位の意味を推測することは、ニューラルネットワークでは困難である。 意味はしばしば文脈から決定される。 文脈では、使用する特定の単語が読み手によって知られていない場合でも、言語は意味を伝えることができる。 この学習プロセスをモデル化するには、システムはコンテキストのいくつかのインスタンスから学習し、見当たらないケースにうまく一般化する必要がある。 トレーニングデータが不足している場合には、学習プロセスが妨げられる。 十分なデータであっても、語彙分布の長い尾の学習パターンは困難である。 本論文では,ニューラルモデルにおけるコンテキストの特定の可能性の理解と,それらから利益を得るための拡張モデルの設計に焦点をあてる。 我々は、より一般的な言語理解問題の重要な例として機械翻訳に焦点を当てている。 ソース言語からターゲット言語へ翻訳するには、与えられたコンテキストにおける構成要素の意味を理解し、ターゲット言語で同じ意味を持つ構成要素を生成する必要があります。 このタスクは、言語のニュアンスを捉える価値と、少数の観察から一般化の必要性を強調します。 この論文で私たちが研究する主な問題は、ニューラルネットワーク翻訳モデルがデータから何を学習するか、そしてこの学習を強化するためにより集中したコンテキストをいかに考案できるかである。 NLP分野を進めるためには、コンテキストの役割と学習モデルに対するデータの影響をより深く検討することが不可欠です。 さらに、現在のニューラルネットワークの脆弱性を強調し、より堅牢なモデルの設計に関する洞察を提供する。

To understand and infer meaning in language, neural models have to learn complicated nuances. Discovering distinctive linguistic phenomena from data is not an easy task. For instance, lexical ambiguity is a fundamental feature of language which is challenging to learn. Even more prominently, inferring the meaning of rare and unseen lexical units is difficult with neural networks. Meaning is often determined from context. With context, languages allow meaning to be conveyed even when the specific words used are not known by the reader. To model this learning process, a system has to learn from a few instances in context and be able to generalize well to unseen cases. The learning process is hindered when training data is scarce for a task. Even with sufficient data, learning patterns for the long tail of the lexical distribution is challenging. In this thesis, we focus on understanding certain potentials of contexts in neural models and design augmentation models to benefit from them. We focus on machine translation as an important instance of the more general language understanding problem. To translate from a source language to a target language, a neural model has to understand the meaning of constituents in the provided context and generate constituents with the same meanings in the target language. This task accentuates the value of capturing nuances of language and the necessity of generalization from few observations. The main problem we study in this thesis is what neural machine translation models learn from data and how we can devise more focused contexts to enhance this learning. Looking more in-depth into the role of context and the impact of data on learning models is essential to advance the NLP field. Moreover, it helps highlight the vulnerabilities of current neural networks and provides insights into designing more robust models.
翻訳日:2021-02-23 15:04:55 公開日:2021-02-20
# ゲームメカニックアライメント理論と発見

Game Mechanic Alignment Theory and Discovery ( http://arxiv.org/abs/2102.10247v1 )

ライセンス: Link先を確認
Michael Cerny Green, Ahmed Khalifa, Philip Bontrager, Rodrigo Canaan and Julian Togelius(参考訳) 環境報酬のレンズと内在的プレイヤーモチベーションを用いてゲーム力学を組織化する方法として,ゲーム機械アライメント理論という新しい概念を提案する。 プレイヤーと環境の影響を遠ざけることで、メカニックは特定のプレイスタイルやプレイヤーのチュートリアルを調整できる自動チュートリアル生成システムでの使用のためによりよく識別される。 この理論をいくつかの有名なゲームに応用し、デザイナーのメリットを実証し、メカニックアライメントの推定方法の方法論を説明し、この方法論をGVGAIフレームワークの複数のゲームに適用します。 この推定が本質的/外因的報酬をいかに効果的に獲得するか、チュートリアル生成のための重要なメカニックディスカバリー方法の代替として私たちの理論を使用できるかについて論じる。

We present a new concept called Game Mechanic Alignment theory as a way to organize game mechanics through the lens of environmental rewards and intrinsic player motivations. By disentangling player and environmental influences, mechanics may be better identified for use in an automated tutorial generation system, which could tailor tutorials for a particular playstyle or player. Within, we apply this theory to several well-known games to demonstrate how designers can benefit from it, we describe a methodology for how to estimate mechanic alignment, and we apply this methodology on multiple games in the GVGAI framework. We discuss how effectively this estimation captures intrinsic/extrinsic rewards and how our theory could be used as an alternative to critical mechanic discovery methods for tutorial generation.
翻訳日:2021-02-23 15:03:36 公開日:2021-02-20
# スケーラブル画像分類のためのハードアテンション

Hard-Attention for Scalable Image Classification ( http://arxiv.org/abs/2102.10212v1 )

ライセンス: Link先を確認
Athanasios Papadopoulos, Pawe{\l} Korus, Nasir Memon(参考訳) ディープニューラルネットワーク(DNN)は通常、特定の入力解像度(例えば、)に最適化される。 224 \times 224$ px) と高解像度(衛星や医療画像など)の入力への採用は、過度の計算とメモリオーバーヘッドにつながるため、依然として困難であり、かなりのエンジニアリング作業(ストリーミングなど)が必要になる。 マルチスケールハードアテンションは,この問題に対して有効な解決法であることを示す。 TNetは、画像ピラミッドをトップダウンで横断し、途中で最も有益な地域だけを訪問する新しいアーキテクチャを提案します。 当社のモデルは、強力なハードアテンションベースラインと比較し、ImageNet上でのリソースと精度のトレードオフを改善する。 さらに、896 \times 896 $ pxまでのサイズの衛星画像(fMoWデータセット)に対するモデルの有効性を検証します。 さらに、我々のハードアテンションメカニズムは、推論以上のコストなしで、ある程度の解釈可能性で予測を保証する。 また,バウンディングボックスを使わずに画像レベルラベルのみを使用して,高分解能コンテンツのごく一部しか利用できないため,データ取得やアノテーションコストの削減も可能であることを示した。

Deep neural networks (DNNs) are typically optimized for a specific input resolution (e.g. $224 \times 224$ px) and their adoption to inputs of higher resolution (e.g., satellite or medical images) remains challenging, as it leads to excessive computation and memory overhead, and may require substantial engineering effort (e.g., streaming). We show that multi-scale hard-attention can be an effective solution to this problem. We propose a novel architecture, TNet, which traverses an image pyramid in a top-down fashion, visiting only the most informative regions along the way. We compare our model against strong hard-attention baselines, achieving a better trade-off between resources and accuracy on ImageNet. We further verify the efficacy of our model on satellite images (fMoW dataset) of size up to $896 \times 896$ px. In addition, our hard-attention mechanism guarantees predictions with a degree of interpretability, without extra cost beyond inference. We also show that we can reduce data acquisition and annotation cost, since our model attends only to a fraction of the highest resolution content, while using only image-level labels without bounding boxes.
翻訳日:2021-02-23 15:01:32 公開日:2021-02-20
# ニューラルアーキテクチャトランスフォーマによる精度とコンパクト化に向けて

Towards Accurate and Compact Architectures via Neural Architecture Transformer ( http://arxiv.org/abs/2102.10301v1 )

ライセンス: Link先を確認
Yong Guo, Yin Zheng, Mingkui Tan, Qi Chen, Zhipeng Li, Jian Chen, Peilin Zhao, Junzhou Huang(参考訳) 効率的なアーキテクチャを設計することは、ディープニューラルネットワークの成功の鍵となる要素のひとつだ。 既存のディープアーキテクチャは、いくつかのneural architecture search (nas)メソッドによって手動で設計または自動的に検索される。 しかし、よく設計された/検索されたアーキテクチャでさえ、多くの無意味または冗長なモジュール/操作を含む可能性がある。 したがって、計算コストを増すことなく性能を向上させるために、アーキテクチャ内の操作を最適化する必要がある。 この目的のために我々は、最適化問題をマルコフ決定プロセス(MDP)にキャストするニューラルアーキテクチャ変換器(NAT)法を提案し、冗長な演算をスキップやヌル接続などのより効率的な演算に置き換えようとしている。 NATは少数の遷移しか考慮しないので、検索/遷移スペースが限られていることに注意してください。 その結果、このような小さな探索空間は、アーキテクチャ最適化の性能を損なう可能性がある。 この問題に対処するために、アーキテクチャ最適化の性能向上のために、候補遷移の集合をさらに拡大するNeural Architecture Transformer++ (NAT++) 手法を提案する。 具体的には、より効率的な型(畳み込み->分離可能な畳み込み)やより小さなカーネルサイズ(例えば5x5->3x3)を持つように、有効なトランジションを得るための2段階のトランジションルールを提案する。 異なる操作は異なる有効な遷移を持つ可能性があることに注意。 さらに、無効な遷移を省略するBinary-Masked Softmax(BMSoftmax)層を提案する。 いくつかのベンチマークデータセットに関する広範な実験は、変換されたアーキテクチャが元のアーキテクチャと既存のメソッドによって最適化されたアーキテクチャの両方を大幅に上回ることを示している。

Designing effective architectures is one of the key factors behind the success of deep neural networks. Existing deep architectures are either manually designed or automatically searched by some Neural Architecture Search (NAS) methods. However, even a well-designed/search ed architecture may still contain many nonsignificant or redundant modules/operations. Thus, it is necessary to optimize the operations inside an architecture to improve the performance without introducing extra computational cost. To this end, we have proposed a Neural Architecture Transformer (NAT) method which casts the optimization problem into a Markov Decision Process (MDP) and seeks to replace the redundant operations with more efficient operations, such as skip or null connection. Note that NAT only considers a small number of possible transitions and thus comes with a limited search/transition space. As a result, such a small search space may hamper the performance of architecture optimization. To address this issue, we propose a Neural Architecture Transformer++ (NAT++) method which further enlarges the set of candidate transitions to improve the performance of architecture optimization. Specifically, we present a two-level transition rule to obtain valid transitions, i.e., allowing operations to have more efficient types (e.g., convolution->separable convolution) or smaller kernel sizes (e.g., 5x5->3x3). Note that different operations may have different valid transitions. We further propose a Binary-Masked Softmax (BMSoftmax) layer to omit the possible invalid transitions. Extensive experiments on several benchmark datasets show that the transformed architecture significantly outperforms both its original counterpart and the architectures optimized by existing methods.
翻訳日:2021-02-23 15:01:14 公開日:2021-02-20
# マルチスクリプト識別のためのディープニューラルネットワークの知識蒸留の探索

Exploring Knowledge Distillation of a Deep Neural Network for Multi-Script identification ( http://arxiv.org/abs/2102.10335v1 )

ライセンス: Link先を確認
Shuvayan Ghosh Dastidar, Kalpita Dutta, Nibaran Das, Mahantapas Kundu and Mita Nasipuri(参考訳) 多言語スクリプト識別は、シーンテキスト画像に複雑な背景を持つ異なる言語からなる難しいタスクである。 現在の研究シナリオによると、深層ニューラルネットワークは教師モデルとして採用され、教師モデルの予測を利用してより小さな学生ネットワークを訓練する。 このプロセスはダークナレッジ転送と呼ばれます。 学生ネットワークを単純なアーキテクチャで直接訓練することで得られた最終的な成果が達成できない多くの領域で成功している。 本論文では, 短時間メモリ (LSTM) と CNN ベースのアシスタントモデルを用いたダークナレッジ転送手法と, 教師モデルとしての様々なディープニューラルネットワークを, CNN ベースの学生ネットワークを用いて, 自然シーンのテキスト画像からのマルチスクリプト識別の領域で検討する。 異なる教師モデルのパフォーマンスと,その知識を学生ネットワークに伝達する能力について検討する。 小規模な学生ネットワークのサイズは限られているが,本手法はよく知られたスクリプト識別データセットCVSI-2015において良好な結果が得られる。

Multi-lingual script identification is a difficult task consisting of different language with complex backgrounds in scene text images. According to the current research scenario, deep neural networks are employed as teacher models to train a smaller student network by utilizing the teacher model's predictions. This process is known as dark knowledge transfer. It has been quite successful in many domains where the final result obtained is unachievable through directly training the student network with a simple architecture. In this paper, we explore dark knowledge transfer approach using long short-term memory(LSTM) and CNN based assistant model and various deep neural networks as the teacher model, with a simple CNN based student network, in this domain of multi-script identification from natural scene text images. We explore the performance of different teacher models and their ability to transfer knowledge to a student network. Although the small student network's limited size, our approach obtains satisfactory results on a well-known script identification dataset CVSI-2015.
翻訳日:2021-02-23 15:00:50 公開日:2021-02-20
# 画像分割のためのニューラルネットワークのクラスアンバランスによるオーバーフィッティング解析

Analyzing Overfitting under Class Imbalance in Neural Networks for Image Segmentation ( http://arxiv.org/abs/2102.10365v1 )

ライセンス: Link先を確認
Zeju Li, Konstantinos Kamnitsas, Ben Glocker(参考訳) クラス不均衡は偏りのない正確な予測モデルを開発する上で課題となる。 特に、イメージセグメンテーションニューラルネットワークは、トレーニングセットでしばしば過小評価される小さな構造から得られた前景のサンプルに過度に適合し、一般化が不十分になる可能性がある。 本研究では,ネットワークの動作を検査することにより,クラス不均衡下でのオーバーフィッティング問題に対する新たな知見を提供する。 限られたデータと強いクラス不均衡によるトレーニングでは、テスト時にロジットアクティベーションの分布が決定境界を越えてシフトする可能性があるが、よく表現されたクラスのサンプルは影響を受けない。 このバイアスは、小さな構造の体系的なアンダーセグメンテーションにつながる。 この現象は、さまざまなデータベース、タスク、ネットワークアーキテクチャで一貫して観測される。 この問題に対処するために,本研究では,人気の損失関数の非対称な新しい変種と,非表示クラスのロジットシフトに対応するために明示的に設計された,大きなマージン損失,焦点損失,敵対的トレーニング,ミックスアップ,データ拡張を含む正則化手法を導入する。 いくつかの挑戦的なセグメンテーションタスクで広範な実験が行われます。 その結果,提案する目的関数の修正は,ベースラインや代替手法と比較して,セグメント化精度が著しく向上する可能性が示唆された。

Class imbalance poses a challenge for developing unbiased, accurate predictive models. In particular, in image segmentation neural networks may overfit to the foreground samples from small structures, which are often heavily under-represented in the training set, leading to poor generalization. In this study, we provide new insights on the problem of overfitting under class imbalance by inspecting the network behavior. We find empirically that when training with limited data and strong class imbalance, at test time the distribution of logit activations may shift across the decision boundary, while samples of the well-represented class seem unaffected. This bias leads to a systematic under-segmentation of small structures. This phenomenon is consistently observed for different databases, tasks and network architectures. To tackle this problem, we introduce new asymmetric variants of popular loss functions and regularization techniques including a large margin loss, focal loss, adversarial training, mixup and data augmentation, which are explicitly designed to counter logit shift of the under-represented classes. Extensive experiments are conducted on several challenging segmentation tasks. Our results demonstrate that the proposed modifications to the objective function can lead to significantly improved segmentation accuracy compared to baselines and alternative approaches.
翻訳日:2021-02-23 15:00:34 公開日:2021-02-20
# CellTrack R-CNN:顕微鏡画像のセルセグメンテーションと追跡のための新しいエンドツーエンドディープニューラルネットワーク

CellTrack R-CNN: A Novel End-To-End Deep Neural Network for Cell Segmentation and Tracking in Microscopy Images ( http://arxiv.org/abs/2102.10377v1 )

ライセンス: Link先を確認
Yuqian Chen, Yang Song, Chaoyi Zhang, Fan Zhang, Lauren O'Donnell, Wojciech Chrzanowski, Weidong Cai(参考訳) 顕微鏡画像における細胞セグメンテーションと追跡は、生物学と医学の新しい発見に非常に重要である。 本研究では,セルセグメンテーションとセルトラッキングを,現在のインスタンスセグメンテーションパイプラインでセル検出とセグメンテーションを行い,Siamese Networkとパイプラインを統合することでセルトラッキングを実現する,統一されたエンドツーエンドのディープラーニングベースのフレームワークに結合する新しいアプローチを提案する。 また、ネットワークに空間情報を取り入れ、空間予測と視覚予測を融合させ、トラッキング性能を向上させます。 提案手法は,DeepCellベンチマークデータセットを用いて評価した。 単純かつ効率的であるにもかかわらず,本手法はセルセグメンテーションとセル追跡アキュラシーの両面で最先端アルゴリズムよりも優れている。

Cell segmentation and tracking in microscopy images are of great significance to new discoveries in biology and medicine. In this study, we propose a novel approach to combine cell segmentation and cell tracking into a unified end-to-end deep learning based framework, where cell detection and segmentation are performed with a current instance segmentation pipeline and cell tracking is implemented by integrating Siamese Network with the pipeline. Besides, tracking performance is improved by incorporating spatial information into the network and fusing spatial and visual prediction. Our approach was evaluated on the DeepCell benchmark dataset. Despite being simple and efficient, our method outperforms state-of-the-art algorithms in terms of both cell segmentation and cell tracking accuracies.
翻訳日:2021-02-23 15:00:13 公開日:2021-02-20
# 行動認識のためのマルチトランスフォーメーション分類による自己監督学習

Self-Supervised Learning via multi-Transformation Classification for Action Recognition ( http://arxiv.org/abs/2102.10378v1 )

ライセンス: Link先を確認
Duc Quang Vu, Ngan T.H.Le and Jia-Ching Wang(参考訳) 自己監視されたタスクは、アノテーションが利用できない場合に下流のタスクで使用できる有用な表現を構築するために利用されている。 本稿では,マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を提案し,人間の行動を効率的に分類する。 さまざまな変換に関する自己監督学習は、よりリッチなコンテキスト情報を提供するだけでなく、視覚表現を変換に対してより堅牢にします。 ビデオの時空間的表現は、7つの異なる変換を分類することで自己監督的に学習される。 回転、クリップ反転、置換、分割、結合変換、カラースイッチ、フレーム交換、ノイズ追加。 まず、7つの異なる動画変換をビデオクリップに適用する。 次に、3次元畳み込みニューラルネットワークを用いてクリップの特徴を抽出し、これらの特徴を処理して擬似ラベルを分類する。 学習したモデルを事前学習されたモデルとして使用し、下流のタスクで人間の行動を認識するために微調整します。 C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。 実験結果は、提案されたフレームワークが他のSOTA自己監視アクション認識アプローチよりも優れていることを示した。 コードは公開される予定だ。

Self-supervised tasks have been utilized to build useful representations that can be used in downstream tasks when the annotation is unavailable. In this paper, we introduce a self-supervised video representation learning method based on the multi-transformation classification to efficiently classify human actions. Self-supervised learning on various transformations not only provides richer contextual information but also enables the visual representation more robust to the transforms. The spatio-temporal representation of the video is learned in a self-supervised manner by classifying seven different transformations i.e. rotation, clip inversion, permutation, split, join transformation, color switch, frame replacement, noise addition. First, seven different video transformations are applied to video clips. Then the 3D convolutional neural networks are utilized to extract features for clips and these features are processed to classify the pseudo-labels. We use the learned models in pretext tasks as the pre-trained models and fine-tune them to recognize human actions in the downstream task. We have conducted the experiments on UCF101 and HMDB51 datasets together with C3D and 3D Resnet-18 as backbone networks. The experimental results have shown that our proposed framework is outperformed other SOTA self-supervised action recognition approaches. The code will be made publicly available.
翻訳日:2021-02-23 14:59:58 公開日:2021-02-20
# カリキュラム学習による教師なし医用画像アライメント

Unsupervised Medical Image Alignment with Curriculum Learning ( http://arxiv.org/abs/2102.10438v1 )

ライセンス: Link先を確認
Mihail Burduja, Radu Tudor Ionescu(参考訳) 変形可能な3次元医用画像登録作業において、畳み込みニューラルネットワークを訓練するための異なるカリキュラム学習方法を検討する。 我々の知識を最大限に活用するため,我々は,第1訓練段階における簡単なトレーニングセットアップから始めて,カリキュラム学習を用いて医用画像登録モデルをトレーニングし,徐々にセットアップの複雑さを高めることで,パフォーマンスの向上を試みている。 一方、カリキュラムのドロップアウトとスムージングによるカリキュラムの2つの既存のカリキュラム学習アプローチを検討します。 一方,本論文では,初回から故意にぼやけた画像を使い,後回しの訓練段階に徐々にシャープな画像に移行していくという,新鮮で簡単なカリキュラム作成手法を提案する。 基礎となる最先端のディープラーニングモデルを用いた実験により,カリキュラム学習が従来の学習よりも優れた結果をもたらすことを示す。

We explore different curriculum learning methods for training convolutional neural networks on the task of deformable pairwise 3D medical image registration. To the best of our knowledge, we are the first to attempt to improve performance by training medical image registration models using curriculum learning, starting from an easy training setup in the first training stages, and gradually increasing the complexity of the setup. On the one hand, we consider two existing curriculum learning approaches, namely curriculum dropout and curriculum by smoothing. On the other hand, we propose a novel and simple strategy to achieve curriculum, namely to use purposely blurred images at the beginning, then gradually transit to sharper images in the later training stages. Our experiments with an underlying state-of-the-art deep learning model show that curriculum learning can lead to superior results compared to conventional training.
翻訳日:2021-02-23 14:59:40 公開日:2021-02-20
# リンク予測のための永続性ホモロジー:インタラクティブな視点

Persistence Homology for Link Prediction: An Interactive View ( http://arxiv.org/abs/2102.10255v1 )

ライセンス: Link先を確認
Zuoyu Yan, Tengfei Ma, Liangcai Gao, Zhi Tang, Chao Chen(参考訳) リンク予測は、グラフ構造データにとって重要な学習タスクです。 本稿では,2つのノード間の相互作用を特徴付ける新しいトポロジカルアプローチを提案する。 我々の位相的特徴は、拡張永続ホモロジーに基づき、ノードを接続するマルチホップパスに関する豊富な構造情報を符号化する。 そこで本研究では,様々なベンチマークにおける最先端技術を上回るグラフニューラルネットワーク手法を提案する。 別の貢献として、グラフの拡張持続図をより効率的に計算する新しいアルゴリズムを提案する。 このアルゴリズムは、グラフ学習タスクの他の多くのトポロジカルな方法を加速するために一般的に適用することができる。

Link prediction is an important learning task for graph-structured data. In this paper, we propose a novel topological approach to characterize interactions between two nodes. Our topological feature, based on the extended persistence homology, encodes rich structural information regarding the multi-hop paths connecting nodes. Based on this feature, we propose a graph neural network method that outperforms state-of-the-arts on different benchmarks. As another contribution, we propose a novel algorithm to more efficiently compute the extended persistent diagrams for graphs. This algorithm can be generally applied to accelerate many other topological methods for graph learning tasks.
翻訳日:2021-02-23 14:53:29 公開日:2021-02-20
# タスク推論を用いたメタラーニングダイナミクス予測

Meta-Learning Dynamics Forecasting Using Task Inference ( http://arxiv.org/abs/2102.10271v1 )

ライセンス: Link先を確認
Rui Wang, Robin Walters, Rose Yu(参考訳) 一般化と闘うダイナミクス予測のための現在のディープラーニングモデル。 それらは特定のドメイン内でのみ予測でき、異なるパラメータ、外部力、境界条件を持つシステムに適用されると失敗する。 本稿では,異なるタスクを持つ異なるサブドメインに分割することで,異種ドメインをまたがる汎用化を可能にする,dyadと呼ばれるモデルベースのメタ学習手法を提案する。 DyAdには、ドメイン全体の共有ダイナミクスを学習する予測ネットワークと、タスクのパラメータを推論するエンコーダの2つの部分がある。 エンコーダは、適応インスタンス正規化と境界条件専用に設計された新しい層であるadapadを用いて、推論時間中に予測ネットワークを適応させる。 エンコーダはまた、異なるタスクを区別し、追加のドメイン知識を組み込むのに役立つ弱い監視信号を使用することもできる。 我々のモデルは、乱流と実世界の海洋データ予測のタスクにおいて、様々な最先端のアプローチより優れています。

Current deep learning models for dynamics forecasting struggle with generalization. They can only forecast in a specific domain and fail when applied to systems with different parameters, external forces, or boundary conditions. We propose a model-based meta-learning method called DyAd which can generalize across heterogeneous domains by partitioning them into separate subdomains, each with a different task. DyAd has two parts: a prediction network which learns the shared dynamics of the entire domain, and an encoder that infers the parameters of the task. The encoder adapts the prediction network during inference time using adaptive instance normalization and a new layer, AdaPad, specifically designed for boundary conditions. The encoder can also use any weak supervision signals that can help distinguish different tasks, allowing the incorporation of additional domain knowledge. Our model outperforms a variety of state-of-the-art approaches on both turbulent flow and real-world ocean data forecasting tasks.
翻訳日:2021-02-23 14:53:20 公開日:2021-02-20
# キャリブレーションと領域外一般化について

On Calibration and Out-of-domain Generalization ( http://arxiv.org/abs/2102.10395v1 )

ライセンス: Link先を確認
Yoav Wald, Amir Feder, Daniel Greenfeld, Uri Shalit(参考訳) ドメイン外(OOD)一般化は機械学習モデルにとって重要な課題である。 これを解決するために、多くの新しい手法が提案され、しばしば特定の不変性を持つ学習モデルに焦点を当てている。 本研究では、OOD性能とモデルキャリブレーションのリンクを描き、複数のドメインにわたるキャリブレーションは、OOD一般化の改善につながる不変表現の特別なケースと見なすことができると主張している。 具体的には,マルチドメインキャリブレーションを実現するモデルにスプリアス相関がないことを単純化した。 これにより、分類器のOOD性能の測定可能なサロゲートとしてマルチドメインキャリブレーションを提案する。 校正の重要な実用上の利点は、分類器の校正に有効なツールが多数存在することである。 これらのツールは、マルチドメイン設定に簡単に適用および適応できることを示します。 最近提案されたWILDS OODベンチマークの5つのデータセットを使用して、バリデーションセットで複数のドメインにまたがるモデルを再調整するだけで、目に見えないテストドメインのパフォーマンスが大幅に向上することを示した。 キャリブレーションとOOD一般化のこの興味深い関係は、実用的な観点から有望であり、理論的観点からさらに研究する価値があると考えています。

Out-of-domain (OOD) generalization is a significant challenge for machine learning models. To overcome it, many novel techniques have been proposed, often focused on learning models with certain invariance properties. In this work, we draw a link between OOD performance and model calibration, arguing that calibration across multiple domains can be viewed as a special case of an invariant representation leading to better OOD generalization. Specifically, we prove in a simplified setting that models which achieve multi-domain calibration are free of spurious correlations. This leads us to propose multi-domain calibration as a measurable surrogate for the OOD performance of a classifier. An important practical benefit of calibration is that there are many effective tools for calibrating classifiers. We show that these tools are easy to apply and adapt for a multi-domain setting. Using five datasets from the recently proposed WILDS OOD benchmark we demonstrate that simply re-calibrating models across multiple domains in a validation set leads to significantly improved performance on unseen test domains. We believe this intriguing connection between calibration and OOD generalization is promising from a practical point of view and deserves further research from a theoretical point of view.
翻訳日:2021-02-23 14:53:04 公開日:2021-02-20
# GLAM:グラフニューラルネットワークのためのラベル付きノードへの親和性モデルによるグラフ学習

GLAM: Graph Learning by Modeling Affinity to Labeled Nodes for Graph Neural Networks ( http://arxiv.org/abs/2102.10403v1 )

ライセンス: Link先を確認
Vijay Lingam, Arun Iyer, Rahul Ragesh(参考訳) グラフニューラルネットワークは、半教師付き分類タスクにおいて優れたパフォーマンスを示した。 しかし、実際には利用できないグラフへのアクセスを前提としている。 グラフがない場合、与えられたデータからk-Nearest Neighbor (kNN)グラフを構築することで、他の半教師付き手法よりもGNNを使用する場合の改善が示されている。 本稿では,利用可能なグラフがない場合の半教師付きグラフ学習手法を提案する。 教師なしkNNグラフと教師付きラベル親和性グラフの凸結合としてグラフを学習する。 ラベル親和性グラフは、ラベル付きノードとの全てのノードのラベル親和性を直接キャプチャする。 この親和性測定は、指標が特徴空間の近さを測定するkNNグラフと対比する。 私たちの実験では、このアプローチは最先端のグラフ学習手法よりもシンプルで(最大1.5%)、トレーニングが(最大70倍)簡単で、パフォーマンスが向上することを示唆している。 また、個々のコンポーネントの重要性を強調し、最先端の手法と対比するため、いくつかの実験も行います。

Graph Neural Networks have shown excellent performance on semi-supervised classification tasks. However, they assume access to a graph that may not be often available in practice. In the absence of any graph, constructing k-Nearest Neighbor (kNN) graphs from the given data have shown to give improvements when used with GNNs over other semi-supervised methods. This paper proposes a semi-supervised graph learning method for cases when there are no graphs available. This method learns a graph as a convex combination of the unsupervised kNN graph and a supervised label-affinity graph. The label-affinity graph directly captures all the nodes' label-affinity with the labeled nodes, i.e., how likely a node has the same label as the labeled nodes. This affinity measure contrasts with the kNN graph where the metric measures closeness in the feature space. Our experiments suggest that this approach gives close to or better performance (up to 1.5%), while being simpler and faster (up to 70x) to train, than state-of-the-art graph learning methods. We also conduct several experiments to highlight the importance of individual components and contrast them with state-of-the-art methods.
翻訳日:2021-02-23 14:52:44 公開日:2021-02-20
# Interventional Sum-Product Networks: Tractable Probabilistic Modelsによる因果推論

Interventional Sum-Product Networks: Causal Inference with Tractable Probabilistic Models ( http://arxiv.org/abs/2102.10440v1 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c, Devendra Singh Dhami, Athresh Karanam, Sriraam Natarajan and Kristian Kersting(参考訳) 確率モデルは因果関係を研究する上で重要なツールであるが、推論の難しさに苦しむ。 トラクタブル因果モデルへの一歩として,ゲート関数(例えばニューラルネットワーク)によってオーバーパラメータ化される総積ネットワーク(SPN)を用いて介入分布を学習する問題を検討する。 任意に介入した因果グラフを入力とし、パールのdo-operatorを効果的に仮定すると、ゲート関数はSPNのパラメータを予測する。 結果として生じる介入SPNは、個人の健康をテーマとした構造因果モデルによって動機づけられ、図示される。 3つのベンチマークデータセットと合成健康データセットに関する経験的評価は、介入SPNがモデリングにおいて表現力があり、介入に適応するのに柔軟であることを明確に示しています。

While probabilistic models are an important tool for studying causality, doing so suffers from the intractability of inference. As a step towards tractable causal models, we consider the problem of learning interventional distributions using sum-product net-works (SPNs) that are over-parameterized by gate functions, e.g., neural networks. Providing an arbitrarily intervened causal graph as input, effectively subsuming Pearl's do-operator, the gate function predicts the parameters of the SPN. The resulting interventional SPNs are motivated and illustrated by a structural causal model themed around personal health. Our empirical evaluation on three benchmark data sets as well as a synthetic health data set clearly demonstrates that interventional SPNs indeed are both expressive in modelling and flexible in adapting to the interventions.
翻訳日:2021-02-23 14:52:23 公開日:2021-02-20
# 定騒音変動下における確率勾配の収束速度

Convergence Rates of Stochastic Gradient Descent under Infinite Noise Variance ( http://arxiv.org/abs/2102.10346v1 )

ライセンス: Link先を確認
Hongjian Wang, Mert G\"urb\"uzbalaban, Lingjiong Zhu, Umut \c{S}im\c{s}ekli, Murat A. Erdogdu(参考訳) 最近の研究は、さまざまなシナリオで確率勾配降下(SGD)で重い尾が出現できることを示す経験的および理論的証拠の両方を提供してきました。 このような重い尾は、ばらつきを伴う反復を引き起こす可能性があり、2階モーメントの存在に依存する従来の収束解析技術の使用を妨げる。 本稿では,SGDの収束保証を,強い凸対象のクラスに対して,潜在的に無限に分散した状態依存かつ重み付きノイズの下で提供する。 ある種の$p\in [1,2)$ に対して、ノイズの p$-th モーメントが存在する場合、最初に「$p$-positive (semi-)definiteness) 」と呼ばれるヘッシアン上の条件を特定し、正の半定義行列 (p=2$) と非負の対角成分 (p=1$) を持つ対角支配行列の間の興味深い補間をもたらす。 この条件の下で、我々は$L^p$でグローバル最適への距離の収束率を提供します。 さらに,多変量 $\alpha$-stable 確率ベクトルに適度にスケールした polyak-ruppert averaging が弱収束することを示す一般化中心極限定理を提案する。 この結果から,SGD は無限にばらつきのある重み付き雑音下であっても,損失関数やアルゴリズム自体の変更を必要とせず,大域的最適度に収束可能であることが示唆された。 重み付きデータに基づく線形回帰や一般化線形モデルといった応用における結果の意義を実証する。

Recent studies have provided both empirical and theoretical evidence illustrating that heavy tails can emerge in stochastic gradient descent (SGD) in various scenarios. Such heavy tails potentially result in iterates with diverging variance, which hinders the use of conventional convergence analysis techniques that rely on the existence of the second-order moments. In this paper, we provide convergence guarantees for SGD under a state-dependent and heavy-tailed noise with a potentially infinite variance, for a class of strongly convex objectives. In the case where the $p$-th moment of the noise exists for some $p\in [1,2)$, we first identify a condition on the Hessian, coined '$p$-positive (semi-)definiteness& #x27;, that leads to an interesting interpolation between positive semi-definite matrices ($p=2$) and diagonally dominant matrices with non-negative diagonal entries ($p=1$). Under this condition, we then provide a convergence rate for the distance to the global optimum in $L^p$. Furthermore, we provide a generalized central limit theorem, which shows that the properly scaled Polyak-Ruppert averaging converges weakly to a multivariate $\alpha$-stable random vector. Our results indicate that even under heavy-tailed noise with infinite variance, SGD can converge to the global optimum without necessitating any modification neither to the loss function or to the algorithm itself, as typically required in robust statistics. We demonstrate the implications of our results to applications such as linear regression and generalized linear models subject to heavy-tailed data.
翻訳日:2021-02-23 14:45:36 公開日:2021-02-20
# エンドツーエンドニューラルネットワークによる3次元貯留層シミュレーションと適応

End-to-end neural network approach to 3D reservoir simulation and adaptation ( http://arxiv.org/abs/2102.10304v1 )

ライセンス: Link先を確認
E. Illarionov, P. Temirchev, D. Voloskov, R. Kostoev, M. Simonov, D. Pissarenko, D. Orlov and D. Koroteev(参考訳) 貯水池のシミュレーションと適応(歴史マッチングとしても知られる)は、通常別の問題と見なされる。 モデルセットは初期地質パラメータが全て知られていると仮定して前方シミュレーション問題の解を求めるが、他のモデルセットは固定前方シミュレーションモデルの下で地質パラメータを調整して生産データに適合させる。 これにより、貯水池の技術者と新しい効率的な計算手法の開発に多くの困難が生じる。 貯留層シミュレーションと適応問題に対する統一的なアプローチを提示する。 単一のニューラルネットワークモデルにより、3D貯水池モデルの初期の地質パラメータからダイナミックな状態変数へ、井戸の生産率と後方勾配の伝播をモデル入力や変数へ転送することができる。 モデルフィッティングと地質パラメータの適応は、同じニューラルネットワークモデルの特定の部分に対する最適化問題になります。 標準勾配に基づく最適化スキームは最適解を見つけるのに利用できる。 実世界の油田モデルと過去の生産率を用いて,提案手法が精度の高い貯水池シミュレーションと履歴マッチングを提供することを示す。

Reservoir simulation and adaptation (also known as history matching) are typically considered as separate problems. While a set of models are aimed at the solution of the forward simulation problem assuming all initial geological parameters are known, the other set of models adjust geological parameters under the fixed forward simulation model to fit production data. This results in many difficulties for both reservoir engineers and developers of new efficient computation schemes. We present a unified approach to reservoir simulation and adaptation problems. A single neural network model allows a forward pass from initial geological parameters of the 3D reservoir model through dynamic state variables to well's production rates and backward gradient propagation to any model inputs and variables. The model fitting and geological parameters adaptation both become the optimization problem over specific parts of the same neural network model. Standard gradient-based optimization schemes can be used to find the optimal solution. Using real-world oilfield model and historical production rates we demonstrate that the suggested approach provides accurate reservoir simulation and history matching with a benefit of several orders of magnitude simulation speed-up.
翻訳日:2021-02-23 14:42:20 公開日:2021-02-20
# Going Farがアタックトランスファービリティを向上するが、そうはならない

Going Far Boosts Attack Transferability, but Do Not Do It ( http://arxiv.org/abs/2102.10343v1 )

ライセンス: Link先を確認
Sizhe Chen, Qinghua Tao, Zhixing Ye, Xiaolin Huang(参考訳) ディープニューラルネットワーク(Deep Neural Networks、DNN)は、人間の目の元のものと知覚不能な違いを持つ敵の例(AE)によって容易にだまされ得る。 また、AEは1つの代理DNNを攻撃しないため、他のブラックボックスDNNも騙す傾向にある。 既存の研究によると、特定の最適化アルゴリズムを攻撃に適用することで転送性が向上するが、根本的な理由は十分に研究されていない。 本稿では,7つの最適化アルゴリズム,4つのサロゲート,9つのブラックボックスモデルに関する包括的な実験を行い,攻撃伝達性に対する最適化の影響を検討する。 3つの観点からの徹底的な経験的分析を通して、最適化アルゴリズムからのAEsの様々な転送性は、元のサンプルから対応するRoot Mean Square Error(RMSE)と強く関連していることがわかった。 このような理由で、RMSEが減少するまで攻撃することで高転送性にアプローチするだけで、LArge RMSE攻撃(LARA)を提案します。 LARAは転送可能性を大幅に20%改善するが、DNNの脆弱性を悪用するには不十分であり、この論文で広く使われている$\ell_\infty$boundとRMSEの両方で全ての攻撃の強度を測定するべきであるという自然な衝動を招き、転送可能性のトリッキーな向上を回避することができる。

Deep Neural Networks (DNNs) could be easily fooled by Adversarial Examples (AEs) with an imperceptible difference to original ones in human eyes. Also, the AEs from attacking one surrogate DNN tend to cheat other black-box DNNs as well, i.e., the attack transferability. Existing works reveal that adopting certain optimization algorithms in attack improves transferability, but the underlying reasons have not been thoroughly studied. In this paper, we investigate the impacts of optimization on attack transferability by comprehensive experiments concerning 7 optimization algorithms, 4 surrogates, and 9 black-box models. Through the thorough empirical analysis from three perspectives, we surprisingly find that the varied transferability of AEs from optimization algorithms is strongly related to the corresponding Root Mean Square Error (RMSE) from their original samples. On such a basis, one could simply approach high transferability by attacking until RMSE decreases, which motives us to propose a LArge RMSE Attack (LARA). Although LARA significantly improves transferability by 20%, it is insufficient to exploit the vulnerability of DNNs, leading to a natural urge that the strength of all attacks should be measured by both the widely used $\ell_\infty$ bound and the RMSE addressed in this paper, so that tricky enhancement of transferability would be avoided.
翻訳日:2021-02-23 14:42:03 公開日:2021-02-20
# 3次元非線形フォトニック結晶における量子ホログラムの逆設計

Inverse Design of Quantum Holograms in Three-Dimensional Nonlinear Photonic Crystals ( http://arxiv.org/abs/2102.10344v1 )

ライセンス: Link先を確認
Eyal Rozenberg, Aviv Karnieli, Ofir Yesharim, Sivan Trajtenberg-Mills, Daniel Freedman, Alex M. Bronstein and Ady Arie(参考訳) 構造フォトンペア間の所望の量子相関を生成するために,3次元非線形フォトニック結晶とポンプビームを設計するための体系的アプローチを提案する。 私たちのモデルは完全に微分可能で、正確で効率的な学習と新しいデザインの発見を可能にします。

We introduce a systematic approach for designing 3D nonlinear photonic crystals and pump beams for generating desired quantum correlations between structured photon-pairs. Our model is fully differentiable, allowing accurate and efficient learning and discovery of novel designs.
翻訳日:2021-02-23 14:41:38 公開日:2021-02-20
# セルフリー大規模MIMOネットワークにおけるディープラーニングに基づく電力制御

Deep Learning-based Power Control for Cell-Free Massive MIMO Networks ( http://arxiv.org/abs/2102.10366v1 )

ライセンス: Link先を確認
Nuwanthika Rajapaksha, K. B. Shashika Manosha, Nandana Rajatheva, Matti Latva-aho(参考訳) セルレス大規模マルチインプットマルチアウトプット(MIMO)システムにおいて,最大ユーザフェアネス問題を解決するためのディープラーニング(DL)ベースの電力制御アルゴリズムを提案する。 セルフリーの大規模MIMOアップリンクセットアップにおける最大分レート最適化問題を策定し、ユーザー電力配分を最適化して最小ユーザーレートを最大化します。 数学的最適化理論を用いて問題をモデル化し、反復アルゴリズムで解く代わりに、提案手法はDLを用いている。 具体的には、ディープニューラルネットワーク(DNN)をモデル化し、教師なしの方法でトレーニングし、最小ユーザ率を最大化する最適なユーザパワー割り当てを学習する。 この新しい教師なし学習に基づくアプローチは、これまで教師なし学習技術のようにモデルトレーニング中に知っておくべき最適なパワー割り当てを必要としないため、よりシンプルで柔軟なモデルトレーニングステージを持つ。 数値計算の結果,提案手法は400倍の高速化と最適化に基づくアルゴリズムに匹敵する性能向上を実現した。 オンライン学習の段階も導入され、4~6倍高速な処理でほぼ最適性能が得られる。

A deep learning (DL)-based power control algorithm that solves the max-min user fairness problem in a cell-free massive multiple-input multiple-output (MIMO) system is proposed. Max-min rate optimization problem in a cell-free massive MIMO uplink setup is formulated, where user power allocations are optimized in order to maximize the minimum user rate. Instead of modeling the problem using mathematical optimization theory, and solving it with iterative algorithms, our proposed solution approach is using DL. Specifically, we model a deep neural network (DNN) and train it in an unsupervised manner to learn the optimum user power allocations which maximize the minimum user rate. This novel unsupervised learning-based approach does not require optimal power allocations to be known during model training as in previously used supervised learning techniques, hence it has a simpler and flexible model training stage. Numerical results show that the proposed DNN achieves a performance-complexi ty trade-off with around 400 times faster implementation and comparable performance to the optimization-based algorithm. An online learning stage is also introduced, which results in near-optimal performance with 4-6 times faster processing.
翻訳日:2021-02-23 14:41:32 公開日:2021-02-20
# 畳み込みニューラルネットワークのためのエッジTPU加速器の評価

An Evaluation of Edge TPU Accelerators for Convolutional Neural Networks ( http://arxiv.org/abs/2102.10423v1 )

ライセンス: Link先を確認
Amir Yazdanbakhsh, Kiran Seshadri, Berkin Akin, James Laudon, Ravi Narayanaswami(参考訳) edge tpusは低消費電力のエッジデバイスのためのアクセラレータのドメインであり、コーラルやpixelなどのgoogle製品で広く使われている。 本稿では、まずエッジTPUの主要なマイクロアーキテクチャの詳細について議論する。 次に,エッジtpusの3つのクラスを広範囲に評価し,google製品に現在デプロイされている,あるいは製品パイプラインである,さまざまなコンピューティングエコシステムをカバーする。 この広範な研究に基づいて、Edge TPUの研究クラスに関する重要で解釈可能なマイクロアーキテクチャの洞察について議論します。 主に,異なる構造を持つ畳み込みニューラルネットワークにおけるエッジtpu加速器の性能について論じる。 最後に,高精度学習型機械学習モデルの開発に取り組み,待ち時間やエネルギー消費といった加速器の性能指標を推定する。 これらの学習モデルは、サイクル正確なシミュレーターの代替として、アクセラレーターの評価を(ミリ秒の順序で)大幅に高速化し、高速なハードウエア/ソフトウェア共同設計のエキサイティングな機会を確立する。

Edge TPUs are a domain of accelerators for low-power, edge devices and are widely used in various Google products such as Coral and Pixel devices. In this paper, we first discuss the major microarchitectural details of Edge TPUs. Then, we extensively evaluate three classes of Edge TPUs, covering different computing ecosystems, that are either currently deployed in Google products or are the product pipeline, across 423K unique convolutional neural networks. Building upon this extensive study, we discuss critical and interpretable microarchitectural insights about the studied classes of Edge TPUs. Mainly, we discuss how Edge TPU accelerators perform across convolutional neural networks with different structures. Finally, we present our ongoing efforts in developing high-accuracy learned machine learning models to estimate the major performance metrics of accelerators such as latency and energy consumption. These learned models enable significantly faster (in the order of milliseconds) evaluations of accelerators as an alternative to time-consuming cycle-accurate simulators and establish an exciting opportunity for rapid hard-ware/software co-design.
翻訳日:2021-02-23 14:41:13 公開日:2021-02-20
# 非干渉フェルミオン分布の効率的な学習

Efficient Learning of Non-Interacting Fermion Distributions ( http://arxiv.org/abs/2102.10458v1 )

ライセンス: Link先を確認
Scott Aaronson and Sabee Grewal(参考訳) 我々は、非相互作用フェルミオン状態の分布を計算ベースで回復する効率的な古典的アルゴリズムを与える。 相互作用しないフェルミオンと$m$モードのシステムの場合、$O(m^2 n^4 \log(m/\delta)/ \varepsilon^4)$サンプルと$O(m^4 n^4 \log(m/\delta)/ \varepsilon^4)$時間で、全変動距離$\varepsilon$の元の分布を学ぶのに十分である。 本アルゴリズムは,1モードと2モードの相関を経験的に推定し,分布全体の簡潔な記述を効率的に再構成する。

We give an efficient classical algorithm that recovers the distribution of a non-interacting fermion state over the computational basis. For a system of $n$ non-interacting fermions and $m$ modes, we show that $O(m^2 n^4 \log(m/\delta)/ \varepsilon^4)$ samples and $O(m^4 n^4 \log(m/\delta)/ \varepsilon^4)$ time are sufficient to learn the original distribution to total variation distance $\varepsilon$ with probability $1 - \delta$. Our algorithm empirically estimates the one- and two-mode correlations and uses them to reconstruct a succinct description of the entire distribution efficiently.
翻訳日:2021-02-23 14:40:53 公開日:2021-02-20
# 次世代システムにおけるシングルユーザ対話型ビームアライメントについて:ディープラーニングの視点から

On Single-User Interactive Beam Alignment in Next Generation Systems: A Deep Learning Viewpoint ( http://arxiv.org/abs/2102.10229v1 )

ライセンス: Link先を確認
Abbas Khalili and Sundeep Rangan and Elza Erkip(参考訳) ミリ波やテラヘルツなどの高周波での通信は、高い経路損失と強い影に悩まされ、信頼できるデータ伝送のためにビームフォーミングが必要です。 一方、高周波ではチャンネルは狭く、いくつかの空間クラスターで構成されています。 したがって、ビームアライメント(ba)戦略は、これらのチャネルクラスタの方向を見つけ、データ伝送に使用するビームの幅を調整するために使用される。 本研究では,チャネルが1つの支配的クラスタを持つ単一ユーザアップリンクシナリオを検討する。 ユーザが一定期間にわたって一連のbaパケットを送信すると仮定される。 一方、ベースステーション(bs)は異なるプローブビームを使用して異なる角度領域をスキャンする。 BS測定はノイズが多いため、確率1のユーザの到着角度(AoA)を含む狭いビームを見つけることはできません。 従って、BSは、割り当てられたビームの期待ビーム幅を最小化しつつ、ユーザのAoAを含むユーザに対して所定のエラー確率で狭ビームを割り当てる。 このノイズの少ないba問題の難解性から,この問題をディープニューラルネットワーク(dnn)のエンドツーエンド最適化として提案し,異なる損失関数の影響について検討した。 提案したDNNベースBAは、高SNRにおいて、ノイズのないときやすべてのSNRに対して、最適BAに近い性能を達成し、最先端性能を上回ることが観察された。

Communication in high frequencies such as millimeter wave and terahertz suffer from high path-loss and intense shadowing which necessitates beamforming for reliable data transmission. On the other hand, at high frequencies the channels are sparse and consist of few spatial clusters. Therefore, beam alignment (BA) strategies are used to find the direction of these channel clusters and adjust the width of the beam used for data transmission. In this work, a single-user uplink scenario where the channel has one dominant cluster is considered. It is assumed that the user transmits a set of BA packets over a fixed duration. Meanwhile, the base-station (BS) uses different probing beams to scan different angular regions. Since the BS measurements are noisy, it is not possible to find a narrow beam that includes the angle of arrival (AoA) of the user with probability one. Therefore, the BS allocates a narrow beam to the user which includes the AoA of the user with a predetermined error probability while minimizing the expected beamwidth of the allocated beam. Due to intractability of this noisy BA problem, here this problem is posed as an end-to-end optimization of a deep neural network (DNN) and effects of different loss functions are discussed and investigated. It is observed that the proposed DNN based BA, at high SNRs, achieves a performance close to that of the optimal BA when there is no-noise and for all SNRs, outperforms state-of-the-art.
翻訳日:2021-02-23 14:35:04 公開日:2021-02-20
# nasaトランジット系外惑星サーベイ衛星(tess)データにおけるトランジット系外惑星候補の機械学習による自動同定

Automated identification of transiting exoplanet candidates in NASA Transiting Exoplanets Survey Satellite (TESS) data with machine learning methods ( http://arxiv.org/abs/2102.10326v1 )

ライセンス: Link先を確認
Leon Ofman, Amir Averbuch, Adi Shliselberg, Idan Benaun, David Segev, Aron Rissman(参考訳) 機械学習(ML)手法を用いた新しい人工知能(AI)技術は、ThetaRay, Inc.によって開発されたいくつかのアルゴリズムを組み合わせて、NASAのトランジット太陽系外惑星探査衛星(TESS)データセットに適用され、外惑星候補を特定する。 AI/ML ThetaRayシステムは、最初にケプラー外惑星データで訓練され、TESSデータに適用する前に確認された外惑星で検証されます。 さまざまな観測パラメータに基づく既存および新機能は、半監視および非監視の機械学習技術を用いてAI/ML分析に構築され、使用されます。 宇宙望遠鏡のミクルスキアーカイブから得られたTESSミッションによって生成される10,803光曲線のしきい値交差イベント(TCE)へのThetaRayシステムの適用により、39の新しい太陽系外惑星候補(EPC)ターゲットを発見しました。 この研究は、EPCの迅速な自動分類のための大規模な天体物理データセットへの複数のAI/MLベースの方法論の組み合わせの成功した適用を初めて実証する。

A novel artificial intelligence (AI) technique that uses machine learning (ML) methodologies combines several algorithms, which were developed by ThetaRay, Inc., is applied to NASA's Transiting Exoplanets Survey Satellite (TESS) dataset to identify exoplanetary candidates. The AI/ML ThetaRay system is trained initially with Kepler exoplanetary data and validated with confirmed exoplanets before its application to TESS data. Existing and new features of the data, based on various observational parameters, are constructed and used in the AI/ML analysis by employing semi-supervised and unsupervised machine learning techniques. By the application of ThetaRay system to 10,803 light curves of threshold crossing events (TCEs) produced by the TESS mission, obtained from the Mikulski Archive for Space Telescopes, we uncover 39 new exoplanetary candidates (EPC) targets. This study demonstrates for the first time the successful application of combined multiple AI/ML-based methodologies to a large astrophysical dataset for rapid automated classification of EPCs.
翻訳日:2021-02-23 14:34:43 公開日:2021-02-20
# (参考訳) vision-aided 6g wireless communications: blockage predictionとproactive handoff [全文訳有]

Vision-Aided 6G Wireless Communications: Blockage Prediction and Proactive Handoff ( http://arxiv.org/abs/2102.09527v2 )

ライセンス: CC BY 4.0
Gouranga Charan, Muhammad Alrabeiah, and Ahmed Alkhateeb(参考訳) 遮断に対する感度は、高周波(5Gミリ波と6Gサブテラヘルツ)無線ネットワークにとって重要な課題です。 これらのネットワークは主にLOSリンクに依存しているため、突然のリンクブロックはネットワークの信頼性を脅かす。 さらに、LOSリンクがブロックされた場合、ネットワークは通常、ユーザを別のLOSベースステーションに渡す必要がある。 信頼性とレイテンシの課題に取り組む有望な方法は、無線ネットワークのプロアクションを可能にすることだ。 proactionは基本的に、ネットワークがブロック、特に動的ブロックを予測し、事前にユーザのハンドオフを開始することができる。 本論文では,基地局に設置されたRGBカメラの映像データを活用した無線ネットワークにおけるプロアクションを実現するための完全な機械学習フレームワークを提案する。 そこで本論文では,バイモーダルマシンラーニングを用いた視覚支援型無線通信ソリューションを提案し,アクティブブロッキング予測とユーザハンドオフを行う。 このソリューションの基礎は、視覚的および無線的データから受信する閉塞を予測する方法を学ぶディープラーニングアルゴリズムです。 このアルゴリズムの予測は無線ネットワークによって積極的にハンドオフ決定を開始し、不要な遅延を回避するために使用される。 このアルゴリズムは、ViWiデータ生成フレームワークを用いて生成されたビジョンワイヤレスデータセットに基づいて開発されている。 異なるカメラを持つ2つの基地局での実験結果は、アルゴリズムが正確に入ってくるブロックを90ドル以上正確に検出できることを示している。 このような閉塞予測能力は、プロアクティブハンドオフの精度に直接反映され、これはまた$87\%$に近づきます。 これは将来の無線ネットワークにおいて高い信頼性と低レイテンシを実現する、有望な方向を強調している。

The sensitivity to blockages is a key challenge for the high-frequency (5G millimeter wave and 6G sub-terahertz) wireless networks. Since these networks mainly rely on line-of-sight (LOS) links, sudden link blockages highly threaten the reliability of the networks. Further, when the LOS link is blocked, the network typically needs to hand off the user to another LOS basestation, which may incur critical time latency, especially if a search over a large codebook of narrow beams is needed. A promising way to tackle the reliability and latency challenges lies in enabling proaction in wireless networks. Proaction basically allows the network to anticipate blockages, especially dynamic blockages, and initiate user hand-off beforehand. This paper presents a complete machine learning framework for enabling proaction in wireless networks relying on visual data captured, for example, by RGB cameras deployed at the base stations. In particular, the paper proposes a vision-aided wireless communication solution that utilizes bimodal machine learning to perform proactive blockage prediction and user hand-off. The bedrock of this solution is a deep learning algorithm that learns from visual and wireless data how to predict incoming blockages. The predictions of this algorithm are used by the wireless network to proactively initiate hand-off decisions and avoid any unnecessary latency. The algorithm is developed on a vision-wireless dataset generated using the ViWi data-generation framework. Experimental results on two basestations with different cameras indicate that the algorithm is capable of accurately detecting incoming blockages more than $\sim 90\%$ of the time. Such blockage prediction ability is directly reflected in the accuracy of proactive hand-off, which also approaches $87\%$. This highlights a promising direction for enabling high reliability and low latency in future wireless networks.
翻訳日:2021-02-23 12:56:02 公開日:2021-02-20
# クロックワーク変動オートエンコーダ

Clockwork Variational Autoencoders ( http://arxiv.org/abs/2102.09532v2 )

ライセンス: Link先を確認
Vaibhav Saxena, Jimmy Ba, Danijar Hafner(参考訳) ディープラーニングにより、アルゴリズムは現実的な画像を生成することができる。 しかし、長いビデオシーケンスを正確に予測するには、長期的な依存関係を理解する必要がある。 既存のビデオ予測モデルはシャープな画像を生成するのに成功するが、未来まで正確に予測できない傾向にある。 Clockwork VAE (CW-VAE) は遅延列の階層構造を利用したビデオ予測モデルであり、高いレベルが遅い間隔でダクトされる。 CW-VAEは、最大1000フレームのシーケンスを持つ4つの多様なビデオ予測データセットにおいて、階層的遅延と時間的抽象化の両方の利点を示す。 さらに,長期ビデオ予測のためのMinecraftベンチマークを提案する。 我々はcw-vaeに関する洞察を得るためにいくつかの実験を行い、より遅いレベルがビデオでよりゆっくり変化するオブジェクトを表現することを学び、より速いレベルがより速いオブジェクトを表すことを学ぶ。

Deep learning has enabled algorithms to generate realistic images. However, accurately predicting long video sequences requires understanding long-term dependencies and remains an open challenge. While existing video prediction models succeed at generating sharp images, they tend to fail at accurately predicting far into the future. We introduce the Clockwork VAE (CW-VAE), a video prediction model that leverages a hierarchy of latent sequences, where higher levels tick at slower intervals. We demonstrate the benefits of both hierarchical latents and temporal abstraction on 4 diverse video prediction datasets with sequences of up to 1000 frames, where CW-VAE outperforms top video prediction models. Additionally, we propose a Minecraft benchmark for long-term video prediction. We conduct several experiments to gain insights into CW-VAE and confirm that slower levels learn to represent objects that change more slowly in the video, and faster levels learn to represent faster objects.
翻訳日:2021-02-23 11:33:43 公開日:2021-02-20