このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210214となっている論文です。

PDF登録状況(公開日: 20210214)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 非連続時間観測によるセルオートマトン規則の再構成 [全文訳有]

Reconstructing cellular automata rules from observations at nonconsecutive times ( http://arxiv.org/abs/2012.02179v2 )

ライセンス: CC BY 4.0
Veit Elser(参考訳) SpringerとKenyonによる最近の実験では、このアクションのランダム初期状態に対する数百万の例から、ConwayのGame of Lifeオートマトンにおける$t$のアクションを予測するために、ディープニューラルネットワークをトレーニングできることが示されている。 しかし、$t>1$でトレーニングが完全に成功したことはなく、たとえ成功したとしても、$t>1$データから基本ルール($t=1$)を再構築することは、ニューラルネットワークが提供できる範囲内にはない。 本稿では,制約射影に基づく代替ネットワーク的手法について述べる。 1つのデータ項目から、このメソッドはオートマトンルールだけでなく、見たことのない時間ステップの状態も完全に再構築する。 ユニークな再構成では、初期状態のサイズは十分の大きさでなければならず、$t-1$状態は全ての可能なオートマトン入力パターンを含むように進化する。 1d二項セルオートマトンを用いて,n$隣接セルから入力を受ける方法を示す。 実験における未知の規則は、入力上の数個の線型関数(ゲーム・オブ・ライフ(英語版)など)から導かれる単純な規則に限らず、$n$入力上の可能な規則を全て含んでいる。 この結果は$n=6$に拡張され、徹底的なルール検索は不可能である。 空間および時間における翻訳対称性を緩和することで,変数の離散性は勾配に基づく手法と同じ課題を生じないため,バイナリデータの学習のためのプラットフォームとして魅力的な手法である。

Recent experiments by Springer and Kenyon have shown that a deep neural network can be trained to predict the action of $t$ steps of Conway's Game of Life automaton given millions of examples of this action on random initial states. However, training was never completely successful for $t>1$, and even when successful, a reconstruction of the elementary rule ($t=1$) from $t>1$ data is not within the scope of what the neural network can deliver. We describe an alternative network-like method, based on constraint projections, where this is possible. From a single data item this method perfectly reconstructs not just the automaton rule but also the states in the time steps it did not see. For a unique reconstruction, the size of the initial state need only be large enough that it and the $t-1$ states it evolves into contain all possible automaton input patterns. We demonstrate the method on 1D binary cellular automata that take inputs from $n$ adjacent cells. The unknown rules in our experiments are not restricted to simple rules derived from a few linear functions on the inputs (as in Game of Life), but include all $2^{2^n}$ possible rules on $n$ inputs. Our results extend to $n=6$, for which exhaustive rule-search is not feasible. By relaxing translational symmetry in space and also time, our method is attractive as a platform for the learning of binary data, since the discreteness of the variables does not pose the same challenge it does for gradient-based methods.
翻訳日:2021-05-23 18:30:30 公開日:2021-02-14
# DeepTalk: 話者認識と音声合成のための音声スタイル符号化

DeepTalk: Vocal Style Encoding for Speaker Recognition and Speech Synthesis ( http://arxiv.org/abs/2012.05084v2 )

ライセンス: Link先を確認
Anurag Chowdhury, Arun Ross, Prabu David(参考訳) 自動音声認識アルゴリズムは通常、音声生成の生理学的および解剖学的側面を符号化する短期的スペクトル特徴を用いて音声を特徴付ける。 このようなアルゴリズムは、行動音声の特徴に含まれる話者依存特性を十分に活用していない。 本研究では,生音声データから直接発声スタイル特徴を抽出するDeepTalkという韻律符号化ネットワークを提案する。 deeptalkメソッドは、複数の挑戦的なデータセットにわたって、最先端の話者認識システムを上回る。 DeepTalkと最先端の生理的特徴に基づく話者認識システムを組み合わせることで、話者認識性能をさらに向上する。 また、deeptalkを最先端の音声合成システムに統合し、合成音声を生成する。 合成音声の詳細な分析により、DeepTalkは、音声スタイルモデリングに不可欠なF0輪郭をキャプチャすることを示した。 さらに、DeepTalkに基づく合成音声は、話者認識の文脈において、実際の音声とほとんど区別できない。

Automatic speaker recognition algorithms typically characterize speech audio using short-term spectral features that encode the physiological and anatomical aspects of speech production. Such algorithms do not fully capitalize on speaker-dependent characteristics present in behavioral speech features. In this work, we propose a prosody encoding network called DeepTalk for extracting vocal style features directly from raw audio data. The DeepTalk method outperforms several state-of-the-art speaker recognition systems across multiple challenging datasets. The speaker recognition performance is further improved by combining DeepTalk with a state-of-the-art physiological speech feature-based speaker recognition system. We also integrate DeepTalk into a current state-of-the-art speech synthesizer to generate synthetic speech. A detailed analysis of the synthetic speech shows that the DeepTalk captures F0 contours essential for vocal style modeling. Furthermore, DeepTalk-based synthetic speech is shown to be almost indistinguishable from real speech in the context of speaker recognition.
翻訳日:2021-05-16 01:47:03 公開日:2021-02-14
# (参考訳) 世論調査から学ぶ:MAX-E-$3$-SATのためのニューラルネットワーク [全文訳有]

Learning from Survey Propagation: a Neural Network for MAX-E-$3$-SAT ( http://arxiv.org/abs/2012.06344v2 )

ライセンス: CC0 1.0
Raffaele Marino(参考訳) 多くの自然最適化問題はnpハードであり、最悪の場合に正確に解くのが難しいことを意味する。 しかし、実際にはすべての(あるいはほとんどの)インスタンスに対して合理的に優れたソリューションを得るのに十分です。 本稿では,Deep Learning法を用いて,最大3-Satisfiability(MAX -E-$3$-SAT)問題に対して${\Theta(N})$で近似解を計算するアルゴリズムを提案する。 この手法により,調査伝播アルゴリズムによって得られた局所情報を用いてブール変数を修正可能な学習アルゴリズムを作成できる。 複数のブール変数を持つmax-e-$3$-satのランダムなcnfインスタンスについて、正確な分析を行うことで、この新しいアルゴリズムは、デシメーション戦略を避けて、メッセージの収束が見つからない場合でも、ランダムな値よりも優れた代入を構築できることを示した。 このアルゴリズムは最先端のMaximum Satisfiability (MAX-SAT)ソルバと競合するものではないが、トレーニング中に見たよりもはるかに大きく複雑な問題を解くことができる。

Many natural optimization problems are NP-hard, which implies that they are probably hard to solve exactly in the worst-case. However, it suffices to get reasonably good solutions for all (or even most) instances in practice. This paper presents a new algorithm for computing approximate solutions in ${\Theta(N})$ for the Maximum Exact 3-Satisfiability (MAX-E-$3$-SAT) problem by using deep learning methodology. This methodology allows us to create a learning algorithm able to fix Boolean variables by using local information obtained by the Survey Propagation algorithm. By performing an accurate analysis, on random CNF instances of the MAX-E-$3$-SAT with several Boolean variables, we show that this new algorithm, avoiding any decimation strategy, can build assignments better than a random one, even if the convergence of the messages is not found. Although this algorithm is not competitive with state-of-the-art Maximum Satisfiability (MAX-SAT) solvers, it can solve substantially larger and more complicated problems than it ever saw during training.
翻訳日:2021-05-15 21:40:38 公開日:2021-02-14
# (参考訳) モーメントコントラスト学習を用いた自己教師付きテキスト非依存話者検証 [全文訳有]

Self-supervised Text-independent Speaker Verification using Prototypical Momentum Contrastive Learning ( http://arxiv.org/abs/2012.07178v2 )

ライセンス: CC BY 4.0
Wei Xia, Chunlei Zhang, Chao Weng, Meng Yu, Dong Yu(参考訳) 本研究では,話者検証(SV)のための自己指導型表現学習について検討する。 まず、モーメントコントラスト学習フレームワーク(MoCo)を用いた単純なコントラスト学習手法(SimCLR)について検討する。 モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。 次に、同じ発話から2つのランダムセグメントの外部話者変動を正規化するために、代替拡張戦略を検討する。 具体的には、波形の増大はSVタスクの話者表現を大幅に改善する。 提案するmoco話者埋め込みは,先駆的なメモリバンクの導入によってさらに改善され,中間クラスタリングステップで話者埋め込みが割り当てられたプロトタイプに近づくように促される。 さらに,自己教師付きフレームワークを,データのごく一部しかラベル付けされていない半教師付きシナリオに一般化する。 voxcelebデータセットに関する包括的実験により,提案手法が既存の手法と比較して競争性能を達成し,部分的ラベル付きデータを用いて完全な教師付き結果にアプローチできることが証明された。

In this study, we investigate self-supervised representation learning for speaker verification (SV). First, we examine a simple contrastive learning approach (SimCLR) with a momentum contrastive (MoCo) learning framework, where the MoCo speaker embedding system utilizes a queue to maintain a large set of negative examples. We show that better speaker embeddings can be learned by momentum contrastive learning. Next, alternative augmentation strategies are explored to normalize extrinsic speaker variabilities of two random segments from the same speech utterance. Specifically, augmentation in the waveform largely improves the speaker representations for SV tasks. The proposed MoCo speaker embedding is further improved when a prototypical memory bank is introduced, which encourages the speaker embeddings to be closer to their assigned prototypes with an intermediate clustering step. In addition, we generalize the self-supervised framework to a semi-supervised scenario where only a small portion of the data is labeled. Comprehensive experiments on the Voxceleb dataset demonstrate that our proposed self-supervised approach achieves competitive performance compared with existing techniques, and can approach fully supervised results with partially labeled data.
翻訳日:2021-05-09 13:36:31 公開日:2021-02-14
# (参考訳) 部分的視覚触覚融合オブジェクトクラスタリング [全文訳有]

Generative Partial Visual-Tactile Fused Object Clustering ( http://arxiv.org/abs/2012.14070v2 )

ライセンス: CC BY 4.0
Tao Zhang and Yang Cong and Gan Sun and Jiahua Dong and Yuyang Liu and Zhengming Ding(参考訳) 触覚モダリティの関与はクラスタリング性能を効果的に改善できるため、オブジェクトクラスタリングのための視覚触覚融合センシングは近年大きな進歩を遂げている。 しかし、データ収集プロセス中の閉塞やノイズのため、欠落したデータ(すなわち部分的なデータ)は常に発生する。 この問題は、異種モダリティ問題に対する既存の部分的マルチビュークラスタリング手法ではうまく解決されていない。 これらの手法は必然的に負の効果を誘発し、パフォーマンスをさらに損なう。 上記の課題を解決するため、オブジェクトクラスタリングのための生成的部分視覚触覚融合(GPVTF)フレームワークを提案する。 より具体的には、まず、部分視覚データと触覚データから部分視覚特徴と触覚特徴を抽出し、抽出された特徴をモダリティ特有の特徴部分空間にエンコードする。 次に条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件付けを他方のモダリティ上で合成し、欠落したサンプルを補償し、逆学習によって自然に視覚と触覚のモダリティを調整する。 最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。 3つの視覚触覚データセットに関する広範囲な比較実験により,本手法の有効性が証明された。

Visual-tactile fused sensing for object clustering has achieved significant progresses recently, since the involvement of tactile modality can effectively improve clustering performance. However, the missing data (i.e., partial data) issues always happen due to occlusion and noises during the data collecting process. This issue is not well solved by most existing partial multi-view clustering methods for the heterogeneous modality challenge. Naively employing these methods would inevitably induce a negative effect and further hurt the performance. To solve the mentioned challenges, we propose a Generative Partial Visual-Tactile Fused (i.e., GPVTF) framework for object clustering. More specifically, we first do partial visual and tactile features extraction from the partial visual and tactile data, respectively, and encode the extracted features in modality-specific feature subspaces. A conditional cross-modal clustering generative adversarial network is then developed to synthesize one modality conditioning on the other modality, which can compensate missing samples and align the visual and tactile modalities naturally by adversarial learning. To the end, two pseudo-label based KL-divergence losses are employed to update the corresponding modality-specific encoders. Extensive comparative experiments on three public visual-tactile datasets prove the effectiveness of our method.
翻訳日:2021-04-24 18:16:45 公開日:2021-02-14
# 植物を同時に数えるCNNアプローチとUAV画像からの植林地検出

A CNN Approach to Simultaneously Count Plants and Detect Plantation-Rows from UAV Imagery ( http://arxiv.org/abs/2012.15827v3 )

ライセンス: Link先を確認
Lucas Prado Osco, Mauro dos Santos de Arruda, Diogo Nunes Gon\c{c}alves, Alexandre Dias, Juliana Batistoti, Mauricio de Souza, Felipe David Georges Gomes, Ana Paula Marques Ramos, L\'ucio Andr\'e de Castro Jorge, Veraldo Liesenberg, Jonathan Li, Lingfei Ma, Jos\'e Marcato Junior, Wesley Nunes Gon\c{c}alves(参考訳) 本稿では,高密度プランテーション構成を考慮したプラントを数えながら,同時にプランテーション群を検出・位置決めする畳み込みニューラルネットワーク(CNN)に基づく新しい深層学習手法を提案する。 生育段階の異なるトウモロコシ畑とカンキツ果樹園において実験セットアップを評価した。 両方のデータセットは、異なる植物密度シナリオ、場所、作物の種類、センサー、日付を特徴付ける。 cnn法では,プランテーションロウ内で得られた情報を植物検出ブランチに更新し,行ブランチにレトロフィードし,多段階リファインメント法により精製した2分岐アーキテクチャを実装した。 コーンプランテーションデータセット(成長期,若年,成熟期ともに)では,画像パッチあたりの平均絶対誤差が6.224本,平均相対誤差が0.1038本,精度が0.856本,リコール値が0.905本,F値が0.876本であった。 これらの結果は、同じタスクとデータセットで評価された他のディープネットワーク(HRNet、Faster R-CNN、RetinaNet)よりも優れていた。 プランテーションロー検出では, 精度, リコール, F測定スコアが0.913, 0.941, 0.925であった。 異なるタイプの農業でモデルのロバスト性をテストするために、我々はcitrus orchardデータセットで同じタスクを実行しました。 1パッチあたり1.409シトラス・ツリー、mre 0.0615、精度0.922、リコール0.911、f-測定値0.965である。 カントラスプランテーションロー検出では, 精度, 再現率, f-測定値はそれぞれ0.965, 0.970, 0.964であった。 提案手法は, 異なる作物のuav画像において, 植物と植物群を計数し, 測地する技術として, 最先端の性能を得た。

In this paper, we propose a novel deep learning method based on a Convolutional Neural Network (CNN) that simultaneously detects and geolocates plantation-rows while counting its plants considering highly-dense plantation configurations. The experimental setup was evaluated in a cornfield with different growth stages and in a Citrus orchard. Both datasets characterize different plant density scenarios, locations, types of crops, sensors, and dates. A two-branch architecture was implemented in our CNN method, where the information obtained within the plantation-row is updated into the plant detection branch and retro-feed to the row branch; which are then refined by a Multi-Stage Refinement method. In the corn plantation datasets (with both growth phases, young and mature), our approach returned a mean absolute error (MAE) of 6.224 plants per image patch, a mean relative error (MRE) of 0.1038, precision and recall values of 0.856, and 0.905, respectively, and an F-measure equal to 0.876. These results were superior to the results from other deep networks (HRNet, Faster R-CNN, and RetinaNet) evaluated with the same task and dataset. For the plantation-row detection, our approach returned precision, recall, and F-measure scores of 0.913, 0.941, and 0.925, respectively. To test the robustness of our model with a different type of agriculture, we performed the same task in the citrus orchard dataset. It returned an MAE equal to 1.409 citrus-trees per patch, MRE of 0.0615, precision of 0.922, recall of 0.911, and F-measure of 0.965. For citrus plantation-row detection, our approach resulted in precision, recall, and F-measure scores equal to 0.965, 0.970, and 0.964, respectively. The proposed method achieved state-of-the-art performance for counting and geolocating plants and plant-rows in UAV images from different types of crops.
翻訳日:2021-04-17 17:06:21 公開日:2021-02-14
# 説明可能な計画のための議論手法と対話

Argument Schemes and Dialogue for Explainable Planning ( http://arxiv.org/abs/2101.02648v2 )

ライセンス: Link先を確認
Quratul-ain Mahesar and Simon Parsons(参考訳) 人工知能(AI)は、実用アプリケーションにますます導入されている。 しかし、AIシステムが人間によって信頼されるかどうかには大きな懸念がある。 AIシステムへの信頼を確立するためには、ユーザがソリューションの背後にある理由を理解する必要がある。 したがって、システムはアウトプットの説明と正当化を行なわなければならない。 本稿では,AI計画の分野における説明を提供するための議論スキームに基づくアプローチを提案する。 提案手法は,計画とその鍵要素を説明するための新たな議論スキームと,議論間の相互作用を許容し,利用者が計画の重要な要素に関するさらなる情報を得ることができるための重要な質問のセットを提供する。 さらに,対話的弁証説明のための議論スキームと批判的質問を用いた対話システムを提案する。

Artificial Intelligence (AI) is being increasingly deployed in practical applications. However, there is a major concern whether AI systems will be trusted by humans. In order to establish trust in AI systems, there is a need for users to understand the reasoning behind their solutions. Therefore, systems should be able to explain and justify their output. In this paper, we propose an argument scheme-based approach to provide explanations in the domain of AI planning. We present novel argument schemes to create arguments that explain a plan and its key elements; and a set of critical questions that allow interaction between the arguments and enable the user to obtain further information regarding the key elements of the plan. Furthermore, we present a novel dialogue system using the argument schemes and critical questions for providing interactive dialectical explanations.
翻訳日:2021-04-10 13:38:34 公開日:2021-02-14
# 複数のトランスフォーマーを用いた自己着脱機構のための画像キャプション

Image Captioning using Multiple Transformers for Self-Attention Mechanism ( http://arxiv.org/abs/2103.05103v1 )

ライセンス: Link先を確認
Farrukh Olimov, Shikha Dubey, Labina Shrestha, Tran Trung Tin, Moongu Jeon(参考訳) リアルタイム画像キャプションは、適切な精度とともに、この研究分野の主要な課題である。 MTSM(Multiple Transformer for Self-Attention Mechanism)は,これらの問題に対処するために複数のトランスを利用する。 提案アルゴリズムであるMTSMは、変圧器検出器(DETR)を用いて領域提案を取得する。 その結果、MTSMはこれらの領域の提案とその視覚的特徴と幾何学的特徴を別の変換器を通して伝達し、オブジェクトの局所的および大域的相互接続を学習することで自己注意機構を実現する。 MSCOCOデータセットには,提案アルゴリズムMTSMの質的,定量的な結果が示されている。

Real-time image captioning, along with adequate precision, is the main challenge of this research field. The present work, Multiple Transformers for Self-Attention Mechanism (MTSM), utilizes multiple transformers to address these problems. The proposed algorithm, MTSM, acquires region proposals using a transformer detector (DETR). Consequently, MTSM achieves the self-attention mechanism by transferring these region proposals and their visual and geometrical features through another transformer and learns the objects' local and global interconnections. The qualitative and quantitative results of the proposed algorithm, MTSM, are shown on the MSCOCO dataset.
翻訳日:2021-04-05 00:42:33 公開日:2021-02-14
# 有限合流と閉パターンマイニング

Finite Confluences and Closed Pattern Mining ( http://arxiv.org/abs/2102.11924v1 )

ライセンス: Link先を確認
Henry Soldano(参考訳) 本論文の目的は, 格子構造よりも弱い部分次構造と, 閉包演算子に関する良好な性質を有する部分次構造を提案し, 検討することである。 我々は、パターンマイニングと形式的概念分析をそのような構造に拡張し、さらに共役と呼ぶ。 これらの構造を研究する主な動機は、あるグラフのように要素が連結している部分への格子を減少させることで、閉包作用素の有用な特徴づけを保っていることである。 また,ガロア接続に関わる格子の1つが閉包作用素の構造に与える影響についても検討した。 この方法で形式的概念解析を拡張する際には、エンテンソル空間、すなわち、焦点をあてる。 パターン言語を減らすために、最近の研究はむしろ連結要素への拡張空間の減少を探求した。

The purpose of this article is to propose and investigate a partial order structure weaker than the lattice structure and which have nice properties regarding closure operators. We extend accordingly closed pattern mining and formal concept analysis to such structures we further call confluences. The primary motivation for investigating these structures is that it allows to reduce a lattice to a part whose elements are connected, as in some graph, still preserving a useful characterization of closure operators. Our investigation also considers how reducing one of the lattice involved in a Galois connection affects the structure of the closure operators ranges. When extending this way formal concept analysis we will focus on the intensional space, i.e. in reducing the pattern language, while recent investigations rather explored the reduction of the extensional space to connected elements.
翻訳日:2021-04-05 00:40:31 公開日:2021-02-14
# 全脳動的因果モデリングのためのマルチシューティング随伴法

Multiple-shooting adjoint method for whole-brain dynamic causal modeling ( http://arxiv.org/abs/2102.11013v1 )

ライセンス: Link先を確認
Juntang Zhuang, Nicha Dvornek, Sekhar Tatikonda, Xenophon Papademetris, Pamela Ventola, James Duncan(参考訳) 動的因果モデリング(dcm)は、コンパートメント間の有向接続を推測するベイズ的枠組みであり、機能的神経画像データに基づく基礎的神経集団間の相互作用を記述するために用いられてきた。 DCMは通常、期待最大化(EM)アルゴリズムで解析される。 しかし、ノイズの多い観測が存在する場合、大規模連続系の逆転は困難であるため、EMによるDCMは通常、少数のコンパートメント($<10$)に制限される。 現在の方法のもう一つの欠点は複雑さであり、前方モデルが変化すると後平均が変化し、最適化のためにアルゴリズムを再導出する必要がある。 本稿では,これらの制約に対処するMultiple-Shooting Adjoint (MSA)法を提案する。 MSAは,一般微分方程式(ODE)のパラメータ推定にマルチシューティング法を用い,機能的MRI(fMRI)における全脳分析などの大規模システムに適している。 さらに、MSAは、ODEの正確な勾配推定にadjoint法を使用し、adjoint法は汎用的であるため、線形系と非線形系の汎用的手法であり、EMのようなアルゴリズムの再導出を必要としない。 1) 線形モデルと非線形モデルの両方を用いた玩具実験において,MSAはEMよりもパラメータ値推定の精度が良いこと,さらに,100個のコンパートメントを持つ大規模システムに適用可能であること,2) 実fMRIデータを用いて全脳有効コネクトームの推定にMSAを適用し,機能的コネクトームと比較して自閉症スペクトラム障害(ASD)と制御の分類の改善を示す。 パッケージは \url{https://jzkay12.gith ub.io/torchdiffeqpac k} で提供される。

Dynamic causal modeling (DCM) is a Bayesian framework to infer directed connections between compartments, and has been used to describe the interactions between underlying neural populations based on functional neuroimaging data. DCM is typically analyzed with the expectation-maximiza tion (EM) algorithm. However, because the inversion of a large-scale continuous system is difficult when noisy observations are present, DCM by EM is typically limited to a small number of compartments ($<10$). Another drawback with the current method is its complexity; when the forward model changes, the posterior mean changes, and we need to re-derive the algorithm for optimization. In this project, we propose the Multiple-Shooting Adjoint (MSA) method to address these limitations. MSA uses the multiple-shooting method for parameter estimation in ordinary differential equations (ODEs) under noisy observations, and is suitable for large-scale systems such as whole-brain analysis in functional MRI (fMRI). Furthermore, MSA uses the adjoint method for accurate gradient estimation in the ODE; since the adjoint method is generic, MSA is a generic method for both linear and non-linear systems, and does not require re-derivation of the algorithm as in EM. We validate MSA in extensive experiments: 1) in toy examples with both linear and non-linear models, we show that MSA achieves better accuracy in parameter value estimation than EM; furthermore, MSA can be successfully applied to large systems with up to 100 compartments; and 2) using real fMRI data, we apply MSA to the estimation of the whole-brain effective connectome and show improved classification of autism spectrum disorder (ASD) vs. control compared to using the functional connectome. The package is provided \url{https://jzkay12.gith ub.io/TorchDiffEqPac k}
翻訳日:2021-04-05 00:40:19 公開日:2021-02-14
# (参考訳) 単一タスクマルチシーン強化学習のためのスパースアテンションガイド動的値推定 [全文訳有]

Sparse Attention Guided Dynamic Value Estimation for Single-Task Multi-Scene Reinforcement Learning ( http://arxiv.org/abs/2102.07266v1 )

ライセンス: CC BY 4.0
Jaskirat Singh, Liang Zheng(参考訳) シミュレーションから実世界への一般化とドメイン移行の実現を目指す多くのアプリケーションにおいて,複数のレベル/シーンを持つ環境における深層強化学習エージェントの訓練が不可欠となっている。 このような戦略は一般化に有効であるが、複数のシーンを使用すると、ポリシー勾配計算のために収集されたサンプルの分散が著しく増加する。 現在の方法は、このシーンのコレクションを単一のマルコフ決定プロセス(MDP)として効果的に見続け、したがってシーンジェネリック値関数V(s)を学ぶ。 しかし,マルチシーン環境におけるサンプルの分散は,各シーンを個別のMDPとして扱い,さらに,状態 s と MDP M に依存したジョイント値関数 V(s,M) を学習することで,最小限に抑えられ,また,マルチシーン環境における真のジョイント値関数は,従来のCNN/LSTMベースの批判ネットワークでは捉えられていないマルチモーダル分布に従うことを実証する。 そこで本論文では,多値関数仮説/モード上のスパースアテンション機構を用いて,真の関節値関数を近似する動的値推定(DVE)手法を提案する。 結果として得られるエージェントは、さまざまなOpenAI ProcGen環境における最終的な報酬スコアを大幅に改善するだけでなく、ナビゲーション効率を向上させ、監視されていない状態空間スキル分解の暗黙的なメカニズムを提供します。

Training deep reinforcement learning agents on environments with multiple levels / scenes from the same task, has become essential for many applications aiming to achieve generalization and domain transfer from simulation to the real world. While such a strategy is helpful with generalization, the use of multiple scenes significantly increases the variance of samples collected for policy gradient computations. Current methods, effectively continue to view this collection of scenes as a single Markov decision process (MDP), and thus learn a scene-generic value function V(s). However, we argue that the sample variance for a multi-scene environment is best minimized by treating each scene as a distinct MDP, and then learning a joint value function V(s,M) dependent on both state s and MDP M. We further demonstrate that the true joint value function for a multi-scene environment, follows a multi-modal distribution which is not captured by traditional CNN / LSTM based critic networks. To this end, we propose a dynamic value estimation (DVE) technique, which approximates the true joint value function through a sparse attention mechanism over multiple value function hypothesis / modes. The resulting agent not only shows significant improvements in the final reward score across a range of OpenAI ProcGen environments, but also exhibits enhanced navigation efficiency and provides an implicit mechanism for unsupervised state-space skill decomposition.
翻訳日:2021-02-17 19:32:33 公開日:2021-02-14
# (参考訳) データ効率的な知識蒸留のための自己制御学習機構 [全文訳有]

Self Regulated Learning Mechanism for Data Efficient Knowledge Distillation ( http://arxiv.org/abs/2102.07125v1 )

ライセンス: CC BY 4.0
Sourav Mishra and Suresh Sundaram(参考訳) 既存の蒸留法は、すべてのサンプルがプロセスに等しく参加し、データ利用の面では極めて非効率な、従来のトレーニングアプローチを用いる。 本稿では,教師モデルから生徒モデルへ知識を伝達するための,データ効率の新たなアプローチを提案する。 ここで,教師モデルでは,学習に適切なサンプルの選択と,その過程における意義の特定に自己規制を用いる。 蒸留中は、学生を監督するソフトターゲットと共に重要な情報を利用することができる。 知識伝達過程を監督する上で, 自己規制とサンプル重要度情報を用いることにより, それぞれ有意義, 規制, ハイブリッドの3種類の蒸留法が提案されている。 ベンチマークデータセットを用いた実験により,提案手法は知識蒸留における他の最先端手法と同等の性能を示し,サンプル数を大幅に減らした。

Existing methods for distillation use the conventional training approach where all samples participate equally in the process and are thus highly inefficient in terms of data utilization. In this paper, a novel data-efficient approach to transfer the knowledge from a teacher model to a student model is presented. Here, the teacher model uses self-regulation to select appropriate samples for training and identifies their significance in the process. During distillation, the significance information can be used along with the soft-targets to supervise the students. Depending on the use of self-regulation and sample significance information in supervising the knowledge transfer process, three types of distillations are proposed - significance-based, regulated, and hybrid, respectively. Experiments on benchmark datasets show that the proposed methods achieve similar performance as other state-of-the-art methods for knowledge distillation while utilizing a significantly less number of samples.
翻訳日:2021-02-17 18:00:30 公開日:2021-02-14
# 圧縮信念を用いたコミュニケーション効率の高い分散協調学習

Communication-Effici ent Distributed Cooperative Learning with Compressed Beliefs ( http://arxiv.org/abs/2102.07767v1 )

ライセンス: Link先を確認
Mohammad Taha Toghani, Cesar A. Uribe(参考訳) 我々は分散協調学習の問題を研究する。エージェントのグループは、プライベートな観察のシーケンスを最もよく記述する仮説のセットに同意しようとします。 仮説の集合が大きくなるシナリオでは、エージェントが任意の正の圧縮率で圧縮された(疎あるいは量子化された)信念を共有できる信念更新ルールを提案する。 私たちのアルゴリズムは、エージェントがブラックボックスモジュールとして広範囲の圧縮演算子にアクセスできるようにする統一された簡単な通信ルールを利用します。 最適な仮説の集合の周りの信念の漸近的指数収束をほぼ確実に証明する。 さらに, 最適仮説集合上の信念の確率において, 非漸近的, 明示的, 線形集中率を示す。 提案手法の通信効果を説明するための数値実験を行った。 シミュレーションの結果, 実験シナリオでは, 送信ビット数は非圧縮方式の5~10%に削減できることがわかった。

We study the problem of distributed cooperative learning, where a group of agents seek to agree on a set of hypotheses that best describes a sequence of private observations. In the scenario where the set of hypotheses is large, we propose a belief update rule where agents share compressed (either sparse or quantized) beliefs with an arbitrary positive compression rate. Our algorithm leverages a unified and straightforward communication rule that enables agents to access wide-ranging compression operators as black-box modules. We prove the almost sure asymptotic exponential convergence of beliefs around the set of optimal hypotheses. Additionally, we show a non-asymptotic, explicit, and linear concentration rate in probability of the beliefs on the optimal hypothesis set. We provide numerical experiments to illustrate the communication benefits of our method. The simulation results show that the number of transmitted bits can be reduced to 5-10% of the non-compressed method in the studied scenarios.
翻訳日:2021-02-17 15:09:20 公開日:2021-02-14
# (参考訳) Sliced Multi-Marginal Optimal Transport [全文訳有]

Sliced Multi-Marginal Optimal Transport ( http://arxiv.org/abs/2102.07115v1 )

ライセンス: CC BY 4.0
Samuel Cohen, K S Sesh Kumar, Marc Peter Deisenroth(参考訳) 複数の測度間の相違を定義できる最適輸送の一般化であるマルチマルジナル最適輸送について検討する。 マルチタスク学習の問題を解決し、バリー中心の平均化を実行するためのフレームワークを提供する。 しかし、複数の測度間のマルチマージ距離は、通常、$N^P$変数でトランスポート計画を推定する必要があるため、計算が困難である。 本稿では, 古典的コスト関数を閉形式で解くために, 1次元のマルチマージ-ワッサーシュタイン問題を効率的に解き, 2次元のマルチマージ差分をスライシングにより提案し, その一般化された距離特性について検討する。 分割されたマルチマルジナル不一致の計算は、多くの確率測度に対して非常にスケーラブルであり、最大10^7$サンプルをサポートすることを示す。 本手法は, 偏心平均化, マルチタスク密度推定, マルチタスク強化学習などの問題解決に応用できる。

We study multi-marginal optimal transport, a generalization of optimal transport that allows us to define discrepancies between multiple measures. It provides a framework to solve multi-task learning problems and to perform barycentric averaging. However, multi-marginal distances between multiple measures are typically challenging to compute because they require estimating a transport plan with $N^P$ variables. In this paper, we address this issue in the following way: 1) we efficiently solve the one-dimensional multi-marginal Monge-Wasserstein problem for a classical cost function in closed form, and 2) we propose a higher-dimensional multi-marginal discrepancy via slicing and study its generalized metric properties. We show that computing the sliced multi-marginal discrepancy is massively scalable for a large number of probability measures with support as large as $10^7$ samples. Our approach can be applied to solving problems such as barycentric averaging, multi-task density estimation and multi-task reinforcement learning.
翻訳日:2021-02-17 13:14:58 公開日:2021-02-14
# (参考訳) ノルム制約付き過パラメータ線形回帰の予測正規化最大確率:後悔と二重降下 [全文訳有]

The Predictive Normalized Maximum Likelihood for Over-parameterized Linear Regression with Norm Constraint: Regret and Double Descent ( http://arxiv.org/abs/2102.07181v1 )

ライセンス: CC BY 4.0
Koby Bibas and Meir Feder(参考訳) 学習理論の基本的な原則は、予測規則の複雑さと一般化能力との間にトレードオフが存在することである。 二重日現象は、現代の機械学習モデルがこのパラダイムに従わないことを示している:補間限界を超えて、モデルの複雑さが増加するにつれてテストエラーは減少する。 最近提案された予測正規化最大可能性(pNML)学習者を用いて線形回帰におけるオーバーパラメータ化を研究する。 実験サンプルがトレーニングデータの経験的相関行列の大きな固有値に関連付けられた固有ベクトルによって分散された部分空間内にある場合、その過度パラメータ化の性質にもかかわらず、モデルは一般化されることを示す。 合成データに対するポイントワイズ学習可能性尺度としてのpNMLリサイタルの使用を実証し,UCIデータセットを用いて2次元現象の予測に成功した。

A fundamental tenet of learning theory is that a trade-off exists between the complexity of a prediction rule and its ability to generalize. The double-decent phenomenon shows that modern machine learning models do not obey this paradigm: beyond the interpolation limit, the test error declines as model complexity increases. We investigate over-parameterizatio n in linear regression using the recently proposed predictive normalized maximum likelihood (pNML) learner which is the min-max regret solution for individual data. We derive an upper bound of its regret and show that if the test sample lies mostly in a subspace spanned by the eigenvectors associated with the large eigenvalues of the empirical correlation matrix of the training data, the model generalizes despite its over-parameterized nature. We demonstrate the use of the pNML regret as a point-wise learnability measure on synthetic data and that it can successfully predict the double-decent phenomenon using the UCI dataset.
翻訳日:2021-02-17 12:52:30 公開日:2021-02-14
# (参考訳) 非線形メタラーニングのためのサンプル効率な部分空間ベース表現 [全文訳有]

Sample Efficient Subspace-based Representations for Nonlinear Meta-Learning ( http://arxiv.org/abs/2102.07206v1 )

ライセンス: CC BY 4.0
Halil Ibrahim Gulluk, Yue Sun, Samet Oymak, Maryam Fazel(参考訳) 優れた表現を構築することは、複雑なタスクを効率的にサンプルで学習するために重要である。 メタラーニングの文脈では、前述したタスクの共通パターンから表現を構築することで、将来のタスクを素早く学習することができる。 最近の研究は部分空間に基づく表現の利点を示しているが、そのような結果は線形回帰タスクに限定されている。 本研究は,バイナリ分類,一般化線形モデル,ニューラルネットなどを含む,より一般的な非線形タスクのクラスを探索する。 サブスペースに基づく表現をサンプル効率のよい方法で学習できることを証明し、サンプル複雑性の観点から将来のタスクに有益であることを証明する。 数値結果は分類とニューラルネットワーク回帰タスクにおける理論的予測を検証する。

Constructing good representations is critical for learning complex tasks in a sample efficient manner. In the context of meta-learning, representations can be constructed from common patterns of previously seen tasks so that a future task can be learned quickly. While recent works show the benefit of subspace-based representations, such results are limited to linear-regression tasks. This work explores a more general class of nonlinear tasks with applications ranging from binary classification, generalized linear models and neural nets. We prove that subspace-based representations can be learned in a sample-efficient manner and provably benefit future tasks in terms of sample complexity. Numerical results verify the theoretical predictions in classification and neural-network regression tasks.
翻訳日:2021-02-17 12:31:55 公開日:2021-02-14
# (参考訳) 自己構成型コンパタンスサンプリングを用いた配電盤のブラックボックスシミュレーションの効率向上

Achieving Efficiency in Black Box Simulation of Distribution Tails with Self-structuring Importance Samplers ( http://arxiv.org/abs/2102.07060v1 )

ライセンス: CC BY 4.0
Anand Deo, Karthyek Murthy(参考訳) 本稿では,リスク管理と意思決定の自動化を促進するモデルの普及に動機づけられ,特徴量に基づく決定ルール,混合整数線形プログラム,ディープニューラルネットワークなどのツールによりモデル化された目的の分散テールを測定するための新しい重要サンプリング(is)方式を提案する。 従来の効率的なISアプローチは、基本的な確率分布と目的にサンプラーを複雑に調整する必要があるため、実現可能性とスケーラビリティの懸念に苦しんでいます。 この課題は、少ない希少サンプルで観察された濃度特性を暗黙的に学習し複製する変換により、有効なIS分布の選択を自動化することによって、提案されたブラックボックススキームで克服される。 この新しいアプローチは、最適なIS分布の自己相似性の現象をもたらす大きな偏差原理によって導かれる。 提案手法は, 基礎構造に従わなくても, 多変量分布のスペクトルを横断する漸近的最適分散還元を実現する最初の方法である。 大偏差原理はさらに、操作的洞察を与えることができる新しい分布末尾漸近論をもたらす。 製品流通ネットワークとポートフォリオ信用リスクモデルについて,ニューラルネットワークを例に挙げて,適用可能性を示す。

Motivated by the increasing adoption of models which facilitate greater automation in risk management and decision-making, this paper presents a novel Importance Sampling (IS) scheme for measuring distribution tails of objectives modelled with enabling tools such as feature-based decision rules, mixed integer linear programs, deep neural networks, etc. Conventional efficient IS approaches suffer from feasibility and scalability concerns due to the need to intricately tailor the sampler to the underlying probability distribution and the objective. This challenge is overcome in the proposed black-box scheme by automating the selection of an effective IS distribution with a transformation that implicitly learns and replicates the concentration properties observed in less rare samples. This novel approach is guided by a large deviations principle that brings out the phenomenon of self-similarity of optimal IS distributions. The proposed sampler is the first to attain asymptotically optimal variance reduction across a spectrum of multivariate distributions despite being oblivious to the underlying structure. The large deviations principle additionally results in new distribution tail asymptotics capable of yielding operational insights. The applicability is illustrated by considering product distribution networks and portfolio credit risk models informed by neural networks as examples.
翻訳日:2021-02-17 07:21:36 公開日:2021-02-14
# (参考訳) indicnlp@kgp - DravidianLangTech-EA CL2021: Offensive Language Identification in Dravidian Languages [全文訳有]

indicnlp@kgp at DravidianLangTech-EA CL2021: Offensive Language Identification in Dravidian Languages ( http://arxiv.org/abs/2102.07150v1 )

ライセンス: CC BY 4.0
Kushal Kedia, Abhilash Nandy(参考訳) 本論文は、EACL 2021共有タスク「ドラヴィダ語におけるOffensive Language Identification in Dravidian Languages」に対して、チーム indicnlp@kgp を提出する。 このタスクは、異なる攻撃的コンテンツタイプを3つのコード混合Dravidian言語データセットに分類することを目的としている。 この研究は、テキスト分類における既存の手法の状況を利用して、事前訓練されたモデルに追加のデータと転送学習を組み込む。 最終的な提出は、BERTとRoBERTaに基づく2つのトランスモデルアーキテクチャとともに、AWD-LSTMベースのモデルのアンサンブルです。 マラヤラム・英語・タミル・英語・カナダ・英語では,平均F1スコアが0.97,0.77,0.72となり,各タスクで1位,2位,3位となった。

The paper presents the submission of the team indicnlp@kgp to the EACL 2021 shared task "Offensive Language Identification in Dravidian Languages." The task aimed to classify different offensive content types in 3 code-mixed Dravidian language datasets. The work leverages existing state of the art approaches in text classification by incorporating additional data and transfer learning on pre-trained models. Our final submission is an ensemble of an AWD-LSTM based model along with 2 different transformer model architectures based on BERT and RoBERTa. We achieved weighted-average F1 scores of 0.97, 0.77, and 0.72 in the Malayalam-English, Tamil-English, and Kannada-English datasets ranking 1st, 2nd, and 3rd on the respective tasks.
翻訳日:2021-02-17 06:09:50 公開日:2021-02-14
# (参考訳) 平均報酬MDPの現状と公平性 [全文訳有]

State-Visitation Fairness in Average-Reward MDPs ( http://arxiv.org/abs/2102.07120v1 )

ライセンス: CC BY 4.0
Ganesh Ghalme, Vineet Nair, Vishakha Patil, Yilun Zhou(参考訳) フェアネスは、特にこれらの決定が人間の福祉に影響を与える場合、近年、自動意思決定において重要な関心事となっている。 本研究では,時間的拡大した意思決定,特にマルコフ決定プロセス(mdps)として定式化された意思決定における公平性について検討する。 提案する公平性の概念は,各州の長期訪問頻度が指定された割合以上であることを保証する。 平均逆 MDP (AMDP) では,この問題を双線形サドル点プログラムとして定式化し,生成モデルでは確率ミラーDescent (SMD) に基づくアルゴリズムを用いて解いた。 提案手法は,予測平均逆方向と長期状態視周波数の同時近似を保証する。 合成データに関する実験により理論的結果を検証する。

Fairness has emerged as an important concern in automated decision-making in recent years, especially when these decisions affect human welfare. In this work, we study fairness in temporally extended decision-making settings, specifically those formulated as Markov Decision Processes (MDPs). Our proposed notion of fairness ensures that each state's long-term visitation frequency is more than a specified fraction. In an average-reward MDP (AMDP) setting, we formulate the problem as a bilinear saddle point program and, for a generative model, solve it using a Stochastic Mirror Descent (SMD) based algorithm. The proposed solution guarantees a simultaneous approximation on the expected average-reward and the long-term state-visitation frequency. We validate our theoretical results with experiments on synthetic data.
翻訳日:2021-02-17 06:02:11 公開日:2021-02-14
# (参考訳) 倫理について話すだけでは不十分な理由:フィンテックのAI倫理に関する提案 [全文訳有]

Why Talking about ethics is not enough: a proposal for Fintech's AI ethics ( http://arxiv.org/abs/2102.07213v1 )

ライセンス: CC BY 4.0
Cristina Godoy Bernardo de Oliveira and Evandro Eduardo Seron Ruiz(参考訳) 金融セクターにおける人工知能(AI)の潜在的な応用が増加するにつれ、倫理的問題が徐々に潜んでいる。 フィンテックの活動から生じるリスクに対する個人、社会グループ、政府への不信感が高まっている。 このシナリオにより、推奨事項と倫理ガイドラインの作成が増加しており、企業にとって最も適した原則と倫理的価値を選択するリスクが高くなっています。 したがって、この探索的研究は、ステークホルダー理論の適用の利点と社会ライセンスのアイデアを分析し、信頼の環境を構築し、フィンテックによる倫理的原則の実現を目指しています。 社会ライセンスの創設のためのフィンテック協会の設立により、初期段階のフィンテックは、ダイナミックな倫理規範の解明とステークホルダーの参加における活動の開始から参加することができます。

As the potential applications of Artificial Intelligence (AI) in the financial sector increases, ethical issues become gradually latent. The distrust of individuals, social groups, and governments about the risks arising from Fintech's activities is growing. Due to this scenario, the preparation of recommendations and Ethics Guidelines is increasing and the risks of being chosen the principles and ethical values most appropriate to companies are high. Thus, this exploratory research aims to analyze the benefits of the application of the stakeholder theory and the idea of Social License to build an environment of trust and for the realization of ethical principles by Fintech. The formation of a Fintech association for the creation of a Social License will allow early-stage Fintech to participate from the beginning of its activities in the elaboration of a dynamic ethical code and with the participation of stakeholders.
翻訳日:2021-02-17 05:31:15 公開日:2021-02-14
# (参考訳) 責任ネットワークによる責任管理 [全文訳有]

Responsibility Management through Responsibility Networks ( http://arxiv.org/abs/2102.07246v1 )

ライセンス: CC0 1.0
Ruijun Chen, Jiong Qiu and Xuejiao Tang(参考訳) 安全管理は職場において極めて重要である。 残念ながら、非効率的な監督、不十分な評価、不十分な認識などの責任問題は適切に対処されていません。 そこで本論文では,責任管理のためのインターネット責任(Internet of Responsibilities, IoR)を展開する。 iorフレームワークの構築、階層的責任管理、あらゆるレベルでの自動責任評価、効率的な責任認識を実現している。 IoRシステムの実践的展開は、様々な職場で効果的な責任管理能力を示した。

The safety management is critically important in the workplace. Unfortunately, responsibility issues therein such as inefficient supervision, poor evaluation and inadequate perception have not been properly addressed. To this end, in this paper, we deploy the Internet of Responsibilities (IoR) for responsibility management. Through the building of IoR framework, hierarchical responsibility management, automated responsibility evaluation at all level and efficient responsibility perception are achieved. The practical deployment of IoR system showed its effective responsibility management capability in various workplaces.
翻訳日:2021-02-17 05:19:50 公開日:2021-02-14
# (参考訳) ChipNet: Budget-Aware Pruning with Heaviside Continuous Approximations [全文訳有]

ChipNet: Budget-Aware Pruning with Heaviside Continuous Approximations ( http://arxiv.org/abs/2102.07156v1 )

ライセンス: CC BY 4.0
Rishabh Tiwari, Udbhav Bamba, Arnav Chavan, Deepak K. Gupta(参考訳) 構造化切断法は、小さく資源効率のよい畳み込みニューラルネットワークを密度の高いものから抽出するための有効な戦略の1つである。 しかし、既存の方法の多くは1つ以上の制限に苦しめられている。1) アーキテクチャにプリニング関連パラメータを組み込んだスクラッチから高密度モデルをトレーニングすること、2) モデル固有のハイパーパラメータの設定を必要とすること、3) トレーニングプロセスに予算関連制約を含まないこと、4) 極端なプリニングのシナリオ下で不安定であることである。 本論文では,連続的なヘビーサイド関数と,既存の高密度ネットワークから高度にスパースなネットワークを識別するための新たなパリッシネス損失を用いる決定論的分断戦略であるChipNetについて述べる。 連続 Heaviside 関数の選択は、材料分布タスクが連続最適化問題として提案される設計最適化の分野に着想を得たものであるが、離散値 (0 または 1) のみが事実上実現可能であり、最終的な結果として期待できる。 我々のアプローチの柔軟な設計は、非常に低い目標予算の安定性を維持しつつ、異なる予算制約の選択で使用を促進する。 実験の結果、chipnetは精度で最大16.1%のマージンで最先端の構造化プルーニング法を上回ることがわかった。 さらに,ChipNetで得られたマスクはデータセット間で転送可能であることを示す。 あるケースでは、機能豊富な教師データセットで訓練されたモデルから移行したマスクが、学生データに直接プルーニングすることで得られるものよりも、生徒データセットに優れたパフォーマンスをもたらすことが観察された。

Structured pruning methods are among the effective strategies for extracting small resource-efficient convolutional neural networks from their dense counterparts with minimal loss in accuracy. However, most existing methods still suffer from one or more limitations, that include 1) the need for training the dense model from scratch with pruning-related parameters embedded in the architecture, 2) requiring model-specific hyperparameter settings, 3) inability to include budget-related constraint in the training process, and 4) instability under scenarios of extreme pruning. In this paper, we present ChipNet, a deterministic pruning strategy that employs continuous Heaviside function and a novel crispness loss to identify a highly sparse network out of an existing dense network. Our choice of continuous Heaviside function is inspired by the field of design optimization, where the material distribution task is posed as a continuous optimization problem, but only discrete values (0 or 1) are practically feasible and expected as final outcomes. Our approach's flexible design facilitates its use with different choices of budget constraints while maintaining stability for very low target budgets. Experimental results show that ChipNet outperforms state-of-the-art structured pruning methods by remarkable margins of up to 16.1% in terms of accuracy. Further, we show that the masks obtained with ChipNet are transferable across datasets. For certain cases, it was observed that masks transferred from a model trained on feature-rich teacher dataset provide better performance on the student dataset than those obtained by directly pruning on the student data itself.
翻訳日:2021-02-17 03:46:00 公開日:2021-02-14
# (参考訳) ディープ畳み込みニューラルネットワークに基づくエンコーダデコーダモデルによるベンガル画像キャプションの改善 [全文訳有]

Improved Bengali Image Captioning via deep convolutional neural network based encoder-decoder model ( http://arxiv.org/abs/2102.07192v1 )

ライセンス: CC BY-SA 4.0
Mohammad Faiyaz Khan, S.M. Sadiq-Ur-Rahman Shifath, and Md. Saiful Islam(参考訳) 画像キャプション(Image Captioning)は、自然言語で画像の構文的および意味的に正しいテキスト記述を、画像に関連するコンテキストで作成する難しい作業です。 既存のベンガル画像キャプチャ(BIC)の研究はエンコーダ-デコーダアーキテクチャに基づいている。 本稿では,一次元畳み込みニューラルネットワーク(CNN)を組み合わさったマルチモーダルアーキテクチャを用いた画像キャプションシステムについて,事前学習したResNet-50モデル画像エンコーダを用いて領域ベース視覚特徴の抽出を行う。 既存の評価指標を用いてBanglaLekhaImageCapt ionsデータセット上でのアプローチのパフォーマンスを調査し、定性分析のための人間評価を行います。 実験の結果,提案手法の言語エンコーダはキャプション内の細粒度情報を捕捉し,画像特徴と組み合わせることで,正確かつ多種多様なキャプションを生成することがわかった。 BLUE-1の0.651、CIDErの0.572、METEORの0.297、ROUGEの0.434、SPICEの0.357を基準に、既存のBIC作品に匹敵するパフォーマンスを実現。

Image Captioning is an arduous task of producing syntactically and semantically correct textual descriptions of an image in natural language with context related to the image. Existing notable pieces of research in Bengali Image Captioning (BIC) are based on encoder-decoder architecture. This paper presents an end-to-end image captioning system utilizing a multimodal architecture by combining a one-dimensional convolutional neural network (CNN) to encode sequence information with a pre-trained ResNet-50 model image encoder for extracting region-based visual features. We investigate our approach's performance on the BanglaLekhaImageCapt ions dataset using the existing evaluation metrics and perform a human evaluation for qualitative analysis. Experiments show that our approach's language encoder captures the fine-grained information in the caption, and combined with the image features, it generates accurate and diversified caption. Our work outperforms all the existing BIC works and achieves a new state-of-the-art (SOTA) performance by scoring 0.651 on BLUE-1, 0.572 on CIDEr, 0.297 on METEOR, 0.434 on ROUGE, and 0.357 on SPICE.
翻訳日:2021-02-17 03:25:54 公開日:2021-02-14
# (参考訳) GANを用いたニューロモルフィックビジョンイベントストリームの自然化 [全文訳有]

Naturalizing Neuromorphic Vision Event Streams Using GANs ( http://arxiv.org/abs/2102.07243v1 )

ライセンス: CC BY 4.0
Dennis Robey, Wesley Thio, Herbert Iu, Jason Eshraghian(参考訳) ダイナミックビジョンセンサーは、静的コンテンツのキャプチャを犠牲にしながら、リソース制限された環境内で高い時間分解能で動作することができる。 イベントストリームのスパースの性質は、電力効率のよいスパイクニューラルネットワークに適した、効率的な下流処理タスクを可能にする。 ニューロモルフィックビジョンに関連する課題の1つは、イベントストリームの解釈可能性の欠如である。 ほとんどのアプリケーションユースケースでは、イベントストリームが分類ネットワーク以外に視覚的に解釈されることを意図していないが、従来の高速CMOSセンサーでは不可能な空間にこれらのセンサーを統合する機会は失われている。 例えば、生物学的に侵入する内視鏡のようなセンサーは、画像統合のMHz速度を許さない、厳しい電力予算に収まらなければならない。 動的視覚センサーはこの空白を埋めることができるが、解釈課題は残り、臨床診断における信頼性を低下させる。 生成的敵ネットワークの使用は、視覚チップの空間解像度の低下と解釈可能性の欠如に対する克服と補償の可能な解決策を示す。 本稿では、Pix2Pixネットワークを用いて、スパイク変換したCIFAR-10とLinnaeus 5のデータセットからイベントストリームを自然化する。 ネットワークの品質は、同等の生画像の2.81%以内に収束する自然化イベントストリームの画像分類を行い、CIFAR-10およびLinnaeus 5データセットの未処理イベントストリームに対する13.19%の改善によってベンチマークされる。

Dynamic vision sensors are able to operate at high temporal resolutions within resource constrained environments, though at the expense of capturing static content. The sparse nature of event streams enables efficient downstream processing tasks as they are suited for power-efficient spiking neural networks. One of the challenges associated with neuromorphic vision is the lack of interpretability of event streams. While most application use-cases do not intend for the event stream to be visually interpreted by anything other than a classification network, there is a lost opportunity to integrating these sensors in spaces that conventional high-speed CMOS sensors cannot go. For example, biologically invasive sensors such as endoscopes must fit within stringent power budgets, which do not allow MHz-speeds of image integration. While dynamic vision sensing can fill this void, the interpretation challenge remains and will degrade confidence in clinical diagnostics. The use of generative adversarial networks presents a possible solution to overcoming and compensating for a vision chip's poor spatial resolution and lack of interpretability. In this paper, we methodically apply the Pix2Pix network to naturalize the event stream from spike-converted CIFAR-10 and Linnaeus 5 datasets. The quality of the network is benchmarked by performing image classification of naturalized event streams, which converges to within 2.81% of equivalent raw images, and an associated improvement over unprocessed event streams by 13.19% for the CIFAR-10 and Linnaeus 5 datasets.
翻訳日:2021-02-17 03:11:10 公開日:2021-02-14
# (参考訳) モンテカルロ木探索を用いたコスト特性分類 [全文訳有]

Costly Features Classification using Monte Carlo Tree Search ( http://arxiv.org/abs/2102.07073v1 )

ライセンス: CC BY 4.0
Ziheng Chen, Jin Huang, Hongshik Ahn, Xin Ning(参考訳) 我々は,特徴のサブセットを順次選択し,特徴の分類誤差と特徴コストのバランスをとる,コストの高い特徴の分類の問題を考える。 本稿では,まずMDP問題にタスクを投入し,Advantage Actor Criticアルゴリズムを用いて解決する。 エージェントのパフォーマンスをさらに改善し、ポリシーを説明できるようにするため、モンテカルロ木探索を用いてポリシーを反復的に更新する。 この過程では,不均衡データセットにおけるその性能と,欠落値に対する感度についても考察する。 複数のデータセットでモデルを評価し、他のメソッドよりも優れています。

We consider the problem of costly feature classification, where we sequentially select the subset of features to make a balance between the classification error and the feature cost. In this paper, we first cast the task into a MDP problem and use Advantage Actor Critic algorithm to solve it. In order to further improve the agent's performance and make the policy explainable, we employ the Monte Carlo Tree Search to update the policy iteratively. During the procedure, we also consider its performance on the unbalanced dataset and its sensitivity to the missing value. We evaluate our model on multiple datasets and find it outperforms other methods.
翻訳日:2021-02-17 00:57:09 公開日:2021-02-14
# (参考訳) CATE: トランスフォーマーを用いた計算対応ニューラルアーキテクチャエンコーディング [全文訳有]

CATE: Computation-aware Neural Architecture Encoding with Transformers ( http://arxiv.org/abs/2102.07108v1 )

ライセンス: CC BY 4.0
Shen Yan, Kaiqiang Song, Fei Liu, Mi Zhang(参考訳) 最近の研究(White et al., 2020a; Yan et al., 2020)は、ニューラルアーキテクチャ検索(NAS)におけるアーキテクチャエンコーディングの重要性を示している。 これらのエンコーディングは、神経アーキテクチャの構造情報または計算情報をエンコードする。 構造対応エンコーディングと比較して、計算対応エンコーディングは、同じ領域に類似した精度でマップアーキテクチャをマッピングし、下流アーキテクチャの検索性能を改善する(Zhang et al., 2019; White et al., 2020a)。 本研究では,CATE(Computation-Aw are Transformer-based Encoding)法を提案する。 固定変換に基づく既存の計算アウェアエンコーディングと異なる(例えば)。 パスエンコーディング)、CATEは、クロスアテンションを備えたトランスフォーマーを使用して計算認識エンコーディングを学習するためにペアワイズプリトレーニングスキームを採用しています。 このような学習されたエンコーディングは、ニューラルネットワークアーキテクチャの密でコンテキスト化された計算情報を含んでいる。 3つの主要なエンコーディング依存NASサブルーチンの下で、CATEと11のエンコーディングを比較します。 実験により,CATEは下流検索,特に大規模検索空間において有用であることが確認された。 さらに, 外部探索空間実験は, トレーニング対象の探索空間を超えて, より優れた一般化能力を示す。

Recent works (White et al., 2020a; Yan et al., 2020) demonstrate the importance of architecture encodings in Neural Architecture Search (NAS). These encodings encode either structure or computation information of the neural architectures. Compared to structure-aware encodings, computation-aware encodings map architectures with similar accuracies to the same region, which improves the downstream architecture search performance (Zhang et al., 2019; White et al., 2020a). In this work, we introduce a Computation-Aware Transformer-based Encoding method called CATE. Different from existing computation-aware encodings based on fixed transformation (e.g. path encoding), CATE employs a pairwise pre-training scheme to learn computation-aware encodings using Transformers with cross-attention. Such learned encodings contain dense and contextualized computation information of neural architectures. We compare CATE with eleven encodings under three major encoding-dependent NAS subroutines in both small and large search spaces. Our experiments show that CATE is beneficial to the downstream search, especially in the large search space. Moreover, the outside search space experiment shows its superior generalization ability beyond the search space on which it was trained.
翻訳日:2021-02-17 00:42:20 公開日:2021-02-14
# (参考訳) 強化学習による組合せ最適化のためのリバーシブルアクション設計 [全文訳有]

Reversible Action Design for Combinatorial Optimization with Reinforcement Learning ( http://arxiv.org/abs/2102.07210v1 )

ライセンス: CC BY 4.0
Fan Yao, Renqin Cai, Hongning Wang(参考訳) グラフに対する組合せ最適化問題(COP)は、最適化における根本的な課題である。 強化学習(RL)は近年,これらの問題に対処する新たなフレームワークとして登場し,有望な結果を示している。 しかし、ほとんどのRLソリューションは漸進的にソリューションを構築するために欲求的な方法を採用しているため、必然的にアクションシーケンスに不必要な依存を生じさせ、多くの問題固有の設計を必要とする。 最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。 具体的には、状態を問題インスタンスのソリューションとして定義し、このソリューションに対する摂動としてアクションを定義します。 グラフニューラルネットワーク(GNN)を用いて、与えられた問題インスタンスの潜在表現を抽出し、深いQラーニングを適用して、頂点ラベルを反転または交換することで解を徐々に洗練するポリシーを得る。 最大$k$カットとトラベルセールスマン問題に関する実験を行い、学習ベースとヒューリスティックベースラインのセットに対してパフォーマンス改善を達成する。

Combinatorial optimization problem (COP) over graphs is a fundamental challenge in optimization. Reinforcement learning (RL) has recently emerged as a new framework to tackle these problems and has demonstrated promising results. However, most RL solutions employ a greedy manner to construct the solution incrementally, thus inevitably pose unnecessary dependency on action sequences and need a lot of problem-specific designs. We propose a general RL framework that not only exhibits state-of-the-art empirical performance but also generalizes to a variety class of COPs. Specifically, we define state as a solution to a problem instance and action as a perturbation to this solution. We utilize graph neural networks (GNN) to extract latent representations for given problem instances for state-action encoding, and then apply deep Q-learning to obtain a policy that gradually refines the solution by flipping or swapping vertex labels. Experiments are conducted on Maximum $k$-Cut and Traveling Salesman Problem and performance improvement is achieved against a set of learning-based and heuristic baselines.
翻訳日:2021-02-17 00:23:01 公開日:2021-02-14
# (参考訳) プライバシー保護計画における個人依存性の一部開示 [全文訳有]

Partial Disclosure of Private Dependencies in Privacy Preserving Planning ( http://arxiv.org/abs/2102.07185v1 )

ライセンス: CC BY 4.0
Rotem Lev Lehman (1), Guy Shani (1), Roni Stern (1 and 2) ((1) Software and Information Systems Engineering, Ben Gurion University of the Negev, Be'er Sheva, Israel, (2) Palo Alto Research Center, Palo Alto, CA, USA)(参考訳) 共同プライバシー保護計画(CPPP)では、エージェントのグループは、お互いのプライバシーを維持しながら、一連の目標を達成する計画を共同で作成します。 計画中、エージェントはしばしば、公開アクションの間のプライベートな依存関係を他のエージェントに明らかにし、公共アクションは、他の公開アクションの前提条件を促進する。 CPPPでの以前の作業は、そのような依存関係の開示を制限しません。 本稿では、公開依存関係の量を明示的に制限し、エージェントがプライベート依存関係の一部だけを公開できるようにします。 公開する依存関係を決定するためのさまざまな戦略と、ソリューションを見つける能力にどのように影響するかを調査します。 この制約下で計画を作成するために,2つのソルバ(前方探索と単一エージェント投影に基づく集中型計画)の能力を評価する。 標準CPPPドメイン上の実験では、提案された依存関係共有戦略により、すべてのプライベート依存関係のほんの一部しか共有せず、計画を生成することができる。

In collaborative privacy preserving planning (CPPP), a group of agents jointly creates a plan to achieve a set of goals while preserving each others' privacy. During planning, agents often reveal the private dependencies between their public actions to other agents, that is, which public action facilitates the preconditions of another public action. Previous work in CPPP does not limit the disclosure of such dependencies. In this paper, we explicitly limit the amount of disclosed dependencies, allowing agents to publish only a part of their private dependencies. We investigate different strategies for deciding which dependencies to publish, and how they affect the ability to find solutions. We evaluate the ability of two solvers -- distribute forward search and centralized planning based on a single-agent projection -- to produce plans under this constraint. Experiments over standard CPPP domains show that the proposed dependency-sharing strategies enable generating plans while sharing only a small fraction of all private dependencies.
翻訳日:2021-02-16 23:01:23 公開日:2021-02-14
# (参考訳) FastHand:モノクロカメラによる手探りの速さ [全文訳有]

FastHand: Fast Hand Pose Estimation From A Monocular Camera ( http://arxiv.org/abs/2102.07067v1 )

ライセンス: CC BY 4.0
Shan An, Xiajie Zhang, Dong Wei, Haogang Zhu, Jianyu Yang, and Konstantinos A. Tsintotas(参考訳) ハンドジェスチャ認識は、人間とロボットのインタラクションに関連するほとんどの方法の最初のステップである。 このタスクには2つの重要な課題がある。 最初のものは、現実世界のシナリオにおいて安定かつ正確なハンドランドマーク予測を達成することの難しさと、フォワード推論の減少時間の2番目に対応する。 本論文では「FastHand」と呼ばれるハンドポーズ推定のための高速かつ正確なフレームワークを提案する。 軽量エンコーダ・デコーダネットワークアーキテクチャを用いて,組込みデバイス上で動作する実用的なアプリケーションの要求を満たす。 エンコーダは、少ないパラメータの深い層で構成され、デコーダは、より正確な結果を得るために空間的位置情報を利用する。 この評価は、他の最先端のアプローチと比較して、提案されたパイプラインの性能改善を示す2つの公開データセットで実施された。 FastHandは、NVIDIA Jetson TX2グラフィックス処理ユニットで毎秒25フレームの速度に達しながら、高い精度のスコアを提供する。

Hand gesture recognition constitutes the initial step in most methods related to human-robot interaction. There are two key challenges in this task. The first one corresponds to the difficulty of achieving stable and accurate hand landmark predictions in real-world scenarios, while the second to the decreased time of forward inference. In this paper, we propose a fast and accurate framework for hand pose estimation, dubbed as "FastHand". Using a lightweight encoder-decoder network architecture, we achieve to fulfil the requirements of practical applications running on embedded devices. The encoder consists of deep layers with a small number of parameters, while the decoder makes use of spatial location information to obtain more accurate results. The evaluation took place on two publicly available datasets demonstrating the improved performance of the proposed pipeline compared to other state-of-the-art approaches. FastHand offers high accuracy scores while reaching a speed of 25 frames per second on an NVIDIA Jetson TX2 graphics processing unit.
翻訳日:2021-02-16 21:32:07 公開日:2021-02-14
# (参考訳) 隠れマルコフモデル学習問題に対する新しいアルゴリズム [全文訳有]

A New Algorithm for Hidden Markov Models Learning Problem ( http://arxiv.org/abs/2102.07112v1 )

ライセンス: CC BY 4.0
Taha Mansouri, Mohamadreza Sadeghimoghadam, Iman Ghasemian Sahebi(参考訳) 本研究では,隠れマルコフモデル(HMM)の学習アルゴリズムとアプローチに着目し,HMM学習手法とアルゴリズムを比較した。 HMMは、モデル化されているシステムがマルコフ過程であると仮定される統計マルコフモデルである。 HMMの本質的な特徴の1つは、学習能力です。 この不便を克服するために学習アルゴリズムが導入された。 新しく提案されたアルゴリズムの主な問題の1つは、検証である。 本研究では,(1)文献で提案されたHMM学習アルゴリズムの比較,2)新しいHMM学習アルゴリズムの検証ツールの提供,3)その拡張のひとつであるModified ARO(Modified ARO)を用いたARO(A sexual Reproduction Optimization)と呼ばれる新しいアルゴリズムを,提案された検証ツールを使用するための新しいHMM学習アルゴリズムとして提示することを目的とした。 文献的知見によると、人口ベースのアルゴリズムは他のアルゴリズムよりもhmms学習手法の方が優れているようである。 また、テストは9つのベンチマークデータセットで行われた。 その結果,MAROは,精度とロバスト性の観点から,目的関数の異なるアルゴリズムよりも優れていた。

This research focuses on the algorithms and approaches for learning Hidden Markov Models (HMMs) and compares HMM learning methods and algorithms. HMM is a statistical Markov model in which the system being modeled is assumed to be a Markov process. One of the essential characteristics of HMMs is their learning capabilities. Learning algorithms are introduced to overcome this inconvenience. One of the main problems of the newly proposed algorithms is their validation. This research aims by using the theoretical and experimental analysis to 1) compare HMMs learning algorithms proposed in the literature, 2) provide a validation tool for new HMM learning algorithms, and 3) present a new algorithm called Asexual Reproduction Optimization (ARO) with one of its extensions - Modified ARO (MARO) - as a novel HMM learning algorithm to use the validation tool proposed. According to the literature findings, it seems that populationbased algorithms perform better among HMMs learning approaches than other algorithms. Also, the testing was done in nine benchmark datasets. The results show that MARO outperforms different algorithms in objective functions in terms of accuracy and robustness.
翻訳日:2021-02-16 20:24:16 公開日:2021-02-14
# (参考訳) スティーフェル多様体上の分散リーマン勾配の日射

Decentralized Riemannian Gradient Descent on the Stiefel Manifold ( http://arxiv.org/abs/2102.07091v1 )

ライセンス: CC BY 4.0
Shixiang Chen, Alfredo Garcia, Mingyi Hong, Shahin Shahrampour(参考訳) エージェントのネットワークが Stiefel 多様体上のグローバル関数を最小化することを目的としている分散非凸最適化を考える。 大域関数は滑らかな局所関数の有限和として表され、各局所関数は1つのエージェントに関連付けられ、エージェントは無向連結グラフ上で互いに通信する。 局所函数はおそらく非凸(しかし滑らかな)であり、ステッフェル多様体は非凸集合であるので、問題は非凸である。 本稿では, 分散リーマン確率勾配法 (DRSGD) を定常点に対して $\mathcal{O}(1/\sqrt{K})$ の収束率で提示する。 定数ステップ化による正確な収束を得るためには、分散リーマン勾配追跡アルゴリズム (DRGTA) を定常点に対して $\mathcal{O}(1/K)$ の収束率で提案する。 我々は、複数段階のコンセンサスを用いて、イテレーションをローカル(コンセンサス)領域に保持する。 DRGTAは、Stiefel多様体上の分散最適化のための正確な収束を持つ最初の分散アルゴリズムである。

We consider a distributed non-convex optimization where a network of agents aims at minimizing a global function over the Stiefel manifold. The global function is represented as a finite sum of smooth local functions, where each local function is associated with one agent and agents communicate with each other over an undirected connected graph. The problem is non-convex as local functions are possibly non-convex (but smooth) and the Steifel manifold is a non-convex set. We present a decentralized Riemannian stochastic gradient method (DRSGD) with the convergence rate of $\mathcal{O}(1/\sqrt{K})$ to a stationary point. To have exact convergence with constant stepsize, we also propose a decentralized Riemannian gradient tracking algorithm (DRGTA) with the convergence rate of $\mathcal{O}(1/K)$ to a stationary point. We use multi-step consensus to preserve the iteration in the local (consensus) region. DRGTA is the first decentralized algorithm with exact convergence for distributed optimization on Stiefel manifold.
翻訳日:2021-02-16 17:22:22 公開日:2021-02-14
# (参考訳) 液体ロケットエンジンの設計と運用のための機械学習手法 -- DLR宇宙推進研究所における研究活動 [全文訳有]

Machine Learning Methods for the Design and Operation of Liquid Rocket Engines -- Research Activities at the DLR Institute of Space Propulsion ( http://arxiv.org/abs/2102.07109v1 )

ライセンス: CC BY 4.0
G\"unther Waxenegger-Wilfing, Kai Dresia, Jan Deeken, Michael Oschwald(参考訳) 過去数年間、人工知能、特に機械学習アルゴリズムの利用に大きな関心が寄せられている。 これは航空宇宙工学全般にも大きな影響を与え、特に液体ロケットエンジンの設計と運用にも影響し、この分野の研究は急速に成長しています。 本稿では、DLR宇宙推進研究所における現在の機械学習応用について述べる。 モデリング分野のアプリケーションだけでなく、制御および条件監視のための機械学習方法の能力を証明する説得力のある結果も詳細に説明されています。 さらに、提示された方法の長所と短所、および現在および将来の研究方向について議論する。

The last years have witnessed an enormous interest in the use of artificial intelligence methods, especially machine learning algorithms. This also has a major impact on aerospace engineering in general, and the design and operation of liquid rocket engines in particular, and research in this area is growing rapidly. The paper describes current machine learning applications at the DLR Institute of Space Propulsion. Not only applications in the field of modeling are presented, but also convincing results that prove the capabilities of machine learning methods for control and condition monitoring are described in detail. Furthermore, the advantages and disadvantages of the presented methods as well as current and future research directions are discussed.
翻訳日:2021-02-16 17:21:02 公開日:2021-02-14
# (参考訳) 物理層における学習駆動決定機構--Facts, Challenges, and Remedies [全文訳有]

Learning-Driven Decision Mechanisms in Physical Layer: Facts, Challenges, and Remedies ( http://arxiv.org/abs/2102.07258v1 )

ライセンス: CC BY-SA 4.0
Selen Gecgel, Caner Goztepe, Gunes Karabulut Kurt, Halim Yanikomeroglu(参考訳) 将来の通信システムは、幅広いデバイスやアプリケーションを受け入れるため、広範な機能を含める必要があります。 従来の物理層決定メカニズムは、複雑さと効率のトレードオフにつながる仮定を頻繁に使うため、これらの要件を満たさないかもしれない。 過去の経験を利用することで、学習駆動設計はレジリエントな決定機構を示し、例外的な状況下でも迅速な応答を提供する有望な解決策となる。 対応する設計ソリューションは、自律性と堅牢性を高める学習駆動パラダイムに従って進化するべきです。 この進化は、仮定を抑えることなく現実世界のシステムの事実を考慮しなくてはならない。 本稿では, 物理層に共通する仮定を, 実用システムとの相違点を強調するために紹介する。 解決策として,実装手順と課題を考慮して学習アルゴリズムを検討する。 さらに、これらの問題は、ソフトウェア定義無線ノードを使用したリアルタイムケーススタディを通じて議論され、潜在的な性能改善を示す。 今後の研究を導くために、是正的な視点を提示する。

Future communication systems must include extensive capabilities as they will embrace a vast diversity of devices and applications. Conventional physical layer decision mechanisms may not meet these requirements due to the frequent use of impracticable and oversimplifying assumptions that lead to a trade-off between complexity and efficiency. By utilizing past experiences, learning-driven designs are promising solutions to present a resilient decision mechanism and provide a quick response even under exceptional circumstances. The corresponding design solutions should evolve following the learning-driven paradigms that offer increased autonomy and robustness. This evolution must take place by considering the facts of real-world systems without restraining assumptions. This paper introduces the common assumptions in the physical layer to highlight their discrepancies with practical systems. As a solution, learning algorithms are examined by considering implementation steps and challenges. Additionally, these issues are discussed through a real-time case study that uses software-defined radio nodes, demonstrating the potential performance improvement. A remedial perspective is presented to guide future studies.
翻訳日:2021-02-16 17:09:46 公開日:2021-02-14
# (参考訳) 目標とシステムの不均一性を考慮した連合学習における線形収束の実現

Achieving Linear Convergence in Federated Learning under Objective and Systems Heterogeneity ( http://arxiv.org/abs/2102.07053v1 )

ライセンス: CC BY 4.0
Aritra Mitra, Rayana Jaafar, George J. Pappas, and Hamed Hassani(参考訳) 統計的モデルをトレーニングするために,クライアント群が定期的に中央サーバと協調する,標準的なフェデレーション学習アーキテクチャを考える。 フェデレーション学習における2つの大きな課題: (i) 客の局所的損失関数の違いに起因する客観的不均質性, (ii) システムの不均質性, クライアント機器の速度低下と拡張性である。 このようなクライアントの不均質性から,既存のフェデレーション学習アルゴリズムは,線形収束を保証しつつ,不正確な点への収束を保証するか,あるいは大域的最小値に収束するかのどちらか,すなわち,高速収束は精度の犠牲になる。 上記の制限に対処するために,過去の勾配を活用し,クライアント固有の学習率を用いる,シンプルな新しいアルゴリズムであるfederinを提案する。 クライアントの局所損失関数が滑らかで強力な凸である場合、FedLin がグローバル最小値への線形収束を保証することを示します。 次に、FedLinの収束率に一致する上下境界を確立し、頻繁で周期的なコミュニケーションに関連するトレードオフを強調します。 特にフェドリンは、任意の目的や系が不均一であるにもかかわらず、滑らかな強凸、凸、非凸損失関数に対して(定数まで)集中収束率をマッチングできる唯一の方法である。 さらに, フェドリンの線形収束速度は, 攻撃的勾配スパーシフィケーション下で保持され, 圧縮レベルが収束率に及ぼす影響を定量化することを示した。

We consider a standard federated learning architecture where a group of clients periodically coordinate with a central server to train a statistical model. We tackle two major challenges in federated learning: (i) objective heterogeneity, which stems from differences in the clients' local loss functions, and (ii) systems heterogeneity, which leads to slow and straggling client devices. Due to such client heterogeneity, we show that existing federated learning algorithms suffer from a fundamental speed-accuracy conflict: they either guarantee linear convergence but to an incorrect point, or convergence to the global minimum but at a sub-linear rate, i.e., fast convergence comes at the expense of accuracy. To address the above limitation, we propose FedLin - a simple, new algorithm that exploits past gradients and employs client-specific learning rates. When the clients' local loss functions are smooth and strongly convex, we show that FedLin guarantees linear convergence to the global minimum. We then establish matching upper and lower bounds on the convergence rate of FedLin that highlight the trade-offs associated with infrequent, periodic communication. Notably, FedLin is the only approach that is able to match centralized convergence rates (up to constants) for smooth strongly convex, convex, and non-convex loss functions despite arbitrary objective and systems heterogeneity. We further show that FedLin preserves linear convergence rates under aggressive gradient sparsification, and quantify the effect of the compression level on the convergence rate.
翻訳日:2021-02-16 16:47:22 公開日:2021-02-14
# オープンな述語関係を持つ仮想知識基盤の推論

Reasoning Over Virtual Knowledge Bases With Open Predicate Relations ( http://arxiv.org/abs/2102.07043v1 )

ライセンス: Link先を確認
Haitian Sun, Pat Verga, Bhuwan Dhingra, Ruslan Salakhutdinov, William W. Cohen(参考訳) テキストから完全に訓練された仮想KB(VKB)を構築する方法であるOpen Predicate Query Language(OPQL)を紹介します。 大規模な知識ベース(kbs)は,質問応答やレコメンデーションなど,幅広い産業アプリケーションにとって不可欠である。 典型的には、kbsは世界の知識を構造化され、容易にアクセス可能な形でエンコードする。 残念ながら、非常に精度が高いが、KBは必然的に不完全であり、それらを豊かにする自動化手法は不正確すぎる。 代わりにOPQLは、推論を自然に可能にし、構造化された監視なしにトレーニングできる方法で、一連の関係参照をエンコードしてインデックス化することで、VKBを構築する。 我々は、OPQLが2つの異なるKB推論タスクで以前のVKBメソッドよりも優れていることを実証し、さらに、言語モデル(OPQL-LM)に統合された外部メモリとして使用できる。

We present the Open Predicate Query Language (OPQL); a method for constructing a virtual KB (VKB) trained entirely from text. Large Knowledge Bases (KBs) are indispensable for a wide-range of industry applications such as question answering and recommendation. Typically, KBs encode world knowledge in a structured, readily accessible form derived from laborious human annotation efforts. Unfortunately, while they are extremely high precision, KBs are inevitably highly incomplete and automated methods for enriching them are far too inaccurate. Instead, OPQL constructs a VKB by encoding and indexing a set of relation mentions in a way that naturally enables reasoning and can be trained without any structured supervision. We demonstrate that OPQL outperforms prior VKB methods on two different KB reasoning tasks and, additionally, can be used as an external memory integrated into a language model (OPQL-LM) leading to improvements on two open-domain question answering tasks.
翻訳日:2021-02-16 16:16:22 公開日:2021-02-14
# マルチヘッドアテンションとソフトトリプルロスを用いたクエリバイサンプルキーワードスポッティングシステム

Query-by-Example Keyword Spotting system using Multi-head Attention and Softtriple Loss ( http://arxiv.org/abs/2102.07061v1 )

ライセンス: Link先を確認
Jinmiao Huang, Waseem Gharbieh, Han Suk Shim, Eugene Kim(参考訳) 本稿では,ユーザ定義キーワードスポッティングタスクの検索を行うニューラルネットワークアーキテクチャを提案する。 効果的な特徴抽出のための多層GRU上にマルチヘッド注意モジュールを追加し、特徴集約のための正規化されたマルチヘッド注意モジュールを提案する。 また,三重項損失とソフトマックス損失の組み合わせであるソフトトリプル損失を採用し,その効果を示す。 異なる言語を持つ内部データセットと公開Hey-Snipsデータセットにおけるモデルのパフォーマンスを実証する。 本モデルの性能をベースラインシステムと比較し,アーキテクチャの各コンポーネントの利点を示すためにアブレーション研究を行った。 提案手法はシンプルさを保ちつつ,堅牢な性能を示す。

This paper proposes a neural network architecture for tackling the query-by-example user-defined keyword spotting task. A multi-head attention module is added on top of a multi-layered GRU for effective feature extraction, and a normalized multi-head attention module is proposed for feature aggregation. We also adopt the softtriple loss - a combination of triplet loss and softmax loss - and showcase its effectiveness. We demonstrate the performance of our model on internal datasets with different languages and the public Hey-Snips dataset. We compare the performance of our model to a baseline system and conduct an ablation study to show the benefit of each component in our architecture. The proposed work shows solid performance while preserving simplicity.
翻訳日:2021-02-16 16:12:21 公開日:2021-02-14
# ドメイン・Adversarial Reinforcement Learning

Domain Adversarial Reinforcement Learning ( http://arxiv.org/abs/2102.07097v1 )

ライセンス: Link先を確認
Bonnie Li, Vincent Fran\c{c}ois-Lavet, Thang Doan, Joelle Pineau(参考訳) 我々は、観察の視覚的側面が異なる強化学習における一般化の問題を考える。 異なる背景がある場合、またはコントラスト、明るさなどの変化がある場合。 我々のエージェントは、トレーニング中にMDP分布からわずか数個のMDPにしかアクセスできないと仮定する。 エージェントの性能は、分布から引き出された新しい未知のテストドメインに報告される(例)。 目立たない背景)。 この「ゼロショットRL」タスクでは、学習した表現をドメイン逆最適化プロセスを介して視覚領域に分散させる。 このアプローチは、新しい未確認領域への大幅な一般化の改善を可能にすることを実証的に示す。

We consider the problem of generalization in reinforcement learning where visual aspects of the observations might differ, e.g. when there are different backgrounds or change in contrast, brightness, etc. We assume that our agent has access to only a few of the MDPs from the MDP distribution during training. The performance of the agent is then reported on new unknown test domains drawn from the distribution (e.g. unseen backgrounds). For this "zero-shot RL" task, we enforce invariance of the learned representations to visual domains via a domain adversarial optimization process. We empirically show that this approach allows achieving a significant generalization improvement to new unseen domains.
翻訳日:2021-02-16 16:10:08 公開日:2021-02-14
# 多目的メタ学習

Multi-Objective Meta Learning ( http://arxiv.org/abs/2102.07121v1 )

ライセンス: Link先を確認
Feiyang Ye, Baijiong Lin, Zhixiong Yue, Pengxin Guo, Qiao Xiao, Yu Zhang(参考訳) 複数の目的を持つメタ学習は、メタ学習者に対するいくつかの競合するターゲットを解決するために、上位レベルのサブプロブレムを、多目的双レベル最適化問題(MOBLP)として定式化することができる。 しかし、既存の研究では、非効率的な進化アルゴリズムを適用するか、複数の目的を単一対象問題として線形に組み合わせ、組み合わせ重みを調整する必要がある。 本稿では,勾配勾配に基づく多目的メタラーニング(MOML)フレームワークを提案するとともに,勾配降下法と勾配に基づく多目的最適化法を用いて,下層および上層サブプロブレムをそれぞれ解いてMOBLPを解くための,最初の勾配に基づく最適化アルゴリズムを考案する。 理論的には,提案する勾配に基づく最適化アルゴリズムの収束特性を実証する。 実験により,数ショット学習,ニューラルアーキテクチャ探索,ドメイン適応,マルチタスク学習など,いくつかのメタ学習問題において提案したMOMLフレームワークの有効性を示す。

Meta learning with multiple objectives can be formulated as a Multi-Objective Bi-Level optimization Problem (MOBLP) where the upper-level subproblem is to solve several possible conflicting targets for the meta learner. However, existing studies either apply an inefficient evolutionary algorithm or linearly combine multiple objectives as a single-objective problem with the need to tune combination weights. In this paper, we propose a unified gradient-based Multi-Objective Meta Learning (MOML) framework and devise the first gradient-based optimization algorithm to solve the MOBLP by alternatively solving the lower-level and upper-level subproblems via the gradient descent method and the gradient-based multi-objective optimization method, respectively. Theoretically, we prove the convergence properties of the proposed gradient-based optimization algorithm. Empirically, we show the effectiveness of the proposed MOML framework in several meta learning problems, including few-shot learning, neural architecture search, domain adaptation, and multi-task learning.
翻訳日:2021-02-16 16:10:00 公開日:2021-02-14
# 適応型自己適応訓練を用いた関係認識グラフ注意モデル

Relation-aware Graph Attention Model With Adaptive Self-adversarial Training ( http://arxiv.org/abs/2102.07186v1 )

ライセンス: Link先を確認
Xiao Qin, Nasrullah Sheikh, Berthold Reinwald, Lingfei Wu(参考訳) 本稿では,不均一なマルチリレーショナルグラフにおける関係予測タスクのエンドツーエンドソリューションについて述べる。 特にパイプライン内の2つのビルディングブロック、すなわちヘテロジニアスグラフ表現学習と負のサンプリングに対処する。 既存のメッセージパッシングベースのグラフニューラルネットワークは、グラフトラバーサルまたはメッセージエンコーディング関数の選択にエッジを使用する。 エッジセマンティクスを無視することは、特に複数の関係を持つ2つのノードを扱う場合、埋め込みの品質に深刻な影響を与える可能性がある。 さらに, 学習表現の表現性は, 訓練中に用いる負のサンプルの品質に依存する。 既存のハードネガティブサンプリング技術では、最適化のために難しいネガティブな関係を識別できるが、トレーニング中に偽陰性を制御し、偽陰性が学習プロセスを損なう可能性があるため、新たなテクニックが必要となる。 これらの問題に対処するため、まずメッセージパッシングベースの異種グラフアテンションモデルであるRelGNNを提案します。 特に、RelGNNは異なる関係の状態を生成し、ノード状態とともにそれらを活用してメッセージの重み付けを行う。 RelGNNはまた、属性の特徴と最終エンティティの埋め込みを生成するトポロジ的特徴のバランスをとるための自己注意機構も採用している。 次に,パラメータフリーな負サンプリング手法であるadaptive self-adversarial (asa) 負サンプリングを導入する。 ASAは正の関係を利用して偽陰性率を減らし、真の負のサンプルの同定を効果的に導く。 実験により,関係予測のためにASAにより最適化されたRelGNNは,既存のベンチマークや実産業データセット上での最先端性能の向上を実証した。

This paper describes an end-to-end solution for the relationship prediction task in heterogeneous, multi-relational graphs. We particularly address two building blocks in the pipeline, namely heterogeneous graph representation learning and negative sampling. Existing message passing-based graph neural networks use edges either for graph traversal and/or selection of message encoding functions. Ignoring the edge semantics could have severe repercussions on the quality of embeddings, especially when dealing with two nodes having multiple relations. Furthermore, the expressivity of the learned representation depends on the quality of negative samples used during training. Although existing hard negative sampling techniques can identify challenging negative relationships for optimization, new techniques are required to control false negatives during training as false negatives could corrupt the learning process. To address these issues, first, we propose RelGNN -- a message passing-based heterogeneous graph attention model. In particular, RelGNN generates the states of different relations and leverages them along with the node states to weigh the messages. RelGNN also adopts a self-attention mechanism to balance the importance of attribute features and topological features for generating the final entity embeddings. Second, we introduce a parameter-free negative sampling technique -- adaptive self-adversarial (ASA) negative sampling. ASA reduces the false-negative rate by leveraging positive relationships to effectively guide the identification of true negative samples. Our experimental evaluation demonstrates that RelGNN optimized by ASA for relationship prediction improves state-of-the-art performance across established benchmarks as well as on a real industrial dataset.
翻訳日:2021-02-16 16:09:31 公開日:2021-02-14
# 関係を意識したグラフ畳み込みネットワークを用いた知識グラフ埋め込み

Knowledge Graph Embedding using Graph Convolutional Networks with Relation-Aware Attention ( http://arxiv.org/abs/2102.07200v1 )

ライセンス: Link先を確認
Nasrullah Sheikh, Xiao Qin, Berthold Reinwald, Christoph Miksovic, Thomas Gschwind, Paolo Scotton(参考訳) 知識グラフ埋め込み手法は、リンク予測やエンティティマッチングなど、下流のさまざまな機械学習タスクに使用できる低次元空間におけるエンティティとリレーションの埋め込みを学習する。 さまざまな種類の情報を用いて実体と関係の特徴を学習する様々なグラフ畳み込みネットワーク手法が提案されている。 しかし、これらの手法は、情報を集約する際に隣人に対して同じ重み(類似性)を割り当て、隣人との関係の異なる役割を無視する。 そこで本研究では,関係情報を利用して隣接ノードの重みを計算し,エンティティと関係の埋め込みを学習する関係認識グラフ注意モデルを提案する。 リンク予測とエンティティマッチングタスクに対する提案手法の評価を行った。 3つのデータセット(1つのプロプライエタリと2つのパブリック)のリンク予測に関する実験結果と、1つのプロプライエタリデータセットに一致する監視されていないエンティティの結果は、関係認識の注意の有効性を示しています。

Knowledge graph embedding methods learn embeddings of entities and relations in a low dimensional space which can be used for various downstream machine learning tasks such as link prediction and entity matching. Various graph convolutional network methods have been proposed which use different types of information to learn the features of entities and relations. However, these methods assign the same weight (importance) to the neighbors when aggregating the information, ignoring the role of different relations with the neighboring entities. To this end, we propose a relation-aware graph attention model that leverages relation information to compute different weights to the neighboring nodes for learning embeddings of entities and relations. We evaluate our proposed approach on link prediction and entity matching tasks. Our experimental results on link prediction on three datasets (one proprietary and two public) and results on unsupervised entity matching on one proprietary dataset demonstrate the effectiveness of the relation-aware attention.
翻訳日:2021-02-16 16:09:09 公開日:2021-02-14
# IoTセキュリティのための強化学習:包括的な調査

Reinforcement Learning for IoT Security: A Comprehensive Survey ( http://arxiv.org/abs/2102.07247v1 )

ライセンス: Link先を確認
Aashma Uprety and Danda B. Rawat(参考訳) さまざまなIoT(Internet-of-Thin gs)アプリケーションでは、接続されたスマートデバイスの数が指数関数的に増加しています。 セキュリティは、多くの攻撃ベクトル、セキュリティ欠陥、脆弱性を持つIoTシステムにおいて、長期にわたる課題です。 IoTアプリケーションの全可能性を実現するためには、数十億のB接続デバイスをIoTで確保する必要がある。 最近、研究者はIoTの多くのセキュリティソリューションを提案している。 機械学習はIoTセキュリティの新たなソリューションの1つとして提案され、強化学習はIoTシステムを保護するための人気が高まっています。 強化学習は、他の機械学習技術とは異なり、学習すべきパラメータに関する情報を最小化することで環境を学習することができる。 パラメータをオンザフライで適応する環境と相互作用することで最適化問題を解決する。 本稿では,異なるiotシステムに対するさまざまなタイプのサイバー攻撃に関する包括的調査を行い,これらの異なるiotシステムにおける攻撃と戦うための強化学習と深層強化学習に基づくセキュリティソリューションを提案する。 さらに,スマートグリッドやスマートトランスポートシステムなどのCPSシステム(フィードバックと制御を備えたIoT)をセキュアにするための強化学習を提案する。 IoTにおける強化学習Bを用いた最近の重要な攻撃や対策も表形式でまとめています。 本論文では、強化学習を用いたIoTセキュリティ攻撃と対策、およびこの分野の研究動向について、より深く理解することができます。

The number of connected smart devices has been increasing exponentially for different Internet-of-Things (IoT) applications. Security has been a long run challenge in the IoT systems which has many attack vectors, security flaws and vulnerabilities. Securing billions of B connected devices in IoT is a must task to realize the full potential of IoT applications. Recently, researchers have proposed many security solutions for IoT. Machine learning has been proposed as one of the emerging solutions for IoT security and Reinforcement learning is gaining more popularity for securing IoT systems. Reinforcement learning, unlike other machine learning techniques, can learn the environment by having minimum information about the parameters to be learned. It solves the optimization problem by interacting with the environment adapting the parameters on the fly. In this paper, we present an comprehensive survey of different types of cyber-attacks against different IoT systems and then we present reinforcement learning and deep reinforcement learning based security solutions to combat those different types of attacks in different IoT systems. Furthermore, we present the Reinforcement learning for securing CPS systems (i.e., IoT with feedback and control) such as smart grid and smart transportation system. The recent important attacks and countermeasures using reinforcement learning B in IoT are also summarized in the form of tables. With this paper, readers can have a more thorough understanding of IoT security attacks and countermeasures using Reinforcement Learning, as well as research trends in this area.
翻訳日:2021-02-16 16:08:52 公開日:2021-02-14
# 深部メトリクス学習の敵対的ロバスト性の検討

Exploring Adversarial Robustness of Deep Metric Learning ( http://arxiv.org/abs/2102.07265v1 )

ライセンス: Link先を確認
Thomas Kobber Panum, Zi Wang, Pengyu Kan, Earlence Fernandes, Somesh Jha(参考訳) 広く使われているDeep Metric Learning (DML)は、サンプルのペア間の距離メトリックを学習する。 DMLは深いニューラルネットワークアーキテクチャを使って入力のセマンティックな埋め込みを学習する。 基盤となるニューラルネットワークは、自然発生したサンプルに対して精度は高いが、逆向きに摂動するサンプルに弱いため、パフォーマンスが低下する。 私たちは、堅牢なDMLモデルのトレーニングに第一歩を踏み出し、特定の入出力ペアにのみ依存する標準損失とは異なり、ミニバッチでサンプルに依存しているメトリック損失の主な課題に取り組みます。 この依存効果を分析し,ロバストな最適化の定式化に寄与する。 3つの一般的なDMLデータセットの実験を使用して、敵対的精度の5-76倍の増加を実証し、堅牢性を求めた既存のDMLモデルよりも優れています。

Deep Metric Learning (DML), a widely-used technique, involves learning a distance metric between pairs of samples. DML uses deep neural architectures to learn semantic embeddings of the input, where the distance between similar examples is small while dissimilar ones are far apart. Although the underlying neural networks produce good accuracy on naturally occurring samples, they are vulnerable to adversarially-pertur bed samples that reduce performance. We take a first step towards training robust DML models and tackle the primary challenge of the metric losses being dependent on the samples in a mini-batch, unlike standard losses that only depend on the specific input-output pair. We analyze this dependence effect and contribute a robust optimization formulation. Using experiments on three commonly-used DML datasets, we demonstrate 5-76 fold increases in adversarial accuracy, and outperform an existing DML model that sought out to be robust.
翻訳日:2021-02-16 16:08:32 公開日:2021-02-14
# 低ランクMDPにおけるモデル自由表現学習と探索

Model-free Representation Learning and Exploration in Low-rank MDPs ( http://arxiv.org/abs/2102.07035v1 )

ライセンス: Link先を確認
Aditya Modi, Jinglin Chen, Akshay Krishnamurthy, Nan Jiang, Alekh Agarwal(参考訳) 低位のMDPは、強化学習における表現学習と探索を研究する重要なモデルとして現れてきた。 既知の表現では、モデルフリーの探索戦略がいくつか存在する。 対照的に、未知表現設定のためのすべてのアルゴリズムはモデルベースであるため、完全なダイナミクスをモデル化する能力が必要となる。 本研究では,低ランクMPPのためのモデル自由表現学習アルゴリズムを提案する。 アルゴリズム上の重要な貢献は新しいminimax表現学習目標であり、統計的および計算的性質に異なるトレードオフを持つ変種を提供する。 我々は、この表現学習ステップを、報酬のない方法で状態空間をカバーする探索戦略でインターリーブする。 得られたアルゴリズムは、サンプル効率が高く、複雑な環境にスケールする一般的な関数近似に対応できます。

The low rank MDP has emerged as an important model for studying representation learning and exploration in reinforcement learning. With a known representation, several model-free exploration strategies exist. In contrast, all algorithms for the unknown representation setting are model-based, thereby requiring the ability to model the full dynamics. In this work, we present the first model-free representation learning algorithms for low rank MDPs. The key algorithmic contribution is a new minimax representation learning objective, for which we provide variants with differing tradeoffs in their statistical and computational properties. We interleave this representation learning step with an exploration strategy to cover the state space in a reward-free manner. The resulting algorithms are provably sample efficient and can accommodate general function approximation to scale to complex environments.
翻訳日:2021-02-16 16:04:59 公開日:2021-02-14
# 決定木の分離による解釈性とロバスト性

Connecting Interpretability and Robustness in Decision Trees through Separation ( http://arxiv.org/abs/2102.07048v1 )

ライセンス: Link先を確認
Michal Moshkovitz and Yao-Yuan Yang and Kamalika Chaudhuri(参考訳) 最近の研究では、信頼できる分類の本質的な特性として解釈可能性と堅牢性が認められている。 興味深いことに、堅牢性と解釈可能性の関係は実証的に観察されたが、その背後にある理論的根拠は不可解のままだった。 本稿では,この接続を厳格に検討する。 具体的には、決定木を用いた解釈と、$l_{\infty}$-perturbationに対するロバスト性に焦点を当てる。 以前の著作では、r$-分離の概念を堅牢性の十分条件として定義していた。 データが$r$-separatedの場合、ツリーサイズ上の上下の境界を証明します。 次に,データが線形に分離された場合,サイズに対するより厳密なバインドが可能であることを示す。 決定木におけるロバスト性,解釈可能性,精度の両立を保証できる最初のアルゴリズムを提供する。 実験により,本アルゴリズムは,解釈可能でロバストで高精度な分類器を生成できることを確認した。 実験のコードはhttps://github.com/y angarbiter/interpret able-robust-treesで入手できる。

Recent research has recognized interpretability and robustness as essential properties of trustworthy classification. Curiously, a connection between robustness and interpretability was empirically observed, but the theoretical reasoning behind it remained elusive. In this paper, we rigorously investigate this connection. Specifically, we focus on interpretation using decision trees and robustness to $l_{\infty}$-perturbation. Previous works defined the notion of $r$-separation as a sufficient condition for robustness. We prove upper and lower bounds on the tree size in case the data is $r$-separated. We then show that a tighter bound on the size is possible when the data is linearly separated. We provide the first algorithm with provable guarantees both on robustness, interpretability, and accuracy in the context of decision trees. Experiments confirm that our algorithm yields classifiers that are both interpretable and robust and have high accuracy. The code for the experiments is available at https://github.com/y angarbiter/interpret able-robust-trees .
翻訳日:2021-02-16 16:04:48 公開日:2021-02-14
# ガウス過程の治癒生成物

Healing Products of Gaussian Processes ( http://arxiv.org/abs/2102.07106v1 )

ライセンス: Link先を確認
Samuel Cohen, Rendani Mbuvha, Tshilidzi Marwala, Marc Peter Deisenroth(参考訳) ガウス過程 (GP) は回帰問題や分類問題に適用された非パラメトリックベイズモデルである。 キューブトレーニングコストを軽減するためのアプローチの1つは、データのサブセットで訓練されたローカルGP専門家の使用です。 特に、製品のエキスパートモデルは、トラクタブルな製品操作を通じて地元の専門家の予測分布を結合します。 これらの専門家モデルは大規模に分散した計算を可能にするが、その予測は平均または未校正の不確実性定量化の不安定な振る舞いに悩まされるのが普通である。 温和なソフトマックス重み付けによる予測の校正により、専門家の一般化された積や頑健なベイズ委員会機械を含む複数の専門家モデルに対するこれらの問題の解を提供する。 さらに, 最適輸送文献を活用し, 回帰と分類の両方に適用可能なwasserstein barycenterを計算し, 現地専門家の予測を組み合わせる新しい経験則モデルを提案する。

Gaussian processes (GPs) are nonparametric Bayesian models that have been applied to regression and classification problems. One of the approaches to alleviate their cubic training cost is the use of local GP experts trained on subsets of the data. In particular, product-of-expert models combine the predictive distributions of local experts through a tractable product operation. While these expert models allow for massively distributed computation, their predictions typically suffer from erratic behaviour of the mean or uncalibrated uncertainty quantification. By calibrating predictions via a tempered softmax weighting, we provide a solution to these problems for multiple product-of-expert models, including the generalised product of experts and the robust Bayesian committee machine. Furthermore, we leverage the optimal transport literature and propose a new product-of-expert model that combines predictions of local experts by computing their Wasserstein barycenter, which can be applied to both regression and classification.
翻訳日:2021-02-16 16:04:36 公開日:2021-02-14
# 一般化dequantizationによる多様体密度推定

Manifold Density Estimation via Generalized Dequantization ( http://arxiv.org/abs/2102.07143v1 )

ライセンス: Link先を確認
James A. Brofos, Marcus A. Brubaker, Roy R. Lederman(参考訳) 密度推定は観測された分布を特徴付ける重要な手法である。 密度推定に関する多くの研究は、データがユークリッド空間にある場合に焦点を当てている。 しかしながら、ある種類のデータはユークリッド幾何学が基礎となるという仮定によって十分にモデル化されていない。 代わりに、ある既知の構造を持つ a {\it manifold} 上のようなデータをモデル化するのも有用である。 例えば、ある種のデータは球面上に存在することが知られているかもしれない。 多様体上の密度を推定する問題を考察する。 本論文では,周辺ユークリッド空間の座標変換と円滑な多様体のレンズを通して解釈する「量子化」の文献に触発された手法を提案する。 フローの正規化の手法を用いて、球面、トーラスおよび直交群上の密度をモデル化するために、滑らかな多様体構造の等化にこの手法を適用する。

Density estimation is an important technique for characterizing distributions given observations. Much existing research on density estimation has focused on cases wherein the data lies in a Euclidean space. However, some kinds of data are not well-modeled by supposing that their underlying geometry is Euclidean. Instead, it can be useful to model such data as lying on a {\it manifold} with some known structure. For instance, some kinds of data may be known to lie on the surface of a sphere. We study the problem of estimating densities on manifolds. We propose a method, inspired by the literature on "dequantization," ; which we interpret through the lens of a coordinate transformation of an ambient Euclidean space and a smooth manifold of interest. Using methods from normalizing flows, we apply this method to the dequantization of smooth manifold structures in order to model densities on the sphere, tori, and the orthogonal group.
翻訳日:2021-02-16 16:04:22 公開日:2021-02-14
# グローバルとローカライズを考える:高次元圏と複合検索空間に対するベイズ最適化

Think Global and Act Local: Bayesian Optimisation over High-Dimensional Categorical and Mixed Search Spaces ( http://arxiv.org/abs/2102.07188v1 )

ライセンス: Link先を確認
Xingchen Wan, Vu Nguyen, Huong Ha, Binxin Ru, Cong Lu, Michael A. Osborne(参考訳) 高次元ブラックボックス最適化は、未だに重要な課題である。 連続領域上のベイズ最適化法の成功にもかかわらず、連続変数とカテゴリ変数を混合する圏は依然として困難である。 我々は,局所最適化とカーネル設計を組み合わせ,高次元の分類と混合の探索空間を効果的に扱えるようにし,サンプル効率を保ちながら提案する。 さらに,提案手法に対する収束保証を導出する。 最後に,本手法は,性能,計算コスト,あるいはその両方の観点から,各種の合成および実世界のタスクにおいて,現在のベースラインを上回っていることを実証的に示す。

High-dimensional black-box optimisation remains an important yet notoriously challenging problem. Despite the success of Bayesian optimisation methods on continuous domains, domains that are categorical, or that mix continuous and categorical variables, remain challenging. We propose a novel solution -- we combine local optimisation with a tailored kernel design, effectively handling high-dimensional categorical and mixed search spaces, whilst retaining sample efficiency. We further derive convergence guarantee for the proposed approach. Finally, we demonstrate empirically that our method outperforms the current baselines on a variety of synthetic and real-world tasks in terms of performance, computational costs, or both.
翻訳日:2021-02-16 16:04:08 公開日:2021-02-14
# ニューラルネットワークにおける2次元曲線:ガウス過程を用いた新しい展望

Double-descent curves in neural networks: a new perspective using Gaussian processes ( http://arxiv.org/abs/2102.07238v1 )

ライセンス: Link先を確認
Ouns El Harzli, Guillermo Valle-P\'erez and Ard A. Louis(参考訳) ニューラルネットワークの二重輝線曲線は、一般化誤差が最初にパラメータの増加と共に下降する現象を記述し、データポイントの数より少ないパラメータの最適な数に達した後に成長するが、過度にパラメータ化された状態に再び下降する。 ここでは、無限幅限界の完全連結ネットワーク(FCN)に正確にマップするニューラルネットワークガウスプロセス(NNGP)を使用して、ランダム行列理論のテクニックと組み合わせ、この一般化の挙動を計算し、特に過パラメータ化された体制に焦点を当てます。 我々は,対応するガウス過程回帰の数値シミュレーションを用いて予測を検証する。 NNGPアプローチの利点は、解析的計算の方が解釈が容易である点である。 我々は、ニューラルネットワークの一般化性能は、オーバーパラメータ化された体制において正確に改善する、なぜなら、それが同等のガウス過程に収束するからである。

Double-descent curves in neural networks describe the phenomenon that the generalisation error initially descends with increasing parameters, then grows after reaching an optimal number of parameters which is less than the number of data points, but then descends again in the overparameterised regime. Here we use a neural network Gaussian process (NNGP) which maps exactly to a fully connected network (FCN) in the infinite width limit, combined with techniques from random matrix theory, to calculate this generalisation behaviour, with a particular focus on the overparameterised regime. We verify our predictions with numerical simulations of the corresponding Gaussian process regressions. An advantage of our NNGP approach is that the analytical calculations are easier to interpret. We argue that neural network generalization performance improves in the overparameterised regime precisely because that is where they converge to their equivalent Gaussian process.
翻訳日:2021-02-16 16:03:57 公開日:2021-02-14
# 多項式時間における組合せ半帯域の漸近的最適戦略

Asymptotically Optimal Strategies For Combinatorial Semi-Bandits in Polynomial Time ( http://arxiv.org/abs/2102.07254v1 )

ライセンス: Link先を確認
Thibaut Cuvelier and Richard Combes and Eric Gourdin(参考訳) 非相関なガウス報酬を伴う組合せ半帯域を考える。 本稿では,我々の知識を最大限に活用し,多くの興味のある組合せ構造に対して,多項式時間でgraves-lai最適化問題の解を計算できる最初の手法を提案する。 これは直交的に多項式時間で漸近的に最適なアルゴリズムを実装するための最初の方法である。

We consider combinatorial semi-bandits with uncorrelated Gaussian rewards. In this article, we propose the first method, to the best of our knowledge, that enables to compute the solution of the Graves-Lai optimization problem in polynomial time for many combinatorial structures of interest. In turn, this immediately yields the first known approach to implement asymptotically optimal algorithms in polynomial time for combinatorial semi-bandits.
翻訳日:2021-02-16 16:03:42 公開日:2021-02-14
# Few-Shot Learningのためのモデル非依存グラフ正規化

Model-Agnostic Graph Regularization for Few-Shot Learning ( http://arxiv.org/abs/2102.07077v1 )

ライセンス: Link先を確認
Ethan Shen, Maria Brbic, Nicholas Monath, Jiaqi Zhai, Manzil Zaheer, Jure Leskovec(参考訳) 多くの領域において、カテゴリ間の関係は知識グラフにエンコードされる。 近年,厳密な分類作業において,知識グラフを側面情報として組み込んだ有望な結果が得られている。 しかし、先行モデルは、すべてパフォーマンスに影響を与えるように見える多くのサブコンポーネントを持つ非常に複雑なアーキテクチャで構成されている。 本稿では,グラフ組込み小ショット学習に関する包括的実証研究について述べる。 本稿では,ラベル間のグラフ情報の組み込みによる影響をより深く理解できるグラフ正規化手法を提案する。 提案する正規化は広く適用可能で,モデル非依存であり,微調整,メトリックベース,最適化に基づくメタラーニングなど,任意のマイナショット学習モデルのパフォーマンスを向上させる。 提案手法は,Mini-ImageNetでは最大2%,ImageNet-FSでは6.7%,最先端のグラフ組込み手法では最大2%向上する。 さらなる分析により、グラフ正則化モデルにより、より困難なタスク、例えばより少ないショットと少ない情報的サポート例の損失が減少することが明らかになった。

In many domains, relationships between categories are encoded in the knowledge graph. Recently, promising results have been achieved by incorporating knowledge graph as side information in hard classification tasks with severely limited data. However, prior models consist of highly complex architectures with many sub-components that all seem to impact performance. In this paper, we present a comprehensive empirical study on graph embedded few-shot learning. We introduce a graph regularization approach that allows a deeper understanding of the impact of incorporating graph information between labels. Our proposed regularization is widely applicable and model-agnostic, and boosts the performance of any few-shot learning model, including fine-tuning, metric-based, and optimization-based meta-learning. Our approach improves the performance of strong base learners by up to 2% on Mini-ImageNet and 6.7% on ImageNet-FS, outperforming state-of-the-art graph embedded methods. Additional analyses reveal that graph regularizing models result in a lower loss for more difficult tasks, such as those with fewer shots and less informative support examples.
翻訳日:2021-02-16 16:02:54 公開日:2021-02-14
# マルチラベル分類法の包括的比較研究

Comprehensive Comparative Study of Multi-Label Classification Methods ( http://arxiv.org/abs/2102.07113v1 )

ライセンス: Link先を確認
Jasmin Bogatinovski, Ljup\v{c}o Todorovski, Sa\v{s}o D\v{z}eroski, Dragi Kocev(参考訳) マルチラベル分類(MLC)は最近、機械学習コミュニティから関心が高まっています。 いくつかの研究はMLCの方法とデータセットのレビューを提供し、いくつかの研究はMLCメソッドの実証的な比較を提供する。 ただし、考慮されるメソッドとデータセットの数に制限があります。 この研究は、さまざまなドメインのデータセットの多さに関する幅広いMLCメソッドの包括的な実証的研究を提供する。 より具体的には、42のベンチマークデータセットの26の手法を20の評価尺度を用いて評価する。 評価手法は、大規模で予算のかかる実験研究を設計・実行するための最も高い文献基準に準拠している。 まず、メソッドはコミュニティが使用する方法に基づいて選択され、メソッドのMLC分類と異なる基礎学習者のメソッドの表現を保証します。 第二に、データセットはアプリケーションの幅広い複雑さとドメインをカバーする。 選択した評価尺度は, 予測性能と手法の効率を評価する。 分析の結果は、RFPCT、RFDTBR、ECCJ48、EBRJ48およびAdaBoost.MHを、パフォーマンス対策のスペクトルにわたって最良の実行方法として識別する。 新しいメソッドが導入されるたびに、異なる評価基準に基づいて決定されるMLCメソッドの異なるサブセットと比較する必要があります。

Multi-label classification (MLC) has recently received increasing interest from the machine learning community. Several studies provide reviews of methods and datasets for MLC and a few provide empirical comparisons of MLC methods. However, they are limited in the number of methods and datasets considered. This work provides a comprehensive empirical study of a wide range of MLC methods on a plethora of datasets from various domains. More specifically, our study evaluates 26 methods on 42 benchmark datasets using 20 evaluation measures. The adopted evaluation methodology adheres to the highest literature standards for designing and executing large scale, time-budgeted experimental studies. First, the methods are selected based on their usage by the community, assuring representation of methods across the MLC taxonomy of methods and different base learners. Second, the datasets cover a wide range of complexity and domains of application. The selected evaluation measures assess the predictive performance and the efficiency of the methods. The results of the analysis identify RFPCT, RFDTBR, ECCJ48, EBRJ48 and AdaBoost.MH as best performing methods across the spectrum of performance measures. Whenever a new method is introduced, it should be compared to different subsets of MLC methods, determined on the basis of the different evaluation criteria.
翻訳日:2021-02-16 16:01:07 公開日:2021-02-14
# ネットワーク化されたサイバー物理システムのためのレジリエントな機械学習:cpsのための機械学習のセキュリティに関する調査

Resilient Machine Learning for Networked Cyber Physical Systems: A Survey for Machine Learning Security to Securing Machine Learning for CPS ( http://arxiv.org/abs/2102.07244v1 )

ライセンス: Link先を確認
Felix Olowononi and Danda B. Rawat and Chunmei Liu(参考訳) サイバー物理システム(CPS)は、物理的および情報またはサイバー世界を統合する能力によって特徴付けられる。 彼らの重要なインフラへの展開は、世界を変える可能性を実証した。 しかし、この可能性を活用することは、その批判的な性質と、人、インフラ、環境に対するサイバー攻撃の影響によって制限される。 CPSにおけるサイバー上の関心の引き金は、センサから無線通信媒体を介してアクチュエータに情報を送信し、攻撃面を広げることから生じる。 伝統的に、CPSセキュリティは、侵入者が暗号やその他のアクセス制御技術を使ってシステムにアクセスするのを防ぐ観点から調査されてきた。 したがって、ほとんどの研究はCPSにおける攻撃の検出に焦点を当てている。 しかし, 敵意識が高まる中では, cpsによる攻撃を完全に防ぐことが難しくなってきているため, cpsの回復性に重点を置く必要がある。 レジリエントなCPSは障害に耐え、敵の操作にもかかわらず機能するように設計されている。 レジリエントなCPSを構築するための主要な手法の1つは、機械学習(ML)アルゴリズムに依存している。 しかし、近年の敵対的MLの研究から、CPSを確保するためのMLアルゴリズム自体が回復力があることが示唆された。 そこで本論文では,CPSにおけるレジリエントCPSとレジリエントMLの相互作用を総合的に調査する。 論文は、多くの研究動向と今後の研究方向性で締めくくっている。 さらに,本論文では,MLベースのセキュリティの最近の進歩と,CPSと対策のためのMLの確保,および本研究領域における研究動向について,読者の理解を深めることができる。

Cyber Physical Systems (CPS) are characterized by their ability to integrate the physical and information or cyber worlds. Their deployment in critical infrastructure have demonstrated a potential to transform the world. However, harnessing this potential is limited by their critical nature and the far reaching effects of cyber attacks on human, infrastructure and the environment. An attraction for cyber concerns in CPS rises from the process of sending information from sensors to actuators over the wireless communication medium, thereby widening the attack surface. Traditionally, CPS security has been investigated from the perspective of preventing intruders from gaining access to the system using cryptography and other access control techniques. Most research work have therefore focused on the detection of attacks in CPS. However, in a world of increasing adversaries, it is becoming more difficult to totally prevent CPS from adversarial attacks, hence the need to focus on making CPS resilient. Resilient CPS are designed to withstand disruptions and remain functional despite the operation of adversaries. One of the dominant methodologies explored for building resilient CPS is dependent on machine learning (ML) algorithms. However, rising from recent research in adversarial ML, we posit that ML algorithms for securing CPS must themselves be resilient. This paper is therefore aimed at comprehensively surveying the interactions between resilient CPS using ML and resilient ML when applied in CPS. The paper concludes with a number of research trends and promising future research directions. Furthermore, with this paper, readers can have a thorough understanding of recent advances on ML-based security and securing ML for CPS and countermeasures, as well as research trends in this active research area.
翻訳日:2021-02-16 16:00:49 公開日:2021-02-14
# 対人攻撃の知覚的制約

Perceptually Constrained Adversarial Attacks ( http://arxiv.org/abs/2102.07140v1 )

ライセンス: Link先を確認
Muhammad Zaid Hameed, Andras Gyorgy(参考訳) 通常適用される$L_p$ノルム($p=1,2,\infty$)が画像分類における対比例の知覚的品質を捕捉しないという以前の観察を動機に、画像の知覚的類似度を測定するために最初に開発された構造的類似度指数(SSIM)測度とこれらのノルムを置き換えることを提案する。 我々は,MNIST と CIFAR-10 の対人訓練型分類器を用いた広範囲な実験を通じて,我々のSSIM制約型対人攻撃が,最先端の対人訓練型分類器を破り,弾力性ネット攻撃と同等ないしより大きな成功率を達成できることを示した。 ssimを用いて低品質の敵画像の自動識別・無効化を行い,従来の文献よりはるかに有意義な方法で複数の防御スキームの性能評価を行った。

Motivated by previous observations that the usually applied $L_p$ norms ($p=1,2,\infty$) do not capture the perceptual quality of adversarial examples in image classification, we propose to replace these norms with the structural similarity index (SSIM) measure, which was developed originally to measure the perceptual similarity of images. Through extensive experiments with adversarially trained classifiers for MNIST and CIFAR-10, we demonstrate that our SSIM-constrained adversarial attacks can break state-of-the-art adversarially trained classifiers and achieve similar or larger success rate than the elastic net attack, while consistently providing adversarial images of better perceptual quality. Utilizing SSIM to automatically identify and disallow adversarial images of low quality, we evaluate the performance of several defense schemes in a perceptually much more meaningful way than was done previously in the literature.
翻訳日:2021-02-16 15:56:58 公開日:2021-02-14
# 有限次元におけるSLOPEペナルティシーケンスの効率的な設計

Efficient Designs of SLOPE Penalty Sequences in Finite Dimension ( http://arxiv.org/abs/2102.07211v1 )

ライセンス: Link先を確認
Yiliang Zhang, Zhiqi Bu(参考訳) 線形回帰では、SLOPEはラッソを分類されたL1ペナルティを介して一般化する新しい凸解析手法である:より大きな適合係数はより重くペナルティ化される。 このマグニチュード依存正規化は、Lassoの場合のようにスカラーペナルティではなく、ペナルティシーケンス $\lambda$ の入力を必要とするため、設計は計算において非常に高価である。 本稿では,平均二乗誤差を最小限に抑えるため,高次元SLOPEペナルティを設計するための2つの効率的なアルゴリズムを提案する。 ガウスデータ行列に対しては、近似メッセージパッシング法の下で1次投影勾配降下 (pgd) を提案する。 一般的なデータ行列では、k レベル SLOPE と呼ばれる SLOPE のサブクラスを設計するために 0 番目の順序 Coordinate Descent (CD) を提示する。 私たちのCDは精度と計算速度のトレードオフに役立ちます。 我々は,合成データと実世界のデータセットを広範囲に実験し,slideの性能を実証する。

In linear regression, SLOPE is a new convex analysis method that generalizes the Lasso via the sorted L1 penalty: larger fitted coefficients are penalized more heavily. This magnitude-dependent regularization requires an input of penalty sequence $\lambda$, instead of a scalar penalty as in the Lasso case, thus making the design extremely expensive in computation. In this paper, we propose two efficient algorithms to design the possibly high-dimensional SLOPE penalty, in order to minimize the mean squared error. For Gaussian data matrices, we propose a first order Projected Gradient Descent (PGD) under the Approximate Message Passing regime. For general data matrices, we present a zero-th order Coordinate Descent (CD) to design a sub-class of SLOPE, referred to as the k-level SLOPE. Our CD allows a useful trade-off between the accuracy and the computation speed. We demonstrate the performance of SLOPE with our designs via extensive experiments on synthetic data and real-world datasets.
翻訳日:2021-02-16 15:56:38 公開日:2021-02-14
# 仮想アシスタントのための言語モデルのエラー駆動pruning

Error-driven Pruning of Language Models for Virtual Assistants ( http://arxiv.org/abs/2102.07219v1 )

ライセンス: Link先を確認
Sashank Gondala, Lyan Verwimp, Ernest Pusateri, Manos Tsagkias, Christophe Van Gysel(参考訳) 仮想アシスタント(VA)のための言語モデル(LM)は、通常大量のデータに基づいて訓練されるため、過剰なメモリや/またはリアルタイムのユーザ要求に使用できないような、違法に大規模なモデルが得られる。 Entropy pruningはより小さいモデルで結果をもたらすが、ユーザー要求の配分の尾の有効性の有意な低下と。 我々は,より緩和されたプルーニング閾値を必要とするn-gramのキープリストを許可することでエントロピープルーニングをカスタマイズし,keepリストを構築するための3つの方法を提案する。 各メソッドには、LMサイズ、ASRの精度、およびキープリストを構築するコストに関して、独自の利点と欠点があります。 我々の最高のLMは、目標とするテストセットに対して平均単語誤り率(WER)を8%削減するが、ベースラインよりも3倍大きい。 また,最大 lm で達成された wer の成果の大部分を保ちつつ,lm の大きさを小さくする判別手法を提案する。

Language models (LMs) for virtual assistants (VAs) are typically trained on large amounts of data, resulting in prohibitively large models which require excessive memory and/or cannot be used to serve user requests in real-time. Entropy pruning results in smaller models but with significant degradation of effectiveness in the tail of the user request distribution. We customize entropy pruning by allowing for a keep list of infrequent n-grams that require a more relaxed pruning threshold, and propose three methods to construct the keep list. Each method has its own advantages and disadvantages with respect to LM size, ASR accuracy and cost of constructing the keep list. Our best LM gives 8% average Word Error Rate (WER) reduction on a targeted test set, but is 3 times larger than the baseline. We also propose discriminative methods to reduce the size of the LM while retaining the majority of the WER gains achieved by the largest LM.
翻訳日:2021-02-16 15:51:24 公開日:2021-02-14
# 拡張自己注意によるロバストレーン検出

Robust Lane Detection via Expanded Self Attention ( http://arxiv.org/abs/2102.07037v1 )

ライセンス: Link先を確認
Minhyeok Lee, Junhyeop Lee, Dogyoon Lee, Woojin Kim, Sangwon Hwang, Sangyoun Lee(参考訳) 画像に基づく車線検出アルゴリズムは、自動運転車の重要な技術の一つだ。 現代の深層学習法は、車線検出で高性能を実現するが、混雑した道路や極端な照明条件などの困難な状況では、車線を正確に検出することは依然として困難である。 これらの困難な状況に堅牢であるためには、限られた視覚的手がかりからグローバルな文脈情報を抽出することが重要です。 本論文では,車線検出に最適化された単純かつ強力な自己アテンション機構であるExpanded Self Attention (ESA)モジュールを提案する。 提案手法は,単純なレーンの幾何学的構造に触発され,画像内の垂直方向と水平方向のレーンの信頼度を予測する。 信頼度予測により、グローバルな文脈情報を抽出することにより、隠蔽された位置を推定できる。 ESAモジュールは、推論時間を増やすことなく、任意のエンコーダデコーダベースのモデルに簡単に実装および適用できます。 提案手法の性能を,TuSimple,CULane,BDD 100Kの3つの一般的なレーン検出ベンチマークで評価した。 CULaneとBDD100Kの最先端のパフォーマンスとTuSimpleデータセットの明確な改善を実現します。 実験結果から,本手法は閉塞および極端照明条件に対して頑健であることがわかった。

The image-based lane detection algorithm is one of the key technologies in autonomous vehicles. Modern deep learning methods achieve high performance in lane detection, but it is still difficult to accurately detect lanes in challenging situations such as congested roads and extreme lighting conditions. To be robust on these challenging situations, it is important to extract global contextual information even from limited visual cues. In this paper, we propose a simple but powerful self-attention mechanism optimized for lane detection called the Expanded Self Attention (ESA) module. Inspired by the simple geometric structure of lanes, the proposed method predicts the confidence of a lane along the vertical and horizontal directions in an image. The prediction of the confidence enables estimating occluded locations by extracting global contextual information. ESA module can be easily implemented and applied to any encoder-decoder-base d model without increasing the inference time. The performance of our method is evaluated on three popular lane detection benchmarks (TuSimple, CULane and BDD100K). We achieve state-of-the-art performance in CULane and BDD100K and distinct improvement on TuSimple dataset. The experimental results show that our approach is robust to occlusion and extreme lighting conditions.
翻訳日:2021-02-16 15:45:31 公開日:2021-02-14
# nerf$--$: 既知のカメラパラメータを持たないニューラルラミアンスフィールド

NeRF$--$: Neural Radiance Fields Without Known Camera Parameters ( http://arxiv.org/abs/2102.07064v1 )

ライセンス: Link先を確認
Zirui Wang, Shangzhe Wu, Weidi Xie, Min Chen, Victor Adrian Prisacariu(参考訳) 本稿では、カメラのポーズや内在性のない2次元画像からの新しいビュー合成(NVS)問題に取り組む。 様々なNVS技術の中で、Neural Radiance Field (NeRF)は、その顕著な合成品質のために最近人気を集めている。 既存のNeRFベースのアプローチでは、各入力画像に関連するカメラパラメータがトレーニング時に直接アクセス可能であるか、Structure-from-Motio nのような従来の手法で正確に推定できる。 本研究では,RGB画像のみのNeRFモデルを予め計算したカメラパラメータを使わずにトレーニングするための,NeRF-と呼ばれるエンドツーエンドフレームワークを提案する。 具体的には,nerfモデルの学習中に,内在的および外在的の両方を含むカメラパラメータが協調最適化により自動的に検出されることを示す。 標準のLLFFベンチマークでは、COLMAPプリコンピュレートカメラパラメータで訓練されたベースラインと比較して、新しいビュー合成結果が得られます。 また、異なるカメラトラジェクトリのモデル動作を理解するために広範囲な分析を行い、COLMAPが失敗するシナリオでは、モデルが頑健な結果をもたらすことを示す。

This paper tackles the problem of novel view synthesis (NVS) from 2D images without known camera poses and intrinsics. Among various NVS techniques, Neural Radiance Field (NeRF) has recently gained popularity due to its remarkable synthesis quality. Existing NeRF-based approaches assume that the camera parameters associated with each input image are either directly accessible at training, or can be accurately estimated with conventional techniques based on correspondences, such as Structure-from-Motio n. In this work, we propose an end-to-end framework, termed NeRF--, for training NeRF models given only RGB images, without pre-computed camera parameters. Specifically, we show that the camera parameters, including both intrinsics and extrinsics, can be automatically discovered via joint optimisation during the training of the NeRF model. On the standard LLFF benchmark, our model achieves comparable novel view synthesis results compared to the baseline trained with COLMAP pre-computed camera parameters. We also conduct extensive analyses to understand the model behaviour under different camera trajectories, and show that in scenarios where COLMAP fails, our model still produces robust results.
翻訳日:2021-02-16 15:45:15 公開日:2021-02-14
# TransGAN:2つのトランスフォーマーが強力なガンを作れる

TransGAN: Two Transformers Can Make One Strong GAN ( http://arxiv.org/abs/2102.07074v1 )

ライセンス: Link先を確認
Yifan Jiang, Shiyu Chang, Zhangyang Wang(参考訳) 最近の変圧器に対する爆発的な関心は、分類、検出、セグメンテーションといったコンピュータビジョンタスクのための強力な「ユニバーサル」モデルになる可能性を示唆している。 しかし、トランスフォーマーはどこまで進むことができるのか?例えばgans(generative adversarial networks)のような、より悪名高い視覚タスクをこなす準備はできているのか? このような好奇心を駆使して、純粋なトランスフォーマーベースのアーキテクチャのみを用いて、GAN \textbf{completely free of convolutions}を構築するための最初のパイロット研究を行う。 私たちのバニラGANアーキテクチャである \textbf{TransGAN} は、組み込み寸法を減らしながら機能解像度を段階的に向上するメモリフレンドリーなトランスフォーマーベースのジェネレータと、トランスフォーマーベースのパッチレベルの識別装置で構成されています。 次に,自然画像の近傍の滑らかさを強調する局所初期化セルフアテンションにより,データ拡張(標準ganよりも多く),マルチタスク協調学習戦略,およびトランスガンの利点を実証する。 これらの結果と合わせて、TransGANはより大きなモデルと高解像度の画像データセットで効果的にスケールアップできる。 特に,我々の最高のアーキテクチャは,畳み込みバックボーンに基づく現在の最先端のGANと比較して,高い競争性能を実現している。 具体的には、TransGAN は STL-10 で 10.10 と FID スコア 25.32 の \textbf{new state-of-the-art} IS スコアを設定する。 また、8.64 ISスコアと11.89 FIDスコアをシファー10で、12.23 FIDスコアをCelebA $64\times64$でそれぞれ達成している。 また、TransGANの現在の限界と将来の可能性についても論じる。 コードは \url{https://github.com/V ITA-Group/TransGAN} で入手できる。

The recent explosive interest on transformers has suggested their potential to become powerful "universal" models for computer vision tasks, such as classification, detection, and segmentation. However, how further transformers can go - are they ready to take some more notoriously difficult vision tasks, e.g., generative adversarial networks (GANs)? Driven by that curiosity, we conduct the first pilot study in building a GAN \textbf{completely free of convolutions}, using only pure transformer-based architectures. Our vanilla GAN architecture, dubbed \textbf{TransGAN}, consists of a memory-friendly transformer-based generator that progressively increases feature resolution while decreasing embedding dimension, and a patch-level discriminator that is also transformer-based. We then demonstrate TransGAN to notably benefit from data augmentations (more than standard GANs), a multi-task co-training strategy for the generator, and a locally initialized self-attention that emphasizes the neighborhood smoothness of natural images. Equipped with those findings, TransGAN can effectively scale up with bigger models and high-resolution image datasets. Specifically, our best architecture achieves highly competitive performance compared to current state-of-the-art GANs based on convolutional backbones. Specifically, TransGAN sets \textbf{new state-of-the-art} IS score of 10.10 and FID score of 25.32 on STL-10. It also reaches competitive 8.64 IS score and 11.89 FID score on Cifar-10, and 12.23 FID score on CelebA $64\times64$, respectively. We also conclude with a discussion of the current limitations and future potential of TransGAN. The code is available at \url{https://github.com/V ITA-Group/TransGAN}.
翻訳日:2021-02-16 15:44:56 公開日:2021-02-14
# 行動認識のための汎用運動としての空間と時間の自己相似性

Learning Self-Similarity in Space and Time as Generalized Motion for Action Recognition ( http://arxiv.org/abs/2102.07092v1 )

ライセンス: Link先を確認
Heeseung Kwon, Manjin Kim, Suha Kwak, Minsu Cho(参考訳) 時空間畳み込みはビデオのモーションダイナミクスを学習できないことが多いため、野生のビデオ理解には効果的なモーション表現が必要です。 本稿では,時空間的自己相似性(STSS)に基づくリッチかつ堅牢な動き表現を提案する。 フレームのシーケンスを与えられたSTSSは、スペースと時間の隣人との類似性として各ローカル地域を表します。 外観特徴を関係値に変換することにより、学習者は空間と時間の構造パターンをよりよく認識することができる。 stsのボリューム全体を活用し、モデルに効果的なモーション表現を抽出させることを学ばせます。 SELFYと呼ばれる提案された神経ブロックは、追加の監督なしに簡単に神経アーキテクチャに挿入し、エンドツーエンドで訓練することができます。 空間と時間の十分な量で、それは効果的にビデオ内の長期的な相互作用と速い動きをキャプチャし、堅牢なアクション認識につながります。 実験的な解析により,従来の運動モデルよりも優れていることと,直接畳み込みによる時空間的特徴との相補性を実証した。 標準動作認識ベンチマークであるSomething-V1 & V2, Diving-48, FineGymでは, 提案手法は最先端の結果が得られる。

Spatio-temporal convolution often fails to learn motion dynamics in videos and thus an effective motion representation is required for video understanding in the wild. In this paper, we propose a rich and robust motion representation based on spatio-temporal self-similarity (STSS). Given a sequence of frames, STSS represents each local region as similarities to its neighbors in space and time. By converting appearance features into relational values, it enables the learner to better recognize structural patterns in space and time. We leverage the whole volume of STSS and let our model learn to extract an effective motion representation from it. The proposed neural block, dubbed SELFY, can be easily inserted into neural architectures and trained end-to-end without additional supervision. With a sufficient volume of the neighborhood in space and time, it effectively captures long-term interaction and fast motion in the video, leading to robust action recognition. Our experimental analysis demonstrates its superiority over previous methods for motion modeling as well as its complementarity to spatio-temporal features from direct convolution. On the standard action recognition benchmarks, Something-Something- V1 & V2, Diving-48, and FineGym, the proposed method achieves the state-of-the-art results.
翻訳日:2021-02-16 15:44:23 公開日:2021-02-14
# スパース・マルチスケール学習のための前方逆流グリーディ手法

A Forward Backward Greedy approach for Sparse Multiscale Learning ( http://arxiv.org/abs/2102.07068v1 )

ライセンス: Link先を確認
Prashant Shekhar and Abani Patra(参考訳) マルチスケールモデルは、異なる解像度でデータの構造を発見し解析することに成功したことが知られている。 現在の研究では、関連するカーネルが重み付きマルチスケール構造を持つ機能駆動のカーネルヒルベルト空間(RKHS)を提案する。 この空間で近似を生成するために、マルチスケール構造を持つ基底関数の集合を段階的に構築し、与えられたデータセットから疎表現を作成し、表現と予測を非常に効率的にする実用的なフォワードバックワードアルゴリズムを提供する。 アルゴリズムハイパーパラメータの選択と個々のスケールでの収束確率の推定のための推奨を含むアルゴリズムの詳細な分析を提供します。 次に、この分析をマルチスケール設定に拡張し、固有のRKHSにおける有限スケール切断および溶液の品質の影響を研究します。 最後のセクションでは、さまざまなシミュレーションと実際のデータセットに対するアプローチのパフォーマンスを分析し、モデル品質とデータ削減の観点から効率要求を正当化します。

Multiscale Models are known to be successful in uncovering and analyzing the structures in data at different resolutions. In the current work we propose a feature driven Reproducing Kernel Hilbert space (RKHS), for which the associated kernel has a weighted multiscale structure. For generating approximations in this space, we provide a practical forward-backward algorithm that is shown to greedily construct a set of basis functions having a multiscale structure, while also creating sparse representations from the given data set, making representations and predictions very efficient. We provide a detailed analysis of the algorithm including recommendations for selecting algorithmic hyper-parameters and estimating probabilistic rates of convergence at individual scales. Then we extend this analysis to multiscale setting, studying the effects of finite scale truncation and quality of solution in the inherent RKHS. In the last section, we analyze the performance of the approach on a variety of simulation and real data sets, thereby justifying the efficiency claims in terms of model quality and data reduction.
翻訳日:2021-02-16 15:39:45 公開日:2021-02-14
# ドーピング:スパース構造付加行列を用いたLSTMモデルの効率的な圧縮手法

Doping: A technique for efficient compression of LSTM models using sparse structured additive matrices ( http://arxiv.org/abs/2102.07071v1 )

ライセンス: Link先を確認
Urmish Thakker, Paul N. Whatmough, Zhigang Liu, Matthew Mattina, Jesse Beu(参考訳) Kronecker製品(KP)から派生した構造行列はニューラルネットワークの圧縮に有効であるが、大型モデルに適用すると許容できない精度の損失につながる。 本稿では,構造化行列に非常にスパースな行列を付加するドーピングの概念を提案する。 ドーピングは、少数のパラメータに対する追加の自由度を促進し、固定構造から独立して分離することを可能にする。 LSTMをドープした構造行列で訓練するために、そのスパースレベルをゆっくりとアニールしながら追加のパラメータ行列を導入します。 しかし, 構造行列とスパース行列間の共行列適応(CMA)により, ドッピング行列が緩やかに分散するにつれて, 性能が低下することがわかった。 我々はコマトリクスドロップアウト正規化(CMR)スキームを用いて、スパース行列に対する過度の依存に対処する。 ドッピング, CMA, CMRが一般に複数の構造化行列(Kronecker Product, LMF, Hybrid Matrix Decomposition)に適用可能であることを示す実証的証拠を提供する。 さらに、doped kronecker製品行列による結果は、4つの自然言語処理アプリケーションの大きな圧縮係数(10倍から25倍)における最先端の精度を示す。 ドープされたKP圧縮技術は、1.32.4倍高い圧縮係数を同じ精度で達成し、またプルーニングやローランクメソッドのような強力な代替手段を大きなマージン(8%以上)で打ち負かした。 さらに、ドープされたKPが現在のソフトウェアスタックを使用してコモディティハードウェアにデプロイされ、ベースライン上で2.5~5.5倍の推論実行速度を達成できることを示した。

Structured matrices, such as those derived from Kronecker products (KP), are effective at compressing neural networks, but can lead to unacceptable accuracy loss when applied to large models. In this paper, we propose the notion of doping -- addition of an extremely sparse matrix to a structured matrix. Doping facilitates additional degrees of freedom for a small number of parameters, allowing them to independently diverge from the fixed structure. To train LSTMs with doped structured matrices, we introduce the additional parameter matrix while slowly annealing its sparsity level. However, we find that performance degrades as we slowly sparsify the doping matrix, due to co-matrix adaptation (CMA) between the structured and the sparse matrices. We address this over dependence on the sparse matrix using a co-matrix dropout regularization (CMR) scheme. We provide empirical evidence to show that doping, CMA and CMR are concepts generally applicable to multiple structured matrices (Kronecker Product, LMF, Hybrid Matrix Decomposition). Additionally, results with doped kronecker product matrices demonstrate state-of-the-art accuracy at large compression factors (10 - 25x) across 4 natural language processing applications with minor loss in accuracy. Doped KP compression technique outperforms previous state-of-the art compression results by achieving 1.3 - 2.4x higher compression factor at a similar accuracy, while also beating strong alternatives like pruning and low-rank methods by a large margin (8% or more). Additionally, we show that doped KP can be deployed on commodity hardware using the current software stack and achieve 2.5 - 5.5x inference run-time speed-up over baseline.
翻訳日:2021-02-16 15:39:26 公開日:2021-02-14
# ダイナミックタイムワーピングのためのタイトローバウンド

Tight lower bounds for Dynamic Time Warping ( http://arxiv.org/abs/2102.07076v1 )

ライセンス: Link先を確認
Geoffrey I. Webb and Francois Petitjean(参考訳) Dynamic Time Warping (DTW) は時系列の整列と比較のための一般的な類似度尺度である。 DTWの計算時間が高いため、低い境界はマッチの表示にしばしば使用される。 多くの代替低い境界が提案され、タイトさと計算効率の間のさまざまなトレードオフが提供されている。 LB Keoghは多くのアプリケーションで便利なトレードオフを提供している。 最近の2つの下限、LB ImprovedとLB Enhancedは、LB Keoghよりもかなり狭い。 3つすべてに同じ最悪の場合の計算の複雑さがあります-シリーズ長に関して線形および窓のサイズに関して一定。 同じ複雑性クラスに4つの新しいDTW下位境界を示す。 LB Petitjean は LB Improved よりもかなり密であり、計算オーバーヘッドはわずかである。 LB Webb は LB Improved よりも効率的であり、しばしばより厳密なバウンダリを提供する。 LB Webbは常にLB Keoghよりきつい。 パラメータフリーのLB Webbは通常、LB Enhancedよりもタイトです。 パラメータ化された変種であるLB Webb Enhancedは、常にLB Enhancedよりも厳密である。 LB Webb* は、いくつかの制限された距離関数に有用である。 大規模な実験では、LB Webbは近接探索に非常に有効であることが証明された。

Dynamic Time Warping (DTW) is a popular similarity measure for aligning and comparing time series. Due to DTW's high computation time, lower bounds are often employed to screen poor matches. Many alternative lower bounds have been proposed, providing a range of different trade-offs between tightness and computational efficiency. LB Keogh provides a useful trade-off in many applications. Two recent lower bounds, LB Improved and LB Enhanced, are substantially tighter than LB Keogh. All three have the same worst case computational complexity - linear with respect to series length and constant with respect to window size. We present four new DTW lower bounds in the same complexity class. LB Petitjean is substantially tighter than LB Improved, with only modest additional computational overhead. LB Webb is more efficient than LB Improved, while often providing a tighter bound. LB Webb is always tighter than LB Keogh. The parameter free LB Webb is usually tighter than LB Enhanced. A parameterized variant, LB Webb Enhanced, is always tighter than LB Enhanced. A further variant, LB Webb*, is useful for some constrained distance functions. In extensive experiments, LB Webb proves to be very effective for nearest neighbor search.
翻訳日:2021-02-16 15:38:58 公開日:2021-02-14
# 連続軌道シフトによる大規模メタラーニング

Large-Scale Meta-Learning with Continual Trajectory Shifting ( http://arxiv.org/abs/2102.07215v1 )

ライセンス: Link先を確認
Jaewoong Shin and Hae Beom Lee and Boqing Gong and Sung Ju Hwang(参考訳) 共有初期化パラメータのメタラーニングは、少数ショット学習タスクの解決に非常に有効であることが示されている。 しかし、その実践性をさらに高めるであろう多ショットシナリオへのフレームワークの拡張は、内部段階の長い連鎖を超越したメタラーニングの技術的困難により、比較的見過ごされてきた。 本論文では, メタレンナが複数の内部勾配ステップを経ることにより, 異種および大規模タスク分布の構造をよりよく捉えることにより, より優れた初期化点が得られることを示した。 さらに,過度に長い内部最適化トラジェクタにおいてもメタ更新の頻度を増加させるため,初期化パラメータの変化に対してタスク固有のパラメータの必要なシフトを推定する。 これにより、メタ更新の頻度を任意に増加させ、メタレベルの収束と学習した初期化の品質を大幅に向上させることができる。 本手法を大規模タスクのヘテロジニアス集合上で検証し,一般化性能と収束性,マルチタスク学習と微調整ベースラインの両面で,前述した一階メタラーニング手法を大きく上回っていることを示す。

Meta-learning of shared initialization parameters has shown to be highly effective in solving few-shot learning tasks. However, extending the framework to many-shot scenarios, which may further enhance its practicality, has been relatively overlooked due to the technical difficulties of meta-learning over long chains of inner-gradient steps. In this paper, we first show that allowing the meta-learners to take a larger number of inner gradient steps better captures the structure of heterogeneous and large-scale task distributions, thus results in obtaining better initialization points. Further, in order to increase the frequency of meta-updates even with the excessively long inner-optimization trajectories, we propose to estimate the required shift of the task-specific parameters with respect to the change of the initialization parameters. By doing so, we can arbitrarily increase the frequency of meta-updates and thus greatly improve the meta-level convergence as well as the quality of the learned initializations. We validate our method on a heterogeneous set of large-scale tasks and show that the algorithm largely outperforms the previous first-order meta-learning methods in terms of both generalization performance and convergence, as well as multi-task learning and fine-tuning baselines.
翻訳日:2021-02-16 15:38:45 公開日:2021-02-14
# 自己教師付き学習モデルを用いた話者自動検証のための逆防御

Adversarial defense for automatic speaker verification by cascaded self-supervised learning models ( http://arxiv.org/abs/2102.07047v1 )

ライセンス: Link先を確認
Haibin Wu, Xu Li, Andy T. Liu, Zhiyong Wu, Helen Meng, Hung-yi Lee(参考訳) 自動話者検証(ASV)は生体認証における中核技術の1つです。 安全クリティカルなアプリケーションでASVシステムのユビキタスな使用により、ますます悪意のある攻撃者がASVシステムで敵対攻撃を起動しようとします。 ASVの攻撃と防衛の武器競争の最中に、敵の攻撃に対するASVの堅牢性を効果的に改善する方法は未解決の問題である。 自己教師型学習モデルには,事前学習後の入力における表面摂動を緩和する能力がある。 そこで本研究では,対向攻撃に対するasvの効果的な防御を目的として,逐次的自己教師付き学習モデルに基づく標準的かつ攻撃非依存な手法を提案する。 実験結果は,提案手法が効果的な防御性能を達成し,攻撃者が自己監督学習モデルに気付いていない場合の敵攻撃に対して効果的に対抗できることを示す。

Automatic speaker verification (ASV) is one of the core technologies in biometric identification. With the ubiquitous usage of ASV systems in safety-critical applications, more and more malicious attackers attempt to launch adversarial attacks at ASV systems. In the midst of the arms race between attack and defense in ASV, how to effectively improve the robustness of ASV against adversarial attacks remains an open question. We note that the self-supervised learning models possess the ability to mitigate superficial perturbations in the input after pretraining. Hence, with the goal of effective defense in ASV against adversarial attacks, we propose a standard and attack-agnostic method based on cascaded self-supervised learning models to purify the adversarial perturbations. Experimental results demonstrate that the proposed method achieves effective defense performance and can successfully counter adversarial attacks in scenarios where attackers may either be aware or unaware of the self-supervised learning models.
翻訳日:2021-02-16 15:30:54 公開日:2021-02-14
# 推薦のための知識グラフとのインタラクションの背後にある学習意図

Learning Intents behind Interactions with Knowledge Graph for Recommendation ( http://arxiv.org/abs/2102.07057v1 )

ライセンス: Link先を確認
Xiang Wang, Tinglin Huang, Dingxian Wang, Yancheng Yuan, Zhenguang Liu, Xiangnan He, Tat-Seng Chua(参考訳) 知識グラフ(KG)は、推薦システムにおいてますます重要な役割を果たす。 最近の技術トレンドは、グラフニューラルネットワーク(gnns)を基盤としたエンドツーエンドモデルの開発である。 しかし,既存のGNNモデルでは,(1)細粒度レベルでのユーザ・イテム関係の同定に失敗し,(2)長期接続のセマンティクスを維持するために関係依存性を利用する。 本研究では,補助的項目知識を用いたユーザ・イテムインタラクションの背景にある意図を考察し,知識グラフに基づくインテントネットワーク(KGIN)という新しいモデルを提案する。 技術的には、各意図をkg関係の注意深い組み合わせとしてモデル化し、より優れたモデル能力と解釈可能性のために異なる意図の独立を奨励する。 さらに、長距離接続(すなわち関係経路)の関係列を再帰的に統合する、gnnのための新しい情報集約スキームを考案する。 この手法により,ユーザ意図に関する有用な情報を抽出し,ユーザやアイテムの表現にエンコードすることができる。 3つのベンチマークデータセットの実験結果は、KGINがKGAT、KGNN-LS、CKANといった最先端の手法よりも大幅に改善されていることを示している。 さらに分析すると、KGINは影響力のある意図と関係パスを特定することによって予測の解釈可能な説明を提供する。 実装はhttps://github.com/h uangtinglin/Knowledg e_Graph_based_Intent _Networkで入手できる。

Knowledge graph (KG) plays an increasingly important role in recommender systems. A recent technical trend is to develop end-to-end models founded on graph neural networks (GNNs). However, existing GNN-based models are coarse-grained in relational modeling, failing to (1) identify user-item relation at a fine-grained level of intents, and (2) exploit relation dependencies to preserve the semantics of long-range connectivity. In this study, we explore intents behind a user-item interaction by using auxiliary item knowledge, and propose a new model, Knowledge Graph-based Intent Network (KGIN). Technically, we model each intent as an attentive combination of KG relations, encouraging the independence of different intents for better model capability and interpretability. Furthermore, we devise a new information aggregation scheme for GNN, which recursively integrates the relation sequences of long-range connectivity (i.e., relational paths). This scheme allows us to distill useful information about user intents and encode them into the representations of users and items. Experimental results on three benchmark datasets show that, KGIN achieves significant improvements over the state-of-the-art methods like KGAT, KGNN-LS, and CKAN. Further analyses show that KGIN offers interpretable explanations for predictions by identifying influential intents and relational paths. The implementations are available at https://github.com/h uangtinglin/Knowledg e_Graph_based_Intent _Network.
翻訳日:2021-02-16 15:30:38 公開日:2021-02-14
# メタ刺激の新しい方法:アーキテクチャ、埋め込み、ニューラルネットワークの最適化

New methods for metastimuli: architecture, embeddings, and neural network optimization ( http://arxiv.org/abs/2102.07090v1 )

ライセンス: Link先を確認
Rico A.R. Picone, Dane Webb, Finbarr Obierefu, Jotham Lentz(参考訳) ユーザの個人情報管理システム(PIMS)内の空間的に相関する構造的位置を機械学習により学習し,触覚メタ刺激の基礎となる,これまでに提示された「メタ刺激アーキテクチャ」の6つの新しい方法論的展開について述べる。 アーキテクチャ革新、リカレント(RNN)人工ニューラルネットワーク(ANN)アプリケーション、様々な原子埋め込み技術(言語学にインスパイアされた"ナブラ"埋め込みと呼ばれる新しいテクニックを含む)、ANNハイパーパラメータ(ネットワークに影響を与えるが、トレーニングされていないもの)などが含まれる。 学習率)最適化とメタパラメータ(システム性能を決定するが、訓練されていない、ハイパーパラメータなどではない)。 atom埋め込み技術) 大きな設計空間を探索するための最適化。 ユーザPIMSにおける自動原子分類のためのシステムを使用するテクニックを概説する。 ANNトレーニングとハイパーパラメーターおよびメタパラメーター最適化の結果を提示し、方法論的勧告に供して議論する。

Six significant new methodological developments of the previously-presented "metastimuli architecture" for human learning through machine learning of spatially correlated structural position within a user's personal information management system (PIMS), providing the basis for haptic metastimuli, are presented. These include architectural innovation, recurrent (RNN) artificial neural network (ANN) application, a variety of atom embedding techniques (including a novel technique we call "nabla" embedding inspired by linguistics), ANN hyper-parameter (one that affects the network but is not trained, e.g. the learning rate) optimization, and meta-parameter (one that determines the system performance but is not trained and not a hyper-parameter, e.g. the atom embedding technique) optimization for exploring the large design space. A technique for using the system for automatic atom categorization in a user's PIMS is outlined. ANN training and hyper- and meta-parameter optimization results are presented and discussed in service of methodological recommendations.
翻訳日:2021-02-16 15:30:12 公開日:2021-02-14
# 注意:自動音声認識のための注意に基づく人工ニューラルネットワークに関する調査

Thank you for Attention: A survey on Attention-based Artificial Neural Networks for Automatic Speech Recognition ( http://arxiv.org/abs/2102.07259v1 )

ライセンス: Link先を確認
Priyabrata Karmakar, Shyh Wei Teng, Guojun Lu(参考訳) 注意力は、ニューラルネットワークに基づくシーケンシャル・ツー・シーケンスモデルにおいて、非常に一般的かつ効果的なメカニズムである。 本研究では,自動音声認識システムの開発に用いるさまざまな注意モデルについて総合的に検討する。 本論文では、ニューラルネットワークおよびトランスフォーマーベースのリカレントアーキテクチャにおけるオフラインおよびストリーミング音声認識のための注目モデルの開発と進化に焦点を当てる。

Attention is a very popular and effective mechanism in artificial neural network-based sequence-to-sequence models. In this survey paper, a comprehensive review of the different attention models used in developing automatic speech recognition systems is provided. The paper focuses on the development and evolution of attention models for offline and streaming speech recognition within recurrent neural network- and Transformer- based architectures.
翻訳日:2021-02-16 15:29:10 公開日:2021-02-14
# 情報設計によるマルコフゲームの平衡解法について

On the Equilibrium Elicitation of Markov Games Through Information Design ( http://arxiv.org/abs/2102.07152v1 )

ライセンス: Link先を確認
Tao Zhang, Quanyan Zhu(参考訳) 本研究は,新しい情報設計問題を検討し,知的エージェントの行動にのみ影響するペイオフ関連環境信号の手法について検討する。 エージェントの戦略的相互作用は、各エージェントが複数の信号源から1つの環境信号を追加のペイオフ関連情報として選択し、次にアクションを取る不完全情報マルコフゲームによってキャプチャされる。 有理情報設計者(設計者)は一つの信号源を持ち、エージェントに送られたシグナルの情報構造を設計することによってエージェントの平衡挙動を制御することを目的としている。 情報設計が各エージェントにインセンティブを与えてデザイナが送信した信号を選択し、設計プロセスがエージェントの戦略選択行動の予測を回避した場合に、直接情報設計に集中することが一般性を損なうことがないことを示す従順原理が確立される。 次に, 従順実装性(OIL)と呼ばれる設計者の目標を前提とした設計プロトコルを導入し, 従順完全マルコフ・ナッシュ均衡(O-PBME)のクラスでOILを特徴付ける。 最適なslack変数を最大化するアプローチに基づいて,情報設計の新しいフレームワークを提案する。 最後に、O-PBMEとベイジアンマルコフ相関平衡の関係を確立し、経済における古典的な情報設計における啓示原則に基づいて、設計者の目標選択問題を策定し、情報設計の観点から特徴づけます。 提案手法は,競争におけるマルチエージェントシステムの望ましい行動や,協調的な設定,完全および不完全情報環境における異種確率ゲームへの拡張に応用できる。

This work considers a novel information design problem and studies how the craft of payoff-relevant environmental signals solely can influence the behaviors of intelligent agents. The agents' strategic interactions are captured by an incomplete-informati on Markov game, in which each agent first selects one environmental signal from multiple signal sources as additional payoff-relevant information and then takes an action. There is a rational information designer (designer) who possesses one signal source and aims to control the equilibrium behaviors of the agents by designing the information structure of her signals sent to the agents. An obedient principle is established which states that it is without loss of generality to focus on the direct information design when the information design incentivizes each agent to select the signal sent by the designer, such that the design process avoids the predictions of the agents' strategic selection behaviors. We then introduce the design protocol given a goal of the designer referred to as obedient implementability (OIL) and characterize the OIL in a class of obedient perfect Bayesian Markov Nash equilibria (O-PBME). A new framework for information design is proposed based on an approach of maximizing the optimal slack variables. Finally, we formulate the designer's goal selection problem and characterize it in terms of information design by establishing a relationship between the O-PBME and the Bayesian Markov correlated equilibria, in which we build upon the revelation principle in classic information design in economics. The proposed approach can be applied to elicit desired behaviors of multi-agent systems in competing as well as cooperating settings and be extended to heterogeneous stochastic games in the complete- and the incomplete-informati on environments.
翻訳日:2021-02-16 15:28:25 公開日:2021-02-14
# ハイブリッドレンズの注意誘導深部融合による光電界再構成

Light Field Reconstruction via Attention-Guided Deep Fusion of Hybrid Lenses ( http://arxiv.org/abs/2102.07085v1 )

ライセンス: Link先を確認
Jing Jin and Hui Liu and Junhui Hou and Hongkai Xiong(参考訳) 本稿では,複数の低解像度カメラを取り囲む高分解能カメラを含むハイブリッドレンズからの高分解能光電界(lf)像の再構成の問題について検討する。 既存手法の性能は, 平坦なテクスチャ領域のぼやけた結果や, 深さの不連続境界付近の歪みなど, 依然として限られている。 そこで本研究では,2つの相補的および並列的な視点から,入力の特異な特性を総合的に活用できる,新しいエンドツーエンド学習手法を提案する。 具体的には、深い多次元およびクロスドメインの特徴表現を学習することにより、空間的に一貫した中間推定を回帰し、他方のモジュールは、高分解能ビューの情報を伝播することにより、高周波数テクスチャを維持する別の中間推定をワープする。 最後に,2つの中間推定の利点を学習アテンションマップを通して適応的に活用し,平滑なテクスチャ領域と深さの不連続境界の両方において,最終的な高分解能のlf画像を得る。 さらに,ハイブリッドLFイメージングシステムによって得られた実ハイブリッドデータに対して,シミュレーションハイブリッドデータを用いてトレーニングした手法の有効性を向上するために,ネットワークアーキテクチャとトレーニング戦略を慎重に設計する。 実データとシミュレーションデータの両方について広範な実験を行った結果,最先端データよりも優れたアプローチが得られた。 我々の知る限りでは、これは真のハイブリッド入力からのLF再構成のための最初のエンドツーエンドのディープラーニング手法である。 当社のフレームワークは、高解像度LFデータ取得のコストを削減し、LFデータストレージと伝送に利益をもたらす可能性があると考えています。

This paper explores the problem of reconstructing high-resolution light field (LF) images from hybrid lenses, including a high-resolution camera surrounded by multiple low-resolution cameras. The performance of existing methods is still limited, as they produce either blurry results on plain textured areas or distortions around depth discontinuous boundaries. To tackle this challenge, we propose a novel end-to-end learning-based approach, which can comprehensively utilize the specific characteristics of the input from two complementary and parallel perspectives. Specifically, one module regresses a spatially consistent intermediate estimation by learning a deep multidimensional and cross-domain feature representation, while the other module warps another intermediate estimation, which maintains the high-frequency textures, by propagating the information of the high-resolution view. We finally leverage the advantages of the two intermediate estimations adaptively via the learned attention maps, leading to the final high-resolution LF image with satisfactory results on both plain textured areas and depth discontinuous boundaries. Besides, to promote the effectiveness of our method trained with simulated hybrid data on real hybrid data captured by a hybrid LF imaging system, we carefully design the network architecture and the training strategy. Extensive experiments on both real and simulated hybrid data demonstrate the significant superiority of our approach over state-of-the-art ones. To the best of our knowledge, this is the first end-to-end deep learning method for LF reconstruction from a real hybrid input. We believe our framework could potentially decrease the cost of high-resolution LF data acquisition and benefit LF data storage and transmission.
翻訳日:2021-02-16 15:26:37 公開日:2021-02-14
# マルチテクスチャGAN:脳MR画像のためのマルチスケールテクスチャ翻訳の探索

Multi-Texture GAN: Exploring the Multi-Scale Texture Translation for Brain MR Images ( http://arxiv.org/abs/2102.07225v1 )

ライセンス: Link先を確認
Xiaobin Hu(参考訳) MRIデータセットにおけるスキャン間およびプロトコール間差は、大きな定量化のばらつきを引き起こすことが知られている。 したがって、画像から画像、スキャナーからスキャナーへの翻訳は、多くの潜在的な用途を持つ医療画像分析の分野で重要なフロンティアです。 それにもかかわらず、既存のアルゴリズムのかなりの割合は、ターゲットスキャナーからテクスチャの詳細を明示的に利用および保存することができず、特殊なタスク固有アーキテクチャに対する個々のソリューションを提供します。 本論文では,再構成イメージをより詳細に強調するために,マルチスケールテクスチャ転送の設計を行う。 具体的には、テクスチャ類似性を計算した後、マルチスケールテクスチャは、テクスチャ情報をターゲット画像や参照画像から復元画像へ適応的に転送することができる。 従来のアルゴリズムによるピクセル単位でのマッチングとは違って,テクスチャの特徴をニューラルネットワークに実装したマルチスケールスキームでマッチングする。 マッチングメカニズムは、モデルがターゲットまたは参照画像からより意味関連および病変関連優先順位をつかむことを奨励するマルチスケール神経伝達を利用することができる。 拡散MRIのクロスプロトコール超解像、T1-Flair、Flair-T2モダリティ変換の3つのタスクでマルチスケールテクスチャGANを評価します。 我々のマルチテクスチャGANは、より高分解能な構造(エッジと解剖学)、テクスチャ(コントラストとピクセル強度)、病変情報(腫瘍)を修復する。 定量的・定性的な実験により,本手法は最先端手法よりもプロトコール間およびスカンナー間翻訳において優れた結果が得られることを示した。

Inter-scanner and inter-protocol discrepancy in MRI datasets are known to lead to significant quantification variability. Hence image-to-image or scanner-to-scanner translation is a crucial frontier in the area of medical image analysis with a lot of potential applications. Nonetheless, a significant percentage of existing algorithms cannot explicitly exploit and preserve texture details from target scanners and offers individual solutions towards specialized task-specific architectures. In this paper, we design a multi-scale texture transfer to enrich the reconstruction images with more details. Specifically, after calculating textural similarity, the multi-scale texture can adaptively transfer the texture information from target images or reference images to restored images. Different from the pixel-wise matching space as done by previous algorithms, we match texture features in a multi-scale scheme implemented in the neural space. The matching mechanism can exploit multi-scale neural transfer that encourages the model to grasp more semantic-related and lesion-related priors from the target or reference images. We evaluate our multi-scale texture GAN on three different tasks without any task-specific modifications: cross-protocol super-resolution of diffusion MRI, T1-Flair, and Flair-T2 modality translation. Our multi-texture GAN rehabilitates more high-resolution structures (i.e., edges and anatomy), texture (i.e., contrast and pixel intensities), and lesion information (i.e., tumor). The extensively quantitative and qualitative experiments demonstrate that our method achieves superior results in inter-protocol or inter-scanner translation over state-of-the-art methods.
翻訳日:2021-02-16 15:26:09 公開日:2021-02-14
# 深部学習による2次元広視野顕微鏡像からの非平面流の推定

Estimating Nonplanar Flow from 2D Motion-blurred Widefield Microscopy Images via Deep Learning ( http://arxiv.org/abs/2102.07228v1 )

ライセンス: Link先を確認
Adrian Shajkofci, Michael Liebling(参考訳) オプティカルフロー(optical flow)は、画像中の任意のピクセルの動き速度を予測することを目的とした手法であり、医学や生物学において臓器や臓器内の粒子の流れを推定するために用いられる。 しかし、精密な光学フロー測定では、高速かつ低露光時間で撮影される画像が必要であり、照明力の増加による光毒性を誘導する。 本稿では, 通常の光条件と標準顕微鏡カメラを用いて, 平面外粒子の3次元運動ベクトル場を推定する。 本研究では,単一テクスチャの広視野顕微鏡画像から,運動ボケの局所特性を用いた平面外粒子の移動を予測する手法を提案する。 本研究では,深層ニューラルネットワークを用いたボケモデルパラメータの局所的な推定から速度ベクトル場を推定し,基底真理シミュレーションベクトル場とネットワークの出力との間の回帰係数 0.92 の予測を行った。 この方法では、高速カメラや高強度光露光を必要とせずに、マイクロスコピストが試料の動的特性に関する洞察を得ることができる。

Optical flow is a method aimed at predicting the movement velocity of any pixel in the image and is used in medicine and biology to estimate flow of particles in organs or organelles. However, a precise optical flow measurement requires images taken at high speed and low exposure time, which induces phototoxicity due to the increase in illumination power. We are looking here to estimate the three-dimensional movement vector field of moving out-of-plane particles using normal light conditions and a standard microscope camera. We present a method to predict, from a single textured wide-field microscopy image, the movement of out-of-plane particles using the local characteristics of the motion blur. We estimated the velocity vector field from the local estimation of the blur model parameters using an deep neural network and achieved a prediction with a regression coefficient of 0.92 between the ground truth simulated vector field and the output of the network. This method could enable microscopists to gain insights about the dynamic properties of samples without the need for high-speed cameras or high-intensity light exposure.
翻訳日:2021-02-16 15:25:42 公開日:2021-02-14
# スパイラルリアルタイムMRIのオフ共鳴補正のための注意誘導畳み込みニューラルネットワーク

Attention-gated convolutional neural networks for off-resonance correction of spiral real-time MRI ( http://arxiv.org/abs/2102.07271v1 )

ライセンス: Link先を確認
Yongwan Lim, Shrikanth S. Narayanan, Krishna S. Nayak(参考訳) スパイラル取得は、その効率性のためにリアルタイムMRIで好まれており、自然発話中の声道動態を捉えることができる。 スパイラルの基本的な制限は、不共振によるぼやけと信号損失であり、空気対流境界での画質が低下する。 本稿では,アテンションゲート機構を組み込んだCNNによる非共振補正手法を提案する。 これにより、フィルタされた出力の空間的およびチャネル的関係を利用し、ネットワークの表現性を改善する。 我々は,既存のオフ共振補正法と比較して,1.5テスラスパイラル音声RT-MRIによるアテンションゲートの性能向上を実証した。

Spiral acquisitions are preferred in real-time MRI because of their efficiency, which has made it possible to capture vocal tract dynamics during natural speech. A fundamental limitation of spirals is blurring and signal loss due to off-resonance, which degrades image quality at air-tissue boundaries. Here, we present a new CNN-based off-resonance correction method that incorporates an attention-gate mechanism. This leverages spatial and channel relationships of filtered outputs and improves the expressiveness of the networks. We demonstrate improved performance with the attention-gate, on 1.5 Tesla spiral speech RT-MRI, compared to existing off-resonance correction methods.
翻訳日:2021-02-16 15:25:23 公開日:2021-02-14
# 個人化フェデレーション学習のための共有表現の探索

Exploiting Shared Representations for Personalized Federated Learning ( http://arxiv.org/abs/2102.07078v1 )

ライセンス: Link先を確認
Liam Collins, Hamed Hassani, Aryan Mokhtari, Sanjay Shakkottai(参考訳) ディープニューラルネットワークは、さまざまな学習タスクに有用な画像やテキストなどのデータから普遍的な特徴表現を抽出する能力を示しています。 しかし、表現学習の成果はまだフェデレーション設定で完全に実現されていない。 フェデレーション設定のデータはしばしば非i.i.dである。 クライアント間での集中型ディープラーニングの成功は、データがグローバルな特徴表現を共有することの多いことを示し、クライアントやタスク間の統計的不均一性はラベルに集中している。 この直観に基づいて,クライアント間の共有データ表現と,クライアント毎にユニークなローカルヘッドを学習するための,新しい連合学習フレームワークとアルゴリズムを提案する。 提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。 本手法は,クライアント毎の問題次元を効率的に削減できることを示すために,最適に近いサンプル複雑性を持つ接地表現への線形収束を線形設定で得ることを実証する。 さらに,異種環境下での個別化学習手法よりも,提案手法の改良を実証した広範な実験結果も提示する。

Deep neural networks have shown the ability to extract universal feature representations from data such as images and text that have been useful for a variety of learning tasks. However, the fruits of representation learning have yet to be fully-realized in federated settings. Although data in federated settings is often non-i.i.d. across clients, the success of centralized deep learning suggests that data often shares a global feature representation, while the statistical heterogeneity across clients or tasks is concentrated in the labels. Based on this intuition, we propose a novel federated learning framework and algorithm for learning a shared data representation across clients and unique local heads for each client. Our algorithm harnesses the distributed computational power across clients to perform many local-updates with respect to the low-dimensional local parameters for every update of the representation. We prove that this method obtains linear convergence to the ground-truth representation with near-optimal sample complexity in a linear setting, demonstrating that it can efficiently reduce the problem dimension for each client. Further, we provide extensive experimental results demonstrating the improvement of our method over alternative personalized federated learning approaches in heterogeneous settings.
翻訳日:2021-02-16 15:22:58 公開日:2021-02-14
# FedU:ラプラシア正規化によるフェデレーションマルチタスク学習のための統一フレームワーク

FedU: A Unified Framework for Federated Multi-Task Learning with Laplacian Regularization ( http://arxiv.org/abs/2102.07148v1 )

ライセンス: Link先を確認
Canh T. Dinh, Tung T. Vu, Nguyen H. Tran, Minh N. Dao, Hongyu Zhang(参考訳) フェデレート・マルチタスク・ラーニング(FMTL)は、フェデレーション・ラーニングにおけるクライアント間の統計的多様性を捉える自然な選択肢として登場した。 統計的多様性を超えてFMTLの可能性を解き明かすため,Laplacian regularization を用いて新たなFMTL問題 FedU を定式化し,マルチタスク学習におけるクライアント間の関係を明確に活用する。 まず、FedUが従来のフェデレーション学習、パーソナライズされたフェデレーション学習、少数ショット学習、階層化されたモデル学習など、幅広い問題をカバーする統一的なフレームワークを提供することを示す。 次に、FedUの最適モデルを学ぶために、通信集中型と分散型の両方のスキームを含むアルゴリズムを提案する。 理論的には、feduのアルゴリズムの収束速度は、非凸目的に対して1/2$の強い凸とサブリニアの高速化を実現する。 FedUの解析は強い凸と非凸の両方の損失関数に適用できるが、従来のFMTLアルゴリズムMOCHAはCoCoAフレームワークをベースにしており、凸の場合のみ適用できる。 実験では、FedUがフェデラFedAvg、MOCHA、およびpFedMeおよびPer-FedAvgよりもパーソナライズされたフェデレーション学習で優れていることを確認しました。

Federated multi-task learning (FMTL) has emerged as a natural choice to capture the statistical diversity among the clients in federated learning. To unleash the potential of FMTL beyond statistical diversity, we formulate a new FMTL problem FedU using Laplacian regularization, which can explicitly leverage relationships among the clients for multi-task learning. We first show that FedU provides a unified framework covering a wide range of problems such as conventional federated learning, personalized federated learning, few-shot learning, and stratified model learning. We then propose algorithms including both communication-centra lized and decentralized schemes to learn optimal models of FedU. Theoretically, we show that the convergence rates of both FedU's algorithms achieve linear speedup for strongly convex and sublinear speedup of order $1/2$ for nonconvex objectives. While the analysis of FedU is applicable to both strongly convex and nonconvex loss functions, the conventional FMTL algorithm MOCHA, which is based on CoCoA framework, is only applicable to convex case. Experimentally, we verify that FedU outperforms the vanilla FedAvg, MOCHA, as well as pFedMe and Per-FedAvg in personalized federated learning.
翻訳日:2021-02-16 15:22:39 公開日:2021-02-14
# 監視ネットワーク中毒によるネットワーク埋め込みに対する敵意攻撃

Adversarial Attack on Network Embeddings via Supervised Network Poisoning ( http://arxiv.org/abs/2102.07164v1 )

ライセンス: Link先を確認
Viresh Gupta, Tanmoy Chakraborty(参考訳) ネットワーク表現学習の技術を用いた低レベルのノード埋め込みの学習は、ノード分類やリンク予測などの下流タスクの解決に役立ちます。 このような応用において重要な考慮事項は、元のネットワーク上で摂動を行うことで検証できる敵攻撃に対する埋め込みアルゴリズムの堅牢性である。 効率的な摂動手法により、下流タスクへのネットワーク埋め込みの性能を低下させることができる。 本稿では,敵対的観点からのネットワーク埋め込みアルゴリズムについて検討し,下流タスクに対するネットワーク中毒の影響を観察する。 独自のネットワーク構造で最先端の中毒法を最大18%上回る監視ネットワーク中毒戦略「VIKING」を提案します。 また、VIKINGを半監視アタック設定に拡張し、その監視アタックと同等であることを示します。

Learning low-level node embeddings using techniques from network representation learning is useful for solving downstream tasks such as node classification and link prediction. An important consideration in such applications is the robustness of the embedding algorithms against adversarial attacks, which can be examined by performing perturbation on the original network. An efficient perturbation technique can degrade the performance of network embeddings on downstream tasks. In this paper, we study network embedding algorithms from an adversarial point of view and observe the effect of poisoning the network on downstream tasks. We propose VIKING, a supervised network poisoning strategy that outperforms the state-of-the-art poisoning methods by upto 18% on the original network structure. We also extend VIKING to a semi-supervised attack setting and show that it is comparable to its supervised counterpart.
翻訳日:2021-02-16 15:22:16 公開日:2021-02-14
# プライベートラーニングは量子安定性を意味する

Private learning implies quantum stability ( http://arxiv.org/abs/2102.07171v1 )

ライセンス: Link先を確認
Srinivasan Arunachalam, Yihui Quek, John Smolin(参考訳) 未知のn$-qubit量子状態の学習 $\rho$は、量子コンピューティングにおける基本的な課題である。 情報理論上は、トモグラフィーは、トレース距離まで推定するために、n$で多くのコピーを指数関数的に必要とすることが知られている。 計算学習理論によって動機づけられ、アーロンソンら。 学習状態のPACモデル(Proceedings of Royal Society A'07)、学習状態の「影」を学習するためのシャドートモグラフィ(STOC'18)、学習者に差分プライベート(STOC'19)を求めるモデル(NeurIPS'18)、学習状態のオンラインモデル(NeurIPS'18)が導入された。 これらのモデルでは、未知の状態が rho の多くのコピーを使って「およそ」学習できることが示されている。 しかし、これらのモデルの間に何か関係がありますか? 本稿では,微分プライベートなPAC学習からコミュニケーションの複雑さ,オンライン学習,そして量子安定性への(情報理論的な)影響を実証する。 本研究の主な成果はBun, Livni, Moran (Journal of the ACM'21) の最近の研究を一般化し, 有限リトルストーン次元(ブール値の概念クラス)は(近似)微分プライベート(DP)設定においてPAC学習可能性を示すことを示した。 まず,実数値設定におけるそれらの研究を考察し,その手法をさらに量子状態の学習に拡張する。 我々の結果の鍵となるのは、我々の一般的な量子オンライン学習者、Robust Standard Optimal Algorithm (RSOA)である。 次に、PACモデルにおけるDP学習量子状態、一方向通信モデルにおける量子状態の学習可能性、量子状態のオンライン学習、量子安定性(私たちの概念的貢献である)、様々な組み合わせパラメータ、および穏やかな影トモグラフィおよびノイズの多い量子状態学習へのさらなる適用を示す。

Learning an unknown $n$-qubit quantum state $\rho$ is a fundamental challenge in quantum computing. Information-theoreti cally, it is known that tomography requires exponential in $n$ many copies of $\rho$ to estimate it up to trace distance. Motivated by computational learning theory, Aaronson et al. introduced many (weaker) learning models: the PAC model of learning states (Proceedings of Royal Society A'07), shadow tomography (STOC'18) for learning "shadows" of a state, a model that also requires learners to be differentially private (STOC'19) and the online model of learning states (NeurIPS'18). In these models it was shown that an unknown state can be learned "approximately" using linear-in-$n$ many copies of rho. But is there any relationship between these models? In this paper we prove a sequence of (information-theoret ic) implications from differentially-priva te PAC learning, to communication complexity, to online learning and then to quantum stability. Our main result generalizes the recent work of Bun, Livni and Moran (Journal of the ACM'21) who showed that finite Littlestone dimension (of Boolean-valued concept classes) implies PAC learnability in the (approximate) differentially private (DP) setting. We first consider their work in the real-valued setting and further extend their techniques to the setting of learning quantum states. Key to our results is our generic quantum online learner, Robust Standard Optimal Algorithm (RSOA), which is robust to adversarial imprecision. We then show information-theoreti c implications between DP learning quantum states in the PAC model, learnability of quantum states in the one-way communication model, online learning of quantum states, quantum stability (which is our conceptual contribution), various combinatorial parameters and give further applications to gentle shadow tomography and noisy quantum state learning.
翻訳日:2021-02-16 15:22:04 公開日:2021-02-14
# Turningによる学習: ニューラルネットワークアーキテクチャの最適化

Learning by Turning: Neural Architecture Aware Optimisation ( http://arxiv.org/abs/2102.07227v1 )

ライセンス: Link先を確認
Yang Liu, Jeremy Bernstein, Markus Meister, Yisong Yue(参考訳) ステップサイズ、運動量、重量の減衰を慎重に調整する必要があるため、新しいベンチマークでどの方法が最もうまくいくかが優先順位不明です。 この問題に対処するため,本稿では神経構造と最適化の複合研究を行い,神経回転子(nero: the neuronal rotator)と呼ばれる新しい光学系を導いた。 Neroは運動量や体重の減少なしに確実に列車を運転し、AdamとSGDが失敗する状況で働き、学習率のチューニングはほとんど必要としません。 また、Neroのメモリフットプリントは、アダムやLAMBの正方形のルートです。 ネロは、(1)バランスの取れたネットワーク空間上の勾配降下、(2)ニューロン固有の更新、(2)ステップサイズが各ニューロンの超平面が回転する角度を設定する。 アーキテクチャと最適化の間の幾何学的関係が、ディープラーニングの一般化の理論にどのように影響するかを論じる。

Descent methods for deep networks are notoriously capricious: they require careful tuning of step size, momentum and weight decay, and which method will work best on a new benchmark is a priori unclear. To address this problem, this paper conducts a combined study of neural architecture and optimisation, leading to a new optimiser called Nero: the neuronal rotator. Nero trains reliably without momentum or weight decay, works in situations where Adam and SGD fail, and requires little to no learning rate tuning. Also, Nero's memory footprint is ~ square root that of Adam or LAMB. Nero combines two ideas: (1) projected gradient descent over the space of balanced networks; (2) neuron-specific updates, where the step size sets the angle through which each neuron's hyperplane turns. The paper concludes by discussing how this geometric connection between architecture and optimisation may impact theories of generalisation in deep learning.
翻訳日:2021-02-16 15:21:25 公開日:2021-02-14
# Smoothness Matrices Beats Smoothness Constants: Better Communication Compression Techniques for Distributed Optimizations

Smoothness Matrices Beat Smoothness Constants: Better Communication Compression Techniques for Distributed Optimization ( http://arxiv.org/abs/2102.07245v1 )

ライセンス: Link先を確認
Mher Safaryan, Filip Hanzely, Peter Richt\'arik(参考訳) 大規模分散最適化は、多数のパラメータとトレーニングデータを持つ教師付き機械学習モデルのトレーニングのためのデフォルトツールとなっている。 この分野の最近の進歩は、トレーニングをスピードアップするためのいくつかのメカニズムを提供し、例えば「圧縮通信」、「分散減少」および「加速」である。 しかし、これらの方法のいずれも、標準の平滑度定数以上の局所損失の本質的にリッチなデータ依存平滑性構造を利用することはできない。 本稿では,教師付きモデルの学習において,ユビキタスな滑らか性定数の情報豊富な一般化である {\em smoothness matrices} が,理論と実践の両方において,さらなる劇的な成果に活用可能であることを論じる。 分散最適化に固有の通信負担を軽減するため,局所的損失に伴う滑らか度行列を最大限に活用できる新しい通信スペーシフィケーション戦略を提案する。 このツールのパワーを紹介するために、sparsificationテクニックを3つの分散最適化アルゴリズム – dcgd、diana、adiana – に適用することで、通信の複雑さという面で大きな節約が得られます。 新しいメソッドは常にベースラインよりも優れています。

Large scale distributed optimization has become the default tool for the training of supervised machine learning models with a large number of parameters and training data. Recent advancements in the field provide several mechanisms for speeding up the training, including {\em compressed communication}, {\em variance reduction} and {\em acceleration}. However, none of these methods is capable of exploiting the inherently rich data-dependent smoothness structure of the local losses beyond standard smoothness constants. In this paper, we argue that when training supervised models, {\em smoothness matrices} -- information-rich generalizations of the ubiquitous smoothness constants -- can and should be exploited for further dramatic gains, both in theory and practice. In order to further alleviate the communication burden inherent in distributed optimization, we propose a novel communication sparsification strategy that can take full advantage of the smoothness matrices associated with local losses. To showcase the power of this tool, we describe how our sparsification technique can be adapted to three distributed optimization algorithms -- DCGD, DIANA and ADIANA -- yielding significant savings in terms of communication complexity. The new methods always outperform the baselines, often dramatically so.
翻訳日:2021-02-16 15:21:05 公開日:2021-02-14
# 機械学習によるバイオリントッププレートのパラメトリック最適化

Parametric Optimization of Violin Top Plates using Machine Learning ( http://arxiv.org/abs/2102.07133v1 )

ライセンス: Link先を確認
Davide Salvi, Sebastian Gonzalez, Fabio Antonacci, Augusto Sarti(参考訳) 我々は最近,バイオリントッププレートを定義する幾何学的パラメータと機械的パラメータを入力として受け取り,自由境界条件で計算した最初の10個の固有周波数を出力するニューラルネットワークを開発した。 本稿では、バイオリントッププレートの固有スペクトル問題とそのジオメトリの関係を解析することを目的に、ネットワークを用いて複数の誤差関数を最適化する。 まず、バイオリンの輪郭に焦点を合わせます。 振動の特徴を考えると、我々はそれを得るためにプレートの最高のジオメトリを見つける。 第2に, 振動の観点からは, 厚み分布において輪郭形状の変化を1つずつ補正できるか, その逆について検討する。 最後に、材料特性が異なるため、バイオリンの形状を変更して応答を一定に保つ方法を分析します。 これは、人工知能がまだ広く使われていない音楽音響学の原型技術である。 これにより、楽器の振動挙動を幾何学から計算し、その形状を所定の応答に最適化することができる。 さらに、この方法はヴァイオリン製作者にとって大きな助けとなり、構築するヴァイオリンの幾何学的変化の影響を容易に理解し、最も関連性の高いものの一つに光を遮ると同時に、楽器の製作過程のあまり理解されていない側面も理解することができる。

We recently developed a neural network that receives as input the geometrical and mechanical parameters that define a violin top plate and gives as output its first ten eigenfrequencies computed in free boundary conditions. In this manuscript, we use the network to optimize several error functions, with the goal of analyzing the relationship between the eigenspectrum problem for violin top plates and their geometry. First, we focus on the violin outline. Given a vibratory feature, we find which is the best geometry of the plate to obtain it. Second, we investigate whether, from the vibrational point of view, a change in the outline shape can be compensated by one in the thickness distribution and vice versa. Finally, we analyze how to modify the violin shape to keep its response constant as its material properties vary. This is an original technique in musical acoustics, where artificial intelligence is not widely used yet. It allows us to both compute the vibrational behavior of an instrument from its geometry and optimize its shape for a given response. Furthermore, this method can be of great help to violin makers, who can thus easily understand the effects of the geometry changes in the violins they build, shedding light on one of the most relevant and, at the same time, less understood aspects of the construction process of musical instruments.
翻訳日:2021-02-16 15:15:39 公開日:2021-02-14
# 高速通信と圧縮通信を用いた分散二階法

Distributed Second Order Methods with Fast Rates and Compressed Communication ( http://arxiv.org/abs/2102.07158v1 )

ライセンス: Link先を確認
Rustem Islamov and Xun Qian and Peter Richt\'arik(参考訳) 分散最適化のための通信効率の高い第2次手法を複数開発する。 我々の最初の手法NEWTON-STARはニュートンの手法の変種であり、その高速局所二次速度を継承する。 しかし、Newtonの方法とは異なり、NewTON-STARは勾配降下と同じ反復通信コストを楽しんでいます。 本手法は目的関数のヘッシアンを最適に特徴付ける未知のパラメータを用いるため実用的でないが、強い理論的保証により実用的変種を設計できる出発点として機能する。 特に,未知のパラメータを反復的に学習するための確率的スパーシフィケーション戦略を,コミュニケーション効率良く設計する。 NEWTON-STARにこの戦略を適用すると、次の方法であるNEWTON-LEARNにつながり、条件番号とは無関係に局所線形および超線形率を証明します。 適用する場合、最先端の手法と比較して、この手法は劇的に優れた収束挙動を示すことができる。 最後に,次の手法である CUBIC-NEWTON-LEARN を導いた立方正則化を用いたグローバル化戦略を開発し,グローバルサブリニアおよび線形収束率,高速スーパーリニアレートを証明した。 その結果,実データを用いた実験結果が支持され,通信の複雑さの観点から,ベースライン法と最先端法において数桁の改善がみられた。

We develop several new communication-effici ent second-order methods for distributed optimization. Our first method, NEWTON-STAR, is a variant of Newton's method from which it inherits its fast local quadratic rate. However, unlike Newton's method, NEWTON-STAR enjoys the same per iteration communication cost as gradient descent. While this method is impractical as it relies on the use of certain unknown parameters characterizing the Hessian of the objective function at the optimum, it serves as the starting point which enables us design practical variants thereof with strong theoretical guarantees. In particular, we design a stochastic sparsification strategy for learning the unknown parameters in an iterative fashion in a communication efficient manner. Applying this strategy to NEWTON-STAR leads to our next method, NEWTON-LEARN, for which we prove local linear and superlinear rates independent of the condition number. When applicable, this method can have dramatically superior convergence behavior when compared to state-of-the-art methods. Finally, we develop a globalization strategy using cubic regularization which leads to our next method, CUBIC-NEWTON-LEARN, for which we prove global sublinear and linear convergence rates, and a fast superlinear rate. Our results are supported with experimental results on real datasets, and show several orders of magnitude improvement on baseline and state-of-the-art methods in terms of communication complexity.
翻訳日:2021-02-16 15:15:17 公開日:2021-02-14
# 遺伝的アルゴリズムに基づく統合アクセス・バックホールネットワークにおけるトポロジー最適化とルーティングについて

On Topology Optimization and Routing in Integrated Access and Backhaul Networks: A Genetic Algorithm-based Approach ( http://arxiv.org/abs/2102.07252v1 )

ライセンス: Link先を確認
Charitha Madapatha, Behrooz Makki, Ajmal Muhammad, Erik Dahlman, Mohamed-Slim Alouini, Tommy Svensson(参考訳) 本稿では,5gネットワークを進化させる有望な手法の1つとして,iab(integrated access and backhaul)ネットワークにおけるトポロジー最適化とルーティングの問題について検討する。 我々は問題を異なる観点から研究する。 我々は,IABノード配置と非IABバックホールリンク分布の両方に対する効率的な遺伝的アルゴリズムベースのスキームを開発し,時間的ブロックをバイパスする経路の効果を評価する。 ここではミリ波通信に集中して,ユーザ機器(UE)の最小レート要件が満たされる事象の確率として定義されるサービスカバレッジ確率について検討する。 さらに,アンテナゲイン,ブロック,木の葉といった異なるパラメータがシステム性能に及ぼす影響について検討した。 最後に、最近の Rel-16 と、今後の IAB ネットワークのルーティングに関する Rel-17 3GPP の議論を要約し、メッシュベースの IAB ネットワークを実現する上での大きな課題について論じる。 私たちが示すように、適切なネットワークトポロジを持つIABは、5G以上のネットワーク密度化を実現するための魅力的なアプローチです。

In this paper, we study the problem of topology optimization and routing in integrated access and backhaul (IAB) networks, as one of the promising techniques for evolving 5G networks. We study the problem from different perspectives. We develop efficient genetic algorithm-based schemes for both IAB node placement and non-IAB backhaul link distribution, and evaluate the effect of routing on bypassing temporal blockages. Here, concentrating on millimeter wave-based communications, we study the service coverage probability, defined as the probability of the event that the user equipments' (UEs) minimum rate requirements are satisfied. Moreover, we study the effect of different parameters such as the antenna gain, blockage and tree foliage on the system performance. Finally, we summarize the recent Rel-16 as well as the upcoming Rel-17 3GPP discussions on routing in IAB networks, and discuss the main challenges for enabling mesh-based IAB networks. As we show, with a proper network topology, IAB is an attractive approach to enable the network densification required by 5G and beyond.
翻訳日:2021-02-16 15:14:52 公開日:2021-02-14
# EventScore: 臨床イベントのための自動リアルタイム早期警告スコア

EventScore: An Automated Real-time Early Warning Score for Clinical Events ( http://arxiv.org/abs/2102.05958v2 )

ライセンス: Link先を確認
Ibrahim Hammoud, Prateek Prasanna, IV Ramakrishnan, Adam Singer, Mark Henry, Henry Thode(参考訳) 臨床劣化のリスクのある患者の早期予測は、医師が介入し、より良い結果に向けて臨床経過を変えるのに役立つ。 精度の要件に加えて、早期の警告システムは、医師が介入するのに十分な時間を与えるのに十分な予測を早めなければならない。 モデル決定の背後にある理由を正当化することができることが臨床で望ましいため、そのようなシステムを構築する際の課題の一つでもある。 本研究は,臨床劣化を示唆する種々の有害な臨床事象の早期予測のための解釈可能なモデルを構築した。 このモデルは2つのデータセットと4つの臨床イベントで評価される。 最初のデータセットは、Stony Brook Hospitalで主に新型コロナウイルス陽性人口で収集されています。 2番目のデータセットはMIMIC IIIデータセットです。 このモデルは、ストーニーブルック病院のデータセットで換気、ICU転送、死亡予測タスクの早期警告スコアを提供し、MIMIC IIIデータセット上での死亡率と血管圧剤の必要性を予測するために訓練された。 我々のモデルはまず各機能を複数の範囲に分割し、次にラッソペナリゼーションを用いたロジスティック回帰を用いて各特徴に対する範囲のサブセットを選択する。 モデルトレーニングは完全に自動化されており、他の早期警告スコアのような専門的な知識は必要ありません。 当モデルとMEWS (Modified Early Warning Score) と, 病院で一般的に使用されるクイックSOFA (qSOFA) を比較した。 本モデルでは, 受信機動作特性曲線 (AUROC) の領域において, より少ない特徴を用いても, 全臨床イベントにおいて, 同様の, より優れた中央値検出時間を持ちながら, これらのモデルよりも優れていることを示す。 MEWSやqSOFAとは異なり、我々のモデルは手動で記録する機能なしで完全に自動化できる。 また, モデルとベースラインのロジスティック回帰モデルを比較することで, モデル性能を改善できることを示した。

Early prediction of patients at risk of clinical deterioration can help physicians intervene and alter their clinical course towards better outcomes. In addition to the accuracy requirement, early warning systems must make the predictions early enough to give physicians enough time to intervene. Interpretability is also one of the challenges when building such systems since being able to justify the reasoning behind model decisions is desirable in clinical practice. In this work, we built an interpretable model for the early prediction of various adverse clinical events indicative of clinical deterioration. The model is evaluated on two datasets and four clinical events. The first dataset is collected in a predominantly COVID-19 positive population at Stony Brook Hospital. The second dataset is the MIMIC III dataset. The model was trained to provide early warning scores for ventilation, ICU transfer, and mortality prediction tasks on the Stony Brook Hospital dataset and to predict mortality and the need for vasopressors on the MIMIC III dataset. Our model first separates each feature into multiple ranges and then uses logistic regression with lasso penalization to select the subset of ranges for each feature. The model training is completely automated and doesn't require expert knowledge like other early warning scores. We compare our model to the Modified Early Warning Score (MEWS) and quick SOFA (qSOFA), commonly used in hospitals. We show that our model outperforms these models in the area under the receiver operating characteristic curve (AUROC) while having a similar or better median detection time on all clinical events, even when using fewer features. Unlike MEWS and qSOFA, our model can be entirely automated without requiring any manually recorded features. We also show that discretization improves model performance by comparing our model to a baseline logistic regression model.
翻訳日:2021-02-16 12:28:10 公開日:2021-02-14