このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210209となっている論文です。

PDF登録状況(公開日: 20210209)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ハイパーグラフランキング付き公正多人数ニュースレコメンダシステム [全文訳有]

Fair Multi-Stakeholder News Recommender System with Hypergraph ranking ( http://arxiv.org/abs/2012.00387v2 )

ライセンス: CC BY 4.0
Alireza Gharahighehi, Celine Vens, Konstantinos Pliakos(参考訳) 通常、レコメンダシステムはエンドユーザのニーズを満たすように設計されている。 しかし、一部のドメインでは、システム内の利害関係者はユーザだけではない。 例えば、ニュースアグリゲータのウェブサイトユーザー、著者、雑誌、およびプラットフォーム自体が潜在的な利害関係者である。 共同フィルタリングレコメンデーションシステムのほとんどは、人気バイアスに悩まされている。 したがって、レコメンダシステムがユーザの好みのみを考慮すれば、おそらく人気プロバイダを過剰に表現し、あまり人気がないプロバイダを過度に表現する。 この問題に対処するには、生成されたランキングの他の利害関係者を考慮する必要がある。 本稿では,ハイパーグラフ学習がマルチステークホルダ推薦タスクの自然な処理能力を持つことを示す。 ハイパーグラフは、異なるタイプのオブジェクト間の高次関係をモデル化できるため、複数の利害関係者を考慮したレコメンデーションリストを生成する傾向があります。 タイムワイドなラウンドでレコメンデーションを作成し、利害関係者の重みに適応して、低カバレッジ利害関係者のカバー範囲を時間とともに増やすことを学びます。 その結果,提案手法は人気バイアスに反し,2つのニュースデータセットの著者に対して,精度が低く,より公平なレコメンデーションが得られた。

Recommender systems are typically designed to fulfill end user needs. However, in some domains the users are not the only stakeholders in the system. For instance, in a news aggregator website users, authors, magazines as well as the platform itself are potential stakeholders. Most of the collaborative filtering recommender systems suffer from popularity bias. Therefore, if the recommender system only considers users' preferences, presumably it over-represents popular providers and under-represents less popular providers. To address this issue one should consider other stakeholders in the generated ranked lists. In this paper we demonstrate that hypergraph learning has the natural capability of handling a multi-stakeholder recommendation task. A hypergraph can model high order relations between different types of objects and therefore is naturally inclined to generate recommendation lists considering multiple stakeholders. We form the recommendations in time-wise rounds and learn to adapt the weights of stakeholders to increase the coverage of low-covered stakeholders over time. The results show that the proposed approach counters popularity bias and produces fairer recommendations with respect to authors in two news datasets, at a low cost in precision.
翻訳日:2021-05-31 10:40:06 公開日:2021-02-09
# (参考訳) カリキュラムはいつ機能するのか? [全文訳有]

When Do Curricula Work? ( http://arxiv.org/abs/2012.03107v3 )

ライセンス: CC BY 4.0
Xiaoxia Wu and Ethan Dyer and Behnam Neyshabur(参考訳) 人間の学習にインスパイアされた研究者は、その困難さに基づいてトレーニング中の注文例を提案する。 カリキュラム学習、訓練の早い段階での簡単な例にネットワークを公開すること、そして最も難しい例を最初に示す反カリキュラム学習は、標準i.i.dの改良として提案されている。 訓練だ そこで本研究では,順序学習の相対的効果について検討する。 まず,アーキテクチャと最適化のバイアスから生じる<emph{implicit curricula} を調査し,サンプルが高度に一貫性のある順序で学習されることを確認した。 次に、emph{explicit curricula}の利点を定量化するために、カリキュラム、反曲率、ランダム曲率の3種類の学習にまたがる何千ものオーダーで広範囲な実験を行い、トレーニングデータセットのサイズは時間とともに動的に増加するが、サンプルはランダムに順序付けされる。 標準的なベンチマークデータセットでは、キュリキュラは限界的なメリットしか持たず、ランダムに順序づけられたサンプルは、キュリキュラや反キュリキュラと同等かそれ以上にパフォーマンスし、どのような利点も完全に動的トレーニングセットのサイズによるものであることを示唆している。 カリキュラム学習の実践例に着想を得て,カリキュラム学習の成功における限られた訓練時間予算とノイズデータの役割について検討した。 本実験は,カリキュラムが反カリキュラムではなく,限られたトレーニング時間予算で,あるいはノイズの多いデータが存在する場合に,実際に性能を向上できることを実証する。

Inspired by human learning, researchers have proposed ordering examples during training based on their difficulty. Both curriculum learning, exposing a network to easier examples early in training, and anti-curriculum learning, showing the most difficult examples first, have been suggested as improvements to the standard i.i.d. training. In this work, we set out to investigate the relative benefits of ordered learning. We first investigate the \emph{implicit curricula} resulting from architectural and optimization bias and find that samples are learned in a highly consistent order. Next, to quantify the benefit of \emph{explicit curricula}, we conduct extensive experiments over thousands of orderings spanning three kinds of learning: curriculum, anti-curriculum, and random-curriculum -- in which the size of the training dataset is dynamically increased over time, but the examples are randomly ordered. We find that for standard benchmark datasets, curricula have only marginal benefits, and that randomly ordered samples perform as well or better than curricula and anti-curricula, suggesting that any benefit is entirely due to the dynamic training set size. Inspired by common use cases of curriculum learning in practice, we investigate the role of limited training time budget and noisy data in the success of curriculum learning. Our experiments demonstrate that curriculum, but not anti-curriculum can indeed improve the performance either with limited training time budget or in existence of noisy data.
翻訳日:2021-05-22 14:14:16 公開日:2021-02-09
# 時空間グラフ散乱変換

Spatio-Temporal Graph Scattering Transform ( http://arxiv.org/abs/2012.03363v3 )

ライセンス: Link先を確認
Chao Pan, Siheng Chen, Antonio Ortega(参考訳) 時空間グラフニューラルネットワークは、複数の相関時系列を扱うという経験的成功を成し遂げているが、十分な高品質なトレーニングデータがないために、現実のシナリオでは実用的でない場合もある。 さらに、時空間グラフニューラルネットワークは理論的解釈を欠いている。 これらの問題に対処するため,時空間データを解析するための数学的に設計された新しいフレームワークを考案した。 提案した時空間グラフ散乱変換(ST-GST)は,従来の散乱変換を時空間に拡張する。 時空間グラフウェーブレットと非線形活性化関数の反復的応用を行い、トレーニングなしで時空間グラフ畳み込みネットワークの前方通過と見なすことができる。 ST-GSTの全てのフィルタ係数は数学的に設計されているため、訓練データに制限のある実世界のシナリオに対して有望であり、また、提案したST-GSTが入力信号や構造の小さな摂動に対して安定であることを示す理論的解析も可能である。 最後に,ST-GSTは,MSR Action3Dデータセットの精度を35%向上させることにより,時空間グラフ畳み込みネットワークより優れていることを示す。

Although spatio-temporal graph neural networks have achieved great empirical success in handling multiple correlated time series, they may be impractical in some real-world scenarios due to a lack of sufficient high-quality training data. Furthermore, spatio-temporal graph neural networks lack theoretical interpretation. To address these issues, we put forth a novel mathematically designed framework to analyze spatio-temporal data. Our proposed spatio-temporal graph scattering transform (ST-GST) extends traditional scattering transforms to the spatio-temporal domain. It performs iterative applications of spatio-temporal graph wavelets and nonlinear activation functions, which can be viewed as a forward pass of spatio-temporal graph convolutional networks without training. Since all the filter coefficients in ST-GST are mathematically designed, it is promising for the real-world scenarios with limited training data, and also allows for a theoretical analysis, which shows that the proposed ST-GST is stable to small perturbations of input signals and structures. Finally, our experiments show that i) ST-GST outperforms spatio-temporal graph convolutional networks by an increase of 35% in accuracy for MSR Action3D dataset; ii) it is better and computationally more efficient to design the transform based on separable spatio-temporal graphs than the joint ones; and iii) the nonlinearity in ST-GST is critical to empirical performance.
翻訳日:2021-05-21 14:04:27 公開日:2021-02-09
# 恨みのないエージェントの評価

Evaluating Agents without Rewards ( http://arxiv.org/abs/2012.11538v2 )

ライセンス: Link先を確認
Brendon Matusch, Jimmy Ba, Danijar Hafner(参考訳) 強化学習によりエージェントは未知の環境で課題を解決することができる。 しかし、手動で報酬関数を作成することは、人間のエラーに時間がかかり、高価で、エラーを起こしやすい。 エージェントが外部の監督なしに学ぶための競合目標が提案されているが、それがいかにタスク報酬や人間の行動を反映しているかは定かではない。 本質的目標の開発を加速するために,エージェント行動の事前収集データセットの潜在的な目標を,オンラインに最適化するのではなく,遡及的に計算し,それらの相関分析によって比較する。 入力エントロピー、情報ゲイン、エンパワメントを7つのエージェント、3つのatariゲーム、3dゲームminecraftで検討した。 3つの本質的目標が、タスク報酬よりも人間の行動類似度指標に強く関連していることが分かりました。 さらに、入力エントロピーと情報ゲインは、タスク報酬よりも人間の類似性に強く相関しており、人間のプレイヤーと似た振る舞いをするエージェントを設計するために固有の目的を用いることを示唆している。

Reinforcement learning has enabled agents to solve challenging tasks in unknown environments. However, manually crafting reward functions can be time consuming, expensive, and error prone to human error. Competing objectives have been proposed for agents to learn without external supervision, but it has been unclear how well they reflect task rewards or human behavior. To accelerate the development of intrinsic objectives, we retrospectively compute potential objectives on pre-collected datasets of agent behavior, rather than optimizing them online, and compare them by analyzing their correlations. We study input entropy, information gain, and empowerment across seven agents, three Atari games, and the 3D game Minecraft. We find that all three intrinsic objectives correlate more strongly with a human behavior similarity metric than with task reward. Moreover, input entropy and information gain correlate more strongly with human similarity than task reward does, suggesting the use of intrinsic objectives for designing agents that behave similarly to human players.
翻訳日:2021-04-27 06:41:33 公開日:2021-02-09
# Cisco at AAAI-CAD21 shared task: Predicting Emphasis in Presentation Slides using Contextualized Embeddings

Cisco at AAAI-CAD21 shared task: Predicting Emphasis in Presentation Slides using Contextualized Embeddings ( http://arxiv.org/abs/2101.11422v2 )

ライセンス: Link先を確認
Sreyan Ghosh, Sonal Kumar, Harsh Jalan, Hemant Yadav, Rajiv Ratn Shah(参考訳) 本稿では,AAAI-CAD21共有タスクのプレゼンテーションスライドにおける強調予測システムについて述べる。 この特定のタスクでは、スライドの内容を考えると、スライド内の各単語に置かれる強調の度合いを予測するように求められます。 本稿では,BiLSTM-ELMoアプローチとRoBERTaとXLNetアーキテクチャに基づくトランスフォーマ方式の2つのアプローチを提案する。 第3位と第0.543位の評価リーダボードのスコア0.518を、論文執筆時点で第1位とランク付けされた評価リーダボード上で達成する。

This paper describes our proposed system for the AAAI-CAD21 shared task: Predicting Emphasis in Presentation Slides. In this specific task, given the contents of a slide we are asked to predict the degree of emphasis to be laid on each word in the slide. We propose 2 approaches to this problem including a BiLSTM-ELMo approach and a transformers based approach based on RoBERTa and XLNet architectures. We achieve a score of 0.518 on the evaluation leaderboard which ranks us 3rd and 0.543 on the post-evaluation leaderboard which ranks us 1st at the time of writing the paper.
翻訳日:2021-04-08 08:24:32 公開日:2021-02-09
# RANP:3次元CNNの初期化におけるリソース認識ニューロンプルーニング

RANP: Resource Aware Neuron Pruning at Initialization for 3D CNNs ( http://arxiv.org/abs/2103.08457v1 )

ライセンス: Link先を確認
Zhiwei Xu, Thalaiyasingam Ajanthan, Vibhav Vineet, Richard Hartley(参考訳) 3D畳み込みニューラルネットワークは、高密度な3Dデータを含むほとんどの学習ベースアプリケーションに必須であるが、その適用性は過剰なメモリと計算要求のために制限されている。 そのため, 刈り込みによる圧縮が望まれる。 しかし、pruning 3d cnnは、反復最適化パラダイムにpruningを組み込む典型的なpruningアルゴリズムの複雑な性質のためかもしれない。 本研究では,3次元CNNを初期化して高空間レベルにプルークするリソース・アウェア・ニューラルン・プルーニング(RANP)アルゴリズムを提案する。 具体的には、損失関数に対する感度に基づいて各ニューロンの重要性スコアを得ることが核となる。 このニューロンの重要性は、フロップやメモリに関連するニューロンリソースの消費に応じて再重み付けされる。 本研究では,ShapeNetおよびBraTS'18データセット上で広く使用されている3D-UNetsを用いた3次元セマンティックセグメンテーション,UCF101データセット上でのMobileNetV2およびI3Dによるビデオ分類,SceneFlowデータセット上でのピラミッドステレオマッチング(PSM)ネットワークによる2視点ステレオマッチングの有効性を示す。 これらの実験では、RANPはFLOPを約50%-95%削減し、メモリを35%-80%削減し、未処理のネットワークに比べて精度が低下する。 これにより、3D CNNのトレーニングに必要な計算リソースが大幅に削減される。 また,本アルゴリズムにより得られたプルーンドネットワークのスケールアップや,トレーニング用データセットへの転送も容易である。

Although 3D Convolutional Neural Networks are essential for most learning based applications involving dense 3D data, their applicability is limited due to excessive memory and computational requirements. Compressing such networks by pruning therefore becomes highly desirable. However, pruning 3D CNNs is largely unexplored possibly because of the complex nature of typical pruning algorithms that embeds pruning into an iterative optimization paradigm. In this work, we introduce a Resource Aware Neuron Pruning (RANP) algorithm that prunes 3D CNNs at initialization to high sparsity levels. Specifically, the core idea is to obtain an importance score for each neuron based on their sensitivity to the loss function. This neuron importance is then reweighted according to the neuron resource consumption related to FLOPs or memory. We demonstrate the effectiveness of our pruning method on 3D semantic segmentation with widely used 3D-UNets on ShapeNet and BraTS'18 datasets, video classification with MobileNetV2 and I3D on UCF101 dataset, and two-view stereo matching with Pyramid Stereo Matching (PSM) network on SceneFlow dataset. In these experiments, our RANP leads to roughly 50%-95% reduction in FLOPs and 35%-80% reduction in memory with negligible loss in accuracy compared to the unpruned networks. This significantly reduces the computational resources required to train 3D CNNs. The pruned network obtained by our algorithm can also be easily scaled up and transferred to another dataset for training.
翻訳日:2021-04-05 00:35:29 公開日:2021-02-09
# クラスタ型階層的異常検出アルゴリズム

Clustered Hierarchical Anomaly and Outlier Detection Algorithms ( http://arxiv.org/abs/2103.11774v1 )

ライセンス: Link先を確認
Najib Ishaq, Thomas J. Howard III, Noah M. Daniels(参考訳) データセットの異常と異常検出は、機械学習の長年の問題である。 ガウス分布のような良好な分布からデータが引き出される場合など、異常検出は容易である場合もある。 しかし、データが高次元空間を占めると、異常検出がより困難になる。 距離計量によって定義されるバナッハ空間の多様体を学習する高速階層的クラスタリング手法であるCLAM(Clustered Learning of Approximate Manifolds)を提案する。 CLAMは、幾何的および位相的特徴によって決定される重なり合うクラスタに基づいて、クラスタツリーからグラフを誘導する。 これらのグラフでは, CHAODA (Clustered Hierarchical Anomaly and Outlier Detection Algorithms) を実装し, グラフとその構成クラスタの様々な特性を探索し, 異常点の計算を行う。 公開されている24のデータセットでは、CHAODA(ROC AUCによる)と最先端の非教師付き異常検出アルゴリズムを比較した。 トレーニングには6つのデータセットが使用される。 CHAODAは、残りの18のデータセットのうち14のアプローチよりも優れている。

Anomaly and outlier detection in datasets is a long-standing problem in machine learning. In some cases, anomaly detection is easy, such as when data are drawn from well-characterized distributions such as the Gaussian. However, when data occupy high-dimensional spaces, anomaly detection becomes more difficult. We present CLAM (Clustered Learning of Approximate Manifolds), a fast hierarchical clustering technique that learns a manifold in a Banach space defined by a distance metric. CLAM induces a graph from the cluster tree, based on overlapping clusters determined by several geometric and topological features. On these graphs, we implement CHAODA (Clustered Hierarchical Anomaly and Outlier Detection Algorithms), exploring various properties of the graphs and their constituent clusters to compute scores of anomalousness. On 24 publicly available datasets, we compare the performance of CHAODA (by measure of ROC AUC) to a variety of state-of-the-art unsupervised anomaly-detection algorithms. Six of the datasets are used for training. CHAODA outperforms other approaches on 14 of the remaining 18 datasets.
翻訳日:2021-04-05 00:34:59 公開日:2021-02-09
# 未観測特性の公正性:クエリーコミュニティの技術的影響から

Fairness for Unobserved Characteristics: Insights from Technological Impacts on Queer Communities ( http://arxiv.org/abs/2102.04257v2 )

ライセンス: Link先を確認
Nenad Tomasev, Kevin R. McKee, Jackie Kay, Shakir Mohamed(参考訳) アルゴリズム的公平性の進歩は、性的指向と性同一性をほとんど省略している。 プライバシ,検閲,言語,オンライン安全,健康,雇用におけるクイアーの懸念を調査し,クイアーコミュニティに対する人工知能の肯定的および否定的な影響について検討する。 これらの問題は、プライバシの保存、コンテキストの感度、プロセスの公平性、社会技術的影響の認識、包括的および参加的研究プロセスの重要役割など、多くの考慮事項を考慮した公正研究における新たな方向性の必要性を核としています。 現在のアルゴリズム的公平性に対するほとんどのアプローチは、フェアネスのターゲット特性(しばしば人種と法的なジェンダー)を観察または記録できると仮定している。 性的指向と性同一性は観察されていない特徴の原型的例であり、しばしば欠落、不明、または基本的に測定できない。 本稿では,観測特性の前提から外れたアルゴリズム的公正性のための新しいアプローチを開発することの重要性を強調する。

Advances in algorithmic fairness have largely omitted sexual orientation and gender identity. We explore queer concerns in privacy, censorship, language, online safety, health, and employment to study the positive and negative effects of artificial intelligence on queer communities. These issues underscore the need for new directions in fairness research that take into account a multiplicity of considerations, from privacy preservation, context sensitivity and process fairness, to an awareness of sociotechnical impact and the increasingly important role of inclusive and participatory research processes. Most current approaches for algorithmic fairness assume that the target characteristics for fairness--frequently , race and legal gender--can be observed or recorded. Sexual orientation and gender identity are prototypical instances of unobserved characteristics, which are frequently missing, unknown or fundamentally unmeasurable. This paper highlights the importance of developing new approaches for algorithmic fairness that break away from the prevailing assumption of observed characteristics.
翻訳日:2021-04-05 00:33:04 公開日:2021-02-09
# (参考訳) TextGNN: スポンサー検索におけるグラフニューラルネットワークによるテキストエンコーダの改善 [全文訳有]

TextGNN: Improving Text Encoder via Graph Neural Network in Sponsored Search ( http://arxiv.org/abs/2101.06323v2 )

ライセンス: CC BY 4.0
Jason Yue Zhu, Yanling Cui, Yuming Liu, Hao Sun, Xue Li, Markus Pelger, Tianqi Yang, Liangjie Zhang, Ruofei Zhang, Huasha Zhao(参考訳) C-DSSMやトランスフォーマーに基づくテキストエンコーダは、多くの自然言語処理(NLP)タスクで高い性能を示している。 これらのモデルの低レイテンシな変種も近年,厳密な計算制約を持つ支援探索の分野に適用するために開発されている。 しかし、これらのモデルは、データ内の純粋な意味情報だけではユーザーの意図を完全に識別することができないため、すべての自然言語理解(nlu)の課題を解決するものではありません。 本稿では,ユーザの履歴行動から得られる補完的グラフ情報を用いて,強いツインタワー構造化エンコーダを自然に拡張したtextgnnモデルを提案する。 このモデルは、C-DSSMやTwinBERTのようなツインタワーモデルの利点を継承し、低レイテンシ環境でも使用でき、オフライン評価とオンラインプロダクションシステムの両方において強力なエンコーダのみのベースラインモデルよりも大きなパフォーマンス向上を実現している。 オフライン実験では、長期低周波広告の精度が1%向上したROC-AUC全体の0.14%増加し、オンラインA/Bテストでは、広告欠陥率2.32%低下した収益が2.03%上昇した。

Text encoders based on C-DSSM or transformers have demonstrated strong performance in many Natural Language Processing (NLP) tasks. Low latency variants of these models have also been developed in recent years in order to apply them in the field of sponsored search which has strict computational constraints. However these models are not the panacea to solve all the Natural Language Understanding (NLU) challenges as the pure semantic information in the data is not sufficient to fully identify the user intents. We propose the TextGNN model that naturally extends the strong twin tower structured encoders with the complementary graph information from user historical behaviors, which serves as a natural guide to help us better understand the intents and hence generate better language representations. The model inherits all the benefits of twin tower models such as C-DSSM and TwinBERT so that it can still be used in the low latency environment while achieving a significant performance gain than the strong encoder-only counterpart baseline models in both offline evaluations and online production system. In offline experiments, the model achieves a 0.14% overall increase in ROC-AUC with a 1% increased accuracy for long-tail low-frequency Ads, and in the online A/B testing, the model shows a 2.03% increase in Revenue Per Mille with a 2.32% decrease in Ad defect rate.
翻訳日:2021-03-28 11:59:34 公開日:2021-02-09
# 効率的な脱塩のためのグラフェンナノ孔の深部強化学習

Deep Reinforcement Learning Optimizes Graphene Nanopores for Efficient Desalination ( http://arxiv.org/abs/2101.07399v2 )

ライセンス: Link先を確認
Yuyang Wang, Zhonglin Cao, Amir Barati Farimani(参考訳) グラフェンのような2次元ナノマテリアルは、その優れた物理的性質のために広く研究されている。 このような材料上でのナノポーラスの構造と幾何最適化は、水淡水化のような実世界の工学的応用において、その性能に有益である。 しかし、最適化プロセスには、高価で時間を要する非常に多くの実験やシミュレーションが伴うことが多い。 本研究では,高効率淡水化のための深部強化学習(DRL)と畳み込みニューラルネットワーク(CNN)を組み合わせたグラフェンナノ孔最適化フレームワークを提案する。 DRL剤は、除去すべき原子を各タイミングで決定し、ナノ孔の成長を制御する一方、CNNは脱塩のためのナノ孔グラフェン(水流とイオンの拒絶)の性能を一定の外圧で予測する。 CNNによる脱塩性能予測の同期フィードバックにより、DRLエージェントはナノ多孔質グラフェンをオンラインで効率的に最適化できる。 分子動力学 (md) による有望なdrl設計グラフェンナノポーラスのシミュレーションは、通常の円形ナノポーラスに比べて競合イオン拒否率を維持しつつ高い水流束を持つことを示した。 DRLにより設計された細孔の粗い縁形状を持つ半卵形は,その脱塩性能の鍵となる。 最終的に、この研究はDRLが材料設計の強力なツールであることを示している。

Two-dimensional nanomaterials, such as graphene, have been extensively studied because of their outstanding physical properties. Structure and geometry optimization of nanopores on such materials is beneficial for their performances in real-world engineering applications, like water desalination. However, the optimization process often involves very large number of experiments or simulations which are expensive and time-consuming. In this work, we propose a graphene nanopore optimization framework via the combination of deep reinforcement learning (DRL) and convolutional neural network (CNN) for efficient water desalination. The DRL agent controls the growth of nanopore by determining the atom to be removed at each timestep, while the CNN predicts the performance of nanoporus graphene for water desalination: the water flux and ion rejection at a certain external pressure. With the synchronous feedback from CNN-accelerated desalination performance prediction, our DRL agent can optimize the nanoporous graphene efficiently in an online manner. Molecular dynamics (MD) simulations on promising DRL-designed graphene nanopores show that they have higher water flux while maintaining rival ion rejection rate compared to the normal circular nanopores. Semi-oval shape with rough edges geometry of DRL-designed pores is found to be the key factor for their high water desalination performance. Ultimately, this study shows that DRL can be a powerful tool for material design.
翻訳日:2021-03-22 11:11:54 公開日:2021-02-09
# リカレントニューラルネットワークによる文脈自由文法の合成(拡張バージョン)

Synthesizing Context-free Grammars from Recurrent Neural Networks (Extended Version) ( http://arxiv.org/abs/2101.08200v2 )

ライセンス: Link先を確認
Daniel M. Yellin, Gail Weiss(参考訳) 本稿では、訓練されたリカレントニューラルネットワーク(RNN)から文脈自由文法(CFG)のサブクラスを抽出するアルゴリズムを提案する。 非正規言語を近似した決定論的有限オートマトン(DFAs)のシーケンスを記述する新しいフレームワークであるパターンルールセット(PRS)を開発した。 本稿では,そのようなオートマトン列の背後にあるprを復元するアルゴリズムを提案し,l*アルゴリズムを用いて訓練されたrnnから抽出したオートマトン列に適用する。 次にprがいかにcfgに変換されるかを示し、学習した言語の使い慣れた有用なプレゼンテーションを可能にする。 RNNの学習言語を抽出することは、RNNの理解を容易にし、その正確性を検証するために重要である。 さらに、抽出されたCFGは、その入力シーケンスの一致するディミッタ間の再帰深さと距離が増加すると、RNNの予測精度が低下するので、正しい文の分類においてRNNを増大させることができる。

We present an algorithm for extracting a subclass of the context free grammars (CFGs) from a trained recurrent neural network (RNN). We develop a new framework, pattern rule sets (PRSs), which describe sequences of deterministic finite automata (DFAs) that approximate a non-regular language. We present an algorithm for recovering the PRS behind a sequence of such automata, and apply it to the sequences of automata extracted from trained RNNs using the L* algorithm. We then show how the PRS may converted into a CFG, enabling a familiar and useful presentation of the learned language. Extracting the learned language of an RNN is important to facilitate understanding of the RNN and to verify its correctness. Furthermore, the extracted CFG can augment the RNN in classifying correct sentences, as the RNN's predictive accuracy decreases when the recursion depth and distance between matching delimiters of its input sequences increases.
翻訳日:2021-03-22 01:17:12 公開日:2021-02-09
# (参考訳) 解釈可能なモデルを人間の可読コードに蒸留する [全文訳有]

Distilling Interpretable Models into Human-Readable Code ( http://arxiv.org/abs/2101.08393v2 )

ライセンス: CC BY 4.0
Walker Ravina, Ethan Sterling, Olexiy Oryeshko, Nathan Bell, Honglei Zhuang, Xuanhui Wang, Yonghui Wu, Alexander Grushetsky(参考訳) モデル蒸留の目標は、教師モデルの知識をより速く、より一般化され、より解釈可能で、他の望ましい特性を持つモデルに忠実に移すことである。 人間可読性は、機械学習モデルの解釈可能性にとって重要かつ望ましい標準である。 可読モデルは透過的で、レビュー、操作、従来のソースコードのようにデプロイできる。 その結果、このようなモデルは機械学習のコンテキスト外で改善され、必要に応じて手動で編集することができる。 このようなモデルを直接訓練することは困難であるため、従来の手法を用いて解釈可能なモデルを訓練し、それらを簡潔で可読なコードに抽出することを提案する。 提案する蒸留法は,局所的に線形曲線を持つモデルの不定値数値関数を近似する。 結果として得られる曲線モデル表現は正確で簡潔で、人間の読みやすく、構成によってよく表現される。 本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。 本研究では, 総合蒸留法と曲線適合アルゴリズムの有効性を, 分類, 回帰, ランキングの4つの課題にまたがって示す。

The goal of model distillation is to faithfully transfer teacher model knowledge to a model which is faster, more generalizable, more interpretable, or possesses other desirable characteristics. Human-readability is an important and desirable standard for machine-learned model interpretability. Readable models are transparent and can be reviewed, manipulated, and deployed like traditional source code. As a result, such models can be improved outside the context of machine learning and manually edited if desired. Given that directly training such models is difficult, we propose to train interpretable models using conventional methods, and then distill them into concise, human-readable code. The proposed distillation methodology approximates a model's univariate numerical functions with piecewise-linear curves in a localized manner. The resulting curve model representations are accurate, concise, human-readable, and well-regularized by construction. We describe a piecewise-linear curve-fitting algorithm that produces high-quality results efficiently and reliably across a broad range of use cases. We demonstrate the effectiveness of the overall distillation technique and our curve-fitting algorithm using four datasets across the tasks of classification, regression, and ranking.
翻訳日:2021-03-21 23:02:14 公開日:2021-02-09
# ターゲットネットワークで致命的なトライアドを壊す

Breaking the Deadly Triad with a Target Network ( http://arxiv.org/abs/2101.08862v3 )

ライセンス: Link先を確認
Shangtong Zhang, Hengshuai Yao, Shimon Whiteson(参考訳) 致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。 本稿では,ターゲットネットワークがトレーニングを安定させるという従来の知見を理論的に支持し,ターゲットネットワークを致命的なトライアドを破るツールとして検討する。 まず、一般的なPolyak-averagingスタイルの更新を2つのプロジェクションで拡張する新しいターゲットネットワーク更新ルールを提案し、分析する。 次に、ターゲットネットワークとリッジの正規化を複数の分岐アルゴリズムに適用し、正規化されたTD固定点への収束を示す。 これらのアルゴリズムは、リニア関数近似とブートストラップによるオフポリシーであり、ポリシー評価と制御の両方にまたがる。 特に,二段階最適化を必要とせず,非制限的かつ変化する行動ポリシーの下で,最初の収束線形q$学習アルゴリズムを提供する。

The deadly triad refers to the instability of a reinforcement learning algorithm when it employs off-policy learning, function approximation, and bootstrapping simultaneously. In this paper, we investigate the target network as a tool for breaking the deadly triad, providing theoretical support for the conventional wisdom that a target network stabilizes training. We first propose and analyze a novel target network update rule which augments the commonly used Polyak-averaging style update with two projections. We then apply the target network and ridge regularization in several divergent algorithms and show their convergence to regularized TD fixed points. Those algorithms are off-policy with linear function approximation and bootstrapping, spanning both policy evaluation and control, as well as both discounted and average-reward settings. In particular, we provide the first convergent linear $Q$-learning algorithms under nonrestrictive and changing behavior policies without bi-level optimization.
翻訳日:2021-03-21 07:51:40 公開日:2021-02-09
# (参考訳) ベースラインプルーニングに基づくニューラルネットワークのトロイの木馬検出 [全文訳有]

Baseline Pruning-Based Approach to Trojan Detection in Neural Networks ( http://arxiv.org/abs/2101.12016v2 )

ライセンス: CC0 1.0
Peter Bajcsy and Michael Majurski(参考訳) 本稿では,ニューラルネットワーク(NN)におけるトロイの木馬検出の問題を,系統的に解析して解決する。 プルーニングベースのアプローチは、3つの主要なステップで構成されています。 まず、モデルファイルサイズとモデルグラフの参照ルックアップテーブルから逸脱を検出する。 次に、複数のプルーニングスキーマに従って、体系的にプルーニングされたNNモデルのセットの精度を測定する。 最後に、精度測定とNNモデルラベルのマッピングを適用することにより、NNモデルを清潔または有毒と分類する。 本研究は, プルーニングパラメータの大きな探索空間上の最適写像を求めるための理論的, 実験的枠組みを概説する。 ラウンド1とラウンド2のTrojAI Challengeデータセットを用いて行った実験から、平均分類精度は69.73 %と82.41%であり、平均処理時間は1モデルあたり60秒未満である。 どちらのデータセットでも、ランダムな推測は50%の分類精度をもたらす。 参照モデルグラフとソースコードはgithubから入手できる。

This paper addresses the problem of detecting trojans in neural networks (NNs) by analyzing systematically pruned NN models. Our pruning-based approach consists of three main steps. First, detect any deviations from the reference look-up tables of model file sizes and model graphs. Next, measure the accuracy of a set of systematically pruned NN models following multiple pruning schemas. Finally, classify a NN model as clean or poisoned by applying a mapping between accuracy measurements and NN model labels. This work outlines a theoretical and experimental framework for finding the optimal mapping over a large search space of pruning parameters. Based on our experiments using Round 1 and Round 2 TrojAI Challenge datasets, the approach achieves average classification accuracy of 69.73 % and 82.41% respectively with an average processing time of less than 60 s per model. For both datasets random guessing would produce 50% classification accuracy. Reference model graphs and source code are available from GitHub.
翻訳日:2021-03-20 17:58:08 公開日:2021-02-09
# 専門家からの優先学習:アクティブ推論によるリワードの設計

Prior Preference Learning from Experts:Designing a Reward with Active Inference ( http://arxiv.org/abs/2101.08937v2 )

ライセンス: Link先を確認
Jinyoung Shin, Cheolhyeong Kim, Hyung Ju Hwang(参考訳) 活性推論は、生物学的に妥当なエージェントモデルを持つ脳のベイズ的モデリングとして定義される。 その第一の考え方は、自由エネルギー原理とエージェントの事前選好に依存する。 エージェントは、将来の観察を優先するアクションを選択する。 本稿では,能動推論を強化学習(rl)アルゴリズムを用いて解釈し,それらの理論的な関係を見出すことができると主張する。 本研究では, 期待自由エネルギー(EFE)の概念を拡張し, EFEを負の値関数として扱うことができると主張している。 先行選好の概念と理論的連関に動機づけられ,専門家から先行選好を学ぶための単純だが新しい手法を提案する。 このことは、逆 RL の問題は、アクティブな推論の新しい視点でアプローチできることを示している。 事前選好学習の実験結果から、EFEに基づく報酬による能動推論の可能性とその逆RL問題への応用が示された。

Active inference may be defined as Bayesian modeling of a brain with a biologically plausible model of the agent. Its primary idea relies on the free energy principle and the prior preference of the agent. An agent will choose an action that leads to its prior preference for a future observation. In this paper, we claim that active inference can be interpreted using reinforcement learning (RL) algorithms and find a theoretical connection between them. We extend the concept of expected free energy (EFE), which is a core quantity in active inference, and claim that EFE can be treated as a negative value function. Motivated by the concept of prior preference and a theoretical connection, we propose a simple but novel method for learning a prior preference from experts. This illustrates that the problem with inverse RL can be approached with a new perspective of active inference. Experimental results of prior preference learning show the possibility of active inference with EFE-based rewards and its application to an inverse RL problem.
翻訳日:2021-03-20 17:21:42 公開日:2021-02-09
# (参考訳) ディープバイナリ分類における量子の推定と応用 [全文訳有]

Estimation and Applications of Quantiles in Deep Binary Classification ( http://arxiv.org/abs/2102.06575v1 )

ライセンス: CC BY 4.0
Anuj Tambwekar, Anirudh Maiya, Soma Dhavala, Snehanshu Saha(参考訳) チェックロスに基づく量子回帰は、計量学と統計学において広く使われている推論パラダイムである。 条件量子化は古典的な条件付き手段に代わる堅牢な代替手段を提供し、また予測の不確実な定量化を可能にし、分布的な仮定はごくわずかである。 二項分類設定におけるチェック損失の類似について考察する。 条件付き量子関数は、Deep Neural Networks (DNNs) によって学習できる滑らかな関数であると仮定する。 その後、提案された損失のリプシッツ定数を計算し、また、その曲率が一定の規則性条件の下で有界であることを示す。 その結果、エラー率とDNNアーキテクチャの複雑さに関する最近の結果が直接適用されます。 予測間隔の点でクラス確率の不確実性を定量化し、評価時に予測が信頼できるかどうかを判断するために使用できる個別の信頼スコアを開発します。 データセットレベルで信頼度スコアを集約することにより、広く使われている分類器の要約を補完するために、モデル信頼度と保持率という2つの追加指標を提供する。 また,提案した非パラメトリックバイナリ量子化分類フレームワークのロバスト性についても検討し,スムーズな条件付き量子化法を用いて条件分布の多変量的要約統計値を得る方法を示し,Shapleyのような説明手法を用いて平均予測を説明する。 最後に,Lipschitz Adaptive Learning Rates (LALR) を用いた確率的グラディエントDescentに基づく,この損失に対する効率的なトレーニング体制を示す。

Quantile regression, based on check loss, is a widely used inferential paradigm in Econometrics and Statistics. The conditional quantiles provide a robust alternative to classical conditional means, and also allow uncertainty quantification of the predictions, while making very few distributional assumptions. We consider the analogue of check loss in the binary classification setting. We assume that the conditional quantiles are smooth functions that can be learnt by Deep Neural Networks (DNNs). Subsequently, we compute the Lipschitz constant of the proposed loss, and also show that its curvature is bounded, under some regularity conditions. Consequently, recent results on the error rates and DNN architecture complexity become directly applicable. We quantify the uncertainty of the class probabilities in terms of prediction intervals, and develop individualized confidence scores that can be used to decide whether a prediction is reliable or not at scoring time. By aggregating the confidence scores at the dataset level, we provide two additional metrics, model confidence, and retention rate, to complement the widely used classifier summaries. We also the robustness of the proposed non-parametric binary quantile classification framework are also studied, and we demonstrate how to obtain several univariate summary statistics of the conditional distributions, in particular conditional means, using smoothed conditional quantiles, allowing the use of explanation techniques like Shapley to explain the mean predictions. Finally, we demonstrate an efficient training regime for this loss based on Stochastic Gradient Descent with Lipschitz Adaptive Learning Rates (LALR).
翻訳日:2021-03-13 16:57:17 公開日:2021-02-09
# (参考訳) 幻覚性脳のモデリング : 生成的逆境枠組み [全文訳有]

Modeling the Hallucinating Brain: A Generative Adversarial Framework ( http://arxiv.org/abs/2102.08209v1 )

ライセンス: CC0 1.0
Masoumeh Zareh, Mohammad Hossein Manshaei, and Sayed Jalal Zahabi(参考訳) 本稿では,人間の脳における幻覚のモデル化について述べる。 幻覚は、知覚に関わる脳の異なる領域の相互作用内のいくつかの機能不全に因果関係があることが知られている。 視覚幻覚とその根本的な原因に焦点を当てて、視覚知覚の過程に関与する脳の異なる部分間の逆転機構を特定します。 次に、脳内の特徴的敵対相互作用を生成的敵対ネットワークによってモデル化する方法を示す。

This paper looks into the modeling of hallucination in the human's brain. Hallucinations are known to be causally associated with some malfunctions within the interaction of different areas of the brain involved in perception. Focusing on visual hallucination and its underlying causes, we identify an adversarial mechanism between different parts of the brain which are responsible in the process of visual perception. We then show how the characterized adversarial interactions in the brain can be modeled by a generative adversarial network.
翻訳日:2021-03-13 16:35:41 公開日:2021-02-09
# 音声における信頼の宣言に関する研究

A Study on the Manifestation of Trust in Speech ( http://arxiv.org/abs/2102.09370v1 )

ライセンス: Link先を確認
Lara Gauder, Leonardo Pepino, Pablo Riera, Silvina Brussino, Jazm\'in Vidal, Agust\'in Gravano, Luciana Ferrer(参考訳) 研究によると、信頼は人間とコンピュータの相互作用において重要な側面であり、その人がシステムを使用する意思の程度を直接決定する。 ユーザが特定のシステムに持っている信頼度の自動予測は、例えば、その決定を謝罪したり、説明したりすることで、システムが関連する行動をとることによって潜在的な不信を正そうと試みることができる。 本研究では,仮想アシスタント(VA)におけるユーザの信頼度を,音声に基づいて自動的に検出する可能性を検討する。 VAのスキルに対する信頼度が異なるよう誘導された被験者から発話データを収集するための新しいプロトコルを開発した。 このプロトコルはインタラクティブなセッションで構成され、被験者は仮想アシスタントの助けを借りて一連の事実的な質問に応答するように求められます。 VAのスキルを信頼するか信用しないかのどちらかに被験者を誘導するために、VAは以前に他のユーザーによって良いか悪いか評価されたことを最初に知らされ、その後、VAは被験者の質問に一貫してその主張された能力に答えます。 すべての相互作用は音声ベースであり、被験者とVAは言語的にコミュニケーションし、異なる信頼条件下で生成された音声の記録を可能にする。 このプロトコルを用いて、アルゼンチンのスペイン語で音声コーパスを収集した。 本プロトコルは,エージェントのスキルを信頼するか,あるいは信頼できないかという希望的精神状態に対して,被験者が効果的に影響を与えることを証明し,専門家が行う信頼度に関する知覚的研究の結果を示す。 最後に、被験者のスピーチを使用して、使用するVAの種類を検出することができ、これは、50%のランダムなベースラインと比較して、最大76%の精度で、VAの能力に対するユーザーの信頼のプロキシと見なすことができます。

Research has shown that trust is an essential aspect of human-computer interaction directly determining the degree to which the person is willing to use a system. An automatic prediction of the level of trust that a user has on a certain system could be used to attempt to correct potential distrust by having the system take relevant actions like, for example, apologizing or explaining its decisions. In this work, we explore the feasibility of automatically detecting the level of trust that a user has on a virtual assistant (VA) based on their speech. We developed a novel protocol for collecting speech data from subjects induced to have different degrees of trust in the skills of a VA. The protocol consists of an interactive session where the subject is asked to respond to a series of factual questions with the help of a virtual assistant. In order to induce subjects to either trust or distrust the VA's skills, they are first informed that the VA was previously rated by other users as being either good or bad; subsequently, the VA answers the subjects' questions consistently to its alleged abilities. All interactions are speech-based, with subjects and VAs communicating verbally, which allows the recording of speech produced under different trust conditions. Using this protocol, we collected a speech corpus in Argentine Spanish. We show clear evidence that the protocol effectively succeeded in influencing subjects into the desired mental state of either trusting or distrusting the agent's skills, and present results of a perceptual study of the degree of trust performed by expert listeners. Finally, we found that the subject's speech can be used to detect which type of VA they were using, which could be considered a proxy for the user's trust toward the VA's abilities, with an accuracy up to 76%, compared to a random baseline of 50%.
翻訳日:2021-03-13 14:51:54 公開日:2021-02-09
# flow-mixup: 劣化ラベル付きマルチラベル医療画像の分類

Flow-Mixup: Classifying Multi-labeled Medical Images with Corrupted Labels ( http://arxiv.org/abs/2102.08148v1 )

ライセンス: Link先を確認
Jintai Chen, Hongyun Yu, Ruiwei Feng, Danny Z. Chen, Jian Wu(参考訳) 臨床実践では、患者の患部が複数の症状や合併症を呈する傾向があるため、医療画像の解釈は多ラベルの分類を伴うことが多い。 近年,深層学習に基づくフレームワークは,医用画像解釈における専門家レベルのパフォーマンスを達成している。 しかし、大量の医用画像に手動で注釈をつけるのは現実的ではなく、自動アノテーションは高速だが不正確である(おそらくラベルの破損)。 本研究では,複数ラベルの医用画像分類を行うFlow-Mixupという新しい正規化手法を提案する。 Flow-Mixupは、モデルが異常ごとに堅牢な機能をキャプチャし、破損したラベルを効果的に処理し、自動アノテーションを適用できるようにガイドします。 具体的には、Flow-Mixupはモデルの非表示状態に制約を加えることで、抽出された機能を分離する。 また、フローミクサップは、理論的および実証的な分析で示されるように、他の既知の正規化方法と比較してより安定かつ効果的です。 2つの心電図データセットと破損ラベルを含む胸部x線データセットの実験は、フローミックスアップが効果的で破損ラベルに非感受性であることを検証している。

In clinical practice, medical image interpretation often involves multi-labeled classification, since the affected parts of a patient tend to present multiple symptoms or comorbidities. Recently, deep learning based frameworks have attained expert-level performance on medical image interpretation, which can be attributed partially to large amounts of accurate annotations. However, manually annotating massive amounts of medical images is impractical, while automatic annotation is fast but imprecise (possibly introducing corrupted labels). In this work, we propose a new regularization approach, called Flow-Mixup, for multi-labeled medical image classification with corrupted labels. Flow-Mixup guides the models to capture robust features for each abnormality, thus helping handle corrupted labels effectively and making it possible to apply automatic annotation. Specifically, Flow-Mixup decouples the extracted features by adding constraints to the hidden states of the models. Also, Flow-Mixup is more stable and effective comparing to other known regularization methods, as shown by theoretical and empirical analyses. Experiments on two electrocardiogram datasets and a chest X-ray dataset containing corrupted labels verify that Flow-Mixup is effective and insensitive to corrupted labels.
翻訳日:2021-03-13 14:51:23 公開日:2021-02-09
# カオスダイナミクス学習のためのエコー状態ネットワークのロバスト最適化と検証

Robust Optimization and Validation of Echo State Networks for learning chaotic dynamics ( http://arxiv.org/abs/2103.03174v1 )

ライセンス: Link先を確認
Alberto Racca and Luca Magri(参考訳) カオス解の時間精度予測へのアプローチは、データから時間パターンを学ぶことである。 貯留層計算のクラスであるエコー状態ネットワーク(esns)は、予測可能性時間を超えてカオスダイナミクスを正確に予測することができる。 しかし、既存の研究では、ハイパーパラメーターの小さな変化がネットワークのパフォーマンスに顕著に影響を及ぼすことも示されている。 本稿では,カオス解の時間的精度を予測するために,エコー状態ネットワークのロバスト性を評価し,改善することを目的とする。 目標は3倍です。 まず,日常的に用いられる検証戦略の堅牢性について検討する。 第2に, カオスシステムの予測に具体的に取り組むために, リサイクル検証, 既存の検証戦略のカオス版を提案する。 第3に,ベイズ最適化と従来のグリッド探索との比較を行った。 カオス解と準周期解を持つ2つの原型非線形系について数値実験を行う。 モデルフリーとモデルインフォームドの両方のエコー状態ネットワークを解析する。 カオス解と準周期解の学習におけるネットワークの頑健性を比較することで,カオス解の学習における根本的な課題を浮き彫りにする。 カオス時系列の動的システム特性に基づいて提案された検証戦略は、最先端の検証戦略を上回ることが示されています。 戦略は原則的であるため、リアプノフ時間理論のようなカオス理論に基づいており、変更の少ない他のリカレントニューラルネットワークアーキテクチャにも適用することができる。 この研究は、エコー状態ネットワークとリカレントニューラルネットワークのロバストな設計と応用のための新たな可能性を開き、カオスシステムの時間的正確性を予測する。

An approach to the time-accurate prediction of chaotic solutions is by learning temporal patterns from data. Echo State Networks (ESNs), which are a class of Reservoir Computing, can accurately predict the chaotic dynamics well beyond the predictability time. Existing studies, however, also showed that small changes in the hyperparameters may markedly affect the network's performance. The aim of this paper is to assess and improve the robustness of Echo State Networks for the time-accurate prediction of chaotic solutions. The goal is three-fold. First, we investigate the robustness of routinely used validation strategies. Second, we propose the Recycle Validation, and the chaotic versions of existing validation strategies, to specifically tackle the forecasting of chaotic systems. Third, we compare Bayesian optimization with the traditional Grid Search for optimal hyperparameter selection. Numerical tests are performed on two prototypical nonlinear systems that have both chaotic and quasiperiodic solutions. Both model-free and model-informed Echo State Networks are analysed. By comparing the network's robustness in learning chaotic versus quasiperiodic solutions, we highlight fundamental challenges in learning chaotic solutions. The proposed validation strategies, which are based on the dynamical systems properties of chaotic time series, are shown to outperform the state-of-the-art validation strategies. Because the strategies are principled-they are based on chaos theory such as the Lyapunov time-they can be applied to other Recurrent Neural Networks architectures with little modification. This work opens up new possibilities for the robust design and application of Echo State Networks, and Recurrent Neural Networks, to the time-accurate prediction of chaotic systems.
翻訳日:2021-03-13 14:51:03 公開日:2021-02-09
# (参考訳) 制約満足度ゲームエージェントのための強化学習 (15-puzzle, Minesweeper, 2048, Sudoku) [全文訳有]

Reinforcement Learning For Constraint Satisfaction Game Agents (15-Puzzle, Minesweeper, 2048, and Sudoku) ( http://arxiv.org/abs/2102.06019v1 )

ライセンス: CC BY 4.0
Anav Mehta(参考訳) 近年では、モデルが畳み込みニューラルネットワークである深層Q-Learningによって強化学習が関心を集めている。 Deep Q-LearningはAtariやAlphaGoといったゲームで有望な結果を示している。 q-table全体を学習する代わりに、状態のポリシーアクションを決定するq関数の見積もりを学ぶ。 制約満足度ゲーム(15-Puzzle, Minesweeper, 2048, Sudoku)の制御ポリシーをQ-Learningと深層Q-Learningを用いて学習する。 15-puzzleはスライディング置換パズルであり、大きな状態空間に対処する上での課題となっている。 MinesweeperとSudokuは、部分的に観測可能な状態と推測を含む。 2048はスライディングパズルでもあるが、状態表現(15-Puzzleと比較)がより簡単になり、ゲーム解決に面白い報酬のシェーピングを使用する。 これらのゲームは強化学習の可能性と限界に関するユニークな洞察を与える。 Qエージェントは、各州のアクションに対応する報酬のみを使用して、ゲームのルールなしで訓練されます。 私達の独特な貢献は深いニューラルネットワークの報酬の構造、状態表現および公式を選ぶことです。 15プッシュルの低シャッフルは100%の勝利率を達成し、中高のシャッフルはそれぞれ43%と22%の勝利率を達成している。 標準の16×16マインズウィーパーボードでは、低密度ボードと高密度ボードの両方が45%近い勝利率を達成する一方、中密度ボードは15%低い勝利率を持つ。 2048年では、1024勝率は、それぞれ40%、0.05%、0.01%、0.004%として、2048、4096、8192および16384の高い勝率で有意な容易さ(100%)で達成された。 簡単なスドクゲームは7%で、中堅ゲームはそれぞれ2.1%と1.2%の勝利率であった。 本稿では,人間学習の理解を深めるための報酬構造を用いて,制約ゲームの一部の環境複雑性と行動について考察する。

In recent years, reinforcement learning has seen interest because of deep Q-Learning, where the model is a convolutional neural network. Deep Q-Learning has shown promising results in games such as Atari and AlphaGo. Instead of learning the entire Q-table, it learns an estimate of the Q function that determines a state's policy action. We use Q-Learning and deep Q-learning, to learn control policies of four constraint satisfaction games (15-Puzzle, Minesweeper, 2048, and Sudoku). 15-Puzzle is a sliding permutation puzzle and provides a challenge in addressing its large state space. Minesweeper and Sudoku involve partially observable states and guessing. 2048 is also a sliding puzzle but allows for easier state representation (compared to 15-Puzzle) and uses interesting reward shaping to solve the game. These games offer unique insights into the potential and limits of reinforcement learning. The Q agent is trained with no rules of the game, with only the reward corresponding to each state's action. Our unique contribution is in choosing the reward structure, state representation, and formulation of the deep neural network. For low shuffle, 15-Puzzle, achieves a 100% win rate, the medium and high shuffle achieve about 43% and 22% win rates respectively. On a standard 16x16 Minesweeper board, both low and high-density boards achieve close to 45% win rate, whereas medium density boards have a low win rate of 15%. For 2048, the 1024 win rate was achieved with significant ease (100%) with high win rates for 2048, 4096, 8192 and 16384 as 40%, 0.05%, 0.01% and 0.004% , respectively. The easy Sudoku games had a win rate of 7%, while medium and hard games had 2.1% and 1.2% win rates, respectively. This paper explores the environment complexity and behavior of a subset of constraint games using reward structures which can get us closer to understanding how humans learn.
翻訳日:2021-02-13 03:12:35 公開日:2021-02-09
# (参考訳) アラビア語攻撃言語検出システムにおける伝達学習アプローチ --BERTモデル [全文訳有]

Transfer Learning Approach for Arabic Offensive Language Detection System -- BERT-Based Model ( http://arxiv.org/abs/2102.05708v1 )

ライセンス: CC BY 4.0
Fatemah Husain and Ozlem Uzuner(参考訳) オンライン攻撃言語を検出するシステムの開発は、オンラインユーザの健康とセキュリティにとって非常に重要である。 研究によると、サイバーハイト、オンラインハラスメント、その他のテクノロジーの誤用は、特に2020年の世界的なコロナウイルスパンデミックで増加している。 the anti-defamation league(adl)の最新レポートによると、オンラインユーザの35%が、アイデンティティに基づく特性に関連するオンラインハラスメントを報告している。 自然言語処理(NLP)分野から高度な技術を適用し、オンラインヘイトフリーコミュニティの開発を支援することは、社会正義にとって重要な課題です。 転送学習は、これまで見たことのないドメインやデータセットから他への知識の転送を可能にすることで分類器の性能を高め、分類器をより一般化できるようにする。 本研究では,トランスファー学習の原則を複数のアラビア語攻撃言語データセットに適用し,システム性能への影響を比較した。 本研究は,複数のアラビア語攻撃的言語データセットに対するBidirectional Encoder Representations from Transformers (BERT)モデルの微調整とトレーニングの効果を検討し,他のデータセットを用いて個別にテストすることを目的とする。 本実験は,本研究で使用する主モデルの選定を導くため,複数のBERTモデルの比較から開始する。 また、BERTモデルの微調整および訓練に使用するデータセットを連結する効果についても検討した。 本研究では, トランスファー学習が分類器の性能, 特に方言的コメントに対する影響を限定的に示した。

Developing a system to detect online offensive language is very important to the health and the security of online users. Studies have shown that cyberhate, online harassment and other misuses of technology are on the rise, particularly during the global Coronavirus pandemic in 2020. According to the latest report by the Anti-Defamation League (ADL), 35% of online users reported online harassment related to their identity-based characteristics, which is a 3% increase over 2019. Applying advanced techniques from the Natural Language Processing (NLP) field to support the development of an online hate-free community is a critical task for social justice. Transfer learning enhances the performance of the classifier by allowing the transfer of knowledge from one domain or one dataset to others that have not been seen before, thus, supporting the classifier to be more generalizable. In our study, we apply the principles of transfer learning cross multiple Arabic offensive language datasets to compare the effects on system performance. This study aims at investigating the effects of fine-tuning and training Bidirectional Encoder Representations from Transformers (BERT) model on multiple Arabic offensive language datasets individually and testing it using other datasets individually. Our experiment starts with a comparison among multiple BERT models to guide the selection of the main model that is used for our study. The study also investigates the effects of concatenating all datasets to be used for fine-tuning and training BERT model. Our results demonstrate the limited effects of transfer learning on the performance of the classifiers, particularly for highly dialectic comments.
翻訳日:2021-02-12 23:37:14 公開日:2021-02-09
# (参考訳) マニピュレーション攻撃を回避するためのロバストなペーパーレビュー [全文訳有]

Making Paper Reviewing Robust to Bid Manipulation Attacks ( http://arxiv.org/abs/2102.06020v1 )

ライセンス: CC BY 4.0
Ruihan Wu, Chuan Guo, Felix Wu, Rahul Kidambi, Laurens van der Maaten, Kilian Q. Weinberger(参考訳) ほとんどのコンピュータ科学会議は、レビュアーを論文に割り当てるために紙入札に依存している。 紙入札は前例のない数の時代に高品質な課題を課すことができるが、不名誉なレビュワーが反対に紙レビューの課題に影響を及ぼすドアも開ける。 逸話的な証拠は、一部のレビュアーが、これらの論文は専門分野の外にあっても「友人」や「作家」による論文の入札をし、作品のメリットを考慮せずに受け入れるよう推奨していることを示唆している。 本稿では,このような入札操作攻撃の有効性について検討し,レビュープロセスの整合性を損なう可能性があることを確かめる。 我々は,このような攻撃に対して,より強固な紙入札と割当を行うための新しいアプローチを開発した。 不当なレビュアーが組み合わされても、私たちのアプローチが堅牢性を提供し、割り当てシステムの内部作業を完全に理解し、システムの入力にアクセスできることを実証的に示しています。 より堅牢であることに加えて、私たちのペーパーレビューの割り当ての質は、現在の非ロバストな割り当てアプローチと同等です。

Most computer science conferences rely on paper bidding to assign reviewers to papers. Although paper bidding enables high-quality assignments in days of unprecedented submission numbers, it also opens the door for dishonest reviewers to adversarially influence paper reviewing assignments. Anecdotal evidence suggests that some reviewers bid on papers by "friends" or colluding authors, even though these papers are outside their area of expertise, and recommend them for acceptance without considering the merit of the work. In this paper, we study the efficacy of such bid manipulation attacks and find that, indeed, they can jeopardize the integrity of the review process. We develop a novel approach for paper bidding and assignment that is much more robust against such attacks. We show empirically that our approach provides robustness even when dishonest reviewers collude, have full knowledge of the assignment system's internal workings, and have access to the system's inputs. In addition to being more robust, the quality of our paper review assignments is comparable to that of current, non-robust assignment approaches.
翻訳日:2021-02-12 16:26:51 公開日:2021-02-09
# (参考訳) STUaNet:時空間的集団移動における不確実性を理解する [全文訳有]

STUaNet: Understanding uncertainty in spatiotemporal collective human mobility ( http://arxiv.org/abs/2102.06027v1 )

ライセンス: CC BY 4.0
Zhengyang Zhou, Yang Wang, Xike Xie, Lei Qiao, Yuantao Li(参考訳) 複雑な都市システムにおける高いダイナミクスと不均質な相互作用は、時空間的人間の移動における不確かさの定量化の問題を提起し、都市イベント予測のようなリスクを意識したwebアプリケーションにおける重要な意思決定を支援する。 不確実性が予測結果に関する潜在的な変動を定量化するという事実を考えると、従来の学習スキームは常に不確実性ラベルを欠いているし、従来の不確実性定量化アプローチはベイズニューラルネットワークやアンサンブル手法による統計的推定に大きく依存している。 しかし、様々な状況下で不確実性の時空間的進化は一切含んでおらず、複数回訓練しながら統計的不確実性推定の貧弱な効率に苦しめられている。 時空間予測のための高品質不確実性定量化を提供するため、内部データ品質を同時に推定し、様々な文脈相互作用に関する外部不確実性を定量化する不確実性学習メカニズムを提案する。 不確実性ラベルの欠如問題に対処するために,我々は積極的に制御可能な不確実性を注入し,不確実性定量化と弱い教師付き学習の両方に洞察を与える階層的データ乱流スキームを提案する。 最後に,学習の不確かさを予測に適応的に活用するためにゲートベースブリッジを考案し,予測性能を再調整し,向上させる。 3つの実世界の時空間移動集合に関する大規模な実験は、予測と不確実性の定量化の両方の観点から、提案モデルの優越性を裏付けている。

The high dynamics and heterogeneous interactions in the complicated urban systems have raised the issue of uncertainty quantification in spatiotemporal human mobility, to support critical decision-makings in risk-aware web applications such as urban event prediction where fluctuations are of significant interests. Given the fact that uncertainty quantifies the potential variations around prediction results, traditional learning schemes always lack uncertainty labels, and conventional uncertainty quantification approaches mostly rely upon statistical estimations with Bayesian Neural Networks or ensemble methods. However, they have never involved any spatiotemporal evolution of uncertainties under various contexts, and also have kept suffering from the poor efficiency of statistical uncertainty estimation while training models with multiple times. To provide high-quality uncertainty quantification for spatiotemporal forecasting, we propose an uncertainty learning mechanism to simultaneously estimate internal data quality and quantify external uncertainty regarding various contextual interactions. To address the issue of lacking labels of uncertainty, we propose a hierarchical data turbulence scheme where we can actively inject controllable uncertainty for guidance, and hence provide insights to both uncertainty quantification and weak supervised learning. Finally, we re-calibrate and boost the prediction performance by devising a gated-based bridge to adaptively leverage the learned uncertainty into predictions. Extensive experiments on three real-world spatiotemporal mobility sets have corroborated the superiority of our proposed model in terms of both forecasting and uncertainty quantification.
翻訳日:2021-02-12 16:04:13 公開日:2021-02-09
# (参考訳) ジェット物理におけるシーケンスベース機械学習モデル [全文訳有]

Sequence-based Machine Learning Models in Jet Physics ( http://arxiv.org/abs/2102.06128v1 )

ライセンス: CC BY 4.0
Rafael Teixeira de Lima(参考訳) シーケンスベースモデリングは一般に、入力要素の順序セットとして表現されるデータに作用するアルゴリズムを指す。 特に、シーケンスを入力とする機械学習アルゴリズムは、自然言語処理(NLP)や音声信号モデリングなどの重要な問題への適用に成功した。 コライダー物理学におけるこのクラスのモデルの使用法は、ジェット内の構成体などの可変シーケンス長のデータに作用する能力を利用する。 本論文では, ジェットの分類, ジェット関連量の回帰, およびジェットクラスタリングアルゴリズムに関連する物理に着想を得たジェット表現を構築するために, リカレントニューラルネットワーク(RNN)および他のシーケンスベースニューラルネットワークアーキテクチャの適用について検討する。 さらに、シーケンシャルデータ表現の代替案も簡単に議論される。

Sequence-based modeling broadly refers to algorithms that act on data that is represented as an ordered set of input elements. In particular, Machine Learning algorithms with sequences as inputs have seen successfull applications to important problems, such as Natural Language Processing (NLP) and speech signal modeling. The usage this class of models in collider physics leverages their ability to act on data with variable sequence lengths, such as constituents inside a jet. In this document, we explore the application of Recurrent Neural Networks (RNNs) and other sequence-based neural network architectures to classify jets, regress jet-related quantities and to build a physics-inspired jet representation, in connection to jet clustering algorithms. In addition, alternatives to sequential data representations are briefly discussed.
翻訳日:2021-02-12 15:13:50 公開日:2021-02-09
# アリババにおける100Million分類のための大規模訓練システム

Large-Scale Training System for 100-Million Classification at Alibaba ( http://arxiv.org/abs/2102.06025v1 )

ライセンス: Link先を確認
Liuyihan Song and Pan Pan and Kang Zhao and Hao Yang and Yiming Chen and Yingya Zhang and Yinghui Xu and Rong Jin(参考訳) 過去数十年間、極端な分類はディープラーニングの重要なトピックになっている。 多くの分野で、特にコンピュータビジョンと自然言語処理(NLP)において大きな成功を収めている。 しかし、最後の出力層におけるメモリと計算の爆発のために、数百万のクラスで深いモデルを訓練することは非常に困難です。 本稿では,これらの課題に対処するための大規模トレーニングシステムを提案する。 まず、トレーニングプロセスを実現するためのハイブリッドな並列トレーニングフレームワークを構築します。 次に、GPUのメモリ消費と計算コストを削減し、トレーニングのスループットを向上させるKNN Softmaxという新しいソフトマックスバリエーションを提案します。 次に,通信のオーバーヘッドをなくすため,新しい重複パイプラインと勾配スパーシフィケーション手法を提案する。 さらに,学習率を適応的に調整し,モデルパラメータを更新することにより,総トレーニングイテレーションを削減するための高速連続収束戦略を設計する。 提案手法のすべての助けを借りて、トレーニングシステムのスループットを3.9$\times$にし、トレーニングイテレーションの約60%を削減した。 実験結果は、社内の256GPUクラスタを使用して、アリババリテール製品データセット上の1億クラスの分類器を約5日間でトレーニングし、ナイーブソフトマックストレーニングプロセスと同等の精度を達成できることを示しています。

In the last decades, extreme classification has become an essential topic for deep learning. It has achieved great success in many areas, especially in computer vision and natural language processing (NLP). However, it is very challenging to train a deep model with millions of classes due to the memory and computation explosion in the last output layer. In this paper, we propose a large-scale training system to address these challenges. First, we build a hybrid parallel training framework to make the training process feasible. Second, we propose a novel softmax variation named KNN softmax, which reduces both the GPU memory consumption and computation costs and improves the throughput of training. Then, to eliminate the communication overhead, we propose a new overlapping pipeline and a gradient sparsification method. Furthermore, we design a fast continuous convergence strategy to reduce total training iterations by adaptively adjusting learning rate and updating model parameters. With the help of all the proposed methods, we gain 3.9$\times$ throughput of our training system and reduce almost 60\% of training iterations. The experimental results show that using an in-house 256 GPUs cluster, we could train a classifier of 100 million classes on Alibaba Retail Product Dataset in about five days while achieving a comparable accuracy with the naive softmax training process.
翻訳日:2021-02-12 14:11:23 公開日:2021-02-09
# 臨床BCIチャレンジ-WCCI2020:RIGOLETTO -- リーマンGeOmetry LEarning, applicaTion to cOnnectivity

Clinical BCI Challenge-WCCI2020: RIGOLETTO -- RIemannian GeOmetry LEarning, applicaTion To cOnnectivity ( http://arxiv.org/abs/2102.06015v1 )

ライセンス: Link先を確認
Marie-Constance Corsi, Florian Yger, Sylvain Chevallier and Camille No\^us(参考訳) この短い技術レポートは、臨床BCIチャレンジWCCI2020に提出されたアプローチを説明します。 この提案は運動画像タスクを脳波信号から分類することを目的としており、リーマン幾何学に依存する。 古典的共分散行列を使う代わりに、関数接続性の測定にも依存する。 我々のアプローチは大会の1位にランクインした。

This short technical report describes the approach submitted to the Clinical BCI Challenge-WCCI2020. This submission aims to classify motor imagery task from EEG signals and relies on Riemannian Geometry, with a twist. Instead of using the classical covariance matrices, we also rely on measures of functional connectivity. Our approach ranked 1st on the task 1 of the competition.
翻訳日:2021-02-12 14:03:37 公開日:2021-02-09
# ラフセットに基づくIoTのバッテリ寿命予測手法

Roughsets-based Approach for Predicting Battery Life in IoT ( http://arxiv.org/abs/2102.06026v1 )

ライセンス: Link先を確認
Rajesh Kaluri, Dharmendra Singh Rajput, Qin Xin, Kuruva Lakshmanna, Sweta Bhattacharya, Thippa Reddy Gadekallu and Praveen Kumar Reddy Maddikunta(参考訳) Internet of Things(IoT)とその関連アプリケーションは、この惑星における生命の価値を高めるために成功している。 高度なワイヤレスセンサーネットワークとその革新的な計算能力により、さまざまなIoTアプリケーションが次のフロンティアとなり、人生のほぼすべての領域に触れています。 この大きな進歩により、エネルギー最適化はグリーン技術への出席の必要性に対する主要な関心事となっている。 本研究は, 海洋環境におけるIoTフレームワークにおけるバッテリ寿命の持続可能性に関する予測に焦点を当てた。 使用されるデータは、シカゴ地区のビーチウォーターから収集された公開データセットです。 まず、データの欠落した値は属性平均に置き換えられます。 その後、データの均質性を達成するためにワンホット符号化技術が適用され、標準スカラー技術がデータを正規化します。 次に、大まかな集合理論を特徴抽出に用い、その結果データをDeep Neural Network (DNN)モデルにフィードバックして最適化された予測結果を得る。 提案されたモデルは、最新の機械学習モデルと比較され、平均二乗誤差、平均絶対誤差、根平均二乗誤差、テスト分散スコアなどのパフォーマンス指標に基づいて、その優位性を正当化します。

Internet of Things (IoT) and related applications have successfully contributed towards enhancing the value of life in this planet. The advanced wireless sensor networks and its revolutionary computational capabilities have enabled various IoT applications become the next frontier, touching almost all domains of life. With this enormous progress, energy optimization has also become a primary concern with the need to attend to green technologies. The present study focuses on the predictions pertinent to the sustainability of battery life in IoT frameworks in the marine environment. The data used is a publicly available dataset collected from the Chicago district beach water. Firstly, the missing values in the data are replaced with the attribute mean. Later, one-hot encoding technique is applied for achieving data homogeneity followed by the standard scalar technique to normalize the data. Then, rough set theory is used for feature extraction, and the resultant data is fed into a Deep Neural Network (DNN) model for the optimized prediction results. The proposed model is then compared with the state of the art machine learning models and the results justify its superiority on the basis of performance metrics such as Mean Squared Error, Mean Absolute Error, Root Mean Squared Error, and Test Variance Score.
翻訳日:2021-02-12 14:03:30 公開日:2021-02-09
# (参考訳) 負のデータ拡張 [全文訳有]

Negative Data Augmentation ( http://arxiv.org/abs/2102.05113v1 )

ライセンス: CC BY 4.0
Abhishek Sinha, Kumar Ayush, Jiaming Song, Burak Uzkent, Hongxia Jin, Stefano Ermon(参考訳) データ拡張は、基礎となるデータ分布に応じて生成された合成サンプルでデータセットを拡大するためにしばしば使用される。 より広い範囲の増補を可能にするために、故意に分散サンプルを作成する負のデータ増補戦略(nda)を探求する。 このような負の分散サンプルは、データ分散のサポートに関する情報を提供し、生成的モデリングや表現学習に活用できることを示す。 我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。 適切な条件下では、結果の目標を最適化することは、真のデータ分布を回復するが、必要な構造を欠いたサンプルを避けるために、ジェネレータを直接バイアスできる。 本手法で訓練したモデルは, 異常検出能力の向上とともに, 条件付き/無条件画像生成が向上した。 さらに,画像と映像の自己教師あり表現学習のためのコントラスト学習フレームワークに,同じ否定的データ拡張戦略を取り入れ,下流画像分類,物体検出,行動認識タスクの性能向上を実現している。 これらの結果は、有効なデータを構成するものに関する以前の知識は、監視されていない学習タスクの範囲にわたって弱い監督の効果的な形態であることを示唆しています。

Data augmentation is often used to enlarge datasets with synthetic samples generated in accordance with the underlying data distribution. To enable a wider range of augmentations, we explore negative data augmentation strategies (NDA)that intentionally create out-of-distribution samples. We show that such negative out-of-distribution samples provide information on the support of the data distribution, and can be leveraged for generative modeling and representation learning. We introduce a new GAN training objective where we use NDA as an additional source of synthetic data for the discriminator. We prove that under suitable conditions, optimizing the resulting objective still recovers the true data distribution but can directly bias the generator towards avoiding samples that lack the desired structure. Empirically, models trained with our method achieve improved conditional/uncondit ional image generation along with improved anomaly detection capabilities. Further, we incorporate the same negative data augmentation strategy in a contrastive learning framework for self-supervised representation learning on images and videos, achieving improved performance on downstream image classification, object detection, and action recognition tasks. These results suggest that prior knowledge on what does not constitute valid data is an effective form of weak supervision across a range of unsupervised learning tasks.
翻訳日:2021-02-12 03:35:53 公開日:2021-02-09
# (参考訳) CDPAM: 知覚音声類似性のためのコントラスト学習 [全文訳有]

CDPAM: Contrastive learning for perceptual audio similarity ( http://arxiv.org/abs/2102.05109v1 )

ライセンス: CC BY 4.0
Pranay Manocha, Zeyu Jin, Richard Zhang, Adam Finkelstein(参考訳) 深層学習に基づく多くの音声処理方法は、損失関数のための自動および微分可能な音声メトリックを必要とする。 Manocha et al.のDPAMアプローチ。 人間の判断に直接訓練されたフルリファレンスメトリックを学習し、人間の知覚とうまく相関します。 しかし、多くの人間の注釈が必要であり、訓練された摂動の範囲外ではうまく一般化していない。 本稿では,DPAM上に構築・発展する指標であるCDPAMについて紹介する。 主な改善点は、対照的な学習と多次元表現を組み合わせて、限られたデータから堅牢なモデルを構築することである。 さらに,三重項比較に関する人間の判断を収集し,より広い範囲の音声摂動に対する一般化を改善する。 CDPAMは9つのさまざまなデータセットの人間の応答とよく相関します。 また,この指標を既存の音声合成・強調法に付加すると,客観的・主観的評価で測定したように,大幅に改善することが示された。

Many speech processing methods based on deep learning require an automatic and differentiable audio metric for the loss function. The DPAM approach of Manocha et al. learns a full-reference metric trained directly on human judgments, and thus correlates well with human perception. However, it requires a large number of human annotations and does not generalize well outside the range of perturbations on which it was trained. This paper introduces CDPAM, a metric that builds on and advances DPAM. The primary improvement is to combine contrastive learning and multi-dimensional representations to build robust models from limited data. In addition, we collect human judgments on triplet comparisons to improve generalization to a broader range of audio perturbations. CDPAM correlates well with human responses across nine varied datasets. We also show that adding this metric to existing speech synthesis and enhancement methods yields significant improvement, as measured by objective and subjective tests.
翻訳日:2021-02-12 02:10:39 公開日:2021-02-09
# (参考訳) 雑音画像の超解像のためのディープラーニングアーキテクチャ設計 [全文訳有]

Deep learning architectural designs for super-resolution of noisy images ( http://arxiv.org/abs/2102.05105v1 )

ライセンス: CC BY 4.0
Angel Villar-Corrales, Franziska Schirrmacher and Christian Riess(参考訳) ディープラーニングの最近の進歩は、シングルイメージスーパーレゾリューション(sr)研究に大きな改善をもたらした。 しかし、アップサンプリング工程におけるノイズの増幅により、最新の手法では、低解像度のノイズバージョンからの高解像度画像の再構成に失敗することが多い。 しかし、これは見えないタイプの画像劣化を持つ未知のカメラの画像にとって特に重要である。 本研究では,デノジングと超解像を共同で行うことを提案する。 この目的のために,2つのアーキテクチャ設計について検討する。"in-network"は2つのタスクを特徴レベルで組み合わせ,"pre-network"はまずデノゲーションを行い,次に超解像を行う。 ネットワーク内設計は、denoiserの任意の選択に対して、トレーニングおよびテストデータセットに画像破損の種類が一致した場合、最も強力な結果を得る。 ネットワーク前設計は、既存の超解像モデルの病理的失敗事例である、目に見えないタイプの画像破損に対して優れた性能を示す。 これらの発見が、ソースカメラや撮像条件が十分に制御されていない制約の少ないシナリオでも、超分解能を実現するのに役立つことを願っている。 ソースコードと事前訓練されたモデルはhttps://github.com/ angelvillar96/super- resolution-noisy-ima gesで入手できる。

Recent advances in deep learning have led to significant improvements in single image super-resolution (SR) research. However, due to the amplification of noise during the upsampling steps, state-of-the-art methods often fail at reconstructing high-resolution images from noisy versions of their low-resolution counterparts. However, this is especially important for images from unknown cameras with unseen types of image degradation. In this work, we propose to jointly perform denoising and super-resolution. To this end, we investigate two architectural designs: "in-network" combines both tasks at feature level, while "pre-network" first performs denoising and then super-resolution. Our experiments show that both variants have specific advantages: The in-network design obtains the strongest results when the type of image corruption is aligned in the training and testing dataset, for any choice of denoiser. The pre-network design exhibits superior performance on unseen types of image corruption, which is a pathological failure case of existing super-resolution models. We hope that these findings help to enable super-resolution also in less constrained scenarios where source camera or imaging conditions are not well controlled. Source code and pretrained models are available at https://github.com/ angelvillar96/super- resolution-noisy-ima ges.
翻訳日:2021-02-12 01:57:52 公開日:2021-02-09
# (参考訳) Deep LSDを使用して、実空間で意味を持つGANの潜時空間で演算子を構築する [全文訳有]

Using Deep LSD to build operators in GANs latent space with meaning in real space ( http://arxiv.org/abs/2102.05132v1 )

ライセンス: CC BY 4.0
J. Quetzalcoatl Toledo-Marin and James A. Glazier(参考訳) 生成モデルは、データが定義とは無関係な潜在変数の項で表現できるという重要な考え方に依存している。 相関の欠如は、潜在空間多様体が理解し操作しやすいことを示唆しているため重要である。 生成モデルは、例えば、可変オートエンコーダ(VAE)や生成逆ネットワーク(GAN)など、ディープラーニングで広く使われている。 本稿では、gans の潜在空間に線型独立なベクトルの集合を構築する手法を提案し、これを準固有ベクトルと呼ぶ。 これらの準固有ベクトルは、2つの鍵となる性質を有する: i) 潜在空間すべてにまたがる; ii) これらの準固有ベクトルの集合は、ラベル付き特徴のそれぞれに1対1で写る。 MNISTの場合、潜在空間における次元の数は建設によって大きいが、実空間におけるデータの98%は、ラベルの数に等しい次元の潜在空間のサブドメインである。 次に、その準固有値が、実空間における特徴変換にマップする潜在空間における行列演算や画像の復号化に応用できる潜在スペクトル分解(LSD)にどのように使用できるかを示す。 この手法が潜在空間トポロジーの洞察を与える方法を示す。 鍵となる点は、準固有ベクトルの集合が潜在空間に基底集合を形成し、各方向が実空間の特徴に対応することである。

Generative models rely on the key idea that data can be represented in terms of latent variables which are uncorrelated by definition. Lack of correlation is important because it suggests that the latent space manifold is simpler to understand and manipulate. Generative models are widely used in deep learning, e.g., variational autoencoders (VAEs) and generative adversarial networks (GANs). Here we propose a method to build a set of linearly independent vectors in the latent space of a GANs, which we call quasi-eigenvectors. These quasi-eigenvectors have two key properties: i) They span all the latent space, ii) A set of these quasi-eigenvectors map to each of the labeled features one-on-one. We show that in the case of the MNIST, while the number of dimensions in latent space is large by construction, 98% of the data in real space map to a sub-domain of latent space of dimensionality equal to the number of labels. We then show how the quasi-eigenvalues can be used for Latent Spectral Decomposition (LSD), which has applications in denoising images and for performing matrix operations in latent space that map to feature transformations in real space. We show how this method provides insight into the latent space topology. The key point is that the set of quasi-eigenvectors form a basis set in latent space and each direction corresponds to a feature in real space.
翻訳日:2021-02-12 00:33:31 公開日:2021-02-09
# (参考訳) テイラー・グリーン流における慣性粒子因果関係の動的モード分解 [全文訳有]

Dynamic Mode Decomposition of inertial particle caustics in Taylor-Green flow ( http://arxiv.org/abs/2102.05120v1 )

ライセンス: CC BY 4.0
Omstavan Samant, Jaya Kumar Alageshan, Sarveshwar Sharma, and Animesh Kuley(参考訳) 背景流に付着した慣性粒子は複雑な構造を示すことができる。 2次元テイラーグリーン(TG)流における慣性粒子を検討し、粒子画像速度測定(PIV)類似データから動的モード分解(DMD)法を用いて粒子のストークス数関数として粒子ダイナミクスを特徴づける。 我々は, 因果構造の形成を観察し, DMDを用いて解析し, (a) 粒子のストークス数を決定し, (b) 粒子のストークス数組成を推定する。 この理想化された流れの私達の分析はより複雑か乱流の流れの慣性粒子を分析する有用な洞察を提供します。 本研究では,DMD手法を用いて実験システム上で同様の解析を行うことを提案する。

Inertial particles advected by a background flow can show complex structures. We consider inertial particles in a 2D Taylor-Green (TG) flow and characterize particle dynamics as a function of the particle's Stokes number using dynamic mode decomposition (DMD) method from particle image velocimetry (PIV) like-data. We observe the formation of caustic structures and analyze them using DMD to (a) determine the Stokes number of the particles, and (b) estimate the particle Stokes number composition. Our analysis in this idealized flow will provide useful insight to analyze inertial particles in more complex or turbulent flows. We propose that the DMD technique can be used to perform a similar analysis on an experimental system.
翻訳日:2021-02-12 00:15:54 公開日:2021-02-09
# (参考訳) DARE-SLAM: 知覚劣化環境における縮退意識とレジリエントループ閉鎖

DARE-SLAM: Degeneracy-Aware and Resilient Loop Closing in Perceptually-Degrade d Environments ( http://arxiv.org/abs/2102.05117v1 )

ライセンス: CC BY 4.0
Kamak Ebadi, Matteo Palieri, Sally Wood, Curtis Padgett, Ali-akbar Agha-mohammadi(参考訳) 大規模で未知の複雑な環境をナビゲートし探索できる完全自律型ロボットの開発は、数十年にわたりロボット研究の中心だった。 自律探査の重要な要件は、信頼できるナビゲーションに使用できる未知の環境の正確で一貫したマップを構築することです。 ループクロージャ検出は、ロボットが以前訪れた場所に戻ったことを断言する能力であり、推定されたロボット軌道の誤差蓄積によるドリフトを減少させるため、一貫したマッピングに不可欠である。 さらに、マルチロボットシステムでは、ループクロージャにより、ロボットチームによって得られたローカルマップを環境の一貫したグローバルマップにマージできます。 本稿では,GPSを用いた大規模かつ知覚的に劣化した環境において,位置認識と3次元位置の曖昧さを解消し,同時に位置認識とマッピング(SLAM)を行う。 より具体的には、現在の手法では性能が不十分な複雑で曖昧な環境の例を示す地下環境(溶岩管、洞窟、鉱山など)におけるSLAMに焦点を当てる。

Enabling fully autonomous robots capable of navigating and exploring large-scale, unknown and complex environments has been at the core of robotics research for several decades. A key requirement in autonomous exploration is building accurate and consistent maps of the unknown environment that can be used for reliable navigation. Loop closure detection, the ability to assert that a robot has returned to a previously visited location, is crucial for consistent mapping as it reduces the drift caused by error accumulation in the estimated robot trajectory. Moreover, in multi-robot systems, loop closures enable merging local maps obtained by a team of robots into a consistent global map of the environment. In this paper, we present a degeneracy-aware and drift-resilient loop closing method to improve place recognition and resolve 3D location ambiguities for simultaneous localization and mapping (SLAM) in GPS-denied, large-scale and perceptually-degrade d environments. More specifically, we focus on SLAM in subterranean environments (e.g., lava tubes, caves, and mines) that represent examples of complex and ambiguous environments where current methods have inadequate performance.
翻訳日:2021-02-11 23:21:00 公開日:2021-02-09
# (参考訳) ニューラルネットワーク分類器におけるロバストと非ロバストの特徴の絡み合い [全文訳有]

Adversarial Perturbations Are Not So Weird: Entanglement of Robust and Non-Robust Features in Neural Network Classifiers ( http://arxiv.org/abs/2102.05110v1 )

ライセンス: CC BY 4.0
Jacob M. Springer, Melanie Mitchell, Garrett T. Kenyon(参考訳) 視覚データに基づいてトレーニングされたニューラルネットワークは、しばしば知覚できない敵の摂動に対して脆弱であることが知られている。 この脆弱性の理由はまだ文献で議論されている。 最近Ilyasら。 (2019) は、この脆弱性が部分的には、ニューラルネットワーク分類器が高い予測性を持つが不安定な「非破壊的」な特徴に依存しているためであることを示した。 この論文では、Ilyas et alの作品を拡張します。 これらの特徴を生み出す入力パターンの性質を調べることによって。 特に、標準的な方法で訓練されたニューラルネットワークでは、データセット内の統計的アーティファクトにのみ対応するのではなく、典型的には大規模で堅牢なパターンで絡み合っている、小さくて「非セマンティック」なパターンに非ロバストな特徴が応答すると仮定する。 したがって、逆の例は、これらの小さな絡み合ったパターンに対する最小の摂動によって形成することができる。 堅牢な分類器は、標準(非ロバスト)のものよりも効果的であり、非目標設定とターゲット設定の両方において、転送可能な逆例を生成するソースとして有効である。 本稿では,ニューラルネットワーク分類器の敵対的脆弱性の原因となる非破壊的特徴について,新たな知見を提供する。

Neural networks trained on visual data are well-known to be vulnerable to often imperceptible adversarial perturbations. The reasons for this vulnerability are still being debated in the literature. Recently Ilyas et al. (2019) showed that this vulnerability arises, in part, because neural network classifiers rely on highly predictive but brittle "non-robust" features. In this paper we extend the work of Ilyas et al. by investigating the nature of the input patterns that give rise to these features. In particular, we hypothesize that in a neural network trained in a standard way, non-robust features respond to small, "non-semantic" patterns that are typically entangled with larger, robust patterns, known to be more human-interpretable, as opposed to solely responding to statistical artifacts in a dataset. Thus, adversarial examples can be formed via minimal perturbations to these small, entangled patterns. In addition, we demonstrate a corollary of our hypothesis: robust classifiers are more effective than standard (non-robust) ones as a source for generating transferable adversarial examples in both the untargeted and targeted settings. The results we present in this paper provide new insight into the nature of the non-robust features responsible for adversarial vulnerability of neural network classifiers.
翻訳日:2021-02-11 21:28:44 公開日:2021-02-09
# (参考訳) ドメイン密度変換によるドメイン不変表現学習 [全文訳有]

Domain Invariant Representation Learning with Domain Density Transformations ( http://arxiv.org/abs/2102.05082v1 )

ライセンス: CC BY 4.0
A. Tuan Nguyen, Toan Tran, Yarin Gal, Atilim Gunes Baydin(参考訳) ドメインの一般化とは、ソースドメインの集合からデータに基づいてモデルをトレーニングし、対象ドメインの見えない領域にモデルを一般化できるようにする問題を指す。 モデルによって学習された情報はドメイン固有であり、ターゲットドメインに不完全に一般化される可能性があるため、(すべてのソースドメインからプールされた)データの集合集合に関するモデルを直感的にトレーニングすることは、サブオプティマティックに実行されることが示されている。 この問題に対処するために、主なアプローチは、予測タスクにそれを使用するために、いくつかのドメイン不変情報を見つけて学習することです。 本稿では,領域間のすべての変換関数の下で不変となるよう表現ネットワークを強制することにより,ドメイン不変表現を理論的に学習する手法を提案する。 また、このようなドメイン変換を学習し、実際にメソッドを実装するために、生成的敵ネットワークをどのように利用するかを示す。 本手法は, ドメイン一般化問題において, 広く利用されているいくつかのデータセットにおいて, 最先端モデルで競争力のある結果が得られることを示す。

Domain generalization refers to the problem where we aim to train a model on data from a set of source domains so that the model can generalize to unseen target domains. Naively training a model on the aggregate set of data (pooled from all source domains) has been shown to perform suboptimally, since the information learned by that model might be domain-specific and generalize imperfectly to target domains. To tackle this problem, a predominant approach is to find and learn some domain-invariant information in order to use it for the prediction task. In this paper, we propose a theoretically grounded method to learn a domain-invariant representation by enforcing the representation network to be invariant under all transformation functions among domains. We also show how to use generative adversarial networks to learn such domain transformations to implement our method in practice. We demonstrate the effectiveness of our method on several widely used datasets for the domain generalization problem, on all of which we achieve competitive results with state-of-the-art models.
翻訳日:2021-02-11 21:01:04 公開日:2021-02-09
# (参考訳) 多視点回転平均のロバスト性について [全文訳有]

On the Robustness of Multi-View Rotation Averaging ( http://arxiv.org/abs/2102.05454v1 )

ライセンス: CC BY 4.0
Xinyi Li, Haibin Ling(参考訳) 回転平均化は、単一または複数の回転群の同期プロセスであり、動きからのマルチビュー構造(SfM)のような多くのコンピュータビジョンタスクにおいて根本的な問題である。 具体的には、回転平均化は、ペアワイズ相対カメラポーズからの基本的なポーズグラフ一貫性の回復を含む。 具体的には、回転群の対運動、特に3次元回転群 (\eg, $\mathbb{SO}(3)$) が与えられたとき、固定フレームに対する多重回転の原信号の復元に興味がある。 本稿では,複数の回転平均問題を解決するための堅牢な枠組みを提案する。 このソルバに$\epsilon$-cycle整合性項を導入することで、堅牢な初期化スキームをIRLSソルバに実装することができます。 コストのかかるエッジ除去を行う代わりに、減量による誤測定の悪影響を暗黙的に抑制し、初期化不良によるIRLS障害を効果的に回避します。 実験の結果,提案手法は様々なベンチマークで芸術の状況よりも優れていた。

Rotation averaging is a synchronization process on single or multiple rotation groups, and is a fundamental problem in many computer vision tasks such as multi-view structure from motion (SfM). Specifically, rotation averaging involves the recovery of an underlying pose-graph consistency from pairwise relative camera poses. Specifically, given pairwise motion in rotation groups, especially 3-dimensional rotation groups (\eg, $\mathbb{SO}(3)$), one is interested in recovering the original signal of multiple rotations with respect to a fixed frame. In this paper, we propose a robust framework to solve multiple rotation averaging problem, especially in the cases that a significant amount of noisy measurements are present. By introducing the $\epsilon$-cycle consistency term into the solver, we enable the robust initialization scheme to be implemented into the IRLS solver. Instead of conducting the costly edge removal, we implicitly constrain the negative effect of erroneous measurements by weight reducing, such that IRLS failures caused by poor initialization can be effectively avoided. Experiment results demonstrate that our proposed approach outperforms state of the arts on various benchmarks.
翻訳日:2021-02-11 20:14:33 公開日:2021-02-09
# (参考訳) K-Arm最適化による深部ニューラルネットワークのバックドア走査 [全文訳有]

Backdoor Scanning for Deep Neural Networks through K-Arm Optimization ( http://arxiv.org/abs/2102.05123v1 )

ライセンス: CC BY 4.0
Guangyu Shen, Yingqi Liu, Guanhong Tao, Shengwei An, Qiuling Xu, Siyuan Cheng, Shiqing Ma, Xiangyu Zhang(参考訳) バックドア攻撃はディープラーニングシステムに深刻な脅威をもたらす。 隠された悪意のある振る舞いをモデルに注入し、特別なパターンでスタンプされた任意の入力がそのような振舞いをトリガーする。 そのため、バックドアの検知は必要となる。 既存の防衛技術の多くは最適化を利用して最小の入力パターンを生成し、そのパターンに注入された良性入力のセットをターゲットラベルに誤分類する。 しかし、複雑性はクラスラベルの数に二乗的であり、多くのクラスでモデルを扱うことができない。 強化学習におけるマルチArm Banditに着想を得た,バックドア検出のためのK-Arm最適化手法を提案する。 目的関数の誘導による最適化のための最も有望なラベルを反復的かつ確率的に選択することにより、複雑性を大幅に低減し、多くのクラスでモデルを扱うことができる。 さらに、最適化するラベルの選択を反復的に精錬することで、適切なラベルを選択する際の不確実性を大幅に軽減し、検出精度を向上させます。 提出時に、IARPA TrojAIコンペティションにおける4000以上のモデルに対する評価をラウンド1から最新のラウンド4まで行い、リーダーボード上で最高のパフォーマンスを達成しました。 また、精度とスキャン時間を3つの最先端技術に取って代わった技術です。

Back-door attack poses a severe threat to deep learning systems. It injects hidden malicious behaviors to a model such that any input stamped with a special pattern can trigger such behaviors. Detecting back-door is hence of pressing need. Many existing defense techniques use optimization to generate the smallest input pattern that forces the model to misclassify a set of benign inputs injected with the pattern to a target label. However, the complexity is quadratic to the number of class labels such that they can hardly handle models with many classes. Inspired by Multi-Arm Bandit in Reinforcement Learning, we propose a K-Arm optimization method for backdoor detection. By iteratively and stochastically selecting the most promising labels for optimization with the guidance of an objective function, we substantially reduce the complexity, allowing to handle models with many classes. Moreover, by iteratively refining the selection of labels to optimize, it substantially mitigates the uncertainty in choosing the right labels, improving detection accuracy. At the time of submission, the evaluation of our method on over 4000 models in the IARPA TrojAI competition from round 1 to the latest round 4 achieves top performance on the leaderboard. Our technique also supersedes three state-of-the-art techniques in terms of accuracy and the scanning time needed.
翻訳日:2021-02-11 18:19:41 公開日:2021-02-09
# (参考訳) バックボーンニューラルネットワークの前処理潜時空間からの最適トランスポートマッピングを用いた移動学習に基づく数ショット分類 [全文訳有]

Transfer learning based few-shot classification using optimal transport mapping from preprocessed latent space of backbone neural network ( http://arxiv.org/abs/2102.05176v1 )

ライセンス: CC BY 4.0
Tom\'a\v{s} Chobola, Daniel Va\v{s}ata, Pavel Kord\'ik(参考訳) MetaDL Challenge 2020は、画像分類タスクを数ショット設定で重視した。 本論文は,大会における2番目に優れた応募について述べる。 メタラーニングアプローチでは,ガウス分布をよりよく追従するために,各クラスに対してバックボーンネットワークによって生成された潜伏空間内のクラス分布を変化させる。 Latent Space Transformアルゴリズムと呼ばれるこの操作の後、クラスの中心はExpectation Maximizationアルゴリズムの反復的な方法でさらに整列され、ラベル付きインスタンス上に頻繁に提供されるラベル付きデータに情報を利用する。 そこで本研究では,シンクホーンアルゴリズムを用いた最適トランスポートマッピングを提案する。 提案手法は,K-Nearest Neighbourアルゴリズムやガウス混合モデルなどを用いて,従来の手法よりも優れていることを示す。

MetaDL Challenge 2020 focused on image classification tasks in few-shot settings. This paper describes second best submission in the competition. Our meta learning approach modifies the distribution of classes in a latent space produced by a backbone network for each class in order to better follow the Gaussian distribution. After this operation which we call Latent Space Transform algorithm, centers of classes are further aligned in an iterative fashion of the Expectation Maximisation algorithm to utilize information in unlabeled data that are often provided on top of few labelled instances. For this task, we utilize optimal transport mapping using the Sinkhorn algorithm. Our experiments show that this approach outperforms previous works as well as other variants of the algorithm, using K-Nearest Neighbour algorithm, Gaussian Mixture Models, etc.
翻訳日:2021-02-11 17:38:13 公開日:2021-02-09
# (参考訳) ベクトル値無限課題学習による感情伝達 [全文訳有]

Emotion Transfer Using Vector-Valued Infinite Task Learning ( http://arxiv.org/abs/2102.05075v1 )

ライセンス: CC BY 4.0
Alex Lambert, Sanjeel Parekh, Zolt\'an Szab\'o, Florence d'Alch\'e-Buc(参考訳) スタイル転送は多くの成功したアプリケーションで機械学習の重要な問題である。 本研究では,無限タスク学習とベクトル値再生カーネルヒルベルト空間に基づく新しいスタイルの転送フレームワークを提案する。 我々は、顔のイメージを異なるターゲットの感情に変換することを目標とする感情伝達のアイデアをインスタンス化する。 提案されたアプローチは、継続的スタイル空間を明示的に制御する原則的な方法を提供する。 本手法を顔の感情評価ベンチマークに応用し,再現コストの低減と感情分類精度の向上を図った。

Style transfer is a significant problem of machine learning with numerous successful applications. In this work, we present a novel style transfer framework building upon infinite task learning and vector-valued reproducing kernel Hilbert spaces. We instantiate the idea in emotion transfer where the goal is to transform facial images to different target emotions. The proposed approach provides a principled way to gain explicit control over the continuous style space. We demonstrate the efficiency of the technique on popular facial emotion benchmarks, achieving low reconstruction cost and high emotion classification accuracy.
翻訳日:2021-02-11 16:20:03 公開日:2021-02-09
# (参考訳) エンリッチなクエリによる境界メモリアクティブ学習 [全文訳有]

Bounded Memory Active Learning through Enriched Queries ( http://arxiv.org/abs/2102.05047v1 )

ライセンス: CC BY 4.0
Max Hopkins, Daniel Kane, Shachar Lovett, Michal Moshkovitz(参考訳) アクセシブルなラベル付きデータの爆発的な増加は、データハングリー学習アルゴリズムが、違法に高価なラベル付けコストを下げるために、情報的サンプルを適応的に選択するパラダイムであるアクティブラーニングへの関心の高まりにつながっている。 残念なことに、標準的な最悪の学習モデルでは、アクティブ設定はしばしば非適応アルゴリズムよりも改善されない。 これに対処するために、最近の一連の研究は、学習者がラベル以外の豊富なクエリを要求することができるモデルを検討した。 このようなモデルはラベルのコストを大幅に下げることに成功したが、大量のメモリを必要とする傾向にある。 本研究では,境界メモリで学習できる分類因子のファミリーについて検討する。 そこで本稿では,拡張クエリ型アクティブラーニングのストリーミング型を,境界メモリだけでなく,クエリ最適化と計算効率のよい方法で学習するのに十分なロスレス・サンプル圧縮という自然な組み合わせパラメータとともに導入する。 最後に,基本エンリッチなクエリへのアクセスが与えられた場合,最小でロスレス圧縮スキームの計算が容易な分類器ファミリの3つの基本的な例を示す:軸に配列された矩形,決定木,および2次元のハーフスペース。

The explosive growth of easily-accessible unlabeled data has lead to growing interest in active learning, a paradigm in which data-hungry learning algorithms adaptively select informative examples in order to lower prohibitively expensive labeling costs. Unfortunately, in standard worst-case models of learning, the active setting often provides no improvement over non-adaptive algorithms. To combat this, a series of recent works have considered a model in which the learner may ask enriched queries beyond labels. While such models have seen success in drastically lowering label costs, they tend to come at the expense of requiring large amounts of memory. In this work, we study what families of classifiers can be learned in bounded memory. To this end, we introduce a novel streaming-variant of enriched-query active learning along with a natural combinatorial parameter called lossless sample compression that is sufficient for learning not only with bounded memory, but in a query-optimal and computationally efficient manner as well. Finally, we give three fundamental examples of classifier families with small, easy to compute lossless compression schemes when given access to basic enriched queries: axis-aligned rectangles, decision trees, and halfspaces in two dimensions.
翻訳日:2021-02-11 16:02:16 公開日:2021-02-09
# (参考訳) 階層的ディエンタングルメントのためのベンチマーク、アルゴリズム、メトリクス [全文訳有]

Benchmarks, Algorithms, and Metrics for Hierarchical Disentanglement ( http://arxiv.org/abs/2102.05185v1 )

ライセンス: CC BY 4.0
Andrew Slavin Ross and Finale Doshi-Velez(参考訳) 表現学習では、データの背後にある地殻変動要因を解き放つアルゴリズムや、これがいかに完全に起こるかを定量化するメトリクスの開発に最近関心が寄せられている。 しかしながら、これらのアルゴリズムと測度は、表現と接地構造因子の両方が平坦で連続的で因子化されていると仮定するが、多くの実世界の生成過程は、リッチな階層構造、それらの間の依存を伴う離散変数と連続変数の混合、さらには内在的な次元性さえも含んでいる。 本研究では,このような階層表現を学習するためのベンチマーク,アルゴリズム,メトリクスを開発した。

In representation learning, there has been recent interest in developing algorithms to disentangle the ground-truth generative factors behind data, and metrics to quantify how fully this occurs. However, these algorithms and metrics often assume that both representations and ground-truth factors are flat, continuous, and factorized, whereas many real-world generative processes involve rich hierarchical structure, mixtures of discrete and continuous variables with dependence between them, and even varying intrinsic dimensionality. In this work, we develop benchmarks, algorithms, and metrics for learning such hierarchical representations.
翻訳日:2021-02-11 15:32:52 公開日:2021-02-09
# AuGPT:事前訓練された言語モデルとデータ拡張による対話

AuGPT: Dialogue with Pre-trained Language Models and Data Augmentation ( http://arxiv.org/abs/2102.05126v1 )

ライセンス: Link先を確認
Jon\'a\v{s} Kulh\'anek and Vojt\v{e}ch Hude\v{c}ek and Tom\'a\v{s} Nekvinda and Ond\v{r}ej Du\v{s}ek(参考訳) GPT-2のような注意に基づく事前学習言語モデルは、エンドツーエンドの対話モデルにかなりの進歩をもたらした。 しかし、それらはまた、知識基盤の欠如や多様性など、タスク指向の対話にかなりのリスクをもたらします。 これらの問題に対処するために、言語モデルの微調整のための改良されたトレーニング目標を導入し、トレーニングデータの多様性を高めるためにバックトランスレーションによる膨大なデータ拡張を用いる。 さらに、複数のソースからのデータを組み合わせる可能性を検討し、ターゲットデータセットのパフォーマンスを改善します。 人的および自動的な方法で貢献を慎重に評価します。 提案モデルは,MultiWOZデータ上での最先端性能を実現し,人間の評価における競合性能を示す。

Attention-based pre-trained language models such as GPT-2 brought considerable progress to end-to-end dialogue modelling. However, they also present considerable risks for task-oriented dialogue, such as lack of knowledge grounding or diversity. To address these issues, we introduce modified training objectives for language model finetuning, and we employ massive data augmentation via back-translation to increase the diversity of the training data. We further examine the possibilities of combining data from multiples sources to improve performance on the target dataset. We carefully evaluate our contributions with both human and automatic methods. Our model achieves state-of-the-art performance on the MultiWOZ data and shows competitive performance in human evaluation.
翻訳日:2021-02-11 14:54:40 公開日:2021-02-09
# 分布外検出のためのラベルスムース埋め込み仮説

Label Smoothed Embedding Hypothesis for Out-of-Distribution Detection ( http://arxiv.org/abs/2102.05131v1 )

ライセンス: Link先を確認
Dara Bahri and Heinrich Jiang and Yi Tay and Donald Metzler(参考訳) 多くのアプリケーションでは、アウト・オブ・ディストリビューション(OOD)の例を検出することが重要です。 本研究では,分類モデルの中間活性化に関して,$k$-NNの密度推定値を用いてOODサンプルを検出する非監視手法を提案する。 ラベルの平滑化に関する最近の洞察を利用して、私たちは \emph{Label Smoothed Embedding Hypothesis} と呼んでおり、その意味の1つは、$k$-NN密度推定器が、ラベル平滑化でモデルが訓練されたときに理論的および実証的にOOD検出方法としてよりよく機能することを示しています。 最後に,提案手法はOODのベースラインよりも優れた性能を示し,さらに,OODのサンプルを検出できる$k$-NN密度推定のための新しい有限サンプル高確率統計結果を提供する。

Detecting out-of-distribution (OOD) examples is critical in many applications. We propose an unsupervised method to detect OOD samples using a $k$-NN density estimate with respect to a classification model's intermediate activations on in-distribution samples. We leverage a recent insight about label smoothing, which we call the \emph{Label Smoothed Embedding Hypothesis}, and show that one of the implications is that the $k$-NN density estimator performs better as an OOD detection method both theoretically and empirically when the model is trained with label smoothing. Finally, we show that our proposal outperforms many OOD baselines and also provide new finite-sample high-probability statistical results for $k$-NN density estimation's ability to detect OOD examples.
翻訳日:2021-02-11 14:54:17 公開日:2021-02-09
# 共変量シフト適応型逆ロバスト分類器

Adversarially Robust Classifier with Covariate Shift Adaptation ( http://arxiv.org/abs/2102.05096v1 )

ライセンス: Link先を確認
Jay Nandy and Sudipan Saha and Wynne Hsu and Mong Li Lee and Xiao Xiang Zhu(参考訳) 既存の敵対的訓練を受けたモデルは、通常、互いに独立してテスト例の推論を行う。 このテストモードは、テストサンプルの共変シフトを処理することはできません。 このため、これらのモデルのパフォーマンスはしばしば大幅に低下します。 本稿では,推定中にバッチ正規化パラメータを再推定する単純な適応バッチ正規化(bn)手法が,ガウス雑音を含む任意のランダム摂動に対して,これらのモデルのロバスト性を大幅に改善できることを示す。 この単純な発見により、敵対的に訓練されたモデルをランダムな平滑化分類器に変換して、認定された堅牢性を$\ell_2$ノイズに変換できます。 我々は、$\ell_{\infty}$-bounded adversarial 例を使用して、敵対訓練を受けたモデルでも $\ell_2$ 認定堅牢性を達成できることを示します。 さらに,適応BN手法は,敵攻撃に対する性能を高めつつも,一般的な汚職に対する堅牢性を著しく向上させることを示した。 これにより、同じ分類器に対して敵対的および腐敗的堅牢性の両方を達成できます。

Existing adversarially trained models typically perform inference on test examples independently from each other. This mode of testing is unable to handle covariate shift in the test samples. Due to this, the performance of these models often degrades significantly. In this paper, we show that simple adaptive batch normalization (BN) technique that involves re-estimating the batch-normalization parameters during inference, can significantly improve the robustness of these models for any random perturbations, including the Gaussian noise. This simple finding enables us to transform adversarially trained models into randomized smoothing classifiers to produce certified robustness to $\ell_2$ noise. We show that we can achieve $\ell_2$ certified robustness even for adversarially trained models using $\ell_{\infty}$-bounded adversarial examples. We further demonstrate that adaptive BN technique significantly improves robustness against common corruptions, while often enhancing performance against adversarial attacks. This enables us to achieve both adversarial and corruption robustness for the same classifier.
翻訳日:2021-02-11 14:49:27 公開日:2021-02-09
# 予測チャーンのための局所適応ラベルスムージング

Locally Adaptive Label Smoothing for Predictive Churn ( http://arxiv.org/abs/2102.05140v1 )

ライセンス: Link先を確認
Dara Bahri and Heinrich Jiang(参考訳) 現代のニューラルネットワークの訓練は本質的にノイズの多いプロセスであり、パラメータ初期化のランダム化やミニバッチなどの要因により、同じモデルの再トレーニング間の不一致が、訓練されたモデルがすべて同様の精度を達成した場合でも、高い \emph{Prediction churn}につながる可能性がある。 このような予測は実際には非常に望ましくない。 本稿では,各例のラベルを隣接ラベルに基づいて適応的に平滑化することによって得られたソフトラベルのトレーニングが,様々なベンチマーク分類タスクやモデルアーキテクチャの精度を向上させながら,チャーンのベースラインを上回ることが多々あることを示す。

Training modern neural networks is an inherently noisy process that can lead to high \emph{prediction churn} -- disagreements between re-trainings of the same model due to factors such as randomization in the parameter initialization and mini-batches -- even when the trained models all attain similar accuracies. Such prediction churn can be very undesirable in practice. In this paper, we present several baselines for reducing churn and show that training on soft labels obtained by adaptively smoothing each example's label based on the example's neighboring labels often outperforms the baselines on churn while improving accuracy on a variety of benchmark classification tasks and model architectures.
翻訳日:2021-02-11 14:49:12 公開日:2021-02-09
# サブグラフ探索によるグラフニューラルネットワークの解法について

On Explainability of Graph Neural Networks via Subgraph Explorations ( http://arxiv.org/abs/2102.05152v1 )

ライセンス: Link先を確認
Hao Yuan, Haiyang Yu, Jie Wang, Kang Li, Shuiwang Ji(参考訳) 本稿では,グラフニューラルネットワーク (GNN) の予測をブラックボックスとみなす問題について考察する。 既存の方法は、グラフノードやエッジの重要性を説明することに集中するが、グラフのサブ構造は無視する。 本研究では,重要な部分グラフを識別してGNNを説明する手法としてSubgraphXを提案する。 訓練されたGNNモデルと入力グラフから,我々はモンテカルロ木探索を用いて,異なる部分グラフを効率的に探索することで,その予測を説明する。 木探索をより効果的にするために,各サブグラフ間の相互作用を捉えることが可能なサブグラフ重要度尺度としてShapley値を用いることを提案する。 グラフデータのシャプリー値を計算するための効率的な近似スキームを提案する。 我々の研究は,GNNのサブグラフを明示的に識別する最初の試みである。 実験の結果, 計算を合理的なレベルに保ちながら, サブグラフが大幅に改良された説明が得られた。

We consider the problem of explaining the predictions of graph neural networks (GNNs), which otherwise are considered as black boxes. Existing methods invariably focus on explaining the importance of graph nodes or edges but ignore the substructures of graphs, which are more intuitive and human-intelligible. In this work, we propose a novel method, known as SubgraphX, to explain GNNs by identifying important subgraphs. Given a trained GNN model and an input graph, our SubgraphX explains its predictions by efficiently exploring different subgraphs with Monte Carlo tree search. To make the tree search more effective, we propose to use Shapley values as a measure of subgraph importance, which can also capture the interactions among different subgraphs. To expedite computations, we propose efficient approximation schemes to compute Shapley values for graph data. Our work represents the first attempt to explain GNNs via identifying subgraphs explicitly. Experimental results show that our SubgraphX achieves significantly improved explanations, while keeping computations at a reasonable level.
翻訳日:2021-02-11 14:49:01 公開日:2021-02-09
# 無限に多くの専門家を持つ非確率的バンド

Nonstochastic Bandits with Infinitely Many Experts ( http://arxiv.org/abs/2102.05164v1 )

ライセンス: Link先を確認
X. Flora Meng, Tuhin Sarkar, Munther A. Dahleh(参考訳) 学習者は、数え切れないほどの専門家集団に対してベンチマークを行いながら、バンディットフィードバックに基づいて順次行動することで、総報酬を最大化することを目的としています。 有限個の専門家に対して,後悔の上位値の順序を維持しつつ,正しいエキスパートランキングの推測を可能にするexp4.pの変種を提案する。 そして、この変種を無限に多くの専門家に作用するメタアルゴリズムに組み込む。 我々は、$\tilde{\mathcal{O}} \big(i^*K + \sqrt{KT} \big)$の高確率上限を後悔して、$i^*$が最高の専門家の未知の位置であり、$K$がアクションの数であり、$T$が時間の地平線であるポリログ要因まで証明します。 また,構造化専門家の例を示し,そのような場合の学習の迅速化について論じる。 我々のメタラーニングアルゴリズムは、$i^* = \tilde{\mathcal{O}} \big( \sqrt{T/K} \big)$とみなす設定に対して最も厳しい後悔の上限を達成する。 先行分布が$i^*$で存在すると仮定すると、厳密な後悔境界を満たす確率は$T$と増加し、その確率は速くなる。

We study the problem of nonstochastic bandits with infinitely many experts: A learner aims to maximize the total reward by taking actions sequentially based on bandit feedback while benchmarking against a countably infinite set of experts. We propose a variant of Exp4.P that, for finitely many experts, enables inference of correct expert rankings while preserving the order of the regret upper bound. We then incorporate the variant into a meta-algorithm that works on infinitely many experts. We prove a high-probability upper bound of $\tilde{\mathcal{O}} \big( i^*K + \sqrt{KT} \big)$ on the regret, up to polylog factors, where $i^*$ is the unknown position of the best expert, $K$ is the number of actions, and $T$ is the time horizon. We also provide an example of structured experts and discuss how to expedite learning in such case. Our meta-learning algorithm achieves the tightest regret upper bound for the setting considered when $i^* = \tilde{\mathcal{O}} \big( \sqrt{T/K} \big)$. If a prior distribution is assumed to exist for $i^*$, the probability of satisfying a tight regret bound increases with $T$, the rate of which can be fast.
翻訳日:2021-02-11 14:46:24 公開日:2021-02-09
# 自然言語ビデオ記述における入力の役割

The Role of the Input in Natural Language Video Description ( http://arxiv.org/abs/2102.05067v1 )

ライセンス: Link先を確認
Silvia Cascianelli, Gabriele Costante, Alessandro Devo, Thomas A. Ciarfuglia, Paolo Valigi, Mario L. Fravolini(参考訳) 自然言語ビデオ記述(NLVD)は最近、コンピュータビジョン、自然言語処理(NLP)、マルチメディア、自律型ロボティクスのコミュニティに強い関心を集めている。 State-of-the-Art(Sot A)アプローチは、ベンチマークデータセットでテストした場合、顕著な結果を得た。 しかし、これらのアプローチは新しいデータセットにあまり一般化しない。 さらに、既存の作品は、視覚とテキストの両方であるNLVDシステムへの入力の処理に焦点を当てていません。 本研究では, 視覚入力の役割に関する広範な研究を行い, 全体的なNLP性能について評価した。 これは、現実の作業シナリオで典型的な、カメラの歪み、ノイズ、照明、カメラ位置決めのモデルに共通の変換を適用することで、視覚成分のデータ拡張を実現する。 t-SNEをベースとした解析を行い,検討した変換が全体的視覚データ分布に与える影響を評価する。 この研究では、NLVDで一般的に使用されているMicrosoft Research Video Description (MSVD)データセットの英語のサブセットと考えられています。 このデータセットには関連する構文と意味的エラーが含まれていることが観察された。 これらのエラーは手動で修正され、新しいバージョンのデータセット(MSVD-v2)が実験に使用される。 MSVD-v2データセットがリリースされ、NLVD問題に関する洞察を得るのに役立つ。

Natural Language Video Description (NLVD) has recently received strong interest in the Computer Vision, Natural Language Processing (NLP), Multimedia, and Autonomous Robotics communities. The State-of-the-Art (SotA) approaches obtained remarkable results when tested on the benchmark datasets. However, those approaches poorly generalize to new datasets. In addition, none of the existing works focus on the processing of the input to the NLVD systems, which is both visual and textual. In this work, it is presented an extensive study dealing with the role of the visual input, evaluated with respect to the overall NLP performance. This is achieved performing data augmentation of the visual component, applying common transformations to model camera distortions, noise, lighting, and camera positioning, that are typical in real-world operative scenarios. A t-SNE based analysis is proposed to evaluate the effects of the considered transformations on the overall visual data distribution. For this study, it is considered the English subset of Microsoft Research Video Description (MSVD) dataset, which is used commonly for NLVD. It was observed that this dataset contains a relevant amount of syntactic and semantic errors. These errors have been amended manually, and the new version of the dataset (called MSVD-v2) is used in the experimentation. The MSVD-v2 dataset is released to help to gain insight into the NLVD problem.
翻訳日:2021-02-11 14:43:24 公開日:2021-02-09
# 量子回帰の正規化戦略

Regularization Strategies for Quantile Regression ( http://arxiv.org/abs/2102.05135v1 )

ライセンス: Link先を確認
Taman Narayan, Serena Wang, Kevin Canini, Maya Gupta(参考訳) 量子化のサブセットまたは全逆CDFの予測において、量子化の回帰を正則化する異なる手法について検討する。 連続的な量子の分布に対するピンボール損失を最小化することは、特定の量子の予測のみを行う場合でも良い正則化器であることを示す。 多重量子化を予測するために, 量子化をモノトニックな入力機能として扱うディープ格子ネットワークを用いて非交差量子化の古典的な目標を達成することを提案し, 他の特徴に対するモノトニック性が量子回帰に対するアプティック正規化である理由を議論する。 格子モデルが位置スケールファミリーへの予測分布を正規化できることを示した。 最後に,利害関係の特定部分の定量予測のキャリブレーションを改善し,公平性指標を改善するためのレート制約の適用を提案する。 シミュレーション,ベンチマークデータセット,実数量的回帰問題に対する我々の貢献を実証する。

We investigate different methods for regularizing quantile regression when predicting either a subset of quantiles or the full inverse CDF. We show that minimizing an expected pinball loss over a continuous distribution of quantiles is a good regularizer even when only predicting a specific quantile. For predicting multiple quantiles, we propose achieving the classic goal of non-crossing quantiles by using deep lattice networks that treat the quantile as a monotonic input feature, and we discuss why monotonicity on other features is an apt regularizer for quantile regression. We show that lattice models enable regularizing the predicted distribution to a location-scale family. Lastly, we propose applying rate constraints to improve the calibration of the quantile predictions on specific subsets of interest and improve fairness metrics. We demonstrate our contributions on simulations, benchmark datasets, and real quantile regression problems.
翻訳日:2021-02-11 14:40:39 公開日:2021-02-09
# 「箱に何が入ってるの?」 「:無作為展開による敵対的攻撃の偏向

"What's in the box?!": Deflecting Adversarial Attacks by Randomly Deploying Adversarially-Disjoi nt Models ( http://arxiv.org/abs/2102.05104v1 )

ライセンス: Link先を確認
Sahar Abdelnabi and Mario Fritz(参考訳) 機械学習モデルは現在、現実世界のアプリケーションに広くデプロイされている。 しかし、逆例の存在は長い間、そのようなモデルに対する本当の脅威と考えられています。 堅牢性を改善するための多数の防御が提案されているが、その多くは効果がないことが示されている。 これらの脆弱性はまだ取り除かれていないため、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、デプロイメントベースの防御パラダイムを提案しています。 単一の部分ロバストモデルを訓練する代わりに、攻撃間の転送性を最小限に抑えながら、敵対的に分離したモデルセットを訓練することができる。 これらのモデルがランダムに、個々にデプロイされ、そのうちの1つが他のモデルに最小限の影響を与える。 CIFAR-10と広範囲な攻撃実験により, アンサンブルの多様性のベースラインに比べて, 解離モデル間での攻撃伝達性が著しく低いことが示された。 さらに, 敵対的に訓練された集合と比較して, クリーンな例の精度を維持しつつ, 高い平均ロバストな精度を実現する。

Machine learning models are now widely deployed in real-world applications. However, the existence of adversarial examples has been long considered a real threat to such models. While numerous defenses aiming to improve the robustness have been proposed, many have been shown ineffective. As these vulnerabilities are still nowhere near being eliminated, we propose an alternative deployment-based defense paradigm that goes beyond the traditional white-box and black-box threat models. Instead of training a single partially-robust model, one could train a set of same-functionality, yet, adversarially-disjoi nt models with minimal in-between attack transferability. These models could then be randomly and individually deployed, such that accessing one of them minimally affects the others. Our experiments on CIFAR-10 and a wide range of attacks show that we achieve a significantly lower attack transferability across our disjoint models compared to a baseline of ensemble diversity. In addition, compared to an adversarially trained set, we achieve a higher average robust accuracy while maintaining the accuracy of clean examples.
翻訳日:2021-02-11 14:38:44 公開日:2021-02-09
# 航空破壊管理における不確実性定量化と伝播

Uncertainty Quantification and Propagation for Airline Disruption Management ( http://arxiv.org/abs/2102.05147v1 )

ライセンス: Link先を確認
Kolawole Ogunsina, Marios Papamichalis, Daniel DeLaurentis(参考訳) 航空会社のスケジューリングプロセス中のディスラプション管理は、スケジュールの実行時間に応じて、積極的なプロセスとリアクティブプロセスに分けられる。 航空会社割当管理における意思決定技術の現状は、航空会社のスケジュール割当を管理するための積極的かつリアクティブなプロセスの不確実性を分類的に研究しないヒューリスティックな人間中心のアプローチである。 そこで本稿では,スケジュール実行前の積極的な航空会社破壊管理の不確実性を特徴付ける不確実性伝達関数モデル(utfm),スケジュール実行中のアクティブ航空会社破壊管理,スケジュール実行後の積極的な航空会社破壊管理,インテリジェントエージェントによる複雑なインタラクションの合理化を可能にする定量的ツールの構築,堅牢な航空会社破壊管理のための手順を提案する。 具体的には、大手航空会社の過去のスケジューリングと運用データを使用して、大規模なデータセットの一部でパターン学習や推論を効率的に行うための隠れマルコフモデル(確率的グラフィカルモデルの特殊クラス)によって定義されたutfmの開発と評価を容易にする。

Disruption management during the airline scheduling process can be compartmentalized into proactive and reactive processes depending upon the time of schedule execution. The state of the art for decision-making in airline disruption management involves a heuristic human-centric approach that does not categorically study uncertainty in proactive and reactive processes for managing airline schedule disruptions. Hence, this paper introduces an uncertainty transfer function model (UTFM) framework that characterizes uncertainty for proactive airline disruption management before schedule execution, reactive airline disruption management during schedule execution, and proactive airline disruption management after schedule execution to enable the construction of quantitative tools that can allow an intelligent agent to rationalize complex interactions and procedures for robust airline disruption management. Specifically, we use historical scheduling and operations data from a major U.S. airline to facilitate the development and assessment of the UTFM, defined by hidden Markov models (a special class of probabilistic graphical models) that can efficiently perform pattern learning and inference on portions of large data sets.
翻訳日:2021-02-11 14:37:54 公開日:2021-02-09
# 法医学的履物印象記述子識別のための深層マルチラベルcnn

Deep Multilabel CNN for Forensic Footwear Impression Descriptor Identification ( http://arxiv.org/abs/2102.05090v1 )

ライセンス: Link先を確認
Marcin Budka, Akanda Wahid Ul Ashraf, Scott Neville, Alun Mackrill, Matthew Bennett(参考訳) 近年、ディープニューラルネットワークはコンピュータビジョンの原動力となっている。 本稿では,履物印象の特徴を分類する深層学習手法「emph{descriptors}」を,法医学的ユースケースに適用する。 このプロセスの中で,異なる領域のデータに基づいて事前学習したニューラルネットワークに対して,ダウンサンプリングされたグレイスケール印象を送付する効果的な手法を開発し,評価する。 提案手法は,複数の補間手法を並列に組み合わせた学習可能な前処理層に依存する。 本手法は,1種類の補間画像を学習前処理なしで処理し,低分解能入力をより効率的に利用することにより,高分解能入力による計算ペナルティの回避に有効であることを示す。 また,入力のアスペクト比の保存効果についても検討し,正方形画像に対する計算予算を増大させることなく精度を大幅に向上させることを示した。 最後に,履物印象分類から医用画像まで幅広いコンピュータビジョンタスクに適用可能な,グレースケールな入力による伝達学習のベストプラクティスを定式化した。

In recent years deep neural networks have become the workhorse of computer vision. In this paper, we employ a deep learning approach to classify footwear impression's features known as \emph{descriptors} for forensic use cases. Within this process, we develop and evaluate an effective technique for feeding downsampled greyscale impressions to a neural network pre-trained on data from a different domain. Our approach relies on learnable preprocessing layer paired with multiple interpolation methods used in parallel. We empirically show that this technique outperforms using a single type of interpolated image without learnable preprocessing, and can help to avoid the computational penalty related to using high resolution inputs, by making more efficient use of the low resolution inputs. We also investigate the effect of preserving the aspect ratio of the inputs, which leads to considerable boost in accuracy without increasing the computational budget with respect to squished rectangular images. Finally, we formulate a set of best practices for transfer learning with greyscale inputs, potentially widely applicable in computer vision tasks ranging from footwear impression classification to medical imaging.
翻訳日:2021-02-11 14:37:34 公開日:2021-02-09
# 宇宙時間の注意はビデオ理解に必要なすべてですか?

Is Space-Time Attention All You Need for Video Understanding? ( http://arxiv.org/abs/2102.05095v1 )

ライセンス: Link先を確認
Gedas Bertasius, Heng Wang, Lorenzo Torresani(参考訳) 本稿では,空間的・時間的自己意識にのみ焦点をあてたコンボリューションフリーなビデオ分類手法を提案する。 提案手法は,フレームレベルのパッチのシーケンスから直接時空間的特徴学習を可能にすることで,標準的なTransformerアーキテクチャをビデオに適用する。 本研究は,各ブロック内で時間的注意と空間的注意が別々に適用される「分割的注意」が,検討した設計選択の中で最適なビデオ分類精度をもたらすことを示唆する。 ビデオの3d畳み込みアーキテクチャの顕著なパラダイムとは根本的に異なる設計であるにもかかわらず、timesformerはいくつかの主要なアクション認識ベンチマークで最先端の結果を達成している。 さらに、我々のモデルは訓練が速く、競合するアーキテクチャと比較してテスト時間効率が高い。 コードと事前トレーニングされたモデルは公開される。

We present a convolution-free approach to video classification built exclusively on self-attention over space and time. Our method, named "TimeSformer," adapts the standard Transformer architecture to video by enabling spatiotemporal feature learning directly from a sequence of frame-level patches. Our experimental study compares different self-attention schemes and suggests that "divided attention," where temporal attention and spatial attention are separately applied within each block, leads to the best video classification accuracy among the design choices considered. Despite the radically different design compared to the prominent paradigm of 3D convolutional architectures for video, TimeSformer achieves state-of-the-art results on several major action recognition benchmarks, including the best reported accuracy on Kinetics-400 and Kinetics-600. Furthermore, our model is faster to train and has higher test-time efficiency compared to competing architectures. Code and pretrained models will be made publicly available.
翻訳日:2021-02-11 14:37:14 公開日:2021-02-09
# 深部強化学習によるNASA深部宇宙ネットワークのスケジューリング

Scheduling the NASA Deep Space Network with Deep Reinforcement Learning ( http://arxiv.org/abs/2102.05167v1 )

ライセンス: Link先を確認
Edwin Goh, Hamsa Shwetha Venkataram, Mark Hoffmann, Mark Johnston, Brian Wilson(参考訳) 3つのコンプレックスが地球全体に均等に広がっており、NASAのDeep Space Network(DSN)は通信の第一の手段であり、世界中の数十の活動ミッションにおいて重要な科学機器である。 急速に増加する宇宙船とより高い帯域幅の要件を持つますます複雑な科学機器は、12アンテナにわたってネットワークの容量を超える需要をもたらしました。 既存のDSNスケジューリングプロセスは週単位のローリングで運用されており、所定の週において、宇宙船追跡パスの最終ベースラインスケジュールの生成には、最初の要求の提出期限から約5ヶ月を要し、その間に数週間のピアツーピア交渉が行われる。 本稿では,ミッション要求と宇宙船のエフェメリスデータから,実世界の運用上の制約に対処する能力を実証したDSNスケジュールを生成するための深層強化学習手法を提案する。 所定の週のミッション要求を入力として受け取り、DSNスケジューリング環境と対話して、その報奨信号が最大になるようなトラックを割り当てるディープRLエージェントを開発した。 プロキシポリシー最適化を用いて訓練されたエージェントと、ランダムで訓練されていないエージェントの比較を行う。 この結果は、よく形をした報酬信号が与えられた場合、深部RLエージェントが専門家がDSNをスケジュールするために使用する複雑なヒューリスティックを学習できるという概念実証を表している。 トレーニングされたエージェントは、スケジュールプロセスのブートストラップに候補スケジュールを生成するために使用できるため、DSNスケジューリングのターンアラウンドサイクルを低減することができる。

With three complexes spread evenly across the Earth, NASA's Deep Space Network (DSN) is the primary means of communications as well as a significant scientific instrument for dozens of active missions around the world. A rapidly rising number of spacecraft and increasingly complex scientific instruments with higher bandwidth requirements have resulted in demand that exceeds the network's capacity across its 12 antennae. The existing DSN scheduling process operates on a rolling weekly basis and is time-consuming; for a given week, generation of the final baseline schedule of spacecraft tracking passes takes roughly 5 months from the initial requirements submission deadline, with several weeks of peer-to-peer negotiations in between. This paper proposes a deep reinforcement learning (RL) approach to generate candidate DSN schedules from mission requests and spacecraft ephemeris data with demonstrated capability to address real-world operational constraints. A deep RL agent is developed that takes mission requests for a given week as input, and interacts with a DSN scheduling environment to allocate tracks such that its reward signal is maximized. A comparison is made between an agent trained using Proximal Policy Optimization and its random, untrained counterpart. The results represent a proof-of-concept that, given a well-shaped reward signal, a deep RL agent can learn the complex heuristics used by experts to schedule the DSN. A trained agent can potentially be used to generate candidate schedules to bootstrap the scheduling process and thus reduce the turnaround cycle for DSN scheduling.
翻訳日:2021-02-11 14:33:32 公開日:2021-02-09
# RODNet: カメラレーダ融合物体3次元位置決めによるリアルタイムレーダ物体検出ネットワーク

RODNet: A Real-Time Radar Object Detection Network Cross-Supervised by Camera-Radar Fused Object 3D Localization ( http://arxiv.org/abs/2102.05150v1 )

ライセンス: Link先を確認
Yizhou Wang, Zhongyu Jiang, Yudong Li, Jenq-Neng Hwang, Guanbin Xing, Hui Liu(参考訳) 様々な自律的または補助的な運転戦略は、車両周辺の環境の正確かつ信頼性の高い認識を通じて進められている。 一般的に使用されるセンサーのうち、レーダーは通常、弱い/強い照明や悪天候など、悪質な運転シナリオにおいても堅牢で費用対効果の高いソリューションとみなされてきた。 利用可能なすべてのセンサーから信頼できない情報を融合する代わりに、純粋なレーダーデータからの認識は探究する価値のある代替手段となる。 本稿では,無線周波数(rf)画像から物体を効果的に検出するために,カメラとレーダーを融合したアルゴリズムでクロス教師リングを行うrodnetという深層レーダ物体検出ネットワークを提案する。 まず、ミリ波レーダーで捉えた生信号を、範囲方位座標のRF画像に変換する。 第二に、提案されたRODNetは、レーダー視野(FoV)における物体の可能性を予測するために入力としてRF画像のシーケンスを取ります。 マルチチャープ情報とオブジェクト相対運動を扱うために、カスタマイズされたモジュールも2つ追加されている。 RODNetは,人間ラベル付き地上の真理をトレーニングに用いる代わりに,カメラレーダ融合(CRF)戦略を用いて検出対象の3次元局所化を行う。 最後に,RODNetの物体検出性能を評価する手法を提案する。 タスクに利用可能な公開データセットが存在しないため、さまざまな運転シナリオで同期RGBとRF画像シーケンスを含むCRUWという新しいデータセットを作成しました。 集中実験により、86%の平均精度と88%の平均オブジェクト検出性能のリコールを実現し、さまざまな運転条件における騒々しいシナリオへの堅牢性を示します。

Various autonomous or assisted driving strategies have been facilitated through the accurate and reliable perception of the environment around a vehicle. Among the commonly used sensors, radar has usually been considered as a robust and cost-effective solution even in adverse driving scenarios, e.g., weak/strong lighting or bad weather. Instead of considering to fuse the unreliable information from all available sensors, perception from pure radar data becomes a valuable alternative that is worth exploring. In this paper, we propose a deep radar object detection network, named RODNet, which is cross-supervised by a camera-radar fused algorithm without laborious annotation efforts, to effectively detect objects from the radio frequency (RF) images in real-time. First, the raw signals captured by millimeter-wave radars are transformed to RF images in range-azimuth coordinates. Second, our proposed RODNet takes a sequence of RF images as the input to predict the likelihood of objects in the radar field of view (FoV). Two customized modules are also added to handle multi-chirp information and object relative motion. Instead of using human-labeled ground truth for training, the proposed RODNet is cross-supervised by a novel 3D localization of detected objects using a camera-radar fusion (CRF) strategy in the training stage. Finally, we propose a method to evaluate the object detection performance of the RODNet. Due to no existing public dataset available for our task, we create a new dataset, named CRUW, which contains synchronized RGB and RF image sequences in various driving scenarios. With intensive experiments, our proposed cross-supervised RODNet achieves 86% average precision and 88% average recall of object detection performance, which shows the robustness to noisy scenarios in various driving conditions.
翻訳日:2021-02-11 14:30:09 公開日:2021-02-09
# 深層学習天気予報モデルの大規模なアンサンブルによるサブシーズン予測

Sub-seasonal forecasting with a large ensemble of deep-learning weather prediction models ( http://arxiv.org/abs/2102.05107v1 )

ライセンス: Link先を確認
Jonathan A. Weyn, Dale R. Durran, Rich Caruana, Nathaniel Cresswell-Clay(参考訳) 6時間の時間分解能で主要な大気変数を再帰的に予測する深層学習気象予測(DLWP)モデルを用いたアンサンブル予測システムを提案する。 このモデルは、立方体球格子上の畳み込みニューラルネットワーク(CNN)を用いて、グローバルな予測を生成する。 このアプローチは計算効率が良く、1つのgpuでわずか3分で、1.4{\deg}の解像度で6週間の予測を320人構成できる。 エンサンブルスプレッドは、主にCNNトレーニングプロセスをランダム化して、学習重量がわずかに異なる32個のDLWPモデルを作成することで生成される。 dlwpモデルは降雨を予測していないが、総カラム水蒸気を予測し、ハリケーンirmaの4.5日間の決定論的予測を与える。 中緯度気象システムのシミュレーションに加えて、1年間のフリーランシミュレーションで熱帯サイクロンを自発的に生成します。 平均的および2年以上のテストセットでは、RMSEは気候学に関するスキルを2週間以上保持し、異常相関係数は0.6以上から6日間保持する。 主用途は2週間から6週間のリードタイムでのs2s(subseasonal-to-s easonal)予測である。 現在の予測システムは、1週間または2週間の平均天気パターンをS2S時間スケールで予測するスキルが低い。 連続的なランク付け確率スコア(CRPS)とランク付け確率スキルスコア(RPSS)は、DLWPアンサンブルが4週間と5-6週間のリードタイムで土地上で欧州中規模気象予報センター(ECMWF)S2Sアンサンブルにわずかに劣っていることを示しています。 リードタイムは短いが、ECMWFアンサンブルはDLWPより優れている。

We present an ensemble prediction system using a Deep Learning Weather Prediction (DLWP) model that recursively predicts key atmospheric variables with six-hour time resolution. This model uses convolutional neural networks (CNNs) on a cubed sphere grid to produce global forecasts. The approach is computationally efficient, requiring just three minutes on a single GPU to produce a 320-member set of six-week forecasts at 1.4{\deg} resolution. Ensemble spread is primarily produced by randomizing the CNN training process to create a set of 32 DLWP models with slightly different learned weights. Although our DLWP model does not forecast precipitation, it does forecast total column water vapor, and it gives a reasonable 4.5-day deterministic forecast of Hurricane Irma. In addition to simulating mid-latitude weather systems, it spontaneously generates tropical cyclones in a one-year free-running simulation. Averaged globally and over a two-year test set, the ensemble mean RMSE retains skill relative to climatology beyond two-weeks, with anomaly correlation coefficients remaining above 0.6 through six days. Our primary application is to subseasonal-to-seaso nal (S2S) forecasting at lead times from two to six weeks. Current forecast systems have low skill in predicting one- or 2-week-average weather patterns at S2S time scales. The continuous ranked probability score (CRPS) and the ranked probability skill score (RPSS) show that the DLWP ensemble is only modestly inferior in performance to the European Centre for Medium Range Weather Forecasts (ECMWF) S2S ensemble over land at lead times of 4 and 5-6 weeks. At shorter lead times, the ECMWF ensemble performs better than DLWP.
翻訳日:2021-02-11 14:28:43 公開日:2021-02-09
# 局所的およびグローバルな均一凸条件

Local and Global Uniform Convexity Conditions ( http://arxiv.org/abs/2102.05134v1 )

ライセンス: Link先を確認
Thomas Kerdreux, Alexandre d'Aspremont, and Sebastian Pokutta(参考訳) 有限次元空間におけるノルム球の均一凸性および平滑性に関する様々な特性を検証し、バナッハ空間の幾何学から生じる結果を最適化手法の収束解析に用いる \textit{scaling inequalities} と結び付ける。 特に、これらの条件の局所バージョンを確立し、学習理論、オンライン学習、または実現可能な集合の強い凸性に依存するオフライン最適化における最近の複雑さの結果に関するより鋭い洞察を提供します。 それらは複雑性に大きな影響を及ぼすが、これらの強凸性や実現可能な集合の均一凸性は、機能的集合ほど徹底的に利用されず、この不均衡を正す努力である。 これらの条件と局所的な仮定を利用する最適化と機械学習の実践的な例は、新しい複雑さの結果をもたらすと結論付けている。

We review various characterizations of uniform convexity and smoothness on norm balls in finite-dimensional spaces and connect results stemming from the geometry of Banach spaces with \textit{scaling inequalities} used in analysing the convergence of optimization methods. In particular, we establish local versions of these conditions to provide sharper insights on a recent body of complexity results in learning theory, online learning, or offline optimization, which rely on the strong convexity of the feasible set. While they have a significant impact on complexity, these strong convexity or uniform convexity properties of feasible sets are not exploited as thoroughly as their functional counterparts, and this work is an effort to correct this imbalance. We conclude with some practical examples in optimization and machine learning where leveraging these conditions and localized assumptions lead to new complexity results.
翻訳日:2021-02-11 14:28:14 公開日:2021-02-09
# クラシファイア・キャリブレーション : サイバーセキュリティにおける脅威スコアとの関連

Classifier Calibration: with implications to threat scores in cybersecurity ( http://arxiv.org/abs/2102.05143v1 )

ライセンス: Link先を確認
Waleed A. Yousef, Issa Traore, William Briguglio(参考訳) 本稿では,二項分類問題における分類器出力スコアのキャリブレーションについて検討する。 校正器(英: calibrator)とは、試験観測の任意の分類器スコアを$[0,1]$にマッピングし、2つのクラスのいずれかに属する後方確率を推定する関数である。 キャリブレーションは2つの理由から重要であり、第1に、後方確率である有意義なスコアを提供し、第2に、比較解釈のために異なる分類器のスコアを同じスケールに配置する。 この論文では、(1)複数の分類器が単一の観察のためにスコアを提供するときに、マルチスコアキャリブレーションを導入する。 2) 分類器スコアをキャリブレーションプロセスに導入することは, 分類器の特徴に過ぎず, 分類器スコアをより高い次元に拡張して校正器の性能を高めることを提案する。 3)サイバーセキュリティドメインの2つの実際のデータセットの実験に加えて,異なる構成を組み込んだ24,000の実験の順に,大規模なシミュレーション研究を行う。 結果は、異なるキャリブレータと異なる構成の間で全体的な勝者がないことを示しています。 しかし、実践者のための一般的なアドバイスは次の通りである: プラットのキャリブレータ~\citep{Platt1999確率出力ForSupport}、小さなサンプルサイズのバイアスを減らすロジスティック回帰のバージョンは、すべての実験の中で非常に安定して許容可能なパフォーマンスを持っています。 さらに、スコアを延ばすことは、いくつかの実験に役立つ。

This paper explores the calibration of a classifier output score in binary classification problems. A calibrator is a function that maps the arbitrary classifier score, of a testing observation, onto $[0,1]$ to provide an estimate for the posterior probability of belonging to one of the two classes. Calibration is important for two reasons; first, it provides a meaningful score, that is the posterior probability; second, it puts the scores of different classifiers on the same scale for comparable interpretation. The paper presents three main contributions: (1) Introducing multi-score calibration, when more than one classifier provides a score for a single observation. (2) Introducing the idea that the classifier scores to a calibration process are nothing but features to a classifier, hence proposing extending the classifier scores to higher dimensions to boost the calibrator's performance. (3) Conducting a massive simulation study, in the order of 24,000 experiments, that incorporates different configurations, in addition to experimenting on two real datasets from the cybersecurity domain. The results show that there is no overall winner among the different calibrators and different configurations. However, general advices for practitioners include the following: the Platt's calibrator~\citep{Platt1999Probabilist icOutputsForSupport}, a version of the logistic regression that decreases bias for a small sample size, has a very stable and acceptable performance among all experiments; our suggested multi-score calibration provides better performance than single score calibration in the majority of experiments, including the two real datasets. In addition, extending the scores can help in some experiments.
翻訳日:2021-02-11 14:27:57 公開日:2021-02-09
# 主要なギャラクシーマージャーを特徴づける深層学習手法

A Deep Learning Approach for Characterizing Major Galaxy Mergers ( http://arxiv.org/abs/2102.05182v1 )

ライセンス: Link先を確認
Skanda Koppula, Victor Bapst, Marc Huertas-Company, Sam Blackwell, Agnieszka Grabska-Barwinska, Sander Dieleman, Andrea Huber, Natasha Antropova, Mikolaj Binkowski, Hannah Openshaw, Adria Recasens, Fernando Caro, Avishai Deke, Yohan Dubois, Jesus Vega Ferrero, David C. Koo, Joel R. Primack, Trevor Back(参考訳) 観測による銀河融合段階の微視的推定は、銀河形成の現在の理論的理解の検証に有用である。 そこで本研究では, CNNベースの回帰モデルを用いて, 初めて, 単一の画像を用いて, 第1回パージ通過に対する合併段階を, 400 Myrs の期間において 38.3百万年(Myrs)の中央値誤差で予測できることを実証した。 このモデルは特定の動的モデリングを使用しず、シミュレーションされたマージイベントからのみ学習する。 本モデルは,詳細な動的モデリングにより得られた事前推定とほぼ一致する実測値について合理的な推定を行う。 モデルの予備的な解釈可能性解析を行い,不確かさを校正するための第一歩を示す。

Fine-grained estimation of galaxy merger stages from observations is a key problem useful for validation of our current theoretical understanding of galaxy formation. To this end, we demonstrate a CNN-based regression model that is able to predict, for the first time, using a single image, the merger stage relative to the first perigee passage with a median error of 38.3 million years (Myrs) over a period of 400 Myrs. This model uses no specific dynamical modeling and learns only from simulated merger events. We show that our model provides reasonable estimates on real observations, approximately matching prior estimates provided by detailed dynamical modeling. We provide a preliminary interpretability analysis of our models, and demonstrate first steps toward calibrated uncertainty estimation.
翻訳日:2021-02-11 14:27:28 公開日:2021-02-09
# CaPCラーニング:機密性とプライベートなコラボレーション学習

CaPC Learning: Confidential and Private Collaborative Learning ( http://arxiv.org/abs/2102.05188v1 )

ライセンス: Link先を確認
Christopher A. Choquette-Choo, Natalie Dullerud, Adam Dziedzic, Yunxiang Zhang, Somesh Jha, Nicolas Papernot, Xiao Wang(参考訳) マシンラーニングは、特にプライバシに敏感なデータを使用する場合において、単一のエンティティで収集できるとは限らない大規模なトレーニングデータセットのメリットを享受する。 医療や金融など、多くの文脈において、個別の当事者は互いに協力し合い、互いのデータから学びたがるが、プライバシー規制のためにそれができない。 いくつかの規則は、中央の場所(秘密性)でデータセットを結合することで、当事者間でデータの明示的な共有を防止する。 また、モデル予測(プライバシー)によるデータの暗黙的な共有も制限されている。 このような設定では、データの明示的および暗黙的な共有を防ぐため、機密性およびプライバシーの両方を保持する必要がある機械学習を可能にする方法は今のところありません。 フェデレートされた学習は、プライバシーではなく機密性のみを提供する。 異なるプライベートな学習は、不当に大きなデータセットを仮定する。 さらに、これらの学習パラダイムはどちらも、各パーティが独自のローカルモデルを学び、改善する共同学習を実現するのではなく、これまですべてのパーティがアーキテクチャに合意していた中心的なモデルを生み出します。 秘密とプライバシーの両方を共同で実現する最初の方法である秘密とプライベートコラボレーション(CaPC)学習を紹介します。 我々は,セキュアなマルチパーティ計算 (MPC) や同相暗号 (HE) などの手法を,個人で集約した教師モデルと組み合わせて活用する。 参加者がトレーニングセットに明示的に参加したり、中央モデルをトレーニングしたりすることなく、CaPCが協力する方法を実証します。 各パーティは、各パーティが自身のデータセットでうまく機能するモデルを持っている場合や、データセットがIDIでなく、モデルアーキテクチャがパーティ間で異質である場合であっても、モデルの正確性と公平性を改善することができる。

Machine learning benefits from large training datasets, which may not always be possible to collect by any single entity, especially when using privacy-sensitive data. In many contexts, such as healthcare and finance, separate parties may wish to collaborate and learn from each other's data but are prevented from doing so due to privacy regulations. Some regulations prevent explicit sharing of data between parties by joining datasets in a central location (confidentiality). Others also limit implicit sharing of data, e.g., through model predictions (privacy). There is currently no method that enables machine learning in such a setting, where both confidentiality and privacy need to be preserved, to prevent both explicit and implicit sharing of data. Federated learning only provides confidentiality, not privacy, since gradients shared still contain private information. Differentially private learning assumes unreasonably large datasets. Furthermore, both of these learning paradigms produce a central model whose architecture was previously agreed upon by all parties rather than enabling collaborative learning where each party learns and improves their own local model. We introduce Confidential and Private Collaborative (CaPC) learning, the first method provably achieving both confidentiality and privacy in a collaborative setting. We leverage secure multi-party computation (MPC), homomorphic encryption (HE), and other techniques in combination with privately aggregated teacher models. We demonstrate how CaPC allows participants to collaborate without having to explicitly join their training sets or train a central model. Each party is able to improve the accuracy and fairness of their model, even in settings where each party has a model that performs well on their own dataset or when datasets are not IID and model architectures are heterogeneous across parties.
翻訳日:2021-02-11 14:27:15 公開日:2021-02-09
# 衝突物理に応用した点雲変換器

Point Cloud Transformers applied to Collider Physics ( http://arxiv.org/abs/2102.05073v1 )

ライセンス: Link先を確認
Vinicius Mikuni, Florencia Canelli(参考訳) 点雲情報を処理する手法は、衝突器物理学の応用において大きな成功を収めている。 機械学習における最近のブレークスルーの1つは、言語処理におけるシーケンス間の意味的関係を学習するTransformerネットワークの使用である。 本研究では, 衝突イベントに起因する粒子の無秩序集合にトランスフォーマーアーキテクチャの利点を組み込む手法として, Point Cloud Transformer と呼ばれる改良型トランスフォーマーネットワークを適用した。 この性能を他の戦略と比較するために、高ブースト粒子のジェットタグングアプリケーションについて検討する。

Methods for processing point cloud information have seen a great success in collider physics applications. One recent breakthrough in machine learning is the usage of Transformer networks to learn semantic relationships between sequences in language processing. In this work, we apply a modified Transformer network called Point Cloud Transformer as a method to incorporate the advantages of the Transformer architecture to an unordered set of particles resulting from collision events. To compare the performance with other strategies, we study jet-tagging applications for highly-boosted particles.
翻訳日:2021-02-11 14:24:24 公開日:2021-02-09
# 一貫性学習による音声強調手法の強化

Enhancing Audio Augmentation Methods with Consistency Learning ( http://arxiv.org/abs/2102.05151v1 )

ライセンス: Link先を確認
Turab Iqbal, Karim Helwani, Arvindh Krishnaswamy, Wenwu Wang(参考訳) データ拡張はトレーニングデータの多様性を高めるための安価な方法であり、一般的には既存のデータの変換によって実現される。 分類などのタスクでは、そのような変換に不変なデータの表現を学習する良いケースがありますが、これはクロスエントロピー損失などの分類損失によって明示的に強制されません。 本稿では,この制約を明示的に規定する学習目標の利用と,下流の音声分類タスクに与える影響について検討する。 教師付き設定における深い畳み込みニューラルネットワークの文脈では、ある種の一貫性の尺度がクロスエントロピー損失によって暗黙的に捉えられず、そのような尺度を損失関数に組み込むことでオーディオタグなどのタスクのパフォーマンスが向上することを示す。 別の言い方をすれば、既存の拡張メソッドが一貫性を強化することで学習をさらに改善できることを実証する。

Data augmentation is an inexpensive way to increase training data diversity, and is commonly achieved via transformations of existing data. For tasks such as classification, there is a good case for learning representations of the data that are invariant to such transformations, yet this is not explicitly enforced by classification losses such as the cross-entropy loss. This paper investigates the use of training objectives that explicitly impose this consistency constraint, and how it can impact downstream audio classification tasks. In the context of deep convolutional neural networks in the supervised setting, we show empirically that certain measures of consistency are not implicitly captured by the cross-entropy loss, and that incorporating such measures into the loss function can improve the performance of tasks such as audio tagging. Put another way, we demonstrate how existing augmentation methods can further improve learning by enforcing consistency.
翻訳日:2021-02-11 14:24:15 公開日:2021-02-09
# 音声によるPAC学習安定状態の硬さについて

On the Hardness of PAC-learning stabilizer States with Noise ( http://arxiv.org/abs/2102.05174v1 )

ライセンス: Link先を確認
Aravind Gollakota and Daniel Liang(参考訳) 量子状態を学習するための Aaronson (2007) の確率的補正 (PAC) フレームワークにおける雑音を伴う安定状態の学習の問題を検討する。 ノイズレス設定では、この問題のアルゴリズムはRocchetto (2018)によって最近与えられましたが、騒々しいケースは開いていました。 古典学習理論からのノイズ耐性へのアプローチを動機に、PAC学習量子状態の統計的クエリ(SQ)モデルを導入し、このモデルのアルゴリズムが、分類や偏極化ノイズを含むノイズの一般的な形式に確かに耐性があることを証明します。 SQモデルにおける学習安定状態の指数的に低い境界を証明する。 SQモデル以外でも、ノイズを伴う学習安定状態は、古典的な例を使用してLPN(Learning Parity with Noise)と同じくらい難しいことが証明されています。 この結果から, 学習安定状態の問題は, 学習パリティの古典的問題(ノイズのない環境では簡単だが, 単純なノイズでも難易度が高いように見える)の自然の量子的類似体として位置づけられた。

We consider the problem of learning stabilizer states with noise in the Probably Approximately Correct (PAC) framework of Aaronson (2007) for learning quantum states. In the noiseless setting, an algorithm for this problem was recently given by Rocchetto (2018), but the noisy case was left open. Motivated by approaches to noise tolerance from classical learning theory, we introduce the Statistical Query (SQ) model for PAC-learning quantum states, and prove that algorithms in this model are indeed resilient to common forms of noise, including classification and depolarizing noise. We prove an exponential lower bound on learning stabilizer states in the SQ model. Even outside the SQ model, we prove that learning stabilizer states with noise is in general as hard as Learning Parity with Noise (LPN) using classical examples. Our results position the problem of learning stabilizer states as a natural quantum analogue of the classical problem of learning parities: easy in the noiseless setting, but seemingly intractable even with simple forms of noise.
翻訳日:2021-02-11 14:23:58 公開日:2021-02-09
# (参考訳) Decontextualization: 文をスタンドアローンにする [全文訳有]

Decontextualization: Making Sentences Stand-Alone ( http://arxiv.org/abs/2102.05169v1 )

ライセンス: CC BY-SA 4.0
Eunsol Choi, Jennimaria Palomaki, Matthew Lamm, Tom Kwiatkowski, Dipanjan Das, Michael Collins(参考訳) 質問応答、対話エージェント、要約のためのモデルは、リッチな文脈で文の意味を解釈し、新しい文脈でその意味を使用することが多い。 テキストの抜粋を取ることは、ローカルウィンドウでキーピースが明示されない可能性があるため、問題となることがある。 我々は文の非文脈化の問題を分離し、定義する: 文をその文脈と共に取り、文脈から解釈可能なように書き直す。 アノテーション手順を記述し,wikipediaコーパスのデータを収集し,モデルをトレーニングして文を自動的に非コンテキスト化する。 ユーザが直面するタスクにおける文の非文脈化の価値を示す予備的研究と,文書理解を行うシステムの前処理について述べる。 我々は、デコンテキスト化は多くの下流アプリケーションにおいて重要なサブタスクであり、提供された定義とリソースはよりリッチなコンテキストで発生する文を操作するタスクに役立つと論じている。

Models for question answering, dialogue agents, and summarization often interpret the meaning of a sentence in a rich context and use that meaning in a new context. Taking excerpts of text can be problematic, as key pieces may not be explicit in a local window. We isolate and define the problem of sentence decontextualization: taking a sentence together with its context and rewriting it to be interpretable out of context, while preserving its meaning. We describe an annotation procedure, collect data on the Wikipedia corpus, and use the data to train models to automatically decontextualize sentences. We present preliminary studies that show the value of sentence decontextualization in a user facing task, and as preprocessing for systems that perform document understanding. We argue that decontextualization is an important subtask in many downstream applications, and that the definitions and resources provided can benefit tasks that operate on sentences that occur in a richer context.
翻訳日:2021-02-11 14:21:36 公開日:2021-02-09
# アノテーション効率の高い組織病理画像解析のための自己監督駆動整合性訓練

Self-supervised driven consistency training for annotation efficient histopathology image analysis ( http://arxiv.org/abs/2102.03897v2 )

ライセンス: Link先を確認
Chetan L. Srinidhi, Seung Wook Kim, Fu-Der Chen, Anne L. Martel(参考訳) 大きなラベル付きデータセットでニューラルネットワークをトレーニングすることは、計算病理学において依然として支配的なパラダイムである。 しかし、このような徹底的な手動アノテーションの取得は、しばしば高価で手間がかかり、サーバ間およびオブジェクト間の変動が起こりやすい。 最近の自己監視および半監視メソッドは、教師なしの機能表現を学習することによってこのニーズを軽減することができますが、ラベル付きインスタンスの数が少ない場合、ダウンストリームタスクにうまく一般化することは依然として困難です。 In this work, we overcome this challenge by leveraging both task-agnostic and task-specific unlabeled data based on two novel strategies: i) a self-supervised pretext task that harnesses the underlying multi-resolution contextual cues in histology whole-slide images to learn a powerful supervisory signal for unsupervised representation learning; ii) a new teacher-student semi-supervised consistency paradigm that learns to effectively transfer the pretrained representations to downstream tasks based on prediction consistency with the task-specific un-labeled data. 2つの分類と1つの回帰ベースのタスク、すなわち腫瘍転移検出、組織型分類、および腫瘍細胞性定量に関する3つの組織病理学的ベンチマークデータセットに関する広範な検証実験を実施します。 限られたラベルデータに基づいて、提案手法は、他の最先端の自己監督および監督ベースラインに近づいたり、さらに性能を上回ったりする有形改善をもたらす。 さらに、自己教師付き事前学習機能のブートストラップは、標準ベンチマークにおけるタスク固有の半教師付き学習を改善する効果的な方法であることを示す。 コードとプリトレーニングされたモデルはhttps://github.com/s rinidhiPY/SSL_CR_His toで入手できる。

Training a neural network with a large labeled dataset is still a dominant paradigm in computational histopathology. However, obtaining such exhaustive manual annotations is often expensive, laborious, and prone to inter and Intra-observer variability. While recent self-supervised and semi-supervised methods can alleviate this need by learn-ing unsupervised feature representations, they still struggle to generalize well to downstream tasks when the number of labeled instances is small. In this work, we overcome this challenge by leveraging both task-agnostic and task-specific unlabeled data based on two novel strategies: i) a self-supervised pretext task that harnesses the underlying multi-resolution contextual cues in histology whole-slide images to learn a powerful supervisory signal for unsupervised representation learning; ii) a new teacher-student semi-supervised consistency paradigm that learns to effectively transfer the pretrained representations to downstream tasks based on prediction consistency with the task-specific un-labeled data. We carry out extensive validation experiments on three histopathology benchmark datasets across two classification and one regression-based tasks, i.e., tumor metastasis detection, tissue type classification, and tumor cellularity quantification. Under limited-label data, the proposed method yields tangible improvements, which is close or even outperforming other state-of-the-art self-supervised and supervised baselines. Furthermore, we empirically show that the idea of bootstrapping the self-supervised pretrained features is an effective way to improve the task-specific semi-supervised learning on standard benchmarks. Code and pretrained models will be made available at: https://github.com/s rinidhiPY/SSL_CR_His to
翻訳日:2021-02-11 12:12:13 公開日:2021-02-09
# (参考訳) 高結合微分方程式の解を推定する理論訓練ニューラルネットワークについて [全文訳有]

On Theory-training Neural Networks to Infer the Solution of Highly Coupled Differential Equations ( http://arxiv.org/abs/2102.04890v1 )

ライセンス: CC BY 4.0
M. Torabi Rad, A. Viardin, and M. Apel(参考訳) 深層ニューラルネットワークは,コンピュータビジョンから計算医学まで幅広い分野を変革し,最近,固化問題 \cite{ttn} に対して理論訓練ニューラルネットワーク (ttns) を導入することで,相変化熱伝達の分野に応用を広げた。 本稿では,高結合微分方程式の解法を学ぶために,理論学習ネットワークに対する一般的,深く,経験的洞察を提案する。 振動損失の劣化がトレーニングデータポイントで方程式を満たすネットワークの能力、最終的なトレーニング損失によって測定される、および推論されたソリューションの精度に与える影響を分析します。 正規化を活用し,これらの振動を除去し,最終的なトレーニング損失を低減し,計算コストを増すことなく推定解の精度を向上させる理論学習手法を提案する。 そして、与えられた方程式の集合に対して最適なトレーニング時間と推論精度を有するネットワークを体系的に探索できるガイドラインを提案し、これらのガイドラインに従うと、その探索における退屈なトレーニングイテレーションの数を減らすことができる。 最後に、離散化を用いた従来の微分方程式の解法と理論学習の比較により、高次元の方程式集合に限らない理論訓練の利点が証明される。 この比較により、現在の理論訓練フレームワークの限界が明らかになり、極端な精度が必要なドメインへの適用が制限される可能性がある。

Deep neural networks are transforming fields ranging from computer vision to computational medicine, and we recently extended their application to the field of phase-change heat transfer by introducing theory-trained neural networks (TTNs) for a solidification problem \cite{TTN}. Here, we present general, in-depth, and empirical insights into theory-training networks for learning the solution of highly coupled differential equations. We analyze the deteriorating effects of the oscillating loss on the ability of a network to satisfy the equations at the training data points, measured by the final training loss, and on the accuracy of the inferred solution. We introduce a theory-training technique that, by leveraging regularization, eliminates those oscillations, decreases the final training loss, and improves the accuracy of the inferred solution, with no additional computational cost. Then, we present guidelines that allow a systematic search for the network that has the optimal training time and inference accuracy for a given set of equations; following these guidelines can reduce the number of tedious training iterations in that search. Finally, a comparison between theory-training and the rival, conventional method of solving differential equations using discretization attests to the advantages of theory-training not being necessarily limited to high-dimensional sets of equations. The comparison also reveals a limitation of the current theory-training framework that may limit its application in domains where extreme accuracies are necessary.
翻訳日:2021-02-11 01:23:21 公開日:2021-02-09
# (参考訳) Demystifying Code Summarization Models [全文訳有]

Demystifying Code Summarization Models ( http://arxiv.org/abs/2102.04625v1 )

ライセンス: CC BY 4.0
Yu Wang, Fengjuan Gao, Linzhang Wang(参考訳) 過去10年間、機械学習モデルの急速な進歩を目撃してきた。 これらのシステムのブラックボックスの性質は強力な予測を可能にするが、直接説明することはできず、機械学習技術の民主化の継続を脅かす。 モデル説明可能性の課題に対処する研究は、画像分類モデルのデミススティフィケーションにおいて大きな進歩を遂げた。 そこで,本研究では,モデルが予測を行う入力プログラムを想定したコード要約モデルについて検討し,そのモデルがプログラムのラベル予測に使用する重要な特徴を明らかにすることを目的とする。 我々はHouYiでのアプローチを実現し、極端要約、code2vec、code2seq、Sequence GNNの4つの顕著なコード要約モデルを評価する。 結果は、すべてのモデルが意味的な意味をほとんど含まない構文的および語彙的特性に基づいて予測することを示している。 そこで本研究では,トレーニングデータのレンズを用いて,コード要約モデルの予測を説明する新しい手法を提案する。 私たちの仕事は、モデルがソースコードから学んだことを研究する、この刺激的で新しい方向を開きます。

The last decade has witnessed a rapid advance in machine learning models. While the black-box nature of these systems allows powerful predictions, it cannot be directly explained, posing a threat to the continuing democratization of machine learning technology. Tackling the challenge of model explainability, research has made significant progress in demystifying the image classification models. In the same spirit of these works, this paper studies code summarization models, particularly, given an input program for which a model makes a prediction, our goal is to reveal the key features that the model uses for predicting the label of the program. We realize our approach in HouYi, which we use to evaluate four prominent code summarization models: extreme summarizer, code2vec, code2seq, and sequence GNN. Results show that all models base their predictions on syntactic and lexical properties with little to none semantic implication. Based on this finding, we present a novel approach to explaining the predictions of code summarization models through the lens of training data. Our work opens up this exciting, new direction of studying what models have learned from source code.
翻訳日:2021-02-11 01:05:48 公開日:2021-02-09
# (参考訳) 有限差分時間領域法による2次元声道音響モデルの比較検討 [全文訳有]

A comparative study of two-dimensional vocal tract acoustic modeling based on Finite-Difference Time-Domain methods ( http://arxiv.org/abs/2102.04588v1 )

ライセンス: CC BY 4.0
Debasish Ray Mohapatra, Victor Zappi, Sidney Fels(参考訳) 声道(VT)モデリングのための二次元(2次元)数値手法は,低計算コストと音波伝搬の正確なレンダリングとのバランスを向上することができる。 しかし,シミュレーション実行時間における音響フォルマントの正確な推定には,数値計算において高い時空間分解能を必要とする。 我々は最近、その音響波ソルバにチューブ深度を追加することによって、既存の2D FDTDアプローチを拡張する2.5D有限差時間領域(2.5D FDTD)として知られている新しいVT音響モデリング技術を提案しました。 本研究では,まず,新しいモデルのシミュレーション音響出力を,空間分解能の低い2d fdtdと現実的な3d fem vtモデルに匹敵することを示した。 次に、VTの周りに円形バッフルをヘッドジオメトリとして含めて放射線モデルを開発する。 放射モデルの伝達関数は母音/a/,/e/,/i/,/o/,/u/の5つの異なる声道形状を用いて解析される。

The two-dimensional (2D) numerical approaches for vocal tract (VT) modelling can afford a better balance between the low computational cost and accurate rendering of acoustic wave propagation. However, they require a high spatio-temporal resolution in the numerical scheme for a precise estimation of acoustic formants at the simulation run-time expense. We have recently proposed a new VT acoustic modelling technique, known as the 2.5D Finite-Difference Time-Domain (2.5D FDTD), which extends the existing 2D FDTD approach by adding tube depth to its acoustic wave solver. In this work, first, the simulated acoustic outputs of our new model are shown to be comparable with the 2D FDTD and a realistic 3D FEM VT model at a low spatio-temporal resolution. Next, a radiation model is developed by including a circular baffle around the VT as head geometry. The transfer functions of the radiation model are analyzed using five different vocal tract shapes for vowel sounds /a/, /e/, /i/, /o/ and /u/.
翻訳日:2021-02-11 00:35:47 公開日:2021-02-09
# (参考訳) 工場の成長:Factorioの自動化 [全文訳有]

The Factory Must Grow: Automation in Factorio ( http://arxiv.org/abs/2102.04871v1 )

ライセンス: CC BY 4.0
Kenneth N. Reid, Iliya Miralavy, Stephen Kelly, Wolfgang Banzhaf, Cedric Gondro(参考訳) 資源の効率的な最適化は、今日直面する多くの問題の成功に最も重要です。 運用研究の分野では、従業員の効率的なスケジューリング、バンの梱包、車両のルーティング、航空会社のロジスティクス、材料の輸送は、排出削減または過剰、利益または損失、実現不可能なソリューションとの違いである。 Wube Software のビデオゲーム Factorio には,このような現実的な問題に類似した,無数の問題があり,これらの問題に対するソリューションを開発する上で有用なシミュレータである。 本稿では,ロジスティック輸送ベルト問題を定義し,その数学的整数計画モデルを定義する。 我々は,任意のプログラミング言語のオプティマイザが factorio と対話できるようにするインタフェースを開発し,ロジスティックトランスポートベルト問題のベンチマークを行った。 本稿では, シミュレーションアニーリング, 高速遺伝的プログラミング, 進化的強化学習, 3つの異なるメタヒューリスティック手法を用いて, この新しい問題を最適化する。

Efficient optimization of resources is paramount to success in many problems faced today. In the field of operational research the efficient scheduling of employees; packing of vans; routing of vehicles; logistics of airlines and transport of materials can be the difference between emission reduction or excess, profits or losses and feasibility or unworkable solutions. The video game Factorio, by Wube Software, has a myriad of problems which are analogous to such real-world problems, and is a useful simulator for developing solutions for these problems. In this paper we define the logistic transport belt problem and define mathematical integer programming model of it. We developed an interface to allow optimizers in any programming language to interact with Factorio, and we provide an initial benchmark of logistic transport belt problems. We present results for Simulated Annealing, quick Genetic Programming and Evolutionary Reinforcement Learning, three different meta-heuristic techniques to optimize this novel problem.
翻訳日:2021-02-11 00:29:19 公開日:2021-02-09
# (参考訳) ランキングに基づく損失関数の再検討: 負のインスタンスを正のインスタンスの前にペナルティするだけで十分 [全文訳有]

Rethinking Ranking-based Loss Functions: Only Penalizing Negative Instances before Positive Ones is Enough ( http://arxiv.org/abs/2102.04640v1 )

ライセンス: CC BY 4.0
Zhuo Li, Weiqing Min, Jiajun Song, Yaohui Zhu, Shuqiang Jiang(参考訳) 平均精度 (AP) の近似の最適化は, 検索のために広く研究されている。 このような方法は、APの定義に従って、各ターゲットの正のインスタンスの前に負のインスタンスと正のインスタンスの両方を検討する。 しかし、負のインスタンスのみを正のインスタンスの前にペナルティ化するだけで十分である、と我々は主張する。 このため、APベースの損失に追従する代わりに、正のインスタンス(PNP)の前に負のインスタンスを罰する新しい損失を提案し、各正のインスタンスの前に負のインスタンスの数を直接最小化します。 一方、APの定義によって制限されたAPベースのメソッドは、特定の勾配割り当て戦略のみを採用する。 より良いものが存在するのかどうか疑問だ。 代わりに, 損失の微分関数を構成することにより, pnp-i と pnp-d を減少させることで, 異なる勾配割当解を体系的に検討する。 勾配の割り当て戦略のため、PNP-Iは関連するすべてのインスタンスをまとめようとするが、PNP-Dは正のインスタンスをより少ない負のインスタンスで迅速に修正する。 したがって、PNP-Dは1つのクラスに複数のローカルクラスタを含む実世界のデータに適している。 3つの標準検索データセットに対する広範囲な評価は、PNP-Dが最先端の性能を達成することを示す。

Optimising the approximation of Average Precision (AP) has been widely studied for retrieval. Such methods consider both negative and positive instances before each target positive one according to the definition of AP. However, we argue that only penalizing negative instances before positive ones is enough, because the loss only comes from them. To this end, instead of following the AP-based loss, we propose a new loss, namely Penalizing Negative instances before Positive ones (PNP), which directly minimizes the number of negative instances before each positive one. Meanwhile, limited by the definition of AP, AP-based methods only adopt a specific gradient assignment strategy. We wonder whether there exists better ones. Instead, we systematically investigate different gradient assignment solutions via constructing derivative functions of the loss, resulting in PNP-I with increasing derivative functions and PNP-D with decreasing ones. Because of their gradient assignment strategies, PNP-I tries to make all the relevant instances together, while PNP-D only quickly corrects positive one with fewer negative instances before. Thus, PNP-D may be more suitable for real-world data, which usually contains several local clusters for one class. Extensive evaluations on three standard retrieval datasets also show that PNP-D achieves the state-of-the-art performance.
翻訳日:2021-02-11 00:13:40 公開日:2021-02-09
# (参考訳) 分散型深層学習のためのコンセンサス制御 [全文訳有]

Consensus Control for Decentralized Deep Learning ( http://arxiv.org/abs/2102.04828v1 )

ライセンス: CC BY 4.0
Lingjing Kong, Tao Lin, Anastasia Koloskova, Martin Jaggi, Sebastian U. Stich(参考訳) ディープラーニングモデルの分散トレーニングは、ネットワーク上でのオンデバイス学習と、大規模なコンピューティングクラスタへの効率的なスケーリングを可能にする。 分散的な方法でトレーニングされたモデルのトレーニングとテストのパフォーマンスは、一般的に中央集権的な方法でトレーニングされたモデルのトレーニングとテストのパフォーマンスよりも悪く、このパフォーマンス低下は、ネットワークサイズや通信トポロジ、データパーティショニングといったパラメータの影響を受けます。 集中型トレーニングと分散型トレーニングのギャップを説明するための重要なパラメータとして,デバイス間のコンセンサス距離の変化を同定する。 理論上は, 訓練コンセンサス距離が臨界量よりも低い場合, 分散訓練は集中学習と同等の速さで収束する。 本研究では,一般化性能とコンセンサス距離の関係が,この理論的観察と一致することを実証した。 当社の実証的な洞察は、パフォーマンス低下を緩和するより良い分散型トレーニングスキームの原則化された設計を可能にします。 そこで本研究では,データセンタ構築のための実践的トレーニングガイドラインを第1ステップとして提案する。

Decentralized training of deep learning models enables on-device learning over networks, as well as efficient scaling to large compute clusters. Experiments in earlier works reveal that, even in a data-center setup, decentralized training often suffers from the degradation in the quality of the model: the training and test performance of models trained in a decentralized fashion is in general worse than that of models trained in a centralized fashion, and this performance drop is impacted by parameters such as network size, communication topology and data partitioning. We identify the changing consensus distance between devices as a key parameter to explain the gap between centralized and decentralized training. We show in theory that when the training consensus distance is lower than a critical quantity, decentralized training converges as fast as the centralized counterpart. We empirically validate that the relation between generalization performance and consensus distance is consistent with this theoretical observation. Our empirical insights allow the principled design of better decentralized training schemes that mitigate the performance drop. To this end, we propose practical training guidelines for the data-center setup as the important first step.
翻訳日:2021-02-11 00:01:52 公開日:2021-02-09
# (参考訳) 制約下でのサブセット選択のためのマルチアーム帯域幅アプローチ [全文訳有]

A Multi-Arm Bandit Approach To Subset Selection Under Constraints ( http://arxiv.org/abs/2102.04824v1 )

ライセンス: CC BY 4.0
Ayush Deva, Kumar Abhishek, Sujit Gujar(参考訳) 中央プランナーがエージェントのサブセットを選択する必要がある問題の種類を,それぞれ異なる品質とコストで検討する。 プランナーは、選択したエージェントの平均品質が一定のしきい値を超えていることを保証しながら、そのユーティリティを最大化したいです。 エージェントの品質が分かっているとき、我々はこの問題を整数線形プログラム(ilp)として定式化し、決定論的アルゴリズム、すなわち我々のilpの厳密な解を提供する \dpss\ を提案する。 次に,エージェントの質が不明な場合の設定について考察する。 我々はこれをマルチアームバンドイット(MAB)問題としてモデル化し、複数ラウンドで品質を学習するために「newalgo\」を提案する。 一定の回数のラウンドの後、$\tau$, \newalgo\ は平均品質制約を満たすエージェントのサブセットを高い確率で出力することを示した。 次に、$\tau$ の境界を提供し、$\tau$ ラウンドの後、アルゴリズムは $O(\ln T)$ の後悔を招き、$T$ がラウンド総数であることを証明します。 さらに、シミュレーションを通じて \newalgo\ の有効性を示す。 計算上の制限を克服するために、我々は多項式時間勾配アルゴリズムである \greedy を提案し、このアルゴリズムは ILP に近似解を提供する。 また、実験を通じて \dpss\ と \greedy\ のパフォーマンスを比較する。

We explore the class of problems where a central planner needs to select a subset of agents, each with different quality and cost. The planner wants to maximize its utility while ensuring that the average quality of the selected agents is above a certain threshold. When the agents' quality is known, we formulate our problem as an integer linear program (ILP) and propose a deterministic algorithm, namely \dpss\ that provides an exact solution to our ILP. We then consider the setting when the qualities of the agents are unknown. We model this as a Multi-Arm Bandit (MAB) problem and propose \newalgo\ to learn the qualities over multiple rounds. We show that after a certain number of rounds, $\tau$, \newalgo\ outputs a subset of agents that satisfy the average quality constraint with a high probability. Next, we provide bounds on $\tau$ and prove that after $\tau$ rounds, the algorithm incurs a regret of $O(\ln T)$, where $T$ is the total number of rounds. We further illustrate the efficacy of \newalgo\ through simulations. To overcome the computational limitations of \dpss, we propose a polynomial-time greedy algorithm, namely \greedy, that provides an approximate solution to our ILP. We also compare the performance of \dpss\ and \greedy\ through experiments.
翻訳日:2021-02-10 23:28:12 公開日:2021-02-09
# (参考訳) 準グローバルモーメント:異種データによる分散ディープラーニングの加速

Quasi-Global Momentum: Accelerating Decentralized Deep Learning on Heterogeneous Data ( http://arxiv.org/abs/2102.04761v1 )

ライセンス: CC BY 4.0
Tao Lin, Sai Praneeth Karimireddy, Sebastian U. Stich, Martin Jaggi(参考訳) ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとオンデバイス学習を可能にする上で重要な要素だ。 現実的な学習シナリオでは、異なるクライアントのローカルデータセット間の異種性の存在は最適化の課題を引き起こし、一般化のパフォーマンスを著しく低下させる可能性があります。 本論文では,複数の分散最適化アルゴリズムの異なるデータ不均質性に対する限界について検討し,特定する。 分散学習の難易度を緩和する新しい運動量ベース手法を提案する。 各種CV/NLPデータセット(CIFAR-10, ImageNet, AG News, SST2)およびいくつかのネットワークトポロジ(Ring and Social Network)において、我々の手法は既存の手法よりもクライアントのデータの不均一性に対してより堅牢であることを示す。 20\%$).

Decentralized training of deep learning models is a key element for enabling data privacy and on-device learning over networks. In realistic learning scenarios, the presence of heterogeneity across different clients' local datasets poses an optimization challenge and may severely deteriorate the generalization performance. In this paper, we investigate and identify the limitation of several decentralized optimization algorithms for different degrees of data heterogeneity. We propose a novel momentum-based method to mitigate this decentralized training difficulty. We show in extensive empirical experiments on various CV/NLP datasets (CIFAR-10, ImageNet, AG News, and SST2) and several network topologies (Ring and Social Network) that our method is much more robust to the heterogeneity of clients' data than other existing methods, by a significant improvement in test performance ($1\% \!-\! 20\%$).
翻訳日:2021-02-10 23:09:01 公開日:2021-02-09
# (参考訳) グラフ支援オンラインマルチカーネル学習 [全文訳有]

Graph-Aided Online Multi-Kernel Learning ( http://arxiv.org/abs/2102.04690v1 )

ライセンス: CC0 1.0
Pouya M Ghari, Yanning Shen(参考訳) マルチカーネル学習(MKL)は関数近似タスクで広く用いられている。 MKLの主な問題は、カーネルを所定の辞書に結合することです。 辞書に無関係なカーネルを含めると、mklの精度が低下し、計算の複雑さが増す。 本論文では,関数近似の精度向上と計算複雑性低減のために,関数近似に満足できる辞書からカーネルをデータ駆動で選択することを検討する。 具体的には、カーネル間の類似性に基づいて、新しいフレームワークは、カーネルのサブセットの選択を支援するグラフを構築し、洗練する。 また、ランダム特徴近似を用いてシーケンシャルに取得したデータのオンライン実装を実現する。 理論的解析により,提案アルゴリズムは,最先端のグラフベースのオンラインMKL代替手法と比較して,より厳密なサブ線形後悔を享受できることが示された。 実際のデータセットの実験では、新しいグラフ支援フレームワークの利点も示しています。

Multi-kernel learning (MKL) has been widely used in function approximation tasks. The key problem of MKL is to combine kernels in a prescribed dictionary. Inclusion of irrelevant kernels in the dictionary can deteriorate accuracy of MKL, and increase the computational complexity. To improve the accuracy of function approximation and reduce the computational complexity, the present paper studies data-driven selection of kernels from the dictionary that provide satisfactory function approximations. Specifically, based on the similarities among kernels, the novel framework constructs and refines a graph to assist choosing a subset of kernels. In addition, random feature approximation is utilized to enable online implementation for sequentially obtained data. Theoretical analysis shows that our proposed algorithms enjoy tighter sub-linear regret bound compared with state-of-art graph-based online MKL alternatives. Experiments on a number of real datasets also showcase the advantages of our novel graph-aided framework.
翻訳日:2021-02-10 23:07:13 公開日:2021-02-09
# (参考訳) 擬似パラボリックモデリングのテクスチャ画像認識への応用 [全文訳有]

An application of a pseudo-parabolic modeling to texture image recognition ( http://arxiv.org/abs/2102.05001v1 )

ライセンス: CC BY 4.0
Joao B. Florindo, Eduardo Abreu(参考訳) 本稿では,偏微分方程式モデリングを用いたテクスチャ画像認識のための新しい手法を提案する。 より具体的には、擬似放物型buckley-leverett方程式を用いて、デジタル画像表現のダイナミクスを提供し、時間とともに進化する画像から局所ディスクリプタを収集する。 ローカルディスクリプタでは、マグニチュードとシグナルバイナリパターンを採用し、これらの機能の単純なヒストグラムは、分類タスクで有望な結果を得ることができた。 私たちは、確立されたベンチマークテクスチャデータベースの精度と、最新のディープラーニングアプローチでさえも競争力を示す結果を比較します。 得られた結果は、画像解析のためのこのタイプのモデリング、特にディープラーニングモデルを訓練するための大量のデータがない場合に将来の調査のための空き領域であり、したがってモデルベースのアプローチは、適切な代替手段として生じる。

In this work, we present a novel methodology for texture image recognition using a partial differential equation modeling. More specifically, we employ the pseudo-parabolic Buckley-Leverett equation to provide a dynamics to the digital image representation and collect local descriptors from those images evolving in time. For the local descriptors we employ the magnitude and signal binary patterns and a simple histogram of these features was capable of achieving promising results in a classification task. We compare the accuracy over well established benchmark texture databases and the results demonstrate competitiveness, even with the most modern deep learning approaches. The achieved results open space for future investigation on this type of modeling for image analysis, especially when there is no large amount of data for training deep learning models and therefore model-based approaches arise as suitable alternatives.
翻訳日:2021-02-10 21:58:01 公開日:2021-02-09
# (参考訳) 顔がいかにユニークか:調査研究 [全文訳有]

How Unique Is a Face: An Investigative Study ( http://arxiv.org/abs/2102.04965v1 )

ライセンス: CC BY 4.0
Michal Balazia, S L Happy, Francois Bremond, Antitza Dantcheva(参考訳) 顔認識は、国境管理から銀行部門のセキュリティまで、アプリケーションにおける識別手段として広く受け入れられている。 驚くべきことに、広く受け入れられているものの、顔の独特さや特徴性は、バイオメトリックモダリティとして理解していない。 本研究では, 画像の解像度, 特徴表現, データベースサイズ, 年齢, 性別などの要因が, 真正分布と偽分布のKurback-Leibler発散による一意性に及ぼす影響について検討する。 この影響を理解するために、AT&T、LFW、IMDb-Face、ND-TWINSのデータセットに関する実験的結果と、名前付けされた要因の定量的影響を明らかにする機能抽出アルゴリズムVGGFace、VGG16、ResNet50、InceptionV3、MobileNetおよびDenseNet121を紹介します。 これらの研究は初期の成果であるが,バイオメトリックな一意性の概念の理解を深める必要性と,その顔認識への関与が示唆された。

Face recognition has been widely accepted as a means of identification in applications ranging from border control to security in the banking sector. Surprisingly, while widely accepted, we still lack the understanding of uniqueness or distinctiveness of faces as biometric modality. In this work, we study the impact of factors such as image resolution, feature representation, database size, age and gender on uniqueness denoted by the Kullback-Leibler divergence between genuine and impostor distributions. Towards understanding the impact, we present experimental results on the datasets AT&T, LFW, IMDb-Face, as well as ND-TWINS, with the feature extraction algorithms VGGFace, VGG16, ResNet50, InceptionV3, MobileNet and DenseNet121, that reveal the quantitative impact of the named factors. While these are early results, our findings indicate the need for a better understanding of the concept of biometric uniqueness and its implication on face recognition.
翻訳日:2021-02-10 21:44:41 公開日:2021-02-09
# (参考訳) 各種深層学習モデルを用いた都市名と手書きテキスト認識の分類 [全文訳有]

Classification of Handwritten Names of Cities and Handwritten Text Recognition using Various Deep Learning Models ( http://arxiv.org/abs/2102.04816v1 )

ライセンス: CC BY 4.0
Daniyar Nurseitov, Kairat Bostanbekov, Maksat Kanatov, Anel Alimova, Abdelrahman Abdallah, Galymzhan Abdimanap(参考訳) 本稿では,カザフ語とロシア語における手書き文字認識の問題について論じる。 文学では、この方面にはほとんど作品がないため、この領域は研究が進んでいない。 近年,キリルグラフィックスに関連した手書き認識モデルの開発において,様々なアプローチと成果について述べることを試みた。 最初のモデルは、特徴抽出にはdeep convolutional neural network (cnns)、単語分類にはfull connected multilayer perceptron neural network (mlp)を用いる。 2番目のモデルはSimpleHTRと呼ばれ、CNNとrecurrent neural Network (RNN)レイヤーを使用して画像から情報を抽出します。 結果を比較するためにBluechetとPuchserverモデルも提案しました。 ロシア語とカザフ語で利用可能なオープンデータセットが不足しているため、異なる手書きで500回以上書かれた42のキリル文字から、国や都市の手書き名を含むデータを集めました。 また、カザフ語とロシア語(HKR)の手書きデータベースも使用しました。 これは、この作品の著者によって作成されたロシア語とカザフ語のためのキリル語(国や都市だけでなく)の新しいデータベースです。

This article discusses the problem of handwriting recognition in Kazakh and Russian languages. This area is poorly studied since in the literature there are almost no works in this direction. We have tried to describe various approaches and achievements of recent years in the development of handwritten recognition models in relation to Cyrillic graphics. The first model uses deep convolutional neural networks (CNNs) for feature extraction and a fully connected multilayer perceptron neural network (MLP) for word classification. The second model, called SimpleHTR, uses CNN and recurrent neural network (RNN) layers to extract information from images. We also proposed the Bluechet and Puchserver models to compare the results. Due to the lack of available open datasets in Russian and Kazakh languages, we carried out work to collect data that included handwritten names of countries and cities from 42 different Cyrillic words, written more than 500 times in different handwriting. We also used a handwritten database of Kazakh and Russian languages (HKR). This is a new database of Cyrillic words (not only countries and cities) for the Russian and Kazakh languages, created by the authors of this work.
翻訳日:2021-02-10 21:34:18 公開日:2021-02-09
# (参考訳) クロスモーダル自己認識ネットワークを用いた画像・動画のセグメンテーションの参照 [全文訳有]

Referring Segmentation in Images and Videos with Cross-Modal Self-Attention Network ( http://arxiv.org/abs/2102.04762v1 )

ライセンス: CC BY 4.0
Linwei Ye, Mrigank Rochan, Zhi Liu, Xiaoqin Zhang and Yang Wang(参考訳) 自然言語で画像や動画のセグメンテーションを参照することの問題点を考察する。 入力画像(またはビデオ)と参照表現が与えられると、画像またはビデオで表現によって参照されるエンティティを分割することが目標となる。 本論文では,言語的特徴と視覚的特徴の長期的依存性を効果的に捉える,個々の単語と入力画像やビデオの細かいディテールを利用するクロスモーダルセルフアテンション(CMSA)モジュールを提案する。 本モデルは,参照表現における情報的単語と視覚入力における重要領域に適応的に焦点をあてることができる。 さらに,様々な視覚特徴に対応する自己注意型クロスモーダル特徴を選択的に統合するゲート型マルチレベル融合(gmlf)モジュールを提案する。 このモジュールは、異なる注意深い単語に関連する高レベルおよび低レベルの意味情報と、異なるレベルの機能の情報フローの機能融合を制御します。 さらに,ビデオ中のセグメンテーションを参照する場合のメソッドを拡張する連続フレームにおいて,時間情報を効果的に統合するためのクロスフレーム自己アテンション(CFSA)モジュールも導入する。 4つの参照画像データセットと2つのアクターとアクションビデオセグメンテーションデータセットのベンチマークデータセットの実験は、提案手法が既存の最先端手法よりも優れていることを一貫して示している。

We consider the problem of referring segmentation in images and videos with natural language. Given an input image (or video) and a referring expression, the goal is to segment the entity referred by the expression in the image or video. In this paper, we propose a cross-modal self-attention (CMSA) module to utilize fine details of individual words and the input image or video, which effectively captures the long-range dependencies between linguistic and visual features. Our model can adaptively focus on informative words in the referring expression and important regions in the visual input. We further propose a gated multi-level fusion (GMLF) module to selectively integrate self-attentive cross-modal features corresponding to different levels of visual features. This module controls the feature fusion of information flow of features at different levels with high-level and low-level semantic information related to different attentive words. Besides, we introduce cross-frame self-attention (CFSA) module to effectively integrate temporal information in consecutive frames which extends our method in the case of referring segmentation in videos. Experiments on benchmark datasets of four referring image datasets and two actor and action video segmentation datasets consistently demonstrate that our proposed approach outperforms existing state-of-the-art methods.
翻訳日:2021-02-10 21:14:46 公開日:2021-02-09
# (参考訳) SwiftNet: リアルタイムビデオオブジェクトセグメンテーション [全文訳有]

SwiftNet: Real-time Video Object Segmentation ( http://arxiv.org/abs/2102.04604v1 )

ライセンス: CC BY 4.0
Haochen Wang, Xiaolong Jiang, Haibing Ren, Yao Hu, Song Bai(参考訳) 本稿では、DAVIS 2017バリデーションデータセット上で77.8%のJ&Fと70 FPSを報告するリアルタイムの半監視ビデオオブジェクトセグメンテーション(ワンショットVOS)のためのSwiftNetを紹介します。 これを実現するために,Pixel-Adaptive Memory (PAM) を用いたマッチングベースのVOSにおける時空間冗長性を精巧に圧縮する。 一時的には、PAMはオブジェクトが注目すべきフレーム間のバリエーションを表示するフレーム上のメモリ更新を適応的にトリガーします。 空間的には、PAMは静的なピクセルを無視しながら、動的ピクセルのメモリ更新とマッチングを選択的に行い、セグメント化関連画素に費やされた冗長な計算を著しく削減する。 効率的な参照符号化を促進するために、SwiftNetのリバースサブピクセル展開にもライトアグリゲーションエンコーダが導入されている。 SwiftNetがリアルタイムVOSの強力で効率的なベースラインを設定し、モバイルビジョンへの適用を促進することを期待しています。

In this work we present SwiftNet for real-time semi-supervised video object segmentation (one-shot VOS), which reports 77.8% J&F and 70 FPS on DAVIS 2017 validation dataset, leading all present solutions in overall accuracy and speed performance. We achieve this by elaborately compressing spatiotemporal redundancy in matching-based VOS via Pixel-Adaptive Memory (PAM). Temporally, PAM adaptively triggers memory updates on frames where objects display noteworthy inter-frame variations. Spatially, PAM selectively performs memory update and match on dynamic pixels while ignoring the static ones, significantly reducing redundant computations wasted on segmentation-irrelev ant pixels. To promote efficient reference encoding, light-aggregation encoder is also introduced in SwiftNet deploying reversed sub-pixel. We hope SwiftNet could set a strong and efficient baseline for real-time VOS and facilitate its application in mobile vision.
翻訳日:2021-02-10 20:49:34 公開日:2021-02-09
# (参考訳) 例による構文検索を用いたブートストラップ関係抽出器 [全文訳有]

Bootstrapping Relation Extractors using Syntactic Search by Examples ( http://arxiv.org/abs/2102.05007v1 )

ライセンス: CC BY 4.0
Matan Eyal, Asaf Amrami, Hillel Taub-Tabib, Yoav Goldberg(参考訳) NLPにおけるニューラルネットワークの出現により、監視された関係抽出が大幅に改善された。 しかし、十分な量のトレーニングデータを得ることは依然として重要な課題である。 本研究では,非NLP専門家によるトレーニングデータセットのブートストラッププロセスを提案する。 構文グラフ(Such as Shlain et al)よりも検索エンジンを利用する。 (2020)は、フレンドリーなバイサンプル構文を公開する。 ユーザ入力例と構文的に類似した文を検索することで,肯定的な例を得る。 本手法はTACREDとDocREDの関係に応用し,手作業による注釈付きデータおよび遠隔監視から得られたデータに基づいてトレーニングしたモデルと競合することを示す。 モデルは、NLGデータ拡張技術を用いてトレーニングされたモデルよりも優れています。 NLG法で検索ベースアプローチを拡張することにより,結果がさらに改善される。

The advent of neural-networks in NLP brought with it substantial improvements in supervised relation extraction. However, obtaining a sufficient quantity of training data remains a key challenge. In this work we propose a process for bootstrapping training datasets which can be performed quickly by non-NLP-experts. We take advantage of search engines over syntactic-graphs (Such as Shlain et al. (2020)) which expose a friendly by-example syntax. We use these to obtain positive examples by searching for sentences that are syntactically similar to user input examples. We apply this technique to relations from TACRED and DocRED and show that the resulting models are competitive with models trained on manually annotated data and on data obtained from distant supervision. The models also outperform models trained using NLG data augmentation techniques. Extending the search-based approach with the NLG method further improves the results.
翻訳日:2021-02-10 20:18:52 公開日:2021-02-09
# (参考訳) NewsBERT: インテリジェントニュースアプリケーションのための事前学習型言語モデル [全文訳有]

NewsBERT: Distilling Pre-trained Language Model for Intelligent News Application ( http://arxiv.org/abs/2102.04887v1 )

ライセンス: CC BY 4.0
Chuhan Wu, Fangzhao Wu, Yang Yu, Tao Qi, Yongfeng Huang, Qi Liu(参考訳) BERTのような事前訓練言語モデル(PLM)はNLPに大きな進歩をもたらした。 ニュース記事は通常リッチなテキスト情報を含み、PLMはニュースレコメンデーションや検索のような様々なインテリジェントなニュースアプリケーションのためのニューステキストモデリングを強化する可能性がある。 しかし、ほとんどの既存のPLMは、数億のパラメータを持つ巨大なサイズです。 多くのオンラインニュースアプリケーションは、数百万のユーザに低レイテンシ耐性を提供する必要があるため、これらのシナリオにplmを組み込むことには大きな課題がある。 知識蒸留技術は、大きなPLMをはるかに小さく圧縮し、優れた性能を維持することができる。 しかし、既存の言語モデルは、Wikipediaのような一般的なコーパスで事前に訓練され、蒸留されています。 本稿では,効率的なニュースインテリジェンスのためにPLMを蒸留できるNewsBERTを提案する。 本研究では,教師モデルと生徒モデルの両方を協調的に学習するための,教師と学生の合同学習と蒸留の枠組みを設計し,教師モデルの学習経験から学習できる。 また,教師モデルの勾配を生徒モデルの更新に組み込むことにより,教師モデルで学習した有用な知識をよりよく伝達する運動量蒸留法を提案する。 3つのタスクを持つ2つの実世界のデータセットに対する大規模な実験は、NewsBERTがより小さなモデルで様々なインテリジェントなニュースアプリケーションのモデル性能を効果的に改善できることを示している。

Pre-trained language models (PLMs) like BERT have made great progress in NLP. News articles usually contain rich textual information, and PLMs have the potentials to enhance news text modeling for various intelligent news applications like news recommendation and retrieval. However, most existing PLMs are in huge size with hundreds of millions of parameters. Many online news applications need to serve millions of users with low latency tolerance, which poses huge challenges to incorporating PLMs in these scenarios. Knowledge distillation techniques can compress a large PLM into a much smaller one and meanwhile keeps good performance. However, existing language models are pre-trained and distilled on general corpus like Wikipedia, which has some gaps with the news domain and may be suboptimal for news intelligence. In this paper, we propose NewsBERT, which can distill PLMs for efficient and effective news intelligence. In our approach, we design a teacher-student joint learning and distillation framework to collaboratively learn both teacher and student models, where the student model can learn from the learning experience of the teacher model. In addition, we propose a momentum distillation method by incorporating the gradients of teacher model into the update of student model to better transfer useful knowledge learned by the teacher model. Extensive experiments on two real-world datasets with three tasks show that NewsBERT can effectively improve the model performance in various intelligent news applications with much smaller models.
翻訳日:2021-02-10 20:00:36 公開日:2021-02-09
# (参考訳) 広義のカリキュラムマッピング:自然言語処理と視覚支援コミュニケーションを用いて代表的プログラム計画体験を作成する [全文訳有]

Broader terms curriculum mapping: Using natural language processing and visual-supported communication to create representative program planning experiences ( http://arxiv.org/abs/2102.04811v1 )

ライセンス: CC BY 4.0
Rog\'erio Duarte, \^Angela Lacerda Nobre, Fernando Pimentel, Marc Jacquinet(参考訳) 認定機関は、学生、産業、大学教員、社会の視点を反映し、すべてのステークホルダーに開かれたカリキュラム開発プロセスを求めます。 しかし、学部と非学部のコミュニケーションの難しさは、途方もないコラボレーションの可能性を残します。 本論文では,学習目的,自然言語処理,データ可視化の分類を用いて,普遍的,自己説明的,権限のあるプログラム計画表現を提供する手法を提案する。 簡単な例として、この手法が代表的なプログラム計画経験にどのように寄与するかを示し、その方法の正確性と有用性を確認するためにケーススタディが使用される。

Accreditation bodies call for curriculum development processes open to all stakeholders, reflecting viewpoints of students, industry, university faculty and society. However, communication difficulties between faculty and non-faculty groups leave unexplored an immense collaboration potential. Using classification of learning objectives, natural language processing, and data visualization, this paper presents a method to deliver program plan representations that are universal, self-explanatory, and empowering. A simple example shows how the method contributes to representative program planning experiences and a case study is used to confirm the method's accuracy and utility.
翻訳日:2021-02-10 19:44:06 公開日:2021-02-09
# (参考訳) ロバストな間隙運動 [全文訳有]

Robust Motion In-betweening ( http://arxiv.org/abs/2102.04942v1 )

ライセンス: CC BY-SA 4.0
F\'elix G. Harvey, Mike Yurick, Derek Nowrouzezahrai, Christopher Pal(参考訳) 本研究では,3次元アニメーターの新しいツールとして,対向的リカレントニューラルネットワークをベースとした,新しい頑健な遷移生成手法を提案する。 このシステムは、時間的に疎いキーフレームをアニメーションの制約として使用する高品質なモーションを合成する。 これは、アニメーターが提供されたキーフレーム間でモーションフレームを描画する、従来のアニメーションパイプラインの中間処理を思い出させる。 まず,将来のキーフレームの条件付け情報のみを付加した場合に,最先端の動作予測モデルをロバストな遷移生成器に容易に変換できないことを示す。 そこで本研究では,ネットワークアーキテクチャ内にエンコードされた遅延表現に対して,各ステップで適用される2つの新規な付加埋め込み修飾子を提案する。 1つの修飾子は、単一のモデルで遷移長のバリエーションを可能にする時間から時間への埋め込みである。 もうひとつは、スケジュールされたターゲットノイズベクトルで、システムは歪みをターゲットとし、固定されたキーフレームの異なる遷移をサンプリングすることができる。 本手法を定性的に評価するために,当社のトレーニングモデルを用いて実運用シナリオで相互接続を行うカスタムモーションビルダプラグインを提案する。 より長い時間的地平線への遷移と一般化のパフォーマンスを定量的に評価するために、広く使われているHuman3.6Mデータセットのサブセットと、遷移生成により適した新しい高品質なモーションキャプチャデータセットLaFAN1上で、よく定義された中間ベンチマークを示す。 この新しいデータセットは、この作業とともに、ベースライン結果を再現するためのコードとともにリリースしています。

In this work we present a novel, robust transition generation technique that can serve as a new tool for 3D animators, based on adversarial recurrent neural networks. The system synthesizes high-quality motions that use temporally-sparse keyframes as animation constraints. This is reminiscent of the job of in-betweening in traditional animation pipelines, in which an animator draws motion frames between provided keyframes. We first show that a state-of-the-art motion prediction model cannot be easily converted into a robust transition generator when only adding conditioning information about future keyframes. To solve this problem, we then propose two novel additive embedding modifiers that are applied at each timestep to latent representations encoded inside the network's architecture. One modifier is a time-to-arrival embedding that allows variations of the transition length with a single model. The other is a scheduled target noise vector that allows the system to be robust to target distortions and to sample different transitions given fixed keyframes. To qualitatively evaluate our method, we present a custom MotionBuilder plugin that uses our trained model to perform in-betweening in production scenarios. To quantitatively evaluate performance on transitions and generalizations to longer time horizons, we present well-defined in-betweening benchmarks on a subset of the widely used Human3.6M dataset and on LaFAN1, a novel high quality motion capture dataset that is more appropriate for transition generation. We are releasing this new dataset along with this work, with accompanying code for reproducing our baseline results.
翻訳日:2021-02-10 19:13:31 公開日:2021-02-09
# (参考訳) ノイズリカレントニューラルネットワーク

Noisy Recurrent Neural Networks ( http://arxiv.org/abs/2102.04877v1 )

ライセンス: CC BY 4.0
Soon Hoe Lim, N. Benjamin Erichson, Liam Hodgkinson, Michael W. Mahoney(参考訳) 隠れた状態にノイズを注入して訓練されたリカレントニューラルネットワーク(RNN)を研究するための一般的なフレームワークを提供する。 具体的には、入力データによって駆動される確率微分方程式の離散化とみなすことができるRNNを考える。 この枠組みにより,小雑音領域における近似的正則化子を導出することにより,一般騒音注入スキームの暗黙的正則化効果を検証できる。 合理的な仮定の下では、この暗黙の正規化はよりフラットな最小化を促進し、より安定したダイナミクスを持つモデルに偏り、分類タスクではより大きな分類マージンを持つモデルを好むことが分かる。 大域的安定のための十分な条件が得られ、トレーニング中にノイズ注入により安定性が向上する確率的安定化現象が浮き彫りになった。 本理論は, 各種入力摂動に対するロバスト性の向上と, 最先端性能の維持を両立させる実証実験により支持された。

We provide a general framework for studying recurrent neural networks (RNNs) trained by injecting noise into hidden states. Specifically, we consider RNNs that can be viewed as discretizations of stochastic differential equations driven by input data. This framework allows us to study the implicit regularization effect of general noise injection schemes by deriving an approximate explicit regularizer in the small noise regime. We find that, under reasonable assumptions, this implicit regularization promotes flatter minima; it biases towards models with more stable dynamics; and, in classification tasks, it favors models with larger classification margin. Sufficient conditions for global stability are obtained, highlighting the phenomenon of stochastic stabilization, where noise injection can improve stability during training. Our theory is supported by empirical results which demonstrate improved robustness with respect to various input perturbations, while maintaining state-of-the-art performance.
翻訳日:2021-02-10 18:52:16 公開日:2021-02-09
# (参考訳) rl_reach: ロボットリーチタスクのための再現可能な強化学習実験 [全文訳有]

rl_reach: Reproducible Reinforcement Learning Experiments for Robotic Reaching Tasks ( http://arxiv.org/abs/2102.04916v1 )

ライセンス: CC BY-SA 4.0
Pierre Aumjaud, David McAuliffe, Francisco Javier Rodr\'iguez Lera, Philip Cardiff(参考訳) 与えられたタスクを解決するための強化学習エージェントのトレーニングは、ハイパーパラメータの最適なセットを特定し、適切な環境入力/出力構成を選択することに大きく依存する。 この面倒なプロセスは、簡単なツールボックスで簡単になり、ユーザーは異なるトレーニングパラメータを素早く比較できる。 カスタマイズ可能なロボットリーチタスクのための再現可能な強化学習実験を実行するために設計された,自己完結型,オープンソース,使いやすいソフトウェアパッケージであるrl_reachを提案する。 rl_reachは、トレーニング環境、エージェント、ハイパーパラメータ最適化ツール、ポリシー評価スクリプトをまとめて、最適なトレーニング設定を素早く調査し特定することができる。 rl_reachはこのURLで公開されている。

Training reinforcement learning agents at solving a given task is highly dependent on identifying optimal sets of hyperparameters and selecting suitable environment input / output configurations. This tedious process could be eased with a straightforward toolbox allowing its user to quickly compare different training parameter sets. We present rl_reach, a self-contained, open-source and easy-to-use software package designed to run reproducible reinforcement learning experiments for customisable robotic reaching tasks. rl_reach packs together training environments, agents, hyperparameter optimisation tools and policy evaluation scripts, allowing its users to quickly investigate and identify optimal training configurations. rl_reach is publicly available at this URL: https://github.com/P ierreExeter/rl_reach .
翻訳日:2021-02-10 18:49:27 公開日:2021-02-09
# (参考訳) COLOGNE: Coordinated Local Graph Neighborhood Smpling [全文訳有]

COLOGNE: Coordinated Local Graph Neighborhood Sampling ( http://arxiv.org/abs/2102.04770v1 )

ライセンス: CC BY 4.0
Konstantin Kutzkov(参考訳) グラフの表現学習は、標準的な機械学習アルゴリズムとデータ分析ツールをグラフデータに適用することを可能にする。 グラフノードなどの離散非順序オブジェクトを実値ベクトルで置き換えることは、グラフデータから学ぶための多くのアプローチの中心です。 このようなベクトル表現や埋め込みは、ノードを高次元空間内のベクトルとして表現することで元のデータ内の離散的な関係を捉える。 ほとんどのアプリケーショングラフでは、実際のオブジェクトとノード間の関係をモデル化し、しばしば元のオブジェクトに関する貴重なメタ情報を含む。 強力な機械学習ツールである一方で、組み込みはそのようなノード属性を保存することはできない。 この欠点に対処し、ノードベクトル表現の座標がグラフノードであるような離散ノード埋め込みを学習する問題を考察する。 これにより、もともとノードに存在するすべての属性が保存されるため、グラフの解釈可能な機械学習アルゴリズムを設計するドアが開きます。 本稿では,各ノードが属性とともに固定数のグラフノードで表されるように,局所グラフ近傍サンプリング(COLOGNE)をコーディネートするためのフレームワークを提案する。 個々のサンプルは調整され、ノード近傍間の類似性を保持する。 我々はスケーラブルなアルゴリズムを設計するための類似性の異なる概念を考える。 提案されたアルゴリズムの理論的結果を示す。 ベンチマークグラフにおける実験は、設計した埋め込みの品質を評価し、グラフデータの解釈可能な機械学習アルゴリズムのトレーニングにどのように組み込むかを実証する。

Representation learning for graphs enables the application of standard machine learning algorithms and data analysis tools to graph data. Replacing discrete unordered objects such as graph nodes by real-valued vectors is at the heart of many approaches to learning from graph data. Such vector representations, or embeddings, capture the discrete relationships in the original data by representing nodes as vectors in a high-dimensional space. In most applications graphs model the relationship between real-life objects and often nodes contain valuable meta-information about the original objects. While being a powerful machine learning tool, embeddings are not able to preserve such node attributes. We address this shortcoming and consider the problem of learning discrete node embeddings such that the coordinates of the node vector representations are graph nodes. This opens the door to designing interpretable machine learning algorithms for graphs as all attributes originally present in the nodes are preserved. We present a framework for coordinated local graph neighborhood sampling (COLOGNE) such that each node is represented by a fixed number of graph nodes, together with their attributes. Individual samples are coordinated and they preserve the similarity between node neighborhoods. We consider different notions of similarity for which we design scalable algorithms. We show theoretical results for all proposed algorithms. Experiments on benchmark graphs evaluate the quality of the designed embeddings and demonstrate how the proposed embeddings can be used in training interpretable machine learning algorithms for graph data.
翻訳日:2021-02-10 18:33:39 公開日:2021-02-09
# (参考訳) ヒューマン・マシン・コラボレーションの論点--darpaとコンピュータ・プログラムにおける評価の枠組み [全文訳有]

Hallmarks of Human-Machine Collaboration: A framework for assessment in the DARPA Communicating with Computers Program ( http://arxiv.org/abs/2102.04958v1 )

ライセンス: CC BY 4.0
Robyn Kozierok, John Aberdeen, Cheryl Clark, Christopher Garay, Bradley Goodman, Tonia Korves, Lynette Hirschman, Patricia L. McDermott, Matthew W. Peterson(参考訳) 複雑でオープンな活動で人間と協力するために効果的にコミュニケーションできるコンピュータシステムを作りたいという欲求が高まっている。 これらのシステムの評価には大きな課題がある。 提案手法は,評価者が単一回答に対して性能を比較できないような,オープンエンドの複雑なシナリオに係わるシステムを評価するためのフレームワークである。 このフレームワークは、ストーリーと音楽の生成、インタラクティブなブロック構築、がんの分子メカニズムの探索にわたる人間と機械の創造的なコラボレーションを評価するために使用されます。 これらの活動は、一般的にオープンエンドであり、単一の正しい解決策がなく、しばしば明らかな完了基準がないため、ほとんどの現代のパーソナルアシスタントによって実行されるより制限されたタスクと根本的に異なります。 成功したシステムで示さなければならない重要な特性を特定しました。 そこから、評価者が観察できる能力と機能、つまりキープロパティの達成に向けた進歩を示す「ホールマーク」を特定しました。 評価の枠組みであることに加えて、キープロパティとホールマークは研究の方向性を導くための目標として機能することを意図している。

There is a growing desire to create computer systems that can communicate effectively to collaborate with humans on complex, open-ended activities. Assessing these systems presents significant challenges. We describe a framework for evaluating systems engaged in open-ended complex scenarios where evaluators do not have the luxury of comparing performance to a single right answer. This framework has been used to evaluate human-machine creative collaborations across story and music generation, interactive block building, and exploration of molecular mechanisms in cancer. These activities are fundamentally different from the more constrained tasks performed by most contemporary personal assistants as they are generally open-ended, with no single correct solution, and often no obvious completion criteria. We identified the Key Properties that must be exhibited by successful systems. From there we identified "Hallmarks" of success -- capabilities and features that evaluators can observe that would be indicative of progress toward achieving a Key Property. In addition to being a framework for assessment, the Key Properties and Hallmarks are intended to serve as goals in guiding research direction.
翻訳日:2021-02-10 17:39:35 公開日:2021-02-09
# (参考訳) 新規薬物分子最適化のための深層グラフ生成モデルのベンチマーク [全文訳有]

Benchmarking Deep Graph Generative Models for Optimizing New Drug Molecules for COVID-19 ( http://arxiv.org/abs/2102.04977v1 )

ライセンス: CC BY 4.0
Logan Ward and Jenna A. Bilbrey and Sutanay Choudhury and Neeraj Kumar and Ganesh Sivaraman(参考訳) ターゲット特性を持つ新規薬物化合物の設計は、生成モデル研究の鍵となる分野である。 筆者らは, グラフ生成モデルに基づく小型な薬物分子設計パイプラインと, 標的薬物候補を設計するための2つの最先端グラフ生成モデルの比較研究を行った。1) 早期の新型コロナウイルス治療に有効な分子の事前知識を用いた変動型オートエンコーダ(VAE)と, 2) 近接制約のない最適化分子を生産する深部Q-ラーニング法(DQN)である。 薬物結合親和性モデルを用いた候補分子の検証により, 自動分子生成手法の新規性を評価する。 vae法は、sars-cov-2タンパク質の3-キモトリプシン様プロテアーゼ(3cl-プロテアーゼ)に対する結合性を示す抗レトロウイルスプロテアーゼ阻害剤indinavirと類似した構造を持つ2つの新規分子を作製した。

Design of new drug compounds with target properties is a key area of research in generative modeling. We present a small drug molecule design pipeline based on graph-generative models and a comparison study of two state-of-the-art graph generative models for designing COVID-19 targeted drug candidates: 1) a variational autoencoder-based approach (VAE) that uses prior knowledge of molecules that have been shown to be effective for earlier coronavirus treatments and 2) a deep Q-learning method (DQN) that generates optimized molecules without any proximity constraints. We evaluate the novelty of the automated molecule generation approaches by validating the candidate molecules with drug-protein binding affinity models. The VAE method produced two novel molecules with similar structures to the antiretroviral protease inhibitor Indinavir that show potential binding affinity for the SARS-CoV-2 protein target 3-chymotrypsin-like protease (3CL-protease).
翻訳日:2021-02-10 17:30:52 公開日:2021-02-09
# (参考訳) 理論的保証付きトレーニングフェデレーションGAN:ユニバーサルアグリゲーションアプローチ [全文訳有]

Training Federated GANs with Theoretical Guarantees: A Universal Aggregation Approach ( http://arxiv.org/abs/2102.04655v1 )

ライセンス: CC BY 4.0
Yikai Zhang, Hui Qu, Qi Chang, Huidong Liu, Dimitris Metaxas and Chao Chen(参考訳) 近年、GAN(Generative Adversarial Networks)は、複数のサイトがプライベートにホストするデータから集中型モデルを学習するフェデレーションラーニングの可能性を実証している。 フェデレーテッドGANは、異なる場所でホストされる集中型発電機と複数の個人識別装置を共同で訓練する。 連合GANの主要な理論的課題は、局所データ分布の不均一性である。 従来のアプローチでは、非常に異なる局所分布の混合であるターゲット分布を学習することは保証できない。 本稿では,この理論的な課題に初めて挑戦し,フェデレートganの枠組みを正当化する。 我々は,すべての個人識別器の混合物を慎重に集約することにより,集中的判別器をシミュレートするユニバーサルアグリゲーションと呼ばれる新しいアプローチを提案する。 このシミュレートされた集中型判別器で訓練したジェネレータが所望の目標分布を学習できることを実証する。 合成および実データを用いて,既存の連合型GAN法が失敗する分布の混合を学習可能であることを示す。

Recently, Generative Adversarial Networks (GANs) have demonstrated their potential in federated learning, i.e., learning a centralized model from data privately hosted by multiple sites. A federatedGAN jointly trains a centralized generator and multiple private discriminators hosted at different sites. A major theoretical challenge for the federated GAN is the heterogeneity of the local data distributions. Traditional approaches cannot guarantee to learn the target distribution, which isa mixture of the highly different local distributions. This paper tackles this theoretical challenge, and for the first time, provides a provably correct framework for federated GAN. We propose a new approach called Universal Aggregation, which simulates a centralized discriminator via carefully aggregating the mixture of all private discriminators. We prove that a generator trained with this simulated centralized discriminator can learn the desired target distribution. Through synthetic and real datasets, we show that our method can learn the mixture of largely different distributions where existing federated GAN methods fail.
翻訳日:2021-02-10 17:16:36 公開日:2021-02-09
# (参考訳) 自然言語推論データセットとモデルにおける統計的プロファイルバイアス [全文訳有]

Statistically Profiling Biases in Natural Language Reasoning Datasets and Models ( http://arxiv.org/abs/2102.04632v1 )

ライセンス: CC BY 4.0
Shanshan Huang and Kenny Q. Zhu(参考訳) 最近の研究では、多くの自然言語理解と推論データセットには、NLPモデルによって活用される可能性のある統計的手がかりが含まれていることが示されています。 モデルの潜在的な弱点を発見するために、いくつかの人間設計のストレステストが提案されているが、それらは作成に費用がかかり、任意のモデルに一般化しない。 我々は、追加のテストケースを作成することなく、任意の複数選択NLUデータセットのバイアスを自動的に識別する軽量で一般的な統計プロファイリングフレームワークICQ(I-See-Cue)を提案し、さらにモデルがこれらのバイアスを利用する程度をブラックボックステストを通して評価する。

Recent work has indicated that many natural language understanding and reasoning datasets contain statistical cues that may be taken advantaged of by NLP models whose capability may thus be grossly overestimated. To discover the potential weakness in the models, some human-designed stress tests have been proposed but they are expensive to create and do not generalize to arbitrary models. We propose a light-weight and general statistical profiling framework, ICQ (I-See-Cue), which automatically identifies possible biases in any multiple-choice NLU datasets without the need to create any additional test cases, and further evaluates through blackbox testing the extent to which models may exploit these biases.
翻訳日:2021-02-10 16:44:04 公開日:2021-02-09
# (参考訳) 地域差分プライバシによるフェデレーション学習 - プライバシとユーティリティ,コミュニケーションのトレードオフ [全文訳有]

Federated Learning with Local Differential Privacy: Trade-offs between Privacy, Utility, and Communication ( http://arxiv.org/abs/2102.04737v1 )

ライセンス: CC BY 4.0
Muah Kim, Onur G\"unl\"u, and Rafael F. Schaefer(参考訳) フェデレーションラーニング(FL)は、分散構造のため、大量のデータをプライベートにトレーニングすることができます。 確率勾配降下 (SGD) は経験的性能がよいため一般的にはFLに使用されるが, FLイテレーション中に共有される重み更新から, 感度の高いユーザ情報を推測することができる。 SGDを用いたFLモデルにおけるユーザデータの局所差分プライバシー(LDP)を維持するためのガウス機構を検討する。 ユーザプライバシ,グローバルユーティリティ,トランスミッションレートのトレードオフは,FL と LDP の適切なメトリクスを定義することによって証明される。 既存の結果と比較して, LDPで使用されるクエリ感度は変数として定義され, より厳密なプライバシ会計法が適用される。 提案するユーティリティバウンドは、全ユーザにわたって異種パラメータを許容する。 私たちの境界は、より強いプライバシー体制がターゲットとされている場合、ユーティリティの減少と伝送速度の増加を特徴づけます。 さらに,対象とするプライバシレベルを考慮すれば,従来のプライバシ会計手法に比べて,はるかに大きなユーティリティとより少ない送信率を保証できる。

Federated learning (FL) allows to train a massive amount of data privately due to its decentralized structure. Stochastic gradient descent (SGD) is commonly used for FL due to its good empirical performance, but sensitive user information can still be inferred from weight updates shared during FL iterations. We consider Gaussian mechanisms to preserve local differential privacy (LDP) of user data in the FL model with SGD. The trade-offs between user privacy, global utility, and transmission rate are proved by defining appropriate metrics for FL with LDP. Compared to existing results, the query sensitivity used in LDP is defined as a variable and a tighter privacy accounting method is applied. The proposed utility bound allows heterogeneous parameters over all users. Our bounds characterize how much utility decreases and transmission rate increases if a stronger privacy regime is targeted. Furthermore, given a target privacy level, our results guarantee a significantly larger utility and a smaller transmission rate as compared to existing privacy accounting methods.
翻訳日:2021-02-10 16:15:40 公開日:2021-02-09
# (参考訳) 統計的解釈に基づく頭部衝撃による外傷性脳損傷におけるキネマティクスの予測因子 [全文訳有]

Predictive Factors of Kinematics in Traumatic Brain Injury from Head Impacts Based on Statistical Interpretation ( http://arxiv.org/abs/2102.05020v1 )

ライセンス: CC BY 4.0
Xianghao Zhan, Yiheng Li, Yuzhe Liu, August G. Domel, Hossein Vahid Alidazeh, Zhou Zhou, Nicholas J. Cecchi, Stephen Tiernan, Jesse Ruan, Saeed Barbat, Olivier Gevaert, Michael Zeineh, Gerald Grant, David Camarillo(参考訳) 頭部衝撃による脳組織の変化は、主に回転によって引き起こされ、外傷性脳損傷を引き起こす。 頭部への加速度力の測定に基づく脳損傷リスクの定量化のために,これらの運動学の異なる要因に基づく脳損傷基準が開発されている。 脳損傷の基準をよりよく設計するために、1)誘導順序、2)方向および3)角速度の力で異なる回転運動因子の予測力は、実験室の影響、アメリカンフットボール、混合武道(MMA)、NHTSA自動車の耐障害性試験およびNASCARクラッシュイベントを含む異なるデータセットに基づいて分析された。 キネマティクス因子から95%最大主ひずみ (MPS95) への最小二乗回帰値を構築し, ゼロ次相関係数, 構造係数, 共通性解析, 支配性解析を比較した。 角加速、マグニチュード、および最初のパワーファクターは、実験室の衝撃、アメリカンフットボールの影響のための最も高い予測力を示し、例外はほとんどなかった(MMAおよびNASCAR影響の角速度)。 キネマティックスの3方向の予測力(x:後から後、y:左から右、z:上から上まで)は、様々なスポーツと頭部衝撃の種類で変化した。

Brain tissue deformation resulting from head impacts is primarily caused by rotation and can lead to traumatic brain injury. To quantify brain injury risk based on measurements of accelerational forces to the head, various brain injury criteria based on different factors of these kinematics have been developed. To better design brain injury criteria, the predictive power of rotational kinematics factors, which are different in 1) the derivative order, 2) the direction and 3) the power of the angular velocity, were analyzed based on different datasets including laboratory impacts, American football, mixed martial arts (MMA), NHTSA automobile crashworthiness tests and NASCAR crash events. Ordinary least squares regressions were built from kinematics factors to the 95% maximum principal strain (MPS95), and we compared zero-order correlation coefficients, structure coefficients, commonality analysis, and dominance analysis. The angular acceleration, the magnitude and the first power factors showed the highest predictive power for the laboratory impacts, American football impacts, with few exceptions (angular velocity for MMA and NASCAR impacts). The predictive power of kinematics in three directions (x: posterior-to-anterio r, y: left-to-right, z: superior-to-inferior ) of kinematics varied with different sports and types of head impacts.
翻訳日:2021-02-10 15:56:03 公開日:2021-02-09
# (参考訳) Bed-mounted Accelerometer 測定を用いたディープニューラルネットワークによるカフ検出 [全文訳有]

Deep Neural Network based Cough Detection using Bed-mounted Accelerometer Measurements ( http://arxiv.org/abs/2102.04997v1 )

ライセンス: CC BY 4.0
Madhurananda Pahar, Igor Miranda, Andreas Diacon and Thomas Niesler(参考訳) 症例のベッドに装着した加速度計から測定値に基づき,cough検出を行った。 この形態の監視は、体に装着した加速度センサよりも侵入性が低く、音波を音波検出に使用する際に生じるプライバシー上の懸念の側面である。 本実験では, 結核クリニックの成人14名を対象に, 約6000コウの加速度信号と68000コウのイベントを含む手動注釈データセットを作成した。 分類器として、畳み込みニューラルネットワーク(CNN)、長短長期メモリ(LSTM)ネットワーク、残余ニューラルネットワーク(Resnet50)を検討した。 その結果, すべての分類器は, しゃがみ, 喉のクリーニング, ベッド内の運動などの他の活動による加速度信号とを高い精度で識別できることがわかった。 Resnet50は、クロスバリデーション実験で0.98を超えるROC曲線(AUC)下の領域を達成し、最高の性能を発揮します。 スマートフォンの加速度計による測定のみに基づく高精度のコークスモニタリングが可能であると結論付けている。 オーディオの収集は避けられ、プライバシーは本質的に保護されているため、加速度計はベッドに取り付けられ、装着されていないため、このタイプのモニタリングは、より便利で容易に受け入れられる長期の患者のせきモニタリングの方法である。

We have performed cough detection based on measurements from an accelerometer attached to the patient's bed. This form of monitoring is less intrusive than body-attached accelerometer sensors, and sidesteps privacy concerns encountered when using audio for cough detection. For our experiments, we have compiled a manually-annotated dataset containing the acceleration signals of approximately 6000 cough and 68000 non-cough events from 14 adult male patients in a tuberculosis clinic. As classifiers, we have considered convolutional neural networks (CNN), long-short-term-memo ry (LSTM) networks, and a residual neural network (Resnet50). We find that all classifiers are able to distinguish between the acceleration signals due to coughing and those due to other activities including sneezing, throat-clearing and movement in the bed with high accuracy. The Resnet50 performs the best, achieving an area under the ROC curve (AUC) exceeding 0.98 in cross-validation experiments. We conclude that high-accuracy cough monitoring based only on measurements from the accelerometer in a consumer smartphone is possible. Since the need to gather audio is avoided and therefore privacy is inherently protected, and since the accelerometer is attached to the bed and not worn, this form of monitoring may represent a more convenient and readily accepted method of long-term patient cough monitoring.
翻訳日:2021-02-10 15:50:48 公開日:2021-02-09
# (参考訳) 検索方法の学習:適応フィットネス機能選択による効果的なテストケースの生成

Learning How to Search: Generating Effective Test Cases Through Adaptive Fitness Function Selection ( http://arxiv.org/abs/2102.04822v1 )

ライセンス: CC BY 4.0
Hussein Almulla and Gregory Gay(参考訳) 検索ベースのテスト生成は、1つ以上のフィットネス機能からのフィードバックによって導かれます。 テスタの目標を達成するためには,情報的適合度関数の選択が不可欠だ。 残念ながら、クラスアンダーテストで例外を投げること、テストスイートの多様性の向上、Strong Mutation Coverageの達成など、多くの目標には、効果的な適合関数の定式化がない。 このような目標を達成するには、フィットネス機能同定を二次最適化のステップとして扱う必要があると提案する。 適合関数の選択を変更可能な適応アルゴリズムは、現在のテストスイートの人口に基づいて、生成プロセスを通じてその選択を調整し、目標達成を最大化することができる。 この仮説を検証するために、EvoSuiteユニットテスト生成フレームワークに2つの強化学習アルゴリズムを実装し、これらのアルゴリズムを用いて、上記の3つの目標に対して生成時に使用するフィットネス関数を動的に設定した。 私たちのフレームワークであるEvoSuiteFITを実際のJavaケースの例で評価しました。 evosuitefitのテクニックは3つの目標のうち2つにおいて大きな改善を達成し、進化の世代数が固定された3番目の段階で小さな改善を示す。 さらに、すべての目標に対して、EvoSuiteFITは他のテクニックに欠けている欠陥を検出します。 フィットネス機能を調整することで、evosuitefitはより効率的なテストスイートを効率的に作成するための戦略的な選択を可能にします。 AFFSは、テスト目標を達成するためのテストを生成するための効果的な適合関数がすでに存在しない場合に応用できる強力な手法である。

Search-based test generation is guided by feedback from one or more fitness functions - scoring functions that judge solution optimality. Choosing informative fitness functions is crucial to meeting the goals of a tester. Unfortunately, many goals - such as forcing the class-under-test to throw exceptions, increasing test suite diversity, and attaining Strong Mutation Coverage - do not have effective fitness function formulations. We propose that meeting such goals requires treating fitness function identification as a secondary optimization step. An adaptive algorithm that can vary the selection of fitness functions could adjust its selection throughout the generation process to maximize goal attainment, based on the current population of test suites. To test this hypothesis, we have implemented two reinforcement learning algorithms in the EvoSuite unit test generation framework, and used these algorithms to dynamically set the fitness functions used during generation for the three goals identified above. We have evaluated our framework, EvoSuiteFIT, on a set of real Java case examples. EvoSuiteFIT techniques attain significant improvements for two of the three goals, and show small improvements on the third when the number of generations of evolution is fixed. Additionally, for all goals, EvoSuiteFIT detects faults missed by the other techniques. The ability to adjust fitness functions allows EvoSuiteFIT to make strategic choices that efficiently produce more effective test suites, and examining its choices offers insight into how to attain our testing goals. We find that AFFS is a powerful technique to apply when an effective fitness function does not already exist for generating tests to achieve a testing goal.
翻訳日:2021-02-10 15:41:02 公開日:2021-02-09
# (参考訳) Tr\"aumerAI:Dreaming Music with StyleGAN [全文訳有]

Tr\"aumerAI: Dreaming Music with StyleGAN ( http://arxiv.org/abs/2102.04680v1 )

ライセンス: CC BY 4.0
Dasaem Jeong and Seungheon Doh and Taegyun Kwon(参考訳) 本論文の目的は,映像の各フレームが対応するオーディオクリップの音楽的特徴を反映するように,ニューラルネットワークで音楽に応答する視覚的に魅力的な映像を生成することである。 この目的を達成するために,WikiArtデータセットで事前学習した短絡CNNとStyleGAN2を用いた音楽自動タグ付けモデルからなるStyleGANのスタイル埋め込みに,ディープミュージックの埋め込みを直接マッピングするニューラルミュージックビジュアライゼーションを提案する。 音楽的意味論と視覚的意味論の間に客観的な指標を確立するのではなく、手作業でペアを主観的な方法でラベル付けした。 アノテータは長さ10秒の100曲のクリップを聴き、200のStyleGAN生成例の中から曲に合ったイメージを選択した。 収集したデータに基づいて,音声埋め込みをスタイル埋め込みに変換するシンプルな転送関数をトレーニングした。 生成した例は、音声と映像のマッピングが、あるレベルのセグメント内類似性とセグメント間異同を生じさせることを示している。

The goal of this paper to generate a visually appealing video that responds to music with a neural network so that each frame of the video reflects the musical characteristics of the corresponding audio clip. To achieve the goal, we propose a neural music visualizer directly mapping deep music embeddings to style embeddings of StyleGAN, named Tr\"aumerAI, which consists of a music auto-tagging model using short-chunk CNN and StyleGAN2 pre-trained on WikiArt dataset. Rather than establishing an objective metric between musical and visual semantics, we manually labeled the pairs in a subjective manner. An annotator listened to 100 music clips of 10 seconds long and selected an image that suits the music among the 200 StyleGAN-generated examples. Based on the collected data, we trained a simple transfer function that converts an audio embedding to a style embedding. The generated examples show that the mapping between audio and video makes a certain level of intra-segment similarity and inter-segment dissimilarity.
翻訳日:2021-02-10 15:39:52 公開日:2021-02-09
# 滑らかなreluアクティベーションを持つディープネットワークを用いたロジスティック損失による勾配降下はいつ補間されるのか?

When does gradient descent with logistic loss interpolate using deep networks with smoothed ReLU activations? ( http://arxiv.org/abs/2102.04998v1 )

ライセンス: Link先を確認
Niladri S. Chatterji, Philip M. Long, Peter L. Bartlett(参考訳) 固定幅深層ネットワークに適用された勾配勾配勾配がロジスティック損失をゼロにする条件を確立し,収束率の限界を証明した。 私たちの分析は、以前の適用作業で提案されたSwishやHuberized ReLUなどのReLUへの滑らかな近似に適用されます。 収束に十分な条件が2つある。 最初のものは、単に初期化時の損失の境界です。 2つ目は、事前分析に使用されるデータ分離条件です。

We establish conditions under which gradient descent applied to fixed-width deep networks drives the logistic loss to zero, and prove bounds on the rate of convergence. Our analysis applies for smoothed approximations to the ReLU, such as Swish and the Huberized ReLU, proposed in previous applied work. We provide two sufficient conditions for convergence. The first is simply a bound on the loss at initialization. The second is a data separation condition used in prior analyses.
翻訳日:2021-02-10 15:21:24 公開日:2021-02-09
# 正規化生成逆ネットワーク

Regularized Generative Adversarial Network ( http://arxiv.org/abs/2102.04593v1 )

ライセンス: Link先を確認
Gabriele Di Cerbo, Ali Hirsa, Ahmad Shayaan(参考訳) 本稿では,トレーニングセットの確率分布とは異なる確率分布からサンプルを生成する枠組みを提案する。 私たちは、発電機と2つの識別器の3つのネットワークを同時に訓練する逆のプロセスを使用します。 この新しいモデルを正規化ジェネラティブ・敵対ネットワーク(RegGAN)と呼びます。 グレースケール画像からなる合成データセット上でreganを評価し,さらに,トポロジー(基本トポロジー特性)における事前指定概念を学習するために使用できることを示す。 作品の動機は、芸術界における生成的手法の使用中に遭遇した実践的な問題である。

We propose a framework for generating samples from a probability distribution that differs from the probability distribution of the training set. We use an adversarial process that simultaneously trains three networks, a generator and two discriminators. We refer to this new model as regularized generative adversarial network (RegGAN). We evaluate RegGAN on a synthetic dataset composed of gray scale images and we further show that it can be used to learn some pre-specified notions in topology (basic topology properties). The work is motivated by practical problems encountered while using generative methods in the art world.
翻訳日:2021-02-10 15:21:15 公開日:2021-02-09
# ベンフォードの法則: 敵のイメージについては何と言うのか?

Benford's law: what does it say on adversarial images? ( http://arxiv.org/abs/2102.04615v1 )

ライセンス: Link先を確認
Jo\~ao G. Zago, Fabio L. Baldissera, Eric A. Antonelo and Rodrigo T. Saad(参考訳) 畳み込みニューラルネットワーク(CNN)は入力画像の小さな摂動に対して脆弱である。 これらのネットワークは、入力を乱して誤分類を強制する悪意のある攻撃の傾向にある。 このような、分類器を欺くためのわずかに操作された画像は、逆像として知られる。 本研究では,自然画像と敵画像の統計的差異について検討する。 より正確には、適切な画像変換と対向攻撃のクラスを用いて、対向画像中の画素の先頭桁の分布がベンフォードの法則から逸脱していることを示す。 攻撃が強ければ強いほど、結果として生じる分布はベンフォードの法則から遠ざかる。 私たちの分析は、元のCNN分類器を変更する必要がない代替敵対的なサンプル検出方法の基礎として役立つことができるこの新しいアプローチの詳細な調査を提供し、攻撃から防御するための機能として生の高次元ピクセルで動作しません。

Convolutional neural networks (CNNs) are fragile to small perturbations in the input images. These networks are thus prone to malicious attacks that perturb the inputs to force a misclassification. Such slightly manipulated images aimed at deceiving the classifier are known as adversarial images. In this work, we investigate statistical differences between natural images and adversarial ones. More precisely, we show that employing a proper image transformation and for a class of adversarial attacks, the distribution of the leading digit of the pixels in adversarial images deviates from Benford's law. The stronger the attack, the more distant the resulting distribution is from Benford's law. Our analysis provides a detailed investigation of this new approach that can serve as a basis for alternative adversarial example detection methods that do not need to modify the original CNN classifier neither work on the raw high-dimensional pixels as features to defend against attacks.
翻訳日:2021-02-10 15:21:05 公開日:2021-02-09
# リアルタイム自律運転における車線検出と経路予測のエンドツーエンドディープラーニング

End-to-End Deep Learning of Lane Detection and Path Prediction for Real-Time Autonomous Driving ( http://arxiv.org/abs/2102.04738v1 )

ライセンス: Link先を確認
Der-Hau Lee and Jinn-Liang Liu(参考訳) 境界ボックスとHuモーメントの2つの回帰ブランチとレーン検出と道路認識のためのオブジェクトマスクの1つの分類ブランチを有するエンドツーエンド3タスク畳み込みニューラルネットワーク(3TCNN)を提案する。 Hu-moment Regressorは、それぞれセグメント化されたレーンオブジェクトのローカルとグローバルHuモーメントを使用してレーンのローカリゼーションと道路案内を行います。 3tcnnに基づき,リアルタイム走行のための車線中心線と経路曲率を動的に推定することで走行経路を予測可能な統合モデル(3tcnn-pp)を形成するために,側方オフセット・パス予測(pp)アルゴリズムを提案する。 また,実または人工的な交通画像によるCNN訓練,人工画像によるテスト,動的エラーの定量化,定性的な性能の可視化に使用可能なCNN-PPシミュレータを開発した。 シミュレーションの結果, 3TCNN-PPはCNNと同等であり, 従来のCNN-PPよりも優れていた。 この作業のコード、注釈付きデータ、およびシミュレーションビデオは、自動運転のNN-PPアルゴリズムに関するさらなる研究のために、当社のウェブサイトで見つけることができます。

We propose an end-to-end three-task convolutional neural network (3TCNN) having two regression branches of bounding boxes and Hu moments and one classification branch of object masks for lane detection and road recognition. The Hu-moment regressor performs lane localization and road guidance using local and global Hu moments of segmented lane objects, respectively. Based on 3TCNN, we then propose lateral offset and path prediction (PP) algorithms to form an integrated model (3TCNN-PP) that can predict driving path with dynamic estimation of lane centerline and path curvature for real-time autonomous driving. We also develop a CNN-PP simulator that can be used to train a CNN by real or artificial traffic images, test it by artificial images, quantify its dynamic errors, and visualize its qualitative performance. Simulation results show that 3TCNN-PP is comparable to related CNNs and better than a previous CNN-PP, respectively. The code, annotated data, and simulation videos of this work can be found on our website for further research on NN-PP algorithms of autonomous driving.
翻訳日:2021-02-10 15:20:51 公開日:2021-02-09
# 俺の手はどこだ? ヒューマノイドロボットにおける視覚自己認識のための深部ハンドセグメンテーション

Where is my hand? Deep hand segmentation for visual self-recognition in humanoid robots ( http://arxiv.org/abs/2102.04750v1 )

ライセンス: Link先を確認
Alexandre Almeida, Pedro Vicente, Alexandre Bernardino(参考訳) 自己と背景を区別する能力は、ロボットタスクにとって最も重要なものです。 多くの場合、環境の他の要素と接触するロボットシステムのエンドエフェクターとして、手の特定のケースは、器用性と障害物と衝突することなく意図されたタスクを実行するために正確に知覚され、追跡されなければなりません。 ヒューマンロボットインタラクションタスクからオブジェクト操作まで、いくつかのアプリケーションの基本です。 現代のヒューマノイドロボットは、高い自由度を特徴としており、前方運動学モデルは不確実性に非常に敏感です。 したがって、視覚センシングに頼ることが、これらのロボットに自己の良識を与える唯一の解決策となり、精度で身体の一部を局所化することができる。 本稿では,畳み込みニューラルネットワーク(CNN)を用いて,ロボットハンドを画像から自我中心の視点で分割する手法を提案する。 CNNは大量のデータをトレーニングする必要があることが知られている。 実世界画像のラベル付けという課題を克服するために,ドメインランダム化技術を活用したシミュレーションデータセットの利用を提案する。 ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。 我々は、トレーニングデータセットで変数を適切に生成する方法を詳細に見ながら、適切なパフォーマンスを達成するために少量のデータを必要とする方法論の開発に注力する。 さらに,Mask-RCNNの複雑なモデルにおける微調整過程を解析し,ロボットハンドの分割作業にどの重みを移すべきかを理解する。 最終モデルは合成画像のみを訓練し, 合成検証データでは平均82%, 実検データでは56.3%のIoUを達成した。 これらの結果は、単一のGPUを使用してわずか1000のトレーニングイメージと3時間のトレーニング時間で達成されました。

The ability to distinguish between the self and the background is of paramount importance for robotic tasks. The particular case of hands, as the end effectors of a robotic system that more often enter into contact with other elements of the environment, must be perceived and tracked with precision to execute the intended tasks with dexterity and without colliding with obstacles. They are fundamental for several applications, from Human-Robot Interaction tasks to object manipulation. Modern humanoid robots are characterized by high number of degrees of freedom which makes their forward kinematics models very sensitive to uncertainty. Thus, resorting to vision sensing can be the only solution to endow these robots with a good perception of the self, being able to localize their body parts with precision. In this paper, we propose the use of a Convolution Neural Network (CNN) to segment the robot hand from an image in an egocentric view. It is known that CNNs require a huge amount of data to be trained. To overcome the challenge of labeling real-world images, we propose the use of simulated datasets exploiting domain randomization techniques. We fine-tuned the Mask-RCNN network for the specific task of segmenting the hand of the humanoid robot Vizzy. We focus our attention on developing a methodology that requires low amounts of data to achieve reasonable performance while giving detailed insight on how to properly generate variability in the training dataset. Moreover, we analyze the fine-tuning process within the complex model of Mask-RCNN, understanding which weights should be transferred to the new task of segmenting robot hands. Our final model was trained solely on synthetic images and achieves an average IoU of 82% on synthetic validation data and 56.3% on real test data. These results were achieved with only 1000 training images and 3 hours of training time using a single GPU.
翻訳日:2021-02-10 15:20:29 公開日:2021-02-09
# CNN学習のための分布適応INT8量子化

Distribution Adaptive INT8 Quantization for Training CNNs ( http://arxiv.org/abs/2102.04782v1 )

ライセンス: Link先を確認
Kang Zhao, Sida Huang, Pan Pan, Yinghan Li, Yingya Zhang, Zhenyu Gu, Yinghui Xu(参考訳) 研究では、推論プロセスを加速するために低ビット幅(例えばINT8)量子化が利用できることを実証した。 後方伝播は前方伝播よりも約2倍の計算を必要とするため、勾配量子化は非常に有望である。 勾配分布の変動性と不確実性から, トレーニング安定性を達成するための手法が多数提案されている。 しかし、それらの多くはチャンネルワイド勾配分布や大きさの異なる勾配の影響を無視しており、最終的な精度は低下する。 本稿では,上記の問題に対処するために,畳み込みニューラルネットワークのための新しいint8量子化トレーニングフレームワークを提案する。 具体的には, 勾配ベクトル量子化を応用して勾配を量子化し, チャネル次元に沿った複数の分布を含む層状勾配を観測した。 そこで、量子化誤差を最小化する際に勾配の大きさを考慮に入れたマグニチュード認識クリッピング戦略を導入し、異なる分布の量子化パラメータを解く理論的導出法を提案する。 画像分類,オブジェクト検出,ビデオ分類などの幅広いコンピュータビジョンタスクにおける実験の結果から,提案手法は,最先端技術よりも優れているresnet,mobilenetv2,i nceptionv3,vgg,alexn etなどの異なるバックボーンに対して,ほぼ無損失なトレーニング精度を達成していることが示された。 さらに、最新のチューリングアーキテクチャ、すなわちトレーニング精度とスピードの両方に優れた方法で、トレーニングイテレーションを200%以上高速化できるINT8カーネルをさらに実装しています。

Researches have demonstrated that low bit-width (e.g., INT8) quantization can be employed to accelerate the inference process. It makes the gradient quantization very promising since the backward propagation requires approximately twice more computation than forward one. Due to the variability and uncertainty of gradient distribution, a lot of methods have been proposed to attain training stability. However, most of them ignore the channel-wise gradient distributions and the impact of gradients with different magnitudes, resulting in the degradation of final accuracy. In this paper, we propose a novel INT8 quantization training framework for convolutional neural network to address the above issues. Specifically, we adopt Gradient Vectorized Quantization to quantize the gradient, based on the observation that layer-wise gradients contain multiple distributions along the channel dimension. Then, Magnitude-aware Clipping Strategy is introduced by taking the magnitudes of gradients into consideration when minimizing the quantization error, and we present a theoretical derivation to solve the quantization parameters of different distributions. Experimental results on broad range of computer vision tasks, such as image classification, object detection and video classification, demonstrate that the proposed Distribution Adaptive INT8 Quantization training method has achieved almost lossless training accuracy for different backbones, including ResNet, MobileNetV2, InceptionV3, VGG and AlexNet, which is superior to the state-of-the-art techniques. Moreover, we further implement the INT8 kernel that can accelerate the training iteration more than 200% under the latest Turing architecture, i.e., our method excels on both training accuracy and speed.
翻訳日:2021-02-10 15:20:02 公開日:2021-02-09
# 自動音声認識のための圧縮センシングによるスパーシフィケーション

Sparsification via Compressed Sensing for Automatic Speech Recognition ( http://arxiv.org/abs/2102.04932v1 )

ライセンス: Link先を確認
Kai Zhen (1 and 2), Hieu Duy Nguyen (2), Feng-Ju Chang (2), Athanasios Mouchtaris (2), and Ariya Rastrow (2). ((1) Indiana University Bloomington, (2) Alexa Machine Learning, Amazon, USA)(参考訳) 機械学習(ML)アプリケーションのための高精度を達成するためには、多数のパラメータを持つモデルを採用することが不可欠です。 しかし、自動音声認識(asr)のような特定のアプリケーションでは、ユーザとのリアルタイムインタラクションが必要であるため、モデルに可能な限り低レイテンシーを持たせている。 大規模なMLアプリケーションをデプロイするには、特にリソース制約のあるデバイス上でMLモデルを実行する場合、モデル量子化と圧縮が必要である。 例えば、モデルの重み値の一部をゼロにすることで、ゼロウェイト圧縮を適用することができ、モデルサイズとモデル読み込み時間をメモリから削減することができる。 文献では、そのような方法はスパースプルーニングと呼ばれています。 基本的な質問は、いつ、どの重みを0に強制すべきかである。 刈り取られる。 本研究では,これらの問題に効果的に対処するための圧縮センシングベースプルーニング(CSP)手法を提案する。 スパースプルーニングをスパース性誘発と圧縮エラー低減の二重問題として再構成することで、従来の圧縮センシングプロセスをmlモデルトレーニングプロセスに導入する。 ASRタスクを例として、CSPが文学における既存のアプローチを一貫して上回ることを示す。

In order to achieve high accuracy for machine learning (ML) applications, it is essential to employ models with a large number of parameters. Certain applications, such as Automatic Speech Recognition (ASR), however, require real-time interactions with users, hence compelling the model to have as low latency as possible. Deploying large scale ML applications thus necessitates model quantization and compression, especially when running ML models on resource constrained devices. For example, by forcing some of the model weight values into zero, it is possible to apply zero-weight compression, which reduces both the model size and model reading time from the memory. In the literature, such methods are referred to as sparse pruning. The fundamental questions are when and which weights should be forced to zero, i.e. be pruned. In this work, we propose a compressed sensing based pruning (CSP) approach to effectively address those questions. By reformulating sparse pruning as a sparsity inducing and compression-error reduction dual problem, we introduce the classic compressed sensing process into the ML model training process. Using ASR task as an example, we show that CSP consistently outperforms existing approaches in the literature.
翻訳日:2021-02-10 15:19:36 公開日:2021-02-09
# 関数の分布としての生成モデル

Generative Models as Distributions of Functions ( http://arxiv.org/abs/2102.04776v1 )

ライセンス: Link先を確認
Emilien Dupont, Yee Whye Teh, Arnaud Doucet(参考訳) 生成モデルは通常、画像のようなグリッドのようなデータで訓練される。 その結果、これらのモデルのサイズは通常、基礎となるグリッド解像度で直接スケーリングされます。 本稿では,離散格子を放棄し,連続関数による個々のデータポイントのパラメータ化を行う。 そして、そのような関数上の分布を学習して生成モデルを構築する。 データポイントを関数として扱うことで、トレーニングするデータの種類を抽象化し、信号の解像度や寸法とは無関係にスケールするモデルを構築できます。 モデルのトレーニングには,連続的な信号に直接作用する判別器を用いた対角的手法を用いる。 画像と3次元形状の実験により,データ型や解像度によらず,関数の豊富な分布を学習できることを実証した。

Generative models are typically trained on grid-like data such as images. As a result, the size of these models usually scales directly with the underlying grid resolution. In this paper, we abandon discretized grids and instead parameterize individual data points by continuous functions. We then build generative models by learning distributions over such functions. By treating data points as functions, we can abstract away from the specific type of data we train on and construct models that scale independently of signal resolution and dimension. To train our model, we use an adversarial approach with a discriminator that acts directly on continuous signals. Through experiments on both images and 3D shapes, we demonstrate that our model can learn rich distributions of functions independently of data type and resolution.
翻訳日:2021-02-10 15:19:15 公開日:2021-02-09
# ホイールグラフアテンションネットワークを用いた関節インテント検出とスロット充填

Joint Intent Detection and Slot Filling with Wheel-Graph Attention Networks ( http://arxiv.org/abs/2102.04610v1 )

ライセンス: Link先を確認
Pengfei Wei, Bi Zeng and Wenxiong Liao(参考訳) インテント検出とスロット充填は、話し言葉理解(SLU)システムを構築するための2つの基本的なタスクです。 複数のディープラーニングベースジョイントモデルでは,2つのタスクに優れた結果が得られた。 本論文では,意図検出とスロット充填のために相互接続を直接モデル化できるホイールグラフアテンションネットワーク(Wheel-GAT)を備えた新しいジョイントモデルを提案する。 発話のためのグラフ構造を構築するために、意図ノード、スロットノード、有向エッジを作成する。 インテントノードはスロットフィリングのための発話レベルセマンティック情報を提供するが、スロットノードはインテントのためのローカルキーワード情報を提供することもできる。 実験により、我々のモデルは2つの公開データセット上で複数のベースラインを上回ります。 また,変換器(BERT)モデルを用いた双方向エンコーダ表現により,SLUタスクの性能がさらに向上することを示す。

Intent detection and slot filling are two fundamental tasks for building a spoken language understanding (SLU) system. Multiple deep learning-based joint models have demonstrated excellent results on the two tasks. In this paper, we propose a new joint model with a wheel-graph attention network (Wheel-GAT) which is able to model interrelated connections directly for intent detection and slot filling. To construct a graph structure for utterances, we create intent nodes, slot nodes, and directed edges. Intent nodes can provide utterance-level semantic information for slot filling, while slot nodes can also provide local keyword information for intent. Experiments show that our model outperforms multiple baselines on two public datasets. Besides, we also demonstrate that using Bidirectional Encoder Representation from Transformer (BERT) model further boosts the performance in the SLU task.
翻訳日:2021-02-10 15:19:04 公開日:2021-02-09
# whereを指さしながら語る:画像検索を改善するためのきめ細かなマウストレースと言語監督

Telling the What while Pointing the Where: Fine-grained Mouse Trace and Language Supervision for Improved Image Retrieval ( http://arxiv.org/abs/2102.04980v1 )

ライセンス: Link先を確認
Soravit Changpinyo, Jordi Pont-Tuset, Vittorio Ferrari, Radu Soricut(参考訳) 既存の画像検索システムは、テキストクエリを使用して、ユーザーが探しているものを自然かつ実用的な方法で表現する。 しかし、細かな画像検索には、探しているコンテンツがどこにあるかを表現する能力が必要となることが多い。 テキストのモダリティはそのような局所化の好みを煩雑に表現できるだけであり、一方、指摘は自然に適合する。 本稿では、ユーザが音声自然言語(「何」)とマウスの軌跡を空のキャンバス(「場所」)で同時に記述し、所望の目標画像の特徴を表現する画像検索装置について述べる。 そこで我々は,テキスト記述と同期マウストレースを早期に融合させることのできるLocalized Narrativesデータセットを用いて画像検索モデルを学習した。 定性的かつ定量的な実験により,本モデルはこの空間的ガイダンスを考慮し,テキストのみの等価システムと比較して精度の高い検索結果が得られることを示した。

Existing image retrieval systems use text queries to provide a natural and practical way for users to express what they are looking for. However, fine-grained image retrieval often requires the ability to also express the where in the image the content they are looking for is. The textual modality can only cumbersomely express such localization preferences, whereas pointing would be a natural fit. In this paper, we describe an image retrieval setup where the user simultaneously describes an image using both spoken natural language (the "what") and mouse traces over an empty canvas (the "where") to express the characteristics of the desired target image. To this end, we learn an image retrieval model using the Localized Narratives dataset, which is capable of performing early fusion between text descriptions and synchronized mouse traces. Qualitative and quantitative experiments show that our model is capable of taking this spatial guidance into account, and provides more accurate retrieval results compared to text-only equivalent systems.
翻訳日:2021-02-10 15:18:48 公開日:2021-02-09
# SG2Caps:イメージキャプションのためのシーングラフを再訪

SG2Caps: Revisiting Scene Graphs for Image Captioning ( http://arxiv.org/abs/2102.04990v1 )

ライセンス: Link先を確認
Subarna Tripathi and Kien Nguyen and Tanaya Guha and Bang Du and Truong Q. Nguyen(参考訳) メインストリームの画像キャプションモデルは、Convolutional Neural Network (CNN)イメージ機能に依存しており、繰り返しモデルを介してキャプションを生成するために、余計な地域やオブジェクトに注意を払っています。 近年,画像のシーングラフ表現はキャプションモデルの拡張に使われ,オブジェクトの実体や関係,属性などの構造的意味を活用できるようになっている。 いくつかの研究では、ブラックボックスのシーングラフ生成装置からのシーングラフの使用が画像キャプション性能を損なうことが指摘されており、シーングラフベースのキャプションモジュールは、適切なキャプションを生成するために画像特徴の明示的な使用のオーバーヘッドを発生させる必要がある。 これらの課題に対して、競合画像キャプション性能のためにシーングラフラベルのみを利用するフレームワークSG2Capsを提案します。 基本的なアイデアは、2つのシーングラフ間の意味的なギャップを埋めることです。1つは入力画像から、もう1つはキャプションからです。 これを実現するために,オブジェクトの空間的位置とHuman-Object-Interac tion (HOI) ラベルを追加のHOIグラフとして活用する。 本フレームワークは,既存のシーングラフのみのキャプションモデルよりも,シーングラフを画像キャプションの有望な表現として,大きなマージン(ciderスコア110対71)で上回っている。 シーングラフラベルの直接利用は、高次元CNN機能に対する高価なグラフ畳み込みを回避し、49%のトレーニング可能なパラメータをもたらす。

The mainstream image captioning models rely on Convolutional Neural Network (CNN) image features with an additional attention to salient regions and objects to generate captions via recurrent models. Recently, scene graph representations of images have been used to augment captioning models so as to leverage their structural semantics, such as object entities, relationships and attributes. Several studies have noted that naive use of scene graphs from a black-box scene graph generator harms image caption-ing performance, and scene graph-based captioning mod-els have to incur the overhead of explicit use of image features to generate decent captions. Addressing these challenges, we propose a framework, SG2Caps, that utilizes only the scene graph labels for competitive image caption-ing performance. The basic idea is to close the semantic gap between two scene graphs - one derived from the input image and the other one from its caption. In order to achieve this, we leverage the spatial location of objects and the Human-Object-Interac tion (HOI) labels as an additional HOI graph. Our framework outperforms existing scene graph-only captioning models by a large margin (CIDEr score of 110 vs 71) indicating scene graphs as a promising representation for image captioning. Direct utilization of the scene graph labels avoids expensive graph convolutions over high-dimensional CNN features resulting in 49%fewer trainable parameters.
翻訳日:2021-02-10 15:18:32 公開日:2021-02-09
# corrdetector:アンサンブルディープラーニングを用いたドローン画像からの構造腐食検出のためのフレームワーク

CorrDetector: A Framework for Structural Corrosion Detection from Drone Images using Ensemble Deep Learning ( http://arxiv.org/abs/2102.04686v1 )

ライセンス: Link先を確認
Abdur Rahim Mohammad Forkan, Yong-Bin Kang, Prem Prakash Jayaraman, Kewen Liao, Rohit Kaul, Graham Morgan, Rajiv Ranjan, Samir Sinha(参考訳) 本稿では, 構造腐食モニタリングの領域に自動画像解析を適用し, 従来の手法と比較して有効性が向上する新しい手法を提案する。 構造腐食モニタリングは、リスクベースの保守哲学の最初のステップであり、メンテナンスの財政コストとバランスのとれた建物の故障のリスクに関するエンジニアの評価に依存します。 これは、バックグラウンドノイズが多いため、人間が到達できない領域のドローン撮影画像による評価に制限された場合に、さらに複雑なヒューマンエラーの機会をもたらす。 この課題の重要性は,人工知能(AI)画像解析による腐食検出による技術者支援を目的とした,活発な研究コミュニティを推進している。 本稿では,この研究分野を,フレームワークcorrdetectorの開発とともに前進させる。 CorrDetectorは、畳み込みニューラルネットワーク(CNN)が支える新しいアンサンブルディープラーニングアプローチを使用して、構造識別と腐食特性抽出を行います。 複雑な構造の実画像(例)を用いた経験的評価を行う。 遠隔通信塔) エンジニアの典型的なシナリオである ドローンによって捕獲された 本研究は, \model のアンサンブルアプローチが分類精度において最先端を著しく上回っていることを示す。

In this paper, we propose a new technique that applies automated image analysis in the area of structural corrosion monitoring and demonstrate improved efficacy compared to existing approaches. Structural corrosion monitoring is the initial step of the risk-based maintenance philosophy and depends on an engineer's assessment regarding the risk of building failure balanced against the fiscal cost of maintenance. This introduces the opportunity for human error which is further complicated when restricted to assessment using drone captured images for those areas not reachable by humans due to many background noises. The importance of this problem has promoted an active research community aiming to support the engineer through the use of artificial intelligence (AI) image analysis for corrosion detection. In this paper, we advance this area of research with the development of a framework, CorrDetector. CorrDetector uses a novel ensemble deep learning approach underpinned by convolutional neural networks (CNNs) for structural identification and corrosion feature extraction. We provide an empirical evaluation using real-world images of a complicated structure (e.g. telecommunication tower) captured by drones, a typical scenario for engineers. Our study demonstrates that the ensemble approach of \model significantly outperforms the state-of-the-art in terms of classification accuracy.
翻訳日:2021-02-10 15:18:05 公開日:2021-02-09
# テキストの知識をエクスプロイトして視覚的推論を改善する

Improving Visual Reasoning by Exploiting The Knowledge in Texts ( http://arxiv.org/abs/2102.04760v1 )

ライセンス: Link先を確認
Sahand Sharifzadeh, Sina Moayed Baharlou, Martin Schmitt, Hinrich Sch\"utze, Volker Tresp(参考訳) 本稿では,ラベルの少ないテキストと画像の組み合わせから画像ベース分類器を学習するための新しい枠組みを提案する。 我々は、バックボーン、リレーショナル推論コンポーネント、および分類コンポーネントの3つのモジュールからなる分類フレームワークを検討する。 バックボーンは自己教師付き学習によってラベルなしの画像からトレーニングすることができるが、注釈付き画像ではなく、外部の知識ソースからのリレーショナル推論と分類コンポーネントを微調整することができる。 テキスト入力から構造化知識を生成するトランスベースモデルの提案により,テキストにおける知識の活用を可能にする。 注記画像の1%の教師付きベースラインと比較して,シーングラフの分類では8倍,オブジェクトの分類では3倍,述語分類では1.5倍の精度が得られることがわかった。

This paper presents a new framework for training image-based classifiers from a combination of texts and images with very few labels. We consider a classification framework with three modules: a backbone, a relational reasoning component, and a classification component. While the backbone can be trained from unlabeled images by self-supervised learning, we can fine-tune the relational reasoning and the classification components from external sources of knowledge instead of annotated images. By proposing a transformer-based model that creates structured knowledge from textual input, we enable the utilization of the knowledge in texts. We show that, compared to the supervised baselines with 1% of the annotated images, we can achieve ~8x more accurate results in scene graph classification, ~3x in object classification, and ~1.5x in predicate classification.
翻訳日:2021-02-10 15:17:48 公開日:2021-02-09
# 教師なし視覚表現学習のためのワンミリオンウェイインスタンス分類器の訓練

Train a One-Million-Way Instance Classifier for Unsupervised Visual Representation Learning ( http://arxiv.org/abs/2102.04848v1 )

ライセンス: Link先を確認
Yu Liu, Lianghua Huang, Pan Pan, Bin Wang, Yinghui Xu, Rong Jin(参考訳) 本稿では、パラメトリックなインスタンスレベル分類器を用いてデータセット内のすべての画像を識別するプリテキストタスクを備えた、単純な教師なし視覚表現学習手法を提案する。 全体的なフレームワークは教師付き分類モデルのレプリカであり、セマンティッククラス(例えば、犬、鳥、船)はインスタンスIDに置き換えられる。 しかし,数千のセマンティックラベルから数百万のインスタンスラベルへの分類タスクのスケールアップは,1)大規模ソフトマックス計算,2)インスタンスサンプルの頻度の低い訪問による緩やかな収束,3)ノイズの多い負のクラスの数など,特定の課題をもたらす。 本研究はこれらの課題に対処する新しい手法をいくつか提示する。 まず,大規模トレーニングを実現するためのハイブリッド並列トレーニングフレームワークを提案する。 第二に、分類重みの生機能初期化メカニズムを提示し、例えば、差別の前に対照的であり、実験で明らかに収束を加速することができると仮定する。 最後に、非常によく似た負のペアを最適化しないように、最も難しいクラスのラベルを滑らかにすることを提案する。 概念的にはシンプルだが,imagenet線形評価プロトコル下ではsimclr,mocov2,picといった最先端の非教師付きアプローチと,下流の視覚的タスクで比較して,完全なインスタンス分類が多くのセマンティックビジュアルタスクにおいて強力な事前学習技術であることを検証した。

This paper presents a simple unsupervised visual representation learning method with a pretext task of discriminating all images in a dataset using a parametric, instance-level classifier. The overall framework is a replica of a supervised classification model, where semantic classes (e.g., dog, bird, and ship) are replaced by instance IDs. However, scaling up the classification task from thousands of semantic labels to millions of instance labels brings specific challenges including 1) the large-scale softmax computation; 2) the slow convergence due to the infrequent visiting of instance samples; and 3) the massive number of negative classes that can be noisy. This work presents several novel techniques to handle these difficulties. First, we introduce a hybrid parallel training framework to make large-scale training feasible. Second, we present a raw-feature initialization mechanism for classification weights, which we assume offers a contrastive prior for instance discrimination and can clearly speed up converge in our experiments. Finally, we propose to smooth the labels of a few hardest classes to avoid optimizing over very similar negative pairs. While being conceptually simple, our framework achieves competitive or superior performance compared to state-of-the-art unsupervised approaches, i.e., SimCLR, MoCoV2, and PIC under ImageNet linear evaluation protocol and on several downstream visual tasks, verifying that full instance classification is a strong pretraining technique for many semantic visual tasks.
翻訳日:2021-02-10 15:17:34 公開日:2021-02-09
# Tillageのモニタリングと最適化のための残留密度セグメント化

Residue Density Segmentation for Monitoring and Optimizing Tillage Practices ( http://arxiv.org/abs/2102.04866v1 )

ライセンス: Link先を確認
Jennifer Hobbs, Ivan Dozier, Naira Hovakimyan(参考訳) 「ノーティル」とカバークロップは、農業における炭素隔離のための主要な単純で最良の管理慣行としてしばしば識別される。 しかし、この問題の根源はより複雑であり、フィールドの土壌タイプ(s)、地形、管理履歴など多くの要因に依存して、これらのアプローチの潜在的な利点がある。 コンピュータビジョンのアプローチを使用して、静止点とノーティルのフィールドを簡単に分類する代わりに、確率的ディープラーニングセグメンテーションアプローチを使用してフィールド全体の残留範囲の程度を特定し、カーボン保持電位と実現をより正確に分析できるようにします。 このアプローチは、現在実施されているプラクティスに対するより正確な洞察を提供するだけでなく、農業における炭素隔離に大きな影響を与える新しいプラクティスを採用する最大の可能性を持つフィールドのより正確な識別プロセスを可能にします。

"No-till" and cover cropping are often identified as the leading simple, best management practices for carbon sequestration in agriculture. However, the root of the problem is more complex, with the potential benefits of these approaches depending on numerous factors including a field's soil type(s), topography, and management history. Instead of using computer vision approaches to simply classify a field a still vs. no-till, we instead seek to identify the degree of residue coverage across afield through a probabilistic deep learning segmentation approach to enable more accurate analysis of carbon holding potential and realization. This approach will not only provide more precise insights into currently implemented practices, but also enable a more accurate identification process of fields with the greatest potential for adopting new practices to significantly impact carbon sequestration in agriculture.
翻訳日:2021-02-10 15:17:06 公開日:2021-02-09
# AttDMM:集中ケアユニットにおけるリスクスコアリングのための注意深いマルコフモデル

AttDMM: An Attentive Deep Markov Model for Risk Scoring in Intensive Care Units ( http://arxiv.org/abs/2102.04702v1 )

ライセンス: Link先を確認
Yilmazcan \"Ozyurt, Mathias Kraus, Tobias Hatt, Stefan Feuerriegel(参考訳) 集中治療室(ICU)における臨床実践は、患者の状態が悪化し、予防措置が講じられるように早期の警告が必要である。 この目的のために、ICUの死亡リスクを推定する予測アルゴリズムが開発された。 本稿では,ICUにおけるリアルタイムリスクスコアリングのための新しい生成的深層確率モデルを提案する。 具体的には、AttDMMと呼ばれる注意深いマルコフモデルを開発する。 私たちの知る限りでは、AttDMMは(注意による)長期疾患のダイナミクスと(潜伏変数モデルによる)健康軌道の異なる疾患状態の両方を共同で学習する最初のICU予測モデルである。 評価は, 53,423 ICU留置の確立されたベースラインデータセット(MIMIC-III)に基づいて行った。 AttDMMは0.876の受信機動作特性曲線(AUROC)の下の領域を達成し、最先端の方法よりも2.2%改善しました。 さらに、AttDMMのリスクスコアは数時間前に警告を提供しました。 そこで,本モデルは,患者を早期に発見し,患者の命を救えるように,リスクのある患者を特定するための道筋を示す。

Clinical practice in intensive care units (ICUs) requires early warnings when a patient's condition is about to deteriorate so that preventive measures can be undertaken. To this end, prediction algorithms have been developed that estimate the risk of mortality in ICUs. In this work, we propose a novel generative deep probabilistic model for real-time risk scoring in ICUs. Specifically, we develop an attentive deep Markov model called AttDMM. To the best of our knowledge, AttDMM is the first ICU prediction model that jointly learns both long-term disease dynamics (via attention) and different disease states in health trajectory (via a latent variable model). Our evaluations were based on an established baseline dataset (MIMIC-III) with 53,423 ICU stays. The results confirm that compared to state-of-the-art baselines, our AttDMM was superior: AttDMM achieved an area under the receiver operating characteristic curve (AUROC) of 0.876, which yielded an improvement over the state-of-the-art method by 2.2%. In addition, the risk score from the AttDMM provided warnings several hours earlier. Thereby, our model shows a path towards identifying patients at risk so that health practitioners can intervene early and save patient lives.
翻訳日:2021-02-10 15:16:44 公開日:2021-02-09
# ランダム深部行動条件予測による学習状態表現

Learning State Representations from Random Deep Action-conditional Predictions ( http://arxiv.org/abs/2102.04897v1 )

ライセンス: Link先を確認
Zeyu Zheng, Vivek Veeriah, Risto Vuorio, Richard Lewis, Satinder Singh(参考訳) 本稿では,時間拡散ネットワーク(tdネットワーク)によって定義される補助的予測タスクについて検討する。これらのネットワークは,tdで効率的に学習可能な一般値関数(gvf)予測対象のリッチ空間を表現するための言語である。 図解的領域の解析を通じて,行動条件予測と時間的深い予測の両方を含む,tdネットワークの完全な豊かさを利用する状態表現を学ぶことの利点を示す。 私たちの主な(そしておそらく驚くべき)結果は、ランダムな機能についてのランダムな予測質問を作成するランダムな構造を持つディープアクション条件付きTDネットワークは、AtariゲームとDeepMind Labタスクの両方で最先端の手作り値予測とピクセル制御補助タスクと競合する状態表現をもたらします。 また,これらの教師なしランダムtdネットワーク予測タスクのみを通して状態表現を学習することで,エンド・ツー・エンドのアクタ-批判ベースラインよりも優れたエージェントが得られることを示す。

In this work, we study auxiliary prediction tasks defined by temporal-difference networks (TD networks); these networks are a language for expressing a rich space of general value function (GVF) prediction targets that may be learned efficiently with TD. Through analysis in an illustrative domain we show the benefits to learning state representations of exploiting the full richness of TD networks, including both action-conditional predictions and temporally deep predictions. Our main (and perhaps surprising) result is that deep action-conditional TD networks with random structures that create random prediction-questions about random features yield state representations that are competitive with state-of-the-art hand-crafted value prediction and pixel control auxiliary tasks in both Atari games and DeepMind Lab tasks. We also show through stop-gradient experiments that learning the state representations solely via these unsupervised random TD network prediction tasks yield agents that outperform the end-to-end-trained actor-critic baseline.
翻訳日:2021-02-10 15:16:22 公開日:2021-02-09
# Pairwise Weights for Temporal Credit Assignment

Pairwise Weights for Temporal Credit Assignment ( http://arxiv.org/abs/2102.04999v1 )

ライセンス: Link先を確認
Zeyu Zheng, Risto Vuorio, Richard Lewis, Satinder Singh(参考訳) 州の行動が将来の報酬を得るには、どのくらいの信用(または責任)が必要ですか? これは強化学習(RL)における基本的な時間的信用割当問題である。 最も早く、まだ最も広く使用されているヒューリスティックスの1つは、状態作用と報酬の間の時間間隔のパワーに引き上げられたスカラー係数$\lambda$(ハイパーパラメータとして処理される)に基づいてこのクレジットを割り当てることである。 本稿では,アクションが取られた状態,報酬の時点の状態,および2つの状態の間の時間間隔である,より一般的なペアワイズ重み付けに基づくヒューリスティックスについて検討する。 もちろん、これらのペアワイズ重み関数がどのようなもので、ハイパーパラメータとして扱うには複雑すぎるため、ポリシーの通常のrlトレーニング中にこれらの重み関数を学ぶためのメタグラデーション手順を開発します。 私たちの実証的な研究は、競合するアプローチよりも優れたパフォーマンスを達成するためにポリシーの学習中にこれらのペアワイズウェイト関数を学ぶことがしばしば可能であることを示しています。

How much credit (or blame) should an action taken in a state get for a future reward? This is the fundamental temporal credit assignment problem in Reinforcement Learning (RL). One of the earliest and still most widely used heuristics is to assign this credit based on a scalar coefficient $\lambda$ (treated as a hyperparameter) raised to the power of the time interval between the state-action and the reward. In this empirical paper, we explore heuristics based on more general pairwise weightings that are functions of the state in which the action was taken, the state at the time of the reward, as well as the time interval between the two. Of course it isn't clear what these pairwise weight functions should be, and because they are too complex to be treated as hyperparameters we develop a metagradient procedure for learning these weight functions during the usual RL training of a policy. Our empirical work shows that it is often possible to learn these pairwise weight functions during learning of the policy to achieve better performance than competing approaches.
翻訳日:2021-02-10 15:16:00 公開日:2021-02-09
# SLAPS:自己監督はグラフニューラルネットワークの構造学習を改善する

SLAPS: Self-Supervision Improves Structure Learning for Graph Neural Networks ( http://arxiv.org/abs/2102.05034v1 )

ライセンス: Link先を確認
Bahare Fatemi, Layla El Asri, Seyed Mehran Kazemi(参考訳) グラフ構造が提供されるとき、グラフニューラルネットワーク(GNN)はうまく機能する。 しかし、この構造は現実世界のアプリケーションでは必ずしも利用できない。 この問題の解決策の1つは、タスク固有の潜在構造を推論し、それから推定グラフにGNNを適用することである。 残念ながら、可能なグラフ構造の空間はノード数とともに指数関数的に増加するため、タスク固有の監督は構造とGNNパラメータの両方を学ぶのに不十分である。 本稿では,自己スーパービジョンによるグラフ構造推定のためのより監督的な手法であるslapsを用いて,隣接度とgnnパラメータを同時に学習する手法を提案する。 包括的な実験的研究では、SLAPSが数十万のノードを持つ大きなグラフにスケールし、確立されたベンチマーク上のタスク固有のグラフ構造を学ぶために提案されたいくつかのモデルを上回ることを実証しています。

Graph neural networks (GNNs) work well when the graph structure is provided. However, this structure may not always be available in real-world applications. One solution to this problem is to infer a task-specific latent structure and then apply a GNN to the inferred graph. Unfortunately, the space of possible graph structures grows super-exponentially with the number of nodes and so the task-specific supervision may be insufficient for learning both the structure and the GNN parameters. In this work, we propose the Simultaneous Learning of Adjacency and GNN Parameters with Self-supervision, or SLAPS, a method that provides more supervision for inferring a graph structure through self-supervision. A comprehensive experimental study demonstrates that SLAPS scales to large graphs with hundreds of thousands of nodes and outperforms several models that have been proposed to learn a task-specific graph structure on established benchmarks.
翻訳日:2021-02-10 15:15:42 公開日:2021-02-09
# 重みHybrid-Samplingを用いたエンサンブル法に基づく不均衡信用スコアリングデータセットの分類

Classification of Imbalanced Credit scoring data sets Based on Ensemble Method with the Weighted-Hybrid-Samp ling ( http://arxiv.org/abs/2102.04721v1 )

ライセンス: Link先を確認
Xiaofan Liua, Zuoquan Zhanga, Di Wanga(参考訳) ビッグデータの時代には、申請者の信用リスクを正確に判断するためのクレジット・スケーリング・モデルの利用がトレンドとなっている。 従来のクレジットスコアデータセットでの機械学習はマイノリティクラスの分類に乏しい傾向にあり、銀行にとって大きな商業的被害をもたらす可能性がある。 不均衡データセットを分類するために,重み付きハイブリッドサンプリングブースト(whsboost)という新しいアンサンブルアルゴリズムを提案する。 データサンプリングでは、重み付き不均衡データセットをWeighted-SMOTE法とWeighted-Under-Sampl ing法で処理し、同重のバランス付きトレーニングサンプルデータセットを得る。 アンサンブルアルゴリズムでは、ベース分類器を訓練するたびに、上記の方法によってバランスの取れたデータセットが与えられる。 whsboostアルゴリズムの適用性とロバスト性を検証するために,svm,bpnn,dt,knに基づくsmote,smoteboost,hsb oostとwhsboostを比較し,シミュレーションデータセット,実ベンチマークデータセット,実クレジットスコアデータセットについて実験を行った。

In the era of big data, the utilization of credit-scoring models to determine the credit risk of applicants accurately becomes a trend in the future. The conventional machine learning on credit scoring data sets tends to have poor classification for the minority class, which may bring huge commercial harm to banks. In order to classify imbalanced data sets, we propose a new ensemble algorithm, namely, Weighted-Hybrid-Samp ling-Boost (WHSBoost). In data sampling, we process the imbalanced data sets with weights by the Weighted-SMOTE method and the Weighted-Under-Sampl ing method, and thus obtain a balanced training sample data set with equal weight. In ensemble algorithm, each time we train the base classifier, the balanced data set is given by the method above. In order to verify the applicability and robustness of the WHSBoost algorithm, we performed experiments on the simulation data sets, real benchmark data sets and real credit scoring data sets, comparing WHSBoost with SMOTE, SMOTEBoost and HSBoost based on SVM, BPNN, DT and KNN.
翻訳日:2021-02-10 15:15:29 公開日:2021-02-09
# 連続時間モデルに基づく強化学習

Continuous-Time Model-Based Reinforcement Learning ( http://arxiv.org/abs/2102.04764v1 )

ライセンス: Link先を確認
\c{C}a\u{g}atay Y{\i}ld{\i}z, Markus Heinonen, and Harri L\"ahdesm\"aki(参考訳) モデルベース強化学習(MBRL)アプローチは離散時間状態遷移モデルに依存しているが、物理的システムと制御タスクの大部分は連続時間で動作する。 プロセスの時間差分近似を避けるために,新しいアクター・クリティカルな手法に基づく連続時間MBRLフレームワークを提案する。 また, ベイズ型ニューラル常微分方程式 (ODE) と未知の状態進化差を推定し, てんかんの不確実性を考慮した。 我々は,連続時間制御システムを明示的に解決する新しいode-rlスイートの実装とテストを行う。 実験では, モデルが不規則でノイズの多いデータに対して頑健であり, サンプル効率が良く, 離散時間MBRL法に挑戦する制御問題を解くことができることを示した。

Model-based reinforcement learning (MBRL) approaches rely on discrete-time state transition models whereas physical systems and the vast majority of control tasks operate in continuous-time. To avoid time-discretization approximation of the underlying process, we propose a continuous-time MBRL framework based on a novel actor-critic method. Our approach also infers the unknown state evolution differentials with Bayesian neural ordinary differential equations (ODE) to account for epistemic uncertainty. We implement and test our method on a new ODE-RL suite that explicitly solves continuous-time control systems. Our experiments illustrate that the model is robust against irregular and noisy data, is sample-efficient, and can solve control problems which pose challenges to discrete-time MBRL methods.
翻訳日:2021-02-10 15:15:07 公開日:2021-02-09
# カスケード流による自動変動推論

Automatic variational inference with cascading flows ( http://arxiv.org/abs/2102.04801v1 )

ライセンス: Link先を確認
Luca Ambrogioni, Gianluigi Silvestri and Marcel van Gerven(参考訳) 確率的推論の自動化は、機械学習の主な目的の1つです。 近年,変分推論と深層学習の相違により,確率勾配勾配による学習が可能な,強力で柔軟な自動推論法が生み出されている。 特に、正規化フローは、任意に複雑な後方密度に適合する非常にパラメータ化された深いモデルである。 しかし、正規化フローはプログラムの前方通過を再学習する必要があるため、高度に構造化された確率的プログラムで苦労する。 自動構造化変分推論(ASVI)は、前方通過を埋め込んだ変分プログラムを構築することでこの問題を修正する。 そこで我々は,流れの正規化の柔軟性とASVIの事前埋め込み特性を,カスケードフローと名付けた新しい変分プログラムの族に組み合わせた。 cascading flowプログラムは、新たに設計されたハイウェイフローアーキテクチャを、観測データに向かって制御するなど、前プログラムの条件分布の間に介在させる。 これらのプログラムは入力確率プログラムから自動的に構築でき、自動的に再生することもできる。 我々は,一連の構造的推論問題において,新しい変分プログラムの性能を評価する。 カスケードフローは,多数の構造的推論問題において,流れの正規化とASVIの両方よりもはるかに高い性能を有することがわかった。

The automation of probabilistic reasoning is one of the primary aims of machine learning. Recently, the confluence of variational inference and deep learning has led to powerful and flexible automatic inference methods that can be trained by stochastic gradient descent. In particular, normalizing flows are highly parameterized deep models that can fit arbitrarily complex posterior densities. However, normalizing flows struggle in highly structured probabilistic programs as they need to relearn the forward-pass of the program. Automatic structured variational inference (ASVI) remedies this problem by constructing variational programs that embed the forward-pass. Here, we combine the flexibility of normalizing flows and the prior-embedding property of ASVI in a new family of variational programs, which we named cascading flows. A cascading flows program interposes a newly designed highway flow architecture in between the conditional distributions of the prior program such as to steer it toward the observed data. These programs can be constructed automatically from an input probabilistic program and can also be amortized automatically. We evaluate the performance of the new variational programs in a series of structured inference problems. We find that cascading flows have much higher performance than both normalizing flows and ASVI in a large set of structured inference problems.
翻訳日:2021-02-10 15:14:53 公開日:2021-02-09
# RMOPP: 効果的なオブジェクト検出のためのロバストな多目的後処理

RMOPP: Robust Multi-Objective Post-Processing for Effective Object Detection ( http://arxiv.org/abs/2102.04582v1 )

ライセンス: Link先を確認
Mayuresh Savargaonkar, Abdallah Chehade and Samir Rawashdeh(参考訳) 過去数十年間、ニューラルネットワークの力を利用して物体をほぼリアルタイムで検出する多くのアーキテクチャが開発されてきた。 このようなシステムのトレーニングには、複数のGPUと大量のラベル付きトレーニングデータセットにかなりの時間を要する。 これらのシステムの目標は汎用性であるが、柔軟性、堅牢性、スピードの問題などにより、現実のアプリケーションでは実用的でないことが多い。 本稿では,RMOPPを提案する: 高速な事前学習対象検出器の性能を高速に向上する,頑健な多目的後処理アルゴリズムを提案する。 特に、rmoppは、精度とリコールの同時最適化を可能にする統計駆動後処理アルゴリズムである。 RMOPPのユニークな特徴は、精度とリコールの両方を最適化するために支配的な後処理検出器を識別するParetoフロンティアです。 RMOPPは、事前訓練された物体検出器の完全なポテンシャルを探索し、ほぼリアルタイムで予測できる。 また、MS-COCOデータセットを用いてYOLOv2上で魅力的なテストケースを提供する。

Over the last few decades, many architectures have been developed that harness the power of neural networks to detect objects in near real-time. Training such systems requires substantial time across multiple GPUs and massive labeled training datasets. Although the goal of these systems is generalizability, they are often impractical in real-life applications due to flexibility, robustness, or speed issues. This paper proposes RMOPP: A robust multi-objective post-processing algorithm to boost the performance of fast pre-trained object detectors with a negligible impact on their speed. Specifically, RMOPP is a statistically driven, post-processing algorithm that allows for simultaneous optimization of precision and recall. A unique feature of RMOPP is the Pareto frontier that identifies dominant possible post-processed detectors to optimize for both precision and recall. RMOPP explores the full potential of a pre-trained object detector and is deployable for near real-time predictions. We also provide a compelling test case on YOLOv2 using the MS-COCO dataset.
翻訳日:2021-02-10 15:14:36 公開日:2021-02-09
# 画像・映像データ解析のための物体検出器の組み立て

Ensembling object detectors for image and video data analysis ( http://arxiv.org/abs/2102.04798v1 )

ライセンス: Link先を確認
Kateryna Chumachenko, Jenni Raitoharju, Alexandros Iosifidis, Moncef Gabbouj(参考訳) 本稿では,画像データのバウンディングボックスの検出性能と精度を向上させるために,複数の物体検出器の出力をセンシングする手法を提案する。 さらに,2段階追跡に基づく検出精度向上手法を提案することで,映像データに拡張する。 提案手法は,オブジェクト検出性能向上のためのスタンドアロンアプローチとして,あるいは未確認データセットのボックスアノテーションを高速にバウンディングするためのフレームワークの一部として,興味のあるオブジェクトがいくつかの公開データセットに存在することを前提として使用することができる。

In this paper, we propose a method for ensembling the outputs of multiple object detectors for improving detection performance and precision of bounding boxes on image data. We further extend it to video data by proposing a two-stage tracking-based scheme for detection refinement. The proposed method can be used as a standalone approach for improving object detection performance, or as a part of a framework for faster bounding box annotation in unseen datasets, assuming that the objects of interest are those present in some common public datasets.
翻訳日:2021-02-10 15:14:22 公開日:2021-02-09
# より多く -- 分類ヘッドを追加して一般化ギャップを絞り込む

More Is More -- Narrowing the Generalization Gap by Adding Classification Heads ( http://arxiv.org/abs/2102.04924v1 )

ライセンス: Link先を確認
Roee Cates, Daphna Weinshall(参考訳) オーバーフィットは、一般的に機械学習、特にディープラーニングにおいて根本的な問題です。 画像の分類におけるオーバーフィットを減らし、一般化を改善するために、回転や反射などの変換群に不変性を用いるものもある。 しかし、全てのオブジェクトが必ずしも同じ不変性を示すわけではないため、ネットワークがデータから有用な不変性を学ぶことが望ましいと考えられる。 そのために、自己監督を動機に、「TransNet」と呼ばれる入力変換に基づく既存のニューラルネットワークモデルのアーキテクチャ強化と、それに適したトレーニングアルゴリズムを紹介します。 私達のモデルは訓練の時間だけに使用し、そして予測のためにpruned、基礎モデルに等価なアーキテクチャで起因します。 そこで,本研究では,基本モデルにおける最後の層の畳み込み核に対してソフト不変性を強制することで実現する一般化の改善を示しながら,各データセットのパフォーマンスを改善できることを示した。 提案手法をサポートするために理論解析を行う。

Overfit is a fundamental problem in machine learning in general, and in deep learning in particular. In order to reduce overfit and improve generalization in the classification of images, some employ invariance to a group of transformations, such as rotations and reflections. However, since not all objects exhibit necessarily the same invariance, it seems desirable to allow the network to learn the useful level of invariance from the data. To this end, motivated by self-supervision, we introduce an architecture enhancement for existing neural network models based on input transformations, termed 'TransNet', together with a training algorithm suitable for it. Our model can be employed during training time only and then pruned for prediction, resulting in an equivalent architecture to the base model. Thus pruned, we show that our model improves performance on various data-sets while exhibiting improved generalization, which is achieved in turn by enforcing soft invariance on the convolutional kernels of the last layer in the base model. Theoretical analysis is provided to support the proposed method.
翻訳日:2021-02-10 15:14:11 公開日:2021-02-09
# 収束シミュレート駆動探索による物体検出のためのロス関数探索

Loss Function Discovery for Object Detection via Convergence-Simulati on Driven Search ( http://arxiv.org/abs/2102.04700v1 )

ライセンス: Link先を確認
Peidong Liu, Gengwei Zhang, Bochao Wang, Hang Xu, Xiaodan Liang, Yong Jiang, Zhenguo Li(参考訳) ビジョンタスクのための適切な損失関数の設計は、既存のモデルの能力を促進するための長年の研究方向であった。 オブジェクト検出では,学習課題の多種多様を考慮した分類と回帰損失関数が慎重に設計されている。 ネットワークアーキテクチャ検索の最近の進歩に触発されて、プリミティブ操作の組み合わせを直接検索することで、新しい損失関数の定式化を発見できる可能性を探ることが興味深い。 そのため、学習した損失は、巨大な人間の努力を和らげる様々な物体検出課題に適合するだけでなく、評価メトリックと優れた数学的収束特性との整合性も向上する。 これまでの顔認識と画像分類に関するオートロス以外にも,プリミティブな操作レベルから課題となる物体検出のための新たな損失関数を初めて発見する試みを行っている。 CSE-Autoloss と呼ばれる効果的な収束シミュレーション駆動進化探索アルゴリズムを提案し、収束特性検証とモデル最適化シミュレーションにより、損失候補の数学的合理性を正規化することで検索の進捗を高速化します。 CSE-Autolossは、既存の損失の様々なバリエーションをカバーする検索空間を包含し、短い時間(約1.5ウォールクロック日)で最良の損失関数の組み合わせを発見する。 ポピュラーディテクタにおける損失関数探索の広範な評価を行い、多様なアーキテクチャやデータセットにわたる探索損失の良好な一般化能力を検証します。 実験の結果,COCO上の2段検出器と1段検出器のmAPにおいて,最適損失関数の組み合わせは1.1%,0.8%を上回った。 検索した損失はhttps://github.com/P erdonLiu/CSE-Autolos s.comで確認できる。

Designing proper loss functions for vision tasks has been a long-standing research direction to advance the capability of existing models. For object detection, the well-established classification and regression loss functions have been carefully designed by considering diverse learning challenges. Inspired by the recent progress in network architecture search, it is interesting to explore the possibility of discovering new loss function formulations via directly searching the primitive operation combinations. So that the learned losses not only fit for diverse object detection challenges to alleviate huge human efforts, but also have better alignment with evaluation metric and good mathematical convergence property. Beyond the previous auto-loss works on face recognition and image classification, our work makes the first attempt to discover new loss functions for the challenging object detection from primitive operation levels. We propose an effective convergence-simulati on driven evolutionary search algorithm, called CSE-Autoloss, for speeding up the search progress by regularizing the mathematical rationality of loss candidates via convergence property verification and model optimization simulation. CSE-Autoloss involves the search space that cover a wide range of the possible variants of existing losses and discovers best-searched loss function combination within a short time (around 1.5 wall-clock days). We conduct extensive evaluations of loss function search on popular detectors and validate the good generalization capability of searched losses across diverse architectures and datasets. Our experiments show that the best-discovered loss function combinations outperform default combinations by 1.1% and 0.8% in terms of mAP for two-stage and one-stage detectors on COCO respectively. Our searched losses are available at https://github.com/P erdonLiu/CSE-Autolos s.
翻訳日:2021-02-10 15:13:54 公開日:2021-02-09
# Reverb: エクスペリエンスのリプレイのためのフレームワーク

Reverb: A Framework For Experience Replay ( http://arxiv.org/abs/2102.04736v1 )

ライセンス: Link先を確認
Albin Cassirer, Gabriel Barth-Maron, Eugene Brevdo, Sabela Ramos, Toby Boyd, Thibault Sottiaux, Manuel Kroiss(参考訳) Reinforcement Learning (RL) におけるトレーニングの中心的なコンポーネントは Experience: トレーニングに使用されるデータである。 このデータの生成と消費に使用されるメカニズムは、RLアルゴリズムの性能に重要な影響を及ぼす。 本稿では,RLでの経験的リプレイ用に設計された,効率的で拡張性があり,使いやすいシステムであるReverbを紹介する。 Reverbは、最大数千の同時クライアントを持つ分散構成で効率的に動作するように設計されている。 フレキシブルなAPIは、リプレイバッファを簡単かつ正確に設定するためのツールを提供する。 バッファから要素を選択し削除する戦略や、サンプリングされた要素と挿入された要素の比率を制御するオプションが含まれている。 本稿では,Reverbのコア設計について述べるとともに,その適用例を示し,Reverbの性能特性の実証結果を提供する。

A central component of training in Reinforcement Learning (RL) is Experience: the data used for training. The mechanisms used to generate and consume this data have an important effect on the performance of RL algorithms. In this paper, we introduce Reverb: an efficient, extensible, and easy to use system designed specifically for experience replay in RL. Reverb is designed to work efficiently in distributed configurations with up to thousands of concurrent clients. The flexible API provides users with the tools to easily and accurately configure the replay buffer. It includes strategies for selecting and removing elements from the buffer, as well as options for controlling the ratio between sampled and inserted elements. This paper presents the core design of Reverb, gives examples of how it can be applied, and provides empirical results of Reverb's performance characteristics.
翻訳日:2021-02-10 15:12:51 公開日:2021-02-09
# 強化組織制御と階層的コンセンサス学習による構造的多様性の出現

Structured Diversification Emergence via Reinforced Organization Control and Hierarchical Consensus Learning ( http://arxiv.org/abs/2102.04775v1 )

ライセンス: Link先を確認
Wenhao Li, Xiangfeng Wang, Bo Jin, Junjie Sheng, Yun Hua and Hongyuan Zha(参考訳) 複雑なタスクを解決するとき、人間は自発的にチームを形成し、タスク全体のさまざまな部分を完了します。 一方、チームメイト間の協力によって効率が向上する。 しかしながら、現在の協調的marl手法では、協調チームはヒューリスティックスまたはエンドツーエンドブラックボックス最適化によって構築される。 協力と探索の効率を改善するために、強化された組織制御と階層的コンセンサス学習に基づいて、構造化された多様化出現MARLフレームワーク {\sc{Rochico}} を提案する。 {\sc{Rochico}} はまず、独立したマルチエージェント強化学習によって確立された組織制御モジュールを通じて適応的グループ化政策を学習する。 さらに、コンセンサス制約を伴う階層的意図に基づく階層的コンセンサスモジュールをチーム形成後に導入する。 同時に、階層型コンセンサスモジュールと自己教師型固有報酬強化決定モジュールを利用して、提案した協調MARLアルゴリズムは、最終多様化されたマルチエージェント協調政策を出力することができる。 これら3つのモジュールは、構造的な多様化を促進するために有機的に結合される。 4つの大規模協調タスクにおける比較実験は、探索効率と協力力の観点から、現在のsomaアルゴリズムよりも有意に優れていることを示している。

When solving a complex task, humans will spontaneously form teams and to complete different parts of the whole task, respectively. Meanwhile, the cooperation between teammates will improve efficiency. However, for current cooperative MARL methods, the cooperation team is constructed through either heuristics or end-to-end blackbox optimization. In order to improve the efficiency of cooperation and exploration, we propose a structured diversification emergence MARL framework named {\sc{Rochico}} based on reinforced organization control and hierarchical consensus learning. {\sc{Rochico}} first learns an adaptive grouping policy through the organization control module, which is established by independent multi-agent reinforcement learning. Further, the hierarchical consensus module based on the hierarchical intentions with consensus constraint is introduced after team formation. Simultaneously, utilizing the hierarchical consensus module and a self-supervised intrinsic reward enhanced decision module, the proposed cooperative MARL algorithm {\sc{Rochico}} can output the final diversified multi-agent cooperative policy. All three modules are organically combined to promote the structured diversification emergence. Comparative experiments on four large-scale cooperation tasks show that {\sc{Rochico}} is significantly better than the current SOTA algorithms in terms of exploration efficiency and cooperation strength.
翻訳日:2021-02-10 15:12:41 公開日:2021-02-09
# 信号媒介戦略による周辺環境におけるマルチエージェントコーディネーション

Multi-Agent Coordination in Adversarial Environments through Signal Mediated Strategies ( http://arxiv.org/abs/2102.05026v1 )

ライセンス: Link先を確認
Federico Cacciamani, Andrea Celli, Marco Ciccone, Nicola Gatti(参考訳) 多くの現実世界のシナリオには、共通の目標を達成するために行動を調整する必要があるエージェントのチームが含まれる。 我々は、エージェントのチームがゼロサムで不完全な情報ゲームで対戦相手と対面する設定にフォーカスする。 チームのメンバーは、ゲームの開始前に戦略を調整することができますが、ゲームのプレイフェーズ中に通信することはできません。 これは例えば、ブリッジ、ポーカーにおける共謀、入札における共謀などである。 この設定では、エージェントのポリシーが分散的に実行されるため、モデルフリーのRLメソッドはコーディネーションをキャプチャできないことが多い。 我々の最初の貢献は、チームのコーディネーションを促進するために軌道サンプリングを効果的に行うゲーム理論集中型トレーニングレギュラーである。 チームメンバがお互いの行動を観察できれば、このアプローチが平衡戦略を証明できることがわかる。 次に,過去の経験をバッファーとして,チームの協調戦略を表現するためのシグナリングベースのフレームワークを提案する。 各チームメンバーの方針は、学習された確率分布から引き出された適切な外因性信号に出力が条件付けられたニューラルネットワークとしてパラメータ化される。 これら2つの要素を組み合わせることで、従来の最先端マルチエージェントRLアルゴリズムが実現しなかった場合の座標平衡への収束を実証的に示す。

Many real-world scenarios involve teams of agents that have to coordinate their actions to reach a shared goal. We focus on the setting in which a team of agents faces an opponent in a zero-sum, imperfect-informatio n game. Team members can coordinate their strategies before the beginning of the game, but are unable to communicate during the playing phase of the game. This is the case, for example, in Bridge, collusion in poker, and collusion in bidding. In this setting, model-free RL methods are oftentimes unable to capture coordination because agents' policies are executed in a decentralized fashion. Our first contribution is a game-theoretic centralized training regimen to effectively perform trajectory sampling so as to foster team coordination. When team members can observe each other actions, we show that this approach provably yields equilibrium strategies. Then, we introduce a signaling-based framework to represent team coordinated strategies given a buffer of past experiences. Each team member's policy is parametrized as a neural network whose output is conditioned on a suitable exogenous signal, drawn from a learned probability distribution. By combining these two elements, we empirically show convergence to coordinated equilibria in cases where previous state-of-the-art multi-agent RL algorithms did not.
翻訳日:2021-02-10 15:12:22 公開日:2021-02-09
# 分散還元型ハミルトニアンモンテカルロの新しい枠組み

A New Framework for Variance-Reduced Hamiltonian Monte Carlo ( http://arxiv.org/abs/2102.04613v1 )

ライセンス: Link先を確認
Zhengmian Hu, Feihu Huang, Heng Huang(参考訳) 偏りと偏りのない分散低減法の統一的な定式化に基づいて,l$-smooth と $m$-strongly log-concave 分布からサンプリングするための分散還元型モンテカルロ法(hmc)の新しい枠組みを提案する。 Mean-Squared-Error-B ias(MSEB)特性を満たす勾配推定器を用いてHMCの収束特性を検討する。 我々は、SAGAおよびSVRGを含む偏りのない勾配推定器は、HMC法に基づいて、高精度な体制下での小さなバッチサイズで最高勾配効率を達成し、$\tilde{O}(N + \kappa^2 d^{\frac{1}{2}} \varepsilon^{-1} + N^{\frac{2}{3}} \kappa^{\frac{4}{3}} d^{\frac{1}{3}} \varepsilon^{-\frac{2}{3}} )$ 勾配の複雑さを2-Waserstein距離で実現することを示した。 さらに、SARAH や SARGE のような偏り勾配推定器を持つ HMC 法は、 $\tilde{O}(N+\sqrt{N} \kappa^2 d^{\frac{1}{2}} \varepsilon^{-1})$ 勾配複雑性を必要とし、条件番号 $\kappa$ と次元 $d$ に同じ依存性を持つが、サンプルサイズ $N$ を $N^\frac{1}{2}$ の因子に対して改善する。 合成および実世界のベンチマークデータによる実験結果から、我々の新しいフレームワークは、完全な勾配勾配と確率勾配HMCアプローチを著しく上回っていることが示された。 この論文の初期のバージョンは3つの弱い受け入れを持つICML 2020に提出されましたが、最終的に受け入れられませんでした。

We propose a new framework of variance-reduced Hamiltonian Monte Carlo (HMC) methods for sampling from an $L$-smooth and $m$-strongly log-concave distribution, based on a unified formulation of biased and unbiased variance reduction methods. We study the convergence properties for HMC with gradient estimators which satisfy the Mean-Squared-Error-B ias (MSEB) property. We show that the unbiased gradient estimators, including SAGA and SVRG, based HMC methods achieve highest gradient efficiency with small batch size under high precision regime, and require $\tilde{O}(N + \kappa^2 d^{\frac{1}{2}} \varepsilon^{-1} + N^{\frac{2}{3}} \kappa^{\frac{4}{3}} d^{\frac{1}{3}} \varepsilon^{-\frac{2}{3}} )$ gradient complexity to achieve $\epsilon$-accuracy in 2-Wasserstein distance. Moreover, our HMC methods with biased gradient estimators, such as SARAH and SARGE, require $\tilde{O}(N+\sqrt{N} \kappa^2 d^{\frac{1}{2}} \varepsilon^{-1})$ gradient complexity, which has the same dependency on condition number $\kappa$ and dimension $d$ as full gradient method, but improves the dependency of sample size $N$ for a factor of $N^\frac{1}{2}$. Experimental results on both synthetic and real-world benchmark data show that our new framework significantly outperforms the full gradient and stochastic gradient HMC approaches. The earliest version of this paper was submitted to ICML 2020 with three weak accept but was not finally accepted.
翻訳日:2021-02-10 15:11:34 公開日:2021-02-09
# 定常通信複雑性を有する不均質データに対するFederated Deep AUC Maximization

Federated Deep AUC Maximization for Heterogeneous Data with a Constant Communication Complexity ( http://arxiv.org/abs/2102.04635v1 )

ライセンス: Link先を確認
Zhuoning Yuan, Zhishuai Guo, Yi Xu, Yiming Ying, Tianbao Yang(参考訳) アンダーライン{D}eep \underline{A}UC (ROC曲線の下での領域) \underline{M}aximization (DAM) は、不均衡なデータ分類の可能性から近年注目されている。 しかし、 \underline{F}ederated \underline{D}eep \underline{A}UC \underline{M}aximization (FDAM) の研究はまだ限定的である。 分解可能な最小化目的に焦点を当てた標準フェデレーションラーニング(FL)アプローチと比較して、FDAMは個々の例よりも最小化目的が分解不可能であるため、より複雑です。 本稿では,DAMの非凸強度のmin-max定式化を分散方式で解くことにより,異種データに対するFDAMアルゴリズムの改良を提案する。 本論文の顕著な結果は,提案アルゴリズムの通信複雑性は,機械数に依存せず,また精度レベルにも依存せず,既存の結果を桁違いに改善するものである。 また,提案アルゴリズムは非凸強凸最小問題のクラスにも適用可能である。 この実験は、ベンチマークデータセット、および異なる組織からの医療胸部X線画像に対するFDAMアルゴリズムの有効性を実証しています。 実験の結果,複数の病院のデータを用いたFDAMの性能は,胸部X線写真に基づく生命を脅かす疾患を検出するために,1つの病院の検査データに対するAUCスコアを改善できることがわかった。

\underline{D}eep \underline{A}UC (area under the ROC curve) \underline{M}aximization (DAM) has attracted much attention recently due to its great potential for imbalanced data classification. However, the research on \underline{F}ederated \underline{D}eep \underline{A}UC \underline{M}aximization (FDAM) is still limited. Compared with standard federated learning (FL) approaches that focus on decomposable minimization objectives, FDAM is more complicated due to its minimization objective is non-decomposable over individual examples. In this paper, we propose improved FDAM algorithms for heterogeneous data by solving the popular non-convex strongly-concave min-max formulation of DAM in a distributed fashion. A striking result of this paper is that the communication complexity of the proposed algorithm is a constant independent of the number of machines and also independent of the accuracy level, which improves an existing result by orders of magnitude. Of independent interest, the proposed algorithm can also be applied to a class of non-convex-strongly- concave min-max problems. The experiments have demonstrated the effectiveness of our FDAM algorithm on benchmark datasets, and on medical chest X-ray images from different organizations. Our experiment shows that the performance of FDAM using data from multiple hospitals can improve the AUC score on testing data from a single hospital for detecting life-threatening diseases based on chest radiographs.
翻訳日:2021-02-10 15:10:38 公開日:2021-02-09
# 単時間確率二値最適化法

A Single-Timescale Stochastic Bilevel Optimization Method ( http://arxiv.org/abs/2102.04671v1 )

ライセンス: Link先を確認
Tianyi Chen, Yuejiao Sun, Wotao Yin(参考訳) 確率的双レベル最適化は古典的確率的最適化を1つの目的の最小化から別の最適化問題の解に依存する目的関数の最小化に一般化する。 近年,ハイパーパラメータ最適化やモデル非依存なメタ学習といった新興機械学習アプリケーションでは,確率的二段階最適化が人気を回復している。 確率最適化のこのクラスを解決するには、既存のメソッドは二重ループまたは2時間スケールの更新が必要です。 本稿では,Single-Timescale stochAstic BiLevEl optimization (STABLE) と呼ばれる確率的二段階問題に対する新たな最適化手法を提案する。 STABLEは単一のループ形式で動作し、バッチサイズを固定した単一タイムスケール更新を使用する。 双レベル問題の$\epsilon$-定常点を達成するためには、STABLEは${\cal O}(\epsilon^{-2})$サンプルを合計で要求し、強凸の場合において$\epsilon$-optimalソリューションを達成するためには、${\cal O}(\epsilon^{-1})$サンプルを必要とする。 我々の知る限りでは、これは単階確率最適化における確率勾配降下法と同一量のサンプル複雑性を達成する最初の二段階最適化アルゴリズムである。

Stochastic bilevel optimization generalizes the classic stochastic optimization from the minimization of a single objective to the minimization of an objective function that depends the solution of another optimization problem. Recently, stochastic bilevel optimization is regaining popularity in emerging machine learning applications such as hyper-parameter optimization and model-agnostic meta learning. To solve this class of stochastic optimization problems, existing methods require either double-loop or two-timescale updates, which are sometimes less efficient. This paper develops a new optimization method for a class of stochastic bilevel problems that we term Single-Timescale stochAstic BiLevEl optimization (STABLE) method. STABLE runs in a single loop fashion, and uses a single-timescale update with a fixed batch size. To achieve an $\epsilon$-stationar y point of the bilevel problem, STABLE requires ${\cal O}(\epsilon^{-2})$ samples in total; and to achieve an $\epsilon$-optimal solution in the strongly convex case, STABLE requires ${\cal O}(\epsilon^{-1})$ samples. To the best of our knowledge, this is the first bilevel optimization algorithm achieving the same order of sample complexity as the stochastic gradient descent method for the single-level stochastic optimization.
翻訳日:2021-02-10 15:10:15 公開日:2021-02-09
# 短い時系列を用いたクープマンスペクトル解析のためのメタラーニング

Meta-Learning for Koopman Spectral Analysis with Short Time-series ( http://arxiv.org/abs/2102.04683v1 )

ライセンス: Link先を確認
Tomoharu Iwata and Yoshinobu Kawahara(参考訳) クープマンスペクトル解析は非線形関数によってクープマン空間にデータを埋め込むことで非線形力学を線形状態で解析できるため、非線形力学系に注目されている。 分析には、適切な埋め込み関数を見つける必要があります。 埋め込み関数の学習にはいくつかのニューラルネットワークベースの手法が提案されているが、既存の手法ではニューラルネットワークのトレーニングに長い時間を要する。 この制限は、短い時間系列のみが利用可能なアプリケーションでKoopmanスペクトル分析を実行することを禁止します。 本稿では,関連するが異なる時系列から学習した知識を活かして,未知の短い時系列から埋め込み関数を推定するメタラーニング手法を提案する。 提案手法では,その特性を抽出する双方向LSTMにより,与えられた短い時系列の表現が得られる。 短時間系列の埋め込み関数は、時系列表現に依存するニューラルネットワークによってモデル化される。 複数の時系列でLSTMとニューラルネットワークを共有することで、時系列固有の埋め込み関数を時系列表現でモデル化しながら、異なる時系列から共通の知識を学ぶことができる。 本モデルでは、予測されたテスト予測誤差をエピソディックトレーニングフレームワークで最小化するようにトレーニングする。 提案手法が従来の手法よりも固有値推定と将来の予測の面で優れた性能を実現することを実験的に実証した。

Koopman spectral analysis has attracted attention for nonlinear dynamical systems since we can analyze nonlinear dynamics with a linear regime by embedding data into a Koopman space by a nonlinear function. For the analysis, we need to find appropriate embedding functions. Although several neural network-based methods have been proposed for learning embedding functions, existing methods require long time-series for training neural networks. This limitation prohibits performing Koopman spectral analysis in applications where only short time-series are available. In this paper, we propose a meta-learning method for estimating embedding functions from unseen short time-series by exploiting knowledge learned from related but different time-series. With the proposed method, a representation of a given short time-series is obtained by a bidirectional LSTM for extracting its properties. The embedding function of the short time-series is modeled by a neural network that depends on the time-series representation. By sharing the LSTM and neural networks across multiple time-series, we can learn common knowledge from different time-series while modeling time-series-specific embedding functions with the time-series representation. Our model is trained such that the expected test prediction error is minimized with the episodic training framework. We experimentally demonstrate that the proposed method achieves better performance in terms of eigenvalue estimation and future prediction than existing methods.
翻訳日:2021-02-10 15:09:53 公開日:2021-02-09
# 人口減少境界の改善によるプライベート・コンベックス最適化のための出力摂動とプライベート・アドバーサリー・トレーニングへの応用

Output Perturbation for Differentially Private Convex Optimization with Improved Population Loss Bounds, Runtimes and Applications to Private Adversarial Training ( http://arxiv.org/abs/2102.04704v1 )

ライセンス: Link先を確認
Andrew Lowy and Meisam Razaviyayn(参考訳) 強力な過剰リスク境界を提供する効率的で容易に実装可能な微分プライベート(DP)アルゴリズムを見つけることは、現代の機械学習において重要な問題である。 これまで、ほとんどの研究は、プライベートな経験的リスク最小化(ERM)やプライベートな人口減少最小化に重点を置いてきた。 しかし、古典的なERM設定では捉えられない平均的なパフォーマンス以外に、フェアネス、敵対的ロバストネス、またはアウトレイアに対する感受性など、他の目的もある。 この目的のために、完全一般凸、リプシッツ損失関数の研究を行い、この広いクラスを最適化するための最初のDP過剰リスクと実行時境界を確立する。 滑らかさおよび/または強い凸性の付加的な仮定の下で同様の境界を提供します。 また,sco (private stochastic convex optimization) についても述べる。 $(\epsilon, \delta)$-DP ($\delta > 0$) は、プライベートSCOにおける最近の作業の焦点であり、人口減少の限界とランタイム境界を $(\epsilon, 0)$-DP で証明することは、依然として困難なオープン問題である。 私たちは最も厳しい既知の$(\epsilon, 0)$-DP人口減少境界と最速のランタイムを提供し、滑らかさ(または不足)と強い凸性の存在下で提供します。 我々の方法は$\delta > 0$設定に拡張され、新しい形のガウスノイズを組み込むことで任意の$\epsilon > 0$に対して微分プライバシーを保証するユニークな利点を提供する。 最後に、我々の理論を2つの学習フレームワーク、傾きERMと逆学習に適用する。 特に、私たちの理論は、敵対的堅牢性、プライバシー、ランタイム間のトレードオフを定量化します。 我々の結果はおそらく最も単純なDPアルゴリズムである出力摂動を用いて達成される。 この手法は概念上は目新しいものではないが,提案手法による強力なプライバシ,ユーティリティ,ランタイム保証を実現する能力は,先行研究において十分に評価されていないことを示す。

Finding efficient, easily implementable differentially private (DP) algorithms that offer strong excess risk bounds is an important problem in modern machine learning. To date, most work has focused on private empirical risk minimization (ERM) or private population loss minimization. However, there are often other objectives--such as fairness, adversarial robustness, or sensitivity to outliers--besides average performance that are not captured in the classical ERM setup. To this end, we study a completely general family of convex, Lipschitz loss functions and establish the first known DP excess risk and runtime bounds for optimizing this broad class. We provide similar bounds under additional assumptions of smoothness and/or strong convexity. We also address private stochastic convex optimization (SCO). While $(\epsilon, \delta)$-DP ($\delta > 0$) has been the focus of much recent work in private SCO, proving tight population loss bounds and runtime bounds for $(\epsilon, 0)$-DP remains a challenging open problem. We provide the tightest known $(\epsilon, 0)$-DP population loss bounds and fastest runtimes under the presence of (or lack of) smoothness and strong convexity. Our methods extend to the $\delta > 0$ setting, where we offer the unique benefit of ensuring differential privacy for arbitrary $\epsilon > 0$ by incorporating a new form of Gaussian noise. Finally, we apply our theory to two learning frameworks: tilted ERM and adversarial learning. In particular, our theory quantifies tradeoffs between adversarial robustness, privacy, and runtime. Our results are achieved using perhaps the simplest DP algorithm: output perturbation. Although this method is not novel conceptually, our novel implementation scheme and analysis show that the power of this method to achieve strong privacy, utility, and runtime guarantees has not been fully appreciated in prior works.
翻訳日:2021-02-10 15:09:31 公開日:2021-02-09
# MISO-wiLDCosts: 位置情報依存コストによるマルチソース最適化

MISO-wiLDCosts: Multi Information Source Optimization with Location Dependent Costs ( http://arxiv.org/abs/2102.04951v1 )

ライセンス: Link先を確認
Antonio Candelieri, Francesco Archetti(参考訳) 本稿では,検索空間上で忠実度とクエリコストが変化する複数の情報ソースに対するブラックボックス最適化について述べる。 i) 探索空間とソース上の目的関数の単一モデルとして、最近マルチ情報ソース最適化において提案された拡張ガウス過程と、(ii) 各ソースの位置依存コストをモデル化するガウス過程である。 前者は、次のソースとクエリの場所を選択するために、信頼度バウンドベースの取得関数に使用され、後者は、任意のソース-ロケーションペアの期待クエリコストに応じて、取得の値をペナライズするために使用される。 提案手法は2つの機械学習分類器と3つの異なる大きさのデータセットからなるハイパーパラメータ最適化タスクで評価される。

This paper addresses black-box optimization over multiple information sources whose both fidelity and query cost change over the search space, that is they are location dependent. The approach uses: (i) an Augmented Gaussian Process, recently proposed in multi-information source optimization as a single model of the objective function over search space and sources, and (ii) a Gaussian Process to model the location-dependent cost of each source. The former is used into a Confidence Bound based acquisition function to select the next source and location to query, while the latter is used to penalize the value of the acquisition depending on the expected query cost for any source-location pair. The proposed approach is evaluated on a set of Hyperparameters Optimization tasks, consisting of two Machine Learning classifiers and three datasets of different sizes.
翻訳日:2021-02-10 15:08:57 公開日:2021-02-09
# UVTomo-GAN:未知視点X線トモグラフィー再構成のための逆学習に基づくアプローチ

UVTomo-GAN: An adversarial learning based approach for unknown view X-ray tomographic reconstruction ( http://arxiv.org/abs/2102.04590v1 )

ライセンス: Link先を確認
Mona Zehni, Zhizhen Zhao(参考訳) トモグラフィー再構成は、異なる角度から投影された未知の画像を復元する。 この問題に対処する最先端の手法は、射影に関連する角度をa-prioriと仮定する。 この知識から、再構成プロセスは凸問題として定式化できるため、簡単である。 ここでは、(1)射影角が未知、(2)未知の確率分布から引き出される、というより難しい設定に取り組む。 この設定では,教師なしの逆学習手法を用いて画像と投影角分布を復元することを目的としている。 そこで本研究では,実射影線と生成線との分布マッチングとして,推定画像と投影分布から問題を定式化する。 これは発生器と判別器の間のmin-maxゲームで平衡に達することで解決される。 我々の新しい貢献は、未知の投影分布と画像の同時復元である。 これに対応するために,カテゴリ分布からのサンプルのグンベル・ソフトマックス近似を用いて,未知画像と投影分布の関数として生成者の損失を近似する。 我々のアプローチは異なる逆問題に一般化できる。 シミュレーションの結果,様々な場面において,画像の復元と投影分布を良好に行うことができた。

Tomographic reconstruction recovers an unknown image given its projections from different angles. State-of-the-art methods addressing this problem assume the angles associated with the projections are known a-priori. Given this knowledge, the reconstruction process is straightforward as it can be formulated as a convex problem. Here, we tackle a more challenging setting: 1) the projection angles are unknown, 2) they are drawn from an unknown probability distribution. In this set-up our goal is to recover the image and the projection angle distribution using an unsupervised adversarial learning approach. For this purpose, we formulate the problem as a distribution matching between the real projection lines and the generated ones from the estimated image and projection distribution. This is then solved by reaching the equilibrium in a min-max game between a generator and a discriminator. Our novel contribution is to recover the unknown projection distribution and the image simultaneously using adversarial learning. To accommodate this, we use Gumbel-softmax approximation of samples from categorical distribution to approximate the generator's loss as a function of the unknown image and the projection distribution. Our approach can be generalized to different inverse problems. Our simulation results reveal the ability of our method in successfully recovering the image and the projection distribution in various settings.
翻訳日:2021-02-10 15:08:01 公開日:2021-02-09
# 量子コンピュータにおける顔認識

Facial Expression Recognition on a Quantum Computer ( http://arxiv.org/abs/2102.04823v1 )

ライセンス: Link先を確認
Riccardo Mengoni, Massimiliano Incudini, Alessandra Di Pierro(参考訳) 本稿では,表情認識の課題に対処し,量子機械学習手法を用いて実現可能な解を示す。 与えられたデータセットの効率的な分類器を定義するために、量子干渉を効果的に活用する。 グラフを介して顔表現を表現することにより、適切に定義された量子状態の振幅に符号化されたグラフ隣接行列を操作する量子回路として分類器を定義する。 ibm quantum experience cloudプラットフォームで利用可能な量子シミュレータで評価された量子分類器の精度について検討し、最も優れた古典的分類器の一つの精度と比較する。

We address the problem of facial expression recognition and show a possible solution using a quantum machine learning approach. In order to define an efficient classifier for a given dataset, our approach substantially exploits quantum interference. By representing face expressions via graphs, we define a classifier as a quantum circuit that manipulates the graphs adjacency matrices encoded into the amplitudes of some appropriately defined quantum states. We discuss the accuracy of the quantum classifier evaluated on the quantum simulator available on the IBM Quantum Experience cloud platform, and compare it with the accuracy of one of the best classical classifier.
翻訳日:2021-02-10 15:07:40 公開日:2021-02-09
# 弱物体間空間対応による多モードボリューム前立腺登録の学習

Learning Multi-Modal Volumetric Prostate Registration with Weak Inter-Subject Spatial Correspondence ( http://arxiv.org/abs/2102.04938v1 )

ライセンス: Link先を確認
Oleksii Bashkanov, Anneke Meyer, Daniel Schindele, Martin Schostak, Klaus T\"onnies, Christian Hansen, Marko Rak(参考訳) 近年,画像登録問題を解決するための畳み込みニューラルネットワーク(cnns)の適性が実証された。 CNNは、医療介入中のより良いサポートに必要なより速い変換推定とより大きな一般化機能を可能にします。 従来の完全に監視されたトレーニングでは、voxel-to-voxel変換など、多くの高品質の地上真実データが必要です。 本研究では、変形場よりもアクセスしやすい基底真理であるセグメンテーションマスクを通してのみ間接的にモデルを最適化する弱い教師付き学習を用いている。 本研究は,マルチスケールDice類似度係数 (mDSC) と,セグメント化による符号付き距離マップ (SDM) の類似度について検討する。 我々は,mDSCとSDMの類似度測定の組み合わせにより,より正確で自然な変換パターンとより強い勾配範囲が得られることを示した。 さらに,主に術前に使用可能なmr系列の前立腺位置に関する事前情報に対して,ニューラルネットワークへの補助入力を導入する。 このアプローチは標準的な2入力モデルを大幅に上回る。 MR-TRUS前立腺データでは, 最新の深層学習法に匹敵する登録品質を示した。

Recent studies demonstrated the eligibility of convolutional neural networks (CNNs) for solving the image registration problem. CNNs enable faster transformation estimation and greater generalization capability needed for better support during medical interventions. Conventional fully-supervised training requires a lot of high-quality ground truth data such as voxel-to-voxel transformations, which typically are attained in a too tedious and error-prone manner. In our work, we use weakly-supervised learning, which optimizes the model indirectly only via segmentation masks that are a more accessible ground truth than the deformation fields. Concerning the weak supervision, we investigate two segmentation similarity measures: multiscale Dice similarity coefficient (mDSC) and the similarity between segmentation-derived signed distance maps (SDMs). We show that the combination of mDSC and SDM similarity measures results in a more accurate and natural transformation pattern together with a stronger gradient coverage. Furthermore, we introduce an auxiliary input to the neural network for the prior information about the prostate location in the MR sequence, which mostly is available preoperatively. This approach significantly outperforms the standard two-input models. With weakly labelled MR-TRUS prostate data, we showed registration quality comparable to the state-of-the-art deep learning-based method.
翻訳日:2021-02-10 15:07:30 公開日:2021-02-09
# 火星画像の分類:NASAの3年間の展開と最近の進歩

Mars Image Content Classification: Three Years of NASA Deployment and Recent Advances ( http://arxiv.org/abs/2102.05011v1 )

ライセンス: Link先を確認
Kiri Wagstaff (1), Steven Lu (1), Emily Dunkel (1), Kevin Grimes (1), Brandon Zhao (2), Jesse Cai (3), Shoshanna B. Cole (4), Gary Doran (1), Raymond Francis (1), Jake Lee (1), and Lukas Mandrake (1) ((1) Jet Propulsion Laboratory, California Institute of Technology, (2) Duke University, (3) California Institute of Technology, (4) Space Science Institute)(参考訳) NASA Planetary Data Systemは、火星から取得した数百万の画像をホストします。 興味のある画像の迅速な発見を支援するために,火星の軌道画像と表面画像のコンテンツに基づく分類と検索機能を開発し,展開した。 デプロイされたシステムは、PDS Image Atlasを使用して公開アクセスできる。 火星ミッションで収集された画像に対する2つのCNN分類器の訓練、評価、校正、展開のプロセスについて述べる。 また、利用統計、教訓、将来の計画を含む3年間の展開についても報告しています。

The NASA Planetary Data System hosts millions of images acquired from the planet Mars. To help users quickly find images of interest, we have developed and deployed content-based classification and search capabilities for Mars orbital and surface images. The deployed systems are publicly accessible using the PDS Image Atlas. We describe the process of training, evaluating, calibrating, and deploying updates to two CNN classifiers for images collected by Mars missions. We also report on three years of deployment including usage statistics, lessons learned, and plans for the future.
翻訳日:2021-02-10 15:07:11 公開日:2021-02-09
# 映像符号化におけるクロマ内予測のための注意型ニューラルネットワーク

Attention-Based Neural Networks for Chroma Intra Prediction in Video Coding ( http://arxiv.org/abs/2102.04993v1 )

ライセンス: Link先を確認
Marc G\'orriz, Saverio Blasi, Alan F. Smeaton, Noel E. O'Connor, Marta Mrak(参考訳) ニューラルネットワークは、高度なビデオ符号化スキームのいくつかのモジュールを改善するのにうまく使える。 特に、色成分の圧縮は、適切な注意に基づくアーキテクチャの設計により、参照領域で特定のサンプルを活用できるため、機械学習モデルの使用から大きな恩恵を受けることが示された。 しかし、そのようなアーキテクチャは複雑で計算的に激しい傾向があり、実用的なビデオコーディングパイプラインにデプロイすることは困難である。 本研究は,クロマイントラプレディションのための簡易かつ費用対効果の高いアテンションベースアーキテクチャを設計するために,そのような手法の複雑さを軽減することに焦点を当てる。 推論プロセスの複雑さを減らすために,新しいサイズ非依存のマルチモデルアプローチが提案されている。 結果として生じる単純化されたアーキテクチャは、最先端のメソッドを上回ることができる。 さらに,本論文では,提案した予測アーキテクチャの複雑さのオーバーヘッドを軽減するため,単純化の集合について述べる。 これらの簡略化のおかげで、元の注意ベースの方法論に関して、パラメータの約90%の減少が達成される。 単純化には、畳み込み操作のオーバーヘッドを減らすためのフレームワーク、元のアーキテクチャに統合された単純化されたクロスコンポーネント処理モデル、高速でハードウェア対応な実装を得るために整数精度近似を実行する方法論が含まれる。 提案手法はVersatile Video Coding(VVC)予測パイプラインに統合され,ニューラルネットワークに基づく最先端のクロマインプレディション手法の圧縮効率を維持しつつ,コーディングの複雑さを大幅に低減するための異なる方向を提供する。

Neural networks can be successfully used to improve several modules of advanced video coding schemes. In particular, compression of colour components was shown to greatly benefit from usage of machine learning models, thanks to the design of appropriate attention-based architectures that allow the prediction to exploit specific samples in the reference region. However, such architectures tend to be complex and computationally intense, and may be difficult to deploy in a practical video coding pipeline. This work focuses on reducing the complexity of such methodologies, to design a set of simplified and cost-effective attention-based architectures for chroma intra-prediction. A novel size-agnostic multi-model approach is proposed to reduce the complexity of the inference process. The resulting simplified architecture is still capable of outperforming state-of-the-art methods. Moreover, a collection of simplifications is presented in this paper, to further reduce the complexity overhead of the proposed prediction architecture. Thanks to these simplifications, a reduction in the number of parameters of around 90% is achieved with respect to the original attention-based methodologies. Simplifications include a framework for reducing the overhead of the convolutional operations, a simplified cross-component processing model integrated into the original architecture, and a methodology to perform integer-precision approximations with the aim to obtain fast and hardware-aware implementations. The proposed schemes are integrated into the Versatile Video Coding (VVC) prediction pipeline, retaining compression efficiency of state-of-the-art chroma intra-prediction methods based on neural networks, while offering different directions for significantly reducing coding complexity.
翻訳日:2021-02-10 15:07:00 公開日:2021-02-09
# タスク指向ダイアログのための非構造化知識による効率的な検索

Efficient Retrieval Augmented Generation from Unstructured Knowledge for Task-Oriented Dialog ( http://arxiv.org/abs/2102.04643v1 )

ライセンス: Link先を確認
David Thulke, Nico Daheim, Christian Dugast, Hermann Ney(参考訳) 本稿では,第9回ダイアログシステム技術チャレンジ(DSTC 9)の第一弾として,"Beyond Domain API: Task-oriented Conversational Modeling with Unstructured Knowledge Access"について概説する。 タスクの目的は、非構造化文書からの知識を必要とするタスク指向ダイアログで、ユーザーへの応答を生成することです。 タスクは、検出、選択、生成の3つのサブタスクに分けられる。 計算を効率的に行うために,階層的分類ステップの観点から選択問題を定式化する。 私たちはこのモデルで最高の結果を得る。 あるいは、Dense Knowledge Retrievalと呼ばれるサイアム配列埋め込みモデルを使用して、関連する文書を取得します。 この方法は、最初のモデルと比較して5〜6%のR@1の劣化のコストで100倍以上の係数でさらに計算時間を短縮します。 いずれのアプローチでも,複数の選択したスニペットに基づいて応答を生成するために検索拡張生成を使い,その手法を用いてトレーニング済みの埋め込みを微調整する方法を示す。

This paper summarizes our work on the first track of the ninth Dialog System Technology Challenge (DSTC 9), "Beyond Domain APIs: Task-oriented Conversational Modeling with Unstructured Knowledge Access". The goal of the task is to generate responses to user turns in a task-oriented dialog that require knowledge from unstructured documents. The task is divided into three subtasks: detection, selection and generation. In order to be compute efficient, we formulate the selection problem in terms of hierarchical classification steps. We achieve our best results with this model. Alternatively, we employ siamese sequence embedding models, referred to as Dense Knowledge Retrieval, to retrieve relevant documents. This method further reduces the computation time by a factor of more than 100x at the cost of degradation in R@1 of 5-6% compared to the first model. Then for either approach, we use Retrieval Augmented Generation to generate responses based on multiple selected snippets and we show how the method can be used to fine-tune trained embeddings.
翻訳日:2021-02-10 15:06:33 公開日:2021-02-09
# 自己教師型学習による会話クエリ書き換え

Conversational Query Rewriting with Self-supervised Learning ( http://arxiv.org/abs/2102.04708v1 )

ライセンス: Link先を確認
Hang Liu, Meng Chen, Youzheng Wu, Xiaodong He, Bowen Zhou(参考訳) コンテキストモデリングはマルチターン対話システムを構築する上で重要な役割を果たす。 Conversational Query Rewriting (CQR) は、会話クエリを自己完結した発話に明示的に書き換えることによって、マルチターン対話を単一ターン問題に単純化することを目的としている。 しかし、既存のアプローチは大量の教師付きトレーニングデータに依存している。 また、コンテキストから省略された重要な情報の検出をさらに改善することができる。 さらに、コンテキストクエリと書き換えクエリ間のインテント一貫性の制約も無視される。 そこで本研究では,ヒトのアノテーションを必要としない自己監視学習により,大規模CQRデータセットを自動的に構築することを提案する。 次に,自己対応型キーワード検出と意図整合性制約により強化されたtransformerに基づく新しいcqrモデルteresaを提案する。 最後に,2つの公開データセットについて広範な実験を行う。 実験結果から,提案モデルが既存のCQRベースラインを大幅に上回り,CQRパフォーマンス向上に対する自己監督学習の有効性を実証した。

Context modeling plays a critical role in building multi-turn dialogue systems. Conversational Query Rewriting (CQR) aims to simplify the multi-turn dialogue modeling into a single-turn problem by explicitly rewriting the conversational query into a self-contained utterance. However, existing approaches rely on massive supervised training data, which is labor-intensive to annotate. And the detection of the omitted important information from context can be further improved. Besides, intent consistency constraint between contextual query and rewritten query is also ignored. To tackle these issues, we first propose to construct a large-scale CQR dataset automatically via self-supervised learning, which does not need human annotation. Then we introduce a novel CQR model Teresa based on Transformer, which is enhanced by self-attentive keywords detection and intent consistency constraint. Finally, we conduct extensive experiments on two public datasets. Experimental results demonstrate that our proposed model outperforms existing CQR baselines significantly, and also prove the effectiveness of self-supervised learning on improving the CQR performance.
翻訳日:2021-02-10 15:06:16 公開日:2021-02-09
# 音声認識のためのベイズ変換言語モデル

Bayesian Transformer Language Models for Speech Recognition ( http://arxiv.org/abs/2102.04754v1 )

ライセンス: Link先を確認
Boyang Xue, Jianwei Yu, Junhao Xu, Shansong Liu, Shoukang Hu, Zi Ye, Mengzhe Geng, Xunying Liu, Helen Meng(参考訳) トランスフォーマーが表現する最先端のニューラルネットワークモデル(LM)は非常に複雑です。 固定された決定論的パラメータ推定の使用は、モデルの不確かさを考慮せず、限られたトレーニングデータを与えると、過剰フィッティングと不十分な一般化につながる。 本稿では,これらの問題に対処するため,トランスレイタLM推定のためのベイズ学習フレームワークを提案する。 マルチヘッド自己アテンション,フィードフォワードおよび埋め込み層を含むトランスフォーマーモデルアーキテクチャの異なる部分に関連する潜時パラメータ後部分布を,効率的な変分推論に基づくアプローチを用いて推定する。 統計的に有意な単語誤り率 (WER) は0.5 %絶対 (3.18 % ) まで低下し,i-Vector 話者適応型 LF-MMI ファクタリング TDNN システムのベースライントランスフォーマー LM 上で一貫したパープレキシティゲインを得た。 また、スイッチボードとフィッシャーのデータで訓練されたトランスフォーマーLMを低リソースのDementiaBank高齢者音声コーパスに移植する必要があるクロスドメインLM適応タスクでも性能改善が得られました。

State-of-the-art neural language models (LMs) represented by Transformers are highly complex. Their use of fixed, deterministic parameter estimates fail to account for model uncertainty and lead to over-fitting and poor generalization when given limited training data. In order to address these issues, this paper proposes a full Bayesian learning framework for Transformer LM estimation. Efficient variational inference based approaches are used to estimate the latent parameter posterior distributions associated with different parts of the Transformer model architecture including multi-head self-attention, feed forward and embedding layers. Statistically significant word error rate (WER) reductions up to 0.5\% absolute (3.18\% relative) and consistent perplexity gains were obtained over the baseline Transformer LMs on state-of-the-art Switchboard corpus trained LF-MMI factored TDNN systems with i-Vector speaker adaptation. Performance improvements were also obtained on a cross domain LM adaptation task requiring porting a Transformer LM trained on the Switchboard and Fisher data to a low-resource DementiaBank elderly speech corpus.
翻訳日:2021-02-10 15:06:00 公開日:2021-02-09
# マルチモーダル感情分析のための自己監督型マルチタスク学習による学習モダリティ特異的表現

Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2102.04830v1 )

ライセンス: Link先を確認
Wenmeng Yu, Hua Xu, Ziqi Yuan, Jiele Wu(参考訳) 表現学習はマルチモーダル学習において重要かつ困難な課題である。 効果的なモダリティ表現は特性の2つの部分を含むべきである。 統一されたマルチモーダルアノテーションにより、既存の手法は識別された情報の取得に制限される。 しかし、追加のユニモーダルアノテーションは時間と労働コストが高い。 本稿では,自己教師付き学習戦略に基づくラベル生成モジュールを設計し,独立したユニモーダル監督を得る。 次に,マルチモーダルタスクとユニモーダルタスクを共同でトレーニングし,一貫性と差分をそれぞれ学習する。 さらに、トレーニング段階では、異なるサブタスク間の学習進捗のバランスをとるための重量調整戦略を設計します。 つまり、サブタスクをガイドして、モダリティの監督との大きな違いを持つサンプルに集中することです。 最後に,3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。 実験結果は, 自動生成単潮監視装置の信頼性と安定性を検証した。 MOSIおよびMOSEIデータセットでは、このメソッドは現在の最先端のメソッドを上回ります。 SIMSデータセットにおいて,本手法は人間の注釈付きアンモダルラベルに匹敵する性能を達成している。 完全なコードはhttps://github.com/t huiar/Self-MMで入手できる。

Representation Learning is a significant and challenging task in multimodal learning. Effective modality representations should contain two parts of characteristics: the consistency and the difference. Due to the unified multimodal annotation, existing methods are restricted in capturing differentiated information. However, additional uni-modal annotations are high time- and labor-cost. In this paper, we design a label generation module based on the self-supervised learning strategy to acquire independent unimodal supervisions. Then, joint training the multi-modal and uni-modal tasks to learn the consistency and difference, respectively. Moreover, during the training stage, we design a weight-adjustment strategy to balance the learning progress among different subtasks. That is to guide the subtasks to focus on samples with a larger difference between modality supervisions. Last, we conduct extensive experiments on three public multimodal baseline datasets. The experimental results validate the reliability and stability of auto-generated unimodal supervisions. On MOSI and MOSEI datasets, our method surpasses the current state-of-the-art methods. On the SIMS dataset, our method achieves comparable performance than human-annotated unimodal labels. The full codes are available at https://github.com/t huiar/Self-MM.
翻訳日:2021-02-10 15:05:38 公開日:2021-02-09
# BembaSpeech:Bemba言語のための音声認識コーパス

BembaSpeech: A Speech Recognition Corpus for the Bemba Language ( http://arxiv.org/abs/2102.04889v1 )

ライセンス: Link先を確認
Claytone Sikasote and Antonios Anastasopoulos(参考訳) 本稿では,ザンビアの人口の30%以上が話している,文章の少ない言語であるベンバ語における24時間以上の読み上げ音声からなる,事前処理,使用可能な自動音声認識コーパスであるBembaSpeechについて述べる。 本研究では,Bemba corpus のトレーニング部分に事前学習した DeepSpeech 英語モデルを微調整することにより,Bemba の ASR システムのトレーニングおよびテストに有用性を評価する。 我々の最良のモデルは54.78%の単語誤り率(WER)を達成する。 その結果、このコーパスは bemba の asr システム構築に使用できることがわかった。 コーパスとモデルはhttps://github.com/c sikasote/bembaspeech で公開されている。

We present a preprocessed, ready-to-use automatic speech recognition corpus, BembaSpeech, consisting over 24 hours of read speech in the Bemba language, a written but low-resourced language spoken by over 30% of the population in Zambia. To assess its usefulness for training and testing ASR systems for Bemba, we train an end-to-end Bemba ASR system by fine-tuning a pre-trained DeepSpeech English model on the training portion of the BembaSpeech corpus. Our best model achieves a word error rate (WER) of 54.78%. The results show that the corpus can be used for building ASR systems for Bemba. The corpus and models are publicly released at https://github.com/c sikasote/BembaSpeech .
翻訳日:2021-02-10 15:05:25 公開日:2021-02-09
# プラットフォーム間データの活用によるヘイトスピーチの自動検出

Leveraging cross-platform data to improve automated hate speech detection ( http://arxiv.org/abs/2102.04895v1 )

ライセンス: Link先を確認
John D Gallacher(参考訳) ヘイトスピーチはますますオンライン上で広まりつつあり、偏見、過激主義、さらにはオフラインヘイトクライムにまでネガティブな結果をもたらしている。 オンラインヘイトスピーチの自動検出は、これらの影響をよりよく理解するのに役立ちます。 しかし、自然言語処理の進歩によってこの分野は最近進歩しましたが、課題はまだ残っています。 特に、既存のヘイトスピーチ検出のアプローチのほとんどは、独立した単一のソーシャルメディアプラットフォームに焦点を当てている。 これは、言語の性質がプラットフォームによって異なるため、これらのモデルの使用と妥当性の両方を制限する。 本稿では,異なるプラットフォームから複数のデータセットと分類モデルを活用したヘイトスピーチ検出のための新たなクロスプラットフォームアプローチを提案し,既存のトレーニングデータと新たなトレーニングデータを組み合わせることで,検出とモデル適用性の向上を実現するスーパーリアナーをトレーニングする。 従来のトレーニングデータに含まれていない新しいソーシャルメディアプラットフォームからのメッセージでテストした場合、このアプローチが既存のモデルよりも優れたパフォーマンスを発揮することを実証します。

Hate speech is increasingly prevalent online, and its negative outcomes include increased prejudice, extremism, and even offline hate crime. Automatic detection of online hate speech can help us to better understand these impacts. However, while the field has recently progressed through advances in natural language processing, challenges still remain. In particular, most existing approaches for hate speech detection focus on a single social media platform in isolation. This limits both the use of these models and their validity, as the nature of language varies from platform to platform. Here we propose a new cross-platform approach to detect hate speech which leverages multiple datasets and classification models from different platforms and trains a superlearner that can combine existing and novel training data to improve detection and increase model applicability. We demonstrate how this approach outperforms existing models, and achieves good performance when tested on messages from novel social media platforms not included in the original training data.
翻訳日:2021-02-10 15:05:09 公開日:2021-02-09
# ヒューマンAIシステムにおける説明の原理

Principles of Explanation in Human-AI Systems ( http://arxiv.org/abs/2102.04972v1 )

ライセンス: Link先を確認
Shane T. Mueller, Elizabeth S. Veinott, Robert R. Hoffman, Gary Klein, Lamia Alam, Tauseef Mamun, and William J. Clancey(参考訳) 説明可能な人工知能(XAI)は、現代のAIおよびMLシステムの開発に対応して再登場しました。 これらのシステムは複雑であり、時には偏見がありますが、それでも私たちの生活に影響を与える決定をします。 XAIシステムはしばしばアルゴリズムに焦点を当てており、説明可能性に関する基本的な未テストのアイデアを実装するアルゴリズムで始まり、終わります。 これらのシステムは、ユーザーが目的を達成するのにアルゴリズムが役立つかどうかを判断するためにテストされないことが多いので、その説明可能性はまだ証明されていない。 我々は、xaiシステムの設計、テスト、実装のための人間中心の原則から始め、その目的を達成するアルゴリズムを実装することを提案する。 本稿では,過去40年間の研究でユーザ中心のXAIシステムに用いられてきた基本概念について検討する。 これらに基づいて,自己説明スコアカード(Self-Explanation Scorecard)を記述し,開発者が自己説明を有効にすることでユーザに権限を与える方法を理解するのに役立つ。 最後に、経験に基づいたユーザ中心の設計原則のセットを提示し、開発者が説明可能なシステムを作るのを手助けします。

Explainable Artificial Intelligence (XAI) has re-emerged in response to the development of modern AI and ML systems. These systems are complex and sometimes biased, but they nevertheless make decisions that impact our lives. XAI systems are frequently algorithm-focused; starting and ending with an algorithm that implements a basic untested idea about explainability. These systems are often not tested to determine whether the algorithm helps users accomplish any goals, and so their explainability remains unproven. We propose an alternative: to start with human-focused principles for the design, testing, and implementation of XAI systems, and implement algorithms to serve that purpose. In this paper, we review some of the basic concepts that have been used for user-centered XAI systems over the past 40 years of research. Based on these, we describe the "Self-Explanation Scorecard", which can help developers understand how they can empower users by enabling self-explanation. Finally, we present a set of empirically-grounded , user-centered design principles that may guide developers to create successful explainable systems.
翻訳日:2021-02-10 15:04:53 公開日:2021-02-09
# TraND: 教師なしクロスドメイン歩行認識のための移動可能な近傍探索

TraND: Transferable Neighborhood Discovery for Unsupervised Cross-domain Gait Recognition ( http://arxiv.org/abs/2102.04621v1 )

ライセンス: Link先を確認
Jinkai Zheng, Xinchen Liu, Chenggang Yan, Jiyong Zhang, Wu Liu, Xiaoping Zhang, Tao Mei(参考訳) 歩行、すなわち、移動中の人間の手足の動きパターンは、人の識別のための有望なバイオメトリックである。 ディープラーニングによる歩行認識の大幅な改善にもかかわらず、既存の研究は、より実用的で困難なシナリオを無視している — ラベル付きデータセットでモデルを学習し、ラベル付きデータセットに適応することを目的とした、教師なしのクロスドメイン歩行認識だ。 ドメインシフトとクラスギャップのため、あるソースデータセットでトレーニングされたモデルを他のターゲットデータセットに直接適用することは、通常非常に悪い結果を得る。 そこで本論文では,非監視クロスドメイン歩行認識のためのドメインギャップを橋渡しするTransferable Neighborhood Discovery (TraND)フレームワークを提案する。 歩行表現のための効果的な事前知識を学習するために,まずラベル付きソースデータに事前学習されたバックボーンネットワークを教師あり方式で採用する。 次に,ラベルなしサンプルの自信のある近傍を潜在空間で自動的に発見するエンドツーエンドのトレーニング可能なアプローチを設計する。 訓練の間に、クラスの一貫性の表示器はエントロピーの測定に基づいてサンプルの信頼できる近所を選ぶために採用されます。 さらに,先行知識を対象領域に効果的に伝達できる高エントロピー優先の隣接選択戦略についても検討する。 この手法はCASIA-BとOU-LPという2つの公開データセットで最新の結果が得られる。

Gait, i.e., the movement pattern of human limbs during locomotion, is a promising biometric for the identification of persons. Despite significant improvement in gait recognition with deep learning, existing studies still neglect a more practical but challenging scenario -- unsupervised cross-domain gait recognition which aims to learn a model on a labeled dataset then adapts it to an unlabeled dataset. Due to the domain shift and class gap, directly applying a model trained on one source dataset to other target datasets usually obtains very poor results. Therefore, this paper proposes a Transferable Neighborhood Discovery (TraND) framework to bridge the domain gap for unsupervised cross-domain gait recognition. To learn effective prior knowledge for gait representation, we first adopt a backbone network pre-trained on the labeled source data in a supervised manner. Then we design an end-to-end trainable approach to automatically discover the confident neighborhoods of unlabeled samples in the latent space. During training, the class consistency indicator is adopted to select confident neighborhoods of samples based on their entropy measurements. Moreover, we explore a high-entropy-first neighbor selection strategy, which can effectively transfer prior knowledge to the target domain. Our method achieves state-of-the-art results on two public datasets, i.e., CASIA-B and OU-LP.
翻訳日:2021-02-10 15:04:26 公開日:2021-02-09
# 長線釣りにおける単眼映像からの高度変形魚の絶対3次元ポーズ推定と長さ測定

Absolute 3D Pose Estimation and Length Measurement of Severely Deformed Fish from Monocular Videos in Longline Fishing ( http://arxiv.org/abs/2102.04639v1 )

ライセンス: Link先を確認
Jie Mei, Jenq-Neng Hwang, Suzanne Romain, Craig Rose, Braden Moore, Kelsey Magrane(参考訳) 漁獲過程において魚が大きな変形を受ける長線漁業において, 単眼的絶対3次元魚類ポーズ推定は効率的な魚長計測を可能にする。 このタスクは、短い単眼ビデオクリップに基づいて絶対的な3D魚のキーポイントを見つける必要があるため、難しい。 深度情報を提供するために高価な3次元地中データおよび/または多視点画像を必要とするか、剛体に限定される関連作品とは異なり、一視点の2次元セグメンテーションマスクから絶対的な3次元魚のポーズと魚長を推定する新しいフレームベース手法を提案する。 まず、相対的な3d fishテンプレートを紹介します。 目的関数を最小化することにより,画像中の対象魚と魚の2dキーポイントの相対的3dポーズを体系的に推定する。 最後に、閉じた形状の溶液により、相対的な3dフィッシュポーズは絶対3dキーポイントを見つけるのに役立ち、ビデオクリップから最適な魚長測定のための統計的時間的推論に基づいて、フレームベースの絶対魚長測定がさらに洗練される。 本実験では, 本手法により, 3D魚のポーズを正確に推定し, さらに絶対長を計測し, 最新のマルチビュー法を上回った。

Monocular absolute 3D fish pose estimation allows for efficient fish length measurement in the longline fisheries, where fishes are under severe deformation during the catching process. This task is challenging since it requires locating absolute 3D fish keypoints based on a short monocular video clip. Unlike related works, which either require expensive 3D ground-truth data and/or multiple-view images to provide depth information, or are limited to rigid objects, we propose a novel frame-based method to estimate the absolute 3D fish pose and fish length from a single-view 2D segmentation mask. We first introduce a relative 3D fish template. By minimizing an objective function, our method systematically estimates the relative 3D pose of the target fish and fish 2D keypoints in the image. Finally, with a closed-form solution, the relative 3D fish pose can help locate absolute 3D keypoints, resulting in the frame-based absolute fish length measurement, which is further refined based on the statistical temporal inference for the optimal fish length measurement from the video clip. Our experiments show that this method can accurately estimate the absolute 3D fish pose and further measure the absolute length, even outperforming the state-of-the-art multi-view method.
翻訳日:2021-02-10 15:04:03 公開日:2021-02-09
# Alibabaにおける大規模長期製品認識システム

Large Scale Long-tailed Product Recognition System at Alibaba ( http://arxiv.org/abs/2102.04652v1 )

ライセンス: Link先を確認
Xiangzeng Zhou and Pan Pan and Yun Zheng and Yinghui Xu and Rong Jin(参考訳) 現実的な大規模製品認識システムは,AlibabaのE商業状況下での長期不均衡トレーニングデータの現象に悩まされている。 Alibabaの製品画像に加えて、多くの画像関連サイド情報(例)。 title, tags) 画像に関する豊富な意味情報を明らかにする。 先行研究は主に視覚的視点のみにおいて、長い尾の問題に対処することに焦点を当てるが、側面情報を活用することの考慮が欠如している。 本稿では、画像関連側情報を活用することで、長い尾の問題に対処する、新しい側面情報に基づく大規模視覚認識協調訓練システム(SICoT)を提案する。 提案するコトレーニングシステムでは,まず,雑音側情報に意味的埋め込みを構築することを目的とした,バイリニアワードアテンションモジュールを導入する。 視覚的特徴と意味的埋め込みコトレーニングスキームは、豊富なトレーニングデータ(ヘッドクラス)を持つクラスから、エンドツーエンドの方法でトレーニングデータ(テールクラス)が少ないクラスに知識を転送するように設計されている。 クラス数が1000から100万の範囲の4つの挑戦的な大規模データセットに関する広範な実験は、長尾問題を軽減するために提案されたSICoTシステムのスケーラブルな有効性を示す。 Alibabaのビジュアル検索プラットフォームPailitao\footnote{http://www.pailitao. com}では、提案されたSICoTシステムによって駆動される実用的な大規模製品認識アプリケーションを決定し、ユニークビジター〜(UV)変換率の有意な利益を達成します。

A practical large scale product recognition system suffers from the phenomenon of long-tailed imbalanced training data under the E-commercial circumstance at Alibaba. Besides product images at Alibaba, plenty of image related side information (e.g. title, tags) reveal rich semantic information about images. Prior works mainly focus on addressing the long tail problem in visual perspective only, but lack of consideration of leveraging the side information. In this paper, we present a novel side information based large scale visual recognition co-training~(SICoT) system to deal with the long tail problem by leveraging the image related side information. In the proposed co-training system, we firstly introduce a bilinear word attention module aiming to construct a semantic embedding over the noisy side information. A visual feature and semantic embedding co-training scheme is then designed to transfer knowledge from classes with abundant training data (head classes) to classes with few training data (tail classes) in an end-to-end fashion. Extensive experiments on four challenging large scale datasets, whose numbers of classes range from one thousand to one million, demonstrate the scalable effectiveness of the proposed SICoT system in alleviating the long tail problem. In the visual search platform Pailitao\footnote{http://www.pailitao. com} at Alibaba, we settle a practical large scale product recognition application driven by the proposed SICoT system, and achieve a significant gain of unique visitor~(UV) conversion rate.
翻訳日:2021-02-10 15:03:37 公開日:2021-02-09
# alibabaのeコマースメディアによるバーチャルid発見: ビジュアル検索にユーザークリック行動の豊かさを活用

Virtual ID Discovery from E-commerce Media at Alibaba: Exploiting Richness of User Click Behavior for Visual Search Relevance ( http://arxiv.org/abs/2102.04667v1 )

ライセンス: Link先を確認
Yanhao Zhang, Pan Pan, Yun Zheng, Kang Zhao, Jianmin Wu, Yinghui Xu, Rong Jin(参考訳) ビジュアル検索は、Eコマースに不可欠な役割を担います。 Alibabaにおけるユーザーの検索要求を満たし、ショッピング体験を促進するために、リアルショット画像のビジュアル検索関連性がボトルネックとなっている。 従来のビジュアル検索パラダイムは通常、ラベル付きデータによる教師付き学習に基づいている。 しかし、大規模な分類ラベルは高価な人間のアノテーションを必要とするため、適用性が制限され、通常は実写画像の識別に失敗する。 本稿では,ユーザクリック行動から仮想IDを発見し,Alibabaの視覚検索関連性を改善することを提案する。 完全にクリックデータ駆動のアプローチとして、人間のアノテーションなしでディープネットワークをトレーニングするための様々な種類のクリックデータを収集します。 特に、仮想IDは、コクリック埋め込みによる分類監督として学習され、ユーザーコクリック行動からカテゴリ予測と機能学習を導くためのイメージ関係を探索します。 具体的には,ファーストクリックとスイッチクリックをレギュラライザとして統合することにより,仮想idカテゴリネットワークを展開する。 トリプレットとリスト制約を組み込んだ仮想id特徴ネットワークは、分類とランキングの併用方法で訓練される。 ユーザのクリックデータを調べることで、ネットワークはよりリッチな監視をエンコードし、カテゴリや機能の観点から実際の画像をよりよく識別する。 本手法の有効性を検証するために,収集した実写画像に対して,オフラインおよびオンライン実験を広範囲に実施する。 代替手法や最先端手法と比較して、すべてのコンポーネントで実験結果が一貫して得られます。

Visual search plays an essential role for E-commerce. To meet the search demands of users and promote shopping experience at Alibaba, visual search relevance of real-shot images is becoming the bottleneck. Traditional visual search paradigm is usually based upon supervised learning with labeled data. However, large-scale categorical labels are required with expensive human annotations, which limits its applicability and also usually fails in distinguishing the real-shot images. In this paper, we propose to discover Virtual ID from user click behavior to improve visual search relevance at Alibaba. As a totally click-data driven approach, we collect various types of click data for training deep networks without any human annotations at all. In particular, Virtual ID are learned as classification supervision with co-click embedding, which explores image relationship from user co-click behaviors to guide category prediction and feature learning. Concretely, we deploy Virtual ID Category Network by integrating first-clicks and switch-clicks as regularizer. Incorporating triplets and list constraints, Virtual ID Feature Network is trained in a joint classification and ranking manner. Benefiting from exploration of user click data, our networks are more effective to encode richer supervision and better distinguish real-shot images in terms of category and feature. To validate our method for visual search relevance, we conduct an extensive set of offline and online experiments on the collected real-shot images. We consistently achieve better experimental results across all components, compared with alternative and state-of-the-art methods.
翻訳日:2021-02-10 15:03:13 公開日:2021-02-09
# Alibabaのビジュアル検索

Visual Search at Alibaba ( http://arxiv.org/abs/2102.04674v1 )

ライセンス: Link先を確認
Yanhao Zhang, Pan Pan, Yun Zheng, Kang Zhao, Yingya Zhang, Xiaofeng Ren, Rong Jin(参考訳) 本稿では,Alibabaの大規模ビジュアル検索アルゴリズムとシステムインフラについて紹介する。 以下の課題は、Alibaba(a)のEコマース状況下で、異種画像データを処理し、ユーザークエリから実写画像とオンライン画像の間のギャップを埋める方法について議論されます。 (b)大規模な更新データに対する大規模インデックス処理の扱い方。 (c) 巨大なヒューマンアノテーションなしで効果的な機能表現のための深層モデルを訓練する方法。 (d)コンテンツの品質を考慮してユーザのエンゲージメントを改善する方法。 Alibabaの大規模な画像収集と最先端のディープラーニング技術を活用して、大規模にビジュアル検索を行います。 我々は,このような課題を克服するためのソリューションと実装の詳細を提示するとともに,このような大規模商用ビジュアル検索エンジンの構築から得た知見を共有する。 具体的には、モデルと検索に基づく融合アプローチを導入し、カテゴリを効果的に予測します。 また,ユーザクリック動作のマイニングによる共同検出と特徴学習のための深層CNNモデルを提案する。 バイナリインデックスエンジンは、リコールと精度を損なうことなくインデックスをスケールアップするように設計されている。 最後に、すべてのステージをエンドツーエンドのシステムアーキテクチャに適用し、リアルタイム画像に適応した高効率でスケーラブルなパフォーマンスを同時に達成する。 広範な実験は、システム内の各モジュールの進歩を示しています。 Alibabaのビジュアル検索が、今日の商用アプリケーションに広く取り入れられることを期待しています。

This paper introduces the large scale visual search algorithm and system infrastructure at Alibaba. The following challenges are discussed under the E-commercial circumstance at Alibaba (a) how to handle heterogeneous image data and bridge the gap between real-shot images from user query and the online images. (b) how to deal with large scale indexing for massive updating data. (c) how to train deep models for effective feature representation without huge human annotations. (d) how to improve the user engagement by considering the quality of the content. We take advantage of large image collection of Alibaba and state-of-the-art deep learning techniques to perform visual search at scale. We present solutions and implementation details to overcome those problems and also share our learnings from building such a large scale commercial visual search engine. Specifically, model and search-based fusion approach is introduced to effectively predict categories. Also, we propose a deep CNN model for joint detection and feature learning by mining user click behavior. The binary index engine is designed to scale up indexing without compromising recall and precision. Finally, we apply all the stages into an end-to-end system architecture, which can simultaneously achieve highly efficient and scalable performance adapting to real-shot images. Extensive experiments demonstrate the advancement of each module in our system. We hope visual search at Alibaba becomes more widely incorporated into today's commercial applications.
翻訳日:2021-02-10 15:02:50 公開日:2021-02-09
# 共有識別器を用いた教師なし領域間画像変換の学習

Learning Unsupervised Cross-domain Image-to-Image Translation Using a Shared Discriminator ( http://arxiv.org/abs/2102.04699v1 )

ライセンス: Link先を確認
Rajiv Kumar, Rishabh Dabral, G. Sivakumar(参考訳) 教師なし画像画像変換は、ソースドメインから画像を変換して、ソースターゲット画像ペアを使用することなく、ターゲットドメインで画像を生成するために使用される。 2つの独立したGANとアテンション機構を用いた対向的な設定において,この問題に対する確率的結果が得られた。 本稿では,2つのGAN間の1つの共有判別器を用いた新しい手法を提案する。 対象ドメインがソースドメインと類似したセマンティクスを共有する設定で、クロスドメイン翻訳タスクである画像変換に関する質的および定量的な結果を評価します。 その結果,注意機構を付加することなく,注意に基づく手法と同等に動作し,同等の品質の画像を生成することがわかった。

Unsupervised image-to-image translation is used to transform images from a source domain to generate images in a target domain without using source-target image pairs. Promising results have been obtained for this problem in an adversarial setting using two independent GANs and attention mechanisms. We propose a new method that uses a single shared discriminator between the two GANs, which improves the overall efficacy. We assess the qualitative and quantitative results on image transfiguration, a cross-domain translation task, in a setting where the target domain shares similar semantics to the source domain. Our results indicate that even without adding attention mechanisms, our method performs at par with attention-based methods and generates images of comparable quality.
翻訳日:2021-02-10 15:02:33 公開日:2021-02-09
# Fashion Focus:Eコマースにおけるビデオ商品ローカライゼーションのためのマルチモーダル検索システム

Fashion Focus: Multi-modal Retrieval System for Video Commodity Localization in E-commerce ( http://arxiv.org/abs/2102.04727v1 )

ライセンス: Link先を確認
Yanhao Zhang, Qiang Wang, Pan Pan, Yun Zheng, Cheng Da, Siyang Sun and Yinghui Xu(参考訳) 最近では、Eコマースにおけるライブストリームとショートビデオショッピングが指数関数的に増えている。 しかし、売り手は、販売製品のイメージを未公開のビデオで展示のタイムスタンプに手動で一致させる必要があり、その結果、複雑なプロセスになります。 そこで本研究では,オンラインビデオにおける商品画像の正確なローカライズを可能にするマルチモーダル検索システムであるFashion Focusの革新的なデモを行う。 視覚的内容,言語的特徴,相互作用状況など,コミュニティの地域化に異なるモダリティが寄与し,提示されたマルチモーダル学習を通じて共同で研究される。 本システムでは,ビデオコンテンツの構造化とマルチモーダル検索という2つの分析手順を用いて,映像とショップのマッチングの精度を自動向上する。 Fashion Focusは、ビデオの視聴中に関連する製品展示に消費者をオリエンテーションし、売り手が検索と推奨で製品を効果的に配信するのに役立つ統一されたフレームワークを提供します。

Nowadays, live-stream and short video shopping in E-commerce have grown exponentially. However, the sellers are required to manually match images of the selling products to the timestamp of exhibition in the untrimmed video, resulting in a complicated process. To solve the problem, we present an innovative demonstration of multi-modal retrieval system called "Fashion Focus", which enables to exactly localize the product images in the online video as the focuses. Different modality contributes to the community localization, including visual content, linguistic features and interaction context are jointly investigated via presented multi-modal learning. Our system employs two procedures for analysis, including video content structuring and multi-modal retrieval, to automatically achieve accurate video-to-shop matching. Fashion Focus presents a unified framework that can orientate the consumers towards relevant product exhibitions during watching videos and help the sellers to effectively deliver the products over search and recommendation.
翻訳日:2021-02-10 15:02:19 公開日:2021-02-09
# DetCo: オブジェクト検出のための教師なしコントラスト学習

DetCo: Unsupervised Contrastive Learning for Object Detection ( http://arxiv.org/abs/2102.04803v1 )

ライセンス: Link先を確認
Enze Xie, Jian Ding, Wenhai Wang, Xiaohang Zhan, Hang Xu, Zhenguo Li, Ping Luo(参考訳) 教師なしのコントラスト学習はCNNで画像表現の学習に大きな成功を収めます。 画像分類の精度向上に重点を置いた最近の手法と異なり,グローバルイメージと局所イメージパッチのコントラストを十分に検討し,オブジェクト検出のための識別表現を学習する新しいコントラスト学習手法であるdetcoを提案する。 DetCoにはいくつかの魅力ある利点がある。 1) オブジェクト検出において重要な表現を排除した現在の自己監督手法の弱点を精査し, 慎重に設計する。 2) DetCoは、画像認識のためのグローバル表現を維持しつつ、オブジェクト検出を改善するために、グローバルイメージとローカルパッチ間の階層的な中間的コントラスト損失を構築する。 理論解析は、局所パッチが実際に画像のコンテキスト情報を削除し、コントラスト学習を改善するための相互情報の低い境界を改善することを示しています。 3) PASCAL VOC,COCO,Cityscapesの広範囲にわたる実験により,DetCoはオブジェクト検出における最先端の手法よりもセグメンテーション,ポーズ推定,3次元形状予測に優れており,画像分類にはまだ競争力があることが示された。 例えば、PASCAL VOCでは、DetCo-100epは57.4 mAPに達し、MoCov2-800epと同等である。 さらに、DetCoは1xスケジュールでMask RCNN-C4/FPN/RetinaNe t上の1.6/1.2/1.0 APの監視方式を一貫して上回る。 コードは \href{https://github.com/x ieenze/DetCo}{\color{blue}{\tt github.com/xieenze/D etCo}} と \href{https://github.com/o pen-mmlab/OpenSelfSu p}{\color{blue}{\tt github.com/open-mmla b/OpenSelfSup

Unsupervised contrastive learning achieves great success in learning image representations with CNN. Unlike most recent methods that focused on improving accuracy of image classification, we present a novel contrastive learning approach, named DetCo, which fully explores the contrasts between global image and local image patches to learn discriminative representations for object detection. DetCo has several appealing benefits. (1) It is carefully designed by investigating the weaknesses of current self-supervised methods, which discard important representations for object detection. (2) DetCo builds hierarchical intermediate contrastive losses between global image and local patches to improve object detection, while maintaining global representations for image recognition. Theoretical analysis shows that the local patches actually remove the contextual information of an image, improving the lower bound of mutual information for better contrastive learning. (3) Extensive experiments on PASCAL VOC, COCO and Cityscapes demonstrate that DetCo not only outperforms state-of-the-art methods on object detection, but also on segmentation, pose estimation, and 3D shape prediction, while it is still competitive on image classification. For example, on PASCAL VOC, DetCo-100ep achieves 57.4 mAP, which is on par with the result of MoCov2-800ep. Moreover, DetCo consistently outperforms supervised method by 1.6/1.2/1.0 AP on Mask RCNN-C4/FPN/RetinaNe t with 1x schedule. Code will be released at \href{https://github.com/x ieenze/DetCo}{\color{blue}{\tt github.com/xieenze/D etCo}} and \href{https://github.com/o pen-mmlab/OpenSelfSu p}{\color{blue}{\tt github.com/open-mmla b/OpenSelfSup}}.
翻訳日:2021-02-10 15:02:04 公開日:2021-02-09
# 最良探索領域に基づく水中双眼鏡ステレオマッチングアルゴリズム

An underwater binocular stereo matching algorithm based on the best search domain ( http://arxiv.org/abs/2102.04860v1 )

ライセンス: Link先を確認
Yimin Peng, Yunlong Li, Zijing Fang(参考訳) 両眼立体視は、人間の眼を模倣し、エピポーラ制約に基づいてカメラが捉えた左右の画像と一致するマシンビジョンの重要な部分である。 一致した不均一マップをカメラ画像モデルに従って算出して深度マップを得ることができ、その後、深度マップを点雲画像に変換して空間点座標を求めることにより、測位目的を達成する。 しかし、水中での照明の影響により、撮影された画像はエピポーラ制約を満たせず、撮像モデルの変更により従来の校正法が適用できなくなる。 そこで本論文では,水中リアルタイムキャリブレーション手法と最良探索領域に基づくマッチング手法を提案し,双眼鏡による水中距離測定の精度を向上させる。

Binocular stereo vision is an important branch of machine vision, which imitates the human eye and matches the left and right images captured by the camera based on epipolar constraints. The matched disparity map can be calculated according to the camera imaging model to obtain a depth map, and then the depth map is converted to a point cloud image to obtain spatial point coordinates, thereby achieving the purpose of ranging. However, due to the influence of illumination under water, the captured images no longer meet the epipolar constraints, and the changes in imaging models make traditional calibration methods no longer applicable. Therefore, this paper proposes a new underwater real-time calibration method and a matching method based on the best search domain to improve the accuracy of underwater distance measurement using binoculars.
翻訳日:2021-02-10 15:01:27 公開日:2021-02-09
# 動的ニューラルネットワーク:調査

Dynamic Neural Networks: A Survey ( http://arxiv.org/abs/2102.04906v1 )

ライセンス: Link先を確認
Yizeng Han, Gao Huang, Shiji Song, Le Yang, Honghui Wang, Yulin Wang(参考訳) 動的ニューラルネットワークはディープラーニングにおける新たな研究テーマである。 推論段階で一定の計算グラフとパラメータを持つ静的モデルと比較して、動的ネットワークは構造やパラメータを異なる入力に適応することができ、精度、計算効率、適応性などの点で顕著な利点をもたらします。 In this survey, we comprehensively review this rapidly developing area by dividing dynamic networks into three main categories: 1) instance-wise dynamic models that process each instance with data-dependent architectures or parameters; 2) spatial-wise dynamic networks that conduct adaptive computation with respect to different spatial locations of image data and 3) temporal-wise dynamic models that perform adaptive inference along the temporal dimension for sequential data such as videos and texts. 動的ネットワークの重要な研究課題,例えばアーキテクチャ設計,意思決定手法,最適化技術,応用について体系的に検討する。 最後に,この分野のオープンな問題と,今後の興味深い研究の方向性について考察する。

Dynamic neural network is an emerging research topic in deep learning. Compared to static models which have fixed computational graphs and parameters at the inference stage, dynamic networks can adapt their structures or parameters to different inputs, leading to notable advantages in terms of accuracy, computational efficiency, adaptiveness, etc. In this survey, we comprehensively review this rapidly developing area by dividing dynamic networks into three main categories: 1) instance-wise dynamic models that process each instance with data-dependent architectures or parameters; 2) spatial-wise dynamic networks that conduct adaptive computation with respect to different spatial locations of image data and 3) temporal-wise dynamic models that perform adaptive inference along the temporal dimension for sequential data such as videos and texts. The important research problems of dynamic networks, e.g., architecture design, decision making scheme, optimization technique and applications, are reviewed systematically. Finally, we discuss the open problems in this field together with interesting future research directions.
翻訳日:2021-02-10 15:01:14 公開日:2021-02-09
# CodeXGLUE: コード理解と生成のための機械学習ベンチマークデータセット

CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation ( http://arxiv.org/abs/2102.04664v1 )

ライセンス: Link先を確認
Shuai Lu, Daya Guo, Shuo Ren, Junjie Huang, Alexey Svyatkovskiy, Ambrosio Blanco, Colin Clement, Dawn Drain, Daxin Jiang, Duyu Tang, Ge Li, Lidong Zhou, Linjun Shou, Long Zhou, Michele Tufano, Ming Gong, Ming Zhou, Nan Duan, Neel Sundaresan, Shao Kun Deng, Shengyu Fu, Shujie Liu(参考訳) ベンチマークデータセットは、プログラミング言語タスクの研究の加速に大きな影響を与える。 本稿では,プログラム理解と生成のための機械学習研究を促進するためのベンチマークデータセットであるCodeXGLUEを紹介する。 CodeXGLUEには、14データセットにわたる10タスクのコレクションと、モデル評価と比較のためのプラットフォームが含まれている。 CodeXGLUEはBERTスタイル、GPTスタイル、Encoder-Decoderモデルを含む3つのベースラインシステムも備えており、研究者がプラットフォームを簡単に利用できるようにしている。 このようなデータとベースラインの可用性は、様々なプログラムの理解や生成の問題に適用可能な新しいメソッドの開発と検証に役立つ。

Benchmark datasets have a significant impact on accelerating research in programming language tasks. In this paper, we introduce CodeXGLUE, a benchmark dataset to foster machine learning research for program understanding and generation. CodeXGLUE includes a collection of 10 tasks across 14 datasets and a platform for model evaluation and comparison. CodeXGLUE also features three baseline systems, including the BERT-style, GPT-style, and Encoder-Decoder models, to make it easy for researchers to use the platform. The availability of such data and baselines can help the development and validation of new methods that can be applied to various program understanding and generation problems.
翻訳日:2021-02-10 15:01:00 公開日:2021-02-09
# MALI:Neural ODEのためのメモリ効率と逆精度のインテグレータ

MALI: A memory efficient and reverse accurate integrator for Neural ODEs ( http://arxiv.org/abs/2102.04668v1 )

ライセンス: Link先を確認
Juntang Zhuang, Nicha C. Dvornek, Sekhar Tatikonda, James S. Duncan(参考訳) ニューラル常微分方程式 (Neural normal differential equations, Neural ODEs) は、連続深度を持つ深層学習モデルの新しいファミリである。 しかし、連続ケースにおける勾配の数値的な推定は十分には解決されていない: 逆時間軌道における既存の結合法の実装は不正確であり、ナイーブ法と適応的チェックポイント結合法(ACA)は、統合時間とともに成長するメモリコストを有する。 本プロジェクトでは、非同期跳躍法(ALF)ソルバーに基づき、隣接する方法に類似した統合における定常メモリコスト \textit{w.r.t} のソルバーステップ数を持ち、逆時間軌道の精度を保証するメモリ効率の高いALF積分器(MALI)を提案する。 画像認識タスクにおいて、私たちの知る限り、MALIは、ImageNet上でニューラルODEの実行可能なトレーニングを実現し、十分に調整されたResNetより優れている一方、既存の手法は、重いメモリ負荷または不正確さのために失敗する。

Neural ordinary differential equations (Neural ODEs) are a new family of deep-learning models with continuous depth. However, the numerical estimation of the gradient in the continuous case is not well solved: existing implementations of the adjoint method suffer from inaccuracy in reverse-time trajectory, while the naive method and the adaptive checkpoint adjoint method (ACA) have a memory cost that grows with integration time. In this project, based on the asynchronous leapfrog (ALF) solver, we propose the Memory-efficient ALF Integrator (MALI), which has a constant memory cost \textit{w.r.t} number of solver steps in integration similar to the adjoint method, and guarantees accuracy in reverse-time trajectory (hence accuracy in gradient estimation). We validate MALI in various tasks: on image recognition tasks, to our knowledge, MALI is the first to enable feasible training of a Neural ODE on ImageNet and outperform a well-tuned ResNet, while existing methods fail due to either heavy memory burden or inaccuracy; for time series modeling, MALI significantly outperforms the adjoint method; and for continuous generative models, MALI achieves new state-of-the-art performance.
翻訳日:2021-02-10 14:59:36 公開日:2021-02-09
# 適応マルチステップブートストラップによるタブラMDPの細粒ギャップ依存性境界

Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive Multi-Step Bootstrap ( http://arxiv.org/abs/2102.04692v1 )

ライセンス: Link先を確認
Haike Xu, Tengyu Ma, Simon S. Du(参考訳) 本稿では, より強いギャップ依存的後悔境界を満足する, 有限水平マルコフ決定過程(MDP, Adaptive Multi-step Bootstrap, AMB)のモデルフリーアルゴリズムを提案する。 最初のイノベーションは、楽観的なブートストラップと適応的なマルチステップモンテカルロロールアウトを組み合わせることで、最適な$Q$関数を推定することです。 第2のイノベーションは、他のアクションに支配されない許容されるアクションのうち、最大信頼区間長のアクションを選択することである。 我々は、各状態が固有の最適作用を有する場合、AMBは、サブオプティマティリティギャップの逆の合計でのみスケールするギャップ依存の後悔の境界を達成します。 対照的に、Simchowitz と Jamieson (2019) は、すべての上限値(UCB)アルゴリズムが、過剰探索により、$\Delta_{min}$ が最小の準最適ギャップであり、$S$ が状態数であるために、追加の$\Omega\left(\frac{S}{\Delta_{min}}\right)$ 後悔することを示した。 さらに、一般の MDP に対して AMB は追加の $\frac{|Z_{mul}|}{\Delta_{min}}$ に苦しむことを示し、ここで $Z_{mul}$ は状態-作用対 $(s,a)$ の満足する $a$ の集合は $s$ の非一様最適作用である。 我々は、任意の一貫したアルゴリズムに対して、$\frac{|z_{mul}|}{\delta_{min}}$ への依存性が避けられないことを示す下限で上限を補う。 この下限はまた、強化学習と文脈的包帯の分離を意味する。

This paper presents a new model-free algorithm for episodic finite-horizon Markov Decision Processes (MDP), Adaptive Multi-step Bootstrap (AMB), which enjoys a stronger gap-dependent regret bound. The first innovation is to estimate the optimal $Q$-function by combining an optimistic bootstrap with an adaptive multi-step Monte Carlo rollout. The second innovation is to select the action with the largest confidence interval length among admissible actions that are not dominated by any other actions. We show when each state has a unique optimal action, AMB achieves a gap-dependent regret bound that only scales with the sum of the inverse of the sub-optimality gaps. In contrast, Simchowitz and Jamieson (2019) showed all upper-confidence-bou nd (UCB) algorithms suffer an additional $\Omega\left(\frac{S}{\Delta_{min}}\right)$ regret due to over-exploration where $\Delta_{min}$ is the minimum sub-optimality gap and $S$ is the number of states. We further show that for general MDPs, AMB suffers an additional $\frac{|Z_{mul}|}{\Delta_{min}}$ regret, where $Z_{mul}$ is the set of state-action pairs $(s,a)$'s satisfying $a$ is a non-unique optimal action for $s$. We complement our upper bound with a lower bound showing the dependency on $\frac{|Z_{mul}|}{\Delta_{min}}$ is unavoidable for any consistent algorithm. This lower bound also implies a separation between reinforcement learning and contextual bandits.
翻訳日:2021-02-10 14:59:12 公開日:2021-02-09
# デルーシブ・ポゾニングに対する確率的防御

Provable Defense Against Delusive Poisoning ( http://arxiv.org/abs/2102.04716v1 )

ライセンス: Link先を確認
Lue Tao, Lei Feng, Jinfeng Yi, Sheng-Jun Huang, Songcan Chen(参考訳) 誤用中毒は学習を妨げる特殊な攻撃であり、正しくラベル付けされたトレーニング例の特徴を(少しでも)操作するだけで学習性能が著しく低下する可能性がある。 この悪意ある攻撃を、特定の$\infty$-wasserstein ボール内のトレーニング時間における最悪の分布シフトを見つけるように定式化することで、毒物データの敵意リスクを最小化することは、元のデータに対する自然リスクの上限を最適化することと同値であることを示した。 これは、敵の訓練が妄想的中毒に対する原則的な防御方法であることを意味している。 防御の内部機構をより深く理解するため,学習者が自然環境において非ロバスト特徴に過度に依存することを防止することにより,学習者の訓練分布シフトに対抗できることを明らかにした。 最後に,本研究の理論的知見を,人気のあるベンチマークデータセットに関する一連の実験で補完し,防衛が6つの異なる実用的攻撃に耐えることを示した。 理論的および経験的な結果の両方は、悪質な中毒に直面したときに敵対的な訓練に投票します。

Delusive poisoning is a special kind of attack to obstruct learning, where the learning performance could be significantly deteriorated by only manipulating (even slightly) the features of correctly labeled training examples. By formalizing this malicious attack as finding the worst-case distribution shift at training time within a specific $\infty$-Wasserstein ball, we show that minimizing adversarial risk on the poison data is equivalent to optimizing an upper bound of natural risk on the original data. This implies that adversarial training can be a principled defense method against delusive poisoning. To further understand the internal mechanism of the defense, we disclose that adversarial training can resist the training distribution shift by preventing the learner from overly relying on non-robust features in a natural setting. Finally, we complement our theoretical findings with a set of experiments on popular benchmark datasets, which shows that the defense withstands six different practical attacks. Both theoretical and empirical results vote for adversarial training when confronted with delusive poisoning.
翻訳日:2021-02-10 14:58:36 公開日:2021-02-09
# 強靭な軌道分類のための多次元サブシーケンスの高速発見

Fast discovery of multidimensional subsequences for robust trajectory classification ( http://arxiv.org/abs/2102.04781v1 )

ライセンス: Link先を確認
Tarlis Portela, Jonata Tyska, Vania Bogorny(参考訳) 毎日大量のモビリティデータが生成され、ソーシャルネットワークやIoTセンサーなどの新しい情報源が豊富なため、軌道分類タスクはより複雑になりました。 高速分類アルゴリズムは実応用のための軌道データから知識を発見するのに不可欠である。 本研究では,探索空間の削減とMASTERMovelets法の最適化により,サブトラジェクトリの高速発見法を提案し,分類問題における解釈可能なパターンの発見に有効であることが証明された。

Trajectory classification tasks became more complex as large volumes of mobility data are being generated every day and enriched with new sources of information, such as social networks and IoT sensors. Fast classification algorithms are essential for discovering knowledge in trajectory data for real applications. In this work we propose a method for fast discovery of subtrajectories with the reduction of the search space and the optimization of the MASTERMovelets method, which has proven to be effective for discovering interpretable patterns in classification problems.
翻訳日:2021-02-10 14:58:18 公開日:2021-02-09
# ターゲットトレーニングは、敵のサンプルなしで敵のトレーニングを行います

Target Training Does Adversarial Training Without Adversarial Samples ( http://arxiv.org/abs/2102.04836v1 )

ライセンス: Link先を確認
Blerta Lindqvist(参考訳) ニューラルネットワーク分類器は、敵のサンプルの誤分類に弱いため、現在の最良の防衛列車分類器は敵のサンプルで分類される。 しかし、敵攻撃のコアにおける最小化に基づいて、敵のサンプルはステアリングアタック収束に最適ではない。 最小化摂動項は、訓練中の敵のサンプルをトレーニングのためだけにラベル付けされた元のサンプルに置き換えることで、0ドルまで最小化することができる。 元のサンプルのみを使用して、ターゲットトレーニングは、摂動を最小限にするすべての攻撃に対するトレーニングのために逆のサンプルを生成する必要をなくす。 低容量の分類器では、目標訓練はデフォルトのcifar10精度(84.3$%)と現在の防御精度(25$%以下)を上回り、cw-l$_2$($\kappa=0$)攻撃に対して84.8$%、deepfoolに対して86.6$%である。 CIFAR10では、摂動を最小化しない攻撃に対する敵のサンプルを使用することで、現在の最良の防御(69.1$%)を超え、CW-L$_2$($\kappa=40$)に対して76.4$%となる。

Neural network classifiers are vulnerable to misclassification of adversarial samples, for which the current best defense trains classifiers with adversarial samples. However, adversarial samples are not optimal for steering attack convergence, based on the minimization at the core of adversarial attacks. The minimization perturbation term can be minimized towards $0$ by replacing adversarial samples in training with duplicated original samples, labeled differently only for training. Using only original samples, Target Training eliminates the need to generate adversarial samples for training against all attacks that minimize perturbation. In low-capacity classifiers and without using adversarial samples, Target Training exceeds both default CIFAR10 accuracy ($84.3$%) and current best defense accuracy (below $25$%) with $84.8$% against CW-L$_2$($\kappa=0$) attack, and $86.6$% against DeepFool. Using adversarial samples against attacks that do not minimize perturbation, Target Training exceeds current best defense ($69.1$%) with $76.4$% against CW-L$_2$($\kappa=40$) in CIFAR10.
翻訳日:2021-02-10 14:58:10 公開日:2021-02-09
# 分割線形損失関数を用いた強力なsvmの学習

Learning a powerful SVM using piece-wise linear loss functions ( http://arxiv.org/abs/2102.04849v1 )

ライセンス: Link先を確認
Pritam Anand(参考訳) 本稿では,経験的リスクを測定するために,svmモデルにおける一般の k-ピースワイズ線形凸損失関数を考察する。 得られたk-Piece-wise Linear loss Support Vector Machine (k-PL-SVM)モデルは、与えられたトレーニングセットの性質に応じて適切なピースワイズ線形損失関数を学習できる適応型SVMモデルである。 k-PL-SVMモデルは一般的なSVMモデルであり、C-SVM、LS-SVM、Pin-SVMモデルといった既存のSVMモデルは、その特定のケースである。 k = 2 と 3 の k-PL-SVM モデルを用いて広範な数値実験を行い、既存の SVM モデルよりも改善していることを示した。

In this paper, we have considered general k-piece-wise linear convex loss functions in SVM model for measuring the empirical risk. The resulting k-Piece-wise Linear loss Support Vector Machine (k-PL-SVM) model is an adaptive SVM model which can learn a suitable piece-wise linear loss function according to nature of the given training set. The k-PL-SVM models are general SVM models and existing popular SVM models, like C-SVM, LS-SVM and Pin-SVM models, are their particular cases. We have performed the extensive numerical experiments with k-PL-SVM models for k = 2 and 3 and shown that they are improvement over existing SVM models.
翻訳日:2021-02-10 14:57:42 公開日:2021-02-09
# RL for Latent MDPs: Regret Guarantees and a Lower Bounds (英語)

RL for Latent MDPs: Regret Guarantees and a Lower Bound ( http://arxiv.org/abs/2102.04939v1 )

ライセンス: Link先を確認
Jeongyeol Kwon, Yonathan Efroni, Constantine Caramanis, Shie Mannor(参考訳) 本研究では,潜在マルコフ決定過程(LMDP)における強化学習における後悔最小化問題を検討する。 LMDPでは、MDPは相互作用の開始時に$M$可能なMDPのセットからランダムに引き出されるが、選択したMDPのアイデンティティはエージェントに明らかにされない。 まず、LMDPの一般的な例は、最適ポリシーを近似するために少なくとも$\Omega((SA)^M)$のエピソードを必要とすることを示す。 そこで,良質な政策を学ぶためには,エピソード数を多項式数とする十分な仮定を考える。 鍵となるリンクはmdpシステムダイナミクス間の分離の概念であることを示す。 十分な分離で、我々は局所的な保証を持つ効率的なアルゴリズム、すなわち、良い初期化が与えられたときのサブ線形後悔保証を提供する。 最後に、予測状態表現(psr)の文献(例えばbootsなど)に共通する標準的な統計十分性仮定が与えられた場合。 そして到達可能性の仮定は、初期化の必要性が取り除かれることを示します。

In this work, we consider the regret minimization problem for reinforcement learning in latent Markov Decision Processes (LMDP). In an LMDP, an MDP is randomly drawn from a set of $M$ possible MDPs at the beginning of the interaction, but the identity of the chosen MDP is not revealed to the agent. We first show that a general instance of LMDPs requires at least $\Omega((SA)^M)$ episodes to even approximate the optimal policy. Then, we consider sufficient assumptions under which learning good policies requires polynomial number of episodes. We show that the key link is a notion of separation between the MDP system dynamics. With sufficient separation, we provide an efficient algorithm with local guarantee, {\it i.e.,} providing a sublinear regret guarantee when we are given a good initialization. Finally, if we are given standard statistical sufficiency assumptions common in the Predictive State Representation (PSR) literature (e.g., Boots et al.) and a reachability assumption, we show that the need for initialization can be removed.
翻訳日:2021-02-10 14:57:29 公開日:2021-02-09
# 3次元グラフネットワークのための球状メッセージパッシング

Spherical Message Passing for 3D Graph Networks ( http://arxiv.org/abs/2102.05013v1 )

ライセンス: Link先を確認
Yi Liu, Limei Wang, Meng Liu, Xuan Zhang, Bora Oztekin, Shuiwang Ji(参考訳) 各ノードが3Dの空間位置と関連づけられる3Dグラフから表現学習を検討する。 これは研究の未踏の領域であり、原則化されたフレームワークは現在欠けている。 本研究では、3Dグラフの粒度の異なるレベルで統一されたインターフェースを提供するために、3Dグラフネットワーク(3DGN)として知られるジェネリックフレームワークを提案する。 3DGNをベースに、球状座標系(SCS)における3DGNフレームワーク実現のための新規で具体的なスキームとして、球状メッセージパッシング(SMP)を提案する。 我々は形式解析を行い、3次元グラフの各ノードの相対的な位置がSMPスキームで一意に定義されることを示す。 したがって、SMPはSCSの3次元グラフから学習するための完全かつ正確なアーキテクチャである。 幾何学的情報の物理的表現を導出し、3次元グラフの表現を学習するためのSphereNetを提案する。 既存の3D深層モデルがSphereNetの特別なケースとして見ることができることを示す。 実験結果は、3DGNおよびSphereNetにおける完全かつ正確な3D情報の使用が予測タスクの大幅なパフォーマンス向上につながることを実証した。

We consider representation learning from 3D graphs in which each node is associated with a spatial position in 3D. This is an under explored area of research, and a principled framework is currently lacking. In this work, we propose a generic framework, known as the 3D graph network (3DGN), to provide a unified interface at different levels of granularity for 3D graphs. Built on 3DGN, we propose the spherical message passing (SMP) as a novel and specific scheme for realizing the 3DGN framework in the spherical coordinate system (SCS). We conduct formal analyses and show that the relative location of each node in 3D graphs is uniquely defined in the SMP scheme. Thus, our SMP represents a complete and accurate architecture for learning from 3D graphs in the SCS. We derive physically-based representations of geometric information and propose the SphereNet for learning representations of 3D graphs. We show that existing 3D deep models can be viewed as special cases of the SphereNet. Experimental results demonstrate that the use of complete and accurate 3D information in 3DGN and SphereNet leads to significant performance improvements in prediction tasks.
翻訳日:2021-02-10 14:57:10 公開日:2021-02-09
# 不完全文脈を用いたロバスト帯域学習

Robust Bandit Learning with Imperfect Context ( http://arxiv.org/abs/2102.05018v1 )

ライセンス: Link先を確認
Jianyi Yang, Shaolei Ren(参考訳) 文脈的マルチアームバンディットの標準的な仮定真のコンテキストは、腕の選択の前に完全に知られているということです。 それでも、多くの実用的なアプリケーション(例えばクラウドリソース管理)では、arm選択の前にコンテキスト情報は、エラーや逆の修正を受けた予測によってのみ取得できる。 本稿では,各ラウンドの最後に真のコンテキストを明かしながら,アーム選択において不完全コンテキストのみを利用可能とするコンテキストバンディット設定について検討する。 最悪の報酬を最大化するMaxMinUCB(Maximize Minimum UCB)と最悪の後悔を最小限に抑えるMinWD(Minimize Worst-case Degradation)の2つの堅牢なアーム選択アルゴリズムを提案します。 重要なことは、MaxMinUCBとMinWDの堅牢性を分析し、真のコンテキストを知っているオラクルと比較して、後悔と報酬の境界の両方を導き出します。 以上の結果から,MaxMinUCBとMinWDはともに漸近的に,報酬関数を知っていれば最適であることがわかった。 最後に、MaxMinUCBとMinWDをオンラインエッジデータセンタの選択に適用し、理論解析を検証するために合成シミュレーションを実行します。

A standard assumption in contextual multi-arm bandit is that the true context is perfectly known before arm selection. Nonetheless, in many practical applications (e.g., cloud resource management), prior to arm selection, the context information can only be acquired by prediction subject to errors or adversarial modification. In this paper, we study a contextual bandit setting in which only imperfect context is available for arm selection while the true context is revealed at the end of each round. We propose two robust arm selection algorithms: MaxMinUCB (Maximize Minimum UCB) which maximizes the worst-case reward, and MinWD (Minimize Worst-case Degradation) which minimizes the worst-case regret. Importantly, we analyze the robustness of MaxMinUCB and MinWD by deriving both regret and reward bounds compared to an oracle that knows the true context. Our results show that as time goes on, MaxMinUCB and MinWD both perform as asymptotically well as their optimal counterparts that know the reward function. Finally, we apply MaxMinUCB and MinWD to online edge datacenter selection, and run synthetic simulations to validate our theoretical analysis.
翻訳日:2021-02-10 14:56:53 公開日:2021-02-09
# 人工知能のセキュリティとプライバシー : 機会と課題

Security and Privacy for Artificial Intelligence: Opportunities and Challenges ( http://arxiv.org/abs/2102.04661v1 )

ライセンス: Link先を確認
Ayodeji Oseni, Nour Moustafa, Helge Janicke, Peng Liu, Zahir Tari and Athanasios Vasilakos(参考訳) 人工知能(AI)の採用の増加は、多くの社会経済的・環境的な課題を解決する機会を提供するが、AI対応技術を確保しなければ実現できない。 近年、ほとんどのAIモデルは高度なハッキング技術に脆弱です。 この課題は、さまざまな種類の敵対的シナリオに回復力のある堅牢なマシンおよびディープラーニングモデルの開発を目的として、敵対的AIに関する共同研究を動機づけています。 本稿では、敵対的知識と能力などの側面を含むAIアプリケーションに対する敵対的攻撃と、敵対的な例と既存のサイバー防御モデルを生成する既存の方法を示す包括的なサイバーセキュリティレビューを紹介します。 我々は、数学的AIモデル、特に強化と連合学習の新しいバリエーションを説明し、攻撃ベクトルがAIモデルの脆弱性をどのように悪用するかを示す。 また、AIアプリケーションに対する攻撃技術を実証するための体系的なフレームワークを提案し、これらの攻撃からAIアプリケーションを保護するいくつかのサイバー防御を見直しました。 また、AIアプリケーションをセキュアに評価する適応型防御を開発するために、敵の目標とその能力、特に最近の産業アプリケーションに対する攻撃を理解することの重要性を強調します。 最後に、AI技術のセキュリティとプライバシの分野における主な課題と今後の研究方向性について説明する。

The increased adoption of Artificial Intelligence (AI) presents an opportunity to solve many socio-economic and environmental challenges; however, this cannot happen without securing AI-enabled technologies. In recent years, most AI models are vulnerable to advanced and sophisticated hacking techniques. This challenge has motivated concerted research efforts into adversarial AI, with the aim of developing robust machine and deep learning models that are resilient to different types of adversarial scenarios. In this paper, we present a holistic cyber security review that demonstrates adversarial attacks against AI applications, including aspects such as adversarial knowledge and capabilities, as well as existing methods for generating adversarial examples and existing cyber defence models. We explain mathematical AI models, especially new variants of reinforcement and federated learning, to demonstrate how attack vectors would exploit vulnerabilities of AI models. We also propose a systematic framework for demonstrating attack techniques against AI applications and reviewed several cyber defences that would protect AI applications against those attacks. We also highlight the importance of understanding the adversarial goals and their capabilities, especially the recent attacks against industry applications, to develop adaptive defences that assess to secure AI applications. Finally, we describe the main challenges and future research directions in the domain of security and privacy of AI technologies.
翻訳日:2021-02-10 14:56:31 公開日:2021-02-09
# ブラックボックスのインターロゲート:情報検索対話による透明性

Interrogating the Black Box: Transparency through Information-Seeking Dialogues ( http://arxiv.org/abs/2102.04714v1 )

ライセンス: Link先を確認
Andrea Aler Tubella, Andreas Theodorou and Juan Carlos Nieves(参考訳) この論文は、(おそらく不透明な)学習システムを考えると、その振る舞いがガバナンスの制約に準拠するかどうかをどうやって理解できるのか? 答えは非常に簡単です:私たちはシステムについて単に「アスク」する必要があります。 本研究は,情報参照対話の文脈において,与えられた倫理的方針への順応性を検討するために,学習エージェント -- 被疑者エージェント -- を問合せする調査エージェントを構築することを提案する。 この形式的対話フレームワークが本論文の主な貢献である。 そこで我々は,コンプライアンス・チェック・メカニズムを3つのモジュール・コンポーネントに分割し,調査員,被疑者エージェント,受理プロトコルの3つを多種多様なニーズに合わせて調整し,被疑者エージェントの応答がポリシーに適合するかどうかを判断する。 この受け入れプロトコルは,学習システムの非決定性を扱うために定量的手法を使用するのではなく,議論のセマンティクスを活用して,保持するプロパティの概念を一貫して研究する,という,根本的に異なるアプローチを提示する。 全体として,形式的な対話フレームワークは,コンプライアンスチェックの領域と不透明なシステムの特性の分析の両方において,多くの道を開くと論じている。

This paper is preoccupied with the following question: given a (possibly opaque) learning system, how can we understand whether its behaviour adheres to governance constraints? The answer can be quite simple: we just need to "ask" the system about it. We propose to construct an investigator agent to query a learning agent -- the suspect agent -- to investigate its adherence to a given ethical policy in the context of an information-seeking dialogue, modeled in formal argumentation settings. This formal dialogue framework is the main contribution of this paper. Through it, we break down compliance checking mechanisms into three modular components, each of which can be tailored to various needs in a vast amount of ways: an investigator agent, a suspect agent, and an acceptance protocol determining whether the responses of the suspect agent comply with the policy. This acceptance protocol presents a fundamentally different approach to aggregation: rather than using quantitative methods to deal with the non-determinism of a learning system, we leverage the use of argumentation semantics to investigate the notion of properties holding consistently. Overall, we argue that the introduced formal dialogue framework opens many avenues both in the area of compliance checking and in the analysis of properties of opaque systems.
翻訳日:2021-02-10 14:56:12 公開日:2021-02-09
# AIベースのBlackbox Code Deobfuscation:理解、改善、緩和

AI-based Blackbox Code Deobfuscation: Understand, Improve and Mitigate ( http://arxiv.org/abs/2102.04805v1 )

ライセンス: Link先を確認
Gr\'egoire Menguy, S\'ebastien Bardin, Richard Bonichon, Cauim de Souza Lima(参考訳) Code obfuscationは、ソフトウェアに埋め込まれた知的財産やその他の秘密の取得を防止することを目的としています。 最近の研究は、標準的な(ホワイトボックス)保護機構に完全に免疫を持つブラックボックス・デオブファシエーターを期待して、人工知能の進歩を活用している。 有望ながら、AIベースのブラックボックスの脱難のこの新しい分野は、まだ初期段階です。 この記事では、AIベースのブラックボックスの難読化の状態を3つの重要な方向で深く掘り下げます。現在の最新状況を理解し、改善し、専用の保護メカニズムを設計することです。 In particular, we define a novel generic framework for AI-based blackbox deobfuscation encompassing prior work and highlighting key components; we are the first to point out that the search space underlying code deobfuscation is too unstable for simulation-based methods (e.g., Monte Carlo Tres Search used in prior work) and advocate the use of robust methods such as S-metaheuritics; we propose the new optimized AI-based blackbox deobfuscator Xyntia which significantly outperforms prior work in terms of success rate (especially with small time budget) while being completely immune to the most recent anti-analysis code obfuscation methods; and finally we propose two novel protections against AI-based blackbox deobfuscation, allowing to counter Xyntia's powerful attacks.

Code obfuscation aims at protecting Intellectual Property and other secrets embedded into software from being retrieved. Recent works leverage advances in artificial intelligence with the hope of getting blackbox deobfuscators completely immune to standard (whitebox) protection mechanisms. While promising, this new field of AI-based blackbox deobfuscation is still in its infancy. In this article we deepen the state of AI-based blackbox deobfuscation in three key directions: understand the current state-of-the-art, improve over it and design dedicated protection mechanisms. In particular, we define a novel generic framework for AI-based blackbox deobfuscation encompassing prior work and highlighting key components; we are the first to point out that the search space underlying code deobfuscation is too unstable for simulation-based methods (e.g., Monte Carlo Tres Search used in prior work) and advocate the use of robust methods such as S-metaheuritics; we propose the new optimized AI-based blackbox deobfuscator Xyntia which significantly outperforms prior work in terms of success rate (especially with small time budget) while being completely immune to the most recent anti-analysis code obfuscation methods; and finally we propose two novel protections against AI-based blackbox deobfuscation, allowing to counter Xyntia's powerful attacks.
翻訳日:2021-02-10 14:55:37 公開日:2021-02-09
# 最初に分類器を訓練する: カスケードニューラルネットワーク 上層から下層へのトレーニング。

Train your classifier first: Cascade Neural Networks Training from upper layers to lower layers ( http://arxiv.org/abs/2102.04697v1 )

ライセンス: Link先を確認
Shucong Zhang, Cong-Thanh Do, Rama Doddipatla, Erfan Loweimi, Peter Bell and Steve Renals(参考訳) ディープニューラルネットワークの下位層はデータセット間で転送可能な機能を学ぶが、これらの層は同じデータセット内では転送できない。 すなわち、トレーニングされた特徴抽出器(下層)を凍結し、同じデータセット上の分類器(上層)を再トレーニングすることで、パフォーマンスが悪化する。 本稿では,凍った分類器が同じデータセット内で転送可能であることを初めて示す。 高品質の分類器を探索するアルゴリズムとして,新しいトップダウン学習法を開発した。 自動音声認識(ASR)タスクと言語モデリングタスクでこの手法をテストした。 提案手法は、Wall Street Journal の繰り返しニューラルネットワーク ASR モデル、Switchboard の自己アテンション ASR モデル、WikiText-2 の AWD-LSTM 言語モデルを一貫して改善する。

Although the lower layers of a deep neural network learn features which are transferable across datasets, these layers are not transferable within the same dataset. That is, in general, freezing the trained feature extractor (the lower layers) and retraining the classifier (the upper layers) on the same dataset leads to worse performance. In this paper, for the first time, we show that the frozen classifier is transferable within the same dataset. We develop a novel top-down training method which can be viewed as an algorithm for searching for high-quality classifiers. We tested this method on automatic speech recognition (ASR) tasks and language modelling tasks. The proposed method consistently improves recurrent neural network ASR models on Wall Street Journal, self-attention ASR models on Switchboard, and AWD-LSTM language models on WikiText-2.
翻訳日:2021-02-10 14:54:19 公開日:2021-02-09
# 発話源分離のための置換不変訓練について

On permutation invariant training for speech source separation ( http://arxiv.org/abs/2102.04945v1 )

ライセンス: Link先を確認
Xiaoyu Liu and Jordi Pons(参考訳) 話者独立音源分離モデルにおける置換あいまいさ問題を対象とした置換不変訓練(PIT)について検討する。 最先端のPIT戦略を2つ拡張する。 まず,sftドメインで当初提案されていたフレームレベルピット(tpit)とクラスタリングに基づく2段階の話者分離・追跡アルゴリズムについて検討し,波形や学習された潜在空間上での処理に適応する。 さらに,波形モデルに適用可能な効率的なクラスタリング損失を提案する。 第二に, 発話レベルPIT (uPIT) による局所的置換誤差を低減するため, 話者識別音声特徴に基づく深部特徴損失を伴った最近提案された補助話者ID損失を拡張した。 提案された拡張が置換のあいまいさを軽減することを示した。 しかし,本研究のSTFTモデルの方が波形モデルよりも置換誤差の低減に有効であることに留意すべきである。

We study permutation invariant training (PIT), which targets at the permutation ambiguity problem for speaker independent source separation models. We extend two state-of-the-art PIT strategies. First, we look at the two-stage speaker separation and tracking algorithm based on frame level PIT (tPIT) and clustering, which was originally proposed for the STFT domain, and we adapt it to work with waveforms and over a learned latent space. Further, we propose an efficient clustering loss scalable to waveform models. Second, we extend a recently proposed auxiliary speaker-ID loss with a deep feature loss based on "problem agnostic speech features", to reduce the local permutation errors made by the utterance level PIT (uPIT). Our results show that the proposed extensions help reducing permutation ambiguity. However, we also note that the studied STFT-based models are more effective at reducing permutation errors than waveform-based models, a perspective overlooked in recent studies.
翻訳日:2021-02-10 14:54:00 公開日:2021-02-09
# マルチエージェント影響図の平衡再定義:理論と実践

Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice ( http://arxiv.org/abs/2102.05008v1 )

ライセンス: Link先を確認
Lewis Hammond, James Fox, Tom Everitt, Alessandro Abate, Michael Wooldridge(参考訳) マルチエージェント・インフルエンス・ダイアグラム(MAID)はグラフィカル・モデルの一般的な形式であり、特定のクラスのゲームに対して、従来の拡張形式ゲーム(EFG)表現よりも重要な複雑さと説明可能性の利点が示されている。 本論文では、MAIDサブゲームの概念、およびサブゲームパーフェクトおよびトレムブルハンドパーフェクトバランスの洗練について紹介することにより、MAIDに関するこれまでの研究を拡張します。 次に、MAIDとEFG間のいくつかの等価結果を証明する。 最後に,MAIDの推論と平衡計算のためのオープンソース実装について述べる。

Multi-agent influence diagrams (MAIDs) are a popular form of graphical model that, for certain classes of games, have been shown to offer key complexity and explainability advantages over traditional extensive form game (EFG) representations. In this paper, we extend previous work on MAIDs by introducing the concept of a MAID subgame, as well as subgame perfect and trembling hand perfect equilibrium refinements. We then prove several equivalence results between MAIDs and EFGs. Finally, we describe an open source implementation for reasoning about MAIDs and computing their equilibria.
翻訳日:2021-02-10 14:53:43 公開日:2021-02-09
# Alibabaのバイナリ分散グラフによる大規模ビジュアル検索

Large-Scale Visual Search with Binary Distributed Graph at Alibaba ( http://arxiv.org/abs/2102.04656v1 )

ライセンス: Link先を確認
Kang Zhao, Pan Pan, Yun Zheng, Yanhao Zhang, Changxu Wang, Yingya Zhang, Yinghui Xu, Rong Jin(参考訳) グラフベースの近似近接探索は、そのオンライン検索の利点のためにますます注目を集めている。 速度とリコールの強化を研究する多くの方法が提案されている。 しかし、オフライングラフ構築の効率とスケールにフォーカスする人は少ない。 数十億のオンライン画像が展開されている視覚検索システムでは、時間内に数十億のスケールのオフライングラフを構築することが不可欠である。 本稿では,この問題を解くために,Binary Distributed Graphと呼ばれるアルゴリズムを提案する。 具体的には、バイナリコードとグラフ構造を組み合わせて、オンラインおよびオフラインプロシージャを高速化し、より多くのバイナリ候補をリコールすることで、実値ベースのシナリオで同等のパフォーマンスを達成する。 さらに、グラフ構築は完全な分散実装に最適化され、オフラインプロセスが大幅に加速され、単一マシン内のメモリとディスクの制限が排除される。 Alibaba Commodity Data Set(30億枚以上の画像)の実験的比較は、提案手法がオンライン/オフラインのトレードオフに関して最先端の手法を上回っていることを示している。

Graph-based approximate nearest neighbor search has attracted more and more attentions due to its online search advantages. Numbers of methods studying the enhancement of speed and recall have been put forward. However, few of them focus on the efficiency and scale of offline graph-construction. For a deployed visual search system with several billions of online images in total, building a billion-scale offline graph in hours is essential, which is almost unachievable by most existing methods. In this paper, we propose a novel algorithm called Binary Distributed Graph to solve this problem. Specifically, we combine binary codes with graph structure to speedup online and offline procedures, and achieve comparable performance with the ones in real-value based scenarios by recalling more binary candidates. Furthermore, the graph-construction is optimized to completely distributed implementation, which significantly accelerates the offline process and gets rid of the limitation of memory and disk within a single machine. Experimental comparisons on Alibaba Commodity Data Set (more than three billion images) show that the proposed method outperforms the state-of-the-art with respect to the online/offline trade-off.
翻訳日:2021-02-10 14:53:18 公開日:2021-02-09
# 自己着脱型制御可能なグローバル構造を持つ多種多様な単一画像生成

Diverse Single Image Generation with Controllable Global Structure though Self-Attention ( http://arxiv.org/abs/2102.04780v1 )

ライセンス: Link先を確認
Sutharsan Mahendren, Chamira Edussooriya, Ranga Rodrigo(参考訳) 生成した画像のリアリズムのため、生成逆ネットワークを用いた単一の画像からの画像生成は非常に興味深い。 しかし、近年のアプローチでは、顔、動物、建築的な画像生成など、画像のグローバルコンテキストが重要である場合に、このような現実的な多様な画像生成の改善が必要である。 これは主に、パッチ統計を主に取得するために、畳み込み層が少ないためであり、それゆえに、グローバル統計をうまく取得できないためである。 本研究では,選択した尺度で注目ブロックを用いて,ランダムなガウス像を識別器に供給することで,この問題を解決する。 我々の結果は、特にグローバルなコンテキストを必要とする画像の生成において、最先端技術よりも視覚的に優れている。 ピクセルの平均標準偏差を使用して測定された画像生成の多様性も優れています。

Image generation from a single image using generative adversarial networks is quite interesting due to the realism of generated images. However, recent approaches need improvement for such realistic and diverse image generation, when the global context of the image is important such as in face, animal, and architectural image generation. This is mainly due to the use of fewer convolutional layers for mainly capturing the patch statistics and, thereby, not being able to capture global statistics very well. We solve this problem by using attention blocks at selected scales and feeding a random Gaussian blurred image to the discriminator for training. Our results are visually better than the state-of-the-art particularly in generating images that require global context. The diversity of our image generation, measured using the average standard deviation of pixels, is also better.
翻訳日:2021-02-10 14:53:04 公開日:2021-02-09
# 深部画像分類への行動経済学的アプローチ Rationally Inattentive Utility Maximizationがディープイメージ分類を説明

Behavioral Economics Approach to Interpretable Deep Image Classification. Rationally Inattentive Utility Maximization Explains Deep Image Classification ( http://arxiv.org/abs/2102.04594v1 )

ライセンス: Link先を確認
Kunal Pattanayak and Vikram Krishnamurthy(参考訳) 画像分類のための深層畳み込みニューラルネットワーク(cnns)は,情報取得コストを伴う実用的最大化行動と一致するか? 本稿では, 行動経済学において人間の意思決定を説明するために広く用いられているモデルである, 合理的に不注意な効用最大化器に対して, 深部CNNが(必要かつ十分な条件で)等価に振る舞うという顕著な結果を示す。 これは、深層cnnが、単純な直感的な人間のような決定パラメータ、すなわち実用機能と情報取得コストという観点で、控えめな表現を持つことを意味する。 また、深層cnnの決定を合理化する再構成されたユーティリティ関数は、画像クラス間で有用な選好順序を与える(仮説)。

Are deep convolutional neural networks (CNNs) for image classification consistent with utility maximization behavior with information acquisition costs? This paper demonstrates the remarkable result that a deep CNN behaves equivalently (in terms of necessary and sufficient conditions) to a rationally inattentive utility maximizer, a model extensively used in behavioral economics to explain human decision making. This implies that a deep CNN has a parsimonious representation in terms of simple intuitive human-like decision parameters, namely, a utility function and an information acquisition cost. Also the reconstructed utility function that rationalizes the decisions of the deep CNNs, yields a useful preference order amongst the image classes (hypotheses).
翻訳日:2021-02-10 14:51:31 公開日:2021-02-09
# 部分構造保存分子設計のためのグラフエネルギーモデル

Graph Energy-based Model for Substructure Preserving Molecular Design ( http://arxiv.org/abs/2102.04600v1 )

ライセンス: Link先を確認
Ryuichiro Hataya, Hideki Nakayama, Kazuki Yoshizoe(参考訳) 化学者は、望ましい性質を持つ分子を見つけるために化合物のサブ構造に基づいて化学データベースを探索することが一般的である。 de novo分子生成の目的は探索の代わりに生成することである。 既存の機械学習に基づく分子設計法には、ターゲットとなるサブ構造を保存する新しい分子を生成する能力がまったくない。 グラフエネルギーベースのモデル(GEM)は、サブ構造を修正し、残りを生成することができます。 実験の結果, ケミカルデータセットからトレーニングしたGEMは, ターゲットのサブ構造を保存しながら, 新規分子の生成に成功した。 この手法は、化学者のドメイン知識を分子設計に組み込む新しい方法を提供する。

It is common practice for chemists to search chemical databases based on substructures of compounds for finding molecules with desired properties. The purpose of de novo molecular generation is to generate instead of search. Existing machine learning based molecular design methods have no or limited ability in generating novel molecules that preserves a target substructure. Our Graph Energy-based Model, or GEM, can fix substructures and generate the rest. The experimental results show that the GEMs trained from chemistry datasets successfully generate novel molecules while preserving the target substructures. This method would provide a new way of incorporating the domain knowledge of chemists in molecular design.
翻訳日:2021-02-10 14:51:17 公開日:2021-02-09
# 逆設計のためのハード制約付き物理形ニューラルネットワーク

Physics-informed neural networks with hard constraints for inverse design ( http://arxiv.org/abs/2102.04626v1 )

ライセンス: Link先を確認
Lu Lu, Raphael Pestourie, Wenjie Yao, Zhicheng Wang, Francesc Verdugo, Steven G. Johnson(参考訳) 逆設計は、音響、力学、熱/電子輸送、電磁気、光学などのエンジニアリングのさまざまな分野で発生します。 トポロジー最適化は逆設計の主要な形態であり、設計されたジオメトリを最適化してターゲット特性を達成し、ジオメトリを密度関数でパラメータ化します。 この最適化は非常に高い次元を持ち、通常は偏微分方程式(PDE)と追加の不等式によって制約されるため、難しい。 本稿では, トポロジ最適化の解法として, ハード制約(hpinn)を用いた新しい深層学習法を提案する。 hPINN は PDE を解くために最近開発された PINN を利用しており、数値 PDE の解法には依存していない。 しかし,ピンの制約はすべてソフトな制約であり,ペナルティ法と拡張ラグランジアン法を用いて厳しい制約を課している。 光学におけるホログラフィー問題とストークス流の流体問題に対するhPINNの有効性を実証する。 我々は,従来のPDE制約付き最適化手法と同様の目的を達成しているが,hPINNから得られる設計は,解が一意でない問題に対して,よりシンプルでスムーズであることが多い。 さらに,hPINNを用いた逆設計の実装は,従来の手法よりも容易である。

Inverse design arises in a variety of areas in engineering such as acoustic, mechanics, thermal/electronic transport, electromagnetism, and optics. Topology optimization is a major form of inverse design, where we optimize a designed geometry to achieve targeted properties and the geometry is parameterized by a density function. This optimization is challenging, because it has a very high dimensionality and is usually constrained by partial differential equations (PDEs) and additional inequalities. Here, we propose a new deep learning method -- physics-informed neural networks with hard constraints (hPINNs) -- for solving topology optimization. hPINN leverages the recent development of PINNs for solving PDEs, and thus does not rely on any numerical PDE solver. However, all the constraints in PINNs are soft constraints, and hence we impose hard constraints by using the penalty method and the augmented Lagrangian method. We demonstrate the effectiveness of hPINN for a holography problem in optics and a fluid problem of Stokes flow. We achieve the same objective as conventional PDE-constrained optimization methods based on adjoint methods and numerical PDE solvers, but find that the design obtained from hPINN is often simpler and smoother for problems whose solution is not unique. Moreover, the implementation of inverse design with hPINN can be easier than that of conventional methods.
翻訳日:2021-02-10 14:51:07 公開日:2021-02-09
# K{\L} ジオメトリにおける近位勾配Descent-Ascent: Variable Convergence

Proximal Gradient Descent-Ascent: Variable Convergence under K{\L} Geometry ( http://arxiv.org/abs/2102.04653v1 )

ライセンス: Link先を確認
Ziyi Chen, Yi Zhou, Tengyu Xu, Yingbin Liang(参考訳) 勾配降下度アルゴリズム(GDA)は極小最適化問題の解法として広く応用されている。 ミニマックス最適化のための収束ポリシーパラメータを達成するためには、GDAが関数値や勾配ノルムの収束シーケンスではなく収束変数シーケンスを生成することが重要です。 しかし、GDAの変数収束は凸ジオメトリーの下でのみ証明され、一般の非凸極小最適化に対する理解が欠如している。 本稿では,正規化非凸強凸ミニマックス最適化のためのより一般的な近位gdaの収束を研究することにより,そのようなギャップを埋める。 具体的には、近位GDAは、ミニマックス最適化プロセスの単調に減少し、可変列を臨界点に駆動する新しいLyapunov関数を認めることを示した。 この Lyapunov 関数と一般非凸関数の局所幾何をパラメータ化する K{\L} ジオメトリを利用することで、近位-GDA の変数収束をクリティカル点 $x^*$、すなわち $x_t\to x^*, y_t\to y^*(x^*)$ に公式に確立する。 さらに、K{\L}-パラメータ化幾何学の全スペクトル上で、近位GDAは、K{\L}パラメータに付随する幾何によって、下線収束から有限ステップ収束までの様々な種類の収束率を達成することを示す。 これは、非凸ミニマックス最適化の変数収束に関する最初の理論結果である。

The gradient descent-ascent (GDA) algorithm has been widely applied to solve minimax optimization problems. In order to achieve convergent policy parameters for minimax optimization, it is important that GDA generates convergent variable sequences rather than convergent sequences of function values or gradient norms. However, the variable convergence of GDA has been proved only under convexity geometries, and there lacks understanding for general nonconvex minimax optimization. This paper fills such a gap by studying the convergence of a more general proximal-GDA for regularized nonconvex-strongly-c oncave minimax optimization. Specifically, we show that proximal-GDA admits a novel Lyapunov function, which monotonically decreases in the minimax optimization process and drives the variable sequence to a critical point. By leveraging this Lyapunov function and the K{\L} geometry that parameterizes the local geometries of general nonconvex functions, we formally establish the variable convergence of proximal-GDA to a critical point $x^*$, i.e., $x_t\to x^*, y_t\to y^*(x^*)$. Furthermore, over the full spectrum of the K{\L}-parameterized geometry, we show that proximal-GDA achieves different types of convergence rates ranging from sublinear convergence up to finite-step convergence, depending on the geometry associated with the K{\L} parameter. This is the first theoretical result on the variable convergence for nonconvex minimax optimization.
翻訳日:2021-02-10 14:50:46 公開日:2021-02-09
# k$-anonymity in practice: 一般化と抑圧が機械学習の分類器に与える影響

$k$-Anonymity in Practice: How Generalisation and Suppression Affect Machine Learning Classifiers ( http://arxiv.org/abs/2102.04763v1 )

ライセンス: Link先を確認
Djordje Slijep\v{c}evi\'c, Maximilian Henzl, Lukas Daniel Klausner, Tobias Dam, Peter Kieseberg, Matthias Zeppelzauer(参考訳) 個人情報保護は、データ駆動研究やビジネスコンテキストにおいて重要な課題です。 通常、匿名化や(選択的)削除のような技術は、共同研究におけるデータ共有を可能にするために導入される。 匿名化技術を使用する場合、$k$匿名性基準は最も人気があり、様々なアルゴリズムやメトリクスに関する多くの科学的出版物がある。 匿名化技術はしばしばデータの変更を必要とするため、基礎となるデータに基づいて訓練された機械学習モデルの結果に必ずしも影響する。 本研究では,異なる$k$匿名化アルゴリズムが機械学習モデルに与える影響について,体系的な比較と詳細な調査を行う。 我々は、異なる分類器を持つ一般的な$k$匿名化アルゴリズムのセットを調査し、それらを異なる実世界のデータセットで評価する。 体系的な評価から,k$-匿名性の制約がますます強くなるにつれて,分類性能は一般的に低下するが,データセットや匿名化手法によって大きく異なる程度に低下することが示された。 さらに、モンドリアンはその後の分類において最も魅力的な性質を持つ方法と見なすことができる。

The protection of private information is a crucial issue in data-driven research and business contexts. Typically, techniques like anonymisation or (selective) deletion are introduced in order to allow data sharing, \eg\ in the case of collaborative research endeavours. For use with anonymisation techniques, the $k$-anonymity criterion is one of the most popular, with numerous scientific publications on different algorithms and metrics. Anonymisation techniques often require changing the data and thus necessarily affect the results of machine learning models trained on the underlying data. In this work, we conduct a systematic comparison and detailed investigation into the effects of different $k$-anonymisation algorithms on the results of machine learning models. We investigate a set of popular $k$-anonymisation algorithms with different classifiers and evaluate them on different real-world datasets. Our systematic evaluation shows that with an increasingly strong $k$-anonymity constraint, the classification performance generally degrades, but to varying degrees and strongly depending on the dataset and anonymisation method. Furthermore, Mondrian can be considered as the method with the most appealing properties for subsequent classification.
翻訳日:2021-02-10 14:50:16 公開日:2021-02-09
# 深層強化学習のサンプル効率測定の進歩

Measuring Progress in Deep Reinforcement Learning Sample Efficiency ( http://arxiv.org/abs/2102.04881v1 )

ライセンス: Link先を確認
Florian E. Dorner(参考訳) サンプル環境遷移は、深層強化学習(drl)アルゴリズムへの重要な入力である。 現在のDRLベンチマークでは、DRLの進歩が必ずしも改良されたサンプル効率に対応しないような、安価で容易に大量のサンプルを生成できることが多い。 実世界のプロセスのシミュレーションは、しばしば違法に困難であり、実世界の体験の収集にはコストがかかるため、サンプル効率はDRLの経済的応用にとって重要な指標である。 atariゲームおよび連続制御タスクにおけるサンプル効率の進歩を,様々なアルゴリズムが所定のパフォーマンスレベルに達するために必要なサンプル数を,対応する出版物のトレーニング曲線に従って比較して検討する。 アタリでは10~18ヶ月、状態ベースの連続制御では5~24ヶ月、特定のタスクとパフォーマンスレベルに応じてピクセルベースの連続制御では4~9ヶ月の推定倍率でサンプル効率が指数関数的に向上しています。

Sampled environment transitions are a critical input to deep reinforcement learning (DRL) algorithms. Current DRL benchmarks often allow for the cheap and easy generation of large amounts of samples such that perceived progress in DRL does not necessarily correspond to improved sample efficiency. As simulating real world processes is often prohibitively hard and collecting real world experience is costly, sample efficiency is an important indicator for economically relevant applications of DRL. We investigate progress in sample efficiency on Atari games and continuous control tasks by comparing the number of samples that a variety of algorithms need to reach a given performance level according to training curves in the corresponding publications. We find exponential progress in sample efficiency with estimated doubling times of around 10 to 18 months on Atari, 5 to 24 months on state-based continuous control and of around 4 to 9 months on pixel-based continuous control depending on the specific task and performance level.
翻訳日:2021-02-10 14:49:57 公開日:2021-02-09
# 機械学習の一般性の実世界実証:頭部CTにおける頭蓋内出血検出

A Real-World Demonstration of Machine Learning Generalizability: Intracranial Hemorrhage Detection on Head CT ( http://arxiv.org/abs/2102.04869v1 )

ライセンス: Link先を確認
Hojjat Salehinejad, Jumpei Kitamura, Noah Ditkofsky, Amy Lin, Aditya Bharatha, Suradech Suthiphosuwan, Hui-Ming Lin, Jefferson R. Wilson, Muhammad Mamdani, and Errol Colak(参考訳) 機械学習(ML)は、ヘルスケアを変革する大きな約束を持っています。 医学画像検査の解釈におけるMLモデルの有用性は公表されているが、しばしば実験室で評価される。 実世界評価の重要性は、これらのモデルの臨床環境への翻訳の成功と失敗を文書化したケーススタディによって最もよく示される。 これらの技術の臨床導入のための重要な前提条件は、現実世界の状況下で一般化可能なMLモデルのパフォーマンスを示すことである。 本研究の目的は,非コントラストCTスキャンを用いて頭蓋内出血(ICH)を検出することで,医療画像のMLモデルの一般化が可能であることを実証することである。 21,784回のRSNA頭蓋内出血CTデータを用いてMLモデルを訓練し, 当院の重度外傷と神経外科センターから得られた外的評価データセットを用いて一般化性を評価した。 この実世界の外部バリデーションデータセットは,2019年に当科で実施した全頭部ctスキャン(n = 5,965)を除外することなく実施した。 このモデルでは、AUCは98.4%、感度は98.8%、特異度は98.0%であった。 外部検証では、AUCは95.4%、感度は91.3%、特異性は94.1%であった。 トレーニングデータセットと時間的・地理的に異なる実世界の外部検証データセットを用いてMLモデルを評価することは、医療画像応用においてMLの一般化性が達成可能であることを示す。

Machine learning (ML) holds great promise in transforming healthcare. While published studies have shown the utility of ML models in interpreting medical imaging examinations, these are often evaluated under laboratory settings. The importance of real world evaluation is best illustrated by case studies that have documented successes and failures in the translation of these models into clinical environments. A key prerequisite for the clinical adoption of these technologies is demonstrating generalizable ML model performance under real world circumstances. The purpose of this study was to demonstrate that ML model generalizability is achievable in medical imaging with the detection of intracranial hemorrhage (ICH) on non-contrast computed tomography (CT) scans serving as the use case. An ML model was trained using 21,784 scans from the RSNA Intracranial Hemorrhage CT dataset while generalizability was evaluated using an external validation dataset obtained from our busy trauma and neurosurgical center. This real world external validation dataset consisted of every unenhanced head CT scan (n = 5,965) performed in our emergency department in 2019 without exclusion. The model demonstrated an AUC of 98.4%, sensitivity of 98.8%, and specificity of 98.0%, on the test dataset. On external validation, the model demonstrated an AUC of 95.4%, sensitivity of 91.3%, and specificity of 94.1%. Evaluating the ML model using a real world external validation dataset that is temporally and geographically distinct from the training dataset indicates that ML generalizability is achievable in medical imaging applications.
翻訳日:2021-02-10 14:49:27 公開日:2021-02-09
# 完全静的負荷分散を用いたマルチGPUSNNシミュレーション

Multi-GPU SNN Simulation with Perfect Static Load Balancing ( http://arxiv.org/abs/2102.04681v1 )

ライセンス: Link先を確認
Dennis Bautembach, Iason Oikonomidis, Antonis Argyros(参考訳) 我々は,数百万のニューロン,数十億のシナプス,8つのGPUにスケールするSNNシミュレータを提案する。 これは,1) キャッシュ対応スパイク伝送アルゴリズム,2) モデル並列マルチGPU分散方式,3) 静的かつ非常に効果的なロードバランシング戦略によって実現された。 シミュレータはさらに、使いやすいAPIとカスタムモデルを作成する機能を備えています。 提案したシミュレータを,3つの確立されたモデルを用いて,一連のベンチマークで比較した。 私たちのシミュレータは高速で、メモリ消費が少なく、GPUの数で線形にスケールします。

We present a SNN simulator which scales to millions of neurons, billions of synapses, and 8 GPUs. This is made possible by 1) a novel, cache-aware spike transmission algorithm 2) a model parallel multi-GPU distribution scheme and 3) a static, yet very effective load balancing strategy. The simulator further features an easy to use API and the ability to create custom models. We compare the proposed simulator against two state of the art ones on a series of benchmarks using three well-established models. We find that our simulator is faster, consumes less memory, and scales linearly with the number of GPUs.
翻訳日:2021-02-10 14:49:04 公開日:2021-02-09
# 部分ブール関数を定義するDNFまたは二元決定木ペアの最小化の非近似性

Inapproximability of Minimizing a Pair of DNFs or Binary Decision Trees Defining a Partial Boolean Function ( http://arxiv.org/abs/2102.04703v1 )

ライセンス: Link先を確認
David Stein and Bjoern Andres(参考訳) 安全クリティカルな環境で機械学習技術を適用するという欲求は、ポジティブ、ネガティブ、不明瞭な観察を区別するための部分関数の学習に新たな関心を寄せています。 私たちはこの問題の難しさの理解に貢献する。 具体的には、あるブール函数の対 $f, g \colon \{0,1\}^J \to \{0,1\}$ で定義される部分ブール函数について、$f \cdot g = 0$ であり、$f$ と $g$ が可分正規形式または二分決定木で定義されるとする。 A \cup B = S \subseteq \{0,1\}^J$ {\displaystyle $f(A) = \{1\}$ and $g(B) = \{1\}$ is inapproximable to within $(1 - \epsilon) \ln (|S|-1)$ for any $\epsilon > 0$} である。

The desire to apply machine learning techniques in safety-critical environments has renewed interest in the learning of partial functions for distinguishing between positive, negative and unclear observations. We contribute to the understanding of the hardness of this problem. Specifically, we consider partial Boolean functions defined by a pair of Boolean functions $f, g \colon \{0,1\}^J \to \{0,1\}$ such that $f \cdot g = 0$ and such that $f$ and $g$ are defined by disjunctive normal forms or binary decision trees. We show: Minimizing the sum of the lengths or depths of these forms while separating disjoint sets $A \cup B = S \subseteq \{0,1\}^J$ such that $f(A) = \{1\}$ and $g(B) = \{1\}$ is inapproximable to within $(1 - \epsilon) \ln (|S|-1)$ for any $\epsilon > 0$, unless P=NP.
翻訳日:2021-02-10 14:48:55 公開日:2021-02-09
# データ駆動モデルから制御システムへのユニバーサル変換について

On the Universal Transformation of Data-Driven Models to Control Systems ( http://arxiv.org/abs/2102.04722v1 )

ライセンス: Link先を確認
Sebastian Peitz and Katharina Bieker(参考訳) ほぼすべての科学分野と同様に、データサイエンスと機械学習の大きな進歩は、非線形力学システムのモデリングとシミュレーションに関する大幅な改善をもたらしました。 現在では、天気、核融合炉内の動力学、疾患モデル、株式市場など、非常に複雑なシステムの正確な中・長期予測を非常に効率的な方法で行うことが可能である。 多くの場合、高次元非線形システムの制御はクリーンで効率的なエネルギー生産や先進医療機器の開発といった分野で大きな可能性を持つ工学的大挑戦であり、予測手法は最終的に制御に有用であると宣伝されている。 しかし、制御に予測モデルを使用する方法の問題は、関連する課題、すなわちシステムの複雑さの大幅な向上、より大規模なデータセットの要求、およびしばしば問題固有のモデリング作業の増加のために、しばしば答えられません。 これらの問題を解決するために,任意の予測モデルを制御系に変換し,フィードバック制御に利用する汎用フレームワーク(quantization-simula tion-modeling-optimi zation と呼ぶ)を提案する。 このアプローチの利点は、制御次元に関するデータ要求の線形増加、予測モデルの精度にのみ依存する性能保証、複雑な制御問題を解くための制御理論における事前知識要件の少なさである。 特に後者のポイントは、多数の研究者や実践者が、まっすぐかつ体系的な方法で制御のための予測モデルのますます増加する能力を活用できるようにすることが重要です。

As in almost every other branch of science, the major advances in data science and machine learning have also resulted in significant improvements regarding the modeling and simulation of nonlinear dynamical systems. It is nowadays possible to make accurate medium to long-term predictions of highly complex systems such as the weather, the dynamics within a nuclear fusion reactor, of disease models or the stock market in a very efficient manner. In many cases, predictive methods are advertised to ultimately be useful for control, as the control of high-dimensional nonlinear systems is an engineering grand challenge with huge potential in areas such as clean and efficient energy production, or the development of advanced medical devices. However, the question of how to use a predictive model for control is often left unanswered due to the associated challenges, namely a significantly higher system complexity, the requirement of much larger data sets and an increased and often problem-specific modeling effort. To solve these issues, we present a universal framework (which we call QuaSiModO: Quantization-Simulat ion-Modeling-Optimiz ation) to transform arbitrary predictive models into control systems and use them for feedback control. The advantages of our approach are a linear increase in data requirements with respect to the control dimension, performance guarantees that rely exclusively on the accuracy of the predictive model, and only little prior knowledge requirements in control theory to solve complex control problems. In particular the latter point is of key importance to enable a large number of researchers and practitioners to exploit the ever increasing capabilities of predictive models for control in a straight-forward and systematic fashion.
翻訳日:2021-02-10 14:48:26 公開日:2021-02-09
# ADMMによる確率収束型情報ボトルネックソリューション

A Provably Convergent Information Bottleneck Solution via ADMM ( http://arxiv.org/abs/2102.04729v1 )

ライセンス: Link先を確認
Teng-Hui Huang, Aly El Gamal(参考訳) 情報ボトルネック(IB)法は,データ圧縮と学習した表現の予測精度とのトレードオフを最適化し,教師なしおよび教師なしの表現学習問題に成功・堅牢に適用した。 しかし、IBにはいくつかの制限がある。 第一に、IB問題は最適化が難しい。 IB Lagrangian $\mathcal{L}_{IB}:=I(X;Z)-\beta I(Y;Z)$ は非凸であり、既存の解は局所収束のみを保証する。 その結果、得られたソリューションは初期化に依存します。 第二に、ソリューションの評価も難しい課題である。 従来は、異なる初期点から得られたすべての解に対して$I(Y;Z)$対$I(X;Z)$という情報平面の特徴付けに頼っていた。 さらに、IB Lagrangian は相転移を持ち、乗数 $\beta$ を変化させる。 相転移では、$I(X;Z)$と$I(Y;Z)$の両方が急上昇し、既存のソリューションでは収束率が大幅に遅くなります。 IBとの最近の研究は、IBラグランジアンに対する変分代理境界を採用する。 効率的な最適化を可能にするが、これらの代理がIBラグランジアンにどれほど近いかは明らかではない。 本研究では,拡張ラグランジアン法を用いてIBラグランジアンを解く。 拡張変数では、乗算器(ADMM)の交互方向法によりIB目標を解くことができることを示す。 先行研究と異なり,$\beta$ の値にかかわらず,提案アルゴリズムが一貫して収束していることが証明される。 その結果,従来のblahut-arimoto型解法と比較して,より密度が高く,かつ同等な情報平面が得られた。

The Information bottleneck (IB) method enables optimizing over the trade-off between compression of data and prediction accuracy of learned representations, and has successfully and robustly been applied to both supervised and unsupervised representation learning problems. However, IB has several limitations. First, the IB problem is hard to optimize. The IB Lagrangian $\mathcal{L}_{IB}:=I(X;Z)-\beta I(Y;Z)$ is non-convex and existing solutions guarantee only local convergence. As a result, the obtained solutions depend on initialization. Second, the evaluation of a solution is also a challenging task. Conventionally, it resorts to characterizing the information plane, that is, plotting $I(Y;Z)$ versus $I(X;Z)$ for all solutions obtained from different initial points. Furthermore, the IB Lagrangian has phase transitions while varying the multiplier $\beta$. At phase transitions, both $I(X;Z)$ and $I(Y;Z)$ increase abruptly and the rate of convergence becomes significantly slow for existing solutions. Recent works with IB adopt variational surrogate bounds to the IB Lagrangian. Although allowing efficient optimization, how close are these surrogates to the IB Lagrangian is not clear. In this work, we solve the IB Lagrangian using augmented Lagrangian methods. With augmented variables, we show that the IB objective can be solved with the alternating direction method of multipliers (ADMM). Different from prior works, we prove that the proposed algorithm is consistently convergent, regardless of the value of $\beta$. Empirically, our gradient-descent-bas ed method results in information plane points that are denser and comparable to those obtained through the conventional Blahut-Arimoto-based solvers.
翻訳日:2021-02-10 14:48:03 公開日:2021-02-09
# 実データを用いたサブ6GHz大容量MIMOアレイによる移動物体分類

Moving Object Classification with a Sub-6 GHz Massive MIMO Array using Real Data ( http://arxiv.org/abs/2102.04892v1 )

ライセンス: Link先を確認
B. R. Manoj, Guoda Tian, Sara Gunnarsson, Fredrik Tufvesson, Erik G. Larsson(参考訳) 無線信号を用いた屋内環境におけるさまざまな活動の分類は,侵入検知,患者ケア,スマートホームなど,様々な応用の新たな技術である。 研究者は、WiFi信号を利用して活動とその潜在的な利益を分類するさまざまな方法を示しています。 本稿では,屋内環境における大規模マルチインプットマルチアウトプット(MIMO)システムを用いた実データを用いた機械学習による移動物体の分類について検討する。 我々は,3.7GHzで動作するMIMOテストベッドを用いて,視線・視線両シナリオの異なる動作の測定を行う。 振幅と位相に基づく特徴分類タスクを利用するアルゴリズムを提案する。 検討した設定では、分類性能をベンチマークし、少数の実験でも実際のMIMOデータを用いて最大98%の精度で達成可能であることを示す。 さらに,wi-fiデバイスのような限られた数のアンテナと比較して,大規模mimoシステムによる性能向上を実証する。

Classification between different activities in an indoor environment using wireless signals is an emerging technology for various applications, including intrusion detection, patient care, and smart home. Researchers have shown different methods to classify activities and their potential benefits by utilizing WiFi signals. In this paper, we analyze classification of moving objects by employing machine learning on real data from a massive multi-input-multi-ou tput (MIMO) system in an indoor environment. We conduct measurements for different activities in both line-of-sight and non line-of-sight scenarios with a massive MIMO testbed operating at 3.7 GHz. We propose algorithms to exploit amplitude and phase-based features classification task. For the considered setup, we benchmark the classification performance and show that we can achieve up to 98% accuracy using real massive MIMO data, even with a small number of experiments. Furthermore, we demonstrate the gain in performance results with a massive MIMO system as compared with that of a limited number of antennas such as in WiFi devices.
翻訳日:2021-02-10 14:47:27 公開日:2021-02-09
# エッジコンピューティングのためのコンセンサスに基づく多層パーセプトロン

Consensus Based Multi-Layer Perceptrons for Edge Computing ( http://arxiv.org/abs/2102.05021v1 )

ライセンス: Link先を確認
Haimonti Dutta, Nitin Nataraj, Saurabh Amarnath Mahindre(参考訳) 近年,分散デバイスに大量のデータを格納することが一般的になっている。 例えば、センサーを含むアプリケーションは、画像、ビデオ、オーディオ、GPSなどのさまざまなモダリティでデータをキャプチャします。 この豊富な分散データから学ぶには、新しいアルゴリズムが必要です。 本稿では,資源制約デバイスに対するコンセンサスに基づく多層パーセプトロンを提案する。 分散システムのノード(デバイス)がグラフに配置され、垂直分割されたデータを含むと仮定すると、目標は損失を最小限に抑えるグローバル関数を学ぶことである。 各ノードはフィードフォワード多層パーセプトロンを学習し、ローカルに保存されたデータに対する損失を得る。 その後、ランダムに選択された隣人とゴシップし、損失に関する情報を交換する。 更新された損失はバックプロパゲーションアルゴリズムを実行し、重みを適切に調整するために使用される。 ノードはネットワーク内のデータの交換なしにグローバル関数を学習することができる。 実験の結果、コンセンサスアルゴリズムは集中型モデルに収束し、集中型多層パーセプトロンやランダムフォレストや勾配強化決定木を含む木ベースのアルゴリズムに匹敵する性能を持つことがわかった。

In recent years, storing large volumes of data on distributed devices has become commonplace. Applications involving sensors, for example, capture data in different modalities including image, video, audio, GPS and others. Novel algorithms are required to learn from this rich distributed data. In this paper, we present consensus based multi-layer perceptrons for resource-constrained devices. Assuming nodes (devices) in the distributed system are arranged in a graph and contain vertically partitioned data, the goal is to learn a global function that minimizes the loss. Each node learns a feed-forward multi-layer perceptron and obtains a loss on data stored locally. It then gossips with a neighbor, chosen uniformly at random, and exchanges information about the loss. The updated loss is used to run a back propagation algorithm and adjust weights appropriately. This method enables nodes to learn the global function without exchange of data in the network. Empirical results reveal that the consensus algorithm converges to the centralized model and has performance comparable to centralized multi-layer perceptrons and tree-based algorithms including random forests and gradient boosted decision trees.
翻訳日:2021-02-10 14:47:15 公開日:2021-02-09
# (参考訳) 強化学習に基づく戦略と適応的戦略切り替え機構を備えた自律交渉エージェントフレームワーク [全文訳有]

An Autonomous Negotiating Agent Framework with Reinforcement Learning Based Strategies and Adaptive Strategy Switching Mechanism ( http://arxiv.org/abs/2102.03588v2 )

ライセンス: CC BY 4.0
Ayan Sengupta, Yasser Mohammad, Shinji Nakadai(参考訳) 文学における豊富な交渉戦略にもかかわらず、自動化された交渉の複雑さは、異なる交渉シナリオで他のすべてに対して支配的であるから単一の戦略を妨げます。 これを克服するための一つのアプローチは、専門家の混合を使うというものであるが、同時に、この方法の問題は専門家の選択であり、このアプローチは、選択した専門家の能力によって制限される。 ほとんどの交渉戦略のもう1つの問題は、単一の交渉セッションで相手の行動のダイナミックな変化に適応することができず、結果的にパフォーマンスが低下することである。 本研究は,専門家選択の問題を解決することと,自律交渉エージェントフレームワークを用いて相手の行動に適応することの両方に焦点を当てている。 このフレームワークは、相手の行動をリアルタイムで分類し、単一の交渉セッション内で戦略を選択、切り替え、または組み合わせるメカニズムを提供します。 さらに,新しい戦略を含めるか,古い戦略を定期的により良い戦略に置き換えるかを決めることで,自己啓発機能を実現するレビュアーコンポーネントも備えている。 本稿では,最大エントロピー強化学習に基づく戦略を深層学習に基づく敵分類器を用いて実装し,その実例を示す。 最後に,様々な交渉シナリオ下での最先端の交渉者に対するエージェントの性能を評価する。

Despite abundant negotiation strategies in literature, the complexity of automated negotiation forbids a single strategy from being dominant against all others in different negotiation scenarios. To overcome this, one approach is to use mixture of experts, but at the same time, one problem of this method is the selection of experts, as this approach is limited by the competency of the experts selected. Another problem with most negotiation strategies is their incapability of adapting to dynamic variation of the opponent's behaviour within a single negotiation session resulting in poor performance. This work focuses on both, solving the problem of expert selection and adapting to the opponent's behaviour with our Autonomous Negotiating Agent Framework. This framework allows real-time classification of opponent's behaviour and provides a mechanism to select, switch or combine strategies within a single negotiation session. Additionally, our framework has a reviewer component which enables self-enhancement capability by deciding to include new strategies or replace old ones with better strategies periodically. We demonstrate an instance of our framework by implementing maximum entropy reinforcement learning based strategies with a deep learning based opponent classifier. Finally, we evaluate the performance of our agent against state-of-the-art negotiators under varied negotiation scenarios.
翻訳日:2021-02-10 14:18:31 公開日:2021-02-09
# (参考訳) 動的オプティミズムを用いた深層強化学習 [全文訳有]

Deep Reinforcement Learning with Dynamic Optimism ( http://arxiv.org/abs/2102.03765v2 )

ライセンス: CC BY 4.0
Ted Moskovitz, Jack Parker-Holder, Aldo Pacchiano, Michael Arbel(参考訳) 近年,連続制御のための強化学習において,深部オフポリシーのアクタ-クリティックアルゴリズムが主流となっている。 これは、関数近似エラーに対処するための一連のブレークスルーの後に発生し、以前はパフォーマンスが悪くなりました。 これらの洞察は悲観的な価値更新の使用を促進する。 しかし、これは探検を妨げ、不確実性に直面した楽観主義の有効性に対する理論的支持に逆らう。 どのアプローチが最善か? 本研究では,最適な楽観性の度合いが,課題や学習過程によって異なることを示す。 この洞察に触発され、我々は、マルチアームバンディット問題として選択を定式化することによって、オンライン楽観的および悲観的価値学習を切り替える新しいディープアクタークリティカルアルゴリズム、ダイナミックオプティミティと悲観的推定(DOPE)を導入しました。 DOPEは、一定の楽観性に依存する既存の最先端の方法よりも優れている一連の挑戦的な連続制御タスクを示します。 私たちの変更は実装が簡単なため、これらの洞察は多くのオフポリシーアルゴリズムに拡張できると考えています。

In recent years, deep off-policy actor-critic algorithms have become a dominant approach to reinforcement learning for continuous control. This comes after a series of breakthroughs to address function approximation errors, which previously led to poor performance. These insights encourage the use of pessimistic value updates. However, this discourages exploration and runs counter to theoretical support for the efficacy of optimism in the face of uncertainty. So which approach is best? In this work, we show that the optimal degree of optimism can vary both across tasks and over the course of learning. Inspired by this insight, we introduce a novel deep actor-critic algorithm, Dynamic Optimistic and Pessimistic Estimation (DOPE) to switch between optimistic and pessimistic value learning online by formulating the selection as a multi-arm bandit problem. We show in a series of challenging continuous control tasks that DOPE outperforms existing state-of-the-art methods, which rely on a fixed degree of optimism. Since our changes are simple to implement, we believe these insights can be extended to a number of off-policy algorithms.
翻訳日:2021-02-10 14:15:47 公開日:2021-02-09
# (参考訳) 機能的最適輸送:機能的データに対するマッピング推定とドメイン適応 [全文訳有]

Functional Optimal Transport: Mapping Estimation and Domain Adaptation for Functional data ( http://arxiv.org/abs/2102.03895v2 )

ライセンス: CC BY 4.0
Jiacheng Zhu, Aritra Guha, Mengdi Xu, Yingchen Ma, Rayleigh Lei, Vincenzo Loffredo, XuanLong Nguyen, Ding Zhao(参考訳) 最適輸送(OT)は、ある分布から別の分布へ質量を輸送するマッピングを見つける能力によって、近年の関心を集めており、教師なし学習、ドメイン適応、移動学習といった機械学習タスクにおいて有用な役割を見出した。 一方、多くの応用において、データは高次元の関数、曲線、曲面の畳み込み空間を含む複雑なメカニズムによって生成される。 機能データ分析は、そのような領域に対する治療の有用なフレームワークを提供する。 本稿では,関数空間における最適輸送問題の新たな定式化と,関数領域間の確率写像を求める効率的な学習アルゴリズムを提案する。 本手法を合成データセットに適用し,輸送地図の幾何学的性質を検討する。 実世界におけるロボットアーム軌跡と数字のデータセット実験により,ドメイン適応と生成モデルの適用性について,本手法の有効性が示された。

Optimal transport (OT) has generated much recent interest by its capability of finding mappings that transport mass from one distribution to another, and found useful roles in machine learning tasks such as unsupervised learning, domain adaptation and transfer learning. On the other hand, in many applications data are generated by complex mechanisms involving convoluted spaces of functions, curves and surfaces in high dimensions. Functional data analysis provides a useful framework of treatment for such domains. In this paper we introduce a novel formulation of optimal transport problem in functional spaces and develop an efficient learning algorithm for finding the stochastic map between functional domains. We apply our method to synthetic datasets and study the geometric properties of the transport map. Experiments on real-world datasets of robot arm trajectories and digit numbers further demonstrate the effectiveness of our method on applications of domain adaptation and generative modeling.
翻訳日:2021-02-10 13:53:56 公開日:2021-02-09
# (参考訳) 単発cuboids:球面パノラマを用いた測地線に基づくエンドツーエンドマンハッタンアラインレイアウト推定 [全文訳有]

Single-Shot Cuboids: Geodesics-based End-to-end Manhattan Aligned Layout Estimation from Spherical Panoramas ( http://arxiv.org/abs/2102.03939v2 )

ライセンス: CC BY 4.0
Nikolaos Zioulis, Federico Alvarez, Dimitrios Zarpalas, Petros Daras(参考訳) レイアウト推定などのグローバルなシーン理解タスクは、広い視野、特に球面パノラマの恩恵を受けることができることが示されています。 近年、多くの進展が見られたが、以前のアプローチはすべて中間表現と後処理に依存してマンハッタンに整合した見積もりを生成する。 本稿では,全室レイアウトを単一ショットで推定する方法を示し,後処理の必要性を解消する。 私たちの仕事はマンハッタン整列アウトプットを直接推論する最初のものです。 これを達成するために、データ駆動モデルは直接座標回帰を利用して、エンドツーエンドで監視されます。 その結果、ホモグラフィに基づくマンハッタンアライメントモジュールに必要な条件を設定する擬似マンタン制約を明示的に追加することができる。 最後に,測地線ヒートマップと損失,球面領域における高品質キーポイント推定を容易にする質量計算の境界認識中心について紹介する。 私たちのモデルとコードはhttps://vcl3d.github .io/SingleShotCuboid s/で公開されています。

It has been shown that global scene understanding tasks like layout estimation can benefit from wider field of views, and specifically spherical panoramas. While much progress has been made recently, all previous approaches rely on intermediate representations and postprocessing to produce Manhattan-aligned estimates. In this work we show how to estimate full room layouts in a single-shot, eliminating the need for postprocessing. Our work is the first to directly infer Manhattan-aligned outputs. To achieve this, our data-driven model exploits direct coordinate regression and is supervised end-to-end. As a result, we can explicitly add quasi-Manhattan constraints, which set the necessary conditions for a homography-based Manhattan alignment module. Finally, we introduce the geodesic heatmaps and loss and a boundary-aware center of mass calculation that facilitate higher quality keypoint estimation in the spherical domain. Our models and code are publicly available at https://vcl3d.github .io/SingleShotCuboid s/.
翻訳日:2021-02-10 13:37:48 公開日:2021-02-09
# (参考訳) 電子メールとラフティング応答の理解 -- GPT-3を用いたアプローチ [全文訳有]

Understanding Emails and Drafting Responses -- An Approach Using GPT-3 ( http://arxiv.org/abs/2102.03062v2 )

ライセンス: CC BY 4.0
Jonas Thiergart, Stefan Huber, Thomas \"Ubellacker(参考訳) 自然言語を理解して生成する能力を持つコンピュータシステムを提供することは、長年、エンジニアの挑戦だった。 自然言語処理(NLP)の最近の進歩は、OpenAIがリリースしたGPT-3言語モデルのように、どちらもある程度可能になっている。 本稿では,GPT-3を用いた電子メール通信の合理化の可能性を検討する。 まず,ソフトウェア工学の分野とデータ科学の分野から文献を抽出し,受信メールの理解と応答生成の技術的実現可能性を示す。 第二に、ビジネススタディとソフトウェアエンジニアリングの両方から知識を適用して、直面した課題に取り組む方法を特定します。 第3に、コストと市場需要を分析して、そのようなソリューションの経済性について論じる。 メール通信の合理化にGPT-3を適用することは、技術的にも経済的にも実現可能であると結論づけます。

Providing computer systems with the ability to understand and generate natural language has long been a challenge of engineers. Recent progress in natural language processing (NLP), like the GPT-3 language model released by OpenAI, has made both possible to an extent. In this paper, we explore the possibility of rationalising email communication using GPT-3. First, we demonstrate the technical feasibility of understanding incoming emails and generating responses, drawing on literature from the disciplines of software engineering as well as data science. Second, we apply knowledge from both business studies and, again, software engineering to identify ways to tackle challenges we encountered. Third, we argue for the economic viability of such a solution by analysing costs and market demand. We conclude that applying GPT-3 to rationalising email communication is feasible both technically and economically.
翻訳日:2021-02-10 13:18:00 公開日:2021-02-09
# (参考訳) MetaTune: 高速で効率的な自動チューニングフレームワークのためのメタラーニングベースのコストモデル [全文訳有]

MetaTune: Meta-Learning Based Cost Model for Fast and Efficient Auto-tuning Frameworks ( http://arxiv.org/abs/2102.04199v2 )

ライセンス: CC BY 4.0
Jaehun Ryu, Hyojin Sung(参考訳) ディープラーニングのコンパイラフレームワークは、ますます多様なハードウェア上で、ディープラーニングアプリケーションのよりポータブルなバックエンドとして定着しつつある。 しかし、ハンドチューニングされたターゲット固有のライブラリが提供するパフォーマンスをマッチングするという恐ろしい課題に直面している。 統計的コストモデルを備えた自動チューニングフレームワークは動的で効率的なコード最適化を提供するが、大きなスペース探索とコストモデルのトレーニングオーバーヘッドに苦しむ。 本稿では,事前学習したモデルパラメータを用いて最適化されたコードの性能をより迅速かつ正確に予測するメタラーニングベースのコストモデルであるmetatuneを提案する。 MetaTuneは、畳み込みカーネルコードを構造的に類似したグラフとしてエンコードし、メタ学習を容易にし、非常に小さな入力データセットでGNNモデルをメタトレーニングし、コンパイル中にさまざまなサイズと構造を持つ畳み込み操作の最適化パラメータを予測する。 metatuneで得られたフレームワークは、4つのcnnモデルで平均8~13%の推論時間を提供し、同等または低い最適化時間を持つ一方で、クロスプラットフォームケースではトランスファー学習を10%上回っています。

Deep learning compiler frameworks are gaining ground as a more portable back-end for deep learning applications on increasingly diverse hardware. However, they face the daunting challenge of matching performance offered by hand-tuned target-specific libraries. While auto-tuning frameworks with statistical cost models can provide dynamic and efficient code optimization, they suffer from large space exploration and cost model training overheads. This paper proposes MetaTune, a meta-learning based cost model that more quickly and accurately predicts the performance of optimized codes with pre-trained model parameters. MetaTune encodes convolution kernel codes as structurally similar graphs to facilitate meta-learning, meta-trains a GNN model with a very small input data set, and then predicts optimization parameters for unseen convolution operations with varying sizes and structures during compilation. The resulting framework with MetaTune provides 8 to 13% better inference time on average for four CNN models with comparable or lower optimization time while outperforming transfer learning by 10% in cross-platform cases.
翻訳日:2021-02-10 13:09:14 公開日:2021-02-09
# ニューラルタンジェントカーネルを用いたメタラーニング

Meta-Learning with Neural Tangent Kernels ( http://arxiv.org/abs/2102.03909v2 )

ライセンス: Link先を確認
Yufan Zhou, Zhenyi Wang, Jiayi Xian, Changyou Chen, Jinhui Xu(参考訳) Model Agnostic Meta-Learning(MAML)はメタ学習の標準フレームワークとして登場し、メタモデルは新しいタスクに迅速に適応する能力によって学習される。 しかし、二重ループ最適化問題として、MMLは、外部ループのトレーニングステップごとに内部ループ全体の最適化パスを区別する必要があります。 本稿では,メタラーニングを関数空間で定義するための MAML を一般化し,メタモデルのニューラルタンジェントカーネル (NTK) によって誘導される再生成カーネルヒルベルト空間 (RKHS) における最初のメタラーニングパラダイムを提案する。 このパラダイムでは、RKHSに2つのメタラーニングアルゴリズムを導入し、MDLフレームワークのようにサブオプティマティックな反復インナーループ適応を必要としない。 本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。 広範な実験により, 関連するメタ学習アルゴリズムと比較して, ソリューションの効率と品質の両方において, このパラダイムの利点が示された。 提案手法のもう1つの興味深い特徴は,我々の実験で示されたように,敵の攻撃や分散適応に対して,一般的なベースラインよりも頑健であることが示されていることである。

Model Agnostic Meta-Learning (MAML) has emerged as a standard framework for meta-learning, where a meta-model is learned with the ability of fast adapting to new tasks. However, as a double-looped optimization problem, MAML needs to differentiate through the whole inner-loop optimization path for every outer-loop training step, which may lead to both computational inefficiency and sub-optimal solutions. In this paper, we generalize MAML to allow meta-learning to be defined in function spaces, and propose the first meta-learning paradigm in the Reproducing Kernel Hilbert Space (RKHS) induced by the meta-model's Neural Tangent Kernel (NTK). Within this paradigm, we introduce two meta-learning algorithms in the RKHS, which no longer need a sub-optimal iterative inner-loop adaptation as in the MAML framework. We achieve this goal by 1) replacing the adaptation with a fast-adaptive regularizer in the RKHS; and 2) solving the adaptation analytically based on the NTK theory. Extensive experimental studies demonstrate advantages of our paradigm in both efficiency and quality of solutions compared to related meta-learning algorithms. Another interesting feature of our proposed methods is that they are demonstrated to be more robust to adversarial attacks and out-of-distribution adaptation than popular baselines, as demonstrated in our experiments.
翻訳日:2021-02-10 12:51:08 公開日:2021-02-09
# 金融ポートフォリオ管理のためのモジュール化・拡張型マルチエージェント強化学習システム

A Modularized and Scalable Multi-Agent Reinforcement Learning-based System for Financial Portfolio Management ( http://arxiv.org/abs/2102.03502v2 )

ライセンス: Link先を確認
Zhenhan Huang, Fumihide Tanaka(参考訳) 金融ポートフォリオ管理はその逐次意思決定性によって強化学習(rl)において最も適用可能な問題の1つである。 既存のRLベースのアプローチは、常に変化する資本市場に対応するために、スケーラビリティ、再利用性、あるいはインテーク情報のプロファンドをしばしば欠いている。 本稿では,ポートフォリオ管理のためのモジュール化・スケーラブルなアーキテクチャを備えた,新たなマルチエージェント強化学習システムmspmの設計と開発を行う。 MSPMには、Evolving Agent Module (EAM) と Strategic Agent Module (SAM) の2つの非同期更新ユニットが含まれている。 自己持続型EAMは、異種データ入力を用いて特定の資産の信号構成情報を生成し、各EAMは、複数のSAMに接続することができる。 SAMはEAMからの深い情報を用いてポートフォリオの資産再配置を担います。 MSPMは、精巧なアーキテクチャと揮発性市場情報のマルチステップ凝縮により、既存のアプローチにはない、カスタマイズ可能で安定した専用ソリューションをポートフォリオ管理に提供することを目指しています。 また、移転学習による新規上場株式のデータ不足問題にも取り組み、EAMの必要性を検証しています。 8年間の米国株式市場データに関する実験では、MSPMが既存のベンチマークを上回るパフォーマンスで利益の蓄積に有効であることを証明している。

Financial Portfolio Management is one of the most applicable problems in Reinforcement Learning (RL) by its sequential decision-making nature. Existing RL-based approaches, while inspiring, often lack scalability, reusability, or profundity of intake information to accommodate the ever-changing capital markets. In this paper, we design and develop MSPM, a novel Multi-agent Reinforcement learning-based system with a modularized and scalable architecture for portfolio management. MSPM involves two asynchronously updated units: Evolving Agent Module (EAM) and Strategic Agent Module (SAM). A self-sustained EAM produces signal-comprised information for a specific asset using heterogeneous data inputs, and each EAM possesses its reusability to have connections to multiple SAMs. A SAM is responsible for the assets reallocation of a portfolio using profound information from the EAMs connected. With the elaborate architecture and the multi-step condensation of the volatile market information, MSPM aims to provide a customizable, stable, and dedicated solution to portfolio management that existing approaches do not. We also tackle data-shortage issue of newly-listed stocks by transfer learning, and validate the necessity of EAM. Experiments on 8-year U.S. stock markets data prove the effectiveness of MSPM in profits accumulation by its outperformance over existing benchmarks.
翻訳日:2021-02-10 12:50:45 公開日:2021-02-09
# オフポリシー評価のためのブートストラップ統計推論

Bootstrapping Statistical Inference for Off-Policy Evaluation ( http://arxiv.org/abs/2102.03607v2 )

ライセンス: Link先を確認
Botao Hao, Xiang Ji, Yaqi Duan, Hao Lu, Csaba Szepesv\'ari, Mengdi Wang(参考訳) ブートストラッピングは、バッチ強化学習の品質を評価するための柔軟で効果的なアプローチを提供するが、その理論的性質は理解されていない。 本稿では,オフ・ポリシー評価(ope)におけるブートストラップの使用について検討し,特に,表型および線形モデルにおいて最小最適であることが知られているq値評価(fqe)に着目した。 本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が漸近的に効率的で,非政治的な統計的推測に一貫性があることを示す。 ブートストラップの計算限界を克服するため,実行時間を大幅に改善するサブサンプリング手法を更に適用する。 信頼区間推定のための古典的rl環境におけるブートラッピング法を数値的に評価し,オフポリシ評価器の分散を推定し,複数のオフポリシ評価器間の相関関係を推定した。

Bootstrapping provides a flexible and effective approach for assessing the quality of batch reinforcement learning, yet its theoretical property is less understood. In this paper, we study the use of bootstrapping in off-policy evaluation (OPE), and in particular, we focus on the fitted Q-evaluation (FQE) that is known to be minimax-optimal in the tabular and linear-model cases. We propose a bootstrapping FQE method for inferring the distribution of the policy evaluation error and show that this method is asymptotically efficient and distributionally consistent for off-policy statistical inference. To overcome the computation limit of bootstrapping, we further adapt a subsampling procedure that improves the runtime by an order of magnitude. We numerically evaluate the bootrapping method in classical RL environments for confidence interval estimation, estimating the variance of off-policy evaluator, and estimating the correlation between multiple off-policy evaluators.
翻訳日:2021-02-10 12:50:27 公開日:2021-02-09
# 子ども向けリスニング:ケアジバー推論が子供の早期言語コミュニケーションを可能にする方法

Child-directed Listening: How Caregiver Inference Enables Children's Early Verbal Communication ( http://arxiv.org/abs/2102.03462v2 )

ライセンス: Link先を確認
Stephan C. Meylan, Ruthe Foushee, Elika Bergelson, Roger P. Levy(参考訳) 大人は子供のスピーチをどう理解しますか。 言語発達の過程での子どもの制作は、典型的な成人の発音とほとんど似ていないが、介護者は確実に意味を回復する。 ここでは,大人が子どもの言葉のノイズを克服する方法を理解するために,ベイズ語モデルを用いて,子どもと大人のコミュニケーションの成功が成人の推論過程に大きく依存していることを示す。 コーパスの競合モデルを評価することにより,大人の回復した意味は,一般的な大人向け言語ではなく,子どもの言語環境に特有な事前の期待によって最も予測されることを示す。 発達時におけるこの「子ども指向リスニング」の貢献度を定量化した後、言語習得理論の結果と、子どもの言語能力を評価するための一般的な方法の意味について議論する。

How do adults understand children's speech? Children's productions over the course of language development often bear little resemblance to typical adult pronunciations, yet caregivers nonetheless reliably recover meaning from them. Here, we employ a suite of Bayesian models of spoken word recognition to understand how adults overcome the noisiness of child language, showing that communicative success between children and adults relies heavily on adult inferential processes. By evaluating competing models on phonetically-annotat ed corpora, we show that adults' recovered meanings are best predicted by prior expectations fitted specifically to the child language environment, rather than to typical adult-adult language. After quantifying the contribution of this "child-directed listening" over developmental time, we discuss the consequences for theories of language acquisition, as well as the implications for commonly-used methods for assessing children's linguistic proficiency.
翻訳日:2021-02-10 12:50:10 公開日:2021-02-09
# 野生の信頼できる確率的顔の埋め込み

Reliable Probabilistic Face Embeddings in the Wild ( http://arxiv.org/abs/2102.04075v2 )

ライセンス: Link先を確認
Kai Chen, Qi Lv, Taihe Yi, Zhengming Yi(参考訳) PFE(probabilistic Face Embeddings)は、データ不確実性を特徴表現に統合することにより、制約のないシナリオにおける顔認識性能を向上させる。 しかし、既存のPFE法は不確実性を推定するには過信であり、大規模な顔マッチングに適用するには遅すぎる。 本稿では,PFEのロバスト性および速度を改善するために,正規化確率的顔埋め込み法を提案する。 具体的には、顔特徴対のマッチングを高速化するために、PFEで使用される相互チャンススコア(MLS)メトリックを単純化する。 次に、ニューラルネットワークの出力を正則化できる不確かさ出力のばらつきをペナルティ化するために、出力-制約損失を提案する。 さらに,MLSの識別精度を向上させるために識別保存損失が提案され,ニューラルネットワークの不確実性推定能力を改善するために多層特徴融合モジュールが提案されている。 包括的実験により,提案手法は最先端手法よりも8つのベンチマークで同等あるいは良好な結果を得ることができ,リスク制御型顔認識の性能向上が期待できることがわかった。 ProbFaceのコードはGitHub(https://githu b.com/KaenChan/ProbF ace)で公開されている。

Probabilistic Face Embeddings (PFE) can improve face recognition performance in unconstrained scenarios by integrating data uncertainty into the feature representation. However, existing PFE methods tend to be over-confident in estimating uncertainty and is too slow to apply to large-scale face matching. This paper proposes a regularized probabilistic face embedding method to improve the robustness and speed of PFE. Specifically, the mutual likelihood score (MLS) metric used in PFE is simplified to speedup the matching of face feature pairs. Then, an output-constraint loss is proposed to penalize the variance of the uncertainty output, which can regularize the output of the neural network. In addition, an identification preserving loss is proposed to improve the discriminative of the MLS metric, and a multi-layer feature fusion module is proposed to improve the neural network's uncertainty estimation ability. Comprehensive experiments show that the proposed method can achieve comparable or better results in 8 benchmarks than the state-of-the-art methods, and can improve the performance of risk-controlled face recognition. The code of ProbFace is publicly available in GitHub (https://github.com/ KaenChan/ProbFace).
翻訳日:2021-02-10 12:49:51 公開日:2021-02-09
# 雑音ラベルとの対比訓練の相互作用の理解

Understanding the Interaction of Adversarial Training with Noisy Labels ( http://arxiv.org/abs/2102.03482v2 )

ライセンス: Link先を確認
Jianing Zhu, Jingfeng Zhang, Bo Han, Tongliang Liu, Gang Niu, Hongxia Yang, Mohan Kankanhalli and Masashi Sugiyama(参考訳) 雑音ラベル (NL) と敵対的な例はどちらも訓練されたモデルを弱体化させているが、興味深いことにそれらは独立して研究されている。 最近の敵対的トレーニング(AT)研究では、ある点を攻撃する射影勾配降下(PGD)ステップの数(すなわち、その近傍で敵対的な例を見つける)がこの点の堅牢性の効果的な尺度であることを示した。 自然データがクリーンであることを考えると、この測度は本質的な幾何学的性質 - ある点がクラス境界からどのくらい離れているかを明らかにする。 このブレークスルーに基づいて、本論文ではATがNLとどのように相互作用するかを理解する。 まず、ある点がノイズの多いクラス境界に近すぎるか(例えば、あるステップが攻撃するのに十分)、この点が誤ラベルされる可能性があり、これはNLを修正するためのサンプル選択のための新しい基準としてPGDステップの数を採用することを示唆している。 第2に,AT自体がNL補正であることを示す標準トレーニング(ST)よりも,NLによる(NL補正を伴わない)強い平滑化効果のATが低いことを確認した。 したがって、AT with NLは自然精度の向上に役立ち、汎用の堅牢な学習基準としてATの優位性を再び示しています。

Noisy labels (NL) and adversarial examples both undermine trained models, but interestingly they have hitherto been studied independently. A recent adversarial training (AT) study showed that the number of projected gradient descent (PGD) steps to successfully attack a point (i.e., find an adversarial example in its proximity) is an effective measure of the robustness of this point. Given that natural data are clean, this measure reveals an intrinsic geometric property -- how far a point is from its class boundary. Based on this breakthrough, in this paper, we figure out how AT would interact with NL. Firstly, we find if a point is too close to its noisy-class boundary (e.g., one step is enough to attack it), this point is likely to be mislabeled, which suggests to adopt the number of PGD steps as a new criterion for sample selection for correcting NL. Secondly, we confirm AT with strong smoothing effects suffers less from NL (without NL corrections) than standard training (ST), which suggests AT itself is an NL correction. Hence, AT with NL is helpful for improving even the natural accuracy, which again illustrates the superiority of AT as a general-purpose robust learning criterion.
翻訳日:2021-02-10 12:49:34 公開日:2021-02-09
# 小型データレジームにおけるマルチスケールダイナミクスの物理認識と深い確率的モデリング

Physics-aware, deep probabilistic modeling of multiscale dynamics in the Small Data regime ( http://arxiv.org/abs/2102.04269v2 )

ライセンス: Link先を確認
Sebastian Kaltenbach, Phaedon-Stelios Koutsourelakis(参考訳) 高次元ダイナミクスシステムの効果的な粗粒化(CG)モデルのデータベースの発見は、計算物理学、特にマルチスケール問題におけるユニークな課題である。 本稿では,予測的,低次元粗粒度(CG)変数とそのダイナミクスを同時に同定する確率的視点を提案する。 我々は,cg進化法則の右辺を表現するために,ディープニューラルネットワークの表現能力を利用する。 さらに、物理的な制約(例えば)の形で非常に頻繁に利用できるドメイン知識を実証する。 保存法則)は、仮想観測可能な新しい概念に組み込むことができる。 このような制約は、物理的に現実的な予測に繋がるだけでなく、必要なトレーニングデータの量を大幅に削減し、必要な計算コストのかかるマルチスケールシミュレーション(小さなデータレジーム)を削減できる。 提案された状態空間モデルは確率的推論ツールを使用して訓練され、他のいくつかの手法とは対照的に、状態変数の詳細な制約(制限)投影や時間導出の処方は不要である。 この定式化は、予測の不確実性を定量化し、ポストオリの関心の量を選択することができるフルスケールのシステムの進化を再構築することができる。 移動粒子の高次元システムにおいて,提案手法の有効性を実証する。

The data-based discovery of effective, coarse-grained (CG) models of high-dimensional dynamical systems presents a unique challenge in computational physics and particularly in the context of multiscale problems. The present paper offers a probabilistic perspective that simultaneously identifies predictive, lower-dimensional coarse-grained (CG) variables as well as their dynamics. We make use of the expressive ability of deep neural networks in order to represent the right-hand side of the CG evolution law. Furthermore, we demonstrate how domain knowledge that is very often available in the form of physical constraints (e.g. conservation laws) can be incorporated with the novel concept of virtual observables. Such constraints, apart from leading to physically realistic predictions, can significantly reduce the requisite amount of training data which enables reducing the amount of required, computationally expensive multiscale simulations (Small Data regime). The proposed state-space model is trained using probabilistic inference tools and, in contrast to several other techniques, does not require the prescription of a fine-to-coarse (restriction) projection nor time-derivatives of the state variables. The formulation adopted is capable of quantifying the predictive uncertainty as well as of reconstructing the evolution of the full, fine-scale system which allows to select the quantities of interest a posteriori. We demonstrate the efficacy of the proposed framework in a high-dimensional system of moving particles.
翻訳日:2021-02-10 12:49:10 公開日:2021-02-09
# ガウス過程に基づく関数予測による直接粒子群最適化

Directed particle swarm optimization with Gaussian-process-bas ed function forecasting ( http://arxiv.org/abs/2102.04172v2 )

ライセンス: Link先を確認
Johannes Jakubik, Adrian Binding, Stefan Feuerriegel(参考訳) 粒子群最適化 (PSO) は、探索空間の周りの候補解の集合をランダム化されたステップ長を持つ最もよく知られたグローバルおよびローカルな解へと移動させる反復探索法である。 PSOは、勾配が利用できず、機能評価が高価である実用的なアプリケーションで頻繁に最適化を加速します。 しかし、従来のPSOアルゴリズムは、個々の粒子による観察から客観的関数の潜在的な知識を無視しています。 したがって,ベイズ最適化の概念を引き合いに出し,対象関数の確率的サロゲートモデルを導入する。 すなわち、対象関数の過去の評価にガウス過程を適合させ、その形状を予測し、それに基づいて粒子の動きを適応させる。 計算実験の結果,PSOのベースライン実装(SPSO2011)は性能が優れていた。 さらに、最先端のサロゲート支援進化アルゴリズムと比較して、いくつかの人気のあるベンチマーク関数の性能が大幅に向上する。 全体として,本アルゴリズムは探索的・搾取的行動に望ましい特性を持つ。

Particle swarm optimization (PSO) is an iterative search method that moves a set of candidate solution around a search-space towards the best known global and local solutions with randomized step lengths. PSO frequently accelerates optimization in practical applications, where gradients are not available and function evaluations expensive. Yet the traditional PSO algorithm ignores the potential knowledge that could have been gained of the objective function from the observations by individual particles. Hence, we draw upon concepts from Bayesian optimization and introduce a stochastic surrogate model of the objective function. That is, we fit a Gaussian process to past evaluations of the objective function, forecast its shape and then adapt the particle movements based on it. Our computational experiments demonstrate that baseline implementations of PSO (i.e., SPSO2011) are outperformed. Furthermore, compared to, state-of-art surrogate-assisted evolutionary algorithms, we achieve substantial performance improvements on several popular benchmark functions. Overall, we find that our algorithm attains desirable properties for exploratory and exploitative behavior.
翻訳日:2021-02-10 12:48:46 公開日:2021-02-09
# スライスベースセットネットワークによる脳年齢推定の改善

Improved Brain Age Estimation with Slice-based Set Networks ( http://arxiv.org/abs/2102.04438v2 )

ライセンス: Link先を確認
Umang Gupta, Pradeep K. Lam, Greg Ver Steeg, Paul M. Thompson(参考訳) 神経画像データのディープラーニングは、有望だが挑戦的な方向だ。 3D MRIスキャンの高次元性は、この取り組みを計算とデータ集約にします。 従来の3Dニューロイメージング手法では、多数のパラメータを持つ3D-CNNベースのアーキテクチャを使用し、トレーニングにより多くの時間とデータを必要とする。 近年、2dスライスベースのモデルは、パラメータが少なく、同等の性能を達成するためにサンプルが少ないため、注目を集めている。 本稿では,Brainage予測のための新しいアーキテクチャを提案する。 提案されたアーキテクチャは、各2DスライスをMRIに深い2D-CNNモデルでエンコードすることで機能する。 次に、セットネットワークまたは置換不変層を用いて、これらの2Dスライス符号化の情報を組み合わせる。 ブリティッシュ・バイオバンク・データセットを用いたブレネージ予測問題の実験は、置換不変層を持つモデルがより高速に学習し、他の最先端のアプローチよりも優れた予測を提供することを示した。

Deep Learning for neuroimaging data is a promising but challenging direction. The high dimensionality of 3D MRI scans makes this endeavor compute and data-intensive. Most conventional 3D neuroimaging methods use 3D-CNN-based architectures with a large number of parameters and require more time and data to train. Recently, 2D-slice-based models have received increasing attention as they have fewer parameters and may require fewer samples to achieve comparable performance. In this paper, we propose a new architecture for BrainAGE prediction. The proposed architecture works by encoding each 2D slice in an MRI with a deep 2D-CNN model. Next, it combines the information from these 2D-slice encodings using set networks or permutation invariant layers. Experiments on the BrainAGE prediction problem, using the UK Biobank dataset, showed that the model with the permutation invariant layers trains faster and provides better predictions compared to other state-of-the-art approaches.
翻訳日:2021-02-10 12:48:32 公開日:2021-02-09