このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210611となっている論文です。

PDF登録状況(公開日: 20210611)

TitleAuthorsAbstract論文公表日・翻訳日
# 画像文書強調のためのディープニューラルネットワークの評価

Evaluating Deep Neural Networks for Image Document Enhancement ( http://arxiv.org/abs/2106.15286v1 )

ライセンス: Link先を確認
Lucas N. Kirsten, Ricardo Piccoli and Ricardo Ribani(参考訳) 本研究は,6つの最先端のディープニューラルネットワーク(DNN)アーキテクチャを,カメラキャプチャドドキュメンテーション画像の高精細化問題に適用した。 各ネットワークの結果は、画像品質評価(IQA)メトリクスを用いて定性的かつ定量的に評価され、従来のコンピュータビジョン技術に基づく既存手法と比較された。 最高の性能を持つアーキテクチャは、既存のアルゴリズムと比較して優れた拡張を実現し、文書画像の強化にDNNを使用することが可能であることを示した。 さらに、最高のアーキテクチャは、深層学習技術を用いた文書強化に関する将来の調査のベースラインとして機能する可能性がある。 本論文の主な貢献は、より優れた結果を得るためにさらに改善できるディープラーニング技術のベースラインと、ニューラルネットワークから生成された画像と地上の真実とを定量的に比較するためのIQAメトリクスを用いた評価手法である。

This work evaluates six state-of-the-art deep neural network (DNN) architectures applied to the problem of enhancing camera-captured document images. The results from each network were evaluated both qualitatively and quantitatively using Image Quality Assessment (IQA) metrics, and also compared with an existing approach based on traditional computer vision techniques. The best performing architectures generally produced good enhancement compared to the existing algorithm, showing that it is possible to use DNNs for document image enhancement. Furthermore, the best performing architectures could work as a baseline for future investigations on document enhancement using deep learning techniques. The main contributions of this paper are: a baseline of deep learning techniques that can be further improved to provide better results, and a evaluation methodology using IQA metrics for quantitatively comparing the produced images from the neural networks to a ground truth.
翻訳日:2021-07-04 19:39:50 公開日:2021-06-11
# 脳波復号のためのトランスフォーマーを用いた時空間特徴学習

Transformer-based Spatial-Temporal Feature Learning for EEG Decoding ( http://arxiv.org/abs/2106.11170v1 )

ライセンス: Link先を確認
Yonghao Song, Xueyu Jia, Lie Yang, Longhan Xie(参考訳) 現在、人々は通常、脳波デコードのための畳み込みニューラルネットワーク(CNN)に基づくいくつかの手法を使っている。 しかし、CNNはグローバルな依存関係を認識するのに制限があるため、全体的な関係が強い一般的なEEGパラダイムには不十分である。 本稿では,主に注意機構に依存する新しい脳波復号法を提案する。 EEGデータは、まず前処理され、空間的にフィルタリングされる。 そして,特徴チャネル次元に注意変換を適用し,モデルがより関連性の高い空間的特徴を向上できるようにする。 最も重要なステップは、注意変換のために時間次元のデータをスライスし、最終的に非常に識別可能な表現を得ることです。 このとき、グローバル平均プールと単純な完全接続層を使用して、脳波データの異なるカテゴリを分類する。 2つの公開データセットの実験は、注意変換の戦略が空間的特徴と時間的特徴を効果的に活用していることを示している。 そして我々は、より少ないパラメータで、EEGのマルチクラス化における最先端のレベルに達しました。 私たちが知る限り、この分野でトランスフォーマーのアイデアに基づく詳細かつ完全な方法が提案されたのは初めてである。 脳-コンピュータインタフェース(BCI)の実用性を促進する可能性がある。 ソースコードは \textit{https://github.com/a nranknight/eeg-trans former} で見ることができる。

At present, people usually use some methods based on convolutional neural networks (CNNs) for Electroencephalograp h (EEG) decoding. However, CNNs have limitations in perceiving global dependencies, which is not adequate for common EEG paradigms with a strong overall relationship. Regarding this issue, we propose a novel EEG decoding method that mainly relies on the attention mechanism. The EEG data is firstly preprocessed and spatially filtered. And then, we apply attention transforming on the feature-channel dimension so that the model can enhance more relevant spatial features. The most crucial step is to slice the data in the time dimension for attention transforming, and finally obtain a highly distinguishable representation. At this time, global averaging pooling and a simple fully-connected layer are used to classify different categories of EEG data. Experiments on two public datasets indicate that the strategy of attention transforming effectively utilizes spatial and temporal features. And we have reached the level of the state-of-the-art in multi-classification of EEG, with fewer parameters. As far as we know, it is the first time that a detailed and complete method based on the transformer idea has been proposed in this field. It has good potential to promote the practicality of brain-computer interface (BCI). The source code can be found at: \textit{https://github.com/a nranknight/EEG-Trans former}.
翻訳日:2021-06-27 09:05:25 公開日:2021-06-11
# 安定性を考慮したクラスタリングのための微分プライベートアルゴリズム

Differentially Private Algorithms for Clustering with Stability Assumptions ( http://arxiv.org/abs/2106.12959v1 )

ライセンス: Link先を確認
Moshe Shechner(参考訳) 入力安定性仮定下での微分プライベートクラスタリングの問題について検討する。 一般の差分プライバシー、特に差分プライベートクラスタリングに関する研究は増え続けているが、3つの研究(Nissim et al)しかない。 2007年、wangら。 2015年、Huangら。 2018年) プライベートクラスタリング"nice" k-meansインスタンスの問題に目を向けると、サンプル・アンド・アグリゲーションフレームワークと3つの測定ユーティリティすべてに依存する3つのすべてが、真のクラスタ中心とプライベートアルゴリズムによって返されたセンターとの間のwasserstein距離という観点で問題に目を向ける。 この作業では、複数の軸上のこの一連の作業を改善する。 安定な入力をクラスタリングするアルゴリズム(サンプル・アンド・アグリゲートフレームワークに依存しない)を提案し,その実用性をワッサーシュタイン距離とk平均コストの両方で解析する。 さらに,本アルゴリズムは,k-medianインスタンスの「ニッチ」と差分プライバシの局所モデルに対するストレートフォワード類似性を有する。

We study the problem of differentially private clustering under input-stability assumptions. Despite the ever-growing volume of works on differential privacy in general and differentially private clustering in particular, only three works (Nissim et al. 2007, Wang et al. 2015, Huang et al. 2018) looked at the problem of privately clustering "nice" k-means instances, all three relying on the sample-and-aggregate framework and all three measuring utility in terms of Wasserstein distance between the true cluster centers and the centers returned by the private algorithm. In this work we improve upon this line of works on multiple axes. We present a far simpler algorithm for clustering stable inputs (not relying on the sample-and-aggregate framework), and analyze its utility in both the Wasserstein distance and the k-means cost. Moreover, our algorithm has straight-forward analogues for "nice" k-median instances and for the local-model of differential privacy.
翻訳日:2021-06-27 09:04:49 公開日:2021-06-11
# 高エンディングシーレベルハザードのパラメトリックドライバの進化の解析

Analysis of the Evolution of Parametric Drivers of High-End Sea-Level Hazards ( http://arxiv.org/abs/2106.12041v1 )

ライセンス: Link先を確認
Alana Hough and Tony E. Wong(参考訳) 気候モデルは、沿岸社会への海面上昇によるリスクを管理する戦略を開発するための重要なツールである。 これらのモデルは気候リスクを理解するために必要であるが、モデル内の各パラメータに固有の不確実性レベルが存在する。 このモデルパラメトリック不確実性は、将来の気候リスクの不確実性につながる。 その結果、これらのパラメータの不確実性が将来の気候変動リスクの評価とそれを管理するための戦略の有効性にどのように影響するかを理解する必要がある。 ここでは、ランダムな森林を用いて、将来の気候リスクのパラメトリックな要因と、それらのドライバーの相対的重要性が時間とともにどのように変化するかを調べる。 その結果,2020年から2150年の間,低放射強制シナリオと高放射強制シナリオの両方において,エアロゾルが放射強制に与える影響が,最も重要な気候モデルパラメトリック不確実性であることがわかった。 高温海面上昇の短期的危険は主に熱膨張によって引き起こされ、長期的危険は南極氷床とグリーンランド氷床からの大量損失と関連している。 本研究は,今後の気候変動リスク管理戦略の開発において,時間的パラメトリック不確実性を考慮することの重要性を強調した。

Climate models are critical tools for developing strategies to manage the risks posed by sea-level rise to coastal communities. While these models are necessary for understanding climate risks, there is a level of uncertainty inherent in each parameter in the models. This model parametric uncertainty leads to uncertainty in future climate risks. Consequently, there is a need to understand how those parameter uncertainties impact our assessment of future climate risks and the efficacy of strategies to manage them. Here, we use random forests to examine the parametric drivers of future climate risk and how the relative importances of those drivers change over time. We find that the equilibrium climate sensitivity and a factor that scales the effect of aerosols on radiative forcing are consistently the most important climate model parametric uncertainties throughout the 2020 to 2150 interval for both low and high radiative forcing scenarios. The near-term hazards of high-end sea-level rise are driven primarily by thermal expansion, while the longer-term hazards are associated with mass loss from the Antarctic and Greenland ice sheets. Our results highlight the practical importance of considering time-evolving parametric uncertainties when developing strategies to manage future climate risks.
翻訳日:2021-06-27 09:04:03 公開日:2021-06-11
# RefBERT: 事前計算された表現を参照してBERTを圧縮する

RefBERT: Compressing BERT by Referencing to Pre-computed Representations ( http://arxiv.org/abs/2106.08898v1 )

ライセンス: Link先を確認
Xinyi Wang, Haiqin Yang, Liang Zhao, Yang Mo, Jianping Shen(参考訳) 最近開発された大規模事前学習型言語モデル(bertなど)は、下流の多くの自然言語処理アプリケーションで顕著な性能を達成している。 これらの事前訓練された言語モデルは、しばしば数億のパラメータを含み、現実世界のアプリケーションでは高い計算と遅延に悩まされる。 下流アプリケーションにおけるモデル性能を維持しつつ、高速なトレーニングと推論のためのモデルの計算オーバーヘッドを低減することが望ましい。 いくつかの作品が知識蒸留を利用して教師モデルをより小さな生徒モデルに圧縮している。 しかし、彼らは通常、推論において教師の知識を捨てる。 そこで,本論文では,教師から学んだ知識を活用し,参照サンプル上の事前計算されたbert表現の促進と,bertをより小さな学生モデルに圧縮するrefbertを提案する。 この提案を保証するため、損失関数と参照サンプルの使用に関する理論的正当性を提供する。 理論的な結果から,教師の参照サンプルへの表現を含むと,生徒モデル学習における相互情報が増えることが示唆された。 最後に、実証的な評価を行い、我々のRefBERTがバニラTinyBERTを8.1 %以上上回り、GLUEベンチマークで$\BERTBASE$の94 %以上のパフォーマンスを達成することを示す。 一方、RefBERTは、BERT$_{\rm BASE}$よりも7.4倍小さく、推論では9.5倍高速である。

Recently developed large pre-trained language models, e.g., BERT, have achieved remarkable performance in many downstream natural language processing applications. These pre-trained language models often contain hundreds of millions of parameters and suffer from high computation and latency in real-world applications. It is desirable to reduce the computation overhead of the models for fast training and inference while keeping the model performance in downstream applications. Several lines of work utilize knowledge distillation to compress the teacher model to a smaller student model. However, they usually discard the teacher's knowledge when in inference. Differently, in this paper, we propose RefBERT to leverage the knowledge learned from the teacher, i.e., facilitating the pre-computed BERT representation on the reference sample and compressing BERT into a smaller student model. To guarantee our proposal, we provide theoretical justification on the loss function and the usage of reference samples. Significantly, the theoretical result shows that including the pre-computed teacher's representations on the reference samples indeed increases the mutual information in learning the student model. Finally, we conduct the empirical evaluation and show that our RefBERT can beat the vanilla TinyBERT over 8.1\% and achieves more than 94\% of the performance of $\BERTBASE$ on the GLUE benchmark. Meanwhile, RefBERT is 7.4x smaller and 9.5x faster on inference than BERT$_{\rm BASE}$.
翻訳日:2021-06-20 16:14:32 公開日:2021-06-11
# 音響モデルのスケーリング法則

Scaling Laws for Acoustic Models ( http://arxiv.org/abs/2106.09488v1 )

ライセンス: Link先を確認
Jasha Droppo and Oguz Elibol(参考訳) 機械学習は、これまで不合理と考えられていたサイズにモデルを成長させることで、モデル品質を向上させる傾向にある。 近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルは、モデルサイズ、トレーニングセットサイズ、利用可能な計算予算からモデル品質を予測するスムーズな権力-法則(スケーリング法則)を示すことが示されている。 これらのスケーリング法則により、利用可能なトレーニングデータ、モデルパラメータ数、あるいはトレーニング計算予算に制約を課した、ほぼ最適なハイパーパラメータを選択することができる。 本稿では,自動予測符号損失で訓練された音響モデルが,類似のスケーリング法則に従うかのように振る舞うことを示す。 従来の作業は、モデルサイズによる損失を共同で予測し、セットサイズをトレーニングし、タスクの固有の「既約損失」に拡張します。 スケーリング則は,モデルサイズとトレーニングセットサイズの両方において,2桁以上のモデル性能と正確に一致し,モデル性能の限界を予測できることがわかった。

There is a recent trend in machine learning to increase model quality by growing models to sizes previously thought to be unreasonable. Recent work has shown that autoregressive generative models with cross-entropy objective functions exhibit smooth power-law relationships, or scaling laws, that predict model quality from model size, training set size, and the available compute budget. These scaling laws allow one to choose nearly optimal hyper-parameters given constraints on available training data, model parameter count, or training computation budget. In this paper, we demonstrate that acoustic models trained with an auto-predictive coding loss behave as if they are subject to similar scaling laws. We extend previous work to jointly predict loss due to model size, to training set size, and to the inherent "irreducible loss" of the task. We find that the scaling laws accurately match model performance over two orders of magnitude in both model size and training set size, and make predictions about the limits of model performance.
翻訳日:2021-06-20 16:13:41 公開日:2021-06-11
# ModelDiff: モデル再利用検出のためのテストベースDNN類似度比較

ModelDiff: Testing-Based DNN Similarity Comparison for Model Reuse Detection ( http://arxiv.org/abs/2106.08890v1 )

ライセンス: Link先を確認
Yuanchun Li, Ziqi Zhang, Bingyan Liu, Ziyue Yang, and Yunxin Liu(参考訳) ディープラーニングモデルの知識は学生モデルに移され、知的財産権侵害や脆弱性の伝播につながる可能性がある。 このような知識の再利用の検出は、疑うモデルがホワイトボックスにアクセスできない場合や、異なるタスクをこなす場合があるため、簡単ではない。 本稿では,ディープラーニングモデル類似性比較のためのテストベースアプローチであるModelDiffを提案する。 2つのモデルの重み、アクティベーション、アウトプットを直接比較する代わりに、同じテスト入力のセットでそれらの振る舞いパターンを比較します。 具体的には、モデルの行動パターンは決定距離ベクトル(DDV)として表現され、各要素はモデルの反応と入力の対の間の距離である。 2つのモデル間の知識類似度は、DDV間のコサイン類似度で測定される。 ModelDiffを評価するために、転送学習、モデル圧縮、モデル盗難など、最も一般的なモデルの再利用方法をカバーする144組のモデルを含むベンチマークを作成しました。 本手法は,モデル再利用検出にモデル差分を用いた場合の有効性を示すベンチマークで91.7%の精度を得た。 モバイルディープラーニングアプリの研究は、現実世界のモデルにおけるModelDiffの可能性を示している。

The knowledge of a deep learning model may be transferred to a student model, leading to intellectual property infringement or vulnerability propagation. Detecting such knowledge reuse is nontrivial because the suspect models may not be white-box accessible and/or may serve different tasks. In this paper, we propose ModelDiff, a testing-based approach to deep learning model similarity comparison. Instead of directly comparing the weights, activations, or outputs of two models, we compare their behavioral patterns on the same set of test inputs. Specifically, the behavioral pattern of a model is represented as a decision distance vector (DDV), in which each element is the distance between the model's reactions to a pair of inputs. The knowledge similarity between two models is measured with the cosine similarity between their DDVs. To evaluate ModelDiff, we created a benchmark that contains 144 pairs of models that cover most popular model reuse methods, including transfer learning, model compression, and model stealing. Our method achieved 91.7% correctness on the benchmark, which demonstrates the effectiveness of using ModelDiff for model reuse detection. A study on mobile deep learning apps has shown the feasibility of ModelDiff on real-world models.
翻訳日:2021-06-20 16:13:24 公開日:2021-06-11
# 再帰的特徴除去と勾配強調法による心血管疾患予測

Cardiovascular Disease Prediction using Recursive Feature Elimination and Gradient Boosting Classification Techniques ( http://arxiv.org/abs/2106.08889v1 )

ライセンス: Link先を確認
Prasannavenkatesan Theerthagiri, Vidya J(参考訳) 心臓血管疾患(cvds)は、人の健康に影響を与える最も一般的な慢性疾患の1つである。 CVDの早期検出は、病気の重症度を予防または軽減することにより死亡率を低下させる。 機械学習アルゴリズムはリスク要因を特定するための有望な方法である。 本稿では, 心疾患の予測精度を高めるために, 再帰的特徴除去型勾配増強法 (RFE-GB) を提案する。 CVDに重要な特徴を持つ患者の健康記録を, 評価のために分析した。 予測モデルの構築には他にもいくつかの機械学習手法が用いられ、その結果は提案モデルと比較された。 このモデルにより,再帰的特徴除去法と勾配促進法を組み合わせることで,最大精度(89.7%)が得られた。 さらに、曲線0.84以下の領域では、提案した RFE-GB アルゴリズムの方が優れており、他の手法よりもかなりの利得を得た。 したがって、提案したRFE-GBアルゴリズムはCVD推定と処理の顕著なモデルとして機能する。

Cardiovascular diseases (CVDs) are one of the most common chronic illnesses that affect peoples health. Early detection of CVDs can reduce mortality rates by preventing or reducing the severity of the disease. Machine learning algorithms are a promising method for identifying risk factors. This paper proposes a proposed recursive feature elimination-based gradient boosting (RFE-GB) algorithm in order to obtain accurate heart disease prediction. The patients health record with important CVD features has been analyzed for the evaluation of the results. Several other machine learning methods were also used to build the prediction model, and the results were compared with the proposed model. The results of this proposed model infer that the combined recursive feature elimination and gradient boosting algorithm achieves the highest accuracy (89.7 %). Further, with an area under the curve of 0.84, the proposed RFE-GB algorithm was found superior and had obtained a substantial gain over other techniques. Thus, the proposed RFE-GB algorithm will serve as a prominent model for CVD estimation and treatment.
翻訳日:2021-06-20 16:12:29 公開日:2021-06-11
# (参考訳) グラフコントラスト学習改善のための逆グラフ拡張 [全文訳有]

Adversarial Graph Augmentation to Improve Graph Contrastive Learning ( http://arxiv.org/abs/2106.05819v2 )

ライセンス: CC BY 4.0
Susheel Suresh, Pan Li, Cong Hao, Jennifer Neville(参考訳) グラフニューラルネットワーク(gnn)の自己教師付き学習は,実世界のグラフ/ネットワークデータにおけるラベル不足の問題から,非常に必要とされている。 グラフコントラスト学習(GCL)は、GNNを訓練して、異なる拡張形式における同じグラフの表現間の対応を最大化することにより、ラベルを使わずに堅牢で転送可能なGNNが得られる。 しかし、従来のGCLによって訓練されたGNNは、冗長なグラフ特徴をキャプチャするリスクがしばしばあるため、不安定であり、下流タスクでサブパーのパフォーマンスを提供する。 本稿では,GCLにおける逆グラフ拡張戦略を最適化することにより,GNNがトレーニング中に冗長な情報を捕捉することを回避できる新しい原理であるAD-GCLを提案する。 ad-gclを理論的な説明と組み合わせ、訓練可能なエッジドロップグラフ拡張に基づく実用的なインスタンス化を設計する。 我々は、AD-GCL法を最先端のGCL法と比較し、分子特性の回帰と分類、およびソーシャルネットワーク分類のタスクに関する18種類のベンチマークデータセットを用いて、教師なし学習における最大14\%、転送時の6\%、および半教師付き学習環境における3\%のパフォーマンス向上を実験的に検証した。

Self-supervised learning of graph neural networks (GNN) is in great need because of the widespread label scarcity issue in real-world graph/network data. Graph contrastive learning (GCL), by training GNNs to maximize the correspondence between the representations of the same graph in its different augmented forms, may yield robust and transferable GNNs even without using labels. However, GNNs trained by traditional GCL often risk capturing redundant graph features and thus may be brittle and provide sub-par performance in downstream tasks. Here, we propose a novel principle, termed adversarial-GCL (AD-GCL), which enables GNNs to avoid capturing redundant information during the training by optimizing adversarial graph augmentation strategies used in GCL. We pair AD-GCL with theoretical explanations and design a practical instantiation based on trainable edge-dropping graph augmentation. We experimentally validate AD-GCL by comparing with the state-of-the-art GCL methods and achieve performance gains of up-to $14\%$ in unsupervised, $6\%$ in transfer, and $3\%$ in semi-supervised learning settings overall with 18 different benchmark datasets for the tasks of molecule property regression and classification, and social network classification.
翻訳日:2021-06-20 05:32:02 公開日:2021-06-11
# (参考訳) ラベルなしモデル選択による時系列異常検出 [全文訳有]

Time Series Anomaly Detection with label-free Model Selection ( http://arxiv.org/abs/2106.07473v1 )

ライセンス: CC BY 4.0
Deokwoo Jung, Nandini Ramanan, Mehrnaz Amjadi, Sankeerth Rao Karingula, Jake Taylor, and Claudionor Nunes Coelho Jr(参考訳) 時系列データの異常検出は多くのデータ駆動アプリケーションにとって必須のタスクとなり、大量のデータと機械学習アルゴリズムを駆使する。 多くの現実世界において、信頼性の高い異常モデルの開発は、異常ラベルの不足と異常の例を得るのに非常にコストがかかるため、非常に困難である。 モデル選択とパラメータチューニングのモデル品質を評価するために、重大なボトルネックが課される。 その結果、既存の異常検出アルゴリズムの多くは、デプロイ後に約束されたパフォーマンスを示すことができない。 本稿では,ラベルなし時系列データに対するラベルなしモデル選択を用いた新しい異常検出アルゴリズムlaf-adを提案する。 提案アルゴリズムは,多数のパラメトリックモデルに対して完全に教師なしのアンサンブル学習を行う。 ブートストラップ法を用いて,異常確率の感度を定量化するモデル分散メトリックを開発した。 そして,モデル分散を用いたモデル学習者による異常事象の集合的決定を行う。 我々のアルゴリズムは容易に並列化でき、不調データや季節データに対してより堅牢であり、多数の異常モデルに対して高度にスケーラブルである。 提案アルゴリズムは,合成ドメインおよびベンチマーク公開データセット上の他の最先端手法と比較して評価する。

Anomaly detection for time-series data becomes an essential task for many data-driven applications fueled with an abundance of data and out-of-the-box machine-learning algorithms. In many real-world settings, developing a reliable anomaly model is highly challenging due to insufficient anomaly labels and the prohibitively expensive cost of obtaining anomaly examples. It imposes a significant bottleneck to evaluate model quality for model selection and parameter tuning reliably. As a result, many existing anomaly detection algorithms fail to show their promised performance after deployment. In this paper, we propose LaF-AD, a novel anomaly detection algorithm with label-free model selection for unlabeled times-series data. Our proposed algorithm performs a fully unsupervised ensemble learning across a large number of candidate parametric models. We develop a model variance metric that quantifies the sensitivity of anomaly probability with a bootstrapping method. Then it makes a collective decision for anomaly events by model learners using the model variance. Our algorithm is easily parallelizable, more robust for ill-conditioned and seasonal data, and highly scalable for a large number of anomaly models. We evaluate our algorithm against other state-of-the-art methods on a synthetic domain and a benchmark public data set.
翻訳日:2021-06-20 04:53:17 公開日:2021-06-11
# (参考訳) EPICURE Ensembleed Models for Extracting Cancer Mutations from Literature [全文訳有]

EPICURE Ensemble Pretrained Models for Extracting Cancer Mutations from Literature ( http://arxiv.org/abs/2106.07722v1 )

ライセンス: CC BY 4.0
Jiarun Cao, Elke M van Veen, Niels Peek, Andrew G Renehan, Sophia Ananiadou(参考訳) 患者サンプルに存在する遺伝子プロファイルを解釈するためには、どの変異が対応するがんタイプの発症に重要な役割を果たすかを知る必要がある。 名前付きエンティティ認識は、科学文献から貴重ながん情報をマイニングするためのテキストマイニングパイプラインの中核的なステップである。 しかし、関連するデータセットが不足しているため、この領域での以前のNERの試みは、ディープラーニングベースのモデルがデプロイされた場合の低パフォーマンスに悩まされるか、あるいは、この機能ベースの機械学習モデルやルールベースのモデルを適用してこの問題に対処する。 本稿では,条件付きランダムフィールドパターン層とスパン予測パターン層を備えたアンサンブル事前訓練モデルであるEPICUREを提案し,テキストから癌突然変異を抽出する。 また、複数のデータセットからトレーニングセットを拡張するために、データ拡張戦略を採用しています。 3つのベンチマークデータセットの実験結果は,ベースラインモデルと比較して競争力のある結果を示した。

To interpret the genetic profile present in a patient sample, it is necessary to know which mutations have important roles in the development of the corresponding cancer type. Named entity recognition is a core step in the text mining pipeline which facilitates mining valuable cancer information from the scientific literature. However, due to the scarcity of related datasets, previous NER attempts in this domain either suffer from low performance when deep learning based models are deployed, or they apply feature based machine learning models or rule based models to tackle this problem, which requires intensive efforts from domain experts, and limit the model generalization capability. In this paper, we propose EPICURE, an ensemble pre trained model equipped with a conditional random field pattern layer and a span prediction pattern layer to extract cancer mutations from text. We also adopt a data augmentation strategy to expand our training set from multiple datasets. Experimental results on three benchmark datasets show competitive results compared to the baseline models.
翻訳日:2021-06-20 04:20:07 公開日:2021-06-11
# (参考訳) クロスレプリケーション信頼性 - 層間信頼性の解釈に関する実証的アプローチ [全文訳有]

Cross-replication Reliability -- An Empirical Approach to Interpreting Inter-rater Reliability ( http://arxiv.org/abs/2106.07393v1 )

ライセンス: CC BY 4.0
Ka Wong, Praveen Paritosh, Lora Aroyo(参考訳) 経験的かつ文脈的に解釈された新しいIRRの解釈手法を提案する。 これは複製におけるベースライン測度に対するIRRのベンチマークに基づいており、そのうちの1つはコーエンのカッパに基づく新しいクロスレプリケーション信頼性(xRR)尺度である。 このアプローチを xRR フレームワークと呼びます。 我々は,400万人の表情判断の再現データセットをオープンソース化し,提案フレームワークを用いて解析する。 このフレームワークはクラウドソーシングされたデータセットの品質を測定するのに使うことができる。

We present a new approach to interpreting IRR that is empirical and contextualized. It is based upon benchmarking IRR against baseline measures in a replication, one of which is a novel cross-replication reliability (xRR) measure based on Cohen's kappa. We call this approach the xRR framework. We opensource a replication dataset of 4 million human judgements of facial expressions and analyze it with the proposed framework. We argue this framework can be used to measure the quality of crowdsourced datasets.
翻訳日:2021-06-20 04:10:34 公開日:2021-06-11
# (参考訳) 局所混合パターンによるグラフの代替性の向上によるグラフニューラルネットワークの限界を破る [全文訳有]

Breaking the Limit of Graph Neural Networks by Improving the Assortativity of Graphs with Local Mixing Patterns ( http://arxiv.org/abs/2106.06586v1 )

ライセンス: CC BY 4.0
Susheel Suresh, Vinith Budde, Jennifer Neville, Pan Li, Jianzhu Ma(参考訳) グラフニューラルネットワーク(GNN)は、ネットワーク構造とノード機能を融合することで、複数のグラフベースの学習タスクで大きな成功を収めた。 現代のGNNモデルは、メッセージパッシングによる隣人の近親相性機能の反復的な集約に基づいて構築されている。 その予測性能は、類似の属性を持つノードが互いに混在/接続するキー特性であるグラフの代替混合によって強く拘束されていることが示されている。 実世界のネットワークは異質または多様な混合パターンを示しており, 従来のグローバルな非等方性係数などの非等方性の測定は, この混合を定量化するための代表的な統計量にはならない。 我々は,ノードレベルのアソータビリティという一般化された概念を採用し,多様なパターンをより正確に表現し,GNNの学習可能性を正確に定量化する。 幅広いGNNモデルの予測性能は,ノードレベル・アソシティーと高い相関関係があることが判明した。 この限界を破るために、本研究では、入力グラフを、近接情報と構造情報の両方を異なる種類のエッジとして含む計算グラフに変換することに焦点を当てる。 その結果得られたマルチリレーショナルグラフは、アソーサビリティのレベルが向上し、さらに重要なことに、元のグラフからリッチな情報を保存できる。 次に、この計算グラフ上でGNNを実行することを提案し、構造と近接を適応的に選択することで、様々な混合条件下での性能が向上することを示す。 実世界のグラフ学習ベンチマークにおける半教師付きノード分類タスクに変換フレームワークを採用する利点を実証的に示す。

Graph neural networks (GNNs) have achieved tremendous success on multiple graph-based learning tasks by fusing network structure and node features. Modern GNN models are built upon iterative aggregation of neighbor's/proximity features by message passing. Its prediction performance has been shown to be strongly bounded by assortative mixing in the graph, a key property wherein nodes with similar attributes mix/connect with each other. We observe that real world networks exhibit heterogeneous or diverse mixing patterns and the conventional global measurement of assortativity, such as global assortativity coefficient, may not be a representative statistic in quantifying this mixing. We adopt a generalized concept, node-level assortativity, one that is based at the node level to better represent the diverse patterns and accurately quantify the learnability of GNNs. We find that the prediction performance of a wide range of GNN models is highly correlated with the node level assortativity. To break this limit, in this work, we focus on transforming the input graph into a computation graph which contains both proximity and structural information as distinct type of edges. The resulted multi-relational graph has an enhanced level of assortativity and, more importantly, preserves rich information from the original graph. We then propose to run GNNs on this computation graph and show that adaptively choosing between structure and proximity leads to improved performance under diverse mixing. Empirically, we show the benefits of adopting our transformation framework for semi-supervised node classification task on a variety of real world graph learning benchmarks.
翻訳日:2021-06-20 03:57:33 公開日:2021-06-11
# (参考訳) 自動イベント抽出のための可視化技術 [全文訳有]

Visualization Techniques to Enhance Automated Event Extraction ( http://arxiv.org/abs/2106.06588v1 )

ライセンス: CC BY 4.0
Sophia Henn, Abigail Sticha, Timothy Burley, Ernesto Verdeja, Paul Brenner(参考訳) 複雑なデータのロバストな可視化は、データのボリュームが大きく、テキストの高次元構造が簡潔に要約することを困難にするため、イベント分類にNLPを効果的に利用する上で重要である。 特にイベント抽出タスクにおいて、可視化は、機械学習ツールが洞察を生み出すテキスト関係の理解と説明に役立つ。 本稿では,NLPを用いたニュース記事から州主導の大量殺人の潜在的引き金を探るケーススタディを通じて,生データの探索的分析から機械学習学習分析,最後に推論後の検証に至るまで,各段階で可視化がどのように役立つかを実証する。

Robust visualization of complex data is critical for the effective use of NLP for event classification, as the volume of data is large and the high-dimensional structure of text makes data challenging to summarize succinctly. In event extraction tasks in particular, visualization can aid in understanding and illustrating the textual relationships from which machine learning tools produce insights. Through our case study which seeks to identify potential triggers of state-led mass killings from news articles using NLP, we demonstrate how visualizations can aid in each stage, from exploratory analysis of raw data, to machine learning training analysis, and finally post-inference validation.
翻訳日:2021-06-20 03:38:01 公開日:2021-06-11
# (参考訳) Break-It-Fix-It: プログラム修復のための教師なし学習 [全文訳有]

Break-It-Fix-It: Unsupervised Learning for Program Repair ( http://arxiv.org/abs/2106.06600v1 )

ライセンス: CC BY 4.0
Michihiro Yasunaga, Percy Liang(参考訳) インプットの品質を評価する批評家(例えばコンパイラ)を前提として、悪い例(例えば、構文エラーのあるコード)を良い例(例えば、エラーのないコード)に変換するフィクスチャをトレーニングすることが目的です。 既存の作業は(悪い、良い)ペアからなるトレーニングデータを作成し、ヒューリスティックス(例えばトークンを落とす)を使って良い例を破損させる。 しかし、この合成生成データでトレーニングされたフィクスチャは、悪い入力の実際の分布によく当てはまらない。 このギャップを埋めるために、我々はBreak-It-Fix-It (BIFI)という新しいトレーニング手法を提案し、これは2つの重要なアイデアを持っている: (i) 実際の悪い入力でフィクスダーの出力をチェックし、トレーニングデータに良い(固定された)出力を追加するために、そして (ii) 優れたコードから現実的な悪いコードを生成するためにブレーカーを訓練する。 これらのアイデアに基づき、よりペアデータを生成するのに併用しながら、ブレーカとフィクチャを反復的に更新する。 我々は2つのコード修復データセットについてbifiを評価した。github-python、astパースエラーによるpythonコードの修復を目標とする新しいデータセット、そしてコンパイラエラーによるcコードの修復を目標とするdeepfixだ。 BIFIは既存の手法より優れており、GitHub-Pythonで90.5%(+28.5%)、DeepFixで71.7%(+5.6%)の修正精度がある。 特に、BIFIはラベル付きデータを一切必要とせず、様々な修理作業の教師なし学習の出発点となることを願っている。

We consider repair tasks: given a critic (e.g., compiler) that assesses the quality of an input, the goal is to train a fixer that converts a bad example (e.g., code with syntax errors) into a good one (e.g., code with no errors). Existing works create training data consisting of (bad, good) pairs by corrupting good examples using heuristics (e.g., dropping tokens). However, fixers trained on this synthetically-genera ted data do not extrapolate well to the real distribution of bad inputs. To bridge this gap, we propose a new training approach, Break-It-Fix-It (BIFI), which has two key ideas: (i) we use the critic to check a fixer's output on real bad inputs and add good (fixed) outputs to the training data, and (ii) we train a breaker to generate realistic bad code from good code. Based on these ideas, we iteratively update the breaker and the fixer while using them in conjunction to generate more paired data. We evaluate BIFI on two code repair datasets: GitHub-Python, a new dataset we introduce where the goal is to repair Python code with AST parse errors; and DeepFix, where the goal is to repair C code with compiler errors. BIFI outperforms existing methods, obtaining 90.5% repair accuracy on GitHub-Python (+28.5%) and 71.7% on DeepFix (+5.6%). Notably, BIFI does not require any labeled data; we hope it will be a strong starting point for unsupervised learning of various repair tasks.
翻訳日:2021-06-20 03:31:22 公開日:2021-06-11
# (参考訳) ポッドキャストにおける言語使用とリスナーエンゲージメントのモデル化 [全文訳有]

Modeling Language Usage and Listener Engagement in Podcasts ( http://arxiv.org/abs/2106.06605v1 )

ライセンス: CC BY 4.0
Sravana Reddy, Marina Lazarova, Yongze Yu, and Rosie Jones(参考訳) ポッドキャスト作成者を対象に、リスナーをエンゲージする方法で話す方法に関する人気記事が多数存在するが、リスナーのエンゲージメントと言語スタイルに関連するポッドキャストのデータ駆動分析はほとんど行われていない。 本稿では, 語彙の多様性, 特徴性, 感情, 構文など, 様々な要因が関与度とどのように相関するかを, 制作者の記述と音声の書き起こしの分析に基づいて検討する。 異なるテキスト表現を持つモデルを構築し、識別された特徴がエンゲージメントを非常に予測可能であることを示す。 我々の分析は、ハイエンゲージメントポッドキャストのスタイル的要素に関する一般的な知恵を検証し、いくつかの側面を分類し、他の側面に新たな視点を加える。

While there is an abundance of popular writing targeted to podcast creators on how to speak in ways that engage their listeners, there has been little data-driven analysis of podcasts that relates linguistic style with listener engagement. In this paper, we investigate how various factors -- vocabulary diversity, distinctiveness, emotion, and syntax, among others -- correlate with engagement, based on analysis of the creators' written descriptions and transcripts of the audio. We build models with different textual representations, and show that the identified features are highly predictive of engagement. Our analysis tests popular wisdom about stylistic elements in high-engagement podcasts, corroborating some aspects, and adding new perspectives on others.
翻訳日:2021-06-20 02:58:24 公開日:2021-06-11
# (参考訳) ゼロショットコーディネーションの新しい形式主義, 方法, オープン問題

A New Formalism, Method and Open Issues for Zero-Shot Coordination ( http://arxiv.org/abs/2106.06613v1 )

ライセンス: CC BY 4.0
Johannes Treutlein, Michael Dennis, Caspar Oesterheld, Jakob Foerster(参考訳) 多くの協調問題において、人間を独立に推論することは相互に互換性のあるポリシーを発見することができる。 対照的に、独立して訓練された自己再生ポリシーは、しばしば相互に相容れない。 ゼロショットコーディネート(ZSC)は、この根本的な問題に対処するためのマルチエージェント強化学習の新たなフロンティアとして提案されている。 事前の作業は、プレイヤーが共有学習アルゴリズムで合意できるが、行動や観察のラベルには同意できないと仮定して、ZSC問題にアプローチし、最適解として他のプレイを提案する。 しかし、これまでこの「ラベルフリー」問題は非公式に定義されただけである。 ラベルフリーコーディネーションゲームを定義することにより、ラベルフリーコーディネーション(LFC)問題としてこの設定を定式化する。 本研究は,LFC問題の最適解ではないことを示し,非互換な最大値間の関係を常に破ることに失敗する。 本稿では,lfc問題の最適解とlfcゲームにおける均衡を証明し,このアルゴリズムの拡張について述べる。 任意のタイブレーキングがZSCの設定の目的であるので、LFC問題はZSCの目的を反映していないと結論付ける。 そこで本稿では,今後の作業の出発点として,ZSCの非公式運用を導入する。

In many coordination problems, independently reasoning humans are able to discover mutually compatible policies. In contrast, independently trained self-play policies are often mutually incompatible. Zero-shot coordination (ZSC) has recently been proposed as a new frontier in multi-agent reinforcement learning to address this fundamental issue. Prior work approaches the ZSC problem by assuming players can agree on a shared learning algorithm but not on labels for actions and observations, and proposes other-play as an optimal solution. However, until now, this "label-free" problem has only been informally defined. We formalize this setting as the label-free coordination (LFC) problem by defining the label-free coordination game. We show that other-play is not an optimal solution to the LFC problem as it fails to consistently break ties between incompatible maximizers of the other-play objective. We introduce an extension of the algorithm, other-play with tie-breaking, and prove that it is optimal in the LFC problem and an equilibrium in the LFC game. Since arbitrary tie-breaking is precisely what the ZSC setting aims to prevent, we conclude that the LFC problem does not reflect the aims of ZSC. To address this, we introduce an alternative informal operationalization of ZSC as a starting point for future work.
翻訳日:2021-06-20 02:40:34 公開日:2021-06-11
# (参考訳) 知覚的類似度指標によるロバスト表現学習 [全文訳有]

Robust Representation Learning via Perceptual Similarity Metrics ( http://arxiv.org/abs/2106.06620v1 )

ライセンス: CC BY-SA 4.0
Saeid Asgari Taghanaki, Kristy Choi, Amir Khasahmadi, Anirudh Goyal(参考訳) 人工知能の根本的な課題は、入力機能に過度に適合することなく、下流タスクで優れたパフォーマンスをもたらすデータの有用な表現を学ぶことである。 このようなタスク関連予測情報の抽出は、現実世界のデータセットでは特に困難である。 本研究では,データ入力空間変換を学習し,非関連な入力特徴が下流の性能に与える影響を軽減するための表現学習フレームワークであるContrastive Input Morphing (CIM)を提案する。 提案手法では,三重項損失による知覚的類似度指標を用いて,タスク関連情報を保持することを保証する。 さらに、CIMは他の相互情報に基づく表現学習技術と相補的であり、同時に使用する場合の変動情報ボトルネック(VIB)の性能を向上させることを示す。

A fundamental challenge in artificial intelligence is learning useful representations of data that yield good performance on a downstream task, without overfitting to spurious input features. Extracting such task-relevant predictive information is particularly difficult for real-world datasets. In this work, we propose Contrastive Input Morphing (CIM), a representation learning framework that learns input-space transformations of the data to mitigate the effect of irrelevant input features on downstream performance. Our method leverages a perceptual similarity metric via a triplet loss to ensure that the transformation preserves task-relevant information.Empirica lly, we demonstrate the efficacy of our approach on tasks which typically suffer from the presence of spurious correlations: classification with nuisance information, out-of-distribution generalization, and preservation of subgroup accuracies. We additionally show that CIM is complementary to other mutual information-based representation learning techniques, and demonstrate that it improves the performance of variational information bottleneck (VIB) when used together.
翻訳日:2021-06-20 02:39:18 公開日:2021-06-11
# (参考訳) 分節結合型ニューラルオデム [全文訳有]

Piecewise-constant Neural ODEs ( http://arxiv.org/abs/2106.06621v1 )

ライセンス: CC BY 4.0
Sam Greydanus, Stefan Lee, Alan Fern(参考訳) ニューラルネットワークはシーケンシャルデータをモデリングするための一般的なツールだが、一般的には時間の連続変数として扱うことはない。 ニューラルネットワークは、隠れた状態の時間微分をニューラルネットワークでパラメータ化し、任意の時間にわたって統合する。 しかし、任意の曲率を持つこれらのパラメータ化は統合が難しく、したがって訓練と評価が難しい。 本稿では,これらの問題を緩和するために,神経オデムに対する分割定数近似法を提案する。 我々のモデルは、Euler統合によって正確に統合することができ、対応するRNNやODE-RNNモデルよりも3~20倍少ないステップで自己回帰サンプルを生成することができる。 いくつかの合成物理タスクとビリヤードゲームに触発された計画タスクでモデルを評価する。 トレーニングや評価に要する時間を少なくしながら,ベースラインアプローチのパフォーマンスにマッチしていることが分かりました。

Neural networks are a popular tool for modeling sequential data but they generally do not treat time as a continuous variable. Neural ODEs represent an important exception: they parameterize the time derivative of a hidden state with a neural network and then integrate over arbitrary amounts of time. But these parameterizations, which have arbitrary curvature, can be hard to integrate and thus train and evaluate. In this paper, we propose making a piecewise-constant approximation to Neural ODEs to mitigate these issues. Our model can be integrated exactly via Euler integration and can generate autoregressive samples in 3-20 times fewer steps than comparable RNN and ODE-RNN models. We evaluate our model on several synthetic physics tasks and a planning task inspired by the game of billiards. We find that it matches the performance of baseline approaches while requiring less time to train and evaluate.
翻訳日:2021-06-20 02:16:25 公開日:2021-06-11
# (参考訳) 焦点をあてて注意を払う:全スライド画像の分類のための新しい学習方式 [全文訳有]

Pay Attention with Focus: A Novel Learning Scheme for Classification of Whole Slide Images ( http://arxiv.org/abs/2106.06623v1 )

ライセンス: CC BY 4.0
Shivam Kalra, Mohammed Adnan, Sobhan Hemati, Taher Dehkharghanian, Shahryar Rahnamayan, Hamid Tizhoosh(参考訳) 畳み込みニューラルネットワーク(CNN)のような深層学習手法は、画像次元が大きいため、スライド画像全体(WSI)を直接的に利用することは困難である。 この制限を克服するには、新しい2段階アプローチを提案する。 まず、wsiから代表的なパッチ(モザイクと呼ばれる)のセットを抽出する。 モザイクの各パッチは、ディープネットワークを用いて特徴ベクトルに符号化される。 特徴抽出器モデルは、WSIsの階層的ターゲットラベル、すなわち解剖学的部位と一次診断を用いて微調整される。 第2段階では、WSI から符号化されたパッチレベルの一連の特徴を用いて、トレーニング可能な焦点因子によって変調されたモザイクの全てのパッチに対する予測確率の注意重み付き平均化である Pay Attention with Focus scheme を用いて、一次診断確率を計算する。 実験結果から,提案モデルが頑健であり,WSIの分類に有効であることが示唆された。

Deep learning methods such as convolutional neural networks (CNNs) are difficult to directly utilize to analyze whole slide images (WSIs) due to the large image dimensions. We overcome this limitation by proposing a novel two-stage approach. First, we extract a set of representative patches (called mosaic) from a WSI. Each patch of a mosaic is encoded to a feature vector using a deep network. The feature extractor model is fine-tuned using hierarchical target labels of WSIs, i.e., anatomic site and primary diagnosis. In the second stage, a set of encoded patch-level features from a WSI is used to compute the primary diagnosis probability through the proposed Pay Attention with Focus scheme, an attention-weighted averaging of predicted probabilities for all patches of a mosaic modulated by a trainable focal factor. Experimental results show that the proposed model can be robust, and effective for the classification of WSIs.
翻訳日:2021-06-20 02:03:26 公開日:2021-06-11
# (参考訳) 汚職-ロバストオフライン強化学習 [全文訳有]

Corruption-Robust Offline Reinforcement Learning ( http://arxiv.org/abs/2106.06630v1 )

ライセンス: CC BY 4.0
Xuezhou Zhang, Yiding Chen, Jerry Zhu, Wen Sun(参考訳) オフライン強化学習における対向的堅牢性について検討する。 tuples $(s, a, r, s')$からなるバッチデータセットが与えられると、敵はタプルの$\epsilon$ fractionを任意に変更することができる。 破損したデータセットから学習者は、ほぼ最適ポリシーをしっかりと識別することを目指している。 最初に、最悪の場合の$\omega(d\epsilon)$ optimality gap は、たとえ敵がタプル内の報酬要素を損なうだけであっても、次元$d$の線形mdpでは避けられないことを示した。 これは、ロバストな教師付き学習における次元自由な結果と、汚職を伴うオンラインRL設定における最もよく知られている下位バウンドとは対照的である。 次に,完全データカバレッジの有無に関わらずほぼ一致した性能を実現する,ロバストな教師付き学習オラクルを用いた最小二乗値反復(lsvi)アルゴリズムのロバストな変種を提案する。 このアルゴリズムは、非被覆の場合のペシミズムボーナスを設計するために$\epsilon$の知識を必要とする。 驚くべきことに、このケースでは、未知の$\epsilon$に適応することが不可能であることを示すために、$\epsilon$の知識が必要である。

We study the adversarial robustness in offline reinforcement learning. Given a batch dataset consisting of tuples $(s, a, r, s')$, an adversary is allowed to arbitrarily modify $\epsilon$ fraction of the tuples. From the corrupted dataset the learner aims to robustly identify a near-optimal policy. We first show that a worst-case $\Omega(d\epsilon)$ optimality gap is unavoidable in linear MDP of dimension $d$, even if the adversary only corrupts the reward element in a tuple. This contrasts with dimension-free results in robust supervised learning and best-known lower-bound in the online RL setting with corruption. Next, we propose robust variants of the Least-Square Value Iteration (LSVI) algorithm utilizing robust supervised learning oracles, which achieve near-matching performances in cases both with and without full data coverage. The algorithm requires the knowledge of $\epsilon$ to design the pessimism bonus in the no-coverage case. Surprisingly, in this case, the knowledge of $\epsilon$ is necessary, as we show that being adaptive to unknown $\epsilon$ is impossible.This again contrasts with recent results on corruption-robust online RL and implies that robust offline RL is a strictly harder problem.
翻訳日:2021-06-20 01:53:07 公開日:2021-06-11
# 構造形成シミュレーションに応用した分類アルゴリズム

Classification algorithms applied to structure formation simulations ( http://arxiv.org/abs/2106.06587v1 )

ライセンス: Link先を確認
Jazhiel Chac\'on, J. Alberto V\'azquez, Erick Almaraz(参考訳) 宇宙シミュレーションの初期条件に存在する物質密度場の特性は、シミュレーションの実行後に形成された構造の特徴に影響を及ぼす。 この事実に基づき、本論文では、暗黒物質粒子が初期状態に遡るかどうかを推定するために、ランダムフォレスト分類アルゴリズムを用いて、質量がしきい値を超える暗黒物質ハロスに陥る。 この問題は、物質密度場の初期条件がhaloファインダプログラムによって提供される分類ラベルにマッピングされるバイナリ分類タスクとして考えられるかもしれない。 その結果,無作為林は,全プロセスを実行せずに宇宙シミュレーションのアウトプットを予測するための有用なツールであることがわかった。 これらの技術は、計算コストを節約し、宇宙構造の形成に異なるダークマター/ダークエネルギー候補が与える影響をより効率的に探求するために将来使用されるかもしれない。

The properties of the matter density field present in the initial conditions of a cosmological simulation have an impact on the features of the structures formed after running the simulation. Based on this fact, in this paper we use a random-forest classification algorithm to infer whether or not dark matter particles, traced back to the initial conditions, would end up in dark matter halos whose mass is above some threshold. This problem might be posed as a binary classification task, where the initial conditions of the matter density field are mapped to classification labels provided by a halo finder program. Our results show that random forests are useful tools to predict the output of cosmological simulations without running the full process. These techniques might be used in the future to save computational costs and to explore more efficiently the effect of different dark matter/dark energy candidates on the formation of cosmological structures.
翻訳日:2021-06-16 15:00:45 公開日:2021-06-11
# 冷後効果におけるキュレーション, データ拡張, 先行の役割の解明

Disentangling the Roles of Curation, Data-Augmentation and the Prior in the Cold Posterior Effect ( http://arxiv.org/abs/2106.06596v1 )

ライセンス: Link先を確認
Lorenzo Noci, Kevin Roth, Gregor Bachmann, Sebastian Nowozin and Thomas Hofmann(参考訳) ベイズ深層学習におけるcold posterior effect(cpe)は、温度パラメータt<1を用いてベイズ後方を人工的に研削すると、ベイズニューラルネットワークの予測性能が著しく向上する、という不快な観察を記述している。 CPEは理論と実践に問題があり、この効果が同定されたため、多くの研究者がこの現象を説明する仮説を提案している。 しかし、この集中的な研究努力にもかかわらず、効果はよく分かっていない。 本研究は, 冷後効果に関する既存の説明に係わる, 新規かつ曖昧な証拠を提示し, 3つの仮説を議論する。 The dataset curation hypothesis of Aitchison (2020): we showed empirically showed that the CPE not occur in a real curated data set but can be produced in an controlled experiment with various curation strength。 2. Izmailovらによるデータの増大仮説。 (2021年)とFortuin et al。 (2021):CPEが存在するためにはデータ拡張が十分だが必要ではないことを実証的に示す。 3. ウェンツェルとアルの 先天的な仮説です (2020): CPEとCPEを強く結び付ける上で, 先行と可能性の相対的重要性を評価するための簡単な実験を行った。 以上の結果から,CPEは合成キュレーション,データ拡張,不良前駆体から分離される可能性が示唆された。 そのため、「野生で」観察された冷えた後部は、単一の単純な原因から生じる可能性が低いため、冷えた後部に対する単純な「固定」は期待できない。

The "cold posterior effect" (CPE) in Bayesian deep learning describes the uncomforting observation that the predictive performance of Bayesian neural networks can be significantly improved if the Bayes posterior is artificially sharpened using a temperature parameter T<1. The CPE is problematic in theory and practice and since the effect was identified many researchers have proposed hypotheses to explain the phenomenon. However, despite this intensive research effort the effect remains poorly understood. In this work we provide novel and nuanced evidence relevant to existing explanations for the cold posterior effect, disentangling three hypotheses: 1. The dataset curation hypothesis of Aitchison (2020): we show empirically that the CPE does not arise in a real curated data set but can be produced in a controlled experiment with varying curation strength. 2. The data augmentation hypothesis of Izmailov et al. (2021) and Fortuin et al. (2021): we show empirically that data augmentation is sufficient but not necessary for the CPE to be present. 3. The bad prior hypothesis of Wenzel et al. (2020): we use a simple experiment evaluating the relative importance of the prior and the likelihood, strongly linking the CPE to the prior. Our results demonstrate how the CPE can arise in isolation from synthetic curation, data augmentation, and bad priors. Cold posteriors observed "in the wild" are therefore unlikely to arise from a single simple cause; as a result, we do not expect a simple "fix" for cold posteriors.
翻訳日:2021-06-15 16:31:18 公開日:2021-06-11
# 過パラメータテンソル分解におけるデフレ過程の理解

Understanding Deflation Process in Over-parametrized Tensor Decomposition ( http://arxiv.org/abs/2106.06573v1 )

ライセンス: Link先を確認
Rong Ge, Yunwei Ren, Xiang Wang, Mo Zhou(参考訳) 本稿では,過パラメータテンソル分解問題に対する勾配流れのトレーニングダイナミクスについて検討する。 経験的に、そのようなトレーニングプロセスは、しばしばより大きなコンポーネントに適合し、次に、テンソル分解アルゴリズムで一般的に使用されるテンソルデフレレーションプロセスに似た、より小さなコンポーネントを発見する。 直交分解性テンソルの場合、勾配流のわずかに変形したバージョンはテンソルデフレプロセスに従い、すべてのテンソル成分を回復することが証明される。 この証明は、直交テンソルの場合、勾配フローダイナミクスは行列設定における欲欲な低ランク学習と同様に働き、これは低ランクテンソルに対する超パラメータモデルの暗黙的正規化効果を理解するための第一歩であることを示唆している。

In this paper we study the training dynamics for gradient flow on over-parametrized tensor decomposition problems. Empirically, such training process often first fits larger components and then discovers smaller components, which is similar to a tensor deflation process that is commonly used in tensor decomposition algorithms. We prove that for orthogonally decomposable tensor, a slightly modified version of gradient flow would follow a tensor deflation process and recover all the tensor components. Our proof suggests that for orthogonal tensors, gradient flow dynamics works similarly as greedy low-rank learning in the matrix setting, which is a first step towards understanding the implicit regularization effect of over-parametrized models for low-rank tensors.
翻訳日:2021-06-15 16:28:40 公開日:2021-06-11
# Invariance Principles Meets Information Bottleneck for Out-of-Distribution Generalization

Invariance Principle Meets Information Bottleneck for Out-of-Distribution Generalization ( http://arxiv.org/abs/2106.06607v1 )

ライセンス: Link先を確認
Kartik Ahuja, Ethan Caballero, Dinghuai Zhang, Yoshua Bengio, Ioannis Mitliagkas, Irina Rish(参考訳) 因果関係からの不変原理は、アウト・オブ・ディストリビューション(OOD)一般化失敗に対処しようとする不変リスク最小化(IRM)のような注目すべきアプローチの中心である。 有望な理論にもかかわらず、不変原理に基づくアプローチは共通の分類タスクでは失敗し、不変(因果)な特徴がラベルに関する全ての情報をキャプチャする。 これらの失敗は、不変性を捉えない方法のためなのか? あるいは、不変原理自体が不十分なのか? これらの疑問に答えるために、線形回帰タスクの基本的な仮定を再検討し、不変性に基づくアプローチがOODを確実に一般化することを示した。 線形回帰タスクとは対照的に、線形分類タスクには分布シフトに対するより強い制限が必要であり、そうでなければOOD一般化は不可能である。 さらに,分布シフトを適切に制限しても,不変原理だけでは不十分であることを示す。 不変な特徴がラベルに関するすべての情報をキャプチャし、そうでなければ既存の成功を保っている場合、情報ボトルネックの形式が重要な障害に対処するのに役立つことを証明します。 両原理を組み込んだアプローチを提案し,その有効性をいくつかの実験で実証する。

The invariance principle from causality is at the heart of notable approaches such as invariant risk minimization (IRM) that seek to address out-of-distribution (OOD) generalization failures. Despite the promising theory, invariance principle-based approaches fail in common classification tasks, where invariant (causal) features capture all the information about the label. Are these failures due to the methods failing to capture the invariance? Or is the invariance principle itself insufficient? To answer these questions, we revisit the fundamental assumptions in linear regression tasks, where invariance-based approaches were shown to provably generalize OOD. In contrast to the linear regression tasks, we show that for linear classification tasks we need much stronger restrictions on the distribution shifts, or otherwise OOD generalization is impossible. Furthermore, even with appropriate restrictions on distribution shifts in place, we show that the invariance principle alone is insufficient. We prove that a form of the information bottleneck constraint along with invariance helps address key failures when invariant features capture all the information about the label and also retains the existing success when they do not. We propose an approach that incorporates both of these principles and demonstrate its effectiveness in several experiments.
翻訳日:2021-06-15 16:28:27 公開日:2021-06-11
# フーリエ積分定理による統計的解析

Statistical Analysis from the Fourier Integral Theorem ( http://arxiv.org/abs/2106.06608v1 )

ライセンス: Link先を確認
Nhat Ho, Stephen G. Walker(参考訳) 本稿では,フーリエ積分定理を出発点として,多変量分布と条件分布関数の自然モンテカルロと完全非パラメトリック推定器に注目した。 これは、推定された共分散行列や変数間の依存構造を必要としない。 これらの側面は積分定理から直ちに生じる。 条件付き分布関数を用いて多変量データセットをモデル化できるため、マルコフ過程の予測、共変量に依存する混合分布関数の推定、一般的な多変量データなど、多くの問題を研究できる。 エスペクタは明示的なモンテカルロベースであり、再帰的あるいは反復的なアルゴリズムを必要としない。

Taking the Fourier integral theorem as our starting point, in this paper we focus on natural Monte Carlo and fully nonparametric estimators of multivariate distributions and conditional distribution functions. We do this without the need for any estimated covariance matrix or dependence structure between variables. These aspects arise immediately from the integral theorem. Being able to model multivariate data sets using conditional distribution functions we can study a number of problems, such as prediction for Markov processes, estimation of mixing distribution functions which depend on covariates, and general multivariate data. Estimators are explicit Monte Carlo based and require no recursive or iterative algorithms.
翻訳日:2021-06-15 16:19:53 公開日:2021-06-11
# スカラーは普遍的:古典物理学のような構造を持つゲージ同変機械学習

Scalars are universal: Gauge-equivariant machine learning, structured like classical physics ( http://arxiv.org/abs/2106.06610v1 )

ライセンス: Link先を確認
Soledad Villar (JHU), David W.Hogg (Flatiron, NYU), Kate Storey-Fisher (NYU), Weichi Yao (NYU), Ben Blum-Smith (NYU)(参考訳) 過去数年間、物理法則のゲージ対称性(または座標自由度)を尊重する(必ずしも実用的ではない)ニューラルネットワークの設計において、大きな進歩があった。 これらのフレームワークのいくつかは既約表現を使い、一部は高階テンソルオブジェクトを使い、一部は対称性強化制約を適用する。 異なる物理法則は基本対称性の異なる組み合わせに従うが、古典物理学の大きな部分(おそらく全て)は、変換、回転、反射(パリティ)、ブースト(相対性理論)、置換に同変である。 ここでは、これらの対称性の下で、あるいはユークリッド群、ローレンツ群、ポインカル群の下で、任意の次元$d$で、普遍的に近似する多項式函数をパラメータ化することが単純であることを示す。 鍵となる観察は、非線形 o($d$)-同変(および関連する群同変)関数は、スカラーの軽量コレクション(スカラー積とスカラー、ベクトル、テンソル入力のスカラー収縮)で表現できるということである。 これらの結果は、古典物理学におけるゲージ不変なディープラーニングモデルが、大きな問題のスケーリングが現在実現可能であることを理論的に示している。

There has been enormous progress in the last few years in designing conceivable (though not always practical) neural networks that respect the gauge symmetries -- or coordinate freedom -- of physical law. Some of these frameworks make use of irreducible representations, some make use of higher order tensor objects, and some apply symmetry-enforcing constraints. Different physical laws obey different combinations of fundamental symmetries, but a large fraction (possibly all) of classical physics is equivariant to translation, rotation, reflection (parity), boost (relativity), and permutations. Here we show that it is simple to parameterize universally approximating polynomial functions that are equivariant under these symmetries, or under the Euclidean, Lorentz, and Poincar\'e groups, at any dimensionality $d$. The key observation is that nonlinear O($d$)-equivariant (and related-group-equiva riant) functions can be expressed in terms of a lightweight collection of scalars -- scalar products and scalar contractions of the scalar, vector, and tensor inputs. These results demonstrate theoretically that gauge-invariant deep learning models for classical physics with good scaling for large problems are feasible right now.
翻訳日:2021-06-15 16:19:43 公開日:2021-06-11
# gans n' roses: 安定し、制御可能で、多様な画像から画像への翻訳(ビデオにも使える!

GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation (works for videos too!) ( http://arxiv.org/abs/2106.06561v1 )

ライセンス: Link先を確認
Min Jin Chong, David Forsyth(参考訳) 顔画像から抽出したコンテンツコードと、ランダムに選択されたスタイルコードからアニメ画像へ、マップを学習する方法を示す。 私たちは、スタイルとコンテンツの単純で効果的な定義から敵対的損失を導き出します。 この敵対的損失は、マップが多様であることを保証する -- 単一のコンテンツコードから非常に広い範囲のアニメを作成できる。 妥当な仮定の下では、マップは単に多様であるだけでなく、入力面上で条件付けられたアニメの確率を正しく表現している。 対照的に、現在のマルチモーダル生成手順はアニメに現れる複雑なスタイルを捉えることはできない。 広範な定量的実験は、地図が正しいという考えを支持する。 大規模な定性的な結果から,SOTA比較よりも多種多様なスタイルを生成できることが示唆された。 最後に、コンテンツとスタイルの形式化によって、ビデオのトレーニングをすることなくビデオ翻訳を実行できることを示す。

We show how to learn a map that takes a content code, derived from a face image, and a randomly chosen style code to an anime image. We derive an adversarial loss from our simple and effective definitions of style and content. This adversarial loss guarantees the map is diverse -- a very wide range of anime can be produced from a single content code. Under plausible assumptions, the map is not just diverse, but also correctly represents the probability of an anime, conditioned on an input face. In contrast, current multimodal generation procedures cannot capture the complex styles that appear in anime. Extensive quantitative experiments support the idea the map is correct. Extensive qualitative results show that the method can generate a much more diverse range of styles than SOTA comparisons. Finally, we show that our formalization of content and style allows us to perform video to video translation without ever training on videos.
翻訳日:2021-06-15 16:17:57 公開日:2021-06-11
# スパイクニューラルネットワークによるフェデレーション学習

Federated Learning with Spiking Neural Networks ( http://arxiv.org/abs/2106.06579v1 )

ライセンス: Link先を確認
Yeshwanth Venkatesha, Youngeun Kim, Leandros Tassiulas, Priyadarshini Panda(参考訳) ニューラルネットワークがリソース制約された組み込みデバイスに広く採用されるにつれ、低消費電力のニューラルネットワークの必要性が高まっている。 スパイキングニューラルネットワーク(SNN)は、計算集約性で知られる従来のニューラルネットワーク(ANN)の代替として、エネルギー効率の高いものになりつつある。 アプリケーションの観点からは、連合学習には複数のエネルギー制約のあるデバイスが含まれるため、SNNが提供するエネルギー効率を活用するための大きなスコープがある。 その重要性にもかかわらず、連合学習のような大規模分散システムでのSNNのトレーニングにはほとんど注意が払われていない。 本稿では,より現実的なフェデレーション学習シナリオにSNNを導入する。 具体的には,snsの分散およびプライバシ保全トレーニングのための連合学習フレームワークを提案する。 CIFAR10 と CIFAR100 ベンチマークを用いて,連合学習の様々な側面における SNN の利点を実験的に評価した。 我々は、SNNが最大5.3倍のエネルギー効率を提供しながら、フェデレーション内の多数のクライアントに分散された場合、ANNの全体的な精度を15%以上上回っていることを観察した。 また, 効率性に加えて, クライアント, ストラグラー, 勾配雑音間のデータ分散に対するフェデレーションSNNフレームワークの感度を解析し, ANNとの総合的な比較を行う。

As neural networks get widespread adoption in resource-constrained embedded devices, there is a growing need for low-power neural systems. Spiking Neural Networks (SNNs)are emerging to be an energy-efficient alternative to the traditional Artificial Neural Networks (ANNs) which are known to be computationally intensive. From an application perspective, as federated learning involves multiple energy-constrained devices, there is a huge scope to leverage energy efficiency provided by SNNs. Despite its importance, there has been little attention on training SNNs on a large-scale distributed system like federated learning. In this paper, we bring SNNs to a more realistic federated learning scenario. Specifically, we propose a federated learning framework for decentralized and privacy-preserving training of SNNs. To validate the proposed federated learning framework, we experimentally evaluate the advantages of SNNs on various aspects of federated learning with CIFAR10 and CIFAR100 benchmarks. We observe that SNNs outperform ANNs in terms of overall accuracy by over 15% when the data is distributed across a large number of clients in the federation while providing up to5.3x energy efficiency. In addition to efficiency, we also analyze the sensitivity of the proposed federated SNN framework to data distribution among the clients, stragglers, and gradient noise and perform a comprehensive comparison with ANNs.
翻訳日:2021-06-15 16:17:43 公開日:2021-06-11
# ディテールに着目した正確でリアルな衣装の可視化に向けて

Toward Accurate and Realistic Outfits Visualization with Attention to Details ( http://arxiv.org/abs/2106.06593v1 )

ライセンス: Link先を確認
Kedan Li, Min jin Chong, Jeffrey Zhang, Jingen Liu(参考訳) 仮想試着法は,任意の組み合わせの衣服を身に着けたファッションモデルの画像を生成することを目的としている。 これは、生成した画像が現実的かつ正確に衣服間の相互作用を表示する必要があるため、難しい作業である。 以前の作品は、アーティファクトで満たされたイメージを生成し、商用アプリケーションに必要な重要な視覚的詳細をキャプチャできない。 我々はこれらの重要な詳細(例えば、OVNet)を捉えるためにOutfit Visualization Net(OVNet)を提案する。 ボタン、シェーディング、テクスチャ、リアルなヘムライン、衣服間のインタラクション)、高品質なマルチガーメントバーチャル試着画像を生成する。 OVNetは,1)意味的レイアウト生成器と2)複数の協調ワープを用いた画像生成パイプラインから構成される。 我々は、複数のワープをカスケード損失を用いて出力するように訓練し、各ワープを精錬し、前のワープの貧弱な領域に集中させ、一貫性のある改善をもたらす。 さらに,最も適したモデルと衣装をマッチングする方法を導入し,これまでの試着法と他の試着法の両方に対して大幅な改善を行う。 定量的・定性的な分析により,多食衣装の先行作品と比較して,より高品質なスタジオイメージを生成できることを実証した。 この方法で動くインタラクティブインターフェースは、ファッションeコマースウェブサイトにデプロイされ、圧倒的にポジティブなフィードバックを受けています。

Virtual try-on methods aim to generate images of fashion models wearing arbitrary combinations of garments. This is a challenging task because the generated image must appear realistic and accurately display the interaction between garments. Prior works produce images that are filled with artifacts and fail to capture important visual details necessary for commercial applications. We propose Outfit Visualization Net (OVNet) to capture these important details (e.g. buttons, shading, textures, realistic hemlines, and interactions between garments) and produce high quality multiple-garment virtual try-on images. OVNet consists of 1) a semantic layout generator and 2) an image generation pipeline using multiple coordinated warps. We train the warper to output multiple warps using a cascade loss, which refines each successive warp to focus on poorly generated regions of a previous warp and yields consistent improvements in detail. In addition, we introduce a method for matching outfits with the most suitable model and produce significant improvements for both our and other previous try-on methods. Through quantitative and qualitative analysis, we demonstrate our method generates substantially higher-quality studio images compared to prior works for multi-garment outfits. An interactive interface powered by this method has been deployed on fashion e-commerce websites and received overwhelmingly positive feedback.
翻訳日:2021-06-15 16:17:24 公開日:2021-06-11
# プログラム合成によるサンプル効率言語一般化:音韻問題を用いた実験

Sample-efficient Linguistic Generalizations through Program Synthesis: Experiments with Phonology Problems ( http://arxiv.org/abs/2106.06566v1 )

ライセンス: Link先を確認
Saujas Vaduguru, Aalok Sathe, Monojit Choudhury, Dipti Misra Sharma(参考訳) ニューラルネットワークは、大量のデータから統計的パターンを抽出するのに優れていますが、少数の例からパターンや言語に関する推論を学ぶのに苦労しています。 この論文では、いくつかの例からうまく一般化した明示的なルールを学べるか? 我々はこの質問をプログラム合成を用いて検討する。 ドメイン固有言語のプログラムとして音韻規則を学習する合成モデルを開発した。 我々は,言語学的推論能力を必要とする課題セットであるOlympiadの新たな問題データセットを用いて,少数の学習例からモデルを一般化する能力をテストする。 提案手法は,高サンプリング効率に加えて,人間の読みやすいプログラムを生成し,学習プログラムの汎用性を制御する。

Neural models excel at extracting statistical patterns from large amounts of data, but struggle to learn patterns or reason about language from only a few examples. In this paper, we ask: Can we learn explicit rules that generalize well from only a few examples? We explore this question using program synthesis. We develop a synthesis model to learn phonology rules as programs in a domain-specific language. We test the ability of our models to generalize from few training examples using our new dataset of problems from the Linguistics Olympiad, a challenging set of tasks that require strong linguistic reasoning ability. In addition to being highly sample-efficient, our approach generates human-readable programs, and allows control over the generalizability of the learnt programs.
翻訳日:2021-06-15 16:15:06 公開日:2021-06-11
# 同期ストリーミングASRによる音声とテキストの同時翻訳

Direct Simultaneous Speech-to-Text Translation Assisted by Synchronized Streaming ASR ( http://arxiv.org/abs/2106.06636v1 )

ライセンス: Link先を確認
Junkun Chen, Mingbo Ma, Renjie Zheng, Liang Huang(参考訳) 音声からテキストへの同時翻訳は多くのシナリオで広く有用である。 従来のカスケードアプローチではストリーミングasrのパイプラインとmtを同時に使用するが、エラーの伝播や遅延の増大に苦しむ。 これらの問題を緩和するために、近年の取り組みは、ソース音声を直接ターゲットテキストに翻訳する試みであるが、2つの異なるタスクの組み合わせにより、これははるかに困難である。 代わりに、カスケードアプローチとエンドツーエンドアプローチの両方の利点を持つ新しいパラダイムを提案する。 鍵となるアイデアは、ストリーミングASRと直接音声テキスト変換(ST)における2つの分離された同期化デコーダを使用することであり、ASRの中間結果は、STの復号ポリシーを案内する(ただし入力として提供されない)。 MuSTCデータセット上でのEn-to-DeおよびEn-to-Es実験により,提案手法が同等のレイテンシで翻訳品質を著しく向上することを示す。

Simultaneous speech-to-text translation is widely useful in many scenarios. The conventional cascaded approach uses a pipeline of streaming ASR followed by simultaneous MT, but suffers from error propagation and extra latency. To alleviate these issues, recent efforts attempt to directly translate the source speech into target text simultaneously, but this is much harder due to the combination of two separate tasks. We instead propose a new paradigm with the advantages of both cascaded and end-to-end approaches. The key idea is to use two separate, but synchronized, decoders on streaming ASR and direct speech-to-text translation (ST), respectively, and the intermediate results of ASR guide the decoding policy of (but is not fed as input to) ST. During training time, we use multitask learning to jointly learn these two tasks with a shared encoder. En-to-De and En-to-Es experiments on the MuSTC dataset demonstrate that our proposed technique achieves substantially better translation quality at similar levels of latency.
翻訳日:2021-06-15 16:14:53 公開日:2021-06-11
# HR-NAS:軽量トランスを用いた高分解能ニューラルネットワークの探索

HR-NAS: Searching Efficient High-Resolution Neural Architectures with Lightweight Transformers ( http://arxiv.org/abs/2106.06560v1 )

ライセンス: Link先を確認
Mingyu Ding, Xiaochen Lian, Linjie Yang, Peng Wang, Xiaojie Jin, Zhiwu Lu, Ping Luo(参考訳) 高分解能表現(HR)は、セグメンテーション、検出、ポーズ推定といった密集した予測タスクに不可欠である。 hr表現の学習は通常、画像分類に焦点を当てた以前のneural architecture search(nas)メソッドでは無視される。 本研究では,高分解能表現を維持しつつ,マルチスケールの文脈情報を効果的に符号化することにより,タスクごとに効率よく正確なネットワークを見つけることができる新しいNAS手法HR-NASを提案する。 HR-NASでは,NAS検索空間と検索戦略を改良する。 hr-nasの探索空間における多スケール画像コンテキストをよりよくエンコードするために、まず、異なる目的関数と計算予算に関して計算の複雑さを動的に変更できる軽量トランスを慎重に設計する。 学習ネットワークの高解像度表現を維持するため、HR-NASはHRNetにインスパイアされた複数の特徴解像度の畳み込み符号化を提供するマルチブランチアーキテクチャを採用している。 最後に、探索空間を効果的に探索するHR-NASを訓練するための効率的なきめ細かい探索戦略を提案し、様々なタスクや計算資源を与えられた最適なアーキテクチャを見出した。 hr-nasは、3つの密集した予測タスクと画像分類タスクでパフォーマンスとフラップの最先端のトレードオフを達成することができる。 例えば、HR-NASはセマンティックセグメンテーションのために特別に設計されたSqueezeNASを超え、効率は45.9%向上した。 コードはhttps://github.com/d ingmyu/HR-NASで入手できる。

High-resolution representations (HR) are essential for dense prediction tasks such as segmentation, detection, and pose estimation. Learning HR representations is typically ignored in previous Neural Architecture Search (NAS) methods that focus on image classification. This work proposes a novel NAS method, called HR-NAS, which is able to find efficient and accurate networks for different tasks, by effectively encoding multiscale contextual information while maintaining high-resolution representations. In HR-NAS, we renovate the NAS search space as well as its searching strategy. To better encode multiscale image contexts in the search space of HR-NAS, we first carefully design a lightweight transformer, whose computational complexity can be dynamically changed with respect to different objective functions and computation budgets. To maintain high-resolution representations of the learned networks, HR-NAS adopts a multi-branch architecture that provides convolutional encoding of multiple feature resolutions, inspired by HRNet. Last, we proposed an efficient fine-grained search strategy to train HR-NAS, which effectively explores the search space, and finds optimal architectures given various tasks and computation resources. HR-NAS is capable of achieving state-of-the-art trade-offs between performance and FLOPs for three dense prediction tasks and an image classification task, given only small computational budgets. For example, HR-NAS surpasses SqueezeNAS that is specially designed for semantic segmentation while improving efficiency by 45.9%. Code is available at https://github.com/d ingmyu/HR-NAS
翻訳日:2021-06-15 16:07:18 公開日:2021-06-11
# 偽装検出と遠隔生理モニタリング:データセットと基礎実験結果

Deception Detection and Remote Physiological Monitoring: A Dataset and Baseline Experimental Results ( http://arxiv.org/abs/2106.06583v1 )

ライセンス: Link先を確認
Jeremy Speth, Nathan Vance, Adam Czajka, Kevin W. Bowyer, Diane Wright, Patrick Flynn(参考訳) 本稿では,ddpm(deception detection and physiological monitoring)データセットと,その最初のベースライン結果について述べる。 私たちのアプリケーションコンテキストは、面接者が選択した回答について面接者をだまそうとするインタビューシナリオです。 インタビュアーはrgb、近赤外、長波赤外線、心臓パルス、血液酸素化、音声で記録される。 収集後、データはインタビュアー/インタービューに注釈付けされ、キュレートされ、接地され、一連の正準の偽装検出実験のための列車/試験部品に編成された。 ベースライン実験では、偽りの指標としてマイクロ表現のランダムな精度を見出したが、サッケードは統計的に有意な反応を与える可能性がある。 また、平均絶対誤差が3.16bpmと低い顔ビデオ(リモート)から被写体心拍数を推定した。 データベースには70人の被験者の約13時間の録音と800万以上の可視光、近赤外線、熱ビデオフレームと適切なメタ、オーディオ、パルスオキシメータデータが含まれている。 私たちの知る限りでは、このコレクションは5つのモダリティの録音を提供する唯一のコレクションであり、デセプション検出とリモートフォトプレチモグラフィ研究の両方で使用できる。

We present the Deception Detection and Physiological Monitoring (DDPM) dataset and initial baseline results on this dataset. Our application context is an interview scenario in which the interviewee attempts to deceive the interviewer on selected responses. The interviewee is recorded in RGB, near-infrared, and long-wave infrared, along with cardiac pulse, blood oxygenation, and audio. After collection, data were annotated for interviewer/intervie wee, curated, ground-truthed, and organized into train / test parts for a set of canonical deception detection experiments. Baseline experiments found random accuracy for micro-expressions as an indicator of deception, but that saccades can give a statistically significant response. We also estimated subject heart rates from face videos (remotely) with a mean absolute error as low as 3.16 bpm. The database contains almost 13 hours of recordings of 70 subjects, and over 8 million visible-light, near-infrared, and thermal video frames, along with appropriate meta, audio and pulse oximeter data. To our knowledge, this is the only collection offering recordings of five modalities in an interview scenario that can be used in both deception detection and remote photoplethysmography research.
翻訳日:2021-06-15 16:06:53 公開日:2021-06-11
# 神経回路のリフレッシュを応用した植物性ナティヴァ・チリナの細胞機能解析

Dise\~no y desarrollo de aplicaci\'on m\'ovil para la clasificaci\'on de flora nativa chilena utilizando redes neuronales convolucionales ( http://arxiv.org/abs/2106.06592v1 )

ライセンス: Link先を確認
Ignacio Mu\~noz, Alfredo Bolt(参考訳) 紹介: モバイルアプリは、人工視覚を通じて、リアルタイムで植物種を認識することができる。 しかし、既存の種認識アプリは、様々な固有種や固有種(チリ)を考慮に入れておらず、誤った種予測につながっている。 本研究では,モバイルアプリに最適化された分類モデルとキリアン種データセットの開発を紹介する。 方法:データセットは、フィールドで捕獲されたいくつかの種の写真をまとめ、オンラインで利用可能な他のデータセットから利用可能な画像を選択することで構築された。 画像予測モデルを開発するために畳み込みニューラルネットワークが用いられた。 ネットワークは、感度分析を行い、k-foldクロス検証を行い、異なるハイパーパラメータ、オプティマイザ、畳み込み層、学習率でテストを行い、最良のモデルを識別し、選択し、それらを1つの分類モデルにまとめる。 結果: 最終データセットは,チリの固有種,固有種,外来種を含む46種に複合され,6120枚のトレーニング写真と655枚のテスト写真が得られた。 最良のモデルはモバイルアプリ上で実装され、テストセットに対して95%正確な予測率を得た。 結論: 本研究で開発されたアプリは, 人工視覚の技法の状況に応じて, 高い精度で種を分類することができるとともに, 分類された種に関する関連情報も表示できる。

Introduction: Mobile apps, through artificial vision, are capable of recognizing vegetable species in real time. However, the existing species recognition apps do not take in consideration the wide variety of endemic and native (Chilean) species, which leads to wrong species predictions. This study introduces the development of a chilean species dataset and an optimized classification model implemented to a mobile app. Method: the data set was built by putting together pictures of several species captured on the field and by selecting some pictures available from other datasets available online. Convolutional neural networks were used in order to develop the images prediction models. The networks were trained by performing a sensitivity analysis, validating with k-fold cross validation and performing tests with different hyper-parameters, optimizers, convolutional layers, and learning rates in order to identify and choose the best models and then put them together in one classification model. Results: The final data set was compounded by 46 species, including native species, endemic and exotic from Chile, with 6120 training pictures and 655 testing pictures. The best models were implemented on a mobile app, obtaining a 95% correct prediction rate with respect to the set of tests. Conclusion: The app developed in this study is capable of classifying species with a high level of accuracy, depending on the state of the art of the artificial vision and it can also show relevant information related to the classified species.
翻訳日:2021-06-15 16:06:31 公開日:2021-06-11
# Mirror3D:鏡面の深部微細化

Mirror3D: Depth Refinement for Mirror Surfaces ( http://arxiv.org/abs/2106.06629v1 )

ライセンス: Link先を確認
Jiaqi Tan, Weijie Lin, Angel X. Chang, Manolis Savva(参考訳) 近年の深度センシングと3次元再構成の進歩にもかかわらず、鏡面は重大な誤りの原因となっている。 この問題を解決するために、mirror3dデータセットを作成する。3つのrgbdデータセット(matterport3d、nyuv2、scannet)に基づく3dミラープレーンデータセットで、7,011ミラーインスタンスマスクと3dプレーンを含む。 次に、ミラー表面の誤差を補正するために、生のセンサー深度や推定深度を洗練するモジュールであるMirror3DNetを開発する。 我々のキーとなる考え方は、RGB入力と周囲の深度コンテキストに基づいて3次元ミラー平面を推定し、この推定を用いて鏡面の深度を直接回帰させることである。 実験の結果,Mirror3DNetは生のセンサ深度や深度推定や完了方法など,様々な入力深度データからの誤差を著しく軽減することがわかった。

Despite recent progress in depth sensing and 3D reconstruction, mirror surfaces are a significant source of errors. To address this problem, we create the Mirror3D dataset: a 3D mirror plane dataset based on three RGBD datasets (Matterport3D, NYUv2 and ScanNet) containing 7,011 mirror instance masks and 3D planes. We then develop Mirror3DNet: a module that refines raw sensor depth or estimated depth to correct errors on mirror surfaces. Our key idea is to estimate the 3D mirror plane based on RGB input and surrounding depth context, and use this estimate to directly regress mirror surface depth. Our experiments show that Mirror3DNet significantly mitigates errors from a variety of input depth data, including raw sensor depth and depth estimation or completion methods.
翻訳日:2021-06-15 16:06:09 公開日:2021-06-11
# car-net:共同登録と構造学習のための教師なし共同登録ネットワーク

CAR-Net: Unsupervised Co-Attention Guided Registration Network for Joint Registration and Structure Learning ( http://arxiv.org/abs/2106.06637v1 )

ライセンス: Link先を確認
Xiang Chen, Yan Xia, Nishant Ravikumar, Alejandro F Frangi(参考訳) 画像登録は、医療画像解析における様々な用途の基本的なビルディングブロックである。 固定画像と移動画像の相関関係をよりよく探求し、登録性能を向上させるために、新しい深層学習ネットワークCAR-Net(Co-Attention Guided Registration Network)を提案する。 CAR-Netはコアテンションブロックを用いて入力の新しい表現を学習し、固定画像と移動画像の登録を駆動する。 英国バイオバンクの心臓磁気共鳴画像データを用いた実験では、CAR-Netは最先端の非教師なし登録法よりも高い登録精度と滑らかな変形場を得る一方で、対応する弱教師付き変種よりも同等または優れた登録性能を達成する。 さらに,本手法は,入力固定画像と移動画像の致命的な構造情報を,完全に教師なしで同時に提供することができる。

Image registration is a fundamental building block for various applications in medical image analysis. To better explore the correlation between the fixed and moving images and improve registration performance, we propose a novel deep learning network, Co-Attention guided Registration Network (CAR-Net). CAR-Net employs a co-attention block to learn a new representation of the inputs, which drives the registration of the fixed and moving images. Experiments on UK Biobank cardiac cine-magnetic resonance image data demonstrate that CAR-Net obtains higher registration accuracy and smoother deformation fields than state-of-the-art unsupervised registration methods, while achieving comparable or better registration performance than corresponding weakly-supervised variants. In addition, our approach can provide critical structural information of the input fixed and moving images simultaneously in a completely unsupervised manner.
翻訳日:2021-06-15 16:05:52 公開日:2021-06-11
# 音声感情分析における事前学習言語モデルの利用

Leveraging Pre-trained Language Model for Speech Sentiment Analysis ( http://arxiv.org/abs/2106.06598v1 )

ライセンス: Link先を確認
Suwon Shon, Pablo Brusco, Jing Pan, Kyu J. Han, Shinji Watanabe(参考訳) 本稿では、事前学習した言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。 まず、自動音声認識(ASR)と書き起こしに基づく感情分析を別々に用いた2段階パイプラインアプローチにおいて、事前学習された言語モデルがいかに有用かを検討する。 第二に,エンド・ツー・エンドの音声感情モデルに基づく言語モデルを用いた擬似ラベル型半教師付き学習戦略を提案する。 話し言葉と書き言葉は異なる言語的特徴を持つが、感情を理解することで相互補完することができる。 そこで,提案するシステムは,音声信号に感情特有の情報を保持するために音響特性をモデル化するだけでなく,テキスト表現に感情を伝達するために潜在情報を学習することができる。 本実験では,言語モデルを持たないシステムと比較して,F1スコアを一貫して改善する手法を提案する。 また,人間の感情アノテーションを使わずに大量のデータを活用し,人間の感情アノテーションが不十分な低リソース環境での性能を高めることにより,人間の監督の65%を削減できることを示す。

In this paper, we explore the use of pre-trained language models to learn sentiment information of written texts for speech sentiment analysis. First, we investigate how useful a pre-trained language model would be in a 2-step pipeline approach employing Automatic Speech Recognition (ASR) and transcripts-based sentiment analysis separately. Second, we propose a pseudo label-based semi-supervised training strategy using a language model on an end-to-end speech sentiment approach to take advantage of a large, but unlabeled speech dataset for training. Although spoken and written texts have different linguistic characteristics, they can complement each other in understanding sentiment. Therefore, the proposed system can not only model acoustic characteristics to bear sentiment-specific information in speech signals, but learn latent information to carry sentiments in the text representation. In these experiments, we demonstrate the proposed approaches improve F1 scores consistently compared to systems without a language model. Moreover, we also show that the proposed framework can reduce 65% of human supervision by leveraging a large amount of data without human sentiment annotation and boost performance in a low-resource condition where the human sentiment annotation is not available enough.
翻訳日:2021-06-15 15:54:53 公開日:2021-06-11
# 重畳畳み込みと学生再ランキングネットワークを用いたロバスト知識グラフ補完

Robust Knowledge Graph Completion with Stacked Convolutions and a Student Re-Ranking Network ( http://arxiv.org/abs/2106.06555v1 )

ライセンス: Link先を確認
Justin Lovelace, Denis Newman-Griffis, Shikhar Vashishth, Jill Fain Lehman, Carolyn Penstein Ros\'e(参考訳) 知識グラフ(KG)補完研究は通常、実際のKGを代表していない密結合したベンチマークデータセットに焦点を当てる。 バイオメディカルおよび百科事典の知識を含む2つのKGデータセットをキュレートし、既存のCommonsense KGデータセットを使用して、密接な接続が保証されないより現実的な環境でKG完了を探索する。 我々は,テキスト表現を利用した深い畳み込みネットワークを開発し,本モデルが近年のkg補完手法を上回っていることを示す。 モデルの性能改善は主に、堅牢性から疎性に起因している。 次に、畳み込みネットワークからの知識を、有望な候補エンティティを再ランク付けする学生ネットワークに絞り込む。 この再ランクステージはパフォーマンスをさらに向上させ、KG完了のためのエンティティ再ランクの有効性を示す。

Knowledge Graph (KG) completion research usually focuses on densely connected benchmark datasets that are not representative of real KGs. We curate two KG datasets that include biomedical and encyclopedic knowledge and use an existing commonsense KG dataset to explore KG completion in the more realistic setting where dense connectivity is not guaranteed. We develop a deep convolutional network that utilizes textual entity representations and demonstrate that our model outperforms recent KG completion methods in this challenging setting. We find that our model's performance improvements stem primarily from its robustness to sparsity. We then distill the knowledge from the convolutional network into a student network that re-ranks promising candidate entities. This re-ranking stage leads to further improvements in performance and demonstrates the effectiveness of entity re-ranking for KG completion.
翻訳日:2021-06-15 15:54:00 公開日:2021-06-11
# Auto-NBA: ネットワーク、ビット幅、加速器の結合空間を効率よく効果的に検索する

Auto-NBA: Efficient and Effective Search Over the Joint Space of Networks, Bitwidths, and Accelerators ( http://arxiv.org/abs/2106.06575v1 )

ライセンス: Link先を確認
Yonggan Fu, Yongan Zhang, Yang Zhang, David Cox, Yingyan Lin(参考訳) ディープニューラルネットワーク(DNN)の加速効率を最大化するためには、ネットワーク、ビット幅、加速器を含む3つの異なる高度に結合した側面の合同サーチ/設計が必要であるが、そのような共同サーチに関する課題はまだ十分に理解されておらず、対処されていない。 The key challenges include (1) the dilemma of whether to explode the memory consumption due to the huge joint space or achieve sub-optimal designs, (2) the discrete nature of the accelerator design space that is coupled yet different from that of the networks and bitwidths, and (3) the chicken and egg problem associated with network-accelerator co-search, i.e., co-search requires operation-wise hardware cost, which is lacking during search as the optimal accelerator depending on the whole network is still unknown during search. DNN加速器の最適かつ迅速な開発に向けたこれらの難題に対処するために、ターゲットデータセットとアクセラレーション仕様の巨大な共同設計空間内で最適な設計を効率よくローカライズし、ネットワーク、ビット幅、加速器を共同で検索できるAuto-NBAというフレームワークを提案する。 我々のAuto-NBAは、メモリ消費を一定に抑えた非バイアス探索を実現するための異種サンプリング戦略と、一般化可能なアクセルサーチエンジンを備えた新しい共同探索パイプラインを統合した。 大規模な実験とアブレーション研究により、Auto-NBAが生成したネットワークとアクセラレータは、探索時間、タスク精度、アクセル効率の点で、最先端の設計(共同調査/探索技術、ハードウェア対応NASメソッド、DNNアクセラレータなど)を一貫して上回っていることが検証された。 私たちのコードは、https://github.com/R ICE-EIC/Auto-NBA.com で利用可能です。

While maximizing deep neural networks' (DNNs') acceleration efficiency requires a joint search/design of three different yet highly coupled aspects, including the networks, bitwidths, and accelerators, the challenges associated with such a joint search have not yet been fully understood and addressed. The key challenges include (1) the dilemma of whether to explode the memory consumption due to the huge joint space or achieve sub-optimal designs, (2) the discrete nature of the accelerator design space that is coupled yet different from that of the networks and bitwidths, and (3) the chicken and egg problem associated with network-accelerator co-search, i.e., co-search requires operation-wise hardware cost, which is lacking during search as the optimal accelerator depending on the whole network is still unknown during search. To tackle these daunting challenges towards optimal and fast development of DNN accelerators, we propose a framework dubbed Auto-NBA to enable jointly searching for the Networks, Bitwidths, and Accelerators, by efficiently localizing the optimal design within the huge joint design space for each target dataset and acceleration specification. Our Auto-NBA integrates a heterogeneous sampling strategy to achieve unbiased search with constant memory consumption, and a novel joint-search pipeline equipped with a generic differentiable accelerator search engine. Extensive experiments and ablation studies validate that both Auto-NBA generated networks and accelerators consistently outperform state-of-the-art designs (including co-search/exploratio n techniques, hardware-aware NAS methods, and DNN accelerators), in terms of search time, task accuracy, and accelerator efficiency. Our codes are available at: https://github.com/R ICE-EIC/Auto-NBA.
翻訳日:2021-06-15 15:53:48 公開日:2021-06-11
# A3C-S:効率的な深層強化学習に向けたエージェントアクセラレータの共同探索

A3C-S: Automated Agent Accelerator Co-Search towards Efficient Deep Reinforcement Learning ( http://arxiv.org/abs/2106.06577v1 )

ライセンス: Link先を確認
Yonggan Fu, Yongan Zhang, Chaojian Li, Zhongzhi Yu, Yingyan Lin(参考訳) 深層強化学習(drl)エージェントを多数のリアルタイム制御や意思決定アプリケーションに適用することに対する爆発的な関心から、drlエージェントを日々のインテリジェントなデバイスを強化するために展開する需要が高まっている一方で、drlの複雑さは限られたオンデバイスリソースと相反する。 本研究では,テストスコアとハードウェア効率の両方を最大化する最適なdrlエージェントとアクセラレーションを自動的に探索する最善の知識に対して,a3c-s(automated agent accelerator co-search)フレームワークを提案する。 広範な実験は、最先端の技術よりもa3c-sの方が優れていることを一貫して検証します。

Driven by the explosive interest in applying deep reinforcement learning (DRL) agents to numerous real-time control and decision-making applications, there has been a growing demand to deploy DRL agents to empower daily-life intelligent devices, while the prohibitive complexity of DRL stands at odds with limited on-device resources. In this work, we propose an Automated Agent Accelerator Co-Search (A3C-S) framework, which to our best knowledge is the first to automatically co-search the optimally matched DRL agents and accelerators that maximize both test scores and hardware efficiency. Extensive experiments consistently validate the superiority of our A3C-S over state-of-the-art techniques.
翻訳日:2021-06-15 15:53:18 公開日:2021-06-11
# 局所微分プライバシーのためのシャッフルフレームワーク

A Shuffling Framework for Local Differential Privacy ( http://arxiv.org/abs/2106.06603v1 )

ライセンス: Link先を確認
Casey Meehan, Amrita Roy Chowdhury, Kamalika Chaudhuri, Somesh Jha(参考訳) ldpデプロイメントは、敵がノイズ応答をアイデンティティにリンクできるため、推論攻撃に対して脆弱であり、その後、データの順序を使って補助情報を取得する。 別のモデルであるshuffle dpでは、ノイズの応答をランダムにシャッフルすることでこれを防止している。 しかし、これはデータ学習可能性を制限する -- 対称関数(入力順序非依存)だけが学習できる。 本稿では,2つのデプロイモデル間を補間する汎用的なシャッフルフレームワークを提案する。 ノイズ応答の体系的なシャッフルは,有意義なデータ学習性を維持しつつ,特定の推論攻撃を阻止できることを示す。 この目的のために,データシーケンスの順序のプライバシをキャプチャする,新たなプライバシ保証であるd-sigma privacyを提案する。 d-シグマプライバシは、順序情報が維持される粒度を調整することを可能にし、推論攻撃に対する抵抗度をデータ学習可能性と引き換えに定式化する。 さらに,d-シグマプライバシを実現する新たなシャッフル機構を提案し,実世界のデータセットの評価を通じて,そのメカニズムの実用性を示す。

ldp deployments are vulnerable to inference attacks as an adversary can link the noisy responses to their identity and subsequently, auxiliary information using the order of the data. An alternative model, shuffle DP, prevents this by shuffling the noisy responses uniformly at random. However, this limits the data learnability -- only symmetric functions (input order agnostic) can be learned. In this paper, we strike a balance and propose a generalized shuffling framework that interpolates between the two deployment models. We show that systematic shuffling of the noisy responses can thwart specific inference attacks while retaining some meaningful data learnability. To this end, we propose a novel privacy guarantee, d-sigma privacy, that captures the privacy of the order of a data sequence. d-sigma privacy allows tuning the granularity at which the ordinal information is maintained, which formalizes the degree the resistance to inference attacks trading it off with data learnability. Additionally, we propose a novel shuffling mechanism that can achieve d-sigma privacy and demonstrate the practicality of our mechanism via evaluation on real-world datasets.
翻訳日:2021-06-15 15:53:05 公開日:2021-06-11
# 深部ReLUネットワークの事前予測分布の高精度評価

Precise characterization of the prior predictive distribution of deep ReLU networks ( http://arxiv.org/abs/2106.06615v1 )

ライセンス: Link先を確認
Lorenzo Noci, Gregor Bachmann, Kevin Roth, Sebastian Nowozin, Thomas Hofmann(参考訳) ベイジアンニューラルネットワーク(BNN)に関する最近の研究は、ネットワークアーキテクチャの構成構造と組み合わせて、ガウス事前の使用の意味をよりよく理解する必要性を強調している。 ニューラルネットワーク(cf)のより良い初期化スキームを考案するために開発された分析の精神と類似している。 he または xavier 初期化) はガウス重みを持つ有限幅 relu ネットワークの事前予測分布の正確なキャラクタリゼーションを導出する。 重み付けの理論的結果が得られたが、事前の予測分布(すなわち予測分布)の完全な特徴は明らかである。 その密度、CDF、モーメント)は、この研究以前には分かっていなかった。 我々の解析は,Meijer-G関数に基づいて,ネットワークの幅や深さなどのアーキテクチャ選択が,事前予測分布の結果の形状に与える影響を定量化することができる。 また, 無限幅設定では, 分布のモーメントが無限深さ極限における正規対数正規混合のモーメントに収束することを示した。 最後に,ネットワークの重みに対する深さおよび幅インフォームドによる予測分散の制御など,事前設計に関する貴重なガイダンスを提供する。

Recent works on Bayesian neural networks (BNNs) have highlighted the need to better understand the implications of using Gaussian priors in combination with the compositional structure of the network architecture. Similar in spirit to the kind of analysis that has been developed to devise better initialization schemes for neural networks (cf. He- or Xavier initialization), we derive a precise characterization of the prior predictive distribution of finite-width ReLU networks with Gaussian weights. While theoretical results have been obtained for their heavy-tailedness, the full characterization of the prior predictive distribution (i.e. its density, CDF and moments), remained unknown prior to this work. Our analysis, based on the Meijer-G function, allows us to quantify the influence of architectural choices such as the width or depth of the network on the resulting shape of the prior predictive distribution. We also formally connect our results to previous work in the infinite width setting, demonstrating that the moments of the distribution converge to those of a normal log-normal mixture in the infinite depth limit. Finally, our results provide valuable guidance on prior design: for instance, controlling the predictive variance with depth- and width-informed priors on the weights of the network.
翻訳日:2021-06-15 15:52:49 公開日:2021-06-11
# 交換経済における競争均衡のオンライン学習

Online Learning of Competitive Equilibria in Exchange Economies ( http://arxiv.org/abs/2106.06616v1 )

ライセンス: Link先を確認
Wenshuo Guo, Kirthevasan Kandasamy, Joseph E Gonzalez, Michael I. Jordan, Ion Stoica(参考訳) 複数の合理的エージェント間の資源の共有は、経済学における古典的な問題の1つである。 このような状況をモデル化するために使用される交換経済では、エージェントはリソースの最初の寄付から始まり、競争均衡(ce)に達するまで相互に有益である方法で交換する。 ce割り当ては効率的かつ公平である。 そのため、公正な分割のための設計機構として広く用いられている。 しかし、CEの計算には、興味のあるいくつかの応用で未知のエージェント選好の知識が必要である。 本研究では,各ラウンドにおいてエージェントにリソースを割り当て,その割り当てを用いた経験に関する確率的フィードバックを収集する,新たなオンライン学習メカニズムについて検討する。 その目標は、このフィードバックを通じてエージェントユーティリティを学習し、長期的にはceの割り当てを模倣することである。 2つの損失によりceの挙動を定量化し、両基準で$t$ラウンド後に$\bigotilde(\sqrt{t})$損失を達成するランダム化アルゴリズムを提案する。 数値シミュレーションにより,この機構の有効性を実証した。

The sharing of scarce resources among multiple rational agents is one of the classical problems in economics. In exchange economies, which are used to model such situations, agents begin with an initial endowment of resources and exchange them in a way that is mutually beneficial until they reach a competitive equilibrium (CE). CE allocations are Pareto efficient and fair. Consequently, they are used widely in designing mechanisms for fair division. However, computing CEs requires the knowledge of agent preferences which are unknown in several applications of interest. In this work, we explore a new online learning mechanism, which, on each round, allocates resources to the agents and collects stochastic feedback on their experience in using that allocation. Its goal is to learn the agent utilities via this feedback and imitate the allocations at a CE in the long run. We quantify CE behavior via two losses and propose a randomized algorithm which achieves $\bigOtilde(\sqrt{T})$ loss after $T$ rounds under both criteria. Empirically, we demonstrate the effectiveness of this mechanism through numerical simulations.
翻訳日:2021-06-15 15:52:31 公開日:2021-06-11
# 局所的ロバストネスの緩和

Relaxing Local Robustness ( http://arxiv.org/abs/2106.06624v1 )

ライセンス: Link先を確認
Klas Leino, Matt Fredrikson(参考訳) 認証された局所ロバスト性は、極小の敵の例を厳格に阻止するものであり、ディープラーニングにおけるセキュリティ問題に対処する手段として大きな注目を集めている。 しかし、いくつかの分類問題では、敵の存在下でも局所的堅牢性は自然な目的ではない。例えば、画像が2つの被写体のクラスを含む場合、画像の正しいラベルは2つの間に任意と見なすことができ、それらの間の厳密な分離を強制することは不要である。 本研究では,(1)トップk精度のアナログとして機能するストレートトップkロバスト性,(2)ロバストネスマージンによってどのラベル集合を分離する必要があるかを指定するアフィニティロバスト性,および$\ell_p$空間で$\epsilon$-closeとすることができる。 緩和された各強靭性特性に対して効率よく検証できるモデルの構築方法を示し、標準勾配降下に対するオーバーヘッドがほとんどない。 最後に、これらの緩和されたロバスト性変異はいくつかの重要な分類問題に適しており、「標準的な」局所ロバスト性を証明する際に得られるよりも低い拒絶率と高い認証精度をもたらすことを示した。

Certifiable local robustness, which rigorously precludes small-norm adversarial examples, has received significant attention as a means of addressing security concerns in deep learning. However, for some classification problems, local robustness is not a natural objective, even in the presence of adversaries; for example, if an image contains two classes of subjects, the correct label for the image may be considered arbitrary between the two, and thus enforcing strict separation between them is unnecessary. In this work, we introduce two relaxed safety properties for classifiers that address this observation: (1) relaxed top-k robustness, which serves as the analogue of top-k accuracy; and (2) affinity robustness, which specifies which sets of labels must be separated by a robustness margin, and which can be $\epsilon$-close in $\ell_p$ space. We show how to construct models that can be efficiently certified against each relaxed robustness property, and trained with very little overhead relative to standard gradient descent. Finally, we demonstrate experimentally that these relaxed variants of robustness are well-suited to several significant classification problems, leading to lower rejection rates and higher certified accuracies than can be obtained when certifying "standard" local robustness.
翻訳日:2021-06-15 15:52:14 公開日:2021-06-11
# バッファ付き非同期アグリゲーションによるフェデレーション学習

Federated Learning with Buffered Asynchronous Aggregation ( http://arxiv.org/abs/2106.06639v1 )

ライセンス: Link先を確認
John Nguyen, Kshitiz Malik, Hongyuan Zhan, Ashkan Yousefpour, Michael Rabbat, Mani Malek Esmaeili, Dzmitry Huba(参考訳) federated learning(fl)は、トレーニングデータをデバイスに保持しながら、分散デバイス間で共有モデルをトレーニングする。 ほとんどのFLスキームは同期であり、個々のデバイスからモデル更新を同期的に集約する。 同期トレーニングは遅いデバイス(ストラグラー)のために遅くなる可能性がある。 一方で、完全に非同期なトレーニングは、セキュアなアグリゲーションと互換性がないため、flのプライベート性が低下する。 本稿では,同期FLと非同期FLの最適特性を組み合わせたモデルアグリゲーション方式であるFedBuffを提案する。 同期FLと同様に、FedBuffはセキュアアグリゲーションと互換性がある。 非同期FLと同様に、FedBuffはストラグラーに対して堅牢である。 FedBuffでは、クライアントは非同期にトレーニングし、サーバにアップデートを送信する。 サーバは、更新が受信されるまでクライアント更新をプライベートバッファに集約し、その時点でサーバモデル更新が即座に実行される。 非凸条件でのFedBuffに対する理論的収束保証を提供する。 経験的に、FedBuffは同期FLの以前の提案(例えば、FedAvgM)よりも最大3.8倍、非同期FLの以前の提案(例えば、FedAsync)より最大2.5倍速く収束する。 我々は,FedBuffが異なる定常分布に対して堅牢であり,同期FL技術よりもスケーラブルであることを示す。

Federated Learning (FL) trains a shared model across distributed devices while keeping the training data on the devices. Most FL schemes are synchronous: they perform a synchronized aggregation of model updates from individual devices. Synchronous training can be slow because of late-arriving devices (stragglers). On the other hand, completely asynchronous training makes FL less private because of incompatibility with secure aggregation. In this work, we propose a model aggregation scheme, FedBuff, that combines the best properties of synchronous and asynchronous FL. Similar to synchronous FL, FedBuff is compatible with secure aggregation. Similar to asynchronous FL, FedBuff is robust to stragglers. In FedBuff, clients trains asynchronously and send updates to the server. The server aggregates client updates in a private buffer until updates have been received, at which point a server model update is immediately performed. We provide theoretical convergence guarantees for FedBuff in a non-convex setting. Empirically, FedBuff converges up to 3.8x faster than previous proposals for synchronous FL (e.g., FedAvgM), and up to 2.5x faster than previous proposals for asynchronous FL (e.g., FedAsync). We show that FedBuff is robust to different staleness distributions and is more scalable than synchronous FL techniques.
翻訳日:2021-06-15 15:51:49 公開日:2021-06-11
# 木組における最適対実的説明

Optimal Counterfactual Explanations in Tree Ensembles ( http://arxiv.org/abs/2106.06631v1 )

ライセンス: Link先を確認
Axel Parmentier, Thibaut Vidal(参考訳) 事実的説明は通常、探索の初期条件に敏感なヒューリスティックによって生成される。 パフォーマンスの保証と堅牢性の欠如は、信頼性を損なう。 本稿では,木合奏の反事実的説明に対する規律的アプローチについて述べる。 我々は「最適」な説明を目的としたモデルに基づく探索を提唱し、効率的な混合整数プログラミング手法を提案する。 我々は,孤立林を枠組み内でモデル化し,より低いアウトリアースコアで検索可能な説明に焦点をあてることができることを示した。 我々は、重要な目的、異種データ型、機能空間の構造的制約、およびリソースと実行可能性の制約をモデル化する追加の制約を包括的にカバーする。 実験により,提案手法は従来の数式プログラミングアルゴリズムよりも桁違いに小さい計算作業を必要とすることが示された。 大規模なデータセットやツリーアンサンブルまでスケールし、数秒以内に、最適性のために解かれたよく定義されたモデルに基づいた体系的な説明を提供する。

Counterfactual explanations are usually generated through heuristics that are sensitive to the search's initial conditions. The absence of guarantees of performance and robustness hinders trustworthiness. In this paper, we take a disciplined approach towards counterfactual explanations for tree ensembles. We advocate for a model-based search aiming at "optimal" explanations and propose efficient mixed-integer programming approaches. We show that isolation forests can be modeled within our framework to focus the search on plausible explanations with a low outlier score. We provide comprehensive coverage of additional constraints that model important objectives, heterogeneous data types, structural constraints on the feature space, along with resource and actionability restrictions. Our experimental analyses demonstrate that the proposed search approach requires a computational effort that is orders of magnitude smaller than previous mathematical programming algorithms. It scales up to large data sets and tree ensembles, where it provides, within seconds, systematic explanations grounded on well-defined models solved to optimality.
翻訳日:2021-06-15 15:38:48 公開日:2021-06-11
# 変分推論における後温度最適化

Posterior Temperature Optimization in Variational Inference ( http://arxiv.org/abs/2106.07533v1 )

ライセンス: Link先を確認
Max-Heinrich Laves, Malte T\"olle, Alexander Schlaefer(参考訳) ベイズ深層学習(wenzel2020 et al., 2020)の文脈において、寒冷な後方部は実践的に優れていると報告されている。 変分推論では、ログエビデンス下界(ELBO)の複雑性項をスケーリングすることで、部分的に温められた後面のみを用いるのが一般的である。 本研究は,まず,平均場変動推定における完全誘電体後部からELBOを導出し,その後ベイズ最適化を用いて最適後部温度を自動的に検出する。 適切な後方温度を選択すると予測性能が向上し,不確実性校正が向上する。

Cold posteriors have been reported to perform better in practice in the context of Bayesian deep learning (Wenzel2020 et al., 2020). In variational inference, it is common to employ only a partially tempered posterior by scaling the complexity term in the log-evidence lower bound (ELBO). In this work, we first derive the ELBO for a fully tempered posterior in mean-field variational inference and subsequently use Bayesian optimization to automatically find the optimal posterior temperature. Choosing an appropriate posterior temperature leads to better predictive performance and improved uncertainty calibration, which we demonstrate for the task of denoising medical X-ray images.
翻訳日:2021-06-15 15:33:05 公開日:2021-06-11
# (参考訳) GP-ConvCNP:時系列データに基づく畳み込み条件付きニューラルプロセスのより良い一般化 [全文訳有]

GP-ConvCNP: Better Generalization for Convolutional Conditional Neural Processes on Time Series Data ( http://arxiv.org/abs/2106.04967v2 )

ライセンス: CC BY 4.0
Jens Petersen, Gregor K\"ohler, David Zimmerer, Fabian Isensee, Paul F. J\"ager, Klaus H. Maier-Hein(参考訳) ニューラルプロセス(英: Neural Processs、NP)は、関数上の分布をモデル化できる条件生成モデルのファミリーであり、複数のコンテキストポイントで条件付きテスト時に予測を行うことができる。 最近の畳み込み条件付き神経プロセス(convolutional conditional neural process, convcnp)は、先行技術よりもパフォーマンスが著しく向上しているが、時系列データに適用した場合に一般化に苦労することがある。 特に、それらは分布シフトに対して堅牢ではなく、観測されたパターンを将来への外挿に失敗する。 ガウス過程をモデルに組み込むことで、これを改善できると同時に、分散におけるパフォーマンスを向上させることができます。 追加の利点として、ガウス過程はNPファミリーの他のメンバーの重要な特徴であるモデルからサンプルする可能性を再導入する。

Neural Processes (NPs) are a family of conditional generative models that are able to model a distribution over functions, in a way that allows them to perform predictions at test time conditioned on a number of context points. A recent addition to this family, Convolutional Conditional Neural Processes (ConvCNP), have shown remarkable improvement in performance over prior art, but we find that they sometimes struggle to generalize when applied to time series data. In particular, they are not robust to distribution shifts and fail to extrapolate observed patterns into the future. By incorporating a Gaussian Process into the model, we are able to remedy this and at the same time improve performance within distribution. As an added benefit, the Gaussian Process reintroduces the possibility to sample from the model, a key feature of other members in the NP family.
翻訳日:2021-06-15 09:03:45 公開日:2021-06-11
# (参考訳) 非自己回帰翻訳のためのプログレッシブマルチグラニュラリティトレーニング [全文訳有]

Progressive Multi-Granularity Training for Non-Autoregressive Translation ( http://arxiv.org/abs/2106.05546v2 )

ライセンス: CC0 1.0
Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao, Zhaopeng Tu(参考訳) 非自己回帰翻訳(NAT)は、ターゲットシーケンス全体を予測することで推論プロセスを著しく加速する。 しかし、最近の研究では、NATは一対多翻訳のような高度な知識の学習に弱いことが示されている。 モードは様々な粒度に分けることができ、そこから容易に学習できると我々は主張する。 本研究では,NATモデルが文と比較して,単語やフレーズなど,より細粒度の低い知識を学習する傾向があることを実証的に示す。 そこで本研究では,NATの進行的多粒度学習を提案する。 具体的には、トレーニングデータを最大限に活用するために、文レベルの例を3つのタイプに分類する。 言葉、句、文、そして訓練が進むにつれて、我々は徐々に粒度を増す。 ルーマニア語・英語・ドイツ語・中国語・日英語における実験により,本手法が句の翻訳精度とモデルの並べ替え能力を改善し,natベースラインに対する翻訳品質の向上を実現した。 また,より決定論的なききめ細かな知識が性能をさらに向上させることを示す。

Non-autoregressive translation (NAT) significantly accelerates the inference process via predicting the entire target sequence. However, recent studies show that NAT is weak at learning high-mode of knowledge such as one-to-many translations. We argue that modes can be divided into various granularities which can be learned from easy to hard. In this study, we empirically show that NAT models are prone to learn fine-grained lower-mode knowledge, such as words and phrases, compared with sentences. Based on this observation, we propose progressive multi-granularity training for NAT. More specifically, to make the most of the training data, we break down the sentence-level examples into three types, i.e. words, phrases, sentences, and with the training goes, we progressively increase the granularities. Experiments on Romanian-English, English-German, Chinese-English, and Japanese-English demonstrate that our approach improves the phrase translation accuracy and model reordering ability, therefore resulting in better translation quality against strong NAT baselines. Also, we show that more deterministic fine-grained knowledge can further enhance performance.
翻訳日:2021-06-15 08:42:57 公開日:2021-06-11
# (参考訳) ニューラルネットワークを用いた多分野共同設計最適化 [全文訳有]

Collaborative Multidisciplinary Design Optimization with Neural Networks ( http://arxiv.org/abs/2106.06092v1 )

ライセンス: CC BY 4.0
Jean de Becdelievre, Ilan Kroo(参考訳) 複雑なエンジニアリングシステムの設計は、異なる分野を含む非常に大きな最適化問題の解決につながる。 サブオブジェクトを提供することで規律を並列に最適化し、問題を協調最適化のような小さな部分に分割する戦略は有望な解決策である。 本稿では,これらの戦略の競争性を十分に改善するために,代理モデルの学習による収束を早める努力がまだ成功していないことを示す。この論文は,協調最適化の場合,二項分類の興味深い事例を解くことにより,より高速で信頼性の高い収束が得られることを示す。 この情報を利用して,非対称損失関数,リプシッツ連続性を保証する構造,基本距離関数特性を尊重する規則化を伴うニューラルネットワークを訓練する。 このアプローチはおもちゃの学習例で実証され、その後、多分野の航空機設計問題に適用される。

The design of complex engineering systems leads to solving very large optimization problems involving different disciplines. Strategies allowing disciplines to optimize in parallel by providing sub-objectives and splitting the problem into smaller parts, such as Collaborative Optimization, are promising solutions.However, most of them have slow convergence which reduces their practical use. Earlier efforts to fasten convergence by learning surrogate models have not yet succeeded at sufficiently improving the competitiveness of these strategies.This paper shows that, in the case of Collaborative Optimization, faster and more reliable convergence can be obtained by solving an interesting instance of binary classification: on top of the target label, the training data of one of the two classes contains the distance to the decision boundary and its derivative. Leveraging this information, we propose to train a neural network with an asymmetric loss function, a structure that guarantees Lipshitz continuity, and a regularization towards respecting basic distance function properties. The approach is demonstrated on a toy learning example, and then applied to a multidisciplinary aircraft design problem.
翻訳日:2021-06-15 05:30:03 公開日:2021-06-11
# (参考訳) コード編集表現学習における構文構造の有効性評価 [全文訳有]

Assessing the Effectiveness of Syntactic Structure to Learn Code Edit Representations ( http://arxiv.org/abs/2106.06110v1 )

ライセンス: CC BY 4.0
Syed Arbaaz Qureshi, Sonu Mehta, Ranjita Bhagwan, Rahul Kumar(参考訳) 近年, 自動コミットメッセージ生成, プルリクエスト記述の自動生成, 自動プログラム修正など, 様々なアプリケーションを支援するために, データとしてコードを利用する方法が示されている。 例えば、コミットメッセージ生成の問題を考えてみましょう。 ソースコードをトークンのシーケンスとして扱うことで、最先端技術はニューラルマシン翻訳モデルを使用してコミットメッセージを生成する。 しかし、それらはプログラミング言語の構文構造を無視する傾向がある。 以前の作業、すなわちcode2seq は Abstract Syntax Tree (AST) の構造情報を使ってソースコードを表現し、メソッド名を自動的に生成した。 本稿では,この手法の状況について詳述し,ソースコードの編集を表現できるように修正する。 コード編集の分類問題に対して,このような構文構造を用いることの効果を判定する。 code2seqアプローチに触発されて、ASTの葉ノード間のパスがASTからの構造化情報、すなわち、粒度の細かい構文編集の2つのデータセットのコード編集分類にどのように役立つかを評価する。 実験の結果, 構文構造を付加する試みは, 洗練度が低い手法よりも改善しないことがわかった。 結果は、Code2seqのようなテクニックは有望ではあるが、コード編集表現の学習に汎用的に適用できるようになるまでには長い道のりがあることを示している。 これらの結果が他の研究者に利益をもたらし、この問題にさらなる取り組みを促すことを期待しています。

In recent times, it has been shown that one can use code as data to aid various applications such as automatic commit message generation, automatic generation of pull request descriptions and automatic program repair. Take for instance the problem of commit message generation. Treating source code as a sequence of tokens, state of the art techniques generate commit messages using neural machine translation models. However, they tend to ignore the syntactic structure of programming languages. Previous work, i.e., code2seq has used structural information from Abstract Syntax Tree (AST) to represent source code and they use it to automatically generate method names. In this paper, we elaborate upon this state of the art approach and modify it to represent source code edits. We determine the effect of using such syntactic structure for the problem of classifying code edits. Inspired by the code2seq approach, we evaluate how using structural information from AST, i.e., paths between AST leaf nodes can help with the task of code edit classification on two datasets of fine-grained syntactic edits. Our experiments shows that attempts of adding syntactic structure does not result in any improvements over less sophisticated methods. The results suggest that techniques such as code2seq, while promising, have a long way to go before they can be generically applied to learning code edit representations. We hope that these results will benefit other researchers and inspire them to work further on this problem.
翻訳日:2021-06-15 05:19:01 公開日:2021-06-11
# (参考訳) スペクトル非教師なし領域適応による視覚認識 [全文訳有]

Spectral Unsupervised Domain Adaptation for Visual Recognition ( http://arxiv.org/abs/2106.06112v1 )

ライセンス: CC BY-SA 4.0
Jingyi Zhang, Jiaxing Huang and Shijian Lu(参考訳) unsupervised domain adaptation (uda) は、1つまたは複数の関連するソースドメインのラベル付きデータを活用することで、ラベルなしのターゲットドメインでうまく表現されたモデルを学ぶことを目的としている。 1) 対象領域におけるアノテーションの欠如,2) ソースとターゲットデータの分布のばらつきが豊富であるため,依然として大きな課題である。 本稿では、スペクトル空間で機能し、検出、分類、セグメンテーションにおいて様々な視覚認識タスクにまたがる、効率的かつ効率的なUDA技術であるSpectral UDA(SUDA)を提案する。 SuDAは2つの観点からUDAの課題に対処する。 まず、ソース画像とターゲット画像をスペクトル空間にマッピングし、ドメイン不変スペクトルを同時に抑制しながらドメイン不変スペクトルを強化するスペクトル変換器(ST)によりドメイン間不一致を緩和する。 この目的のために、コンテキスト情報を利用してドメイン不変およびドメイン不変のスペクトルを効果的に識別する新しい逆多重ヘッドスペクトルアテンションを設計する。 第2に、多視点スペクトル学習を導入し、各対象試料の異なるスペクトルビューをキャプチャする複数のSTオーグメンテーション間の相互情報を最大化し、包括的かつ確実なターゲット表現を学習することを目的とする。 異なる視覚的タスク(例えば、検出、分類、セグメンテーション)に対する広範囲な実験は、SUDAが優れた精度を達成し、一貫した性能向上と余分な計算の少ない最先端のUDA手法と相補的であることを示している。

Unsupervised domain adaptation (UDA) aims to learn a well-performed model in an unlabeled target domain by leveraging labeled data from one or multiple related source domains. It remains a great challenge due to 1) the lack of annotations in the target domain and 2) the rich discrepancy between the distributions of source and target data. We propose Spectral UDA (SUDA), an efficient yet effective UDA technique that works in the spectral space and is generic across different visual recognition tasks in detection, classification and segmentation. SUDA addresses UDA challenges from two perspectives. First, it mitigates inter-domain discrepancies by a spectrum transformer (ST) that maps source and target images into spectral space and learns to enhance domain-invariant spectra while suppressing domain-variant spectra simultaneously. To this end, we design novel adversarial multi-head spectrum attention that leverages contextual information to identify domain-variant and domain-invariant spectra effectively. Second, it mitigates the lack of annotations in target domain by introducing multi-view spectral learning which aims to learn comprehensive yet confident target representations by maximizing the mutual information among multiple ST augmentations capturing different spectral views of each target sample. Extensive experiments over different visual tasks (e.g., detection, classification and segmentation) show that SUDA achieves superior accuracy and it is also complementary with state-of-the-art UDA methods with consistent performance boosts but little extra computation.
翻訳日:2021-06-15 05:01:43 公開日:2021-06-11
# (参考訳) 教師なし異常検出のための自己訓練型一クラス分類 [全文訳有]

Self-Trained One-class Classification for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2106.06115v1 )

ライセンス: CC BY 4.0
Jinsung Yoon, Kihyuk Sohn, Chun-Liang Li, Sercan O. Arik, Chen-Yu Lee, Tomas Pfister(参考訳) 異常検出(AD)は、通常のデータから異常を分離するものであり、製造から医療まで様々な分野に応用されている。 以前のほとんどの作品は、完全にあるいは部分的にラベル付けされたデータの場合に有効であることが示されているが、退屈なデータラベリングプロセスのため、広告アプリケーションにはあまり実用的ではない。 本研究では,トレーニングデータ全体がラベルなしであり,正常なサンプルと異常なサンプルの両方を含む非教師なし広告問題に焦点を当てる。 この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。 データを精度良く洗練するために,学習データの非結合部分集合に基づいて訓練された一級分類器のアンサンブルを提案する。 さらに,データと深層表現を反復的に洗練する,深層表現型分類器(stoc)の自己学習を提案する。 実験では,画像領域と表データ領域のベンチマークにおける教師なし異常検出法の有効性を示す。 例えば、CIFAR-10データに対する10%の異常比で、提案手法は最先端の1クラス分類法を6.3AUCと12.5平均精度で上回る。

Anomaly detection (AD), separating anomalies from normal data, has various applications across domains, from manufacturing to healthcare. While most previous works have shown to be effective for cases with fully or partially labeled data, they are less practical for AD applications due to tedious data labeling processes. In this work, we focus on unsupervised AD problems whose entire training data are unlabeled and may contain both normal and anomalous samples. To tackle this problem, we build a robust one-class classification framework via data refinement. To refine the data accurately, we propose an ensemble of one-class classifiers, each of which is trained on a disjoint subset of training data. Moreover, we propose a self-training of deep representation one-class classifiers (STOC) that iteratively refines the data and deep representations. In experiments, we show the efficacy of our method for unsupervised anomaly detection on benchmarks from image and tabular data domains. For example, with a 10% anomaly ratio on CIFAR-10 data, the proposed method outperforms state-of-the-art one-class classification method by 6.3 AUC and 12.5 average precision.
翻訳日:2021-06-15 04:43:09 公開日:2021-06-11
# (参考訳) 非凸正規化を構成する統一フレームワーク [全文訳有]

A Unified Framework for Constructing Nonconvex Regularizations ( http://arxiv.org/abs/2106.06123v1 )

ライセンス: CC0 1.0
Zhiyong Zhou(参考訳) 過去数十年にわたり、様々なシナリオでスパース回復性能を達成するために、複数の非凸法が提案されてきた。 しかし、有効な非凸正規化関数をどのように構築するかは、実際には未開である。 本稿では,確率密度関数に基づく非凸正則化を構成するための統一フレームワークを提案することで,このギャップを埋める。 一方,Weibull分布を用いた新しい非凸スパース回収法について検討した。

Over the past decades, many individual nonconvex methods have been proposed to achieve better sparse recovery performance in various scenarios. However, how to construct a valid nonconvex regularization function remains open in practice. In this paper, we fill in this gap by presenting a unified framework for constructing the nonconvex regularization based on the probability density function. Meanwhile, a new nonconvex sparse recovery method constructed via the Weibull distribution is studied.
翻訳日:2021-06-15 04:26:01 公開日:2021-06-11
# (参考訳) オンデバイス音響モデルのための大規模教員養成の試み [全文訳有]

Exploiting Large-scale Teacher-Student Training for On-device Acoustic Models ( http://arxiv.org/abs/2106.06126v1 )

ライセンス: CC BY 4.0
Jing Liu, Rupak Vignesh Swaminathan, Sree Hari Krishnan Parthasarathi, Chunchuan Lyu, Athanasios Mouchtaris, Siegfried Kunzmann(参考訳) 私たちはAlexaの音声認識チームによる、3000時間以上のGPU時間にわたる実験によるアコースティックモデル(AM)の半教師付き学習(SSL)について、その研究は、その種類の中で最大である。 少数のフットプリント設定でAMのSSLについて議論し、100万時間の教師なしデータで訓練された小さなキャパシティモデルにより、ベースラインの教師付きシステムよりも14.3%のワードエラー率削減(WERR)を達成できることを示した。 教師付きデータを7倍に増やすと、我々のゲインは7.1% WERRに減少し、より大きな監督型データ体制におけるSSL効率を向上させるために、より小さなモデルに段階的に蒸留し、WERRの14.4%を得る。 教師なしデータによる学習効率が高い一方で、学生モデルはそのような設定で教師モデルよりも優れています。 我々はこの振る舞いを説明するための理論的スケッチを開発する。

We present results from Alexa speech teams on semi-supervised learning (SSL) of acoustic models (AM) with experiments spanning over 3000 hours of GPU time, making our study one of the largest of its kind. We discuss SSL for AMs in a small footprint setting, showing that a smaller capacity model trained with 1 million hours of unsupervised data can outperform a baseline supervised system by 14.3% word error rate reduction (WERR). When increasing the supervised data to seven-fold, our gains diminish to 7.1% WERR; to improve SSL efficiency at larger supervised data regimes, we employ a step-wise distillation into a smaller model, obtaining a WERR of 14.4%. We then switch to SSL using larger student models in low data regimes; while learning efficiency with unsupervised data is higher, student models may outperform teacher models in such a setting. We develop a theoretical sketch to explain this behavior.
翻訳日:2021-06-15 04:16:04 公開日:2021-06-11
# (参考訳) インスタンスレベルのタスクパラメータ:堅牢なマルチタスク重み付けフレームワーク [全文訳有]

Instance-Level Task Parameters: A Robust Multi-task Weighting Framework ( http://arxiv.org/abs/2106.06129v1 )

ライセンス: CC BY 4.0
Pavan Kumar Anasosalu Vasu, Shreyas Saxena, Oncel Tuzel(参考訳) 最近の研究によると、ディープニューラルネットワークは複数の関連するタスク間で共有表現を学習することでマルチタスク学習の恩恵を受けている。 しかし、そのようなシステムの性能は、訓練中の様々な損失の間の相対重み付けに依存する。 損失重み付けスキームに関する事前の作業は、インスタンスがすべてのタスクに対して同じくらい簡単あるいは難しいと仮定する。 この仮定を破るために、トレーニングプロセスがデータセットの各インスタンスのタスクの最適な重み付けを決定するようにします。 具体的には、データセット内のすべてのインスタンスに学習可能なパラメータ(インスタンスレベルのタスクパラメータ)のセットを装備します。 これらのパラメータは、インスタンスの各タスクの重み付けをモデル化する。 勾配降下によって更新され、手作りのルールを必要としない。 我々は,人間の形状とポーズ推定,深さ推定,意味セグメンテーションタスクなど,シュールリアルとシティスケープのデータセットを広範囲に実験する。 これらの課題において,本手法は最近の動的損失重み付け手法よりも優れている。 SURREALでは表面推定誤差を8.97%削減する。 1つ以上のタスクが騒がしいアノテーションを持つデータセットに適用すると、提案手法は、特定のタスクに対してクリーンラベルから学習を優先するように学習する。 表面推定誤差を最大60%削減します また,学習したインスタンスレベルのタスクパラメータから,与えられたタスクの破損ラベルを副産物として確実に検出できることを示す。

Recent works have shown that deep neural networks benefit from multi-task learning by learning a shared representation across several related tasks. However, performance of such systems depend on relative weighting between various losses involved during training. Prior works on loss weighting schemes assume that instances are equally easy or hard for all tasks. In order to break this assumption, we let the training process dictate the optimal weighting of tasks for every instance in the dataset. More specifically, we equip every instance in the dataset with a set of learnable parameters (instance-level task parameters) where the cardinality is equal to the number of tasks learned by the model. These parameters model the weighting of each task for an instance. They are updated by gradient descent and do not require hand-crafted rules. We conduct extensive experiments on SURREAL and CityScapes datasets, for human shape and pose estimation, depth estimation and semantic segmentation tasks. In these tasks, our approach outperforms recent dynamic loss weighting approaches, e.g. reducing surface estimation errors by 8.97% on SURREAL. When applied to datasets where one or more tasks can have noisy annotations, the proposed method learns to prioritize learning from clean labels for a given task, e.g. reducing surface estimation errors by up to 60%. We also show that we can reliably detect corrupt labels for a given task as a by-product from learned instance-level task parameters.
翻訳日:2021-06-15 04:06:50 公開日:2021-06-11
# (参考訳) tellme why: why-questions in narrativesに答えるデータセット [全文訳有]

TellMeWhy: A Dataset for Answering Why-Questions in Narratives ( http://arxiv.org/abs/2106.06132v1 )

ライセンス: CC BY 4.0
Yash Kumar Lal, Nathanael Chambers, Raymond Mooney and Niranjan Balasubramanian(参考訳) キャラクターがなぜ特定の行動を行うのかという疑問に答えることは、物語を理解し、推論することの中心である。 近年のQAの進展にもかかわらず、既存のモデルが入力物語の外部で常識的な知識を必要とする「なぜ」疑問に答える能力を持っているかどうかは不明である。 本稿では,30万以上の質問と,短い物語の登場人物が記述された行動を行う理由に関する自由形式の回答からなる,クラウドソースによる新たなデータセットTellMeWhyを紹介する。 このデータセットの3分の1は、回答はナラティブには存在しない。 この課題に対する自動評価の限界を考えると、このデータセットのためのシステム化された人間評価インタフェースも提示する。 最先端モデルの評価は,そのような質問に答える上で,人間のパフォーマンスをはるかに下回っていることを示している。 彼らは特に、回答が物語の外部にある質問に対して悪化しており、将来のQAと物語理解研究に課題を与えている。

Answering questions about why characters perform certain actions is central to understanding and reasoning about narratives. Despite recent progress in QA, it is not clear if existing models have the ability to answer "why" questions that may require commonsense knowledge external to the input narrative. In this work, we introduce TellMeWhy, a new crowd-sourced dataset that consists of more than 30k questions and free-form answers concerning why characters in short narratives perform the actions described. For a third of this dataset, the answers are not present within the narrative. Given the limitations of automated evaluation for this task, we also present a systematized human evaluation interface for this dataset. Our evaluation of state-of-the-art models show that they are far below human performance on answering such questions. They are especially worse on questions whose answers are external to the narrative, thus providing a challenge for future QA and narrative understanding research.
翻訳日:2021-06-15 03:53:30 公開日:2021-06-11
# (参考訳) グラフニューラルネットワークにはホモフィリーが必要か? [全文訳有]

Is Homophily a Necessity for Graph Neural Networks? ( http://arxiv.org/abs/2106.06134v1 )

ライセンス: CC BY 4.0
Yao Ma, Xiaorui Liu, Neil Shah, Jiliang Tang(参考訳) グラフニューラルネットワーク(GNN)は、多数のグラフベースの機械学習タスクに適した学習表現において大きな進歩を示している。 半教師付きノード分類に適用すると、GNNはホモフィリーな仮定(``like attracts like''')のためにうまく機能し、異種ノードが接続する異種グラフに一般化できないと広く信じられている。 最近の研究は、このような不均一な制限を克服する新しいアーキテクチャを設計し、ベースライン性能の低さと、この概念の証拠として、いくつかの異種グラフベンチマークデータセットに対するアーキテクチャの改善を引用している。 実験では、標準的なグラフ畳み込みネットワーク(GCN)が、よく使われるヘテロ親和性グラフのこのような慎重に設計された手法よりも、実際に優れた性能を達成できることを実証的に見出した。 このことは、GNNのパフォーマンス向上にホモフィリーが本当に必要かどうかを再考する動機となっている。 実際、GCNは特定の条件下でのヘテロ親和性グラフ上での強い性能を達成することができる。 我々の研究はこれらの条件を慎重に特徴づけ、理論的理解と経験的観察を支援する。 最後に、既存の異種グラフベンチマークを検証し、この理解に基づいてGCNがどのように機能するかを精査する。

Graph neural networks (GNNs) have shown great prowess in learning representations suitable for numerous graph-based machine learning tasks. When applied to semi-supervised node classification, GNNs are widely believed to work well due to the homophily assumption (``like attracts like''), and fail to generalize to heterophilous graphs where dissimilar nodes connect. Recent works design new architectures to overcome such heterophily-related limitations, citing poor baseline performance and new architecture improvements on a few heterophilous graph benchmark datasets as evidence for this notion. In our experiments, we empirically find that standard graph convolutional networks (GCNs) can actually achieve better performance than such carefully designed methods on some commonly used heterophilous graphs. This motivates us to reconsider whether homophily is truly necessary for good GNN performance. We find that this claim is not quite true, and in fact, GCNs can achieve strong performance on heterophilous graphs under certain conditions. Our work carefully characterizes these conditions, and provides supporting theoretical understanding and empirical observations. Finally, we examine existing heterophilous graphs benchmarks and reconcile how the GCN (under)performs on them based on this understanding.
翻訳日:2021-06-15 03:35:43 公開日:2021-06-11
# (参考訳) DORO: 分散および外部ロバスト最適化 [全文訳有]

DORO: Distributional and Outlier Robust Optimization ( http://arxiv.org/abs/2106.06142v1 )

ライセンス: CC BY 4.0
Runtian Zhai, Chen Dan, J. Zico Kolter, Pradeep Ravikumar(参考訳) 多くの機械学習タスクは、テストデータ分布がトレーニング分布のサブポピュレーションであるサブポピュレーションシフトを含む。 このような設定のために、最近の一連の研究は、分散ロバスト最適化(DRO)として知られる経験的リスク最小化(ERM)の亜種の使用を提案している。 本研究では,DROをサブポピュレーションシフトを伴う大規模タスクに適用し,DROが比較的貧弱であり,さらに不安定であることを示す。 この現象の直接的な原因は、データセットの外れ値に対するDROの感度である。 この問題を解決するために,分散ロバスト最適化と外部ロバスト最適化のためのDOROのフレームワークを提案する。 このアプローチの核心は、droが潜在的な外れ値に過剰に適合することを防ぐ、洗練されたリスク機能である。 R\'enyi divergence の Cressie-Read ファミリーに対して DORO をインスタンス化し、CVaR と $\chi^2$-DRO の2つの特定のインスタンスを探索する。 提案手法の有効性を理論的に証明し,提案手法は大規模データセットを用いた実験によりDROの性能と安定性を向上し,橋本らによるオープンな疑問に肯定的に対処できることを実証的に示す。

Many machine learning tasks involve subpopulation shift where the testing data distribution is a subpopulation of the training distribution. For such settings, a line of recent work has proposed the use of a variant of empirical risk minimization(ERM) known as distributionally robust optimization (DRO). In this work, we apply DRO to real, large-scale tasks with subpopulation shift, and observe that DRO performs relatively poorly, and moreover has severe instability. We identify one direct cause of this phenomenon: sensitivity of DRO to outliers in the datasets. To resolve this issue, we propose the framework of DORO, for Distributional and Outlier Robust Optimization. At the core of this approach is a refined risk function which prevents DRO from overfitting to potential outliers. We instantiate DORO for the Cressie-Read family of R\'enyi divergence, and delve into two specific instances of this family: CVaR and $\chi^2$-DRO. We theoretically prove the effectiveness of the proposed method, and empirically show that DORO improves the performance and stability of DRO with experiments on large modern datasets, thereby positively addressing the open question raised by Hashimoto et al., 2018.
翻訳日:2021-06-15 03:09:42 公開日:2021-06-11
# (参考訳) 超低リソース環境におけるスパース転写の発話項検出法 [全文訳有]

Spoken Term Detection Methods for Sparse Transcription in Very Low-resource Settings ( http://arxiv.org/abs/2106.06160v1 )

ライセンス: CC BY 4.0
\'Eric Le Ferrand, Steven Bird, Laurent Besacier(参考訳) そこで本研究では,強健なASRシステムの訓練に利用可能なデータが不十分な場合に,2つの全く異なる音節検出手法の有効性について検討する。 2つの口頭言語での実験では、訓練済みの普遍的な電話認識器が、わずか数分間のターゲット言語音声で微調整され、動的時間ワープアプローチよりも全体的なパフォーマンスで音声語検出に使用できることが示されている。 さらに,グラフ構造における音素認識の曖昧さの表現は,低リソース音声語検出タスクにおいて高い精度を維持しながらリコールをさらに促進できることを示す。

We investigate the efficiency of two very different spoken term detection approaches for transcription when the available data is insufficient to train a robust ASR system. This work is grounded in very low-resource language documentation scenario where only few minutes of recording have been transcribed for a given language so far.Experiments on two oral languages show that a pretrained universal phone recognizer, fine-tuned with only a few minutes of target language speech, can be used for spoken term detection with a better overall performance than a dynamic time warping approach. In addition, we show that representing phoneme recognition ambiguity in a graph structure can further boost the recall while maintaining high precision in the low resource spoken term detection task.
翻訳日:2021-06-15 02:36:59 公開日:2021-06-11
# (参考訳) シークエンシャルレコメンデーションのための不確実性のある分布としてのシーケンスのモデル化 [全文訳有]

Modeling Sequences as Distributions with Uncertainty for Sequential Recommendation ( http://arxiv.org/abs/2106.06165v1 )

ライセンス: CC BY-SA 4.0
Ziwei Fan, Zhiwei Liu, Lei Zheng, Shen Wang, Philip S. Yu(参考訳) ユーザインタラクション内のシーケンシャルなパターンは、ユーザの好みを表現し、アイテム間の潜在関係を捉える上で重要なものだ。 トランスフォーマーによるシーケンスモデリングの最近の進歩は、より効果的なエンコーダを連続的な推奨のために考案するコミュニティを提唱している。 既存のシーケンシャルメソッドの多くは、ユーザが決定論的であると仮定する。 しかし、項目-項目遷移はいくつかの項目において著しく変動し、ユーザの興味のランダム性を示す。 この \textit{stochastic characteristic} は、シーケンスやアイテムを表す不確実性を含むという確固たる要求をもたらす。 さらに、不確実性のあるシーケンスやアイテムのモデリングは、ユーザのインタラクション空間を拡大し、コールドスタート問題をさらに緩和する。 本研究では, 逐次モデルに不確実性を注入する分散型逐次推薦変換器(DT4SR)を提案する。 不確実性のある項目やシーケンスを記述するために楕円ガウス分布を用いる。 項目とシーケンスの不確かさを楕円ガウス分布として記述する。 分布間の類似性を測定するためにwasserstein距離を採用する。 平均と共分散をモデル化するための2つの新しいトランスフォーマーを考案し、分布の正定性を保証する。 提案手法は最先端手法を著しく上回っている。 3つのベンチマークデータセットの実験は、コールドスタート問題を緩和する効果も示している。 コードはhttps://github.com/d ygrec/dt4srで入手できる。

The sequential patterns within the user interactions are pivotal for representing the user's preference and capturing latent relationships among items. The recent advancements of sequence modeling by Transformers advocate the community to devise more effective encoders for the sequential recommendation. Most existing sequential methods assume users are deterministic. However, item-item transitions might fluctuate significantly in several item aspects and exhibit randomness of user interests. This \textit{stochastic characteristics} brings up a solid demand to include uncertainties in representing sequences and items. Additionally, modeling sequences and items with uncertainties expands users' and items' interaction spaces, thus further alleviating cold-start problems. In this work, we propose a Distribution-based Transformer for Sequential Recommendation (DT4SR), which injects uncertainties into sequential modeling. We use Elliptical Gaussian distributions to describe items and sequences with uncertainty. We describe the uncertainty in items and sequences as Elliptical Gaussian distribution. And we adopt Wasserstein distance to measure the similarity between distributions. We devise two novel Trans-formers for modeling mean and covariance, which guarantees the positive-definite property of distributions. The proposed method significantly outperforms the state-of-the-art methods. The experiments on three benchmark datasets also demonstrate its effectiveness in alleviating cold-start issues. The code is available inhttps://github.com /DyGRec/DT4SR.
翻訳日:2021-06-15 02:26:49 公開日:2021-06-11
# (参考訳) HIFI:高次特徴相互作用を持つ多変量時系列の異常検出 [全文訳有]

HIFI: Anomaly Detection for Multivariate Time Series with High-order Feature Interactions ( http://arxiv.org/abs/2106.06167v1 )

ライセンス: CC BY 4.0
Liwei Deng, Xuanhao Chen, Yan Zhao, and Kai Zheng(参考訳) 複雑なシステムの監視は、大量多変量時系列データとなり、システムの正常な動作を維持するためには、これらのデータの異常検出が非常に重要である。 多変量時系列に対する多数の異常検出アルゴリズムが最近出現したが、そのほとんどは多変量時系列間の相関モデルを無視しており、しばしば異常検出結果の低下につながる。 本研究では,多変量時系列に対する新しい異常検出モデルとして,hfi (underline{hi}gh-order \underline{f}eature \underline{i}nteractions) を提案する。 より具体的には、HIFIは多変量特徴相互作用グラフを自動構築し、グラフ畳み込みニューラルネットワークを用いて高次特徴相互作用を実現する。 公開されている3つのデータセットに関する広範な実験は、最先端のアプローチと比較して、フレームワークの優位性を示しています。

Monitoring complex systems results in massive multivariate time series data, and anomaly detection of these data is very important to maintain the normal operation of the systems. Despite the recent emergence of a large number of anomaly detection algorithms for multivariate time series, most of them ignore the correlation modeling among multivariate, which can often lead to poor anomaly detection results. In this work, we propose a novel anomaly detection model for multivariate time series with \underline{HI}gh-order \underline{F}eature \underline{I}nteractions (HIFI). More specifically, HIFI builds multivariate feature interaction graph automatically and uses the graph convolutional neural network to achieve high-order feature interactions, in which the long-term temporal dependencies are modeled by attention mechanisms and a variational encoding technique is utilized to improve the model performance and robustness. Extensive experiments on three publicly available datasets demonstrate the superiority of our framework compared with state-of-the-art approaches.
翻訳日:2021-06-15 02:17:43 公開日:2021-06-11
# (参考訳) ドメイン間マルチリレーショナルリンク予測 [全文訳有]

Inter-domain Multi-relational Link Prediction ( http://arxiv.org/abs/2106.06171v1 )

ライセンス: CC BY 4.0
Luu Huu Phuc, Koh Takeuchi, Seiji Okajima, Arseny Tolmachev, Tomoyoshi Takebayashi, Koji Maruhashi, Hisashi Kashima(参考訳) マルチリレーショナルグラフはユビキタスで重要なデータ構造であり、複数のタイプの相互作用とエンティティ間の関係を柔軟に表現することができる。 他のグラフ構造化データと同様に、リンク予測はマルチリレーショナルグラフ上で最も重要なタスクの1つであり、知識の完備化にしばしば使用される。 関連グラフが共存している場合、より小さなグラフを統合することで、より大きなグラフを構築することは大きな利益となる。 この統合には、異なるグラフに属するエンティティ間の隠れたリレーショナルコネクションを予測する必要がある(ドメイン間のリンク予測)。 しかし、これは、同じグラフのエンティティ間のリンク予測専用に設計された既存の方法(ドメイン内リンク予測)にとって、真の課題となる。 本研究では,ドメイン間リンク予測問題に対して,各ドメイン間のエンティティ分布を最適輸送と最大平均離散化器でソフトに整合させることにより,新しいアプローチを提案する。 実世界のデータセットでの実験では、最適な輸送正則化器が有用であることを示し、ベースライン法の性能を大幅に向上させる。

Multi-relational graph is a ubiquitous and important data structure, allowing flexible representation of multiple types of interactions and relations between entities. Similar to other graph-structured data, link prediction is one of the most important tasks on multi-relational graphs and is often used for knowledge completion. When related graphs coexist, it is of great benefit to build a larger graph via integrating the smaller ones. The integration requires predicting hidden relational connections between entities belonged to different graphs (inter-domain link prediction). However, this poses a real challenge to existing methods that are exclusively designed for link prediction between entities of the same graph only (intra-domain link prediction). In this study, we propose a new approach to tackle the inter-domain link prediction problem by softly aligning the entity distributions between different domains with optimal transport and maximum mean discrepancy regularizers. Experiments on real-world datasets show that optimal transport regularizer is beneficial and considerably improves the performance of baseline methods.
翻訳日:2021-06-15 02:10:45 公開日:2021-06-11
# (参考訳) 光界カメラの校正と自動校正 [全文訳有]

Calibration and Auto-Refinement for Light Field Cameras ( http://arxiv.org/abs/2106.06181v1 )

ライセンス: CC BY 4.0
Yuriy Anisimov, Gerd Reis, Didier Stricker(参考訳) 撮影されたシーンの正確な3次元再構成を作成する能力は、光場の原理に注意を向ける。 本稿では,一対のパターンに基づくパラメータ抽出に基づく光場カメラキャリブレーションと補正手法を提案する。 その後、三角フィルタと非線形最適化を用いて任意のシーンからのカメラパラメータの精製を行う。 本手法の有効性は実データと合成データの両方で検証される。

The ability to create an accurate three-dimensional reconstruction of a captured scene draws attention to the principles of light fields. This paper presents an approach for light field camera calibration and rectification, based on pairwise pattern-based parameters extraction. It is followed by a correspondence-based algorithm for camera parameters refinement from arbitrary scenes using the triangulation filter and nonlinear optimization. The effectiveness of our approach is validated on both real and synthetic data.
翻訳日:2021-06-15 01:57:57 公開日:2021-06-11
# (参考訳) 順序問題:グラフ生成のためのノードシーケンスの確率的モデリング [全文訳有]

Order Matters: Probabilistic Modeling of Node Sequence for Graph Generation ( http://arxiv.org/abs/2106.06189v1 )

ライセンス: CC BY 4.0
Xiaohui Chen, Xu Han, Jiajing Hu, Francisco J. R. Ruiz, Liping Liu(参考訳) グラフ生成モデルはグラフ上の分布を定義する。 1つの生成モデルは自己回帰ニューラルネットワークによって構築され、ノードとエッジを逐次追加してグラフを生成する。 しかし、自己回帰モデルの下でのグラフの確率は、与えられたグラフに導かれる多くのシーケンスが存在するため、難解である。 代わりに、この研究において、グラフ上の正確な結合確率とシーケンシャルなプロセスのノード順序を導出する。 共同作業から,ノードの順序付けをほぼ疎外し,変動推論を用いてログライクリフの下位境界を計算する。 我々は,従来の手法のアドホックノード順序を使わずに,この境界を最大化してグラフ生成モデルを訓練する。 実験により, 対数状境界は, 従来のスキームよりもかなり厳密であることがわかった。 さらに,提案アルゴリズムを応用したモデルでは,トレーニング中に見えないターゲットグラフの構造に適合する高品質なグラフを生成することができる。 コードは \hyperref[https://github.com/t ufts-ml/graph-genera tion-vi]{https://github.com/t ufts-ml/graph-genera tion-vi} で公開しました。

A graph generative model defines a distribution over graphs. One type of generative model is constructed by autoregressive neural networks, which sequentially add nodes and edges to generate a graph. However, the likelihood of a graph under the autoregressive model is intractable, as there are numerous sequences leading to the given graph; this makes maximum likelihood estimation challenging. Instead, in this work we derive the exact joint probability over the graph and the node ordering of the sequential process. From the joint, we approximately marginalize out the node orderings and compute a lower bound on the log-likelihood using variational inference. We train graph generative models by maximizing this bound, without using the ad-hoc node orderings of previous methods. Our experiments show that the log-likelihood bound is significantly tighter than the bound of previous schemes. Moreover, the models fitted with the proposed algorithm can generate high-quality graphs that match the structures of target graphs not seen during training. We have made our code publicly available at \hyperref[https://github.com/t ufts-ml/graph-genera tion-vi]{https://github.com/t ufts-ml/graph-genera tion-vi}.
翻訳日:2021-06-15 01:47:13 公開日:2021-06-11
# (参考訳) ユーザ駆動ニューラルマシン翻訳に向けて [全文訳有]

Towards User-Driven Neural Machine Translation ( http://arxiv.org/abs/2106.06200v1 )

ライセンス: CC BY 4.0
Huan Lin, Liang Yao, Baosong Yang, Dayiheng Liu, Haibo Zhang, Weihua Luo, Degen Huang, Jinsong Su(参考訳) 良質な翻訳は、原文を意味的に翻訳するだけでなく、原文の個人的特徴を取り入れるべきである。 現実世界のニューラルマシン翻訳(nmt)システムでは、これらのユーザ特性(トピックの好み、スタイル的特徴、表現習慣など)は、ユーザの行動(例えば、履歴入力)に保存することができる。 しかし,現在のnmtシステムでは,(1)ゼロショットシナリオにおけるユーザポートレートのモデル化の難しさ,(2)ユーザビヘイビアアノテートされた並列データセットの欠如,などの理由から,ユーザ動作を控えめに検討している。 このギャップを埋めるために、ユーザ駆動NMTと呼ばれる新しいフレームワークを導入する。 具体的には、キャッシュベースのモジュールとユーザ主導のコントラスト学習手法を提案し、NMTが歴史的入力から潜在的なユーザ特性をゼロショット学習方式でキャプチャする機能を提供する。 さらに, UDT-Corpus と呼ばれるユーザ行動に注釈を付けた最初の中国語-英語並列コーパスを寄贈した。 実験により,提案するユーザ駆動nmtがユーザ固有の翻訳を生成できることが確認された。

A good translation should not only translate the original content semantically, but also incarnate personal traits of the original text. For a real-world neural machine translation (NMT) system, these user traits (e.g., topic preference, stylistic characteristics and expression habits) can be preserved in user behavior (e.g., historical inputs). However, current NMT systems marginally consider the user behavior due to: 1) the difficulty of modeling user portraits in zero-shot scenarios, and 2) the lack of user-behavior annotated parallel dataset. To fill this gap, we introduce a novel framework called user-driven NMT. Specifically, a cache-based module and a user-driven contrastive learning method are proposed to offer NMT the ability to capture potential user traits from their historical inputs under a zero-shot learning fashion. Furthermore, we contribute the first Chinese-English parallel corpus annotated with user behavior called UDT-Corpus. Experimental results confirm that the proposed user-driven NMT can generate user-specific translations.
翻訳日:2021-06-15 01:27:48 公開日:2021-06-11
# (参考訳) グラフニューラルネットワーク外挿のためのプール学習 [全文訳有]

Learning to Pool in Graph Neural Networks for Extrapolation ( http://arxiv.org/abs/2106.06210v1 )

ライセンス: CC BY 4.0
Jihoon Ko, Taehyung Kwon, Kijung Shin, Juho Lee(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データでディープラーニングを使用するための最も一般的なアプローチの1つであり、さまざまなタスクで最先端のパフォーマンスを示している。 しかし,近年の研究では,GNNの集計や読み出し操作に使用されるプール機能の慎重に選択することが,GNNの外挿を可能にする上で重要である。 タスク間で異なるプール関数の理想的な組み合わせがなければ、gnnは完全に分散データへの一般化に失敗し、可能な組み合わせの数は層数とともに指数関数的に増加する。 本稿では、任意のタスクに対してエンドツーエンドにトレーニング可能な、GNP($L^p$ norm-like pooling function)を提案する。 特に、GNPは広く使われているプール関数の大部分を一般化する。 実験により、すべてのプール関数をGNPに置き換えることで、GNNが多くのノードレベル、グラフレベル、セット関連タスクをうまく外挿できることが検証された。

Graph neural networks (GNNs) are one of the most popular approaches to using deep learning on graph-structured data, and they have shown state-of-the-art performances on a variety of tasks. However, according to a recent study, a careful choice of pooling functions, which are used for the aggregation or readout operation in GNNs, is crucial for enabling GNNs to extrapolate. Without the ideal combination of pooling functions, which varies across tasks, GNNs completely fail to generalize to out-of-distribution data, while the number of possible combinations grows exponentially with the number of layers. In this paper, we present GNP, a $L^p$ norm-like pooling function that is trainable end-to-end for any given task. Notably, GNP generalizes most of the widely-used pooling functions. We verify experimentally that simply replacing all pooling functions with GNP enables GNNs to extrapolate well on many node-level, graph-level, and set-related tasks; and GNP sometimes performs even better than optimal combinations of existing pooling functions.
翻訳日:2021-06-15 01:13:29 公開日:2021-06-11
# (参考訳) Graph Transformer Networks: GNNを改善するメタパスグラフの学習 [全文訳有]

Graph Transformer Networks: Learning Meta-path Graphs to Improve GNNs ( http://arxiv.org/abs/2106.06218v1 )

ライセンス: CC BY 4.0
Seongjun Yun, Minbyul Jeong, Sungdong Yoo, Seunghun Lee, Sean S. Yi, Raehyun Kim, Jaewoo Kang, Hyunwoo J. Kim(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの強力な表現のため、様々な分野に広く応用されている。 GNNの成功にもかかわらず、既存のほとんどのGNNは、固定および均質グラフ上のノード表現を学ぶように設計されている。 この制限は、様々な種類のノードとエッジからなる不特定のグラフや異種グラフで表現を学ぶ際に特に問題となる。 この制限に対処するために,新しいグラフ構造を生成可能なグラフトランスフォーマーネットワーク(GTN)を提案する。これはノイズの多い接続を防止し,タスクに有用な接続(メタパスなど)を含むとともに,新しいグラフのノード表現をエンドツーエンドで学習する。 さらに,gtnsの拡張版であるfast graph transformer networks(fastgtns)を提案し,グラフ変換のスケーラビリティを向上させる。 GTNと比較して、FastGTNsは230倍高速で、100倍少ないメモリを使用し、GTNsと同じグラフ変換を可能にする。 さらに、グラフ変換をメタパス以外の非局所操作を可能にするノードの意味的近接に拡張する。 均質グラフとヘテロジニアスグラフの両方の広範な実験により、非局所演算を持つgtnsとfastgtnがノード分類タスクの最先端の性能を達成することが示された。 https://github.com/s eongjunyun/Graph_Tra nsformer_Networks

Graph Neural Networks (GNNs) have been widely applied to various fields due to their powerful representations of graph-structured data. Despite the success of GNNs, most existing GNNs are designed to learn node representations on the fixed and homogeneous graphs. The limitations especially become problematic when learning representations on a misspecified graph or a heterogeneous graph that consists of various types of nodes and edges. To address this limitations, we propose Graph Transformer Networks (GTNs) that are capable of generating new graph structures, which preclude noisy connections and include useful connections (e.g., meta-paths) for tasks, while learning effective node representations on the new graphs in an end-to-end fashion. We further propose enhanced version of GTNs, Fast Graph Transformer Networks (FastGTNs), that improve scalability of graph transformations. Compared to GTNs, FastGTNs are 230x faster and use 100x less memory while allowing the identical graph transformations as GTNs. In addition, we extend graph transformations to the semantic proximity of nodes allowing non-local operations beyond meta-paths. Extensive experiments on both homogeneous graphs and heterogeneous graphs show that GTNs and FastGTNs with non-local operations achieve the state-of-the-art performance for node classification tasks. The code is available: https://github.com/s eongjunyun/Graph_Tra nsformer_Networks
翻訳日:2021-06-15 00:57:38 公開日:2021-06-11
# (参考訳) パラフレーズからセマンティックパーシング:同期セマンティックデコーディングによる教師なしセマンティックパーシング [全文訳有]

From Paraphrasing to Semantic Parsing: Unsupervised Semantic Parsing via Synchronous Semantic Decoding ( http://arxiv.org/abs/2106.06228v1 )

ライセンス: CC0 1.0
Shan Wu, Bo Chen, Chunlei Xin, Xianpei Han, Le Sun, Weipeng Zhang, Jiansong Chen, Fan Yang, Xunliang Cai(参考訳) セマンティクス解析は、構造ギャップと発話と論理形式の間のセマンティクスギャップのために難しい。 本稿では,パラフレージングと文法制約付きデコーディングを併用することにより,意味的ギャップと構造的ギャップを同時に解消する,教師なし意味解析手法であるSynchronous Semantic Decoding(SSD)を提案する。 具体的には、セマンティックパーシングを制約付きパラフレーズ問題として再構成する: 発話が与えられた場合、我々のモデルは、その標準発話と意味表現を同期的に生成する。 同期復号: 発話パラフレージングは論理形式の構造によって制約されるため、標準発話は制御的にパラフレージングされ、意味復号は標準発話の意味論によって導かれるため、その論理形式は教師なし生成することができる。 実験の結果、ssdは有望なアプローチであり、複数のデータセットで競合しないセマンティックパース性能を達成できることが示されている。

Semantic parsing is challenging due to the structure gap and the semantic gap between utterances and logical forms. In this paper, we propose an unsupervised semantic parsing method - Synchronous Semantic Decoding (SSD), which can simultaneously resolve the semantic gap and the structure gap by jointly leveraging paraphrasing and grammar constrained decoding. Specifically, we reformulate semantic parsing as a constrained paraphrasing problem: given an utterance, our model synchronously generates its canonical utterance and meaning representation. During synchronous decoding: the utterance paraphrasing is constrained by the structure of the logical form, therefore the canonical utterance can be paraphrased controlledly; the semantic decoding is guided by the semantics of the canonical utterance, therefore its logical form can be generated unsupervisedly. Experimental results show that SSD is a promising approach and can achieve competitive unsupervised semantic parsing performance on multiple datasets.
翻訳日:2021-06-15 00:32:17 公開日:2021-06-11
# (参考訳) Sprachsynthese--engl ischer と deutscher Spracheの現況 [全文訳有]

Sprachsynthese -- State-of-the-Art in englischer und deutscher Sprache ( http://arxiv.org/abs/2106.06230v1 )

ライセンス: CC BY-SA 4.0
Ren\'e Peinl(参考訳) テキストの読み上げは、現代のコンピュータアプリケーションにとって重要な機能である。 視覚障がい者の情報へのアクセスが容易になるだけでなく、障害のないユーザーにとっても快適な利便性となる。 本稿では,メル・スペクトログラム生成とボコーダのために,音声合成技術の現状を別々に提示する。 英語からドイツ語への優れた音声合成結果の伝達性について論じ、英語とドイツ語で利用可能なデータセットの概要で締めくくっている。

Reading text aloud is an important feature for modern computer applications. It not only facilitates access to information for visually impaired people, but is also a pleasant convenience for non-impaired users. In this article, the state of the art of speech synthesis is presented separately for mel-spectrogram generation and vocoders. It concludes with an overview of available data sets for English and German with a discussion of the transferability of the good speech synthesis results from English to German language.
翻訳日:2021-06-14 23:54:07 公開日:2021-06-11
# (参考訳) 対話型テキスト合成のためのマルチモーダル階層型コンテキストエンコーディングによる音声スタイル学習 [全文訳有]

Spoken Style Learning with Multi-modal Hierarchical Context Encoding for Conversational Text-to-Speech Synthesis ( http://arxiv.org/abs/2106.06233v1 )

ライセンス: CC BY 4.0
Jingbei Li, Yi Meng, Chenyi Li, Zhiyong Wu, Helen Meng, Chao Weng and Dan Su(参考訳) 対話型音声合成システム(TTS)では,歴史的会話において,異なる内容や話し方に応じて合成音声の音声スタイルを調整できることが不可欠である。 しかし、歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。 歴史的な会話の書き起こしのみが考慮され、歴史演説の話し方を無視している。 さらに、話者間のグローバルな側面の相互作用のみをモデル化し、各話者内のパーティ側面の自己相互作用を欠いている。 本稿では,対話型ttsのための音声スタイル学習を向上すべく,マルチモーダル階層的コンテキストエンコーディングを用いた音声スタイル学習手法を提案する。 歴史的な会話におけるテキスト情報と音声のスタイルは、複数の階層的再帰的ニューラルネットワークを通して処理され、グローバルおよびパーティの側面で音声のスタイルに関連する特徴を学ぶ。 注意機構はこれらの特徴を会話コンテキストエンコーディングに要約するためにさらに用いられる。 提案手法の有効性を実験的に検証し,本手法の有効性を実証した。本手法は,大域的側面の書き起こしのみから学習した文脈エンコードを用いたベースライン法よりも優れており,mosスコアでは合成音声の自然性が3.138から3.408に向上し,36.45%のabx嗜好率がベースライン法を上回った。

For conversational text-to-speech (TTS) systems, it is vital that the systems can adjust the spoken styles of synthesized speech according to different content and spoken styles in historical conversations. However, the study about learning spoken styles from historical conversations is still in its infancy. Only the transcripts of the historical conversations are considered, which neglects the spoken styles in historical speeches. Moreover, only the interactions of the global aspect between speakers are modeled, missing the party aspect self interactions inside each speaker. In this paper, to achieve better spoken style learning for conversational TTS, we propose a spoken style learning approach with multi-modal hierarchical context encoding. The textual information and spoken styles in the historical conversations are processed through multiple hierarchical recurrent neural networks to learn the spoken style related features in global and party aspects. The attention mechanism is further employed to summarize these features into a conversational context encoding. Experimental results demonstrate the effectiveness of our proposed approach, which outperform a baseline method using context encoding learnt only from the transcripts in global aspects, with MOS score on the naturalness of synthesized speech increasing from 3.138 to 3.408 and ABX preference rate exceeding the baseline method by 36.45%.
翻訳日:2021-06-14 23:29:04 公開日:2021-06-11
# (参考訳) 視覚芸術のクラスタリングへのディープラーニングアプローチ [全文訳有]

A deep learning approach to clustering visual arts ( http://arxiv.org/abs/2106.06234v1 )

ライセンス: CC BY 4.0
Giovanna Castellano, Gennaro Vessio(参考訳) アートワークのクラスタリングはいくつかの理由から難しい。 一方、ドメイン知識と視覚的知覚に基づいて意味のあるパターンを認識することは極めて難しい。 一方, 従来のクラスタリング法や特徴量削減法を高次元画素空間に適用することは有効ではない。 本稿では,cLustering vIsUal artSに対するDeep LearningアプローチであるDELIUSを提案する。 この方法は、事前訓練された畳み込みネットワークを用いて特徴を抽出し、これらの特徴を深層クラスタリングモデルに供給し、この潜伏空間におけるクラスタセントロイドの集合を見つけるタスクと、生の入力データを潜伏空間にマッピングするタスクを協調的に最適化する。 定量的および定性的な実験結果から,提案手法の有効性が示された。 DELIUSは、特に絵画データセットにおける視覚的リンク検索と歴史的知識発見に関連するいくつかのタスクに有用である。

Clustering artworks is difficult for several reasons. On the one hand, recognizing meaningful patterns based on domain knowledge and visual perception is extremely hard. On the other hand, applying traditional clustering and feature reduction techniques to the highly dimensional pixel space can be ineffective. To address these issues, in this paper we propose DELIUS: a DEep learning approach to cLustering vIsUal artS. The method uses a pre-trained convolutional network to extract features and then feeds these features into a deep embedded clustering model, where the task of mapping the raw input data to a latent space is jointly optimized with the task of finding a set of cluster centroids in this latent space. Quantitative and qualitative experimental results show the effectiveness of the proposed method. DELIUS can be useful for several tasks related to art analysis, in particular visual link retrieval and historical knowledge discovery in painting datasets.
翻訳日:2021-06-14 23:17:31 公開日:2021-06-11
# (参考訳) 多様な敵の攻撃に対する知識強化機械学習パイプライン

Knowledge Enhanced Machine Learning Pipeline against Diverse Adversarial Attacks ( http://arxiv.org/abs/2106.06235v1 )

ライセンス: CC BY 4.0
Nezihe Merve G\"urel, Xiangyu Qi, Luka Rimanic, Ce Zhang, Bo Li(参考訳) ディープニューラルネットワーク(DNN)によって達成された大きな成功にもかかわらず、最近の研究は、DNNを小さな敵の摂動を加えることで誤解を招くことを目的とした、敵の例に対して脆弱であることを示している。 このような攻撃に対していくつかの防衛策が提案され、その多くが適応攻撃を受けた。 本研究では、ドメイン知識を活用することでMLのロバスト性を高めることを目的としている。 ドメイン知識(例えば、異なる予測間のロジック関係)を1次論理ルールを介して確率的グラフィカルモデルに統合する知識強化機械学習パイプライン(KEMLP)を提案する。 特に,対象タスクを実行する主dnnモデルと論理関係に基づいて,多様な弱補助モデルを統合することで,kemlpを開発した。 理論的には、収束結果を提供し、穏やかな条件下では、KEMLPの予測がメインのDNNモデルよりも頑健であることを示す。 実証的に,道路標識認識を例として捉え,道路標識とその形状と内容との関係をドメイン知識として活用する。 敵のトレーニングやその他のベースラインと比較すると、kemlpは物理的攻撃に対する高い堅牢性、$\mathcal{l}_p$ 境界攻撃、予期せぬ攻撃、ホワイトボックスとブラックボックスの設定下での自然な腐敗を実現し、高いクリーンな精度を維持している。

Despite the great successes achieved by deep neural networks (DNNs), recent studies show that they are vulnerable against adversarial examples, which aim to mislead DNNs by adding small adversarial perturbations. Several defenses have been proposed against such attacks, while many of them have been adaptively attacked. In this work, we aim to enhance the ML robustness from a different perspective by leveraging domain knowledge: We propose a Knowledge Enhanced Machine Learning Pipeline (KEMLP) to integrate domain knowledge (i.e., logic relationships among different predictions) into a probabilistic graphical model via first-order logic rules. In particular, we develop KEMLP by integrating a diverse set of weak auxiliary models based on their logical relationships to the main DNN model that performs the target task. Theoretically, we provide convergence results and prove that, under mild conditions, the prediction of KEMLP is more robust than that of the main DNN model. Empirically, we take road sign recognition as an example and leverage the relationships between road signs and their shapes and contents as domain knowledge. We show that compared with adversarial training and other baselines, KEMLP achieves higher robustness against physical attacks, $\mathcal{L}_p$ bounded attacks, unforeseen attacks, and natural corruptions under both whitebox and blackbox settings, while still maintaining high clean accuracy.
翻訳日:2021-06-14 22:59:28 公開日:2021-06-11
# (参考訳) アイテム応答理論を用いた教師なし異常検出アンサンブル [全文訳有]

Unsupervised Anomaly Detection Ensembles using Item Response Theory ( http://arxiv.org/abs/2106.06243v1 )

ライセンス: CC BY 4.0
Sevvandi Kandanaarachchi(参考訳) クラスラベルや基底真理が不明なため、教師なし異常検出手法の不均一集合からアンサンブルを構築することは困難である。 したがって、応答変数やクラスラベルを使用する従来のアンサンブル技術は、教師なし異常検出のためのアンサンブルを構築するには使用できない。 項目応答理論(irt:item response theory)は、学生の質問特性を評価するために、教育心理測定で用いられるモデルのクラスであり、教師なしの異常検出アンサンブルを構築するために用いられる。 IRTの潜伏特性計算は、潜伏特性が隠れた地面の真実を明らかにするために使用できるため、異常検出に役立ちます。 そこで本研究では,新しいIRTマッピングを異常検出問題に適用し,雑音や非識別手法,シャープな手法を付加できるアンサンブルを構築した。 本稿では,IRTアンサンブルの性能を他のアンサンブル技術と比較することにより,データリポジトリ上でのIRTアンサンブルの有効性を示す。

Constructing an ensemble from a heterogeneous set of unsupervised anomaly detection methods is challenging because the class labels or the ground truth is unknown. Thus, traditional ensemble techniques that use the response variable or the class labels cannot be used to construct an ensemble for unsupervised anomaly detection. We use Item Response Theory (IRT) -- a class of models used in educational psychometrics to assess student and test question characteristics -- to construct an unsupervised anomaly detection ensemble. IRT's latent trait computation lends itself to anomaly detection because the latent trait can be used to uncover the hidden ground truth. Using a novel IRT mapping to the anomaly detection problem, we construct an ensemble that can downplay noisy, non-discriminatory methods and accentuate sharper methods. We demonstrate the effectiveness of the IRT ensemble on an extensive data repository, by comparing its performance to other ensemble techniques.
翻訳日:2021-06-14 22:57:16 公開日:2021-06-11
# (参考訳) ベイズ自動エンコーダのモデル選択

Model Selection for Bayesian Autoencoders ( http://arxiv.org/abs/2106.06245v1 )

ライセンス: CC BY 4.0
Ba-Hien Tran and Simone Rossi and Dimitrios Milios and Pietro Michiardi and Edwin V. Bonilla and Maurizio Filippone(参考訳) ベイジアンオートエンコーダ(BAE)の事前パラメータ最適化によるモデル選択を行う新しい手法を開発した。 タイプIIの最大値最適化とKulback-Leibler分散最小化の等価性に着想を得て,オートエンコーダの出力と経験データ分布との間の分散スライス-ワッサーシュタイン距離(DSWD)を最適化することを提案する。 この定式化の利点は、サンプルに基づいてDSWDを推定し、高次元問題に対処できることである。 確率勾配ハミルトンモンテカルロによるBAEパラメータの後方推定を行い、潜在空間にフレキシブルディリクレ混合モデルを適用することにより、BAEを生成モデルに変換する。 その結果,不確実性を持つ表現学習のための現代的オートエンコーダとして好まれる変分オートエンコーダに代わる強力な選択肢が得られた。 我々は,多くの教師なし学習課題に対する大規模な実験的キャンペーンを質的かつ定量的に評価し,先行研究が重要となる小規模データ体制において,本手法が最先端の成果をもたらし,複数の競争基準を上回ることを示す。

We develop a novel method for carrying out model selection for Bayesian autoencoders (BAEs) by means of prior hyper-parameter optimization. Inspired by the common practice of type-II maximum likelihood optimization and its equivalence to Kullback-Leibler divergence minimization, we propose to optimize the distributional sliced-Wasserstein distance (DSWD) between the output of the autoencoder and the empirical data distribution. The advantages of this formulation are that we can estimate the DSWD based on samples and handle high-dimensional problems. We carry out posterior estimation of the BAE parameters via stochastic gradient Hamiltonian Monte Carlo and turn our BAE into a generative model by fitting a flexible Dirichlet mixture model in the latent space. Consequently, we obtain a powerful alternative to variational autoencoders, which are the preferred choice in modern applications of autoencoders for representation learning with uncertainty. We evaluate our approach qualitatively and quantitatively using a vast experimental campaign on a number of unsupervised learning tasks and show that, in small-data regimes where priors matter, our approach provides state-of-the-art results, outperforming multiple competitive baselines.
翻訳日:2021-06-14 22:39:59 公開日:2021-06-11
# (参考訳) HPO-B: OpenMLに基づくブラックボックスHPOの大規模再現可能なベンチマーク [全文訳有]

HPO-B: A Large-Scale Reproducible Benchmark for Black-Box HPO based on OpenML ( http://arxiv.org/abs/2106.06257v1 )

ライセンス: CC BY 4.0
Sebastian Pineda Arango, Hadi S. Jomaa, Martin Wistuba, Josif Grabocka(参考訳) ハイパーパラメータ最適化(HPO)は、機械学習コミュニティの中核的な問題であり、ハイパーパラメータの構成を評価するのに必要な計算資源が大きいため、ほとんど未解決のままである。 その結果、最近の一連の研究は、データセット上で素早く微調整されたハイパーパラメーターの転送学習の方向に焦点を当てている。 残念ながら、コミュニティはHPOアルゴリズムを比較するための一般的な大規模ベンチマークを持っていない。 むしろデファクトの実践は、出版物間で矛盾なく変化する任意の小規模メタデータセットに関する実証的なプロトコルで構成されており、再現性は困難である。 このボトルネックを解消し、レベルプレイフィールド上でのブラックボックスHPO法の公正かつ高速な比較を可能にするために、メタデータセットの集合という形で新しい大規模ベンチマークであるHPO-Bを提案する。 ベンチマークはOpenMLリポジトリから収集および前処理され、合計640万ハイパーパラメーター評価の196データセットに対して176の検索スペース(アルゴリズム)をスパースに評価する。 本ベンチマークで再現性を確保するため,非参照法と移動学習HPOの両手法を比較するための実験的プロトコル,分割,評価尺度を詳述した。

Hyperparameter optimization (HPO) is a core problem for the machine learning community and remains largely unsolved due to the significant computational resources required to evaluate hyperparameter configurations. As a result, a series of recent related works have focused on the direction of transfer learning for quickly fine-tuning hyperparameters on a dataset. Unfortunately, the community does not have a common large-scale benchmark for comparing HPO algorithms. Instead, the de facto practice consists of empirical protocols on arbitrary small-scale meta-datasets that vary inconsistently across publications, making reproducibility a challenge. To resolve this major bottleneck and enable a fair and fast comparison of black-box HPO methods on a level playing field, we propose HPO-B, a new large-scale benchmark in the form of a collection of meta-datasets. Our benchmark is assembled and preprocessed from the OpenML repository and consists of 176 search spaces (algorithms) evaluated sparsely on 196 datasets with a total of 6.4 million hyperparameter evaluations. For ensuring reproducibility on our benchmark, we detail explicit experimental protocols, splits, and evaluation measures for comparing methods for both non-transfer, as well as, transfer learning HPO.
翻訳日:2021-06-14 22:38:29 公開日:2021-06-11
# (参考訳) 眼と頭部の追跡で関節鏡視下手術中の外科医の混乱が判明 [全文訳有]

States of confusion: Eye and Head tracking reveal surgeons' confusion during arthroscopic surgery ( http://arxiv.org/abs/2106.06261v1 )

ライセンス: CC BY-SA 4.0
Benedikt Hosp, Myat Su Yin, peter Haddawy, Ratthapoom Watcharporas, paphon Sa-ngasoonsong, Enkelejda Kasneci(参考訳) 鏡視下手術では、外科医は3D手術部位に出力される2Dスクリーンの認知的再投影や、非常に類似した組織へのナビゲーションといった課題に直面している。 これらの認知過程の訓練は若い外科医にとって多くの時間と労力を要するが、教育には必要かつ不可欠である。 本研究では, 鏡視下手術における若年者外科医の混乱状態の認識方法について, 眼球運動と頭部運動を観察し, 機械学習モデルに与えることで示す。 精度は94\%以上,検出速度0.039秒以上であり,鏡視下手術中の外科医の知覚認知過程のオンライン診断・訓練システムへの一歩である。

During arthroscopic surgeries, surgeons are faced with challenges like cognitive re-projection of the 2D screen output into the 3D operating site or navigation through highly similar tissue. Training of these cognitive processes takes much time and effort for young surgeons, but is necessary and crucial for their education. In this study we want to show how to recognize states of confusion of young surgeons during an arthroscopic surgery, by looking at their eye and head movements and feeding them to a machine learning model. With an accuracy of over 94\% and detection speed of 0.039 seconds, our model is a step towards online diagnostic and training systems for the perceptual-cognitive processes of surgeons during arthroscopic surgeries.
翻訳日:2021-06-14 22:18:53 公開日:2021-06-11
# (参考訳) 完全リコール型ゼロサム部分可観測マルコフゲームのためのモデルフリー学習 [全文訳有]

Model-Free Learning for Two-Player Zero-Sum Partially Observable Markov Games with Perfect Recall ( http://arxiv.org/abs/2106.06279v1 )

ライセンス: CC BY 4.0
Tadashi Kozuno, Pierre M\'enard, R\'emi Munos, Michal Valko(参考訳) 非完全情報ゲーム(iig)におけるnash平衡(ne)の学習問題を自己遊びを通して検討する。 正確には、2つのプレイヤー、ゼロサム、エピソディック、タブ状のIIGに焦点をあてる。 特にIIGのダイナミックさは知られていないが、ゲームシミュレーターをサンプリングしたり操作することでのみアクセスすることができる。 この学習環境において,Implicit Exploration Online Mirror Descent (IXOMD)アルゴリズムを提案する。 1/\sqrt{t}$(ただし$t$はプレイされたゲーム数)のneに収束率を限定したモデルフリーのアルゴリズムである。 さらに、IXOMDはサンプリングされた軌道に沿ってのみ更新を実行する必要があるため、計算的に効率的である。

We study the problem of learning a Nash equilibrium (NE) in an imperfect information game (IIG) through self-play. Precisely, we focus on two-player, zero-sum, episodic, tabular IIG under the perfect-recall assumption where the only feedback is realizations of the game (bandit feedback). In particular, the dynamic of the IIG is not known -- we can only access it by sampling or interacting with a game simulator. For this learning setting, we provide the Implicit Exploration Online Mirror Descent (IXOMD) algorithm. It is a model-free algorithm with a high-probability bound on the convergence rate to the NE of order $1/\sqrt{T}$ where $T$ is the number of played games. Moreover, IXOMD is computationally efficient as it needs to perform the updates only along the sampled trajectory.
翻訳日:2021-06-14 22:11:55 公開日:2021-06-11
# (参考訳) 繰り返しの高速重みプログラムによる線形変換器を越える [全文訳有]

Going Beyond Linear Transformers with Recurrent Fast Weight Programmers ( http://arxiv.org/abs/2106.06295v1 )

ライセンス: CC BY 4.0
Kazuki Irie, Imanol Schlag, R\'obert Csord\'as, J\"urgen Schmidhuber(参考訳) 線形に注意を向けた変換器(線形変換器)は,90年代以降,外部製品ベースのFWP(Fast Weight Programmers)の実用的スケーラビリティと有効性を示した。 しかしながら、元のFWPの定式化は線形トランスフォーマーよりも一般的である: 遅いニューラルネットワーク(NN)は、任意のNNアーキテクチャで高速NNの重みを継続的にプログラムする。 既存の線形トランスフォーマーでは、両方のnnはフィードフォワードであり、単一の層で構成されている。 ここでは、遅くて速いネットに再発を加えることで、新しいバリエーションを探求する。 我々は2つの合成アルゴリズムタスク(コード実行とシーケンシャルリストOps)、Wikitext-103言語モデル、およびAtari 2600 2Dゲーム環境において、新しいFWP(RFWP)を評価する。 我々のモデルはトランスフォーマーとRNNの特性を示す。 強化学習環境では,アタリゲームにおけるLSTMの大幅な改善が報告されている。 私たちのコードは公開されています。

Transformers with linearised attention ("linear Transformers") have demonstrated the practical scalability and effectiveness of outer product-based Fast Weight Programmers (FWPs) from the '90s. However, the original FWP formulation is more general than the one of linear Transformers: a slow neural network (NN) continually reprograms the weights of a fast NN with arbitrary NN architectures. In existing linear Transformers, both NNs are feedforward and consist of a single layer. Here we explore new variations by adding recurrence to the slow and fast nets. We evaluate our novel recurrent FWPs (RFWPs) on two synthetic algorithmic tasks (code execution and sequential ListOps), Wikitext-103 language models, and on the Atari 2600 2D game environment. Our models exhibit properties of Transformers and RNNs. In the reinforcement learning setting, we report large improvements over LSTM in several Atari games. Our code is public.
翻訳日:2021-06-14 21:20:16 公開日:2021-06-11
# (参考訳) コンテンツ継続的進化のための動的言語モデル [全文訳有]

Dynamic Language Models for Continuously Evolving Content ( http://arxiv.org/abs/2106.06297v1 )

ライセンス: CC BY 4.0
Spurthi Amba Hombaiah and Tao Chen and Mingyang Zhang and Michael Bendersky and Marc Najork(参考訳) web上のコンテンツは一定のフラックス状態にある。 新しいエンティティ、イシュー、アイデアが継続的に出現し、既存の会話トピックの意味が徐々に変化する。 近年、BERTのような事前訓練された言語モデルは、幅広いコンテンツ理解タスクの最先端性を大幅に改善した。 そこで本稿では,これらの言語モデルをウェブコンテンツの継続的な進化にどう適応させるかを検討する。 本研究は,2013~2019年のtwitterデータの進化を最初に分析し,過去のツイートに基づいてトレーニングされたbertモデルが,後年のデータに直接適用されると著しく劣化することを確認した。 そこで本研究では,既存のトークンの意味的変化と,新たなトークンの理解に失敗した2つの原因について検討する。 この目的のために,2つの異なる語彙合成法を探索し,BERT型モデルの効率的なインクリメンタルトレーニングを支援する3つのサンプリング法を提案する。 オフラインでスクラッチからトレーニングされた新しいモデルと比較すると、インクリメンタルトレーニング(a)はトレーニングコストを削減し、(b)コンテンツの進化においてよりよいパフォーマンスを達成し、(c)オンラインデプロイメントに適している。 本手法の優位性は2つの下流タスクを用いて検証する。 国別ハッシュタグ予測のタスクとOffensEval 2019タスクに基づいて,特定のベース年から段階的にモデルを進化させる際の大幅な改善を示す。

The content on the web is in a constant state of flux. New entities, issues, and ideas continuously emerge, while the semantics of the existing conversation topics gradually shift. In recent years, pre-trained language models like BERT greatly improved the state-of-the-art for a large spectrum of content understanding tasks. Therefore, in this paper, we aim to study how these language models can be adapted to better handle continuously evolving web content. In our study, we first analyze the evolution of 2013 - 2019 Twitter data, and unequivocally confirm that a BERT model trained on past tweets would heavily deteriorate when directly applied to data from later years. Then, we investigate two possible sources of the deterioration: the semantic shift of existing tokens and the sub-optimal or failed understanding of new tokens. To this end, we both explore two different vocabulary composition methods, as well as propose three sampling methods which help in efficient incremental training for BERT-like models. Compared to a new model trained from scratch offline, our incremental training (a) reduces the training costs, (b) achieves better performance on evolving content, and (c) is suitable for online deployment. The superiority of our methods is validated using two downstream tasks. We demonstrate significant improvements when incrementally evolving the model from a particular base year, on the task of Country Hashtag Prediction, as well as on the OffensEval 2019 task.
翻訳日:2021-06-14 20:50:35 公開日:2021-06-11
# (参考訳) DG-LMC: ターンキーおよびスケーラブル同期分散MCMCアルゴリズム

DG-LMC: A Turn-key and Scalable Synchronous Distributed MCMC Algorithm ( http://arxiv.org/abs/2106.06300v1 )

ライセンス: CC BY 4.0
Vincent Plassier, Maxime Vono, Alain Durmus and Eric Moulines(参考訳) ビッグデータスケールで信頼性の高いベイズ推論を行うことは、機械学習の現代における重要な基盤になりつつある。 このタスクを実現するためのワークホースクラスとして,マルコフ連鎖モンテカルロ(MCMC)アルゴリズムがあり,分散データセットを扱うための設計が多くの研究の対象となっている。 しかし、既存の手法は信頼性も計算効率も十分ではない。 本稿では,マスタ/スラヴアーキテクチャの下でクラスタ内の計算ノード上にデータセットが分割され,格納される場合において,このギャップを埋めることを提案する。 ユーザフレンドリな分散MCMCアルゴリズムから高次元設定でのスケーリングを実現する。 本稿では,合成実験および実データ実験における提案手法の有効性について述べる。

Performing reliable Bayesian inference on a big data scale is becoming a keystone in the modern era of machine learning. A workhorse class of methods to achieve this task are Markov chain Monte Carlo (MCMC) algorithms and their design to handle distributed datasets has been the subject of many works. However, existing methods are not completely either reliable or computationally efficient. In this paper, we propose to fill this gap in the case where the dataset is partitioned and stored on computing nodes within a cluster under a master/slaves architecture. We derive a user-friendly centralised distributed MCMC algorithm with provable scaling in high-dimensional settings. We illustrate the relevance of the proposed methodology on both synthetic and real data experiments.
翻訳日:2021-06-14 20:31:02 公開日:2021-06-11
# (参考訳) 画像に基づくグラフニューラルネットワークの探索 [全文訳有]

Survey of Image Based Graph Neural Networks ( http://arxiv.org/abs/2106.06307v1 )

ライセンス: CC BY 4.0
Usman Nazir, He Wang and Murtaza Taj(参考訳) 本稿では,画像に基づくグラフニューラルネットワークを分析し,3段階の分類手法を提案する。 入力データの30%を削減するために、まずQuickshiftアルゴリズムを用いて画像をスーパーピクセルに変換する。 スーパーピクセルはその後、領域隣接グラフを生成するために使用される。 最後に、グラフは最先端のグラフ畳み込みニューラルネットワークを通過して分類スコアを取得する。 また,グラフニューラルネットワークにおける空間的およびスペクトル的畳み込みフィルタリング手法の解析を行った。 スペクトルモデルの方が空間モデルや従来のCNNよりも計算コストが低い。

In this survey paper, we analyze image based graph neural networks and propose a three-step classification approach. We first convert the image into superpixels using the Quickshift algorithm so as to reduce 30% of the input data. The superpixels are subsequently used to generate a region adjacency graph. Finally, the graph is passed through a state-of-art graph convolutional neural network to get classification scores. We also analyze the spatial and spectral convolution filtering techniques in graph neural networks. Spectral-based models perform better than spatial-based models and classical CNN with lesser compute cost.
翻訳日:2021-06-14 20:29:36 公開日:2021-06-11
# (参考訳) HUI-Audio-Corpus-Ger man: A high quality TTS data [全文訳有]

HUI-Audio-Corpus-Ger man: A high quality TTS dataset ( http://arxiv.org/abs/2106.06309v1 )

ライセンス: CC BY-SA 4.0
Pascal Puchtler, Johannes Wirth and Ren\'e Peinl(参考訳) インターネット上での音声データの可用性の高まりは、ニューラルネットワークに基づいたテキストから音声へのアプリケーションの開発とトレーニングのためのデータセットの多岐にわたる。 音声品質の相違、サンプリングレートの低さ、テキスト正規化の欠如、音声サンプルの対応する転写文への不適切なアライメントは、このタスクでトレーニングされたディープニューラルネットワークの性能を制限している。 加えて、ドイツ語のような言語のデータ資源は依然として非常に限られている。 本稿では,TTSエンジン用の大規模オープンソースデータセットであるHUI-Audio-Corpus-Ger manを紹介した。

The increasing availability of audio data on the internet lead to a multitude of datasets for development and training of text to speech applications, based on neural networks. Highly differing quality of voice, low sampling rates, lack of text normalization and disadvantageous alignment of audio samples to corresponding transcript sentences still limit the performance of deep neural networks trained on this task. Additionally, data resources in languages like German are still very limited. We introduce the "HUI-Audio-Corpus-Ger man", a large, open-source dataset for TTS engines, created with a processing pipeline, which produces high quality audio to transcription alignments and decreases manual effort needed for creation.
翻訳日:2021-06-14 20:19:09 公開日:2021-06-11
# (参考訳) tohan: マイナショット仮説適応へのワンステップアプローチ [全文訳有]

TOHAN: A One-step Approach towards Few-shot Hypothesis Adaptation ( http://arxiv.org/abs/2106.06326v1 )

ライセンス: CC BY 4.0
Haoang Chi and Feng Liu and Wenjing Yang and Long Lan and Tongliang Liu and Bo Han and William K. Cheung and James T. Kwok(参考訳) 少数ショットドメイン適応(FDA)では、ターゲットドメインの分類器は、ソースドメイン(SD)内のアクセス可能なラベル付きデータとターゲットドメイン(TD)内のラベル付きデータとで訓練される。 しかし、データは通常、現在の時代のプライベート情報(例えば、携帯電話に分散されたデータ)を含んでいる。 したがって、SD内のデータに直接アクセスしてターゲットドメイン分類器(FDA法で要求される)をトレーニングすれば、プライベート情報が漏洩する。 本稿では、SDのプライバシー漏洩を徹底的に防止するために、TDの分類器を少数のラベル付きターゲットデータとよく訓練されたSD分類器(FHA)を用いて訓練する必要がある、非常に困難な課題について考察する。 FHAでは、SD内のデータにアクセスできないため、SD内の個人情報はよく保護される。 この目的のために、FHA問題を解決するためにターゲット指向仮説適応ネットワーク(TOHAN)を提案し、高い互換性のない未ラベルデータ(中間ドメイン)を生成し、ターゲットドメイン分類器の訓練を支援する。 TOHANは2つの深いネットワークを同時に維持し、一方は中間領域の学習に焦点をあて、もう一方は中間から目標への分布適応と目標リスク最小化の処理を行う。 実験の結果,tohanは競争ベースラインを大きく上回っている。

In few-shot domain adaptation (FDA), classifiers for the target domain are trained with accessible labeled data in the source domain (SD) and few labeled data in the target domain (TD). However, data usually contain private information in the current era, e.g., data distributed on personal phones. Thus, the private information will be leaked if we directly access data in SD to train a target-domain classifier (required by FDA methods). In this paper, to thoroughly prevent the privacy leakage in SD, we consider a very challenging problem setting, where the classifier for the TD has to be trained using few labeled target data and a well-trained SD classifier, named few-shot hypothesis adaptation (FHA). In FHA, we cannot access data in SD, as a result, the private information in SD will be protected well. To this end, we propose a target orientated hypothesis adaptation network (TOHAN) to solve the FHA problem, where we generate highly-compatible unlabeled data (i.e., an intermediate domain) to help train a target-domain classifier. TOHAN maintains two deep networks simultaneously, where one focuses on learning an intermediate domain and the other takes care of the intermediate-to-targ et distributional adaptation and the target-risk minimization. Experimental results show that TOHAN outperforms competitive baselines significantly.
翻訳日:2021-06-14 20:09:44 公開日:2021-06-11
# (参考訳) Nonmyopic Multifidelity Active Search [全文訳有]

Nonmyopic Multifidelity Active Search ( http://arxiv.org/abs/2106.06356v1 )

ライセンス: CC BY 4.0
Quan Nguyen, Arghavan Modiri, Roman Garnett(参考訳) アクティブ検索は学習パラダイムであり、ラベリング予算を考えると、希少で価値のあるクラスのメンバをできるだけ多く特定することを目指す。 以前のアクティブ検索に関する仕事は、オラクルが実験結果を報告する忠実な(かつ高価な)アクセスを想定していた。 しかし、いくつかの設定では、検索に役立つ計算シミュレーションのような安価なサロゲートにアクセスできる。 本稿では,多元的アクティブサーチのモデルと,最先端の古典的政策に動機づけられた,新しい計算効率の高い手法を提案する。 当社の方針は非自明で予算を意識しており、探索と搾取のダイナミックなトレードオフを可能にしています。 実世界のデータセット上でのソリューションの性能を評価し,自然ベンチマークよりも優れた性能を示す。

Active search is a learning paradigm where we seek to identify as many members of a rare, valuable class as possible given a labeling budget. Previous work on active search has assumed access to a faithful (and expensive) oracle reporting experimental results. However, some settings offer access to cheaper surrogates such as computational simulation that may aid in the search. We propose a model of multifidelity active search, as well as a novel, computationally efficient policy for this setting that is motivated by state-of-the-art classical policies. Our policy is nonmyopic and budget aware, allowing for a dynamic tradeoff between exploration and exploitation. We evaluate the performance of our solution on real-world datasets and demonstrate significantly better performance than natural benchmarks.
翻訳日:2021-06-14 19:50:22 公開日:2021-06-11
# (参考訳) 視覚的分類器隣接関係:話者検証と音声アンチスプーフィングを事例として [全文訳有]

Visualizing Classifier Adjacency Relations: A Case Study in Speaker Verification and Voice Anti-Spoofing ( http://arxiv.org/abs/2106.06362v1 )

ライセンス: CC BY-SA 4.0
Tomi Kinnunen, Andreas Nautsch, Md Sahidullah, Nicholas Evans, Xin Wang, Massimiliano Todisco, H\'ector Delgado, Junichi Yamagishi, Kong Aik Lee(参考訳) 結果の要約や分類器融合の分析のいずれにせよ、異なる分類器を比較する方法によっては、その振る舞い、(異なる)相似性、または相補性についての照明的な洞察を与えることがある。 本稿では,任意のバイナリ分類器が生成する検出スコアから,共通データセットに対応する2次元表現を簡易に導出する手法を提案する。 ランク相関に基づいて,任意のスコアと受信動作特性(ROC)および検出誤差トレードオフ(DET)分析と密接な関係を持つ分類器の視覚的比較を容易にする。 本手法は完全に汎用性があり,任意の検出タスクに応用できるが,自動話者照合と音声アンチスプーフィングシステムによるスコアを用いてその手法を実証する。 前者はvoxcelebデータでトレーニングされたガウス混合モデルシステムによって作成され、後者はasvspoof 2019チャレンジへの提出に由来する。

Whether it be for results summarization, or the analysis of classifier fusion, some means to compare different classifiers can often provide illuminating insight into their behaviour, (dis)similarity or complementarity. We propose a simple method to derive 2D representation from detection scores produced by an arbitrary set of binary classifiers in response to a common dataset. Based upon rank correlations, our method facilitates a visual comparison of classifiers with arbitrary scores and with close relation to receiver operating characteristic (ROC) and detection error trade-off (DET) analyses. While the approach is fully versatile and can be applied to any detection task, we demonstrate the method using scores produced by automatic speaker verification and voice anti-spoofing systems. The former are produced by a Gaussian mixture model system trained with VoxCeleb data whereas the latter stem from submissions to the ASVspoof 2019 challenge.
翻訳日:2021-06-14 19:34:29 公開日:2021-06-11
# (参考訳) 制約クラスタリングのための深い条件付きガウス混合モデル [全文訳有]

Deep Conditional Gaussian Mixture Model for Constrained Clustering ( http://arxiv.org/abs/2106.06385v1 )

ライセンス: CC BY 4.0
Laura Manduchi, Kieran Chin-Cheong, Holger Michel, Sven Wellmann, Julia E. Vogt(参考訳) 制約付きクラスタリングは、部分的にラベル付けされたデータの増加量に関する事前情報を活用できるため、機械学習分野において大きな注目を集めている。 近年の深層生成モデルの進歩を受け,直感的かつ解釈可能であり,確率的勾配変分推論の枠組みで効率的に学習できる制約付きクラスタリングのための新しい枠組みを提案する。 確率的関係の形でドメイン知識を明示的に統合することにより、提案モデル(dc-gmm)は、事前クラスタリングの好みに基づいて条件づけされたデータの分散をペアワイズ制約として明らかにする。 これらの制約は、どのサンプルが同じクラスタに属しるべきかを示すことによって、クラスタリングプロセスをデータの望ましいパーティションへと導く。 我々は,DC-GMMのクラスタリング性能とロバスト性について,幅広いデータセット上での最先端の制約クラスタリング法と比較した。 さらに,2つの実世界アプリケーションに対するアプローチの有用性を実証する。

Constrained clustering has gained significant attention in the field of machine learning as it can leverage prior information on a growing amount of only partially labeled data. Following recent advances in deep generative models, we propose a novel framework for constrained clustering that is intuitive, interpretable, and can be trained efficiently in the framework of stochastic gradient variational inference. By explicitly integrating domain knowledge in the form of probabilistic relations, our proposed model (DC-GMM) uncovers the underlying distribution of data conditioned on prior clustering preferences, expressed as pairwise constraints. These constraints guide the clustering process towards a desirable partition of the data by indicating which samples should or should not belong to the same cluster. We provide extensive experiments to demonstrate that DC-GMM shows superior clustering performances and robustness compared to state-of-the-art deep constrained clustering methods on a wide range of data sets. We further demonstrate the usefulness of our approach on two challenging real-world applications.
翻訳日:2021-06-14 19:24:04 公開日:2021-06-11
# (参考訳) Pythonの例による機能選択チュートリアル [全文訳有]

Feature Selection Tutorial with Python Examples ( http://arxiv.org/abs/2106.06437v1 )

ライセンス: CC BY 4.0
Padraig Cunningham, Bahavathy Kathirgamanathan, Sarah Jane Delany(参考訳) 機械学習では、モデル開発に使用するデータセットで利用可能な機能のサブセットを選択する必要がある。 機能選択には多くのモチベーションがあり、よりよいモデルをもたらす可能性があり、データに対する洞察を提供し、データ収集やデータ処理において経済をもたらす可能性がある。 これらの理由から、データ分析研究で機能選択が注目されている。 本稿では,Python の実装における主要な手法の概要と実例を紹介する。 主な焦点は、教師付き機能選択技術であるが、いくつかの機能変換方法についても取り上げる。

In Machine Learning, feature selection entails selecting a subset of the available features in a dataset to use for model development. There are many motivations for feature selection, it may result in better models, it may provide insight into the data and it may deliver economies in data gathering or data processing. For these reasons feature selection has received a lot of attention in data analytics research. In this paper we provide an overview of the main methods and present practical examples with Python implementations. While the main focus is on supervised feature selection techniques, we also cover some feature transformation methods.
翻訳日:2021-06-14 18:57:57 公開日:2021-06-11
# (参考訳) レジリエンス予測サービングシステムのためのCoded-InvNet [全文訳有]

Coded-InvNet for Resilient Prediction Serving Systems ( http://arxiv.org/abs/2106.06445v1 )

ライセンス: CC BY 4.0
Tuan Dinh, Kangwook Lee(参考訳) 非可逆関数に対する新しい符号化計算アルゴリズムにインスパイアされた我々は、トラグラーやノード障害を優雅に扱えるレジリエントな予測サービスシステムを設計するための新しいアプローチとして、Coded-InvNetを提案する。 Coded-InvNetは、Invertible Neural Network、Manifold Mixup、ドメイン翻訳アルゴリズムといったディープラーニング文学における最近の知見を活用し、機械学習とシステムにまたがる興味深い研究方向を特定する。 実験の結果,特に計算リソースのオーバーヘッドが10%以下であれば,Coded-InvNetは既存の手法よりも優れていることがわかった。 例えば、10人の作業員のどれが失敗するかを知らずに、我々のアルゴリズムは、不足した予測結果を85.9%の精度で正確に回復できるようにバックアップタスクを設計することができ、以前のSOTAよりも32.5%向上した。

Inspired by a new coded computation algorithm for invertible functions, we propose Coded-InvNet a new approach to design resilient prediction serving systems that can gracefully handle stragglers or node failures. Coded-InvNet leverages recent findings in the deep learning literature such as invertible neural networks, Manifold Mixup, and domain translation algorithms, identifying interesting research directions that span across machine learning and systems. Our experimental results show that Coded-InvNet can outperform existing approaches, especially when the compute resource overhead is as low as 10%. For instance, without knowing which of the ten workers is going to fail, our algorithm can design a backup task so that it can correctly recover the missing prediction result with an accuracy of 85.9%, significantly outperforming the previous SOTA by 32.5%.
翻訳日:2021-06-14 18:45:16 公開日:2021-06-11
# (参考訳) 翻訳による半監督・教師なしセンスアノテーション [全文訳有]

Semi-Supervised and Unsupervised Sense Annotation via Translations ( http://arxiv.org/abs/2106.06462v1 )

ライセンス: CC BY-SA 4.0
Bradley Hauer, Grzegorz Kondrak, Yixing Luan, Arnob Mallik, Lili Mou(参考訳) 単語感覚曖昧化(WSD)において,多言語学習データの獲得は引き続き課題である。 この問題に対処するために、教師なしのアプローチが近年開発され、教師付きWSDシステムのトレーニングに適したセンスアノテーションを自動生成している。 本稿では, 翻訳, 並列コーパス, 語彙資源, コンテクストおよびシンセット埋め込みを活用する, センスアノテートコーパスを作成するための3つの新しい手法を提案する。 本手法は,既存のセンスアノテーションを他の言語に翻訳するために機械翻訳を適用する。 2つの教師なし手法は、知識に基づくWSDシステムを用いて並列コーパスを注釈し、語彙翻訳を識別することで得られた感覚アノテーションを洗練する。 標準WSDベンチマークで最先端の結果を得る。

Acquisition of multilingual training data continues to be a challenge in word sense disambiguation (WSD). To address this problem, unsupervised approaches have been developed in recent years that automatically generate sense annotations suitable for training supervised WSD systems. We present three new methods to creating sense-annotated corpora, which leverage translations, parallel corpora, lexical resources, and contextual and synset embeddings. Our semi-supervised method applies machine translation to transfer existing sense annotations to other languages. Our two unsupervised methods use a knowledge-based WSD system to annotate a parallel corpus, and refine the resulting sense annotations by identifying lexical translations. We obtain state-of-the-art results on standard WSD benchmarks.
翻訳日:2021-06-14 17:41:59 公開日:2021-06-11
# (参考訳) 解釈可能な予測のための局所スパースネットワーク

Locally Sparse Networks for Interpretable Predictions ( http://arxiv.org/abs/2106.06468v1 )

ライセンス: CC BY 4.0
Junchen Yang, Ofir Lindenbaum, Yuval Kluger(参考訳) ニューラルネットワークは大きな成功を収めているが、低サンプルサイズ(lss)データセットに適用する場合、解釈が難しく、しばしば過剰に適合する。 これらの障害に対処するために,各測定において最も関連性の高い特徴のサブセットを識別するサンプル特異的ゲーティング機構を用いて,局所的な疎度を学習する,局所スパースニューラルネットワークのトレーニングフレームワークを提案する。 サンプル固有のスパーシリティは \textit{gating} ネットワークを介して予測され、これは \textit{prediction} ネットワークとタンデムでトレーニングされる。 予測モデルのこれらの部分集合と重みを学習することにより、LSSデータを処理し、教師付き学習タスクとは無関係なニュアンス変数を除去できる解釈可能なニューラルネットワークを得る。 本手法は,合成データと実世界のデータの両方を用いて,インスタンス毎にはるかに少ない機能で対象関数を予測した場合に,最先端のモデルを上回ることを実証する。

Despite the enormous success of neural networks, they are still hard to interpret and often overfit when applied to low-sample-size (LSS) datasets. To tackle these obstacles, we propose a framework for training locally sparse neural networks where the local sparsity is learned via a sample-specific gating mechanism that identifies the subset of most relevant features for each measurement. The sample-specific sparsity is predicted via a \textit{gating} network, which is trained in tandem with the \textit{prediction} network. By learning these subsets and weights of a prediction model, we obtain an interpretable neural network that can handle LSS data and can remove nuisance variables, which are irrelevant for the supervised learning task. Using both synthetic and real-world datasets, we demonstrate that our method outperforms state-of-the-art models when predicting the target function with far fewer features per instance.
翻訳日:2021-06-14 17:27:07 公開日:2021-06-11
# (参考訳) データ駆動型アプローチによる電気自動車の走行・帯電挙動の解析 [全文訳有]

Analyzing the Travel and Charging Behavior of Electric Vehicles -- A Data-driven Approach ( http://arxiv.org/abs/2106.06475v1 )

ライセンス: CC BY-SA 4.0
Sina Baghali, Samiul Hasan, Zhaomiao Guo(参考訳) 電気自動車(ev)の市場浸透の増加は、電力システムに大きな電力需要をもたらす可能性がある。 この電力需要は、毎日の充電需要(CD)の予測を非常に困難にするEVの走行行動の不確実性の影響を受けている。 このプロジェクトでは,National House Hold Survey (NHTS)データを用いて旅行のシーケンスを作成し,旅行開始時間,終了時間,距離などの次の旅行のパラメータを予測する機械学習モデルを開発する。 これらのパラメータは後にevの時間帯電挙動のモデル化に使用される。 シミュレーションの結果,提案手法は,EVの走行行動に基づく日々のCDパターンを効果的に推定し,単純な機械学習手法で走行パラメータを許容精度で予測できることが示唆された。

The increasing market penetration of electric vehicles (EVs) may pose significant electricity demand on power systems. This electricity demand is affected by the inherent uncertainties of EVs' travel behavior that makes forecasting the daily charging demand (CD) very challenging. In this project, we use the National House Hold Survey (NHTS) data to form sequences of trips, and develop machine learning models to predict the parameters of the next trip of the drivers, including trip start time, end time, and distance. These parameters are later used to model the temporal charging behavior of EVs. The simulation results show that the proposed modeling can effectively estimate the daily CD pattern based on travel behavior of EVs, and simple machine learning techniques can forecast the travel parameters with acceptable accuracy.
翻訳日:2021-06-14 17:26:09 公開日:2021-06-11
# (参考訳) 資源制約デバイスにおける細菌系統の迅速同定のための効率的なディープラーニングアーキテクチャ [全文訳有]

Efficient Deep Learning Architectures for Fast Identification of Bacterial Strains in Resource-Constrained Devices ( http://arxiv.org/abs/2106.06505v1 )

ライセンス: CC BY 4.0
R. Gallardo Garc\'ia and S. Jarqu\'in Rodr\'iguez and B. Beltr\'an Mart\'inez and C. Hern\'andez Gracidas and R. Mart\'inez Torres(参考訳) 本研究は、細菌の分類問題をDigital Image of bacteriaal Species Dataset上で解決するために、12の微調整深層学習アーキテクチャを提案する。 基本アーキテクチャは、主にimagenetチャレンジのモバイルまたは効率的なソリューションとして出版され、本研究で提示された全ての実験は、微調整と転送学習技術を用いて細菌分類問題を解決するために、元の設計にいくつかの修正を加えることであった。 また、このデータセットのための新しいデータ拡張手法を提案する。これは人工ズームのアイデアに基づいており、テスト済みアーキテクチャ全体のパフォーマンスを強力に向上させ、場合によっては倍増することもある。 頑健で完全な評価を得るために、すべての実験は10倍のクロスバリデーションで行われ、トップ1とトップ5の精度、精度、リコール、F1スコアの5つの異なる指標で評価された。 本稿では,データセットの原文と拡張版とを交差した12の異なるアーキテクチャの完全な比較を行い,その結果をいくつかの文献的手法と比較する。 総じて、11のアーキテクチャのうち8つはトップ1の精度で0.95点を超え、データ拡張法は0.9738点を最高1の精度で上った。 データ拡張技術の影響を相対的な改善スコアで報告する。

This work presents twelve fine-tuned deep learning architectures to solve the bacterial classification problem over the Digital Image of Bacterial Species Dataset. The base architectures were mainly published as mobile or efficient solutions to the ImageNet challenge, and all experiments presented in this work consisted of making several modifications to the original designs, in order to make them able to solve the bacterial classification problem by using fine-tuning and transfer learning techniques. This work also proposes a novel data augmentation technique for this dataset, which is based on the idea of artificial zooming, strongly increasing the performance of every tested architecture, even doubling it in some cases. In order to get robust and complete evaluations, all experiments were performed with 10-fold cross-validation and evaluated with five different metrics: top-1 and top-5 accuracy, precision, recall, and F1 score. This paper presents a complete comparison of the twelve different architectures, cross-validated with the original and the augmented version of the dataset, the results are also compared with several literature methods. Overall, eight of the eleven architectures surpassed the 0.95 scores in top-1 accuracy with our data augmentation method, being 0.9738 the highest top-1 accuracy. The impact of the data augmentation technique is reported with relative improvement scores.
翻訳日:2021-06-14 17:18:03 公開日:2021-06-11
# (参考訳) 優先的時間差学習 [全文訳有]

Preferential Temporal Difference Learning ( http://arxiv.org/abs/2106.06508v1 )

ライセンス: CC BY 4.0
Nishanth Anand, Doina Precup(参考訳) 時間差学習(TD: Temporal-Difference learning)は、与えられたポリシーの価値関数を推定するための汎用的で非常に有用なツールである。 一般的に言えば、TD学習は訪問されるたびに状態を更新する。 エージェントがステートに着地すると、その値を使ってtd-errorを計算し、それが他の州に伝播する。 しかし、コンピューティングの更新時に、ある状態が訪問されているかどうか以外の情報を考慮に入れることは興味深いかもしれない。 例えば、ある状態は他の状態よりも重要かもしれない(例えば、成功した軌道でしばしば見られる状態)。 あるいは、一部の状態は信頼できない値の推定(例えば、部分的な可観測性やデータの欠如)を持ち、その値がターゲットとしてあまり望まれない。 我々は、tdアップデートで使用される状態を再重み付けする手法を提案する。 本手法は線形関数近似に収束し,他のTDスタイルの手法と比較して望ましい経験的挙動を示す。

Temporal-Difference (TD) learning is a general and very useful tool for estimating the value function of a given policy, which in turn is required to find good policies. Generally speaking, TD learning updates states whenever they are visited. When the agent lands in a state, its value can be used to compute the TD-error, which is then propagated to other states. However, it may be interesting, when computing updates, to take into account other information than whether a state is visited or not. For example, some states might be more important than others (such as states which are frequently seen in a successful trajectory). Or, some states might have unreliable value estimates (for example, due to partial observability or lack of data), making their values less desirable as targets. We propose an approach to re-weighting states used in TD updates, both when they are the input and when they provide the target for the update. We prove that our approach converges with linear function approximation and illustrate its desirable empirical behaviour compared to other TD-style methods.
翻訳日:2021-06-14 16:58:00 公開日:2021-06-11
# (参考訳) ガウス過程の核選択に対する感度の測定 [全文訳有]

Measuring the sensitivity of Gaussian processes to kernel choice ( http://arxiv.org/abs/2106.06510v1 )

ライセンス: CC BY 4.0
William T. Stephenson, Soumya Ghosh, Tin D. Nguyen, Mikhail Yurochkin, Sameer K. Deshpande, Tamara Broderick(参考訳) ガウス過程(GP: Gaussian process)は、心臓治療や二酸化炭素排出量のモニタリングなど、医学的および科学的決定に使用される。 しかし、GPカーネルの選択は、しばしば任意である。 特に、数えきれないほど多くのカーネルが定性的事前知識(例)と整合している。 機能的滑らかさまたは定常性) しかし実際には、データアナリストはいくつかの便利な標準カーネル(例えば)を選択する。 2乗指数)。 GPを用いた決定は、他の定性的に交換可能なカーネルで異なるのか? この感度解析を有限次元空間上の制約付き最適化問題として定式化する方法を示す。 次に、GPによる決定の実体的変化を特定するために標準オプティマイザを使用する。 gpによる決定は,事前ドローがユーザと質的に交換可能であったとしても,カーネル選択に対して相当な感度を示すことが,合成および実例で実証される。

Gaussian processes (GPs) are used to make medical and scientific decisions, including in cardiac care and monitoring of carbon dioxide emissions. But the choice of GP kernel is often somewhat arbitrary. In particular, uncountably many kernels typically align with qualitative prior knowledge (e.g. function smoothness or stationarity). But in practice, data analysts choose among a handful of convenient standard kernels (e.g. squared exponential). In the present work, we ask: Would decisions made with a GP differ under other, qualitatively interchangeable kernels? We show how to formulate this sensitivity analysis as a constrained optimization problem over a finite-dimensional space. We can then use standard optimizers to identify substantive changes in relevant decisions made with a GP. We demonstrate in both synthetic and real-world examples that decisions made with a GP can exhibit substantial sensitivity to kernel choice, even when prior draws are qualitatively interchangeable to a user.
翻訳日:2021-06-14 16:13:00 公開日:2021-06-11
# (参考訳) 時間経過に伴う確率経路と予測構造 [全文訳有]

Probability Paths and the Structure of Predictions over Time ( http://arxiv.org/abs/2106.06515v1 )

ライセンス: CC BY 4.0
Zhiyuan (Jerry) Lin, Hao Sheng, Sharad Goel(参考訳) 天気予報から政治予測、財務予測まで幅広い状況において、将来の二進予測は時間とともに進化する。 例えば、特定の日に降る雨の確率は、新しい情報が利用可能になると、時間によって変化する。 このような確率パスの集合が与えられた場合、時間とともに動的予測の構造をモデル化するためのベイズ的フレームワーク(ガウス潜在情報マーチンゲール(GLIM)と呼ぶ)を導入する。 例えば、1週間の降水確率が50%であると仮定し、2つの仮説的シナリオを考える。 第一に、予測は明日の25%または75%になる可能性が高いと予測し、第二に、予測は数日続くと予想している。 時間に敏感な意思決定者は、後者のシナリオで直ちに行動方針を選択するかもしれないが、新しい情報が差し迫っていることを知って、前者の決定を延期することができる。 我々は,過去のデータから推定される情報フローの潜在過程に応じて予測を更新することを仮定して,これらの軌跡をモデル化する。 時系列解析の一般的な方法とは対照的に、このアプローチは確率パスのマーティンゲール構造を保持し、確率パスに関する将来の不確実性をよりよく定量化する。 GLIMは3つの一般的なベースライン法より優れており、3つの測定基準によって測定された推定後確率経路分布をより良く推定できることを示す。 予測の動的構造を時間とともに解明することで、個人がより深い選択を行えるようにしたいと思っています。

In settings ranging from weather forecasts to political prognostications to financial projections, probability estimates of future binary outcomes often evolve over time. For example, the estimated likelihood of rain on a specific day changes by the hour as new information becomes available. Given a collection of such probability paths, we introduce a Bayesian framework -- which we call the Gaussian latent information martingale, or GLIM -- for modeling the structure of dynamic predictions over time. Suppose, for example, that the likelihood of rain in a week is 50%, and consider two hypothetical scenarios. In the first, one expects the forecast is equally likely to become either 25% or 75% tomorrow; in the second, one expects the forecast to stay constant for the next several days. A time-sensitive decision-maker might select a course of action immediately in the latter scenario, but may postpone their decision in the former, knowing that new information is imminent. We model these trajectories by assuming predictions update according to a latent process of information flow, which is inferred from historical data. In contrast to general methods for time series analysis, this approach preserves the martingale structure of probability paths and better quantifies future uncertainties around probability paths. We show that GLIM outperforms three popular baseline methods, producing better estimated posterior probability path distributions measured by three different metrics. By elucidating the dynamic structure of predictions over time, we hope to help individuals make more informed choices.
翻訳日:2021-06-14 15:49:25 公開日:2021-06-11
# (参考訳) N-Best ASR変換器:複数ASR仮説を用いたSLU性能向上 [全文訳有]

N-Best ASR Transformer: Enhancing SLU Performance using Multiple ASR Hypotheses ( http://arxiv.org/abs/2106.06519v1 )

ライセンス: CC BY-SA 4.0
Karthik Ganesan, Pakhi Bamdev, Jaivarsan B, Amresh Venugopal, Abhinav Tushar(参考訳) 音声言語理解(SLU)システムは、音声をダイアログやスロットのような意味構造にパースする。 これは、音声を複数のテキスト代替物(仮説)に書き起こすために自動音声認識(ASR)を使用する。 ASRで一般的な転写エラーは、下流のSLU性能に悪影響を及ぼす。 このようなエラーを軽減するためのアプローチは、N-best仮説またはワード格子の形で、ASRからのより豊かな情報を使用する。 我々は、N-best ASRの代替品を結合することで、トランスフォーマーモデルはより単純な発話表現で学習し、それぞれの代替品を特殊デリミタ[SEP]で分離する、という仮説を立てる。 本研究では,変換器エンコーダモデルであるBERTとXLM-RoBERTaの入力として,N-best ASRのコンカレントな代替品を用いて仮説を検証し,DSTC2データセット上の先行技術モデルと同等の性能を実現する。 また,本手法は,低データ体制下での先行技術よりも著しく優れていることを示す。 さらに、この手法は、単語ラテック情報を提供しないサードパーティのASR APIのユーザにもアクセス可能である。

Spoken Language Understanding (SLU) systems parse speech into semantic structures like dialog acts and slots. This involves the use of an Automatic Speech Recognizer (ASR) to transcribe speech into multiple text alternatives (hypotheses). Transcription errors, common in ASRs, impact downstream SLU performance negatively. Approaches to mitigate such errors involve using richer information from the ASR, either in form of N-best hypotheses or word-lattices. We hypothesize that transformer models learn better with a simpler utterance representation using the concatenation of the N-best ASR alternatives, where each alternative is separated by a special delimiter [SEP]. In our work, we test our hypothesis by using concatenated N-best ASR alternatives as the input to transformer encoder models, namely BERT and XLM-RoBERTa, and achieve performance equivalent to the prior state-of-the-art model on DSTC2 dataset. We also show that our approach significantly outperforms the prior state-of-the-art when subjected to the low data regime. Additionally, this methodology is accessible to users of third-party ASR APIs which do not provide word-lattice information.
翻訳日:2021-06-14 15:30:51 公開日:2021-06-11
# (参考訳) 自律型ドローンと機械学習による隕石の回収 [全文訳有]

Recovery of Meteorites Using an Autonomous Drone and Machine Learning ( http://arxiv.org/abs/2106.06523v1 )

ライセンス: CC BY 4.0
Robert I. Citron, Peter Jenniskens, Christopher Watkins, Sravanthi Sinha, Amar Shah, Chedy Raissi, Hadrien Devillepoix, Jim Albers(参考訳) 新たに落下した隕石を追跡・三角測量した隕石から回収することは、その起源の小惑星族を決定するのに重要である。 しかし、過去に三角測量された隕石や、現在進行中の隕石カメラネットワークから隕石が回収されるケースはごくわずかである。 機械学習と自律ドローンを用いて隕石の発見を自動化できるかを検討した。 ドローンはグリッド検索パターンを飛ばし、大規模な調査エリアで地上のシステマティックな写真を撮るようにプログラムすることができる。 これらの画像は機械学習の分類器を使って分析でき、フィールド内の隕石を識別することができる。 ここでは、現場でドローンが撮影した画像から隕石を認識するために、さまざまな畳み込みニューラルネットワークの組み合わせをオフラインで展開するコンセプト隕石分類器について述べる。 このシステムは、概念的なドローンで実装され、ネバダ州ウォーカー湖近くの最近の隕石落下の現場でテストされた。

The recovery of freshly fallen meteorites from tracked and triangulated meteors is critical to determining their source asteroid families. However, locating meteorite fragments in strewn fields remains a challenge with very few meteorites being recovered from the meteors triangulated in past and ongoing meteor camera networks. We examined if locating meteorites can be automated using machine learning and an autonomous drone. Drones can be programmed to fly a grid search pattern and take systematic pictures of the ground over a large survey area. Those images can be analyzed using a machine learning classifier to identify meteorites in the field among many other features. Here, we describe a proof-of-concept meteorite classifier that deploys off-line a combination of different convolution neural networks to recognize meteorites from images taken by drones in the field. The system was implemented in a conceptual drone setup and tested in the suspected strewn field of a recent meteorite fall near Walker Lake, Nevada.
翻訳日:2021-06-14 15:23:10 公開日:2021-06-11
# (参考訳) WAX-ML:ストリーミングデータの機械学習とフィードバックループのためのPythonライブラリ [全文訳有]

WAX-ML: A Python library for machine learning and feedback loops on streaming data ( http://arxiv.org/abs/2106.06524v1 )

ライセンス: CC BY-SA 4.0
Emmanuel S\'eri\'e(参考訳) ワックスは、スリップを避けるためにサーフボードにかけるものです。 私たちは、強力な機械学習アルゴリズムとストリーミングデータを扱うフィードバックループを設計するためのツールを提供する研究指向pythonライブラリwax-mlを紹介します。 JAXを時系列専用のツールで補完しようとしている。 wax-mlは、データ操作にpandasやxarrayを使うエンドユーザー向けに、jaxベースのプログラムを簡単に使えるようにする。 フィードバックループを実装するためのシンプルなメカニズムを提供し、オンライン学習と強化学習アルゴリズムと関数の実装を可能にし、ジムライブラリからオブジェクト指向強化学習フレームワークを扱うエンドユーザによる統合を容易にする。 ApacheオープンソースライセンスがGitHubでhttps://github.com/e serie/wax-mlで公開されている。

Wax is what you put on a surfboard to avoid slipping. It is an essential tool to go surfing... We introduce WAX-ML a research-oriented Python library providing tools to design powerful machine learning algorithms and feedback loops working on streaming data. It strives to complement JAX with tools dedicated to time series. WAX-ML makes JAX-based programs easy to use for end-users working with pandas and xarray for data manipulation. It provides a simple mechanism for implementing feedback loops, allows the implementation of online learning and reinforcement learning algorithms with functions, and makes them easy to integrate by end-users working with the object-oriented reinforcement learning framework from the Gym library. It is released with an Apache open-source license on GitHub at https://github.com/e serie/wax-ml.
翻訳日:2021-06-14 14:56:21 公開日:2021-06-11
# ビデオトランスにおける時空間混合注意

Space-time Mixing Attention for Video Transformer ( http://arxiv.org/abs/2106.05968v2 )

ライセンス: Link先を確認
Adrian Bulat and Juan-Manuel Perez-Rua and Swathikiran Sudhakaran and Brais Martinez and Georgios Tzimiropoulos(参考訳) 本稿ではトランスフォーマーを用いたビデオ認識について述べる。 この領域での最近の試みは、認識精度の観点から有望な結果を示しているが、多くの場合、時間的情報の付加的モデリングによる重要な計算オーバーヘッドを引き起こすことも示されている。 本研究では,映像列内のフレーム数に線形にスケールし,画像ベースのトランスフォーマモデルと比較してオーバーヘッドを生じさせない映像トランスフォーマモデルを提案する。 これを実現するために,本モデルでは,ビデオトランスフォーマーで使用される全時空間の注意を2つ近似する: (a) 時間的注意を局所的な時間的窓に制限し,トランスフォーマーの深さに重み付けし,ビデオシーケンスの完全な時間的カバレッジを得る。 (b)空間のみの注意モデル上に余分なコストを発生させることなく、効率的な時空混合を用いて、共同空間および時間的位置に出席する。 また,計算コストの最小化による精度向上を実現するため,グローバル時間のみの注意のための2つの非常に軽量な機構を統合する方法を示す。 我々のモデルは、最も人気のあるビデオ認識データセットに対して、非常に高い認識精度を提供すると同時に、他のビデオトランスフォーマーモデルよりもはるかに効率的であることを示す。 コードは利用可能になる。

This paper is on video recognition using Transformers. Very recent attempts in this area have demonstrated promising results in terms of recognition accuracy, yet they have been also shown to induce, in many cases, significant computational overheads due to the additional modelling of the temporal information. In this work, we propose a Video Transformer model the complexity of which scales linearly with the number of frames in the video sequence and hence induces no overhead compared to an image-based Transformer model. To achieve this, our model makes two approximations to the full space-time attention used in Video Transformers: (a) It restricts time attention to a local temporal window and capitalizes on the Transformer's depth to obtain full temporal coverage of the video sequence. (b) It uses efficient space-time mixing to attend jointly spatial and temporal locations without inducing any additional cost on top of a spatial-only attention model. We also show how to integrate 2 very lightweight mechanisms for global temporal-only attention which provide additional accuracy improvements at minimal computational cost. We demonstrate that our model produces very high recognition accuracy on the most popular video recognition datasets while at the same time being significantly more efficient than other Video Transformer models. Code will be made available.
翻訳日:2021-06-14 14:40:28 公開日:2021-06-11
# ラディット:英語のRedditコメントに対する攻撃のノーム

Ruddit: Norms of Offensiveness for English Reddit Comments ( http://arxiv.org/abs/2106.05664v2 )

ライセンス: Link先を確認
Rishav Hada, Sohi Sudhir, Pushkar Mishra, Helen Yannakoudakis, Saif M. Mohammad, Ekaterina Shutova(参考訳) ソーシャルメディアプラットフォームでは、憎悪と攻撃的な言葉がユーザーの精神的幸福と多様な背景を持つ人々の参加に悪影響を及ぼす。 攻撃的言語を検出する自動手法は、分類ラベルを持つデータセットに大きく依存している。 しかし、コメントは攻撃の程度によって異なる。 我々は、英語のRedditコメントの最初のデータセットを作成し、-1点(最大支持)と1点(最大攻撃)の間に、きめ細やかな、実測値のスコアを持つ。 データセットは、評価尺度の使用に関する既知のバイアスを軽減するための比較アノテーションであるbest-worst scalingを使用してアノテートされた。 本手法は信頼性の高い攻撃性スコアを生成する。 最後に,この新しいデータセットにおける攻撃性スコアを予測するために,広く使用されているニューラルモデルの能力を評価する。

On social media platforms, hateful and offensive language negatively impact the mental well-being of users and the participation of people from diverse backgrounds. Automatic methods to detect offensive language have largely relied on datasets with categorical labels. However, comments can vary in their degree of offensiveness. We create the first dataset of English language Reddit comments that has fine-grained, real-valued scores between -1 (maximally supportive) and 1 (maximally offensive). The dataset was annotated using Best--Worst Scaling, a form of comparative annotation that has been shown to alleviate known biases of using rating scales. We show that the method produces highly reliable offensiveness scores. Finally, we evaluate the ability of widely-used neural models to predict offensiveness scores on this new dataset.
翻訳日:2021-06-14 14:40:07 公開日:2021-06-11
# 創薬における人工知能:応用と技術

Artificial Intelligence in Drug Discovery: Applications and Techniques ( http://arxiv.org/abs/2106.05386v2 )

ライセンス: Link先を確認
Jianyuan Deng, Zhibo Yang, Dimitris Samaras, Fusheng Wang(参考訳) 人工知能(AI)は過去10年間、薬物発見の実践を変えてきた。 さまざまなai技術が、仮想スクリーニングや薬物設計など、幅広いアプリケーションで使用されている。 本論ではまず,創薬に関する概観を述べるとともに,分子特性予測と分子生成という2つの主要な課題に還元可能な関連する応用について論じる。 次に、共通データリソース、分子表現、ベンチマークプラットフォームについて論じる。 さらに、AIによる薬物発見の進展を要約するために、モデルアーキテクチャや学習パラダイムを含む関連するAI技術について、調査論文で紹介する。 この視点は、人工知能と薬物発見の分野で働くことに興味がある研究者のガイドになることを期待している。 GitHubリポジトリ\footnote{\url{https://github.com/d engjianyuan/Survey_A I_Drug_Discovery}} も提供しています。

Artificial intelligence (AI) has been transforming the practice of drug discovery in the past decade. Various AI techniques have been used in a wide range of applications, such as virtual screening and drug design. In this perspective, we first give an overview on drug discovery and discuss related applications, which can be reduced to two major tasks, i.e., molecular property prediction and molecule generation. We then discuss common data resources, molecule representations and benchmark platforms. Furthermore, to summarize the progress in AI-driven drug discovery, we present the relevant AI techniques including model architectures and learning paradigms in the surveyed papers. We expect that the perspective will serve as a guide for researchers who are interested in working at this intersected area of artificial intelligence and drug discovery. We also provide a GitHub repository\footnote{\url{https://github.com/d engjianyuan/Survey_A I_Drug_Discovery}} with the collection of papers and codes, if applicable, as a learning resource, which will be regularly updated.
翻訳日:2021-06-14 14:39:54 公開日:2021-06-11
# シンボリックハイパーパラメータデフォルトのためのメタラーニング

Meta-Learning for Symbolic Hyperparameter Defaults ( http://arxiv.org/abs/2106.05767v2 )

ライセンス: Link先を確認
Pieter Gijsbers, Florian Pfisterer, Jan N. van Rijn, Bernd Bischl and Joaquin Vanschoren(参考訳) 機械学習(ML)におけるハイパーパラメータ最適化は、データから最適なアルゴリズム構成を経験的に学習する問題を扱う。 本研究では,データセットの特性を用いて表現されるメタリアンのシンボル型デフォルトハイパーパラメータ構成のためのゼロショット法を提案する。 これにより、標準的なハイパーパラメータ最適化アプローチに比べて、mlアルゴリズムの高速かつデータ依存の構成が可能になる。 過去には、象徴的および静的なデフォルト値は通常手作りのヒューリスティックとして得られてきた。 進化的アルゴリズムを用いて表現の文法を最適化することにより,複数のデータセット上での事前評価からデータセット特性の式のような記号的構成を学習する手法を提案する。 我々は,100以上のデータセット上で6mlアルゴリズムにまたがる実データに加えて,経験的性能モデルの評価を行い,本手法が真に実行可能なシンボルデフォルトを求めることを実証した。

Hyperparameter optimization in machine learning (ML) deals with the problem of empirically learning an optimal algorithm configuration from data, usually formulated as a black-box optimization problem. In this work, we propose a zero-shot method to meta-learn symbolic default hyperparameter configurations that are expressed in terms of the properties of the dataset. This enables a much faster, but still data-dependent, configuration of the ML algorithm, compared to standard hyperparameter optimization approaches. In the past, symbolic and static default values have usually been obtained as hand-crafted heuristics. We propose an approach of learning such symbolic configurations as formulas of dataset properties from a large set of prior evaluations on multiple datasets by optimizing over a grammar of expressions using an evolutionary algorithm. We evaluate our method on surrogate empirical performance models as well as on real data across 6 ML algorithms on more than 100 datasets and demonstrate that our method indeed finds viable symbolic defaults.
翻訳日:2021-06-14 14:39:36 公開日:2021-06-11
# SMM4H 2021における名前付きエンティティ認識のためのニューラルテキスト分類と重み付き異種埋め込み

Neural Text Classification and Stacked Heterogeneous Embeddings for Named Entity Recognition in SMM4H 2021 ( http://arxiv.org/abs/2106.05823v2 )

ライセンス: Link先を確認
Usama Yaseen, Stefan Langer(参考訳) 本稿では,SMM4H共有タスク2021に参加することで得られた知見について述べる。 名前付きエンティティ認識(ner)とテキスト分類について論じた。 NERに対処するため,重み付き異種埋め込みと言語機能を用いたBiLSTM-CRFの探索を行った。 テキスト分類に対処するために,さまざまな機械学習アルゴリズム(論理回帰,サポートベクトルマシン(SVM),ニューラルネットワーク)について検討した。 提案手法は様々な言語に一般化することができ、英語とスペイン語で有効性を示した。 テキスト分類出願(team:MIC-NLP)は,ADE分類(Task 1a)とProfession分類(Task 7a)でそれぞれ0.46$と0.90$のF1スコアで競合性能を達成した。 NERの場合は, ADE Span Detection (Task 1b) と Profession Span Detection (Task 7b) でそれぞれ0.50$と0.82$のF1スコアを得た。

This paper presents our findings from participating in the SMM4H Shared Task 2021. We addressed Named Entity Recognition (NER) and Text Classification. To address NER we explored BiLSTM-CRF with Stacked Heterogeneous Embeddings and linguistic features. We investigated various machine learning algorithms (logistic regression, Support Vector Machine (SVM) and Neural Networks) to address text classification. Our proposed approaches can be generalized to different languages and we have shown its effectiveness for English and Spanish. Our text classification submissions (team:MIC-NLP) have achieved competitive performance with F1-score of $0.46$ and $0.90$ on ADE Classification (Task 1a) and Profession Classification (Task 7a) respectively. In the case of NER, our submissions scored F1-score of $0.50$ and $0.82$ on ADE Span Detection (Task 1b) and Profession Span detection (Task 7b) respectively.
翻訳日:2021-06-14 14:39:09 公開日:2021-06-11
# 教師なし特徴表現強調のための段階学習

Progressive Stage-wise Learning for Unsupervised Feature Representation Enhancement ( http://arxiv.org/abs/2106.05554v2 )

ライセンス: Link先を確認
Zefan Li, Chenxi Liu, Alan Yuille, Bingbing Ni, Wenjun Zhang and Wen Gao(参考訳) 教師なし学習手法は、教師なし学習に対する競争力を示している。 通常、これらのメソッドは単一の目的を使ってネットワーク全体をトレーニングする。 しかし、教師なし学習よりも教師なし学習の明確な利点は、前者が目標を設計する上でより多様性と自由を持っていることである。 本研究では,progressive stage-wise learning(psl)フレームワークを提案することにより,教師なし学習の新しい次元を検討する。 教師なしのタスクでは、マルチレベルタスクを設計し、ディープネットワークのためのさまざまな学習ステージを定義します。 早期学習段階は低レベルのタスクに集中し、後期段階は難しいタスクを通じてより深い情報を抽出するために導かれる。 プログレッシブな段階学習によって,教師なし特徴表現を効果的に強化できることが分かる。 我々の広範な実験により、PSLは主要な教師なし学習手法の結果を一貫して改善することが示された。

Unsupervised learning methods have recently shown their competitiveness against supervised training. Typically, these methods use a single objective to train the entire network. But one distinct advantage of unsupervised over supervised learning is that the former possesses more variety and freedom in designing the objective. In this work, we explore new dimensions of unsupervised learning by proposing the Progressive Stage-wise Learning (PSL) framework. For a given unsupervised task, we design multilevel tasks and define different learning stages for the deep network. Early learning stages are forced to focus on lowlevel tasks while late stages are guided to extract deeper information through harder tasks. We discover that by progressive stage-wise learning, unsupervised feature representation can be effectively enhanced. Our extensive experiments show that PSL consistently improves results for the leading unsupervised learning methods.
翻訳日:2021-06-14 14:38:50 公開日:2021-06-11
# グラフニューラルネットワークを用いた空間不変非教師なし3次元オブジェクトセグメンテーション

Spatially Invariant Unsupervised 3D Object Segmentation with Graph Neural Networks ( http://arxiv.org/abs/2106.05607v2 )

ライセンス: Link先を確認
Tianyu Wang, Miaomiao Liu, Kee Siong Ng(参考訳) 本稿では,RGB情報のない点群からの非教師なし3次元オブジェクトセグメンテーションの問題に取り組む。 特に,空間混合モデルとして点雲をモデル化し,変分オートエンコーダ(VAE)を用いて3次元の多目的表現とセグメンテーションを共同で学習するフレームワークSPAIR3Dを提案する。 SPAIRに触発されて、各オブジェクトの位置を点雲全体ではなく、その局所的なボクセルグリッドセルに対して記述するオブジェクト固有化方式を採用した。 点雲上の空間混合モデルをモデル化するために、変動訓練パイプラインに自然に適合するシャムファー確率を導出する。 さらに,新たな空間不変グラフニューラルネットワークの設計を行い,vae内のデコーダとして様々な3dポイントを生成する。 実験の結果,SPAIR3Dは様々なシーンにまたがる外見情報なしで様々な物体を検出・区分けできることがわかった。

In this paper, we tackle the problem of unsupervised 3D object segmentation from a point cloud without RGB information. In particular, we propose a framework, SPAIR3D, to model a point cloud as a spatial mixture model and jointly learn the multiple-object representation and segmentation in 3D via Variational Autoencoders (VAE). Inspired by SPAIR, we adopt an object-specification scheme that describes each object's location relative to its local voxel grid cell rather than the point cloud as a whole. To model the spatial mixture model on point clouds, we derive the Chamfer Likelihood, which fits naturally into the variational training pipeline. We further design a new spatially invariant graph neural network to generate a varying number of 3D points as a decoder within our VAE. Experimental results demonstrate that SPAIR3D is capable of detecting and segmenting variable number of objects without appearance information across diverse scenes.
翻訳日:2021-06-14 14:38:37 公開日:2021-06-11
# オンラインAutoMLのためのChaCha

ChaCha for Online AutoML ( http://arxiv.org/abs/2106.04815v2 )

ライセンス: Link先を確認
Qingyun Wu, Chi Wang, John Langford, Paul Mineiro, Marco Rossi(参考訳) オンライン学習環境におけるハイパーパラメータのオンライン選択のためのChaCha(Champion-Chal lengers)アルゴリズムを提案する。 ChaChaは、チャンピオンを決定するプロセスと、サンプルの複雑性境界に基づいて、時間の経過とともに‘生きた’挑戦者のセットをスケジューリングする。 チャンピオンに基づいたアプリケーション依存のオラクルによって最適な設定が考慮に入れられた後、サブ線形後悔が保証される。 経験的に、ChaChaは、成果化とハイパーパラメータ決定を最適化する際に、幅広いデータセットにわたって優れたパフォーマンスを提供する。

We propose the ChaCha (Champion-Challenger s) algorithm for making an online choice of hyperparameters in online learning settings. ChaCha handles the process of determining a champion and scheduling a set of `live' challengers over time based on sample complexity bounds. It is guaranteed to have sublinear regret after the optimal configuration is added into consideration by an application-dependen t oracle based on the champions. Empirically, we show that ChaCha provides good performance across a wide array of datasets when optimizing over featurization and hyperparameter decisions.
翻訳日:2021-06-14 14:38:20 公開日:2021-06-11
# 選択的高分解能を用いたアジャイル広視野イメージング

Agile wide-field imaging with selective high resolution ( http://arxiv.org/abs/2106.05082v2 )

ライセンス: Link先を確認
Lintao Peng, Liheng Bian, Tiexin Liu and Jun Zhang(参考訳) 広視野高分解能(hr)イメージングは航空偵察、地形図、安全監視などの様々な応用に不可欠である。 既存の技術では、フィールド全体のHR画像をキャプチャするために大規模な検出器アレイが必要であるため、複雑さとコストが高い。 本研究では,2つの検出器のみを必要とする選択的高分解能のアジャイルワイドフィールドイメージングフレームワークについて報告する。 自然の場面よりも前の統計的なスパーシティに基づいており、重要なターゲットはフィールド全体ではなく、小さな関心領域(roi)のみである。 この仮定では、短焦点カメラを用いて一定の低解像度で広視野を撮像し、長焦点カメラを用いてROIのHR画像を取得する。 リアルタイムにROIを自動的に特定するために,2台のカメラ間の大きな設定差(焦点,ホワイトバランスなど)に頑健で盲目な,効率的な深層学習に基づくマルチスケール登録手法を提案する。 登録された位置を用いて、ジンバルに搭載された長焦点カメラは、連続したHRイメージングのためのROIのリアルタイム追跡を可能にする。 我々は,概念実証装置を181グラムの重量で構築し,空中から地上までの監視を行う無人航空機に組み込むことで,新たなイメージング枠組みを実証した。 実験では、120$^{\circ}$ wide field-of-view (fov) と 0.45$mrad$ instantaneous fov が設定されている。

Wide-field and high-resolution (HR) imaging is essential for various applications such as aviation reconnaissance, topographic mapping and safety monitoring. The existing techniques require a large-scale detector array to capture HR images of the whole field, resulting in high complexity and heavy cost. In this work, we report an agile wide-field imaging framework with selective high resolution that requires only two detectors. It builds on the statistical sparsity prior of natural scenes that the important targets locate only at small regions of interests (ROI), instead of the whole field. Under this assumption, we use a short-focal camera to image wide field with a certain low resolution, and use a long-focal camera to acquire the HR images of ROI. To automatically locate ROI in the wide field in real time, we propose an efficient deep-learning based multiscale registration method that is robust and blind to the large setting differences (focal, white balance, etc) between the two cameras. Using the registered location, the long-focal camera mounted on a gimbal enables real-time tracking of the ROI for continuous HR imaging. We demonstrated the novel imaging framework by building a proof-of-concept setup with only 1181 gram weight, and assembled it on an unmanned aerial vehicle for air-to-ground monitoring. Experiments show that the setup maintains 120$^{\circ}$ wide field-of-view (FOV) with selective 0.45$mrad$ instantaneous FOV.
翻訳日:2021-06-14 14:38:11 公開日:2021-06-11
# 逆選択型階層的模倣学習

Adversarial Option-Aware Hierarchical Imitation Learning ( http://arxiv.org/abs/2106.05530v2 )

ライセンス: Link先を確認
Mingxuan Jing, Wenbing Huang, Fuchun Sun, Xiaojian Ma, Tao Kong, Chuang Gan, Lei Li(参考訳) 長期にわたる無注釈のデモンストレーションからエージェントのスキルを学ぶことは困難である。 階層的模倣学習(hil)のような既存のアプローチは、エラーや副最適解を複雑化する傾向がある。 本稿では,長距離学習のための新しい手法であるOption-GAILを提案する。 Option-GAILのキーとなるアイデアは、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーをトレーニングすることだ。 特に,期待最大化(em)方式のアルゴリズムを提案する。e-stepは現在の学習方針に基づく専門家の選択肢をサンプリングし,m-stepはエージェントの低レベルおよび高レベルポリシーを同時に更新し,新たに提案されたエキスパートとエージェント間のオプション占有率測定を最小化する。 提案するアルゴリズムの収束を理論的に証明する。 実験によると、option-gailはさまざまなタスクにおいて、他のオプションよりも優れています。

It has been a challenge to learning skills for an agent from long-horizon unannotated demonstrations. Existing approaches like Hierarchical Imitation Learning(HIL) are prone to compounding errors or suboptimal solutions. In this paper, we propose Option-GAIL, a novel method to learn skills at long horizon. The key idea of Option-GAIL is modeling the task hierarchy by options and train the policy via generative adversarial optimization. In particular, we propose an Expectation-Maximiza tion(EM)-style algorithm: an E-step that samples the options of expert conditioned on the current learned policy, and an M-step that updates the low- and high-level policies of agent simultaneously to minimize the newly proposed option-occupancy measurement between the expert and the agent. We theoretically prove the convergence of the proposed algorithm. Experiments show that Option-GAIL outperforms other counterparts consistently across a variety of tasks.
翻訳日:2021-06-14 14:37:50 公開日:2021-06-11
# 検索型チャットボット構築のための総合的解法

A comprehensive solution to retrieval-based chatbot construction ( http://arxiv.org/abs/2106.06139v1 )

ライセンス: Link先を確認
Kristen Moore, Shenjun Zhong, Zhen He, Torsten Rudolf, Nils Fisher, Brandon Victor, Neha Jindal(参考訳) 本稿では,顧客支援エージェント支援のためのコントラスト学習による自己教師付き検索型チャットボットの訓練と展開に関する実験結果について述べる。 デプロイ可能なチャットボットの1つのコンポーネントを解決することに焦点を当てているこの分野のほとんどの研究論文とは対照的に、私たちは、ラベルなしのチャットログからデプロイされたチャットボットに読者を取り込むための、エンドツーエンドのソリューションセットを提示します。 このソリューションには、自己教師付きデータセットと、チャットログから弱いラベル付きデータセットを作成することや、缶詰応答の固定リストを選択するための体系的なアプローチが含まれる。 本稿では、応答選択モデルのための階層型rnnアーキテクチャを提案する。中間発話埋め込みをキャッシュする能力が選択され、デプロイメント推論の速度要件を満たすのに役立った。 このアーキテクチャの性能を,自己教師ありコントラスト学習,バイナリ分類,マルチクラス分類という3つの異なる学習目標と比較した。 自己教師付きコントラスト学習モデルを使用することで、弱いラベル付きデータセット上でのバイナリクラスとマルチクラス分類モデルのトレーニングに優れることがわかった。 本結果は,現実のチャットボットのシナリオにおいて,自己指導型コントラスト学習アプローチが効果的に利用できることを示す。

In this paper we present the results of our experiments in training and deploying a self-supervised retrieval-based chatbot trained with contrastive learning for assisting customer support agents. In contrast to most existing research papers in this area where the focus is on solving just one component of a deployable chatbot, we present an end-to-end set of solutions to take the reader from an unlabelled chatlogs to a deployed chatbot. This set of solutions includes creating a self-supervised dataset and a weakly labelled dataset from chatlogs, as well as a systematic approach to selecting a fixed list of canned responses. We present a hierarchical-based RNN architecture for the response selection model, chosen for its ability to cache intermediate utterance embeddings, which helped to meet deployment inference speed requirements. We compare the performance of this architecture across 3 different learning objectives: self-supervised contrastive learning, binary classification, and multi-class classification. We find that using a self-supervised contrastive learning model outperforms training the binary and multi-class classification models on a weakly labelled dataset. Our results validate that the self-supervised contrastive learning approach can be effectively used for a real-world chatbot scenario.
翻訳日:2021-06-14 14:37:36 公開日:2021-06-11
# 過剰リスクダイナミクスの分解による一般化の理解に向けて

Towards Understanding Generalization via Decomposing Excess Risk Dynamics ( http://arxiv.org/abs/2106.06153v1 )

ライセンス: Link先を確認
Jiaye Teng, Jianhao Ma, Yang Yuan(参考訳) 一般化は機械学習における重要な問題の1つだ。 しかし、一様収束のような伝統的な手法は、過度にパラメータ化された線形回帰状態においても空境界が得られるため、一般化を完全に説明できるほど強力ではない。 別の解決策は、アルゴリズム依存境界(例えば安定性)を導出するための一般化ダイナミクスを分析することである。 残念ながら、安定性に基づく境界は、信号とノイズの粗い解析のために、ニューラルネットワークの顕著な一般化能力を説明するには程遠い。 ニューラルネットワークがノイズに適合するときの収束速度が遅いという観測に触発されて,過剰なリスクダイナミクスを分解し,分散部(モデルが純粋なノイズに対してどのように作用するかを測定する)にのみ安定性に基づく境界を適用することを提案する。 このフレームワークには線形ケース(勾配降下を伴う過パラメータ線形回帰)と非線形ケース(勾配流れを伴う行列回復)の2つの応用がある。 分解の枠組みの下では、新しい境界は安定性に基づく境界と一様収束境界よりも理論的および経験的証拠とよく一致している。

Generalization is one of the critical issues in machine learning. However, traditional methods like uniform convergence are not powerful enough to fully explain generalization because they may yield vacuous bounds even in overparameterized linear regression regimes. An alternative solution is to analyze the generalization dynamics to derive algorithm-dependent bounds, e.g., stability. Unfortunately, the stability-based bound is still far from explaining the remarkable generalization ability of neural networks due to the coarse-grained analysis of the signal and noise. Inspired by the observation that neural networks show a slow convergence rate when fitting noise, we propose decomposing the excess risk dynamics and applying stability-based bound only on the variance part (which measures how the model performs on pure noise). We provide two applications for the framework, including a linear case (overparameterized linear regression with gradient descent) and a non-linear case (matrix recovery with gradient flow). Under the decomposition framework, the new bound accords better with the theoretical and empirical evidence compared to the stability-based bound and uniform convergence bound.
翻訳日:2021-06-14 14:37:14 公開日:2021-06-11
# アクティブセルフトレーニングによるオンライン連続適応

Online Continual Adaptation with Active Self-Training ( http://arxiv.org/abs/2106.06526v1 )

ライセンス: Link先を確認
Shiji Zhou, Han Zhao, Shanghang Zhang, Lianzhe Wang, Heng Chang, Zhi Wang, Wenwu Zhu(参考訳) オフラインデータでトレーニングされたモデルは、環境の変化による継続的な分散シフトや高価なラベル付けに悩まされることが多い。 これにより、学習者がラベルの制限のある環境変化に継続的に適応できる、新しいオンライン学習パラダイムが求められる。 本稿では,未ラベルのサンプルと限定ラベルのアクティブクエリの両方を用いて,学習者が分散の変化に継続的に適応することを目的として,新しいオンライン環境であるオンラインアクティブ連続適応を提案する。 この目的のために,オンライン教師学習構造を採用し,ラベルのないデータからオンライン自己学習を可能にするオンライン自己適応ミラードライザー(OSAMD)と,ラベルを問合せして分布の変化を追跡するかを決定するマージンベースの基準を提案する。 理論的には、分離可能な場合、OSAMDは、穏やかな仮定の下で束縛された$O({T}^{1/2})$動的後悔を持ち、フルラベルを持つ伝統的なオンライン学習の下位境界$\Omega(T^{2/3})$よりもさらに厳密である。 一般の場合、後悔の束縛は$o({\alpha^*}^{1/3} {t}^{2/3} + \alpha^* t)$であり、ここで$\alpha^*$ は領域の分離可能性を表し、通常は小さい。 我々の理論的結果は、OSAMDがアクティブクエリで変化する環境に迅速に適応できることを示している。 実証的に,osamdはシミュレーションデータと実世界のデータの両方に限定ラベルを付けて,環境の変化に対して好意的な後悔を得られることを実証し,理論的な知見を裏付ける。

Models trained with offline data often suffer from continual distribution shifts and expensive labeling in changing environments. This calls for a new online learning paradigm where the learner can continually adapt to changing environments with limited labels. In this paper, we propose a new online setting -- Online Active Continual Adaptation, where the learner aims to continually adapt to changing distributions using both unlabeled samples and active queries of limited labels. To this end, we propose Online Self-Adaptive Mirror Descent (OSAMD), which adopts an online teacher-student structure to enable online self-training from unlabeled data, and a margin-based criterion that decides whether to query the labels to track changing distributions. Theoretically, we show that, in the separable case, OSAMD has an $O({T}^{1/2})$ dynamic regret bound under mild assumptions, which is even tighter than the lower bound $\Omega(T^{2/3})$ of traditional online learning with full labels. In the general case, we show a regret bound of $O({\alpha^*}^{1/3} {T}^{2/3} + \alpha^* T)$, where $\alpha^*$ denotes the separability of domains and is usually small. Our theoretical results show that OSAMD can fast adapt to changing environments with active queries. Empirically, we demonstrate that OSAMD achieves favorable regrets under changing environments with limited labels on both simulated and real-world data, which corroborates our theoretical findings.
翻訳日:2021-06-14 14:36:56 公開日:2021-06-11
# オープンドメインチャットボットの政治的慎重性評価

Assessing Political Prudence of Open-domain Chatbots ( http://arxiv.org/abs/2106.06157v1 )

ライセンス: Link先を確認
Yejin Bang, Nayeon Lee, Etsuko Ishii, Andrea Madotto, Pascale Fung(参考訳) 政治的に敏感なトピックは、依然としてオープンドメインチャットボットにとって課題である。 しかし、政治的に敏感なコンテンツを責任ある、非党派的で安全な行動で扱うことは、これらのチャットボットにとって不可欠である。 現在、政治的感受性を扱う主なアプローチは、そのようなトピックが検出されたときに単に変更することである。 これは安全だが回避的であり、エンゲージメントの低いチャットボットになる。 本研究は,政治的に安全なチャットボットへの第一歩として,その政治的思慮を評価するための指標群を提案する。 次に、さまざまなチャットボットの政治的プレデンス分析を行い、自動測定と人的評価のメトリクスを通して、様々な角度からの行動について議論する。 テストセットとコードベースは、この分野の研究を促進するためにリリースされている。

Politically sensitive topics are still a challenge for open-domain chatbots. However, dealing with politically sensitive content in a responsible, non-partisan, and safe behavior way is integral for these chatbots. Currently, the main approach to handling political sensitivity is by simply changing such a topic when it is detected. This is safe but evasive and results in a chatbot that is less engaging. In this work, as a first step towards a politically safe chatbot, we propose a group of metrics for assessing their political prudence. We then conduct political prudence analysis of various chatbots and discuss their behavior from multiple angles through our automatic metric and human evaluation metrics. The testsets and codebase are released to promote research in this area.
翻訳日:2021-06-14 14:35:40 公開日:2021-06-11
# BoB: BERT over BERT for Training Persona-based Dialogue Models from Limited Personalized Data

BoB: BERT Over BERT for Training Persona-based Dialogue Models from Limited Personalized Data ( http://arxiv.org/abs/2106.06169v1 )

ライセンス: Link先を確認
Haoyu Song, Yan Wang, Kaiyan Zhang, Wei-Nan Zhang, Ting Liu(参考訳) 一貫性のあるパーソナラの維持は対話エージェントにとって不可欠である。 膨大な進歩がもたらされているが、注釈付きペルソナセンスデータの限られた規模は、堅牢で一貫性のあるパーソナベースの対話モデルへの障壁である。 本研究では,新たなBERT-over-BERT(BoB)モデルを用いて,ペルソナに基づく対話生成を2つのサブタスクに分離することで,課題に対処できることを示す。 具体的には、このモデルはbertベースのエンコーダと2つのbertベースのデコーダで構成されており、1つのデコーダが応答生成用であり、もう1つは一貫性の理解用である。 特に,大規模非対話推論データから整合性理解の能力を学ぶために,第2復号器を異なる方法で訓練する。 異なる限られたデータ設定下では、自動評価と人間評価の両方によって、提案モデルが応答品質とペルソナ一貫性において強いベースラインを上回ることが示されている。

Maintaining consistent personas is essential for dialogue agents. Although tremendous advancements have been brought, the limited-scale of annotated persona-dense data are still barriers towards training robust and consistent persona-based dialogue models. In this work, we show how the challenges can be addressed by disentangling persona-based dialogue generation into two sub-tasks with a novel BERT-over-BERT (BoB) model. Specifically, the model consists of a BERT-based encoder and two BERT-based decoders, where one decoder is for response generation, and another is for consistency understanding. In particular, to learn the ability of consistency understanding from large-scale non-dialogue inference data, we train the second decoder in an unlikelihood manner. Under different limited data settings, both automatic and human evaluations demonstrate that the proposed model outperforms strong baselines in response quality and persona consistency.
翻訳日:2021-06-14 14:35:31 公開日:2021-06-11
# FedNLP:連邦準備制度通信をデコードするための解釈可能なNLPシステム

FedNLP: An interpretable NLP System to Decode Federal Reserve Communications ( http://arxiv.org/abs/2106.06247v1 )

ライセンス: Link先を確認
Jean Lee, Hoyoul Luis Youn, Nicholas Stevens, Josiah Poon, Soyeon Caren Han(参考訳) 連邦準備制度(frb)は、世界中の金融政策や金融状況に影響を与える重要な役割を担っている。 fedのコミュニケーションを分析して有用な情報を抽出することは重要であるが、内容の曖昧で難解な性質のため、一般的には長く複雑である。 本稿では,federal reserve communicationsをデコードするための解釈可能な多成分自然言語処理システムfednlpを提案する。 このシステムは、NLP技術がNOコーディングによるFRBのコミュニケーションの全体的理解にどのように役立つかをエンドユーザが調査するために設計されている。 裏側では、FedNLPは従来の機械学習アルゴリズムから下流の各タスクにおけるディープニューラルネットワークアーキテクチャまで、複数のNLPモデルを使用している。 実演では,感情分析,文書の要約,連邦資金利率運動の予測,予測モデルの解釈のための可視化など,複数の結果を一度に示す。

The Federal Reserve System (the Fed) plays a significant role in affecting monetary policy and financial conditions worldwide. Although it is important to analyse the Fed's communications to extract useful information, it is generally long-form and complex due to the ambiguous and esoteric nature of content. In this paper, we present FedNLP, an interpretable multi-component Natural Language Processing system to decode Federal Reserve communications. This system is designed for end-users to explore how NLP techniques can assist their holistic understanding of the Fed's communications with NO coding. Behind the scenes, FedNLP uses multiple NLP models from traditional machine learning algorithms to deep neural network architectures in each downstream task. The demonstration shows multiple results at once including sentiment analysis, summary of the document, prediction of the Federal Funds Rate movement and visualization for interpreting the prediction model's result.
翻訳日:2021-06-14 14:35:15 公開日:2021-06-11
# ビームするか、ビームしないか:それは言語GANのための協調の問題である

To Beam Or Not To Beam: That is a Question of Cooperation for Language GANs ( http://arxiv.org/abs/2106.06363v1 )

ライセンス: Link先を確認
Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano(参考訳) 単語の離散的な性質から、言語ganは強化学習法を通じて、識別ネットワークが提供する報酬から最適化される必要がある。 これは連続的なタスクよりもはるかに難しい設定で、識別器からジェネレータへの勾配の流れを楽しみ、通常は劇的な学習不安定をもたらす。 しかし,識別器とジェネレータネットワークが協調してトレーニング中に出力シーケンスを生成することで,この問題を解決できると主張している。 これらの協調出力は、本質的により高い差別スコアを得るために構築され、訓練のためのより高密度な報酬を提供するだけでなく、識別器訓練のためのよりコンパクトな人工セットを形成する。 本稿では,この協調原理に基づいて構築された自己GANフレームワークが,教師の強制力より優れ,要約と質問生成という2つの課題に対する最先端の成果が得られることを示す。

Due to the discrete nature of words, language GANs require to be optimized from rewards provided by discriminator networks, via reinforcement learning methods. This is a much harder setting than for continuous tasks, which enjoy gradient flows from discriminators to generators, usually leading to dramatic learning instabilities. However, we claim that this can be solved by making discriminator and generator networks cooperate to produce output sequences during training. These cooperative outputs, inherently built to obtain higher discrimination scores, not only provide denser rewards for training, but also form a more compact artificial set for discriminator training, hence improving its accuracy and stability. In this paper, we show that our SelfGAN framework, built on this cooperative principle, outperforms Teacher Forcing and obtains state-of-the-art results on two challenging tasks, Summarization and Question Generation.
翻訳日:2021-06-14 14:35:02 公開日:2021-06-11
# エンコーダデコーダ変換器を用いたゼロショット制御生成

Zero-Shot Controlled Generation with Encoder-Decoder Transformers ( http://arxiv.org/abs/2106.06411v1 )

ライセンス: Link先を確認
Devamanyu Hazarika, Mahdi Namazifar, Dilek Hakkani-T\"ur(参考訳) 自然言語生成のためのニューラルネットワークモデル(NLG)の制御は、機械翻訳、文書要約、ダイアログシステムなど、多くの分野で広く応用されている。 ゼロショット方式でそのような制御を可能にするアプローチは、いくつかの理由から、追加の注釈付きデータとトレーニングの必要性をなくすため、非常に重要である。 本研究では,エンコーダ・デコーダ変換器を用いたnlgモデルをゼロショット方式で制御する新しい手法を提案する。 これは、3つの制御ノブ、すなわちアテンションバイアス、デコーダミキシング、コンテキスト拡張を世代毎に適用することで実現される。 これらのノブは、トレーニングされたNLGモデル(例えば、クロスアテンション層をバイアスするなど)を直接操作することで生成プロセスを制御する。 これらのNLGモデルは,このような操作に対して堅牢であるだけでなく,生成性能に影響を与えることなく制御可能であることを示す。 これらの結果は、私たちの知る限りでは、彼らにとって最初のものです。 これらの制御ノブを通して、トランスフォーマーデコーダの自己照準モジュールの役割を検証し、これらのモデルによって生成された文のフルーエンシーを維持することが主な役割であることを示す。 この仮説に基づき、トランスフォーマーデコーダの代替アーキテクチャが実行可能な選択肢であることを示す。 また,この仮説がエンコーダ・デコーダトランスフォーマモデルをより効率的にトレーニングする方法につながる可能性についても検討した。

Controlling neural network-based models for natural language generation (NLG) has broad applications in numerous areas such as machine translation, document summarization, and dialog systems. Approaches that enable such control in a zero-shot manner would be of great importance as, among other reasons, they remove the need for additional annotated data and training. In this work, we propose novel approaches for controlling encoder-decoder transformer-based NLG models in a zero-shot manner. This is done by introducing three control knobs; namely, attention biasing, decoder mixing, and context augmentation, that are applied to these models at generation time. These knobs control the generation process by directly manipulating trained NLG models (e.g., biasing cross-attention layers) to realize the desired attributes in the generated outputs. We show that not only are these NLG models robust to such manipulations, but also their behavior could be controlled without an impact on their generation performance. These results, to the best of our knowledge, are the first of their kind. Through these control knobs, we also investigate the role of transformer decoder's self-attention module and show strong evidence that its primary role is maintaining fluency of sentences generated by these models. Based on this hypothesis, we show that alternative architectures for transformer decoders could be viable options. We also study how this hypothesis could lead to more efficient ways for training encoder-decoder transformer models.
翻訳日:2021-06-14 14:34:46 公開日:2021-06-11
# 対話応答生成の地域的説明

Local Explanation of Dialogue Response Generation ( http://arxiv.org/abs/2106.06528v1 )

ライセンス: Link先を確認
Yi-Lin Tuan, Connor Pryor, Wenhu Chen, Lise Getoor, William Yang Wang(参考訳) 分類モデルの解釈と比較して、系列生成モデルの説明も重要な問題であるが、ほとんど注目されていない。 本研究では,代表的なテキスト生成タスクである対話応答生成のモデル非依存な説明について検討する。 対話応答生成はオープンな文と複数の許容可能な応答で困難である。 生成モデルの推論過程に関する知見を得るため、入力文と出力文のセグメント間の相互相互作用として説明を考慮し、応答生成の局所的説明(LERG)を新たに提案する。 LERGは、シーケンス予測を人間の応答の不確実性推定とみなし、入力を摂動させ、人間の応答に対する確実性の変化を計算することによって説明を作成する。 LERGは、不偏近似、一貫性、原因同定を含む、テキスト生成のための説明の望ましい性質に固執することを示す。 実験結果から,本手法は,提案手法が提案する自動評価・人為評価指標を4.4-12.8%改善することを示す。 解析の結果,LERGは入力セグメントと出力セグメントの明示的および暗黙的関係を抽出できることがわかった。

In comparison to the interpretation of classification models, the explanation of sequence generation models is also an important problem, however it has seen little attention. In this work, we study model-agnostic explanations of a representative text generation task -- dialogue response generation. Dialog response generation is challenging with its open-ended sentences and multiple acceptable responses. To gain insights into the reasoning process of a generation model, we propose anew method, local explanation of response generation (LERG) that regards the explanations as the mutual interaction of segments in input and output sentences. LERG views the sequence prediction as uncertainty estimation of a human response and then creates explanations by perturbing the input and calculating the certainty change over the human response. We show that LERG adheres to desired properties of explanations for text generation including unbiased approximation, consistency and cause identification. Empirically, our results show that our method consistently improves other widely used methods on proposed automatic- and human- evaluation metrics for this new task by 4.4-12.8%. Our analysis demonstrates that LERG can extract both explicit and implicit relations between input and output segments.
翻訳日:2021-06-14 14:34:21 公開日:2021-06-11
# DECORE:強化学習による深い圧縮

DECORE: Deep Compression with Reinforcement Learning ( http://arxiv.org/abs/2106.06091v1 )

ライセンス: Link先を確認
Manoj Alwani, Vashisht Madhavan, Yang Wang(参考訳) ディープラーニングは、現代のパターン認識システムにおいて、ますます人気で強力な選択肢になりつつある。 しかし、多くのディープニューラルネットワークは数百万から数十億のパラメータを持ち、メモリやレイテンシに制約のある現実世界のアプリケーションでは耐えられない。 その結果、強力なネットワーク圧縮技術は、ディープラーニングを広く採用する上で必須である。 ネットワーク圧縮プロセスを自動化する強化学習手法であるDECOREを提案する。 簡単なポリシー勾配法を用いて、どのニューロンやチャネルを保持または除去するかを学習し、現代のアプローチよりも3倍から5倍の圧縮率を達成することができる。 他のアーキテクチャ検索手法とは対照的に、DECOREはシンプルで訓練が早いため、1GPUで数時間のトレーニングしか必要としない。 異なるデータセット上の標準ネットワークアーキテクチャに適用すると,従来の大規模ネットワークと同様の精度を維持しつつ,異なるアーキテクチャ上での11倍から103倍の圧縮を実現する。

Deep learning has become an increasingly popular and powerful option for modern pattern recognition systems. However, many deep neural networks have millions to billions of parameters, making them untenable for real-world applications with constraints on memory or latency. As a result, powerful network compression techniques are a must for the widespread adoption of deep learning. We present DECORE, a reinforcement learning approach to automate the network compression process. Using a simple policy gradient method to learn which neurons or channels to keep or remove, we are able to achieve compression rates 3x to 5x greater than contemporary approaches. In contrast with other architecture search methods, DECORE is simple and quick to train, requiring only a few hours of training on 1 GPU. When applied to standard network architectures on different datasets, our approach achieves 11x to 103x compression on different architectures while maintaining accuracies similar to those of the original, large networks.
翻訳日:2021-06-14 14:33:05 公開日:2021-06-11
# 動物行動における専門家アノテーションの違いの解釈

Interpreting Expert Annotation Differences in Animal Behavior ( http://arxiv.org/abs/2106.06114v1 )

ライセンス: Link先を確認
Megan Tjandrasuwita, Jennifer J. Sun, Ann Kennedy, Swarat Chaudhuri, Yisong Yue(参考訳) 手書きアノテートデータは、主観的差異、ラター内変動性、アノテータの専門性の違いなどによって異なる場合がある。 動物行動ビデオに同じ行動クラスをラベル付けした異なる専門家のアノテーションを調査し,アノテーションスタイルの変化を観察した。 本稿では,プログラム合成を用いた行動解析のためのアノテーションの差異を解釈するための新しい手法を提案する。 本モデルでは,各時刻スタンプにおけるアノテータの位置を推定した重要度に応じた時間的フィルタをプログラムの一部として学習する。 行動神経科学のデータセットを用いた実験では,ベースラインアプローチと比較して,アノテータラベルの取得や解釈可能な時間フィルタの学習がより正確であることが示された。 我々は,本手法が科学的研究で用いられる行動アノテーションの再現性を高めることができると考えている。 私たちはコードをリリースする予定です。

Hand-annotated data can vary due to factors such as subjective differences, intra-rater variability, and differing annotator expertise. We study annotations from different experts who labelled the same behavior classes on a set of animal behavior videos, and observe a variation in annotation styles. We propose a new method using program synthesis to help interpret annotation differences for behavior analysis. Our model selects relevant trajectory features and learns a temporal filter as part of a program, which corresponds to estimated importance an annotator places on that feature at each timestamp. Our experiments on a dataset from behavioral neuroscience demonstrate that compared to baseline approaches, our method is more accurate at capturing annotator labels and learns interpretable temporal filters. We believe that our method can lead to greater reproducibility of behavior annotations used in scientific studies. We plan to release our code.
翻訳日:2021-06-14 14:32:51 公開日:2021-06-11
# DouZero: DouDizhuをセルフプレイの深層強化学習で習得する

DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning ( http://arxiv.org/abs/2106.06135v1 )

ライセンス: Link先を確認
Daochen Zha, Jingru Xie, Wenye Ma, Sheng Zhang, Xiangru Lian, Xia Hu, Ji Liu(参考訳) ゲームは、人工エージェントが他のエージェントと競争し協力することを学ぶ現実世界の抽象化である。 様々な完全・不完全情報ゲームにおいて重要な成果が得られたが、ドゥーディズフ(DouDizhu、DouDizhu)である。 3人プレイのカードゲームであるFighting the Landlordは未解決のままである。 DouDizhuは競争、コラボレーション、不完全な情報、大規模な国家空間、そして特に法的な行動がターンからターンに大きく異なる可能性のある巨大な行動の集合を持つ非常に困難なドメインである。 残念なことに、現代の強化学習アルゴリズムは、主に単純で小さなアクション空間に焦点を当てているが、驚くことではない。 本研究では,従来のモンテカルロ法を深層ニューラルネットワーク,アクションエンコーディング,並列アクタで拡張する,概念的にシンプルで効果的なDouDizhu AIシステムであるDouZeroを提案する。 DouZeroは、4つのGPUを持つ単一のサーバでゼロから始まり、トレーニングの日々で既存のDouDizhu AIプログラムを上回り、344のAIエージェントの中でBotzoneのリーダーボードにランクインした。 DouZero の構築を通じて、モンテカルロ法は複雑な作用空間を持つハードドメインにおいて強い結果をもたらすことができることを示す。 コードとオンラインデモはhttps://github.com/k wai/DouZeroで公開されており、この洞察が今後の作業の動機になることを期待している。

Games are abstractions of the real world, where artificial agents learn to compete and cooperate with other agents. While significant achievements have been made in various perfect- and imperfect-informatio n games, DouDizhu (a.k.a. Fighting the Landlord), a three-player card game, is still unsolved. DouDizhu is a very challenging domain with competition, collaboration, imperfect information, large state space, and particularly a massive set of possible actions where the legal actions vary significantly from turn to turn. Unfortunately, modern reinforcement learning algorithms mainly focus on simple and small action spaces, and not surprisingly, are shown not to make satisfactory progress in DouDizhu. In this work, we propose a conceptually simple yet effective DouDizhu AI system, namely DouZero, which enhances traditional Monte-Carlo methods with deep neural networks, action encoding, and parallel actors. Starting from scratch in a single server with four GPUs, DouZero outperformed all the existing DouDizhu AI programs in days of training and was ranked the first in the Botzone leaderboard among 344 AI agents. Through building DouZero, we show that classic Monte-Carlo methods can be made to deliver strong results in a hard domain with a complex action space. The code and an online demo are released at https://github.com/k wai/DouZero with the hope that this insight could motivate future work.
翻訳日:2021-06-14 14:32:36 公開日:2021-06-11
# ハイブリッド生成コントラスト表現学習

Hybrid Generative-Contrasti ve Representation Learning ( http://arxiv.org/abs/2106.06162v1 )

ライセンス: Link先を確認
Saehoon Kim, Sungwoong Kim, Juho Lee(参考訳) 非教師なし表現学習は、大規模ラベルなしデータを効果的に活用することで、その強力な一般化性により、最近多くの関心を集めている。 コントラスト学習と生成前学習の2つのアプローチがあり、前者はインスタンスごとの識別タスクから表現を学び、後者は確率の推定からそれらを学ぶ。 これらの一見直交的なアプローチには独自の強みと弱みがある。 コントラスト学習は、意味情報を抽出し、オブジェクトの分類に関係のない詳細を廃棄する傾向があり、その表現を識別的タスクに効果的にし、アウト・オブ・ディストリビューションデータへのロバスト性を低下させる。 一方、生成前訓練はデータ分布を直接推定するので、表現は頑健な傾向があるが、判別タスクには最適ではない。 本稿では,ハイブリッド・トレーニング・スキームによって両世界のベストを実現できることを示す。 具体的には、コントラストと生成的損失の両方で訓練されたトランスフォーマーベースのエンコーダデコーダアーキテクチャが、生成性能を損なうことなく、高い識別性および堅牢性を持つ表現を学習できることを実証した。 私たちは様々なタスクに対するアプローチを広範囲に検証します。

Unsupervised representation learning has recently received lots of interest due to its powerful generalizability through effectively leveraging large-scale unlabeled data. There are two prevalent approaches for this, contrastive learning and generative pre-training, where the former learns representations from instance-wise discrimination tasks and the latter learns them from estimating the likelihood. These seemingly orthogonal approaches have their own strengths and weaknesses. Contrastive learning tends to extract semantic information and discards details irrelevant for classifying objects, making the representations effective for discriminative tasks while degrading robustness to out-of-distribution data. On the other hand, the generative pre-training directly estimates the data distribution, so the representations tend to be robust but not optimal for discriminative tasks. In this paper, we show that we could achieve the best of both worlds by a hybrid training scheme. Specifically, we demonstrated that a transformer-based encoder-decoder architecture trained with both contrastive and generative losses can learn highly discriminative and robust representations without hurting the generative performance. We extensively validate our approach on various tasks.
翻訳日:2021-06-14 14:32:13 公開日:2021-06-11
# 知識は機械学習に何をもたらすのか? --構造化データのローショット学習に関する調査

What Can Knowledge Bring to Machine Learning? -- A Survey of Low-shot Learning for Structured Data ( http://arxiv.org/abs/2106.06410v1 )

ライセンス: Link先を確認
Yang Hu, Adriane Chapman, Guihua Wen and Dame Wendy Hall(参考訳) 監視された機械学習には、多くの状況での使用が困難になるいくつかの欠点がある。 大量のトレーニングデータへの依存、限定的な一般化性、ハイレベルなセマンティクスの表現力の低下。 ローショット学習はこれらの欠点に対処しようとする。 ローショット学習は、構造化知識が人間の高度な意味表現として重要な役割を担っている、非常に少ない、または全く訓練データで優れた予測力を得ることができる。 本稿では,異なる低ショット環境下での構造化知識の操作に着目し,低ショット学習技術の基本的要因について概説する。 ローショット学習に関する他のテクニックも紹介する。 最後に,ローショット学習の限界,産業応用の可能性とギャップ,今後の研究方向性を指摘する。

Supervised machine learning has several drawbacks that make it difficult to use in many situations. Drawbacks include: heavy reliance on massive training data, limited generalizability and poor expressiveness of high-level semantics. Low-shot Learning attempts to address these drawbacks. Low-shot learning allows the model to obtain good predictive power with very little or no training data, where structured knowledge plays a key role as a high-level semantic representation of human. This article will review the fundamental factors of low-shot learning technologies, with a focus on the operation of structured knowledge under different low-shot conditions. We also introduce other techniques relevant to low-shot learning. Finally, we point out the limitations of low-shot learning, the prospects and gaps of industrial applications, and future research directions.
翻訳日:2021-06-14 14:31:55 公開日:2021-06-11
# イミテーション学習のためのポリシー勾配ベイズロバスト最適化

Policy Gradient Bayesian Robust Optimization for Imitation Learning ( http://arxiv.org/abs/2106.06499v1 )

ライセンス: Link先を確認
Zaynah Javed, Daniel S. Brown, Satvik Sharma, Jerry Zhu, Ashwin Balakrishna, Marek Petrik, Anca D. Dragan, Ken Goldberg(参考訳) 多くの実世界の問題に対する報酬を特定することの難しさは、デモのような人間のフィードバックから報酬を学ぶことに集中している。 しかし、人間のフィードバックを説明する多くの異なる報酬関数があり、真の報酬関数が何であるかに不確実性がある。 ほとんどのポリシー最適化アプローチは、期待されるパフォーマンスのために最適化することでこの不確実性を処理するが、多くのアプリケーションは、リスク回避の振る舞いを要求する。 我々は,期待性能とリスクのバランスをとるソフトロバスト目標を最適化する新しいポリシー勾配型ロバスト最適化手法pg-broilを導出する。 我々の知る限り、PG-BROILは、連続的なMDPにスケール可能な報酬仮説の分布に頑健な最初のポリシー最適化アルゴリズムである。 その結果,PG-BROILはリスクニュートラルからリスクアバースまで多岐にわたる行動のファミリを生み出すことができ,不確実性に対処して不明瞭な実演から学習する際の最先端の模倣学習アルゴリズムより優れていることが示唆された。

The difficulty in specifying rewards for many real-world problems has led to an increased focus on learning rewards from human feedback, such as demonstrations. However, there are often many different reward functions that explain the human feedback, leaving agents with uncertainty over what the true reward function is. While most policy optimization approaches handle this uncertainty by optimizing for expected performance, many applications demand risk-averse behavior. We derive a novel policy gradient-style robust optimization approach, PG-BROIL, that optimizes a soft-robust objective that balances expected performance and risk. To the best of our knowledge, PG-BROIL is the first policy optimization algorithm robust to a distribution of reward hypotheses which can scale to continuous MDPs. Results suggest that PG-BROIL can produce a family of behaviors ranging from risk-neutral to risk-averse and outperforms state-of-the-art imitation learning algorithms when learning from ambiguous demonstrations by hedging against uncertainty, rather than seeking to uniquely identify the demonstrator's reward function.
翻訳日:2021-06-14 14:31:42 公開日:2021-06-11
# ニューラル最適化カーネル:ロバストなディープラーニングを目指して

Neural Optimization Kernel: Towards Robust Deep Learning ( http://arxiv.org/abs/2106.06097v1 )

ライセンス: Link先を確認
Yueming Lyu, Ivor Tsang(参考訳) 最近の研究では、ニューラルネットワーク(NN)とカーネルメソッドの密接な関係が示されている。 しかし、これらの分析(NTKなど)のほとんどは、NNモデルの深さではなく、幅の影響に焦点を当てている。 深みの恩恵を受ける理論と実践的なネットワーク設計の間にはまだギャップがある。 本稿ではまず,ニューラル最適化カーネル(NOK)と呼ばれる新しいカーネルファミリーを提案する。 我々のカーネルは RKHS w.r.t の 2 つの $T$-step 更新関数の内積として定義される。 正規化最適化問題。 理論的には、凸問題と非凸問題の両方に対する更新則の単調降下特性と、凸問題に対する更新のO(1/T)$収束率を証明した。 さらに,NOKに関連付けられた深層NNとカーネルメソッドとの接続を構築するため,NOKのデータ依存構造近似を提案する。 結果計算グラフは、resnet型有限幅nnである。 構造近似は単調降下特性と$o(1/t)$収束率を維持した。 すなわち、$T$-layer NNは、$T$-step monotonic descent updateを実行する。 特に、ReLUによる$T$層構造NNは$O(1/T)$収束率w.r.tを維持している。 NNアーキテクチャ最適化の観点から、ディープNNのトレーニングにおけるReLUの成功を説明する凸正規化問題である。 教師なし学習と共有パラメータの場合、GDとトレーニング構造化NNの等価性を示し、無限幅における固定(データ依存)NOKに関連するRKHSの関数勾配降下を行う。 有限NOKに対して、一般化境界を証明する。 特筆すべきは,過剰パラメータの深層nn (nok) が表現力を高め,経験的リスクを低減し,同時に束縛された一般化を低減できることである。 大規模実験により構造されたNOKブロックのロバスト性を検証した。

Recent studies show a close connection between neural networks (NN) and kernel methods. However, most of these analyses (e.g., NTK) focus on the influence of (infinite) width instead of the depth of NN models. There remains a gap between theory and practical network designs that benefit from the depth. This paper first proposes a novel kernel family named Neural Optimization Kernel (NOK). Our kernel is defined as the inner product between two $T$-step updated functionals in RKHS w.r.t. a regularized optimization problem. Theoretically, we proved the monotonic descent property of our update rule for both convex and non-convex problems, and a $O(1/T)$ convergence rate of our updates for convex problems. Moreover, we propose a data-dependent structured approximation of our NOK, which builds the connection between training deep NNs and kernel methods associated with NOK. The resultant computational graph is a ResNet-type finite width NN. Our structured approximation preserved the monotonic descent property and $O(1/T)$ convergence rate. Namely, a $T$-layer NN performs $T$-step monotonic descent updates. Notably, we show our $T$-layered structured NN with ReLU maintains a $O(1/T)$ convergence rate w.r.t. a convex regularized problem, which explains the success of ReLU on training deep NN from a NN architecture optimization perspective. For the unsupervised learning and the shared parameter case, we show the equivalence of training structured NN with GD and performing functional gradient descent in RKHS associated with a fixed (data-dependent) NOK at an infinity-width regime. For finite NOKs, we prove generalization bounds. Remarkably, we show that overparameterized deep NN (NOK) can increase the expressive power to reduce empirical risk and reduce the generalization bound at the same time. Extensive experiments verify the robustness of our structured NOK blocks.
翻訳日:2021-06-14 14:30:33 公開日:2021-06-11
# 線形関数近似を用いた安全強化学習

Safe Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2106.06239v1 )

ライセンス: Link先を確認
Sanae Amani, Christos Thrampoulidis, Lin F. Yang(参考訳) 近年,強化学習の安全性がますます重要になっている。 しかし、既存のソリューションは、安全クリティカルなシステムにおいて壊滅的な結果をもたらす可能性のある安全でないアクションの選択を厳密に避けるか、安全制約を学ぶ必要がある設定に対して後悔の保証を提供しないかのどちらかである。 本稿では,まず,状態と動作の未知の線形コスト関数として安全性をモデル化することで,常に一定のしきい値を下回らなければならない2つの問題に対処する。 次に,線形関数近似を用いたマルコフ決定過程(MDP)のSLUCB-QVIとRSLUCB-QVIというアルゴリズムを提案する。 SLUCB-QVI と RSLUCB-QVI は \emph{no safety violation} で $\tilde{\mathcal{O}}\left(\kappa\sqrt{d^3H^3T}\right)$ regret, $-of-the-art unsafe algorithm, where $H$ is the duration of each episode, $d$ is the dimension of the feature mapping, $\kappa$ is a constant characterizing the safety constraints, $T$ is the total number of action play。 さらに,我々の理論的知見を裏付ける数値シミュレーションについて述べる。

Safety in reinforcement learning has become increasingly important in recent years. Yet, existing solutions either fail to strictly avoid choosing unsafe actions, which may lead to catastrophic results in safety-critical systems, or fail to provide regret guarantees for settings where safety constraints need to be learned. In this paper, we address both problems by first modeling safety as an unknown linear cost function of states and actions, which must always fall below a certain threshold. We then present algorithms, termed SLUCB-QVI and RSLUCB-QVI, for episodic Markov decision processes (MDPs) with linear function approximation. We show that SLUCB-QVI and RSLUCB-QVI, while with \emph{no safety violation}, achieve a $\tilde{\mathcal{O}}\left(\kappa\sqrt{d^3H^3T}\right)$ regret, nearly matching that of state-of-the-art unsafe algorithms, where $H$ is the duration of each episode, $d$ is the dimension of the feature mapping, $\kappa$ is a constant characterizing the safety constraints, and $T$ is the total number of action plays. We further present numerical simulations that corroborate our theoretical findings.
翻訳日:2021-06-14 14:30:03 公開日:2021-06-11
# 教師学生設定における2層ReLUニューラルネットワークの勾配法による学習性について

On Learnability via Gradient Method for Two-Layer ReLU Neural Networks in Teacher-Student Setting ( http://arxiv.org/abs/2106.06251v1 )

ライセンス: Link先を確認
Shunta Akiyama and Taiji Suzuki(参考訳) ディープラーニングは多くのアプリケーションで経験的に高い性能を達成するが、そのトレーニング力学は理論的には完全には理解されていない。 本稿では,学生ネットワークが未知の教師ネットワークを学習する教師学生の回帰モデルを用いて,2層ReLUニューラルネットワークの学習に関する理論的解析を行う。 対象関数が高度に非凸であるにもかかわらず, 正規化と十分な過剰パラメータ化により, 高確率の教師ネットワークのパラメータを, ノルム依存ステップによる勾配降下により同定できることを示す。 鍵となる理論ツールは、ニューラルネットワークの測度表現と、測度空間上のスパース推定のための双対証明引数の新しい応用である。 測度空間における大域最小値と大域収束特性を解析する。

Deep learning empirically achieves high performance in many applications, but its training dynamics has not been fully understood theoretically. In this paper, we explore theoretical analysis on training two-layer ReLU neural networks in a teacher-student regression model, in which a student network learns an unknown teacher network through its outputs. We show that with a specific regularization and sufficient over-parameterizatio n, the student network can identify the parameters of the teacher network with high probability via gradient descent with a norm dependent stepsize even though the objective function is highly non-convex. The key theoretical tool is the measure representation of the neural networks and a novel application of a dual certificate argument for sparse estimation on a measure space. We analyze the global minima and global convergence property in the measure space.
翻訳日:2021-06-14 14:29:34 公開日:2021-06-11
# 領域一般化のための不変情報ボトルネック

Invariant Information Bottleneck for Domain Generalization ( http://arxiv.org/abs/2106.06333v1 )

ライセンス: Link先を確認
Bo Li, Yifei Shen, Yezhen Wang, Wenzhen Zhu, Colorado J. Reed, Tong Che, Jun Zhang, Dongsheng Li, Kurt Keutzer, Han Zhao(参考訳) ドメイン一般化(DG)の主な課題は、複数のトレーニングドメインと目に見えないテストドメインの間の潜在的分散シフトを克服することである。 dgアルゴリズムの一般的なクラスの一つは、トレーニング領域にまたがる不変因果関係を持つ表現を学習することである。 しかし、いくつかの特徴は \emph{pseudo-invariant features} と呼ばれ、訓練領域では不変であるがテスト領域では存在せず、既存のアルゴリズムの性能を大幅に低下させることができる。 この問題に対処するため,我々は,トレーニング領域とテスト領域間で不変である最小の表現を学習する不変情報ボトルネック(iib)と呼ばれる新しいアルゴリズムを提案する。 表現と入力の相互情報を最小化することにより、IIBはDGに望ましい擬似不変特徴への依存を緩和する。 IIB の原理の有効性を検証するため,大規模な DG ベンチマークで広範な実験を行った。 その結果,IIBは不変学習ベースライン(例)よりも優れていた。 IRM)は2つの評価指標に対して平均2.8\%と3.8\%の精度である。

The main challenge for domain generalization (DG) is to overcome the potential distributional shift between multiple training domains and unseen test domains. One popular class of DG algorithms aims to learn representations that have an invariant causal relation across the training domains. However, certain features, called \emph{pseudo-invariant features}, may be invariant in the training domain but not the test domain and can substantially decreases the performance of existing algorithms. To address this issue, we propose a novel algorithm, called Invariant Information Bottleneck (IIB), that learns a minimally sufficient representation that is invariant across training and testing domains. By minimizing the mutual information between the representation and inputs, IIB alleviates its reliance on pseudo-invariant features, which is desirable for DG. To verify the effectiveness of the IIB principle, we conduct extensive experiments on large-scale DG benchmarks. The results show that IIB outperforms invariant learning baseline (e.g. IRM) by an average of 2.8\% and 3.8\% accuracy over two evaluation metrics.
翻訳日:2021-06-14 14:29:20 公開日:2021-06-11
# オフラインオラクルによる多数のクラスを有するコンテキストバンディットの最適モデル選択

Optimal Model Selection in Contextual Bandits with Many Classes via Offline Oracles ( http://arxiv.org/abs/2106.06483v1 )

ライセンス: Link先を確認
Sanath Kumar Krishnamurthy, Susan Athey(参考訳) 本研究では,モデル推定のためのバイアス分散トレードオフのバランスと探索・探索トレードオフのバランスをとらなければならないコンテキストバンディットのモデル選択の問題について検討する。 本稿では,文脈的帯域選択からオフラインモデル選択のオーラクルへのモデル選択を初めて削減し,回帰のためのモデル選択よりも計算要求の柔軟な汎用アルゴリズムを実現することを提案する。 我々の主な成果は、確率的文脈的包帯に対する新しいモデル選択保証である。 私たちのアルゴリズムは、クラス数に対数的依存がある場合、時間水平が十分大きい場合、または誤特定を検出するのに役立つ仮定が成立する場合の2つの条件の1つの下で、そのクラスに対する最適な実現可能性に基づく後悔境界を達成する。 したがって、このアルゴリズムは未知のクラスの複雑さに適応する。 この実現可能なクラスが知られているとしても、これらのラウンドにおいてより単純なモデルクラスを頼りにすることで、早期ラウンドにおける後悔の保証の改善が証明される。

We study the problem of model selection for contextual bandits, in which the algorithm must balance the bias-variance trade-off for model estimation while also balancing the exploration-exploita tion trade-off. In this paper, we propose the first reduction of model selection in contextual bandits to offline model selection oracles, allowing for flexible general purpose algorithms with computational requirements no worse than those for model selection for regression. Our main result is a new model selection guarantee for stochastic contextual bandits. When one of the classes in our set is realizable, up to a logarithmic dependency on the number of classes, our algorithm attains optimal realizability-based regret bounds for that class under one of two conditions: if the time-horizon is large enough, or if an assumption that helps with detecting misspecification holds. Hence our algorithm adapts to the complexity of this unknown class. Even when this realizable class is known, we prove improved regret guarantees in early rounds by relying on simpler model classes for those rounds and hence further establish the importance of model selection in contextual bandits.
翻訳日:2021-06-14 14:29:03 公開日:2021-06-11
# ニューラルネットワークにおける大きな幅の限界:深いガウス過程の観点から

The Limitations of Large Width in Neural Networks: A Deep Gaussian Process Perspective ( http://arxiv.org/abs/2106.06529v1 )

ライセンス: Link先を確認
Geoff Pleiss, John P. Cunningham(参考訳) 大規模幅の制限は、近年のディープラーニング研究の焦点となっている: モジュラー計算の実用性、より広いネットワークはより狭いネットワークよりも優れているか? 従来のネットワークは幅のある表現力を獲得し、ネガティブな効果を隠蔽する可能性があるため、この問題に答えるのは難しい。 本稿では,ニューラルネットワークを一般化した階層型モデルであるDeep Gaussian Processes (Deep GP) の容量と幅を分離する。 これにより、与えられたモデリングタスクに十分なキャパシティが得られたら、幅が標準ニューラルネットワークにどのように影響するかを理解することを目指している。 Deep GPの理論的および実証的な結果は、大幅が一般に階層モデルに有害であることを示している。 驚くべきことに、非パラメトリックディープGPでさえガウス過程に収束し、表現力の増大なしに事実上浅くなっていく。 データ適応可能な基底関数の混合に対応する後部は、幅によってデータ依存が減る。 深さはモデルの非ガウス性を強調し、幅はモデルのガウス性を強める。 制限gp動作が適応性を妨げる前にテストセットのパフォーマンスを最大化する「スイートスポット」が、非パラメトリックなディープgpの場合、幅 = 1 または幅 = 2 で発生する。 これらの結果は、従来のニューラルネットワークにおいて、同じ現象について強い予測をもたらしている:我々は、多くのニューラルネットワークアーキテクチャは、データセットによって十分な容量のために10 - 500の隠れたユニットを必要とするが、さらに幅はテスト性能を低下させる。

Large width limits have been a recent focus of deep learning research: modulo computational practicalities, do wider networks outperform narrower ones? Answering this question has been challenging, as conventional networks gain representational power with width, potentially masking any negative effects. Our analysis in this paper decouples capacity and width via the generalization of neural networks to Deep Gaussian Processes (Deep GP), a class of hierarchical models that subsume neural nets. In doing so, we aim to understand how width affects standard neural networks once they have sufficient capacity for a given modeling task. Our theoretical and empirical results on Deep GP suggest that large width is generally detrimental to hierarchical models. Surprisingly, we prove that even nonparametric Deep GP converge to Gaussian processes, effectively becoming shallower without any increase in representational power. The posterior, which corresponds to a mixture of data-adaptable basis functions, becomes less data-dependent with width. Our tail analysis demonstrates that width and depth have opposite effects: depth accentuates a model's non-Gaussianity, while width makes models increasingly Gaussian. We find there is a "sweet spot" that maximizes test set performance before the limiting GP behavior prevents adaptability, occurring at width = 1 or width = 2 for nonparametric Deep GP. These results make strong predictions about the same phenomenon in conventional neural networks: we show empirically that many neural network architectures need 10 - 500 hidden units for sufficient capacity - depending on the dataset - but further width degrades test performance.
翻訳日:2021-06-14 14:28:43 公開日:2021-06-11
# クラスタ割り当ての正確な特徴を学ぶ

Learning the Precise Feature for Cluster Assignment ( http://arxiv.org/abs/2106.06159v1 )

ライセンス: Link先を確認
Yanhai Gan, Xinghui Dong, Huiyu Zhou, Feng Gao, Junyu Dong(参考訳) クラスタリングはコンピュータビジョンとパターン認識における基本的なタスクの1つである。 近年,深層クラスタリング手法(深層学習に基づくアルゴリズム)が注目されている。 これらのアルゴリズムの多くは、教師なし表現学習と標準クラスタリングを組み合わせる。 しかし、表現学習とクラスタリングの分離は、2段階の戦略によって表現学習がその後のタスク(例えば、特定の手がかりによるクラスタリング)に適応できないため、最適以下の解決策につながる。 この問題を解決するために、表現とクラスタ割り当ての動的適応に取り組み、現在の最先端の手法は表現とクラスタ割り当てを代替的に最適化したヒューリスティックに構築された目的に悩まされている。 クラスタリング問題をさらに標準化するために,クラスタ割り当ての手がかりとして正確な特徴を見つけるために,クラスタリングの目的を大胆に定式化する。 そこで本研究では,表現学習とクラスタリングをひとつのパイプラインに統合する,汎用的なディープクラスタリングフレームワークを提案する。 提案フレームワークは,最近開発された固有特徴を学習するための生成モデルの強力な能力を活用し,専用変分アルゴリズムによりクラスタ割り当ての分布をエントロピー最小化する。 実験の結果,提案手法の性能は,手書き桁認識,ファッション認識,顔認識,オブジェクト認識ベンチマークデータセットにおける最先端手法よりも優れ,少なくとも同等であることがわかった。

Clustering is one of the fundamental tasks in computer vision and pattern recognition. Recently, deep clustering methods (algorithms based on deep learning) have attracted wide attention with their impressive performance. Most of these algorithms combine deep unsupervised representation learning and standard clustering together. However, the separation of representation learning and clustering will lead to suboptimal solutions because the two-stage strategy prevents representation learning from adapting to subsequent tasks (e.g., clustering according to specific cues). To overcome this issue, efforts have been made in the dynamic adaption of representation and cluster assignment, whereas current state-of-the-art methods suffer from heuristically constructed objectives with representation and cluster assignment alternatively optimized. To further standardize the clustering problem, we audaciously formulate the objective of clustering as finding a precise feature as the cue for cluster assignment. Based on this, we propose a general-purpose deep clustering framework which radically integrates representation learning and clustering into a single pipeline for the first time. The proposed framework exploits the powerful ability of recently developed generative models for learning intrinsic features, and imposes an entropy minimization on the distribution of the cluster assignment by a dedicated variational algorithm. Experimental results show that the performance of the proposed method is superior, or at least comparable to, the state-of-the-art methods on the handwritten digit recognition, fashion recognition, face recognition and object recognition benchmark datasets.
翻訳日:2021-06-14 14:27:36 公開日:2021-06-11
# ViT-inception-GANによる画像カラー化

ViT-Inception-GAN for Image Colourising ( http://arxiv.org/abs/2106.06321v1 )

ライセンス: Link先を確認
Tejas Bana, Jatan Loya and Siddhant Kulkarni(参考訳) 画像の彩色に関する研究は、様々な機械学習技術や計算能力の大幅な進歩に助けられ、研究者の注意を惹きつけてきた。 伝統的に、彩色画像は、彩色情報の割り当て中にかなりの自由度を与える複雑な作業であった。 提案手法では,インセプション-v3融合をジェネレータに埋め込んだViT-I-GAN(ViT-I-GAN) を用いて画像のカラー化を試みる。 安定でロバストなネットワークでは,視覚トランスフォーマー(vit)を識別器として用いた。 Inception-v3埋め込みによる改善を示すために、UnsplashとCOCOデータセットでモデルをトレーニングしました。 Inception-v3 埋込量と ViT-GAN の比較を行った。

Studies involving colourising images has been garnering researchers' keen attention over time, assisted by significant advances in various Machine Learning techniques and compute power availability. Traditionally, colourising images have been an intricate task that gave a substantial degree of freedom during the assignment of chromatic information. In our proposed method, we attempt to colourise images using Vision Transformer - Inception - Generative Adversarial Network (ViT-I-GAN), which has an Inception-v3 fusion embedding in the generator. For a stable and robust network, we have used Vision Transformer (ViT) as the discriminator. We trained the model on the Unsplash and the COCO dataset for demonstrating the improvement made by the Inception-v3 embedding. We have compared the results between ViT-GANs with and without Inception-v3 embedding.
翻訳日:2021-06-14 14:27:14 公開日:2021-06-11
# スケール不変なスケールチャネルネットワーク:以前は目に見えないスケールに一般化するディープネットワーク

Scale-invariant scale-channel networks: Deep networks that generalise to previously unseen scales ( http://arxiv.org/abs/2106.06418v1 )

ライセンス: Link先を確認
Ylva Jansson and Tony Lindeberg(参考訳) 大規模なバリエーションを扱う能力は多くの現実世界の視覚的タスクにとって不可欠である。 ディープネットワークにおけるスケールを扱うための簡単なアプローチは、一連のスケールチャネルで複数のスケールで画像を同時に処理することだ。 スケール不変性は、原則として、スケールチャネル間の重量共有と、スケールチャネルからの出力を最大または平均的にプールすることで達成できる。 このようなスケールチャネルネットワークが、重要なスケール範囲のトレーニングセットに存在しないスケールに一般化する能力は、これまで検討されていなかった。 本稿では,異なる種類のスケールチャネルネットワークを実装し,これまで見られなかったスケールに一般化する能力を評価することで,この手法の体系的研究を行う。 我々は,スケールチャネルネットワークの共分散と不変性を分析するための形式的手法を開発し,スケールチャネルネットワーク全体の性能に異なる設計選択がどう影響するかを検討する。 まず,前述した2つのスケールチャネルネットワーク設計が,トレーニングセットに存在しないスケールに対して十分に一般化していないことを示す。 理論的に説明し,これらのケースにおいて一般化が失敗した理由を実験的に示す。 そこで我々は,画像のより大きな部分を分解能を低下させて処理する,新しいタイプのスケールチャネルアーキテクチャを提案する。 この新しいタイプのスケールチャネルネットワークは、非常によく一般化され、十分な解像度と境界効果がないことが示されている。 提案するFovMaxとFovAvgのネットワークは,1スケールのトレーニングデータを用いたトレーニングにおいても,ほぼ同一のスケール範囲で動作し,小さなサンプル状態の大規模なデータセットから学習する際の性能も向上する。

The ability to handle large scale variations is crucial for many real world visual tasks. A straightforward approach for handling scale in a deep network is to process an image at several scales simultaneously in a set of scale channels. Scale invariance can then, in principle, be achieved by using weight sharing between the scale channels together with max or average pooling over the outputs from the scale channels. The ability of such scale channel networks to generalise to scales not present in the training set over significant scale ranges has, however, not previously been explored. In this paper, we present a systematic study of this methodology by implementing different types of scale channel networks and evaluating their ability to generalise to previously unseen scales. We develop a formalism for analysing the covariance and invariance properties of scale channel networks, and explore how different design choices, unique to scaling transformations, affect the overall performance of scale channel networks. We first show that two previously proposed scale channel network designs do not generalise well to scales not present in the training set. We explain theoretically and demonstrate experimentally why generalisation fails in these cases. We then propose a new type of foveated scale channel architecture}, where the scale channels process increasingly larger parts of the image with decreasing resolution. This new type of scale channel network is shown to generalise extremely well, provided sufficient image resolution and the absence of boundary effects. Our proposed FovMax and FovAvg networks perform almost identically over a scale range of 8, also when training on single scale training data, and do also give improved performance when learning from datasets with large scale variations in the small sample regime.
翻訳日:2021-06-14 14:26:58 公開日:2021-06-11
# Few-Shot 3D再構成のための合成形状の事前学習

Learning Compositional Shape Priors for Few-Shot 3D Reconstruction ( http://arxiv.org/abs/2106.06440v1 )

ライセンス: Link先を確認
Mateusz Michalkiewicz, Stavros Tsogkas, Sarah Parisot, Mahsa Baktashmotlagh, Anders Eriksson, Eugene Belilovsky(参考訳) シングルビュー3次元再構成における深部畳み込みニューラルネットワークの性能は、これらのモデルが出力空間の3次元構造に関する非自明な推論を行うことを示している。 近年の研究では、標準ベンチマークにおいて、複雑なエンコーダ-デコーダアーキテクチャは、最も近いベースラインや、カテゴリ単位の大量のデータを利用する単純な線形デコーダモデルと同様に振る舞うことが示されている。 しかし、教師付きトレーニングのための大規模な3次元形状の収集は、面倒なプロセスである。より現実的で制約の少ないタスクは、利用可能なトレーニング例がほとんどないカテゴリの3次元形状を推論し、新しいオブジェクトクラスにうまく一般化できるモデルを要求する。 本研究では,ネットワークが新たなカテゴリの推論に先立って情報型を学習しなければならない,このマイナショット学習環境において,ナイーブなベースラインが失敗することを実験的に実証する。 データから直接クラス固有のグローバルな形状を学習する3つの方法を提案する。 これらの手法を用いることで,3次元形状に関するマルチスケール情報をキャプチャし,暗黙的な構成構造によりクラス内変動を考慮できる。 一般的なShapeNetデータセットの実験では,本手法がゼロショットベースラインを40%以上上回り,現在の最先端を10%以上上回っている。

The impressive performance of deep convolutional neural networks in single-view 3D reconstruction suggests that these models perform non-trivial reasoning about the 3D structure of the output space. Recent work has challenged this belief, showing that, on standard benchmarks, complex encoder-decoder architectures perform similarly to nearest-neighbor baselines or simple linear decoder models that exploit large amounts of per-category data. However, building large collections of 3D shapes for supervised training is a laborious process; a more realistic and less constraining task is inferring 3D shapes for categories with few available training examples, calling for a model that can successfully generalize to novel object classes. In this work we experimentally demonstrate that naive baselines fail in this few-shot learning setting, in which the network must learn informative shape priors for inference of new categories. We propose three ways to learn a class-specific global shape prior, directly from data. Using these techniques, we are able to capture multi-scale information about the 3D shape, and account for intra-class variability by virtue of an implicit compositional structure. Experiments on the popular ShapeNet dataset show that our method outperforms a zero-shot baseline by over 40%, and the current state-of-the-art by over 10%, in terms of relative performance, in the few-shot setting.12
翻訳日:2021-06-14 14:26:33 公開日:2021-06-11
# k-shot nas:k-shot supernetsによるnasの学習可能なウェイトシェアリング

K-shot NAS: Learnable Weight-Sharing for NAS with K-shot Supernets ( http://arxiv.org/abs/2106.06442v1 )

ライセンス: Link先を確認
Xiu Su, Shan You, Mingkai Zheng, Fei Wang, Chen Qian, Changshui Zhang, Chang Xu(参考訳) NASの1ショットの重み共有では、各操作(各層における)の重みは、スーパーネット内のすべてのアーキテクチャ(パス)と同一である。 しかし、これは異なる経路に対応するために操作重みを調整する可能性を排除し、評価結果の信頼性を制限している。 本稿では,1つのスーパーネットを数える代わりに,k$-shotスーパーネットを導入し,各操作の重みを辞書として取り上げる。 各パスの操作重みは、辞書内の項目とsimplexコードとの凸結合として表現される。 これにより、より高いランク(K>1$)のスタンドアローン重み行列の行列近似が可能になる。 各パスに対してアーキテクチャカスタマイズされたコードを生成するために、 \textit{simplex-net}が導入される。 その結果、全ての経路は、$K$-shotスーパーネットで重みを共有する方法を適応的に学習し、それに対応する重みを取得することでより良い評価を行うことができる。 k$-shotスーパーネットとsimplex-netは反復的に訓練することができ、さらに探索をチャンネル次元にまで拡張する。 ベンチマークデータセットの大規模な実験により、KショットNASはパスの評価精度を大幅に改善し、性能が著しく向上することが示された。

In one-shot weight sharing for NAS, the weights of each operation (at each layer) are supposed to be identical for all architectures (paths) in the supernet. However, this rules out the possibility of adjusting operation weights to cater for different paths, which limits the reliability of the evaluation results. In this paper, instead of counting on a single supernet, we introduce $K$-shot supernets and take their weights for each operation as a dictionary. The operation weight for each path is represented as a convex combination of items in a dictionary with a simplex code. This enables a matrix approximation of the stand-alone weight matrix with a higher rank ($K>1$). A \textit{simplex-net} is introduced to produce architecture-customi zed code for each path. As a result, all paths can adaptively learn how to share weights in the $K$-shot supernets and acquire corresponding weights for better evaluation. $K$-shot supernets and simplex-net can be iteratively trained, and we further extend the search to the channel dimension. Extensive experiments on benchmark datasets validate that K-shot NAS significantly improves the evaluation accuracy of paths and thus brings in impressive performance improvements.
翻訳日:2021-06-14 14:26:08 公開日:2021-06-11
# 手動組立シナリオにおける近時間エゴセントリック知覚のための小物体検出

Small Object Detection for Near Real-Time Egocentric Perception in a Manual Assembly Scenario ( http://arxiv.org/abs/2106.06403v1 )

ライセンス: Link先を確認
Hooman Tavakoli, Snehal Walunj, Parsha Pahlevannejad, Christiane Plociennik, and Martin Ruskowski(参考訳) ヘッドウーンの拡張現実デバイスのビデオストリーム中の小さなオブジェクトをほぼリアルタイムで検出することは、大きな課題だ。訓練データは通常不足しており、入力されたビデオストリームは限られた品質であり、小さなオブジェクトは検出するのが非常に難しい。 しかし、工業的シナリオでは、小さな物体の検出に文脈知識を活用することがしばしば可能である。 さらに、オブジェクトのCADデータは一般的に利用可能であり、合成トレーニングデータを生成するために使用できる。 筆者らは,cadデータと現実の背景に基づくトレーニングデータセットを生成できるという手動組立シナリオにおいて,エゴセントリックな知覚のための,ほぼリアルタイムの小型物体検出パイプラインについて述べる。 次に、2段階検出プロセスのためにYOLOv4モデルをトレーニングする。 拡張現実デバイスであるMicrosoft Hololens 2.0のパイプラインを評価した。

Detecting small objects in video streams of head-worn augmented reality devices in near real-time is a huge challenge: training data is typically scarce, the input video stream can be of limited quality, and small objects are notoriously hard to detect. In industrial scenarios, however, it is often possible to leverage contextual knowledge for the detection of small objects. Furthermore, CAD data of objects are typically available and can be used to generate synthetic training data. We describe a near real-time small object detection pipeline for egocentric perception in a manual assembly scenario: We generate a training data set based on CAD data and realistic backgrounds in Unity. We then train a YOLOv4 model for a two-stage detection process: First, the context is recognized, then the small object of interest is detected. We evaluate our pipeline on the augmented reality device Microsoft Hololens 2.
翻訳日:2021-06-14 14:25:50 公開日:2021-06-11
# NAAQA: 音響質問応答のためのニューラルネットワーク

NAAQA: A Neural Architecture for Acoustic Question Answering ( http://arxiv.org/abs/2106.06147v1 )

ライセンス: Link先を確認
Jerome Abdelnour, Jean Rouat, Giampiero Salvi(参考訳) aqa(a acoustic question answering)タスクの目標は、音響シーンの内容に関する自由形式のテキスト質問に答えることである。 VQA(Visual Question Answering)タスクにインスパイアされたものだ。 本稿では,従来導入されていたCLEARデータセットに基づいて,音響入力の特定の課題を強調するAQAの新しいベンチマークを提案する。 一定期間のシーン。 また、音響入力の特定の特性を活用するニューラルネットワークであるNAAQAを紹介する。 時間と周波数の1次元畳み込みを用いた音響コンテンツの2次元分光時間表現は、有望な結果を示し、モデルの複雑さの低減を可能にする。 NAAQAは従来のVQAモデルの約7倍のパラメータでAQAタスクの精度の91.6%を達成する。 本報告では,異なる質問タイプに対する結果の詳細な分析を行う。 この音響的文脈における座標マップの有効性についても検討し、時間座標マップは時間的局所化能力を高め、ネットワークの性能を約17ポイント向上させることを示した。

The goal of the Acoustic Question Answering (AQA) task is to answer a free-form text question about the content of an acoustic scene. It was inspired by the Visual Question Answering (VQA) task. In this paper, based on the previously introduced CLEAR dataset, we propose a new benchmark for AQA that emphasizes the specific challenges of acoustic inputs, e.g. variable duration scenes. We also introduce NAAQA, a neural architecture that leverages specific properties of acoustic inputs. The usage of time and frequency 1D convolutions to process 2D spectro-temporal representations of acoustic content shows promising results and enables reductions in model complexity. NAAQA achieves 91.6% of accuracy on the AQA task with about 7 times fewer parameters than the previously explored VQA model. We provide a detailed analysis of the results for the different question types. The effectiveness of coordinate maps in this acoustic context was also studied and we show that time coordinate maps augment temporal localization capabilities which enhance performance of the network by about 17 percentage points.
翻訳日:2021-06-14 14:25:37 公開日:2021-06-11
# マルチタスク学習を用いたNested and Balanced Entity Recognition

Nested and Balanced Entity Recognition using Multi-Task Learning ( http://arxiv.org/abs/2106.06216v1 )

ライセンス: Link先を確認
Andreas Waldis and Luca Mazzola(参考訳) テキスト内のエンティティ認識(ER)は自然言語処理の基本的な課題であり、知識抽出、テキスト要約、キーワード抽出といったタスクに依存することができる。 エンティティは単一の単語または連続した単語の列で構成され、通信の基本構成要素を構成する。 メインストリームERアプローチは主に平坦な構造に限られており、内部を無視しながら最外側のエンティティに集中している。 本稿では,重ね合わせとネスト化の複雑さを扱う部分層ネットワークアーキテクチャを提案する。 提案するアーキテクチャは,(1)共有シーケンス層と(2)複数のタグ付け層を持つスタックコンポーネントの2つの部分からなる。 このようなアーキテクチャの採用は、特定の単語長に対する過度な適合を防止し、低い周波数にもかかわらず長いエンティティのパフォーマンスを維持するという利点がある。 提案アーキテクチャの有効性を検証するため,概念(CR)と名前付きエンティティ(NER)の2種類の実体を認識するために,このアーキテクチャを訓練し,評価する。 提案手法は最先端のNER性能を実現し,従来のCR手法よりも優れていた。 これらの有望な結果を考えると、イベントの抽出や議論的なコンポーネントの検出など、他のケースでアーキテクチャを進化させる可能性を見出します。

Entity Recognition (ER) within a text is a fundamental exercise in Natural Language Processing, enabling further depending tasks such as Knowledge Extraction, Text Summarisation, or Keyphrase Extraction. An entity consists of single words or of a consecutive sequence of terms, constituting the basic building blocks for communication. Mainstream ER approaches are mainly limited to flat structures, concentrating on the outermost entities while ignoring the inner ones. This paper introduces a partly-layered network architecture that deals with the complexity of overlapping and nested cases. The proposed architecture consists of two parts: (1) a shared Sequence Layer and (2) a stacked component with multiple Tagging Layers. The adoption of such an architecture has the advantage of preventing overfit to a specific word-length, thus maintaining performance for longer entities despite their lower frequency. To verify the proposed architecture's effectiveness, we train and evaluate this architecture to recognise two kinds of entities - Concepts (CR) and Named Entities (NER). Our approach achieves state-of-the-art NER performances, while it outperforms previous CR approaches. Considering these promising results, we see the possibility to evolve the architecture for other cases such as the extraction of events or the detection of argumentative components.
翻訳日:2021-06-14 14:25:22 公開日:2021-06-11
# GDI: 強化学習と教師付き学習との違いを再考する

GDI: Rethinking What Makes Reinforcement Learning Different From Supervised Learning ( http://arxiv.org/abs/2106.06232v1 )

ライセンス: Link先を確認
Jiajun Fan, Changnan Xiao, Yue Huang(参考訳) 深部Qネットワーク(DQN)は, 深部学習(DL)と強化学習(RL)を組み合わせることで, 深部強化学習(DRL)の扉を蹴り上げた。 DQNは、この特性がトレーニングの不安定性を引き起こす可能性があると判断し、プロパティの欠点を扱う効果的な方法を提案した。 予測されたデータ分布と地上の真理データ分布とのギャップを緩和すると同時に,教師あり学習(SL)の失敗を解消することが,RLにとって極めて重要である。 この新たな視点から、一般化政策イテレーション(GPI)と呼ばれるRLの基本パラダイムをより一般化されたバージョンに拡張し、これを一般化データ分散イテレーション(GDI)と呼ぶ。 我々は,大規模RLアルゴリズムと手法をGDIパラダイムに統合し,GDIの特殊な事例の一つとみなすことができると考えている。 GDI が GPI よりも優れている理由と動作方法の理論的証明を提供する。 GDIに基づくいくつかの実用的なアルゴリズムが提案され、その有効性と拡張性を検証する。 実験により、アーケード学習環境(ALE)におけるSOTA(State-of-the-ar t)のパフォーマンスが実証され、このアルゴリズムは9620.98%の平均正規化スコア(HNS)、1146.39%の中央値HNS、22の人的世界記録ブレークスルー(HWRB)をわずか200フレームで達成した。 我々の研究は、RL研究を先導し、人間の世界記録を征服し、パフォーマンスと効率の両面で真のスーパーヒューマンエージェントを追求することを目的としています。

Deep Q Network (DQN) firstly kicked the door of deep reinforcement learning (DRL) via combining deep learning (DL) with reinforcement learning (RL), which has noticed that the distribution of the acquired data would change during the training process. DQN found this property might cause instability for training, so it proposed effective methods to handle the downside of the property. Instead of focusing on the unfavourable aspects, we find it critical for RL to ease the gap between the estimated data distribution and the ground truth data distribution while supervised learning (SL) fails to do so. From this new perspective, we extend the basic paradigm of RL called the Generalized Policy Iteration (GPI) into a more generalized version, which is called the Generalized Data Distribution Iteration (GDI). We see massive RL algorithms and techniques can be unified into the GDI paradigm, which can be considered as one of the special cases of GDI. We provide theoretical proof of why GDI is better than GPI and how it works. Several practical algorithms based on GDI have been proposed to verify the effectiveness and extensiveness of it. Empirical experiments prove our state-of-the-art (SOTA) performance on Arcade Learning Environment (ALE), wherein our algorithm has achieved 9620.98% mean human normalized score (HNS), 1146.39% median HNS and 22 human world record breakthroughs (HWRB) using only 200 training frames. Our work aims to lead the RL research to step into the journey of conquering the human world records and seek real superhuman agents on both performance and efficiency.
翻訳日:2021-06-14 14:25:01 公開日:2021-06-11
# 教師なし逆問題に対する未ロールアルゴリズムによる辞書と事前学習

Dictionary and prior learning with unrolled algorithms for unsupervised inverse problems ( http://arxiv.org/abs/2106.06338v1 )

ライセンス: Link先を確認
Beno\^it Mal\'ezieux, Thomas Moreau, Matthieu Kowalski(参考訳) 逆問題は、ノイズの多い観測結果の回復である。 古典的な解決アプローチの一つは、スパーシティを活用し、信号の事前知識を再構成アルゴリズムに統合し、妥当な解を得ることである。 しかし、この前はデータに十分に適合していないかもしれない。 本研究では,二段階問題として,劣化測定から辞書と事前学習を学習し,未熟なアルゴリズムを活用し,合成と解析の近似定式化を解く。 辞書学習における自動微分の実証的・理論的解析を行い,この文脈における展開の長所と短所をよりよく理解する。 その結果, 勾配推定を改善することで, 少数の繰り返しの回復過程を高速化するアルゴリズムが得られた。 そこで,解析と合成を,いくつかの辞書や先行クラスの真理データにアクセスすることなく,逆問題に対するアンロールアルゴリズムの性能を評価することによって比較する。 分析は良い結果を得るが、合成はより堅牢であり、パフォーマンスが良い。 最後に,劣化測定によるパターン学習と構造学習の手法について述べる。

Inverse problems consist in recovering a signal given noisy observations. One classical resolution approach is to leverage sparsity and integrate prior knowledge of the signal to the reconstruction algorithm to get a plausible solution. Still, this prior might not be sufficiently adapted to the data. In this work, we study Dictionary and Prior learning from degraded measurements as a bi-level problem, and we take advantage of unrolled algorithms to solve approximate formulations of Synthesis and Analysis. We provide an empirical and theoretical analysis of automatic differentiation for Dictionary Learning to understand better the pros and cons of unrolling in this context. We find that unrolled algorithms speed up the recovery process for a small number of iterations by improving the gradient estimation. Then we compare Analysis and Synthesis by evaluating the performance of unrolled algorithms for inverse problems, without access to any ground truth data for several classes of dictionaries and priors. While Analysis can achieve good results,Synthesis is more robust and performs better. Finally, we illustrate our method on pattern and structure learning tasks from degraded measurements.
翻訳日:2021-06-14 14:24:02 公開日:2021-06-11
# PriorGrad: データ駆動適応型事前処理による条件付き拡散モデルの改善

PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Driven Adaptive Prior ( http://arxiv.org/abs/2106.06406v1 )

ライセンス: Link先を確認
Sang-gil Lee, Heeseung Kim, Chaehun Shin, Xu Tan, Chang Liu, Qi Meng, Tao Qin, Wei Chen, Sungroh Yoon, Tie-Yan Liu(参考訳) 近年,データ密度の勾配を推定して高品質なサンプルを生成するための拡散確率モデルが提案されている。 このフレームワークは、先行ノイズを標準ガウス分布と仮定するが、対応するデータ分布は標準ガウス分布よりも複雑であり、データと前との相違により、先行ノイズをデータサンプルに分解する非効率性をもたらす可能性がある。 本稿では,条件情報に基づくデータ統計から導出される適応前処理を適用することにより,条件拡散モデル(例えばメルスペクトログラムを条件とするボコーダ)の効率を向上させる優先順位付けを提案する。 事前段階の訓練・サンプリング手順を定式化し,理論解析により適応型事前手法の利点を実証する。 音声領域に着目し,スペクトル領域と時間領域の両方に基づく最近提案された拡散に基づく音声生成モデルについて考察し,データとパラメータの効率と品質の向上につながるより高速な収束を実現し,データ駆動適応型プリミティブの効率を実証する。

Denoising diffusion probabilistic models have been recently proposed to generate high-quality samples by estimating the gradient of the data density. The framework assumes the prior noise as a standard Gaussian distribution, whereas the corresponding data distribution may be more complicated than the standard Gaussian distribution, which potentially introduces inefficiency in denoising the prior noise into the data sample because of the discrepancy between the data and the prior. In this paper, we propose PriorGrad to improve the efficiency of the conditional diffusion model (for example, a vocoder using a mel-spectrogram as the condition) by applying an adaptive prior derived from the data statistics based on the conditional information. We formulate the training and sampling procedures of PriorGrad and demonstrate the advantages of an adaptive prior through a theoretical analysis. Focusing on the audio domain, we consider the recently proposed diffusion-based audio generative models based on both the spectral and time domains and show that PriorGrad achieves a faster convergence leading to data and parameter efficiency and improved quality, and thereby demonstrating the efficiency of a data-driven adaptive prior.
翻訳日:2021-06-14 14:23:46 公開日:2021-06-11
# 連続型育種ギブズサンプリング

Continuous Herded Gibbs Sampling ( http://arxiv.org/abs/2106.06430v1 )

ライセンス: Link先を確認
Laura M. Wolf and Marcus Baum(参考訳) herdingは確率分布から決定論的サンプルを順次生成する手法である。 本研究では, 連続密度のカーネルハーディングとギブスサンプリングを組み合わせた連続型群集化ギブスサンプリング器を提案する。 本アルゴリズムは, 接合密度から直接サンプリングすることなく, 高次元多変量確率密度から決定的にサンプリングすることができる。 ガウス混合密度を用いた実験では、L2の誤差はカーネルのハーディングと同様に減少し、計算時間は著しく小さく、すなわち次元数で線形であることが示されている。

Herding is a technique to sequentially generate deterministic samples from a probability distribution. In this work, we propose a continuous herded Gibbs sampler, that combines kernel herding on continuous densities with Gibbs sampling. Our algorithm allows for deterministically sampling from high-dimensional multivariate probability densities, without directly sampling from the joint density. Experiments with Gaussian mixture densities indicate that the L2 error decreases similarly to kernel herding, while the computation time is significantly lower, i.e., linear in the number of dimensions.
翻訳日:2021-06-14 14:23:27 公開日:2021-06-11
# 自然周波数最大化のための多層構造を有するセル複合材料のデータ駆動型マルチスケール設計

Data-Driven Multiscale Design of Cellular Composites with Multiclass Microstructures for Natural Frequency Maximization ( http://arxiv.org/abs/2106.06478v1 )

ライセンス: Link先を確認
Liwei Wang, Anton van Beek, Daicong Da, Yu-Chin Chan, Ping Zhu, Wei Chen(参考訳) 工学構造の自然な周波数最適化のために、セル複合材料は固体上のエッジを持つことが示されている。 しかし、既存の細胞複合材料のマルチスケール設計手法は計算的に徹底的であるか、単一の構造に制限されている。 本稿では,種々の構造クラスを選択できるマルチスケール設計を実現するためのデータ駆動トポロジー最適化(to)手法を提案する。 鍵となる構成要素は、新しい潜在変数ガウス過程 (LVGP) モデルであり、そこでは様々なマイクロ構造のクラスを低次元連続ラテント空間にマッピングする。 クラス間の解釈可能な距離計量を提供し、同質化剛性テンソルに対するそれらの効果を捉える。 設計変数として潜在ベクトルを導入することにより、クラス間の剛性行列の微分可能遷移は解析的勾配で容易に達成できる。 LVGPを密度ベースTOと統合した後、効率的なデータ駆動型細胞複合最適化プロセスを開発し、自然周波数最適化のための微細構造概念と関連する体積分画の同時探索を可能にした。 例えば、多層構造を持つセル設計は、シングルスケールとシングルクラス設計の両方よりも高い自然周波数が得られる。 このフレームワークは、熱コンプライアンスや動的応答最適化など、他のマルチスケールTO問題にも容易に拡張できる。

For natural frequency optimization of engineering structures, cellular composites have been shown to possess an edge over solid. However, existing multiscale design methods for cellular composites are either computationally exhaustive or confined to a single class of microstructures. In this paper, we propose a data-driven topology optimization (TO) approach to enable the multiscale design of cellular structures with various choices of microstructure classes. The key component is a newly proposed latent-variable Gaussian process (LVGP) model through which different classes of microstructures are mapped into a low-dimensional continuous latent space. It provides an interpretable distance metric between classes and captures their effects on the homogenized stiffness tensors. By introducing latent vectors as design variables, a differentiable transition of stiffness matrix between classes can be easily achieved with an analytical gradient. After integrating LVGP with the density-based TO, an efficient data-driven cellular composite optimization process is developed to enable concurrent exploration of microstructure concepts and the associated volume fractions for natural frequency optimization. Examples reveal that the proposed cellular designs with multiclass microstructures achieve higher natural frequencies than both single-scale and single-class designs. This framework can be easily extended to other multi-scale TO problems, such as thermal compliance and dynamic response optimization.
翻訳日:2021-06-14 14:23:18 公開日:2021-06-11
# 逆問題に対する最適正則化器の学習

Learning the optimal regularizer for inverse problems ( http://arxiv.org/abs/2106.06513v1 )

ライセンス: Link先を確認
Giovanni S. Alberti, Ernesto De Vito, Matti Lassas, Luca Ratti, Matteo Santacesaria(参考訳) この場合、線型逆問題 $y=Ax+\epsilon$ を考えると、$A\colon X\to Y$ は分離可能なヒルベルト空間 $X$ と $Y$ の間の既知の線型作用素であり、$x$ は$X$ のランダム変数であり、$\epsilon$ は$Y$ のゼロ平均ランダムプロセスである。 この設定は、デノイング、デブロアリング、X線トモグラフィなどの画像の逆問題を含む。 正規化の古典的な枠組みでは、正規化汎関数が前もって与えられず、データから学習される場合に焦点を当てる。 最初の結果は、平均二乗誤差に関して最適一般化されたチホノフ正則化器の特性である。 前方演算子 $a$ とは完全に独立であり、x$ の平均と共分散のみに依存する。 そこで,本研究では,x$とy$の両方のサンプルをベースとした教師なしと,x$のサンプルのみに基づく教師なしという,2つの異なるフレームワークの有限トレーニングセットから正規化子を学習する問題を考察する。 どちらの場合も、x$ と $\epsilon$ の分布に関する弱い仮定の下で、部分ガウス変数の場合を含む一般化境界を証明する。 我々の境界は無限次元空間に保たれ、より細かい離散化は学習問題を難しくしないことを示す。 結果は数値シミュレーションによって検証される。

In this work, we consider the linear inverse problem $y=Ax+\epsilon$, where $A\colon X\to Y$ is a known linear operator between the separable Hilbert spaces $X$ and $Y$, $x$ is a random variable in $X$ and $\epsilon$ is a zero-mean random process in $Y$. This setting covers several inverse problems in imaging including denoising, deblurring, and X-ray tomography. Within the classical framework of regularization, we focus on the case where the regularization functional is not given a priori but learned from data. Our first result is a characterization of the optimal generalized Tikhonov regularizer, with respect to the mean squared error. We find that it is completely independent of the forward operator $A$ and depends only on the mean and covariance of $x$. Then, we consider the problem of learning the regularizer from a finite training set in two different frameworks: one supervised, based on samples of both $x$ and $y$, and one unsupervised, based only on samples of $x$. In both cases, we prove generalization bounds, under some weak assumptions on the distribution of $x$ and $\epsilon$, including the case of sub-Gaussian variables. Our bounds hold in infinite-dimensional spaces, thereby showing that finer and finer discretizations do not make this learning problem harder. The results are validated through numerical simulations.
翻訳日:2021-06-14 14:22:59 公開日:2021-06-11
# PyGAD: 直感的な遺伝的アルゴリズムPythonライブラリ

PyGAD: An Intuitive Genetic Algorithm Python Library ( http://arxiv.org/abs/2106.06158v1 )

ライセンス: Link先を確認
Ahmed Fawzy Gad(参考訳) 本稿では、遺伝的アルゴリズムを構築するためのオープンソースのpythonライブラリpygadを紹介する。 PyGADは幅広いパラメータをサポートし、ライフサイクルのすべてをユーザがコントロールできるようにします。 これは、個体数、遺伝子値の範囲、遺伝子データ型、親選択、交叉、突然変異を含むが、制限されていない。 PyGADは、ユーザーがフィットネス機能をカスタマイズできる汎用最適化ライブラリとして設計されている。 その用途は、フィットネス機能の構築、pygad.gaクラスのインスタンスの作成、pygad.ga.run()メソッド呼び出しの3つの主要なステップから成り立っている。 このライブラリは、PyGAD自身またはKerasやPyTorchといったフレームワークで作成されたディープラーニングモデルのトレーニングをサポートする。 PyGADは安定した状態にあるため、ユーザの要求する機能やGitHub https://github.com/a hmedfgad/GeneticAlgo rithmPythonで受け取った機能拡張に対応するために、活発に開発されている。 PyGADにはドキュメント https://pygad.readth edocs.io が付属している。

This paper introduces PyGAD, an open-source easy-to-use Python library for building the genetic algorithm. PyGAD supports a wide range of parameters to give the user control over everything in its life cycle. This includes, but is not limited to, population, gene value range, gene data type, parent selection, crossover, and mutation. PyGAD is designed as a general-purpose optimization library that allows the user to customize the fitness function. Its usage consists of 3 main steps: build the fitness function, create an instance of the pygad.GA class, and calling the pygad.GA.run() method. The library supports training deep learning models created either with PyGAD itself or with frameworks like Keras and PyTorch. Given its stable state, PyGAD is also in active development to respond to the user's requested features and enhancement received on GitHub https://github.com/a hmedfgad/GeneticAlgo rithmPython. PyGAD comes with documentation https://pygad.readth edocs.io for further details and examples.
翻訳日:2021-06-14 14:22:08 公開日:2021-06-11
# KRADA: オープンワールドセマンティックセグメンテーションのためのノウンリージョン対応ドメインアライメント

KRADA: Known-region-aware Domain Alignment for Open World Semantic Segmentation ( http://arxiv.org/abs/2106.06237v1 )

ライセンス: Link先を確認
Chenhong Zhou, Feng Liu, Chen Gong, Tongliang Liu, Bo Han, William Cheung(参考訳) 意味セグメンテーションでは,画像内のすべての画素にカテゴリラベルを割り当てるようにピクセルレベル分類器を訓練し,ラベル付きトレーニング画像とラベルなしテスト画像は同じ分布から取得し,同じラベルセットを共有する。 しかし、オープン世界では、ラベルのないテスト画像は、おそらく未知のカテゴリを含み、ラベル付き画像とは異なる分布を持つ。 そこで,本稿では,ラベル付きイメージと未ラベルのオープンワールドイメージでピクセルレベルの分類器をトレーニングしなければならない,新たな,より現実的な,より困難な問題設定について検討する。 OSSでは、訓練された分類器が未知のクラスピクセルを特定し、既知のクラスピクセルを適切に分類することが期待されている。 OSS を解決するために,未知のクラス画素がどの分布に従うかを調べる。 そこで, 画像中の未知領域を形成するために, 画素が未知のクラスの分布にどのように適合するかを統計的に測定し, 高度に適合した画素を選択した。 最終的に、未知のクラスを識別し、ラベル付きおよびラベルなしのオープンワールド画像中の既知のクラスの分布を整列する、エンドツーエンドの学習フレームワークKRADAを提案する。 KRADAの有効性は、2つの合成タスクと1つのCOVID-19セグメンテーションタスクで検証されている。

In semantic segmentation, we aim to train a pixel-level classifier to assign category labels to all pixels in an image, where labeled training images and unlabeled test images are from the same distribution and share the same label set. However, in an open world, the unlabeled test images probably contain unknown categories and have different distributions from the labeled images. Hence, in this paper, we consider a new, more realistic, and more challenging problem setting where the pixel-level classifier has to be trained with labeled images and unlabeled open-world images -- we name it open world semantic segmentation (OSS). In OSS, the trained classifier is expected to identify unknown-class pixels and classify known-class pixels well. To solve OSS, we first investigate which distribution that unknown-class pixels obey. Then, motivated by the goodness-of-fit test, we use statistical measurements to show how a pixel fits the distribution of an unknown class and select highly-fitted pixels to form the unknown region in each image. Eventually, we propose an end-to-end learning framework, known-region-aware domain alignment (KRADA), to distinguish unknown classes while aligning distributions of known classes in labeled and unlabeled open-world images. The effectiveness of KRADA has been verified on two synthetic tasks and one COVID-19 segmentation task.
翻訳日:2021-06-14 14:21:51 公開日:2021-06-11
# 一般識別型特徴学習とクラス対数ニューラルネットワークを用いた深度学習手法の一般化を支援するフレームワーク

A Framework to Enhance Generalization of Deep Metric Learning methods using General Discriminative Feature Learning and Class Adversarial Neural Networks ( http://arxiv.org/abs/2106.06420v1 )

ライセンス: Link先を確認
Karrar Al-Kaabi, Reza Monsefi, Davood Zabihzadeh(参考訳) メトリック学習アルゴリズムは、意味的に類似したデータ項目を結合し、異なる類似データを遠隔で保持する距離関数を学習することを目的としている。 伝統的なマハラノビス距離学習は線型射影を見つけるのに等価である。 対照的に、データから特徴を自動的に抽出し、入力空間から意味的な埋め込み空間への非線形変換を学習するDeep Metric Learning (DML)法が提案されている。 近年,新しいサンプリング戦略や損失関数を提供することで,学習指標の識別能力を高めるために,多くのDML手法が提案されている。 このアプローチは、トレーニングとテストの両方の例が同じカテゴリのセットから来ている場合、非常に役立ちます。 しかし、画像検索や人物識別といったDMLの多くの応用では効果が低い。 ここでは、DMLは観察されたクラスから一般的な意味概念を学び、未知のカテゴリからのオブジェクトのランク付けや識別に使用するべきである。 学習した表現の一般化能力を無視し、観察されたクラスにより差別的な埋め込みを学ぶことを強調すると、オーバーフィッティング問題につながる可能性がある。 この制限に対処するために,ZSL(Zero-Shot Learning)設定における既存のDML手法の一般化能力を高めるためのフレームワークを提案する。 より一般的な表現を学ぶために、深層ニューラルネットワークにおける中間層の特徴マップを用い、注意機構を通じてその識別力を高めることを提案する。 さらに、dmlタスクにクラス不変機能を求めるためにディープモデルを実行するために、クラス逆ネットワークが利用される。 我々は、zsl設定で広く使われているマシンビジョンデータセットの作業を評価する。

Metric learning algorithms aim to learn a distance function that brings the semantically similar data items together and keeps dissimilar ones at a distance. The traditional Mahalanobis distance learning is equivalent to find a linear projection. In contrast, Deep Metric Learning (DML) methods are proposed that automatically extract features from data and learn a non-linear transformation from input space to a semantically embedding space. Recently, many DML methods are proposed focused to enhance the discrimination power of the learned metric by providing novel sampling strategies or loss functions. This approach is very helpful when both the training and test examples are coming from the same set of categories. However, it is less effective in many applications of DML such as image retrieval and person-reidentificat ion. Here, the DML should learn general semantic concepts from observed classes and employ them to rank or identify objects from unseen categories. Neglecting the generalization ability of the learned representation and just emphasizing to learn a more discriminative embedding on the observed classes may lead to the overfitting problem. To address this limitation, we propose a framework to enhance the generalization power of existing DML methods in a Zero-Shot Learning (ZSL) setting by general yet discriminative representation learning and employing a class adversarial neural network. To learn a more general representation, we propose to employ feature maps of intermediate layers in a deep neural network and enhance their discrimination power through an attention mechanism. Besides, a class adversarial network is utilized to enforce the deep model to seek class invariant features for the DML task. We evaluate our work on widely used machine vision datasets in a ZSL setting.
翻訳日:2021-06-14 14:21:26 公開日:2021-06-11
# メタ適応非線形制御:理論とアルゴリズム

Meta-Adaptive Nonlinear Control: Theory and Algorithms ( http://arxiv.org/abs/2106.06098v1 )

ライセンス: Link先を確認
Guanya Shi, Kamyar Azizzadenesheli, Soon-Jo Chung, Yisong Yue(参考訳) オンラインメタ適応制御(OMAC)と呼ばれる適応非線形制御のためのオンラインマルチタスク学習手法を提案する。 目的は、環境依存のダイナミクスが共有表現でうまく捉えられることを前提に、逆乱や未知の$\textit{environment-dependen t}$非線形ダイナミクスの非線形システムを制御することである。 我々のアプローチはロボット制御によって動機付けられており、ロボットシステムは迅速に適応しなければならない新しい環境条件に遭遇する。 オンライン表現学習を制御理論から確立した手法に統合し、制御理論と学習理論の両方の保証をもたらす統一フレームワークに到達させることが重要となる。 我々は,様々な条件下でのアプローチのインスタンス化を行い,マルチタスク適応非線形制御のための最初の非漸近的エンドツーエンド収束保証を実現する。 OMACは深層表現学習と統合することもできる。 実験の結果、OMACは共有表現を学習しない従来の適応制御手法よりも大幅に優れていた。

We present an online multi-task learning approach for adaptive nonlinear control, which we call Online Meta-Adaptive Control (OMAC). The goal is to control a nonlinear system subject to adversarial disturbance and unknown $\textit{environment-dependen t}$ nonlinear dynamics, under the assumption that the environment-dependen t dynamics can be well captured with some shared representation. Our approach is motivated by robot control, where a robotic system encounters a sequence of new environmental conditions that it must quickly adapt to. A key emphasis is to integrate online representation learning with established methods from control theory, in order to arrive at a unified framework that yields both control-theoretic and learning-theoretic guarantees. We provide instantiations of our approach under varying conditions, leading to the first non-asymptotic end-to-end convergence guarantee for multi-task adaptive nonlinear control. OMAC can also be integrated with deep representation learning. Experiments show that OMAC significantly outperforms conventional adaptive control approaches which do not learn the shared representation.
翻訳日:2021-06-14 14:21:00 公開日:2021-06-11
# ラベルノイズsgdは平坦な大域的最小値を好む

Label Noise SGD Provably Prefers Flat Global Minimizers ( http://arxiv.org/abs/2106.06530v1 )

ライセンス: Link先を確認
Alex Damian, Tengyu Ma, Jason Lee(参考訳) 過度パラメータ化モデルでは、確率勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。 ノイズラベルによるトレーニングが一般化を改善することを示す実証的研究により,ラベルノイズを伴うSGDの暗黙的な正規化効果について検討した。 ラベルノイズを持つsgd は正規化損失の定常点 $l(\theta) +\lambda r(\theta)$ に収束し、ここで $l(\theta)$ はトレーニング損失、$\lambda$ はステップサイズ、ラベルノイズの強度、バッチサイズに依存する効果的な正規化パラメータであり、$r(\theta)$ は鋭い最小化をペナライズする明示的な正規化子である。 本解析は,ヘシアンの大きな固有値が小さい値よりもペナルティ化される線形スケーリング則を超えて,大きな学習率による追加の正規化効果を明らかにする。 また,一般損失関数付き分類,運動量付きsgd,一般騒音共分散型sgdの拡張を証明し,ブラン等以前の作業を大幅に強化した。 グローバル収束と大きな学習率、およびhaochenらへの貢献。 一般的なモデルです

In overparametrized models, the noise in stochastic gradient descent (SGD) implicitly regularizes the optimization trajectory and determines which local minimum SGD converges to. Motivated by empirical studies that demonstrate that training with noisy labels improves generalization, we study the implicit regularization effect of SGD with label noise. We show that SGD with label noise converges to a stationary point of a regularized loss $L(\theta) +\lambda R(\theta)$, where $L(\theta)$ is the training loss, $\lambda$ is an effective regularization parameter depending on the step size, strength of the label noise, and the batch size, and $R(\theta)$ is an explicit regularizer that penalizes sharp minimizers. Our analysis uncovers an additional regularization effect of large learning rates beyond the linear scaling rule that penalizes large eigenvalues of the Hessian more than small ones. We also prove extensions to classification with general loss functions, SGD with momentum, and SGD with general noise covariance, significantly strengthening the prior work of Blanc et al. to global convergence and large learning rates and of HaoChen et al. to general models.
翻訳日:2021-06-14 14:20:45 公開日:2021-06-11
# ステップワイド回帰によるスパースベイズ学習

Sparse Bayesian Learning via Stepwise Regression ( http://arxiv.org/abs/2106.06095v1 )

ライセンス: Link先を確認
Sebastian Ament and Carla Gomes(参考訳) SBL(Sparse Bayesian Learning)は確率モデルにおける疎性を達成するための強力なフレームワークである。 本稿では,sblの相関マッチング追跡(rmp)と呼ばれる座標アセンシングアルゴリズムを提案し,ノイズ分散パラメータがゼロとなると,rmpが段階的回帰と驚くほどの相関を示すことを示す。 さらに、RMPにも光を当てるステップワイド回帰アルゴリズムの新たな保証を導出する。 前方回帰の保証は, 雑音と直交追従する決定論的, 確率的結果を改善する。 決定された系上での逆回帰の解析は、もし満足すれば結果の最適性を保証する部分集合選択問題に対する最適解の残差に結束する。 我々の知る限り、この境界は多項式時間で計算できる最初のものであり、行列の最小特異値に大きく依存する。 種々の特徴選択アルゴリズムを用いた数値実験を報告する。 特に、RMPとその制限変数は効率的であり、相関した特徴を持つ強い性能を維持している。

Sparse Bayesian Learning (SBL) is a powerful framework for attaining sparsity in probabilistic models. Herein, we propose a coordinate ascent algorithm for SBL termed Relevance Matching Pursuit (RMP) and show that, as its noise variance parameter goes to zero, RMP exhibits a surprising connection to Stepwise Regression. Further, we derive novel guarantees for Stepwise Regression algorithms, which also shed light on RMP. Our guarantees for Forward Regression improve on deterministic and probabilistic results for Orthogonal Matching Pursuit with noise. Our analysis of Backward Regression on determined systems culminates in a bound on the residual of the optimal solution to the subset selection problem that, if satisfied, guarantees the optimality of the result. To our knowledge, this bound is the first that can be computed in polynomial time and depends chiefly on the smallest singular value of the matrix. We report numerical experiments using a variety of feature selection algorithms. Notably, RMP and its limiting variant are both efficient and maintain strong performance with correlated features.
翻訳日:2021-06-14 14:20:17 公開日:2021-06-11
# スパーステンソルPCAの複雑さ

The Complexity of Sparse Tensor PCA ( http://arxiv.org/abs/2106.06308v1 )

ライセンス: Link先を確認
Davin Choo, Tommaso d'Orsi(参考訳) a tensor $\pmb Y = \pmb W + \lambda x^{\otimes p}$ with $\pmb W \in \otimes^p\mathbb{R}^n$ having i.d。 gaussianエントリ 目標は、$k$-sparse 単位ベクトル $x \in \mathbb{r}^n$を回復することである。 このモデルはスパースPCA(ウィグナー形式)とテンソルPCAの両方をキャプチャする。 k \leq \sqrt{n}$ の非常にスパースな状態に対して、単純な多項式時間アルゴリズムと指数時間排他的探索アルゴリズムをスムーズに補間するアルゴリズムの族を示す。 任意の 1 ドルの \leq t \leq k$ に対して、我々のアルゴリズムは信号対雑音比 $\lambda \geq \tilde{\mathcal{o}} (\sqrt{t} \cdot (k/t)^{p/2})$ in time $\tilde{\mathcal{o}}(n^{p+t})$ のスパースベクトルを復元し、行列の設定(多項式時間とサブ指数時間)の保証をキャプチャする。 我々の結果は当然、$r$ distinct $k$-sparse signal with disjoint support, which is independent of the number of spikes。 スパースPCAの制限された場合においても、既知のアルゴリズムは、$\lambda \geq \tilde{\mathcal{O}}(k \cdot r)$に対してのみスパースベクトルを復元するが、我々のアルゴリズムは$\lambda \geq \tilde{\mathcal{O}}(k)$を必要とする。 最後に,低次度比を解析することにより,信号対雑音比と走行時間とのトレードオフを示す厳密な証拠を用いて,これらのアルゴリズム結果を補完する。 この下界は、スパースPCAとテンソルPCAの両方の既知の下界をキャプチャする。 この一般的なモデルでは、サンプル数$n$、スパーシティ$k$、テンソルパワー$p$の間のより複雑な3方向のトレードオフを観察します。

We study the problem of sparse tensor principal component analysis: given a tensor $\pmb Y = \pmb W + \lambda x^{\otimes p}$ with $\pmb W \in \otimes^p\mathbb{R}^n$ having i.i.d. Gaussian entries, the goal is to recover the $k$-sparse unit vector $x \in \mathbb{R}^n$. The model captures both sparse PCA (in its Wigner form) and tensor PCA. For the highly sparse regime of $k \leq \sqrt{n}$, we present a family of algorithms that smoothly interpolates between a simple polynomial-time algorithm and the exponential-time exhaustive search algorithm. For any $1 \leq t \leq k$, our algorithms recovers the sparse vector for signal-to-noise ratio $\lambda \geq \tilde{\mathcal{O}} (\sqrt{t} \cdot (k/t)^{p/2})$ in time $\tilde{\mathcal{O}}(n^{p+t})$, capturing the state-of-the-art guarantees for the matrix settings (in both the polynomial-time and sub-exponential time regimes). Our results naturally extend to the case of $r$ distinct $k$-sparse signals with disjoint supports, with guarantees that are independent of the number of spikes. Even in the restricted case of sparse PCA, known algorithms only recover the sparse vectors for $\lambda \geq \tilde{\mathcal{O}}(k \cdot r)$ while our algorithms require $\lambda \geq \tilde{\mathcal{O}}(k)$. Finally, by analyzing the low-degree likelihood ratio, we complement these algorithmic results with rigorous evidence illustrating the trade-offs between signal-to-noise ratio and running time. This lower bound captures the known lower bounds for both sparse PCA and tensor PCA. In this general model, we observe a more intricate three-way trade-off between the number of samples $n$, the sparsity $k$, and the tensor power $p$.
翻訳日:2021-06-14 14:20:02 公開日:2021-06-11
# 自然言語生成のためのプレトレイン・フィネチューンパラダイムにおけるブリッジングサブワードギャップ

Bridging Subword Gaps in Pretrain-Finetune Paradigm for Natural Language Generation ( http://arxiv.org/abs/2106.06125v1 )

ライセンス: Link先を確認
Xin Liu, Baosong Yang, Dayiheng Liu, Haibo Zhang, Weihua Luo, Min Zhang, Haiying Zhang, Jinsong Su(参考訳) プリトレイン・フィニチューンパラダイムにおけるよく知られた制限は、その柔軟性が1つのサイズに適合する語彙によって引き起こされることである。 これは、自然言語生成(nlg)タスクに事前訓練されたモデルを適用する場合、特に上流タスクと下流タスクの間のサブワード分布が著しく異なる場合、効果を弱める可能性がある。 この問題にアプローチするために,バニラプリトレイン-フィニチューンパイプラインを余分な埋め込み転送ステップで拡張する。 具体的には、任意の入力トークンの表現を生成するためのプラグアンドプレイ埋め込みジェネレータを導入する。 したがって、下流タスクへのミスマッチトークンの埋め込みも効率的に初期化できる。 プレトレイン-ファインチューン方式で様々なNLGタスクを実験する。 実験結果と広範な分析結果から,提案手法は語彙の移動を自由に感じられる機会を与え,より効率よく,より優れた下流NLGモデルを実現することが示唆された。

A well-known limitation in pretrain-finetune paradigm lies in its inflexibility caused by the one-size-fits-all vocabulary. This potentially weakens the effect when applying pretrained models into natural language generation (NLG) tasks, especially for the subword distributions between upstream and downstream tasks with significant discrepancy. Towards approaching this problem, we extend the vanilla pretrain-finetune pipeline with an extra embedding transfer step. Specifically, a plug-and-play embedding generator is introduced to produce the representation of any input token, according to pre-trained embeddings of its morphologically similar ones. Thus, embeddings of mismatch tokens in downstream tasks can also be efficiently initialized. We conduct experiments on a variety of NLG tasks under the pretrain-finetune fashion. Experimental results and extensive analyses show that the proposed strategy offers us opportunities to feel free to transfer the vocabulary, leading to more efficient and better performed downstream NLG models.
翻訳日:2021-06-14 14:18:42 公開日:2021-06-11
# CONDA: ゲーム内毒性の理解と検出のためのコンテキストデュアルアノテーションデータセット

CONDA: a CONtextual Dual-Annotated dataset for in-game toxicity understanding and detection ( http://arxiv.org/abs/2106.06213v1 )

ライセンス: Link先を確認
Henry Weld, Guanghao Huang, Jean Lee, Tongshu Zhang, Kunze Wang, Xinghong Guo, Siqu Long, Josiah Poon, Soyeon Caren Han(参考訳) 従来の毒性検出モデルは、文脈の深い理解なしに単一の発話レベルに焦点を当ててきた。 我々は,自然言語理解(nlu)のコアタスクである統合意図分類とスロット充填解析を可能にする,ゲーム内有毒言語検出のための新しいデータセットcondaを紹介する。 データセットは、dota 2マッチの1万9千のチャットログから1万1千の会話から45kの発話からなる。 本稿では,発話やトークンレベルのパターン,リッチなコンテキストチャット履歴を扱う,堅牢な二重意味レベル毒性フレームワークを提案する。 データセットの添付はゲーム内毒性の分析であり、発話、トークン、二重レベルのコンテキストの包括的な理解を提供する。 また,NLUにインスパイアされたその指標を毒性検出タスクに適用し,毒性とゲーム特有の側面を評価する。 CONDA上での強力なNLUモデルの評価を行い、異なる意図クラスとスロットクラスに対してきめ細かい結果を提供する。 さらに,他の毒性データセットとの比較により,本データセットの毒性特性のカバレッジについて検討した。

Traditional toxicity detection models have focused on the single utterance level without deeper understanding of context. We introduce CONDA, a new dataset for in-game toxic language detection enabling joint intent classification and slot filling analysis, which is the core task of Natural Language Understanding (NLU). The dataset consists of 45K utterances from 12K conversations from the chat logs of 1.9K completed Dota 2 matches. We propose a robust dual semantic-level toxicity framework, which handles utterance and token-level patterns, and rich contextual chatting history. Accompanying the dataset is a thorough in-game toxicity analysis, which provides comprehensive understanding of context at utterance, token, and dual levels. Inspired by NLU, we also apply its metrics to the toxicity detection tasks for assessing toxicity and game-specific aspects. We evaluate strong NLU models on CONDA, providing fine-grained results for different intent classes and slot classes. Furthermore, we examine the coverage of toxicity nature in our dataset by comparing it with other toxicity datasets.
翻訳日:2021-06-14 14:18:26 公開日:2021-06-11
# 実践的NLPリーダーボードの構築に関する考察:機械翻訳の場合

A Discussion on Building Practical NLP Leaderboards: The Case of Machine Translation ( http://arxiv.org/abs/2106.06292v1 )

ライセンス: Link先を確認
Sebastin Santy and Prasanta Bhattacharya(参考訳) AIとMLアプリケーションの最近の進歩は、NLP研究の急速な進歩の恩恵を受けている。 リーダーボードは、競争モデル開発を通じてNLPの進歩を追跡し、加速するための一般的なメカニズムとして現れています。 これは関心と参加を増しているが、単一および正確性に基づくメトリクスへの過度な依存は、現実世界の文脈で考慮すべき重要な指標に焦点を移している。 本稿では,精度指標のみに焦点をあてたリスクに関する予備的な議論を行い,モデルの実世界の実用性をよりよく反映できる,より実用的で効果的なリーダーボードの開発方法について,最近の議論に焦点をあてる。

Recent advances in AI and ML applications have benefited from rapid progress in NLP research. Leaderboards have emerged as a popular mechanism to track and accelerate progress in NLP through competitive model development. While this has increased interest and participation, the over-reliance on single, and accuracy-based metrics have shifted focus from other important metrics that might be equally pertinent to consider in real-world contexts. In this paper, we offer a preliminary discussion of the risks associated with focusing exclusively on accuracy metrics and draw on recent discussions to highlight prescriptive suggestions on how to develop more practical and effective leaderboards that can better reflect the real-world utility of models.
翻訳日:2021-06-14 14:18:11 公開日:2021-06-11
# 自己ラベル単語アライメントによる言語間学習モデルの改善

Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word Alignment ( http://arxiv.org/abs/2106.06381v1 )

ライセンス: Link先を確認
Zewen Chi, Li Dong, Bo Zheng, Shaohan Huang, Xian-Ling Mao, Heyan Huang, Furu Wei(参考訳) 言語横断モデルは通常、多言語テキストやパラレル文のマスキング言語モデリングで事前訓練される。 本稿では,新しい言語間事前学習タスクとして,単語のアライメントについて述べる。 具体的には、並列文に対する最初の自己ラベルの単語アライメントを行う。 その後、ビット組のトークンをランダムにマスクする。 マスクされたトークンが与えられた場合、モデルはポインタネットワークを使用して他の言語で整列したトークンを予測する。 上記2つのステップを期待最大化方式で交互に実行する。 実験の結果,様々なデータセット,特に質問応答や構造化予測といったトークンレベルのタスクにおける言語間転送性が向上した。 さらに、このモデルは事前学習された単語調整器として機能し、アライメントベンチマークで合理的に低いエラー率を達成することができる。 コードとプリトレーニングされたパラメータは、https://github.com/c zwin32768/xlm-alignで利用可能である。

The cross-lingual language models are typically pretrained with masked language modeling on multilingual text or parallel sentences. In this paper, we introduce denoising word alignment as a new cross-lingual pre-training task. Specifically, the model first self-labels word alignments for parallel sentences. Then we randomly mask tokens in a bitext pair. Given a masked token, the model uses a pointer network to predict the aligned token in the other language. We alternately perform the above two steps in an expectation-maximiza tion manner. Experimental results show that our method improves cross-lingual transferability on various datasets, especially on the token-level tasks, such as question answering, and structured prediction. Moreover, the model can serve as a pretrained word aligner, which achieves reasonably low error rates on the alignment benchmarks. The code and pretrained parameters are available at https://github.com/C ZWin32768/XLM-Align.
翻訳日:2021-06-14 14:17:57 公開日:2021-06-11
# エージェントはどのように地場学習の質問をするべきか? 注釈付き対話コーパス

How Should Agents Ask Questions For Situated Learning? An Annotated Dialogue Corpus ( http://arxiv.org/abs/2106.06504v1 )

ライセンス: Link先を確認
Felix Gervits, Antonio Roque, Gordon Briggs, Matthias Scheutz, Matthew Marge(参考訳) 配置された環境で新しい概念に直面するインテリジェントエージェントは、人間のチームメイトに物理的な世界について学ぶために質問する必要があります。 この問題をより深く理解するには、配置されたタスクベースのインタラクションで質問を行うデータが必要です。 そこで本研究では,協調的なツール編成タスクを行うロボットの役割を人間の参加者が果たすオンラインインタラクティブな仮想環境において収集される,新たな対話コーパスである human-robot dialogue learning (hurdl) コーパスを提案する。 コーパスデータとそれに対応するアノテーションスキームを記述し、人間が現在位置する環境での学習を促進するために求める質問の形式と内容について考察する。 我々は,知的エージェントの質問生成を改善するための実験的な情報源としてコーパスを提供する。

Intelligent agents that are confronted with novel concepts in situated environments will need to ask their human teammates questions to learn about the physical world. To better understand this problem, we need data about asking questions in situated task-based interactions. To this end, we present the Human-Robot Dialogue Learning (HuRDL) Corpus - a novel dialogue corpus collected in an online interactive virtual environment in which human participants play the role of a robot performing a collaborative tool-organization task. We describe the corpus data and a corresponding annotation scheme to offer insight into the form and content of questions that humans ask to facilitate learning in a situated environment. We provide the corpus as an empirically-grounded resource for improving question generation in situated intelligent agents.
翻訳日:2021-06-14 14:17:46 公開日:2021-06-11
# 非教師対象再識別のためのクラスタリングコンセンサスによる擬似ラベルの精製

Refining Pseudo Labels with Clustering Consensus over Generations for Unsupervised Object Re-identification ( http://arxiv.org/abs/2106.06133v1 )

ライセンス: Link先を確認
Xiao Zhang, Yixiao Ge, Yu Qiao, Hongsheng Li(参考訳) 教師なしオブジェクト再同定は、アノテーションなしでオブジェクト検索の識別表現を学ぶことを目的としている。 クラスタリングベースの手法は、生成された擬似ラベルでトレーニングを行い、現在この研究の方向性を支配している。 しかし、彼らはまだ擬似ラベルノイズの問題に悩まされている。 この課題に対処するために、クラスタリングコンセンサスを用いて連続訓練世代間の擬似ラベル類似性を適切に推定し、時間的に伝播およびアンサンブルされた擬似ラベルを用いて洗練された擬似ラベルを提案する。 我々の知る限りでは、世代ごとに動的に変化するクラスで分類を改善するために時間的アンサンブルの精神を活用する最初の試みである。 提案する擬似ラベル精錬戦略は単純だが有効であり、既存のクラスタリングに基づく教師なし再同定手法にシームレスに統合することができる。 提案手法では,MSMT17データセットを最大8.8%改善することで,最先端手法をさらに強化することができる。

Unsupervised object re-identification targets at learning discriminative representations for object retrieval without any annotations. Clustering-based methods conduct training with the generated pseudo labels and currently dominate this research direction. However, they still suffer from the issue of pseudo label noise. To tackle the challenge, we propose to properly estimate pseudo label similarities between consecutive training generations with clustering consensus and refine pseudo labels with temporally propagated and ensembled pseudo labels. To the best of our knowledge, this is the first attempt to leverage the spirit of temporal ensembling to improve classification with dynamically changing classes over generations. The proposed pseudo label refinery strategy is simple yet effective and can be seamlessly integrated into existing clustering-based unsupervised re-identification methods. With our proposed approach, state-of-the-art method can be further boosted with up to 8.8% mAP improvements on the challenging MSMT17 dataset.
翻訳日:2021-06-14 14:16:26 公開日:2021-06-11
# Team RUC_AIM3 Technical Report at ActivityNet 2021: Entities Object Localization

Team RUC_AIM3 Technical Report at ActivityNet 2021: Entities Object Localization ( http://arxiv.org/abs/2106.06138v1 )

ライセンス: Link先を確認
Ludan Ruan (1), Jieting Chen (1), Yuqing Song (1), Shizhe Chen (2), Qin Jin (1) ((1) Renmin University of China, (2) INRIA)(参考訳) エンティティオブジェクトローカライゼーション(eol)は、キャプションの生成とオブジェクトの接地からなる記述の接地や忠実性を評価することを目的としている。 以前の作業では、各モジュールの複雑さを制限する2つのモジュールをフレームワークで共同でトレーニングすることで、この問題に対処する。 そこで本研究では,これら2つのモジュールを2段階に分割し,システム全体の性能向上を図ることを提案する。 キャプション生成のために,リッチオブジェクトを用いたイベント記述生成のための統合マルチモーダル事前学習モデル(umpm)を提案する。 対象の接地については,最先端検出モデルmdetrを微調整し,接地結果をより忠実にするためのポスト処理法を設計する。 提案システムでは,サブタスクiと0.2477 f1_all_per_sentのテストセット上で72.57のローカライズ精度を持つ,activitynet 2021におけるエンティティオブジェクトローカライゼーションチャレンジにおいて,両方のサブタスクにおける最先端のパフォーマンスを実現している。

Entities Object Localization (EOL) aims to evaluate how grounded or faithful a description is, which consists of caption generation and object grounding. Previous works tackle this problem by jointly training the two modules in a framework, which limits the complexity of each module. Therefore, in this work, we propose to divide these two modules into two stages and improve them respectively to boost the whole system performance. For the caption generation, we propose a Unified Multi-modal Pre-training Model (UMPM) to generate event descriptions with rich objects for better localization. For the object grounding, we fine-tune the state-of-the-art detection model MDETR and design a post processing method to make the grounding results more faithful. Our overall system achieves the state-of-the-art performances on both sub-tasks in Entities Object Localization challenge at Activitynet 2021, with 72.57 localization accuracy on the testing set of sub-task I and 0.2477 F1_all_per_sent on the hidden testing set of sub-task II.
翻訳日:2021-06-14 14:16:13 公開日:2021-06-11
# MlTr: Transformer を用いたマルチラベル分類

MlTr: Multi-label Classification with Transformer ( http://arxiv.org/abs/2106.06195v1 )

ライセンス: Link先を確認
Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, Dong Shen, Zhongyuan Wang, Nian Shi, Honglin Liu(参考訳) マルチラベル画像分類のタスクは、画像に示されるすべてのオブジェクトラベルを認識することである。 何年も進歩してきたが、コンボリューションカーネルの表現能力によって制限された、以前の畳み込みニューラルネットワーク(CNN)ベースのモデルでは、小さなオブジェクト、類似したオブジェクト、そして高い条件付き確率のオブジェクトが依然として主要なボトルネックとなっている。 近年のビジョントランスフォーマネットワークでは,局所的な意味情報を表現するピクセル粒度の特徴を抽出し,グローバル空間依存のマイニングには不十分である。 本稿では,CNNベースの手法が遭遇する3つの重要な問題を指摘した上で,特定のトランスフォーマーモジュールを動作させる可能性について考察する。 我々は,ウィンドウ分割,ウィンドウ内画素注目,クロスウィンドウ注意,特にマルチラベル画像分類タスクの性能向上などを備えたマルチラベルトランスフォーマーアーキテクチャ(mltr)を提案する。 提案するmltrは,ms-coco,pascal-voc, nus-wideなどの多層データセットについて,それぞれ88.5%,95.8%,65.5%の最先端の結果を示す。 コードは近くhttps://github.com/s tarmemda/mltr/で入手できる。

The task of multi-label image classification is to recognize all the object labels presented in an image. Though advancing for years, small objects, similar objects and objects with high conditional probability are still the main bottlenecks of previous convolutional neural network(CNN) based models, limited by convolutional kernels' representational capacity. Recent vision transformer networks utilize the self-attention mechanism to extract the feature of pixel granularity, which expresses richer local semantic information, while is insufficient for mining global spatial dependence. In this paper, we point out the three crucial problems that CNN-based methods encounter and explore the possibility of conducting specific transformer modules to settle them. We put forward a Multi-label Transformer architecture(MlTr) constructed with windows partitioning, in-window pixel attention, cross-window attention, particularly improving the performance of multi-label image classification tasks. The proposed MlTr shows state-of-the-art results on various prevalent multi-label datasets such as MS-COCO, Pascal-VOC, and NUS-WIDE with 88.5%, 95.8%, and 65.5% respectively. The code will be available soon at https://github.com/s tarmemda/MlTr/
翻訳日:2021-06-14 14:15:46 公開日:2021-06-11
# AugNet: イメージ拡張による教師なし視覚表現学習

AugNet: End-to-End Unsupervised Visual Representation Learning with Image Augmentation ( http://arxiv.org/abs/2106.06250v1 )

ライセンス: Link先を確認
Mingxiang Chen, Zhanguo Chang, Haonan Lu, Bitao Yang, Zhuang Li, Liufang Guo, Zhecheng Wang(参考訳) 人工知能におけるこれまでの成果の大部分は、多数の注釈付きトレーニングデータを必要とする教師あり学習によって達成された。 教師なし学習はそのような困難を克服するための効果的な解決策の1つである。 本研究では,未ラベル画像の集合から画像特徴を学習するための新しいディープラーニング学習パラダイムであるAugNetを提案する。 本研究では, 画像間の類似性を, 組込み空間における距離測定値として構築する手法を開発した。 本手法は,低次元空間における画像表現が可能であり,画像分類や画像類似性比較などの下流タスクで競合することを実証する。 具体的には,教師なしクラスタリングによるstl10データセットとcifar100データセットにおいて,60%以上と27%の精度を達成した。 さらに、多くのディープラーニングベースの画像検索アルゴリズムとは異なり、本手法では、特徴抽出器をトレーニングするために外部の注釈付きデータセットにアクセスする必要はなく、機能表現能力や使い易い特性に匹敵する、あるいはさらに優れた特徴を示す。 本手法は,いくつかの領域外画像データセットにおいて,最先端画像検索アルゴリズムを上回っている。 モデル実装のコードはhttps://github.com/c henmingxiang110/augn etで入手できる。

Most of the achievements in artificial intelligence so far were accomplished by supervised learning which requires numerous annotated training data and thus costs innumerable manpower for labeling. Unsupervised learning is one of the effective solutions to overcome such difficulties. In our work, we propose AugNet, a new deep learning training paradigm to learn image features from a collection of unlabeled pictures. We develop a method to construct the similarities between pictures as distance metrics in the embedding space by leveraging the inter-correlation between augmented versions of samples. Our experiments demonstrate that the method is able to represent the image in low dimensional space and performs competitively in downstream tasks such as image classification and image similarity comparison. Specifically, we achieved over 60% and 27% accuracy on the STL10 and CIFAR100 datasets with unsupervised clustering, respectively. Moreover, unlike many deep-learning-based image retrieval algorithms, our approach does not require access to external annotated datasets to train the feature extractor, but still shows comparable or even better feature representation ability and easy-to-use characteristics. In our evaluations, the method outperforms all the state-of-the-art image retrieval algorithms on some out-of-domain image datasets. The code for the model implementation is available at https://github.com/c henmingxiang110/AugN et.
翻訳日:2021-06-14 14:15:20 公開日:2021-06-11
# モデルベースとモデルフリーのヒューマンリコンストラクションのギャップを埋める

Bridge the Gap Between Model-based and Model-free Human Reconstruction ( http://arxiv.org/abs/2106.06313v1 )

ライセンス: Link先を確認
Lixiang Lin and Jianke Zhu(参考訳) 多様な衣服様式の身体形状の多様性と複雑さのため、単一の画像から人間の幾何学を直接推定することは困難である。 モデルに基づくアプローチのほとんどは、過度に平らな表面を持つ最小限の服を着た体の形状とポーズを予測するために限られている。 詳細なジオメトリをキャプチャするが、モデルフリーな方法は固定メッシュトポロジーを欠いている。 そこで本研究では,モデルベースとモデルフリーのギャップを埋めることにより,新しいトポロジー保存型ヒト再構成手法を提案する。 グラフ畳み込みニューラルネットワークによって構築された暗黙の面と明示的なメッシュモデルを同時に予測するエンドツーエンドニューラルネットワークを提案する。 さらに、暗黙曲面とパラメトリックメッシュモデルの間の頂点オフセットを推定するために、余剰グラフ畳み込みニューラルネットワークを用いる。 最後に,暗黙空間におけるニューラルネットワーク出力を洗練するための効率的な暗黙的登録手法を提案する。 deephuman datasetの実験により、我々のアプローチが有効であることが示された。

It is challenging to directly estimate the geometry of human from a single image due to the high diversity and complexity of body shapes with the various clothing styles. Most of model-based approaches are limited to predict the shape and pose of a minimally clothed body with over-smoothing surface. Although capturing the fine detailed geometries, the model-free methods are lack of the fixed mesh topology. To address these issues, we propose a novel topology-preserved human reconstruction approach by bridging the gap between model-based and model-free human reconstruction. We present an end-to-end neural network that simultaneously predicts the pixel-aligned implicit surface and the explicit mesh model built by graph convolutional neural network. Moreover, an extra graph convolutional neural network is employed to estimate the vertex offsets between the implicit surface and parametric mesh model. Finally, we suggest an efficient implicit registration method to refine the neural network output in implicit space. Experiments on DeepHuman dataset showed that our approach is effective.
翻訳日:2021-06-14 14:15:01 公開日:2021-06-11
# SimSwap: 高忠実な顔スワッピングのための効率的なフレームワーク

SimSwap: An Efficient Framework For High Fidelity Face Swapping ( http://arxiv.org/abs/2106.06340v1 )

ライセンス: Link先を確認
Renwang Chen, Xuanhong Chen, Bingbing Ni, Yanhao Ge(参考訳) 我々は,汎用的で忠実な顔交換を目的とした,Simple Swap (SimSwap) と呼ばれる効率的なフレームワークを提案する。 顔の表情や視線方向などの属性を保存する能力に欠ける従来のアプローチとは対照的に,我々のフレームワークでは,対象顔の属性を保存しながら,任意の元顔のアイデンティティを任意のターゲット顔に転送することができる。 上記の欠陥を、以下の2つの方法で克服する。 まず,ID注入モジュール(IIM)について,特徴レベルにおいて原面の識別情報をターゲット面に転送する。 このモジュールを用いることで、識別固有の顔交換アルゴリズムのアーキテクチャを任意の顔交換のためのフレームワークに拡張する。 第二に、我々のフレームワークが暗黙的に顔の属性を保存するのを効率的に支援するWeak Feature Matching Lossを提案する。 我々のSimSwapは、従来の最先端手法よりも優れた属性を保ちながら、競争力のあるアイデンティティ性能を達成することができることを示した。 コードはすでにgithubで公開されている。

We propose an efficient framework, called Simple Swap (SimSwap), aiming for generalized and high fidelity face swapping. In contrast to previous approaches that either lack the ability to generalize to arbitrary identity or fail to preserve attributes like facial expression and gaze direction, our framework is capable of transferring the identity of an arbitrary source face into an arbitrary target face while preserving the attributes of the target face. We overcome the above defects in the following two ways. First, we present the ID Injection Module (IIM) which transfers the identity information of the source face into the target face at feature level. By using this module, we extend the architecture of an identity-specific face swapping algorithm to a framework for arbitrary face swapping. Second, we propose the Weak Feature Matching Loss which efficiently helps our framework to preserve the facial attributes in an implicit way. Extensive experiments on wild faces demonstrate that our SimSwap is able to achieve competitive identity performance while preserving attributes better than previous state-of-the-art methods. The code is already available on github: https://github.com/n euralchen/SimSwap.
翻訳日:2021-06-14 14:14:46 公開日:2021-06-11
# Part-Aware Panoptic Segmentation

Part-aware Panoptic Segmentation ( http://arxiv.org/abs/2106.06351v1 )

ライセンス: Link先を確認
Daan de Geus, Panagiotis Meletis, Chenyang Lu, Xiaoxiao Wen, Gijs Dubbelman(参考訳) 本稿では,複数の抽象レベルでシーンを理解し,シーン解析と部分解析のタスクを統合することを目的とした,pps(part-aware panoptic segmentation)の新たなシーン理解タスクを紹介する。 この新しいタスクのために、よく使われる2つのデータセット、CityscapesとPascal VOCに一貫したアノテーションを提供する。 さらに,PPSを評価するための指標として,Part-Aware Panoptic Quality (PartPQ)を提案する。 この新しいタスクは、メトリックとアノテーションを使って、panoptic segmentationとpart segmentationのための既存のstate-of-the-artメソッドの結果をマージすることによって、複数のベースラインを設定します。 最後に,このタスクにおける抽象化の異なるレベルの重要性を評価する実験をいくつか実施する。

In this work, we introduce the new scene understanding task of Part-aware Panoptic Segmentation (PPS), which aims to understand a scene at multiple levels of abstraction, and unifies the tasks of scene parsing and part parsing. For this novel task, we provide consistent annotations on two commonly used datasets: Cityscapes and Pascal VOC. Moreover, we present a single metric to evaluate PPS, called Part-aware Panoptic Quality (PartPQ). For this new task, using the metric and annotations, we set multiple baselines by merging results of existing state-of-the-art methods for panoptic segmentation and part segmentation. Finally, we conduct several experiments that evaluate the importance of the different levels of abstraction in this single task.
翻訳日:2021-06-14 14:14:26 公開日:2021-06-11
# 連続生成ゼロショットセマンティックセグメンテーション

Conterfactual Generative Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2106.06360v1 )

ライセンス: Link先を確認
Feihong Shen and Jun Liu and Ping Hu(参考訳) ゼロショット学習はコンピュータビジョンの重要な部分です。 古典的なダウンストリームタスクとして、ゼロショットセマンティックセグメンテーションは、その適用価値から研究されている。 一般的なゼロショットセマンティクスセグメンテーションの方法の1つは、生成モデルに基づいている。 しかし, 因果推論の観点からは, 原モデルの結果は突発的な統計的関係の影響を受けていることがわかった。 したがって、予測の性能は厳しいバイアスを示す。 本研究では,元モデルにおける共同創設者を避けるために,反事実的手法を検討する。 この手法に基づき,ゼロショット意味セグメンテーションのための新しいフレームワークを提案する。 私たちのモデルは、Pascal-VOCとPascal-Contextの2つの実世界のデータセットのベースラインモデルと比較する。 実験の結果,提案モデルが既存モデルを上回る可能性があり,性能向上のための追加構造の利用が期待できることがわかった。 また,本研究では,グラフ畳み込みネットワーク(gcn)に基づく単純な構造も設計する。

zero-shot learning is an essential part of computer vision. As a classical downstream task, zero-shot semantic segmentation has been studied because of its applicant value. One of the popular zero-shot semantic segmentation methods is based on the generative model Most new proposed works added structures on the same architecture to enhance this model. However, we found that, from the view of causal inference, the result of the original model has been influenced by spurious statistical relationships. Thus the performance of the prediction shows severe bias. In this work, we consider counterfactual methods to avoid the confounder in the original model. Based on this method, we proposed a new framework for zero-shot semantic segmentation. Our model is compared with baseline models on two real-world datasets, Pascal-VOC and Pascal-Context. The experiment results show proposed models can surpass previous confounded models and can still make use of additional structures to improve the performance. We also design a simple structure based on Graph Convolutional Networks (GCN) in this work.
翻訳日:2021-06-14 14:14:13 公開日:2021-06-11
# 注意に基づく部分顔認識

Attention-based Partial Face Recognition ( http://arxiv.org/abs/2106.06415v1 )

ライセンス: Link先を確認
Stefan H\"ormann and Zeyuan Zhang and Martin Knoche and Torben Teepe and Gerhard Rigoll(参考訳) 群衆のような制約のない環境で撮影された顔の写真は、しばしば前景の物や人によって隠されているため、現在の顔認識アプローチの課題となっている。 しかし、部分的な顔の認識に関する研究はほとんど行われていない。 そこで本研究では,異なる領域の異なる顔を認識することのできる部分的顔認識手法を提案する。 本稿では,resnetの中間特徴マップの注意プーリングと分離アグリゲーションモジュールを組み合わせることにより,これを実現する。 さらに,注意マップが多様であり,オクルードされた部分を扱うために,部分的な顔に共通の損失を適応させる。 我々の徹底的な分析は、自然および合成的に隠蔽された部分面を含む、複数のベンチマークプロトコルの下で全てのベースラインを上回ります。 本手法は,隠蔽面の関連部分に焦点をあてることが可能である。

Photos of faces captured in unconstrained environments, such as large crowds, still constitute challenges for current face recognition approaches as often faces are occluded by objects or people in the foreground. However, few studies have addressed the task of recognizing partial faces. In this paper, we propose a novel approach to partial face recognition capable of recognizing faces with different occluded areas. We achieve this by combining attentional pooling of a ResNet's intermediate feature maps with a separate aggregation module. We further adapt common losses to partial faces in order to ensure that the attention maps are diverse and handle occluded parts. Our thorough analysis demonstrates that we outperform all baselines under multiple benchmark protocols, including naturally and synthetically occluded partial faces. This suggests that our method successfully focuses on the relevant parts of the occluded face.
翻訳日:2021-06-14 14:13:59 公開日:2021-06-11
# View-Atribute Attention Localizationに基づく映像監視シナリオにおける歩行者属性認識

Pedestrian Attribute Recognition in Video Surveillance Scenarios Based on View-attribute Attention Localization ( http://arxiv.org/abs/2106.06485v1 )

ライセンス: Link先を確認
Weichen Chen (1) Xinyi Yu (1) Linlin Ou (1) ((1) Collage of Information Engineering, Zhejiang University of Technology, Hangzhou, China)(参考訳) 監視シナリオにおける歩行者属性の認識は、特定の属性が不正確な位置にあるため、依然として困難な課題である。 本稿では,属性とビューの強い関連性に基づき,特定のビュー属性をキャプチャし,アテンション機構により属性対応領域を局所化する,アテンションに基づく新しいビュー属性ローカライズ手法を提案する。 特定のビュー属性は、抽出された属性特徴と、異なるビューからの属性に対する信頼度としてビュー予測器によって予測される4つのビュースコアによって構成される。 ビュー属性は、深い特徴抽出を監督するために浅いネットワーク層に返される。 ビュー属性の位置を探索するために、画像が狭い範囲に制約される高さ及び幅方向の入力属性特徴の空間情報を集約するために、地域的注意を導入する。 さらに、上記2つの空間方向にビューフィーチャーのチャネル間依存性を埋め込む。 高さと幅の分岐のチャネル依存性の比をバランスさせて狭い範囲を絞り込み、注目属性特化領域を得る。 最終ビュー属性認識結果は、地域注意の出力とビュー予測器からのビュースコアを組み合わせることで得られる。 3つのワイドデータセット(RAP, RAPv2, PETA, PA-100K)の実験により, 最先端手法と比較して, 提案手法の有効性が示された。

Pedestrian attribute recognition in surveillance scenarios is still a challenging task due to inaccurate localization of specific attributes. In this paper, we propose a novel view-attribute localization method based on attention (VALA), which relies on the strong relevance between attributes and views to capture specific view-attributes and to localize attribute-correspond ing areas by attention mechanism. A specific view-attribute is composed by the extracted attribute feature and four view scores which are predicted by view predictor as the confidences for attribute from different views. View-attribute is then delivered back to shallow network layers for supervising deep feature extraction. To explore the location of a view-attribute, regional attention is introduced to aggregate spatial information of the input attribute feature in height and width direction for constraining the image into a narrow range. Moreover, the inter-channel dependency of view-feature is embedded in the above two spatial directions. An attention attribute-specific region is gained after fining the narrow range by balancing the ratio of channel dependencies between height and width branches. The final view-attribute recognition outcome is obtained by combining the output of regional attention with the view scores from view predictor. Experiments on three wide datasets (RAP, RAPv2, PETA, and PA-100K) demonstrate the effectiveness of our approach compared with state-of-the-art methods.
翻訳日:2021-06-14 14:13:45 公開日:2021-06-11
# 画像テキストマッチングのためのステップワイズ階層アライメントネットワーク

Step-Wise Hierarchical Alignment Network for Image-Text Matching ( http://arxiv.org/abs/2106.06509v1 )

ライセンス: Link先を確認
Zhong Ji, Kexin Chen, Haoran Wang(参考訳) 画像テキストマッチングは、視覚と言語の間の意味的ギャップを埋める上で中心的な役割を果たす。 正確な視覚的セマンティックアライメントを達成するための重要なポイントは、画像とテキスト間の細粒度の相互対応を捉えることである。 従来のほとんどの手法は、視覚と意味の相互作用を発見するための単一ステップの推論に依存しており、階層的な微細な関連性を見つけるための多レベル情報を利用する能力が欠如している。 そこで本研究では,画像テキストマッチングを多段階クロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(shan)を提案する。 具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行する。 このプログレッシブアライメント戦略は,画像とテキストの階層的相関を理解するための,より補完的で十分な意味的手がかりをモデルに提供する。 2つのベンチマークデータセットの実験結果から,提案手法の優位性を示した。

Image-text matching plays a central role in bridging the semantic gap between vision and language. The key point to achieve precise visual-semantic alignment lies in capturing the fine-grained cross-modal correspondence between image and text. Most previous methods rely on single-step reasoning to discover the visual-semantic interactions, which lacks the ability of exploiting the multi-level information to locate the hierarchical fine-grained relevance. Different from them, in this work, we propose a step-wise hierarchical alignment network (SHAN) that decomposes image-text matching into multi-step cross-modal reasoning process. Specifically, we first achieve local-to-local alignment at fragment level, following by performing global-to-local and global-to-global alignment at context level sequentially. This progressive alignment strategy supplies our model with more complementary and sufficient semantic clues to understand the hierarchical correlations between image and text. The experimental results on two benchmark datasets demonstrate the superiority of our proposed method.
翻訳日:2021-06-14 14:13:24 公開日:2021-06-11
# 日時と位置認識によるRNN-T ASRの性能向上

Improving RNN-T ASR Performance with Date-Time and Location Awareness ( http://arxiv.org/abs/2106.06183v1 )

ライセンス: Link先を確認
Swayambhu Nath Ray, Soumyajit Mitra, Raghavendra Bilgi, Sri Garimella(参考訳) 本稿では、ニューラルネットワーク(rnn-t)に基づく自動音声認識(asr)モデルにコンテキストを組み込むことによる、仮想アシスタントの音声認識改善の利点について検討する。 具体的には、発話が話される時点から抽出されたメタ情報と、近似位置情報を用いて、ASRコンテキストを認識させる。 これらの文脈情報を個別に使用すると、ベースラインに対して最大3.48%の性能が向上し、コンテキストが組み合わされた場合、相補的な特徴が学習され、認識が4.62%向上することを示す。 特定の領域では、これらの文脈信号は最大11.5%の改善を示し、他の領域では顕著な劣化はない。 私たちは30K時間と10K時間のサイズのデータに基づいてトレーニングされたモデルで実験を行いました。 10K時間データセットによる改善の規模は,30K時間データセットによる改善の規模よりもはるかに高いことを示す。 その結果,asrモデルの学習に限定されたデータを用いることで,文脈信号による性能向上が期待できることがわかった。

In this paper, we explore the benefits of incorporating context into a Recurrent Neural Network (RNN-T) based Automatic Speech Recognition (ASR) model to improve the speech recognition for virtual assistants. Specifically, we use meta information extracted from the time at which the utterance is spoken and the approximate location information to make ASR context aware. We show that these contextual information, when used individually, improves overall performance by as much as 3.48% relative to the baseline and when the contexts are combined, the model learns complementary features and the recognition improves by 4.62%. On specific domains, these contextual signals show improvements as high as 11.5%, without any significant degradation on others. We ran experiments with models trained on data of sizes 30K hours and 10K hours. We show that the scale of improvement with the 10K hours dataset is much higher than the one obtained with 30K hours dataset. Our results indicate that with limited data to train the ASR model, contextual signals can improve the performance significantly.
翻訳日:2021-06-14 14:13:07 公開日:2021-06-11
# コンビネーションロックを回す: 単語置換による学習可能なテキストバックドア攻撃

Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word Substitution ( http://arxiv.org/abs/2106.06361v1 )

ライセンス: Link先を確認
Fanchao Qi, Yuan Yao, Sophia Xu, Zhiyuan Liu, Maosong Sun(参考訳) 最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。 バックドアで注入されたモデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成し、現実世界のアプリケーションに深刻なセキュリティ脅威をもたらす。 既存のテキストバックドア攻撃はバックドアの可視性にほとんど注意を払わないため、容易に検出してブロックすることができる。 本研究では,単語置換の学習可能な組み合わせによって活性化される,見えないバックドアを提案する。 また,NLPモデルにバックドアを注入することで,攻撃成功率を100%近く向上させることができる一方で,既存の防衛戦略や人体検査にも極めて不可視であることを示す。 その結果、NLPモデルのセキュリティに深刻な警告が生まれ、さらなる研究が解決される必要がある。 この論文のすべてのデータとコードはhttps://github.com/t hunlp/BkdAtk-LWSで公開されている。

Recent studies show that neural natural language processing (NLP) models are vulnerable to backdoor attacks. Injected with backdoors, models perform normally on benign examples but produce attacker-specified predictions when the backdoor is activated, presenting serious security threats to real-world applications. Since existing textual backdoor attacks pay little attention to the invisibility of backdoors, they can be easily detected and blocked. In this work, we present invisible backdoors that are activated by a learnable combination of word substitution. We show that NLP models can be injected with backdoors that lead to a nearly 100% attack success rate, whereas being highly invisible to existing defense strategies and even human inspections. The results raise a serious alarm to the security of NLP models, which requires further research to be resolved. All the data and code of this paper are released at https://github.com/t hunlp/BkdAtk-LWS.
翻訳日:2021-06-14 14:12:50 公開日:2021-06-11
# Twin Neural Network Regression - 半教師付き回帰アルゴリズム

Twin Neural Network Regression is a Semi-Supervised Regression Algorithm ( http://arxiv.org/abs/2106.06124v1 )

ライセンス: Link先を確認
Sebastian J. Wetzel, Roger G. Melko, Isaac Tamblyn(参考訳) ツインニューラルネットワーク回帰(TNNR)は、半教師付き回帰アルゴリズムであり、ラベル付きアンカーデータポイントが存在する限り、ラベル付きアンカーデータポイントでトレーニングすることができる。 TNNRは、ターゲット自体ではなく、2つの異なるデータポイントのターゲット値の違いを予測するように訓練されている。 未知のデータポイントの目標とすべてのトレーニングデータポイントとの予測誤差をセンセンブルすることで、元の回帰問題の非常に正確な予測を得ることができる。 予測された違いのループはすべてゼロにまとめられるため、ループ内のデータ自体がラベルされていない場合でも、トレーニングデータにループが供給される。 セミ教師付きトレーニングは、すでに最先端にあるTNNRのパフォーマンスを大幅に改善する。

Twin neural network regression (TNNR) is a semi-supervised regression algorithm, it can be trained on unlabelled data points as long as other, labelled anchor data points, are present. TNNR is trained to predict differences between the target values of two different data points rather than the targets themselves. By ensembling predicted differences between the targets of an unseen data point and all training data points, it is possible to obtain a very accurate prediction for the original regression problem. Since any loop of predicted differences should sum to zero, loops can be supplied to the training data, even if the data points themselves within loops are unlabelled. Semi-supervised training improves TNNR performance, which is already state of the art, significantly.
翻訳日:2021-06-14 14:12:15 公開日:2021-06-11
# 不正確なADMMによる個人的フェデレーション学習

Differentially Private Federated Learning via Inexact ADMM ( http://arxiv.org/abs/2106.06127v1 )

ライセンス: Link先を確認
Minseok Ryu and Kibaek Kim(参考訳) 差分プライバシー(DP)技術は、データプライバシを学習エージェント間の通信に対する推論攻撃から保護するために、フェデレーション学習モデルに適用することができる。 しかし、DPのテクニックは、強力なデータのプライバシーを確保しながら、学習性能の向上を妨げる。 本稿では,ラプラス分布から発生するランダムノイズによる目的的摂動を伴う信頼領域部分問題の列を解く,乗算アルゴリズムの非可逆交方向法を開発した。 我々のアルゴリズムは全ての反復に対して$\bar{\epsilon}$-DP と $\mathcal{O}(1/T)$ の期待収束率を示し、ここでは$T$ は反復数である。 MNIST と FEMNIST のデータセットを画像分類に用いて,既存の DP アルゴリズムと比較してテスト誤差を少なくとも2,2\% 削減し,同じレベルのデータプライバシーを実現することを示した。 また,本アルゴリズムは既存のアルゴリズムよりも高速に収束することを示す。

Differential privacy (DP) techniques can be applied to the federated learning model to protect data privacy against inference attacks to communication among the learning agents. The DP techniques, however, hinder achieving a greater learning performance while ensuring strong data privacy. In this paper we develop a DP inexact alternating direction method of multipliers algorithm that solves a sequence of trust-region subproblems with the objective perturbation by random noises generated from a Laplace distribution. We show that our algorithm provides $\bar{\epsilon}$-DP for every iteration and $\mathcal{O}(1/T)$ rate of convergence in expectation, where $T$ is the number of iterations. Using MNIST and FEMNIST datasets for the image classification, we demonstrate that our algorithm reduces the testing error by at most $22\%$ compared with the existing DP algorithm, while achieving the same level of data privacy. The numerical experiment also shows that our algorithm converges faster than the existing algorithm.
翻訳日:2021-06-14 14:12:03 公開日:2021-06-11
# 部分ラベル学習における平均損失のロバスト性について

On the Robustness of Average Losses for Partial-Label Learning ( http://arxiv.org/abs/2106.06152v1 )

ライセンス: Link先を確認
Jiaqi Lv, Lei Feng, Miao Xu, Bo An, Gang Niu, Xin Geng, Masashi Sugiyama(参考訳) 部分ラベル(pl)学習は典型的な弱い教師付き分類問題であり、例のplは固定だが未知の候補が真のラベルであるような候補ラベルの集合である。 pl学習には、2つの研究線がある: (a) 識別ベース戦略(ibs) 各ラベル集合を純化し、真のラベルを抽出する; (b) 平均ベース戦略(abs) すべての候補をトレーニングのために等しく扱う。 過去20年間、IBSはABSよりもずっとホットな話題だった。 本稿では,ABSを理論的に解析し,損失関数のロバスト性という意味でも有望であることを示す。 具体的には、クリーンまたはノイズのplを生成するための5つの問題設定を検討し、境界付きマルチクラス損失を含む平均pl損失は、真のラベル支配下では常に頑健であるが、非境界型マルチクラス損失(例えば、クロスエントロピー損失)を伴う平均pl損失は堅牢ではないことを証明した。 理論的な結果を検証する実験も行います。 IBSはヒューリスティックであり、同様の証明手法によってその堅牢性を証明できないので、ABSは理論的な観点からより有利であり、ABSに続くより先進的なPL学習手法の設計に注意を払う価値がある。

Partial-label (PL) learning is a typical weakly supervised classification problem, where a PL of an instance is a set of candidate labels such that a fixed but unknown candidate is the true label. For PL learning, there are two lines of research: (a) the identification-based strategy (IBS) purifies each label set and extracts the true label; (b) the average-based strategy (ABS) treats all candidates equally for training. In the past two decades, IBS was a much hotter topic than ABS, since it was believed that IBS is more promising. In this paper, we theoretically analyze ABS and find it also promising in the sense of the robustness of its loss functions. Specifically, we consider five problem settings for the generation of clean or noisy PLs, and we prove that average PL losses with bounded multi-class losses are always robust under mild assumptions on the domination of true labels, while average PL losses with unbounded multi-class losses (e.g., the cross-entropy loss) may not be robust. We also conduct experiments to validate our theoretical findings. Note that IBS is heuristic, and we cannot prove its robustness by a similar proof technique; hence, ABS is more advantageous from a theoretical point of view, and it is worth paying attention to the design of more advanced PL learning methods following ABS.
翻訳日:2021-06-14 14:11:46 公開日:2021-06-11
# 生成・注釈・学習:生成モデルによる自己学習・知識蒸留の促進

Generate, Annotate, and Learn: Generative Models Advance Self-Training and Knowledge Distillation ( http://arxiv.org/abs/2106.06168v1 )

ライセンス: Link先を確認
Xuanli He, Islam Nassar, Jamie Kiros, Gholamreza Haffari, Mohammad Norouzi(参考訳) Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。 知識蒸留(kd)は深層ネットワークとアンサンブルの圧縮を可能にし、新しいタスク固有のラベルなしの例で知識を蒸留する場合の最良の結果を得る。 しかし、タスク固有の未ラベルデータを見つけるのは難しい。 我々は,無条件生成モデルを用いて非ラベルデータを合成し,ssl と kd を異なるタスクで前進させる "generate, annotate, learn (gal)" という汎用フレームワークを提案する。 タスク固有の生成モデルを得るために、オープンドメインデータに基づいて事前訓練された汎用生成モデルを採用し、特定のタスクからの入力を微調整する。 次に,既存の分類器を用いて,生成した未ラベルのサンプルにソフトな擬似ラベルをアノテートする。 各GLUEタスクの入力を微調整した GPT2-large から生成されたサンプルと自己学習を組み合わせた場合、GLUEベンチマーク上で強力な RoBERTa-large ベースラインを上回ります。 さらに、GPT-2サンプル上のKDはGLUEリーダーボード上の6層トランスのための新しい最先端技術をもたらす。 最後に、GALによる自己学習は、CIFAR-10の画像分類とUCIレポジトリからの4つの表型タスクに大きく貢献する

Semi-Supervised Learning (SSL) has seen success in many application domains, but this success often hinges on the availability of task-specific unlabeled data. Knowledge distillation (KD) has enabled compressing deep networks and ensembles, achieving the best results when distilling knowledge on fresh task-specific unlabeled examples. However, task-specific unlabeled data can be challenging to find. We present a general framework called "generate, annotate, and learn (GAL)" that uses unconditional generative models to synthesize in-domain unlabeled data, helping advance SSL and KD on different tasks. To obtain strong task-specific generative models, we adopt generic generative models, pretrained on open-domain data, and fine-tune them on inputs from specific tasks. Then, we use existing classifiers to annotate generated unlabeled examples with soft pseudo labels, which are used for additional training. When self-training is combined with samples generated from GPT2-large, fine-tuned on the inputs of each GLUE task, we outperform a strong RoBERTa-large baseline on the GLUE benchmark. Moreover, KD on GPT-2 samples yields a new state-of-the-art for 6-layer transformers on the GLUE leaderboard. Finally, self-training with GAL offers significant gains on image classification on CIFAR-10 and four tabular tasks from the UCI repository
翻訳日:2021-06-14 14:11:20 公開日:2021-06-11
# ディスカウント因子のTaylor拡大

Taylor Expansion of Discount Factors ( http://arxiv.org/abs/2106.06170v1 )

ライセンス: Link先を確認
Yunhao Tang, Mark Rowland, R\'emi Munos, Michal Valko(参考訳) 実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。 本研究では,この割引要因の相違が学習中に与える影響について検討し,二つの異なる割引要因の値関数を補間する目的のファミリーを発見する。 分析では、価値関数を推定し、実証的なパフォーマンス向上を示すポリシーの最適化を行う新しい方法を提案する。 このフレームワークは、ポリシー最適化アルゴリズムによく使われる深いrlヒューリスティックな修正に関する新たな洞察をもたらす。

In practical reinforcement learning (RL), the discount factor used for estimating value functions often differs from that used for defining the evaluation objective. In this work, we study the effect that this discrepancy of discount factors has during learning, and discover a family of objectives that interpolate value functions of two distinct discount factors. Our analysis suggests new ways for estimating value functions and performing policy optimization updates, which demonstrate empirical performance gains. This framework also leads to new insights on commonly-used deep RL heuristic modifications to policy optimization algorithms.
翻訳日:2021-06-14 14:10:55 公開日:2021-06-11
# 因果性レンズによる対向性ロバスト性

Adversarial Robustness through the Lens of Causality ( http://arxiv.org/abs/2106.06196v1 )

ライセンス: Link先を確認
Yonggang Zhang, Mingming Gong, Tongliang Liu, Gang Niu, Xinmei Tian, Bo Han, Bernhard Sch\"olkopf and Kun Zhang(参考訳) ディープニューラルネットワークの敵対的脆弱性は、機械学習に大きな注目を集めている。 因果的観点からは、逆攻撃は自然データ上の特定の種類の分布変化と見なすことができる。 因果推論は,分布変化をモデル化する本能を持つので,因果関係を敵意的脆弱性の軽減に組み込むことを提案する。 しかし, 敵対的攻撃の直感と頑健なDNNの発達の因果的定式化はいまだに文献に欠けている。 このギャップを埋めるために,敵の例の生成過程をモデル化する因果グラフを構築し,敵の攻撃の直観を定式化する敵の分布を定義する。 因果的な見地からすると、ラベルはインスタンスが与えられたときにスタイル(コンテンツに依存しない)情報と散発的に相関する。 突発的相関は, 自然分布とは大きく異なるスタイル情報とラベルの統計的条件関係を組み込むことによって, 逆分布を構築することを示唆している。 このように、突発的相関に適合するDNNは、敵の分布に弱い。 そこで本研究では,自然分布と逆分布の差異を解消する逆分布アライメント法を提案する。 大規模実験により提案手法の有効性が示された。 本手法は,敵の脆弱性を緩和するために因果性を利用する最初の試みと見なすことができる。

The adversarial vulnerability of deep neural networks has attracted significant attention in machine learning. From a causal viewpoint, adversarial attacks can be considered as a specific type of distribution change on natural data. As causal reasoning has an instinct for modeling distribution change, we propose to incorporate causality into mitigating adversarial vulnerability. However, causal formulations of the intuition of adversarial attack and the development of robust DNNs are still lacking in the literature. To bridge this gap, we construct a causal graph to model the generation process of adversarial examples and define the adversarial distribution to formalize the intuition of adversarial attacks. From a causal perspective, we find that the label is spuriously correlated with the style (content-independent ) information when an instance is given. The spurious correlation implies that the adversarial distribution is constructed via making the statistical conditional association between style information and labels drastically different from that in natural distribution. Thus, DNNs that fit the spurious correlation are vulnerable to the adversarial distribution. Inspired by the observation, we propose the adversarial distribution alignment method to eliminate the difference between the natural distribution and the adversarial distribution. Extensive experiments demonstrate the efficacy of the proposed method. Our method can be seen as the first attempt to leverage causality for mitigating adversarial vulnerability.
翻訳日:2021-06-14 14:10:48 公開日:2021-06-11
# LocoProp: ローカルロス最適化によるBackPropの強化

LocoProp: Enhancing BackProp via Local Loss Optimization ( http://arxiv.org/abs/2106.06199v1 )

ライセンス: Link先を確認
Ehsan Amid, Rohan Anil, and Manfred K. Warmuth(参考訳) ニューラルネットワークの最適化のための局所損失構築手法について検討する。 まず、各層と局所目標の事前活性化の2乗損失を最小化し、さらに重み付けの正則化項を最小化する。 ターゲットは、ローカル目的の最初の勾配降下ステップがバニラバックプロップを回復するように選択され、各問題に対する正確な解決策は、事前条件付き勾配更新をもたらす。 局所問題凸w.r.tを維持する伝達関数に合わせて各層にブレグマン分散を形成することにより局所損失構造を改善する。 重さだ 一般化された局所問題は、第1ステップがBackPropを回復するウェイト上の小さな勾配降下ステップをとることで繰り返し解決される。 我々はいくつかの改善を行い、コンバージェンスを継続的に改善し、一階法と二階法のギャップを小さくすることを示す。

We study a local loss construction approach for optimizing neural networks. We start by motivating the problem as minimizing a squared loss between the pre-activations of each layer and a local target, plus a regularizer term on the weights. The targets are chosen so that the first gradient descent step on the local objectives recovers vanilla BackProp, while the exact solution to each problem results in a preconditioned gradient update. We improve the local loss construction by forming a Bregman divergence in each layer tailored to the transfer function which keeps the local problem convex w.r.t. the weights. The generalized local problem is again solved iteratively by taking small gradient descent steps on the weights, for which the first step recovers BackProp. We run several ablations and show that our construction consistently improves convergence, reducing the gap between first-order and second-order methods.
翻訳日:2021-06-14 14:10:29 公開日:2021-06-11
# TrafficStream: グラフニューラルネットワークと連続学習に基づくストリーミングトラフィックフロー予測フレームワーク

TrafficStream: A Streaming Traffic Flow Forecasting Framework Based on Graph Neural Networks and Continual Learning ( http://arxiv.org/abs/2106.06273v1 )

ライセンス: Link先を確認
Xu Chen and Junshan Wang and Kunqing Xie(参考訳) 展開される交通センサの急速な増加に伴い、大量のトラフィックフローデータが収集され、トラフィックフローの長期的進化とトラフィックネットワークの段階的拡大が明らかになった。 これらの交通流を正確に予測する方法は,交通システムの効率向上に非常に重要であるとして,研究者の注目を集めている。 しかし、既存の手法は主に静的ネットワークの時空間相関に着目しており、拡張と進化パターンを持つネットワーク上で効率的にモデルを学習する問題は少ない。 そこで我々は,グラフニューラルネットワーク(GNN)と連続学習(CL)に基づくストリームトラフィックフロー予測フレームワークであるTrafficStreamを提案する。 まず,長期間に出現した新たなパターンをモデルに巧みに統合し,トラヒックパターン融合手法を設計する。 新しいトラフィックパターンをマイニングするために,JS分割に基づくアルゴリズムを提案する。 次に,学習した知識を統合して現在のモデルに移すclを提案する。 具体的には、履歴データの再生とパラメータスムーシングの2つの戦略を採用する。 モデルの有効性と有効性を検証するために,ストリーミングトラフィックデータセットを構築した。 大規模な実験は、長期ストリーミングネットワークシーンで高い効率でトラフィックパターンを抽出する優れた可能性を示している。 ソースコードはhttps://github.com/A prLie/TrafficStreamで入手できる。

With the rapid growth of traffic sensors deployed, a massive amount of traffic flow data are collected, revealing the long-term evolution of traffic flows and the gradual expansion of traffic networks. How to accurately forecasting these traffic flow attracts the attention of researchers as it is of great significance for improving the efficiency of transportation systems. However, existing methods mainly focus on the spatial-temporal correlation of static networks, leaving the problem of efficiently learning models on networks with expansion and evolving patterns less studied. To tackle this problem, we propose a Streaming Traffic Flow Forecasting Framework, TrafficStream, based on Graph Neural Networks (GNNs) and Continual Learning (CL), achieving accurate predictions and high efficiency. Firstly, we design a traffic pattern fusion method, cleverly integrating the new patterns that emerged during the long-term period into the model. A JS-divergence-based algorithm is proposed to mine new traffic patterns. Secondly, we introduce CL to consolidate the knowledge learned previously and transfer them to the current model. Specifically, we adopt two strategies: historical data replay and parameter smoothing. We construct a streaming traffic dataset to verify the efficiency and effectiveness of our model. Extensive experiments demonstrate its excellent potential to extract traffic patterns with high efficiency on long-term streaming network scene. The source code is available at https://github.com/A prLie/TrafficStream.
翻訳日:2021-06-14 14:10:12 公開日:2021-06-11
# 生涯学習への新しいアプローチ:プラスチック支持構造

A Novel Approach to Lifelong Learning: The Plastic Support Structure ( http://arxiv.org/abs/2106.06298v1 )

ライセンス: Link先を確認
Georges Kanaan, Kai Wen Zheng and Lucas Fenaux(参考訳) 本稿では,学習課題の喪失を防止しつつ,新たな課題を学習するために必要な能力を持つネットワークを実現する,コンパクトなカプセル化支援構造を導入する,生涯学習への新たなアプローチを提案する。 これは、ニューロンを高いセマンティックドリフトで分割し、新しいタスクを手元にエンコードする隣のネットワークを構築することで達成される。 我々はこれをPlastic Support Structure (PSS)と呼び、ネットワークの既存の構造に効率的にエンコードできない新しいタスクを学習するためのコンパクトな構造である。 我々は、PSSを既存の生涯学習アーキテクチャに対して公開データセット上で検証し、それらと同じような性能を示すが、タスクの事前の知識がなく、場合によってはパラメータが少なく、特定のタスクに関連する特定の機能のためのカプセル化されたコンテナである、より理解しやすい方法で、ネットワークがより多くのタスクを学習するための理想的な"アドオン"ソリューションであることを示す。

We propose a novel approach to lifelong learning, introducing a compact encapsulated support structure which endows a network with the capability to expand its capacity as needed to learn new tasks while preventing the loss of learned tasks. This is achieved by splitting neurons with high semantic drift and constructing an adjacent network to encode the new tasks at hand. We call this the Plastic Support Structure (PSS), it is a compact structure to learn new tasks that cannot be efficiently encoded in the existing structure of the network. We validate the PSS on public datasets against existing lifelong learning architectures, showing it performs similarly to them but without prior knowledge of the task and in some cases with fewer parameters and in a more understandable fashion where the PSS is an encapsulated container for specific features related to specific tasks, thus making it an ideal "add-on" solution for endowing a network to learn more tasks.
翻訳日:2021-06-14 14:09:51 公開日:2021-06-11
# 分布強化学習におけるリスク自動適応

Automatic Risk Adaptation in Distributional Reinforcement Learning ( http://arxiv.org/abs/2106.06317v1 )

ライセンス: Link先を確認
Frederik Schubert, Theresa Eimer, Bodo Rosenhahn, Marius Lindauer(参考訳) 実運用における強化学習(rl)エージェントの使用には,エージェントとその環境の親しみによる最適化結果の考慮が必要である。 これは特に、エラーが高いコストや損害につながる可能性がある安全クリティカルな環境で重要である。 分布RLでは、推定した戻り分布の歪み測定によってリスク感度を制御できる。 しかし、これらの歪み関数にはリスクレベルの推定が必要であり、これは取得が難しく、現在の状態に依存する。 本研究では,静的リスクレベル推定の最適性を示し,各環境ステップにおけるリスクレベルを動的に選択する手法を提案する。 本手法は,ランダムネットワーク蒸留誤差を用いて,未知環境と未知環境の両方において適切なリスクレベルを推定する。 いくつかの移動環境において, リスク認識エージェントとリスク認識エージェントの両方と比較して, 失敗率を最大7倍に低下させ, 一般化性能を最大14%向上させた。

The use of Reinforcement Learning (RL) agents in practical applications requires the consideration of suboptimal outcomes, depending on the familiarity of the agent with its environment. This is especially important in safety-critical environments, where errors can lead to high costs or damage. In distributional RL, the risk-sensitivity can be controlled via different distortion measures of the estimated return distribution. However, these distortion functions require an estimate of the risk level, which is difficult to obtain and depends on the current state. In this work, we demonstrate the suboptimality of a static risk level estimation and propose a method to dynamically select risk levels at each environment step. Our method ARA (Automatic Risk Adaptation) estimates the appropriate risk level in both known and unknown environments using a Random Network Distillation error. We show reduced failure rates by up to a factor of 7 and improved generalization performance by up to 14% compared to both risk-aware and risk-agnostic agents in several locomotion environments.
翻訳日:2021-06-14 14:09:34 公開日:2021-06-11
# jkonet: 人口動態の近位最適輸送モデル

JKOnet: Proximal Optimal Transport Modeling of Population Dynamics ( http://arxiv.org/abs/2106.06345v1 )

ライセンス: Link先を確認
Charlotte Bunne, Laetitia Meng-Papaxanthos, Andreas Krause, Marco Cuturi(参考訳) 時間とともに進化する点の異種集団を考える。 人口はサイズと自然の両方で進化するが、異なるタイムスタンプで撮影されたスナップショットを通して定期的に観察することができる。 これらのスナップショットは、その時点の人口からポイントをサンプリングし、ポイントクラウドを復元する機能を作成することで生成される。 これらのスナップショットは集団の進化について記述しているが、個々の軌道について直接の洞察を与えていない。 このシナリオは、単細胞ゲノミクス実験、粒子の追跡、群集運動の研究など、いくつかの応用で遭遇する。 本稿では,jordan-kinderlehrer -otto (jko) の近位スキームから得られる動的現象をモデル化する。 JKOのスキームは、人口がt$で取る構成は、w.r.tの減少から引き離すものであると仮定している。 最適な輸送距離 w.r.t.で計算されたエネルギー(学習しようとするモデル)。 以前の構成。 そこで我々は,入力凸ニューラルネットワーク (ICNN) を用いて解いた(小さな)最適変位と,測定値のエネルギーモデルを組み合わせたニューラルネットワーク JKOnet を提案する。 人口動態の説明と予測のためのモデルの適用性を実証する。

Consider a heterogeneous population of points evolving with time. While the population evolves, both in size and nature, we can observe it periodically, through snapshots taken at different timestamps. Each of these snapshots is formed by sampling points from the population at that time, and then creating features to recover point clouds. While these snapshots describe the population's evolution on aggregate, they do not provide directly insights on individual trajectories. This scenario is encountered in several applications, notably single-cell genomics experiments, tracking of particles, or when studying crowd motion. In this paper, we propose to model that dynamic as resulting from the celebrated Jordan-Kinderlehrer- Otto (JKO) proximal scheme. The JKO scheme posits that the configuration taken by a population at time $t$ is one that trades off a decrease w.r.t. an energy (the model we seek to learn) penalized by an optimal transport distance w.r.t. the previous configuration. To that end, we propose JKOnet, a neural architecture that combines an energy model on measures, with (small) optimal displacements solved with input convex neural networks (ICNN). We demonstrate the applicability of our model to explain and predict population dynamics.
翻訳日:2021-06-14 14:09:20 公開日:2021-06-11
# スケールするニューラルシンボリック回帰

Neural Symbolic Regression that Scales ( http://arxiv.org/abs/2106.06427v1 )

ライセンス: Link先を確認
Luca Biggio, Tommaso Bendinelli, Alexander Neitz, Aurelien Lucchi, Giambattista Parascandolo(参考訳) 記号方程式は科学的発見の中核にある。 入力-出力ペアの集合から基底方程式を発見するタスクは記号回帰と呼ばれる。 伝統的に、シンボリック回帰法は経験によって改善されない手作りの戦略を用いる。 本稿では,大規模事前学習を利用した最初の記号回帰手法を提案する。 非有界な方程式集合を手続き的に生成し、同時にトランスフォーマーを事前学習し、対応する入力出力ペアから記号方程式を予測する。 テスト時に新しい点の集合についてモデルをクエリし、その出力を使って方程式の探索をガイドする。 このアプローチがよく知られた物理方程式の集合を再発見し、より多くのデータや計算によって時間とともに改善できることを実証的に示す。

Symbolic equations are at the core of scientific discovery. The task of discovering the underlying equation from a set of input-output pairs is called symbolic regression. Traditionally, symbolic regression methods use hand-designed strategies that do not improve with experience. In this paper, we introduce the first symbolic regression method that leverages large scale pre-training. We procedurally generate an unbounded set of equations, and simultaneously pre-train a Transformer to predict the symbolic equation from a corresponding set of input-output-pairs. At test time, we query the model on a new set of points and use its output to guide the search for the equation. We show empirically that this approach can re-discover a set of well-known physical equations, and that it improves over time with more data and compute.
翻訳日:2021-06-14 14:08:58 公開日:2021-06-11
# 反爆発としてのオフライン強化学習

Offline Reinforcement Learning as Anti-Exploration ( http://arxiv.org/abs/2106.06431v1 )

ライセンス: Link先を確認
Shideh Rezaeifar, Robert Dadashi, Nino Vieillard, L\'eonard Hussenot, Olivier Bachem, Olivier Pietquin, Matthieu Geist(参考訳) オフライン強化学習(RL)は、システムと対話することなく、固定データセットから最適な制御を学ぶことを目的としている。 この設定のエージェントは、データから結果が予測できないアクションを選択することを避けるべきです。 これは、そのような行動を好むRLにおける探索の逆である。 そこで我々は,新しいオフラインrlエージェントの設計において,ボーナスに基づく探索に関する文献から着想を得た。 中心となるアイデアは、探索のために追加するのではなく、報酬から予測ベースの探査ボーナスを減じることだ。 これにより、ポリシーはデータセットのサポートに近づき続けることができる。 このアプローチを、データに対する学習ポリシーのより一般的な正規化と結びつけます。 可変オートエンコーダの予測誤差に基づいてボーナスを付与することにより, エージェントは連続的な制御ロコモーションと操作タスクのセット上で, 技術と競合することを示す。

Offline Reinforcement Learning (RL) aims at learning an optimal control from a fixed dataset, without interactions with the system. An agent in this setting should avoid selecting actions whose consequences cannot be predicted from the data. This is the converse of exploration in RL, which favors such actions. We thus take inspiration from the literature on bonus-based exploration to design a new offline RL agent. The core idea is to subtract a prediction-based exploration bonus from the reward, instead of adding it for exploration. This allows the policy to stay close to the support of the dataset. We connect this approach to a more common regularization of the learned policy towards the data. Instantiated with a bonus based on the prediction error of a variational autoencoder, we show that our agent is competitive with the state of the art on a set of continuous control locomotion and manipulation tasks.
翻訳日:2021-06-14 14:08:45 公開日:2021-06-11
# multi-receiver online bayesian persuasion

Multi-Receiver Online Bayesian Persuasion ( http://arxiv.org/abs/2106.06480v1 )

ライセンス: Link先を確認
Matteo Castiglioni, Alberto Marchesi, Andrea Celli, Nicola Gatti(参考訳) ベイズ的説得は、情報発信者が自己興味のある受信者の行動に影響を与える情報の一部を開示する方法を研究する。 古典的なモデルは、送信者が受信機のユーティリティを知っているという厳密な仮定を作る。 これは、送信者が未知で敵対的に選択されたタイプの受信者に対して繰り返し向き合うオンライン学習フレームワークを考えることで緩和できる。 我々は,複数の受信機を備えたオンラインベイズ型説得セットを初めて調査した。 オフラインモデルの慣習として、外部性やバイナリアクションのないケースに焦点を当てます。 我々のゴールは、多項式ごとの実行時間を持つ送信者のための非回帰アルゴリズムを設計することである。 まず、0 < \alpha \leq 1$ に対して、送信者のユーティリティ関数が超モジュラーまたは匿名である場合、多項式時間 no-\alpha$-regret アルゴリズムは存在しない。 次に、サブモジュラー送信者のユーティリティ関数の場合に焦点を当て、この場合、多項式時間 no-$(1 - \frac{1}{e})$-regret アルゴリズムを設計することができることを示す。 そこで本研究では,オンライン学習問題を扱うための一般的なオンライン勾配降下方式を提案する。 これは近似射影オラクルの存在を必要とする。 私たちの設定では、多項式時間で実装可能な投影オラクルが1つ存在することを示します。

Bayesian persuasion studies how an informed sender should partially disclose information to influence the behavior of a self-interested receiver. Classical models make the stringent assumption that the sender knows the receiver's utility. This can be relaxed by considering an online learning framework in which the sender repeatedly faces a receiver of an unknown, adversarially selected type. We study, for the first time, an online Bayesian persuasion setting with multiple receivers. We focus on the case with no externalities and binary actions, as customary in offline models. Our goal is to design no-regret algorithms for the sender with polynomial per-iteration running time. First, we prove a negative result: for any $0 < \alpha \leq 1$, there is no polynomial-time no-$\alpha$-regret algorithm when the sender's utility function is supermodular or anonymous. Then, we focus on the case of submodular sender's utility functions and we show that, in this case, it is possible to design a polynomial-time no-$(1 - \frac{1}{e})$-regret algorithm. To do so, we introduce a general online gradient descent scheme to handle online learning problems with a finite number of possible loss functions. This requires the existence of an approximate projection oracle. We show that, in our setting, there exists one such projection oracle which can be implemented in polynomial time.
翻訳日:2021-06-14 14:07:36 公開日:2021-06-11
# JPEGゴーストを用いた画像法医学的手法

An Image Forensic Technique Based on JPEG Ghosts ( http://arxiv.org/abs/2106.06439v1 )

ライセンス: Link先を確認
Divakar Singh(参考訳) 画像編集ツールの使い勝手は前例のない成長により、デジタル画像のパワーを脅かしている。画像は1000語以上の価値があるはずだったが、現在では、画像の認証や完全性が無傷であることを証明できるだけに留まっている。 本稿では,JPEG画像に対するディジタル画像法学手法を提案する。 ゴースト画像と呼ばれる鍛造部がカバー画像と異なる圧縮品質を有する場合、画像中の偽物を検出することができる。 これは、JPEG画像を異なるJPEG品質で保存することに基づいており、カバー画像と同じJPEG品質で保存された場合には、鍛造部分の検出が最大となる。 また,SSIM(Structuor similarity Index Measure)や画像のエネルギーを用いて類似性を解析することにより,カバー画像のJPEG品質を正確に予測することができる。 SSIMの第1の最大値または第1のミニマエネルギーは、カバー画像JPEGの品質に対応する。 我々は、ゴーストとカバー画像のjpeg圧縮品質を変化させるadatasetを作成し、実験結果のスケーラビリティを検証するとともに、攻撃シナリオの異なる実験を行った。 高品質のカバー画像に埋め込まれた高品質のゴースト画像,高品質のカバー画像に埋め込まれた低品質のゴースト画像,およびゴースト画像とカバー画像の両方が同一品質で,提案手法は,10×10サイズの画素ブロックのフォージェリーであっても,改ざんした部分を正確に位置決めすることができる。我々の技術は,コピー・モーブ・フォージェリー,テキストの挿入,画像への再スケーリング,ゴースト画像の再スケーリング,カバー画像への貼り付けといった他の攻撃シナリオに対しても堅牢である。

The unprecedented growth in the easy availability of photo-editing tools has endangered the power of digital images.An image was supposed to be worth more than a thousand words,but now this can be said only if it can be authenticated orthe integrity of the image can be proved to be intact. In thispaper, we propose a digital image forensic technique for JPEG images. It can detect any forgery in the image if the forged portion called a ghost image is having a compression quality different from that of the cover image. It is based on resaving the JPEG image at different JPEG qualities, and the detection of the forged portion is maximum when it is saved at the same JPEG quality as the cover image. Also, we can precisely predictthe JPEG quality of the cover image by analyzing the similarity using Structural Similarity Index Measure (SSIM) or the energyof the images. The first maxima in SSIM or the first minima inenergy correspond to the cover image JPEG quality. We created adataset for varying JPEG compression qualities of the ghost and the cover images and validated the scalability of the experimental results.We also, experimented with varied attack scenarios, e.g. high-quality ghost image embedded in low quality of cover image,low-quality ghost image embedded in high-quality of cover image,and ghost image and cover image both at the same quality.The proposed method is able to localize the tampered portions accurately even for forgeries as small as 10x10 sized pixel blocks.Our technique is also robust against other attack scenarios like copy-move forgery, inserting text into image, rescaling (zoom-out/zoom-in) ghost image and then pasting on cover image.
翻訳日:2021-06-14 14:07:15 公開日:2021-06-11
# 点雲のオクター表現符号化における確率のニューラルネットワークモデリング

Neural Network Modeling of Probabilities for Coding the Octree Representation of Point Clouds ( http://arxiv.org/abs/2106.06482v1 )

ライセンス: Link先を確認
Emre Can Kaya, Ioan Tabus(参考訳) 本稿では,ボクセル周辺の広い3次元の状況に応じて,ボクセルの占有状況の符号化確率をニューラルネットワークを用いて推定する,新しいロスレスポイントクラウド圧縮アルゴリズムについて述べる。 ポイントクラウドはoctreeとして表現され、各解像度層はシーケンシャルにエンコードされ、最下位の解像度から最終解像度に到達するまで算術符号化によってデコードされる。 octreeの各ノードにおける分割パターンの各ボクセルの占有確率はニューラルネットワークによってモデル化され、入力時にエンコードされるノードを取り巻く3dコンテキストに対応する複数のoctreeノードの既にエンコードされた占有状態(過去と現在の解像度)を有する。 アルゴリズムは高速で遅いバージョンを持ち、コンテキストの異なるボクセルを選択する高速バージョンは、エンコーダとデコーダの両方で、ニューラルネットワークによって推定される大きなテンプレートのバッチを送信することで並列化を増加させる。 提案したアルゴリズムは、ベンチマークデータセット上で最先端の結果を得る。 実装はhttps://github.com/m armus12/nnctxで公開される。

This paper describes a novel lossless point cloud compression algorithm that uses a neural network for estimating the coding probabilities for the occupancy status of voxels, depending on wide three dimensional contexts around the voxel to be encoded. The point cloud is represented as an octree, with each resolution layer being sequentially encoded and decoded using arithmetic coding, starting from the lowest resolution, until the final resolution is reached. The occupancy probability of each voxel of the splitting pattern at each node of the octree is modeled by a neural network, having at its input the already encoded occupancy status of several octree nodes (belonging to the past and current resolutions), corresponding to a 3D context surrounding the node to be encoded. The algorithm has a fast and a slow version, the fast version selecting differently several voxels of the context, which allows an increased parallelization by sending larger batches of templates to be estimated by the neural network, at both encoder and decoder. The proposed algorithms yield state-of-the-art results on benchmark datasets. The implementation will be made available at https://github.com/m armus12/nnctx
翻訳日:2021-06-14 14:06:43 公開日:2021-06-11
# 長編映像からのマクロ・マイクロ表現スポッティングのための浅層光フロー3ストリームcnn

Shallow Optical Flow Three-Stream CNN for Macro- and Micro-Expression Spotting from Long Videos ( http://arxiv.org/abs/2106.06489v1 )

ライセンス: Link先を確認
Gen-Bing Liong, John See, Lai-Kuan Wong(参考訳) 表情は目に見えるものから微妙なものまで様々である。 近年、マイクロ表現の分析は、人間の真の感情の抑制に起因する自然発生であり、幅広い応用の可能性を持つ研究者の注目を集めている。 しかし, ビデオ中のマイクロ表現の発見は, 正規表現やマクロ表現に絡み合うとますます困難になる。 本稿では,表現区間内に存在するフレームの確率を推定するスコアを推定するために,浅い光流3ストリームCNN(SOFTNet)モデルを提案する。 本研究では,スポッティングタスクを回帰問題とすることで,学習プロセスを容易にするために擬似ラベルを導入する。 本稿では,CAS(ME)$^{2}$で最先端の性能を達成し,SAMM Long Videosでも同様に有望な結果が得られるMEGC 2020ベンチマークにおいて,提案手法の有効性と有効性を示す。

Facial expressions vary from the visible to the subtle. In recent years, the analysis of micro-expressions $-$ a natural occurrence resulting from the suppression of one's true emotions, has drawn the attention of researchers with a broad range of potential applications. However, spotting microexpressions in long videos becomes increasingly challenging when intertwined with normal or macro-expressions. In this paper, we propose a shallow optical flow three-stream CNN (SOFTNet) model to predict a score that captures the likelihood of a frame being in an expression interval. By fashioning the spotting task as a regression problem, we introduce pseudo-labeling to facilitate the learning process. We demonstrate the efficacy and efficiency of the proposed approach on the recent MEGC 2020 benchmark, where state-of-the-art performance is achieved on CAS(ME)$^{2}$ with equally promising results on SAMM Long Videos.
翻訳日:2021-06-14 14:06:24 公開日:2021-06-11
# オンライン広告における自動入札のための協調競争型マルチエージェントフレームワーク

A Cooperative-Competit ive Multi-Agent Framework for Auto-bidding in Online Advertising ( http://arxiv.org/abs/2106.06224v1 )

ライセンス: Link先を確認
Chao Wen, Miao Xu, Zhilin Zhang, Zhenzhe Zheng, Yuhui Wang, Xiangyu Liu, Yu Rong, Dong Xie, Xiaoyang Tan, Chuan Yu, Jian Xu, Fan Wu, Guihai Chen, Xiaoqiang Zhu(参考訳) オンライン広告において、自動入札は、単に高いレベルのキャンペーン目標と制約を表現するだけで、広告主が好む広告パフォーマンス指標を最適化するための必須のツールとなっている。 先行研究では,エージェント間の相互影響をモデル化することなく,単一エージェント視点からの自動入札エージェントの設計を検討する。 本稿では、分散マルチエージェントシステムの観点からこの問題を考察し、自動入札(MAAB)のための汎用マルチエージェント強化学習フレームワークを提案する。 まず, 自動入札エージェント間の競合関係と協調関係について検討し, 複合協調競争パラダイムを確立するための温度調整型クレジット割り当てを提案する。 エージェント間の競争と協力のトレードオフを慎重に行うことで、個々の広告主の効用だけでなくシステムパフォーマンス(社会福祉)も保証する均衡状態に達することができる。 第2に、協力の基盤となる低価格入札の結束行動が観察されていることから、各エージェントにパーソナライズされた入札バーを設定し、収益の低下を緩和するバーエージェントを提案する。 第3に,MAABを数百万の広告主による大規模広告システムに展開するために,平均場アプローチを提案する。 平均的な自動入札エージェントと同じ目的の広告主をグループ化することにより、広告主間のインタラクションが大幅に単純化され、maabの効率的なトレーニングが実現する。 オフライン産業データセットとalibaba広告プラットフォームに関する広範な実験は、我々のアプローチが社会福祉の観点からいくつかの基準手法を上回っており、広告プラットフォームの収益を保証していることを示している。

In online advertising, auto-bidding has become an essential tool for advertisers to optimize their preferred ad performance metrics by simply expressing the high-level campaign objectives and constraints. Previous works consider the design of auto-bidding agents from the single-agent view without modeling the mutual influence between agents. In this paper, we instead consider this problem from the perspective of a distributed multi-agent system, and propose a general Multi-Agent reinforcement learning framework for Auto-Bidding, namely MAAB, to learn the auto-bidding strategies. First, we investigate the competition and cooperation relation among auto-bidding agents, and propose temperature-regulari zed credit assignment for establishing a mixed cooperative-competit ive paradigm. By carefully making a competition and cooperation trade-off among the agents, we can reach an equilibrium state that guarantees not only individual advertiser's utility but also the system performance (social welfare). Second, due to the observed collusion behaviors of bidding low prices underlying the cooperation, we further propose bar agents to set a personalized bidding bar for each agent, and then to alleviate the degradation of revenue. Third, to deploy MAAB to the large-scale advertising system with millions of advertisers, we propose a mean-field approach. By grouping advertisers with the same objective as a mean auto-bidding agent, the interactions among advertisers are greatly simplified, making it practical to train MAAB efficiently. Extensive experiments on the offline industrial dataset and Alibaba advertising platform demonstrate that our approach outperforms several baseline methods in terms of social welfare and guarantees the ad platform's revenue.
翻訳日:2021-06-14 14:05:45 公開日:2021-06-11
# Score-based Generative Model を用いた逆浄化

Adversarial purification with Score-based generative models ( http://arxiv.org/abs/2106.06041v1 )

ライセンス: Link先を確認
Jongmin Yoon, Sung Ju Hwang, Juho Lee(参考訳) 画像分類器の敵意攻撃に対する標準的な防御法として敵意訓練が考えられる一方で、攻撃された画像を単独の浄化モデルでクリーン画像に精製する敵意浄化法が、代替防御法として期待されている。 近年,Markov-Chain Monte-Carlo (MCMC) で訓練されたEnergy-based Model (EBM) が浄化モデルとして強調され,EBMの勾配を用いて長めのMarkov-chainを走らせることで攻撃画像が浄化される。 しかし, この浄化に必要なMCMCステップの数が多すぎるため, EBMを用いた対向浄化の実用性には疑問が残る。 本稿では,Denoising Score-Matching (DSM) を訓練したEMMに基づく新しい逆浄化法を提案する。 DSMで訓練されたESMは、数ステップで迅速に攻撃画像の浄化ができることを示す。 さらに,画像にランダムノイズを注入する簡易で効果的なランダム化浄化手法を提案する。 このプロセスは、ランダムノイズによって画像に課される敵の摂動を遮蔽し、その画像をESMが正常に雑音化できる体制に導く。 本手法は様々な攻撃に対して堅牢であり,その最先端性能を示す。

While adversarial training is considered as a standard defense method against adversarial attacks for image classifiers, adversarial purification, which purifies attacked images into clean images with a standalone purification model, has shown promises as an alternative defense method. Recently, an Energy-Based Model (EBM) trained with Markov-Chain Monte-Carlo (MCMC) has been highlighted as a purification model, where an attacked image is purified by running a long Markov-chain using the gradients of the EBM. Yet, the practicality of the adversarial purification using an EBM remains questionable because the number of MCMC steps required for such purification is too large. In this paper, we propose a novel adversarial purification method based on an EBM trained with Denoising Score-Matching (DSM). We show that an EBM trained with DSM can quickly purify attacked images within a few steps. We further introduce a simple yet effective randomized purification scheme that injects random noises into images before purification. This process screens the adversarial perturbations imposed on images by the random noises and brings the images to the regime where the EBM can denoise well. We show that our purification method is robust against various attacks and demonstrate its state-of-the-art performances.
翻訳日:2021-06-14 14:05:19 公開日:2021-06-11
# 単調ニューラルネットワーク:Chiller Plants Energy Optimizationのためのディープラーニングとドメイン知識を組み合わせる

Monotonic Neural Network: combining Deep Learning with Domain Knowledge for Chiller Plants Energy Optimization ( http://arxiv.org/abs/2106.06143v1 )

ライセンス: Link先を確認
Fanhe Ma, Faen Zhang, Shenglan Ben, Shuxin Qin, Pengcheng Zhou, Changsheng Zhou and Fengyi Xu(参考訳) 本稿では,低温植物のエネルギー最適化問題を解決するための,ドメイン知識に基づく深層学習フレームワークの構築に注目する。 ディープラーニングのホットスポットアプリケーション(例)と比較すると 実世界の物理システムにおける深層ネットワークトレーニングのための膨大なデータを収集することは困難である。 既存の手法の多くは、複雑なシステムを線形モデルに還元し、小さなサンプルの訓練を容易にする。 そこで,本研究では,低冗長関数空間を持つ非線形モデルを構築するために,深層ネットワークの構造と損失設計におけるドメイン知識を検討する。 特に、ほとんどの冷却器のエネルギー消費推定は、入力出力単調問題として物理的に見なすことができる。 したがって、システムの物理的挙動を模倣するために、単調な制約を持つニューラルネットワークを設計できる。 提案手法をデータセンターの冷却システムで検証し, 実験結果から, 既存の冷却システムと比較して, エネルギー最適化におけるフレームワークの優位性を示した。

In this paper, we are interested in building a domain knowledge based deep learning framework to solve the chiller plants energy optimization problems. Compared to the hotspot applications of deep learning (e.g. image classification and NLP), it is difficult to collect enormous data for deep network training in real-world physical systems. Most existing methods reduce the complex systems into linear model to facilitate the training on small samples. To tackle the small sample size problem, this paper considers domain knowledge in the structure and loss design of deep network to build a nonlinear model with lower redundancy function space. Specifically, the energy consumption estimation of most chillers can be physically viewed as an input-output monotonic problem. Thus, we can design a Neural Network with monotonic constraints to mimic the physical behavior of the system. We verify the proposed method in a cooling system of a data center, experimental results show the superiority of our framework in energy optimization compared to the existing ones.
翻訳日:2021-06-14 14:04:53 公開日:2021-06-11
# 巨大グラフを用いた混合CPU-GPU学習のためのグローバル近隣サンプリング

Global Neighbor Sampling for Mixed CPU-GPU Training on Giant Graphs ( http://arxiv.org/abs/2106.06150v1 )

ライセンス: Link先を確認
Jialin Dong, Da Zheng, Lin F. Yang, Geroge Karypis(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータから学習するための強力なツールであり、ソーシャルネットワークレコメンデーション、不正検出、グラフ検索などの様々なアプリケーションで広く利用されている。 これらのアプリケーション内のグラフは概して大きく、通常は数億のノードを含む。 このような大きなグラフ上でGNNモデルを効率的にトレーニングすることは大きな課題である。 大規模なグラフ上でのミニバッチトレーニングを実現するためのサンプリングベース手法が数多く提案されているが、GPUや混合CPU-GPUのトレーニングを必要とする真の産業規模のグラフでは、これらの手法が動作しないことが証明されている。 最先端のサンプリングベース手法は通常、cpuとgpu間のデータ移動がボトルネックとなる現実のハードウェア設定に最適化されていない。 この問題に対処するため,我々は,CPU-GPU混合トレーニングに特化した巨大グラフ上でのGNNのトレーニングを目的としたGlobal Neighborhood Smplingを提案する。 このアルゴリズムは、すべてのミニバッチに対して定期的にノードのグローバルキャッシュをサンプリングし、gpuに格納する。 このグローバルキャッシュは、GPU内でのミニバッチのサンプリングを可能にし、特に入力層におけるミニバッチのノード数を劇的に削減し、トレーニング収束率やモデルの精度を損なうことなく、CPUとGPU間のデータコピーとミニバッチ計算を減らす。 我々は,この手法を高度に効率的に実装し,その実装が巨大グラフ上のノード毎隣接サンプリングベースラインを2x-4xの係数で上回ることを示す。 LADIESよりもはるかに高い精度で2X-14Xの係数で小さな層でLADIESを効率よく実装し,提案アルゴリズムを理論的に解析し,適切なサイズのキャッシュノードデータを用いて,基礎となるノードワイドサンプリング法と同等の収束率を持つことを示す。

Graph neural networks (GNNs) are powerful tools for learning from graph data and are widely used in various applications such as social network recommendation, fraud detection, and graph search. The graphs in these applications are typically large, usually containing hundreds of millions of nodes. Training GNN models on such large graphs efficiently remains a big challenge. Despite a number of sampling-based methods have been proposed to enable mini-batch training on large graphs, these methods have not been proved to work on truly industry-scale graphs, which require GPUs or mixed-CPU-GPU training. The state-of-the-art sampling-based methods are usually not optimized for these real-world hardware setups, in which data movement between CPUs and GPUs is a bottleneck. To address this issue, we propose Global Neighborhood Sampling that aims at training GNNs on giant graphs specifically for mixed-CPU-GPU training. The algorithm samples a global cache of nodes periodically for all mini-batches and stores them in GPUs. This global cache allows in-GPU importance sampling of mini-batches, which drastically reduces the number of nodes in a mini-batch, especially in the input layer, to reduce data copy between CPU and GPU and mini-batch computation without compromising the training convergence rate or model accuracy. We provide a highly efficient implementation of this method and show that our implementation outperforms an efficient node-wise neighbor sampling baseline by a factor of 2X-4X on giant graphs. It outperforms an efficient implementation of LADIES with small layers by a factor of 2X-14X while achieving much higher accuracy than LADIES.We also theoretically analyze the proposed algorithm and show that with cached node data of a proper size, it enjoys a comparable convergence rate as the underlying node-wise sampling method.
翻訳日:2021-06-14 14:04:38 公開日:2021-06-11
# DRLD-SP:エッジ対応車載インターネットにおける深層強化学習に基づく動的サービス配置

DRLD-SP: A Deep Reinforcement Learning-based Dynamic Service Placement in Edge-Enabled Internet of Vehicles ( http://arxiv.org/abs/2106.06291v1 )

ライセンス: Link先を確認
Anum Talpur and Mohan Gurusamy(参考訳) 5Gとエッジコンピューティングの成長により、自動車のインターネットが誕生した。 異なるタイプのサービスをサポートし、異なるリソースとサービス要件を持つ。 しかし、エッジでの限られた資源、車両の高モビリティ、需要の増加、サービス要求タイプの動的性は、サービスの配置を困難にしている。 典型的な静的配置ソリューションは、トラフィック移動性とサービスダイナミクスを考慮していないため、効果的ではない。 サービス配置のためのIoVの動的処理は重要かつ困難な問題であり、本論文における作業の中心となる。 本稿では,車両の移動性,需要の変化,サービス要求のダイナミクスを考慮しつつ,最大エッジリソース使用量とサービス遅延を最小限に抑えることを目的とした,深層強化学習に基づく動的サービス配置(drld-sp)フレームワークを提案する。 シミュレーション実験にはSUMOとMATLABを用いる。 実験の結果,DRLD-SP法は有効であり,他の静的および動的配置法よりも優れていた。

The growth of 5G and edge computing has enabled the emergence of Internet of Vehicles. It supports different types of services with different resource and service requirements. However, limited resources at the edge, high mobility of vehicles, increasing demand, and dynamicity in service request-types have made service placement a challenging task. A typical static placement solution is not effective as it does not consider the traffic mobility and service dynamics. Handling dynamics in IoV for service placement is an important and challenging problem which is the primary focus of our work in this paper. We propose a Deep Reinforcement Learning-based Dynamic Service Placement (DRLD-SP) framework with the objective of minimizing the maximum edge resource usage and service delay while considering the vehicle's mobility, varying demand, and dynamics in the requests for different types of services. We use SUMO and MATLAB to carry out simulation experiments. The experimental results show that the proposed DRLD-SP approach is effective and outperforms other static and dynamic placement approaches.
翻訳日:2021-06-14 14:04:04 公開日:2021-06-11
# 実践的垂直的フェデレーション学習における記録的類似性

Exploiting Record Similarity for Practical Vertical Federated Learning ( http://arxiv.org/abs/2106.06312v1 )

ライセンス: Link先を確認
Zhaomin Wu, Qinbin Li, Bingsheng He(参考訳) 機械学習のプライバシへの関心が高まる中、生データを明かすことなく協調学習を可能にするために連合学習が導入された。 特に、パーティが同じサンプルセットを共有するが、部分的な機能しか持たない \textit{vertical federated learning} (vfl) には、幅広い現実世界のアプリケーションがある。 しかしながら、VFL の既存の研究は 'record linkage' プロセスの研究はめったにない。 彼らは、異なるパーティのデータがリンクされていると仮定するアルゴリズムを設計するか、正確なリンクやトップ1リンクのような単純なリンク手法を使用する。 これらのアプローチは、GPSロケーションやファジィマッチングを必要とするノイズの多いタイトルなど、多くのアプリケーションには適さない。 本稿では,より現実世界のアプリケーションに適した新しい類似性に基づくvflフレームワークfeedsimを設計し,従来のvflタスクで高いパフォーマンスを実現する。 さらに,類似性を共有することによって生じるプライバシーリスクを理論的に分析する。 3つの合成データセットと様々な類似度メトリクスを持つ5つの実世界のデータセットに関する実験は、feedsimが常に最先端のベースラインを上回ることを示している。

As the privacy of machine learning has drawn increasing attention, federated learning is introduced to enable collaborative learning without revealing raw data. Notably, \textit{vertical federated learning} (VFL), where parties share the same set of samples but only hold partial features, has a wide range of real-world applications. However, existing studies in VFL rarely study the ``record linkage'' process. They either design algorithms assuming the data from different parties have been linked or use simple linkage methods like exact-linkage or top1-linkage. These approaches are unsuitable for many applications, such as the GPS location and noisy titles requiring fuzzy matching. In this paper, we design a novel similarity-based VFL framework, FedSim, which is suitable for more real-world applications and achieves higher performance on traditional VFL tasks. Moreover, we theoretically analyze the privacy risk caused by sharing similarities. Our experiments on three synthetic datasets and five real-world datasets with various similarity metrics show that FedSim consistently outperforms other state-of-the-art baselines.
翻訳日:2021-06-14 14:03:46 公開日:2021-06-11
# 強化学習による無人区間における自動車両の丁寧な挙動

Courteous Behavior of Automated Vehicles at Unsignalized Intersections via Reinforcement Learning ( http://arxiv.org/abs/2106.06369v1 )

ライセンス: Link先を確認
Shengchao Yan, Tim Welschehold, Daniel B\"uscher, Wolfram Burgard(参考訳) 今日の人間主導のトラフィックから純粋に自動化されたトラフィックへの移行は、徐々に進化し、近い将来に混在するトラフィックを経験することになるでしょう。 接続された自動車両は、衝突回避の改善や交通波の低減など、人力車両や交通システム全体に対して、さまざまな方法で恩恵を受けることができる。 多くの研究が交差点管理の改善、交通の重大なボトルネック、インテリジェントな交通信号や専用自動走行車によって行われている。 しかし,未標識交差点における混在交通改善の問題点は少ない。 本稿では,深層強化学習を用いた混在交通状況における交差点交通流の最適化手法を提案する。 我々の強化学習エージェントは、信号のない交差点で接続された自動運転車が道路の権利を放棄し、交通の流れを最適化するために他の車両に利する、集中型制御器のポリシーを学習する。 本手法を実装し,シミュレーションおよび実際の交通データに基づいて,交通シミュレータsumoでテストを行った。 提案手法は,混合交通環境において無信号交差点を経由するトラヒックフローを著しく改善すると同時に,信号交差点に対する最先端のトラヒック信号制御装置と比較して,幅広いトラヒック状況での性能を向上させることを実証する。

The transition from today's mostly human-driven traffic to a purely automated one will be a gradual evolution, with the effect that we will likely experience mixed traffic in the near future. Connected and automated vehicles can benefit human-driven ones and the whole traffic system in different ways, for example by improving collision avoidance and reducing traffic waves. Many studies have been carried out to improve intersection management, a significant bottleneck in traffic, with intelligent traffic signals or exclusively automated vehicles. However, the problem of how to improve mixed traffic at unsignalized intersections has received less attention. In this paper, we propose a novel approach to optimizing traffic flow at intersections in mixed traffic situations using deep reinforcement learning. Our reinforcement learning agent learns a policy for a centralized controller to let connected autonomous vehicles at unsignalized intersections give up their right of way and yield to other vehicles to optimize traffic flow. We implemented our approach and tested it in the traffic simulator SUMO based on simulated and real traffic data. The experimental evaluation demonstrates that our method significantly improves traffic flow through unsignalized intersections in mixed traffic settings and also provides better performance on a wide range of traffic situations compared to the state-of-the-art traffic signal controller for the corresponding signalized intersection.
翻訳日:2021-06-14 14:03:27 公開日:2021-06-11
# 同期・非同期分散学習のためのcnnの分離学習

Decoupled Greedy Learning of CNNs for Synchronous and Asynchronous Distributed Learning ( http://arxiv.org/abs/2106.06401v1 )

ライセンス: Link先を確認
Eugene Belilovsky (MILA), Louis Leconte (MLIA, CMAP), Lucas Caccia (MILA), Michael Eickenberg, Edouard Oyallon (MLIA)(参考訳) バックプロパゲーションを用いたニューラルネットワークトレーニングの非効率性として一般的に引用されているのは、更新ロックの問題である。 この問題を緩和できる代替案がいくつか提案されている。 この文脈では、最小のフィードバックに基づく単純な代替案を考え、これをdecoupled greedy learning(dgl)と呼ぶ。 近年,大規模画像分類における畳み込みニューラルネットワーク(cnns)の文脈において有効であることが示されている。 この目的を最適化することで、レイヤトレーニングを分離し、ネットワーク内のレイヤやモジュールを潜在的に線形並列化でトレーニングすることが可能になります。 リプレイバッファを使用することで、このアプローチが非同期設定にまで拡張可能であることを示します。 帯域幅とメモリの問題に対処するため,オンラインベクトル量子化に基づく手法を提案する。 これにより、バッファの再生に必要なモジュールとメモリ間の通信帯域を大幅に削減できる。 このアプローチが収束し、シーケンシャルソルバと比較できることを理論的および実証的に示す。 CIFAR-10データセットと大規模イメージネットデータセットの代替手法に対するDGLの有効性を示す。

A commonly cited inefficiency of neural network training using back-propagation is the update locking problem: each layer must wait for the signal to propagate through the full network before updating. Several alternatives that can alleviate this issue have been proposed. In this context, we consider a simple alternative based on minimal feedback, which we call Decoupled Greedy Learning (DGL). It is based on a classic greedy relaxation of the joint training objective, recently shown to be effective in the context of Convolutional Neural Networks (CNNs) on large-scale image classification. We consider an optimization of this objective that permits us to decouple the layer training, allowing for layers or modules in networks to be trained with a potentially linear parallelization. With the use of a replay buffer we show that this approach can be extended to asynchronous settings, where modules can operate and continue to update with possibly large communication delays. To address bandwidth and memory issues we propose an approach based on online vector quantization. This allows to drastically reduce the communication bandwidth between modules and required memory for replay buffers. We show theoretically and empirically that this approach converges and compare it to the sequential solvers. We demonstrate the effectiveness of DGL against alternative approaches on the CIFAR-10 dataset and on the large-scale ImageNet dataset.
翻訳日:2021-06-14 14:03:05 公開日:2021-06-11
# キーフレームに着目した視覚模倣学習

Keyframe-Focused Visual Imitation Learning ( http://arxiv.org/abs/2106.06452v1 )

ライセンス: Link先を確認
Chuan Wen, Jierui Lin, Jianing Qian, Yang Gao, Dinesh Jayaraman(参考訳) 模擬学習は、事前記録された専門家のデモンストレーションを模倣してポリシーを制御する。 部分的に観察可能な環境では、模倣ポリシーは観察履歴に依存する必要があるが、一見パラドックス的な結果の多くは、最新の観察にのみアクセスするポリシーのパフォーマンスを示している。 因果グラフ学習から深い情報のボトルネックまで,近年のソリューションは有望な結果を示しているが,視覚的模倣のような現実的な設定には達しなかった。 専門家のアクション・チェンジポイントに対応するキーフレームの重み付けを行うことにより,これらのアプローチに勝るソリューションを提案する。 この単純なアプローチは、複雑な視覚模倣設定に簡単にスケールできる。 画像ベースGym MuJoCo連続制御タスクにおいて,すべてのベースラインに対して一貫した性能向上を示す。 最後に,carla photorealistic vision-based urban driving simulatorにおいて,運転行動クローンの長期的課題を観察履歴から効果的に模倣して解決する。 補足資料とコード at: \url{https://tinyurl.com/ imitation-keyframes}。

Imitation learning trains control policies by mimicking pre-recorded expert demonstrations. In partially observable settings, imitation policies must rely on observation histories, but many seemingly paradoxical results show better performance for policies that only access the most recent observation. Recent solutions ranging from causal graph learning to deep information bottlenecks have shown promising results, but failed to scale to realistic settings such as visual imitation. We propose a solution that outperforms these prior approaches by upweighting demonstration keyframes corresponding to expert action changepoints. This simple approach easily scales to complex visual imitation settings. Our experimental results demonstrate consistent performance improvements over all baselines on image-based Gym MuJoCo continuous control tasks. Finally, on the CARLA photorealistic vision-based urban driving simulator, we resolve a long-standing issue in behavioral cloning for driving by demonstrating effective imitation from observation histories. Supplementary materials and code at: \url{https://tinyurl.com/ imitation-keyframes}.
翻訳日:2021-06-14 14:02:45 公開日:2021-06-11
# トロイの木馬ニューラルネットワークのトポロジカル検出

Topological Detection of Trojaned Neural Networks ( http://arxiv.org/abs/2106.06469v1 )

ライセンス: Link先を確認
Songzhu Zheng, Yikai Zhang, Hubert Wagner, Mayank Goswami, Chao Chen(参考訳) ディープニューラルネットワークにはセキュリティ上の問題が知られている。 脅威の一つは トロイの木馬攻撃だ 攻撃者はトロイの木馬の訓練サンプルを通じてモデルの動きを密かに操作し、後に悪用される。 基本的な神経科学の原理で導かれ、トロイの木馬のモデルを特徴づける微妙で重要な構造的偏差を発見する。 分析ではトポロジカルツールを使用します。 これにより、ネットワーク内の高次依存関係をモデル化し、異なるネットワークを堅牢に比較し、構造的異常をローカライズすることができます。 興味深い観察の1つは、トロイの木馬モデルが入力層から出力層への短いカットを発達させることである。 これらの観測から着想を得て,トロイの木馬モデルのロバスト検出戦略を考案する。 標準ベースラインと比較すると、複数のベンチマークでパフォーマンスが向上する。

Deep neural networks are known to have security issues. One particular threat is the Trojan attack. It occurs when the attackers stealthily manipulate the model's behavior through Trojaned training samples, which can later be exploited. Guided by basic neuroscientific principles we discover subtle -- yet critical -- structural deviation characterizing Trojaned models. In our analysis we use topological tools. They allow us to model high-order dependencies in the networks, robustly compare different networks, and localize structural abnormalities. One interesting observation is that Trojaned models develop short-cuts from input to output layers. Inspired by these observations, we devise a strategy for robust detection of Trojaned models. Compared to standard baselines it displays better performance on multiple benchmarks.
翻訳日:2021-06-14 14:02:29 公開日:2021-06-11
# chemrl-gem:geometry enhanced molecular representation learning for property prediction

ChemRL-GEM: Geometry Enhanced Molecular Representation Learning for Property Prediction ( http://arxiv.org/abs/2106.06130v1 )

ライセンス: Link先を確認
Xiaomin Fang, Lihang Liu, Jieqiong Lei, Donglong He, Shanzhuo Zhang, Jingbo Zhou, Fan Wang, Hua Wu, and Haifeng Wang(参考訳) 効果的な分子表現学習は、分子特性の予測を促進するために非常に重要である。 グラフニューラルネットワーク(GNN)の最近の進歩は、分子表現学習にGNNを適用することに大きな期待を示している。 さらに、近年の研究では、ラベルが不十分な分子の問題を克服するために、GNNを事前訓練するための自己教師付き学習手法が成功したことも示されている。 しかし、既存のGNNや事前学習戦略は通常、分子の幾何学的情報を完全に活用せずに、トポロジカルグラフデータとして扱う。 一方、分子の3次元空間構造(分子幾何学)は、分子の物理的、化学的、生物学的性質を決定する上で最も重要な要素の1つである。 そこで本研究では,化学表現学習のためのGEM(Geometry Enhanced Molecular representation learning)を提案する。 まず、分子内の原子、結合、結合角を同時にモデル化する幾何学に基づくGNNアーキテクチャを設計する。 具体的には、分子の二重グラフを考案した: 1つは原子結合関係を符号化し、2つ目は結合-角関係を符号化する。 さらに,考案されたGNNアーキテクチャ上に,局所的およびグローバルな分子3D構造を利用して空間的知識を学習するための幾何レベルの自己教師型学習戦略を提案する。 我々は,ChemRL-GEMを,異なる分子ベンチマーク上での様々な最先端(SOTA)ベースラインと比較し,ChemRL-GEMが回帰および分類タスクにおいて,すべてのベースラインを著しく上回ることを示す。 例えば、実験の結果、回帰タスクのsotaベースラインと比較すると、平均で8.8\%$の全体的な改善を示し、提案手法の優位性を示した。

Effective molecular representation learning is of great importance to facilitate molecular property prediction, which is a fundamental task for the drug and material industry. Recent advances in graph neural networks (GNNs) have shown great promise in applying GNNs for molecular representation learning. Moreover, a few recent studies have also demonstrated successful applications of self-supervised learning methods to pre-train the GNNs to overcome the problem of insufficient labeled molecules. However, existing GNNs and pre-training strategies usually treat molecules as topological graph data without fully utilizing the molecular geometry information. Whereas, the three-dimensional (3D) spatial structure of a molecule, a.k.a molecular geometry, is one of the most critical factors for determining molecular physical, chemical, and biological properties. To this end, we propose a novel Geometry Enhanced Molecular representation learning method (GEM) for Chemical Representation Learning (ChemRL). At first, we design a geometry-based GNN architecture that simultaneously models atoms, bonds, and bond angles in a molecule. To be specific, we devised double graphs for a molecule: The first one encodes the atom-bond relations; The second one encodes bond-angle relations. Moreover, on top of the devised GNN architecture, we propose several novel geometry-level self-supervised learning strategies to learn spatial knowledge by utilizing the local and global molecular 3D structures. We compare ChemRL-GEM with various state-of-the-art (SOTA) baselines on different molecular benchmarks and exhibit that ChemRL-GEM can significantly outperform all baselines in both regression and classification tasks. For example, the experimental results show an overall improvement of $8.8\%$ on average compared to SOTA baselines on the regression tasks, demonstrating the superiority of the proposed method.
翻訳日:2021-06-14 14:01:56 公開日:2021-06-11
# 二元分類モデルとクラスセントロイドを用いた異常音検出

Anomalous Sound Detection Using a Binary Classification Model and Class Centroids ( http://arxiv.org/abs/2106.06151v1 )

ライセンス: Link先を確認
Ibuki Kuroyanagi, Tomoki Hayashi, Kazuya Takeda, Tomoki Toda(参考訳) 未知の異常音を検出する異常音検出システムは通常、通常の音声データのみを用いて構築する必要がある。 また、システムの動作を通じて蓄積される少量の異常音データを効果的に利用することにより、システムを改善することが望ましい。 これらの要件を満たす方法の1つとして,正規データだけでなく,他の領域の異常データを用いて,異常データを用いて容易に更新可能な擬似異常音データとして,バイナリ分類モデルに注目する。 本稿では,距離学習に基づく新しい損失関数を実装し,二元分類モデルのための特徴空間内の各クラスセントロイド間の距離関係を学習する。 提案する二分分類と計量学習のマルチタスク学習により,正規クラスと異常クラスを線形に分離可能なまま,クラス内分散を最小化しクラス間分散を最大化する特徴空間を構築することができる。 また, 2次分類モデルをさらに改善するための異常音データの追加の有効性についても検討した。 特徴空間における各クラスセントロイド間の距離を考慮に入れた二分分類と計量学習を用いたマルチタスク学習が有効であり,訓練中に少量の異常データを用いても性能を著しく向上できることを示した。

An anomalous sound detection system to detect unknown anomalous sounds usually needs to be built using only normal sound data. Moreover, it is desirable to improve the system by effectively using a small amount of anomalous sound data, which will be accumulated through the system's operation. As one of the methods to meet these requirements, we focus on a binary classification model that is developed by using not only normal data but also outlier data in the other domains as pseudo-anomalous sound data, which can be easily updated by using anomalous data. In this paper, we implement a new loss function based on metric learning to learn the distance relationship from each class centroid in feature space for the binary classification model. The proposed multi-task learning of the binary classification and the metric learning makes it possible to build the feature space where the within-class variance is minimized and the between-class variance is maximized while keeping normal and anomalous classes linearly separable. We also investigate the effectiveness of additionally using anomalous sound data for further improving the binary classification model. Our results showed that multi-task learning using binary classification and metric learning to consider the distance from each class centroid in the feature space is effective, and performance can be significantly improved by using even a small amount of anomalous data during training.
翻訳日:2021-06-14 14:01:26 公開日:2021-06-11
# Catch-A-Waveform:単一事例から音声を生成する学習

Catch-A-Waveform: Learning to Generate Audio from a Single Short Example ( http://arxiv.org/abs/2106.06426v1 )

ライセンス: Link先を確認
Gal Greshler, Tamar Rott Shaham and Tomer Michaeli(参考訳) 音声生成のモデルは、通常数時間の録音で訓練される。 ここでは,1つの訓練信号から数秒から数秒程度で音声源の本質を捉えることが可能であることを示す。 具体的には、任意のドメイン(例えば、)から1つの短い音声信号でトレーニングできるGANベースの生成モデルを提案する。 スピーチ、音楽など) 事前トレーニングや他の外部の監視は必要ありません。 トレーニングが完了すると、トレーニング波形と意味的類似性を維持しながら、音声プリミティブの新しい構成を示す任意の持続時間のランダムなサンプルを生成することができます。 これにより、新しいジャズ即興曲や新しいアカペラ・ラップの変奏曲を単一の短い例に基づいて生成し、有名な曲のコヒーレントな修正(例)など、多くの興味深い応用が可能となる。 ビートルズの曲にオリジナル録音のみに基づく新しい歌詞を追加し、欠落した部分(塗装)を埋め込み、音声信号の帯域を拡大し(超高解像度)、クリーンなトレーニング例にアクセスせずに古い録音を拡張した。 いずれにせよ,20秒以内のトレーニングオーディオは,我々のモデルが最先端の結果を得るのに十分であることを示す。 これは、一般的な音声信号の性質に関する事前知識の欠如にもかかわらずである。

Models for audio generation are typically trained on hours of recordings. Here, we illustrate that capturing the essence of an audio source is typically possible from as little as a few tens of seconds from a single training signal. Specifically, we present a GAN-based generative model that can be trained on one short audio signal from any domain (e.g. speech, music, etc.) and does not require pre-training or any other form of external supervision. Once trained, our model can generate random samples of arbitrary duration that maintain semantic similarity to the training waveform, yet exhibit new compositions of its audio primitives. This enables a long line of interesting applications, including generating new jazz improvisations or new a-cappella rap variants based on a single short example, producing coherent modifications to famous songs (e.g. adding a new verse to a Beatles song based solely on the original recording), filling-in of missing parts (inpainting), extending the bandwidth of a speech signal (super-resolution), and enhancing old recordings without access to any clean training example. We show that in all cases, no more than 20 seconds of training audio commonly suffice for our model to achieve state-of-the-art results. This is despite its complete lack of prior knowledge about the nature of audio signals in general.
翻訳日:2021-06-14 14:01:03 公開日:2021-06-11
# Internet of Medical ThingsにおけるECGモニタリングのための適応型認知センサノード

An adaptive cognitive sensor node for ECG monitoring in the Internet of Medical Things ( http://arxiv.org/abs/2106.06498v1 )

ライセンス: Link先を確認
Matteo Antonio Scrugli, Daniela Loi, Luigi Raffo, Paolo Meloni(参考訳) 医療機器のインターネット(iomt)パラダイムは、複数の臨床試験や医療手順において主流になりつつある。 これは、非常に正確でコンパクトなセンサーデバイスと通信インフラに依存しており、データ収集と継続的患者監視を実装するという、これまで整合性のない可能性を秘めている。 それでも、この技術の可能性を完全に活用するには、いくつかのステップが必要である。 まず、エッジコンピューティングパラダイムを図に追加する必要があります。 IoMTノードのスケーラビリティ、ポータビリティ、信頼性、応答性を改善するために、一定のレベルの近接センサ処理を有効にする必要がある。 第2に、人工知能やディープラーニングに基づくもののような、新しい、ますます正確なデータ分析アルゴリズムを活用しなければならない。 これらの目的を達成するために、IoMTノードのデザイナやプログラマは、低消費電力のウェアラブルおよびポータブルな処理システム上でかなり複雑な計算タスクを実行するために、厳しい最適化タスクに直面する必要がある。 本研究では,資源制約型コンピューティングプラットフォームにおける認知データ解析アルゴリズムの実装について検討する。 電力消費を最小限に抑えるため,機器のハードウェアおよびソフトウェア構成を動的に管理し,実行時に必要な動作モードに適応する適応層を追加する。 我々は,低消費電力マイクロコントローラ上での心電図(ECG)トレースの分類に畳み込みニューラルネットワークを用いたユースケースに対するアプローチを評価した。 実験の結果,ノード設定を実行時にワークロードに適応させることで,最大50%の消費電力を削減でき,MIT-BIH Arrhythmiaデータセット上の不整脈障害検出の精度が98%以上に達することがわかった。

The Internet of Medical Things (IoMT) paradigm is becoming mainstream in multiple clinical trials and healthcare procedures. It relies on novel very accurate and compact sensing devices and communication infrastructures, opening previously unmatched possibilities of implementing data collection and continuous patient monitoring. Nevertheless, to fully exploit the potential of this technology, some steps forwards are needed. First, the edge-computing paradigm must be added to the picture. A certain level of near-sensor processing has to be enabled, to improve the scalability, portability, reliability, responsiveness of the IoMT nodes. Second, novel, increasingly accurate, data analysis algorithms, such as those based on artificial intelligence and Deep Learning, must be exploited. To reach these objectives, designers, programmers of IoMT nodes, have to face challenging optimization tasks, in order to execute fairly complex computing tasks on low-power wearable and portable processing systems, with tight power and battery lifetime budgets. In this work, we explore the implementation of cognitive data analysis algorithm on resource-constrained computing platforms. To minimize power consumption, we add an adaptivity layer that dynamically manages the hardware and software configuration of the device to adapt it at runtime to the required operating mode. We have assessed our approach on a use-case using a convolutional neural network to classify electrocardiogram (ECG) traces on a low-power microcontroller. Our experimental results show that adapting the node setup to the workload at runtime can save up to 50% power consumption and a quantized neural network reaches an accuracy value higher than 98% for arrhythmia disorders detection on MIT-BIH Arrhythmia dataset.
翻訳日:2021-06-14 14:00:41 公開日:2021-06-11