このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210318となっている論文です。

PDF登録状況(公開日: 20210318)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 変分ベイズ推論による半教師付き学習と最大不確かさ正規化 [全文訳有]

Semi-Supervised Learning with Variational Bayesian Inference and Maximum Uncertainty Regularization ( http://arxiv.org/abs/2012.01793v2 )

ライセンス: CC BY 4.0
Kien Do, Truyen Tran, Svetha Venkatesh(参考訳) 半教師付き学習(SSL)を改善するための2つの一般的な手法を提案する。 第一に、重量摂動(WP)を既存のCR(Consistency regularization)ベースの手法に統合する。 我々は変分ベイズ推論(VBI)を利用してWPを実装した。 第2の方法は、"maximum uncertainty regularization"(mur)と呼ばれる新しい一貫性損失を提案する。 ほとんどの整合性損失は各データポイント付近の摂動に作用するが、MURは最も不確実なクラス予測を引き起こす領域の向こう側にある仮想的な点を積極的に探す。 これにより、MUR は入力出力多様体のより広い領域に滑らかさを課すことができる。 実験の結果,VBIやMURと組み合わせた場合,様々なCR手法の分類誤差が明らかに改善された。

We propose two generic methods for improving semi-supervised learning (SSL). The first integrates weight perturbation (WP) into existing "consistency regularization" (CR) based methods. We implement WP by leveraging variational Bayesian inference (VBI). The second method proposes a novel consistency loss called "maximum uncertainty regularization" (MUR). While most consistency losses act on perturbations in the vicinity of each data point, MUR actively searches for "virtual" points situated beyond this region that cause the most uncertain class predictions. This allows MUR to impose smoothness on a wider area in the input-output manifold. Our experiments show clear improvements in classification errors of various CR based methods when they are combined with VBI or MUR or both.
翻訳日:2021-05-24 01:15:03 公開日:2021-03-18
# 委員会ベースモデルのサプライズ効率について

On the Surprising Efficiency of Committee-based Models ( http://arxiv.org/abs/2012.01988v2 )

ライセンス: Link先を確認
Xiaofang Wang, Dan Kondratyuk, Eric Christiansen, Kris M. Kitani, Yair Movshovitz-Attias, Elad Eban(参考訳) 委員会ベースのモデル、すなわちモデルアンサンブルやカスケードは、近年の効率的なモデル開発において過小評価されている。 委員会ベースのモデル自体は新しいものではないが、単一のモデルと比較して効率の体系的な理解が欠けている。 このギャップを埋めるために、委員会ベースのモデルの効率を包括的に分析し、委員会ベースのモデルがアーキテクチャをチューニングせずに優れた効率を達成するための補完的なパラダイムを提供することを発見した。 委員会ベースモデルの優れた効率性は、画像分類、ビデオ分類、セマンティックセグメンテーション、EfficientNet、ResNet、MobileNetV2、X3Dといった様々なアーキテクチャファミリなど、いくつかのタスクに当てはまる。

Committee-based models, i.e., model ensembles or cascades, are underexplored in recent work on developing efficient models. While committee-based models themselves are not new, there lacks a systematic understanding of their efficiency in comparison with single models. To fill this gap, we conduct a comprehensive analysis of the efficiency of committee-based models and find that committee-based models provide a complementary paradigm to achieve superior efficiency without tuning the architecture: a simple ensemble or cascade of existing networks can be considerably more efficient than state-of-the-art single models, even outperforming sophisticated neural architecture search methods. The superior efficiency of committee-based models holds true for several tasks, including image classification, video classification, and semantic segmentation, and various architecture families, such as EfficientNet, ResNet, MobileNetV2, and X3D.
翻訳日:2021-05-23 14:54:02 公開日:2021-03-18
# ディープネットワークにおけるカーネル分類

Kernelized Classification in Deep Networks ( http://arxiv.org/abs/2012.09607v2 )

ライセンス: Link先を確認
Sadeep Jayasumana, Srikumar Ramalingam, Sanjiv Kumar(参考訳) 本稿では,ディープネットワークのためのカーネル分類層を提案する。 従来のディープネットワークは、表現(特徴)学習に非線形性の豊富さをもたらすが、学習された特徴ベクトルの線形分類器をほぼ普遍的に使用する。 トレーニング中のソフトマックスクロスエントロピー損失関数と試験時のスコア関数のカーネルトリックを用いて非線形分類層を提案する。 しかし、カーネルの選択は依然として課題である。 これに対処するため、理論上は問題設定に適用可能なすべての正定値カーネルを最適化する可能性を示す。 この理論は、与えられた問題に対する最適なカーネル関数をディープネットワーク自体内で自動的に学習する新しいカーネル分類層を構築するために使用される。 提案する非線形分類層は,複数のデータセットやタスクに対して有用であることを示す。

We propose a kernelized classification layer for deep networks. Although conventional deep networks introduce an abundance of nonlinearity for representation (feature) learning, they almost universally use a linear classifier on the learned feature vectors. We advocate a nonlinear classification layer by using the kernel trick on the softmax cross-entropy loss function during training and the scorer function during testing. However, the choice of the kernel remains a challenge. To tackle this, we theoretically show the possibility of optimizing over all possible positive definite kernels applicable to our problem setting. This theory is then used to device a new kernelized classification layer that learns the optimal kernel function for a given problem automatically within the deep network itself. We show the usefulness of the proposed nonlinear classification layer on several datasets and tasks.
翻訳日:2021-05-16 21:42:00 公開日:2021-03-18
# UBAR: GPT-2によるタスク指向対話システムの実現に向けて

UBAR: Towards Fully End-to-End Task-Oriented Dialog Systems with GPT-2 ( http://arxiv.org/abs/2012.03539v2 )

ライセンス: Link先を確認
Yunyi Yang, Yunhao Li, Xiaojun Quan(参考訳) 本稿では,タスク指向ダイアログを対話セッションレベルでモデル化するタスク指向ダイアログシステムubarを提案する。 具体的には、ユーザ発話、信念状態、データベース結果、システム動作、各ダイアログターンのシステム応答からなるダイアログセッション全体のシーケンスに基づいて、大きな事前訓練された一方向言語モデルGPT-2を微調整することによりUBARを取得する。 さらに、ubarはより現実的な設定で評価され、そのダイアログコンテキストはユーザの発話と、信念状態、システム行動、システム応答といったすべてのコンテンツにアクセスできる。 MultiWOZデータセットによる実験結果から,UBARは複数の設定で最先端のパフォーマンスを実現し,応答生成,ポリシー最適化,エンドツーエンドモデリングの合計スコアをそれぞれ4.7,3.5,9.4ポイント向上した。 より詳細な分析により,セッションレベルのトレーニングシーケンスの定式化と生成したダイアログコンテキストが,実生活における完全なエンドツーエンドのタスク指向ダイアログシステムとして機能することの重要性が示された。 また、UBARの限られたデータを持つ新しいドメインへの転送能力について検討し、対話セッションレベルでのモデリングにおけるUBARの利点を説明するための可視化とケーススタディを提供する。

This paper presents our task-oriented dialog system UBAR which models task-oriented dialogs on a dialog session level. Specifically, UBAR is acquired by fine-tuning the large pre-trained unidirectional language model GPT-2 on the sequence of the entire dialog session which is composed of user utterance, belief state, database result, system act, and system response of every dialog turn. Additionally, UBAR is evaluated in a more realistic setting, where its dialog context has access to user utterances and all content it generated such as belief states, system acts, and system responses. Experimental results on the MultiWOZ datasets show that UBAR achieves state-of-the-art performances in multiple settings, improving the combined score of response generation, policy optimization, and end-to-end modeling by 4.7, 3.5, and 9.4 points respectively. Thorough analyses demonstrate that the session-level training sequence formulation and the generated dialog context are essential for UBAR to operate as a fully end-to-end task-oriented dialog system in real life. We also examine the transfer ability of UBAR to new domains with limited data and provide visualization and a case study to illustrate the advantages of UBAR in modeling on a dialog session level.
翻訳日:2021-05-16 21:31:08 公開日:2021-03-18
# ラベル雑音に対するロバストネスのための多目的補間訓練

Multi-Objective Interpolation Training for Robustness to Label Noise ( http://arxiv.org/abs/2012.04462v2 )

ライセンス: Link先を確認
Diego Ortego, Eric Arazo, Paul Albert, Noel E. O'Connor and Kevin McGuinness(参考訳) 標準的なクロスエントロピー損失でトレーニングされたディープニューラルネットワークはノイズラベルを記憶し、パフォーマンスを低下させる。 この記憶を緩和するほとんどの研究は、新しいロバストな分類損失関数を提案する。 逆に,相互に支援し,ラベルノイズに対する性能を高めるために,コントラスト学習と分類を併用した多目的補間訓練(moit)手法を提案する。 標準教師付きコントラスト学習はラベルノイズの存在下で劣化し,この挙動を緩和するための補間学習戦略を提案する。 さらに, コントラスト学習により学習したロバストな特徴表現を活用し, 原ラベルと不一致がノイズサンプルを正確に識別する新しいラベル雑音検出手法を提案する。 この検出により、雑音サンプルをラベルなしとして扱い、半教師付きで分類器を訓練し、ノイズの記憶を防止し、表現学習を改善することができる。 さらに,検出されたクリーンサンプルを微調整したMOIT+を提案する。 ハイパーパラメーターおよびアブレーション研究は,本手法の重要な構成要素を検証する。 合成および実世界のノイズベンチマークの実験は、MOIT/MOIT+が最先端の結果を得ることを示した。 コードはhttps://git.io/ji40x で入手できる。

Deep neural networks trained with standard cross-entropy loss memorize noisy labels, which degrades their performance. Most research to mitigate this memorization proposes new robust classification loss functions. Conversely, we propose a Multi-Objective Interpolation Training (MOIT) approach that jointly exploits contrastive learning and classification to mutually help each other and boost performance against label noise. We show that standard supervised contrastive learning degrades in the presence of label noise and propose an interpolation training strategy to mitigate this behavior. We further propose a novel label noise detection method that exploits the robust feature representations learned via contrastive learning to estimate per-sample soft-labels whose disagreements with the original labels accurately identify noisy samples. This detection allows treating noisy samples as unlabeled and training a classifier in a semi-supervised manner to prevent noise memorization and improve representation learning. We further propose MOIT+, a refinement of MOIT by fine-tuning on detected clean samples. Hyperparameter and ablation studies verify the key components of our method. Experiments on synthetic and real-world noise benchmarks demonstrate that MOIT/MOIT+ achieves state-of-the-art results. Code is available at https://git.io/JI40X .
翻訳日:2021-05-16 21:14:07 公開日:2021-03-18
# Slimmable Generative Adversarial Networks

Slimmable Generative Adversarial Networks ( http://arxiv.org/abs/2012.05660v3 )

ライセンス: Link先を確認
Liang Hou, Zehuan Yuan, Lei Huang, Huawei Shen, Xueqi Cheng, Changhu Wang(参考訳) 近年,gans(generative adversarial network)が著しい進歩を遂げている。 特に、リアルタイム生成タスクでは、異なるデバイスは様々な計算能力のために異なるサイズのジェネレータを必要とする。 本稿では,スリム化可能なGAN(SlimGAN)を導入し,実行時の各種品質効率トレードオフに対応するために,ジェネレータの幅を柔軟に切り替える。 具体的には、部分パラメータを共有する複数の識別器を活用して、スリム化可能なジェネレータを訓練する。 異なる幅のジェネレータ間の \textit{consistency} を容易にするため、我々は、狭義のジェネレータが広いものから学ぶことを奨励するステップワイズインプレース蒸留技術を提案する。 クラス条件生成に関しては,ラベル情報を異なる幅に組み込むスライス可能な条件付きバッチ正規化を提案する。 本手法は,広範囲な実験と詳細なアブレーション研究により定量的かつ定性的に検証されている。

Generative adversarial networks (GANs) have achieved remarkable progress in recent years, but the continuously growing scale of models makes them challenging to deploy widely in practical applications. In particular, for real-time generation tasks, different devices require generators of different sizes due to varying computing power. In this paper, we introduce slimmable GANs (SlimGANs), which can flexibly switch the width of the generator to accommodate various quality-efficiency trade-offs at runtime. Specifically, we leverage multiple discriminators that share partial parameters to train the slimmable generator. To facilitate the \textit{consistency} between generators of different widths, we present a stepwise inplace distillation technique that encourages narrow generators to learn from wide ones. As for class-conditional generation, we propose a sliceable conditional batch normalization that incorporates the label information into different widths. Our methods are validated, both quantitatively and qualitatively, by extensive experiments and a detailed ablation study.
翻訳日:2021-05-15 06:37:07 公開日:2021-03-18
# 名前付きエンティティ認識におけるラベル付きエンティティ問題の実証分析

Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition ( http://arxiv.org/abs/2012.05426v5 )

ライセンス: Link先を確認
Yangming Li, Lemao Liu, Shuming Shi(参考訳) 多くのシナリオにおいて、名前付きエンティティ認識(NER)モデルは、文のエンティティを完全に注釈付けできないようなラベル付けされていないエンティティ問題に苦しむ。 合成データセットを用いた実証実験により,性能劣化の原因が2つ見つかった。 1つは注釈付きエンティティの削減、もう1つはラベル付きエンティティを負のインスタンスとして扱うことである。 第1の要因は第2の要因よりも影響が少なく、事前トレーニング言語モデルを採用することで軽減できる。 2つ目の原因は、トレーニングのモデルをひどく誤解し、そのパフォーマンスに大きな影響を与えます。 上記の観察に基づいて,ラベルのない実体によってもたらされる誤動作をほぼ排除できる一般的なアプローチを提案する。 キーとなるアイデアは、負のサンプリングを使用することで、ラベルのないエンティティでNERモデルをトレーニングすることを避けます。 合成データセットと実世界のデータセットに関する実験は、我々のモデルはラベルなしのエンティティ問題に頑健であり、以前のベースラインを超えることを示している。 注釈付きデータセットでは、我々のモデルは最先端の手法と競合する。

In many scenarios, named entity recognition (NER) models severely suffer from unlabeled entity problem, where the entities of a sentence may not be fully annotated. Through empirical studies performed on synthetic datasets, we find two causes of performance degradation. One is the reduction of annotated entities and the other is treating unlabeled entities as negative instances. The first cause has less impact than the second one and can be mitigated by adopting pretraining language models. The second cause seriously misguides a model in training and greatly affects its performances. Based on the above observations, we propose a general approach, which can almost eliminate the misguidance brought by unlabeled entities. The key idea is to use negative sampling that, to a large extent, avoids training NER models with unlabeled entities. Experiments on synthetic datasets and real-world datasets show that our model is robust to unlabeled entity problem and surpasses prior baselines. On well-annotated datasets, our model is competitive with the state-of-the-art method.
翻訳日:2021-05-15 06:28:16 公開日:2021-03-18
# ViNet: オーディオ・ビジュアル・サリエンシ予測のための視覚的モダリティの限界を推し進める

ViNet: Pushing the limits of Visual Modality for Audio-Visual Saliency Prediction ( http://arxiv.org/abs/2012.06170v2 )

ライセンス: Link先を確認
Samyak Jain, Pradeep Yarlagadda, Shreyank Jyoti, Shyamgopal Karthik, Ramanathan Subramanian and Vineet Gandhi(参考訳) 本稿では,視覚的サリエンシ予測のためのViNetアーキテクチャを提案する。 ViNetは完全な畳み込みエンコーダデコーダアーキテクチャである。 エンコーダは、アクション認識のために訓練されたネットワークからの視覚的特徴を使用し、デコーダは、トリ線形補間と3D畳み込みを通じて、サリエンシマップを推論し、複数の階層の特徴を組み合わせる。 ViNetの全体的なアーキテクチャは概念的にはシンプルで、因果的であり、リアルタイム(60fps)で動作する。 ViNetは入力としてオーディオを使用しておらず、9つの異なるデータセット(3つの視覚のみと6つのオーディオ視覚データセット)で最先端のオーディオ視覚唾液率予測モデルより優れている。 ViNetはまた、AVEデータセットのCC、SIM、AUCメトリクスの人的パフォーマンスを上回り、私たちの知る限り、これが最初のネットワークである。 また、オーディオ機能をデコーダに拡張することで、ViNetアーキテクチャのバリエーションについても検討する。 驚いたことに、十分なトレーニングを行うと、ネットワークは入力オーディオに非依存になり、入力に関係なく同じ出力を提供する。 興味深いことに、私たちはまた、前回の最先端モデルである \cite{tsiami2020stavis} で同様の振る舞いを視認できる。 これまでの深層学習に基づく視聴覚塩分予測とは対照的な結果であり,より効果的に音声を組み込む今後の探究への道筋が示唆された。 コードと事前トレーニングされたモデルは、https://github.com/s amyak0210/vinetで入手できる。

We propose the ViNet architecture for audio-visual saliency prediction. ViNet is a fully convolutional encoder-decoder architecture. The encoder uses visual features from a network trained for action recognition, and the decoder infers a saliency map via trilinear interpolation and 3D convolutions, combining features from multiple hierarchies. The overall architecture of ViNet is conceptually simple; it is causal and runs in real-time (60 fps). ViNet does not use audio as input and still outperforms the state-of-the-art audio-visual saliency prediction models on nine different datasets (three visual-only and six audio-visual datasets). ViNet also surpasses human performance on the CC, SIM and AUC metrics for the AVE dataset, and to our knowledge, it is the first network to do so. We also explore a variation of ViNet architecture by augmenting audio features into the decoder. To our surprise, upon sufficient training, the network becomes agnostic to the input audio and provides the same output irrespective of the input. Interestingly, we also observe similar behaviour in the previous state-of-the-art models \cite{tsiami2020stavis} for audio-visual saliency prediction. Our findings contrast with previous works on deep learning-based audio-visual saliency prediction, suggesting a clear avenue for future explorations incorporating audio in a more effective manner. The code and pre-trained models are available at https://github.com/s amyak0210/ViNet.
翻訳日:2021-05-11 03:00:47 公開日:2021-03-18
# グラフマッチングの深い強化学習

Deep Reinforcement Learning of Graph Matching ( http://arxiv.org/abs/2012.08950v2 )

ライセンス: Link先を確認
Chang Liu, Runzhong Wang, Zetian Jiang, Junchi Yan(参考訳) ノードとペアの制約下でのグラフマッチング(GM)は、組合せ最適化、データマイニング、コンピュータビジョンといった領域における効率的な構造表現と関連性のためのビルディングブロックである。 GMのための強化学習ソルバを提案する。 対グラフ間のノード対応を求めるRGMは、関連グラフ上のノード埋め込みモデルを学習し、ノード間マッチングを順次見つける。 本手法は,前者の特徴抽出と親和性関数学習に重点を置き,学習によって得られた親和性目的関数を前提としたバックエンド意思決定を学習することを目的としている。 このような目的関数最大化設定は、学習手順がラベルフリーである強化学習機構に自然に適合する。 これらの機能は実用用途に適している。 合成データセット,Wilow Objectデータセット,Pascal VOCデータセット,QAPLIBのいずれも,マッチング精度と効率の両面で優れたパフォーマンスを示す。 我々の知る限り、これはグラフマッチングのための最初の深層強化学習解法である。

Graph matching (GM) under node and pairwise constraints has been a building block in areas from combinatorial optimization, data mining to computer vision, for effective structural representation and association. We present a reinforcement learning solver for GM i.e. RGM that seeks the node correspondence between pairwise graphs, whereby the node embedding model on the association graph is learned to sequentially find the node-to-node matching. Our method differs from the previous deep graph matching model in the sense that they are focused on the front-end feature extraction and affinity function learning, while our method aims to learn the back-end decision making given the affinity objective function whether obtained by learning or not. Such an objective function maximization setting naturally fits with the reinforcement learning mechanism, of which the learning procedure is label-free. These features make it more suitable for practical usage. Extensive experimental results on both synthetic datasets, Willow Object dataset, Pascal VOC dataset, and QAPLIB showcase superior performance regarding both matching accuracy and efficiency. To our best knowledge, this is the first deep reinforcement learning solver for graph matching.
翻訳日:2021-05-03 03:07:41 公開日:2021-03-18
# (参考訳) AU-Guided Unsupervised Domain Adaptive Facial Expression Recognition [全文訳有]

AU-Guided Unsupervised Domain Adaptive Facial Expression Recognition ( http://arxiv.org/abs/2012.10078v2 )

ライセンス: CC0 1.0
Kai Wang, Yuxin Gu, Xiaojiang Peng, Panpan Zhang, Baigui Sun, Hao Li(参考訳) 不整合アノテーションやさまざまな画像収集条件を含むドメインの多様性は、異なる表情認識(FER)データセットの間に必然的に存在し、あるデータセットでトレーニングされたFERモデルを別のデータセットに適応させる上で明らかな課題となる。 近年の課題は, 対向学習機構を持つドメイン不変の深層特徴学習に焦点が当てられ, 顔行動単位(AU)検出タスクは無視されている。 本稿では、AUが客観的に表情を決定することを考慮し、異なるFERデータセット間のアノテーションバイアスを軽減するために、AU誘導非教師付きドメイン適応FER(AdaFER)フレームワークを提案する。 AdaFERでは、まずソースドメインとターゲットドメインの両方でAU検出のための高度なモデルを利用する。 そして、AUの結果を比較して、AU-guidedアノテートを行う。すなわち、ソース・フェイスと同じAUを持つターゲット・フェイスが、ソース・ドメインからラベルを継承する。 一方、ドメイン不変のコンパクトな特徴を達成するために、AUを用いたAU誘導三重項学習を用い、AUを用いて両ドメインのアンカー正負三重項をランダムに収集する。 我々は、いくつかの人気のあるベンチマークで広範な実験を行い、AdaFERがこれらのベンチマークで最先端の結果を達成することを示す。

The domain diversities including inconsistent annotation and varied image collection conditions inevitably exist among different facial expression recognition (FER) datasets, which pose an evident challenge for adapting the FER model trained on one dataset to another one. Recent works mainly focus on domain-invariant deep feature learning with adversarial learning mechanism, ignoring the sibling facial action unit (AU) detection task which has obtained great progress. Considering AUs objectively determine facial expressions, this paper proposes an AU-guided unsupervised Domain Adaptive FER (AdaFER) framework to relieve the annotation bias between different FER datasets. In AdaFER, we first leverage an advanced model for AU detection on both source and target domain. Then, we compare the AU results to perform AU-guided annotating, i.e., target faces that own the same AUs with source faces would inherit the labels from source domain. Meanwhile, to achieve domain-invariant compact features, we utilize an AU-guided triplet training which randomly collects anchor-positive-nega tive triplets on both domains with AUs. We conduct extensive experiments on several popular benchmarks and show that AdaFER achieves state-of-the-art results on all these benchmarks.
翻訳日:2021-05-02 02:32:38 公開日:2021-03-18
# バグレポートを用いたテストジェネレータの構成:gccコンパイラとcsmithのケーススタディ

Configuring Test Generators using Bug Reports: A Case Study of GCC Compiler and Csmith ( http://arxiv.org/abs/2012.10662v2 )

ライセンス: Link先を確認
Md Rafiqul Islam Rabin and Mohammad Amin Alipour(参考訳) コンパイラのバグはプログラマの意図を反映しない実行ファイルを生成することができるため、コンパイラの正しさは他のソフトウェアシステムの安全性と信頼性に欠かせない。 このようなエラーは識別やデバッグが難しい。 ランダムテストプログラムジェネレータは一般的にコンパイラのテストに使われ、バグの発見に有効である。 しかし、これらのテストジェネレータにバグを見つけやすいテストプログラムを作成するよう誘導する問題は、依然として難しい。 本稿では,バグレポート中のコードスニペットを用いて,テスト生成のガイドを行う。 この作業の主なアイデアは、実装が不十分になりやすい言語機能に関するバグレポートから洞察を抽出し、テストジェネレータを導くための洞察を使用することである。 我々は、GCC Cコンパイラを用いて、このアプローチの有効性を評価する。 特に、まずその機能に基づいて、gccのバグレポートにテストプログラムをクラスタ化します。 次にクラスタのcentroidsを使用して、cコンパイラ用の人気のあるテストジェネレータであるcsmithの構成を計算します。 我々は,この手法をGCCの8バージョンで評価し,本手法がGCCの最先端テスト生成技術よりも高いカバレッジを提供し,誤コンパイル障害を引き起こすことを発見した。

The correctness of compilers is instrumental in the safety and reliability of other software systems, as bugs in compilers can produce executables that do not reflect the intent of programmers. Such errors are difficult to identify and debug. Random test program generators are commonly used in testing compilers, and they have been effective in uncovering bugs. However, the problem of guiding these test generators to produce test programs that are more likely to find bugs remains challenging. In this paper, we use the code snippets in the bug reports to guide the test generation. The main idea of this work is to extract insights from the bug reports about the language features that are more prone to inadequate implementation and using the insights to guide the test generators. We use the GCC C compiler to evaluate the effectiveness of this approach. In particular, we first cluster the test programs in the GCC bugs reports based on their features. We then use the centroids of the clusters to compute configurations for Csmith, a popular test generator for C compilers. We evaluated this approach on eight versions of GCC and found that our approach provides higher coverage and triggers more miscompilation failures than the state-of-the-art test generation techniques for GCC.
翻訳日:2021-05-01 11:07:16 公開日:2021-03-18
# (参考訳) 逐次学習におけるエンコーダ層融合の理解と改善 [全文訳有]

Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning ( http://arxiv.org/abs/2012.14768v2 )

ライセンス: CC BY 4.0
Xuebo Liu, Longyue Wang, Derek F. Wong, Liang Ding, Lidia S. Chao, Zhaopeng Tu(参考訳) エンコーダ層融合(encoderfusion)はシーケンシャル・ツー・シーケンス(seq2seq)モデルのために(最上層ではなく)全てのエンコーダ層を融合させる技術であり、様々なnlpタスクに有効であることが証明されている。 しかし、EncoderFusionが機能すべき理由と時期は、まだ明らかになっていない。 本稿では,EncoderFusionの理解を深めることが主な貢献である。 以前の研究の多くは、エンコーダフュージョンの成功は、低いエンコーダ層に埋め込まれた表面情報と構文情報を利用することから来ていると信じている。 それらとは異なり、エンコーダの埋め込み層は他の中間エンコーダ層よりも重要である。 さらに、最上位のデコーダ層は、NLPタスクにまたがるエンコーダ埋め込み層に常に注意を払う。 そこで本研究では,ソフトマックス層へのエンコーダ埋め込み層のみを融合させて,簡単な融合法であるSurfaceFusionを提案する。 実験の結果,SurfaceFusion は機械翻訳,テキスト要約,文法的誤り訂正など,いくつかの NLP ベンチマークにおいて EncoderFusion よりも優れていた。 WMT16ルーマニア語-英語とWMT14英語-フランス語翻訳タスクの最先端のパフォーマンスを得る。 包括的分析により、SurfaceFusionは、関連するソースとターゲットの埋め込みとの密接な関係を構築することによって、より表現力のあるバイリンガル単語の埋め込みを学習することが明らかになった。 ソースコードはhttps://github.com/S unbowLiu/SurfaceFusi on.comから無料で入手できる。

Encoder layer fusion (EncoderFusion) is a technique to fuse all the encoder layers (instead of the uppermost layer) for sequence-to-sequence (Seq2Seq) models, which has proven effective on various NLP tasks. However, it is still not entirely clear why and when EncoderFusion should work. In this paper, our main contribution is to take a step further in understanding EncoderFusion. Many of previous studies believe that the success of EncoderFusion comes from exploiting surface and syntactic information embedded in lower encoder layers. Unlike them, we find that the encoder embedding layer is more important than other intermediate encoder layers. In addition, the uppermost decoder layer consistently pays more attention to the encoder embedding layer across NLP tasks. Based on this observation, we propose a simple fusion method, SurfaceFusion, by fusing only the encoder embedding layer for the softmax layer. Experimental results show that SurfaceFusion outperforms EncoderFusion on several NLP benchmarks, including machine translation, text summarization, and grammatical error correction. It obtains the state-of-the-art performance on WMT16 Romanian-English and WMT14 English-French translation tasks. Extensive analyses reveal that SurfaceFusion learns more expressive bilingual word embeddings by building a closer relationship between relevant source and target embedding. Source code is freely available at https://github.com/S unbowLiu/SurfaceFusi on.
翻訳日:2021-04-19 01:43:21 公開日:2021-03-18
# (参考訳) 社会的責任を持つAIアルゴリズム:問題、目的、課題

Socially Responsible AI Algorithms: Issues, Purposes, and Challenges ( http://arxiv.org/abs/2101.02032v3 )

ライセンス: CC BY 4.0
Lu Cheng, Kush R. Varshney, Huan Liu(参考訳) 現代では、人や社会はますます人工知能(AI)技術に依存している。 AIは人類が繁栄する未来へと私たちを駆り立てる可能性がある。 また、抑圧や災難のリスクも大きい。 近年,産業,アカデミック,医療,サービスなど,多くの分野において,AIを信頼すべきかどうか(再)の議論が繰り返されている。 技術者とAI研究者は、信頼できるAIシステムを開発する責任がある。 彼らは、より責任のあるAIアルゴリズムの設計に多大な努力を払っている。 しかし、既存の技術ソリューションは範囲が狭く、主にスコア付けや分類のためのアルゴリズムに向けられ、公平さと望ましくないバイアスに重点を置いている。 AIと人間の長期的な信頼を構築するためには、アルゴリズムの公正性を超えて考えること、AIの無関心な振る舞いを引き起こす可能性のあるAIの主要な側面を結びつけることが鍵である、と私たちは主張する。 本稿では,AI非依存の課題と社会的責任を持つAIアルゴリズムの必要性を調査し,目的を定義し,これらの目的を達成するための手段を導入することを目的とした,社会責任型AIアルゴリズムの体系的枠組みを提供する。 さらに、この枠組みを利用して、保護、情報、予防・緩和を通じて社会福祉を改善する方法について論じる。

In the current era, people and society have grown increasingly reliant on artificial intelligence (AI) technologies. AI has the potential to drive us towards a future in which all of humanity flourishes. It also comes with substantial risks for oppression and calamity. Discussions about whether we should (re)trust AI have repeatedly emerged in recent years and in many quarters, including industry, academia, health care, services, and so on. Technologists and AI researchers have a responsibility to develop trustworthy AI systems. They have responded with great effort to design more responsible AI algorithms. However, existing technical solutions are narrow in scope and have been primarily directed towards algorithms for scoring or classification tasks, with an emphasis on fairness and unwanted bias. To build long-lasting trust between AI and human beings, we argue that the key is to think beyond algorithmic fairness and connect major aspects of AI that potentially cause AI's indifferent behavior. In this survey, we provide a systematic framework of Socially Responsible AI Algorithms that aims to examine the subjects of AI indifference and the need for socially responsible AI algorithms, define the objectives, and introduce the means by which we may achieve these objectives. We further discuss how to leverage this framework to improve societal well-being through protection, information, and prevention/mitigatio n.
翻訳日:2021-04-17 10:52:33 公開日:2021-03-18
# バイオインスパイアされた六角形画像生成のための六角形深層学習

Biologically Inspired Hexagonal Deep Learning for Hexagonal Image Generation ( http://arxiv.org/abs/2101.00337v2 )

ライセンス: Link先を確認
Tobias Schlosser, Frederik Beuth, and Danny Kowerko(参考訳) 従来の記録出力装置の最先端画像処理システムは正方形配置方式をほとんど排他的に使用しているのに対し、生物学的モデルでは代替的な進化に基づく構造が示唆されている。 人間の視覚知覚システムにインスパイアされた機械学習のコンテキストにおける六角形画像処理は、研究者とユーザの両方にとって、多くの重要な利点を提供する。 この貢献で活用されたヘキサゴナルディープラーニングフレームワークhexnetは、ヘキサゴナルディープニューラルネットワーク(h-dnn)を利用してヘキサゴナルイメージを生成するのに役立つ。 生成したテスト環境の結果から,提案したモデルが従来の画像生成のアプローチを超越する可能性が示唆された。 その結果、トレーニング可能なパラメータの形でモデルの複雑さが減少する一方で、正方形のパラメータと比較してテストレートが増加することがより許される。

Whereas conventional state-of-the-art image processing systems of recording and output devices almost exclusively utilize square arranged methods, biological models, however, suggest an alternative, evolutionarily-based structure. Inspired by the human visual perception system, hexagonal image processing in the context of machine learning offers a number of key advantages that can benefit both researchers and users alike. The hexagonal deep learning framework Hexnet leveraged in this contribution serves therefore the generation of hexagonal images by utilizing hexagonal deep neural networks (H-DNN). As the results of our created test environment show, the proposed models can surpass current approaches of conventional image generation. While resulting in a reduction of the models' complexity in the form of trainable parameters, they furthermore allow an increase of test rates in comparison to their square counterparts.
翻訳日:2021-04-16 11:13:09 公開日:2021-03-18
# (参考訳) SoftPoolによる活性化ダウンサンプリング [全文訳有]

Refining activation downsampling with SoftPool ( http://arxiv.org/abs/2101.00440v3 )

ライセンス: CC BY 4.0
Alexandros Stergiou, Ronald Poppe, Grigorios Kalliatakis(参考訳) 畳み込みニューラルネットワーク(cnns)は、アクティベーションマップのサイズを減らすためにプールを使用する。 この過程は受容場を増加させ、その後の畳み込みの計算要件を減らすために重要である。 プール操作の重要な特徴は、初期活性化マップに対する情報損失の最小化であり、計算とメモリオーバーヘッドに大きな影響を与えない。 これらの要件を満たすために、指数関数的に重み付けされたアクティベーションダウンサンプリングの高速かつ効率的な方法であるSoftPoolを提案する。 様々なアーキテクチャやプール手法の実験を通じて、SoftPoolは活性化マップにより多くの情報を保持できることを示した。 この洗練されたダウンサンプリングにより、CNNの分類精度が向上する。 imagenet1kのプーリング層置換実験では、元のアーキテクチャや他のプーリングメソッドよりも精度が向上している。 また、アクション認識のためのビデオデータセットでSoftPoolをテストする。 繰り返しになるが、プーリング層を直接置き換えることで、計算負荷とメモリ要求が制限されている間、一貫した性能改善が観察される。

Convolutional Neural Networks (CNNs) use pooling to decrease the size of activation maps. This process is crucial to increase the receptive fields and to reduce computational requirements of subsequent convolutions. An important feature of the pooling operation is the minimization of information loss, with respect to the initial activation maps, without a significant impact on the computation and memory overhead. To meet these requirements, we propose SoftPool: a fast and efficient method for exponentially weighted activation downsampling. Through experiments across a range of architectures and pooling methods, we demonstrate that SoftPool can retain more information in the reduced activation maps. This refined downsampling leads to improvements in a CNN's classification accuracy. Experiments with pooling layer substitutions on ImageNet1K show an increase in accuracy over both original architectures and other pooling methods. We also test SoftPool on video datasets for action recognition. Again, through the direct replacement of pooling layers, we observe consistent performance improvements while computational loads and memory requirements remain limited.
翻訳日:2021-04-13 09:17:36 公開日:2021-03-18
# (参考訳) RMABを用いた選択的介入計画:母子保健改善のためのプログラム強化 [全文訳有]

Selective Intervention Planning using RMABs: Increasing Program Engagement to Improve Maternal and Child Health Outcomes ( http://arxiv.org/abs/2103.09052v2 )

ライセンス: CC BY 4.0
Siddharth Nishtala, Lovish Madaan, Harshavardhan Kamarthi, Anirudh Grama, Divy Thakkar, Dhyanesh Narayanan, Suresh Chaudhary, Neha Madhiwalla, Ramesh Padmanabhan, Aparna Hegde, Pradeep Varakantham, Balaraman Ravindran, Milind Tambe(参考訳) インドでは母子死亡率は113、子供死亡率は10万人当たり2830である。 予防ケア情報へのアクセス不足は、特に低所得世帯におけるこれらの死亡の要因となっている。 インドに本拠を置く非営利団体ARMMANと協力して、健康パラメータに肯定的な影響を与えることが証明されたこれらのプログラムに関わらない可能性のある女性を早期に特定することで、コールベースの情報プログラムの利用を強化する。 ARMMANが作成した認知プログラムで登録された30万人以上の女性の匿名通話記録を分析し,携帯電話で健康関連情報を定期的に発信する。 我々は,コールログと受益者の人口統計情報から長期エンゲージメントパターンを予測するための機械学習モデルを構築し,実世界におけるこの手法の適用可能性についてパイロット検証により検討した。 ランダムに制御された試行を通して、我々のモデルの予測を用いて介入を行うことで、エンゲージメントのメトリクスが14.3%向上することを示す。 次に,restless multi-armed bandits (rmabs) として介入計画問題を定式化し,本手法を用いた予備結果を示す。

India has a maternal mortality ratio of 113 and child mortality ratio of 2830 per 100,000 live births. Lack of access to preventive care information is a major contributing factor for these deaths, especially in low-income households. We work with ARMMAN, a non-profit based in India, to further the use of call-based information programs by early-on identifying women who might not engage with these programs that are proven to affect health parameters positively. We analyzed anonymized call-records of over 300,000 women registered in an awareness program created by ARMMAN that uses cellphone calls to regularly disseminate health related information. We built machine learning based models to predict the long term engagement pattern from call logs and beneficiaries' demographic information, and discuss the applicability of this method in the real world through a pilot validation. Through a randomized controlled trial, we show that using our model's predictions to make interventions boosts engagement metrics by 14.3%. We then formulate the intervention planning problem as restless multi-armed bandits (RMABs), and present preliminary results using this approach.
翻訳日:2021-04-05 05:34:16 公開日:2021-03-18
# (参考訳) 2次元NMRとディープラーニングによるフラグメント同定の試み [全文訳有]

A Pilot Study For Fragment Identification Using 2D NMR and Deep Learning ( http://arxiv.org/abs/2103.12169v1 )

ライセンス: CC BY 4.0
Stefan Kuhn, Eda Tumer, Simon Colreavy-Donnelly, Ricardo Moreira Borges(参考訳) 本稿では, 画像に基づく畳み込みニューラルネットワークアプリケーションを用いて, NMRスペクトル, 特に2次元スペクトルのサブ構造を同定する手法を提案する。 これはHSQCとHMBCのスペクトルを別々に組み合わせて行う。 アプリケーションは単純なネットワークを用いて、純粋な化合物のサブ構造を確実に検出することができる。 純粋な化合物でのみ訓練された場合、混合物に対して作用する。 HMBCデータとHMBCとHSQCの組み合わせは、HSQC単独よりも優れた結果を示す。

This paper presents a method to identify substructures in NMR spectra of mixtures, specifically 2D spectra, using a bespoke image-based Convolutional Neural Network application. This is done using HSQC and HMBC spectra separately and in combination. The application can reliably detect substructures in pure compounds, using a simple network. It can work for mixtures when trained on pure compounds only. HMBC data and the combination of HMBC and HSQC show better results than HSQC alone.
翻訳日:2021-04-05 02:10:17 公開日:2021-03-18
# (参考訳) deepbf: 学習ブルームフィルタと進化的ディープラーニングを用いた悪意のあるurl検出 [全文訳有]

deepBF: Malicious URL detection using Learned Bloom Filter and Evolutionary Deep Learning ( http://arxiv.org/abs/2103.12544v1 )

ライセンス: CC BY 4.0
Ripon Patgiri, Anupam Biswas and Sabuzima Nayak(参考訳) 悪意のあるURL検出は、エッジコンピューティングなど、さまざまなシステムの継続的な近代化による新興の研究分野である。 本稿では,DeepBF(Deep Learning and Bloom Filter)と呼ばれる新しい悪意のあるURL検出手法を提案する。 deepbfは2つに分かれている。 まず, 2次元ブルームフィルタを用いた学習ブルームフィルタを提案する。 最善の非暗号文字列ハッシュ関数を実験的に決定する。 次に,Hash法にバイアスを導入し,文字列ハッシュ関数と比較することにより,選択したDeepBFのハッシュ関数から非暗号化文字列ハッシュ関数を導出する。 修正された文字列ハッシュ関数は、様々な非暗号文字列ハッシュ関数の他の変種と比較される。 また、様々なフィルタ、特に bloom filter, kirsch \textit{et al. と比較される。 さまざまなユースケースを使用したCuckoo Filter。 使用事例はフィルターの弱さと強度を明らかにする。 次に,DeepBFを用いた悪意のあるURL検出機構を提案する。 進化的畳み込みニューラルネットワークを用いて悪意のあるURLを識別する。 進化的畳み込みニューラルネットワークは、悪意のあるURLデータセットでトレーニングされ、テストされる。 出力はDeepBFで正確にテストされる。 実験的な評価と結果から多くの結論が得られており、本記事で提示される様々な決定を下すことができる。

Malicious URL detection is an emerging research area due to continuous modernization of various systems, for instance, Edge Computing. In this article, we present a novel malicious URL detection technique, called deepBF (deep learning and Bloom Filter). deepBF is presented in two-fold. Firstly, we propose a learned Bloom Filter using 2-dimensional Bloom Filter. We experimentally decide the best non-cryptography string hash function. Then, we derive a modified non-cryptography string hash function from the selected hash function for deepBF by introducing biases in the hashing method and compared among the string hash functions. The modified string hash function is compared to other variants of diverse non-cryptography string hash functions. It is also compared with various filters, particularly, counting Bloom Filter, Kirsch \textit{et al.}, and Cuckoo Filter using various use cases. The use cases unearth weakness and strength of the filters. Secondly, we propose a malicious URL detection mechanism using deepBF. We apply the evolutionary convolutional neural network to identify the malicious URLs. The evolutionary convolutional neural network is trained and tested with malicious URL datasets. The output is tested in deepBF for accuracy. We have achieved many conclusions from our experimental evaluation and results and are able to reach various conclusive decisions which are presented in the article.
翻訳日:2021-04-05 01:58:50 公開日:2021-03-18
# 不均衡データのための高能率表現とアクティブラーニングフレームワークとそのCOVID-19 X線分類への応用

Highly Efficient Representation and Active Learning Framework for Imbalanced Data and its Application to COVID-19 X-Ray Classification ( http://arxiv.org/abs/2103.05109v2 )

ライセンス: Link先を確認
Heng Hao, Sima Didari, Jae Oh Woo, Hankyu Moon, and Patrick Bangert(参考訳) 胸部X線を分類するためのデータ効率の高い分類および能動的学習フレームワークを提案する。 これは(1)畳み込みニューラルネットワークの教師なし表現学習と(2)ガウス過程法に基づいている。 教師なし表現学習では、クラスラベルを必要としない自己スーパービジョンを採用しており、学習した特徴はラベル効率のよい分類を実現することが証明されている。 gpはカーネルベースのベイズアプローチであり、各決定の不確かさを推定することでデータ効率のよい予測を可能にする。 提案手法は,これら2つの要素を連続的に組み合わせ,高度データとラベルの効率的な分類を実現する。 さらに,(1)ラベル無しで学習した特徴と(2)gpのベイズ的性質により,両要素ともクラス不均衡問題に対する感受性が低下する。 GPによる不確実性推定は、不確実性に基づいてサンプルをランク付けし、高い不確実性を示すサンプルを選択的にラベル付けすることで、アクティブな学習を可能にする。 この新しい組み合わせは、新型コロナウイルスの胸部x線分類におけるデータ不足と深刻な不均衡に応用する。 すべてのラベルのトレーニングから正確性に到達するためには、ラベル付きデータの$\sim 10\%$だけが必要であることを実証する。 完全に管理された分類シナリオにおけるCOVID-19データへの適用は、私たちのモデルが、一般的なResNetのバックボーンによって、高度に調整されたアーキテクチャを備えた最先端モデル(COVID-19のケースは4\%)を上回っていることを示している。 我々のモデルアーキテクチャと提案されたフレームワークは、より広範なデータセットのクラスに適用し、期待される成功を収める。

We propose a highly data-efficient classification and active learning framework for classifying chest X-rays. It is based on (1) unsupervised representation learning of a Convolutional Neural Network and (2) the Gaussian Process method. The unsupervised representation learning employs self-supervision that does not require class labels, and the learned features are proven to achieve label-efficient classification. GP is a kernel-based Bayesian approach that also leads to data-efficient predictions with the added benefit of estimating each decision's uncertainty. Our novel framework combines these two elements in sequence to achieve highly data and label efficient classifications. Moreover, both elements are less sensitive to the prevalent and challenging class imbalance issue, thanks to the (1) feature learned without labels and (2) the Bayesian nature of GP. The GP-provided uncertainty estimates enable active learning by ranking samples based on the uncertainty and selectively labeling samples showing higher uncertainty. We apply this novel combination to the data-deficient and severely imbalanced case of COVID-19 chest X-ray classification. We demonstrate that only $\sim 10\%$ of the labeled data is needed to reach the accuracy from training all available labels. Its application to the COVID-19 data in a fully supervised classification scenario shows that our model, with a generic ResNet backbone, outperforms (COVID-19 case by 4\%) the state-of-the-art model with a highly tuned architecture. Our model architecture and proposed framework are general and straightforward to apply to a broader class of datasets, with expected success.
翻訳日:2021-04-05 00:49:51 公開日:2021-03-18
# (参考訳) 強化学習における一般化のための対比行動類似性埋め込み [全文訳有]

Contrastive Behavioral Similarity Embeddings for Generalization in Reinforcement Learning ( http://arxiv.org/abs/2101.05265v2 )

ライセンス: CC BY 4.0
Rishabh Agarwal, Marlos C. Machado, Pablo Samuel Castro, Marc G. Bellemare(参考訳) 少数の環境で訓練された強化学習手法は、目に見えない環境に一般化する政策をほとんど学ばない。 一般化を改善するために,強化学習に内在する逐次構造を表現学習プロセスに組み込む。 このアプローチは最近のアプローチと直交しており、この構造を明示的に利用することは滅多にない。 具体的には、状態間の行動類似度を測定するための理論的動機付け政策類似度指標(PSM)を導入する。 PSMは、これらの状態と将来の状態の最適ポリシーが類似している状態と高い類似性を割り当てる。 また,psmをインスタンス化してポリシ類似度埋め込み(pses)を得る,状態類似度メトリックを組み込むためのコントラスト表現学習手順を提案する。 我々はPSEが、スプリアス相関付きLQR、画素からのジャンプタスク、DM制御スイートなどの様々なベンチマークの一般化を改善することを実証した。

Reinforcement learning methods trained on few environments rarely learn policies that generalize to unseen environments. To improve generalization, we incorporate the inherent sequential structure in reinforcement learning into the representation learning process. This approach is orthogonal to recent approaches, which rarely exploit this structure explicitly. Specifically, we introduce a theoretically motivated policy similarity metric (PSM) for measuring behavioral similarity between states. PSM assigns high similarity to states for which the optimal policies in those states as well as in future states are similar. We also present a contrastive representation learning procedure to embed any state similarity metric, which we instantiate with PSM to obtain policy similarity embeddings (PSEs). We demonstrate that PSEs improve generalization on diverse benchmarks, including LQR with spurious correlations, a jumping task from pixels, and Distracting DM Control Suite.
翻訳日:2021-03-30 10:35:44 公開日:2021-03-18
# (参考訳) ビデオ質問応答の最近の進歩:データセットと方法のレビュー [全文訳有]

Recent Advances in Video Question Answering: A Review of Datasets and Methods ( http://arxiv.org/abs/2101.05954v2 )

ライセンス: CC BY 4.0
Devshree Patel, Ratnam Parikh, and Yesha Shastri(参考訳) Video Question Answering (VQA) はコンピュータビジョン分野における近年の課題である。 Video Captioning/Descripti onやVideo-guided Machine Translationといった視覚情報検索技術がVQAのタスクに先行している。 VQAはビデオシーンから時間的・空間的な情報を検索し、解釈するのに役立つ。 本稿では,VQAの課題に対する多くの手法とデータセットについて概説する。 我々の知る限りでは、VQAタスクに対する以前の調査は行われていない。

Video Question Answering (VQA) is a recent emerging challenging task in the field of Computer Vision. Several visual information retrieval techniques like Video Captioning/Descripti on and Video-guided Machine Translation have preceded the task of VQA. VQA helps to retrieve temporal and spatial information from the video scenes and interpret it. In this survey, we review a number of methods and datasets for the task of VQA. To the best of our knowledge, no previous survey has been conducted for the VQA task.
翻訳日:2021-03-28 22:33:27 公開日:2021-03-18
# (参考訳) 深部生成画像モデルの幾何学とその応用 [全文訳有]

The Geometry of Deep Generative Image Models and its Applications ( http://arxiv.org/abs/2101.06006v2 )

ライセンス: CC BY-SA 4.0
Binxu Wang, Carlos R. Ponce(参考訳) generative adversarial networks (gans) は、自然画像のような実世界のデータセットの統計パターンをモデル化する強力な教師なし手法として登場した。 これらのネットワークは、潜在空間内のランダムな入力を学習データを表す新しいサンプルにマップするように訓練される。 しかし、潜在空間の構造は、その高次元性と生成器の非線形性のために直感的に考えることは困難であり、モデルの有用性は制限される。 潜在空間を理解するには、既存の現実世界の画像(反転)の入力コードを特定する方法と、既知の画像変換(解釈可能性)で方向を特定する方法が必要である。 ここでは,幾何学的枠組みを用いて両課題を同時に解決する。 我々はgansによって作成された画像多様体のリーマン計量を計算するアーキテクチャ非依存な手法を開発した。 計量の固有分解は、異なるレベルの画像変動性を考慮した軸を分離する。 いくつかの事前訓練された GAN の実証分析では、各位置に関する画像の変動は驚くほど少数の主軸(空間は高い異方性)に沿って集中しており、この大きな変化を生み出す方向は空間内の異なる位置(空間は均質である)で類似している。 最上位固有ベクトルの多くは画像空間の解釈可能な変換に対応しており、固有空間のかなりの部分は圧縮可能なマイナー変換に対応する。 この幾何学的理解は、GAN解釈可能性に関連する重要な前の結果を統一する。 この計量を用いることで、潜在空間においてより効率的な最適化が可能になる(例)。 GANの反転)と、解釈可能な軸の教師なし発見を促進する。 GAN像多様体の幾何を定義することは、GANを理解するための一般的な枠組みとなる。

Generative adversarial networks (GANs) have emerged as a powerful unsupervised method to model the statistical patterns of real-world data sets, such as natural images. These networks are trained to map random inputs in their latent space to new samples representative of the learned data. However, the structure of the latent space is hard to intuit due to its high dimensionality and the non-linearity of the generator, which limits the usefulness of the models. Understanding the latent space requires a way to identify input codes for existing real-world images (inversion), and a way to identify directions with known image transformations (interpretability). Here, we use a geometric framework to address both issues simultaneously. We develop an architecture-agnosti c method to compute the Riemannian metric of the image manifold created by GANs. The eigen-decomposition of the metric isolates axes that account for different levels of image variability. An empirical analysis of several pretrained GANs shows that image variation around each position is concentrated along surprisingly few major axes (the space is highly anisotropic) and the directions that create this large variation are similar at different positions in the space (the space is homogeneous). We show that many of the top eigenvectors correspond to interpretable transforms in the image space, with a substantial part of eigenspace corresponding to minor transforms which could be compressed out. This geometric understanding unifies key previous results related to GAN interpretability. We show that the use of this metric allows for more efficient optimization in the latent space (e.g. GAN inversion) and facilitates unsupervised discovery of interpretable axes. Our results illustrate that defining the geometry of the GAN image manifold can serve as a general framework for understanding GANs.
翻訳日:2021-03-28 19:42:09 公開日:2021-03-18
# (参考訳) Few-Shot行動認識のための時間関係クロストランス [全文訳有]

Temporal-Relational CrossTransformers for Few-Shot Action Recognition ( http://arxiv.org/abs/2101.06184v2 )

ライセンス: CC BY 4.0
Toby Perrett and Alessandro Masullo and Tilo Burghardt and Majid Mirmehdi and Dima Damen(参考訳) 提案手法は,クエリとビデオ間の時間的対応のフレームタプルを,サポートセット内で検出するものである。 先行作とは別として,クラス平均や単一ベストマッチではなく,全サポートビデオの関連サブシーケンスを観察するためにクロストランスフォーマアアテンション機構を用いたクラスプロトタイプを構築した。 ビデオ表現は、異なる速度でのアクションのサブシーケンスと時間オフセットの比較を可能にする、さまざまなフレーム数の順序タプルから形成される。 提案するTRX(Temporal-Relatio nal Cross Transformers)は,数発のkinetics, something-Something V2 (SSv2), HMDB51, UCF101の分割に対して,最先端の結果が得られる。 本手法は,時間的関係をモデル化する能力により,SSv2の先行研究を12%の差で上回っている。 詳細なアブレーションでは、複数のサポートセットビデオとマッチングし、高階リレーショナルCrossTransformerを学ぶことの重要性が示されている。

We propose a novel approach to few-shot action recognition, finding temporally-correspon ding frame tuples between the query and videos in the support set. Distinct from previous few-shot works, we construct class prototypes using the CrossTransformer attention mechanism to observe relevant sub-sequences of all support videos, rather than using class averages or single best matches. Video representations are formed from ordered tuples of varying numbers of frames, which allows sub-sequences of actions at different speeds and temporal offsets to be compared. Our proposed Temporal-Relational CrossTransformers (TRX) achieve state-of-the-art results on few-shot splits of Kinetics, Something-Something V2 (SSv2), HMDB51 and UCF101. Importantly, our method outperforms prior work on SSv2 by a wide margin (12%) due to the its ability to model temporal relations. A detailed ablation showcases the importance of matching to multiple support set videos and learning higher-order relational CrossTransformers.
翻訳日:2021-03-28 15:11:15 公開日:2021-03-18
# ランダム化アンサンブルダブルq-learning:モデルなしで素早く学習する

Randomized Ensembled Double Q-Learning: Learning Fast Without a Model ( http://arxiv.org/abs/2101.05982v2 )

ライセンス: Link先を確認
Xinyue Chen, Che Wang, Zijian Zhou, Keith Ross(参考訳) アップデート・トゥ・データ(UTD)比の高いモデルベース手法は,最近,従来の連続動作DRLベンチマークのモデルフリー手法よりもはるかに高いサンプリング効率を実現している。 本稿では,単純なモデルフリーアルゴリズムであるRandomized Ensembled Double Q-Learning (REDQ)を導入し,その性能が MuJoCo ベンチマークの最先端モデルベースアルゴリズムと同等であることを示す。 さらに、REDQはこの性能をモデルベースの手法よりも少ないパラメータで実現でき、ウォールタイムのランタイムも少ない。 i) UTD比 > 1; (ii) Q 関数のアンサンブル; (iii) Q 関数のランダムな部分集合に対するターゲット内最小化。 慎重に設計した実験を通して、REDQと関連するモデルフリーアルゴリズムの詳細な分析を行う。 我々の知る限り、REDQ は UTD 比 > 1 を用いた連続作用空間に対する最初のモデルフリーDRLアルゴリズムである。

Using a high Update-To-Data (UTD) ratio, model-based methods have recently achieved much higher sample efficiency than previous model-free methods for continuous-action DRL benchmarks. In this paper, we introduce a simple model-free algorithm, Randomized Ensembled Double Q-Learning (REDQ), and show that its performance is just as good as, if not better than, a state-of-the-art model-based algorithm for the MuJoCo benchmark. Moreover, REDQ can achieve this performance using fewer parameters than the model-based method, and with less wall-clock run time. REDQ has three carefully integrated ingredients which allow it to achieve its high performance: (i) a UTD ratio >> 1; (ii) an ensemble of Q functions; (iii) in-target minimization across a random subset of Q functions from the ensemble. Through carefully designed experiments, we provide a detailed analysis of REDQ and related model-free algorithms. To our knowledge, REDQ is the first successful model-free DRL algorithm for continuous-action spaces using a UTD ratio >> 1.
翻訳日:2021-03-28 11:26:12 公開日:2021-03-18
# in defense of pseudo-labeling: an uncertainty-aware pseudo-label selection framework for semi-supervised learning

In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label Selection Framework for Semi-Supervised Learning ( http://arxiv.org/abs/2101.06329v2 )

ライセンス: Link先を確認
Mamshad Nayeem Rizve, Kevin Duarte, Yogesh S Rawat, Mubarak Shah(参考訳) 半教師付き学習(SSL)の最近の研究は、高いパフォーマンスを実現する一貫性の正規化に基づく手法が主である。 しかし、すべてのデータモダリティに対して簡単には生成できないドメイン固有のデータ拡張に大きく依存しています。 Pseudo-labeling (PL) は、この制約を持たない一般的なSSLアプローチである。 これらの予測は多くの誤った擬似ラベルを生成し、騒がしいトレーニングへと繋がる。 そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。 さらに、upsは偽ラベル処理を一般化し、負の偽ラベルを作成することが可能であり、これらの負の偽ラベルは、複数のラベルの分類や負の学習に使用して、シングルラベルの分類を改善することができる。 CIFAR-10 および CIFAR-100 データセットにおける最近のSSL 手法と比較して,高い性能を実現する。 また,ビデオデータセット UCF-101 とマルチラベルデータセット Pascal VOC に対して,本手法の有効性を示す。

The recent research in semi-supervised learning (SSL) is mostly dominated by consistency regularization based methods which achieve strong performance. However, they heavily rely on domain-specific data augmentations, which are not easy to generate for all data modalities. Pseudo-labeling (PL) is a general SSL approach that does not have this constraint but performs relatively poorly in its original formulation. We argue that PL underperforms due to the erroneous high confidence predictions from poorly calibrated models; these predictions generate many incorrect pseudo-labels, leading to noisy training. We propose an uncertainty-aware pseudo-label selection (UPS) framework which improves pseudo labeling accuracy by drastically reducing the amount of noise encountered in the training process. Furthermore, UPS generalizes the pseudo-labeling process, allowing for the creation of negative pseudo-labels; these negative pseudo-labels can be used for multi-label classification as well as negative learning to improve the single-label classification. We achieve strong performance when compared to recent SSL methods on the CIFAR-10 and CIFAR-100 datasets. Also, we demonstrate the versatility of our method on the video dataset UCF-101 and the multi-label dataset Pascal VOC.
翻訳日:2021-03-28 11:24:21 公開日:2021-03-18
# (参考訳) 交通量推定と予測のためのビッグデータ:データとツールの調査 [全文訳有]

Big Data for Traffic Estimation and Prediction: A Survey of Data and Tools ( http://arxiv.org/abs/2103.11824v1 )

ライセンス: CC BY 4.0
Weiwei Jiang, Jiayun Luo(参考訳) ビッグデータは交通産業を含む多くの地域で広く利用されている。 様々なデータソースを用いて、トラフィック状態を適切に推定し、全体の運用効率を改善するためにさらに予測することができる。 この傾向と合わせて,交通量推定と予測に使用されるオープンデータとビッグデータツールの最新の調査を行った。 異なるデータ型が分類され、オフザシェルフツールが導入される。 交通量推定および予測タスクにおけるビッグデータの利用をさらに促進するために、今後の研究のために課題と今後の方向性を示す。

Big data has been used widely in many areas including the transportation industry. Using various data sources, traffic states can be well estimated and further predicted for improving the overall operation efficiency. Combined with this trend, this study presents an up-to-date survey of open data and big data tools used for traffic estimation and prediction. Different data types are categorized and the off-the-shelf tools are introduced. To further promote the use of big data for traffic estimation and prediction tasks, challenges and future directions are given for future studies.
翻訳日:2021-03-26 07:10:41 公開日:2021-03-18
# (参考訳) 最適化難読化を用いた逆プログラム生成 [全文訳有]

Generating Adversarial Computer Programs using Optimized Obfuscations ( http://arxiv.org/abs/2103.11882v1 )

ライセンス: CC BY 4.0
Shashank Srikant, Sijia Liu, Tamara Mitrovska, Shiyu Chang, Quanfu Fan, Gaoyuan Zhang, Una-May O'Reilly(参考訳) コンピュータプログラムの特性を学習し、予測する機械学習(ML)モデルの採用とデプロイが増えている。 これらのモデルは、コードの自動補完、大規模なプログラムの要約、プログラム内のバグやマルウェアの検出などのアプリケーションで成功している。 本研究では,このような学習モデルを騙すために,コンピュータプログラムの逆摂動を原理的に検討し,その逆の堅牢性を決定する。 我々は,逆エンジニアリングプログラムの試行を避けるために,従来のプログラム難読化手法を用いている。 これらの摂動は、機能を変更せずに、意思決定時にmlモデルをだますようにプログラムを変更することができる。 任意の言語でプログラムに複数の難読化変換を適用することができる敵プログラムの一般的な定式化を提供する。 プログラムのどの部分が変換し、どの変換を行うかという2つの重要な側面を効率的に決定する一階最適化アルゴリズムを開発した。 これら2つの側面を最適化して、最適な対向的摂動プログラムを生成することが重要であることを示す。 また,この問題の離散的性質から,ランダム化平滑化を用いた攻撃損失環境の改善と最適化の容易化を提案する。 我々は,プログラム要約の問題に関して,python と java プログラムの作業を評価する。 我々は,Seq2seqモデルでトレーニングしたプログラムに対して,最先端の攻撃生成アプローチに対して,最高の攻撃提案が5,2 %$の改善を実現していることを示す。 さらに、我々の定式化は敵の攻撃に対して堅牢な訓練モデルに優れていることを示す。

Machine learning (ML) models that learn and predict properties of computer programs are increasingly being adopted and deployed. These models have demonstrated success in applications such as auto-completing code, summarizing large programs, and detecting bugs and malware in programs. In this work, we investigate principled ways to adversarially perturb a computer program to fool such learned models, and thus determine their adversarial robustness. We use program obfuscations, which have conventionally been used to avoid attempts at reverse engineering programs, as adversarial perturbations. These perturbations modify programs in ways that do not alter their functionality but can be crafted to deceive an ML model when making a decision. We provide a general formulation for an adversarial program that allows applying multiple obfuscation transformations to a program in any language. We develop first-order optimization algorithms to efficiently determine two key aspects -- which parts of the program to transform, and what transformations to use. We show that it is important to optimize both these aspects to generate the best adversarially perturbed program. Due to the discrete nature of this problem, we also propose using randomized smoothing to improve the attack loss landscape to ease optimization. We evaluate our work on Python and Java programs on the problem of program summarization. We show that our best attack proposal achieves a $52\%$ improvement over a state-of-the-art attack generation approach for programs trained on a seq2seq model. We further show that our formulation is better at training models that are robust to adversarial attacks.
翻訳日:2021-03-26 06:48:46 公開日:2021-03-18
# 人工知能のナラティブ:現状の展望

Artificial Intelligence Narratives: An Objective Perspective on Current Developments ( http://arxiv.org/abs/2103.11961v1 )

ライセンス: Link先を確認
Noah Klarmann(参考訳) この研究は、人工知能(AI)の全体像をより深く理解することに関心を持つ研究者にとって、出発点となる。 この目的のために、読者は、公的なコミュニケーションを支配する偽の約束のない現在の発展に対する客観的な視点を発達させることができる物語が伝えられる。 読者にとって重要なポイントは、AIは様々な方法、思考の流派、そしてそれぞれの歴史的運動を含む傘用語として理解されなければならないことである。 これにより、その主題の特徴となる様々な側面を提示することにより、AIの分野を導入するボトムアップ戦略が追求される。 本稿では,<i> 虚偽の公開物語の現況に関する議論, (ii) 繰り返しパターンと主特徴に着目したaiの歴史の紹介, (iii) 強い(er) aiの出現可能性の文脈における現在の手法の限界に関する批判的な議論,の3つの部分から構成する。 注意すべきなのは、この作品がこれらの側面を全体的にカバーしていないことであり、その内容は著者による選択であり、ディダクティックな戦略の対象である。

This work provides a starting point for researchers interested in gaining a deeper understanding of the big picture of artificial intelligence (AI). To this end, a narrative is conveyed that allows the reader to develop an objective view on current developments that is free from false promises that dominate public communication. An essential takeaway for the reader is that AI must be understood as an umbrella term encompassing a plethora of different methods, schools of thought, and their respective historical movements. Consequently, a bottom-up strategy is pursued in which the field of AI is introduced by presenting various aspects that are characteristic of the subject. This paper is structured in three parts: (i) Discussion of current trends revealing false public narratives, (ii) an introduction to the history of AI focusing on recurring patterns and main characteristics, and (iii) a critical discussion on the limitations of current methods in the context of the potential emergence of a strong(er) AI. It should be noted that this work does not cover any of these aspects holistically; rather, the content addressed is a selection made by the author and subject to a didactic strategy.
翻訳日:2021-03-23 14:38:59 公開日:2021-03-18
# (参考訳) 粒子分布伝播を用いたコーンビームCTからの人工内耳電極の局在 [全文訳有]

Localization of Cochlear Implant Electrodes from Cone Beam Computed Tomography using Particle Belief Propagation ( http://arxiv.org/abs/2103.10434v1 )

ライセンス: CC BY 4.0
Hendrik Hachmann, Benjamin Kr\"uger, Bodo Rosenhahn and Waldo Nogueira(参考訳) 人工内耳(英: cochlear implants、cis)は、難聴者の聴感を回復する医療機器である。 ciは、人工内耳の内部に配置された一連の電極接触を使用して、電流パルスで聴覚神経を刺激する。 これらの電極の正確な位置は、これらのデバイスの性能を改善し予測する上で重要なパラメータとなるかもしれない。 現在、人工内耳の形状を特徴付けるためにクリニックで用いられる方法や、電極の位置を推定する手法は、手作業、エラー発生、時間消費である。 コーンビーム計算トモグラフィー(CBCT)データセットに対するCI電極位置決めのためのマルコフランダムフィールド(MRF)モデルを提案する。 電極の強度と形状は、接触間の距離と角度と同様に、事前の知識として含まれる。 MRF推論はスライスサンプリング粒子信念の伝播に基づいており、いくつかのヒューリスティックスによって導かれる。 確率的探索により,標本化MRFの最大後値推定値を求める。 合成および実CBCTデータセット上でのアルゴリズムの評価を行い,その性能を2つの技術アルゴリズムと比較した。 CBCTの実際のデータセットでは、それぞれ31.5%(平均)または48.6%(中間)のローカライゼーション精度が向上している。

Cochlear implants (CIs) are implantable medical devices that can restore the hearing sense of people suffering from profound hearing loss. The CI uses a set of electrode contacts placed inside the cochlea to stimulate the auditory nerve with current pulses. The exact location of these electrodes may be an important parameter to improve and predict the performance with these devices. Currently the methods used in clinics to characterize the geometry of the cochlea as well as to estimate the electrode positions are manual, error-prone and time consuming. We propose a Markov random field (MRF) model for CI electrode localization for cone beam computed tomography (CBCT) data-sets. Intensity and shape of electrodes are included as prior knowledge as well as distance and angles between contacts. MRF inference is based on slice sampling particle belief propagation and guided by several heuristics. A stochastic search finds the best maximum a posteriori estimation among sampled MRF realizations. We evaluate our algorithm on synthetic and real CBCT data-sets and compare its performance with two state of the art algorithms. An increase of localization precision up to 31.5% (mean), or 48.6% (median) respectively, on real CBCT data-sets is shown.
翻訳日:2021-03-23 00:00:47 公開日:2021-03-18
# (参考訳) 部分ラテン二乗拡大問題に対する大規模並列ハイブリッド探索 [全文訳有]

Massively parallel hybrid search for the partial Latin square extension problem ( http://arxiv.org/abs/2103.10453v1 )

ライセンス: CC BY 4.0
Olivier Goudet and Jin-Kao Hao(参考訳) 部分的なラテン正方形拡張問題は、可能な限り多くのラテン正方形の空セルを埋めることである。 この問題は、多様なドメインにおける幅広い関連するアプリケーションにとって有用なモデルである。 本稿では,この問題から部分グラフ彩色への変換に基づく,この計算上困難な問題に対する最初の超並列ハイブリッド探索アルゴリズムを提案する。 このアルゴリズムは以下の元要素を特徴としている。 膨大な人口(10^4$個人以上)と現代のグラフィカルな処理ユニットに基づいて、アルゴリズムは多くのローカル検索を並行して実行し、検索空間の強化された利用を確実にする。 特定の親マッチング戦略と専用のクロスオーバーを使用して、各世代で多種多様で情報保存された子孫を生成する。 1800のベンチマークインスタンスに対する大規模な実験は、アルゴリズムの競争力が高いことを示している。 競合の結果は、関連するラテン正方形補完問題でも報告されている。 分析は、主要なアルゴリズムコンポーネントの理解に基づいて光を遮る。 アルゴリズムのコードは公開される予定だ。

The partial Latin square extension problem is to fill as many as possible empty cells of a partially filled Latin square. This problem is a useful model for a wide range of relevant applications in diverse domains. This paper presents the first massively parallel hybrid search algorithm for this computationally challenging problem based on a transformation of the problem to partial graph coloring. The algorithm features the following original elements. Based on a very large population (with more than $10^4$ individuals) and modern graphical processing units, the algorithm performs many local searches in parallel to ensure an intensified exploitation of the search space. It employs a dedicated crossover with a specific parent matching strategy to create a large number of diversified and information-preservi ng offspring at each generation. Extensive experiments on 1800 benchmark instances show a high competitiveness of the algorithm compared with the current best performing methods. Competitive results are also reported on the related Latin square completion problem. Analyses are performed to shed lights on the understanding of the main algorithmic components. The code of the algorithm will be made publicly available.
翻訳日:2021-03-22 23:47:18 公開日:2021-03-18
# (参考訳) 非コンフォーミングデータに対する動的カーネルマッチング:T細胞受容体データセットのケーススタディ

Dynamic Kernel Matching for Non-conforming Data: A Case Study of T-cell Receptor Datasets ( http://arxiv.org/abs/2103.10472v1 )

ライセンス: CC BY 4.0
Jared Ostmeyer, Scott Christley, Lindsay Cowell(参考訳) ほとんどの統計分類器は、数値がスプレッドシートのように行や列に収まるようなデータのパターンを見つけるように設計されているが、多くの種類のデータがこの構造に従わない。 非コンフォーミングデータのパターンを明らかにするために,確立された統計分類器を動的カーネルマッチング(dkm)と呼ぶ非コンフォーミングデータを扱うために修正する手法を提案する。 非コンフォーミングデータの例として, (i) 疾患抗原をラベル付けしたT細胞受容体 (TCR) 配列のデータセット, (ii) 患者サイトメガロウイルス (CMV) セロスタテスをラベル付けしたTCRレパートリーのデータセットを考察し, どちらのデータセットも疾患の診断のためのシグネチャを含んでいると予測した。 dkmで拡張された統計分類器を両データセットに適合させ,標準メトリクスと標準メトリクスを用いてホールドアウトデータのパフォーマンスを報告し,不確定診断を可能にした。 最後に,統計的分類器による予測パターンを同定し,これらのパターンが実験結果と一致することを示す。

Most statistical classifiers are designed to find patterns in data where numbers fit into rows and columns, like in a spreadsheet, but many kinds of data do not conform to this structure. To uncover patterns in non-conforming data, we describe an approach for modifying established statistical classifiers to handle non-conforming data, which we call dynamic kernel matching (DKM). As examples of non-conforming data, we consider (i) a dataset of T-cell receptor (TCR) sequences labelled by disease antigen and (ii) a dataset of sequenced TCR repertoires labelled by patient cytomegalovirus (CMV) serostatus, anticipating that both datasets contain signatures for diagnosing disease. We successfully fit statistical classifiers augmented with DKM to both datasets and report the performance on holdout data using standard metrics and metrics allowing for indeterminant diagnoses. Finally, we identify the patterns used by our statistical classifiers to generate predictions and show that these patterns agree with observations from experimental studies.
翻訳日:2021-03-22 23:24:53 公開日:2021-03-18
# (参考訳) 電子医療における教師なしドップラーレーダーによる活動認識 [全文訳有]

Unsupervised Doppler Radar-Based Activity Recognition for e-healthcare ( http://arxiv.org/abs/2103.10478v1 )

ライセンス: CC BY 4.0
Yordanka Karayaneva, Sara Sharifzadeh, Wenda Li, Yanguo Jing, Bo Tan(参考訳) 近年,高齢化が進む中,高齢者の日常生活活動の受動無線(RF)センシングとモニタリングが注目されている。 マイクロドップラーレーダーは、その非侵入性、深い浸透性、長距離範囲を考慮した魅力的なソリューションである。 本研究では,ドップラーストリームを用いたヒューマンアクティビティモニタリングのための教師なしフレームワークを提案する。 ドップラー画像の畳み込みフィルタリングとテクスチャ解析に基づく2つの教師なし特徴抽出戦略を検討する。 前者は、畳み込み変分オートエンコーダ(CVAE)を用いた符号化された特徴と、畳み込みオートエンコーダ(CAE)の機能を比較する。 後者はGrey-Level Co-occurrence Matrix (GLCM) を用いる。 これらの方法は、主成分分析(PCA)と特異値分解(SVD)に基づく教師なし線形特徴抽出と比較される。 これらの特徴を用いて、教師なしサンプルクラスタリングはK-MeansとK-Medoidsを用いて実行される。 実際のラベルは評価と視覚化にのみ使用される。 その結果,K-MeansおよびK-Medoidsを用いたGLCMに基づくテクスチャ特性を用いて,CVAE特性の平均テスト精度82.5%,平均テスト精度77.5%,平均テスト精度72.5%を示した。 その結果, PCA, SVD, CAEに比べ, CVAE, GLCMが20%以上の精度で優れていた。 さらに、高次元データ可視化では、t-Distributed Stochastic Neighbour Embedding (t-SNE)、Multidimensional Scaling (MDS)、Locally Linear Embedding (LLE)の3つの多様体学習手法が検討されている。 生データの投影とCVAEを用いた符号化特徴の可視化手法を比較した。 変換されたcvaeデータに適用すると,これら3つの手法で視覚能力が向上する。

Passive radio frequency (RF) sensing and monitoring of human daily activities in elderly care homes has recently become an emerging topic due to the demand with ageing population. Micro-Doppler radars are an appealing solution considering their non-intrusiveness, deep penetration, and high-distance range. This study presents an unsupervised framework for human activity monitoring using Doppler streams. Two unsupervised feature extraction strategies based on convolutional filtering and texture analysis of Doppler images are considered. For the former, encoded features using Convolutional Variational Autoencoder (CVAE) are compared with Convolutional Autoencoder (CAE) features. For the latter, Grey-Level Co-occurrence Matrix (GLCM) is used. These methods are further compared with unsupervised linear feature extraction based on Principal Component Analysis (PCA) and Singular Value Decomposition (SVD). Using these features, unsupervised samples clustering is performed using K-Means and K-Medoids. Actual labels are solely used for evaluation and visualisation. The results showcase 82.5% and 84% average testing accuracies for CVAE features and 77.5% and 72.5% average testing accuracy using texture features based on GLCM using K-Means and K-Medoids respectively. The results show superiority of CVAE and GLCM features compared to PCA, SVD, and CAE with more than 20% average accuracy. Furthermore, for high-dimensional data visualisation, three manifold learning techniques are considered including t-Distributed Stochastic Neighbour Embedding (t-SNE), Multidimensional Scaling (MDS), and Locally Linear Embedding (LLE). The visualisation methods are compared for projection of raw data as well as the encoded features using CVAE. All three methods show an improved visualisation ability when applied on the transformed CVAE data.
翻訳日:2021-03-22 23:23:50 公開日:2021-03-18
# (参考訳) 読書は信じない:マルチモーダルニューロンに対する敵対的攻撃 [全文訳有]

Reading Isn't Believing: Adversarial Attacks On Multi-Modal Neurons ( http://arxiv.org/abs/2103.10480v1 )

ライセンス: CC BY-SA 4.0
David A. Noever, Samantha E. Miller Noever(参考訳) Open AIのCLIPモデル(Contrastive Language- Image Pre-training)の公開により、マルチモーダルニューラルネットワークは、読み取りと視覚認識を組み合わせたアクセス可能なモデルを提供する。 彼らのネットワークは、視覚オブジェクトを分類しながらテキストを読む2つの能力を調べる新しい方法を提供する。 本稿では,モデルを騙して虚偽あるいは不条理な分類を行うための基本的なタイポグラフィー的,概念的,図像的入力にまたがる,敵対的攻撃のいくつかの新しいカテゴリを示す。 矛盾するテキストと画像信号は、モデルを混乱させ、誤った(視覚的)オプションを選択することができることを実証する。 以前の著者と同様に、CLIPモデルが最初に読む傾向があり、後から見れば、読書が信じていないと記述する現象であることを示している。

With Open AI's publishing of their CLIP model (Contrastive Language-Image Pre-training), multi-modal neural networks now provide accessible models that combine reading with visual recognition. Their network offers novel ways to probe its dual abilities to read text while classifying visual objects. This paper demonstrates several new categories of adversarial attacks, spanning basic typographical, conceptual, and iconographic inputs generated to fool the model into making false or absurd classifications. We demonstrate that contradictory text and image signals can confuse the model into choosing false (visual) options. Like previous authors, we show by example that the CLIP model tends to read first, look later, a phenomenon we describe as reading isn't believing.
翻訳日:2021-03-22 23:05:34 公開日:2021-03-18
# (参考訳) 3次元表現学習のための同心球形gnn [全文訳有]

Concentric Spherical GNN for 3D Representation Learning ( http://arxiv.org/abs/2103.10484v1 )

ライセンス: CC BY 4.0
James Fox, Bo Zhao, Sivasankaran Rajamanickam, Rampi Ramprasad, Le Song(参考訳) 任意指向の入力にうまく一般化した3d表現の学習は、コンピュータビジョンから物理学、化学まで様々な応用において実際的に重要な課題である。 本論文では,単一球面表現が特別な場合である同心球面特徴写像を学習するための,新しいマルチレゾリューション畳み込み構造を提案する。 我々の階層的アーキテクチャは、球内情報と球間情報の両方を組み込むための代替学習に基づいている。 本稿では,2種類の3次元入力,メッシュオブジェクト,不規則に分布する点雲に適用可能性を示す。 また,同心球面画像への点雲の効率的なマッピングを提案し,一般の点雲を持つ格子上に球面畳み込みをブリッジする。 回転データを用いた3次元分類作業における最先端性能向上へのアプローチの有効性を示す。

Learning 3D representations that generalize well to arbitrarily oriented inputs is a challenge of practical importance in applications varying from computer vision to physics and chemistry. We propose a novel multi-resolution convolutional architecture for learning over concentric spherical feature maps, of which the single sphere representation is a special case. Our hierarchical architecture is based on alternatively learning to incorporate both intra-sphere and inter-sphere information. We show the applicability of our method for two different types of 3D inputs, mesh objects, which can be regularly sampled, and point clouds, which are irregularly distributed. We also propose an efficient mapping of point clouds to concentric spherical images, thereby bridging spherical convolutions on grids with general point clouds. We demonstrate the effectiveness of our approach in improving state-of-the-art performance on 3D classification tasks with rotated data.
翻訳日:2021-03-22 22:55:12 公開日:2021-03-18
# (参考訳) deepreinforcement learning を用いた医用ctデータ拡張のための画像合成 [全文訳有]

Image Synthesis for Data Augmentation in Medical CT using DeepReinforcement Learning ( http://arxiv.org/abs/2103.10493v1 )

ライセンス: CC BY 4.0
Arjun Krishna, Kedar Bartake, Chuang Niu, Ge Wang, Youfang Lai, Xun Jia, Klaus Mueller(参考訳) ディープラーニングは、特に低線量イメージングと統合診断を可能にするために、ct画像再構成に非常に有望である。 しかし、これらのメリットは、これらのニューラルネットワークのトレーニングに必要な多様な画像データの可用性の低さと非常に相反する。 我々は,このボトルネックを,DRLが解剖学的形状を生成し,STがテクスチャの詳細を合成するスタイル・トランスファー(ST)手法と統合した深層強化学習(DRL)アプローチにより克服することを提案する。 本手法は, 新規かつ解剖学的に高精度な高解像度CT画像の大量かつ多種多様な生成に有効であることを示す。 私たちのアプローチは、多くの研究者が利用できる画像データが少ないことを考えると、小さな画像データセットでも動作するように設計されています。

Deep learning has shown great promise for CT image reconstruction, in particular to enable low dose imaging and integrated diagnostics. These merits, however, stand at great odds with the low availability of diverse image data which are needed to train these neural networks. We propose to overcome this bottleneck via a deep reinforcement learning (DRL) approach that is integrated with a style-transfer (ST) methodology, where the DRL generates the anatomical shapes and the ST synthesizes the texture detail. We show that our method bears high promise for generating novel and anatomically accurate high resolution CT images at large and diverse quantities. Our approach is specifically designed to work with even small image datasets which is desirable given the often low amount of image data many researchers have available to them.
翻訳日:2021-03-22 22:42:09 公開日:2021-03-18
# (参考訳) Naive Automated Machine Learning - AutoMLの後期ベースライン

Naive Automated Machine Learning -- A Late Baseline for AutoML ( http://arxiv.org/abs/2103.10496v1 )

ライセンス: CC BY 4.0
Felix Mohr, Marcel Wever(参考訳) 自動機械学習(automl)は、与えられたデータセット上で最適な一般化パフォーマンスを備えたパイプラインを自動的に発見する問題である。 automlは過去10年間で大きな注目を集めており、ベイズ最適化、文法に基づく遺伝的アルゴリズム、木探索アルゴリズムなどの高度なブラックボックス最適化技術で対処されている。 このようなアプローチとは対照的に、automlの非常にシンプルなソリューションであるnaive automl(ナイーブ・オートml)を紹介します。 Naive AutoMLは高度に洗練されたブラックボックスソルバのベースラインと見なすことができるが、これらのソルバがNaive AutoMLを上回ることができないことを実証的に示す。 一方、Naive AutoMLには、解釈可能性や柔軟性といった強力なアドバンテージがあり、現在のツールには大きな課題があります。

Automated Machine Learning (AutoML) is the problem of automatically finding the pipeline with the best generalization performance on some given dataset. AutoML has received enormous attention in the last decade and has been addressed with sophisticated black-box optimization techniques such as Bayesian Optimization, Grammar-Based Genetic Algorithms, and tree search algorithms. In contrast to those approaches, we present Naive AutoML, a very simple solution to AutoML that exploits important meta-knowledge about machine learning problems and makes simplifying, yet, effective assumptions to quickly come to high-quality solutions. While Naive AutoML can be considered a baseline for the highly sophisticated black-box solvers, we empirically show that those solvers are not able to outperform Naive AutoML; sometimes the contrary is true. On the other hand, Naive AutoML comes with strong advantages such as interpretability and flexibility and poses a strong challenge to current tools.
翻訳日:2021-03-22 22:36:29 公開日:2021-03-18
# (参考訳) 金融サービスにおける公正な機械学習のための隠れた技術的負債 [全文訳有]

Hidden Technical Debts for Fair Machine Learning in Financial Services ( http://arxiv.org/abs/2103.10510v1 )

ライセンス: CC BY 4.0
Chong Huang, Arash Nourian, Kevin Griest(参考訳) 機械学習(ML)の最近の進歩は、短時間で複雑な予測システムを構築するための強力なソリューションを提供する可能性を示している。 しかし、金融技術(フィンテック)などの高度に規制された業界では、特定の保護されたグループや個人に対して差別するMLシステムのリスクが懸念されている。 これらの懸念に対処するため、研究者は様々な数学的公正度とバイアス軽減アルゴリズムを導入した。 本稿では,フィンテック生産環境における隠れた技術的負債と公正なmlシステム構築の課題について述べる。 MLシステムの開発と展開ライフサイクルの公平性に注意を要するさまざまな段階について検討する。 Fintechの公正なMLシステム構築に存在する隠された技術的負債を特定するために、私たちは、データ準備、モデル開発、システム監視、本番環境での統合など、重要なパイプラインステージに注目します。 分析の結果,Fintechにおける実運用対応MLシステムの公正性向上には,MLシステムのライフサイクルの異なる段階において,特定のエンジニアリングのコミットメントが必要であることがわかった。 また,本番環境に公平なmlシステムをデプロイするための技術的負債を軽減するために,いくつかの初期出発点を提案する。

The recent advancements in machine learning (ML) have demonstrated the potential for providing a powerful solution to build complex prediction systems in a short time. However, in highly regulated industries, such as the financial technology (Fintech), people have raised concerns about the risk of ML systems discriminating against specific protected groups or individuals. To address these concerns, researchers have introduced various mathematical fairness metrics and bias mitigation algorithms. This paper discusses hidden technical debts and challenges of building fair ML systems in a production environment for Fintech. We explore various stages that require attention for fairness in the ML system development and deployment life cycle. To identify hidden technical debts that exist in building fair ML system for Fintech, we focus on key pipeline stages including data preparation, model development, system monitoring and integration in production. Our analysis shows that enforcing fairness for production-ready ML systems in Fintech requires specific engineering commitments at different stages of ML system life cycle. We also propose several initial starting points to mitigate these technical debts for deploying fair ML systems in production.
翻訳日:2021-03-22 22:35:22 公開日:2021-03-18
# (参考訳) タスク指向対話のための雑音チャネルモデルの事前学習 [全文訳有]

Pretraining the Noisy Channel Model for Task-Oriented Dialogue ( http://arxiv.org/abs/2103.10518v1 )

ライセンス: CC BY 4.0
Qi Liu, Lei Yu, Laura Rimell, Phil Blunsom(参考訳) タスク指向対話の直接的なデコーディングは、短い応答と一般的な応答を好むモデルに現れる説明-回避効果に苦しむことが知られている。 ここでは、対話タスクを2つのモデルに分解するベイズ定理(英語版)、応答が与えられたコンテキストの分布、応答自身に対する前置(英語版)を用いることを議論する。 このアプローチは、ノイズチャネルモデルのインスタンス化であり、どちらも説明アウト効果を緩和し、応答前の大きな事前学習モデルの原則化を可能にする。 本稿では、直接復号化よりもノイズの多いチャネルモデルをデコードし、オープンドメインとタスク指向の対話データを用いた2段階事前学習戦略をランダムに初期化モデルよりも改善することを示す。

Direct decoding for task-oriented dialogue is known to suffer from the explaining-away effect, manifested in models that prefer short and generic responses. Here we argue for the use of Bayes' theorem to factorize the dialogue task into two models, the distribution of the context given the response, and the prior for the response itself. This approach, an instantiation of the noisy channel model, both mitigates the explaining-away effect and allows the principled incorporation of large pretrained models for the response prior. We present extensive experiments showing that a noisy channel model decodes better responses compared to direct decoding and that a two stage pretraining strategy, employing both open-domain and task-oriented dialogue data, improves over randomly initialized models.
翻訳日:2021-03-22 22:24:13 公開日:2021-03-18
# (参考訳) s3m: siamese stack (trace) similarity measure [全文訳有]

S3M: Siamese Stack (Trace) Similarity Measure ( http://arxiv.org/abs/2103.10526v1 )

ライセンス: CC BY 4.0
Aleksandr Khvorov, Roman Vasiliev, George Chernishev, Irving Muller Rodrigues, Dmitrij Koznov, Nikita Povarov(参考訳) 自動クラッシュレポートシステムは、ソフトウェア開発におけるデファクトスタンダードになっている。 これらのシステムはターゲットソフトウェアを監視し、クラッシュが発生した場合、詳細をバックエンドアプリケーションに送る。 その後、これらのレポートは開発プロセスで集約され、1)それが新しい問題なのか既存の問題なのかを理解し、2)これらのバグを適切な開発者に割り当て、3)アプリケーションのバグ状況の概観を得る。 レポート集計とその後の運用の効率は、レポート類似度指標の品質に大きく依存する。 しかしながら、この種のレポートの特徴は、ユーザからのテキスト入力(すなわちバグ記述)が利用できないことだ。 本稿では,深層学習に基づくスタックトレース類似性を計算するための最初のアプローチであるS3M(extreme)を提案する。 BiLSTMエンコーダと完全接続型分類器を用いて類似性を計算したシアムアーキテクチャに基づいている。 我々の実験は、オープンソースデータとプライベートJetBrainsデータセットの両方における最先端のアプローチよりも、私たちのアプローチの方が優れていることを示す。 さらに,スタックトレーストリミングが結果の品質に与える影響についても検討する。

Automatic crash reporting systems have become a de-facto standard in software development. These systems monitor target software, and if a crash occurs they send details to a backend application. Later on, these reports are aggregated and used in the development process to 1) understand whether it is a new or an existing issue, 2) assign these bugs to appropriate developers, and 3) gain a general overview of the application's bug landscape. The efficiency of report aggregation and subsequent operations heavily depends on the quality of the report similarity metric. However, a distinctive feature of this kind of report is that no textual input from the user (i.e., bug description) is available: it contains only stack trace information. In this paper, we present S3M ("extreme") -- the first approach to computing stack trace similarity based on deep learning. It is based on a siamese architecture that uses a biLSTM encoder and a fully-connected classifier to compute similarity. Our experiments demonstrate the superiority of our approach over the state-of-the-art on both open-sourced data and a private JetBrains dataset. Additionally, we review the impact of stack trace trimming on the quality of the results.
翻訳日:2021-03-22 21:53:44 公開日:2021-03-18
# (参考訳) 限定ラベルデータ学習のためのデータ駆動アルゴリズム

Data driven algorithms for limited labeled data learning ( http://arxiv.org/abs/2103.10547v1 )

ライセンス: CC BY 4.0
Maria-Florina Balcan, Dravyansh Sharma(参考訳) 少数のラベル付きサンプルだけで効果的に学習できる学習アルゴリズムを設計するための,新しいデータ駆動型アプローチを検討する。 これはラベルが手に入らない、あるいは高価である現代の機械学習アプリケーションにとって非常に重要である。 類似ノードが類似するラベルを持つ可能性が高いという暗黙の仮定の下で,ラベルのない例がグラフで接続されるグラフベースの手法に注目した。 過去数十年にわたり、グラフといくつかのラベル付き例からラベルなし例のラベルを推測する方法に関するエレガントなグラフベースの半教師付き能動的学習アルゴリズムが提案されている。 しかし、グラフの作成方法(これらの手法の実用性に大きな影響を与える)の問題は、ドメイン固有の技術やヒューリスティックに委ねられ、一般的な原則は提案されていない。 本研究では,グラフ学習のための新しいデータ駆動型アプローチを提案し,分散学習とオンライン学習の両形式化において強力な形式的保証を提供する。 同じドメインの新しいインスタンスでうまく機能するグラフのパラメトリックファミリからグラフハイパーパラメータを学ぶために、基盤となる問題ドメインから発生する問題インスタンスをどのように活用するかを示す。 オンライン環境では,少ない後悔と効率のよいアルゴリズムが得られ,分散環境では一般化が保証される。 また、いくつかの非常に異なる類似度メトリクスを結合し、複数のハイパーパラメータを学習する方法を示し、大きな問題のクラスに適用するための一般的な技術を提供する。 私たちは、組み合わさった問題に対するデータ駆動アルゴリズムに対して、半教師付き、アクティブな学習以上の関心を持つように開発するツールやテクニックを期待しています。

We consider a novel data driven approach for designing learning algorithms that can effectively learn with only a small number of labeled examples. This is crucial for modern machine learning applications where labels are scarce or expensive to obtain. We focus on graph-based techniques, where the unlabeled examples are connected in a graph under the implicit assumption that similar nodes likely have similar labels. Over the past decades, several elegant graph-based semi-supervised and active learning algorithms for how to infer the labels of the unlabeled examples given the graph and a few labeled examples have been proposed. However, the problem of how to create the graph (which impacts the practical usefulness of these methods significantly) has been relegated to domain-specific art and heuristics and no general principles have been proposed. In this work we present a novel data driven approach for learning the graph and provide strong formal guarantees in both the distributional and online learning formalizations. We show how to leverage problem instances coming from an underlying problem domain to learn the graph hyperparameters from commonly used parametric families of graphs that perform well on new instances coming from the same domain. We obtain low regret and efficient algorithms in the online setting, and generalization guarantees in the distributional setting. We also show how to combine several very different similarity metrics and learn multiple hyperparameters, providing general techniques to apply to large classes of problems. We expect some of the tools and techniques we develop along the way to be of interest beyond semi-supervised and active learning, for data driven algorithms for combinatorial problems more generally.
翻訳日:2021-03-22 21:42:21 公開日:2021-03-18
# 顔認識のためのディープラーニング技術の最近の進歩

Recent Advances in Deep Learning Techniques for Face Recognition ( http://arxiv.org/abs/2103.10492v1 )

ライセンス: Link先を確認
Md. Tahmid Hasan Fuad, Awal Ahmed Fime, Delowar Sikder, Md. Akil Raihan Iftee, Jakaria Rabbi, Mabrook S. Al-rakhami, Abdu Gumae, Ovishake Sen, Mohtasim Fuad, and Md. Nazrul Islam(参考訳) 近年、研究者は様々なタスクのための多くのディープラーニング(dl)手法を提案しており、特に顔認識(fr)はこれらの手法を用いて大きな飛躍を遂げている。 深いFRシステムは、差別的な顔表現を学ぶためのDL法の階層的アーキテクチャの恩恵を受ける。 したがって、DL技術はFRシステムの最先端性能を大幅に改善し、多種多様な実世界の応用を促進する。 本稿では,様々な種類のdl技術を活用した様々なfrシステムの包括的解析を行い,この領域からの最近の168の貢献を要約する。 本稿では,様々なアルゴリズム,アーキテクチャ,損失関数,アクティベーション関数,データセット,課題,改善アイデア,dlベースのfrシステムの現状と将来動向について述べる。 本稿では,現在の技術状況を理解するための様々なDL手法の詳細な議論を行い,その方法の活性化と損失関数について論じる。 さらに,frタスクに広く使用されているデータセットを要約し,照明,表情,ポーズ変動,咬合に関する課題について考察した。 最後に,frタスクの改善アイデア,現在と将来について考察する。

In recent years, researchers have proposed many deep learning (DL) methods for various tasks, and particularly face recognition (FR) made an enormous leap using these techniques. Deep FR systems benefit from the hierarchical architecture of the DL methods to learn discriminative face representation. Therefore, DL techniques significantly improve state-of-the-art performance on FR systems and encourage diverse and efficient real-world applications. In this paper, we present a comprehensive analysis of various FR systems that leverage the different types of DL techniques, and for the study, we summarize 168 recent contributions from this area. We discuss the papers related to different algorithms, architectures, loss functions, activation functions, datasets, challenges, improvement ideas, current and future trends of DL-based FR systems. We provide a detailed discussion of various DL methods to understand the current state-of-the-art, and then we discuss various activation and loss functions for the methods. Additionally, we summarize different datasets used widely for FR tasks and discuss challenges related to illumination, expression, pose variations, and occlusion. Finally, we discuss improvement ideas, current and future trends of FR tasks.
翻訳日:2021-03-22 14:45:51 公開日:2021-03-18
# 認定システムにおけるホワイトペーパー機械学習

White Paper Machine Learning in Certified Systems ( http://arxiv.org/abs/2103.10529v1 )

ライセンス: Link先を確認
Herv\'e Delseny, Christophe Gabreau, Adrien Gauffriau, Bernard Beaudouin, Ludovic Ponsolle, Lucian Alecu, Hugues Bonnin, Brice Beltran, Didier Duchel, Jean-Brice Ginestet, Alexandre Hervieu, Ghilaine Martinez, Sylvain Pasquet, Kevin Delmas, Claire Pagetti, Jean-Marc Gabriel, Camille Chapdelaine, Sylvaine Picard, Mathieu Damour, Cyril Cappi, Laurent Gard\`es, Florence De Grancey, Eric Jenn, Baptiste Lefevre, Gregory Flandin, S\'ebastien Gerchinovitz, Franck Mamalet, Alexandre Albore(参考訳) 機械学習(ML)は、自動車の運転、音声認識など、現在人間によって実現されている複雑なタスクの一部を、あるいは完全に自動化する最も有望なソリューションの1つである。 また、古典的な実装技術の範囲内で新しい機能を実装し、組み込む機会でもある。 しかし、ML技術は新たな潜在的なリスクをもたらす。 したがって、リスクの増加に価値があると考えられるシステムでのみ適用されています。 実際にML技術は、認証制約に適用されるシステムでの使用を防ぐために、複数の課題を提起する。 しかし、実際の課題は何でしょう? 適切なMLテクニックを選択するか、あるいは新しいエンジニアリングや認定プラクティスを採用することで克服できるだろうか? これらは、DELプロジェクトの一部として、Institut de Recherche Technologique Saint Exup\'ery de Toulouse(IRT)によって設定されたML Certification 3 Workgroup(WG)によって解決された質問である。

Machine Learning (ML) seems to be one of the most promising solution to automate partially or completely some of the complex tasks currently realized by humans, such as driving vehicles, recognizing voice, etc. It is also an opportunity to implement and embed new capabilities out of the reach of classical implementation techniques. However, ML techniques introduce new potential risks. Therefore, they have only been applied in systems where their benefits are considered worth the increase of risk. In practice, ML techniques raise multiple challenges that could prevent their use in systems submitted to certification constraints. But what are the actual challenges? Can they be overcome by selecting appropriate ML techniques, or by adopting new engineering or certification practices? These are some of the questions addressed by the ML Certification 3 Workgroup (WG) set-up by the Institut de Recherche Technologique Saint Exup\'ery de Toulouse (IRT), as part of the DEEL Project.
翻訳日:2021-03-22 14:44:03 公開日:2021-03-18
# 時空間変圧器を用いた3次元ポーズ推定

3D Human Pose Estimation with Spatial and Temporal Transformers ( http://arxiv.org/abs/2103.10455v1 )

ライセンス: Link先を確認
Ce Zheng, Sijie Zhu, Matias Mendieta, Taojiannan Yang, Chen Chen, Zhengming Ding(参考訳) トランスフォーマーアーキテクチャは自然言語処理における選択モデルとなり、画像分類、オブジェクト検出、セマンティックセグメンテーションといったコンピュータビジョンタスクに導入されている。 しかし、人間のポーズ推定の分野では、畳み込みアーキテクチャが依然として支配的である。 本研究では,畳み込み構造を含まない映像における3次元ポーズ推定のための純粋トランスフォーマーであるposeformerを提案する。 近年の視覚トランスフォーマーの発展に触発されて,各フレーム内の人間の関節関係とフレーム間の時間相関を包括的にモデル化し,センターフレームの正確な3次元人間のポーズを出力する空間-時空間トランスフォーマー構造を設計した。 我々は,Human3.6M と MPI-INF-3DHP の2つの一般的なベンチマークデータセットに対して,この手法を定量的に定性的に評価した。 広範な実験により、sponsformerは両方のデータセットで最先端のパフォーマンスを達成している。 コードは \url{https://github.com/z czcwh/PoseFormer} で入手できる。

Transformer architectures have become the model of choice in natural language processing and are now being introduced into computer vision tasks such as image classification, object detection, and semantic segmentation. However, in the field of human pose estimation, convolutional architectures still remain dominant. In this work, we present PoseFormer, a purely transformer-based approach for 3D human pose estimation in videos without convolutional architectures involved. Inspired by recent developments in vision transformers, we design a spatial-temporal transformer structure to comprehensively model the human joint relations within each frame as well as the temporal correlations across frames, then output an accurate 3D human pose of the center frame. We quantitatively and qualitatively evaluate our method on two popular and standard benchmark datasets: Human3.6M and MPI-INF-3DHP. Extensive experiments show that PoseFormer achieves state-of-the-art performance on both datasets. Code is available at \url{https://github.com/z czcwh/PoseFormer}
翻訳日:2021-03-22 14:41:07 公開日:2021-03-18
# 協調d2d局所モデルアグリゲーションを用いた2つの時間スケールハイブリッド連合学習

Two Timescale Hybrid Federated Learning with Cooperative D2D Local Model Aggregations ( http://arxiv.org/abs/2103.10481v1 )

ライセンス: Link先を確認
Frank Po-Chen Lin, Seyyedali Hosseinalipour, Sheikh Shams Azam, Christopher G. Brinton, Nicolo Michelusi(参考訳) フェデレーテッド・ラーニングは、機械学習(ML)モデルのトレーニングを無線エッジに分散する一般的なテクニックとして登場した。 本稿では,フェデレーション学習におけるデバイス間通信パラダイムとモデル学習のためのデバイス間通信(d2d)のハイブリッドであるtt-hf(timescale hybrid federated learning)を提案する。 TT-HFでは,各グローバルアグリゲーション間隔において,デバイス (i) がそれぞれのデータセットに対して複数の確率勾配降下繰り返しを行い, (ii) 局所クラスタ内の協調分散D2D通信を通じて,モデルパラメータのコンセンサス形成に定期的に関与する。 勾配多様性の新しい一般定義により,tt-hf の収束挙動を形式的に研究し,分散 ml に対する新しい収束境界を導出した。 ネットワーク資源利用を最小化しつつ,O(1/t)のサブ線形収束率を目標とし,ステップサイズ,D2D通信ラウンド,TT-HFのグローバルアグリゲーション周期を時間とともに調整する適応制御アルゴリズムを開発する。 実験の結果,tt-hfは,局所的デバイスデータセットが統計的不均一性を示す様々なシナリオにおいて,モデル精度やネットワークエネルギー消費の観点から,現在のフェデレーション学習の技術を著しく上回っていることがわかった。

Federated learning has emerged as a popular technique for distributing machine learning (ML) model training across the wireless edge. In this paper, we propose two timescale hybrid federated learning (TT-HF), which is a hybrid between the device-to-server communication paradigm in federated learning and device-to-device (D2D) communications for model training. In TT-HF, during each global aggregation interval, devices (i) perform multiple stochastic gradient descent iterations on their individual datasets, and (ii) aperiodically engage in consensus formation of their model parameters through cooperative, distributed D2D communications within local clusters. With a new general definition of gradient diversity, we formally study the convergence behavior of TT-HF, resulting in new convergence bounds for distributed ML. We leverage our convergence bounds to develop an adaptive control algorithm that tunes the step size, D2D communication rounds, and global aggregation period of TT-HF over time to target a sublinear convergence rate of O(1/t) while minimizing network resource utilization. Our subsequent experiments demonstrate that TT-HF significantly outperforms the current art in federated learning in terms of model accuracy and/or network energy consumption in different scenarios where local device datasets exhibit statistical heterogeneity.
翻訳日:2021-03-22 14:39:42 公開日:2021-03-18
# 教師付き分類における帰納推論

Inductive Inference in Supervised Classification ( http://arxiv.org/abs/2103.10549v1 )

ライセンス: Link先を確認
Ali Amiryousefi(参考訳) 教師付き分類コンテキストにおける帰納的推論は、トレーニングデータから派生した形式的な規則と、場合によっては追加の補助情報を用いて、いくつかのオブジェクトや項目を異なる事前定義されたクラスに割り当てる方法やアプローチを構成する。 このような割り当ての最適性は、そのようなタスクで考慮されるオブジェクトの固有の属性のため、異なる条件下で変化する。 これらのケースの1つは、すべてのオブジェクトの機能が、既知のカテゴリを持つ離散変数である場合である。 別の例として、このケースを事前の未知のカテゴリで修正することを考えることができる。 これら2つのケースがこの論文の主焦点であり、ベイズ的帰納的理論に基づいて、デ・フィネッティ型の交換性は、以前のシナリオにおける分類器の導出を促進する適切な仮定である。 逆に、この種の交換性は後者のケースでは適用できないが、代わりにジョン・キングマンによる分割交換性を利用することができる。 これら2種類の交換確率について考察し,さらに,両種類の交換確率に基づく帰納的教師付き分類器について検討する。 さらに, デ・フィネッティ型交換性に基づく分類器は, 無限の訓練データが存在する場合に, 互いに独立してテスト項目を処理可能である一方で, 分割交換性に基づく分類器は, 全ての試験項目の共同ラベル付けの恩恵を受け続けている。 また,同時分類器の帰納的学習プロセスは,テストデータの量が無限大となると飽和することを示した。

Inductive inference in supervised classification context constitutes to methods and approaches to assign some objects or items into different predefined classes using a formal rule that is derived from training data and possibly some additional auxiliary information. The optimality of such an assignment varies under different conditions due to intrinsic attributes of the objects being considered for such a task. One of these cases is when all the objects' features are discrete variables with a priori known categories. As another example, one can consider a modification of this case with a priori unknown categories. These two cases are the main focus of this thesis and based on Bayesian inductive theories, de Finetti type exchangeability is a suitable assumption that facilitates the derivation of classifiers in the former scenario. On the contrary, this type of exchangeability is not applicable in the latter case, instead, it is possible to utilise the partition exchangeability due to John Kingman. These two types of exchangeabilities are discussed and furthermore here I investigate inductive supervised classifiers based on both types of exchangeabilities. I further demonstrate that the classifiers based on de Finetti type exchangeability can optimally handle test items independently of each other in the presence of infinite amounts of training data while on the other hand, classifiers based on partition exchangeability still continue to benefit from joint labelling of all the test items. Additionally, it is shown that the inductive learning process for the simultaneous classifier saturates when the amount of test data tends to infinity.
翻訳日:2021-03-22 14:39:17 公開日:2021-03-18
# xr設定における意味的視線分析のためのニューラルネットワーク

Neural Networks for Semantic Gaze Analysis in XR Settings ( http://arxiv.org/abs/2103.10451v1 )

ライセンス: Link先を確認
Lena Stubbemann, Dominik D\"urrschnabel, Robert Refflinghaus(参考訳) vr(virtual-reality)と拡張現実(ar)技術は、アイトラッキングと組み合わさりつつある。 この組み合わせは両方の分野を広げ、視覚知覚と関連する認知過程を対話的でも十分に制御された環境で研究できる新しい応用領域を開く。 しかし,対話的3次元シーンからの視線追跡データの意味的視線分析は,これまでは経済利用の障害となっていた資源志向課題である。 本稿では,オブジェクト認識の手法を用いて,関心ボリューム(VOI)のアノテートに必要な時間と情報を最小化する手法を提案する。 そこで我々は,画像拡張手法を用いて,仮想モデルに基づく合成データセット上で畳み込みニューラルネットワーク(cnns)を訓練する。 提案手法は実環境および仮想環境で評価し,新たなマーカーや既存のデータベースを頼らずに,クロスプラットフォームでの利用が可能となることを示した。

Virtual-reality (VR) and augmented-reality (AR) technology is increasingly combined with eye-tracking. This combination broadens both fields and opens up new areas of application, in which visual perception and related cognitive processes can be studied in interactive but still well controlled settings. However, performing a semantic gaze analysis of eye-tracking data from interactive three-dimensional scenes is a resource-intense task, which so far has been an obstacle to economic use. In this paper we present a novel approach which minimizes time and information necessary to annotate volumes of interest (VOIs) by using techniques from object recognition. To do so, we train convolutional neural networks (CNNs) on synthetic data sets derived from virtual models using image augmentation techniques. We evaluate our method in real and virtual environments, showing that the method can compete with state-of-the-art approaches, while not relying on additional markers or preexisting databases but instead offering cross-platform use.
翻訳日:2021-03-22 14:38:50 公開日:2021-03-18
# UNETR: 3次元医用画像セグメンテーション用トランスフォーマー

UNETR: Transformers for 3D Medical Image Segmentation ( http://arxiv.org/abs/2103.10504v1 )

ライセンス: Link先を確認
Ali Hatamizadeh, Dong Yang, Holger Roth and Daguang Xu(参考訳) 完全畳み込みニューラルネットワーク(FCNN)と収縮と拡張経路(例) エンコーダとデコーダ)は,近年,様々な医用画像セグメンテーションアプリケーションにおいて有望である。 これらのアーキテクチャでは、エンコーダはグローバルな文脈表現を学習し、デコーダによるセマンティックな出力予測にさらに活用することで、重要な役割を果たす。 その成功にもかかわらず、FCNNのメインビルディングブロックとしての畳み込み層の局所性は、そのようなネットワークにおける長距離空間依存を学習する能力を制限する。 長距離シーケンス学習における自然言語処理(nlp)におけるトランスフォーマ(transformer)の最近の成功に触発されて,ボリュームトリクス(3d)医療画像分割の課題をシーケンスからシーケンスへの予測問題として再構成した。 特に、unet transformers(unetr)と呼ばれる新しいアーキテクチャを導入し、純粋なトランスフォーマーをエンコーダとして使用し、入力ボリュームのシーケンス表現を学習し、グローバルマルチスケール情報を効果的に取得する。 トランスエンコーダは、異なる解像度でスキップ接続を介してデコーダに直接接続され、最終的なセマンティクスセグメンテーション出力を計算する。 我々は,提案するモデルの性能を,異なる撮像モード(すなわち,画像)にまたがって広範囲に検証した。 MRとCT) は, 医用セグメンテーション・デスロン(MSD) データセットを用いて, 容積脳腫瘍と脾臓のセグメンテーションタスクについて検討した。

Fully Convolutional Neural Networks (FCNNs) with contracting and expansive paths (e.g. encoder and decoder) have shown prominence in various medical image segmentation applications during the recent years. In these architectures, the encoder plays an integral role by learning global contextual representations which will be further utilized for semantic output prediction by the decoder. Despite their success, the locality of convolutional layers , as the main building block of FCNNs limits the capability of learning long-range spatial dependencies in such networks. Inspired by the recent success of transformers in Natural Language Processing (NLP) in long-range sequence learning, we reformulate the task of volumetric (3D) medical image segmentation as a sequence-to-sequence prediction problem. In particular, we introduce a novel architecture, dubbed as UNEt TRansformers (UNETR), that utilizes a pure transformer as the encoder to learn sequence representations of the input volume and effectively capture the global multi-scale information. The transformer encoder is directly connected to a decoder via skip connections at different resolutions to compute the final semantic segmentation output. We have extensively validated the performance of our proposed model across different imaging modalities(i.e. MR and CT) on volumetric brain tumour and spleen segmentation tasks using the Medical Segmentation Decathlon (MSD) dataset, and our results consistently demonstrate favorable benchmarks.
翻訳日:2021-03-22 14:38:35 公開日:2021-03-18
# 教師なしニューラルネットワーク翻訳における事前学習言語モデルの語彙能力の向上

Improving the Lexical Ability of Pretrained Language Models for Unsupervised Neural Machine Translation ( http://arxiv.org/abs/2103.10531v1 )

ライセンス: Link先を確認
Alexandra Chronopoulou, Dario Stojanovski and Alexander Fraser(参考訳) unsupervised neural machine translation (UNMT) の成功した方法は、しばしばマスク付き言語モデリングやシーケンス生成タスクという形で、自己超越による言語間事前訓練(英語版)を採用する。 言語間プレトレーニングは、豊富なコーパスを持つ類似言語で機能するが、低リソース、遠方の言語では機能しない。 以前の研究では、表現が十分に整っていないことが示されている。 本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。 UNMT (最大4.5 BLEU) とバイリンガルレキシコン誘導 (バイリンガルレキシコン誘導) の両方において, 既存のUNMTベースラインと比較して, 良好な性能を示した。

Successful methods for unsupervised neural machine translation (UNMT) employ cross-lingual pretraining via self-supervision, often in the form of a masked language modeling or a sequence generation task, which requires the model to align the lexical- and high-level representations of the two languages. While cross-lingual pretraining works for similar languages with abundant corpora, it performs poorly in low-resource, distant languages. Previous research has shown that this is because the representations are not sufficiently aligned. In this paper, we enhance the bilingual masked language model pretraining with lexical-level information by using type-level cross-lingual subword embeddings. Empirical results demonstrate improved performance both on UNMT (up to 4.5 BLEU) and bilingual lexicon induction using our method compared to an established UNMT baseline.
翻訳日:2021-03-22 14:37:30 公開日:2021-03-18
# ソーシャルメディアを用いた抑うつ研究におけるジェンダーとレイカルフェアネス

Gender and Racial Fairness in Depression Research using Social Media ( http://arxiv.org/abs/2103.10550v1 )

ライセンス: Link先を確認
Carlos Aguirre, Keith Harrigian, Mark Dredze(参考訳) 複数の研究により、インターネットベースのソーシャルメディアプラットフォームにおける行動は個人のメンタルヘルス状態を示すことができることが示されている。 このようなデータの普及により、計算レンズからのメンタルヘルス研究への関心が高まっている。 これまでの研究では、このデータから生成されたモデルにおけるバイアスの可能性に関する懸念が提起されているが、これらのバイアスが、性別や人種・民族グループなど、異なる人口集団に対して実際にどのように現れるかを定量化していない。 本稿では,twitterデータを用いた抑うつ分類の公平性について,性別・人種集団について分析する。 非表現群ではモデル性能が系統的に異なっており、これらの不一致は自明なデータ表現問題によって完全には説明できない。 我々の研究は、将来の研究でこれらのバイアスを避けるための推奨事項で締めくくっている。

Multiple studies have demonstrated that behavior on internet-based social media platforms can be indicative of an individual's mental health status. The widespread availability of such data has spurred interest in mental health research from a computational lens. While previous research has raised concerns about possible biases in models produced from this data, no study has quantified how these biases actually manifest themselves with respect to different demographic groups, such as gender and racial/ethnic groups. Here, we analyze the fairness of depression classifiers trained on Twitter data with respect to gender and racial demographic groups. We find that model performance systematically differs for underrepresented groups and that these discrepancies cannot be fully explained by trivial data representation issues. Our study concludes with recommendations on how to avoid these biases in future research.
翻訳日:2021-03-22 14:37:14 公開日:2021-03-18
# CoCoMoT: SMT (Extended Version) によるマルチパースペクティブプロセスのコンフォーマンスチェック

CoCoMoT: Conformance Checking of Multi-Perspective Processes via SMT (Extended Version) ( http://arxiv.org/abs/2103.10507v1 )

ライセンス: Link先を確認
Paolo Felli and Alessandro Gianola and Marco Montali and Andrey Rivkin and Sarah Winkler(参考訳) パフォーマンスチェックは、プロセスモデルでキャプチャされた期待された振る舞いとログに記録された実際の振る舞いを比較するための重要なプロセスマイニングタスクである。 この問題は純粋な制御フロープロセスで広く研究されているが、マルチパースペクティブプロセスとの適合性チェックはまだ初期段階にある。 本稿では,データと制御フローの次元を組み合わせたプロセスを考えることで,この問題に対処する。 特に、データペトリネット(dpns)を基準形式として採用し、コンフォーマンスメトリクスやデータアウェアアライメントの計算において、確固とした確立された自動推論技術が効果的に有効であることを示す。 私たちは、CoCoMoT(Computing Conformance Modulo Theories)フレームワークを導入し、4倍のコントリビューションを行います。 まず、SMTを基礎となる形式的およびアルゴリズム的フレームワークとして使用して、純粋な制御フロー設定で研究したSATベースのエンコーディングを、我々のデータ認識ケースに持ち上げる方法を示す。 第2に、プロパティ保存クラスタリングの概念に基づく新しい前処理手法を導入し、適合性チェック出力の計算を高速化する。 第3に,最先端smtソルバを用いた概念実証の実装と予備実験報告を行う。 最後に,マルチアリゲーションやアンチアリゲーション,クラスタリングによるログ解析,モデル修復など,さらに多くのタスクにcocomotがどのように直結するかについて論じる。

Conformance checking is a key process mining task for comparing the expected behavior captured in a process model and the actual behavior recorded in a log. While this problem has been extensively studied for pure control-flow processes, conformance checking with multi-perspective processes is still at its infancy. In this paper, we attack this challenging problem by considering processes that combine the data and control-flow dimensions. In particular, we adopt data Petri nets (DPNs) as the underlying reference formalism, and show how solid, well-established automated reasoning techniques can be effectively employed for computing conformance metrics and data-aware alignments. We do so by introducing the CoCoMoT (Computing Conformance Modulo Theories) framework, with a fourfold contribution. First, we show how SAT-based encodings studied in the pure control-flow setting can be lifted to our data-aware case, using SMT as the underlying formal and algorithmic framework. Second, we introduce a novel preprocessing technique based on a notion of property-preserving clustering, to speed up the computation of conformance checking outputs. Third, we provide a proof-of-concept implementation that uses a state-of-the-art SMT solver and report on preliminary experiments. Finally, we discuss how CoCoMoT directly lends itself to a number of further tasks, like multi- and anti-alignments, log analysis by clustering, and model repair.
翻訳日:2021-03-22 14:36:05 公開日:2021-03-18
# Ano-Graph: ビデオ異常を検出するための通常のシーンコンテキストグラフを学習する

Ano-Graph: Learning Normal Scene Contextual Graphs to Detect Video Anomalies ( http://arxiv.org/abs/2103.10502v1 )

ライセンス: Link先を確認
Masoud Pourreza, Mohammadreza Salehi, Mohammad Sabokrou(参考訳) ビデオ異常検出は、教師なしのトレーニング手順と現実世界のシナリオに存在する時空間の複雑さのため、難しい課題であることが証明された。 異常なトレーニングサンプルがない場合、最先端の手法は、オートエンコーダや生成敵ネットワークのような異なるアプローチを用いて、空間および時間領域の正常な振る舞いを完全に把握する特徴を抽出しようとする。 しかし、これらのアプローチは階層的モデリングにおけるディープ・ネットワークの能力を完全に無視または利用することにより、オブジェクト間の時空間相互作用をモデル化することができない。 そこで本研究では,正規物体の相互作用を学習しモデル化する手法であるano-graphを提案する。 この目的に向けて、各ノードをリアルタイムオフザシェルフオブジェクト検出器から抽出したオブジェクトの特徴として考慮して、時空間グラフ(STG)を作成し、その相互作用に基づいてエッジを作成する。 その後、意味空間内の相互作用をカプセル化するように、STGに自己教師付き学習手法が採用される。 提案手法はデータ効率が高く,照明などの一般的な実世界の変動に対して著しく頑健であり,adocやストリートシーンの難易度を高く抑えつつも,アベニューや上海テック,ucsdで競争力を保っている。

Video anomaly detection has proved to be a challenging task owing to its unsupervised training procedure and high spatio-temporal complexity existing in real-world scenarios. In the absence of anomalous training samples, state-of-the-art methods try to extract features that fully grasp normal behaviors in both space and time domains using different approaches such as autoencoders, or generative adversarial networks. However, these approaches completely ignore or, by using the ability of deep networks in the hierarchical modeling, poorly model the spatio-temporal interactions that exist between objects. To address this issue, we propose a novel yet efficient method named Ano-Graph for learning and modeling the interaction of normal objects. Towards this end, a Spatio-Temporal Graph (STG) is made by considering each node as an object's feature extracted from a real-time off-the-shelf object detector, and edges are made based on their interactions. After that, a self-supervised learning method is employed on the STG in such a way that encapsulates interactions in a semantic space. Our method is data-efficient, significantly more robust against common real-world variations such as illumination, and passes SOTA by a large margin on the challenging datasets ADOC and Street Scene while stays competitive on Avenue, ShanghaiTech, and UCSD.
翻訳日:2021-03-22 14:35:34 公開日:2021-03-18
# cdfi:フレーム補間のための圧縮駆動ネットワーク設計

CDFI: Compression-Driven Network Design for Frame Interpolation ( http://arxiv.org/abs/2103.10559v1 )

ライセンス: Link先を確認
Tianyu Ding, Luming Liang, Zhihui Zhu, Ilya Zharkov(参考訳) DNNベースのフレーム補間 - 2つの連続するフレームが与えられた中間フレームを生成する - 典型的には、多数の特徴を持つ重モデルアーキテクチャに依存しており、モバイルデバイスのような限られたリソースを持つシステムにデプロイされない。 本稿では,フレーム補間 (CDFI) のための圧縮駆動型ネットワーク設計法を提案する。 具体的には、最近提案されたAdaCoFモデルをまず圧縮し、10X圧縮されたAdaCoFが元のモデルと同じ性能を示すことを示す。 その結果,従来のAdaCoFに比べてわずか4分の1の大きさで大幅な性能向上を達成した。 さらに,本モデルは,幅広いデータセットにおいて,他の最先端技術に対して好適に機能する。 最後に、提案する圧縮駆動フレームワークは汎用的であり、他のDNNベースのフレーム補間アルゴリズムに容易に転送できる。 ソースコードはhttps://github.com/t ding1/cdfiで入手できます。

DNN-based frame interpolation--that generates the intermediate frames given two consecutive frames--typically relies on heavy model architectures with a huge number of features, preventing them from being deployed on systems with limited resources, e.g., mobile devices. We propose a compression-driven network design for frame interpolation (CDFI), that leverages model pruning through sparsity-inducing optimization to significantly reduce the model size while achieving superior performance. Concretely, we first compress the recently proposed AdaCoF model and show that a 10X compressed AdaCoF performs similarly as its original counterpart; then we further improve this compressed model by introducing a multi-resolution warping module, which boosts visual consistencies with multi-level details. As a consequence, we achieve a significant performance gain with only a quarter in size compared with the original AdaCoF. Moreover, our model performs favorably against other state-of-the-arts in a broad range of datasets. Finally, the proposed compression-driven framework is generic and can be easily transferred to other DNN-based frame interpolation algorithm. Our source code is available at https://github.com/t ding1/CDFI.
翻訳日:2021-03-22 14:35:09 公開日:2021-03-18
# clta: 限定的行動認識のためのコンテンツと時間的注意

CLTA: Contents and Length-based Temporal Attention for Few-shot Action Recognition ( http://arxiv.org/abs/2103.10567v1 )

ライセンス: Link先を確認
Yang Bo, Yangdi Lu and Wenbo He(参考訳) 適切なラベル付きトレーニングサンプルの取得が困難であることから,少数のアクション認識が注目されている。 最近の研究では、空間情報の保存とビデオディスクリプタの比較が、わずかなアクション認識に不可欠であることが示されている。 しかし,時間的情報保存の重要性についてはあまり議論されていない。 本稿では,個々の映像にカスタマイズされた時間的注意を学習し,限定的なアクション認識問題に取り組むためのコンテンツと長さに基づく時間的注意(clta)モデルを提案する。 CLTAはガウス確率関数をテンプレートとして、時間的注意を発生させ、学習行列を訓練し、フレームの内容と長さの両方に基づいて平均および標準偏差を研究する。 通常のソフトマックス分類器を用いた微調整されていないバックボーンでも、時間的注意を正確に捉えた最新の数ショット動作認識と比較して、同様の、あるいはより良い結果が得られることを示す。

Few-shot action recognition has attracted increasing attention due to the difficulty in acquiring the properly labelled training samples. Current works have shown that preserving spatial information and comparing video descriptors are crucial for few-shot action recognition. However, the importance of preserving temporal information is not well discussed. In this paper, we propose a Contents and Length-based Temporal Attention (CLTA) model, which learns customized temporal attention for the individual video to tackle the few-shot action recognition problem. CLTA utilizes the Gaussian likelihood function as the template to generate temporal attention and trains the learning matrices to study the mean and standard deviation based on both frame contents and length. We show that even a not fine-tuned backbone with an ordinary softmax classifier can still achieve similar or better results compared to the state-of-the-art few-shot action recognition with precisely captured temporal attention.
翻訳日:2021-03-22 14:34:51 公開日:2021-03-18
# 構造的出力依存性のモデル化のためのジェネリック知覚損失

Generic Perceptual Loss for Modeling Structured Output Dependencies ( http://arxiv.org/abs/2103.10571v1 )

ライセンス: Link先を確認
Yifan Liu, Hao Chen, Yu Chen, Wei Yin, Chunhua Shen(参考訳) 知覚損失は画像のスーパーレゾリューションやスタイル転送などの画像合成タスクにおいて有効な損失項として広く用いられてきた。 成功は、大量の画像で訓練されたcnnから抽出された高レベルの知覚的特徴表現にあると信じられていた。 ここでは、トレーニングされた重みではなく、ネットワーク構造が重要であることを明らかにする。 学習がなければ、深層ネットワークの構造は、CNNの複数の層を使用して、変数統計の複数のレベル間の依存関係をキャプチャするのに十分である。 この洞察は、事前学習の要件と、知覚的損失を前提とした特定のネットワーク構造(通常、vgg)を取り除き、より広い範囲のアプリケーションを可能にする。 この目的のために、ランダムに重み付けされた深部CNNを用いて出力の構造的依存関係をモデル化できることを実証する。 セマンティックセグメンテーション,深度推定,インスタンスセグメンテーションなど,画素ごとの高密度な予測タスクでは,画素単位の損失を用いたベースラインと比較して,拡張されたランダム化知覚損失を用いた結果が改善された。 このシンプルで拡張された知覚的損失が、ほとんどの構造化された出力学習タスクに適用可能な、汎用的な構造化された出力損失になることを期待している。

The perceptual loss has been widely used as an effective loss term in image synthesis tasks including image super-resolution, and style transfer. It was believed that the success lies in the high-level perceptual feature representations extracted from CNNs pretrained with a large set of images. Here we reveal that, what matters is the network structure instead of the trained weights. Without any learning, the structure of a deep network is sufficient to capture the dependencies between multiple levels of variable statistics using multiple layers of CNNs. This insight removes the requirements of pre-training and a particular network structure (commonly, VGG) that are previously assumed for the perceptual loss, thus enabling a significantly wider range of applications. To this end, we demonstrate that a randomly-weighted deep CNN can be used to model the structured dependencies of outputs. On a few dense per-pixel prediction tasks such as semantic segmentation, depth estimation and instance segmentation, we show improved results of using the extended randomized perceptual loss, compared to the baselines using pixel-wise loss alone. We hope that this simple, extended perceptual loss may serve as a generic structured-output loss that is applicable to most structured output learning tasks.
翻訳日:2021-03-22 14:34:38 公開日:2021-03-18
# 全体移動操作による未知シーンにおける人工物体の相互作用

Articulated Object Interaction in Unknown Scenes with Whole-Body Mobile Manipulation ( http://arxiv.org/abs/2103.10534v1 )

ライセンス: Link先を確認
Mayank Mittal, David Hoeller, Farbod Farshidian, Marco Hutter, Animesh Garg(参考訳) キッチンアシスタントは、動的な障害のある未熟な環境で、キャビネットやオーブンのような人間規模のオブジェクトを操作する必要があります。 このような実環境における自律的な相互作用は、デクスタース操作と流動移動を統合する必要がある。 異なるフォームファクターのモバイルマニピュレータが拡張ワークスペースを提供する一方で、実際の採用は限られている。 この制限は、1)キャビネットやオーブンのような未知の人間規模のオブジェクトと相互作用できないこと、2)アームと移動体との間の非効率な協調が原因である。 一般的なオブジェクトに対するハイレベルなタスクの実行には、オブジェクトの知覚的理解と、動的障害間の適応的な全身制御が必要である。 本稿では,未知環境における大型関節オブジェクトとの自律的インタラクションのための2段階アーキテクチャを提案する。 第1段階は学習モデルを用いて、RGB-D入力から対象物の調音モデルを推定し、相互作用のための状態の動作条件列を予測する。 第2段は、生成した運動計画に沿って物体を操作する全身運動制御装置からなる。 提案するパイプラインが複雑な静的および動的キッチン設定を処理可能であることを示す。 さらに,提案手法は,モバイル操作における一般的な制御手法よりも優れた性能を実現することを示す。 詳細はhttps://www.pair.tor onto.edu/articulated -mm/。

A kitchen assistant needs to operate human-scale objects, such as cabinets and ovens, in unmapped environments with dynamic obstacles. Autonomous interactions in such real-world environments require integrating dexterous manipulation and fluid mobility. While mobile manipulators in different form-factors provide an extended workspace, their real-world adoption has been limited. This limitation is in part due to two main reasons: 1) inability to interact with unknown human-scale objects such as cabinets and ovens, and 2) inefficient coordination between the arm and the mobile base. Executing a high-level task for general objects requires a perceptual understanding of the object as well as adaptive whole-body control among dynamic obstacles. In this paper, we propose a two-stage architecture for autonomous interaction with large articulated objects in unknown environments. The first stage uses a learned model to estimate the articulated model of a target object from an RGB-D input and predicts an action-conditional sequence of states for interaction. The second stage comprises of a whole-body motion controller to manipulate the object along the generated kinematic plan. We show that our proposed pipeline can handle complicated static and dynamic kitchen settings. Moreover, we demonstrate that the proposed approach achieves better performance than commonly used control methods in mobile manipulation. For additional material, please check: https://www.pair.tor onto.edu/articulated -mm/ .
翻訳日:2021-03-22 14:27:33 公開日:2021-03-18
# cellcounter:神経細胞の高忠実度空間局在のためのディープラーニングフレームワーク

Cellcounter: a deep learning framework for high-fidelity spatial localization of neurons ( http://arxiv.org/abs/2103.10462v1 )

ライセンス: Link先を確認
Tamal Batabyal, Aijaz Ahmad Naik, Daniel Weller, Jaideep Kapur(参考訳) 多くの神経科学応用は、ニューロンの堅牢で正確な局在を必要とする。 強度、テクスチャ、空間的重なり合い、形態学、背景アーティファクトの膨大な変化のため、まだ未解決の問題である。 さらに、高解像度画像からのニューロンの完全な手動アノテーションを含む大規模なデータセットのキュレーションには、かなりの時間と労力が必要となる。 我々は,非完全注釈のニューロンを含む画像と,人工物や背景構造を含む制御画像に基づいて学習した深層学習モデルであるCellcounterを提案する。 驚くべき自己学習能力を活用することで、cellcounterは徐々にニューロンをラベル付けし、時間集約的な完全なアノテーションの必要性を回避している。 cellcounterは、神経細胞の正確な局在における芸術的状態に対する効果を示し、いくつかのプロトコルにおける偽陽性検出を著しく削減している。

Many neuroscientific applications require robust and accurate localization of neurons. It is still an unsolved problem because of the enormous variation in intensity, texture, spatial overlap, morphology and background artifacts. In addition, curation of a large dataset containing complete manual annotation of neurons from high-resolution images to train a classifier requires significant time and effort. We present Cellcounter, a deep learning-based model trained on images containing incompletely-annotat ed neurons with highly-varied morphology and control images containing artifacts and background structures. Leveraging the striking self-learning ability, Cellcounter gradually labels neurons, obviating the need for time-intensive complete annotation. Cellcounter shows its efficacy over the state of the arts in the accurate localization of neurons while significantly reducing false-positive detection in several protocols.
翻訳日:2021-03-22 14:25:37 公開日:2021-03-18
# 超コンバージェンスとディファレンシャルプライバシ: より良いプライバシ保証でより迅速なトレーニング

Super-convergence and Differential Privacy: Training faster with better privacy guarantees ( http://arxiv.org/abs/2103.10498v1 )

ライセンス: Link先を確認
Osvald Frisk, Friedrich D\"ormann, Christian Marius Lillelund, Christian Fischer Pedersen(参考訳) ディープニューラルネットワークとディファレンシャルプライバシの組み合わせは、使用中のトレーニングデータセットの個人に対して重要なデータ保護保証を提供するため、近年の関心が高まっている。 しかしながら、ニューラルネットワークのトレーニングで差分プライバシーを使用するには、検証精度の低下や、トレーニングにおけるリソースの使用と時間の大幅な増加など、一連の欠点が伴う。 本稿では,差分プライベートニューラルネットワークのトレーニング速度を大幅に向上させる手段として,超収束性について検討し,高いトレーニング時間と資源利用の欠点に対処する。 超収束(Super-convergence)は、非常に高い学習率を用いたネットワークトレーニングの加速を可能にし、従来の方法よりもはるかに少ないトレーニングイテレーションで高い実用性を持つモデルを実現することが示されている。 本実験では,このオーダー・オブ・マグニチュード・スピードアップを差分プライバシと組み合わせることで,非プライベート・非スーパー収束ベースラインモデルと比較して,より少ないトレーニングイテレーションで高い検証精度が得られることを示す。 さらに、スーパーコンバージェンスはプライベートモデルのプライバシー保証を改善することが示されている。

The combination of deep neural networks and Differential Privacy has been of increasing interest in recent years, as it offers important data protection guarantees to the individuals of the training datasets used. However, using Differential Privacy in the training of neural networks comes with a set of shortcomings, like a decrease in validation accuracy and a significant increase in the use of resources and time in training. In this paper, we examine super-convergence as a way of greatly increasing training speed of differentially private neural networks, addressing the shortcoming of high training time and resource use. Super-convergence allows for acceleration in network training using very high learning rates, and has been shown to achieve models with high utility in orders of magnitude less training iterations than conventional ways. Experiments in this paper show that this order-of-magnitude speedup can also be seen when combining it with Differential Privacy, allowing for higher validation accuracies in much fewer training iterations compared to non-private, non-super convergent baseline models. Furthermore, super-convergence is shown to improve the privacy guarantees of private models.
翻訳日:2021-03-22 14:25:25 公開日:2021-03-18
# キーポイントを用いたオブジェクト中心タスク軸制御の一般化

Generalizing Object-Centric Task-Axes Controllers using Keypoints ( http://arxiv.org/abs/2103.10524v1 )

ライセンス: Link先を確認
Mohit Sharma, Oliver Kroemer(参考訳) ロボットは現実世界で操作を行うためには、形状、大きさ、幾何学的モデルへのアクセスなしに様々な物体を操作する必要がある。 このような大きなオブジェクト特性のばらつきに対して、モノリシックなニューラルネットワークポリシをトレーニングすることは、しばしば不可能である。 この一般化課題に向けて,オブジェクト指向タスクアックスコントローラを構成するモジュール型タスクポリシーの学習を提案する。 これらのタスクアックスコントローラは、シーンの下位オブジェクトに関連するプロパティによってパラメータ化される。 我々は,マルチビュー対応学習を用いて,視覚入力から直接これらの制御パラメータを推定する。 私たちの全体的なアプローチは、操作タスクを学習するためのシンプルでモジュール化された、しかし強力なフレームワークを提供します。 複数の異なる操作タスクに対するアプローチを実証的に評価し、オブジェクトのサイズ、形状、幾何学のばらつきを一般化する能力を示す。

To perform manipulation tasks in the real world, robots need to operate on objects with various shapes, sizes and without access to geometric models. It is often unfeasible to train monolithic neural network policies across such large variance in object properties. Towards this generalization challenge, we propose to learn modular task policies which compose object-centric task-axes controllers. These task-axes controllers are parameterized by properties associated with underlying objects in the scene. We infer these controller parameters directly from visual input using multi-view dense correspondence learning. Our overall approach provides a simple, modular and yet powerful framework for learning manipulation tasks. We empirically evaluate our approach on multiple different manipulation tasks and show its ability to generalize to large variance in object size, shape and geometry.
翻訳日:2021-03-22 14:25:06 公開日:2021-03-18
# AI/MLモデルの実現に向けて: データサイエンティストの産業的展望

Towards Productizing AI/ML Models: An Industry Perspective from Data Scientists ( http://arxiv.org/abs/2103.10548v1 )

ライセンス: Link先を確認
Filippo Lanubile, Fabio Calefato, Luigi Quaranta, Maddalena Amoruso, Fabio Fumarola, Michele Filannino(参考訳) AI/MLモデルからプロダクション対応のAIベースのシステムへの移行は、データサイエンティストとソフトウェアエンジニアの両方にとって課題である。 本稿では,この移行が実践者によってどのように認識されるかを理解するため,コンサルティング会社におけるワークショップの結果を報告する。 AI実験の再現性の必要性から始まった主なテーマは、Jupyter Notebookを主要なプロトタイピングツールとして使用すること、ソフトウェアエンジニアリングのベストプラクティスとデータサイエンス特有の機能のサポートの欠如である。

The transition from AI/ML models to production-ready AI-based systems is a challenge for both data scientists and software engineers. In this paper, we report the results of a workshop conducted in a consulting company to understand how this transition is perceived by practitioners. Starting from the need for making AI experiments reproducible, the main themes that emerged are related to the use of the Jupyter Notebook as the primary prototyping tool, and the lack of support for software engineering best practices as well as data science specific functionalities.
翻訳日:2021-03-22 14:24:55 公開日:2021-03-18
# MARS:多目的創薬のためのマルコフ分子サンプリング

MARS: Markov Molecular Sampling for Multi-objective Drug Discovery ( http://arxiv.org/abs/2103.10432v1 )

ライセンス: Link先を確認
Yutong Xie, Chence Shi, Hao Zhou, Yuwei Yang, Weinan Zhang, Yong Yu, Lei Li(参考訳) 化学的性質が望ましい新規分子の探索は、薬物発見に不可欠である。 既存の研究は、分子配列または化学グラフを生成する神経モデルの開発に焦点を当てている。 しかし、いくつかの性質を満たす新規で多様な化合物を見つけることは依然として大きな課題である。 本稿では,多目的薬物分子の発見法であるmarsを提案する。 MARSは分子グラフの断片を反復的に編集することで化学候補を生成するという考え方に基づいている。 高品質な候補を探すために、マルコフ連鎖モンテカルロサンプリング(MCMC)をアニールスキームと適応的な提案を持つ分子に採用している。 サンプル効率をさらに向上するため、MARSはグラフニューラルネットワーク(GNN)を使用して候補編集を表現および選択し、GNNはMCMCのサンプルでオンザフライでトレーニングされる。 実験により,MARSは,分子生物学的活性,薬物類似性,合成性を考慮した多目的環境において,最先端の性能を達成することが示された。 驚くべきことに、4つの目標が同時に最適化される最も困難な環境では、このアプローチは、包括的な評価において以前の手法を大きく上回っている。 コードはhttps://github.com/y utxie/marsで入手できる。

Searching for novel molecules with desired chemical properties is crucial in drug discovery. Existing work focuses on developing neural models to generate either molecular sequences or chemical graphs. However, it remains a big challenge to find novel and diverse compounds satisfying several properties. In this paper, we propose MARS, a method for multi-objective drug molecule discovery. MARS is based on the idea of generating the chemical candidates by iteratively editing fragments of molecular graphs. To search for high-quality candidates, it employs Markov chain Monte Carlo sampling (MCMC) on molecules with an annealing scheme and an adaptive proposal. To further improve sample efficiency, MARS uses a graph neural network (GNN) to represent and select candidate edits, where the GNN is trained on-the-fly with samples from MCMC. Experiments show that MARS achieves state-of-the-art performance in various multi-objective settings where molecular bio-activity, drug-likeness, and synthesizability are considered. Remarkably, in the most challenging setting where all four objectives are simultaneously optimized, our approach outperforms previous methods significantly in comprehensive evaluations. The code is available at https://github.com/y utxie/mars.
翻訳日:2021-03-22 14:23:31 公開日:2021-03-18
# SML: 効率的な言語間自然言語推論のための新しい意味埋め込み変換器

SML: a new Semantic Embedding Alignment Transformer for efficient cross-lingual Natural Language Inference ( http://arxiv.org/abs/2103.09635v2 )

ライセンス: Link先を確認
Javier Huertas-Tato and Alejandro Mart\'in and David Camacho(参考訳) トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。 nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。 しかし、これらのモデルは、他の領域に一般化したり、多言語シナリオに直面することの困難さに苦しむ。 これらの問題に対処する文献における主要な経路は、非常に大きなアーキテクチャの設計とトレーニングであり、予測不可能な振る舞いをもたらし、幅広いアクセスと微調整を妨げる障壁を確立することである。 本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer (sml) を提案する。 SMLは2つの入力文が互いに参加して後に行列アライメント法によって結合されるような凍結重み付きシアム事前訓練された多言語トランスフォーマーを利用する。 本研究で実施した実験結果によると、SMLは、最先端性能を保ちながら、トレーニング可能なパラメータを劇的に減らすことができる。

The ability of Transformers to perform with precision a variety of tasks such as question answering, Natural Language Inference (NLI) or summarising, have enable them to be ranked as one of the best paradigms to address this kind of tasks at present. NLI is one of the best scenarios to test these architectures, due to the knowledge required to understand complex sentences and established a relation between a hypothesis and a premise. Nevertheless, these models suffer from incapacity to generalise to other domains or difficulties to face multilingual scenarios. The leading pathway in the literature to address these issues involve designing and training extremely large architectures, which leads to unpredictable behaviours and to establish barriers which impede broad access and fine tuning. In this paper, we propose a new architecture, siamese multilingual transformer (SML), to efficiently align multilingual embeddings for Natural Language Inference. SML leverages siamese pre-trained multi-lingual transformers with frozen weights where the two input sentences attend each other to later be combined through a matrix alignment method. The experimental results carried out in this paper evidence that SML allows to reduce drastically the number of trainable parameters while still achieving state-of-the-art performance.
翻訳日:2021-03-22 09:17:44 公開日:2021-03-18
# CM-NAS:可視赤外人物再同定のためのクロスモーダルニューラルネットワーク探索

CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2101.08467v2 )

ライセンス: Link先を確認
Chaoyou Fu, Yibo Hu, Xiang Wu, Hailin Shi, Tao Mei, Ran He(参考訳) Visible-Infrared person re-identification (VI-ReID) は、暗黒環境下での単一モダリティ人物ReIDの限界を突破し、モダリティ横断歩行者画像のマッチングを目的としている。 大きなモダリティの相違の影響を軽減するために、既存の作業は、モダリティ固有の表現とモダリティの相違を個別に学習するために、様々な2ストリームアーキテクチャを手動で設計する。 しかし、このような手動設計のルーチンは、膨大な実験と経験的な実践に大きく依存しており、それは時間消費と労働集約である。 本稿では,手作業で設計したアーキテクチャを体系的に研究し,Batch Normalization (BN) 層を適切に分離することが,相互モダリティマッチングに大きく貢献する鍵であることを示す。 この観測に基づいて、BN層毎の最適分離法を見つけることが本目的である。 そこで我々は,Cross-Modality Neural Architecture Search (CM-NAS) という新しい手法を提案する。 これは、標準的な最適化をクロスモダリティタスクの対象となるbn指向の探索空間から成っている。 SYSU-MM01ではランク1/mAPが6.70%/6.13%,RegDBでは12.17%/11.23%向上した。 CM-NASは,そのシンプルさと有効性を踏まえ,今後の研究の強力なベースラインとなると期待している。 コードは利用可能になる。

Visible-Infrared person re-identification (VI-ReID) aims to match cross-modality pedestrian images, breaking through the limitation of single-modality person ReID in dark environment. In order to mitigate the impact of large modality discrepancy, existing works manually design various two-stream architectures to separately learn modality-specific and modality-sharable representations. Such a manual design routine, however, highly depends on massive experiments and empirical practice, which is time consuming and labor intensive. In this paper, we systematically study the manually designed architectures, and identify that appropriately separating Batch Normalization (BN) layers is the key to bring a great boost towards cross-modality matching. Based on this observation, the essential objective is to find the optimal separation scheme for each BN layer. To this end, we propose a novel method, named Cross-Modality Neural Architecture Search (CM-NAS). It consists of a BN-oriented search space in which the standard optimization can be fulfilled subject to the cross-modality task. Equipped with the searched architecture, our method outperforms state-of-the-art counterparts in both two benchmarks, improving the Rank-1/mAP by 6.70%/6.13% on SYSU-MM01 and by 12.17%/11.23% on RegDB. In light of its simplicity and effectiveness, we expect CM-NAS will serve as a strong baseline for future research. Code will be made available.
翻訳日:2021-03-21 07:55:52 公開日:2021-03-18
# (参考訳) CheXbreak: 胸部X線を解釈するディープラーニングモデルの誤分類識別 [全文訳有]

CheXbreak: Misclassification Identification for Deep Learning Models Interpreting Chest X-rays ( http://arxiv.org/abs/2103.09957v1 )

ライセンス: CC BY 4.0
Emma Chen, Andy Kim, Rayan Krishnan, Jin Long, Andrew Y. Ng, Pranav Rajpurkar(参考訳) 胸部X線解釈のための深層学習モデルの臨床環境への統合に対する大きな障害は、その障害モードの理解の欠如である。 本研究は,胸部X線モデルが誤分類しそうな患者サブグループが存在するかどうかをまず検討する。 胸部X線モデルの誤分類予測には, 年齢, 肺病変, 気胸のX線所見が統計的に関連していることがわかった。 第2に,胸部X線モデルの出力と臨床特徴を用いた誤分類予測器を開発した。 その結果,AUROCがほとんどの疾患に対して0.9に近づいたことが判明した。 第3に,誤分類識別子を用いて,推定時に誤分類の可能性の高いモデル予測を選択的にフリップする補正アルゴリズムを開発した。 コンソリデーション予測のF1改善(0.008 [95\% CI 0.005, 0.010])とEdema(0.003, [95\% CI 0.001, 0.006])を観察した。 10種類の胸部X線モデルについて調査を行うことにより、モデルアーキテクチャ全体の洞察を導き、他の医療画像タスクに適用可能なフレームワークを提供することができる。

A major obstacle to the integration of deep learning models for chest x-ray interpretation into clinical settings is the lack of understanding of their failure modes. In this work, we first investigate whether there are patient subgroups that chest x-ray models are likely to misclassify. We find that patient age and the radiographic finding of lung lesion or pneumothorax are statistically relevant features for predicting misclassification for some chest x-ray models. Second, we develop misclassification predictors on chest x-ray models using their outputs and clinical features. We find that our best performing misclassification identifier achieves an AUROC close to 0.9 for most diseases. Third, employing our misclassification identifiers, we develop a corrective algorithm to selectively flip model predictions that have high likelihood of misclassification at inference time. We observe F1 improvement on the prediction of Consolidation (0.008 [95\% CI 0.005, 0.010]) and Edema (0.003, [95\% CI 0.001, 0.006]). By carrying out our investigation on ten distinct and high-performing chest x-ray models, we are able to derive insights across model architectures and offer a generalizable framework applicable to other medical imaging tasks.
翻訳日:2021-03-20 05:58:50 公開日:2021-03-18
# (参考訳) 進化型ディープニューラルネットワーク [全文訳有]

Evolutional Deep Neural Network ( http://arxiv.org/abs/2103.09959v1 )

ライセンス: CC BY 4.0
Yifan Du, Tamer A. Zaki(参考訳) 偏微分方程式(PDE)の解法として進化型ディープニューラルネットワーク(EDNN)の概念を導入する。 ネットワークのパラメータは、システムの初期状態のみを表現するように訓練され、その後、さらなるトレーニングなしに動的に更新され、pdeシステムの進化を正確に予測する。 この枠組みでは、ネットワークパラメータを適切な座標に対して関数として扱い、支配方程式を用いて数値的に更新する。 パラメータ空間でニューラルネットワークの重みを行進させることで、EDNNは無限に長い状態空間の軌跡を予測することができ、他のニューラルネットワークアプローチでは難しい。 PDEの境界条件は、厳密な制約として扱われ、ニューラルネットワークに埋め込まれるため、解軌道全体を通して完全に満たされる。 熱方程式, 対流方程式, バーガーズ方程式, 倉本シヴァシンスキー方程式, ナビエ・ストークス方程式などのいくつかの応用を解き, EDNNの汎用性と精度を示す。 EDNNの非圧縮性ナビエ・ストークス方程式への応用は、運動量方程式のソレノイド空間への射影が暗黙的に達成されるように、分散自由制約をネットワーク設計に組み込む。 その結果, 解析解とベンチマーク解に対するednn解の精度が, 系の過渡ダイナミクスと統計量の両方について検証された。

The notion of an Evolutional Deep Neural Network (EDNN) is introduced for the solution of partial differential equations (PDE). The parameters of the network are trained to represent the initial state of the system only, and are subsequently updated dynamically, without any further training, to provide an accurate prediction of the evolution of the PDE system. In this framework, the network parameters are treated as functions with respect to the appropriate coordinate and are numerically updated using the governing equations. By marching the neural network weights in the parameter space, EDNN can predict state-space trajectories that are indefinitely long, which is difficult for other neural network approaches. Boundary conditions of the PDEs are treated as hard constraints, are embedded into the neural network, and are therefore exactly satisfied throughout the entire solution trajectory. Several applications including the heat equation, the advection equation, the Burgers equation, the Kuramoto Sivashinsky equation and the Navier-Stokes equations are solved to demonstrate the versatility and accuracy of EDNN. The application of EDNN to the incompressible Navier-Stokes equation embeds the divergence-free constraint into the network design so that the projection of the momentum equation to solenoidal space is implicitly achieved. The numerical results verify the accuracy of EDNN solutions relative to analytical and benchmark numerical solutions, both for the transient dynamics and statistics of the system.
翻訳日:2021-03-20 05:42:34 公開日:2021-03-18
# (参考訳) 決定理論ブートストラップ [全文訳有]

Decision Theoretic Bootstrapping ( http://arxiv.org/abs/2103.09982v1 )

ライセンス: CC BY 4.0
Peyman Tavallali, Hamed Hamze Bajgiran, Danial J. Esaid, Houman Owhadi(参考訳) 教師付き機械学習モデルの設計と試験には,(1)訓練データ分布,(2)試験データ分布の2つの基本分布が組み合わさっている。 これらの2つの分布は、データセットが無限であるときに同一であり、識別可能であるが、データが有限である(そして、おそらく腐敗している)場合に不完全に知られ、この不確実性はロバスト不確実性量子化(uq)のために考慮されなければならない。 We present a general decision-theoretic bootstrapping solution to this problem: (1) partition the available data into a training subset and a UQ subset (2) take $m$ subsampled subsets of the training set and train $m$ models (3) partition the UQ set into $n$ sorted subsets and take a random fraction of them to define $n$ corresponding empirical distributions $\mu_{j}$ (4) consider the adversarial game where Player I selects a model $i\in\left\{ 1,\ldots,m\right\} $, Player II selects the UQ distribution $\mu_{j}$ and Player I receives a loss defined by evaluating the model $i$ against data points sampled from $\mu_{j}$ (5) identify optimal mixed strategies (probability distributions over models and UQ distributions) for both players. これらのランダム化された最適混合戦略は、ゲームに代表されるトレーニングおよびテスト分布の逆不確かさを考慮し、最適なモデル混合とUQ推定を提供する。 提案手法は,(1) 学習データの分布と試験データの両方の分布変化に対するある程度の頑健性を与える。(2) 出力空間上の条件付き確率分布は,入力変数の関数として出力上の不確かさの予備表現を形成する。

The design and testing of supervised machine learning models combine two fundamental distributions: (1) the training data distribution (2) the testing data distribution. Although these two distributions are identical and identifiable when the data set is infinite; they are imperfectly known (and possibly distinct) when the data is finite (and possibly corrupted) and this uncertainty must be taken into account for robust Uncertainty Quantification (UQ). We present a general decision-theoretic bootstrapping solution to this problem: (1) partition the available data into a training subset and a UQ subset (2) take $m$ subsampled subsets of the training set and train $m$ models (3) partition the UQ set into $n$ sorted subsets and take a random fraction of them to define $n$ corresponding empirical distributions $\mu_{j}$ (4) consider the adversarial game where Player I selects a model $i\in\left\{ 1,\ldots,m\right\} $, Player II selects the UQ distribution $\mu_{j}$ and Player I receives a loss defined by evaluating the model $i$ against data points sampled from $\mu_{j}$ (5) identify optimal mixed strategies (probability distributions over models and UQ distributions) for both players. These randomized optimal mixed strategies provide optimal model mixtures and UQ estimates given the adversarial uncertainty of the training and testing distributions represented by the game. The proposed approach provides (1) some degree of robustness to distributional shift in both the distribution of training data and that of the testing data (2) conditional probability distributions on the output space forming aleatory representations of the uncertainty on the output as a function of the input variable.
翻訳日:2021-03-20 05:12:21 公開日:2021-03-18
# (参考訳) 線形反復的特徴埋め込み:解釈可能なモデルのためのアンサンブルフレームワーク

Linear Iterative Feature Embedding: An Ensemble Framework for Interpretable Model ( http://arxiv.org/abs/2103.09983v1 )

ライセンス: CC BY 4.0
Agus Sudjianto, Jinwen Qiu, Miaoqi Li and Jie Chen(参考訳) 線形反復的特徴埋め込み(LIFE)と呼ばれる解釈モデルのための新しいアンサンブルフレームワークを開発した。 LIFEアルゴリズムは、幅広い単一隠れ層ニューラルネットワーク(NN)を3つのステップに正確に適合させることができる: ニューラルネットワークの線形投影によるデータセットのサブセットを定義し、データの異なるサブセットに基づいてトレーニングされた複数の狭い単一隠れ層NNから特徴を作成し、特徴を線形モデルと組み合わせる。 LIFEの背後にある理論的理論はスタックアンサンブル法の損失あいまいさ分解との接続によってもたらされる。 シミュレーションと実証実験は、LIFEが直接訓練された単一階層NNよりも一貫して優れており、また、多層フィードフォワードニューラルネットワーク(FFNN)、Xgboost、ランダムフォレスト(RF)など、多くのベンチマークモデルよりも優れていることを証明している。 広い単層NNとして、LIFEは本質的に解釈可能である。 一方、可変重要度とグローバルメインおよびインタラクション効果の両方を簡単に作成し、可視化することができる。 さらに,基本学習者の並列性により,並列計算を活用することでLIFEの計算効率が向上する。

A new ensemble framework for interpretable model called Linear Iterative Feature Embedding (LIFE) has been developed to achieve high prediction accuracy, easy interpretation and efficient computation simultaneously. The LIFE algorithm is able to fit a wide single-hidden-layer neural network (NN) accurately with three steps: defining the subsets of a dataset by the linear projections of neural nodes, creating the features from multiple narrow single-hidden-layer NNs trained on the different subsets of the data, combining the features with a linear model. The theoretical rationale behind LIFE is also provided by the connection to the loss ambiguity decomposition of stack ensemble methods. Both simulation and empirical experiments confirm that LIFE consistently outperforms directly trained single-hidden-layer NNs and also outperforms many other benchmark models, including multi-layers Feed Forward Neural Network (FFNN), Xgboost, and Random Forest (RF) in many experiments. As a wide single-hidden-layer NN, LIFE is intrinsically interpretable. Meanwhile, both variable importance and global main and interaction effects can be easily created and visualized. In addition, the parallel nature of the base learner building makes LIFE computationally efficient by leveraging parallel computing.
翻訳日:2021-03-20 04:58:43 公開日:2021-03-18
# (参考訳) 離散モース理論を用いたトポロジー認識セグメンテーション [全文訳有]

Topology-Aware Segmentation Using Discrete Morse Theory ( http://arxiv.org/abs/2103.09992v1 )

ライセンス: CC BY 4.0
Xiaoling Hu, Yusu Wang, Li Fuxin, Dimitris Samaras, Chao Chen(参考訳) 自然画像および生物医学画像からの微細な構造区分では、ピクセル単位の精度が唯一の懸念指標ではない。 血管接続や膜閉鎖といったトポロジカルな正確性は下流分析作業に不可欠である。 本稿では,位相的精度を向上させるために,深層画像分割ネットワークの学習手法を提案する。 特に離散モース理論(dmt)の力を利用して、位相的精度に重要な1次元骨格や2次元パッチを含む大域的な構造を同定する。 これらのグローバル構造に基づく新たな損失で訓練されたネットワーク性能は、特に位相的に困難な場所(接続や膜が弱い点など)において著しく改善されている。 多様なデータセットに対して,DICEスコアとトポロジカルメトリクスの両方で優れた性能を示す。

In the segmentation of fine-scale structures from natural and biomedical images, per-pixel accuracy is not the only metric of concern. Topological correctness, such as vessel connectivity and membrane closure, is crucial for downstream analysis tasks. In this paper, we propose a new approach to train deep image segmentation networks for better topological accuracy. In particular, leveraging the power of discrete Morse theory (DMT), we identify global structures, including 1D skeletons and 2D patches, which are important for topological accuracy. Trained with a novel loss based on these global structures, the network performance is significantly improved especially near topologically challenging locations (such as weak spots of connections and membranes). On diverse datasets, our method achieves superior performance on both the DICE score and topological metrics.
翻訳日:2021-03-20 04:57:29 公開日:2021-03-18
# (参考訳) COVIDx-US -- AI駆動型COVID-19分析のための超音波画像データのオープンアクセスベンチマークデータセット [全文訳有]

COVIDx-US -- An open-access benchmark dataset of ultrasound imaging data for AI-driven COVID-19 analytics ( http://arxiv.org/abs/2103.10003v1 )

ライセンス: CC BY 4.0
Ashkan Ebadi, Pengcheng Xi, Alexander MacLean, St\'ephane Tremblay, Sonny Kohli, Alexander Wong(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界の人々の健康と幸福に打撃を与え続けている。 世界的な健康危機とは別に、パンデミックは経済的・財政的困難と社会的・生理的影響も引き起こしている。 効果的なスクリーニング、トリアージ、治療計画、結果の予後はパンデミックを制御する上で重要な役割を果たしている。 最近の研究では、新型コロナウイルスのスクリーニングと予後におけるポイント・オブ・ケア超音波画像の役割が強調されている。 これらの属性と、臨床医を支援する人工知能ツールの約束に触発された私たちは、新型コロナウイルス関連超音波画像データのオープンアクセスベンチマークデータセットであるCOVIDx-USを紹介します。 COVIDx-USデータセットは複数のソースから収集され、SARS-CoV-2肺炎、非SARS-CoV-2肺炎、および健康管理症例の93本の肺超音波ビデオと10,774枚の加工画像で構成された。 データセットは、人工知能アルゴリズムとモデルの構築と評価を目的として、体系的に処理され、検証された。

The COVID-19 pandemic continues to have a devastating effect on the health and well-being of the global population. Apart from the global health crises, the pandemic has also caused significant economic and financial difficulties and socio-physiological implications. Effective screening, triage, treatment planning, and prognostication of outcome plays a key role in controlling the pandemic. Recent studies have highlighted the role of point-of-care ultrasound imaging for COVID-19 screening and prognosis, particularly given that it is non-invasive, globally available, and easy-to-sanitize. Motivated by these attributes and the promise of artificial intelligence tools to aid clinicians, we introduce COVIDx-US, an open-access benchmark dataset of COVID-19 related ultrasound imaging data that is the largest of its kind. The COVIDx-US dataset was curated from multiple sources and consists of 93 lung ultrasound videos and 10,774 processed images of patients infected with SARS-CoV-2 pneumonia, non-SARS-CoV-2 pneumonia, as well as healthy control cases. The dataset was systematically processed and validated specifically for the purpose of building and evaluating artificial intelligence algorithms and models.
翻訳日:2021-03-20 04:34:11 公開日:2021-03-18
# (参考訳) ジオサイエンス問題に対するニューラルネットワークの帰属法--新しい合成ベンチマークデータセット [全文訳有]

Neural Network Attribution Methods for Problems in Geoscience: A Novel Synthetic Benchmark Dataset ( http://arxiv.org/abs/2103.10005v1 )

ライセンス: CC BY 4.0
Antonios Mamalakis, Imme Ebert-Uphoff and Elizabeth A. Barnes(参考訳) ニューラルネットワークの地球科学における多くの問題への応用がますます成功したにもかかわらず、その複雑で非線形な構造は、彼らの予測の解釈を困難にしている。 ネットワークの予測を入力領域の特定の特徴に関連付けることを目的とした、説明可能な人工知能(xai)の新興分野において、多くの異なる手法が導入されている。 XAIメソッドは通常、ベンチマークデータセット(画像分類のMNISTやImageNetなど)や削除/挿入技術によって評価される。 しかしいずれの場合も、帰属に対する客観的、理論的に派生した根拠真理は欠落しており、多くの場合、XAIの評価は主観的である。 また、地理科学における問題のためのベンチマークデータセットもまれである。 本稿では,帰納的帰属問題に対する帰属ベンチマークデータセットを生成するために,帰属的分別関数を用いた枠組みを提案する。 長いベンチマークデータセットを生成し、完全に接続されたネットワークをトレーニングし、シミュレーションに使用された基礎関数を学習します。 次に,異なるXAI手法から得られた推定帰属ヒートマップと基底真理を比較して,特定のXAI手法が良好に機能する事例を同定する。 ここで紹介される属性ベンチマークは、地学におけるニューラルネットワークのさらなる応用や、モデルの信頼性を高め、新しい科学の発見を支援するXAI手法の正確な実装において非常に重要であると信じている。

Despite the increasingly successful application of neural networks to many problems in the geosciences, their complex and nonlinear structure makes the interpretation of their predictions difficult, which limits model trust and does not allow scientists to gain physical insights about the problem at hand. Many different methods have been introduced in the emerging field of eXplainable Artificial Intelligence (XAI), which aim at attributing the network's prediction to specific features in the input domain. XAI methods are usually assessed by using benchmark datasets (like MNIST or ImageNet for image classification), or through deletion/insertion techniques. In either case, however, an objective, theoretically-derive d ground truth for the attribution is lacking, making the assessment of XAI in many cases subjective. Also, benchmark datasets for problems in geosciences are rare. Here, we provide a framework, based on the use of additively separable functions, to generate attribution benchmark datasets for regression problems for which the ground truth of the attribution is known a priori. We generate a long benchmark dataset and train a fully-connected network to learn the underlying function that was used for simulation. We then compare estimated attribution heatmaps from different XAI methods to the ground truth in order to identify examples where specific XAI methods perform well or poorly. We believe that attribution benchmarks as the ones introduced herein are of great importance for further application of neural networks in the geosciences, and for accurate implementation of XAI methods, which will increase model trust and assist in discovering new science.
翻訳日:2021-03-20 04:08:50 公開日:2021-03-18
# (参考訳) 動的環境に対する位置認識のための識別的・意味的特徴選択 [全文訳有]

Discriminative and Semantic Feature Selection for Place Recognition towards Dynamic Environments ( http://arxiv.org/abs/2103.10023v1 )

ライセンス: CC BY-SA 4.0
Yuxin Tian, Jinyu MIao, Xingming Wu, Haosong Yue, Zhong Liu, Weihai Chen(参考訳) 様々な視覚的タスク、特に知覚変化環境に適用される視覚的位置認識において、特徴は重要な役割を果たす。 本稿では,DSFeatと呼ばれる識別的・意味的特徴選択ネットワークを提案することにより,動的・不整合パターンによる位置認識の課題に対処する。 セマンティクス情報とアテンション機構の両方によって監視され、特徴が抽出された静的かつ安定な領域の確率を示す特徴の画素単位での安定性を推定し、動的干渉に影響を受けず、正しくマッチングできる特徴を選択することができる。 デザインされた特徴選択モデルは、様々な外観と視点を持つ複数の公開データセットにおいて、位置認識とSLAMシステムで評価される。 実験の結果,提案手法の有効性が示唆された。 私たちの提案は、機能ベースのSLAMシステムに簡単にプラグインできることに注意してください。

Features play an important role in various visual tasks, especially in visual place recognition applied in perceptual changing environments. In this paper, we address the challenges of place recognition due to dynamics and confusable patterns by proposing a discriminative and semantic feature selection network, dubbed as DSFeat. Supervised by both semantic information and attention mechanism, we can estimate pixel-wise stability of features, indicating the probability of a static and stable region from which features are extracted, and then select features that are insensitive to dynamic interference and distinguishable to be correctly matched. The designed feature selection model is evaluated in place recognition and SLAM system in several public datasets with varying appearances and viewpoints. Experimental results conclude that the effectiveness of the proposed method. It should be noticed that our proposal can be readily pluggable into any feature-based SLAM system.
翻訳日:2021-03-20 03:51:21 公開日:2021-03-18
# (参考訳) Gated Multi-Level Attention and Temporal Adversarial Training を用いた映像理解のためのエンハンストランス [全文訳有]

Enhancing Transformer for Video Understanding Using Gated Multi-Level Attention and Temporal Adversarial Training ( http://arxiv.org/abs/2103.10043v1 )

ライセンス: CC BY 4.0
Saurabh Sahu and Palash Goyal(参考訳) Transformerモデルの導入は、特にテキスト領域におけるシーケンスモデリングの大幅な進歩につながった。 しかし、ビデオ理解のための注意に基づくモデルの使用は、いまだに未定である。 本稿では,GAT(Gated Adversarial Transformer)を導入し,映像への注目モデルの適用性を高める。 gatはマルチレベルアテンションゲートを使用して、ローカルおよびグローバルコンテキストに基づいたフレームの関連性をモデル化する。 これにより、モデルは様々な粒度でビデオを理解することができる。 さらに、GATはモデル一般化を改善するために敵の訓練を使用する。 本稿では,注意モジュールのロバスト性を改善するための時間的注意正規化手法を提案する。 本稿では,映像分類作業における大規模YoutTube-8MデータセットにおけるGATの性能について述べる。 さらに, 量的, 質的分析とともにアブレーション研究を行い, その改善を示す。

The introduction of Transformer model has led to tremendous advancements in sequence modeling, especially in text domain. However, the use of attention-based models for video understanding is still relatively unexplored. In this paper, we introduce Gated Adversarial Transformer (GAT) to enhance the applicability of attention-based models to videos. GAT uses a multi-level attention gate to model the relevance of a frame based on local and global contexts. This enables the model to understand the video at various granularities. Further, GAT uses adversarial training to improve model generalization. We propose temporal attention regularization scheme to improve the robustness of attention modules to adversarial examples. We illustrate the performance of GAT on the large-scale YoutTube-8M data set on the task of video categorization. We further show ablation studies along with quantitative and qualitative analysis to showcase the improvement.
翻訳日:2021-03-20 03:31:44 公開日:2021-03-18
# (参考訳) 知識蒸留における類似性伝達 [全文訳有]

Similarity Transfer for Knowledge Distillation ( http://arxiv.org/abs/2103.10047v1 )

ライセンス: CC BY 4.0
Haoran Zhao, Kun Gong, Xin Sun, Junyu Dong and Hui Yu(参考訳) 知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。 既存のアプローチのほとんどは、教師モデルが提供するインスタンスレベルのカテゴリ間の類似性情報を利用することで、学生モデルを強化する。 しかし、これらの研究は信頼度予測において重要な役割を果たす異なるインスタンス間の類似性相関を無視している。 本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達(stkd)と呼ばれる新しい手法を提案する。 さらに,重み付き線形補間により仮想サンプルを生成するmixup手法により,異なるインスタンス間の類似度相関をよりよく捉えることを提案する。 なお, 蒸留損失は混合ラベルによる不正確なクラス類似性を十分に活用できる。 提案手法は,複数の画像から作成した仮想サンプルが教師と生徒のネットワークで同様の確率分布を生成するため,学生モデルの性能を高める。 CIFAR-10,CIFAR-100,C INIC-10,Tiny-ImageNe tなどの公開分類データセットの実験とアブレーション実験により,この軽量化により,コンパクトな学生モデルの性能が向上することが確認された。 その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。

Knowledge distillation is a popular paradigm for learning portable neural networks by transferring the knowledge from a large model into a smaller one. Most existing approaches enhance the student model by utilizing the similarity information between the categories of instance level provided by the teacher model. However, these works ignore the similarity correlation between different instances that plays an important role in confidence prediction. To tackle this issue, we propose a novel method in this paper, called similarity transfer for knowledge distillation (STKD), which aims to fully utilize the similarities between categories of multiple samples. Furthermore, we propose to better capture the similarity correlation between different instances by the mixup technique, which creates virtual samples by a weighted linear interpolation. Note that, our distillation loss can fully utilize the incorrect classes similarities by the mixed labels. The proposed approach promotes the performance of student model as the virtual sample created by multiple images produces a similar probability distribution in the teacher and student networks. Experiments and ablation studies on several public classification datasets including CIFAR-10,CIFAR-100,C INIC-10 and Tiny-ImageNet verify that this light-weight method can effectively boost the performance of the compact student model. It shows that STKD substantially has outperformed the vanilla knowledge distillation and has achieved superior accuracy over the state-of-the-art knowledge distillation methods.
翻訳日:2021-03-20 03:16:02 公開日:2021-03-18
# (参考訳) 容積データに基づく時空間作物分類 [全文訳有]

Spatio-temporal Crop Classification On Volumetric Data ( http://arxiv.org/abs/2103.10050v1 )

ライセンス: CC BY 4.0
Muhammad Usman Qadeer, Salar Saeed, Murtaza Taj and Abubakr Muhammad(参考訳) 多スペクトル画像を用いた大規模作物分類は数十年にわたって広く研究されてきた問題であり、一般的には古典的ランダム林分分類器を用いて取り組まれている。 近年,深層畳み込みニューラルネットワーク(DCNN)が提案されている。 しかし、これらの手法はランダムフォレストに匹敵する結果しか得られなかった。 本研究では,大規模作物分類のための新しいCNNアーキテクチャを提案する。 本手法は3次元CNNによる時空間解析と1次元CNNによる時空間解析を併用する。 我々は,ヨーロ市とインペリアル郡ベンチマークデータセットに対するアプローチの有効性を評価した。 本手法は,最小パラメータ数と最小推論時間を維持しつつ,分類精度を2%向上させるため,古典的手法と最近のDCNN法の両方に優れる。

Large-area crop classification using multi-spectral imagery is a widely studied problem for several decades and is generally addressed using classical Random Forest classifier. Recently, deep convolutional neural networks (DCNN) have been proposed. However, these methods only achieved results comparable with Random Forest. In this work, we present a novel CNN based architecture for large-area crop classification. Our methodology combines both spatio-temporal analysis via 3D CNN as well as temporal analysis via 1D CNN. We evaluated the efficacy of our approach on Yolo and Imperial county benchmark datasets. Our combined strategy outperforms both classical as well as recent DCNN based methods in terms of classification accuracy by 2% while maintaining a minimum number of parameters and the lowest inference time.
翻訳日:2021-03-20 02:54:06 公開日:2021-03-18
# (参考訳) Dual-Modal Localizationによる高性能ビジュアルトラッキング [全文訳有]

Higher Performance Visual Tracking with Dual-Modal Localization ( http://arxiv.org/abs/2103.10089v1 )

ライセンス: CC BY 4.0
Jinghao Zhou, Bo Li, Lei Qiao, Peng Wang, Weihao Gan, Wei Wu, Junjie Yan, Wanli Ouyang(参考訳) Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。 既存の作業の多くは同時に動作しないが,本研究では,精度と堅牢性の相反する性能の問題について検討する。 まず,既存の手法の系統的比較を行い,その制約を正確性と頑健性の観点から分析する。 具体的には、4つの定式化-オフライン分類(OFC)、オフライン回帰(OFR)、オンライン分類(ONC)、オンライン回帰(ONR)をオンライン更新と監視信号の種類によって分類する。 そこで,本研究では,onrによる発散を抑制するロバストな位置決めと,ofcを介するターゲットセンタへの正確な位置決めからなる,ターゲット位置決めのための2モードフレームワークを提案する。 最終的な表現(つまり境界ボックス)を得るために,最終的な表現が単一場所にコミットしないような隣接予測を含む,単純かつ効果的なスコア投票戦略を提案する。 VOT2018, VOT2019, OTB2015, NFS, UAV123, LaSOT, TrackingNet, GOT-10kの8つのデータセットに対して,提案手法をさらに検証し, 最先端性能を実現する。

Visual Object Tracking (VOT) has synchronous needs for both robustness and accuracy. While most existing works fail to operate simultaneously on both, we investigate in this work the problem of conflicting performance between accuracy and robustness. We first conduct a systematic comparison among existing methods and analyze their restrictions in terms of accuracy and robustness. Specifically, 4 formulations-offline classification (OFC), offline regression (OFR), online classification (ONC), and online regression (ONR)-are considered, categorized by the existence of online update and the types of supervision signal. To account for the problem, we resort to the idea of ensemble and propose a dual-modal framework for target localization, consisting of robust localization suppressing distractors via ONR and the accurate localization attending to the target center precisely via OFC. To yield a final representation (i.e, bounding box), we propose a simple but effective score voting strategy to involve adjacent predictions such that the final representation does not commit to a single location. Operating beyond the real-time demand, our proposed method is further validated on 8 datasets-VOT2018, VOT2019, OTB2015, NFS, UAV123, LaSOT, TrackingNet, and GOT-10k, achieving state-of-the-art performance.
翻訳日:2021-03-20 02:45:56 公開日:2021-03-18
# (参考訳) どちらにマッチするか? 歩行者検出のための一貫性GT-Proposal Assignmentの選択 [全文訳有]

Which to Match? Selecting Consistent GT-Proposal Assignment for Pedestrian Detection ( http://arxiv.org/abs/2103.10091v1 )

ライセンス: CC BY 4.0
Yan Luo, Chongyang Zhang, Muming Zhao, Hao Zhou, Jun Sun(参考訳) 歩行者の正確な分類とローカライゼーションは、セキュリティ監視や自動運転などの幅広い応用により、多くの注目を集めている。 歩行者探知機は近年大きな進歩を遂げているが、IoU(IoU)をベースとした固定されたインターセクションは依然として性能を制限している。 Two main factors are responsible for this: 1) the IoU threshold faces a dilemma that a lower one will result in more false positives, while a higher one will filter out the matched positives; 2) the IoU-based GT-Proposal assignment suffers from the inconsistent supervision problem that spatially adjacent proposals with similar features are assigned to different ground-truth boxes, which means some very similar proposals may be forced to regress towards different targets, and thus confuses the bounding-box regression when predicting the location results. 本稿では,まず,歩行者検出の性能に影響を及ぼす<textbf{regression direction}>という疑問を提起する。 その結果,新しい代入・回帰指標として,幾何感度探索アルゴリズムを導入することで,IoUの弱点に対処する。 提案手法は,従来のIoUベースである1つの提案を1つの基本トラスボックスに割り当てる方法とは異なり,提案手法は提案セットと接地トラスボックスとの合理的なマッチングを求める。 具体的には、CitypersonsデータセットでR$_{75}$8.8\%のMR-FPPIを向上する。 さらに, この手法を, 最先端の歩行者検知器にメートル法として組み込むことにより, 一貫した改善を示す。

Accurate pedestrian classification and localization have received considerable attention due to their wide applications such as security monitoring, autonomous driving, etc. Although pedestrian detectors have made great progress in recent years, the fixed Intersection over Union (IoU) based assignment-regressio n manner still limits their performance. Two main factors are responsible for this: 1) the IoU threshold faces a dilemma that a lower one will result in more false positives, while a higher one will filter out the matched positives; 2) the IoU-based GT-Proposal assignment suffers from the inconsistent supervision problem that spatially adjacent proposals with similar features are assigned to different ground-truth boxes, which means some very similar proposals may be forced to regress towards different targets, and thus confuses the bounding-box regression when predicting the location results. In this paper, we first put forward the question that \textbf{Regression Direction} would affect the performance for pedestrian detection. Consequently, we address the weakness of IoU by introducing one geometric sensitive search algorithm as a new assignment and regression metric. Different from the previous IoU-based \textbf{one-to-one} assignment manner of one proposal to one ground-truth box, the proposed method attempts to seek a reasonable matching between the sets of proposals and ground-truth boxes. Specifically, we boost the MR-FPPI under R$_{75}$ by 8.8\% on Citypersons dataset. Furthermore, by incorporating this method as a metric into the state-of-the-art pedestrian detectors, we show a consistent improvement.
翻訳日:2021-03-20 02:05:52 公開日:2021-03-18
# (参考訳) CNNにおけるストライドと翻訳不変性 [全文訳有]

Stride and Translation Invariance in CNNs ( http://arxiv.org/abs/2103.10097v1 )

ライセンス: CC BY 4.0
Coenraad Mouton, Johannes C. Myburgh, Marelie H. Davel(参考訳) 畳み込みニューラルネットワークは画像分類タスクの標準となっているが、これらのアーキテクチャは入力画像の翻訳に不変ではない。 この不変性の欠如は、サンプリング定理を無視したストライドと、空間的推論を欠いた完全連結層の使用によるものである。 ストライドは、局所的同質性と呼ばれる特性である隣接画素間の十分な類似性と組み合わさることから、翻訳不変性に大きく寄与することを示した。 また,この特性はデータセット特異的であり,変換不変性に必要なカーネルサイズとストライドのプーリングの関係を規定している。 さらに、カーネルサイズをプールする場合の一般化と変換不変性の間にはトレードオフが存在し、カーネルサイズが大きくなると分散性は向上するが一般化性は低下する。 最後に,グローバル平均プール,アンチエイリアス,データ拡張など,局所的均一性のレンズを通じて提案する他のソリューションの有効性について検討する。

Convolutional Neural Networks have become the standard for image classification tasks, however, these architectures are not invariant to translations of the input image. This lack of invariance is attributed to the use of stride which ignores the sampling theorem, and fully connected layers which lack spatial reasoning. We show that stride can greatly benefit translation invariance given that it is combined with sufficient similarity between neighbouring pixels, a characteristic which we refer to as local homogeneity. We also observe that this characteristic is dataset-specific and dictates the relationship between pooling kernel size and stride required for translation invariance. Furthermore we find that a trade-off exists between generalization and translation invariance in the case of pooling kernel size, as larger kernel sizes lead to better invariance but poorer generalization. Finally we explore the efficacy of other solutions proposed, namely global average pooling, anti-aliasing, and data augmentation, both empirically and through the lens of local homogeneity.
翻訳日:2021-03-20 01:48:43 公開日:2021-03-18
# (参考訳) Few-Shot Learningによるリアルタイムビジュアルオブジェクト追跡 [全文訳有]

Real-Time Visual Object Tracking via Few-Shot Learning ( http://arxiv.org/abs/2103.10130v1 )

ライセンス: CC BY 4.0
Jinghao Zhou, Bo Li, Peng Wang, Peixia Li, Weihao Gan, Wei Wu, Junjie Yan, Wanli Ouyang(参考訳) ビジュアルオブジェクト追跡(VOT)はFew-Shot Learning(FSL)の拡張タスクと見なすことができる。 FSLの概念はトラッキングにおいて新しいものではなく、以前は以前の研究で採用されていたが、その多くは特定の種類のFSLアルゴリズムに適合するように調整されており、実行速度を犠牲にする可能性がある。 本研究では,FSLアルゴリズムを多種多様なアルゴリズムで適用し,適応速度を高速化する一般化された2段階フレームワークを提案する。 第1段階はシームズ地域提案ネットワークを用いて潜在的候補を効率的に提案し、第2段階はこれらの候補を数発の分類問題に分類するタスクを再構築する。 このような粗いパイプラインに続いて、第1段では、様々なFSLアルゴリズムをより便利かつ効率的に行うことができる第2段の情報スパースサンプルを提案する。 第2段階の補足として, 目的関数, 最適化法, 解空間の異なる先行研究から, 最適化に基づく数発学習者の数形態を体系的に検討した。 さらに、このフレームワークは、他のほとんどのFSLアルゴリズムの視覚的追跡を直接適用し、これらの2つのトピックに関する研究者間の相互通信を可能にする。 主要なベンチマークであるVOT2018, OTB2015, NFS, UAV123, TrackingNet, GOT-10kに関する大規模な実験が行われ、望ましいパフォーマンス向上とリアルタイム速度が示されている。

Visual Object Tracking (VOT) can be seen as an extended task of Few-Shot Learning (FSL). While the concept of FSL is not new in tracking and has been previously applied by prior works, most of them are tailored to fit specific types of FSL algorithms and may sacrifice running speed. In this work, we propose a generalized two-stage framework that is capable of employing a large variety of FSL algorithms while presenting faster adaptation speed. The first stage uses a Siamese Regional Proposal Network to efficiently propose the potential candidates and the second stage reformulates the task of classifying these candidates to a few-shot classification problem. Following such a coarse-to-fine pipeline, the first stage proposes informative sparse samples for the second stage, where a large variety of FSL algorithms can be conducted more conveniently and efficiently. As substantiation of the second stage, we systematically investigate several forms of optimization-based few-shot learners from previous works with different objective functions, optimization methods, or solution space. Beyond that, our framework also entails a direct application of the majority of other FSL algorithms to visual tracking, enabling mutual communication between researchers on these two topics. Extensive experiments on the major benchmarks, VOT2018, OTB2015, NFS, UAV123, TrackingNet, and GOT-10k are conducted, demonstrating a desirable performance gain and a real-time speed.
翻訳日:2021-03-20 01:37:56 公開日:2021-03-18
# (参考訳) 画像のテキスト編集におけるマルチモーダル親和性学習 [全文訳有]

Learning Multimodal Affinities for Textual Editing in Images ( http://arxiv.org/abs/2103.10139v1 )

ライセンス: CC BY 4.0
Or Perel, Oron Anschel, Omri Ben-Eliezer, Shai Mazor, Hadar Averbuch-Elor(参考訳) 今日では、毎日の日常にカメラが急速に採用されているため、文書の画像は豊富で普及している。 物理的オブジェクトをキャプチャする自然画像とは異なり、文書画像は重要な意味論と複雑なレイアウトを持つ膨大な量のテキストを含んでいる。 本研究では,テキストの視覚的スタイル,基礎となるテキストの内容,画像内の幾何学的コンテキストを考慮し,文書画像中のテキストエンティティ間のマルチモーダル親和性を学習するための汎用的教師なし手法を考案する。 次に、これらの学習親和性を使用して、画像内のテキストエンティティを異なるセマンティックグループに自動的にクラスタ化する。 本手法の核心は,テキスト要素のマルチモーダル表現における信頼性の高いペアワイズ接続を検出・活用し,親和性を適切に学習する,ユーザが提供する画像のための深い最適化手法である。 本手法は,幅広い文書にまたがる高度に多様な画像に対して動作可能であり,画像の内容,外観,形状を操作する様々な編集操作に適用可能であることを示す。

Nowadays, as cameras are rapidly adopted in our daily routine, images of documents are becoming both abundant and prevalent. Unlike natural images that capture physical objects, document-images contain a significant amount of text with critical semantics and complicated layouts. In this work, we devise a generic unsupervised technique to learn multimodal affinities between textual entities in a document-image, considering their visual style, the content of their underlying text and their geometric context within the image. We then use these learned affinities to automatically cluster the textual entities in the image into different semantic groups. The core of our approach is a deep optimization scheme dedicated for an image provided by the user that detects and leverages reliable pairwise connections in the multimodal representation of the textual elements in order to properly learn the affinities. We show that our technique can operate on highly varying images spanning a wide range of documents and demonstrate its applicability for various editing operations manipulating the content, appearance and geometry of the image.
翻訳日:2021-03-20 01:10:34 公開日:2021-03-18
# (参考訳) ディープラーニングのための高精度戦略の削減:高エネルギー物理生成逆ネットワーク利用事例 [全文訳有]

Reduced Precision Strategies for Deep Learning: A High Energy Physics Generative Adversarial Network Use Case ( http://arxiv.org/abs/2103.10142v1 )

ライセンス: CC BY 4.0
Florian Rehm, Sofia Vallecorsa, Vikram Saletore, Hans Pabst, Adel Chaibi, Valeriu Codreanu, Kerstin Borras, Dirk Kr\"ucker(参考訳) ディープラーニングは、従来のモンテカルロシミュレーションを置き換えることで、高エネルギー物理学への道を見出している。 しかし、ディープラーニングは依然として過剰な計算資源を必要とする。 ディープラーニングをより効率的にするための有望なアプローチは、ニューラルネットワークのパラメータを量子化し、精度を下げることである。 精密コンピューティングの削減は、現代のディープラーニングで広く使われ、結果として、実行時間の短縮、メモリフットプリントの削減、メモリ帯域幅の削減に繋がる。 本稿では,複雑な深層生成型逆ネットワークモデルに対する低精度推論の効果を解析する。 私たちが取り組んでいるユースケースは、加速器ベースの高エネルギー物理学におけるサブアトミック粒子相互作用のカロリメータ検出器シミュレーションです。 我々は、新しい低精度最適化ツールiLoTを用いて量子化を行い、その結果をTensorFlow Liteの量子化モデルと比較する。 パフォーマンスベンチマークでは、量子化ilotモデルのintelハードウェアでは、最初の量子化ではなく、初期モデルと比較して、133倍のスピードアップが得られます。 物理にインスパイアされた様々な自己発達メトリクスを用いて、量子化されたiLoTモデルがTensorFlow Liteモデルと比較して物理精度の損失が低いことを検証した。

Deep learning is finding its way into high energy physics by replacing traditional Monte Carlo simulations. However, deep learning still requires an excessive amount of computational resources. A promising approach to make deep learning more efficient is to quantize the parameters of the neural networks to reduced precision. Reduced precision computing is extensively used in modern deep learning and results to lower execution inference time, smaller memory footprint and less memory bandwidth. In this paper we analyse the effects of low precision inference on a complex deep generative adversarial network model. The use case which we are addressing is calorimeter detector simulations of subatomic particle interactions in accelerator based high energy physics. We employ the novel Intel low precision optimization tool (iLoT) for quantization and compare the results to the quantized model from TensorFlow Lite. In the performance benchmark we gain a speed-up of 1.73x on Intel hardware for the quantized iLoT model compared to the initial, not quantized, model. With different physics-inspired self-developed metrics, we validate that the quantized iLoT model shows a lower loss of physical accuracy in comparison to the TensorFlow Lite model.
翻訳日:2021-03-20 00:45:11 公開日:2021-03-18
# (参考訳) ビットバック符号化を用いた状態空間モデルによるロスレス圧縮 [全文訳有]

Lossless compression with state space models using bits back coding ( http://arxiv.org/abs/2103.10150v1 )

ライセンス: CC0 1.0
James Townsend, Iain Murray(参考訳) 我々は'bits back with ans'法を潜在マルコフ構造を持つ時系列モデルに一般化する。 このモデル群には隠れマルコフモデル(hmms)、線形ガウス状態空間モデル(lgssms)などが含まれる。 本手法が小規模モデルに有効であることを実験的に証明し,ビデオ圧縮などの大規模設定への適用性について考察した。

We generalize the 'bits back with ANS' method to time-series models with a latent Markov structure. This family of models includes hidden Markov models (HMMs), linear Gaussian state space models (LGSSMs) and many more. We provide experimental evidence that our method is effective for small scale models, and discuss its applicability to larger scale settings such as video compression.
翻訳日:2021-03-20 00:34:56 公開日:2021-03-18
# (参考訳) 効率的なプロトタイプ選択のための最適輸送枠組み [全文訳有]

Optimal transport framework for efficient prototype selection ( http://arxiv.org/abs/2103.10159v1 )

ライセンス: CC BY 4.0
Karthik S. Gurumoorthy and Pratik Jawanpuria and Bamdev Mishra(参考訳) 代表例によるデータの要約は、学習モデルと基礎となるデータ分布が意思決定に不可欠である、いくつかの機械学習アプリケーションにおいて重要な問題である。 本研究では,与えられた対象データセットを最もよく表現する有益なプロトタイプ例を選択するための最適なトランスポート(ot)ベースのフレームワークを開発した。 対象分布から最小OT距離を有するスパース(経験的)確率分布の学習として,プロトタイプ選択問題をモデル化する。 選択したプロトタイプで支持される学習確率尺度は、ターゲットデータの表現と要約の重要性と直接対応している。 目的関数は部分モジュラリティの重要な特性を享受し、計算速度と決定論的近似保証を持つ並列化可能なグリーディ法を提案する。 いくつかの実世界のベンチマークの結果は、我々のアプローチの有効性を示しています。

Summarizing data via representative examples is an important problem in several machine learning applications where human understanding of the learning models and underlying data distribution is essential for decision making. In this work, we develop an optimal transport (OT) based framework to select informative prototypical examples that best represent a given target dataset. We model the prototype selection problem as learning a sparse (empirical) probability distribution having minimum OT distance from the target distribution. The learned probability measure supported on the chosen prototypes directly corresponds to their importance in representing and summarizing the target data. We show that our objective function enjoys a key property of submodularity and propose a parallelizable greedy method that is both computationally fast and possess deterministic approximation guarantees. Empirical results on several real world benchmarks illustrate the efficacy of our approach.
翻訳日:2021-03-20 00:28:27 公開日:2021-03-18
# (参考訳) 医療画像セグメンテーションのための位置感応型局所プロトタイプネットワーク [全文訳有]

A Location-Sensitive Local Prototype Network for Few-Shot Medical Image Segmentation ( http://arxiv.org/abs/2103.10178v1 )

ライセンス: CC BY 4.0
Qinji Yu, Kang Dang, Nima Tajbakhsh, Demetri Terzopoulos, Xiaowei Ding(参考訳) 医用画像のセグメンテーションにおけるディープニューラルネットワークの膨大な成功にもかかわらず、それらは通常、高価な専門家レベルの注釈付きデータを必要とする。 少ないショットセグメンテーションアプローチは、ラベル付きサンプルの限られた量から知識を伝達することを学ぶことでこの問題に対処する。 適切な事前知識を組み込むことは、高性能な数ショットセグメンテーションアルゴリズムの設計において重要である。 強い空間的プリミティブは医用画像に多く存在するため,空間的プリミティブを活用し,少数の医用画像セグメンテーションを行うプロトタイプベースの手法,すなわち位置感応型ローカルプロトタイプネットワークを提案する。 本手法では,画像全体をグローバルプロトタイプで分割する難易度を,ローカルプロトタイプを用いた局所領域分割の解解可能な部分問題に分割する。 内臓ct画像データセットを用いた臓器セグメンテーション実験では,平均ダイス係数で10%の精度で最先端アプローチを上回った。 広汎なアブレーション研究は,空間情報を取り入れることによる大きなメリットを示し,本手法の有効性を確認した。

Despite the tremendous success of deep neural networks in medical image segmentation, they typically require a large amount of costly, expert-level annotated data. Few-shot segmentation approaches address this issue by learning to transfer knowledge from limited quantities of labeled examples. Incorporating appropriate prior knowledge is critical in designing high-performance few-shot segmentation algorithms. Since strong spatial priors exist in many medical imaging modalities, we propose a prototype-based method -- namely, the location-sensitive local prototype network -- that leverages spatial priors to perform few-shot medical image segmentation. Our approach divides the difficult problem of segmenting the entire image with global prototypes into easily solvable subproblems of local region segmentation with local prototypes. For organ segmentation experiments on the VISCERAL CT image dataset, our method outperforms the state-of-the-art approaches by 10% in the mean Dice coefficient. Extensive ablation studies demonstrate the substantial benefits of incorporating spatial information and confirm the effectiveness of our approach.
翻訳日:2021-03-20 00:05:04 公開日:2021-03-18
# (参考訳) OmniPose: マルチパーソンポース推定のためのマルチスケールフレームワーク [全文訳有]

OmniPose: A Multi-Scale Framework for Multi-Person Pose Estimation ( http://arxiv.org/abs/2103.10180v1 )

ライセンス: CC BY 4.0
Bruno Artacho and Andreas Savakis(参考訳) 提案するOmniPoseは,複数対人ポーズ推定のための最先端の学習結果を実現する,ワンパスでエンドツーエンドのトレーニング可能なフレームワークである。 新たなウォーターフォールモジュールを使用すると、omniposeアーキテクチャは、ポストプロセッシングを必要とせずに、バックボーン機能抽出器の有効性を高めるマルチスケールの機能表現を利用する。 OmniPoseは、マルチスケールの特徴抽出器において、スケールにわたるコンテキスト情報とガウス熱マップ変調との結合位置を組み込んで、最先端の精度で人間のポーズを推定する。 OmniPoseで改良されたウォーターフォールモジュールによって得られたマルチスケール表現は、空間ピラミッド構成に匹敵するマルチスケールフィールドを維持しながら、カスケードアーキテクチャにおけるプログレッシブフィルタリングの効率を活用している。 HRNetのバックボーンとウォーターフォールモジュールを改良したOmniPoseは、複数の人物のポーズ推定のための堅牢で効率的なアーキテクチャであり、最先端の結果が得られることを示す。

We propose OmniPose, a single-pass, end-to-end trainable framework, that achieves state-of-the-art results for multi-person pose estimation. Using a novel waterfall module, the OmniPose architecture leverages multi-scale feature representations that increase the effectiveness of backbone feature extractors, without the need for post-processing. OmniPose incorporates contextual information across scales and joint localization with Gaussian heatmap modulation at the multi-scale feature extractor to estimate human pose with state-of-the-art accuracy. The multi-scale representations, obtained by the improved waterfall module in OmniPose, leverage the efficiency of progressive filtering in the cascade architecture, while maintaining multi-scale fields-of-view comparable to spatial pyramid configurations. Our results on multiple datasets demonstrate that OmniPose, with an improved HRNet backbone and waterfall module, is a robust and efficient architecture for multi-person pose estimation that achieves state-of-the-art results.
翻訳日:2021-03-19 23:55:26 公開日:2021-03-18
# (参考訳) 空間時間グラフのデカップリングによる視覚的接地 [全文訳有]

Decoupled Spatial Temporal Graphs for Generic Visual Grounding ( http://arxiv.org/abs/2103.10191v1 )

ライセンス: CC BY 4.0
Qianyu Feng, Yunchao Wei, Mingming Cheng, Yi Yang(参考訳) 視覚的接地は、その多様性と複雑さのために視覚言語理解において長く続く問題である。 現在のプラクティスは、静止画や精巧なビデオクリップで視覚的な接地を実行することに集中しています。 一方、本研究は、与えられた表現を満足するすべてのオブジェクトをマイニングすることを目的として、より一般的な設定である汎用的な視覚グラウンディングを調査します。 重要なことは、目標を空間と時間の両方で正確にローカライズすることが期待されている。 一方、外観と動きの特徴をトレードオフさせることは難しい。 実際のシナリオでは、モデルが類似した属性で注意をそらすことに失敗する傾向がある。 そこで我々は,1) 空間的, 時間的表現を分解して, 正確な接地のために全側面の手がかりを抽出すること, 2) トラスト的学習経路戦略により, 邪魔者からの識別性と時間的一貫性を高めることを提案する。 さらに、遠距離ビデオによる参照ケースに挑戦する、新しいビデオデータセットであるGVGについて詳しく述べる。 実証実験は、Charades-STA、ActivityNet-Caption、GVGデータセットの最先端よりもDSTGの方が優れていることを示している。 コードとデータセットが利用可能になる。

Visual grounding is a long-lasting problem in vision-language understanding due to its diversity and complexity. Current practices concentrate mostly on performing visual grounding in still images or well-trimmed video clips. This work, on the other hand, investigates into a more general setting, generic visual grounding, aiming to mine all the objects satisfying the given expression, which is more challenging yet practical in real-world scenarios. Importantly, grounding results are expected to accurately localize targets in both space and time. Whereas, it is tricky to make trade-offs between the appearance and motion features. In real scenarios, model tends to fail in distinguishing distractors with similar attributes. Motivated by these considerations, we propose a simple yet effective approach, named DSTG, which commits to 1) decomposing the spatial and temporal representations to collect all-sided cues for precise grounding; 2) enhancing the discriminativeness from distractors and the temporal consistency with a contrastive learning routing strategy. We further elaborate a new video dataset, GVG, that consists of challenging referring cases with far-ranging videos. Empirical experiments well demonstrate the superiority of DSTG over state-of-the-art on Charades-STA, ActivityNet-Caption and GVG datasets. Code and dataset will be made available.
翻訳日:2021-03-19 23:40:45 公開日:2021-03-18
# (参考訳) Let-Mi: アラビア語のレバントTwitterデータセット [全文訳有]

Let-Mi: An Arabic Levantine Twitter Dataset for Misogynistic Language ( http://arxiv.org/abs/2103.10195v1 )

ライセンス: CC BY 4.0
Hala Mulki, Bilal Ghanem(参考訳) オンライン・ミソジニーは、ジェンダーベースのオンライン虐待を毎日経験するアラブ女性にとって、ますます心配になっている。 ミソジニー自動検出システムは、反女性アラビアの有害な内容の禁止に役立てることができる。 このようなシステムの開発は、アラビア語のmisogynyベンチマークデータセットの欠如によって妨げられている。 本稿では,アラビア語のミソジニーのための最初のベンチマークデータセットである,ミソジニズム言語のためのアラビア語レバンチンtwitterデータセット(let-mi)について紹介する。 さらに,データセット作成とアノテーションフェーズの詳細なレビューを行う。 提案したデータセットに対するアノテーションの整合性は,合意間評価によって強調された。 さらに、let-miは、複数の最先端機械学習システムとマルチタスク学習(mtl)構成によって実行されるバイナリ/マルチマルチ/ターゲット分類タスクを通じて評価データセットとして使用された。 その結果,使用済みシステムによる性能はアラビア語以外の言語に対する最先端の結果と一致し,MTLを用いることで誤用/ターゲット分類タスクの性能が向上した。

Online misogyny has become an increasing worry for Arab women who experience gender-based online abuse on a daily basis. Misogyny automatic detection systems can assist in the prohibition of anti-women Arabic toxic content. Developing such systems is hindered by the lack of the Arabic misogyny benchmark datasets. In this paper, we introduce an Arabic Levantine Twitter dataset for Misogynistic language (LeT-Mi) to be the first benchmark dataset for Arabic misogyny. We further provide a detailed review of the dataset creation and annotation phases. The consistency of the annotations for the proposed dataset was emphasized through inter-rater agreement evaluation measures. Moreover, Let-Mi was used as an evaluation dataset through binary/multi-/target classification tasks conducted by several state-of-the-art machine learning systems along with Multi-Task Learning (MTL) configuration. The obtained results indicated that the performances achieved by the used systems are consistent with state-of-the-art results for languages other than Arabic, while employing MTL improved the performance of the misogyny/target classification tasks.
翻訳日:2021-03-19 23:23:14 公開日:2021-03-18
# (参考訳) 系統分類学

Phylogenetic typology ( http://arxiv.org/abs/2103.10198v1 )

ライセンス: CC BY 4.0
Gerhard J\"ager and Johannes Wahle(参考訳) 本稿では,共通祖先による統計的非独立性を制御しながら,言語変数の頻度分布を推定する新しい手法を提案する。 従来の手法と異なり,本手法では,大規模かつ小規模の言語群から分離した言語群まで,データから推定される連続的なスケールで異なる関連度を制御しながら,すべての利用可能なデータを使用する。 まず、系統の分布は語彙データから推測される。 第二に、これらの系統はパラメータ状態間の遷移率を統計的に推定する統計モデルの一部として用いられる。 最後に、結果のマルコフ過程の長期平衡が計算される。 ケーススタディとして、世界中の言語にまたがる潜在的な単語順序相関について検討する。

In this article we propose a novel method to estimate the frequency distribution of linguistic variables while controlling for statistical non-independence due to shared ancestry. Unlike previous approaches, our technique uses all available data, from language families large and small as well as from isolates, while controlling for different degrees of relatedness on a continuous scale estimated from the data. Our approach involves three steps: First, distributions of phylogenies are inferred from lexical data. Second, these phylogenies are used as part of a statistical model to statistically estimate transition rates between parameter states. Finally, the long-term equilibrium of the resulting Markov process is computed. As a case study, we investigate a series of potential word-order correlations across the languages of the world.
翻訳日:2021-03-19 22:48:27 公開日:2021-03-18
# (参考訳) DanceNet3D:パラメトリックモーショントランスを用いた音楽ベースダンス生成 [全文訳有]

DanceNet3D: Music Based Dance Generation with Parametric Motion Transformer ( http://arxiv.org/abs/2103.10206v1 )

ライセンス: CC BY 4.0
Buyu Li, Yongchi Zhao, Lu Sheng(参考訳) 本研究では,音楽全体から鮮やかなダンスを生成できる新しい深層学習フレームワークを提案する。 課題を運動状態パラメータのフレーム生成と定義した先行研究とは対照的に,この課題を,アニメーション産業の実践に触発された,キーポーズ間の動き曲線の予測として定式化する。 提案したフレームワークはDanceNet3Dと呼ばれ、まず与えられた音楽のビートにキーポーズを生成し、その間の動き曲線を予測する。 DanceNet3Dは、エンコーダ・デコーダアーキテクチャと、トレーニングのための敵のスキームを採用している。 DanceNet3Dのデコーダはモーション生成に適した変換器であるMoTrans上に構築されている。 MoTransでは,キネマティック・チェーン・ネットワークによるキネマティック・相関を導入し,人間の動作の時間的局所的相関を考慮に入れた学習的局所注意モジュールを提案する。 さらに,プロのアニマティエータが生成した最初の大規模ダンスデータセットであるPhantomDanceを提案する。 広範囲にわたる実験により、提案手法は、能動的、エレガント、パフォーマンス、ビート同期の3dダンスを生成できることが示されている。

In this work, we propose a novel deep learning framework that can generate a vivid dance from a whole piece of music. In contrast to previous works that define the problem as generation of frames of motion state parameters, we formulate the task as a prediction of motion curves between key poses, which is inspired by the animation industry practice. The proposed framework, named DanceNet3D, first generates key poses on beats of the given music and then predicts the in-between motion curves. DanceNet3D adopts the encoder-decoder architecture and the adversarial schemes for training. The decoders in DanceNet3D are constructed on MoTrans, a transformer tailored for motion generation. In MoTrans we introduce the kinematic correlation by the Kinematic Chain Networks, and we also propose the Learned Local Attention module to take the temporal local correlation of human motion into consideration. Furthermore, we propose PhantomDance, the first large-scale dance dataset produced by professional animatiors, with accurate synchronization with music. Extensive experiments demonstrate that the proposed approach can generate fluent, elegant, performative and beat-synchronized 3D dances, which significantly surpasses previous works quantitatively and qualitatively.
翻訳日:2021-03-19 22:47:18 公開日:2021-03-18
# (参考訳) space-time crop & attend: improve cross-modal video representation learning [全文訳有]

Space-Time Crop & Attend: Improving Cross-modal Video Representation Learning ( http://arxiv.org/abs/2103.10211v1 )

ライセンス: CC BY 4.0
Mandela Patrick, Yuki M. Asano, Bernie Huang, Ishan Misra, Florian Metze, Joao Henriques, Andrea Vedaldi(参考訳) 自己教師付き学習から得られた画像表現の品質は、学習定式化に使用されるデータ拡張の種類に大きく依存する。 近年の研究では、静止画から映像へこれらの手法を移植し、音声信号と映像信号の両方を活用することで大きな効果が得られたが、静止画にとって非常に重要な収穫などの空間的な拡張がビデオでも有効であることは見つからなかった。 本稿では,ビデオの時空間的側面に特有の2つの方法でこれらの定式化を改善する。 まず,空間的にも,収穫などの空間的拡張がビデオにも有効であることを示すが,従来の実装では,高い処理量とメモリコストのため,十分に動作するスケールでは実現できなかった。 この問題に対処するため,我々はまず,機能空間においてより効率的に機能拡張をシミュレートする手法である feature crop を導入する。 第2に, 単純平均プールとは対照的に, トランスフォーマーによる注意力の利用により性能が向上し, 特徴作物の処理に適していることを示す。 2つの発見を新しい方法、space-time crop & attend(stica)に組み合わせることで、複数のビデオ表現学習ベンチマークで最先端のパフォーマンスを実現します。 特に, hmdb-51 の67.0%, ucf-101 の93.1%という新たな精度を達成する。

The quality of the image representations obtained from self-supervised learning depends strongly on the type of data augmentations used in the learning formulation. Recent papers have ported these methods from still images to videos and found that leveraging both audio and video signals yields strong gains; however, they did not find that spatial augmentations such as cropping, which are very important for still images, work as well for videos. In this paper, we improve these formulations in two ways unique to the spatio-temporal aspect of videos. First, for space, we show that spatial augmentations such as cropping do work well for videos too, but that previous implementations, due to the high processing and memory cost, could not do this at a scale sufficient for it to work well. To address this issue, we first introduce Feature Crop, a method to simulate such augmentations much more efficiently directly in feature space. Second, we show that as opposed to naive average pooling, the use of transformer-based attention improves performance significantly, and is well suited for processing feature crops. Combining both of our discoveries into a new method, Space-time Crop & Attend (STiCA) we achieve state-of-the-art performance across multiple video-representation learning benchmarks. In particular, we achieve new state-of-the-art accuracies of 67.0% on HMDB-51 and 93.1% on UCF-101 when pre-training on Kinetics-400.
翻訳日:2021-03-19 22:33:02 公開日:2021-03-18
# (参考訳) ICDAR2019 Conference on Scanned Receipt OCR and Information extract [全文訳有]

ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction ( http://arxiv.org/abs/2103.10213v1 )

ライセンス: CC BY 4.0
Zheng Huang, Kai Chen, Jianhua He, Xiang Bai, Dimosthenis Karatzas, Shjian Lu, and C.V. Jawahar(参考訳) スキャンされたレシートOCRおよびキー情報抽出(SROIE)は、スキャンされたレシートからテキストを認識し、それらからキーテキストを抽出し、抽出したテストを構造化文書に保存する過程を表す。 SROIEは多くの文書分析アプリケーションにおいて重要な役割を担い、大きな商業的可能性を持っているが、この分野での研究成果や進歩はほとんど発表されていない。 SROIEの技術的課題、重要性、巨大な商業的可能性を認識して、私たちはSROIEに関するICDAR 2019コンペティションを開催しました。 本大会では,Scanned Receipt Text Localisation(Task1), Scanned Receipt OCR(Task2),Key Information extract from Scanned Receipts(Task3)という3つのタスクを設定した。 コンペティションのために、1000個のレシートイメージとアノテーションをスキャンした新しいデータセットが作成されている。 本報告では,モチベーション,競合データセット,タスク定義,評価プロトコル,提出統計,提案手法の性能,結果分析について述べる。

Scanned receipts OCR and key information extraction (SROIE) represent the processeses of recognizing text from scanned receipts and extracting key texts from them and save the extracted tests to structured documents. SROIE plays critical roles for many document analysis applications and holds great commercial potentials, but very little research works and advances have been published in this area. In recognition of the technical challenges, importance and huge commercial potentials of SROIE, we organized the ICDAR 2019 competition on SROIE. In this competition, we set up three tasks, namely, Scanned Receipt Text Localisation (Task 1), Scanned Receipt OCR (Task 2) and Key Information Extraction from Scanned Receipts (Task 3). A new dataset with 1000 whole scanned receipt images and annotations is created for the competition. In this report we will presents the motivation, competition datasets, task definition, evaluation protocol, submission statistics, performance of submitted methods and results analysis.
翻訳日:2021-03-19 22:05:41 公開日:2021-03-18
# (参考訳) 異なる有価な説明を伴うトリビアル・カウンタリファクト・エクスプメンテーションを超えて

Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations ( http://arxiv.org/abs/2103.10226v1 )

ライセンス: CC BY 4.0
Pau Rodriguez, Massimo Caccia, Alexandre Lacoste, Lee Zamparo, Issam Laradji, Laurent Charlin, David Vazquez(参考訳) より信頼性の高い機械学習システムをデプロイすることの重要性から、機械学習モデルの説明可能性に大きな注目を集めています。 コンピュータビジョンの応用において、生成的反ファクト法はモデルの入力を摂動して予測を変更する方法を示し、モデルの意思決定の詳細を提供する。 現在のカウンターファクト法は、モデルとデータの複数のバイアスをモデルの決定の単一の逆ファクト解釈で組み合わせることで曖昧な解釈を行う。 さらに、これらの手法は、分類される属性の存在を誇張するか取り除くことをしばしば提案するので、モデルの決定に関する自明な反事実を生み出す傾向がある。 機械学習の実践者にとって、これらのカウンターファクトは、望ましくないモデルやデータバイアスに関する新しい情報を提供しないので、ほとんど価値を提供しない。 本研究では,モデルの予測に関する複数の重要な説明を明らかにするために,多様性を追求する損失を用いて制約された乱れ空間の摂動を学習する反実的手法を提案する。 さらに,モデルが自明な説明を生じないようにするメカニズムを提案する。 CelebAとSynbolsの実験では,従来の最先端手法と比較して,高品質な価値説明が得られた場合の成功率の向上が示されている。 コードを公開します。

Explainability for machine learning models has gained considerable attention within our research community given the importance of deploying more reliable machine-learning systems. In computer vision applications, generative counterfactual methods indicate how to perturb a model's input to change its prediction, providing details about the model's decision-making. Current counterfactual methods make ambiguous interpretations as they combine multiple biases of the model and the data in a single counterfactual interpretation of the model's decision. Moreover, these methods tend to generate trivial counterfactuals about the model's decision, as they often suggest to exaggerate or remove the presence of the attribute being classified. For the machine learning practitioner, these types of counterfactuals offer little value, since they provide no new information about undesired model or data biases. In this work, we propose a counterfactual method that learns a perturbation in a disentangled latent space that is constrained using a diversity-enforcing loss to uncover multiple valuable explanations about the model's prediction. Further, we introduce a mechanism to prevent the model from producing trivial explanations. Experiments on CelebA and Synbols demonstrate that our model improves the success rate of producing high-quality valuable explanations when compared to previous state-of-the-art methods. We will publish the code.
翻訳日:2021-03-19 21:57:46 公開日:2021-03-18
# (参考訳) 分布的ロバスト最適化における第2プレイヤーのモデリング [全文訳有]

Modeling the Second Player in Distributionally Robust Optimization ( http://arxiv.org/abs/2103.10282v1 )

ライセンス: CC BY 4.0
Paul Michel, Tatsunori Hashimoto, Graham Neubig(参考訳) 分散的ロバスト最適化 (distributionally robust optimization, dro) は、関連するデータ分散の集合("uncertainty set")でうまく機能する機械学習モデルをトレーニングするためのフレームワークを提供する。 これはmin-maxゲーム(英語版)を解くことで実現され、モデルは不確実集合内の全ての分布における最大損失を最小限に抑えるよう訓練される。 不確実性セットの注意深い設計はDRO手順の成功に不可欠であるが、以前の研究は、$f$-divergence ballsのようなmin-max最適化問題を正確に抽出できる比較的単純な代替案に限られていた。 本稿では,神経生成モデルを用いて最悪の症例分布を特徴付け,不確実性集合のより柔軟かつ問題特異的な選択を可能にすることを論じる。 しかし、概念的には単純だが、このアプローチは多くの実装と最適化の課題をもたらす。 これらの問題を回避すべく,大規模生成モデルの勾配に基づく最適化に対してdro問題をより緩和し,超パラメータ探索を導くモデル選択ヒューリスティックスを開発するkl制約内包最大化目標の緩和を提案する。 おもちゃの設定と現実的なNLPタスクの両方において、提案手法は同等のベースラインよりも堅牢なモデルを生成する。

Distributionally robust optimization (DRO) provides a framework for training machine learning models that are able to perform well on a collection of related data distributions (the "uncertainty set"). This is done by solving a min-max game: the model is trained to minimize its maximum expected loss among all distributions in the uncertainty set. While careful design of the uncertainty set is critical to the success of the DRO procedure, previous work has been limited to relatively simple alternatives that keep the min-max optimization problem exactly tractable, such as $f$-divergence balls. In this paper, we argue instead for the use of neural generative models to characterize the worst-case distribution, allowing for more flexible and problem-specific selection of the uncertainty set. However, while simple conceptually, this approach poses a number of implementation and optimization challenges. To circumvent these issues, we propose a relaxation of the KL-constrained inner maximization objective that makes the DRO problem more amenable to gradient-based optimization of large scale generative models, and develop model selection heuristics to guide hyper-parameter search. On both toy settings and realistic NLP tasks, we find that the proposed approach yields models that are more robust than comparable baselines.
翻訳日:2021-03-19 21:32:10 公開日:2021-03-18
# (参考訳) real-time, deep synthetic aperture sonar (sas) autofocus [全文訳有]

Real-Time, Deep Synthetic Aperture Sonar (SAS) Autofocus ( http://arxiv.org/abs/2103.10312v1 )

ライセンス: CC BY 4.0
Isaac D. Gerg and Vishal Monga(参考訳) 合成開口ソナー(sas)は、送信/受信波形の正確な飛行時間計測を必要とする。 これらの測定における誤りが、画像のデフォーカスをもたらすことは珍しくない。 これを解決するために、画像再構成後の後処理ステップとして \emph{autofocus} アルゴリズムを用いる。 これらのアルゴリズムの特定のクラスは、シャープネス/コントラストメトリックベース最適化として構成することができる。 収束性を改善するために、画像の「悪い」領域を除去する手作りの重み付け関数を、最適化手順の前に画像アンダーテストに適用することがある。 さらに、低サイズ、重み、パワー(SWaP)システムに対する計算負荷が大きい収束には、数十のイテレーションが必要である。 本稿では,これらの制限を克服し,データ駆動方式で重み付け関数を暗黙的に学習する深層学習手法を提案する。 提案手法はDeep Autofocusと呼ばれ、SLC(Single-look-comp lex)の機能を用いて、$k$-spaceで適用された位相補正を推定する。 さらに、トレーニングイメージのバッチでアルゴリズムをトレーニングすることで、デプロイ中は、自動フォーカスに十分なのは1回のイテレーションのみになるようにします。 実験の結果を4つの画像シャープネス指標と比較することにより,その堅牢性を示す結果を示した。 以上の結果から,深部オートフォーカスは一般的な反復的手法よりもイメージを知覚的に優れたものにすることができるが,計算コストは低い。 深いオートフォーカスは、将来の研究の大きな可能性を持つ代替品よりも、より有利なコスト品質のトレードオフを提供できると結論づける。

Synthetic aperture sonar (SAS) requires precise time-of-flight measurements of the transmitted/received waveform to produce well-focused imagery. It is not uncommon for errors in these measurements to be present resulting in image defocusing. To overcome this, an \emph{autofocus} algorithm is employed as a post-processing step after image reconstruction to improve image focus. A particular class of these algorithms can be framed as a sharpness/contrast metric-based optimization. To improve convergence, a hand-crafted weighting function to remove "bad" areas of the image is sometimes applied to the image-under-test before the optimization procedure. Additionally, dozens of iterations are necessary for convergence which is a large compute burden for low size, weight, and power (SWaP) systems. We propose a deep learning technique to overcome these limitations and implicitly learn the weighting function in a data-driven manner. Our proposed method, which we call Deep Autofocus, uses features from the single-look-complex (SLC) to estimate the phase correction which is applied in $k$-space. Furthermore, we train our algorithm on batches of training imagery so that during deployment, only a single iteration of our method is sufficient to autofocus. We show results demonstrating the robustness of our technique by comparing our results to four commonly used image sharpness metrics. Our results demonstrate Deep Autofocus can produce imagery perceptually better than common iterative techniques but at a lower computational cost. We conclude that Deep Autofocus can provide a more favorable cost-quality trade-off than alternatives with significant potential of future research.
翻訳日:2021-03-19 21:08:12 公開日:2021-03-18
# (参考訳) 目標指向対話エージェントにおける音声認識のための言語モデルの文脈バイアス [全文訳有]

Contextual Biasing of Language Models for Speech Recognition in Goal-Oriented Conversational Agents ( http://arxiv.org/abs/2103.10325v1 )

ライセンス: CC BY 4.0
Ashish Shenoy, Sravan Bodapati, Katrin Kirchhoff(参考訳) 目標指向の対話インタフェースは特定のタスクを達成するように設計されており、通常、事前に定義された構造と目標に固執する複数のターンにまたがる相互作用を持つ。 しかしながら、ASR(Automatic Speech Recognition)システムにおける従来のニューラル言語モデル(NLM)は、主に限られた文脈で訓練された文量である。 本稿では,長期依存をモデル化し,音声認識を改善するために,文脈をLSTMベースのNLMに組み込む方法について検討する。 具体的には、複数のターンにまたがってコンテキストを搬送し、自然言語理解(NLU)モデルからのシステムダイアログアクトや、チャットボットのユーザ提供構造などの語彙的コンテキストキューを使用する。 また,推測時間に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。 実験の結果, 目標指向音声データセット上での非テキストレベルのNLMレコーダよりも単語誤り率 (WER) が7%低下した。

Goal-oriented conversational interfaces are designed to accomplish specific tasks and typically have interactions that tend to span multiple turns adhering to a pre-defined structure and a goal. However, conventional neural language models (NLM) in Automatic Speech Recognition (ASR) systems are mostly trained sentence-wise with limited context. In this paper, we explore different ways to incorporate context into a LSTM based NLM in order to model long range dependencies and improve speech recognition. Specifically, we use context carry over across multiple turns and use lexical contextual cues such as system dialog act from Natural Language Understanding (NLU) models and the user provided structure of the chatbot. We also propose a new architecture that utilizes context embeddings derived from BERT on sample utterances provided during inference time. Our experiments show a word error rate (WER) relative reduction of 7% over non-contextual utterance-level NLM rescorers on goal-oriented audio datasets.
翻訳日:2021-03-19 20:58:41 公開日:2021-03-18
# (参考訳) 言語モデルにおけるリレーショナルエンコーディング再考--一般シーケンスのための事前学習 [全文訳有]

Rethinking Relational Encoding in Language Model: Pre-Training for General Sequences ( http://arxiv.org/abs/2103.10334v1 )

ライセンス: CC BY-SA 4.0
Matthew B. A. McDermott, Brendan Yap, Peter Szolovits, Marinka Zitnik(参考訳) 言語モデル事前学習(LMPT)は自然言語理解において顕著な成果を上げている。 しかし、LMPTはタンパク質配列のような非自然言語ドメインでは成功しておらず、様々なシーケンシャルドメイン間の重要な相違が明らかである。 ここでは、LMPTはトーケン関係を効果的にモデル化できるが、非自然言語領域におけるシーケンス関係のモデル化に失敗する。 そこで本研究では,LMPTと深層構造保存メトリック学習を結合して,LMPT単独で得られるよりもリッチな埋め込みを生成するフレームワークを開発した。 このフレームワークで新規および既存の事前学習モデルを調べ,理論的にフレームワーク全体を解析する。 また、様々な合成データセットと、タンパク質と科学的な抽象のグラフによる新しいデータセットに関する実験も設計した。 提案手法は,タンパク質リモートホモロジーの予測や引用意図の分類など,下流タスクにおける顕著なパフォーマンス向上を提供する。

Language model pre-training (LMPT) has achieved remarkable results in natural language understanding. However, LMPT is much less successful in non-natural language domains like protein sequences, revealing a crucial discrepancy between the various sequential domains. Here, we posit that while LMPT can effectively model per-token relations, it fails at modeling per-sequence relations in non-natural language domains. To this end, we develop a framework that couples LMPT with deep structure-preserving metric learning to produce richer embeddings than can be obtained from LMPT alone. We examine new and existing pre-training models in this framework and theoretically analyze the framework overall. We also design experiments on a variety of synthetic datasets and new graph-augmented datasets of proteins and scientific abstracts. Our approach offers notable performance improvements on downstream tasks, including prediction of protein remote homology and classification of citation intent.
翻訳日:2021-03-19 20:49:48 公開日:2021-03-18
# (参考訳) 分散型・フェデレーションエッジ学習のためのエネルギー・炭素フットプリント分析フレームワーク [全文訳有]

A Framework for Energy and Carbon Footprint Analysis of Distributed and Federated Edge Learning ( http://arxiv.org/abs/2103.10346v1 )

ライセンス: CC BY 4.0
Stefano Savazzi, Sanaz Kianoush, Vittorio Rampa, Mehdi Bennis(参考訳) 分散学習の最近の進歩は、データセンターへのデータのトレーニングと移動に必要な大きなエネルギーのために環境問題を引き起こす。 フェデレーション学習(fl)のような新しいパラダイムは、データプロデューサと学習者の両方を同時に機能するデバイスやサイロ間の分散モデルトレーニングに適している。 集中型学習(cl)のテクニックとは異なり、flのシナリオでは、デバイスはプライベートデータを共有することなく、共同でモデルをトレーニングする。 この記事では、データセンターで動作する従来のCL/Big-Dataアルゴリズムと比較して、FLポリシーの環境フットプリントに影響を与える主な要因を分解し分析する。 提案する分析フレームワークは, 学習費と通信エネルギーコスト, 炭素等価排出量の両方を考慮に入れ, さらに, コンセンサスによって推進されるバニラ政策と分散型fl政策の両方をモデル化する。 このフレームワークは、現実のロボット化された職場を想定した産業環境で評価される。 その結果、FLは低ビット/ジュール効率(50kbit/ジュール以下)を特徴とする無線システムに対して、顕著なエンドツーエンドの省エネ(30%-40%)を可能にした。 コンセンサス駆動FLはパラメータサーバを必要とせず、メッシュネットワーク(200kbit/Joule)のエミッションを削減する。 一方、すべてのFLポリシーは、ローカルデータが不均一に分散されている場合(しばしばCLよりも2倍遅い)に収束する。 エネルギーフットプリントと学習損失をトレードオフして効率を最適化することができる。

Recent advances in distributed learning raise environmental concerns due to the large energy needed to train and move data to/from data centers. Novel paradigms, such as federated learning (FL), are suitable for decentralized model training across devices or silos that simultaneously act as both data producers and learners. Unlike centralized learning (CL) techniques, relying on big-data fusion and analytics located in energy hungry data centers, in FL scenarios devices collaboratively train their models without sharing their private data. This article breaks down and analyzes the main factors that influence the environmental footprint of FL policies compared with classical CL/Big-Data algorithms running in data centers. The proposed analytical framework takes into account both learning and communication energy costs, as well as the carbon equivalent emissions; in addition, it models both vanilla and decentralized FL policies driven by consensus. The framework is evaluated in an industrial setting assuming a real-world robotized workplace. Results show that FL allows remarkable end-to-end energy savings (30%-40%) for wireless systems characterized by low bit/Joule efficiency (50 kbit/Joule or lower). Consensus-driven FL does not require the parameter server and further reduces emissions in mesh networks (200 kbit/Joule). On the other hand, all FL policies are slower to converge when local data are unevenly distributed (often 2x slower than CL). Energy footprint and learning loss can be traded off to optimize efficiency.
翻訳日:2021-03-19 20:13:57 公開日:2021-03-18
# (参考訳) すべてのNLPタスクが生成タスク:一般的な事前トレーニングフレームワーク [全文訳有]

All NLP Tasks Are Generation Tasks: A General Pretraining Framework ( http://arxiv.org/abs/2103.10360v1 )

ライセンス: CC BY 4.0
Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang(参考訳) 事前トレーニングアーキテクチャには、自動回帰モデル(GPTなど)、自動エンコードモデル(BERTなど)、エンコーダ-デコーダモデル(T5など)など、さまざまな種類がある。 一方、NLPタスクは本質的には異なり、分類、無条件生成、条件生成の3つの主要なカテゴリがある。 しかしながら、事前トレーニングフレームワークがすべてのタスクで最高のパフォーマンスを発揮することはなく、モデルの開発と選択に不便をもたらす。 本稿では,この課題に対処する新しい事前学習フレームワーク GLM (General Language Model) を提案する。 先行研究と比較して,(1)単一事前学習モデルによる分類,無条件生成,条件生成のタスクに良好に機能する,(2)事前訓練と精細化の一貫性の向上による分類上のbertモデルを上回る,(3)ダウンストリームタスクに不可欠な可変長ブランクフィリングを自然に処理する,の3つの大きなメリットがある。 GLMは、SuperGLUEの自然言語理解ベンチマークにおいて、同じ量の事前学習データでBERTを大幅に上回っている。 さらに、BERT-Large の 1.25 倍のパラメータを持つ GLM は、異なる下流タスクに対する一般化性を示す条件付きおよび非条件生成の NLU において、最高の性能を達成する。

There have been various types of pretraining architectures including autoregressive models (e.g., GPT), autoencoding models (e.g., BERT), and encoder-decoder models (e.g., T5). On the other hand, NLP tasks are different in nature, with three main categories being classification, unconditional generation, and conditional generation. However, none of the pretraining frameworks performs the best for all tasks, which introduces inconvenience for model development and selection. We propose a novel pretraining framework GLM (General Language Model) to address this challenge. Compared to previous work, our architecture has three major benefits: (1) it performs well on classification, unconditional generation, and conditional generation tasks with one single pretrained model; (2) it outperforms BERT-like models on classification due to improved pretrain-finetune consistency; (3) it naturally handles variable-length blank filling which is crucial for many downstream tasks. Empirically, GLM substantially outperforms BERT on the SuperGLUE natural language understanding benchmark with the same amount of pre-training data. Moreover, GLM with 1.25x parameters of BERT-Large achieves the best performance in NLU, conditional and unconditional generation at the same time, which demonstrates its generalizability to different downstream tasks.
翻訳日:2021-03-19 19:54:36 公開日:2021-03-18
# (参考訳) MSMatch: わずかなラベルによる半スーパービジョンマルチスペクトルシーン分類 [全文訳有]

MSMatch: Semi-Supervised Multispectral Scene Classification with Few Labels ( http://arxiv.org/abs/2103.10368v1 )

ライセンス: CC BY 4.0
Pablo G\'omez and Gabriele Meoni(参考訳) 監視学習技術はリモートセンシングにおける多くのタスクの中心にある。 残念ながら、これらの手法、特に最近のディープラーニング手法は、トレーニングのために大量のラベル付きデータを必要とすることが多い。 衛星は大量のデータを取得するが、データのラベル付けはしばしば面倒で高価であり、専門家の知識を必要とする。 そのため、ラベル付きサンプルの少ない改善方法が必要である。 我々は,EuroSATベンチマークデータセットのシーン分類において,教師付き手法と競合する最初の半教師付き学習手法であるMSMatchを提案する。 rgb画像とマルチスペクトル画像の両方をテストし、モデルの重要な部分を特定するために様々なアブレーション研究を行う。 トレーニングされたニューラルネットワークは、ラベル付きトレーニングの例の数によって、従来の手法よりも1.98%から19.76%の精度で、EuroSATの最先端の結果を達成する。 クラス毎のラベル付きサンプルはわずか5つで、ユーロサット RGB とマルチスペクトルデータセットでそれぞれ 94.53% と 95.86% に達する。 クラス毎に50のラベルがあり、97.62%、98.23%の精度がある。 この結果から,MSMatchはラベル付きデータの要求を大幅に低減できることがわかった。 マルチスペクトルデータによく翻訳され、ラベル付きデータの欠如により現在実現不可能な様々なアプリケーションを可能にする。 MSMatchのソースコードをオンラインで提供し、簡単に再現と迅速な採用を可能にします。

Supervised learning techniques are at the center of many tasks in remote sensing. Unfortunately, these methods, especially recent deep learning methods, often require large amounts of labeled data for training. Even though satellites acquire large amounts of data, labeling the data is often tedious, expensive and requires expert knowledge. Hence, improved methods that require fewer labeled samples are needed. We present MSMatch, the first semi-supervised learning approach competitive with supervised methods on scene classification on the EuroSAT benchmark dataset. We test both RGB and multispectral images and perform various ablation studies to identify the critical parts of the model. The trained neural network achieves state-of-the-art results on EuroSAT with an accuracy that is between 1.98% and 19.76% better than previous methods depending on the number of labeled training examples. With just five labeled examples per class we reach 94.53% and 95.86% accuracy on the EuroSAT RGB and multispectral datasets, respectively. With 50 labels per class we reach 97.62% and 98.23% accuracy. Our results show that MSMatch is capable of greatly reducing the requirements for labeled data. It translates well to multispectral data and should enable various applications that are currently infeasible due to a lack of labeled data. We provide the source code of MSMatch online to enable easy reproduction and quick adoption.
翻訳日:2021-03-19 19:29:47 公開日:2021-03-18
# (参考訳) モデルベース深層強化学習におけるペシミズムと最適化の併用 [全文訳有]

Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning ( http://arxiv.org/abs/2103.10369v1 )

ライセンス: CC BY 4.0
Sebastian Curi, Ilija Bogunovic, Andreas Krause(参考訳) 実世界のタスクでは、強化学習(RL)エージェントはトレーニング中に存在しない状況に頻繁に遭遇する。 信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。 堅牢なRLフレームワークは、エージェントと敵の間の最悪の最適化を通じて、この問題に対処する。 従来のロバストなRLアルゴリズムは、サンプリング非効率、堅牢性保証の欠如、あるいは大きな問題にスケールしない。 本稿では,RH-UCRL(Robust Hallucinated Upper-Confidence RL)アルゴリズムを提案する。 RH-UCRL はモデルベース強化学習 (MBRL) アルゴリズムであり、表皮症と失語症を効果的に区別し、政策学習中にエージェントと敵対的決定空間の両方を効率的に探索する。 rh-ucrlをニューラルネットワークのアンサンブルモデルとニューラルネットワークポリシを通じて複雑なタスクにスケールする。 実験により,rh-ucrlは他の強固な深層rlアルゴリズムに勝ることを示した。

In real-world tasks, reinforcement learning (RL) agents frequently encounter situations that are not present during training time. To ensure reliable performance, the RL agents need to exhibit robustness against worst-case situations. The robust RL framework addresses this challenge via a worst-case optimization between an agent and an adversary. Previous robust RL algorithms are either sample inefficient, lack robustness guarantees, or do not scale to large problems. We propose the Robust Hallucinated Upper-Confidence RL (RH-UCRL) algorithm to provably solve this problem while attaining near-optimal sample complexity guarantees. RH-UCRL is a model-based reinforcement learning (MBRL) algorithm that effectively distinguishes between epistemic and aleatoric uncertainty and efficiently explores both the agent and adversary decision spaces during policy learning. We scale RH-UCRL to complex tasks via neural networks ensemble models as well as neural network policies. Experimentally, we demonstrate that RH-UCRL outperforms other robust deep RL algorithms in a variety of adversarial environments.
翻訳日:2021-03-19 19:14:43 公開日:2021-03-18
# (参考訳) GPTも理解している。 [全文訳有]

GPT Understands, Too ( http://arxiv.org/abs/2103.10385v1 )

ライセンス: CC BY 4.0
Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, Jie Tang(参考訳) 従来の微調整型GPTは自然言語理解(NLU)において強力な結果が得られないが,学習可能な連続的プロンプト埋め込みを用いた新しいP-チューニング法により,NLUタスクにおける類似サイズのBERTよりも優れた結果が得られることを示す。 知識探索(LAMA)ベンチマークでは、最高のGPTはテスト期間中に追加のテキストが提供されずに64\%(P@1)の世界の知識を回復する。 SuperGlueベンチマークでは、GPTは教師あり学習において、類似サイズのBERTと同等、時には同等のパフォーマンスを達成する。 重要なことに、Pチューニングは、数ショットと教師付き設定の両方でBERTのパフォーマンスを向上すると同時に、プロンプトエンジニアリングの必要性を大幅に低減する。 その結果、p-tuningは、少数のsuperglueベンチマークで最先端のアプローチを上回っている。

While GPTs with traditional fine-tuning fail to achieve strong results on natural language understanding (NLU), we show that GPTs can be better than or comparable to similar-sized BERTs on NLU tasks with a novel method P-tuning -- which employs trainable continuous prompt embeddings. On the knowledge probing (LAMA) benchmark, the best GPT recovers 64\% (P@1) of world knowledge without any additional text provided during test time, which substantially improves the previous best by 20+ percentage points. On the SuperGlue benchmark, GPTs achieve comparable and sometimes better performance to similar-sized BERTs in supervised learning. Importantly, we find that P-tuning also improves BERTs' performance in both few-shot and supervised settings while largely reducing the need for prompt engineering. Consequently, P-tuning outperforms the state-of-the-art approaches on the few-shot SuperGlue benchmark.
翻訳日:2021-03-19 18:12:06 公開日:2021-03-18
# (参考訳) イベント構造を分解および再構成する [全文訳有]

Decomposing and Recomposing Event Structure ( http://arxiv.org/abs/2103.10387v1 )

ライセンス: CC BY 4.0
William Gantt, Lelia Glass, and Aaron Steven White(参考訳) 文と文書レベルのセマンティックグラフに注釈付けされた推論特性から経験的に派生したイベント構造オントロジーを提案する。 このオントロジーを、文書レベルの生成モデルを用いて意味的役割、エンティティタイプ、イベントイベント関連オントロジーと共同で導入し、従来の理論的動機付けされた分類法と密接に一致するタイプの集合を同定する。

We present an event structure ontology empirically derived from inferential properties annotated on sentence- and document-level semantic graphs. We induce this ontology jointly with semantic role, entity type, and event-event relation ontologies using a document-level generative model, identifying sets of types that align closely with previous theoretically-motiva ted taxonomies.
翻訳日:2021-03-19 16:19:08 公開日:2021-03-18
# (参考訳) カプセル内視鏡における三次元表面再構成の課題 [全文訳有]

Challenges of 3D Surface Reconstruction in Capsule Endoscopy ( http://arxiv.org/abs/2103.10390v1 )

ライセンス: CC BY 4.0
Olivier Rukundo(参考訳) カプセル内視鏡(ce)画像を用いた三次元3次元表面再構成に関する課題は,現在数多く存在する。 再構成された3d表面の内容を見ることも課題である。 この予備調査では, CE画像を用いた再構成3次元表面の含有量に対する影響を, 後者に焦点をあて, 評価する。 このような課題の評価は2つの部分に分けられる。 第1部では,前処理および非前処理のCE画像を用いて再構成した3次元表面の内容の比較に焦点を当てた。 第2部は、同じ方位角と異なる視線の高さ角で見る3次元表面の含有量の比較に焦点を当てている。 実験は、3次元表面再構成のさらなる研究と同様に、視線と高度なCE画像前処理手段の必要性を実証した。

There are currently many challenges related to three-dimensional (3D) surface reconstruction using capsule endoscopy (CE) images. There are also challenges related to viewing the content of reconstructed 3D surfaces. In this preliminary investigation, the author focuses on the latter and evaluates their effects on the content of reconstructed 3D surfaces using CE images. The evaluation of such challenges is preliminarily conducted into two parts. The first part focuses on the comparison of the content of 3D surfaces reconstructed using both preprocessed and non-preprocessed CE images. The second part focuses on the comparison of the content of 3D surfaces viewed at the same azimuth angles and different elevation angles of the line-of-sight. The experiments demonstrated the need for generalizable line-of-sight and advanced CE image preprocessing means as well as further research in 3D surface reconstruction.
翻訳日:2021-03-19 15:43:05 公開日:2021-03-18
# (参考訳) 定常進化アルゴリズムと選択的圧力:なぜ逆ランクに基づく生殖実験が最適か

On Steady-State Evolutionary Algorithms and Selective Pressure: Why Inverse Rank-Based Allocation of Reproductive Trials is Best ( http://arxiv.org/abs/2103.10394v1 )

ライセンス: CC BY 4.0
Dogan Corus and Andrei Lissovoi and Pietro S. Oliveto and Carsten Witt(参考訳) 我々は、定常EAのグローバル最適化能力に対する選択的な圧力の影響を分析する。 標準バイモーダルベンチマーク関数 \twomax に対して、一様親選択を用いると指数関数ランタイムが高確率で、標準 (\mu$+1)~ea と (\mu$+1)~rls の両方を多項式サイズで見つけることができることを厳密に証明する。 一方,最悪の個人を親として選択することは,合理的な人口規模に対して圧倒的な確率で効率的なグローバル最適化につながることを実証する。 最悪の個人を常に選択することは局所視能から逃れるために有害な効果をもたらす可能性があるため、一方の斜面が他方よりも短い関数クラスに対して選択圧が低い確率的親選択演算子の性能を考える。 実験分析により,easの再現性と小型のトーナメントサイズが選択される逆トーナメント選択機能を備えたeasは, \textsc{twomax} の局所的オプティマから高い確率で効率良くかつ効果的に脱却できることを示した。 したがって、2つのオプティマを効率的に識別する一方で、一様選択(あるいはより強い選択)は理論上も実際にも失敗する。 そこで本研究では,群集が必須である文献から関数クラスにおける逆選択の力を示すとともに,再帰戦略の有無に関わらず,一様選択よりも優れているという厳密な証明や実験的な証拠を与える。 古典的マックスサット問題と多次元ナップサック問題の標準ベンチマークにおける異なる選択的圧力の実証分析により,理論的な知見を検証した。

We analyse the impact of the selective pressure for the global optimisation capabilities of steady-state EAs. For the standard bimodal benchmark function \twomax we rigorously prove that using uniform parent selection leads to exponential runtimes with high probability to locate both optima for the standard ($\mu$+1)~EA and ($\mu$+1)~RLS with any polynomial population sizes. On the other hand, we prove that selecting the worst individual as parent leads to efficient global optimisation with overwhelming probability for reasonable population sizes. Since always selecting the worst individual may have detrimental effects for escaping from local optima, we consider the performance of stochastic parent selection operators with low selective pressure for a function class called \textsc{TruncatedTwoMax} where one slope is shorter than the other. An experimental analysis shows that the EAs equipped with inverse tournament selection, where the loser is selected for reproduction and small tournament sizes, globally optimise \textsc{TwoMax} efficiently and effectively escape from local optima of \textsc{TruncatedTwoMax} with high probability. Thus they identify both optima efficiently while uniform (or stronger) selection fails in theory and in practice. We then show the power of inverse selection on function classes from the literature where populations are essential by providing rigorous proofs or experimental evidence that it outperforms uniform selection equipped with or without a restart strategy. We conclude the paper by confirming our theoretical insights with an empirical analysis of the different selective pressures on standard benchmarks of the classical MaxSat and Multidimensional Knapsack Problems.
翻訳日:2021-03-19 15:34:47 公開日:2021-03-18
# (参考訳) 多目的VM再割り当て問題に対するMILP [全文訳有]

MILP for the Multi-objective VM Reassignment Problem ( http://arxiv.org/abs/2103.10410v1 )

ライセンス: CC BY 4.0
Takfarinas Saber, Anthony Ventresque, Joao Marques-Silva, James Thorburn, Liam Murphy(参考訳) マシン再割り当ては、特にデータセンターのサイズを考えると、制約プログラミング(CP)と混合整数線形プログラミング(MILP)のアプローチにおいて難しい問題である。 マシン再割り当て問題の多目的バージョンはさらに困難であり、cpやmilpがこの文脈で良い結果を得る可能性は低いようである。 その結果、この問題に最初に取り組むアプローチは、メタヒューリスティックスを含む他の最適化手法に基づいている。 本稿では,ibm ilog cplex のような混合整数最適化ソルバを多目的機械再割り当て問題に適用できる条件について検討する。 提案手法は,小規模・中規模のデータセンターに限って有用であり,探索空間内で探索される最適性許容ギャップや限られた方向など,ある程度の緩和が期待できる。 本研究は,CPLEXとメタヒューリスティックを併用したハイブリッドアプローチについても検討し,100秒以上の実行時間において,処理時間はCPLEXと比較して6%しか増加しないのに対して,Paretoソリューションの集合の品質(+126.9%,CPLEX単独では+17.8%)と解数(CPLEX単独では+17.8%)が重要であることを示した。

Machine Reassignment is a challenging problem for constraint programming (CP) and mixed-integer linear programming (MILP) approaches, especially given the size of data centres. The multi-objective version of the Machine Reassignment Problem is even more challenging and it seems unlikely for CP or MILP to obtain good results in this context. As a result, the first approaches to address this problem have been based on other optimisation methods, including metaheuristics. In this paper we study under which conditions a mixed-integer optimisation solver, such as IBM ILOG CPLEX, can be used for the Multi-objective Machine Reassignment Problem. We show that it is useful only for small or medium-scale data centres and with some relaxations, such as an optimality tolerance gap and a limited number of directions explored in the search space. Building on this study, we also investigate a hybrid approach, feeding a metaheuristic with the results of CPLEX, and we show that the gains are important in terms of quality of the set of Pareto solutions (+126.9% against the metaheuristic alone and +17.8% against CPLEX alone) and number of solutions (8.9 times more than CPLEX), while the processing time increases only by 6% in comparison to CPLEX for execution times larger than 100 seconds.
翻訳日:2021-03-19 15:33:22 公開日:2021-03-18
# (参考訳) コンピュータビジョン支援URLL通信:積極的なサービス識別と共存 [全文訳有]

Computer Vision Aided URLL Communications: Proactive Service Identification and Coexistence ( http://arxiv.org/abs/2103.10419v1 )

ライセンス: CC BY 4.0
Muhammad Alrabeiah, Umut Demirhan, Andrew Hredzak, and Ahmed Alkhateeb(参考訳) 既存の超信頼性・低レイテンシ(URLL)と拡張モバイルブロードバンド(eMBB)サービスのサポートは、現在および将来の無線通信ネットワークにおいて重要な課題である。 これら2つのタイプのサービスは、信頼性、レイテンシ、および無線ネットワークにおけるリソース利用の間のパワーストローグを生じさせる可能性のあるリソース割り当て要件を、厳密で、時には矛盾する形で導入する。 この課題に対処することの難しさは、無線リソースを割り当てる主要なリアクティブアプローチにまで遡ることができる。 この割り当て操作は、受信したサービスリクエストとグローバルネットワーク統計に基づいて行われ、これは \textit{proaction} という感覚を取り入れない可能性がある。 そこで本稿では,新しいプロアクティブなリソース割り当てアルゴリズムを開発するためのフレームワークである「textit{service Identification}」を提案する。 開発したフレームワークは、ビジュアルデータ(例えばrgbカメラによるキャプチャ)とディープラーニング(例えばディープニューラルネットワーク)に基づいている。 このフレームワークの最終的な目的は、将来の無線ネットワークにユーザの振る舞いを分析し、入ってくるサービスを予測し、アクティブなリソース割り当てを行う能力を持たせることである。 提案フレームワークの可能性を実証するために,既存の2つのURLLとeMBBサービスを備えた無線ネットワークシナリオを検討し,RGBビデオフレームを利用した2つのディープラーニングアルゴリズムを設計し,入ってくるサービスタイプとその要求時間を予測する。 検討したシナリオに基づく評価データセットを開発し,この2つのアルゴリズムの性能評価に用いた。 提案したモデルでは,ネットワークリソースの利用率を$\sim 98\%$信頼性で 85\% 以上確保し,効率的なネットワーク性能を実現する。 これは将来のビジョン支援無線通信ネットワークにとって有望な方向性である。

The support of coexisting ultra-reliable and low-latency (URLL) and enhanced Mobile BroadBand (eMBB) services is a key challenge for the current and future wireless communication networks. Those two types of services introduce strict, and in some time conflicting, resource allocation requirements that may result in a power-struggle between reliability, latency, and resource utilization in wireless networks. The difficulty in addressing that challenge could be traced back to the predominant reactive approach in allocating the wireless resources. This allocation operation is carried out based on received service requests and global network statistics, which may not incorporate a sense of \textit{proaction}. Therefore, this paper proposes a novel framework termed \textit{service identification} to develop novel proactive resource allocation algorithms. The developed framework is based on visual data (captured for example by RGB cameras) and deep learning (e.g., deep neural networks). The ultimate objective of this framework is to equip future wireless networks with the ability to analyze user behavior, anticipate incoming services, and perform proactive resource allocation. To demonstrate the potential of the proposed framework, a wireless network scenario with two coexisting URLL and eMBB services is considered, and two deep learning algorithms are designed to utilize RGB video frames and predict incoming service type and its request time. An evaluation dataset based on the considered scenario is developed and used to evaluate the performance of the two algorithms. The results confirm the anticipated value of proaction to wireless networks; the proposed models enable efficient network performance ensuring more than $85\%$ utilization of the network resources at $\sim 98\%$ reliability. This highlights a promising direction for the future vision-aided wireless communication networks.
翻訳日:2021-03-19 15:12:36 公開日:2021-03-18
# (参考訳) 潜時空間回帰を用いたGANの構成性の解析と利用 [全文訳有]

Using latent space regression to analyze and leverage compositionality in GANs ( http://arxiv.org/abs/2103.10426v1 )

ライセンス: CC BY 4.0
Lucy Chai, Jonas Wulff, Phillip Isola(参考訳) 近年、ジェネレーティブ・アドバイザリアル・ネットワークは研究と公衆の認識の両方で広く普及しているが、GANが非構造化の潜在コードを高品質な出力に変換する方法はまだ未解決の問題である。 本研究では, GANの組成特性を理解するためのプローブとして, 潜時空間への回帰について検討する。 回帰器と事前訓練されたジェネレータを組み合わせることで、より強い画像が得られ、グローバルな一貫性を維持しつつ、推論時にランダムな画像部品のコラージュから合成画像を作成することができる。 異なる生成元間の合成特性を比較するために,非現実的な入力の再構成と再生サンプルの画質とのトレードオフを計測した。 回帰法により,各画像部分の局所的な編集が,遅延空間の直接編集よりも可能となり,この独立性効果を定量的に評価する実験を行う。 本手法は編集のセマンティクスに依存せず,学習中にラベルや事前定義された概念を必要としない。 画像合成以外にも,画像インペインティングやサンプルベースの画像編集など,関連するアプリケーションにも拡張し,複数のganやデータセットでデモを行い,単一のフォワードパスのみを使用するため,リアルタイムに動作可能とした。 コードはプロジェクトページで利用可能です。 https://chail.github .io/latent-compositi on/。

In recent years, Generative Adversarial Networks have become ubiquitous in both research and public perception, but how GANs convert an unstructured latent code to a high quality output is still an open question. In this work, we investigate regression into the latent space as a probe to understand the compositional properties of GANs. We find that combining the regressor and a pretrained generator provides a strong image prior, allowing us to create composite images from a collage of random image parts at inference time while maintaining global consistency. To compare compositional properties across different generators, we measure the trade-offs between reconstruction of the unrealistic input and image quality of the regenerated samples. We find that the regression approach enables more localized editing of individual image parts compared to direct editing in the latent space, and we conduct experiments to quantify this independence effect. Our method is agnostic to the semantics of edits, and does not require labels or predefined concepts during training. Beyond image composition, our method extends to a number of related applications, such as image inpainting or example-based image editing, which we demonstrate on several GANs and datasets, and because it uses only a single forward pass, it can operate in real-time. Code is available on our project page: https://chail.github .io/latent-compositi on/.
翻訳日:2021-03-19 14:47:35 公開日:2021-03-18
# オブジェクト検出のための一貫性に基づくアクティブラーニング

Consistency-based Active Learning for Object Detection ( http://arxiv.org/abs/2103.10374v1 )

ライセンス: Link先を確認
Weiping Yu, Sijie Zhu, Taojiannan Yang, Chen Chen(参考訳) アクティブラーニングは、限られた予算で最も情報に富んだサンプルを選択することで、タスクモデルの性能を向上させることを目的としている。 画像分類にアクティブラーニングを適用することに焦点を当てた最近のほとんどの研究と異なり、オリジナルデータと拡張データの一貫性を十分に探求するオブジェクト検出(cald)のための効果的な一貫性に基づくアクティブラーニング手法を提案する。 CALDには3つの利点がある。 (i)caldは,オブジェクト検出のユニークな課題を考慮せず,既存のアクティブラーニング手法の弱点を調査して体系的に設計されている。 (II)CALDは,箱の回帰と分類を単一の尺度で統一するが,その分類は能動的学習法とは無関係である。 CALDはまた、画像全体よりも最も情報性の高い局所領域に焦点を当てており、オブジェクト検出に有用である。 (iii)caldはサンプル選択のための個別情報を測定するだけでなく、バランスの取れたデータ分布を促進するために相互情報を活用する。 広範な実験により、caldは一般的なオブジェクト検出データセットにおいて、既存の最先端のタスク非依存および検出固有のアクティブラーニング方法を大幅に上回っていることが示された。 高速R-CNN検出器に基づいて、CALDはPASCAL VOC 2007、PASCAL VOC 2012、MS COCOで平均2.9/2.8/0.8 mAPの基準法(ランダム選択)を一貫して上回っている。 コードは \url{https://github.com/w e1pingyu/CALD} で入手できる。

Active learning aims to improve the performance of task model by selecting the most informative samples with a limited budget. Unlike most recent works that focused on applying active learning for image classification, we propose an effective Consistency-based Active Learning method for object Detection (CALD), which fully explores the consistency between original and augmented data. CALD has three appealing benefits. (i) CALD is systematically designed by investigating the weaknesses of existing active learning methods, which do not take the unique challenges of object detection into account. (ii) CALD unifies box regression and classification with a single metric, which is not concerned by active learning methods for classification. CALD also focuses on the most informative local region rather than the whole image, which is beneficial for object detection. (iii) CALD not only gauges individual information for sample selection, but also leverages mutual information to encourage a balanced data distribution. Extensive experiments show that CALD significantly outperforms existing state-of-the-art task-agnostic and detection-specific active learning methods on general object detection datasets. Based on the Faster R-CNN detector, CALD consistently surpasses the baseline method (random selection) by 2.9/2.8/0.8 mAP on average on PASCAL VOC 2007, PASCAL VOC 2012, and MS COCO. Code is available at \url{https://github.com/w e1pingyu/CALD}
翻訳日:2021-03-19 14:14:11 公開日:2021-03-18
# 医療画像における機械学習の失敗 -- 欠点と推奨

How I failed machine learning in medical imaging -- shortcomings and recommendations ( http://arxiv.org/abs/2103.10292v1 )

ライセンス: Link先を確認
Ga\"el Varoquaux and Veronika Cheplygina(参考訳) 医療画像は、患者の健康を改善する多くの機会を持つ重要な研究分野である。 しかし、出版の最適化など、この分野全体の進歩を鈍化させている課題はいくつかある。 本稿では,データセットの選択,手法,評価指標,公開戦略に関する諸問題について概説する。 文献のレビューと分析によって、あらゆる段階において、潜在的なバイアスが忍び寄ることが示されます。 ポジティブな点として、これらの問題に対処するイニシアチブはすでに始まっています。 最後に、将来的にこれらの問題を解決する方法について、幅広い推奨事項を提供しています。 再現性のため、解析のためのデータとコードは \url{https://github.com/g aelvaroquaux/ml_med_ imaging_failures} で利用可能である。

Medical imaging is an important research field with many opportunities for improving patients' health. However, there are a number of challenges that are slowing down the progress of the field as a whole, such optimizing for publication. In this paper we reviewed several problems related to choosing datasets, methods, evaluation metrics, and publication strategies. With a review of literature and our own analysis, we show that at every step, potential biases can creep in. On a positive note, we also see that initiatives to counteract these problems are already being started. Finally we provide a broad range of recommendations on how to further these address problems in the future. For reproducibility, data and code for our analyses are available on \url{https://github.com/G aelVaroquaux/ml_med_ imaging_failures}
翻訳日:2021-03-19 14:13:45 公開日:2021-03-18
# 対話型ナラティブによる言語学習

Situated Language Learning via Interactive Narratives ( http://arxiv.org/abs/2103.09977v1 )

ライセンス: Link先を確認
Prithviraj Ammanabrolu and Mark O. Riedl(参考訳) 本稿では,目標達成に資する文脈的自然言語を理解・生成する能力を備えた学習エージェントの育成方法についてのロードマップを提供する。 このようなエージェントを作成する上で重要な2つの要素は、人間の言語学習の不可欠な部分である対話性と環境基盤であり、対話的な物語はそのようなエージェントを訓練するための環境であるべきだと仮定する。 これらのゲームは、エージェントが自然言語を通じて世界と相互作用するシミュレーションであり、テキスト記述、コマンド、対話を用いて「知覚」、「作用」、そして「対話」によって世界と対話する。 テキストゲームのパズルのような構造と自然言語状態とアクション空間が組み合わさったユニークな課題である知識表現、常識推論、探索について論じる。 これまで述べた課題以外にも、インタラクティブな物語の領域の進歩は、隣接する問題領域に適用できる。 これらのアプリケーションは、これまで議論されてきた拡張と同様に、彼ら自身の興味深い課題を提供します。 1)対話的な物語を自動生成することでAIシステムの常識的理解を評価すること,(2)視覚などの他のモダリティを含む抽象テキストベースのポリシーを適用すること,(3)共有された位置のある世界でのマルチエージェントと人間とAIの協調を可能にすること,である。

This paper provides a roadmap that explores the question of how to imbue learning agents with the ability to understand and generate contextually relevant natural language in service of achieving a goal. We hypothesize that two key components in creating such agents are interactivity and environment grounding, shown to be vital parts of language learning in humans, and posit that interactive narratives should be the environments of choice for such training these agents. These games are simulations in which an agent interacts with the world through natural language -- "perceiving", "acting upon", and "talking to" the world using textual descriptions, commands, and dialogue -- and as such exist at the intersection of natural language processing, storytelling, and sequential decision making. We discuss the unique challenges a text games' puzzle-like structure combined with natural language state-and-action spaces provides: knowledge representation, commonsense reasoning, and exploration. Beyond the challenges described so far, progress in the realm of interactive narratives can be applied in adjacent problem domains. These applications provide interesting challenges of their own as well as extensions to those discussed so far. We describe three of them in detail: (1) evaluating AI system's commonsense understanding by automatically creating interactive narratives; (2) adapting abstract text-based policies to include other modalities such as vision; and (3) enabling multi-agent and human-AI collaboration in shared, situated worlds.
翻訳日:2021-03-19 14:13:33 公開日:2021-03-18
# ベトナムにおけるオープンドメインソーシャルメディアコメントに対する構成的・毒性的音声検出

Constructive and Toxic Speech Detection for Open-domain Social Media Comments in Vietnamese ( http://arxiv.org/abs/2103.10069v1 )

ライセンス: Link先を確認
Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) ソーシャルメディアの普及は、オンラインフォーラムでのコメントの増加につながっている。 しかし、ユーザーには役に立たない不適切なコメントがいくつか残っている。 さらに、これらのコメントは人々にとって非常に有毒で有害です。 本稿では,1万件のコメントを付加した構築的・有害な音声検出用データセット,UIT-ViCTSD (Vietnamese Constructive and Toxic Speech Detection dataset) を作成する。 これらの課題に対して,ベトナムのNLPにおける最先端の伝達学習モデルであるPhoBERTを用いた構築的・有害な音声検出システムを提案する。 本システムでは, 建設的コメントと有毒コメントを別々に同定し, 78.59%, 59.40%のF1スコアを得た。 さらに,データセットを客観的に評価するために,従来の機械学習モデルやディープニューラルネットワークベースモデルなど,さまざまなベースラインモデルを実装している。 結果から,オンライン議論の課題を解決し,ベトナムのソーシャルメディアコメントを自動的に識別する枠組みを開発することができた。

The rise of social media has led to the increasing of comments on online forums. However, there still exists some invalid comments which were not informative for users. Moreover, those comments are also quite toxic and harmful to people. In this paper, we create a dataset for classifying constructive and toxic speech detection, named UIT-ViCTSD (Vietnamese Constructive and Toxic Speech Detection dataset) with 10,000 human-annotated comments. For these tasks, we proposed a system for constructive and toxic speech detection with the state-of-the-art transfer learning model in Vietnamese NLP as PhoBERT. With this system, we achieved 78.59% and 59.40% F1-score for identifying constructive and toxic comments separately. Besides, to have an objective assessment for the dataset, we implement a variety of baseline models as traditional Machine Learning and Deep Neural Network-Based models. With the results, we can solve some problems on the online discussions and develop the framework for identifying constructiveness and toxicity Vietnamese social media comments automatically.
翻訳日:2021-03-19 14:13:08 公開日:2021-03-18
# 文書コヒーレンスモデリングの評価

Evaluating Document Coherence Modelling ( http://arxiv.org/abs/2103.10133v1 )

ライセンス: Link先を確認
Aili Shen, Meladel Mistica, Bahar Salehi, Hang Li, Timothy Baldwin, and Jianzhong Qi(参考訳) 事前学習された言語モデル(lm)は形態素合成や意味論的タスクに対して印象的な成果をもたらしているが、談話や実用的現象をモデル化する能力はそれほど明確ではない。 談話のモデル化能力をよりよく理解するためのステップとして,文侵入検出タスクを提案する。 本稿では,この検出課題に対して,幅広い事前学習型LMの性能について検討する。 InSteDは,英語のウィキペディアやCNNのニュース記事から構築された170,000以上の文書を含む,新規な侵入者文検出データセットである。 実験の結果,事前学習したLMはドメイン内評価において顕著に機能するが,クロスドメイン設定では大幅に低下し,一般化能力の限界が示唆された。 新たな言語プローブデータセットに関するさらなる結果は、特にクロスドメイン設定において、改善の余地があることを示している。

While pretrained language models ("LM") have driven impressive gains over morpho-syntactic and semantic tasks, their ability to model discourse and pragmatic phenomena is less clear. As a step towards a better understanding of their discourse modelling capabilities, we propose a sentence intrusion detection task. We examine the performance of a broad range of pretrained LMs on this detection task for English. Lacking a dataset for the task, we introduce INSteD, a novel intruder sentence detection dataset, containing 170,000+ documents constructed from English Wikipedia and CNN news articles. Our experiments show that pretrained LMs perform impressively in in-domain evaluation, but experience a substantial drop in the cross-domain setting, indicating limited generalisation capacity. Further results over a novel linguistic probe dataset show that there is substantial room for improvement, especially in the cross-domain setting.
翻訳日:2021-03-19 14:12:53 公開日:2021-03-18
# 高精度分類の事例:小さく考えて、たくさん考えて!

The Case for High-Accuracy Classification: Think Small, Think Many! ( http://arxiv.org/abs/2103.10350v1 )

ライセンス: Link先を確認
Mohammad Hosseini, Mahmudul Hasan(参考訳) リソース制約のあるデバイスにおいて、特に高精度なディープニューラルネットワークの実装を容易にするため、低計算要求の維持が不可欠である。 分類目的に非常に深いモデルを使用すると、ニューラルネットワークのトレーニング速度が低下し、推論時間が増加するだけでなく、高い予測精度と偽陽性の軽減のために、より多くのデータが必要になる。 本稿では, 簡易な色特徴の組み合わせをベースとした, 高速で軽量な深層分類アンサンブル構造を提案する。 画像やビデオに適用した爆発検出用ユースケースの設計,実装,評価を行った。 大規模実験による評価結果から,resnet-50モデルと比較して予測精度が大幅に向上し,7.64倍の高速化と計算コストの低減が得られた。 爆発検出に本手法を適用したが,本手法は一般的であり,他の類似した分類用途にも適用できる。 一つの大きなモノリシックなディープモデルを検証ベースのステップモデルアンサンブルに変換することで、狭い色空間を持つ複数の小型でシンプルで軽量なモデルの集合体を、より高精度に予測することができる。

To facilitate implementation of high-accuracy deep neural networks especially on resource-constrained devices, maintaining low computation requirements is crucial. Using very deep models for classification purposes not only decreases the neural network training speed and increases the inference time, but also need more data for higher prediction accuracy and to mitigate false positives. In this paper, we propose an efficient and lightweight deep classification ensemble structure based on a combination of simple color features, which is particularly designed for "high-accuracy" image classifications with low false positives. We designed, implemented, and evaluated our approach for explosion detection use-case applied to images and videos. Our evaluation results based on a large test test show considerable improvements on the prediction accuracy compared to the popular ResNet-50 model, while benefiting from 7.64x faster inference and lower computation cost. While we applied our approach to explosion detection, our approach is general and can be applied to other similar classification use cases as well. Given the insight gained from our experiments, we hence propose a "think small, think many" philosophy in classification scenarios: that transforming a single, large, monolithic deep model into a verification-based step model ensemble of multiple small, simple, lightweight models with narrowed-down color spaces can possibly lead to predictions with higher accuracy.
翻訳日:2021-03-19 14:12:35 公開日:2021-03-18
# 構成記述によるニューラルネットワークの精製

Refining Neural Networks with Compositional Explanations ( http://arxiv.org/abs/2103.10415v1 )

ライセンス: Link先を確認
Huihan Yao, Ying Chen, Qinyuan Ye, Xisen Jin, Xiang Ren(参考訳) ニューラルネットワークは偏りのあるデータセットからスプリアス相関を学習する傾向にあり、新たなターゲット領域で推論を行う場合には脆弱である。 先行研究では、入力特徴の重要性を計算したポストホックモデル説明を通じて素早いパターンを明らかにし、人間の知識で重要度を正規化することによって意図しないモデル行動を排除する。 しかし、このような正規化技術には柔軟性とカバレッジが欠けており、事前定義された特徴のリストに対する重要点のみが調整される一方、特徴の相互作用やパターンの一般化といったより複雑な人間の知識が組み込まれることはほとんどない。 本研究では,モデルの失敗事例に関する人為的な構成説明を収集し,学習モデルの改良を提案する。 説明の中でスプリアスパターンに関する一般的なルールを説明することで、より多くのトレーニング例が一致し、正規化され、正規化カバレッジの課題に取り組むことができる。 さらに,モデルの改良におけるより複雑な人間の理性をサポートするために,機能相互作用の正規化用語を導入する。 本手法は,改良後の対象領域における性能向上を示すことにより,2つのテキスト分類タスクにおける提案手法の有効性を実証する。

Neural networks are prone to learning spurious correlations from biased datasets, and are thus vulnerable when making inferences in a new target domain. Prior work reveals spurious patterns via post-hoc model explanations which compute the importance of input features, and further eliminates the unintended model behaviors by regularizing importance scores with human knowledge. However, such regularization technique lacks flexibility and coverage, since only importance scores towards a pre-defined list of features are adjusted, while more complex human knowledge such as feature interaction and pattern generalization can hardly be incorporated. In this work, we propose to refine a learned model by collecting human-provided compositional explanations on the models' failure cases. By describing generalizable rules about spurious patterns in the explanation, more training examples can be matched and regularized, tackling the challenge of regularization coverage. We additionally introduce a regularization term for feature interaction to support more complex human rationale in refining the model. We demonstrate the effectiveness of the proposed approach on two text classification tasks by showing improved performance in target domain after refinement.
翻訳日:2021-03-19 14:12:11 公開日:2021-03-18
# 混合ポリシーを用いた最大エントロピー強化学習

Maximum Entropy Reinforcement Learning with Mixture Policies ( http://arxiv.org/abs/2103.10176v1 )

ライセンス: Link先を確認
Nir Baram, Guy Tennenholtz, Shie Mannor(参考訳) 混合モデルは、豊かなポリシーの集合を近似できる表現的仮説クラスである。 しかし、MaxEnt(Maximum Entropy)フレームワークでの混合ポリシーの使用は簡単ではない。 混合モデルのエントロピーは、その成分の和に等しくなく、多くの場合、閉形式式も持たない。 したがって、MaxEntアルゴリズムでそのようなポリシーを使用するには、混合エントロピーの抽出可能な近似を構築する必要がある。 本稿では, 単純かつ低分散混合エントロピー推定器を導出する。 限界エントロピーの和と密接に関連していることが示される。 エントロピー推定器を装着し,混合ポリシーケースにソフトアクタ-クリティック(sac)のアルゴリズム変種を導出し,一連の連続制御タスクで評価する。

Mixture models are an expressive hypothesis class that can approximate a rich set of policies. However, using mixture policies in the Maximum Entropy (MaxEnt) framework is not straightforward. The entropy of a mixture model is not equal to the sum of its components, nor does it have a closed-form expression in most cases. Using such policies in MaxEnt algorithms, therefore, requires constructing a tractable approximation of the mixture entropy. In this paper, we derive a simple, low-variance mixture-entropy estimator. We show that it is closely related to the sum of marginal entropies. Equipped with our entropy estimator, we derive an algorithmic variant of Soft Actor-Critic (SAC) to the mixture policy case and evaluate it on a series of continuous control tasks.
翻訳日:2021-03-19 14:11:28 公開日:2021-03-18
# アンサンブル学習を用いたドメイン一般化

Domain Generalization using Ensemble Learning ( http://arxiv.org/abs/2103.10257v1 )

ライセンス: Link先を確認
Yusuf Mesbah, Youssef Youssry Ibrahim, Adil Mehood Khan(参考訳) ドメイン一般化(Domain Generalization)は、ターゲットドメインに関する知識がなければ、2つの異なるドメイン間のギャップを埋めることを目的とした、転送学習のサブフィールドである。 提案手法は,モデルが単一ソース領域でトレーニングされる場合,モデルの弱い一般化の問題に対処する。 この観点から,単一ソース上で訓練されたベースディープラーニングモデルに基づいてアンサンブルモデルを構築し,その集合予測の一般化を促進する。 これまでの成果は、すべての基礎学習者に対するアンサンブルの有望な改善を実証している。

Domain generalization is a sub-field of transfer learning that aims at bridging the gap between two different domains in the absence of any knowledge about the target domain. Our approach tackles the problem of a model's weak generalization when it is trained on a single source domain. From this perspective, we build an ensemble model on top of base deep learning models trained on a single source to enhance the generalization of their collective prediction. The results achieved thus far have demonstrated promising improvements of the ensemble over any of its base learners.
翻訳日:2021-03-19 14:10:55 公開日:2021-03-18
# 人工知能システム開発に必要なエンジニアリング課題

Requirement Engineering Challenges for AI-intense Systems Development ( http://arxiv.org/abs/2103.10270v1 )

ライセンス: Link先を確認
Hans-Martin Heyn, Eric Knauss, Amna Pir Muhammad, Olof Erikssonz, Jennifer Linder, Padmini Subbiah, Shameer Kumar Pradhan, Sagar Tungal(参考訳) 強力な計算と通信技術の可用性と人工知能の進歩は、新しい世代の複雑なAIインセンスシステムとアプリケーションを可能にする。 このようなシステムとアプリケーションは、社会レベルでエキサイティングな改善を約束しますが、開発に新たな課題も伴います。 本稿では,このようなシステムやアプリケーションの動作や品質特性の定義と保証に関する課題について論じる。 具体的には、複雑なAIシステムと、産業、交通、ホームオートメーションに関連するアプリケーションに関するユースケースから、(i)コンテキスト定義と要件の理解、決定、特定、(ii)データ属性と要件、(iii)パフォーマンス定義と監視、(iv)システムの受け入れと成功に対する人間的要因の影響の4つの課題領域を抽出する。 これらの課題を解決することは、複雑なAIインテリジェンスシステムやアプリケーションの開発アプローチに新しい要求エンジニアリング手法を統合するプロセスサポートを暗示する。 これらの課題を詳述し,研究ロードマップを提案する。

Availability of powerful computation and communication technology as well as advances in artificial intelligence enable a new generation of complex, AI-intense systems and applications. Such systems and applications promise exciting improvements on a societal level, yet they also bring with them new challenges for their development. In this paper we argue that significant challenges relate to defining and ensuring behaviour and quality attributes of such systems and applications. We specifically derive four challenge areas from relevant use cases of complex, AI-intense systems and applications related to industry, transportation, and home automation: understanding, determining, and specifying (i) contextual definitions and requirements, (ii) data attributes and requirements, (iii) performance definition and monitoring, and (iv) the impact of human factors on system acceptance and success. Solving these challenges will imply process support that integrates new requirements engineering methods into development approaches for complex, AI-intense systems and applications. We present these challenges in detail and propose a research roadmap.
翻訳日:2021-03-19 14:10:47 公開日:2021-03-18
# 機能評価回数を極端に制限したブラックボックス関数の最適化方法の学習

Learning How to Optimize Black-Box Functions With Extreme Limits on the Number of Function Evaluations ( http://arxiv.org/abs/2103.10321v1 )

ライセンス: Link先を確認
Carlos Ansotegui, Meinolf Sellmann, Tapan Shah, Kevin Tierney(参考訳) 我々は,ごく限られた数の関数評価が約100の順番で安価で,限られた数の並列試行のバッチでも機能評価を行なわなければならないブラックボックス最適化を考える。 これは、例えばシミュレーションベースの最適化や機械学習のハイパーパラメータ化といった、非常にコストのかかる変数設定を最適化する場合の典型的なシナリオである。 本稿では,確立された手法を用いて各バッチの点集合を提案し,これらの候補点から,並列に実行できる試行回数をダウンセレクトする手法を提案する。 提案手法の主な特徴は,自動アルゴリズム構成を用いてオフラインで最適化されたバッチサイズに対する候補数をダウンセレクトするハイパーパラメータ化手法の導入である。 この手法をブラックボックス最適化に最適化し,従来のブラックボックス最適化ベンチマークで評価する。 その結果,最適化の進展を条件とした多彩なブラックボックス最適化手法によって提案される評価点を組み合わせる方法が学習可能であることがわかった。 ブラックボックスの最小化技術や、特に少数ショットの最小化を意図した様々な方法と比較すると、正規化コストの平均50%の削減を実現しており、これは非常に重要な性能改善である。

We consider black-box optimization in which only an extremely limited number of function evaluations, on the order of around 100, are affordable and the function evaluations must be performed in even fewer batches of a limited number of parallel trials. This is a typical scenario when optimizing variable settings that are very costly to evaluate, for example in the context of simulation-based optimization or machine learning hyperparameterizatio n. We propose an original method that uses established approaches to propose a set of points for each batch and then down-selects from these candidate points to the number of trials that can be run in parallel. The key novelty of our approach lies in the introduction of a hyperparameterized method for down-selecting the number of candidates to the allowed batch-size, which is optimized offline using automated algorithm configuration. We tune this method for black box optimization and then evaluate on classical black box optimization benchmarks. Our results show that it is possible to learn how to combine evaluation points suggested by highly diverse black box optimization methods conditioned on the progress of the optimization. Compared with the state of the art in black box minimization and various other methods specifically geared towards few-shot minimization, we achieve an average reduction of 50\% of normalized cost, which is a highly significant improvement in performance.
翻訳日:2021-03-19 14:10:29 公開日:2021-03-18
# Wasserstein GANによる確率分布の近似

Approximation for Probability Distributions by Wasserstein GAN ( http://arxiv.org/abs/2103.10060v1 )

ライセンス: Link先を確認
Yihang Gao, Michael K. Ng(参考訳) 本稿では,wasserstein ganによる分布の近似が,生成器と判別器の幅・深さ(容量)と,訓練中のサンプル数の両方に依存することを示す。 生成した分布と対象分布の間のワッサーシュタイン距離の量子化一般化境界を開発する。 十分なトレーニングサンプルがあれば、適切な幅と深さの数のジェネレータと判別器に対して、学習されたwasserstein ganは分布をよく近似できる。 我々は、差別者が次元の呪いに悩まされていることを発見した。つまり、GANはジェネレータよりも識別器の能力の要求が高いということであり、arXiv:1703.00573v5[cs.LG]の理論と一致する。 さらに重要なことに、過度に深い(高容量)ジェネレータは、判別器が十分に強くない場合、低容量ジェネレータよりも(訓練後)悪い結果を引き起こす可能性がある。 arXiv:1701.07875v3[stat.ML]のWasserstein GANと異なり、我々は1-Lipschitz関数に対するより良い近似のためにモデルにGroupSortニューラルネットワークarXiv:1811.05381v2[cs.LG]を採用する。 既存のGANの一般化(収束)解析と比較して、我々の研究はより適用可能であると期待している。

In this paper, we show that the approximation for distributions by Wasserstein GAN depends on both the width/depth (capacity) of generators and discriminators, as well as the number of samples in training. A quantified generalization bound is developed for Wasserstein distance between the generated distribution and the target distribution. It implies that with sufficient training samples, for generators and discriminators with proper number of width and depth, the learned Wasserstein GAN can approximate distributions well. We discover that discriminators suffer a lot from the curse of dimensionality, meaning that GANs have higher requirement for the capacity of discriminators than generators, which is consistent with the theory in arXiv:1703.00573v5 [cs.LG]. More importantly, overly deep (high capacity) generators may cause worse results (after training) than low capacity generators if discriminators are not strong enough. Different from Wasserstein GAN in arXiv:1701.07875v3 [stat.ML], we adopt GroupSort neural networks arXiv:1811.05381v2 [cs.LG] in the model for their better approximation to 1-Lipschitz functions. Compared to some existing generalization (convergence) analysis of GANs, we expect our work are more applicable.
翻訳日:2021-03-19 14:09:51 公開日:2021-03-18
# 新規感度メトリックを用いたデータフリー混合精度量子化

Data-free mixed-precision quantization using novel sensitivity metric ( http://arxiv.org/abs/2103.10051v1 )

ライセンス: Link先を確認
Donghyun Lee, Minkyoung Cho, Seungwon Lee, Joonho Song and Changkyu Choi(参考訳) トレーニング後の量子化(post-training quantization)は、ニューラルネットワークを圧縮するための代表的なテクニックである。 しかし、アクセス不能なユーザデータセットは、実際に量子化されたニューラルネットワークの品質を保証することが困難になることが多い。 さらに、既存のアプローチでは単一の一様ビット幅をネットワーク全体に使用することで、非常に低いビット幅で精度が著しく低下する可能性がある。 複数のビット幅を利用するため、感度メトリックは精度と圧縮のバランスにおいて重要な役割を果たす。 本稿では,タスク損失と他のレイヤとの相互作用に対する量子化誤差の影響を考慮した新しい感度指標を提案する。 さらに,ニューラルネットワークの特定の操作に依存しないラベル付きデータ生成手法を開発した。 実験により,提案手法が量子化感度をよりよく表現し,生成したデータは混合精度量子化に適用できることを示す。

Post-training quantization is a representative technique for compressing neural networks, making them smaller and more efficient for deployment on edge devices. However, an inaccessible user dataset often makes it difficult to ensure the quality of the quantized neural network in practice. In addition, existing approaches may use a single uniform bit-width across the network, resulting in significant accuracy degradation at extremely low bit-widths. To utilize multiple bit-width, sensitivity metric plays a key role in balancing accuracy and compression. In this paper, we propose a novel sensitivity metric that considers the effect of quantization error on task loss and interaction with other layers. Moreover, we develop labeled data generation methods that are not dependent on a specific operation of the neural network. Our experiments show that the proposed metric better represents quantization sensitivity, and generated data are more feasible to be applied to mixed-precision quantization.
翻訳日:2021-03-19 14:08:59 公開日:2021-03-18
# KoDF:韓国の大規模ディープフェイク検出データセット

KoDF: A Large-scale Korean DeepFake Detection Dataset ( http://arxiv.org/abs/2103.10094v1 )

ライセンス: Link先を確認
Patrick Kwon, Jaeseong You, Gyuhyeon Nam, Sungwoo Park, Gyeongsu Chae(参考訳) 近年, 顔合成技術の民主化が進み, 顔合成技術が広く普及している。 このようなビデオは、それらが引き起こした様々な社会的問題に対して、否定的な意味を持つディープフェイクと呼ばれるようになった。 韓国のdeepfake detection dataset(kodf)は、韓国の被験者を対象とした合成・実演ビデオの大規模なコレクションだ。 本稿では,データセット構築に使用する手法の詳細を説明し,kodfの分布と既存のdeepfake検出データセットとの差異を実験的に示すとともに,実世界の一般化に複数のデータセットを使用することの重要性を強調する。 KoDFはhttps://moneybrain-r esearch.github.io/ko dfで公開されている。 本物のクリップ、合成クリップ、追加ノイズ付きクリップ、およびそれに対応するメタデータ)。

A variety of effective face-swap and face-reenactment methods have been publicized in recent years, democratizing the face synthesis technology to a great extent. Videos generated as such have come to be collectively called deepfakes with a negative connotation, for various social problems they have caused. Facing the emerging threat of deepfakes, we have built the Korean DeepFake Detection Dataset (KoDF), a large-scale collection of synthesized and real videos focused on Korean subjects. In this paper, we provide a detailed description of methods used to construct the dataset, experimentally show the discrepancy between the distributions of KoDF and existing deepfake detection datasets, and underline the importance of using multiple datasets for real-world generalization. KoDF is publicly available at https://moneybrain-r esearch.github.io/ko df in its entirety (i.e. real clips, synthesized clips, clips with additive noise, and their corresponding metadata).
翻訳日:2021-03-19 14:08:43 公開日:2021-03-18
# TrivialAugment: チューニング不要だが最先端のデータ拡張

TrivialAugment: Tuning-free Yet State-of-the-Art Data Augmentation ( http://arxiv.org/abs/2103.10158v1 )

ライセンス: Link先を確認
Samuel G. M\"uller, Frank Hutter(参考訳) 近年,視覚タスクにおけるモデル性能向上の柱として,自動拡張法が重要である。 現在の手法は、多くの場合、単純さ、過度さ、あるいはパフォーマンスのよいものとのトレードオフである。 より単純な自動拡張ベースラインである TrivialAugment を提示する。 パラメータフリーであり、各画像に1つの拡張のみを適用する。 私たちにとって、TrivialAugmentの有効性は非常に予想外です。 そこで我々は,その性能について徹底的な実験を行った。 まず、TrivialAugmentと過去の最先端の手法を、複数のシナリオで比較する。 次に,様々な増補空間,増補法,設定を用いて複数のアブレーション研究を行い,その性能に対する重要な要件を理解する。 我々は、学習を自動拡張ユーザへのレコメンデーションに凝縮する。 さらに,任意のコードベースで複数の自動拡張メソッドを使用するためのシンプルなインターフェースや,再現性のための完全なコードベースも提供しています。 本研究は,自動増補研究の多くの分野で停滞していることから,自動増補手法の持続的発展に向けたベストプラクティスの短い提案に終止符を打つ。

Automatic augmentation methods have recently become a crucial pillar for strong model performance in vision tasks. Current methods are mostly a trade-off between being simple, in-expensive or well-performing. We present a most simple automatic augmentation baseline, TrivialAugment, that outperforms previous methods almost for free. It is parameter-free and only applies a single augmentation to each image. To us, TrivialAugment's effectiveness is very unexpected. Thus, we performed very thorough experiments on its performance. First, we compare TrivialAugment to previous state-of-the-art methods in a plethora of scenarios. Then, we perform multiple ablation studies with different augmentation spaces, augmentation methods and setups to understand the crucial requirements for its performance. We condensate our learnings into recommendations to automatic augmentation users. Additionally, we provide a simple interface to use multiple automatic augmentation methods in any codebase, as well as, our full code base for reproducibility. Since our work reveals a stagnation in many parts of automatic augmentation research, we end with a short proposal of best practices for sustained future progress in automatic augmentation methods.
翻訳日:2021-03-19 14:08:28 公開日:2021-03-18
# 大腸内視鏡表面の光増感による再建

Lighting Enhancement Aids Reconstruction of Colonoscopic Surfaces ( http://arxiv.org/abs/2103.10310v1 )

ライセンス: Link先を確認
Yubo Zhang, Shuxian Wang, Ruibin Ma, Sarah K. McGill, Julian G. Rosenman, Stephen M. Pizer(参考訳) 大腸内視鏡検査中の高いスクリーニング範囲は,大腸癌を効果的に予防するために重要である。 これまでの研究では、3Dの大腸内視鏡の映像をリアルタイムで再現することで、医師に救世主の地域を知らせることができた。 しかし,大腸内視鏡ビデオの照明不整合は,大腸内視鏡再建システムの重要な構成要素であるスラム最適化に支障を来す可能性がある。 本研究は大腸内視鏡ビデオの照明問題に焦点をあてる。 大腸内視鏡映像の照明一貫性を向上させるために,最近の映像フレームの強度分布に適応する照明補正が必要であった。 リアルタイムに実現するために,我々はRNNネットワークの設計と訓練を行った。 このネットワークはガンマ補正プロセスにおいてガンマ値に適応する。 大腸鏡視下表面再構成システムに応用し, 軽量モデルは再建率を大幅に向上させ, 大腸鏡視下ビデオセグメントの大部分を再構成可能とし, 既に再建済みセグメントの再構築品質を向上させる。

High screening coverage during colonoscopy is crucial to effectively prevent colon cancer. Previous work has allowed alerting the doctor to unsurveyed regions by reconstructing the 3D colonoscopic surface from colonoscopy videos in real-time. However, the lighting inconsistency of colonoscopy videos can cause a key component of the colonoscopic reconstruction system, the SLAM optimization, to fail. In this work we focus on the lighting problem in colonoscopy videos. To successfully improve the lighting consistency of colonoscopy videos, we have found necessary a lighting correction that adapts to the intensity distribution of recent video frames. To achieve this in real-time, we have designed and trained an RNN network. This network adapts the gamma value in a gamma-correction process. Applied in the colonoscopic surface reconstruction system, our light-weight model significantly boosts the reconstruction success rate, making a larger proportion of colonoscopy video segments reconstructable and improving the reconstruction quality of the already reconstructed segments.
翻訳日:2021-03-19 14:08:14 公開日:2021-03-18
# ディープネットワークにおける低位単純バイアス

The Low-Rank Simplicity Bias in Deep Networks ( http://arxiv.org/abs/2103.10427v1 )

ライセンス: Link先を確認
Minyoung Huh, Hossein Mobahi, Richard Zhang, Brian Cheung, Pulkit Agrawal, Phillip Isola(参考訳) 現代のディープニューラルネットワークは、トレーニングされているデータと比較して非常に過度にパラメータ化されている。 なぜディープネットワークはトレーニングデータに過度に適合しないのか? 我々は,より深いネットが暗黙的にバイアスをかけられ,より低いランクの解が見つかるという仮説と,それらを一般化する解であるとする。 本稿では, 線形ニューラルネットワークの深部化に伴い, 低効率な解の体積が単調に増加することを証明する。 次に、我々の主張が有限幅モデルに真であることを示す。 より深い非線形ネットワークは、カーネルが低い階数を持つ特徴空間を学ぶ。 さらに, 深部非線形モデルの線形過パラメータ化を低ランクバイアスの誘発に応用し, 有効モデルの容量を変えることなく一般化性能を向上させることを実証する。 様々なモデルアーキテクチャについて評価し、imagenetを含む画像分類タスクにおいて、線形オーバーパラメータモデルが既存のベースラインよりも優れていることを実証する。

Modern deep neural networks are highly over-parameterized compared to the data on which they are trained, yet they often generalize remarkably well. A flurry of recent work has asked: why do deep networks not overfit to their training data? We investigate the hypothesis that deeper nets are implicitly biased to find lower rank solutions and that these are the solutions that generalize well. We prove for the asymptotic case that the percent volume of low effective-rank solutions increases monotonically as linear neural networks are made deeper. We then show empirically that our claim holds true on finite width models. We further empirically find that a similar result holds for non-linear networks: deeper non-linear networks learn a feature space whose kernel has a lower rank. We further demonstrate how linear over-parameterizatio n of deep non-linear models can be used to induce low-rank bias, improving generalization performance without changing the effective model capacity. We evaluate on various model architectures and demonstrate that linearly over-parameterized models outperform existing baselines on image classification tasks, including ImageNet.
翻訳日:2021-03-19 14:07:59 公開日:2021-03-18
# 深層強化学習支援ran slicing enforcement for b5g latency sensitive services

Deep Reinforcement Learning-Aided RAN Slicing Enforcement for B5G Latency Sensitive Services ( http://arxiv.org/abs/2103.10277v1 )

ライセンス: Link先を確認
Sergio Martiradonna, Andrea Abrardo, Marco Moretti, Giuseppe Piro, Gennaro Boggia(参考訳) ネットワークエッジにおけるクラウドコンピューティング機能と人工知能の組み合わせにより、将来のモバイルネットワークをサービスおよび無線対応エンティティに転換し、今後の遅延に敏感なアプリケーションの要件に対処できるようになる。 この文脈では、エッジインテリジェンスを利用して、無線アクセスネットワークスライシング(第5世代ネットワークスライシングよりも成熟度が低く、複雑な技術である)と無線リソース管理を動的かつ最適に管理することが難しい研究目標である。 本稿では,遅延に敏感なアプリケーションをサポートする無線アクセスネットワークスライシングと無線リソース管理を最適化するために,ネットワークの端で深層強化学習を活用するアーキテクチャを提案する。 提案手法の有効性を,自律走行型ユースケースを考慮したコンピュータシミュレーションにより検討した。

The combination of cloud computing capabilities at the network edge and artificial intelligence promise to turn future mobile networks into service- and radio-aware entities, able to address the requirements of upcoming latency-sensitive applications. In this context, a challenging research goal is to exploit edge intelligence to dynamically and optimally manage the Radio Access Network Slicing (that is a less mature and more complex technology than fifth-generation Network Slicing) and Radio Resource Management, which is a very complex task due to the mostly unpredictably nature of the wireless channel. This paper presents a novel architecture that leverages Deep Reinforcement Learning at the edge of the network in order to address Radio Access Network Slicing and Radio Resource Management optimization supporting latency-sensitive applications. The effectiveness of our proposal against baseline methodologies is investigated through computer simulation, by considering an autonomous-driving use-case.
翻訳日:2021-03-19 14:07:44 公開日:2021-03-18
# ニューラルネットワークで符号化されたデータ駆動プリミティブによるベイズイメージング:理論、手法、アルゴリズム

Bayesian Imaging With Data-Driven Priors Encoded by Neural Networks: Theory, Methods, and Algorithms ( http://arxiv.org/abs/2103.10182v1 )

ライセンス: Link先を確認
Matthew Holden, Marcelo Pereyra, Konstantinos C. Zygalakis(参考訳) 本稿では,事前知識がトレーニングデータとして利用可能である逆問題に対して,ベイズ推定を行う新しい手法を提案する。 多様体仮説に従い、生成的モデリング手法を採用することにより、変動型オートエンコーダや生成型逆ネットワークを用いて、トレーニングデータから学習可能な、環境空間のサブマニフォールド上でサポートされたデータ駆動前置モデルを構築する。 簡易検証可能な条件下では,関連する後方分布と後方モーメントの存在と適切性を確立し,ベイズ推定器に対する厳密な基礎と不確実性定量化分析を提供する。 ベイズ計算は、多様体上の事前条件付きcrank-nicolsonアルゴリズムの並列テンパレートバージョンを用いて行われ、これらのデータ駆動モデルの非凸性にエルゴードかつロバストであることが示されている。 点推定器と不確実性定量化解析に加えて,データ駆動前駆者が信頼できない状況を自動的に検出するモデルの誤特定テストを行い,学習データから直接潜在空間の次元を識別する方法を説明する。 提案手法は、MNISTデータセットによる様々な実験で説明され、芸術的状態から代替画像再構成アプローチよりも優れている。 モデル精度解析により、データ駆動モデルによって報告されるベイズ確率もまた確率の頻繁な定義の下で著しく正確であることが示された。

This paper proposes a new methodology for performing Bayesian inference in imaging inverse problems where the prior knowledge is available in the form of training data. Following the manifold hypothesis and adopting a generative modelling approach, we construct a data-driven prior that is supported on a sub-manifold of the ambient space, which we can learn from the training data by using a variational autoencoder or a generative adversarial network. We establish the existence and well-posedness of the associated posterior distribution and posterior moments under easily verifiable conditions, providing a rigorous underpinning for Bayesian estimators and uncertainty quantification analyses. Bayesian computation is performed by using a parallel tempered version of the preconditioned Crank-Nicolson algorithm on the manifold, which is shown to be ergodic and robust to the non-convex nature of these data-driven models. In addition to point estimators and uncertainty quantification analyses, we derive a model misspecification test to automatically detect situations where the data-driven prior is unreliable, and explain how to identify the dimension of the latent space directly from the training data. The proposed approach is illustrated with a range of experiments with the MNIST dataset, where it outperforms alternative image reconstruction approaches from the state of the art. A model accuracy analysis suggests that the Bayesian probabilities reported by the data-driven models are also remarkably accurate under a frequentist definition of probability.
翻訳日:2021-03-19 14:07:27 公開日:2021-03-18
# 微分方程式とデータからの合同推論のための確率的状態空間モデル

A Probabilistic State Space Model for Joint Inference from Differential Equations and Data ( http://arxiv.org/abs/2103.10153v1 )

ライセンス: Link先を確認
Jonathan Schmidt, Nicholas Kr\"amer, Philipp Hennig(参考訳) 微分方程式を持つ力学モデルは、機械学習の科学的応用の鍵となる要素である。 このようなモデルの推論は通常、微分方程式を何度も解くため、計算的に要求される。 ここでの主な問題は、数値解法が標準的な推論技術と組み合わせるのが難しいことである。 確率的数値学における最近の研究は、通常の微分方程式(ODE)の解法をベイズフィルタで直接表現する新しいクラスを開発した。 ここでは、このような手法がODE自体の潜在力モデルと、概念的および数値的容易性で直接結合可能であることを示す。 すると、拡張カルマンフィルタ/スムーズな 1 つの ODE 解の1 つの線形複雑パスにおいて、潜在力と ODE 解に対して近似ベイズ近似を実行することができる。 本研究では,covid-19流行データに基づく非パラメトリックsirdモデルを訓練することにより,アルゴリズムの表現力と性能を示す。

Mechanistic models with differential equations are a key component of scientific applications of machine learning. Inference in such models is usually computationally demanding, because it involves repeatedly solving the differential equation. The main problem here is that the numerical solver is hard to combine with standard inference techniques. Recent work in probabilistic numerics has developed a new class of solvers for ordinary differential equations (ODEs) that phrase the solution process directly in terms of Bayesian filtering. We here show that this allows such methods to be combined very directly, with conceptual and numerical ease, with latent force models in the ODE itself. It then becomes possible to perform approximate Bayesian inference on the latent force as well as the ODE solution in a single, linear complexity pass of an extended Kalman filter / smoother - that is, at the cost of computing a single ODE solution. We demonstrate the expressiveness and performance of the algorithm by training a non-parametric SIRD model on data from the COVID-19 outbreak.
翻訳日:2021-03-19 14:07:03 公開日:2021-03-18
# 単眼視覚オドメトリーにおける深部オンライン補正

Deep Online Correction for Monocular Visual Odometry ( http://arxiv.org/abs/2103.10029v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Wei Sui, Xinggang Wang, Wenming Meng, Hongmei Zhu, Qian Zhang(参考訳) 本研究では,モノクロ視覚計測のための新しい深層オンライン補正(DOC)フレームワークを提案する。 まず、深度マップと最初のポーズは、自己管理的な方法で訓練された畳み込みニューラルネットワーク(CNN)から得られる。 第2に、cnnが予測するポーズは、推論フェーズ中のポーズの勾配更新による測光誤差を最小化し、さらに改善される。 提案手法の利点は2つある: 1) オンライン学習法と異なり、DOCはCNNのパラメータの勾配伝搬を計算する必要はない。 したがって、推論フェーズ中により多くの計算リソースを節約できる。 2) CNNと従来の手法を組み合わせたハイブリッド手法とは異なり,DOCはディープラーニング(DL)フレームワークに完全に依存している。 複雑なバックエンド最適化モジュールがなくても,提案手法は相対変換誤差 (RTE) = 0% を Seq の KITTI Odometry ベンチマークで達成できる。 従来の単分子VOフレームワークよりも優れており、ハイブリッドメソッドに匹敵する。

In this work, we propose a novel deep online correction (DOC) framework for monocular visual odometry. The whole pipeline has two stages: First, depth maps and initial poses are obtained from convolutional neural networks (CNNs) trained in self-supervised manners. Second, the poses predicted by CNNs are further improved by minimizing photometric errors via gradient updates of poses during inference phases. The benefits of our proposed method are twofold: 1) Different from online-learning methods, DOC does not need to calculate gradient propagation for parameters of CNNs. Thus, it saves more computation resources during inference phases. 2) Unlike hybrid methods that combine CNNs with traditional methods, DOC fully relies on deep learning (DL) frameworks. Though without complex back-end optimization modules, our method achieves outstanding performance with relative transform error (RTE) = 2.0% on KITTI Odometry benchmark for Seq. 09, which outperforms traditional monocular VO frameworks and is comparable to hybrid methods.
翻訳日:2021-03-19 14:06:37 公開日:2021-03-18
# 厚みスライスMRIにおける小標本サイズと弱視による認知症重症度分類

Dementia Severity Classification under Small Sample Size and Weak Supervision in Thick Slice MRI ( http://arxiv.org/abs/2103.10056v1 )

ライセンス: Link先を確認
Reza Shirkavand, Sana Ayromlou, Soroush Farghadani, Maedeh-sadat Tahaei, Fattane Pourakpour, Bahareh Siahlou, Zeynab Khodakarami, Mohammad H. Rohban, Mansoor Fatehi, and Hamid R. Rabiee(参考訳) MR画像中の特定のバイオマーカーによる認知症の早期発見は、積極的に支援戦略を開発する上で重要な役割を担っている。 fazekasスケールは、白質病変の重症度とそれによる疾患の正確な定量的評価を促進する。 認知症のバイオマーカーは多種多様で包括的文書化には時間がかかる。 したがって、これらのバイオマーカーを自動的に抽出する努力は、レイター間の相違を減らしながら臨床的に価値がある。 そこで本研究では,Fazekasスケールによる重症度を,心室中白質 (PVWM) と深部白質 (DWM) の変化による視覚的バイオマーカーによって分類することを提案する。 MRIスタック全体への重度ラベルの割り当てという形での、小さなトレーニングサンプルサイズと弱い監督が主な課題である。 上記の問題に対処するために,自己教師付き表現学習,複数インスタンス学習,適切な前処理ステップを活用するディープラーニングパイプラインを開発した。 この領域で有用な機能の自己教師あり学習には,非線形変換,局所シャッフル,イン・アンド・アウト・ペインティングなどのプリテキストタスクを用いる。 さらに、注意モデルを用いて、ファゼカススケールを教師なしで予測するための各MRIスライスの関連性を決定する。 以上の結果から, 認知症分類において, 認知症分類の分類において, マクロ平均f1スコアをpvwmでは61%から76%に, dwmでは58%から69.2%に改善した。

Early detection of dementia through specific biomarkers in MR images plays a critical role in developing support strategies proactively. Fazekas scale facilitates an accurate quantitative assessment of the severity of white matter lesions and hence the disease. Imaging Biomarkers of dementia are multiple and comprehensive documentation of them is time-consuming. Therefore, any effort to automatically extract these biomarkers will be of clinical value while reducing inter-rater discrepancies. To tackle this problem, we propose to classify the disease severity based on the Fazekas scale through the visual biomarkers, namely the Periventricular White Matter (PVWM) and the Deep White Matter (DWM) changes, in the real-world setting of thick-slice MRI. Small training sample size and weak supervision in form of assigning severity labels to the whole MRI stack are among the main challenges. To combat the mentioned issues, we have developed a deep learning pipeline that employs self-supervised representation learning, multiple instance learning, and appropriate pre-processing steps. We use pretext tasks such as non-linear transformation, local shuffling, in- and out-painting for self-supervised learning of useful features in this domain. Furthermore, an attention model is used to determine the relevance of each MRI slice for predicting the Fazekas scale in an unsupervised manner. We show the significant superiority of our method in distinguishing different classes of dementia compared to state-of-the-art methods in our mentioned setting, which improves the macro averaged F1-score of state-of-the-art from 61% to 76% in PVWM, and from 58% to 69.2% in DWM.
翻訳日:2021-03-19 14:06:21 公開日:2021-03-18
# 3次元イメージングにおける効率的な追跡のための等変フィルタ

Equivariant Filters for Efficient Tracking in 3D Imaging ( http://arxiv.org/abs/2103.10255v1 )

ライセンス: Link先を確認
Daniel Moyer, Esra Abaci Turk, P Ellen Grant, William M. Wells, and Polina Golland(参考訳) 固定計算コストと最先端性能を有する3D画像のオブジェクト追跡手法を実証する。 従来手法では畳み込み層から変換パラメータを予測していた。 代わりに、畳み込み特徴のフラット化や完全連結層を含まないアーキテクチャを提案し、代わりに、入力と出力間の変換(例えば)を保存するために同変フィルタに依存する。 rot./trans 入力の回転/変換)。 変換はフィルターの出力から閉じた形で導出される。 この方法はリアルタイムトラッキングなどの低レイテンシを必要とするアプリケーションに有用である。 我々は,人工的に拡張した成人脳mriと,目的とする胎児脳mriのモデルを示す。

We demonstrate an object tracking method for {3D} images with fixed computational cost and state-of-the-art performance. Previous methods predicted transformation parameters from convolutional layers. We instead propose an architecture that does not include either flattening of convolutional features or fully connected layers, but instead relies on equivariant filters to preserve transformations between inputs and outputs (e.g. rot./trans. of inputs rotate/translate outputs). The transformation is then derived in closed form from the outputs of the filters. This method is useful for applications requiring low latency, such as real-time tracking. We demonstrate our model on synthetically augmented adult brain MRI, as well as fetal brain MRI, which is the intended use-case.
翻訳日:2021-03-19 14:05:50 公開日:2021-03-18
# Co-Modulated Generative Adversarial Networkによる大規模画像補完

Large Scale Image Completion via Co-Modulated Generative Adversarial Networks ( http://arxiv.org/abs/2103.10428v1 )

ライセンス: Link先を確認
Shengyu Zhao, Jonathan Cui, Yilun Sheng, Yue Dong, Xiao Liang, Eric I Chang, Yan Xu(参考訳) 条件付き生成逆数ネットワークの多数のタスク固有変種が画像補完のために開発されている。 しかし、大規模な欠落領域を扱う場合、既存のアルゴリズムはすべて失敗する傾向があるという深刻な制限は残る。 この課題を克服するために,条件表現と確率表現の両方の共変調により,画像条件と最近の変調された非条件生成アーキテクチャのギャップを埋める,汎用的な新しいアプローチを提案する。 また, 画像補完のための定量的指標が不十分なため, 特徴空間における線形分離性による実画像と比較して, 画像の知覚忠実度を強く測定するPaired/Unpaired Inception Discriminative Score (P-IDS/U-IDS) を提案する。 実験は、自由形式の画像補完における最先端の手法よりも品質と多様性の両面で優れた性能を示し、画像から画像への変換を容易に一般化する。 コードはhttps://github.com/z syzzsoft/co-mod-ganで入手できる。

Numerous task-specific variants of conditional generative adversarial networks have been developed for image completion. Yet, a serious limitation remains that all existing algorithms tend to fail when handling large-scale missing regions. To overcome this challenge, we propose a generic new approach that bridges the gap between image-conditional and recent modulated unconditional generative architectures via co-modulation of both conditional and stochastic style representations. Also, due to the lack of good quantitative metrics for image completion, we propose the new Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS), which robustly measures the perceptual fidelity of inpainted images compared to real images via linear separability in a feature space. Experiments demonstrate superior performance in terms of both quality and diversity over state-of-the-art methods in free-form image completion and easy generalization to image-to-image translation. Code is available at https://github.com/z syzzsoft/co-mod-gan.
翻訳日:2021-03-19 14:05:40 公開日:2021-03-18
# 線形包帯のTop-m識別

Top-m identification for linear bandits ( http://arxiv.org/abs/2103.10070v1 )

ライセンス: Link先を確認
Cl\'emence R\'eda (UP M\'edecine Paris Nord, INSERM), Emilie Kaufmann (CNRS, Lille DECCID SID), Andr\'ee Delahaye-Duriez (UP M\'edecine Paris Nord, INSERM)(参考訳) 薬物再生産への応用に動機づけられ,固定信頼設定において,リニアバンディットモデルにおいて最大の手段を持つm$\ge$ 1アームの同定に取り組む最初のアルゴリズムを提案する。 これらのアルゴリズムはgap-indexフォーカスアルゴリズム(gifa)のジェネリックファミリーに属し、線形バンドイットにおけるトップm識別に導入する。 本稿では,これらのアルゴリズムを統一的に解析することにより,特徴量の使用がサンプルの複雑さを減らしうることを示す。 さらに,これらのアルゴリズムをシミュレーションデータと単純な薬剤再導入タスクで実証的に検証する。

Motivated by an application to drug repurposing, we propose the first algorithms to tackle the identification of the m $\ge$ 1 arms with largest means in a linear bandit model, in the fixed-confidence setting. These algorithms belong to the generic family of Gap-Index Focused Algorithms (GIFA) that we introduce for Top-m identification in linear bandits. We propose a unified analysis of these algorithms, which shows how the use of features might decrease the sample complexity. We further validate these algorithms empirically on simulated data and on a simple drug repurposing task.
翻訳日:2021-03-19 14:05:21 公開日:2021-03-18
# モデル抽出と逆転送性、BERTは脆弱性です!

Model Extraction and Adversarial Transferability, Your BERT is Vulnerable! ( http://arxiv.org/abs/2103.10013v1 )

ライセンス: Link先を確認
Xuanli He and Lingjuan Lyu and Qiongkai Xu and Lichao Sun(参考訳) 自然言語処理(NLP)タスクは、テキスト分類からテキスト生成まで、BERTのような事前訓練された言語モデルによって革新されている。 これにより企業は、ダウンストリームタスク用に微調整されたBERTモデルをカプセル化することで、強力なAPIを簡単に構築できる。 しかし、微調整されたBERTモデルがサービスとしてデプロイされると、悪意のあるユーザによって起動される異なる攻撃に悩まされる可能性がある。 本研究では,まず,複数のベンチマークデータセット上のBERTベースのAPIサービス(被害者/ターゲットモデル)を,事前知識とクエリに制限のある形で盗む方法を示す。 さらに, 抽出したモデルが, 被害者モデルに対する高度に転送可能な攻撃につながることを示す。 我々の研究は、被害者モデルと攻撃モデルとの間にアーキテクチャ上のミスマッチがあったとしても、BERTベースのAPIサービスの潜在的な脆弱性が依然として保持されていることを示唆している。 最後に,被害者モデルを守るための2つの防衛戦略について検討し,被害者モデルの性能が犠牲にされない限り,モデル抽出と敵対的伝達性の両方が,ターゲットモデルに効果的に侵害する可能性があることを発見した。

Natural language processing (NLP) tasks, ranging from text classification to text generation, have been revolutionised by the pre-trained language models, such as BERT. This allows corporations to easily build powerful APIs by encapsulating fine-tuned BERT models for downstream tasks. However, when a fine-tuned BERT model is deployed as a service, it may suffer from different attacks launched by malicious users. In this work, we first present how an adversary can steal a BERT-based API service (the victim/target model) on multiple benchmark datasets with limited prior knowledge and queries. We further show that the extracted model can lead to highly transferable adversarial attacks against the victim model. Our studies indicate that the potential vulnerabilities of BERT-based API services still hold, even when there is an architectural mismatch between the victim model and the attack model. Finally, we investigate two defence strategies to protect the victim model and find that unless the performance of the victim model is sacrificed, both model ex-traction and adversarial transferability can effectively compromise the target models
翻訳日:2021-03-19 14:05:10 公開日:2021-03-18
# Quinductor:Universal Dependenciesを用いた読解理解質問生成のための多言語データ駆動手法

Quinductor: a multilingual data-driven method for generating reading-comprehensio n questions using Universal Dependencies ( http://arxiv.org/abs/2103.10121v1 )

ライセンス: Link先を確認
Dmytro Kalpakchi and Johan Boye(参考訳) 係り受け木を用いた読解質問を生成する多言語データ駆動手法を提案する。 本手法は,低リソース言語に対して,強く,ほとんど決定論的かつ安価なベースラインを提供する。 言語固有のコーパスは依然として必要だが、そのサイズは現代のニューラルネットワーク生成(QG)アーキテクチャで必要とされるものに近い。 本手法は文献で報告したQGベースラインを超え,人的評価の点で優れた性能を示す。

We propose a multilingual data-driven method for generating reading comprehension questions using dependency trees. Our method provides a strong, mostly deterministic, and inexpensive-to-train baseline for less-resourced languages. While a language-specific corpus is still required, its size is nowhere near those required by modern neural question generation (QG) architectures. Our method surpasses QG baselines previously reported in the literature and shows a good performance in terms of human evaluation.
翻訳日:2021-03-19 14:04:53 公開日:2021-03-18
# スパースSeq2Seq検索空間の平滑化と縮小

Smoothing and Shrinking the Sparse Seq2Seq Search Space ( http://arxiv.org/abs/2103.10291v1 )

ライセンス: Link先を確認
Ben Peters and Andr\'e F. T. Martins(参考訳) 現在のシーケンスからシーケンスへのモデルは、クロスエントロピーを最小化し、softmaxを使ってターゲットシーケンス上の局所正規化確率を計算するように訓練されている。 モデルは短く不適切な仮説に高いスコアを与え、しばしば空の文字列をargmaxにします。 最近提案された entmax-based sparse sequence-to-sequence model は、ゼロ確率を悪い仮説に割り当てることで探索空間を縮小できるが、変圧器によるワードレベルタスクの処理能力は検証されていない。 本研究では,entmaxを用いたモデルが猫の舌問題を効果的に解決し,ニューラルマシン翻訳におけるモデルエラーの原因を取り除いたことを示す。 さらに,限界正規化手法であるラベル平滑化を,クロスエントロピーとエントマックス損失の両方を含むフェンチェル・ヤング損失の広いファミリーに一般化する。 得られたラベルスムーズなエントマックス損失モデルにより,多言語グラファイム-音素変換技術が新たに確立され,言語間のモーフィジカルインフレクションと機械翻訳におけるキャリブレーション特性が向上した。

Current sequence-to-sequence models are trained to minimize cross-entropy and use softmax to compute the locally normalized probabilities over target sequences. While this setup has led to strong results in a variety of tasks, one unsatisfying aspect is its length bias: models give high scores to short, inadequate hypotheses and often make the empty string the argmax -- the so-called cat got your tongue problem. Recently proposed entmax-based sparse sequence-to-sequence models present a possible solution, since they can shrink the search space by assigning zero probability to bad hypotheses, but their ability to handle word-level tasks with transformers has never been tested. In this work, we show that entmax-based models effectively solve the cat got your tongue problem, removing a major source of model error for neural machine translation. In addition, we generalize label smoothing, a critical regularization technique, to the broader family of Fenchel-Young losses, which includes both cross-entropy and the entmax losses. Our resulting label-smoothed entmax loss models set a new state of the art on multilingual grapheme-to-phoneme conversion and deliver improvements and better calibration properties on cross-lingual morphological inflection and machine translation for 6 language pairs.
翻訳日:2021-03-19 14:04:45 公開日:2021-03-18
# 人間-AI共生 : 最近の研究動向

Human-AI Symbiosis: A Survey of Current Approaches ( http://arxiv.org/abs/2103.09990v1 )

ライセンス: Link先を確認
Zahra Zahedi and Subbarao Kambhampati(参考訳) 本稿では,人間とAIのコラボレーションにおける作業スレッドの包括的概要を提供する。 補完のフロー,タスクの水平方向,モデル表現,知識レベル,チーム目標など,AIチームにおける作業のさまざまな側面を強調することで,これらの次元に応じて,最近の作業の分類を行う。 この調査は、人間-AIチームの研究成果と、この分野の新しい研究者へのガイダンスとのより明確なつながりを提供することを期待している。

In this paper, we aim at providing a comprehensive outline of the different threads of work in human-AI collaboration. By highlighting various aspects of works on the human-AI team such as the flow of complementing, task horizon, model representation, knowledge level, and teaming goal, we make a taxonomy of recent works according to these dimensions. We hope that the survey will provide a more clear connection between the works in the human-AI team and guidance to new researchers in this area.
翻訳日:2021-03-19 14:04:20 公開日:2021-03-18
# 深層Wienerのデコンボリューション: 深層学習と画像のデコンボリューション

Deep Wiener Deconvolution: Wiener Meets Deep Learning for Image Deblurring ( http://arxiv.org/abs/2103.09962v1 )

ライセンス: Link先を確認
Jiangxin Dong, Stefan Roth, Bernt Schiele(参考訳) 従来の手法と深層学習を組み合わせた,非盲点画像の難読化のための簡易かつ効果的な手法を提案する。 標準的な画像空間で画像を直接色付けする既存の手法とは対照的に,古典的なWienerデコンボリューションフレームワークを学習深い特徴と統合することにより,特徴空間における明示的なデコンボリューション処理を行うことを提案する。 マルチスケールの機能改善モジュールは、分離された深い特徴から退色したイメージを予測し、細部と小さな構造を徐々に復元する。 提案するモデルはエンドツーエンドでトレーニングされ、シミュレーションと実世界のイメージボケの両方のシナリオで評価される。 実験結果から,提案した深部Wienerデコンボリューションネットワークは,可視的に少ないアーチファクトで劣化することを示す。 さらに,本手法は最先端の非ブラインド画像デブロワー法よりも広いマージンで定量的に優れている。

We present a simple and effective approach for non-blind image deblurring, combining classical techniques and deep learning. In contrast to existing methods that deblur the image directly in the standard image space, we propose to perform an explicit deconvolution process in a feature space by integrating a classical Wiener deconvolution framework with learned deep features. A multi-scale feature refinement module then predicts the deblurred image from the deconvolved deep features, progressively recovering detail and small-scale structures. The proposed model is trained in an end-to-end manner and evaluated on scenarios with both simulated and real-world image blur. Our extensive experimental results show that the proposed deep Wiener deconvolution network facilitates deblurred results with visibly fewer artifacts. Moreover, our approach quantitatively outperforms state-of-the-art non-blind image deblurring methods by a wide margin.
翻訳日:2021-03-19 14:03:27 公開日:2021-03-18
# 階層型VQ-VAEを用いた画像インペインティングのための横構造生成

Generating Diverse Structure for Image Inpainting With Hierarchical VQ-VAE ( http://arxiv.org/abs/2103.10022v1 )

ライセンス: Link先を確認
Jialun Peng, Dong Liu, Songcen Xu, Houqiang Li(参考訳) 追加の制約を伴わない不完全なイメージが与えられた場合、画像の塗装は、可視性のあるように見える限り、ネイティブに複数のソリューションを可能にする。 近年,多重解法が提案され,多様な結果を生み出す可能性が示唆されている。 しかし、これらの方法は、例えば、各解の品質を保証するのに困難である。 歪んだ構造やぼやけたテクスチャを生み出します 本稿では,異なる構造を持つ複数の粗い結果を第1段階で生成し,第2段階ではテクスチャを増補して各粗い結果を別々に洗練する多彩な塗装用2段階モデルを提案する。 提案手法は階層型ベクトル量子化変分自動エンコーダ (VQ-VAE) に着想を得たものである。 さらに、VQVAEにおけるベクトル量子化は、構造情報上の離散分布の自己回帰モデリングを可能にする。 分布からのサンプリングは多様で高品質な構造を容易に生成することができ、モデルの第一段階を構成する。 第2段階では,テクスチャ生成ネットワーク内の構造的注意モジュールを提案する。 さらに、VQ-VAEを再利用して2つの特徴損失を計算し、構造コヒーレンスとテクスチャリアリズムを改善する。 CelebA-HQ, Places2, ImageNetデータセットによる実験結果から,本手法は塗布液の多様性を向上するだけでなく,生成した複数の画像の視覚的品質を向上させる。 コードとモデルは、https://github.com/U STC-JialunPeng/Diver se-Structure-Inpaint ingで入手できる。

Given an incomplete image without additional constraint, image inpainting natively allows for multiple solutions as long as they appear plausible. Recently, multiplesolution inpainting methods have been proposed and shown the potential of generating diverse results. However, these methods have difficulty in ensuring the quality of each solution, e.g. they produce distorted structure and/or blurry texture. We propose a two-stage model for diverse inpainting, where the first stage generates multiple coarse results each of which has a different structure, and the second stage refines each coarse result separately by augmenting texture. The proposed model is inspired by the hierarchical vector quantized variational auto-encoder (VQ-VAE), whose hierarchical architecture isentangles structural and textural information. In addition, the vector quantization in VQVAE enables autoregressive modeling of the discrete distribution over the structural information. Sampling from the distribution can easily generate diverse and high-quality structures, making up the first stage of our model. In the second stage, we propose a structural attention module inside the texture generation network, where the module utilizes the structural information to capture distant correlations. We further reuse the VQ-VAE to calculate two feature losses, which help improve structure coherence and texture realism, respectively. Experimental results on CelebA-HQ, Places2, and ImageNet datasets show that our method not only enhances the diversity of the inpainting solutions but also improves the visual quality of the generated multiple images. Code and models are available at: https://github.com/U STC-JialunPeng/Diver se-Structure-Inpaint ing.
翻訳日:2021-03-19 14:03:08 公開日:2021-03-18
# 回転平均問題に対する効率的なアルゴリズム

Efficient Algorithms for Rotation Averaging Problems ( http://arxiv.org/abs/2103.10024v1 )

ライセンス: Link先を確認
Yihong Dong, Lunchen Xie and Qingjiang Shi(参考訳) 回転平均化問題はコンピュータビジョン応用における基本的な課題である。 非凸回転制約のため、一般に解くのは非常に困難である。 文献で十分な最適性条件が利用できるが、定常点を達成するための yhedit{a} 高速収束アルゴリズムが欠如している。 本稿では, 問題構造を探索し, まず, 定常点への収束を保証したブロック座標降下(BCD)に基づく回転平均化アルゴリズムを提案する。 その後, 逐次上界最小化 (sum) 法を適用し, 代替回転平均化アルゴリズムを提案する。 SUMに基づく回転平均化アルゴリズムは並列に実装できるため、大規模回転平均化問題に対処するのにより適している。 数値実験により,提案手法は最先端アルゴリズムに比べて収束性能が優れていることを確認した。 さらに, 最適条件の検証により, 提案する2つのアルゴリズムが大域的最適解を実現できることを示す数値実験を行った。

The rotation averaging problem is a fundamental task in computer vision applications. It is generally very difficult to solve due to the nonconvex rotation constraints. While a sufficient optimality condition is available in the literature, there is a lack of \yhedit{a} fast convergent algorithm to achieve stationary points. In this paper, by exploring the problem structure, we first propose a block coordinate descent (BCD)-based rotation averaging algorithm with guaranteed convergence to stationary points. Afterwards, we further propose an alternative rotation averaging algorithm by applying successive upper-bound minimization (SUM) method. The SUM-based rotation averaging algorithm can be implemented in parallel and thus is more suitable for addressing large-scale rotation averaging problems. Numerical examples verify that the proposed rotation averaging algorithms have superior convergence performance as compared to the state-of-the-art algorithm. Moreover, by checking the sufficient optimality condition, we find from extensive numerical experiments that the proposed two algorithms can achieve globally optimal solutions.
翻訳日:2021-03-19 14:02:39 公開日:2021-03-18
# 競争ゲームにおけるロバストビジョンに基づくチート検出

Robust Vision-Based Cheat Detection in Competitive Gaming ( http://arxiv.org/abs/2103.10031v1 )

ライセンス: Link先を確認
Aditya Jonnalagadda, Iuri Frosio, Seth Schneider, Morgan McGuire, and Joohwan Kim(参考訳) ゲームパブリッシャーや反チート企業は、オンラインゲームにおける不正行為をブロックすることに失敗した。 本稿では,フレームバッファの最終状態をキャプチャし,不正オーバーレイを検出する視覚ベースアプローチを提案する。 本研究の目的は,DNN検出器を2つのシューティングゲームと3つの不正ソフトウェアを用いて収集した新しいデータセット上で訓練し,評価することである。 ローカルまたはグローバルスケールで動作する異なるDNNアーキテクチャの利点と欠点について検討する。 出力信頼度分析を用いて、信頼できない検出を回避し、ネットワーク再トレーニングが必要なときに通知する。 アブレーション研究において,潜在的な敵攻撃にも耐性を持つ検出器の構築と,その信頼度解析との相互作用を検討するために,区間境界伝播を用いた方法を示す。 以上の結果から,機械学習によるロバストで効果的な解凍は事実上実現可能であり,オンラインゲームにおける公正なプレーを保証するために使用することができる。

Game publishers and anti-cheat companies have been unsuccessful in blocking cheating in online gaming. We propose a novel, vision-based approach that captures the final state of the frame buffer and detects illicit overlays. To this aim, we train and evaluate a DNN detector on a new dataset, collected using two first-person shooter games and three cheating software. We study the advantages and disadvantages of different DNN architectures operating on a local or global scale. We use output confidence analysis to avoid unreliable detections and inform when network retraining is required. In an ablation study, we show how to use Interval Bound Propagation to build a detector that is also resistant to potential adversarial attacks and study its interaction with confidence analysis. Our results show that robust and effective anti-cheating through machine learning is practically feasible and can be used to guarantee fair play in online gaming.
翻訳日:2021-03-19 14:02:27 公開日:2021-03-18
# 印象2Font:印象の特定によるフォントの生成

Impressions2Font: Generating Fonts by Specifying Impressions ( http://arxiv.org/abs/2103.10036v1 )

ライセンス: Link先を確認
Seiya Matsuda, Akisato Kimura, Seiichi Uchida(参考訳) 様々なフォントは様々な印象を与え、しばしば単語で表される。 本稿では,印象のあるフォント画像を生成するImpressions2Font(Imp 2Font)を提案する。 imp2fontはconditional generative adversarial networks (gans)の拡張版である。 より正確には、Imp2Fontはフォント画像を生成する条件として任意の数の印象語を受け入れる。 これらの印象語は、単語埋め込み技術に基づいて構築された印象埋め込みモジュールによりソフト制約ベクトルに変換する。 定性的かつ定量的な評価は、Imp2Fontが複数の印象語や未学習語を提供することによって比較法よりも高品質なフォント画像を生成することを証明している。

Various fonts give us various impressions, which are often represented by words. This paper proposes Impressions2Font (Imp2Font) that generates font images with specific impressions. Imp2Font is an extended version of conditional generative adversarial networks (GANs). More precisely, Imp2Font accepts an arbitrary number of impression words as the condition to generate the font images. These impression words are converted into a soft-constraint vector by an impression embedding module built on a word embedding technique. Qualitative and quantitative evaluations prove that Imp2Font generates font images with higher quality than comparative methods by providing multiple impression words or even unlearned words.
翻訳日:2021-03-19 14:02:12 公開日:2021-03-18
# SparsePoint:完全なエンドツーエンドのスパース3Dオブジェクト検出器

SparsePoint: Fully End-to-End Sparse 3D Object Detector ( http://arxiv.org/abs/2103.10042v1 )

ライセンス: Link先を確認
Zili Liu, Guodong Xu, Honghui Yang, Haifeng Liu, Deng Cai(参考訳) スパースオブジェクトの提案に基づくオブジェクト検出器は、2dドメインで成功していることが最近証明されている。 この開発は、3dオブジェクト検出器にも魅力的だ。 しかし, 3d領域の検索空間が著しく大きいことを考えると, スパース法を3dオブジェクト検出設定で採用できるかどうかはまだ疑問の余地がある。 本稿では,3次元物体検出のための最初のスパース法であるスパースポイントを提案する。 私たちのsparsepointでは、3dオブジェクトの最も可能性の高い位置をエンコードするために多くの学習可能な提案を採用しています。 さらに、冗長な提案除去のためのオブジェクトレベルのインタラクションと、一対一のラベル割り当てを提供するハンガリーのアルゴリズムにより、本手法はスパースかつ正確な予測を行うことができる。 SparsePointは、ScanNetV2、SUN RGB-D、S3DIS、Matterport3Dを含む4つのパブリックデータセットに、新たな最先端技術を設定する。 私たちのコードはまもなく公開されます。

Object detectors based on sparse object proposals have recently been proven to be successful in the 2D domain, which makes it possible to establish a fully end-to-end detector without time-consuming post-processing. This development is also attractive for 3D object detectors. However, considering the remarkably larger search space in the 3D domain, whether it is feasible to adopt the sparse method in the 3D object detection setting is still an open question. In this paper, we propose SparsePoint, the first sparse method for 3D object detection. Our SparsePoint adopts a number of learnable proposals to encode most likely potential positions of 3D objects and a foreground embedding to encode shared semantic features of all objects. Besides, with the attention module to provide object-level interaction for redundant proposal removal and Hungarian algorithm to supply one-one label assignment, our method can produce sparse and accurate predictions. SparsePoint sets a new state-of-the-art on four public datasets, including ScanNetV2, SUN RGB-D, S3DIS, and Matterport3D. Our code will be publicly available soon.
翻訳日:2021-03-19 14:02:03 公開日:2021-03-18
# ビデオ超解像に対する自己超解像適応法

Self-Supervised Adaptation for Video Super-Resolution ( http://arxiv.org/abs/2103.10081v1 )

ライセンス: Link先を確認
Jinsu Yoo and Tae Hyun Kim(参考訳) 最近のsingle-image super- resolution (sisr)ネットワークは、ネットワークパラメータを特定の入力画像に適応させることができ、入力データ内に存在する情報と大きな外部データセットを活用し、有望な結果を示している。 しかし、ビデオハンドリングに対するこれらの自己教師型SISRアプローチの拡張はまだ研究されていない。 そこで本研究では,従来のビデオスーパーレゾリューション(vsr)ネットワークが,地上データセットを使用せずにそのパラメータをビデオフレームに適用できる新しい学習アルゴリズムを提案する。 空間と時間にまたがる多数の自己相似パッチを利用することで、vsrネットワークの完全な事前学習性能を改善し、時間的に一貫性のあるビデオフレームを生成する。 また,より少ないハードウェアリソースで適応速度を高速化する試験時間知識蒸留技術を提案する。 本実験では,新たな学習アルゴリズムが最先端のvsrネットワークを微調整し,多数のベンチマークデータセットのパフォーマンスを実質的に向上できることを実証する。

Recent single-image super-resolution (SISR) networks, which can adapt their network parameters to specific input images, have shown promising results by exploiting the information available within the input data as well as large external datasets. However, the extension of these self-supervised SISR approaches to video handling has yet to be studied. Thus, we present a new learning algorithm that allows conventional video super-resolution (VSR) networks to adapt their parameters to test video frames without using the ground-truth datasets. By utilizing many self-similar patches across space and time, we improve the performance of fully pre-trained VSR networks and produce temporally consistent video frames. Moreover, we present a test-time knowledge distillation technique that accelerates the adaptation speed with less hardware resources. In our experiments, we demonstrate that our novel learning algorithm can fine-tune state-of-the-art VSR networks and substantially elevate performance on numerous benchmark datasets.
翻訳日:2021-03-19 14:01:42 公開日:2021-03-18
# TPPI-Net:高効率・実用的なハイパースペクトル画像分類を目指して

TPPI-Net: Towards Efficient and Practical Hyperspectral Image Classification ( http://arxiv.org/abs/2103.10084v1 )

ライセンス: Link先を確認
Hao Chen, Xiaohua Li, Jiliu Zhou(参考訳) ハイパースペクトル画像(HSI)分類はハイパースペクトルコミュニティにおいて最も活発な研究分野であり、そのスペクトル空間特性に基づいて画像の各ピクセルを特定のカテゴリに割り当てることを目的としている。 近年, スペクトル空間特徴に基づくDCNNが提案され, 顕著な分類性能を示した。 しかし、実際のhsiと向き合う場合、これらのネットワークは画像中のピクセルを1つずつ扱う必要がある。 隣接する画素間で何度も計算されるため、画素単位の処理戦略は非効率である。 本稿では,まず,HSI分類に新たなネットワーク設計機構TPPI(画素に基づくトレーニングと画像に基づく予測)を提案する。 そして、TPPI機構により、HSI分類のための技術ネットワークの状態に基づいてTPPI-Netを導出する。 実験の結果,提案したTPPI-Netは,HSI分類のための技術ネットワークの状態に匹敵する高い分類精度を得るだけでなく,ハイパースペクトル画像予測の計算複雑性を大幅に低減できることがわかった。

Hyperspectral Image(HSI) classification is the most vibrant field of research in the hyperspectral community, which aims to assign each pixel in the image to one certain category based on its spectral-spatial characteristics. Recently, some spectral-spatial-fea ture based DCNNs have been proposed and demonstrated remarkable classification performance. When facing a real HSI, however, these Networks have to deal with the pixels in the image one by one. The pixel-wise processing strategy is inefficient since there are numerous repeated calculations between adjacent pixels. In this paper, firstly, a brand new Network design mechanism TPPI (training based on pixel and prediction based on image) is proposed for HSI classification, which makes it possible to provide efficient and practical HSI classification with the restrictive conditions attached to the hyperspectral dataset. And then, according to the TPPI mechanism, TPPI-Net is derived based on the state of the art networks for HSI classification. Experimental results show that the proposed TPPI-Net can not only obtain high classification accuracy equivalent to the state of the art networks for HSI classification, but also greatly reduce the computational complexity of hyperspectral image prediction.
翻訳日:2021-03-19 14:01:26 公開日:2021-03-18
# ビデオ検索における意味的類似性について

On Semantic Similarity in Video Retrieval ( http://arxiv.org/abs/2103.10095v1 )

ライセンス: Link先を確認
Michael Wray, Hazel Doughty, Dima Damen(参考訳) 現在のビデオ検索の取り組みはすべて、単一のキャプションだけがクエリビデオに関連するというインスタンスベースの仮定に基づいて評価されている。 この仮定は、しばしばモデル検索能力を示すものではない性能比較をもたらすことを示す。 そこで本研究では, (i) 複数のビデオ/キャプションが等しく関連付けられ, 相対的なランキングがメソッドのパフォーマンスに影響を与えず, (ii) 検索されたビデオ/キャプションがクエリと類似度でランク付けされる,意味的類似度ビデオ検索への移行を提案する。 本稿では,大規模検索データセットにおける意味的類似性を付加アノテーションなしで推定するプロキシを提案する。 本稿では,3つのビデオ検索データセット(MSR-VTT,YouCook2,EP IC-KITCHENS)を用いて解析を行った。

Current video retrieval efforts all found their evaluation on an instance-based assumption, that only a single caption is relevant to a query video and vice versa. We demonstrate that this assumption results in performance comparisons often not indicative of models' retrieval capabilities. We propose a move to semantic similarity video retrieval, where (i) multiple videos/captions can be deemed equally relevant, and their relative ranking does not affect a method's reported performance and (ii) retrieved videos/captions are ranked by their similarity to a query. We propose several proxies to estimate semantic similarities in large-scale retrieval datasets, without additional annotations. Our analysis is performed on three commonly used video retrieval datasets (MSR-VTT, YouCook2 and EPIC-KITCHENS).
翻訳日:2021-03-19 14:01:07 公開日:2021-03-18
# 効率的な人物探索のための逐次エンドツーエンドネットワーク

Sequential End-to-end Network for Efficient Person Search ( http://arxiv.org/abs/2103.10148v1 )

ライセンス: Link先を確認
Zhengjia Li, Duoqian Miao(参考訳) 人物探索は、人物検出と人物再識別(re-ID)を共同で解決することを目的としている。 既存の研究は、Faster R-CNNに基づくエンドツーエンドネットワークを設計している。 しかし、より高速なR-CNNの並列構造のため、抽出された特徴は、検出された高品質なバウンディングボックスではなく、リージョン提案ネットワークによって生成された低品質の提案に由来する。 パーソナライズ検索は細かなタスクであり、このような劣った機能は再id性能を大幅に低下させる。 この問題に対処するため,SeqNet(Sequential End-to-end Network)を提案する。 seqnetでは、検出と再idはプログレッシブなプロセスと見なされ、2つのサブネットワークで順次取り組まれる。 さらに,コンテキスト情報を個人マッチングの重要な補完的手がかりとして効果的に活用するために,ロバストなコンテキスト2部グラフマッチング(cbgm)アルゴリズムを設計する。 CUHK-SYSU とPRW の2つの広く使われている人物探索ベンチマークにおいて,本手法が最先端の結果を得ることを示す。 また、このモデルは1つのgpu上で11.5fpsで動作し、既存のエンドツーエンドフレームワークに簡単に統合できます。

Person search aims at jointly solving Person Detection and Person Re-identification (re-ID). Existing works have designed end-to-end networks based on Faster R-CNN. However, due to the parallel structure of Faster R-CNN, the extracted features come from the low-quality proposals generated by the Region Proposal Network, rather than the detected high-quality bounding boxes. Person search is a fine-grained task and such inferior features will significantly reduce re-ID performance. To address this issue, we propose a Sequential End-to-end Network (SeqNet) to extract superior features. In SeqNet, detection and re-ID are considered as a progressive process and tackled with two sub-networks sequentially. In addition, we design a robust Context Bipartite Graph Matching (CBGM) algorithm to effectively employ context information as an important complementary cue for person matching. Extensive experiments on two widely used person search benchmarks, CUHK-SYSU and PRW, have shown that our method achieves state-of-the-art results. Also, our model runs at 11.5 fps on a single GPU and can be integrated into the existing end-to-end framework easily.
翻訳日:2021-03-19 14:00:53 公開日:2021-03-18
# マルチタスク深層学習による空間スペクトル符号化光場からのスペクトル再構成と異方性

Spectral Reconstruction and Disparity from Spatio-Spectrally Coded Light Fields via Multi-Task Deep Learning ( http://arxiv.org/abs/2103.10179v1 )

ライセンス: Link先を確認
Maximilian Schambach, Jiayang Shi, Michael Heizmann(参考訳) 本稿では、スペクトル中心ビューと、スペクトル符号化光場からのアライメントされた不均質マップを再構成する新しい手法を提案する。 我々は、符号化された測定値から中間のフルライトフィールドを再構成しないので、これを主再構成と呼ぶ。 符号化された光場は、スペクトル符号化されたマイクロレンズアレイを備えた非焦点設計の光場カメラが捉えたものに対応する。 このアプリケーションでは、スペクトル符号化された光フィールドカメラを単発の分光深度カメラと解釈することができる。 複数タスクの深層学習手法について検討し、再建性能を高めるための新たな補助的損失に基づくトレーニング戦略を提案する。 結果は、合成と、カスタムのカメラで撮影した新しい現実世界のスペクトル光フィールドデータセットを用いて評価されます。 その結果, 圧縮型センシング再構成と異質度推定とを比較した。 合成光界と実世界の光界の両方において高い再構成品質を達成する。 差分推定品質は、未符号化のRGB光場からの最先端の差分推定に匹敵するか、さらに優れる。

We present a novel method to reconstruct a spectral central view and its aligned disparity map from spatio-spectrally coded light fields. Since we do not reconstruct an intermediate full light field from the coded measurement, we refer to this as principal reconstruction. The coded light fields correspond to those captured by a light field camera in the unfocused design with a spectrally coded microlens array. In this application, the spectrally coded light field camera can be interpreted as a single-shot spectral depth camera. We investigate several multi-task deep learning methods and propose a new auxiliary loss-based training strategy to enhance the reconstruction performance. The results are evaluated using a synthetic as well as a new real-world spectral light field dataset that we captured using a custom-built camera. The results are compared to state-of-the art compressed sensing reconstruction and disparity estimation. We achieve a high reconstruction quality for both synthetic and real-world coded light fields. The disparity estimation quality is on par with or even outperforms state-of-the-art disparity estimation from uncoded RGB light fields.
翻訳日:2021-03-19 14:00:32 公開日:2021-03-18
# de-albinoと親和性を利用した表情表現の修正学習

Learning to Amend Facial Expression Representation via De-albino and Affinity ( http://arxiv.org/abs/2103.10189v1 )

ライセンス: Link先を確認
Jiawei Shi and Songhao Zhu(参考訳) 表情認識(英: face expression recognition、fer)は、顔の変種を分類するタスクである。 したがって、表情には特定の親密な関係がある。 現在のFERアルゴリズムではほとんど考慮されていないアフィニティ機能と呼ぶ。 さらに、画像のエッジ情報をキャプチャするために、畳み込みニューラルネットワーク(cnns)は一般にエッジパディングのホストを使用する。 それらは望ましいが、多層畳み込みの後、フィーチャマップは深く侵食される。 このプロセスで形成されたものをアルビノの特徴(albino features)と命名し、表現の表現を弱めます。 これらの課題に対処するため、Amend Representation Module (ARM) という新しいアーキテクチャを提案する。 ARMはプール層に代わるものだ。 理論的には、プール層を持つ任意のCNNに組み込むことができる。 ARMは,1) 浸食した特徴の重みを減らしてパディングの副作用を相殺する,2) ミニバッチ上での親和性を共有して表現学習を強化する,という2つの方向から表情表現を効果的に強化する。 データ不均衡の観点から、ネットワーク過適合を抑制するために、最小ランダム再サンプリング(MRR)方式を設計した。 公開ベンチマークの実験は、ARMがFERのパフォーマンスを著しく向上させることを示した。 検証精度はRAF-DBで90.55%、Affect-Netで64.49%、FER2013で71.38%であり、最先端の手法よりも高い。

Facial Expression Recognition (FER) is a classification task that points to face variants. Hence, there are certain intimate relationships between facial expressions. We call them affinity features, which are barely taken into account by current FER algorithms. Besides, to capture the edge information of the image, Convolutional Neural Networks (CNNs) generally utilize a host of edge paddings. Although they are desirable, the feature map is deeply eroded after multi-layer convolution. We name what has formed in this process the albino features, which definitely weaken the representation of the expression. To tackle these challenges, we propose a novel architecture named Amend Representation Module (ARM). ARM is a substitute for the pooling layer. Theoretically, it could be embedded in any CNN with a pooling layer. ARM efficiently enhances facial expression representation from two different directions: 1) reducing the weight of eroded features to offset the side effect of padding, and 2) sharing affinity features over mini-batch to strengthen the representation learning. In terms of data imbalance, we designed a minimal random resampling (MRR) scheme to suppress network overfitting. Experiments on public benchmarks prove that our ARM boosts the performance of FER remarkably. The validation accuracies are respectively 90.55% on RAF-DB, 64.49% on Affect-Net, and 71.38% on FER2013, exceeding current state-of-the-art methods.
翻訳日:2021-03-19 14:00:18 公開日:2021-03-18
# 開集合認識のための1-vs-Restネットワークの集団決定

Collective Decision of One-vs-Rest Networks for Open Set Recognition ( http://arxiv.org/abs/2103.10230v1 )

ライセンス: Link先を確認
Jaeyeon Jang and Chang Ouk Kim(参考訳) トレーニング中に見えない未知の例は、しばしば現実世界の機械学習タスクに現れ、インテリジェントな自己学習システムは、既知の例と未知の例を区別することができる。 そこで, 未知を分類し, 識別する問題に対処するオープンセット認識(OSR)が最近注目されている。 しかし、ソフトマックス層を用いた従来のディープニューラルネットワークは一般化に弱いため、未知数に対して高い信頼度を得られる。 本稿では,未知数を拒否する厳密で洗練された決定境界を設定しながら,既知の分類性能を維持し,osrの性能を最大化できるという直観に基づく単純なosr手法を提案する。 この目的のために、複数のワンバスレストネットワーク(OVRN)が畳み込みニューラルネットワーク特徴抽出器に従う新しいネットワーク構造を提案する。 ここで、OVRNは単純なフィードフォワードニューラルネットワークであり、クラス固有の差別的特徴を学習することで非マッチングを拒否する能力を高める。 さらに、集合的決定スコアは、ovrnsが到達した複数の決定を組み合わせて、過剰一般化を緩和することによってモデル化される。 実験の結果, オーバージェネレーションを効果的に低減することにより, 提案手法は最先端の手法よりも優れた性能を示した。

Unknown examples that are unseen during training often appear in real-world machine learning tasks, and an intelligent self-learning system should be able to distinguish between known and unknown examples. Accordingly, open set recognition (OSR), which addresses the problem of classifying knowns and identifying unknowns, has recently been highlighted. However, conventional deep neural networks using a softmax layer are vulnerable to overgeneralization, producing high confidence scores for unknowns. In this paper, we propose a simple OSR method based on the intuition that OSR performance can be maximized by setting strict and sophisticated decision boundaries that reject unknowns while maintaining satisfactory classification performance on knowns. For this purpose, a novel network structure is proposed, in which multiple one-vs-rest networks (OVRNs) follow a convolutional neural network feature extractor. Here, the OVRN is a simple feed-forward neural network that enhances the ability to reject nonmatches by learning class-specific discriminative features. Furthermore, the collective decision score is modeled by combining the multiple decisions reached by the OVRNs to alleviate overgeneralization. Extensive experiments were conducted on various datasets, and the experimental results showed that the proposed method performed significantly better than the state-of-the-art methods by effectively reducing overgeneralization.
翻訳日:2021-03-19 13:59:56 公開日:2021-03-18
# Pseudo-ISP:カラー画像デノイザによる擬似カメラ内信号処理パイプラインの学習

Pseudo-ISP: Learning Pseudo In-camera Signal Processing Pipeline from A Color Image Denoiser ( http://arxiv.org/abs/2103.10234v1 )

ライセンス: Link先を確認
Yue Cao and Xiaohe Wu and Shuran Qi and Xiao Liu and Zhongqin Wu and Wangmeng Zuo(参考訳) 現実世界のカラー写真におけるディープデノイザーの成功は、通常、センサーノイズとカメラ内信号処理(ISP)パイプラインのモデリングに依存する。 テストイメージのセンサとispパイプラインが、深いデノワザ(すなわちノイズの不一致)をトレーニングするためのものとは異なる場合、パフォーマンスの低下は必然的に起こる。 本稿では,色画像デノイザを雑音の差によるテスト画像の処理に適用する未経験学習方式を提案する。 我々は,事前訓練されたデノイザー,テスト用ノイズ画像のセット,クリーン画像の非ペア化など,実践的なトレーニング設定を検討する。 まず、事前訓練されたデノイザを使用して、テスト画像の擬似クリーンイメージを生成する。 次に擬似ISPパイプラインと信号依存の生RGBノイズモデルをテスト画像と擬似クリーン画像のペアを用いて共同学習することが提案される。 さらに,学習された擬似ispとrawrgbノイズモデルをカラー画像のクリーン化に適用し,デノイザー適応のための現実的なノイズ画像の合成を行う。 Pseudo-ISPは、現実的なノイズの多いsRGB画像の合成に有効であり、Pseudo-ISPトレーニングとdenoiser適応の交互化により、復調性能を向上させることができる。 実験により,我々のPseudo-ISPは,単純なガウスのぼかしベースのデノイザを向上してCBDNetと競合する性能を達成するだけでなく,CBDNetやRIDNetといった最先端のディープデノイザの改善にも有効であることが示された。

The success of deep denoisers on real-world color photographs usually relies on the modeling of sensor noise and in-camera signal processing (ISP) pipeline. Performance drop will inevitably happen when the sensor and ISP pipeline of test images are different from those for training the deep denoisers (i.e., noise discrepancy). In this paper, we present an unpaired learning scheme to adapt a color image denoiser for handling test images with noise discrepancy. We consider a practical training setting, i.e., a pre-trained denoiser, a set of test noisy images, and an unpaired set of clean images. To begin with, the pre-trained denoiser is used to generate the pseudo clean images for the test images. Pseudo-ISP is then suggested to jointly learn the pseudo ISP pipeline and signal-dependent rawRGB noise model using the pairs of test and pseudo clean images. We further apply the learned pseudo ISP and rawRGB noise model to clean color images to synthesize realistic noisy images for denoiser adaption. Pseudo-ISP is effective in synthesizing realistic noisy sRGB images, and improved denoising performance can be achieved by alternating between Pseudo-ISP training and denoiser adaption. Experiments show that our Pseudo-ISP not only can boost simple Gaussian blurring-based denoiser to achieve competitive performance against CBDNet, but also is effective in improving state-of-the-art deep denoisers, e.g., CBDNet and RIDNet.
翻訳日:2021-03-19 13:59:32 公開日:2021-03-18
# SG-Net: 一段階ビデオインスタンスセグメンテーションのための空間粒度ネットワーク

SG-Net: Spatial Granularity Network for One-Stage Video Instance Segmentation ( http://arxiv.org/abs/2103.10284v1 )

ライセンス: Link先を確認
Dongfang Liu, Yiming Cui, Wenbo Tan, Yingjie Chen(参考訳) ビデオインスタンスセグメンテーション(VIS)はコンピュータビジョンにおける新しい重要なタスクである。 現在、トップパフォーマンスのVISメソッドは、トラッキングブランチを追加して、2段階のMask R-CNNを拡張しており、改善の余地はたくさんある。 対照的に、新しい視点からVISタスクにアプローチし、一段階空間粒度ネットワーク(SG-Net)を提案する。 Compared to the conventional two-stage methods, SG-Net demonstrates four advantages: 1) Our method has a one-stage compact architecture and each task head (detection, segmentation, and tracking) is crafted interdependently so they can effectively share features and enjoy the joint optimization; 2) Our mask prediction is dynamically performed on the sub-regions of each detected instance, leading to high-quality masks of fine granularity; 3) Each of our task predictions avoids using expensive proposal-based RoI features, resulting in much reduced runtime complexity per instance; 4) Our tracking head models objects centerness movements for tracking, which effectively enhances the tracking robustness to different object appearances. 評価では,YouTube-VISデータセットの最先端比較について述べる。 広範にわたる実験により, 1段階のコンパクトな手法が精度と推論速度の両方において, 性能の向上を実現した。 私たちは、SG-NetがVISタスクの強力で柔軟なベースラインになることを期待しています。 私たちのコードは利用可能です。

Video instance segmentation (VIS) is a new and critical task in computer vision. To date, top-performing VIS methods extend the two-stage Mask R-CNN by adding a tracking branch, leaving plenty of room for improvement. In contrast, we approach the VIS task from a new perspective and propose a one-stage spatial granularity network (SG-Net). Compared to the conventional two-stage methods, SG-Net demonstrates four advantages: 1) Our method has a one-stage compact architecture and each task head (detection, segmentation, and tracking) is crafted interdependently so they can effectively share features and enjoy the joint optimization; 2) Our mask prediction is dynamically performed on the sub-regions of each detected instance, leading to high-quality masks of fine granularity; 3) Each of our task predictions avoids using expensive proposal-based RoI features, resulting in much reduced runtime complexity per instance; 4) Our tracking head models objects centerness movements for tracking, which effectively enhances the tracking robustness to different object appearances. In evaluation, we present state-of-the-art comparisons on the YouTube-VIS dataset. Extensive experiments demonstrate that our compact one-stage method can achieve improved performance in both accuracy and inference speed. We hope our SG-Net could serve as a strong and flexible baseline for the VIS task. Our code will be available.
翻訳日:2021-03-19 13:59:02 公開日:2021-03-18
# ロボット支援手術におけるフレーム予測

Future Frame Prediction for Robot-assisted Surgery ( http://arxiv.org/abs/2103.10308v1 )

ライセンス: Link先を確認
Xiaojie Gao, Yueming Jin, Zixu Zhao, Qi Dou, Pheng-Ann Heng(参考訳) ロボット手術ビデオの将来のフレームを予測することは興味深いが、操作タスクが複雑なダイナミクスを持つ可能性があることを考えると、非常に難しい問題である。 ナチュラルビデオの将来予測に関する既存のアプローチは、決定論的モデルまたは確率的モデルに基づいており、例えば、深いリカレントニューラルネットワーク、光フロー、潜時空間モデリングである。 しかし、手術シナリオで両腕を持つロボットの有意義な動きを予測する可能性は、これまでは予測されておらず、自然シナリオで片方の腕ロボットの独立動作を予測するよりも難しい。 本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のための3次先行誘導変分オートエンコーダ(TPG-VAE)モデルを提案する。 内容分布の他に,手術用具の小さな動きを扱うのに斬新な運動分布を学習する。 さらに,ジェスチャクラスからの不変事前情報を生成プロセスに追加し,モデルの潜在空間を制約する。 我々の知る限り、デュアルアームロボットの将来的なフレームは、一般的なロボットビデオと比較して、その特徴を考慮して予測されるのは、これが初めてである。 公的なJIGSAWSデータセットの縫合タスクにより,我々のモデルがより安定的で現実的な将来のフレーム予測シーンを得ることを示す。

Predicting future frames for robotic surgical video is an interesting, important yet extremely challenging problem, given that the operative tasks may have complex dynamics. Existing approaches on future prediction of natural videos were based on either deterministic models or stochastic models, including deep recurrent neural networks, optical flow, and latent space modeling. However, the potential in predicting meaningful movements of robots with dual arms in surgical scenarios has not been tapped so far, which is typically more challenging than forecasting independent motions of one arm robots in natural scenarios. In this paper, we propose a ternary prior guided variational autoencoder (TPG-VAE) model for future frame prediction in robotic surgical video sequences. Besides content distribution, our model learns motion distribution, which is novel to handle the small movements of surgical tools. Furthermore, we add the invariant prior information from the gesture class into the generation process to constrain the latent space of our model. To our best knowledge, this is the first time that the future frames of dual arm robots are predicted considering their unique characteristics relative to general robotic videos. Experiments demonstrate that our model gains more stable and realistic future frame prediction scenes with the suturing task on the public JIGSAWS dataset.
翻訳日:2021-03-19 13:58:43 公開日:2021-03-18
# FastNeRF:200FPSでの高密度ニューラルレンダリング

FastNeRF: High-Fidelity Neural Rendering at 200FPS ( http://arxiv.org/abs/2103.10380v1 )

ライセンス: Link先を確認
Stephan J. Garbin, Marek Kowalski, Matthew Johnson, Jamie Shotton, Julien Valentin(参考訳) NeRF(Neural Radiance Fields)に関する最近の研究は、ニューラルネットワークが、新しい視点からフォトリアリスティックにレンダリングできる複雑な3D環境をエンコードする方法を示した。 これらの画像のレンダリングは非常に計算的に要求され、最近の改善はハイエンドのハードウェアでも、インタラクティブなレートを実現するための長い道のりです。 モバイルおよび混合現実感機器のシナリオに触発されたFastNeRFは、ハイエンドの消費者向けGPU上で200Hzで高忠実なフォトリアリスティック画像をレンダリングできる最初のNeRFベースのシステムである。 提案手法のコアとなるのは,空間内の各位置の深部放射率マップをコンパクトにキャッシングし,(ii)線方向を用いて地図を効率よくクエリして描画画像中のピクセル値を推定する,グラフィックインスパイアされた因子化である。 広汎な実験により,提案手法は元のNeRFアルゴリズムよりも3000倍高速であり,その精度と拡張性を維持しつつ,既存のNeRFよりも1桁以上高速であることがわかった。

Recent work on Neural Radiance Fields (NeRF) showed how neural networks can be used to encode complex 3D environments that can be rendered photorealistically from novel viewpoints. Rendering these images is very computationally demanding and recent improvements are still a long way from enabling interactive rates, even on high-end hardware. Motivated by scenarios on mobile and mixed reality devices, we propose FastNeRF, the first NeRF-based system capable of rendering high fidelity photorealistic images at 200Hz on a high-end consumer GPU. The core of our method is a graphics-inspired factorization that allows for (i) compactly caching a deep radiance map at each position in space, (ii) efficiently querying that map using ray directions to estimate the pixel values in the rendered image. Extensive experiments show that the proposed method is 3000 times faster than the original NeRF algorithm and at least an order of magnitude faster than existing work on accelerating NeRF, while maintaining visual quality and extensibility.
翻訳日:2021-03-19 13:58:25 公開日:2021-03-18
# 野生のインタラクティブビデオオブジェクトセグメンテーションのためのフレーム推薦のための学習

Learning to Recommend Frame for Interactive Video Object Segmentation in the Wild ( http://arxiv.org/abs/2103.10391v1 )

ライセンス: Link先を確認
Zhaoyuan Yin, Jia Zheng, Weixin Luo, Shenhan Qian, Hanling Zhang, Shenghua Gao(参考訳) 本稿では,対話型ビデオオブジェクトセグメンテーション(VOS)のためのフレームワークを提案する。 次に、ユーザアノテーションに基づいて、セグメンテーションアルゴリズムがマスクを洗練する。 従来の対話型vosパラダイムは,最悪の評価基準を持つフレームを選択し,テスト段階では実用的でない評価基準の計算には基礎的真理が必要である。 対照的に,本論文では,最悪の評価基準を持つフレームが,ビデオ全体のパフォーマンス向上に繋がる上で,必ずしも価値の高いフレームではないことを主張する。 そこで我々は,対話型vosにおけるフレーム選択問題をマルコフ決定プロセスとして定式化し,エージェントが深層強化学習フレームワークでフレームを推薦することを学習する。 学習エージェントは、最も価値のあるフレームを自動的に決定し、対話的な設定をより実用的なものにすることができる。 公開データセットの実験結果から,基礎となるVOSアルゴリズムを変更することなく,学習エージェントの有効性が示された。 私たちのデータ、コード、モデルはhttps://github.com/s vip-lab/ivos-wで利用可能です。

This paper proposes a framework for the interactive video object segmentation (VOS) in the wild where users can choose some frames for annotations iteratively. Then, based on the user annotations, a segmentation algorithm refines the masks. The previous interactive VOS paradigm selects the frame with some worst evaluation metric, and the ground truth is required for calculating the evaluation metric, which is impractical in the testing phase. In contrast, in this paper, we advocate that the frame with the worst evaluation metric may not be exactly the most valuable frame that leads to the most performance improvement across the video. Thus, we formulate the frame selection problem in the interactive VOS as a Markov Decision Process, where an agent is learned to recommend the frame under a deep reinforcement learning framework. The learned agent can automatically determine the most valuable frame, making the interactive setting more practical in the wild. Experimental results on the public datasets show the effectiveness of our learned agent without any changes to the underlying VOS algorithms. Our data, code, and models are available at https://github.com/s vip-lab/IVOS-W.
翻訳日:2021-03-19 13:58:05 公開日:2021-03-18
# ニューラルネットワークによる表現型3次元形状抽象化の学習

Neural Parts: Learning Expressive 3D Shape Abstractions with Invertible Neural Networks ( http://arxiv.org/abs/2103.10429v1 )

ライセンス: Link先を確認
Despoina Paschalidou and Angelos Katharopoulos and Andreas Geiger and Sanja Fidler(参考訳) 3次元形状抽出の素晴らしい進歩は、高い忠実度で物体のジオメトリをキャプチャできる表現につながった。 並行して、プリミティブベースのメソッドはオブジェクトを意味的に一貫した部分アレンジメントとして表現しようとする。 しかし、既存のプリミティブ表現の単純さから、これらの手法は少数のプリミティブ/パーツを使用して正確に3d形状を再構築できない。 Invertible Neural Network (INN) を用いて, 球面と対象物体の同相写像を実装した, プリミティブを定義する新しい3次元プリミティブ表現であるNeural Parts による再構成品質と部品数とのトレードオフに対処する。 INNは同相写像の逆写像を計算でき、それによってプリミティブの表面関数とメッシュの両方の効率的な計算を、追加の処理後処理なしで実現できる。 我々のモデルは、3Dオブジェクトを意味的に一貫した部分配置にパースすることを学ぶ。 ShapeNet, D-FAUST, FreiHANDの評価は, 我々のプリミティブが複雑なジオメトリをキャプチャし, 同時に幾何学的に精度良く再現できることを示した。

Impressive progress in 3D shape extraction led to representations that can capture object geometries with high fidelity. In parallel, primitive-based methods seek to represent objects as semantically consistent part arrangements. However, due to the simplicity of existing primitive representations, these methods fail to accurately reconstruct 3D shapes using a small number of primitives/parts. We address the trade-off between reconstruction quality and number of parts with Neural Parts, a novel 3D primitive representation that defines primitives using an Invertible Neural Network (INN) which implements homeomorphic mappings between a sphere and the target object. The INN allows us to compute the inverse mapping of the homeomorphism, which in turn, enables the efficient computation of both the implicit surface function of a primitive and its mesh, without any additional post-processing. Our model learns to parse 3D objects into semantically consistent part arrangements without any part-level supervision. Evaluations on ShapeNet, D-FAUST and FreiHAND demonstrate that our primitives can capture complex geometries and thus simultaneously achieve geometrically accurate as well as interpretable reconstructions using an order of magnitude fewer primitives than state-of-the-art shape abstraction methods.
翻訳日:2021-03-19 13:57:49 公開日:2021-03-18
# 物理を基礎としたニューラルネットワークの深層学習理論

A deep learning theory for neural networks grounded in physics ( http://arxiv.org/abs/2103.09985v1 )

ライセンス: Link先を確認
Benjamin Scellier(参考訳) 過去10年間で、ディープラーニングは人工知能の主要なコンポーネントとなり、さまざまな領域にまたがる一連のブレークスルーにつながった。 ディープラーニングのワークホースは、確率勾配降下(SGD)による損失関数の最適化である。 従来のディープラーニングでは、ニューラルネットワークは微分可能な数学的関数であり、SGDに必要な損失勾配はバックプロパゲーションアルゴリズムによって計算される。 しかし、これらのニューラルネットワークが実装され、訓練されたコンピュータアーキテクチャは、これらのアーキテクチャにおけるメモリと処理の分離により、速度とエネルギーの非効率の問題に悩まされる。 これらの問題を解決するために、ニューロモルフィックコンピューティングの分野は、脳と同じようにメモリと処理をマージするハードウェアアーキテクチャ上でニューラルネットワークを実装することを目指している。 この論文では、ニューロモルフィックアーキテクチャ上で大規模で高速で効率的なニューラルネットワークを構築するには、実装とトレーニングを行うアルゴリズムを再考する必要がある、と論じる。 この目的のために,SGDと互換性のある別の数学的枠組みを提案し,物理法則を直接活用する基板にニューラルネットワークを設計することを可能にする。 我々のフレームワークは、非常に広い種類のモデル、すなわち状態や動力学が変分方程式によって記述されるシステムに適用できる。 このようなシステムにおける損失勾配を計算する手順は、多くの実用的な状況において、訓練可能なパラメータごとにローカルに利用可能な情報のみを必要とする)平衡伝播 (equilibrium propagation, eqprop) と呼ばれる。 物理学や工学の多くのシステムは変分原理によって記述できるため、我々のフレームワークは、ニューロモルフィックコンピューティング以外の様々な工学分野に応用できる幅広い物理システムに適用できる可能性を持っている。

In the last decade, deep learning has become a major component of artificial intelligence, leading to a series of breakthroughs across a wide variety of domains. The workhorse of deep learning is the optimization of loss functions by stochastic gradient descent (SGD). Traditionally in deep learning, neural networks are differentiable mathematical functions, and the loss gradients required for SGD are computed with the backpropagation algorithm. However, the computer architectures on which these neural networks are implemented and trained suffer from speed and energy inefficiency issues, due to the separation of memory and processing in these architectures. To solve these problems, the field of neuromorphic computing aims at implementing neural networks on hardware architectures that merge memory and processing, just like brains do. In this thesis, we argue that building large, fast and efficient neural networks on neuromorphic architectures requires rethinking the algorithms to implement and train them. To this purpose, we present an alternative mathematical framework, also compatible with SGD, which offers the possibility to design neural networks in substrates that directly exploit the laws of physics. Our framework applies to a very broad class of models, namely systems whose state or dynamics are described by variational equations. The procedure to compute the loss gradients in such systems -- which in many practical situations requires solely locally available information for each trainable parameter -- is called equilibrium propagation (EqProp). Since many systems in physics and engineering can be described by variational principles, our framework has the potential to be applied to a broad variety of physical systems, whose applications extend to various fields of engineering, beyond neuromorphic computing.
翻訳日:2021-03-19 13:57:08 公開日:2021-03-18
# アクティベーションプロファイルを用いたディープニューラルネットワークにおける説明可能な逆攻撃

Explainable Adversarial Attacks in Deep Neural Networks Using Activation Profiles ( http://arxiv.org/abs/2103.10229v1 )

ライセンス: Link先を確認
Gabriel D. Cantareira, Rodrigo F. Mello, Fernando V. Paulovich(参考訳) ニューラルネットワークが社会の様々な問題を解決するための選択ツールになるにつれて、敵対的な攻撃が重要になる。 ネットワーク分析を騙すために意図的に設計されたデータインスタンスを生成する可能性は、悲惨な結果をもたらす可能性がある。 近年の研究では、モデルトレーニングに一般的に使用される手法は、そのような攻撃に対して特に脆弱な脆弱な抽象表現をもたらすことが示されている。 そこで本論文では, ニューラルネットワークモデルにおいて, 逆データに対するモデル認識が正規データインスタンスとどのように異なるか, クラス知覚との関係を明らかにする。 さまざまなユースケースを通じて、これらの要素を観察することで、モデルの悪用された領域を迅速に特定し、入力データの脆弱な特徴をさらに調査し、モデルのトレーニングとアーキテクチャを改善するためのガイドとなることを示します。

As neural networks become the tool of choice to solve an increasing variety of problems in our society, adversarial attacks become critical. The possibility of generating data instances deliberately designed to fool a network's analysis can have disastrous consequences. Recent work has shown that commonly used methods for model training often result in fragile abstract representations that are particularly vulnerable to such attacks. This paper presents a visual framework to investigate neural network models subjected to adversarial examples, revealing how models' perception of the adversarial data differs from regular data instances and their relationships with class perception. Through different use cases, we show how observing these elements can quickly pinpoint exploited areas in a model, allowing further study of vulnerable features in input data and serving as a guide to improving model training and architecture.
翻訳日:2021-03-19 13:56:42 公開日:2021-03-18
# top:摂動伝達性によるニューラルネットワークのバックドア検出

TOP: Backdoor Detection in Neural Networks via Transferability of Perturbation ( http://arxiv.org/abs/2103.10274v1 )

ライセンス: Link先を確認
Todd Huster and Emmanuel Ekwedike(参考訳) ディープニューラルネットワーク(DNN)は、敵が通常機能するモデルに秘密のトリガーを注入する「バックドア」中毒攻撃に対して脆弱である。 トレーニングデータやサンプルトリガにアクセスせずにトレーニングされたモデルのバックドアを検出することは、重要なオープン問題である。 本稿では,これらのモデルの興味深い性質を同定する: クリーンモデルよりも毒性モデルの方が画像から画像への逆摂動の伝達が容易である。 これは、クリーンデータから線形に分離できないトリガーを含む、さまざまなモデルとトリガータイプを保持する。 この機能を使用して、TrojAIベンチマークの有毒モデルと、追加モデルを検出します。

Deep neural networks (DNNs) are vulnerable to "backdoor" poisoning attacks, in which an adversary implants a secret trigger into an otherwise normally functioning model. Detection of backdoors in trained models without access to the training data or example triggers is an important open problem. In this paper, we identify an interesting property of these models: adversarial perturbations transfer from image to image more readily in poisoned models than in clean models. This holds for a variety of model and trigger types, including triggers that are not linearly separable from clean data. We use this feature to detect poisoned models in the TrojAI benchmark, as well as additional models.
翻訳日:2021-03-19 13:56:27 公開日:2021-03-18
# バイオメディカル知識グラフの論理規則を用いたニューラルマルチホップ推論

Neural Multi-Hop Reasoning With Logical Rules on Biomedical Knowledge Graphs ( http://arxiv.org/abs/2103.10367v1 )

ライセンス: Link先を確認
Yushan Liu, Marcel Hildebrandt, Mitchell Joblin, Martin Ringsquandl, Rime Raissouni, Volker Tresp(参考訳) 生体医学知識グラフは、生物学的システムについての推論に対する積分計算アプローチを可能にする。 生物学的データの性質は、ベンチマークデータセットでよく見られるものとは異なるグラフ構造をもたらす。 このことが推論アルゴリズムの性能に与える影響を理解するために,創薬の現実的課題に基づく実証的研究を行った。 我々は,この課題を,化合物と疾患の両方が知識グラフの実体に対応するリンク予測問題として定式化する。 既存のアルゴリズムの明らかな弱点を克服するために,強化学習に基づくポリシー誘導歩行と論理ルールを組み合わせた新しい手法,PoLoを提案する。 これらのルールは、新しい報酬関数を用いてアルゴリズムに統合される。 バイオインフォマティクスデータベース29のバイオメディカル情報を統合するHetionetに本手法を適用した。 提案手法は,解釈可能性を提供しながら,リンク予測の最先端手法よりも優れていることを示す。

Biomedical knowledge graphs permit an integrative computational approach to reasoning about biological systems. The nature of biological data leads to a graph structure that differs from those typically encountered in benchmarking datasets. To understand the implications this may have on the performance of reasoning algorithms, we conduct an empirical study based on the real-world task of drug repurposing. We formulate this task as a link prediction problem where both compounds and diseases correspond to entities in a knowledge graph. To overcome apparent weaknesses of existing algorithms, we propose a new method, PoLo, that combines policy-guided walks based on reinforcement learning with logical rules. These rules are integrated into the algorithm by using a novel reward function. We apply our method to Hetionet, which integrates biomedical information from 29 prominent bioinformatics databases. Our experiments show that our approach outperforms several state-of-the-art methods for link prediction while providing interpretability.
翻訳日:2021-03-19 13:56:17 公開日:2021-03-18
# MS*:マルチエージェント同時マルチゴールシークエンシングとパス探索のための新しいエクササイズアルゴリズム

MS*: A New Exact Algorithm for Multi-agent Simultaneous Multi-goal Sequencing and Path Finding ( http://arxiv.org/abs/2103.09979v1 )

ライセンス: Link先を確認
Zhongqiang Ren, Sivakumar Rathinam and Howie Choset(参考訳) 監視やロジスティクスといったマルチエージェントアプリケーションでは、多数のモバイルエージェントが協調し、可能な限り多くの目標地点を安全に訪問することが期待されている。 これらのアプリケーションにおけるマルチエージェント計画問題は、エージェントのコンフリクトフリーパスを同時に生成しながら、各エージェントに目標を割り当て、シーケンシングすることである。 本稿では,マルチエージェントパス探索 (mapf) とマルチトラベルセールスマン問題 (mtsp) の解法を融合・発展させることにより,マルチエージェント問題の最適解を求めるms*と呼ばれる新しいアルゴリズムを提案する。 MS*はMAPFに対する我々の以前の部分次元展開アプローチを活用し、mTSPソルバを埋め込んでエージェントの目標を最適に割り当て、シーケンスする。 計算結果から,提案アルゴリズムは標準ラップトップ上でのCPU時間1分で20エージェント,50ゴールのマルチエージェント問題を解くことができることがわかった。

In multi-agent applications such as surveillance and logistics, fleets of mobile agents are often expected to coordinate and safely visit a large number of goal locations as efficiently as possible. The multi-agent planning problem in these applications involves allocating and sequencing goals for each agent while simultaneously producing conflict-free paths for the agents. In this article, we introduce a new algorithm called MS* which computes an optimal solution for this multi-agent problem by fusing and advancing state of the art solvers for multi-agent path finding (MAPF) and multiple travelling salesman problem (mTSP). MS* leverages our prior subdimensional expansion approach for MAPF and embeds the mTSP solvers to optimally allocate and sequence goals for agents. Numerical results show that our new algorithm can solve the multi-agent problem with 20 agents and 50 goals in a minute of CPU time on a standard laptop.
翻訳日:2021-03-19 13:56:03 公開日:2021-03-18
# 確率的単純成分分析

Probabilistic Simplex Component Analysis ( http://arxiv.org/abs/2103.10027v1 )

ライセンス: Link先を確認
Ruiyuan Wu, Wing-Kin Ma, Yuening Li, Anthony Man-Cho So, and Nicholas D. Sidiropoulos(参考訳) 本研究では,データからsimplexを記述するデータ循環の頂点を同定する,確率論的simplexコンポーネント分析手法prismを提案する。 この問題には多様な応用があり、最も注目すべきはリモートセンシングにおけるハイパースペクトルアンミックスと機械学習における非負行列分解である。 PRISMは単純な確率モデル、すなわち一様単純データ分布と加法ガウス雑音を使い、最大確率で推論を行う。 推定モデルは、いくつかの仮定の下で頂点が確実に識別可能であるという意味で健全であり、データ点数が大きい場合、プリズムがノイズと戦うのに有効であることを示唆する。 PRISMは強いが隠れており、同じ問題に対する強力な幾何学的アプローチである単純な体積最小化と関係がある。 これらの基本的側面を考察し,重要サンプリングと変分推論に基づくアルゴリズムスキームについて考察する。 特に、変分推論スキームは、行列因数分解のアプローチと興味深い関係を持つ特別な正則化器を持つ行列因数分解問題に類似していることが示される。 PRISMの可能性を示す数値的な結果が提供される。

This study presents PRISM, a probabilistic simplex component analysis approach to identifying the vertices of a data-circumscribing simplex from data. The problem has a rich variety of applications, the most notable being hyperspectral unmixing in remote sensing and non-negative matrix factorization in machine learning. PRISM uses a simple probabilistic model, namely, uniform simplex data distribution and additive Gaussian noise, and it carries out inference by maximum likelihood. The inference model is sound in the sense that the vertices are provably identifiable under some assumptions, and it suggests that PRISM can be effective in combating noise when the number of data points is large. PRISM has strong, but hidden, relationships with simplex volume minimization, a powerful geometric approach for the same problem. We study these fundamental aspects, and we also consider algorithmic schemes based on importance sampling and variational inference. In particular, the variational inference scheme is shown to resemble a matrix factorization problem with a special regularizer, which draws an interesting connection to the matrix factorization approach. Numerical results are provided to demonstrate the potential of PRISM.
翻訳日:2021-03-19 13:55:27 公開日:2021-03-18
# TP-GANによる低用量前立腺切断療法の迅速治療計画

Rapid treatment planning for low-dose-rate prostate brachytherapy with TP-GAN ( http://arxiv.org/abs/2103.09996v1 )

ライセンス: Link先を確認
Tajwar Abrar Aleef, Ingrid T. Spadinger, Michael D. Peacock, Septimiu E. Salcudean, S. Sara Mahdavi(参考訳) 低用量前立腺ブラキセラピー(ldr-pb)の治療計画では、健康な組織への毒性を最小限に抑えながら、最小限の投与量で前立腺に投与可能な放射性種を配置することを目的としている。 このドシメトリックな基準を満たす複数のシードアレンジメントは、すべて医師の視点からは「許容できる」とはみなされない。 これにより、医師やセンターの好み、計画スタイル、専門知識に基づく計画が導かれる。 本稿では,ldr-pbデータの大規模プール(961名)から学ぶためのモデルをトレーニングし,高品質なマニュアルプランを模倣した一貫した計画を作成することにより,この変動を低減しようとする。 本モデルは,種子の空間的制約に対してモデルにペナルティを付与する新たな損失関数を用いた条件付き生成対向ネットワークに基づいている。 シミュレーションアニーリング(sa)アルゴリズムに基づくオプションオプティマイザを使用して、必要に応じて計画をさらに微調整することができる(治療医によって決定される)。 手動の先史学的な計画に匹敵する結果を示す150の試験ケースで性能解析を行った。 平均的に, 処方用量の100%をカバーする臨床対象容積は98.9%であり, マニュアルプランでは99.4%であった。 さらに,本モデルを用いた場合,計画時間は平均2.5分/計画となり,SAなしでは3秒未満であった。 これと比較すると、私たちのセンターでのマニュアルプランニングは約20分/プランです。

Treatment planning in low-dose-rate prostate brachytherapy (LDR-PB) aims to produce arrangement of implantable radioactive seeds that deliver a minimum prescribed dose to the prostate whilst minimizing toxicity to healthy tissues. There can be multiple seed arrangements that satisfy this dosimetric criterion, not all deemed 'acceptable' for implant from a physician's perspective. This leads to plans that are subjective to the physician's/centre's preference, planning style, and expertise. We propose a method that aims to reduce this variability by training a model to learn from a large pool of successful retrospective LDR-PB data (961 patients) and create consistent plans that mimic the high-quality manual plans. Our model is based on conditional generative adversarial networks that use a novel loss function for penalizing the model on spatial constraints of the seeds. An optional optimizer based on a simulated annealing (SA) algorithm can be used to further fine-tune the plans if necessary (determined by the treating physician). Performance analysis was conducted on 150 test cases demonstrating comparable results to that of the manual prehistorical plans. On average, the clinical target volume covering 100% of the prescribed dose was 98.9% for our method compared to 99.4% for manual plans. Moreover, using our model, the planning time was significantly reduced to an average of 2.5 mins/plan with SA, and less than 3 seconds without SA. Compared to this, manual planning at our centre takes around 20 mins/plan.
翻訳日:2021-03-19 13:55:03 公開日:2021-03-18
# RangeDet:LiDARを用いた3Dオブジェクト検出のためのレンジビューの防御

RangeDet:In Defense of Range View for LiDAR-based 3D Object Detection ( http://arxiv.org/abs/2103.10039v1 )

ライセンス: Link先を確認
Lue Fan, Xuan Xiong, Feng Wang, Naiyan Wang, Zhaoxiang Zhang(参考訳) 本稿では,アンカーフリーなlidarベースの3d物体検出器 rangedetを提案する。 これまでの作品と最も顕著な違いは、この手法が純粋に範囲ビュー表現に基づいていることである。 一般的に使われているVoxelizedまたはBird's Eye View (BEV) 表現と比較すると、レンジビュー表現はよりコンパクトで量子化誤差がない。 セマンティクスのセグメンテーションに採用する作業は存在するが、オブジェクト検出のパフォーマンスはvoxelizedやbevに匹敵するものだ。 まず,既存の範囲ビューに基づく手法を解析した結果,1)近接物体と遠距離物体のスケール変動,2)特徴抽出に使用される2次元範囲画像座標と出力に使用される3次元デカルト座標の不一致,の2つの問題点を見いだした。 次に、RangeDetでこれらの問題に対処するために、3つのコンポーネントを意図的に設計します。 大規模なWaymo Open Dataset(WOD)でRangeDetをテストする。 我々の最良のモデルは、車両/ペデストリアン/サイクリスト上で72.9/75.9/65.8 3d apを達成している。 これらの結果は、他のレンジビューベース手法よりも大きなマージン(車両検出において約20の3D AP)で優れており、全体的に最先端のマルチビューベース手法に匹敵する。 コードは公開されます。

In this paper, we propose an anchor-free single-stage LiDAR-based 3D object detector -- RangeDet. The most notable difference with previous works is that our method is purely based on the range view representation. Compared with the commonly used voxelized or Bird's Eye View (BEV) representations, the range view representation is more compact and without quantization error. Although there are works adopting it for semantic segmentation, its performance in object detection is largely behind voxelized or BEV counterparts. We first analyze the existing range-view-based methods and find two issues overlooked by previous works: 1) the scale variation between nearby and far away objects; 2) the inconsistency between the 2D range image coordinates used in feature extraction and the 3D Cartesian coordinates used in output. Then we deliberately design three components to address these issues in our RangeDet. We test our RangeDet in the large-scale Waymo Open Dataset (WOD). Our best model achieves 72.9/75.9/65.8 3D AP on vehicle/pedestrian/c yclist. These results outperform other range-view-based methods by a large margin (~20 3D AP in vehicle detection), and are overall comparable with the state-of-the-art multi-view-based methods. Codes will be public.
翻訳日:2021-03-19 13:54:38 公開日:2021-03-18
# デンマークのfungi 2020 - 単なる画像認識データセットではない

Danish Fungi 2020 -- Not Just Another Image Recognition Dataset ( http://arxiv.org/abs/2103.10107v1 )

ライセンス: Link先を確認
Luk\'a\v{s} Picek, Milan \v{S}ulc, Ji\v{r}\'i Matas, Jacob Heilmann-Clausen, Thomas S. Jeppesen, Thomas L{\ae}ss{\o}e, Tobias Fr{\o}slev(参考訳) 我々は,新しい細粒度データセットとベンチマークであるdanish fungi 2020 (df20) を紹介する。 このデータセットはデンマークの菌類アトラスに提出された観測から構築され、その分類学的精度の高いクラスラベル、少数のエラー、高度に不均衡な長い尾を持つクラス分布、豊富な観察メタデータ、そして明確に定義されたクラス階層に特有である。 df20はimagenetと重複しないため、imagenetの公開チェックポイントから微調整されたモデルの偏りのない比較が可能になる。 提案した評価プロトコルはメタデータを使って分類を改善することができる。 正確な地理的位置、生息地、および基板は、分類器の校正テストを促進し、最終的にデバイス設定が分類性能に与える影響を研究することができる。 畳み込みニューラルネットワーク(CNN)と最近のビジョントランスフォーマー(ViT)を用いた実験は、DF20が難しい課題であることを示している。 興味深いことに、ViTは81.25%の精度でCNNベースラインよりも優れており、CNNエラーを13%削減している。 決定プロセスにメタデータを含めるベースライン手順は、分類精度を3.5ポイント以上向上させ、エラー率を20%削減する。 すべてのメソッドと実験のソースコードは、https://sites.google .com/view/danish-fun gi-datasetで入手できる。

We introduce a novel fine-grained dataset and benchmark, the Danish Fungi 2020 (DF20). The dataset, constructed from observations submitted to the Danish Fungal Atlas, is unique in its taxonomy-accurate class labels, small number of errors, highly unbalanced long-tailed class distribution, rich observation metadata, and well-defined class hierarchy. DF20 has zero overlap with ImageNet, allowing unbiased comparison of models fine-tuned from publicly available ImageNet checkpoints. The proposed evaluation protocol enables testing the ability to improve classification using metadata -- e.g. precise geographic location, habitat, and substrate, facilitates classifier calibration testing, and finally allows to study the impact of the device settings on the classification performance. Experiments using Convolutional Neural Networks (CNN) and the recent Vision Transformers (ViT) show that DF20 presents a challenging task. Interestingly, ViT achieves results superior to CNN baselines with 81.25% accuracy, reducing the CNN error by 13%. A baseline procedure for including metadata into the decision process improves the classification accuracy by more than 3.5 percentage points, reducing the error rate by 20%. The source code for all methods and experiments is available at https://sites.google .com/view/danish-fun gi-dataset.
翻訳日:2021-03-19 13:54:13 公開日:2021-03-18
# 3次元点雲のセマンティックセグメンテーションにおける識別不能点の検討

Investigate Indistinguishable Points in Semantic Segmentation of 3D Point Cloud ( http://arxiv.org/abs/2103.10339v1 )

ライセンス: Link先を確認
Mingye Xu, Zhipeng Zhou, Junhao Zhang, Yu Qiao(参考訳) 本稿では,大規模3次元点雲のセマンティックセグメンテーションにおける識別不能点(ラベル予測の難しさ)について検討する。 識別不能な点は、複雑な境界に位置するもの、類似した局所的なテクスチャを持つもの、異なるカテゴリを持つもの、そして小さな硬い領域を分離する点から成り、3Dセマンティックセグメンテーションのパフォーマンスに大きな影響を及ぼす。 そこで本研究では,階層的意味的特徴を生かして識別不能な点を適応的に選択し,特に識別不能点の細粒度特徴を増大させる新しい識別不能領域焦点化ネットワーク(iaf-net)を提案する。 また,プログレッシブな方法で特徴表現を改善するために,マルチステージロスを導入する。 また,識別不能領域のセグメンテーション性能を分析するため,IPBM(Indistinguisha ble Points Based Metric)と呼ばれる新しい評価指標を提案する。 我々のIAF-Netは、いくつかの人気のある3Dポイントクラウドデータセットで最先端のパフォーマンスで同等の結果を得る。 S3DISとScanNetはIPBMの他の手法よりも明らかに優れている。

This paper investigates the indistinguishable points (difficult to predict label) in semantic segmentation for large-scale 3D point clouds. The indistinguishable points consist of those located in complex boundary, points with similar local textures but different categories, and points in isolate small hard areas, which largely harm the performance of 3D semantic segmentation. To address this challenge, we propose a novel Indistinguishable Area Focalization Network (IAF-Net), which selects indistinguishable points adaptively by utilizing the hierarchical semantic features and enhances fine-grained features for points especially those indistinguishable points. We also introduce multi-stage loss to improve the feature representation in a progressive way. Moreover, in order to analyze the segmentation performances of indistinguishable areas, we propose a new evaluation metric called Indistinguishable Points Based Metric (IPBM). Our IAF-Net achieves the comparable results with state-of-the-art performance on several popular 3D point cloud datasets e.g. S3DIS and ScanNet, and clearly outperforms other methods on IPBM.
翻訳日:2021-03-19 13:53:53 公開日:2021-03-18
# RP-VIO:動的環境のためのロバスト平面型ビジュアル慣性オドメトリー

RP-VIO: Robust Plane-based Visual-Inertial Odometry for Dynamic Environments ( http://arxiv.org/abs/2103.10400v1 )

ライセンス: Link先を確認
Karnik Ram, Chaitanya Kharyal, Sudarshan S. Harithas, K. Madhava Krishna(参考訳) 現代の視覚慣性ナビゲーションシステム(VINS)は、現実世界の展開において重要な課題に直面している。 現在のベストソリューションは、オブジェクトカテゴリのセマンティクスに基づいて、動的オブジェクトを外れ値としてフィルターするだけです。 このようなアプローチは、実行可能なすべてのオブジェクトクラスを包含するためにセマンティックな分類器を必要とするため、スケールしない。 一方で、多くの実世界の環境は、壁や地面のような平面の形で強い構造規則性を示しており、これも極めて静的である。 本稿では,これらの平面の簡易な形状を利用して,動的環境におけるロバスト性や精度を向上させる単眼視慣性オドメトリシステムrp-vioを提案する。 既存のデータセットは限られた動的要素を持つため、現代のVINSシステムの性能をより効果的に評価するための高ダイナミックで光リアルな合成データセットも提示する。 このデータセットに対するアプローチを評価し、実世界の2つの動的シーケンスを含む標準データセットからの3つの多様なシーケンスを評価し、最先端の単眼視覚慣性オドメトリーシステムよりもロバスト性と精度が著しく向上することを示した。 また,単純な動的特徴マスキングアプローチによる改善をシミュレーションで示す。 コードとデータセットは公開されています。

Modern visual-inertial navigation systems (VINS) are faced with a critical challenge in real-world deployment: they need to operate reliably and robustly in highly dynamic environments. Current best solutions merely filter dynamic objects as outliers based on the semantics of the object category. Such an approach does not scale as it requires semantic classifiers to encompass all possibly-moving object classes; this is hard to define, let alone deploy. On the other hand, many real-world environments exhibit strong structural regularities in the form of planes such as walls and ground surfaces, which are also crucially static. We present RP-VIO, a monocular visual-inertial odometry system that leverages the simple geometry of these planes for improved robustness and accuracy in challenging dynamic environments. Since existing datasets have a limited number of dynamic elements, we also present a highly-dynamic, photorealistic synthetic dataset for a more effective evaluation of the capabilities of modern VINS systems. We evaluate our approach on this dataset, and three diverse sequences from standard datasets including two real-world dynamic sequences and show a significant improvement in robustness and accuracy over a state-of-the-art monocular visual-inertial odometry system. We also show in simulation an improvement over a simple dynamic-features masking approach. Our code and dataset are publicly available.
翻訳日:2021-03-19 13:53:34 公開日:2021-03-18
# 知識蒸留を用いたヒューマンインスパイアされたマルチエージェントナビゲーション

Human-Inspired Multi-Agent Navigation using Knowledge Distillation ( http://arxiv.org/abs/2103.10000v1 )

ライセンス: Link先を確認
Pei Xu and Ioannis Karamouzas(参考訳) マルチエージェントナビゲーションの分野では大きな進歩があったが、エージェントは人間がマルチエージェント設定で示す高度な知識を欠いている。 本稿では,完全分散マルチエージェント環境におけるエージェント・エージェント間インタラクションのためのヒューマンライクな一般衝突回避ポリシーを学習するための枠組みを提案する。 提案手法では, 行動クローニングによる人間軌道実証から抽出した知識蒸留と強化学習を用いて報酬関数を形成する。 提案手法により訓練されたエージェントは,実験で提供されていない衝突回避や目標指向の操舵作業において,人間のような軌道を取ることができることを示す。

Despite significant advancements in the field of multi-agent navigation, agents still lack the sophistication and intelligence that humans exhibit in multi-agent settings. In this paper, we propose a framework for learning a human-like general collision avoidance policy for agent-agent interactions in fully decentralized, multi-agent environments. Our approach uses knowledge distillation with reinforcement learning to shape the reward function based on expert policies extracted from human trajectory demonstrations through behavior cloning. We show that agents trained with our approach can take human-like trajectories in collision avoidance and goal-directed steering tasks not provided by the demonstrations, outperforming the experts as well as learning-based agents trained without knowledge distillation.
翻訳日:2021-03-19 13:52:50 公開日:2021-03-18
# 自己適応型システムの意思決定における機械学習の適用効果について

On the Impact of Applying Machine Learning in the Decision-Making of Self-Adaptive Systems ( http://arxiv.org/abs/2103.10194v1 )

ライセンス: Link先を確認
Omid Gheibi, Danny Weyns, Federico Quin(参考訳) 近年,自己適応型システムにおける機械学習手法の利用が増加している。 機械学習メソッドは、ランタイムモデルを最新に保つ、大きな適応スペースを減らす、適応ルールを更新するなど、自己適応をサポートするさまざまなユースケースを提供する。 しかし、機械学習手法は本質的に統計的手法で適用されるため、自己適応システムによる決定に影響を及ぼす可能性がある。 自己適応型システムによる決定の保証を提供するための形式的アプローチが広範に採用されていることを踏まえ,そのような手法を用いた場合の機械学習手法の適用の影響を検討することが重要である。 本稿では,線形回帰を組み合わせることによって,自己適応システムの適応空間と統計的モデルチェックを削減し,結果の適応オプションを分析する。 計算機学習理論を用いて,検証者による予測に対する機械学習法の影響を理論的に決定する。 DeltaIoTアーティファクトのシナリオを用いて理論的結果を説明し,評価する。 結論として,本分野における今後の研究の機会を考察する。

Recently, we have been witnessing an increasing use of machine learning methods in self-adaptive systems. Machine learning methods offer a variety of use cases for supporting self-adaptation, e.g., to keep runtime models up to date, reduce large adaptation spaces, or update adaptation rules. Yet, since machine learning methods apply in essence statistical methods, they may have an impact on the decisions made by a self-adaptive system. Given the wide use of formal approaches to provide guarantees for the decisions made by self-adaptive systems, it is important to investigate the impact of applying machine learning methods when such approaches are used. In this paper, we study one particular instance that combines linear regression to reduce the adaptation space of a self-adaptive system with statistical model checking to analyze the resulting adaptation options. We use computational learning theory to determine a theoretical bound on the impact of the machine learning method on the predictions made by the verifier. We illustrate and evaluate the theoretical result using a scenario of the DeltaIoT artifact. To conclude, we look at opportunities for future research in this area.
翻訳日:2021-03-19 13:52:37 公開日:2021-03-18
# ソフトウェア欠陥予測研究におけるバイアス付き性能指標の使用の影響

The impact of using biased performance metrics on software defect prediction research ( http://arxiv.org/abs/2103.10201v1 )

ライセンス: Link先を確認
Jingxiu Yao and Martin Shepperd(参考訳) コンテキスト: ソフトウェア工学研究者は、ソフトウェア欠陥予測アルゴリズムの可能性について多くの実験を行った。 残念ながら、いくつかの広く使用されているパフォーマンス指標は問題であることが知られており、特にF1は広く使われている。 目的: この大規模研究の妥当性に対するf1の使用の潜在的影響を検討すること。 方法: 本研究は,F1と非バイアスマシューズ相関係数(MCC)を用いて, 関連実験の探索を行い, 欠陥予測性能の相互比較を行った。 結果: 初等的研究は38件であった。 12,471対の結果を含む。 これらのうち、MCCメートル法が偏りのあるF1メートル法の代わりに使われる場合、21.95%の方向が変化した。 残念ながら、F1がソフトウェア欠陥予測研究で広く使われていることを示す証拠も見つかった。 結論:我々は,f1 が情報検索コンテキスト以外で問題となる指標であるという統計学者の懸念を繰り返す。 この不適切な使用は、誤った(方向の)結果のかなりの数(5分の1以上)を導いた。 したがって、研究者は(i)偏りのない計量を使い、(ii)代替分析が可能となるような混乱行列を含む詳細な結果を公表するよう促す。

Context: Software engineering researchers have undertaken many experiments investigating the potential of software defect prediction algorithms. Unfortunately, some widely used performance metrics are known to be problematic, most notably F1, but nevertheless F1 is widely used. Objective: To investigate the potential impact of using F1 on the validity of this large body of research. Method: We undertook a systematic review to locate relevant experiments and then extract all pairwise comparisons of defect prediction performance using F1 and the un-biased Matthews correlation coefficient (MCC). Results: We found a total of 38 primary studies. These contain 12,471 pairs of results. Of these, 21.95% changed direction when the MCC metric is used instead of the biased F1 metric. Unfortunately, we also found evidence suggesting that F1 remains widely used in software defect prediction research. Conclusions: We reiterate the concerns of statisticians that the F1 is a problematic metric outside of an information retrieval context, since we are concerned about both classes (defect-prone and not defect-prone units). This inappropriate usage has led to a substantial number (more than one fifth) of erroneous (in terms of direction) results. Therefore we urge researchers to (i) use an unbiased metric and (ii) publish detailed results including confusion matrices such that alternative analyses become possible.
翻訳日:2021-03-19 13:52:22 公開日:2021-03-18
# 統合的意思決定と制御:解釈可能かつ効率的な運転知能を目指して

Integrated Decision and Control: Towards Interpretable and Efficient Driving Intelligence ( http://arxiv.org/abs/2103.10290v1 )

ライセンス: Link先を確認
Yang Guan, Yangang Ren, Shengbo Eben Li, Haitong Ma, Jingliang Duan, Bo Cheng(参考訳) 意思決定と制御は、高レベルの自動車両の中核機能である。 機能分解やエンドツーエンド強化学習(rl)のような現在の主流の手法は、リアルタイムの複雑な自動運転タスクにおいて、高い時間的複雑さや解釈の貧弱さ、安全性の制限に苦しめられている。 本稿では,運転タスクを階層的に構造化したマルチパス計画と最適追従に分解する,自動車両の解釈可能かつ効率的な意思決定・制御フレームワークを提案する。 まず、マルチパス計画では、静的制約のみを考慮して複数のパスを生成する。 そして、動的障害物を考慮した最適経路を追尾するように最適追尾を設計する。 そのため、理論上、各候補経路に対して制約付き最適制御問題(OCP)を定式化し、それらを個別に最適化し、従うべき最高の追跡性能を持つものを選択する。 さらに,モデルベース強化学習(rl)アルゴリズムを提案する。これは近似制約付きocpソルバとして機能し,オフライントレーニングとオンラインアプリケーションのパラダイムによって重い計算をアンロードする。 具体的には、全経路のOCPを協調してマルチタスクのRL問題を構築し、その後、リアルタイムオンラインパスの選択と追跡のために、我々のアルゴリズムでオフラインで値とポリシーネットワークに分解する。 我々はシミュレーションと現実世界の両方でフレームワークを検証する。 その結果,本手法は,ベースライン方式と比較して,トラヒック効率や安全性を含む運転性能が向上していることがわかった。 さらに、異なる運転タスク間で大きな解釈可能性と適応性が得られる。 実際の道路テストはまた、チューニングもせずに複雑な交通シナリオに適用できることを示唆している。

Decision and control are two of the core functionalities of high-level automated vehicles. Current mainstream methods, such as functionality decomposition or end-to-end reinforcement learning (RL), either suffer high time complexity or poor interpretability and limited safety performance in real-world complex autonomous driving tasks. In this paper, we present an interpretable and efficient decision and control framework for automated vehicles, which decomposes the driving task into multi-path planning and optimal tracking that are structured hierarchically. First, the multi-path planning is to generate several paths only considering static constraints. Then, the optimal tracking is designed to track the optimal path while considering the dynamic obstacles. To that end, in theory, we formulate a constrained optimal control problem (OCP) for each candidate path, optimize them separately and choose the one with the best tracking performance to follow. More importantly, we propose a model-based reinforcement learning (RL) algorithm, which is served as an approximate constrained OCP solver, to unload the heavy computation by the paradigm of offline training and online application. Specifically, the OCPs for all paths are considered together to construct a multi-task RL problem and then solved offline by our algorithm into value and policy networks, for real-time online path selecting and tracking respectively. We verify our framework in both simulation and the real world. Results show that our method has better online computing efficiency and driving performance including traffic efficiency and safety compared with baseline methods. In addition, it yields great interpretability and adaptability among different driving tasks. The real road test also suggests that it is applicable in complicated traffic scenarios without even tuning.
翻訳日:2021-03-19 13:51:18 公開日:2021-03-18
# ChronoR: 回転に基づく時間的知識グラフ埋め込み

ChronoR: Rotation Based Temporal Knowledge Graph Embedding ( http://arxiv.org/abs/2103.10379v1 )

ライセンス: Link先を確認
Ali Sadeghian, Mohammadreza Armandpour, Anthony Colas, Daisy Zhe Wang(参考訳) 時間的知識グラフの重要性と豊富さにもかかわらず、現在の研究のほとんどは静的グラフの推論に焦点が当てられている。 本稿では,時間的知識グラフに対する推論の問題について検討する。 特に、時間的リンク予測のタスク。 一般に、これはデータ非定常性、データ不均一性、および複雑な時間的依存関係のために難しいタスクである。 本稿では,エンティティ,関係,時刻の表現を学習するための新しいモデルであるChronoRを提案する。 密表現の学習は知識グラフの推論を行うための効率的で汎用的な方法としてよく用いられる。 提案モデルでは, 関係と時間によってパラメータ化されたk次元回転変換を学習し, 各事象の頭部実体が回転を用いて変換された後, 対応する尾実体の近傍に落下する。 高次元回転を変換演算子として使用することにより、クロノRは時間的知識グラフの時間的特性とマルチリレーショナル特性の間のリッチな相互作用をキャプチャする。 実験により,時系列知識グラフリンク予測のためのベンチマークデータセットにおいて,chronorは最先端手法の多くを上回ることができることを示した。

Despite the importance and abundance of temporal knowledge graphs, most of the current research has been focused on reasoning on static graphs. In this paper, we study the challenging problem of inference over temporal knowledge graphs. In particular, the task of temporal link prediction. In general, this is a difficult task due to data non-stationarity, data heterogeneity, and its complex temporal dependencies. We propose Chronological Rotation embedding (ChronoR), a novel model for learning representations for entities, relations, and time. Learning dense representations is frequently used as an efficient and versatile method to perform reasoning on knowledge graphs. The proposed model learns a k-dimensional rotation transformation parametrized by relation and time, such that after each fact's head entity is transformed using the rotation, it falls near its corresponding tail entity. By using high dimensional rotation as its transformation operator, ChronoR captures rich interaction between the temporal and multi-relational characteristics of a Temporal Knowledge Graph. Experimentally, we show that ChronoR is able to outperform many of the state-of-the-art methods on the benchmark datasets for temporal knowledge graph link prediction.
翻訳日:2021-03-19 13:50:52 公開日:2021-03-18
# スケール情報からの時系列学習

Learning Time Series from Scale Information ( http://arxiv.org/abs/2103.10026v1 )

ライセンス: Link先を確認
Yuan Yang and Jie Ding(参考訳) 得られたデータセットは通常、異なるデータ解像度/スケールで異なる振る舞いを示す。 各スケールのデータから個別に推測するのではなく、異なるスケールの時系列の集合としてデータを解釈することがより有益な場合が多い。 これは自然にスケールベース推論と呼ばれる新しい概念を提案する動機となった。 基本的な考え方は、時系列のスケール情報を利用してより正確な予測ができるということである。 まず1つの時系列に最適に選ばれた$k$-nearest近傍に基づくノンパラメトリック予測器を提案する。 そこで本研究では,時系列データの解像度・サンプリング率という,特定のが重要なスケール情報に焦点をあてる。 次に,過去のデータを様々な解像度で逐次予測するアルゴリズムを提案する。 漸近的にアルゴリズムは、最適に選択されたパラメータの下で、任意の単一の解像度で最良のアルゴリズムよりも大きい平均予測誤差を生じることを証明している。 最後に、スケール推論の一般的な定式化を確立し、さらなるモチベーションの例を示す。 合成データと実データの両方の実験は、幅広い時系列モデルに対する我々のアプローチの適用可能性を示している。

Sequentially obtained dataset usually exhibits different behavior at different data resolutions/scales. Instead of inferring from data at each scale individually, it is often more informative to interpret the data as an ensemble of time series from different scales. This naturally motivated us to propose a new concept referred to as the scale-based inference. The basic idea is that more accurate prediction can be made by exploiting scale information of a time series. We first propose a nonparametric predictor based on $k$-nearest neighbors with an optimally chosen $k$ for a single time series. Based on that, we focus on a specific but important type of scale information, the resolution/sampling rate of time series data. We then propose an algorithm to sequentially predict time series using past data at various resolutions. We prove that asymptotically the algorithm produces the mean prediction error that is no larger than the best possible algorithm at any single resolution, under some optimally chosen parameters. Finally, we establish the general formulations for scale inference, and provide further motivating examples. Experiments on both synthetic and real data illustrate the potential applicability of our approaches to a wide range of time series models.
翻訳日:2021-03-19 13:50:36 公開日:2021-03-18
# TSTNN:時間領域における音声強調のための2段階変換器ベースニューラルネットワーク

TSTNN: Two-stage Transformer based Neural Network for Speech Enhancement in the Time Domain ( http://arxiv.org/abs/2103.09963v1 )

ライセンス: Link先を確認
Kai Wang, Bengbeng He, Wei-Ping Zhu(参考訳) 本稿では,tstnn(two-stage transformer neural network)と呼ばれる,時間領域における音声のエンドツーエンド化を実現するトランスフォーマーアーキテクチャを提案する。 提案モデルは,エンコーダ,2段変圧器モジュール(TSTM),マスキングモジュール,デコーダから構成される。 エンコーダは入力ノイズ音声を特徴表現にマッピングする。 TSTMは、エンコーダ出力ステージからローカルおよびグローバル情報を効率よく抽出するために、4つの積み重ね2段変圧器ブロックを利用する。 マスクモジュールは、エンコーダ出力と乗算されるマスクを生成する。 最後に、デコーダはマスクエンコーダ機能を使用して拡張音声を再構築する。 ベンチマークデータセットによる実験結果から、TSTNNは、時間や周波数領域におけるほとんどの最先端モデルより優れ、モデルの複雑さは著しく低いことがわかった。

In this paper, we propose a transformer-based architecture, called two-stage transformer neural network (TSTNN) for end-to-end speech denoising in the time domain. The proposed model is composed of an encoder, a two-stage transformer module (TSTM), a masking module and a decoder. The encoder maps input noisy speech into feature representation. The TSTM exploits four stacked two-stage transformer blocks to efficiently extract local and global information from the encoder output stage by stage. The masking module creates a mask which will be multiplied with the encoder output. Finally, the decoder uses the masked encoder feature to reconstruct the enhanced speech. Experimental results on the benchmark dataset show that the TSTNN outperforms most state-of-the-art models in time or frequency domain while having significantly lower model complexity.
翻訳日:2021-03-19 13:50:21 公開日:2021-03-18
# ガウス過程を用いたデータ駆動無線通信

Data-Driven Wireless Communication Using Gaussian Processes ( http://arxiv.org/abs/2103.10134v1 )

ライセンス: Link先を確認
Kai Chen, Qinglei Kong, Yijue Dai, Yue Xu, Feng Yin, Lexi Xu, and Shuguang Cui(参考訳) データ駆動パラダイムは、将来の無線通信においてよく知られ、有意義な要求である。 ビッグデータと機械学習を活用して、次世代のデータ駆動型通信システムは、表現性、スケーラビリティ、解釈可能性、そして特に不確実性モデリングの特徴を持つインテリジェントなものになる。 本稿では,非パラメトリックなベイズ機械学習手法,すなわちガウス過程(GP)とその不確実性を考慮した解釈可能な学習能力による無線通信への応用についてレビューし,提示する。 具体的には、GPを用いたデータ駆動無線通信の3段階のモチベーションを最初に想定する。 そして、共分散構造とモデル推論の観点からGPモデルの背景を提供する。 GPモデルの表現性は、静的、非定常、ディープ、マルチタスクカーネルなど、様々な解釈可能なカーネル設計を用いて導入される。 さらに,分散エッジデバイスを多数有する無線ネットワークへの適用に適した拡張性を備えた分散GPについて検討する。 最後に、無線通信システムにGPを採用するための代表的ソリューションと有望な技術を提供する。

Data-driven paradigms are well-known and salient demands of future wireless communication. Empowered by big data and machine learning, next-generation data-driven communication systems will be intelligent with the characteristics of expressiveness, scalability, interpretability, and especially uncertainty modeling, which can confidently involve diversified latent demands and personalized services in the foreseeable future. In this paper, we review and present a promising family of nonparametric Bayesian machine learning methods, i.e., Gaussian processes (GPs), and their applications in wireless communication due to their interpretable learning ability with uncertainty. Specifically, we first envision three-level motivations of data-driven wireless communication using GPs. Then, we provide the background of the GP model in terms of covariance structure and model inference. The expressiveness of the GP model is introduced by using various interpretable kernel designs, namely, stationary, non-stationary, deep, and multi-task kernels. Furthermore, we review the distributed GP with promising scalability, which is suitable for applications in wireless networks with a large number of distributed edge devices. Finally, we provide representative solutions and promising techniques that adopting GPs in wireless communication systems.
翻訳日:2021-03-19 13:50:07 公開日:2021-03-18
# 生体音響信号認識のための識別特異スペクトル分類器

Discriminative Singular Spectrum Classifier with Applications on Bioacoustic Signal Recognition ( http://arxiv.org/abs/2103.10166v1 )

ライセンス: Link先を確認
Bernardo B. Gatto, Juan G. Colonna, Eulanda M. dos Santos, Alessandro L. Koerich, Kazuhiro Fukui(参考訳) 生体音響信号の自動解析は、我々の惑星の活力を評価する基本的なツールである。 例えば、フグやハチは環境変化に関する情報を提供する生物学的センサーのように振る舞う。 このタスクは環境モニタリングの基本であり、不均一な信号長処理、環境騒音によるターゲット信号の劣化、機械学習のトレーニングのためのラベル付きサンプルの不足など、多くの課題をまだ抱えている。 そこで本研究では, 分析・分類に有用な特徴を効率的に抽出するための識別機構を備えたバイオ音響信号分類器を提案する。 提案する分類器は、大量のトレーニングデータを必要としず、非一様信号長をネイティブに処理する。 タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をSSA(Singular Spectrum Analysis)を適用したベクトル部分空間に変換することに依存する。 次に、サブスペースは、識別的特徴を露出するように設計される。 提案モデルは、現代の機械学習システムで望ましいエンドツーエンド機能を共有する。 本発明は、生体音響信号の表現と分類のためのセグメンテーションフリーでノイズ耐性なアプローチと、ssaから受け継いだ高度にコンパクトな信号記述子を提供する。 提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。 3つのバイオ音響データセットによる実験結果から, 生体音響信号の高精度分類法と比較して, 提案手法の競合性能が示された。

Automatic analysis of bioacoustic signals is a fundamental tool to evaluate the vitality of our planet. Frogs and bees, for instance, may act like biological sensors providing information about environmental changes. This task is fundamental for ecological monitoring still includes many challenges such as nonuniform signal length processing, degraded target signal due to environmental noise, and the scarcity of the labeled samples for training machine learning. To tackle these challenges, we present a bioacoustic signal classifier equipped with a discriminative mechanism to extract useful features for analysis and classification efficiently. The proposed classifier does not require a large amount of training data and handles nonuniform signal length natively. Unlike current bioacoustic recognition methods, which are task-oriented, the proposed model relies on transforming the input signals into vector subspaces generated by applying Singular Spectrum Analysis (SSA). Then, a subspace is designed to expose discriminative features. The proposed model shares end-to-end capabilities, which is desirable in modern machine learning systems. This formulation provides a segmentation-free and noise-tolerant approach to represent and classify bioacoustic signals and a highly compact signal descriptor inherited from SSA. The validity of the proposed method is verified using three challenging bioacoustic datasets containing anuran, bee, and mosquito species. Experimental results on three bioacoustic datasets have shown the competitive performance of the proposed method compared to commonly employed methods for bioacoustics signal classification in terms of accuracy.
翻訳日:2021-03-19 13:49:50 公開日:2021-03-18
# 神経テンソルの収縮とディープニューラル量子状態の表現力

Neural tensor contractions and the expressive power of deep neural quantum states ( http://arxiv.org/abs/2103.10293v1 )

ライセンス: Link先を確認
Or Sharir, Amnon Shashua and Giuseppe Carleo(参考訳) 一般的なテンソルネットワークとディープフィードフォワード人工ニューラルネットワークとの直接接続を確立する。 この結果の核心は、テンソル収縮を効率的に行うニューラルネットワーク層の構築であり、一般的な非線形活性化関数を用いている。 結果として生じるディープネットワークは、近似されるテンソルネットワークの収縮複雑性と密接に一致する多くのエッジを備えている。 この結果は、多体量子状態の文脈において、ニューラルネットワーク状態が実際に使用可能な変分テンソルネットワークよりも厳密に同じまたは高い表現力を持つことを示す。 例えば、全ての行列積状態は、結合次元における多くの辺多項式と系サイズにおける深さ対数を持つニューラルネットワーク状態として効率的に書けることを示す。 逆は真ではなく、我々の結果は、行列積状態や実際使用可能なPEPSで効率的に表現できない量子状態が存在するが、代わりにニューラルネットワーク状態で効率よく表現できる量子状態が存在することを示唆している。

We establish a direct connection between general tensor networks and deep feed-forward artificial neural networks. The core of our results is the construction of neural-network layers that efficiently perform tensor contractions, and that use commonly adopted non-linear activation functions. The resulting deep networks feature a number of edges that closely matches the contraction complexity of the tensor networks to be approximated. In the context of many-body quantum states, this result establishes that neural-network states have strictly the same or higher expressive power than practically usable variational tensor networks. As an example, we show that all matrix product states can be efficiently written as neural-network states with a number of edges polynomial in the bond dimension and depth logarithmic in the system size. The opposite instead does not hold true, and our results imply that there exist quantum states that are not efficiently expressible in terms of matrix product states or practically usable PEPS, but that are instead efficiently expressible with neural network states.
翻訳日:2021-03-19 13:49:27 公開日:2021-03-18
# 分岐・境界におけるスケジュールヒューリスティックスへの学習

Learning to Schedule Heuristics in Branch-and-Bound ( http://arxiv.org/abs/2103.10294v1 )

ライセンス: Link先を確認
Antonia Chmiela, Elias B. Khalil, Ambros Gleixner, Andrea Lodi, Sebastian Pokutta(参考訳) 主ヒューリスティックは混合整数プログラミング(mip)の完全解法において重要な役割を果たす。 解決者は十分な時間があれば最適な解を見つけることが保証されるが、現実世界のアプリケーションは通常、迅速な意思決定を可能にするために探索の早い段階で良い解を見つける必要がある。 MIP研究の多くは効果的なヒューリスティックスの設計に重点を置いているが、解法における複数のMIPヒューリスティックスをどのように管理するかという問題は、等しく注目されていない。 一般に、解法は幅広いインスタンスに対する経験的テストから導かれるハードコードルールに従う。 ヒューリスティックスのパフォーマンスはインスタンスに依存しているため、特定の問題に対してこれらの一般的なルールを使用することで、最高のパフォーマンスを得ることはできない。 本研究では,正確なMIP解法におけるヒューリスティックススケジューリングのための,最初のデータ駆動型フレームワークを提案する。 主ヒューリスティックスの性能を記述するデータから学習することにより、最小コストで多くの解を集合的に見つけるヒューリスティックスの問題固有のスケジュールを得る。 この問題を形式的に記述し、そのようなスケジュールを計算するための効率的なアルゴリズムを提案する。 最先端の学術的MIPソルバのデフォルト設定と比較して、挑戦的なインスタンスのクラスでは、平均原始積分を最大49%削減できる。

Primal heuristics play a crucial role in exact solvers for Mixed Integer Programming (MIP). While solvers are guaranteed to find optimal solutions given sufficient time, real-world applications typically require finding good solutions early on in the search to enable fast decision-making. While much of MIP research focuses on designing effective heuristics, the question of how to manage multiple MIP heuristics in a solver has not received equal attention. Generally, solvers follow hard-coded rules derived from empirical testing on broad sets of instances. Since the performance of heuristics is instance-dependent, using these general rules for a particular problem might not yield the best performance. In this work, we propose the first data-driven framework for scheduling heuristics in an exact MIP solver. By learning from data describing the performance of primal heuristics, we obtain a problem-specific schedule of heuristics that collectively find many solutions at minimal cost. We provide a formal description of the problem and propose an efficient algorithm for computing such a schedule. Compared to the default settings of a state-of-the-art academic MIP solver, we are able to reduce the average primal integral by up to 49% on a class of challenging instances.
翻訳日:2021-03-19 13:49:10 公開日:2021-03-18
# (参考訳) pytorchを用いた1次元アドベクション方程式の物理インフォームドニューラルネットワーク法 [全文訳有]

Physics-Informed Neural Network Method for Solving One-Dimensional Advection Equation Using PyTorch ( http://arxiv.org/abs/2103.09662v2 )

ライセンス: CC BY 4.0
S.R. Vadyala, S.N. Betgeri(参考訳) 対流方程式の数値解は、解析解を許容する条件下で、異なる有限差分近似と物理情報ニューラルネットワーク(PINN)を用いて決定される。 それらの精度を解析解と比較することにより検証する。 PyTorchのような機械学習フレームワークを使ってPINNを実装しました。 PINNのアプローチでは、PDEを損失関数の一部とする最適化の強い制約として尊重しながら、ニューラルネットワークをトレーニングすることができる。 標準の小規模循環シミュレーションでは, 乱流拡散モデルの影響とほぼ同程度の大きさの擬似拡散効果が組み込まれており, 数値解はpdesと一致しないことがわかった。 この振動は不正確さと計算の不確実性を引き起こす。 テストされた全てのスキームのうち、ピンズ近似のみが結果を正確に予測した。 PINNのアプローチは,大規模スーパーコンピュータ上でのコストと時間を要するシミュレーションを伴わずに,実時間物理シミュレーションと幾何最適化を可能とし,物理シミュレーション領域を変換できると仮定する。

Numerical solutions to the equation for advection are determined using different finite-difference approximations and physics-informed neural networks (PINNs) under conditions that allow an analytical solution. Their accuracy is examined by comparing them to the analytical solution. We used a machine learning framework like PyTorch to implement PINNs. PINNs approach allows training neural networks while respecting the PDEs as a strong constraint in the optimization as apposed to making them part of the loss function. In standard small-scale circulation simulations, it is shown that the conventional approach incorporates a pseudo diffusive effect that is almost as large as the effect of the turbulent diffusion model; hence the numerical solution is rendered inconsistent with the PDEs. This oscillation causes inaccuracy and computational uncertainty. Of all the schemes tested, only the PINNs approximation accurately predicted the outcome. We assume that the PINNs approach can transform the physics simulation area by allowing real-time physics simulation and geometry optimization without costly and time-consuming simulations on large supercomputers.
翻訳日:2021-03-19 12:47:01 公開日:2021-03-18
# (参考訳) グラフ畳み込みネットワークを用いた共同情報抽出のためのクロスタスクインスタンス表現相互作用とラベル依存性 [全文訳有]

Cross-Task Instance Representation Interactions and Label Dependencies for Joint Information Extraction with Graph Convolutional Networks ( http://arxiv.org/abs/2103.09330v2 )

ライセンス: CC BY-SA 4.0
Minh Van Nguyen, Viet Dac Lai and Thien Huu Nguyen(参考訳) 情報抽出(ie)に関する既存の研究は、主に4つの主要なタスク(エンティティ参照認識、関係抽出、イベントトリガー検出、引数抽出)を個別に解決しており、タスク間の相互依存性の恩恵を受けていない。 本稿では,1つのモデル(FourIE)でIEの4つのタスクを同時に解くための新しいディープラーニングモデルを提案する。 4つのIEタスクを共同実行する以前の作業と比べて、FourIEはタスク間の依存関係をキャプチャする2つの新しいコントリビューションを備えている。 まず、表現レベルでは、4つのタスクのインスタンス間の相互作用グラフを導入し、1つのタスクの予測表現と、他のタスクの関連インスタンスとの相互作用グラフを導入する。 第2に、ラベルレベルにおいて、入力文で表現された型間の接続をキャプチャする4つのIEタスクにおける情報型に対する依存性グラフを提案する。 黄金型依存グラフと予測型依存グラフの一貫性を強制し、表現学習を改善するために、新しい正規化機構が導入された。 提案モデルは,3つの異なる言語を用いた単言語学習と多言語学習の両方において,ieの最先端性能を実現する。

Existing works on information extraction (IE) have mainly solved the four main tasks separately (entity mention recognition, relation extraction, event trigger detection, and argument extraction), thus failing to benefit from inter-dependencies between tasks. This paper presents a novel deep learning model to simultaneously solve the four tasks of IE in a single model (called FourIE). Compared to few prior work on jointly performing four IE tasks, FourIE features two novel contributions to capture inter-dependencies between tasks. First, at the representation level, we introduce an interaction graph between instances of the four tasks that is used to enrich the prediction representation for one instance with those from related instances of other tasks. Second, at the label level, we propose a dependency graph for the information types in the four IE tasks that captures the connections between the types expressed in an input sentence. A new regularization mechanism is introduced to enforce the consistency between the golden and predicted type dependency graphs to improve representation learning. We show that the proposed model achieves the state-of-the-art performance for joint IE on both monolingual and multilingual learning settings with three different languages.
翻訳日:2021-03-19 12:35:52 公開日:2021-03-18
# (参考訳) 物体検出における損失重量調整の再検討 [全文訳有]

Revisiting the Loss Weight Adjustment in Object Detection ( http://arxiv.org/abs/2103.09488v2 )

ライセンス: CC BY 4.0
Wenxin Yu, Bin Hu, Yucheng Hu, Tianxiang Lan, Yuanfan You, Dong Yin(参考訳) 定義上、オブジェクト検出は分類と回帰タスクを同時に解決するためにマルチタスクの損失を必要とする。 しかし、損失重量は実際に手動で設定される傾向がある。 したがって、これまで研究されていない非常に実践的な問題は、現在の損失関数に適合する損失重みを素早く見つける方法である。 さらに、異なる回帰損失関数を選択する場合、損失の重みを調整する必要があるかどうか、もしそうであれば、どのように調整すべきかが課題となる。 本稿では,予測ボックスシフトに関する実験と理論的解析を通じて,(1)回帰損失曲線が回帰損失曲線よりも早く減衰する,(2)損失重量が1未満である、(3)分類と回帰損失重量の差が大きすぎるべきではない、という3つの重要な結論を見出す。 そこで, 上記の結論に基づいて, 損失値の統計的特性に応じて, トレーニング過程における損失重みを動的に調整することにより, 上記の2つの問題を解決する適応的損失重み調整(ALWA)を提案する。 ALWAを1段および2段のオブジェクト検出器に組み込むことで,L1,SmoothL1,CIoU損失,PASCALVOC,MS COCOなどの一般的なオブジェクト検出ベンチマークの性能評価などを用いて,それらの性能を一貫した改善を示す。 コードはhttps://github.com/y wx-hub/ALWAで公開されている。

By definition, object detection requires a multi-task loss in order to solve classification and regression tasks simultaneously. However, loss weight tends to be set manually in actuality. Therefore, a very practical problem that has not been studied so far arises: how to quickly find the loss weight that fits the current loss functions. In addition, when we choose different regression loss functions, whether the loss weight need to be adjusted and if so, how should it be adjusted still is a problem demanding prompt solution. In this paper, through experiments and theoretical analysis of prediction box shifting, we firstly find out three important conclusions about optimal loss weight allocation strategy, including (1) the classification loss curve decays faster than regression loss curve; (2) loss weight is less than 1; (3) the gap between classification and regression loss weight should not be too large. Then, based on the above conclusions, we propose an Adaptive Loss Weight Adjustment(ALWA) to solve the above two problems by dynamically adjusting the loss weight in the training process, according to statistical characteristics of loss values. By incorporating ALWA into both one-stage and two-stage object detectors, we show a consistent improvement on their performance using L1, SmoothL1 and CIoU loss, performance measures on popular object detection benchmarks including PASCAL VOC and MS COCO. The code is available at https://github.com/y wx-hub/ALWA.
翻訳日:2021-03-19 12:11:28 公開日:2021-03-18
# (参考訳) PredRNN:時空間予測学習のためのリカレントニューラルネットワーク [全文訳有]

PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2103.09504v2 )

ライセンス: CC BY 4.0
Yunbo Wang, Haixu Wu, Jianjin Zhang, Zhifeng Gao, Jianmin Wang, Philip S. Yu, Mingsheng Long(参考訳) 時空間列の予測学習は、歴史的文脈から学習することで将来の画像を生成することを目的としており、視覚力学は構成サブシステムで学習できるモジュラー構造を持つと考えられている。 本稿では,2つのメモリセルを明示的に分離し,ほぼ独立な遷移方式で動作し,最終的に複雑な環境の統一表現を形成する,新しいリカレントネットワークであるPredRNNを提示することによって,これらの構造をモデル化する。 具体的には、LSTMの元々のメモリセルに加えて、このネットワークは、すべての層にわたってボトムアップ方向とトップダウン方向の両方を伝播するジグザグメモリフローによって特徴付けられる。 また、メモリ分離損失を利用して、メモリセルが冗長な機能を学ぶのを防ぐ。 予測学習シナリオにおいて、ほとんどのシーケンス間RNNに一般化できる新しいカリキュラム学習戦略により、PredRNNをさらに改善する。 各成分の有効性を検証するため,詳細なアブレーション研究,勾配解析,可視化を行う。 提案手法は, 人工移動MNISTデータセット, KTH人行動データセット, 降水予測のためのレーダエコーデータセットの3つの標準データセットに対して, 高い競合性が得られることを示す。

The predictive learning of spatiotemporal sequences aims to generate future images by learning from the historical context, where the visual dynamics are believed to have modular structures that can be learned with compositional subsystems. This paper models these structures by presenting PredRNN, a new recurrent network, in which a pair of memory cells are explicitly decoupled, operate in nearly independent transition manners, and finally form unified representations of the complex environment. Concretely, besides the original memory cell of LSTM, this network is featured by a zigzag memory flow that propagates in both bottom-up and top-down directions across all layers, enabling the learned visual dynamics at different levels of RNNs to communicate. It also leverages a memory decoupling loss to keep the memory cells from learning redundant features. We further improve PredRNN with a new curriculum learning strategy, which can be generalized to most sequence-to-sequence RNNs in predictive learning scenarios. We provide detailed ablation studies, gradient analyses, and visualizations to verify the effectiveness of each component. We show that our approach obtains highly competitive results on three standard datasets: the synthetic Moving MNIST dataset, the KTH human action dataset, and a radar echo dataset for precipitation forecasting.
翻訳日:2021-03-19 11:54:09 公開日:2021-03-18
# 視覚言語モデルのゼロショット言語間伝達のための多言語マルチモーダル事前学習

Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models ( http://arxiv.org/abs/2103.08849v2 )

ライセンス: Link先を確認
Po-Yao Huang, Mandela Patrick, Junjie Hu, Graham Neubig, Florian Metze and Alexander Hauptmann(参考訳) 本稿では,視覚言語モデルのゼロショット言語間伝達について検討する。 具体的には,多言語間テキスト対ビデオ検索に着目し,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。 ゼロショット設定では,非英語文で多言語テキストビデオモデルに問い合わせると,性能が著しく低下することを示す。 この問題に対処するために,多言語マルチモーダル事前学習戦略を導入し,事前学習のための新しい多言語指導ビデオデータセット(multihowto100m)を収集する。 VTT実験により,アノテーションを付加せずに非英語での動画検索が大幅に改善された。 さらに,多言語アノテーションが利用可能であれば,vtt と vatex の多言語テキスト対ビデオ検索や multi30k の多言語テキスト対画像検索において,最近のベースラインを大きく上回っている。 私たちのモデルとMulti-HowTo100Mはhttp://github.com/be rniebear/Multi-HT100 Mで利用可能です。

This paper studies zero-shot cross-lingual transfer of vision-language models. Specifically, we focus on multilingual text-to-video search and propose a Transformer-based model that learns contextualized multilingual multimodal embeddings. Under a zero-shot setting, we empirically demonstrate that performance degrades significantly when we query the multilingual text-video model with non-English sentences. To address this problem, we introduce a multilingual multimodal pre-training strategy, and collect a new multilingual instructional video dataset (MultiHowTo100M) for pre-training. Experiments on VTT show that our method significantly improves video search in non-English languages without additional annotations. Furthermore, when multilingual annotations are available, our method outperforms recent baselines by a large margin in multilingual text-to-video search on VTT and VATEX; as well as in multilingual text-to-image search on Multi30K. Our model and Multi-HowTo100M is available at http://github.com/be rniebear/Multi-HT100 M.
翻訳日:2021-03-19 10:38:37 公開日:2021-03-18
# ブロックワイズ抽象構文木分割によるコード要約の改善

Improving Code Summarization with Block-wise Abstract Syntax Tree Splitting ( http://arxiv.org/abs/2103.07845v2 )

ライセンス: Link先を確認
Chen Lin, Zhichao Ouyang, Junqing Zhuang, Jianqiang Chen, Hui Li, Rongxin Wu(参考訳) 自動コード要約は、ソフトウェア開発者が手作業によるコメントの重い負担から解放し、ソフトウェア開発とメンテナンスに恩恵を与える。 ソースコードの構文構造を表現した抽象構文木(AST)がコード要約の生成をガイドするために組み込まれている。 しかし、既存のASTベースのメソッドは、トレーニングの難しさに悩まされ、不十分なコード要約を生成する。 本稿では,astsのリッチなツリー形式構文構造を十分に活用し,コード要約を改善するブロックワイズ抽象構文木分割法(略してbasts)を提案する。 BASTSは、コントロールフローグラフのドミネータツリーのブロックに基づいてメソッドのコードを分割し、各コード分割に対して分割ASTを生成する。 各分割ASTは、事前トレーニング戦略を使用してTree-LSTMによってモデル化され、ローカルな非線形構文エンコーディングをキャプチャする。 学習された構文エンコーディングは、コードエンコーディングと組み合わせられ、トランスフォーマティブに供給され、高品質のコードサマリーを生成する。 ベンチマークに関する総合的な実験は、BASTSが様々な評価指標で最先端のアプローチを著しく上回ることを示した。 再現性を容易にするため、実装はhttps://github.com/x mudm/bastsで利用可能です。

Automatic code summarization frees software developers from the heavy burden of manual commenting and benefits software development and maintenance. Abstract Syntax Tree (AST), which depicts the source code's syntactic structure, has been incorporated to guide the generation of code summaries. However, existing AST based methods suffer from the difficulty of training and generate inadequate code summaries. In this paper, we present the Block-wise Abstract Syntax Tree Splitting method (BASTS for short), which fully utilizes the rich tree-form syntax structure in ASTs, for improving code summarization. BASTS splits the code of a method based on the blocks in the dominator tree of the Control Flow Graph, and generates a split AST for each code split. Each split AST is then modeled by a Tree-LSTM using a pre-training strategy to capture local non-linear syntax encoding. The learned syntax encoding is combined with code encoding, and fed into Transformer to generate high-quality code summaries. Comprehensive experiments on benchmarks have demonstrated that BASTS significantly outperforms state-of-the-art approaches in terms of various evaluation metrics. To facilitate reproducibility, our implementation is available at https://github.com/X MUDM/BASTS.
翻訳日:2021-03-19 10:38:18 公開日:2021-03-18
# PC-HMR:2次元画像/ビデオからの3次元メッシュ復元のためのポスキャリブレーション

PC-HMR: Pose Calibration for 3D Human Mesh Recovery from 2D Images/Videos ( http://arxiv.org/abs/2103.09009v2 )

ライセンス: Link先を確認
Tianyu Luan, Yali Wang, Junhao Zhang, Zhe Wang, Zhipeng Zhou, Yu Qiao(参考訳) エンド・ツー・エンドのHuman Mesh Recovery (HMR) アプローチは3次元体再構築に成功している。 しかし、ほとんどのhmrベースのフレームワークは、画像やビデオからメッシュパラメータを直接学習することで人体を再構築し、視覚データにおける3d人間のポーズの明確なガイダンスを欠いている。 その結果、生成されたメッシュはしばしば、複雑なアクティビティの誤ったポーズを示す。 この問題に対処するために,人間のメッシュのキャリブレーションに3Dポーズを活用することを提案する。 具体的には,新しいポーズキャリブレーションフレームワークであるserial pc-hmrとparallel pc-hmrを開発した。 高度な3Dポーズ推定器とHMRを連続的または並列的に結合することにより、これらの2つのフレームワークは、簡潔なポーズキャリブレーションモジュールのガイダンスにより、人間のメッシュを効果的に補正することができる。 さらに, キャリブレーションモジュールは非剛性ポーズ変換により設計されているため, PC-HMRフレームワークは骨長の変動に柔軟に対応することができ, キャリブレーションメッシュのずれを軽減できる。 最後に、我々のフレームワークは、データ駆動学習と幾何学的モデリングの汎用的で補完的な統合に基づいている。 プラグアンドプレイモジュールを使用すると、イメージ/ビデオベースのヒューマンメッシュリカバリに効率よく適応できる。 さらに、テストフェーズで追加の3dポーズアノテーションを必要とせず、実際に推論の困難を発生させる。 我々は一般的なベンチマーク(Human3.6M, 3DPW, SURREAL)について広範な実験を行い、PC-HMRフレームワークがSOTA結果を達成する。

The end-to-end Human Mesh Recovery (HMR) approach has been successfully used for 3D body reconstruction. However, most HMR-based frameworks reconstruct human body by directly learning mesh parameters from images or videos, while lacking explicit guidance of 3D human pose in visual data. As a result, the generated mesh often exhibits incorrect pose for complex activities. To tackle this problem, we propose to exploit 3D pose to calibrate human mesh. Specifically, we develop two novel Pose Calibration frameworks, i.e., Serial PC-HMR and Parallel PC-HMR. By coupling advanced 3D pose estimators and HMR in a serial or parallel manner, these two frameworks can effectively correct human mesh with guidance of a concise pose calibration module. Furthermore, since the calibration module is designed via non-rigid pose transformation, our PC-HMR frameworks can flexibly tackle bone length variations to alleviate misplacement in the calibrated mesh. Finally, our frameworks are based on generic and complementary integration of data-driven learning and geometrical modeling. Via plug-and-play modules, they can be efficiently adapted for both image/video-based human mesh recovery. Additionally, they have no requirement of extra 3D pose annotations in the testing phase, which releases inference difficulties in practice. We perform extensive experiments on the popular bench-marks, i.e., Human3.6M, 3DPW and SURREAL, where our PC-HMR frameworks achieve the SOTA results.
翻訳日:2021-03-19 10:37:58 公開日:2021-03-18
# 映像に基づく人物再識別のためのディエンスインタラクション学習

Dense Interaction Learning for Video-based Person Re-identification ( http://arxiv.org/abs/2103.09013v2 )

ライセンス: Link先を確認
Tianyu He, Xin Jin, Xu Shen, Jianqiang Huang, Zhibo Chen, Xian-Sheng Hua(参考訳) ビデオベースの人物再識別(re-ID)は、同じ人物をビデオクリップ間でマッチングすることを目的としている。 構造的相互作用を構築しながら、マルチスケールのきめ細かい特徴を効果的に活用することが、その成功の鍵となる。 本稿では,cnnベースと注意ベースの両方のアーキテクチャの利点を生かして,ビデオベースの人物再特定問題に取り組むためのハイブリッドフレームワークであるdenseilを提案する。 DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。 CNNエンコーダは識別空間の特徴を効率的に抽出し、DIデコーダはフレーム間の空間的時間的相互作用を密にモデル化するように設計されている。 従来と異なり、DIデコーダは中間の細粒度CNN特徴に密に対応させ、ビデオクリップ毎に自然に多粒度空間時間表現を与える。 さらに、時空間入力の位置関係を調べるために、DIデコーダにSTEP-Emb(Spatio-TEmp oral Positional Embedding)を導入する。 我々の実験は、複数の標準ビデオベースのre-IDデータセットにおける最先端の手法を一貫して大幅に上回っている。

Video-based person re-identification (re-ID) aims at matching the same person across video clips. Efficiently exploiting multi-scale fine-grained features while building the structural interaction among them is pivotal for its success. In this paper, we propose a hybrid framework, Dense Interaction Learning (DenseIL), that takes the principal advantages of both CNN-based and Attention-based architectures to tackle video-based person re-ID difficulties. DenseIL contains a CNN encoder and a Dense Interaction (DI) decoder. The CNN encoder is responsible for efficiently extracting discriminative spatial features while the DI decoder is designed to densely model spatial-temporal inherent interaction across frames. Different from previous works, we additionally let the DI decoder densely attends to intermediate fine-grained CNN features and that naturally yields multi-grained spatial-temporal representation for each video clip. Moreover, we introduce Spatio-TEmporal Positional Embedding (STEP-Emb) into the DI decoder to investigate the positional relation among the spatial-temporal inputs. Our experiments consistently and significantly outperform all the state-of-the-art methods on multiple standard video-based re-ID datasets.
翻訳日:2021-03-19 10:37:33 公開日:2021-03-18
# メタン/空気燃焼の速度論的モデル学習に向けて

Toward Machine Learned Highly Reduce Kinetic Models For Methane/Air Combustion ( http://arxiv.org/abs/2103.08377v2 )

ライセンス: Link先を確認
Mark Kelly, Gilles Bourque, Stephen Dooley(参考訳) メタンの正確な低次元化学動力学モデルは、効率的なガスタービン燃焼器の設計に欠かせない要素である。 計算流体力学(CFD)に結合された運動モデルは、物理実験と比較して、運転条件、燃料組成、燃焼器設計の影響を迅速かつ効率的にテストする方法を提供する。 しかし、詳細な化学動力学モデルはCFDでの使用には計算コストがかかりすぎる。 対象とする詳細なモデル特性を高い忠実度で再現するコンパクトモデルを作成するための,新しいデータ指向三段階法を提案する。 第1段階では、パスフラックス解析(PFA)を用いて、118種を含む詳細なモデルからすべての非必須種を除去し、還元速度論的モデルを得る。 まず、選択された種(OH,H,CO,CH4)のプロファイルを完全にかき混ぜた反応器(PSR)シミュレーションで再現し、その後、詳細なモデルによる層火炎速度の予測に再最適化する。 これは、化学動力学(mlock)アルゴリズムの故意に開発した機械学習最適化によって実装されている。 MLOCKアルゴリズムは、選択された反応に対する3つのアレニウスパラメータを体系的に摂動させ、最適化対象のコンパクトモデルの計算における誤差を定量化する客観的な誤差関数を通じて新しいパラメータの適合性を評価する。 この戦略は、メタン/空気燃焼のための19種と15種のコンパクトモデルによって実証される。 どちらのコンパクトモデルも、リーンとリッチの両方の条件で0dと1dの計算範囲で検証され、親の詳細なメカニズムに良い一致を示します。 15種モデルは、現在の最先端モデルよりも精度とモデルが有効な条件の範囲の両方で優れていることが示されている。

Accurate low dimension chemical kinetic models for methane are an essential component in the design of efficient gas turbine combustors. Kinetic models coupled to computational fluid dynamics (CFD) provide quick and efficient ways to test the effect of operating conditions, fuel composition and combustor design compared to physical experiments. However, detailed chemical kinetic models are too computationally expensive for use in CFD. We propose a novel data orientated three-step methodology to produce compact models that replicate a target set of detailed model properties to a high fidelity. In the first step, a reduced kinetic model is obtained by removing all non-essential species from the detailed model containing 118 species using path flux analysis (PFA). It is then numerically optimised to replicate the detailed model's prediction in two rounds; First, to selected species (OH,H,CO and CH4) profiles in perfectly stirred reactor (PSR) simulations and then re-optimised to the detailed model's prediction of the laminar flame speed. This is implemented by a purposely developed Machine Learned Optimisation of Chemical Kinetics (MLOCK) algorithm. The MLOCK algorithm systematically perturbs all three Arrhenius parameters for selected reactions and assesses the suitability of the new parameters through an objective error function which quantifies the error in the compact model's calculation of the optimisation target. This strategy is demonstrated through the production of a 19 species and a 15 species compact model for methane/air combustion. Both compact models are validated across a range of 0D and 1D calculations across both lean and rich conditions and shows good agreement to the parent detailed mechanism. The 15 species model is shown to outperform the current state-of-art models in both accuracy and range of conditions the model is valid over.
翻訳日:2021-03-19 10:37:13 公開日:2021-03-18
# 暗号api提案のための埋め込みコードコンテキスト:新しい手法と比較

Embedding Code Contexts for Cryptographic API Suggestion:New Methodologies and Comparisons ( http://arxiv.org/abs/2103.08747v2 )

ライセンス: Link先を確認
Ya Xiao, Salman Ahmed, Wenjia Song, Xinyang Ge, Bimal Viswanath, Danfeng Yao(参考訳) 最近の研究努力にもかかわらず、api推奨による自動コード生成のビジョンは実現されていない。 APIレコメンデーションの正確性と表現性の課題には、体系的に対処する必要がある。 APIレコメンデーションのための新しいニューラルネットワークベースのアプローチであるMulti-HyLSTMを提案する。 Multi-HyLSTMは、プログラム分析を利用して、APIの埋め込みとレコメンデーションをガイドする。 apiメソッドのデータ依存パスを分析することで、次のapiメソッド呼び出しを正確に予測するapiレコメンデーションタスクのためのマルチパスニューラルネットワークアーキテクチャをトレーニングし、専門化する。 これまでに報告されていない2つのプログラミング言語固有の課題に対処し、機能的に類似したAPIを区別し、低周波長範囲の影響を捉える。 提案手法は,プログラム解析支援組込み,マルチパスコード提案アーキテクチャ,低周波長距離エンハンスシーケンス学習,top-1レコメンデーションの精度向上など,設計選択の有効性を確認した。 最先端ツールSLANGの77.44%と比較してトップ1の精度は91.41%である。 245のテストケースの分析では、商用ツールのCodotaと比較して、トップ1の推奨精度は88.98%であり、Codotaの64.90%よりもはるかに優れている。 私たちは、データとコードを巨大なJava暗号コードデータセットとして公開します。

Despite recent research efforts, the vision of automatic code generation through API recommendation has not been realized. Accuracy and expressiveness challenges of API recommendation needs to be systematically addressed. We present a new neural network-based approach, Multi-HyLSTM for API recommendation --targeting cryptography-related code. Multi-HyLSTM leverages program analysis to guide the API embedding and recommendation. By analyzing the data dependence paths of API methods, we train embedding and specialize a multi-path neural network architecture for API recommendation tasks that accurately predict the next API method call. We address two previously unreported programming language-specific challenges, differentiating functionally similar APIs and capturing low-frequency long-range influences. Our results confirm the effectiveness of our design choices, including program-analysis-gui ded embedding, multi-path code suggestion architecture, and low-frequency long-range-enhanced sequence learning, with high accuracy on top-1 recommendations. We achieve a top-1 accuracy of 91.41% compared with 77.44% from the state-of-the-art tool SLANG. In an analysis of 245 test cases, compared with the commercial tool Codota, we achieve a top-1 recommendation accuracy of 88.98%, which is significantly better than Codota's accuracy of 64.90%. We publish our data and code as a large Java cryptographic code dataset.
翻訳日:2021-03-19 10:36:42 公開日:2021-03-18