このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201018となっている論文です。

PDF登録状況(公開日: 20201018)

TitleAuthorsAbstract論文公表日・翻訳日
# TED: テーマモデリングとDenoisingを備えた教師なし要約モデル

TED: A Pretrained Unsupervised Summarization Model with Theme Modeling and Denoising ( http://arxiv.org/abs/2001.00725v3 )

ライセンス: Link先を確認
Ziyi Yang, Chenguang Zhu, Robert Gmyr, Michael Zeng, Xuedong Huang, Eric Darve(参考訳) テキスト要約は、テキストから必須情報を抽出し、テキストを簡潔なバージョンに変換することを目的としている。 既存の教師なし抽象的な要約モデルでは、リカレントニューラルネットワークフレームワークを活用している。 さらに、以前の要約モデルのほとんどは、事前訓練に利用可能な豊富なラベルのないコーパス資源を無視している。 そこで本稿では,大規模データに事前学習を行うトランスフォーマティブ型非教師なし要約システムtedを提案する。 まずニュース記事のリードバイアスを利用して、何百万ものラベルのないコーパスでモデルを事前訓練する。 次に,tedをテーマモデリングと自動エンコーダを用いて対象領域に微調整し,生成した要約の品質を向上させる。 特にTEDは、NYT、CNN/DM、およびさまざまなドキュメントスタイルの英語ギガワードデータセットにおいて、教師なしの抽象ベースラインをすべて上回っている。 さらに解析した結果,TED が生成する要約は抽象的であり,TED の目的関数の各成分は非常に効果的であることがわかった。

Text summarization aims to extract essential information from a piece of text and transform the text into a concise version. Existing unsupervised abstractive summarization models leverage recurrent neural networks framework while the recently proposed transformer exhibits much more capability. Moreover, most of previous summarization models ignore abundant unlabeled corpora resources available for pretraining. In order to address these issues, we propose TED, a transformer-based unsupervised abstractive summarization system with pretraining on large-scale data. We first leverage the lead bias in news articles to pretrain the model on millions of unlabeled corpora. Next, we finetune TED on target domains through theme modeling and a denoising autoencoder to enhance the quality of generated summaries. Notably, TED outperforms all unsupervised abstractive baselines on NYT, CNN/DM and English Gigaword datasets with various document styles. Further analysis shows that the summaries generated by TED are highly abstractive, and each component in the objective function of TED is highly effective.
翻訳日:2023-01-14 17:46:26 公開日:2020-10-18
# 確率微分方程式のスケーラブル勾配

Scalable Gradients for Stochastic Differential Equations ( http://arxiv.org/abs/2001.01328v6 )

ライセンス: Link先を確認
Xuechen Li, Ting-Kam Leonard Wong, Ricky T. Q. Chen, David Duvenaud(参考訳) 随伴感度法は通常の微分方程式に対する解の勾配をスカラーで計算する。 我々はこの手法を確率微分方程式に一般化し、高階適応解法を用いた勾配の時間効率および定数メモリ計算を可能にする。 具体的には、解が勾配である確率微分方程式、ノイズをキャッシングするメモリ効率のよいアルゴリズム、数値解が収束する条件を導出する。 さらに,本手法を潜在確率微分方程式の勾配に基づく確率的変分推論と組み合わせる。 我々は,ニューラルネットワークが定義する確率力学に適合し,50次元モーションキャプチャーデータセット上での競合性能を実現する。

The adjoint sensitivity method scalably computes gradients of solutions to ordinary differential equations. We generalize this method to stochastic differential equations, allowing time-efficient and constant-memory computation of gradients with high-order adaptive solvers. Specifically, we derive a stochastic differential equation whose solution is the gradient, a memory-efficient algorithm for caching noise, and conditions under which numerical solutions converge. In addition, we combine our method with gradient-based stochastic variational inference for latent stochastic differential equations. We use our method to fit stochastic dynamics defined by neural networks, achieving competitive performance on a 50-dimensional motion capture dataset.
翻訳日:2023-01-14 07:41:49 公開日:2020-10-18
# RGB-D顔認識のための2レベル注意に基づく融合学習

Two-Level Attention-based Fusion Learning for RGB-D Face Recognition ( http://arxiv.org/abs/2003.00168v3 )

ライセンス: Link先を確認
Hardik Uppal, Alireza Sepas-Moghaddam, Michael Greenspan and Ali Etemad(参考訳) 近年のRGB-Dセンシング技術と機械学習と融合技術の改良により、RGB-D顔認識は研究の活発な領域となっている。 RGBと深度という2つの画像モダリティを融合させてRGB-D顔認識を向上する新しいアテンションアウェアメント手法を提案する。 提案手法はまず,畳み込み特徴抽出器を用いて両モードから特徴を抽出する。 これらの機能は2層アテンション機構を使って融合される。 第1層は特徴抽出器が生成する融合特徴写像に着目し,LSTM再帰学習を用いた特徴写像の関係を利用した。 第2層は畳み込みを用いてこれらの地図の空間的特徴に焦点を当てている。 トレーニングデータベースは、幾何変換によって事前処理および拡張され、純粋な2次元RGB画像トレーニングプロセスからの転写学習を用いて学習プロセスをさらに支援する。 比較評価により、提案手法は、従来のニューラルネットワークとディープニューラルネットワークに基づく手法の両方を含む他の最先端手法よりも、挑戦的なCurtinFacesとIIIT-D RGB-Dベンチマークデータベースよりも優れており、それぞれ98.2%と99.3%の分類精度が達成されている。 提案したアテンション機構は他のアテンション機構と比較し、より正確な結果を示す。

With recent advances in RGB-D sensing technologies as well as improvements in machine learning and fusion techniques, RGB-D facial recognition has become an active area of research. A novel attention aware method is proposed to fuse two image modalities, RGB and depth, for enhanced RGB-D facial recognition. The proposed method first extracts features from both modalities using a convolutional feature extractor. These features are then fused using a two-layer attention mechanism. The first layer focuses on the fused feature maps generated by the feature extractor, exploiting the relationship between feature maps using LSTM recurrent learning. The second layer focuses on the spatial features of those maps using convolution. The training database is preprocessed and augmented through a set of geometric transformations, and the learning process is further aided using transfer learning from a pure 2D RGB image training process. Comparative evaluations demonstrate that the proposed method outperforms other state-of-the-art approaches, including both traditional and deep neural network-based methods, on the challenging CurtinFaces and IIIT-D RGB-D benchmark databases, achieving classification accuracies over 98.2% and 99.3% respectively. The proposed attention mechanism is also compared with other attention mechanisms, demonstrating more accurate results.
翻訳日:2022-12-27 20:09:44 公開日:2020-10-18
# 半教師付きスパースK平均アルゴリズム

A semi-supervised sparse K-Means algorithm ( http://arxiv.org/abs/2003.06973v5 )

ライセンス: Link先を確認
Avgoustinos Vouros and Eleni Vasilaki(参考訳) 特徴品質が不明なデータクラスタリングの問題と,少量のラベル付きデータが提供される場合について考察する。 クラスタリングに必要な機能のサブグループを検出するために、教師なしスパースクラスタリング手法を用いることができ、半教師付き手法ではラベル付きデータを使用して制約を作成し、クラスタリングソリューションを強化することができる。 本稿では,これらの手法を用いたK-Means変種を提案する。 提案アルゴリズムは,他の半教師付きアルゴリズムの高性能性を保ち,また,情報的特徴から情報的特徴を識別する能力を保持する。 合成および実世界のデータセットにおけるアルゴリズムの性能について検討する。 異なる数の制約とタイプの制約のシナリオと、異なるクラスタ化初期化メソッドを使用します。

We consider the problem of data clustering with unidentified feature quality and when a small amount of labelled data is provided. An unsupervised sparse clustering method can be employed in order to detect the subgroup of features necessary for clustering and a semi-supervised method can use the labelled data to create constraints and enhance the clustering solution. In this paper we propose a K-Means variant that employs these techniques. We show that the algorithm maintains the high performance of other semi-supervised algorithms and in addition preserves the ability to identify informative from uninformative features. We examine the performance of the algorithm on synthetic and real world data sets. We use scenarios of different number and types of constraints as well as different clustering initialisation methods.
翻訳日:2022-12-23 02:37:01 公開日:2020-10-18
# 畳み込みニューラルネットワークとニューラルネットワークを用いた表面損傷検出方式

Surface Damage Detection Scheme using Convolutional Neural Network and Artificial Neural Network ( http://arxiv.org/abs/2003.10760v2 )

ライセンス: Link先を確認
Alice Yi Yang and Ling Cheng(参考訳) コンクリート表面の損傷は構造物の構造的整合性に影響を与えるため重要である。 本稿では,畳み込みニューラルネットワーク(CNN)とニューラルネットワーク(ANN)を用いた2段階の表面損傷検出手法を提案する。 cnnは入力画像を正と負の2つのカテゴリに分類する。 正のカテゴリーは、画像内に表面の損傷が存在し、そうでなければ画像は負に分類される。 これは画像に基づく分類である。 ANNは、ANNが肯定的に分類した画像入力を受け入れる。 これにより、ANNによってさらに処理される画像の数を減らすことができる。 annは、画像内の検出されたエッジから特徴を抽出する特徴に基づく分類を行う。 エッジは、キャニーエッジ検出を用いて検出される。 検出されたエッジから合計19の特徴を抽出する。 これらの機能はANNに入力される。 ANNの目的は、画像内の正の損傷エッジのみを強調することである。 CNNは画像分類の精度80.7%、ANNは表面検出の精度98.1%を達成する。 CNNの精度の低下は偽陽性検出によるものであるが、偽陽性は許容されるが、偽陰性は許容されない。 2段階スキームにおけるCNNとANNの偽陰性検出は0%である。

Surface damage on concrete is important as the damage can affect the structural integrity of the structure. This paper proposes a two-step surface damage detection scheme using Convolutional Neural Network (CNN) and Artificial Neural Network (ANN). The CNN classifies given input images into two categories: positive and negative. The positive category is where the surface damage is present within the image, otherwise the image is classified as negative. This is an image-based classification. The ANN accepts image inputs that have been classified as positive by the ANN. This reduces the number of images that are further processed by the ANN. The ANN performs feature-based classification, in which the features are extracted from the detected edges within the image. The edges are detected using Canny edge detection. A total of 19 features are extracted from the detected edges. These features are inputs into the ANN. The purpose of the ANN is to highlight only the positive damaged edges within the image. The CNN achieves an accuracy of 80.7% for image classification and the ANN achieves an accuracy of 98.1% for surface detection. The decreased accuracy in the CNN is due to the false positive detection, however false positives are tolerated whereas false negatives are not. The false negative detection for both CNN and ANN in the two-step scheme are 0%.
翻訳日:2022-12-20 08:33:37 公開日:2020-10-18
# 騒々しいテキストデータ:アキレスのBERTのヒール

Noisy Text Data: Achilles' Heel of BERT ( http://arxiv.org/abs/2003.12932v3 )

ライセンス: Link先を確認
Ankit Kumar, Piyush Makhija, Anuj Gupta(参考訳) さまざまなNLPタスクやベンチマークデータセットにおけるBERTの驚異的な成功により、業界実践者は、業界ユースケースを解決するためのNLPアプリケーションを構築するための微調整BERTを積極的に実験している。 実践者が産業用NLPアプリケーションを構築するために使用するほとんどのデータセットでは、データにノイズがないことを保証するのは難しい。 BERTは、あるユースケースから別のユースケースへ学習を転送するために、非常にうまく機能してきたが、ノイズの多いテキストで微調整された場合、BERTがどのように機能するかは、まだ不明である。 本研究では,データの雑音に対するbertの感度について検討する。 我々は、最も一般的に発生するノイズ(スペルミス、タイプミス)で作業し、BERTの性能が著しく低下することを示す。 ベンチマークデータセットvizにおける(シミュレーションされた)ノイズの存在下で、感情分析やテキストの類似性といった基本的なnlpタスクにおけるbertのパフォーマンスが著しく低下することを示す実験結果を示す。 imdb movie review, sts-b, sst-2。 さらに、この性能低下の原因となる既存のBERTパイプラインの欠点を特定します。 以上の結果から,BERTを微調整して産業用ユースケースを解決するためには,データセットのノイズの有無が異なる必要があることが示唆された。

Owing to the phenomenal success of BERT on various NLP tasks and benchmark datasets, industry practitioners are actively experimenting with fine-tuning BERT to build NLP applications for solving industry use cases. For most datasets that are used by practitioners to build industrial NLP applications, it is hard to guarantee absence of any noise in the data. While BERT has performed exceedingly well for transferring the learnings from one use case to another, it remains unclear how BERT performs when fine-tuned on noisy text. In this work, we explore the sensitivity of BERT to noise in the data. We work with most commonly occurring noise (spelling mistakes, typos) and show that this results in significant degradation in the performance of BERT. We present experimental results to show that BERT's performance on fundamental NLP tasks like sentiment analysis and textual similarity drops significantly in the presence of (simulated) noise on benchmark datasets viz. IMDB Movie Review, STS-B, SST-2. Further, we identify shortcomings in the existing BERT pipeline that are responsible for this drop in performance. Our findings suggest that practitioners need to be vary of presence of noise in their datasets while fine-tuning BERT to solve industry use cases.
翻訳日:2022-12-18 13:30:49 公開日:2020-10-18
# 時空間領域テンソルニューラルネットワーク:人間のポーズ分類への応用

Space-Time Domain Tensor Neural Networks: An Application on Human Pose Classification ( http://arxiv.org/abs/2004.08153v2 )

ライセンス: Link先を確認
Konstantinos Makantasis, Athanasios Voulodimos, Anastasios Doulamis, Nikolaos Bakalos, Nikolaos Doulamis(参考訳) 最近のセンシング技術の進歩は、時空間データを効率的に処理できるパターン認識モデルの設計と開発を必要とする。 本研究では,三次元骨格データを用いた人間のポーズ分類のための空間的,時間的認識型テンソルベースニューラルネットワークを提案する。 我々のモデルは3つの新しい要素を取り入れている。 まず、高度に識別可能な時空間特性を構築することができる入力層。 第2に、データのコンパクトでリッチな表現を生成するテンソル融合演算、第3に、データ表現を元のテンソル形式で処理するテンソルベースニューラルネットワーク。 私たちのモデルはエンドツーエンドでトレーニング可能で、注釈付きデータに制限のある問題に適した少数のトレーニング可能なパラメータが特徴です。 提案モデルの実験的評価は, 最先端の性能を実現することを示唆する。

Recent advances in sensing technologies require the design and development of pattern recognition models capable of processing spatiotemporal data efficiently. In this study, we propose a spatially and temporally aware tensor-based neural network for human pose classification using three-dimensional skeleton data. Our model employs three novel components. First, an input layer capable of constructing highly discriminative spatiotemporal features. Second, a tensor fusion operation that produces compact yet rich representations of the data, and third, a tensor-based neural network that processes data representations in their original tensor form. Our model is end-to-end trainable and characterized by a small number of trainable parameters making it suitable for problems where the annotated data is limited. Experimental evaluation of the proposed model indicates that it can achieve state-of-the-art performance.
翻訳日:2022-12-12 12:40:19 公開日:2020-10-18
# CheXbert: BERTを用いた正確な放射線診断レポート作成のための自動ラベルとエキスパートアノテーションの組み合わせ

CheXbert: Combining Automatic Labelers and Expert Annotations for Accurate Radiology Report Labeling Using BERT ( http://arxiv.org/abs/2004.09167v3 )

ライセンス: Link先を確認
Akshay Smit, Saahil Jain, Pranav Rajpurkar, Anuj Pareek, Andrew Y. Ng, Matthew P. Lungren(参考訳) ラジオロジーテキストレポートからラベルを抽出することで、医療画像モデルの大規模トレーニングが可能になる。 既存のレポートラベリングのアプローチは、一般的に医療分野の知識に基づいた高度な機能工学か、専門家による手動アノテーションに依存している。 本研究では,医用画像のラベル付けにBERTベースのアプローチを導入し,利用可能なルールベースシステムの規模と専門家アノテーションの品質を両立させる。 本稿では,まず規則に基づくラベル付けのアノテーションに基づいて訓練し,その後,自動逆変換を付加した少数の専門家アノテーションを微調整し,生物医学的に事前訓練したBERTモデルの優れた性能を示す。 我々の最終モデルであるCheXbertは、統計学的に重要なルールベースのラベルよりも優れており、胸部X線データセットの1つにレポートラベルの新しいSOTAを設定できる。

The extraction of labels from radiology text reports enables large-scale training of medical imaging models. Existing approaches to report labeling typically rely either on sophisticated feature engineering based on medical domain knowledge or manual annotations by experts. In this work, we introduce a BERT-based approach to medical image report labeling that exploits both the scale of available rule-based systems and the quality of expert annotations. We demonstrate superior performance of a biomedically pretrained BERT model first trained on annotations of a rule-based labeler and then finetuned on a small set of expert annotations augmented with automated backtranslation. We find that our final model, CheXbert, is able to outperform the previous best rules-based labeler with statistical significance, setting a new SOTA for report labeling on one of the largest datasets of chest x-rays.
翻訳日:2022-12-11 18:01:14 公開日:2020-10-18
# InterSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Testing Framework, and Challenge Results

The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Testing Framework, and Challenge Results ( http://arxiv.org/abs/2005.13981v3 )

ライセンス: Link先を確認
Chandan K. A. Reddy, Vishak Gopal, Ross Cutler, Ebrahim Beyrami, Roger Cheng, Harishchandra Dubey, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, Puneet Rana, Sriram Srinivasan, Johannes Gehrke(参考訳) InterSPEECH 2020 Deep Noise Suppression (DNS) Challengeは、強調音声の主観的(知覚的)品質を最大化することを目的とした、リアルタイム単一チャネル音声強調における協調研究を促進することを目的としている。 ノイズ抑圧法を評価するための典型的なアプローチは、元のデータセットを分割して得られるテストセットの客観的メトリクスを使用することである。 合成テストセットでは性能が良いが、実際の記録ではモデル性能が著しく低下することが多い。 また、従来の客観的指標のほとんどは主観テストとよく相関せず、実験室の主観テストは大規模なテストセットに対してスケーラブルではない。 そこで本研究では,合成音と実音の両方からなる実世界シナリオに対して,騒音抑圧モデルのトレーニングを行うための,大規模なクリーンな音声とノイズコーパスをオープンソースとして公開する。 itu-t p.808に基づくオンライン主観テストフレームワークもオープンソースとして公開しています。 ブラインドテストセットにおけるp.808を用いた結果評価を行った。 課題から得られた結果と重要な教訓について論じる。 データセットとスクリプトは、https://github.com/microsoft/DNS-Challenge.comに簡単にアクセスできる。

The INTERSPEECH 2020 Deep Noise Suppression (DNS) Challenge is intended to promote collaborative research in real-time single-channel Speech Enhancement aimed to maximize the subjective (perceptual) quality of the enhanced speech. A typical approach to evaluate the noise suppression methods is to use objective metrics on the test set obtained by splitting the original dataset. While the performance is good on the synthetic test set, often the model performance degrades significantly on real recordings. Also, most of the conventional objective metrics do not correlate well with subjective tests and lab subjective tests are not scalable for a large test set. In this challenge, we open-sourced a large clean speech and noise corpus for training the noise suppression models and a representative test set to real-world scenarios consisting of both synthetic and real recordings. We also open-sourced an online subjective test framework based on ITU-T P.808 for researchers to reliably test their developments. We evaluated the results using P.808 on a blind test set. The results and the key learnings from the challenge are discussed. The datasets and scripts can be found here for quick access https://github.com/microsoft/DNS-Challenge.
翻訳日:2022-12-02 14:08:17 公開日:2020-10-18
# セキュアなビザンチンロバスト機械学習

Secure Byzantine-Robust Machine Learning ( http://arxiv.org/abs/2006.04747v2 )

ライセンス: Link先を確認
Lie He and Sai Praneeth Karimireddy and Martin Jaggi(参考訳) ますます多くの機械学習システムがエッジサーバやデバイス(携帯電話など)にデプロイされ、協調的に訓練されている。 このような分散/フェデレーション/分散トレーニングは、手続きの堅牢性、プライバシ、セキュリティに関する多くの懸念を引き起こす。 堅牢性、プライバシ、セキュリティを個々に扱うために広範な研究がなされているが、それらの組み合わせが研究されることはほとんどない。 本稿では,入力プライバシとビザンチン乱れの両方を提供するセキュアな2サーバプロトコルを提案する。 さらに、このプロトコルは通信効率が高く、フォールトトレラントであり、ローカルなディファレンシャルプライバシを享受する。

Increasingly machine learning systems are being deployed to edge servers and devices (e.g. mobile phones) and trained in a collaborative manner. Such distributed/federated/decentralized training raises a number of concerns about the robustness, privacy, and security of the procedure. While extensive work has been done in tackling with robustness, privacy, or security individually, their combination has rarely been studied. In this paper, we propose a secure two-server protocol that offers both input privacy and Byzantine-robustness. In addition, this protocol is communication-efficient, fault-tolerant and enjoys local differential privacy.
翻訳日:2022-11-24 01:35:41 公開日:2020-10-18
# ポインタグラフネットワーク

Pointer Graph Networks ( http://arxiv.org/abs/2006.06380v2 )

ライセンス: Link先を確認
Petar Veli\v{c}kovi\'c, Lars Buesing, Matthew C. Overlan, Razvan Pascanu, Oriol Vinyals, Charles Blundell(参考訳) グラフニューラルネットワーク(GNN)は通常、前もって知られていると仮定される静的グラフに適用される。 この静的入力構造は、マシンラーニング実践者の洞察によって純粋に通知されることが多く、GNNが解決している実際のタスクには最適ではないかもしれない。 信頼できる分野の専門知識がなければ、潜在グラフ構造を推測することに頼るかもしれない。 ここでは、モデル一般化能力を改善するために、追加の推論エッジを持つ集合やグラフを拡大するPointer Graph Networks(PGNs)を紹介する。 PGNは各ノードが別のノードを動的に指し、メッセージがこれらのポインタを渡ることを可能にする。 この適応可能なグラフ構造のスパース性は、複雑なアルゴリズムをシミュレートするのに十分な表現力を持ちながら、学習を扱いやすくする。 重要な点として、ポインティングメカニズムは、理論計算機科学から有用な構造的帰納バイアスを取り入れ、古典的なデータ構造上の操作の長期的シーケンスをモデル化するために直接監督される。 定量的に、PGNはポインタベースのデータ構造、すなわち不連結集合和とリンク/カット木を並列に学習できることを実証する。 pgnsは、動的グラフ接続タスクの5倍のテスト入力へのアウトオブディストリビューションを一般化し、制限のないgnnやディープセットよりも優れている。

Graph neural networks (GNNs) are typically applied to static graphs that are assumed to be known upfront. This static input structure is often informed purely by insight of the machine learning practitioner, and might not be optimal for the actual task the GNN is solving. In absence of reliable domain expertise, one might resort to inferring the latent graph structure, which is often difficult due to the vast search space of possible graphs. Here we introduce Pointer Graph Networks (PGNs) which augment sets or graphs with additional inferred edges for improved model generalisation ability. PGNs allow each node to dynamically point to another node, followed by message passing over these pointers. The sparsity of this adaptable graph structure makes learning tractable while still being sufficiently expressive to simulate complex algorithms. Critically, the pointing mechanism is directly supervised to model long-term sequences of operations on classical data structures, incorporating useful structural inductive biases from theoretical computer science. Qualitatively, we demonstrate that PGNs can learn parallelisable variants of pointer-based data structures, namely disjoint set unions and link/cut trees. PGNs generalise out-of-distribution to 5x larger test inputs on dynamic graph connectivity tasks, outperforming unrestricted GNNs and Deep Sets.
翻訳日:2022-11-22 13:04:51 公開日:2020-10-18
# 不確実性定量化による不均一処理効果に対するロバスト再帰的パーティショニング

Robust Recursive Partitioning for Heterogeneous Treatment Effects with Uncertainty Quantification ( http://arxiv.org/abs/2006.07917v2 )

ライセンス: Link先を確認
Hyun-Suk Lee, Yao Zhang, William Zame, Cong Shen, Jang-Won Lee, Mihaela van der Schaar(参考訳) 治療効果のサブグループ分析は、医療から公共政策、レコメンダシステムへの応用において重要な役割を果たす。 医師(例えば、医師)は、特定の薬物または治療が有効である可能性のある患者のグループと、それが有効でない患者のグループを識別することができる。 サブグループ分析の現在の手法のほとんどは、個別化処理効果(ITE)を推定し、各サブグループの平均処理効果のサブグループ間での差を最大化することによって、サブグループを同定する特定のアルゴリズムから始まる。 これらのアプローチにはいくつかの弱点がある: ITE を推定するための特定のアルゴリズムに依存し、特定された部分群内での同質性を無視し、信頼度が良くない。 本稿では、これらの弱点に対処する新しい部分群解析法R2Pを開発する。 R2P は任意のアルゴリズムを用いて ITE を推定し、他の方法よりも堅牢な構造を用いて ITE 推定の不確実性を定量化する。 合成および半合成データセット(実データに基づく)を用いた実験では、R2Pはグループ内で同時に均一であり、他の方法によって生成されるパーティションよりもグループ間で異質なパーティションを構成する。 さらに、r2pは任意の ite 推定器を使用できるため、他の方法よりも信頼区間を狭くし、所定のカバレッジを保証する。

Subgroup analysis of treatment effects plays an important role in applications from medicine to public policy to recommender systems. It allows physicians (for example) to identify groups of patients for whom a given drug or treatment is likely to be effective and groups of patients for which it is not. Most of the current methods of subgroup analysis begin with a particular algorithm for estimating individualized treatment effects (ITE) and identify subgroups by maximizing the difference across subgroups of the average treatment effect in each subgroup. These approaches have several weaknesses: they rely on a particular algorithm for estimating ITE, they ignore (in)homogeneity within identified subgroups, and they do not produce good confidence estimates. This paper develops a new method for subgroup analysis, R2P, that addresses all these weaknesses. R2P uses an arbitrary, exogenously prescribed algorithm for estimating ITE and quantifies the uncertainty of the ITE estimation, using a construction that is more robust than other methods. Experiments using synthetic and semi-synthetic datasets (based on real data) demonstrate that R2P constructs partitions that are simultaneously more homogeneous within groups and more heterogeneous across groups than the partitions produced by other methods. Moreover, because R2P can employ any ITE estimator, it also produces much narrower confidence intervals with a prescribed coverage guarantee than other methods.
翻訳日:2022-11-21 09:59:47 公開日:2020-10-18
# 分布型不変深層ネットワークによるメタ機能学習

Distribution-Based Invariant Deep Networks for Learning Meta-Features ( http://arxiv.org/abs/2006.13708v2 )

ライセンス: Link先を確認
Gwendoline De Bie, Herilalaina Rakotoarison, Gabriel Peyr\'e, Mich\`ele Sebag(参考訳) 確率分布からのディープラーニングの最近の進歩は、分布サンプルからの分類や回帰をうまく達成し、標本の置換下で不変である。 論文の最初の貢献は、これらのニューラルアーキテクチャを拡張して、特徴の置換の下で不変性を達成することである。 提案したアーキテクチャはDidaと呼ばれ、普遍近似のNN特性を継承し、そのロバスト性w.r.t. Lipschitz-bounded transformations of the input distributionが確立される。 2つめの貢献は、データセットレベルで定義された2つのタスクに対するアプローチのメリットを実証的に、比較して実証することである。 両方のタスクで、Didaは(ラベル付き)データセットのキャラクタリゼーションをサポートするメタ機能を学ぶ。 最初のタスクは、2つのデータセットパッチが同じ初期データセットから抽出されるかどうかを予測することである。 第2のタスクは、OpenMLベンチマークスイートから抽出されたデータセットに対して、固定アルゴリズム(k-NN、SVM、ロジスティック回帰およびSGDによる線形分類器)の下でのハイパーパラメータ設定によって達成される学習性能が、他の構成よりも優れているかどうかを予測することである。 dss (maron et al., 2020) と dataset2vec (jomaa et al., 2019) のアーキテクチャに加えて,手作りのメタ機能に基づいたモデルも採用している。

Recent advances in deep learning from probability distributions successfully achieve classification or regression from distribution samples, thus invariant under permutation of the samples. The first contribution of the paper is to extend these neural architectures to achieve invariance under permutation of the features, too. The proposed architecture, called Dida, inherits the NN properties of universal approximation, and its robustness w.r.t. Lipschitz-bounded transformations of the input distribution is established. The second contribution is to empirically and comparatively demonstrate the merits of the approach on two tasks defined at the dataset level. On both tasks, Dida learns meta-features supporting the characterization of a (labelled) dataset. The first task consists of predicting whether two dataset patches are extracted from the same initial dataset. The second task consists of predicting whether the learning performance achieved by a hyper-parameter configuration under a fixed algorithm (ranging in k-NN, SVM, logistic regression and linear classifier with SGD) dominates that of another configuration, for a dataset extracted from the OpenML benchmarking suite. On both tasks, Dida outperforms the state of the art: DSS (Maron et al., 2020) and Dataset2Vec (Jomaa et al., 2019) architectures, as well as the models based on the hand-crafted meta-features of the literature.
翻訳日:2022-11-17 09:22:50 公開日:2020-10-18
# 極限順序ブックの深層学習モデル : 比較

Deep Learning modeling of Limit Order Book: a comparative perspective ( http://arxiv.org/abs/2007.07319v3 )

ライセンス: Link先を確認
Antonio Briola, Jeremy Turiel, Tomaso Aste(参考訳) 本研究は,高頻度取引のための深層学習の分野における理論的,実践的な問題を扱う。 ランダムモデル、ロジスティック回帰、LSTM、LSTM、アテンションマスクを備えたLSTM、CNN-LSTM、MLPといった最先端モデルをレビューし、同じタスク、特徴空間、データセットで比較し、ペアの類似性とパフォーマンスメトリクスに従ってクラスタ化する。 したがって、モデリング手法の基本次元は、これらがリミット・オーダー・ブックのダイナミクスに固有のものであるかどうかを理解するために研究されている。 我々は、動的空間次元と時間次元がLOBのダイナミクスのよい近似であることを示すCNN-LSTMアーキテクチャに比較して、多層パーセプトロンが同等かそれ以上の性能を発揮することを観察する。

The present work addresses theoretical and practical questions in the domain of Deep Learning for High Frequency Trading. State-of-the-art models such as Random models, Logistic Regressions, LSTMs, LSTMs equipped with an Attention mask, CNN-LSTMs and MLPs are reviewed and compared on the same tasks, feature space and dataset, and then clustered according to pairwise similarity and performance metrics. The underlying dimensions of the modeling techniques are hence investigated to understand whether these are intrinsic to the Limit Order Book's dynamics. We observe that the Multilayer Perceptron performs comparably to or better than state-of-the-art CNN-LSTM architectures indicating that dynamic spatial and temporal dimensions are a good approximation of the LOB's dynamics, but not necessarily the true underlying dimensions.
翻訳日:2022-11-11 05:49:33 公開日:2020-10-18
# 人物再同定における適応L2正規化

Adaptive L2 Regularization in Person Re-Identification ( http://arxiv.org/abs/2007.07875v2 )

ライセンス: Link先を確認
Xingyang Ni, Liang Fang, Heikki Huttunen(参考訳) 人物再識別の設定に適応的なL2正規化機構を導入する。 文献では, 訓練過程を通して一定に保たれる手摘み正則化因子を利用するのが一般的である。 既存の手法とは異なり,提案手法の正規化因子はバックプロパゲーションにより適応的に更新される。 これはトレーニング可能なスカラー変数を正規化係数として組み込むことで実現され、さらにスケールド・ハード・シグモイド関数に供給される。 market-1501、dukemtmc-reidおよびmsmt17データセットに関する広範な実験は、我々のフレームワークの有効性を検証する。 中でも注目に値するのは,MSMT17における人物再識別のための最大のデータセットである最先端の性能である。 ソースコードはhttps://github.com/nixingyang/AdaptiveL2Regularizationで公開されている。

We introduce an adaptive L2 regularization mechanism in the setting of person re-identification. In the literature, it is common practice to utilize hand-picked regularization factors which remain constant throughout the training procedure. Unlike existing approaches, the regularization factors in our proposed method are updated adaptively through backpropagation. This is achieved by incorporating trainable scalar variables as the regularization factors, which are further fed into a scaled hard sigmoid function. Extensive experiments on the Market-1501, DukeMTMC-reID and MSMT17 datasets validate the effectiveness of our framework. Most notably, we obtain state-of-the-art performance on MSMT17, which is the largest dataset for person re-identification. Source code is publicly available at https://github.com/nixingyang/AdaptiveL2Regularization.
翻訳日:2022-11-10 06:12:48 公開日:2020-10-18
# 事前学習したBERTネットワークに対するロッキーチケット仮説

The Lottery Ticket Hypothesis for Pre-trained BERT Networks ( http://arxiv.org/abs/2007.12223v2 )

ライセンス: Link先を確認
Tianlong Chen, Jonathan Frankle, Shiyu Chang, Sijia Liu, Yang Zhang, Zhangyang Wang, Michael Carbin(参考訳) 自然言語処理(NLP)では、BERTのような巨大な事前学習モデルが下流タスクのトレーニングの標準出発点となり、他のディープラーニング分野にも同様の傾向が出現している。 並行して、宝くじの仮説に関する研究は、NLPとコンピュータビジョンのモデルには、完全な正確さと他のタスクへの転送を個別に訓練できる小さなマッチングサブネットが含まれていることを示した。 本研究では、これらの観測結果を組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なサブネットが存在するかどうかを評価する。 下流のタスクでは、マッチするサブネットワークが40%から90%の範囲にあることが分かりました。 これらのサブネットワークは、(事前訓練された)初期化において、ある程度のトレーニングの後のみ出現する以前のNLP研究から逸脱している。 Subnetworksは、マスク付き言語モデリングタスク(モデルを事前訓練するために使用されるのと同じタスク)の転送を普遍的に見つけた。 大規模事前学習が深層学習の中心的パラダイムとなるにつれ,本研究の成果は,この文脈における主要な宝くじの観測が引き続き重要であることを示している。 コードはhttps://github.com/VITA-Group/BERT-Ticketsで入手できる。

In natural language processing (NLP), enormous pre-trained models like BERT have become the standard starting point for training on a range of downstream tasks, and similar trends are emerging in other areas of deep learning. In parallel, work on the lottery ticket hypothesis has shown that models for NLP and computer vision contain smaller matching subnetworks capable of training in isolation to full accuracy and transferring to other tasks. In this work, we combine these observations to assess whether such trainable, transferrable subnetworks exist in pre-trained BERT models. For a range of downstream tasks, we indeed find matching subnetworks at 40% to 90% sparsity. We find these subnetworks at (pre-trained) initialization, a deviation from prior NLP research where they emerge only after some amount of training. Subnetworks found on the masked language modeling task (the same task used to pre-train the model) transfer universally; those found on other tasks transfer in a limited fashion if at all. As large-scale pre-training becomes an increasingly central paradigm in deep learning, our results demonstrate that the main lottery ticket observations remain relevant in this context. Codes available at https://github.com/VITA-Group/BERT-Tickets.
翻訳日:2022-11-07 11:38:45 公開日:2020-10-18
# エッジ支援リアルタイム物体検出のためのニューラルネットワーク圧縮とフィルタリング

Neural Compression and Filtering for Edge-assisted Real-time Object Detection in Challenged Networks ( http://arxiv.org/abs/2007.15818v2 )

ライセンス: Link先を確認
Yoshitomo Matsubara, Marco Levorato(参考訳) エッジコンピューティングパラダイムでは、エッジサーバをネットワークエッジに配置して、データ解析タスクを実行するモバイルデバイスを支援する。 直感的には、エッジサーバに計算センスタスクをオフロードすることで、実行時間を短縮できる。 しかし、モバイルデバイスとエッジサーバを接続する無線チャネルの条件が低ければ、エッジオフロードによって達成される全体的なキャプチャ-アウトプット遅延が低下する可能性がある。 本稿では、ディープニューラルネットワーク(DNN)による遠隔物体検出を支援するエッジコンピューティングに着目し、無線リンクを介して送信されるデータ量を削減するためのフレームワークを開発する。 私たちが提案する中核的なアイデアは、モバイルデバイスとエッジサーバによって実行される、DNNをセクション(ヘッドモデルとテールモデル)に分割する最近のアプローチに基づくものです。 無線リンクは、DNN入力の代わりにヘッドモデルの最後の層の出力をエッジサーバに転送するために使用される。 ほとんどの先行研究は分類タスクに焦点を当てており、dnn構造は変更されない。 ここでは、より複雑な構造を示す3つの異なるオブジェクト検出タスクに対するDNNに注目し、ネットワークのアーキテクチャを次のように変更する。 (i)ヘッドモデルの初期層にボトルネック層を導入することでネットワーク内圧縮を実現する。 (ii)畳み込みニューラルネットワークを用いて興味のある対象を含まないプリフィルタ画像。 提案手法は,これらの極端点解が満足な性能を得られないパラメータ領域において,局所演算とエッジ演算の効果的な中間オプションであることを示す。 コードとトレーニングされたモデルはhttps://github.com/yoshitomo-matsubara/hnd-ghnd-object-detectorsで入手できる。

The edge computing paradigm places compute-capable devices - edge servers - at the network edge to assist mobile devices in executing data analysis tasks. Intuitively, offloading compute-intense tasks to edge servers can reduce their execution time. However, poor conditions of the wireless channel connecting the mobile devices to the edge servers may degrade the overall capture-to-output delay achieved by edge offloading. Herein, we focus on edge computing supporting remote object detection by means of Deep Neural Networks (DNNs), and develop a framework to reduce the amount of data transmitted over the wireless link. The core idea we propose builds on recent approaches splitting DNNs into sections - namely head and tail models - executed by the mobile device and edge server, respectively. The wireless link, then, is used to transport the output of the last layer of the head model to the edge server, instead of the DNN input. Most prior work focuses on classification tasks and leaves the DNN structure unaltered. Herein, our focus is on DNNs for three different object detection tasks, which present a much more convoluted structure, and modify the architecture of the network to: (i) achieve in-network compression by introducing a bottleneck layer in the early layers on the head model, and (ii) prefilter pictures that do not contain objects of interest using a convolutional neural network. Results show that the proposed technique represents an effective intermediate option between local and edge computing in a parameter region where these extreme point solutions fail to provide satisfactory performance. The code and trained models are available at https://github.com/yoshitomo-matsubara/hnd-ghnd-object-detectors .
翻訳日:2022-11-04 06:19:38 公開日:2020-10-18
# 配向推定による点雲の自己教師付き学習

Self-supervised Learning of Point Clouds via Orientation Estimation ( http://arxiv.org/abs/2008.00305v2 )

ライセンス: Link先を確認
Omid Poursaeed, Tianxing Jiang, Han Qiao, Nayun Xu, Vladimir G. Kim(参考訳) 点雲はコンパクトで効率的な3次元形状の表現を提供する。 深層ニューラルネットワークは、ポイントクラウド学習タスクにおいて印象的な結果を得たが、大量の手作業によるラベル付きデータが必要であり、収集にはコストと時間を要する。 本稿では,ラベルの少ないポイントクラウド上での下流タスクの学習に3Dセルフスーパービジョンを活用する。 点雲は無限に多くの方法で回転することができ、自己スーパービジョンのための豊富なラベルフリーソースを提供する。 形状分類や3次元キーポイント予測といった他のタスクに有用な特徴をもたらす回転予測の補助的タスクについて検討する。 ShapeNetとModelNetの実験から、我々のアプローチは最先端技術よりも優れています。 さらに,本モデルで学習した機能は,他の自己管理手法と相補的であり,それらを組み合わせることでさらなる性能向上につながる。

Point clouds provide a compact and efficient representation of 3D shapes. While deep neural networks have achieved impressive results on point cloud learning tasks, they require massive amounts of manually labeled data, which can be costly and time-consuming to collect. In this paper, we leverage 3D self-supervision for learning downstream tasks on point clouds with fewer labels. A point cloud can be rotated in infinitely many ways, which provides a rich label-free source for self-supervision. We consider the auxiliary task of predicting rotations that in turn leads to useful features for other tasks such as shape classification and 3D keypoint prediction. Using experiments on ShapeNet and ModelNet, we demonstrate that our approach outperforms the state-of-the-art. Moreover, features learned by our model are complementary to other self-supervised methods and combining them leads to further performance improvement.
翻訳日:2022-11-04 00:38:55 公開日:2020-10-18
# アーケード:迅速な連続的異常検知装置

ARCADe: A Rapid Continual Anomaly Detector ( http://arxiv.org/abs/2008.04042v2 )

ライセンス: Link先を確認
Ahmed Frikha, Denis Krompa{\ss} and Volker Tresp(参考訳) 連続的な学習と異常検出は、以前の研究で別々に研究されてきたが、それらの交点は未解明のままである。 本研究は、モデルが異常検出タスクの列を段階的に学習しなければならない学習シナリオ、すなわち、通常の(多数派)クラスの例のみがトレーニングに利用できるタスクに対処する。 本稿では,連続異常検出(CAD)の新たな学習問題をメタ学習問題として定式化する。 さらに、ニューラルネットワークをトレーニングし、この新たな学習問題の主な課題、すなわち破滅的な忘れ忘れと多数派に過度に適合させるアプローチである、Rapid Continual Anomaly Detector (ARCADe)を提案する。 3つのデータセットを用いた実験の結果,cad問題設定において,アーケードが連続学習および異常検出文献のベースラインを大きく上回ることがわかった。 最後に,提案したメタ学習アルゴリズムがもたらす学習戦略について,より深い知見を提供する。

Although continual learning and anomaly detection have separately been well-studied in previous works, their intersection remains rather unexplored. The present work addresses a learning scenario where a model has to incrementally learn a sequence of anomaly detection tasks, i.e. tasks from which only examples from the normal (majority) class are available for training. We define this novel learning problem of continual anomaly detection (CAD) and formulate it as a meta-learning problem. Moreover, we propose A Rapid Continual Anomaly Detector (ARCADe), an approach to train neural networks to be robust against the major challenges of this new learning problem, namely catastrophic forgetting and overfitting to the majority class. The results of our experiments on three datasets show that, in the CAD problem setting, ARCADe substantially outperforms baselines from the continual learning and anomaly detection literature. Finally, we provide deeper insights into the learning strategy yielded by the proposed meta-learning algorithm.
翻訳日:2022-10-31 22:30:51 公開日:2020-10-18
# ディープラーニングのためのトポロジフレームワーク

A Topological Framework for Deep Learning ( http://arxiv.org/abs/2008.13697v13 )

ライセンス: Link先を確認
Mustafa Hajij, Kyle Istvan(参考訳) トポロジーからの古典的な事実を用いて、機械学習における分類問題は、非常に穏やかな条件下で常に解くことができることを示す。 さらに,ソフトマックス分類ネットワークは,有限列の位相移動によって入力トポロジカル空間に作用し,その分類処理を実現することを示す。 さらに、トレーニングデータセットから、トポロジカルフォーマリズムを用いて、データ上の分類子としてトレーニングされるように設計されたニューラルネットワークの適切なアーキテクチャ選択を提案する。 最後に,基盤となるデータの形状から独立してニューラルネットワークのアーキテクチャを選択できないことを示す。 これらの結果を示すために、このトポロジ的観点からニューラルネットワークがどのように作用するかを示すサンプルデータセットを提供する。

We utilize classical facts from topology to show that the classification problem in machine learning is always solvable under very mild conditions. Furthermore, we show that a softmax classification network acts on an input topological space by a finite sequence of topological moves to achieve the classification task. Moreover, given a training dataset, we show how topological formalism can be used to suggest the appropriate architectural choices for neural networks designed to be trained as classifiers on the data. Finally, we show how the architecture of a neural network cannot be chosen independently from the shape of the underlying data. To demonstrate these results, we provide example datasets and show how they are acted upon by neural nets from this topological perspective.
翻訳日:2022-10-23 07:03:11 公開日:2020-10-18
# ディープニューラルネットワークの層別関連解釈性向上に関する一般化

Generalization on the Enhancement of Layerwise Relevance Interpretability of Deep Neural Network ( http://arxiv.org/abs/2009.02516v2 )

ライセンス: Link先を確認
Erico Tjoa, Guan Cuntai(参考訳) ディープニューラルネットワークの実用的応用は、透明性の欠如によってはまだ制限されている。 人工知能(AI)による意思決定の説明を提供する取り組みの1つは、その予測に大きく貢献する関連領域を強調した、正当性や熱マップの使用である。 ノイズスパイク抑制による誤差補正を行い, ヒートマップの品質向上を図るため, 層幅振幅フィルタリング法が導入された。 本研究では,任意の識別可能な誤りを考慮し,基礎的解釈可能な情報が存在することを仮定して,階層的誤り訂正を一般化する。 本研究では,階層的関連づけによって伝播する誤りの形式について検討し,特定のニューラルネットワークの信号振幅の傾向に対応した可読性信号整流のためのフィルタリング手法を提案する。 最後に,基礎的解釈可能な情報の利用について論じる。

The practical application of deep neural networks are still limited by their lack of transparency. One of the efforts to provide explanation for decisions made by artificial intelligence (AI) is the use of saliency or heat maps highlighting relevant regions that contribute significantly to its prediction. A layer-wise amplitude filtering method was previously introduced to improve the quality of heatmaps, performing error corrections by noise-spike suppression. In this study, we generalize the layerwise error correction by considering any identifiable error and assuming there exists a groundtruth interpretable information. The forms of errors propagated through layerwise relevance methods are studied and we propose a filtering technique for interpretability signal rectification taylored to the trend of signal amplitude of the particular neural network used. Finally, we put forth arguments for the use of groundtruth interpretable information.
翻訳日:2022-10-21 20:34:08 公開日:2020-10-18
# 対話応答生成のためのマルチリファレンストレーニング

Multi-Referenced Training for Dialogue Response Generation ( http://arxiv.org/abs/2009.07117v2 )

ライセンス: Link先を確認
Tianyu Zhao and Tatsuya Kawahara(参考訳) オープンドメイン対話応答生成では、対話コンテキストは多様な応答で継続することができ、対話モデルはそのような一対多の関係を捉える必要がある。 本研究では,まず,KLD(Kulback-Leibler divergence)の観点から対話モデルの学習目標を分析し,実世界の確率分布と単一参照データの確率分布とのギャップが,一対多の関係を効率的に学習することを妨げることを示す。 次に,マルチリファレンストレーニングへのアプローチを2つの側面から検討する。 データに関して、我々は強力な事前学習モデルから多様な擬似参照を生成し、実世界の分布をよりよく近似するマルチ参照データを構築する。 モデルワイドでは,線形ガウスモデル (LGM) という表現的先行モデルを用いた変分モデルを提案する。 自動評価と人的評価実験の結果,本手法はベースラインよりも大幅に改善することがわかった。 コードとデータをhttps://github.com/zhaoting/dialog- processingでリリースします。

In open-domain dialogue response generation, a dialogue context can be continued with diverse responses, and the dialogue models should capture such one-to-many relations. In this work, we first analyze the training objective of dialogue models from the view of Kullback-Leibler divergence (KLD) and show that the gap between the real world probability distribution and the single-referenced data's probability distribution prevents the model from learning the one-to-many relations efficiently. Then we explore approaches to multi-referenced training in two aspects. Data-wise, we generate diverse pseudo references from a powerful pretrained model to build multi-referenced data that provides a better approximation of the real-world distribution. Model-wise, we propose to equip variational models with an expressive prior, named linear Gaussian model (LGM). Experimental results of automated evaluation and human evaluation show that the methods yield significant improvements over baselines. We will release our code and data in https://github.com/ZHAOTING/dialog-processing.
翻訳日:2022-10-18 06:06:56 公開日:2020-10-18
# 立ち止まることを学ぶ: 都市視覚言語ナビゲーションへの単純かつ効果的なアプローチ

Learning to Stop: A Simple yet Effective Approach to Urban Vision-Language Navigation ( http://arxiv.org/abs/2009.13112v3 )

ライセンス: Link先を確認
Jiannan Xiang, Xin Eric Wang, William Yang Wang(参考訳) VLN(Vision-and-Language Navigation)は、エージェントが言語命令に従うことを学習し、現実世界の環境において指定された目的地にナビゲートする自然言語基盤タスクである。 重要な課題は、特に複雑な屋外環境において、正しい場所を認識および停止することである。 既存のメソッドは、STOPアクションを他のアクションと同等に扱うため、エージェントが適切な経路にいるとしても、しばしば目的地で停止する好ましくない振る舞いをもたらす。 そこで我々は,STOPと他のアクションを区別するシンプルで効果的なポリシーモジュールであるLearning to Stop (L2Stop)を提案する。 提案手法は,都市型VLNデータセットのタッチダウンにおいて,編集距離(SED)の重み付けによる成功率に対して,ベースラインの6.89%(絶対改善)を上回った。

Vision-and-Language Navigation (VLN) is a natural language grounding task where an agent learns to follow language instructions and navigate to specified destinations in real-world environments. A key challenge is to recognize and stop at the correct location, especially for complicated outdoor environments. Existing methods treat the STOP action equally as other actions, which results in undesirable behaviors that the agent often fails to stop at the destination even though it might be on the right path. Therefore, we propose Learning to Stop (L2Stop), a simple yet effective policy module that differentiates STOP and other actions. Our approach achieves the new state of the art on a challenging urban VLN dataset Touchdown, outperforming the baseline by 6.89% (absolute improvement) on Success weighted by Edit Distance (SED).
翻訳日:2022-10-13 22:08:35 公開日:2020-10-18
# DVERGE: アンサンブルのロバスト生成を向上するための多様な脆弱性

DVERGE: Diversifying Vulnerabilities for Enhanced Robust Generation of Ensembles ( http://arxiv.org/abs/2009.14720v2 )

ライセンス: Link先を確認
Huanrui Yang, Jingyang Zhang, Hongliang Dong, Nathan Inkawhich, Andrew Gardner, Andrew Touchet, Wesley Wilkes, Heath Berry, Hai Li(参考訳) 画像分類のためのcnnモデルは、重複した敵の脆弱性を示している。 敵の攻撃は、cnnモデルを小さな摂動で誤解させ、同じデータセットでトレーニングされた異なるモデル間で効果的に転送することができる。 一般的なロバスト性改善テクニックとしての敵意トレーニングは、ロバストな機能を学ぶことを強制することによって、単一モデルの脆弱性を取り除く。 このプロセスは困難であり、大容量のモデルを必要とすることが多く、クリーンなデータの精度に大きな損失を被る。 あるいは、各サブモデルが個別にロバストでない場合でも、トランスファー攻撃に対してロバストなアンサンブルを強固にするため、様々なアウトプットを持つサブモデルを誘導するためにアンサンブル法が提案されている。 このプロセスでは、小さな精度低下のみが観察される。 しかし,従来のアンサンブル訓練法は,このような多様性を誘発する効果はなく,ロバストアンサンブルに到達するには効果がない。 DVERGEは,非破壊的特徴を蒸留することにより,各サブモデルの敵の脆弱性を分離し,逆の脆弱性を多様化し,転送攻撃に対して多様な出力を誘導する。 新しいダイバーシティ・メトリックとトレーニング手順により、dvergeは以前のアンサンブル法と比較して転送攻撃に対する高いロバスト性を達成でき、さらに多くのサブモデルがアンサンブルに追加されると、ロバスト性が向上する。 この作業のコードはhttps://github.com/zjysteven/dvergeで入手できる。

Recent research finds CNN models for image classification demonstrate overlapped adversarial vulnerabilities: adversarial attacks can mislead CNN models with small perturbations, which can effectively transfer between different models trained on the same dataset. Adversarial training, as a general robustness improvement technique, eliminates the vulnerability in a single model by forcing it to learn robust features. The process is hard, often requires models with large capacity, and suffers from significant loss on clean data accuracy. Alternatively, ensemble methods are proposed to induce sub-models with diverse outputs against a transfer adversarial example, making the ensemble robust against transfer attacks even if each sub-model is individually non-robust. Only small clean accuracy drop is observed in the process. However, previous ensemble training methods are not efficacious in inducing such diversity and thus ineffective on reaching robust ensemble. We propose DVERGE, which isolates the adversarial vulnerability in each sub-model by distilling non-robust features, and diversifies the adversarial vulnerability to induce diverse outputs against a transfer attack. The novel diversity metric and training procedure enables DVERGE to achieve higher robustness against transfer attacks comparing to previous ensemble methods, and enables the improved robustness when more sub-models are added to the ensemble. The code of this work is available at https://github.com/zjysteven/DVERGE
翻訳日:2022-10-12 23:08:57 公開日:2020-10-18
# 構造化予測モデルの敵対的攻撃と防御

Adversarial Attack and Defense of Structured Prediction Models ( http://arxiv.org/abs/2010.01610v2 )

ライセンス: Link先を確認
Wenjuan Han, Liwen Zhang, Yong Jiang, Kewei Tu(参考訳) 近年, 自然言語処理(NLP)に対する効果的な敵攻撃の構築と, 対人攻撃対策についての研究が盛んに行われている。 しかし、既存のアプローチのほとんどは分類問題に焦点を当てている。 本論文では,NLPにおける構造化予測タスクに対する攻撃と防御について検討する。 離散的な単語の摂動の困難さや、NLPタスクにおいて攻撃者が直面する文流布の問題に加えて、構造化予測モデルの攻撃者には特定の課題がある:構造化予測モデルの構造化出力は入力内の小さな摂動に敏感である。 これらの問題に対処するために,同一の構造化予測タスクの複数の参照モデルからのフィードバックを伴うシーケンシャル・ツー・シーケンスモデルを用いて,構造化予測モデルに対する攻撃を学習する新しい統一フレームワークを提案する。 提案する攻撃に基づいて,敵の訓練により被害者モデルをさらに強化し,その予測をより堅牢かつ正確なものにする。 提案フレームワークは,依存性解析とpart-of-speechタギングで評価する。 自動的および人的評価により,提案手法は,最先端構造予測モデルへの攻撃に成功し,敵の訓練で強化することを示す。

Building an effective adversarial attacker and elaborating on countermeasures for adversarial attacks for natural language processing (NLP) have attracted a lot of research in recent years. However, most of the existing approaches focus on classification problems. In this paper, we investigate attacks and defenses for structured prediction tasks in NLP. Besides the difficulty of perturbing discrete words and the sentence fluency problem faced by attackers in any NLP tasks, there is a specific challenge to attackers of structured prediction models: the structured output of structured prediction models is sensitive to small perturbations in the input. To address these problems, we propose a novel and unified framework that learns to attack a structured prediction model using a sequence-to-sequence model with feedbacks from multiple reference models of the same structured prediction task. Based on the proposed attack, we further reinforce the victim model with adversarial training, making its prediction more robust and accurate. We evaluate the proposed framework in dependency parsing and part-of-speech tagging. Automatic and human evaluations show that our proposed framework succeeds in both attacking state-of-the-art structured prediction models and boosting them with adversarial training.
翻訳日:2022-10-11 03:40:26 公開日:2020-10-18
# 私たちは同じ言語を話さない:機械翻訳による分極の解釈

We Don't Speak the Same Language: Interpreting Polarization through Machine Translation ( http://arxiv.org/abs/2010.02339v2 )

ライセンス: Link先を確認
Ashiqur R. KhudaBukhsh, Rupak Sarkar, Mark S. Kamlet, Tom M. Mitchell(参考訳) 米国の政党、メディア、エリートの間での分極は広く研究されているトピックである。 複数の分野にわたる先行研究の著名なラインは、ソーシャルメディアにおける分極の増大を観察し分析している。 本稿では,機械翻訳のレンズを通して偏光を解釈する新しい手法を提案する。 2つのサブコミュニティが2つの異なる \emph{languages} で話しているという斬新な提案により、現代の機械翻訳手法は、単語の粒度で2つ以上の大規模なソーシャルメディア議論データセットの違いを理解するための、シンプルで強力で解釈可能なフレームワークを提供できることを実証する。 有名な4つのニュースネットワークのYouTubeチャンネルがホストする20万本以上のニュースビデオに対して、650万人のユーザーが8660万件のコメントを寄せた。我々は、単純な単語レベルとフレーズレベルの翻訳ペアが、現在の政治的分裂に対する深い洞察を明らかにすることができることを実証した。

Polarization among US political parties, media and elites is a widely studied topic. Prominent lines of prior research across multiple disciplines have observed and analyzed growing polarization in social media. In this paper, we present a new methodology that offers a fresh perspective on interpreting polarization through the lens of machine translation. With a novel proposition that two sub-communities are speaking in two different \emph{languages}, we demonstrate that modern machine translation methods can provide a simple yet powerful and interpretable framework to understand the differences between two (or more) large-scale social media discussion data sets at the granularity of words. Via a substantial corpus of 86.6 million comments by 6.5 million users on over 200,000 news videos hosted by YouTube channels of four prominent US news networks, we demonstrate that simple word-level and phrase-level translation pairs can reveal deep insights into the current political divide -- what is \emph{black lives matter} to one can be \emph{all lives matter} to the other.
翻訳日:2022-10-10 22:08:34 公開日:2020-10-18
# ニューラルアーキテクチャ探索の再検討

Revisiting Neural Architecture Search ( http://arxiv.org/abs/2010.05719v2 )

ライセンス: Link先を確認
Anubhav Garg, Amit Kumar Saha, Debo Dutta(参考訳) Neural Architecture Search(NAS)は、ニューラルネットワークの構築方法を構築するためのメソッドの集合である。 現行のNASメソッドは、手動のバックボーンアーキテクチャやマイクロビルディングブロック(セル)を使用するため、無作為なベースラインに比べてパフォーマンスが小さかったため、初期化や自動化には程遠い。 また、NASパイプラインの様々なコンポーネントにおいて、重要な手作業も行います。 現在のNASメソッドは、NASの出現前にモデルを構築する際に行われたような、検索スペースの設計と配線において、手作業に大きく依存していますか? 本稿では、単に最先端(SOTA)の性能をわずかに向上させるのではなく、NASの基本的アプローチを再検討し、人間の努力を伴わずに完全なニューラルネットワークを探索できるReNASと呼ばれる新しいアプローチを提案し、AutoML-nirvanaに一歩近づいた。 提案手法は,ニューラルネットワークにマッピングされた完全なグラフから始まり,探索空間の探索と利用のバランスをとることにより,接続と操作を探索する。 結果は,手作りブロックを利用したSOTA性能と同等である。 このアプローチは、さまざまなネットワークタイプに対する新しいnas戦略につながる可能性があると考えています。

Neural Architecture Search (NAS) is a collection of methods to craft the way neural networks are built. Current NAS methods are far from ab initio and automatic, as they use manual backbone architectures or micro building blocks (cells), which have had minor breakthroughs in performance compared to random baselines. They also involve a significant manual expert effort in various components of the NAS pipeline. This raises a natural question - Are the current NAS methods still heavily dependent on manual effort in the search space design and wiring like it was done when building models before the advent of NAS? In this paper, instead of merely chasing slight improvements over state-of-the-art (SOTA) performance, we revisit the fundamental approach to NAS and propose a novel approach called ReNAS that can search for the complete neural network without much human effort and is a step closer towards AutoML-nirvana. Our method starts from a complete graph mapped to a neural network and searches for the connections and operations by balancing the exploration and exploitation of the search space. The results are on-par with the SOTA performance with methods that leverage handcrafted blocks. We believe that this approach may lead to newer NAS strategies for a variety of network types.
翻訳日:2022-10-08 07:33:54 公開日:2020-10-18
# 対象性アノテーションを用いた機械翻訳におけるジェンダーバイアスの軽減

Mitigating Gender Bias in Machine Translation with Target Gender Annotations ( http://arxiv.org/abs/2010.06203v2 )

ライセンス: Link先を確認
Art\=urs Stafanovi\v{c}s, Toms Bergmanis, M\=arcis Pinnis(参考訳) 秘書が詳細を尋ねた」を文法性のある言語に翻訳する場合、対象の「秘書」の性別を決定する必要があるかもしれない。 文が必要な情報を含まない場合、必ずしも曖昧さをなくすことはできない。 このような場合、機械翻訳システムは、しばしばステレオタイプ翻訳に対応する最も一般的な翻訳オプションを選択し、それによって特定のグループや人々の偏見や限界化が悪化する可能性がある。 適切な翻訳に必要な情報は、翻訳される文から必ずしも推論できない、あるいは外部知識に依存するかもしれない、と我々は主張する。 そこで本研究では,必要な情報を取得するタスクを学習課題から切り離し,その情報が得られる場合の翻訳を正しく行うことを提案する。 そこで本研究では,対象者の性別情報を含む単語レベルのアノテーションを使用する機械翻訳システムの訓練方法を提案する。 訓練データを作成するために、対応する対象言語単語の文法的性別情報に正規のソース言語単語をアノテートする。 このようなデータを用いて機械翻訳システムを訓練することで、被験者の性別に関する情報が利用可能になったときに、性別ステレオタイプへの依存を減らすことができる。 5つの言語対の実験により、WinoMTテストの精度を最大25.8ポイント向上できることが示されている。

When translating "The secretary asked for details." to a language with grammatical gender, it might be necessary to determine the gender of the subject "secretary". If the sentence does not contain the necessary information, it is not always possible to disambiguate. In such cases, machine translation systems select the most common translation option, which often corresponds to the stereotypical translations, thus potentially exacerbating prejudice and marginalisation of certain groups and people. We argue that the information necessary for an adequate translation can not always be deduced from the sentence being translated or even might depend on external knowledge. Therefore, in this work, we propose to decouple the task of acquiring the necessary information from the task of learning to translate correctly when such information is available. To that end, we present a method for training machine translation systems to use word-level annotations containing information about subject's gender. To prepare training data, we annotate regular source language words with grammatical gender information of the corresponding target language words. Using such data to train machine translation systems reduces their reliance on gender stereotypes when information about the subject's gender is available. Our experiments on five language pairs show that this allows improving accuracy on the WinoMT test set by up to 25.8 percentage points.
翻訳日:2022-10-07 23:28:46 公開日:2020-10-18
# 微分方程式の軌道を用いた知識グラフのモチーフ学習

Motif Learning in Knowledge Graphs Using Trajectories Of Differential Equations ( http://arxiv.org/abs/2010.06684v2 )

ライセンス: Link先を確認
Mojtaba Nayyeri, Chengjin Xu, Jens Lehmann, Sahar Vahdati(参考訳) 知識グラフ埋め込み(KGE)は、知識グラフからの実体と関係を幾何学空間(通常はベクトル空間)にマッピングすることで、リンク予測タスクにおいて有望な性能を示す。 最終的に、予測リンクの妥当性は、学習された埋め込み(ベクトル)上のスコアリング関数を用いて測定される。 したがって、構造的側面や意味論を含むグラフ特性を保存する能力は、kgeの設計や基礎となる幾何学から継承された能力に大きく依存する。 多くのKGEは平坦な幾何学を使い、複雑な構造を保存することができず、結果としてモデルによる誤った推論を引き起こす。 この問題に対処するために、正規微分方程式(ODE)の軌道上にKGのノードを埋め込む神経微分KGEを提案する。 この目的のために、KG 内の各関係(辺)を滑らかなリーマン多様体上のベクトル場として表現する。 具体的には,様々な複素形状多様体とより重要で複雑な形状ベクトル場を表現するために,ニューラルネットワークによってodeをパラメータ化する。 したがって、基礎となる埋め込み空間は、異なるモチーフを持つ部分グラフ構造の複雑さをエンコードする様々な幾何学的形式を得ることができる。 合成およびベンチマークデータセットおよびソーシャルネットワークKGの実験は、構造保存の手段としてODEトラジェクトリを正当化し、したがって最先端のKGEモデルに対する誤った推論を避ける。

Knowledge Graph Embeddings (KGEs) have shown promising performance on link prediction tasks by mapping the entities and relations from a knowledge graph into a geometric space (usually a vector space). Ultimately, the plausibility of the predicted links is measured by using a scoring function over the learned embeddings (vectors). Therefore, the capability in preserving graph characteristics including structural aspects and semantics highly depends on the design of the KGE, as well as the inherited abilities from the underlying geometry. Many KGEs use the flat geometry which renders them incapable of preserving complex structures and consequently causes wrong inferences by the models. To address this problem, we propose a neuro differential KGE that embeds nodes of a KG on the trajectories of Ordinary Differential Equations (ODEs). To this end, we represent each relation (edge) in a KG as a vector field on a smooth Riemannian manifold. We specifically parameterize ODEs by a neural network to represent various complex shape manifolds and more importantly complex shape vector fields on the manifold. Therefore, the underlying embedding space is capable of getting various geometric forms to encode complexity in subgraph structures with different motifs. Experiments on synthetic and benchmark dataset as well as social network KGs justify the ODE trajectories as a means to structure preservation and consequently avoiding wrong inferences over state-of-the-art KGE models.
翻訳日:2022-10-07 22:54:30 公開日:2020-10-18
# ストリーミングサブモジュール最大化の公正性:アルゴリズムと硬さ

Fairness in Streaming Submodular Maximization: Algorithms and Hardness ( http://arxiv.org/abs/2010.07431v2 )

ライセンス: Link先を確認
Marwa El Halabi, Slobodan Mitrovi\'c, Ashkan Norouzi-Fard, Jakab Tardos, Jakub Tarnawski(参考訳) データの代表的および多種多様な要約を選択するタスクの選択方法として,部分モジュラ最大化が確立されている。 しかし、データポイントが性別や年齢などのセンシティブな属性を持つ場合、未確認の機械学習アルゴリズムは、特定のグループの下位または過剰表現のバイアスを示すことが知られている。 これにより、公正な機械学習アルゴリズムの設計がますます重要になっている。 大規模なデータセットに対して、公正な要約を作成することは可能か? そこで本研究では, モノトーン関数と非モノトーン関数の両方に対して, 公平性制約下でのサブモジュラー最大化のための最初のストリーミング近似アルゴリズムを開発した。 本研究は,従来型のクラスタリング,映画レコメンデーション,DPPに基づく要約,ソーシャルネットワークにおける最大カバレッジについて実証的に検証し,公平性制約が実用性に大きく影響しないことを示した。

Submodular maximization has become established as the method of choice for the task of selecting representative and diverse summaries of data. However, if datapoints have sensitive attributes such as gender or age, such machine learning algorithms, left unchecked, are known to exhibit bias: under- or over-representation of particular groups. This has made the design of fair machine learning algorithms increasingly important. In this work we address the question: Is it possible to create fair summaries for massive datasets? To this end, we develop the first streaming approximation algorithms for submodular maximization under fairness constraints, for both monotone and non-monotone functions. We validate our findings empirically on exemplar-based clustering, movie recommendation, DPP-based summarization, and maximum coverage in social networks, showing that fairness constraints do not significantly impact utility.
翻訳日:2022-10-07 14:30:34 公開日:2020-10-18
# あらゆる側面のテキストを要約する:知識に富んだ弱い教師付きアプローチ

Summarizing Text on Any Aspects: A Knowledge-Informed Weakly-Supervised Approach ( http://arxiv.org/abs/2010.06792v2 )

ライセンス: Link先を確認
Bowen Tan, Lianhui Qin, Eric P. Xing, Zhiting Hu(参考訳) 文書と対象のアスペクト(例えば興味のあるトピック)が与えられたとき、アスペクトベースの抽象的な要約はアスペクトに関する要約を生成する。 以前の研究は通常、小さな事前定義された側面の集合を仮定し、他の多様なトピックの要約を欠く。 本研究では,文書に関連する任意の側面の要約について検討し,実際のタスクの適用を著しく拡大する。 監視データの欠如により,コンセプションネットやウィキペディアなどの豊富な外部知識ソースを統合した,新たな弱い監督構築手法とアスペクトモデリング手法を開発した。 実験により,実文書と合成文書の両方を事前に定義された,あるいは任意の側面で要約することで,性能向上が達成できることを示した。

Given a document and a target aspect (e.g., a topic of interest), aspect-based abstractive summarization attempts to generate a summary with respect to the aspect. Previous studies usually assume a small pre-defined set of aspects and fall short of summarizing on other diverse topics. In this work, we study summarizing on arbitrary aspects relevant to the document, which significantly expands the application of the task in practice. Due to the lack of supervision data, we develop a new weak supervision construction method and an aspect modeling scheme, both of which integrate rich external knowledge sources such as ConceptNet and Wikipedia. Experiments show our approach achieves performance boosts on summarizing both real and synthetic documents given pre-defined or arbitrary aspects.
翻訳日:2022-10-07 12:35:55 公開日:2020-10-18
# マルチエージェント信頼地域政策最適化

Multi-Agent Trust Region Policy Optimization ( http://arxiv.org/abs/2010.07916v2 )

ライセンス: Link先を確認
Hepeng Li and Haibo He(参考訳) 信頼領域ポリシー最適化(TRPO)をマルチエージェント強化学習(MARL)問題に拡張する。 TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。 コンセンサス最適化モデルに一連の近似を加えることにより,マルチエージェントTRPO (MATRPO) と呼ばれる分散MARLアルゴリズムを提案する。 このアルゴリズムは、ローカルな観測と個人の報酬に基づいて分散ポリシーを最適化することができる。 エージェントは他のエージェントの観察、報酬、ポリシー、価値/アクション-バリュー機能を知る必要はない。 エージェントは、トレーニングプロセス中に隣人との確率比率のみを共有します。 アルゴリズムは完全に分散され、プライバシーを保護している。 2つの協調ゲームに関する実験は、複雑なMARLタスクにおける堅牢な性能を示す。

We extend trust region policy optimization (TRPO) to multi-agent reinforcement learning (MARL) problems. We show that the policy update of TRPO can be transformed into a distributed consensus optimization problem for multi-agent cases. By making a series of approximations to the consensus optimization model, we propose a decentralized MARL algorithm, which we call multi-agent TRPO (MATRPO). This algorithm can optimize distributed policies based on local observations and private rewards. The agents do not need to know observations, rewards, policies or value/action-value functions of other agents. The agents only share a likelihood ratio with their neighbors during the training process. The algorithm is fully decentralized and privacy-preserving. Our experiments on two cooperative games demonstrate its robust performance on complicated MARL tasks.
翻訳日:2022-10-07 04:53:00 公開日:2020-10-18
# DLWIoT: 認証IoTオンボーディングのためのディープラーニングベースの透かし

DLWIoT: Deep Learning-based Watermarking for Authorized IoT Onboarding ( http://arxiv.org/abs/2010.10334v1 )

ライセンス: Link先を確認
Spyridon Mastorakis, Xin Zhong, Pei-Chi Huang, Reza Tourani(参考訳) 認証されたユーザによるIoTデバイスのオンボーディングは、IoTデバイスの数とそれらに対する改ざん攻撃が継続的に増加する世界において、課題と必要性の両方を構成している。 今日一般的に使われているのはQRコード、ピンコード、シリアル番号の使用である。 QRコードはデバイスに物理的に印刷され、ピンコードはデバイスパッケージに含まれている。 結果として、デバイスへの物理的アクセスを持つエンティティは、ネットワークにそれをインストールし、潜在的にそれを改ざんすることができる(例えば、デバイスにマルウェアをインストールする)。 この問題に対処するために、深層ニューラルネットワークに基づく堅牢で完全に自動化された画像透かしを特徴とする、DLWIoT(Deep Learning-based Watermarking for Author IoT onboarding)というフレームワークを提案する。 DLWIoTは、ユーザ認証情報をキャリアイメージ(IoTデバイスに印刷されたQRコードなど)に埋め込み、認証されたユーザのみのIoTオンボードを可能にする。 実験結果はDLWIoTの実現可能性を示し,認証されたユーザが2.5~3秒以内にDLWIoTを搭載可能なことを示す。

The onboarding of IoT devices by authorized users constitutes both a challenge and a necessity in a world, where the number of IoT devices and the tampering attacks against them continuously increase. Commonly used onboarding techniques today include the use of QR codes, pin codes, or serial numbers. These techniques typically do not protect against unauthorized device access-a QR code is physically printed on the device, while a pin code may be included in the device packaging. As a result, any entity that has physical access to a device can onboard it onto their network and, potentially, tamper it (e.g.,install malware on the device). To address this problem, in this paper, we present a framework, called Deep Learning-based Watermarking for authorized IoT onboarding (DLWIoT), featuring a robust and fully automated image watermarking scheme based on deep neural networks. DLWIoT embeds user credentials into carrier images (e.g., QR codes printed on IoT devices), thus enables IoT onboarding only by authorized users. Our experimental results demonstrate the feasibility of DLWIoT, indicating that authorized users can onboard IoT devices with DLWIoT within 2.5-3sec.
翻訳日:2022-10-06 04:45:41 公開日:2020-10-18
# UAV支援細胞オフロードにおけるNOMA--機械学習アプローチ

NOMA in UAV-aided cellular offloading: A machine learning approach ( http://arxiv.org/abs/2011.14776v1 )

ライセンス: Link先を確認
Ruikang Zhong, Xiao Liu, Yuanwei Liu and Yue Chen(参考訳) 複数の無人航空機(UAV)によるセルローディングのための新しい枠組みが提案され、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに非直交多重アクセス(NOMA)技術が用いられている。 スループットを最大化するための3次元3次元軌道設計と電力配分の最適化問題を定式化する。 この関連する動的問題を解決するために、K平均クラスタリングアルゴリズムが最初に採用され、定期的にユーザを分割する。 その後、UAVの最適3次元軌道と電力配分を共同で決定するために、相互深度Q-network(MDQN)アルゴリズムを提案する。 従来のディープQネットワーク(DQN)アルゴリズムとは対照的に、MDQNアルゴリズムは、マルチエージェントの経験を共有ニューラルネットワークに入力し、状態抽象化の助けを借りてトレーニング時間を短縮することを可能にする。 数値的な結果は、 1)提案したMDQNアルゴリズムは,マルチエージェントの場合の従来のDQNアルゴリズムよりも高速な収束率を有する。 2) NOMA 拡張 UAV ネットワークの達成可能な総和率は直交多重アクセス (OMA) よりも23 %$ 高い。 3) MDONアルゴリズムを用いてUAVの最適3次元軌道を設計することにより, ネットワークの総和率は, 円軌道と2次元軌道をそれぞれ呼び出す場合よりも$142\%, ${56\%}$ゲインを享受する。

A novel framework is proposed for cellular offloading with the aid of multiple unmanned aerial vehicles (UAVs), while non-orthogonal multiple access (NOMA) technique is employed at each UAV to further improve the spectrum efficiency of the wireless network. The optimization problem of joint three-dimensional (3D) trajectory design and power allocation is formulated for maximizing the throughput. In an effort to solve this pertinent dynamic problem, a K-means based clustering algorithm is first adopted for periodically partitioning users. Afterward, a mutual deep Q-network (MDQN) algorithm is proposed to jointly determine the optimal 3D trajectory and power allocation of UAVs. In contrast to the conventional deep Q-network (DQN) algorithm, the MDQN algorithm enables the experience of multi-agent to be input into a shared neural network to shorten the training time with the assistance of state abstraction. Numerical results demonstrate that: 1) the proposed MDQN algorithm has a faster convergence rate than the conventional DQN algorithm in the multi-agent case; 2) The achievable sum rate of the NOMA enhanced UAV network is $23\%$ superior to the case of orthogonal multiple access (OMA); 3) By designing the optimal 3D trajectory of UAVs with the aid of the MDON algorithm, the sum rate of the network enjoys ${142\%}$ and ${56\%}$ gains than that of invoking the circular trajectory and the 2D trajectory, respectively.
翻訳日:2022-10-06 04:42:56 公開日:2020-10-18
# 多様体上の凸および非凸最適化の高速化アルゴリズム

Accelerated Algorithms for Convex and Non-Convex Optimization on Manifolds ( http://arxiv.org/abs/2010.08908v1 )

ライセンス: Link先を確認
Lizhen Lin, Bayan Saparbayeva, Michael Minyi Zhang, David B. Dunson(参考訳) 多様体上の凸および非凸最適化問題を解くための一般的なスキームを提案する。 中心的な考え方は、問題となる対象関数に平方リトラクション距離を複数加えることにより、目的関数を「凸化」し、最適化手順における一連の凸部分確率を解くことである。 多様体上の最適化の鍵となる課題の1つは、対象函数の複雑さ、例えば、目的函数が凸か非凸か、非凸性の度合いを検証することの難しさである。 提案アルゴリズムは,目的関数における複雑性のレベルに適応する。 目的関数が凸であるとき、アルゴリズムは確実に最適に収束し、加速収束をもたらすことを示す。 目的関数が凸でない場合、アルゴリズムは定常点に収束する。 提案手法は, ユークリッド空間における最適化アルゴリズムの最近の発展にともなって, 勾配降下アルゴリズムの高速化に関するネステロフの考えから得られた知見を統一するものである。 本稿では,球面上の内在的および外在的fr\'echet平均の推定や,netflix 評価データセットに適用されたグラスマン多様体を用いた低ランク行列分解など,いくつかの多様体最適化タスクにおけるアルゴリズムの有用性を示す。

We propose a general scheme for solving convex and non-convex optimization problems on manifolds. The central idea is that, by adding a multiple of the squared retraction distance to the objective function in question, we "convexify" the objective function and solve a series of convex sub-problems in the optimization procedure. One of the key challenges for optimization on manifolds is the difficulty of verifying the complexity of the objective function, e.g., whether the objective function is convex or non-convex, and the degree of non-convexity. Our proposed algorithm adapts to the level of complexity in the objective function. We show that when the objective function is convex, the algorithm provably converges to the optimum and leads to accelerated convergence. When the objective function is non-convex, the algorithm will converge to a stationary point. Our proposed method unifies insights from Nesterov's original idea for accelerating gradient descent algorithms with recent developments in optimization algorithms in Euclidean space. We demonstrate the utility of our algorithms on several manifold optimization tasks such as estimating intrinsic and extrinsic Fr\'echet means on spheres and low-rank matrix factorization with Grassmann manifolds applied to the Netflix rating data set.
翻訳日:2022-10-06 04:41:54 公開日:2020-10-18
# lasso sparse modeling法による日最大オゾン濃度の予測

Prediction of daily maximum ozone levels using Lasso sparse modeling method ( http://arxiv.org/abs/2010.08909v1 )

ライセンス: Link先を確認
Jiaqing Lv, Xiaohong Xu(参考訳) 本稿では,翌日の最大オゾン濃度の予測と,翌日の最大8時間平均オゾン濃度の予測に,現代的な統計手法を適用した。 このモデルは、現在の様々な汚染物質の時間毎濃度レベルや、現在の観測の気象変数、将来の天気予報値など、多くの候補機能を使用している。 このような超高次元問題を解くために、最小絶対収縮・選択演算子(Lasso)を適用した。 この手法の$L_1$の性質は、自動特徴量削減と結果として生じるスパースモデルを可能にする。 3年間のデータによって訓練されたモデルは、rmse=5.63 ppb、mae=4.42 ppb、rmse=5.68 ppb、mae=4.52 ppbといった比較的良好な予測精度を示す。 提案手法は,近年適用された他の手法と比較し,予測精度の優位性を示す。

This paper applies modern statistical methods in the prediction of the next-day maximum ozone concentration, as well as the maximum 8-hour-mean ozone concentration of the next day. The model uses a large number of candidate features, including the present day's hourly concentration level of various pollutants, as well as the meteorological variables of the present day's observation and the future day's forecast values. In order to solve such an ultra-high dimensional problem, the least absolute shrinkage and selection operator (Lasso) was applied. The $L_1$ nature of this methodology enables the automatic feature dimension reduction, and a resultant sparse model. The model trained by 3-years data demonstrates relatively good prediction accuracy, with RMSE= 5.63 ppb, MAE= 4.42 ppb for predicting the next-day's maximum $O_3$ concentration, and RMSE= 5.68 ppb, MAE= 4.52 ppb for predicting the next-day's maximum 8-hour-mean $O_3$ concentration. Our modeling approach is also compared with several other methods recently applied in the field and demonstrates superiority in the prediction accuracy.
翻訳日:2022-10-06 04:41:35 公開日:2020-10-18
# 脳波信号における個人識別情報の探索

Disguising Personal Identity Information in EEG Signals ( http://arxiv.org/abs/2010.08915v1 )

ライセンス: Link先を確認
Shiya Liu, Yue Yao, Chaoyue Xing, and Tom Gedeon(参考訳) パブリックなEEGデータセットでは、個人識別情報を保護する必要がある。 しかし、無限クラス(開集合)を持つような情報を除去することは困難である。 鍵となる特徴を保ちながら,脳波信号の身元情報をダミーIDで偽装する手法を提案する。 ダミーの同一性は、共通の属性を持つグループ内の被験者全体の脳波スペクトルにグランド平均を適用することによって得られる。 元の脳波の個人識別情報は、サイクリングGANベースの脳波測位モデルで偽装されたものに変換される。 モデルに制約を加えることで、脳波信号に対する関心の特徴を保存できる。 そこで本研究では,脳波と偽脳波の両方の分類タスクを行い,結果の比較を行った。 評価のために、特に98.4%の精度でid認識タスクをうまく実行するresnet分類器についても実験を行った。 その結果,我々の脳波計測モデルでは,個人情報の約90%を隠蔽し,他の重要な特徴のほとんどを保存できることがわかった。

There is a need to protect the personal identity information in public EEG datasets. However, it is challenging to remove such information that has infinite classes (open set). We propose an approach to disguise the identity information in EEG signals with dummy identities, while preserving the key features. The dummy identities are obtained by applying grand average on EEG spectrums across the subjects within a group that have common attributes. The personal identity information in original EEGs are transformed into disguised ones with a CycleGANbased EEG disguising model. With the constraints added to the model, the features of interest in EEG signals can be preserved. We evaluate the model by performing classification tasks on both the original and the disguised EEG and compare the results. For evaluation, we also experiment with ResNet classifiers, which perform well especially on the identity recognition task with an accuracy of 98.4%. The results show that our EEG disguising model can hide about 90% of personal identity information and can preserve most of the other key features.
翻訳日:2022-10-06 04:41:02 公開日:2020-10-18
# 地球観測のための物理と機械学習の相互作用に生きる

Living in the Physics and Machine Learning Interplay for Earth Observation ( http://arxiv.org/abs/2010.09031v1 )

ライセンス: Link先を確認
Gustau Camps-Valls, Daniel H. Svendsen, Jordi Cort\'es-Andr\'es, \'Alvaro Moreno-Mart\'inez, Adri\'an P\'erez-Suay, Jose Adsuara, Irene Mart\'in, Maria Piles, Jordi Mu\~noz-Mar\'i, Luca Martino(参考訳) 地球科学のほとんどの問題は、正確な予測が問題全体のごく一部に過ぎず、システムに関する推論を行うことを目指している。 推論は変数の関係を理解し、物理的に解釈可能で、単純な同義語であり、数学的に計算可能であるモデルを導出する。 機械学習モデルだけでも優れた近似器であるが、質量やエネルギーの保存といった物理学の基本法則を尊重しないことが多いため、一貫性と信頼性が損なわれる。 本稿では,この分野の主な課題を述べるとともに,データから微分方程式をエンコードし,物理プライオリエントと依存制約でデータ駆動モデルを制約し,パラメータ化を改善し,物理モデルをエミュレートし,データ駆動モデルとプロセスベースのモデルをブレンドする。 これは、地球システムにおける知識を発見できるアルゴリズムを開発し、適用するための長期的なaiアジェンダである。

Most problems in Earth sciences aim to do inferences about the system, where accurate predictions are just a tiny part of the whole problem. Inferences mean understanding variables relations, deriving models that are physically interpretable, that are simple parsimonious, and mathematically tractable. Machine learning models alone are excellent approximators, but very often do not respect the most elementary laws of physics, like mass or energy conservation, so consistency and confidence are compromised. In this paper, we describe the main challenges ahead in the field, and introduce several ways to live in the Physics and machine learning interplay: to encode differential equations from data, constrain data-driven models with physics-priors and dependence constraints, improve parameterizations, emulate physical models, and blend data-driven and process-based models. This is a collective long-term AI agenda towards developing and applying algorithms capable of discovering knowledge in the Earth system.
翻訳日:2022-10-06 04:40:23 公開日:2020-10-18
# 合成軌道を用いた複数未来予測

Multiple Future Prediction Leveraging Synthetic Trajectories ( http://arxiv.org/abs/2010.08948v1 )

ライセンス: Link先を確認
Lorenzo Berlincioni, Federico Becattini, Lorenzo Seidenari, Alberto Del Bimbo(参考訳) 軌道予測は特に自動運転において重要な課題である。 他の移動エージェントの位置を予測できる能力は効果的な計画につながり、観測されたエンティティだけでなく自律車両の安全性を確保することができる。 本研究では,マルコフ連鎖に基づくデータ駆動アプローチを提案する。 利点は2つある:一方、既存のデータセットを増強し、より効果的な予測器を訓練するために合成サンプルを使用することができ、一方、観測された軌道の様々な等しく可能な結果に対応する複数の基底真理を持つサンプルを生成することができる。 軌道予測モデルと問題の多様性に明示的に対処した損失を定義し,合成データと実データの組み合わせによって予測精度が向上し,結果が得られたことを示す。

Trajectory prediction is an important task, especially in autonomous driving. The ability to forecast the position of other moving agents can yield to an effective planning, ensuring safety for the autonomous vehicle as well for the observed entities. In this work we propose a data driven approach based on Markov Chains to generate synthetic trajectories, which are useful for training a multiple future trajectory predictor. The advantages are twofold: on the one hand synthetic samples can be used to augment existing datasets and train more effective predictors; on the other hand, it allows to generate samples with multiple ground truths, corresponding to diverse equally likely outcomes of the observed trajectory. We define a trajectory prediction model and a loss that explicitly address the multimodality of the problem and we show that combining synthetic and real data leads to prediction improvements, obtaining state of the art results.
翻訳日:2022-10-06 04:33:06 公開日:2020-10-18
# 形状とポスパラメータの同時予測による心臓MRI分割のための形状拘束型CNN

Shape Constrained CNN for Cardiac MR Segmentation with Simultaneous Prediction of Shape and Pose Parameters ( http://arxiv.org/abs/2010.08952v1 )

ライセンス: Link先を確認
Sofie Tilborghs, Tom Dresselaers, Piet Claus, Jan Bogaert, Frederik Maes(参考訳) 畳み込みニューラルネットワーク(CNN)を用いたセマンティックセグメンテーションは、心臓MRI画像における左室セグメンテーション(LV)を含む多くの医療セグメンテーションタスクの最先端技術である。 しかし、これらのCNNには明確な形状制約がなく、時に非現実的なセグメンテーションが生じるという欠点がある。 本稿では,統計的形状モデルから得られたポーズパラメータと形状パラメータの回帰により,LVと心筋セグメンテーションを行う。 統合形状モデルは予測されたセグメンテーションを規則化し、現実的な形状を保証する。 さらに、セマンティックセグメンテーションとは対照的に、心筋の厚さなどの局所的な測定を直接計算することができる。 トレーニング中に分割距離マップを同時に構築することにより,形状の頑健さとポーズの予測を行う。 そこで本研究では,本研究で提案手法を検討した結果,本研究で提案する75名を対象に,全国75名を対象に実施した臨床データを用いた5倍のクロス検証を行い,lv領域99%,心筋領域94%,lv次元98%,局所壁厚88%の相関が得られた。 この手法はLVQuan18とLVQuan19の公開データセットで検証され、最先端の結果を得た。

Semantic segmentation using convolutional neural networks (CNNs) is the state-of-the-art for many medical segmentation tasks including left ventricle (LV) segmentation in cardiac MR images. However, a drawback is that these CNNs lack explicit shape constraints, occasionally resulting in unrealistic segmentations. In this paper, we perform LV and myocardial segmentation by regression of pose and shape parameters derived from a statistical shape model. The integrated shape model regularizes predicted segmentations and guarantees realistic shapes. Furthermore, in contrast to semantic segmentation, it allows direct calculation of regional measures such as myocardial thickness. We enforce robustness of shape and pose prediction by simultaneously constructing a segmentation distance map during training. We evaluated the proposed method in a fivefold cross validation on a in-house clinical dataset with 75 subjects containing a total of 1539 delineated short-axis slices covering LV from apex to base, and achieved a correlation of 99% for LV area, 94% for myocardial area, 98% for LV dimensions and 88% for regional wall thicknesses. The method was additionally validated on the LVQuan18 and LVQuan19 public datasets and achieved state-of-the-art results.
翻訳日:2022-10-06 04:32:53 公開日:2020-10-18
# 適応戦略を用いたマルチエージェントベイズ学習:収束と安定性

Multi-agent Bayesian Learning with Adaptive Strategies: Convergence and Stability ( http://arxiv.org/abs/2010.09128v1 )

ライセンス: Link先を確認
Manxi Wu, Saurabh Amin, and Asuman Ozdaglar(参考訳) 本研究では,未知のペイオフ関連パラメータで繰り返しゲームをする戦略エージェントが引き起こす学習ダイナミクスについて検討する。 各ステップにおいて、情報システムはプレイヤーの戦略に基づいてパラメータの信念分布を推定し、ベイズのルールを用いてペイオフを実現する。 プレイヤーは、更新された信念に基づいて均衡戦略や最良の反応戦略を考慮し、戦略を調整する。 信念と戦略が確率 1 の固定点に収束することを証明する。 また,固定点の局所的および大域的安定性を保証する条件も提供する。 任意の固定点信念は、固定点戦略プロファイルが与えられた場合のペイオフ分布を常に推定する。 しかし、完全情報ナッシュ均衡への収束は必ずしも保証されない。 我々は、不動点信念が未知のパラメータを回復する十分かつ必要な条件を提供する。 また,パラメータ学習が不完全である場合でも,情報平衡を完全化するための収束条件も提供する。

We study learning dynamics induced by strategic agents who repeatedly play a game with an unknown payoff-relevant parameter. In each step, an information system estimates a belief distribution of the parameter based on the players' strategies and realized payoffs using Bayes' rule. Players adjust their strategies by accounting for an equilibrium strategy or a best response strategy based on the updated belief. We prove that beliefs and strategies converge to a fixed point with probability 1. We also provide conditions that guarantee local and global stability of fixed points. Any fixed point belief consistently estimates the payoff distribution given the fixed point strategy profile. However, convergence to a complete information Nash equilibrium is not always guaranteed. We provide a sufficient and necessary condition under which fixed point belief recovers the unknown parameter. We also provide a sufficient condition for convergence to complete information equilibrium even when parameter learning is incomplete.
翻訳日:2022-10-06 04:32:08 公開日:2020-10-18
# コバピクセル

Covapixels ( http://arxiv.org/abs/2010.09016v1 )

ライセンス: Link先を確認
Jeffrey Uhlmann(参考訳) 平均および共分散情報を用いて,スーパーピクセル型画像タイル/パッチの要約を提案し,議論する。 得られたオブジェクトをコバピクセルと呼ぶ。

We propose and discuss the summarization of superpixel-type image tiles/patches using mean and covariance information. We refer to the resulting objects as covapixels.
翻訳日:2022-10-06 04:24:53 公開日:2020-10-18
# 将来の特徴の条件付き生成に基づくマルチモーダル意味予測

Multimodal semantic forecasting based on conditional generation of future features ( http://arxiv.org/abs/2010.09067v1 )

ライセンス: Link先を確認
Kristijan Fugo\v{s}i\'c, Josip \v{S}ari\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) 本稿では,道路走行場面における意味予測について考察する。 既存のほとんどのアプローチでは、この問題を将来の特徴の決定論的回帰あるいは観測されたフレームの将来の予測として扱う。 しかし、そのようなアプローチは未来が必ずしも確実さで推測できないという事実を無視している。 例えば、車が角を曲がろうとしているとき、現在建物によって囲まれている道路は、運転が自由であるか、人、他の車両または道路工事によって占有される可能性がある。 決定論的モデルがこのような状況に直面するとき、最も良い推測は最も可能性の高い結果を予測することである。 しかし、これは、セキュリティを改善するための予測の目的を打ち破るため、受け入れられない。 また、決定論的モデルは標準から逸脱を学べないため、貴重なトレーニングデータを捨てる。 我々は、異なる未来を予測できるようにすることで、モデルにより多くの自由を提供することで、この問題に対処します。 本稿では,観測フレーム上に条件付きマルチモーダル生成モデルのサンプリングとして,マルチモーダル予測を定式化する。 Cityscapesデータセットの実験では、我々のマルチモーダルモデルは短期予測において決定論的モデルよりも優れており、中期ケースでは若干悪化している。

This paper considers semantic forecasting in road-driving scenes. Most existing approaches address this problem as deterministic regression of future features or future predictions given observed frames. However, such approaches ignore the fact that future can not always be guessed with certainty. For example, when a car is about to turn around a corner, the road which is currently occluded by buildings may turn out to be either free to drive, or occupied by people, other vehicles or roadworks. When a deterministic model confronts such situation, its best guess is to forecast the most likely outcome. However, this is not acceptable since it defeats the purpose of forecasting to improve security. It also throws away valuable training data, since a deterministic model is unable to learn any deviation from the norm. We address this problem by providing more freedom to the model through allowing it to forecast different futures. We propose to formulate multimodal forecasting as sampling of a multimodal generative model conditioned on the observed frames. Experiments on the Cityscapes dataset reveal that our multimodal model outperforms its deterministic counterpart in short-term forecasting while performing slightly worse in the mid-term case.
翻訳日:2022-10-06 04:24:50 公開日:2020-10-18
# 可変カプセルエンコーダ

Variational Capsule Encoder ( http://arxiv.org/abs/2010.09102v1 )

ライセンス: Link先を確認
Harish RaviPrakash, Syed Muhammad Anwar, Ulas Bagci(参考訳) 本研究では, 潜在空間におけるサンプリング分布の平均および標準偏差を変調する新しいカプセルネットワークベースの変分エンコーダアーキテクチャ, bayesian capsules (b-caps) を提案する。 このアプローチは、従来のアプローチよりも潜在領域における機能のより良い表現を学べると仮定した。 そこで,mnist と fashion-mnist のデータセットでは,提案するモデルを用いた潜在空間において異なるクラスを分離することに成功した。 実験の結果,両データセットの再構成と分類性能が向上し,信頼性が向上した。 また, 潜在空間次元を増加させることにより, 従来の変分オートエンコーダ (vae) と比較して, 提案する b-caps はより良い表現を学習できることを示した。 以上の結果から,VAE設定下では検討されていない表現学習におけるカプセルネットワークの強みが示唆された。

We propose a novel capsule network based variational encoder architecture, called Bayesian capsules (B-Caps), to modulate the mean and standard deviation of the sampling distribution in the latent space. We hypothesized that this approach can learn a better representation of features in the latent space than traditional approaches. Our hypothesis was tested by using the learned latent variables for image reconstruction task, where for MNIST and Fashion-MNIST datasets, different classes were separated successfully in the latent space using our proposed model. Our experimental results have shown improved reconstruction and classification performances for both datasets adding credence to our hypothesis. We also showed that by increasing the latent space dimension, the proposed B-Caps was able to learn a better representation when compared to the traditional variational auto-encoders (VAE). Hence our results indicate the strength of capsule networks in representation learning which has never been examined under the VAE settings before.
翻訳日:2022-10-06 04:24:32 公開日:2020-10-18
# 深部ステレオの運動誘発前兆

Movement-induced Priors for Deep Stereo ( http://arxiv.org/abs/2010.09105v1 )

ライセンス: Link先を確認
Yuxin Hou, Muhammad Kamran Janjua, Juho Kannala, Arno Solin(参考訳) 移動誘導事前情報を用いたステレオ不均質推定手法を提案する。 独立なフレーム・バイ・フレームではなく、フレーム間推論のための移動駆動カーネルで時間的ガウス過程によって非パラメトリック学習タスクとして問題を定式化する。 そこでは,低品質のMEMSセンサを備えたハンドヘルドデバイス用のジャイロスコープ駆動型カーネルを主眼とし,フル6Dカメラの撮影要件を緩和する。 本手法を2つの最先端の深層ステレオ法と組み合わせる方法を示す。 この方法は、事前訓練されたディープステレオネットワークでプラグイン・アンド・プレイ方式で動作するか、エンコーダ・デコーダアーキテクチャと共同でカーネルをトレーニングすることでさらに改善され、一貫した改善をもたらす。

We propose a method for fusing stereo disparity estimation with movement-induced prior information. Instead of independent inference frame-by-frame, we formulate the problem as a non-parametric learning task in terms of a temporal Gaussian process prior with a movement-driven kernel for inter-frame reasoning. We present a hierarchy of three Gaussian process kernels depending on the availability of motion information, where our main focus is on a new gyroscope-driven kernel for handheld devices with low-quality MEMS sensors, thus also relaxing the requirement of having full 6D camera poses available. We show how our method can be combined with two state-of-the-art deep stereo methods. The method either work in a plug-and-play fashion with pre-trained deep stereo networks, or further improved by jointly training the kernels together with encoder-decoder architectures, leading to consistent improvement.
翻訳日:2022-10-06 04:24:15 公開日:2020-10-18
# クレジット・スコーリングのための動的アンサンブル学習 : 比較研究

Dynamic Ensemble Learning for Credit Scoring: A Comparative Study ( http://arxiv.org/abs/2010.08930v1 )

ライセンス: Link先を確認
Mahsan Abdoli, Mohammad Akbari, Jamal Shahrabi(参考訳) ローン申請者によるデフォルトの確率を評価する自動信用スコアは、ローンのリスクを減らすためにピアツーピア融資プラットフォームにおいて重要な役割を果たす。 動的選択手法が分類タスクに有効であることが実証されているが、これらの手法のクレジットスコアリング性能はまだ決定されていない。 本研究では,大規模かつ高次元のクレジットスコアリングデータセット上でのクレジットスコアリングタスクを精度良く推定するために,アンサンブル学習モデルのための動的選択手法を系統的にベンチマークする。 本研究では,特に不均衡なトレーニング環境において,動的選択手法がアンサンブルモデルの性能を高めることを示唆する。

Automatic credit scoring, which assesses the probability of default by loan applicants, plays a vital role in peer-to-peer lending platforms to reduce the risk of lenders. Although it has been demonstrated that dynamic selection techniques are effective for classification tasks, the performance of these techniques for credit scoring has not yet been determined. This study attempts to benchmark different dynamic selection approaches systematically for ensemble learning models to accurately estimate the credit scoring task on a large and high-dimensional real-life credit scoring data set. The results of this study indicate that dynamic selection techniques are able to boost the performance of ensemble models, especially in imbalanced training environments.
翻訳日:2022-10-06 04:23:49 公開日:2020-10-18
# エッジデバイス間のモデル不安定性評価とモデリング

Characterizing and Taming Model Instability Across Edge Devices ( http://arxiv.org/abs/2010.09028v1 )

ライセンス: Link先を確認
Eyal Cidon, Evgenya Pergament, Zain Asgar, Asaf Cidon, Sachin Katti(参考訳) 異なるエッジデバイス上で動作する同じ機械学習モデルが、ほぼ同一の入力で高分散出力を生成する可能性がある。 この違いの可能性がある理由は、デバイスセンサー、デバイスの信号処理ハードウェアとソフトウェア、オペレーティングシステムとプロセッサの違いである。 本稿では,実世界のモバイルデバイス間でのモデル予測のバリエーションの方法論的特徴について述べる。 精度は予測のばらつきを特徴づけるのに有用な指標ではないことを実証し、この変動を捉える新しい指標である不安定性を導入する。 本研究では, オブジェクト分類モデルにおいて, 圧縮フォーマットと画像信号処理の違いが重要な不安定性の原因であることを示す。 特に、我々の実験では、画像の14-17%が1つ以上の電話モデルで異なる分類を作成した。 不安定性を低減するための3つの異なる手法を評価する。 特に、エッジデバイス間の変動に頑健なモデルを微調整するために、モデルにノイズに頑健にするための事前作業に適応する。 微調整技術により不安定度を75%低減することを示した。

The same machine learning model running on different edge devices may produce highly-divergent outputs on a nearly-identical input. Possible reasons for the divergence include differences in the device sensors, the device's signal processing hardware and software, and its operating system and processors. This paper presents the first methodical characterization of the variations in model prediction across real-world mobile devices. We demonstrate that accuracy is not a useful metric to characterize prediction divergence, and introduce a new metric, instability, which captures this variation. We characterize different sources for instability, and show that differences in compression formats and image signal processing account for significant instability in object classification models. Notably, in our experiments, 14-17% of images produced divergent classifications across one or more phone models. We evaluate three different techniques for reducing instability. In particular, we adapt prior work on making models robust to noise in order to fine-tune models to be robust to variations across edge devices. We demonstrate our fine-tuning techniques reduce instability by 75%.
翻訳日:2022-10-06 04:23:38 公開日:2020-10-18
# セルオフロードのためのNOMA支援UAVネットワークにおけるマルチエージェント強化学習

Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for Cellular Offloading ( http://arxiv.org/abs/2010.09094v1 )

ライセンス: Link先を確認
Ruikang Zhong, Xiao Liu, Yuanwei Liu and Yue Chen(参考訳) 複数の無人航空機(UAV)によるセルローディングのための新しい枠組みが提案され、無線ネットワークのスペクトル効率をさらに向上するために、非直交多重アクセス(NOMA)技術が各UAVに採用されている。 スループットを最大化するための3次元3次元軌道設計と電力配分の最適化問題を定式化する。 地上のモバイルユーザーは連続的にローミングされるので、uavはユーザーの移動に基づいてタイムリーに再配置する必要がある。 この関連する動的問題を解決するために、K平均クラスタリングアルゴリズムが最初に採用され、定期的にユーザを分割する。 その後、UAVの最適3次元軌道と電力配分を共同で決定するために、相互深度Q-network(MDQN)アルゴリズムを提案する。 従来のDQNアルゴリズムとは対照的に、MDQNアルゴリズムは、マルチエージェントの経験を共有ニューラルネットワークに入力し、状態抽象化の助けを借りてトレーニング時間を短縮することを可能にする。 数値的な結果は、 1) 提案するmdqnアルゴリズムは,小制約下で収束することができ,マルチエージェントの場合,従来のdqnアルゴリズムよりも収束速度が速い。 2) 直交多重アクセス (OMA) の場合よりも, NOMA 拡張 UAV ネットワークの達成可能な総和率は 23% である。 3) MDONアルゴリズムを用いてUAVの最適3次元軌道を設計することにより, ネットワークの総和率は, 円軌道と2次元軌道をそれぞれ呼び出す場合よりも142%, 56%向上する。

A novel framework is proposed for cellular offloading with the aid of multiple unmanned aerial vehicles (UAVs), while the non-orthogonal multiple access (NOMA) technique is employed at each UAV to further improve the spectrum efficiency of the wireless network. The optimization problem of joint three-dimensional (3D) trajectory design and power allocation is formulated for maximizing the throughput. Since ground mobile users are considered as roaming continuously, the UAVs need to be re-deployed timely based on the movement of users. In an effort to solve this pertinent dynamic problem, a K-means based clustering algorithm is first adopted for periodically partitioning users. Afterward, a mutual deep Q-network (MDQN) algorithm is proposed to jointly determine the optimal 3D trajectory and power allocation of UAVs. In contrast to the conventional DQN algorithm, the MDQN algorithm enables the experience of multi-agent to be input into a shared neural network to shorten the training time with the assistance of state abstraction. Numerical results demonstrate that: 1) the proposed MDQN algorithm is capable of converging under minor constraints and has a faster convergence rate than the conventional DQN algorithm in the multi-agent case; 2) The achievable sum rate of the NOMA enhanced UAV network is 23% superior to the case of orthogonal multiple access (OMA); 3) By designing the optimal 3D trajectory of UAVs with the aid of the MDON algorithm, the sum rate of the network enjoys 142% and 56% gains than that of invoking the circular trajectory and the 2D trajectory, respectively.
翻訳日:2022-10-06 04:23:24 公開日:2020-10-18
# FADER: 高速な逆例の拒絶

FADER: Fast Adversarial Example Rejection ( http://arxiv.org/abs/2010.09119v1 )

ライセンス: Link先を確認
Francesco Crecchi, Marco Melis, Angelo Sotgiu, Davide Bacciu, Battista Biggio(参考訳) ディープニューラルネットワークは、例えば、テスト時に誤った分類を行う注意深く作られた入力に対して脆弱である。 近年の防御は、異なるレイヤー表現における正統な訓練サンプルからの異常な偏差を検出することで、敵の堅牢性を改善することが示されている。 技術的に違いはあるものの、上記の手法はすべて共通のバックボーン構造を共有しており、既存の手法の有望な研究方向と欠点を特定するのに役立つ。 この研究の最初の貢献は、既存の防御と新しい防御の両方に対応するために設計された統一フレームワークの形で、これらの検出方法のレビューである。 欠点として、過剰な防御では、入力サンプルを、おそらく異なる表現層において、過大な数の参照プロトタイプと比較する必要がある。 さらに、このような防御は一般的に、アーキテクチャ全体をエンドツーエンドで最適化するよりも、ヒューリスティックな方法で分類器をセンセンシングすることに基づいている。 本研究の2つ目の貢献として,検出に基づく手法を高速化する新しい手法であるFADERを紹介する。 faderは、rbfネットワークを検出器として使用することで、上記の問題を克服した: 必要なプロトタイプの数を固定することで、敵のサンプル検出器のランタイム複雑さを制御できる。 実験では,MNISTデータセットに対する解析値とCIFAR10データセットに対する分析値と比較して,73倍のプロトタイプを,クリーンデータと逆データの両方の分類精度を犠牲にすることなく,それぞれ50倍まで削減した。

Deep neural networks are vulnerable to adversarial examples, i.e., carefully-crafted inputs that mislead classification at test time. Recent defenses have been shown to improve adversarial robustness by detecting anomalous deviations from legitimate training samples at different layer representations - a behavior normally exhibited by adversarial attacks. Despite technical differences, all aforementioned methods share a common backbone structure that we formalize and highlight in this contribution, as it can help in identifying promising research directions and drawbacks of existing methods. The first main contribution of this work is the review of these detection methods in the form of a unifying framework designed to accommodate both existing defenses and newer ones to come. In terms of drawbacks, the overmentioned defenses require comparing input samples against an oversized number of reference prototypes, possibly at different representation layers, dramatically worsening the test-time efficiency. Besides, such defenses are typically based on ensembling classifiers with heuristic methods, rather than optimizing the whole architecture in an end-to-end manner to better perform detection. As a second main contribution of this work, we introduce FADER, a novel technique for speeding up detection-based methods. FADER overcome the issues above by employing RBF networks as detectors: by fixing the number of required prototypes, the runtime complexity of adversarial examples detectors can be controlled. Our experiments outline up to 73x prototypes reduction compared to analyzed detectors for MNIST dataset and up to 50x for CIFAR10 dataset respectively, without sacrificing classification accuracy on both clean and adversarial data.
翻訳日:2022-10-06 04:22:39 公開日:2020-10-18
# 言語交叉要約のための混合言語前訓練

Mixed-Lingual Pre-training for Cross-lingual Summarization ( http://arxiv.org/abs/2010.08892v1 )

ライセンス: Link先を確認
Ruochen Xu, Chenguang Zhu, Yu Shi, Michael Zeng, Xuedong Huang(参考訳) 言語間要約(CLS)は、ソース言語における記事の目的言語における要約を作成することを目的としている。 伝統的な解は2段階のアプローチ、すなわち、翻訳を要約または要約し、翻訳する。 近年、エンド・ツー・エンドのモデルはより良い結果を得たが、これらのアプローチは大規模ラベル付きデータに依存しているため、ほとんど制限されている。 本稿では,翻訳などの言語横断タスクとマスク言語モデルのような単言語タスクの両方を活用した混合言語事前学習に基づく解を提案する。 したがって,本モデルは,膨大な単言語データを活用して,言語のモデリングを強化することができる。 さらに、アーキテクチャにはタスク固有のコンポーネントがなく、メモリを節約し、最適化の効率を高める。 実験では,この事前学習方式が言語横断要約の性能を効果的に向上させることを示す。 NCLS(Neural Cross-Lingual Summarization)データセットでは,最新の結果よりも2.82(中国語)と1.15(中国語)のROUGE-1スコアが向上している。

Cross-lingual Summarization (CLS) aims at producing a summary in the target language for an article in the source language. Traditional solutions employ a two-step approach, i.e. translate then summarize or summarize then translate. Recently, end-to-end models have achieved better results, but these approaches are mostly limited by their dependence on large-scale labeled data. We propose a solution based on mixed-lingual pre-training that leverages both cross-lingual tasks such as translation and monolingual tasks like masked language models. Thus, our model can leverage the massive monolingual data to enhance its modeling of language. Moreover, the architecture has no task-specific components, which saves memory and increases optimization efficiency. We show in experiments that this pre-training scheme can effectively boost the performance of cross-lingual summarization. In Neural Cross-Lingual Summarization (NCLS) dataset, our model achieves an improvement of 2.82 (English to Chinese) and 1.15 (Chinese to English) ROUGE-1 scores over state-of-the-art results.
翻訳日:2022-10-06 04:15:31 公開日:2020-10-18
# hinglishNorm -- テキスト正規化のためのヒンディー語の混成文コーパス

hinglishNorm -- A Corpus of Hindi-English Code Mixed Sentences for Text Normalization ( http://arxiv.org/abs/2010.08974v1 )

ライセンス: Link先を確認
Piyush Makhija, Ankit Kumar, Anuj Gupta(参考訳) 本稿ではhinglishnormについて述べる。hinglishnormはhinglishnormという、ヒンズー語と英語の混成文による、テキストの正規化タスクのための注釈付きコーパスである。 コーパスの各文は、対応するヒトの注釈付き正規化形式に一致している。 我々の知る限りでは、Hindi- English code-mixed sentences for text normalization task のコーパスは存在しない。 私たちの仕事は、この方向の最初の試みです。 コーパスは13494の並列セグメントを含む。 さらに,本コーパスにベースライン正規化結果を示す。 単語誤り率(wer)は15.55、二言語評価下評価スコア(bleu)スコア(bleu)スコア(71.2)、明示順序(meteor)スコア0.50の翻訳評価用メトリクスを得る。

We present hinglishNorm -- a human annotated corpus of Hindi-English code-mixed sentences for text normalization task. Each sentence in the corpus is aligned to its corresponding human annotated normalized form. To the best of our knowledge, there is no corpus of Hindi-English code-mixed sentences for text normalization task that is publicly available. Our work is the first attempt in this direction. The corpus contains 13494 parallel segments. Further, we present baseline normalization results on this corpus. We obtain a Word Error Rate (WER) of 15.55, BiLingual Evaluation Understudy (BLEU) score of 71.2, and Metric for Evaluation of Translation with Explicit ORdering (METEOR) score of 0.50.
翻訳日:2022-10-06 04:14:58 公開日:2020-10-18
# 多文質問におけるクェントインテント

Querent Intent in Multi-Sentence Questions ( http://arxiv.org/abs/2010.08980v1 )

ライセンス: Link先を確認
Laurie Burchell, Jie Chi, Tom Hosking, Nina Markl, Bonnie Webber(参考訳) 多文質問(Multi-Sentence question、MSQ)は、独立した質問の列とは異なり、単位として答える必要がある関係によって接続された質問の列である。 修辞構造理論 (rst) に従い, msqs の部分部分間の異なる「質問談話関係」が話者の意図を反映していることを認識し, その結果, 異なる回答戦略を導出する。 したがって、これらの関係を正しく特定することは、自動的にMSQに答える重要なステップである。 我々は英語で5種類のMSQを識別し、5つの新しい関係を定義した。 Stack Exchangeから162,000以上のMSQを抽出し、将来の研究を可能にします。 最後に,表面特徴に基づく高精度ベースライン分類器を実装した。

Multi-sentence questions (MSQs) are sequences of questions connected by relations which, unlike sequences of standalone questions, need to be answered as a unit. Following Rhetorical Structure Theory (RST), we recognise that different "question discourse relations" between the subparts of MSQs reflect different speaker intents, and consequently elicit different answering strategies. Correctly identifying these relations is therefore a crucial step in automatically answering MSQs. We identify five different types of MSQs in English, and define five novel relations to describe them. We extract over 162,000 MSQs from Stack Exchange to enable future research. Finally, we implement a high-precision baseline classifier based on surface features.
翻訳日:2022-10-06 04:14:45 公開日:2020-10-18
# UoB at SemEval-2020 Task 1: Automatic Identification of New Word Senses

UoB at SemEval-2020 Task 1: Automatic Identification of Novel Word Senses ( http://arxiv.org/abs/2010.09072v1 )

ライセンス: Link先を確認
Eleri Sarsfield and Harish Tayyar Madabushi(参考訳) 言語が話される社会的な状況と同様に、言語もユーザのニーズに合致するように進化します。 語彙意味変化分析は、単語の意味の変化を時間とともに追跡することを目的とした意味分析の急成長分野である。 本稿では,新しい単語認識に適したベイズ語単語認識帰納法に基づく語彙意味変化検出手法を提案する。 このアプローチは、semeval-2020 task 1への提出に使われ、semevalタスクの能力を示す。 同じアプローチが15年間のTwitterデータから得られたコーパスにも適用され、結果がスラングのインスタンスである可能性のある単語の識別に使用される。

Much as the social landscape in which languages are spoken shifts, language too evolves to suit the needs of its users. Lexical semantic change analysis is a burgeoning field of semantic analysis which aims to trace changes in the meanings of words over time. This paper presents an approach to lexical semantic change detection based on Bayesian word sense induction suitable for novel word sense identification. This approach is used for a submission to SemEval-2020 Task 1, which shows the approach to be capable of the SemEval task. The same approach is also applied to a corpus gleaned from 15 years of Twitter data, the results of which are then used to identify words which may be instances of slang.
翻訳日:2022-10-06 04:14:34 公開日:2020-10-18
# 姿勢検出改善のための事前学習モデルへのカウントベース機能の導入

Incorporating Count-Based Features into Pre-Trained Models for Improved Stance Detection ( http://arxiv.org/abs/2010.09078v1 )

ライセンス: Link先を確認
Anushka Prakash and Harish Tayyar Madabushi(参考訳) ソーシャルメディアの爆発的な成長と人気は、コミュニケーションとコラボレーションの方法に革命をもたらした。 残念ながら、この情報へのアクセスと共有の容易さは、誤情報やプロパガンダの爆発を引き起こした。 スタンス検出が検証性予測に大きく寄与すると考えると、本研究は、他のいくつかのタスクと同様に、事前訓練されたモデルが非常に成功したタスクである、自動スタンス検出の促進に焦点を当てている。 本研究は,機能に基づく情報,特に実行中のクラスにおいて,スタンス検出のタスクが有用であることを示すが,これらの機能をセンセンブルを用いた事前学習モデルに統合することは困難である。 本稿では,これらの課題に対処し,rumoureval 2019データセット上でテストを行う,事前学習されたモデルと機能を統合するための新しいアーキテクチャを提案する。 この方法はテストセット上でF1スコア63.94で最先端の結果を得る。

The explosive growth and popularity of Social Media has revolutionised the way we communicate and collaborate. Unfortunately, this same ease of accessing and sharing information has led to an explosion of misinformation and propaganda. Given that stance detection can significantly aid in veracity prediction, this work focuses on boosting automated stance detection, a task on which pre-trained models have been extremely successful on, as on several other tasks. This work shows that the task of stance detection can benefit from feature based information, especially on certain under performing classes, however, integrating such features into pre-trained models using ensembling is challenging. We propose a novel architecture for integrating features with pre-trained models that address these challenges and test our method on the RumourEval 2019 dataset. This method achieves state-of-the-art results with an F1-score of 63.94 on the test set.
翻訳日:2022-10-06 04:14:20 公開日:2020-10-18
# AIコードの収束と皮質機能 -- 解説

The Convergence of AI code and Cortical Functioning -- a Commentary ( http://arxiv.org/abs/2010.09101v1 )

ライセンス: Link先を確認
David Mumford(参考訳) aiプログラミングの最古のアーキテクチャの一つであるニューラルネットは、生物学的ニューロンとその特性に基づいている。 言語アプリケーションに関する最近の研究により、AIコードはいくつかの点で生物学的現実に近づいた。 この解説は、この収束を考察し、新皮質構造について知られていることを踏まえて、これらのツールで ``general ai'' が達成可能かどうかという疑問に答える。

Neural nets, one of the oldest architectures for AI programming, are loosely based on biological neurons and their properties. Recent work on language applications has made the AI code closer to biological reality in several ways. This commentary examines this convergence and, in light of what is known of neocortical structure, addresses the question of whether ``general AI'' looks attainable with these tools.
翻訳日:2022-10-06 04:14:05 公開日:2020-10-18
# イベントベース行動認識のための時空間バイナリ表現

Temporal Binary Representation for Event-Based Action Recognition ( http://arxiv.org/abs/2010.08946v1 )

ライセンス: Link先を確認
Simone Undri Innocenti, Federico Becattini, Federico Pernici, Alberto Del Bimbo(参考訳) 本稿では,イベントカメラの出力を従来のコンピュータビジョンアルゴリズムで処理可能なフレームに変換するイベント集約戦略を提案する。 提案手法は、まず中間二項表現の列を生成し、その列を単純に二項対決定変換を適用することで、損失なくコンパクトな形式に変換する。 この戦略により、時間情報をピクセル値に直接エンコードし、深層学習モデルで解釈することができる。 我々は,時空間バイナリ表現と呼ばれる手法をジェスチャー認識のタスクに適用し,一般的なDVS128ジェスチャーデータセット上でのアート結果の状態を把握した。 提案手法の有効性を既存手法と比較するために,実験を行う上でより困難な条件下でデータセットの拡張も収集する。

In this paper we present an event aggregation strategy to convert the output of an event camera into frames processable by traditional Computer Vision algorithms. The proposed method first generates sequences of intermediate binary representations, which are then losslessly transformed into a compact format by simply applying a binary-to-decimal conversion. This strategy allows us to encode temporal information directly into pixel values, which are then interpreted by deep learning models. We apply our strategy, called Temporal Binary Representation, to the task of Gesture Recognition, obtaining state of the art results on the popular DVS128 Gesture Dataset. To underline the effectiveness of the proposed method compared to existing ones, we also collect an extension of the dataset under more challenging conditions on which to perform experiments.
翻訳日:2022-10-06 04:13:57 公開日:2020-10-18
# 画像に基づく自動種同定:仮想データ拡張はサンプリング不足の問題を克服できるか?

Image-based Automated Species Identification: Can Virtual Data Augmentation Overcome Problems of Insufficient Sampling? ( http://arxiv.org/abs/2010.09009v1 )

ライセンス: Link先を確認
Morris Klasen, Dirk Ahrens, Jonas Eberle, and Volker Steinhage(参考訳) オートマチックな種同定と分解は、特に稀であり、しばしば希少なサンプル種では困難であり、不特定種と種間変異の十分な識別を許さない。 低または誇張された種間形態分化から生じる典型的な問題は、トレーニングサンプルから効率的かつ効果的な種識別を学ぶ機械学習の自動化方法によって最もよく合致する。 しかし、機械学習においても、限られた赤外線サンプリングが重要な課題である。 本研究では,2段階のデータ拡張アプローチが,視覚的種別の自動識別における訓練データの不足を克服するのに役立つかを検討した。 視覚データ拡張の第1段階は、GANアプローチを用いたデータ拡張と偽画像の生成の古典的なアプローチを適用している。 記述的特徴ベクトルは、vgg-16畳み込みニューラルネットワーク(cnn)のボトルネック特性から導き出され、グローバル平均プールとpcaを用いて段階的に次元が減少し、過剰フィッティングを防止する。 データ拡張の第2段階は、ベクトル空間におけるオーバーサンプリングアルゴリズム(SMOTE)による特徴空間における合成的な追加サンプリングである。 2つの難解な甲虫のデータセット(コレプテリウム科)を応用し、強化アプローチは従来の2次元形態計測手法(Procrustes analysis)と同様に、非強化ディープラーニングベースラインアプローチよりも優れていた。

Automated species identification and delimitation is challenging, particularly in rare and thus often scarcely sampled species, which do not allow sufficient discrimination of infraspecific versus interspecific variation. Typical problems arising from either low or exaggerated interspecific morphological differentiation are best met by automated methods of machine learning that learn efficient and effective species identification from training samples. However, limited infraspecific sampling remains a key challenge also in machine learning. 1In this study, we assessed whether a two-level data augmentation approach may help to overcome the problem of scarce training data in automated visual species identification. The first level of visual data augmentation applies classic approaches of data augmentation and generation of faked images using a GAN approach. Descriptive feature vectors are derived from bottleneck features of a VGG-16 convolutional neural network (CNN) that are then stepwise reduced in dimensionality using Global Average Pooling and PCA to prevent overfitting. The second level of data augmentation employs synthetic additional sampling in feature space by an oversampling algorithm in vector space (SMOTE). Applied on two challenging datasets of scarab beetles (Coleoptera), our augmentation approach outperformed a non-augmented deep learning baseline approach as well as a traditional 2D morphometric approach (Procrustes analysis).
翻訳日:2022-10-06 04:13:44 公開日:2020-10-18
# 顔ランドマーク検出のための深部構造予測

Deep Structured Prediction for Facial Landmark Detection ( http://arxiv.org/abs/2010.09035v1 )

ライセンス: Link先を確認
Lisha Chen, Hui Su, Qiang Ji(参考訳) 既存のディープラーニングに基づく顔のランドマーク検出手法は優れた性能を実現している。 しかし、これらのメソッドはランドマークポイントに構造的依存関係を明示的に埋め込んでいない。 したがって、ランドマーク点間の幾何学的関係を保存できないし、挑戦的な条件や見当たらないデータにうまく一般化できない。 本稿では,深層畳み込みネットワークと条件付きランダムフィールドを組み合わせた深層構造顔のランドマーク検出手法を提案する。 顔のランドマーク検出における既存の最先端技術、特に大きなポーズやオクルージョンを含む挑戦的データセットの一般化能力に優れた性能を示す。

Existing deep learning based facial landmark detection methods have achieved excellent performance. These methods, however, do not explicitly embed the structural dependencies among landmark points. They hence cannot preserve the geometric relationships between landmark points or generalize well to challenging conditions or unseen data. This paper proposes a method for deep structured facial landmark detection based on combining a deep Convolutional Network with a Conditional Random Field. We demonstrate its superior performance to existing state-of-the-art techniques in facial landmark detection, especially a better generalization ability on challenging datasets that include large pose and occlusion.
翻訳日:2022-10-06 04:08:04 公開日:2020-10-18
# 能動学習におけるラベルノイズに対するロバストネスの出現状況

Exploiting Context for Robustness to Label Noise in Active Learning ( http://arxiv.org/abs/2010.09066v1 )

ライセンス: Link先を確認
Sudipta Paul, Shivkumar Chandrasekaran, B.S. Manjunath, Amit K. Roy-Chowdhury(参考訳) コンピュータビジョンにおけるいくつかの研究は、新しいラベルのないデータが利用可能になると、認識モデルに適応するためのアクティブラーニングの有効性を実証している。 これらの作品の多くは、注釈子から得られるラベルが正しいと考えている。 しかし、実際のシナリオでは、ラベルの品質がアノテータに依存しているため、ラベルの一部が間違っていて、認識性能が劣化する可能性がある。 本稿では,その問題点に対処する。 一 検索されたラベルのどれが間違っているかを識別する方法 二 ラベルノイズの負の影響を最小限に抑えるために、マルチクラスアクティブラーニングシステムをどのように適応させるか。 この問題を解決するために,自然データに非常によく見られる相互関係(コンテキスト)を用いてラベルの誤りを検出する,ノイズの多いラベルフィルタリングに基づく学習手法を提案する。 これらの関係をエンコードするためにラベルのないデータのグラフィカル表現を構築し,ノイズラベルが利用可能であればグラフ上で新たな信念を得る。 新たな信念と過去の関係情報を比較することで,不適切なラベルを検出し,認識モデルを正しいラベルで更新し,認識性能を向上する。 これはシーン分類、アクティビティ分類、文書分類の3つの異なる応用で実証されている。

Several works in computer vision have demonstrated the effectiveness of active learning for adapting the recognition model when new unlabeled data becomes available. Most of these works consider that labels obtained from the annotator are correct. However, in a practical scenario, as the quality of the labels depends on the annotator, some of the labels might be wrong, which results in degraded recognition performance. In this paper, we address the problems of i) how a system can identify which of the queried labels are wrong and ii) how a multi-class active learning system can be adapted to minimize the negative impact of label noise. Towards solving the problems, we propose a noisy label filtering based learning approach where the inter-relationship (context) that is quite common in natural data is utilized to detect the wrong labels. We construct a graphical representation of the unlabeled data to encode these relationships and obtain new beliefs on the graph when noisy labels are available. Comparing the new beliefs with the prior relational information, we generate a dissimilarity score to detect the incorrect labels and update the recognition model with correct labels which result in better recognition performance. This is demonstrated in three different applications: scene classification, activity classification, and document classification.
翻訳日:2022-10-06 04:07:55 公開日:2020-10-18
# カプセルを用いた多スケール部分表現変換を用いた歩行認識

Gait Recognition using Multi-Scale Partial Representation Transformation with Capsules ( http://arxiv.org/abs/2010.09084v1 )

ライセンス: Link先を確認
Alireza Sepas-Moghaddam, Saeed Ghorbani, Nikolaus F. Troje, Ali Etemad(参考訳) 歩行認識は、歩行の仕方に基づいて個人を識別することを指すが、カメラの視点や個々人の外観が変化するため、非常に困難である。 歩行認識の現在の手法は、特に部分的特徴表現に基づく深層学習モデルによって支配されている。 本研究では,カプセルを用いたマルチスケール部分歩行表現の伝達を学習し,より識別的な歩行特徴を得る,新しいディープネットワークを提案する。 まず,最先端の深部特徴抽出器を用いて,マルチスケール部分表現を求める。 その後、双方向Gated Recurrent Units (BGRU) を用いて、前向きおよび後方方向の部分的特徴間のパターンの相関と共起を繰り返し学習する。 最後に、カプセルネットワークを採用して、より深いパート・whole関係を学び、より関連する特徴に重みを割り当て、スプリアス次元を無視している。 このようにして、視聴と外観の変化の両方に対してより堅牢な最終機能を得る。 CASIA-BとOU-MVLPという2つの歩行認識データセットに対して,4つの挑戦的テストプロトコルを用いて実験を行った。 提案手法の結果は,現状の歩行認識ソリューションと比較され,特に視認性や搬送条件に直面する場合のモデルの優位性を示している。

Gait recognition, referring to the identification of individuals based on the manner in which they walk, can be very challenging due to the variations in the viewpoint of the camera and the appearance of individuals. Current methods for gait recognition have been dominated by deep learning models, notably those based on partial feature representations. In this context, we propose a novel deep network, learning to transfer multi-scale partial gait representations using capsules to obtain more discriminative gait features. Our network first obtains multi-scale partial representations using a state-of-the-art deep partial feature extractor. It then recurrently learns the correlations and co-occurrences of the patterns among the partial features in forward and backward directions using Bi-directional Gated Recurrent Units (BGRU). Finally, a capsule network is adopted to learn deeper part-whole relationships and assigns more weights to the more relevant features while ignoring the spurious dimensions. That way, we obtain final features that are more robust to both viewing and appearance changes. The performance of our method has been extensively tested on two gait recognition datasets, CASIA-B and OU-MVLP, using four challenging test protocols. The results of our method have been compared to the state-of-the-art gait recognition solutions, showing the superiority of our model, notably when facing challenging viewing and carrying conditions.
翻訳日:2022-10-06 04:07:39 公開日:2020-10-18
# 部分表現の注意的反復学習によるビュー不変歩行認識

View-Invariant Gait Recognition with Attentive Recurrent Learning of Partial Representations ( http://arxiv.org/abs/2010.09092v1 )

ライセンス: Link先を確認
Alireza Sepas-Moghaddam, Ali Etemad(参考訳) 歩行認識とは、歩行中に身体の動きから得られる特徴に基づいて個人を識別することを指す。 近年の深層学習による歩容認識の進歩にもかかわらず、正確な歩容認識システムを実現するためには、カメラアングル、被写体ポーズ、オクルージョン、衣服などのデータ取得と外観のバリエーションが考慮される必要がある。 本稿では,まず,フレームレベルの畳み込み特徴から歩行畳み込みエネルギーマップ(GCEM)を抽出するネットワークを提案する。 次に、GCEMの分割ビンから学ぶために双方向のリカレントニューラルネットワークを採用し、学習された部分時空間表現の関係を利用する。 次に、注意機構を用いて、異なるシナリオにおける識別情報が異なるGCEMビンに存在する可能性があるため、重要な繰り返し学習された部分表現に選択的にフォーカスする。 提案モデルは4種類のテストプロトコルを用いて,2つの大規模casia-bおよびou-mvlp gaitデータセット上で大規模にテストされてきた。 さらに,6種類の合成オクルージョンの存在下で,モデルが頑健であることを示す包括的実験を行った。 実験の結果,提案手法の優位性を示し,特に衣服や搬送条件が異なる場合において,最先端の手法よりも優れていた。 また,本モデルは,最先端手法と比較して,異なる閉塞に対してより堅牢であることを示した。

Gait recognition refers to the identification of individuals based on features acquired from their body movement during walking. Despite the recent advances in gait recognition with deep learning, variations in data acquisition and appearance, namely camera angles, subject pose, occlusions, and clothing, are challenging factors that need to be considered for achieving accurate gait recognition systems. In this paper, we propose a network that first learns to extract gait convolutional energy maps (GCEM) from frame-level convolutional features. It then adopts a bidirectional recurrent neural network to learn from split bins of the GCEM, thus exploiting the relations between learned partial spatiotemporal representations. We then use an attention mechanism to selectively focus on important recurrently learned partial representations as identity information in different scenarios may lie in different GCEM bins. Our proposed model has been extensively tested on two large-scale CASIA-B and OU-MVLP gait datasets using four different test protocols and has been compared to a number of state-of-the-art and baseline solutions. Additionally, a comprehensive experiment has been performed to study the robustness of our model in the presence of six different synthesized occlusions. The experimental results show the superiority of our proposed method, outperforming the state-of-the-art, especially in scenarios where different clothing and carrying conditions are encountered. The results also revealed that our model is more robust against different occlusions as compared to the state-of-the-art methods.
翻訳日:2022-10-06 04:07:19 公開日:2020-10-18
# トップダウン注意を伴う教師なしフォビアビジョンニューラルネットワーク

Unsupervised Foveal Vision Neural Networks with Top-Down Attention ( http://arxiv.org/abs/2010.09103v1 )

ライセンス: Link先を確認
Ryan Burt, Nina N. Thigpen, Andreas Keil, Jose C. Principe(参考訳) ディープラーニングアーキテクチャは、イメージを認識および分類するための非常に強力なツールである。 しかし、教師付き学習が必要で、通常は画像ピクセルのサイズをベクターで処理し、何百万ものオブジェクトイメージでトレーニングすると、最高の結果が得られる。 これらの問題を緩和するために、オブジェクト認識モジュールが関連するデータに集中し、後で特定のタスクのために微調整できる重要な特徴を学ぶのに役立つ、教師なし学習技術のみを用いてボトムアップ・サリエンシとトップダウン・アテンションの融合を提案する。 また、データの関連部分のみを利用することで、トレーニング速度を大幅に向上させることができる。 トロントとCAT2000のデータベース上で提案したガンマサリエンシ手法とストリートビューハウスナンバーズ(SVHN)データベースにおけるファベレージビジョンの性能を検証した。 その結果,ガンマ塩分濃度は最良かつ計算的に高速であることがわかった。 SVHNの結果,我々の非教師なし認知アーキテクチャは完全教師付き手法に匹敵するものであり,ガンマサリエンシは望めばCNN性能も向上することが示された。 また,CNNの上位層に適用したガンマ塩分度に基づくトップダウンアテンション機構を開発し,背景が乱れの強いマルチオブジェクト画像や画像のシーン理解を改善する。 自然界に隠された動物のイメージデータセットにおいて、人間の観察者と比較すると、トップダウンの注意は、背景から物体を曖昧にし、人間の観察者以上のシステム性能を向上させることができる。

Deep learning architectures are an extremely powerful tool for recognizing and classifying images. However, they require supervised learning and normally work on vectors the size of image pixels and produce the best results when trained on millions of object images. To help mitigate these issues, we propose the fusion of bottom-up saliency and top-down attention employing only unsupervised learning techniques, which helps the object recognition module to focus on relevant data and learn important features that can later be fine-tuned for a specific task. In addition, by utilizing only relevant portions of the data, the training speed can be greatly improved. We test the performance of the proposed Gamma saliency technique on the Toronto and CAT2000 databases, and the foveated vision in the Street View House Numbers (SVHN) database. The results in foveated vision show that Gamma saliency is comparable to the best and computationally faster. The results in SVHN show that our unsupervised cognitive architecture is comparable to fully supervised methods and that the Gamma saliency also improves CNN performance if desired. We also develop a topdown attention mechanism based on the Gamma saliency applied to the top layer of CNNs to improve scene understanding in multi-object images or images with strong background clutter. When we compare the results with human observers in an image dataset of animals occluded in natural scenes, we show that topdown attention is capable of disambiguating object from background and improves system performance beyond the level of human observers.
翻訳日:2022-10-06 04:06:54 公開日:2020-10-18
# CNNニューロンは何を学ぶか:可視化とクラスタリング

What do CNN neurons learn: Visualization & Clustering ( http://arxiv.org/abs/2010.11725v1 )

ライセンス: Link先を確認
Haoyue Dai(参考訳) 近年、畳み込みニューラルネットワーク(cnn)は様々なタスクで著しく進歩している。 しかし、高い性能にもかかわらず、トレーニングと予測のプロセスはブラックボックスのままであり、CNNで学習するニューロンを抽出することは謎のままである。 本稿では、入力画像の焦点と嗜好の面からCNNを解釈する問題と、ニューロンが支配し、活性化し、具体的な最終的な予測に寄与する問題に対処する。 具体的には、上記の問題に取り組むために、可視化とクラスタリングの2つのテクニックを使用します。 可視化とは,画像画素の勾配降下の手法であり,クラスタリング部では,画像カテゴリとネットワークニューロンにそれぞれ2つのアルゴリズムをクラスタリングする。 実験と定量的解析により、ニューロンは何を学ぶのかという2つの方法の有効性が示された。

In recent years convolutional neural networks (CNN) have shown striking progress in various tasks. However, despite the high performance, the training and prediction process remains to be a black box, leaving it a mystery to extract what neurons learn in CNN. In this paper, we address the problem of interpreting a CNN from the aspects of the input image's focus and preference, and the neurons' domination, activation and contribution to a concrete final prediction. Specifically, we use two techniques - visualization and clustering - to tackle the problems above. Visualization means the method of gradient descent on image pixel, and in clustering section two algorithms are proposed to cluster respectively over image categories and network neurons. Experiments and quantitative analyses have demonstrated the effectiveness of the two methods in explaining the question: what do neurons learn.
翻訳日:2022-10-06 04:05:58 公開日:2020-10-18
# リカレント畳み込みニューラルネットワークを用いた科学文献からの視覚に基づくレイアウト検出

Vision-Based Layout Detection from Scientific Literature using Recurrent Convolutional Neural Networks ( http://arxiv.org/abs/2010.11727v1 )

ライセンス: Link先を確認
Huichen Yang, William H. Hsu(参考訳) 本稿では,複数の情報抽出問題の共有サブタスクである科学的文献レイアウト検出(SLLD)に,オブジェクト認識と分類のための畳み込みニューラルネットワークを適用するアプローチを提案する。 学術出版物には、様々な分野の研究者が求めている様々な種類の情報が含まれており、抽象的、文献学、関連する研究、実験方法、成果を文書化したセクションで構成されている。 本稿では,学術文書の主要な領域を分類・分類するエンドツーエンド学習フレームワークを開発するための新しいアプローチを提案する。 我々は,デジタル画像上のオブジェクト検出タスクとして,学習過程でネットワークに付加される必要のある追加のテキスト機能を持たずに,科学的文書レイアウト解析を考察する。 我々の技術的目的は、事前学習ネットワークの微調整によるトランスファーラーニングを実装し、このディープラーニングアーキテクチャが、非常に大きな文書コーパスを欠いたタスクに適していることを示すことである。 このアプローチを実証的に評価するための実験的なテストベッドの一部として,科学出版レイアウト検出タスクのための統合マルチコーパスデータセットを作成した。 本研究の結果は, ベースライン畳み込みニューラルネットワークアーキテクチャと比較して, この統合データセットを用いた事前学習ベースネットワークの微調整により良好な改善が得られた。

We present an approach for adapting convolutional neural networks for object recognition and classification to scientific literature layout detection (SLLD), a shared subtask of several information extraction problems. Scientific publications contain multiple types of information sought by researchers in various disciplines, organized into an abstract, bibliography, and sections documenting related work, experimental methods, and results; however, there is no effective way to extract this information due to their diverse layout. In this paper, we present a novel approach to developing an end-to-end learning framework to segment and classify major regions of a scientific document. We consider scientific document layout analysis as an object detection task over digital images, without any additional text features that need to be added into the network during the training process. Our technical objective is to implement transfer learning via fine-tuning of pre-trained networks and thereby demonstrate that this deep learning architecture is suitable for tasks that lack very large document corpora for training ab initio. As part of the experimental test bed for empirical evaluation of this approach, we created a merged multi-corpus data set for scientific publication layout detection tasks. Our results show good improvement with fine-tuning of a pre-trained base network using this merged data set, compared to the baseline convolutional neural network architecture.
翻訳日:2022-10-06 04:05:44 公開日:2020-10-18
# 電気通信業界における正しい顧客への正しいオファーを動的に行う

Dynamically Tie the Right Offer to the Right Customer in Telecommunications Industry ( http://arxiv.org/abs/2010.12539v1 )

ライセンス: Link先を確認
Kunal Sawarkar, Sanket Jain(参考訳) 成功したビジネスにとって、効果的なキャンペーンに参加することはマーケターにとって重要なタスクだ。 これまでの研究では、顧客セグメンテーションとキャンペーンの相関を考慮せずに、様々な数学的モデルを用いて顧客をセグメンテーションした。 本研究は,顧客セグメンテーションコンテキストにおける顧客ターゲティングの重要なキャンペーン依存変数を研究することにより,概念モデルを提案する。 このようにして、顧客セグメンテーションとターゲティングのプロセスがリンクされ、一緒に解決される。 この研究の顧客セグメンテーションの結果は、マーケターにとってより意味があり、関連性があるかもしれない。 この調査は、ターゲットとする顧客グループとマーケティング戦略の適合性を評価するために、カスタマライフタイムバリュー(ltv)モデルを適用する。 顧客セグメンテーションと顧客ターゲティングを統合するために、この研究は遺伝的アルゴリズム(GA)を用いて最適化されたマーケティング戦略を決定する。 その後,SPSS PASW Modeler の C&RT (Classification and Regression Tree) を遺伝的アルゴリズムの代替として用いることを提案する。 また,正しい顧客へのオファーを動的に設計するために,lossycounting と count bloom filter を使うことも提案する。

For a successful business, engaging in an effective campaign is a key task for marketers. Most previous studies used various mathematical models to segment customers without considering the correlation between customer segmentation and a campaign. This work presents a conceptual model by studying the significant campaign-dependent variables of customer targeting in customer segmentation context. In this way, the processes of customer segmentation and targeting thus can be linked and solved together. The outcomes of customer segmentation of this study could be more meaningful and relevant for marketers. This investigation applies a customer life time value (LTV) model to assess the fitness between targeted customer groups and marketing strategies. To integrate customer segmentation and customer targeting, this work uses the genetic algorithm (GA) to determine the optimized marketing strategy. Later, we suggest using C&RT (Classification and Regression Tree) in SPSS PASW Modeler as the replacement to Genetic Algorithm technique to accomplish these results. We also suggest using LOSSYCOUNTING and Counting Bloom Filter to dynamically design the right and up-to-date offer to the right customer.
翻訳日:2022-10-06 04:05:22 公開日:2020-10-18
# クラウドソーシング知識グラフに基づく授業システムの構築と応用

Construction and Application of Teaching System Based on Crowdsourcing Knowledge Graph ( http://arxiv.org/abs/2010.08995v1 )

ライセンス: Link先を確認
Jinta Weng, Ying Gao, Jing Qiu, Guozhu Ding, Huanqin Zheng(参考訳) クラウドソーシング・ナレッジグラフと教育システムを組み合わせることで,ナレッジグラフの生成とその応用に関する研究を行う。 2つのクラウドソーシング手法、クラウドソーシングタスク分布と逆カプチャ生成を用いて、教育分野における知識グラフを構築する。 学校のノード,生徒,教師,コース,知識ポイント,エクササイズタイプによって,教示領域の完全な階層的知識グラフを生成する。 クラウドソーシング方式で構築された知識グラフでは,教師の指導やユーザの動員問題を十分に考慮して,多くのユーザが協力して参加する必要がある。 知識グラフの3つの部分グラフに基づいて、著名な教師、学生の学習状況、適切な学習経路を視覚化することができる。 パーソナライズされたエクササイズレコメンデーションモデルは、知識グラフに基づいてアルゴリズムによってパーソナライズされたエクササイズを定式化する。 クラウドソーシング構築機構を実現するために共同作成モデルを開発した。 知識グラフの学習モードや学習者の知識構造への注意の低さに慣れていないが、クラウドソーシング知識グラフに基づくシステムは学生や教師の間でも高い評価を受けることができる。

Through the combination of crowdsourcing knowledge graph and teaching system, research methods to generate knowledge graph and its applications. Using two crowdsourcing approaches, crowdsourcing task distribution and reverse captcha generation, to construct knowledge graph in the field of teaching system. Generating a complete hierarchical knowledge graph of the teaching domain by nodes of school, student, teacher, course, knowledge point and exercise type. The knowledge graph constructed in a crowdsourcing manner requires many users to participate collaboratively with fully consideration of teachers' guidance and users' mobilization issues. Based on the three subgraphs of knowledge graph, prominent teacher, student learning situation and suitable learning route could be visualized. Personalized exercises recommendation model is used to formulate the personalized exercise by algorithm based on the knowledge graph. Collaborative creation model is developed to realize the crowdsourcing construction mechanism. Though unfamiliarity with the learning mode of knowledge graph and learners' less attention to the knowledge structure, system based on Crowdsourcing Knowledge Graph can still get high acceptance around students and teachers
翻訳日:2022-10-06 03:59:07 公開日:2020-10-18
# 帯域制限ネットワークにおけるフェデレーション学習のためのスライディング微分進化スケジューリング

Sliding Differential Evolution Scheduling for Federated Learning in Bandwidth-Limited Networks ( http://arxiv.org/abs/2010.08991v1 )

ライセンス: Link先を確認
Yifan Luo, Jindan Xu, Wei Xu, Kezhi Wang(参考訳) エネルギー制限ユーザ機器(ues)を備えた帯域制限ネットワークにおけるフェデレーション学習(fl)は未検討である。 本稿では,バッテリ制限UEが消費するエネルギーを共同で節約し,帯域幅制限ネットワークにおけるグローバルモデルの収束を加速するために,スライディング微分進化型スケジューリング(SDES)ポリシーを提案する。 この目的のために、まずエネルギー消費の重み付けとモデルトレーニング収束を最小化する最適化を定式化する。 次に,複数の小型ウィンドウにおける並列微分進化(DE)演算を用いたSDESを適用し,提案した問題に効果的に対処する。 既存のスケジューリングポリシと比較して,提案したSDESは,計算複雑性の低いモデル収束とエネルギー消費の低減に有効である。

Federated learning (FL) in a bandwidth-limited network with energy-limited user equipments (UEs) is under-explored. In this paper, to jointly save energy consumed by the battery-limited UEs and accelerate the convergence of the global model in FL for the bandwidth-limited network, we propose the sliding differential evolution-based scheduling (SDES) policy. To this end, we first formulate an optimization that aims to minimize a weighted sum of energy consumption and model training convergence. Then, we apply the SDES with parallel differential evolution (DE) operations in several small-scale windows, to address the above proposed problem effectively. Compared with existing scheduling policies, the proposed SDES performs well in reducing energy consumption and the model convergence with lower computational complexity.
翻訳日:2022-10-06 03:58:47 公開日:2020-10-18
# 教師なし表現学習

Federated Unsupervised Representation Learning ( http://arxiv.org/abs/2010.08982v1 )

ライセンス: Link先を確認
Fengda Zhang, Kun Kuang, Zhaoyang You, Tao Shen, Jun Xiao, Yin Zhang, Chao Wu, Yueting Zhuang, Xiaolin Li(参考訳) 分散エッジデバイス上の膨大なラベルなしデータを活用するために,federated unsupervised representation learning(furl)と呼ばれるフェデレーション学習における新たな問題を定式化し,データのプライバシを保ちながら,監視することなく共通表現モデルを学ぶ。 1) クライアント間のデータ分散シフト(Non-IID分散)は、ローカルモデルを異なるカテゴリにフォーカスさせ、表現空間の不整合をもたらす。 2) FURLのクライアント間で統一された情報がなければ、クライアント間の表現は不一致になります。 これらの課題に対処するために,辞書とアライメントを用いたFederated Constrastive Averaging(FedCA)アルゴリズムを提案する。 fedcaは、(1)各クライアントからサンプルの表現を集約し、表現空間の一貫性のためにすべてのクライアントと共有するディクショナリモジュール、(2)各クライアントの表現をパブリックデータでトレーニングされたベースモデルにアライメントするアライメントモジュールの2つのキーモジュールで構成されている。 我々は、局所モデルトレーニングにおいて対照的な損失を採用する。 IIDおよび非IID設定における3つの評価プロトコルによる広範囲な実験を通して、FedCAが全ての基準線を著しく上回っていることを示す。

To leverage enormous unlabeled data on distributed edge devices, we formulate a new problem in federated learning called Federated Unsupervised Representation Learning (FURL) to learn a common representation model without supervision while preserving data privacy. FURL poses two new challenges: (1) data distribution shift (Non-IID distribution) among clients would make local models focus on different categories, leading to the inconsistency of representation spaces. (2) without the unified information among clients in FURL, the representations across clients would be misaligned. To address these challenges, we propose Federated Constrastive Averaging with dictionary and alignment (FedCA) algorithm. FedCA is composed of two key modules: (1) dictionary module to aggregate the representations of samples from each client and share with all clients for consistency of representation space and (2) alignment module to align the representation of each client on a base model trained on a public data. We adopt the contrastive loss for local model training. Through extensive experiments with three evaluation protocols in IID and Non-IID settings, we demonstrate that FedCA outperforms all baselines with significant margins.
翻訳日:2022-10-06 03:58:03 公開日:2020-10-18
# 学習の最適化のためのより強いベースラインのトレーニング

Training Stronger Baselines for Learning to Optimize ( http://arxiv.org/abs/2010.09089v1 )

ライセンス: Link先を確認
Tianlong Chen, Weiyi Zhang, Jingyang Zhou, Shiyu Chang, Sijia Liu, Lisa Amini, Zhangyang Wang(参考訳) L2O(Learning to Optimization)は、古典的なオプティマイザが複雑な問題固有の設計とハイパーパラメータチューニングを必要とするため、注目を集めている。 しかし、既存のL2Oモデルの実用的需要と達成可能な性能の間にはギャップがある。 特に、学習されたオプティマイザは、限られた種類の問題のみに適用でき、しばしば不安定である。 より洗練されたL2Oモデルを設計するための多くの取り組みにより、我々は、L2Oモデルのトレーニング技術である、直交的で未探索の別のテーマを論じる。 我々は、最も単純なl2oモデルでさえ、もっと良く訓練できることを示した。 まず, トランケーションバイアス(スローターアンロール)と勾配爆発(より長いアンロール)のよく知られたL2Oジレンマを軽減するために, アンロール長を徐々に増加させるプログレッシブトレーニング手法を提案する。 分析オプティマイザの振舞いを参考にして,L2O学習の指導に外部の模倣学習を活用する。 改良されたトレーニング技術は、様々な最先端のL2Oモデルにプラグインされ、モデル構造を変更することなく、即座に性能を向上します。 特に,提案手法により,複数のタスクにおいて,最新の複雑なL2Oモデルよりも高速かつ簡便なL2Oモデルを訓練することができる。 以上の結果から,L2Oは未発表であり,近年の進展を再考するよう促している。 私たちのコードは、https://github.com/VITA-Group/L2O-Training-Techniques.comで公開されています。

Learning to optimize (L2O) has gained increasing attention since classical optimizers require laborious problem-specific design and hyperparameter tuning. However, there is a gap between the practical demand and the achievable performance of existing L2O models. Specifically, those learned optimizers are applicable to only a limited class of problems, and often exhibit instability. With many efforts devoted to designing more sophisticated L2O models, we argue for another orthogonal, under-explored theme: the training techniques for those L2O models. We show that even the simplest L2O model could have been trained much better. We first present a progressive training scheme to gradually increase the optimizer unroll length, to mitigate a well-known L2O dilemma of truncation bias (shorter unrolling) versus gradient explosion (longer unrolling). We further leverage off-policy imitation learning to guide the L2O learning, by taking reference to the behavior of analytical optimizers. Our improved training techniques are plugged into a variety of state-of-the-art L2O models, and immediately boost their performance, without making any change to their model structures. Especially, by our proposed techniques, an earliest and simplest L2O model can be trained to outperform the latest complicated L2O models on a number of tasks. Our results demonstrate a greater potential of L2O yet to be unleashed, and urge to rethink the recent progress. Our codes are publicly available at: https://github.com/VITA-Group/L2O-Training-Techniques.
翻訳日:2022-10-06 03:57:37 公開日:2020-10-18
# 時空間グラフに基づくハイブリッド感染症モデルとCOVID-19への応用

A Spatial-Temporal Graph Based Hybrid Infectious Disease Model with Application to COVID-19 ( http://arxiv.org/abs/2010.09077v1 )

ライセンス: Link先を確認
Yunling Zheng, Zhijian Li, Jack Xin, Guofa Zhou(参考訳) 新型コロナウイルスのパンデミックが進むにつれて、信頼できる予測が政策立案に重要な役割を果たす。 古典的な感染症モデルSEIR(susceptible-exposed-infectious-recovered)は、コンパクトだが単純化された時間モデルである。 RNN(リカレントニューラルネットワーク)のようなデータ駆動機械学習モデルは、COVID-19のような時系列データに制限がある場合に悩む可能性がある。 本稿では,グラフ構造上にSEIRとRNNを組み合わせることで,学習と予測の精度と効率を両立させるハイブリッド時空間モデルを構築する。 グラフ構造には,ノード特徴(局所時間感染傾向)とエッジ特徴(地理的隣接効果)の2つの特徴を導入する。 ノードの特徴に対して、勾配降下法がその最適化に容易に適用できるように、SEIRから離散再帰(I-equation)を導出する。 エッジの特徴として,隣り合う効果を捉え,損失関数のランドスケープを正規化するためにRNNモデルを設計し,局所最小値が有効かつ堅牢であるようにした。 結果として得られたハイブリッドモデル(IeRNNと呼ばれる)は、米国による新型コロナウイルスの新しいケースデータの予測精度を改善し、1日と7日前の予測で標準時間モデル(RNN、SEIR、ARIMA)を上回っている。 我々のモデルは様々なレベルの再開に対応し、政策立案者に潜在的な成果をもたらします。

As the COVID-19 pandemic evolves, reliable prediction plays an important role for policy making. The classical infectious disease model SEIR (susceptible-exposed-infectious-recovered) is a compact yet simplistic temporal model. The data-driven machine learning models such as RNN (recurrent neural networks) can suffer in case of limited time series data such as COVID-19. In this paper, we combine SEIR and RNN on a graph structure to develop a hybrid spatio-temporal model to achieve both accuracy and efficiency in training and forecasting. We introduce two features on the graph structure: node feature (local temporal infection trend) and edge feature (geographic neighbor effect). For node feature, we derive a discrete recursion (called I-equation) from SEIR so that gradient descend method applies readily to its optimization. For edge feature, we design an RNN model to capture the neighboring effect and regularize the landscape of loss function so that local minima are effective and robust for prediction. The resulting hybrid model (called IeRNN) improves the prediction accuracy on state-level COVID-19 new case data from the US, out-performing standard temporal models (RNN, SEIR, and ARIMA) in 1-day and 7-day ahead forecasting. Our model accommodates various degrees of reopening and provides potential outcomes for policymakers.
翻訳日:2022-10-06 03:56:57 公開日:2020-10-18
# SQによる強騒音下でのロバスト学習

Robust Learning under Strong Noise via SQs ( http://arxiv.org/abs/2010.09106v1 )

ライセンス: Link先を確認
Ioannis Anagnostides, Themis Gouleakis, Ali Marashian(参考訳) この研究は、カーンズの統計クエリーフレームワークが挑戦的なラベルノイズモデルに対して堅牢であることに関するいくつかの新しい洞察を提供する。 まず,Massartノイズ下での分布独立に進化可能な概念クラスの耐雑音性を示す「cite{DBLP:journals/corr/abs-2006-04787}」による最近の結果に基づく。 具体的には、それらの特性をより一般的なノイズモデルに拡張し、tsybakovモデルでは、反転確率を領域のサブセットに対して任意に$\frac{1}{2}$に近づけることで、マッサート条件をかなり一般化する。 線形しきい値関数を球対称なTsybakov雑音が存在する場合の任意の球対称分布上の線形しきい値関数を任意に学習するために、最小限の余剰誤差を持つ最初の多項式時間アルゴリズムを得るために、DBLP:conf/colt/KanadeVV10} の進化的アルゴリズムを用いる。 さらに、より強いオラクルへのアクセスを仮定し、ラベル付き例ごとにそのフリップ確率を得る。 このモデルでは、全てのSQ学習可能なクラスがOPT+$\epsilon$誤分類誤差を持つ効率的な学習アルゴリズムを持つことを示す。 この設定は、RCNの下で既知の雑音率で広く研究されている分類問題をかなり一般化し、ノイズ関数、すなわち全ての点の反転確率が予め知られている場合でも、非凸最適化問題に対応する。

This work provides several new insights on the robustness of Kearns' statistical query framework against challenging label-noise models. First, we build on a recent result by \cite{DBLP:journals/corr/abs-2006-04787} that showed noise tolerance of distribution-independently evolvable concept classes under Massart noise. Specifically, we extend their characterization to more general noise models, including the Tsybakov model which considerably generalizes the Massart condition by allowing the flipping probability to be arbitrarily close to $\frac{1}{2}$ for a subset of the domain. As a corollary, we employ an evolutionary algorithm by \cite{DBLP:conf/colt/KanadeVV10} to obtain the first polynomial time algorithm with arbitrarily small excess error for learning linear threshold functions over any spherically symmetric distribution in the presence of spherically symmetric Tsybakov noise. Moreover, we posit access to a stronger oracle, in which for every labeled example we additionally obtain its flipping probability. In this model, we show that every SQ learnable class admits an efficient learning algorithm with OPT + $\epsilon$ misclassification error for a broad class of noise models. This setting substantially generalizes the widely-studied problem of classification under RCN with known noise rate, and corresponds to a non-convex optimization problem even when the noise function -- i.e. the flipping probabilities of all points -- is known in advance.
翻訳日:2022-10-06 03:56:37 公開日:2020-10-18
# 恐れのないdag - ベイズネットワーク学習のための継続的最適化をよく見る

DAGs with No Fears: A Closer Look at Continuous Optimization for Learning Bayesian Networks ( http://arxiv.org/abs/2010.09133v1 )

ライセンス: Link先を確認
Dennis Wei, Tian Gao, Yue Yu(参考訳) 本稿では,ベイズネットワーク学習のためのNOTEARSという連続最適化フレームワークを再検討する。 まず、非環の既存の代数的特徴付けを行列多項式のクラスに一般化する。 次に,エッジ当たり1パラメータの設定に着目して,関連するアルゴリズムの挙動を説明する自明な場合を除いては,切り欠きの定式化に対するカルス・クーン・タッカー(kkt)最適条件は満足できないことを示した。 次に、等価な再構成のためにKKT条件を導出し、それらが本当に必要であることを示し、グラフから特定の辺が欠落する明示的な制約に関連付ける。 スコア関数が凸であれば、これらのKKT条件は制約の非凸性にも拘わらず局所最小性にも十分である。 kkt条件により局所探索後処理アルゴリズムが提案され、一般に2以上の係数で全てのテスト済みアルゴリズムの構造ハミング距離を実質的に普遍的に改善することが示されている。 ローカル検索の組み合わせは、元のNOTEARSよりも正確かつ効率的である。

This paper re-examines a continuous optimization framework dubbed NOTEARS for learning Bayesian networks. We first generalize existing algebraic characterizations of acyclicity to a class of matrix polynomials. Next, focusing on a one-parameter-per-edge setting, it is shown that the Karush-Kuhn-Tucker (KKT) optimality conditions for the NOTEARS formulation cannot be satisfied except in a trivial case, which explains a behavior of the associated algorithm. We then derive the KKT conditions for an equivalent reformulation, show that they are indeed necessary, and relate them to explicit constraints that certain edges be absent from the graph. If the score function is convex, these KKT conditions are also sufficient for local minimality despite the non-convexity of the constraint. Informed by the KKT conditions, a local search post-processing algorithm is proposed and shown to substantially and universally improve the structural Hamming distance of all tested algorithms, typically by a factor of 2 or more. Some combinations with local search are both more accurate and more efficient than the original NOTEARS.
翻訳日:2022-10-06 03:56:10 公開日:2020-10-18
# deepaveragers:非パラメトリックmdpによるオフライン強化学習

DeepAveragers: Offline Reinforcement Learning by Solving Derived Non-Parametric MDPs ( http://arxiv.org/abs/2010.08891v1 )

ライセンス: Link先を確認
Aayam Shrestha, Stefan Lee, Prasad Tadepalli, Alan Fern(参考訳) 静的な経験データセットから得られる有限表現型MDPを最適に解くことに基づくオフライン強化学習(RL)へのアプローチについて検討する。 このアプローチは、学習した表現の上に適用でき、環境や目標の変更に対するゼロショット調整だけでなく、複数のソリューション目標を簡単にサポートできる可能性がある。 我々の主な貢献は、Deep Averagers with Costs MDP (DAC-MDP)を導入し、オフラインRLに対するソリューションを検討することである。 dac-mdpsは非パラメトリックモデルであり、モデルの未表示部分を利用するためのコストを導入することで、深い表現を活用でき、限られたデータも考慮できる。 理論的には、DAC-MDPソリューションの性能を低く抑える条件を示す。 また,画像に基づく観察を含む様々な環境における経験的行動についても検討した。 全体として、実験はフレームワークが実際に動作し、大規模で複雑なオフラインのrl問題にスケールできることを示しています。

We study an approach to offline reinforcement learning (RL) based on optimally solving finitely-represented MDPs derived from a static dataset of experience. This approach can be applied on top of any learned representation and has the potential to easily support multiple solution objectives as well as zero-shot adjustment to changing environments and goals. Our main contribution is to introduce the Deep Averagers with Costs MDP (DAC-MDP) and to investigate its solutions for offline RL. DAC-MDPs are a non-parametric model that can leverage deep representations and account for limited data by introducing costs for exploiting under-represented parts of the model. In theory, we show conditions that allow for lower-bounding the performance of DAC-MDP solutions. We also investigate the empirical behavior in a number of environments, including those with image-based observations. Overall, the experiments demonstrate that the framework can work in practice and scale to large complex offline RL problems.
翻訳日:2022-10-06 03:49:39 公開日:2020-10-18
# 深層学習における重要度ランキング

Feature Importance Ranking for Deep Learning ( http://arxiv.org/abs/2010.08973v1 )

ライセンス: Link先を確認
Maksymilian Wojtas and Ke Chen(参考訳) 機能の重要度ランキングは、説明可能なAIの強力なツールになっている。 しかし、組合せ最適化の性質はディープラーニングにとって大きな課題となる。 本稿では,固定サイズの最適特徴部分集合の発見と,それらの特徴の重要性を同時にランク付けするための演算子とセレクタからなる,新しいデュアルネットアーキテクチャを提案する。 学習中、オペレータは、異なる最適なサブセット候補に取り組んでいるオペレータの学習性能を予測するセレクタによって生成された最適な特徴サブセット候補を介して教師付き学習タスクのために訓練される。 本研究では,2つのネットを共同で学習し,確率的局所探索手順を学習に組み込んだ学習アルゴリズムを開発した。 配置では、セレクタは最適な機能サブセットを生成し、特徴の重要性をランク付けし、オペレータはテストデータに最適なサブセットに基づいて予測を行う。 合成,ベンチマーク,実データに関する徹底的な評価から,提案手法は,最先端の機能重要度ランキングや教師付き機能選択手法よりも優れていることが示唆された。 (ソースコードはhttps://github.com/maksym33/featureimportancedl)

Feature importance ranking has become a powerful tool for explainable AI. However, its nature of combinatorial optimization poses a great challenge for deep learning. In this paper, we propose a novel dual-net architecture consisting of operator and selector for discovery of an optimal feature subset of a fixed size and ranking the importance of those features in the optimal subset simultaneously. During learning, the operator is trained for a supervised learning task via optimal feature subset candidates generated by the selector that learns predicting the learning performance of the operator working on different optimal subset candidates. We develop an alternate learning algorithm that trains two nets jointly and incorporates a stochastic local search procedure into learning to address the combinatorial optimization challenge. In deployment, the selector generates an optimal feature subset and ranks feature importance, while the operator makes predictions based on the optimal subset for test data. A thorough evaluation on synthetic, benchmark and real data sets suggests that our approach outperforms several state-of-the-art feature importance ranking and supervised feature selection methods. (Our source code is available: https://github.com/maksym33/FeatureImportanceDL)
翻訳日:2022-10-06 03:49:21 公開日:2020-10-18
# 量子回帰を用いた変分オートエンコーダの可変収縮

Addressing Variance Shrinkage in Variational Autoencoders using Quantile Regression ( http://arxiv.org/abs/2010.09042v1 )

ライセンス: Link先を確認
Haleh Akrami, Anand A. Joshi, Sergul Aydore and Richard M. Leahy(参考訳) 深層学習モデルにおける不確実性の推定は、不確実性を考慮せず推論に依存することが誤診につながる可能性がある医学画像において、特に重要である。 近年,医療画像の病変検出などの応用において,確率的変動オートエンコーダ(VAE)が異常検出の一般的なモデルとなっている。 VAEは、サンプルからデータ分布を学習し、この分布から新しいサンプルを生成するために使用される生成グラフィカルモデルである。 通常のサンプルでトレーニングすることで、この学習された分布から逸脱する入力を検出するためにvaeが使用できる。 VAEは出力を、各出力次元の手段と分散によって特徴づけられる条件独立ガウスとしてモデル化する。 従ってvaesは、異常検出のために再構成誤差の代わりに再構成確率を用いることができる。 残念なことに、VAEにおける平均値と分散量の共同最適化は、分散の縮小や過小評価というよく知られた問題につながる。 本稿では、この分散縮小問題を量子回帰を用いて回避する代替手法について述べる。 ガウスの仮定の下で平均と分散を計算するために推定四分位数を用いて, 異常検出や異常検出の原理的手法として再構成確率を計算する。 シミュレーションおよびファッションMNISTデータを用いて,本手法の有効性を示した。 また,脳画像における病変検出の原理的不均一しきい値設定に,我々のアプローチをどのように利用できるかを示す。

Estimation of uncertainty in deep learning models is of vital importance, especially in medical imaging, where reliance on inference without taking into account uncertainty could lead to misdiagnosis. Recently, the probabilistic Variational AutoEncoder (VAE) has become a popular model for anomaly detection in applications such as lesion detection in medical images. The VAE is a generative graphical model that is used to learn the data distribution from samples and then generate new samples from this distribution. By training on normal samples, the VAE can be used to detect inputs that deviate from this learned distribution. The VAE models the output as a conditionally independent Gaussian characterized by means and variances for each output dimension. VAEs can therefore use reconstruction probability instead of reconstruction error for anomaly detection. Unfortunately, joint optimization of both mean and variance in the VAE leads to the well-known problem of shrinkage or underestimation of variance. We describe an alternative approach that avoids this variance shrinkage problem by using quantile regression. Using estimated quantiles to compute mean and variance under the Gaussian assumption, we compute reconstruction probability as a principled approach to outlier or anomaly detection. Results on simulated and Fashion MNIST data demonstrate the effectiveness of our approach. We also show how our approach can be used for principled heterogeneous thresholding for lesion detection in brain images.
翻訳日:2022-10-06 03:49:02 公開日:2020-10-18
# 理解に基づくQA読解のためのBERTの解釈に向けて

Towards Interpreting BERT for Reading Comprehension Based QA ( http://arxiv.org/abs/2010.08983v1 )

ライセンス: Link先を確認
Sahana Ramnath, Preksha Nema, Deep Sahni, Mitesh M. Khapra(参考訳) BERTとその変種は様々なNLPタスクで最先端のパフォーマンスを達成した。 それ以来、BERTで収集された言語情報を分析するための様々な研究が提案されている。 しかし、現在の研究は、BERTが理解に基づく質問回答を読み取るタスクにおいて、人間レベルに近いパフォーマンスを達成できるという洞察を与えていない。 本研究では,BERT を RCQA に対して解釈しようとする。 BERT層は事前に定義された役割を持っていないので、統合勾配を使ってレイヤの役割や機能を定義します。 定義された役割に基づいて、すべての層にわたって予備分析を行う。 最初のレイヤはクエリとパッセージのインタラクションに重点を置いているのに対して、後のレイヤはコンテキストの理解と回答予測の強化に重点を置いています。 特に数量化問題(数/数)については、bertが後段の層で混乱した単語(つまり、他の数量)に焦点を当てていることに気付くが、それでも正しく答えを予測できる。 微調整と解析のスクリプトはhttps://github.com/iitmnlp/BERT-Analysis-RCQAで公開される。

BERT and its variants have achieved state-of-the-art performance in various NLP tasks. Since then, various works have been proposed to analyze the linguistic information being captured in BERT. However, the current works do not provide an insight into how BERT is able to achieve near human-level performance on the task of Reading Comprehension based Question Answering. In this work, we attempt to interpret BERT for RCQA. Since BERT layers do not have predefined roles, we define a layer's role or functionality using Integrated Gradients. Based on the defined roles, we perform a preliminary analysis across all layers. We observed that the initial layers focus on query-passage interaction, whereas later layers focus more on contextual understanding and enhancing the answer prediction. Specifically for quantifier questions (how much/how many), we notice that BERT focuses on confusing words (i.e., on other numerical quantities in the passage) in the later layers, but still manages to predict the answer correctly. The fine-tuning and analysis scripts will be publicly available at https://github.com/iitmnlp/BERT-Analysis-RCQA .
翻訳日:2022-10-06 03:48:43 公開日:2020-10-18
# k近傍表現を用いたモデル動作の説明と改善

Explaining and Improving Model Behavior with k Nearest Neighbor Representations ( http://arxiv.org/abs/2010.09030v1 )

ライセンス: Link先を確認
Nazneen Fatema Rajani, Ben Krause, Wengpeng Yin, Tong Niu, Richard Socher, Caiming Xiong(参考訳) NLPの解釈可能性技術は主に、注目の可視化やトークン上の勾配に基づく正当性マップを用いて、個々の予測を理解することに焦点を当てている。 モデル予測に責任のあるトレーニング例を特定し,モデル動作のコーパスレベルでの理解を得るため, k 近傍(kNN)表現を提案する。 解釈性以外にも、kNN表現は学習したスプリアス関係の発見、ラベルの誤りの特定、微調整モデルの性能向上に有効であることを示す。 ケーススタディとして自然言語推論(nli)に注目し,複数のデータセットを実験する。 本手法では,モデルパラメータを更新することなく,モデル信頼性の低い例に対して,BERT と RoBERTa の kNN へのバックオフをデプロイする。 以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。

Interpretability techniques in NLP have mainly focused on understanding individual predictions using attention visualization or gradient-based saliency maps over tokens. We propose using k nearest neighbor (kNN) representations to identify training examples responsible for a model's predictions and obtain a corpus-level understanding of the model's behavior. Apart from interpretability, we show that kNN representations are effective at uncovering learned spurious associations, identifying mislabeled examples, and improving the fine-tuned model's performance. We focus on Natural Language Inference (NLI) as a case study and experiment with multiple datasets. Our method deploys backoff to kNN for BERT and RoBERTa on examples with low model confidence without any update to the model parameters. Our results indicate that the kNN approach makes the finetuned model more robust to adversarial inputs.
翻訳日:2022-10-06 03:48:10 公開日:2020-10-18
# Graphite: ポイントクラウド登録のための Graph-induced feaTure 抽出

Graphite: GRAPH-Induced feaTure Extraction for Point Cloud Registration ( http://arxiv.org/abs/2010.09079v1 )

ライセンス: Link先を確認
Mahdi Saleh, Shervin Dehghani, Benjamin Busam, Nassir Navab, Federico Tombari(参考訳) 3dポイントクラウドは、ビジョンコミュニティで人気が高まっているリッチな情報ソースです。 しかし、その表現の幅が広いため、大きな点のクラウドに基づく学習モデルは依然として課題である。 本稿では,グラフによって引き起こされる特徴抽出パイプラインであるgraphiteと,単純かつ強力な特徴変換とキーポイント検出器を紹介する。 Graphiteは、ディスクリプタを伴うキーポイント検出を備えたポイントクラウドの集中的なダウンサンプリングを可能にする。 我々は,ポイントクラウド領域を記述し,サルエントポイントを抽出するための汎用的なグラフベース学習スキームを構築した。 この目的のために、6次元ポーズ情報とメトリック学習を利用して、異なるスキャンでロバストな記述とキーポイントを学習する。 グラフニューラルネットワークを用いて3Dキーポイントパイプラインを再構成し,その記述力を高めながら,より正確な3D登録を実現する。 一般的な3D記述子マッチングとポイントクラウド登録ベンチマークで軽量な記述子を実演し、最先端技術と同等の結果を得る。 ポイントクラウドの100パッチを記述し、キーポイントを検出するには、提案したネットワークで0.018秒しかかからない。

3D Point clouds are a rich source of information that enjoy growing popularity in the vision community. However, due to the sparsity of their representation, learning models based on large point clouds is still a challenge. In this work, we introduce Graphite, a GRAPH-Induced feaTure Extraction pipeline, a simple yet powerful feature transform and keypoint detector. Graphite enables intensive down-sampling of point clouds with keypoint detection accompanied by a descriptor. We construct a generic graph-based learning scheme to describe point cloud regions and extract salient points. To this end, we take advantage of 6D pose information and metric learning to learn robust descriptions and keypoints across different scans. We Reformulate the 3D keypoint pipeline with graph neural networks which allow efficient processing of the point set while boosting its descriptive power which ultimately results in more accurate 3D registrations. We demonstrate our lightweight descriptor on common 3D descriptor matching and point cloud registration benchmarks and achieve comparable results with the state of the art. Describing 100 patches of a point cloud and detecting their keypoints takes only ~0.018 seconds with our proposed network.
翻訳日:2022-10-06 03:47:56 公開日:2020-10-18
# エンドツーエンド音声対話質問応答のためのデータ蒸留に向けて

Towards Data Distillation for End-to-end Spoken Conversational Question Answering ( http://arxiv.org/abs/2010.08923v1 )

ライセンス: Link先を確認
Chenyu You, Nuo Chen, Fenglin Liu, Dongchao Yang, Yuexian Zou(参考訳) 音声による質問応答では、QAシステムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。 しかし、人間が知識を探ったり、試したりする最も自然な方法は、人間の会話である。 そこで本研究では,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。 本研究の目的は,音声とテキストの双方で会話型質問に対処するQAシステムの構築と,情報収集システムを用いた音声文書により多くの手がかりを提供する可能性を探ることである。 そこで,本研究では,高ノイズデータを用いた自動生成音声書き起こしを採用する代わりに,音声テキスト機能を直接融合して自動音声認識仮説と参照書き起こしのミスアライメントを低減する,新しい統合データ蒸留手法DDNetを提案する。 さらに,対話型対話におけるQAシステムの能力を評価するため,120k以上の質問応答対を持つ音声対話型質問応答(Spoken-CoQA)データセットを作成した。 提案手法は,対話型質問応答において優れた性能が得られることを示す。

In spoken question answering, QA systems are designed to answer questions from contiguous text spans within the related speech transcripts. However, the most natural way that human seek or test their knowledge is via human conversations. Therefore, we propose a new Spoken Conversational Question Answering task (SCQA), aiming at enabling QA systems to model complex dialogues flow given the speech utterances and text corpora. In this task, our main objective is to build a QA system to deal with conversational questions both in spoken and text forms, and to explore the plausibility of providing more cues in spoken documents with systems in information gathering. To this end, instead of adopting automatically generated speech transcripts with highly noisy data, we propose a novel unified data distillation approach, DDNet, which directly fuse audio-text features to reduce the misalignment between automatic speech recognition hypotheses and the reference transcriptions. In addition, to evaluate the capacity of QA systems in a dialogue-style interaction, we assemble a Spoken Conversational Question Answering (Spoken-CoQA) dataset with more than 120k question-answer pairs. Experiments demonstrate that our proposed method achieves superior performance in spoken conversational question answering.
翻訳日:2022-10-06 03:47:07 公開日:2020-10-18