このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210925となっている論文です。

PDF登録状況(公開日: 20210925)

TitleAuthorsAbstract論文公表日・翻訳日
# cenn: 複雑なジオメトリを含む異種問題を解くためのサブドメイン付きニューラルネットワークに基づく保守的エネルギー法

CENN: Conservative energy method based on neural network with subdomains for solving heterogeneous problems involving complex geometries ( http://arxiv.org/abs/2110.01359v1 )

ライセンス: Link先を確認
Yizheng Wang, Jia Sun, Xiang Li, Yinghua Liu(参考訳) 本稿では,境界ペナルティのない基本境界条件を満たす許容関数を放射基底関数,特に解ニューラルネットワーク,一般ニューラルネットワークによって構成する,サブドメインを持つニューラルネットワーク(CENN)に基づく保守的エネルギー手法を提案する。 界面における損失項は、サブドメインを持つ強形式PINNと比較して下位階微分を持つ。 提案手法を代表例に適用して,提案手法が強い不連続性,特異性,複素境界,非線形,不均一なPDE問題をモデル化できることを示す。 この方法の利点は、強い形状ピンに比べて効率と精度が優れていることである。 この手法が異種問題に対処する上で自然に有利であることを強調しておく価値がある。

We propose a conservative energy method based on a neural network with subdomains (CENN), where the admissible function satisfying the essential boundary condition without boundary penalty is constructed by the radial basis function, particular solution neural network, and general neural network. The loss term at the interfaces has the lower order derivative compared to the strong form PINN with subdomains. We apply the proposed method to some representative examples to demonstrate the ability of the proposed method to model strong discontinuity, singularity, complex boundary, non-linear, and heterogeneous PDE problems. The advantage of the method is the efficiency and accuracy compared to the strong form PINN. It is worth emphasizing that the method has a natural advantage in dealing with heterogeneous problems.
翻訳日:2021-10-10 11:45:54 公開日:2021-09-25
# CLEF-2019 CheckThat の概要 請求項の自動識別と検証

Overview of the CLEF-2019 CheckThat!: Automatic Identification and Verification of Claims ( http://arxiv.org/abs/2109.15118v1 )

ライセンス: Link先を確認
Tamer Elsayed, Preslav Nakov, Alberto Barr\'on-Cede\~no, Maram Hasanain, Reem Suwaileh, Giovanni Da San Martino, Pepa Atanasova(参考訳) 以下は、CheckThatの第2版の概要である。 CLEF 2019に参加。 実験室は英語とアラビア語の2つの異なる言語で2つのタスクをこなした。 タスク1(英: Task 1)は、政治討論や言論のどの主張が事実確認に優先されるべきかを予測するために参加するシステムに挑戦する。 タスク2(アラビア語)は、(a)そのクレームの事実チェックの有用性に基づいて、チェック価値の高いクレームについて、あるwebページの集合をランク付けするよう求め、(b)これらの同じwebページを、そのクレームを事実チェックする有用度に応じて分類し、(c)これらのページから有用な節を識別し、(d)クレームの事実性を予測するために有用ページを使用する。 CheckThat!は、英語のデータ(ファクトチェックソースから)とアラビア語(スクラッチから収集、注釈付け)からなる完全な評価フレームワークを提供し、平均精度(MAP)と正規化割引累積ゲイン(nDCG)に基づく評価と分類のためのF1を提供する。 このラボには計47チームが登録され、そのうち14チームが実際に申請した(昨年は9チームだった)。 評価の結果,タスク1の最も成功したアプローチは,様々なニューラルネットワークとロジスティック回帰を用いた。 第2タスクについては、Aサブタスクの最高スコアランで学習 to ランクが使用され、他のサブタスクでは異なる分類器が使用された。 我々は,研究室から得られたすべてのデータセットと評価スクリプトを研究コミュニティにリリースし,検査責任評価と自動クレーム検証の重要なタスクについて,さらなる研究を可能にする。

We present an overview of the second edition of the CheckThat! Lab at CLEF 2019. The lab featured two tasks in two different languages: English and Arabic. Task 1 (English) challenged the participating systems to predict which claims in a political debate or speech should be prioritized for fact-checking. Task 2 (Arabic) asked to (A) rank a given set of Web pages with respect to a check-worthy claim based on their usefulness for fact-checking that claim, (B) classify these same Web pages according to their degree of usefulness for fact-checking the target claim, (C) identify useful passages from these pages, and (D) use the useful pages to predict the claim's factuality. CheckThat! provided a full evaluation framework, consisting of data in English (derived from fact-checking sources) and Arabic (gathered and annotated from scratch) and evaluation based on mean average precision (MAP) and normalized discounted cumulative gain (nDCG) for ranking, and F1 for classification. A total of 47 teams registered to participate in this lab, and fourteen of them actually submitted runs (compared to nine last year). The evaluation results show that the most successful approaches to Task 1 used various neural networks and logistic regression. As for Task 2, learning-to-rank was used by the highest scoring runs for subtask A, while different classifiers were used in the other subtasks. We release to the research community all datasets from the lab as well as the evaluation scripts, which should enable further research in the important tasks of check-worthiness estimation and automatic claim verification.
翻訳日:2021-10-03 10:43:11 公開日:2021-09-25
# 単言語paraphrasesを用いた統計的機械翻訳の改良

Improved statistical machine translation using monolingual paraphrases ( http://arxiv.org/abs/2109.15119v1 )

ライセンス: Link先を確認
Preslav Nakov(参考訳) 本稿では,統計的機械翻訳システムの学習データを「無償」に拡張するための,一言語文の新たなパラフレーズ化手法を提案する。 構文木から始めて、名詞化合物が適切な前置詞を用いてパラフレーズ化される新しい文変種を再帰的に生成し、副詞-前置詞を含む名詞句を名詞化合物に変換する。 評価の結果,トレーニングデータの倍増による改善率は33%~50%であった。

We propose a novel monolingual sentence paraphrasing method for augmenting the training data for statistical machine translation systems "for free" -- by creating it from data that is already available rather than having to create more aligned data. Starting with a syntactic tree, we recursively generate new sentence variants where noun compounds are paraphrased using suitable prepositions, and vice-versa -- preposition-containi ng noun phrases are turned into noun compounds. The evaluation shows an improvement equivalent to 33%-50% of that of doubling the amount of training data.
翻訳日:2021-10-03 10:42:05 公開日:2021-09-25
# (参考訳) テンソルフル特徴量とその非凸緩和によるテンソル回復への応用 [全文訳有]

Tensor Full Feature Measure and Its Nonconvex Relaxation Applications to Tensor Recovery ( http://arxiv.org/abs/2109.12257v1 )

ライセンス: CC BY 4.0
Hongbing Zhang, Xinyi Liu, Hongtao Fan, Yajing Li, Yinlin Ye(参考訳) テンソルスパースモデリング(tensor sparse modeling) 有望なアプローチとして、科学とエンジニアリング全般において大きな成功を収めました。 一般には、実用上の様々なデータは複数の要因によって生成されることが多いため、複数の要因の内部構造を含むデータを表すテンソルが使われるようになった。 しかし、行列の場合と異なり、テンソルの適切なスパース測度を構築することは比較的困難で非常に重要なタスクである。 そこで本稿では,テンソル全特徴測度(ffm)と呼ばれる新しいテンソルスパーシティ測度を提案する。 テンソルの各次元の特徴情報と関連する2次元間の特徴を同時に記述し、タッカーランクとテンソルチューブランクを接続することができる。 この測定方法は、テンソルのスパース特性をより包括的に記述することができる。 本研究では,その非凸緩和を確立させ,FFMを低階テンソル完備化(LRTC)およびテンソル頑健成分分析(TRPCA)に適用する。 FFMに基づくLRTCとTRPCAモデルを提案し、提案モデルを解決するために2つの効率的なalternating Direction Multiplier Method (ADMM)アルゴリズムを開発した。 様々な実数値実験は、最先端以上の提案手法の優位性を裏付けるものである。

Tensor sparse modeling as a promising approach, in the whole of science and engineering has been a huge success. As is known to all, various data in practical application are often generated by multiple factors, so the use of tensors to represent the data containing the internal structure of multiple factors came into being. However, different from the matrix case, constructing reasonable sparse measure of tensor is a relatively difficult and very important task. Therefore, in this paper, we propose a new tensor sparsity measure called Tensor Full Feature Measure (FFM). It can simultaneously describe the feature information of each dimension of the tensor and the related features between two dimensions, and connect the Tucker rank with the tensor tube rank. This measurement method can describe the sparse features of the tensor more comprehensively. On this basis, we establish its non-convex relaxation, and apply FFM to low rank tensor completion (LRTC) and tensor robust principal component analysis (TRPCA). LRTC and TRPCA models based on FFM are proposed, and two efficient Alternating Direction Multiplier Method (ADMM) algorithms are developed to solve the proposed model. A variety of real numerical experiments substantiate the superiority of the proposed methods beyond state-of-the-arts.
翻訳日:2021-10-01 07:16:59 公開日:2021-09-25
# (参考訳) 屋内シーン分類のための機械学習アルゴリズムの恥ずかしいほど簡単な比較 [全文訳有]

An embarrassingly simple comparison of machine learning algorithms for indoor scene classification ( http://arxiv.org/abs/2109.12261v1 )

ライセンス: CC BY 4.0
Bhanuka Manesha Samarasekara Vitharana Gamage(参考訳) 自律的な屋内ロボットの出現により、屋内シーン認識のコンピュータビジョンタスクが注目を浴びている。 屋内シーン認識は、シーン内のローカル機能とグローバル機能に依存するコンピュータビジョンにおいて難しい問題である。 本研究の目的は,屋内シーン分類作業における5つの機械学習アルゴリズムの性能を比較し,各分類器の長所と短所を特定することである。 また、パフォーマンス効果を理解するために、低レイテンシの特徴抽出器と巨大な特徴抽出器の比較も提供する。 最後に,MnasNetを用いた簡易室内分類システムを提案し,23msのレイテンシで72%の精度を実現する。

With the emergence of autonomous indoor robots, the computer vision task of indoor scene recognition has gained the spotlight. Indoor scene recognition is a challenging problem in computer vision that relies on local and global features in a scene. This study aims to compare the performance of five machine learning algorithms on the task of indoor scene classification to identify the pros and cons of each classifier. It also provides a comparison of low latency feature extractors versus enormous feature extractors to understand the performance effects. Finally, a simple MnasNet based indoor classification system is proposed, which can achieve 72% accuracy at 23 ms latency.
翻訳日:2021-09-30 14:27:12 公開日:2021-09-25
# (参考訳) スケーラブルなデータ駆動状態推定のためのリカレントニューラルネットワークとデータ同化の統合 [全文訳有]

Integrating Recurrent Neural Networks with Data Assimilation for Scalable Data-Driven State Estimation ( http://arxiv.org/abs/2109.12269v1 )

ライセンス: CC BY 4.0
Stephen G. Penny, Timothy A. Smith, Tse-Chun Chen, Jason A. Platt, Hsin-Yi Lin, Michael Goodliff, Henry D.I. Abarbanel(参考訳) データ同化(DA)は、完全にデータ駆動のオンライン状態推定を実行するために機械学習と統合される。 これを実現するために、従来の数値予測モデル、予測誤差共分散行列、接線および随伴モデルを含む数値天気予測(NWP)におけるDAサイクルのキーコンポーネントを置き換えるために、リカレントニューラルネットワーク(RNN)を代理モデルとして実装する。 DA法を用いてこれらのRNNを初期化して,対象システムの観測結果と直接更新する方法について述べる。 その結果、従来の数値予測モデルが存在しない場合でも、短期予測の繰り返し初期化のためのシステムの状態推定にこれらの手法が適用可能であることが示された。 さらに、これらの統合されたRNN-DA法は、ドメインのローカライゼーションと並列化を適用して、より高次元にスケールできることを示し、NWPにおける実用的な応用の道筋を提供する。

Data assimilation (DA) is integrated with machine learning in order to perform entirely data-driven online state estimation. To achieve this, recurrent neural networks (RNNs) are implemented as surrogate models to replace key components of the DA cycle in numerical weather prediction (NWP), including the conventional numerical forecast model, the forecast error covariance matrix, and the tangent linear and adjoint models. It is shown how these RNNs can be initialized using DA methods to directly update the hidden/reservoir state with observations of the target system. The results indicate that these techniques can be applied to estimate the state of a system for the repeated initialization of short-term forecasts, even in the absence of a traditional numerical forecast model. Further, it is demonstrated how these integrated RNN-DA methods can scale to higher dimensions by applying domain localization and parallelization, providing a path for practical applications in NWP.
翻訳日:2021-09-30 14:03:55 公開日:2021-09-25
# (参考訳) FedProc:非IIDデータを用いた原型コントラスト型フェデレーション学習 [全文訳有]

FedProc: Prototypical Contrastive Federated Learning on Non-IID data ( http://arxiv.org/abs/2109.12273v1 )

ライセンス: CC BY 4.0
Xutong Mu, Yulong Shen, Ke Cheng, Xueli Geng, Jiaxuan Fu, Tao Zhang, Zhiwei Zhang(参考訳) フェデレーション学習は、複数のクライアントが協力して、トレーニングデータをローカルに保持しながら、ハイパフォーマンスなディープラーニングモデルをトレーニングできる。 しかしながら、すべてのクライアントのローカルデータが独立ではなく、同じ分散(すなわち非iid)である場合、この形式の効率的な協調学習を実装することは困難である。 この課題に対処するために多大な努力がなされているが、画像分類タスクへの影響はまだ十分ではない。 本稿では,単純かつ効果的な連合学習フレームワークであるfeedproc:prototypica l contrastive federated learningを提案する。 重要なアイデアは、プロトタイプをグローバル知識として活用して、各クライアントのローカルトレーニングを修正することだ。 我々は,局所的なネットワークアーキテクチャとグローバルな原型的コントラスト損失を設計して,局所モデルのトレーニングを規制し,局所的な目的をグローバルな最適性と整合させる。 最終的に、収束したグローバルモデルは、非IIDデータの優れた性能を得る。 実験結果によると、最先端のフェデレーション学習法と比較して、FedProcは計算コストを許容して精度を1.6\%\sim7.9\%で改善している。

Federated learning allows multiple clients to collaborate to train high-performance deep learning models while keeping the training data locally. However, when the local data of all clients are not independent and identically distributed (i.e., non-IID), it is challenging to implement this form of efficient collaborative learning. Although significant efforts have been dedicated to addressing this challenge, the effect on the image classification task is still not satisfactory. In this paper, we propose FedProc: prototypical contrastive federated learning, which is a simple and effective federated learning framework. The key idea is to utilize the prototypes as global knowledge to correct the local training of each client. We design a local network architecture and a global prototypical contrastive loss to regulate the training of local models, which makes local objectives consistent with the global optima. Eventually, the converged global model obtains a good performance on non-IID data. Experimental results show that, compared to state-of-the-art federated learning methods, FedProc improves the accuracy by $1.6\%\sim7.9\%$ with acceptable computation cost.
翻訳日:2021-09-30 13:40:24 公開日:2021-09-25
# (参考訳) 4つのトレーニング可能なパラメータを持つVIOの完全微分可能・解釈可能モデル [全文訳有]

Fully Differentiable and Interpretable Model for VIO with 4 Trainable Parameters ( http://arxiv.org/abs/2109.12292v1 )

ライセンス: CC BY 4.0
Zexi Chen, Haozhe Du, Yiyi Liao, Yue Wang, Rong Xiong(参考訳) vio (monocular visual-inertial odometry) は、ロボット工学と自動運転における重要な問題である。 従来の手法はフィルタリングや最適化に基づいてこの問題を解決する。 完全に解釈可能である一方で、手動の干渉と経験的パラメータチューニングに依存している。 一方、学習ベースのアプローチはエンドツーエンドのトレーニングを可能にするが、数百万のパラメータを学習するには大量のトレーニングデータを必要とする。 しかし、解釈不能で重いモデルは一般化能力を妨げる。 本稿では,4つのトレーニング可能なパラメータのみを含む完全微分可能,解釈可能,軽量な単分子VIOモデルを提案する。 具体的には, 音の共分散行列を学習し, imu生データのノイズをフィルタする, ピッチとロールを予測するための微分可能な層として, 香気のないカルマンフィルタを最初に採用した。 次に、改良されたピッチとロールを採用して、異なるカメラプロジェクションを用いて各フレームの重力方向のBEV画像を取得する。 最後に、微分可能なポーズ推定器を用いて、bevフレーム間の残りの4つのdofポーズを推定する。 提案手法は,ポーズ推定損失によって制御される共分散行列を学習し,経験的ベースラインよりも優れた性能を示す。 合成および実世界のデータセットの実験結果は、我々の単純なアプローチが最先端の手法と競合し、目に見えない場面でうまく一般化していることを示している。

Monocular visual-inertial odometry (VIO) is a critical problem in robotics and autonomous driving. Traditional methods solve this problem based on filtering or optimization. While being fully interpretable, they rely on manual interference and empirical parameter tuning. On the other hand, learning-based approaches allow for end-to-end training but require a large number of training data to learn millions of parameters. However, the non-interpretable and heavy models hinder the generalization ability. In this paper, we propose a fully differentiable, interpretable, and lightweight monocular VIO model that contains only 4 trainable parameters. Specifically, we first adopt Unscented Kalman Filter as a differentiable layer to predict the pitch and roll, where the covariance matrices of noise are learned to filter out the noise of the IMU raw data. Second, the refined pitch and roll are adopted to retrieve a gravity-aligned BEV image of each frame using differentiable camera projection. Finally, a differentiable pose estimator is utilized to estimate the remaining 4 DoF poses between the BEV frames. Our method allows for learning the covariance matrices end-to-end supervised by the pose estimation loss, demonstrating superior performance to empirical baselines. Experimental results on synthetic and real-world datasets demonstrate that our simple approach is competitive with state-of-the-art methods and generalizes well on unseen scenes.
翻訳日:2021-09-30 13:26:27 公開日:2021-09-25
# (参考訳) ASAGシステム構築のための微細トランスモデル

Finetuning Transformer Models to Build ASAG System ( http://arxiv.org/abs/2109.12300v1 )

ライセンス: CC BY 4.0
Mithun Thakkar(参考訳) 学習環境におけるクイズに対する学生回答の自動評価システムの構築に関する研究は,1966年から行われている。 長年にわたり、問題は様々なカテゴリーに分けられた。 そのうち,文章の解答は,短答の採点と随筆の採点に分けられた。 この研究の目的はMLベースの短解階調システムを開発することである。 そこで私は、stsベンチマークデータセットで事前トレーニングされたroberta large modelの微調整を使用するシステムを構築し、システムの運用準備状況を示すインターフェースも作成しました。 モーラー拡張データセットとSciEntsBank Datasetでシステムの性能を評価した。 開発したシステムは,0.82,rmse 0.7のピアソンズ相関をmohlerデータセット上で達成し,0.805,rmse 0.793の相関であるこのデータセットのsota性能を上回った。 さらに、ピアソンズ相関の0.79とRMSEの0.56は、システムの堅牢性を再確認するSciEntsBank Datasetで達成された。 これらの結果を達成する過程において、バッチサイズ1の使用は、16または32のバッチサイズよりも優れた結果をもたらし、この回帰タスクでよく機能する損失関数としてフーバーロスを使用した。 このシステムは、様々なランダムな種を使って列車と検証用の分割でテストされ、それでも、あらゆるデータセットで最大0.76の相関と最大0.15 (out of 1) rmseを達成するために調整されている。

Research towards creating systems for automatic grading of student answers to quiz and exam questions in educational settings has been ongoing since 1966. Over the years, the problem was divided into many categories. Among them, grading text answers were divided into short answer grading, and essay grading. The goal of this work was to develop an ML-based short answer grading system. I hence built a system which uses finetuning on Roberta Large Model pretrained on STS benchmark dataset and have also created an interface to show the production readiness of the system. I evaluated the performance of the system on the Mohler extended dataset and SciEntsBank Dataset. The developed system achieved a Pearsons Correlation of 0.82 and RMSE of 0.7 on the Mohler Dataset which beats the SOTA performance on this dataset which is correlation of 0.805 and RMSE of 0.793. Additionally, Pearsons Correlation of 0.79 and RMSE of 0.56 was achieved on the SciEntsBank Dataset, which only reconfirms the robustness of the system. A few observations during achieving these results included usage of batch size of 1 produced better results than using batch size of 16 or 32 and using huber loss as loss function performed well on this regression task. The system was tried and tested on train and validation splits using various random seeds and still has been tweaked to achieve a minimum of 0.76 of correlation and a maximum 0.15 (out of 1) RMSE on any dataset.
翻訳日:2021-09-30 13:14:32 公開日:2021-09-25
# (参考訳) ポッドキャスト音声の音声認識誤りに対する話題モデルロバスト性 [全文訳有]

Topic Model Robustness to Automatic Speech Recognition Errors in Podcast Transcripts ( http://arxiv.org/abs/2109.12306v1 )

ライセンス: CC BY 4.0
Raluca Alexandra Fetic, Mikkel Jordahn, Lucas Chaves Lima, Rasmus Arpe Fogh Egeb{\ae}k, Martin Carsten Nielsen, Benjamin Biering, Lars Kai Hansen(参考訳) 多言語ポッドキャストストリーミングサービスにとって、言語に依存しないすべてのユーザに関連するコンテンツを配信できることは重要です。 ポッドキャストの内容の関連性は、様々なメタデータソースを用いて決定される。 しかし、多くの言語で音声認識の質が高まるにつれて、より優れたコンテンツレコメンデーションを提供するために自動転写を利用することが可能となる。 本研究では,音声認識エンジンが生成した転写文に適用した場合の潜在ディリクレ割当トピックモデルのロバスト性について検討する。 具体的には,書き起こしノイズの増加がデンマーク語の書き起こしから得られる話題にどのように影響するかを検討する。 まず,自動文字起こしによる話題埋め込みと,ポッドキャスト作成者によるポッドキャスト記述のコサイン類似度スコアのベースラインを観察する。 そして、転写ノイズの増加に伴ってコサインの類似度が減少する様子を観察し、自動音声認識文字が誤りである場合でも、その転写から高品質なトピック埋め込みを得ることができると結論づける。

For a multilingual podcast streaming service, it is critical to be able to deliver relevant content to all users independent of language. Podcast content relevance is conventionally determined using various metadata sources. However, with the increasing quality of speech recognition in many languages, utilizing automatic transcriptions to provide better content recommendations becomes possible. In this work, we explore the robustness of a Latent Dirichlet Allocation topic model when applied to transcripts created by an automatic speech recognition engine. Specifically, we explore how increasing transcription noise influences topics obtained from transcriptions in Danish; a low resource language. First, we observe a baseline of cosine similarity scores between topic embeddings from automatic transcriptions and the descriptions of the podcasts written by the podcast creators. We then observe how the cosine similarities decrease as transcription noise increases and conclude that even when automatic speech recognition transcripts are erroneous, it is still possible to obtain high-quality topic embeddings from the transcriptions.
翻訳日:2021-09-30 13:13:21 公開日:2021-09-25
# (参考訳) 網膜疾患認識のためのマルチモーダルマルチインスタンス学習 [全文訳有]

Multi-Modal Multi-Instance Learning for Retinal Disease Recognition ( http://arxiv.org/abs/2109.12307v1 )

ライセンス: CC BY 4.0
Xirong Li and Yang Zhou and Jie Wang and Hailan Lin and Jianchun Zhao and Dayong Ding and Weihong Yu and Youxin Chen(参考訳) 本稿では,マルチモーダル網膜疾患認識の新たな課題について述べる。 眼科検査で得られた色眼底写真(CFP)とOCT B-Scan画像の配列からなるマルチモーダル・ケースを考慮し,各症例に対する複数の視覚障害を認識できるディープニューラルネットワークの構築を目指す。 CFPとOCTの診断効果は疾患に依存しているため、ネットワークの選択的かつ解釈可能な能力は重要である。 さらに、医療分野では、データ取得と手動ラベリングの両方が非常に高価であるため、ラベル付きマルチモーダルサンプルの限られたセットから学習するには、ネットワークは比較的軽量でなければならない。 網膜疾患の認識に関する先行技術は、単一の疾患または単一のモダリティに焦点を合わせ、マルチモーダル融合は大半が未発見のままである。 本稿では,CFP と OCT を選択的に融合する Multi-Modal Multi-Instance Learning (MM-MIL) を提案する。 軽量なアーキテクチャ(現在のマルチヘッドアテンションモジュールと比較して)は、比較的小さなデータセットから学ぶのに適している。 MM-MILを効果的に利用するために、所定のCFPをオーバーサンプリングすることで、CFPの擬似シーケンスを生成することを提案する。 この戦術の利点は、モジュール間のインスタンスのバランスのよく、CFP入力の解像度を増大させ、最終診断に関して最も関係のあるCFPの領域を見つけることである。 836人の被験者1,193人の目から1,206件のマルチモーダルケースからなる実世界のデータセットに関する広範囲な実験により、提案モデルの有効性が示された。

This paper attacks an emerging challenge of multi-modal retinal disease recognition. Given a multi-modal case consisting of a color fundus photo (CFP) and an array of OCT B-scan images acquired during an eye examination, we aim to build a deep neural network that recognizes multiple vision-threatening diseases for the given case. As the diagnostic efficacy of CFP and OCT is disease-dependent, the network's ability of being both selective and interpretable is important. Moreover, as both data acquisition and manual labeling are extremely expensive in the medical domain, the network has to be relatively lightweight for learning from a limited set of labeled multi-modal samples. Prior art on retinal disease recognition focuses either on a single disease or on a single modality, leaving multi-modal fusion largely underexplored. We propose in this paper Multi-Modal Multi-Instance Learning (MM-MIL) for selectively fusing CFP and OCT modalities. Its lightweight architecture (as compared to current multi-head attention modules) makes it suited for learning from relatively small-sized datasets. For an effective use of MM-MIL, we propose to generate a pseudo sequence of CFPs by over sampling a given CFP. The benefits of this tactic include well balancing instances across modalities, increasing the resolution of the CFP input, and finding out regions of the CFP most relevant with respect to the final diagnosis. Extensive experiments on a real-world dataset consisting of 1,206 multi-modal cases from 1,193 eyes of 836 subjects demonstrate the viability of the proposed model.
翻訳日:2021-09-30 12:56:44 公開日:2021-09-25
# (参考訳) mc$^2$-sf:モバイル・クラウド協調型レコメンデーションのための低速学習 [全文訳有]

MC$^2$-SF: Slow-Fast Learning for Mobile-Cloud Collaborative Recommendation ( http://arxiv.org/abs/2109.12314v1 )

ライセンス: CC BY 4.0
Zeyuan Chen and Jiangchao Yao and Feng Wang and Kunyang Jia and Bo Han and Wei Zhang and Hongxia Yang(参考訳) モバイルデバイスのハードウェア開発により,詳細な機能とリアルタイムフィードバックを活用するために,モバイル側でレコメンデーションモデルを構築することができる。 クラウドベースモデリングに付加される単純なモバイルベースのモデリングと比較して,モバイルクラウド協調レコメンデーション (mc$^2$-sf) の相互メリットを享受するための低速学習機構を提案する。 特に,我々のMC$^2$-SFでは,実世界のシナリオにおける相互作用周波数に応じて,クラウドモデルと移動モデルはそれぞれ遅いコンポーネントと速いコンポーネントとして扱われる。 訓練と奉仕の間、彼らは事前または優先の知識を互いに伝達し、候補者に対するユーザーの関心をよりよく把握し、人間の認知におけるシステムiとシステムiiの役割に似ています。 3つのベンチマークデータセットを広範囲に実験し,提案手法であるmc$^2$-sfを実演した。

With the hardware development of mobile devices, it is possible to build the recommendation models on the mobile side to utilize the fine-grained features and the real-time feedbacks. Compared to the straightforward mobile-based modeling appended to the cloud-based modeling, we propose a Slow-Fast learning mechanism to make the Mobile-Cloud Collaborative recommendation (MC$^2$-SF) mutual benefit. Specially, in our MC$^2$-SF, the cloud-based model and the mobile-based model are respectively treated as the slow component and the fast component, according to their interaction frequency in real-world scenarios. During training and serving, they will communicate the prior/privileged knowledge to each other to help better capture the user interests about the candidates, resembling the role of System I and System II in the human cognition. We conduct the extensive experiments on three benchmark datasets and demonstrate the proposed MC$^2$-SF outperforms several state-of-the-art methods.
翻訳日:2021-09-30 12:40:33 公開日:2021-09-25
# (参考訳) ニューラルネットワークを用いたスケールフリーネットワークにおける隠れリンクと欠落ノードの予測 [全文訳有]

Predicting Hidden Links and Missing Nodes in Scale-Free Networks with Artificial Neural Networks ( http://arxiv.org/abs/2109.12331v1 )

ライセンス: CC BY 4.0
Rakib Hassan Pran, Ljupco Todorovski(参考訳) 現実世界には、world wide web、タンパク質-タンパク質間相互作用ネットワーク、セマンティックネットワーク、航空ネットワーク、銀行間決済ネットワークなどのスケールフリーネットワークとして存在する多くのネットワークが存在する。 これらのネットワークを解析するには,スケールフリーネットワークの性質を理解する必要がある。 スケールフリーネットワークの特性を利用することで、ネットワーク内の任意の種類の異常を識別できる。 In this research, we proposed a methodology in a form of an algorithm to predict hidden links and missing nodes in scale-free networks where we combined a generator of random networks as a source of train data, on one hand, with artificial neural networks for supervised classification, on the other, we aimed at training the neural networks to discriminate between different subtypes of scale-free networks and predicted the missing nodes and hidden links among (present and missing) nodes in a given scale-free network. bla bollobasの有向スケールフリーランダムグラフ生成アルゴリズムをランダムネットワークの生成源として選択し,大規模なスケールフリーネットワークデータを生成する。

There are many networks in real life which exist as form of Scale-free networks such as World Wide Web, protein-protein inter action network, semantic networks, airline networks, interbank payment networks, etc. If we want to analyze these networks, it is really necessary to understand the properties of scale-free networks. By using the properties of scale free networks, we can identify any type of anomalies in those networks. In this research, we proposed a methodology in a form of an algorithm to predict hidden links and missing nodes in scale-free networks where we combined a generator of random networks as a source of train data, on one hand, with artificial neural networks for supervised classification, on the other, we aimed at training the neural networks to discriminate between different subtypes of scale-free networks and predicted the missing nodes and hidden links among (present and missing) nodes in a given scale-free network. We chose Bela Bollobas's directed scale-free random graph generation algorithm as a generator of random networks to generate a large set of scale-free network's data.
翻訳日:2021-09-30 12:25:34 公開日:2021-09-25
# (参考訳) TreeNet: 軽量なワンショットアグリゲーションコンボリューションネットワーク [全文訳有]

TreeNet: A lightweight One-Shot Aggregation Convolutional Network ( http://arxiv.org/abs/2109.12342v1 )

ライセンス: CC BY 4.0
Lu Rao, Qinglong Zhang, Yubin Yang(参考訳) 深層畳み込みネットワーク(CNN)のアーキテクチャは、長年にわたって進化し、より正確で高速になった。 しかし、限られた計算予算で最適な精度を得るために合理的なネットワーク構造を設計することは依然として困難である。 本稿では,より軽量で柔軟なOne-Shot Aggregation (OSA)モジュールを拡張したツリーブロックを提案する。 具体的には、TreeブロックはOSAの$3\times3$Convレイヤを、浅い残留ブロック(SRB)と$1\times1$Convレイヤのスタックに置き換える。 $1\times1$ Conv 層は次元の増大に責任を持ち、SRB は次のステップに投入される。 これを行うことで、同じ数の機能マップを集約すると、ツリーブロックはより深いネットワーク構造を持つが、モデルの複雑さは小さくなる。 さらに、木ブロックに残差接続と効率的なチャネルアテンション(ECA)を追加し、ネットワークの性能をさらに向上させる。 Treeブロックに基づいて、TreeNetsと呼ばれる効率的なバックボーンモデルを構築します。 TreeNetはResNetと同じようなネットワークアーキテクチャを持ち、様々なコンピュータビジョンフレームワークでResNetを置き換える柔軟性がある。 我々は、分類のためのImageNet-1k、オブジェクト検出のためのMS COCO、インスタンスセグメンテーションなど、一般的なベンチマークでツリーネットを包括的に評価する。 実験の結果、treenetはより効率的であり、現在の最先端のバックボーンメソッドに対して有利に機能することが示された。

The architecture of deep convolutional networks (CNNs) has evolved for years, becoming more accurate and faster. However, it is still challenging to design reasonable network structures that aim at obtaining the best accuracy under a limited computational budget. In this paper, we propose a Tree block, named after its appearance, which extends the One-Shot Aggregation (OSA) module while being more lightweight and flexible. Specifically, the Tree block replaces each of the $3\times3$ Conv layers in OSA into a stack of shallow residual block (SRB) and $1\times1$ Conv layer. The $1\times1$ Conv layer is responsible for dimension increasing and the SRB is fed into the next step. By doing this, when aggregating the same number of subsequent feature maps, the Tree block has a deeper network structure while having less model complexity. In addition, residual connection and efficient channel attention(ECA) is added to the Tree block to further improve the performance of the network. Based on the Tree block, we build efficient backbone models calling TreeNets. TreeNet has a similar network architecture to ResNet, making it flexible to replace ResNet in various computer vision frameworks. We comprehensively evaluate TreeNet on common-used benchmarks, including ImageNet-1k for classification, MS COCO for object detection, and instance segmentation. Experimental results demonstrate that TreeNet is more efficient and performs favorably against the current state-of-the-art backbone methods.
翻訳日:2021-09-30 11:20:25 公開日:2021-09-25
# (参考訳) DziriBERT:アルジェリア方言の事前学習言語モデル [全文訳有]

DziriBERT: a Pre-trained Language Model for the Algerian Dialect ( http://arxiv.org/abs/2109.12346v1 )

ライセンス: CC BY 4.0
Amine Abdaoui, Mohamed Berrimi, Mourad Oussalah, Abdelouahab Moussaoui(参考訳) 事前学習されたトランスフォーマーは、現在自然言語処理におけるデファクトモデルとなっている。 しかし、現在のモデルのほとんどは、既に大きなテキストリソースが利用可能な言語(英語、フランス語、アラビア語など)で訓練されている。 したがって、コミュニティからもっと注意を払わなければならない低リソース言語は、まだたくさんある。 本稿では、アラビア語や多言語モデルの使用が不適切であるいくつかの特徴を持つアルジェリア方言について検討する。 この問題に対処するため、私たちは100万以上のalgerian tweetsを収集し、最初のalgerian language modelであるdziribertを事前トレーニングしました。 既存のモデルと比較すると、DziriBERTは2つのアルジェリア下流データセットで最高の結果が得られる。 その結果,150MBのデータセットに専用モデルを事前学習することで,さらに多くのデータ(数百GB)でトレーニングされた既存モデルよりも優れていることがわかった。 最後に、私たちのモデルはコミュニティに公開されています。

Pre-trained transformers are now the de facto models in Natural Language Processing given their state-of-the-art results in many tasks and languages. However, most of the current models have been trained on languages for which large text resources are already available (such as English, French, Arabic, etc.). Therefore, there is still a number of low-resource languages that need more attention from the community. In this paper, we study the Algerian dialect which has several specificities that make the use of Arabic or multilingual models inappropriate. To address this issue, we collected more than one Million Algerian tweets, and pre-trained the first Algerian language model: DziriBERT. When compared to existing models, DziriBERT achieves the best results on two Algerian downstream datasets. The obtained results show that pre-training a dedicated model on a small dataset (150 MB) can outperform existing models that have been trained on much more data (hundreds of GB). Finally, our model is publicly available to the community.
翻訳日:2021-09-30 11:09:11 公開日:2021-09-25
# (参考訳) ミトコンドリアセグメンテーションにおけるコントラスト学習 [全文訳有]

Contrastive Learning for Mitochondria Segmentation ( http://arxiv.org/abs/2109.12363v1 )

ライセンス: CC BY 4.0
Zhili Li, Xuejin Chen, Jie Zhao and Zhiwei Xiong(参考訳) 電子顕微鏡画像におけるミトコンドリアセグメンテーションは神経科学において不可欠である。 しかし, 撮像過程における画像劣化, 様々なミトコンドリア構造, ノイズ, アーティファクト, その他のサブ細胞構造の存在などにより, ミトコンドリアのセグメンテーションは非常に困難である。 本稿では,より優れた特徴表現を学習してセグメンテーションを改善するための,新しい効果的なコントラスト学習フレームワークを提案する。 具体的には,訓練段階におけるハードサンプルから代表画素を選択するための点サンプリング戦略を採用する。 これらのサンプル画素に基づいて、類似性損失項と一貫性損失項からなる画素単位ラベルに基づくコントラスト損失を導入する。 類似性項は、同一クラスからの画素の類似性と、特徴空間における異なるクラスからの画素の分離性を高めることができるが、一貫性項は、フレームからフレームへの画像内容の変化に対する3dモデルの感度を高めることができる。 提案手法がMitoEMデータセットおよびFIB-SEMデータセット上で有効であることを示すとともに,現状と同等あるいは同等な結果を示す。

Mitochondria segmentation in electron microscopy images is essential in neuroscience. However, due to the image degradation during the imaging process, the large variety of mitochondrial structures, as well as the presence of noise, artifacts and other sub-cellular structures, mitochondria segmentation is very challenging. In this paper, we propose a novel and effective contrastive learning framework to learn a better feature representation from hard examples to improve segmentation. Specifically, we adopt a point sampling strategy to pick out representative pixels from hard examples in the training phase. Based on these sampled pixels, we introduce a pixel-wise label-based contrastive loss which consists of a similarity loss term and a consistency loss term. The similarity term can increase the similarity of pixels from the same class and the separability of pixels from different classes in feature space, while the consistency term is able to enhance the sensitivity of the 3D model to changes in image content from frame to frame. We demonstrate the effectiveness of our method on MitoEM dataset as well as FIB-SEM dataset and show better or on par with state-of-the-art results.
翻訳日:2021-09-30 10:59:44 公開日:2021-09-25
# (参考訳) TEMGNet:手指認識のための上肢sEMGのDeep Transformer-based Decoding [全文訳有]

TEMGNet: Deep Transformer-based Decoding of Upperlimb sEMG for Hand Gestures Recognition ( http://arxiv.org/abs/2109.12379v1 )

ライセンス: CC BY 4.0
Elahe Rahimian, Soheil Zabihi, Amir Asif, Dario Farina, S. Farokh Atashzar, Arash Mohammadi(参考訳) 表面筋電図(sEMG)信号から筋活動をデコードして神経ロボティクス系の筋電制御を行う機械学習(ML)、特にディープニューラルネットワーク(DNN)ベースのモデルへの関心が高まっている。 しかし、dnnベースのモデルは、大きなトレーニングセットを必要とし、通常、高い構造的複雑さ、すなわち、多くのトレーニング可能なパラメータに依存する。 そこで我々は,SEMG信号を処理するためのTransformerアーキテクチャに基づくフレームワークを開発した。 人工装具の筋制御に使用されるsEMGから上肢の手のジェスチャーを分類・認識するための視覚変換器(ViT)ベースのニューラルネットワークアーキテクチャ(TEMGNet)を提案する。 提案したTEMGNetアーキテクチャは、事前トレーニングや微調整を必要とせずに、小さなデータセットでトレーニングされている。 近年の文献に続き、NinaPro DB2データセットの第2サブセット(運動B)を用いて、提案したTEMGNetフレームワークは、それぞれ300msと200msのウィンドウサイズに対して82.93%と82.05%の認識精度を達成し、最先端のものよりも優れていた。 さらに、TEMGNetフレームワークは、7倍のトレーニング可能なパラメータを持ちながら、構造容量の点で優れている。 これらの特徴と高性能により、神経ロボットの筋電制御のためのDNNモデルが期待できる。

There has been a surge of recent interest in Machine Learning (ML), particularly Deep Neural Network (DNN)-based models, to decode muscle activities from surface Electromyography (sEMG) signals for myoelectric control of neurorobotic systems. DNN-based models, however, require large training sets and, typically, have high structural complexity, i.e., they depend on a large number of trainable parameters. To address these issues, we developed a framework based on the Transformer architecture for processing sEMG signals. We propose a novel Vision Transformer (ViT)-based neural network architecture (referred to as the TEMGNet) to classify and recognize upperlimb hand gestures from sEMG to be used for myocontrol of prostheses. The proposed TEMGNet architecture is trained with a small dataset without the need for pre-training or fine-tuning. To evaluate the efficacy, following the-recent literature, the second subset (exercise B) of the NinaPro DB2 dataset was utilized, where the proposed TEMGNet framework achieved a recognition accuracy of 82.93% and 82.05% for window sizes of 300ms and 200ms, respectively, outperforming its state-of-the-art counterparts. Moreover, the proposed TEMGNet framework is superior in terms of structural capacity while having seven times fewer trainable parameters. These characteristics and the high performance make DNN-based models promising approaches for myoelectric control of neurorobots.
翻訳日:2021-09-30 10:50:46 公開日:2021-09-25
# (参考訳) 変形マップとその時空間勾配の学習による材料点法のモデル還元 [全文訳有]

Model reduction for the material point method via learning the deformation map and its spatial-temporal gradients ( http://arxiv.org/abs/2109.12390v1 )

ライセンス: CC BY 4.0
Peter Yichen Chen, Maurizio Chiaramonte, Eitan Grinspun, Kevin Carlberg(参考訳) 本研究は, 非線形多様体上の材料点法に対するモデル還元手法を提案する。 この手法は、変形の軌跡をパラメータ化関数を介して外部から表現された低次元多様体上に存在するように制限する方法で変形写像を近似することにより、$\textit{kinematics}$を近似する。 変形写像とその時空間勾配を明示的に近似することにより、変形勾配と速度は、関連パラメータ化関数を単純に微分することで計算できる。 有限自由度に対して部分空間を構築する古典的なモデル還元法とは異なり、提案手法は無限自由度を持つ変形写像全体を近似する。 したがって, 学習データに見えない材料点を生成し, ゼロショット超解像の課題を実現できるため, 低減シミュレーションの解像度変化を支援する。 物質点を生成する能力は、応力更新のための適応的な二次規則も可能である。 一連の射影法が、任意の時間ステップにおいて、(1)縮小空間から全空間における二次生成、(2)全空間における位置と速度の更新の計算、(3)低次元多様体とその接空間への更新された位置と速度の最小二乗射影の3つのステップを生成するように考案されている。 計算スピードアップは超減算(英語版)によって達成される、すなわち、動的更新に必要とされる元の材料ポイントのサブセットのみである。 数百万の材料点を持つ大規模数値例では、この方法が計算コストの桁違いな節約(実際には、いくつかのケースでは$\textit{real-time simulations}$)を、無視可能なエラーで得る能力を示している。

This work proposes a model-reduction approach for the material point method on nonlinear manifolds. The technique approximates the $\textit{kinematics}$ by approximating the deformation map in a manner that restricts deformation trajectories to reside on a low-dimensional manifold expressed from the extrinsic view via a parameterization function. By explicitly approximating the deformation map and its spatial-temporal gradients, the deformation gradient and the velocity can be computed simply by differentiating the associated parameterization function. Unlike classical model reduction techniques that build a subspace for a finite number of degrees of freedom, the proposed method approximates the entire deformation map with infinite degrees of freedom. Therefore, the technique supports resolution changes in the reduced simulation, attaining the challenging task of zero-shot super-resolution by generating material points unseen in the training data. The ability to generate material points also allows for adaptive quadrature rules for stress update. A family of projection methods is devised to generate $\textit{dynamics}$, i.e., at every time step, the methods perform three steps: (1) generate quadratures in the full space from the reduced space, (2) compute position and velocity updates in the full space, and (3) perform a least-squares projection of the updated position and velocity onto the low-dimensional manifold and its tangent space. Computational speedup is achieved via hyper-reduction, i.e., only a subset of the original material points are needed for dynamics update. Large-scale numerical examples with millions of material points illustrate the method's ability to gain an order-of-magnitude computational-cost saving -- indeed $\textit{real-time simulations}$ in some cases -- with negligible errors.
翻訳日:2021-09-30 10:36:46 公開日:2021-09-25
# (参考訳) MINIMAL:データフリーユニバーサル対応トリガーのマイニングモデル [全文訳有]

MINIMAL: Mining Models for Data Free Universal Adversarial Triggers ( http://arxiv.org/abs/2109.12406v1 )

ライセンス: CC BY 4.0
Swapnil Parekh, Yaman Singla Kumar, Somesh Singh, Changyou Chen, Balaji Krishnamurthy, and Rajiv Ratn Shah(参考訳) 自然言語モデルは本質的には入力特異的な攻撃に対して脆弱であることはよく知られている。 近年,universal adversarial triggersと呼ばれるnlpモデルに入力に依存しない攻撃が存在することが示されている。 しかし、万能トリガーを作る既存の手法はデータ集約である。 攻撃者が通常アクセスできない敵のトリガーを生成するには、大量のデータサンプルが必要である。 例えば、以前の作業では、snliデータセットのクラス毎に3000データサンプルを取得して、逆トリガを生成する。 本稿では,モデルから入力非依存の逆トリガを抽出するための新しいデータフリーアプローチ,MINIMALを提案する。 データフリーのアルゴリズムで生成されたトリガーを用いて、Stanford Sentiment Treebankの正のクラスを93.6%から9.6%に削減する。 同様に、Stanford Natural Language Inference (SNLI) では、私たちのシングルワードトリガーはエンテーメントクラスの精度を 90.95% から 0.6 % 未満に下げる。 完全にデータフリーであるにもかかわらず、データ依存の手法として同等の精度低下が得られます。

It is well known that natural language models are vulnerable to adversarial attacks, which are mostly input-specific in nature. Recently, it has been shown that there also exist input-agnostic attacks in NLP models, called universal adversarial triggers. However, existing methods to craft universal triggers are data intensive. They require large amounts of data samples to generate adversarial triggers, which are typically inaccessible by attackers. For instance, previous works take 3000 data samples per class for the SNLI dataset to generate adversarial triggers. In this paper, we present a novel data-free approach, MINIMAL, to mine input-agnostic adversarial triggers from models. Using the triggers produced with our data-free algorithm, we reduce the accuracy of Stanford Sentiment Treebank's positive class from 93.6% to 9.6%. Similarly, for the Stanford Natural Language Inference (SNLI), our single-word trigger reduces the accuracy of the entailment class from 90.95% to less than 0.6\%. Despite being completely data-free, we get equivalent accuracy drops as data-dependent methods.
翻訳日:2021-09-30 10:02:29 公開日:2021-09-25
# (参考訳) タックル不均衡多ラベルデータに対する教師なしクラスタリングとラベル特化オーバーサンプリングの統合 [全文訳有]

Integrating Unsupervised Clustering and Label-specific Oversampling to Tackle Imbalanced Multi-label Data ( http://arxiv.org/abs/2109.12421v1 )

ライセンス: CC BY 4.0
Payel Sadhukhan, Arjun Pakrashi, Sarbani Palit, Brian Mac Namee(参考訳) しばしば、非常に頻繁なラベルと非常に頻繁なラベルが混在している。 このラベル周波数の変化は、タイプクラスの不均衡であり、効率的なマルチラベル分類アルゴリズムを構築する上で大きな課題となる。 本稿では,教師なしクラスタリングとラベル固有データオーバーサンプリングを統合した少数クラスオーバーサンプリングスキームであるuclsoを提案することで,この問題に取り組む。 クラスタリングは、マルチラベルデータセット(ラベル情報とは関係なく)のキーとローカルに接続された領域を見つけるために行われる。 次に、各ラベルに対して、クラスタ集合内の少数点の分布を探索する。 クラスタ内の少数点のみが、オーバーサンプリングに使用される合成少数点を生成するために使用される。 クラスター集合はすべてのラベルで同じであるが、合成マイノリティ点の分布はラベルによって異なる。 トレーニングデータセットはラベル固有の合成マイノリティポイントのセットで拡張され、各ラベルの関連性を個別に予測するために分類器が訓練される。 12のマルチラベルデータセットと複数のマルチラベルアルゴリズムを用いた実験により,提案手法が他の競合アルゴリズムと非常によく比較できることを示した。

There is often a mixture of very frequent labels and very infrequent labels in multi-label datatsets. This variation in label frequency, a type class imbalance, creates a significant challenge for building efficient multi-label classification algorithms. In this paper, we tackle this problem by proposing a minority class oversampling scheme, UCLSO, which integrates Unsupervised Clustering and Label-Specific data Oversampling. Clustering is performed to find out the key distinct and locally connected regions of a multi-label dataset (irrespective of the label information). Next, for each label, we explore the distributions of minority points in the cluster sets. Only the minority points within a cluster are used to generate the synthetic minority points that are used for oversampling. Even though the cluster set is the same across all labels, the distributions of the synthetic minority points will vary across the labels. The training dataset is augmented with the set of label-specific synthetic minority points, and classifiers are trained to predict the relevance of each label independently. Experiments using 12 multi-label datasets and several multi-label algorithms show that the proposed method performed very well compared to the other competing algorithms.
翻訳日:2021-09-30 09:47:24 公開日:2021-09-25
# (参考訳) ランダムウォークステアリングによる多数アンダーサンプリング [全文訳有]

Random Walk-steered Majority Undersampling ( http://arxiv.org/abs/2109.12423v1 )

ライセンス: CC BY 4.0
Payel Sadhukhan, Arjun Pakrashi, Brian Mac Namee(参考訳) 本研究では,クラス間のバランスをとるために,クラス不均衡データセットの多数点をアンサンプするランダムウォークステアリング(RWMaU)を提案する。 いくつかのマイノリティポイントの近傍に属する多数ポイントをマークするのではなく、マイノリティクラスに対する多数ポイントの近接性を認識したいと考えています。 グラフ内の連結点の近さを知覚する強力なツールであるランダムウォークは、クラス不均衡データセットの少数クラスに近い多数点を特定するために使用される。 来訪頻度と歩数における多数点の来訪順は、少数派に対する多数点の全体的近さを知覚することができる。 マイノリティクラスの近くに横たわる者は、その後、過小評価される。 21のデータセットと3つの分類器の実証評価により、競合する手法よりもRWMaUの性能が大幅に向上した。

In this work, we propose Random Walk-steered Majority Undersampling (RWMaU), which undersamples the majority points of a class imbalanced dataset, in order to balance the classes. Rather than marking the majority points which belong to the neighborhood of a few minority points, we are interested to perceive the closeness of the majority points to the minority class. Random walk, a powerful tool for perceiving the proximities of connected points in a graph, is used to identify the majority points which lie close to the minority class of a class-imbalanced dataset. The visit frequencies and the order of visits of the majority points in the walks enable us to perceive an overall closeness of the majority points to the minority class. The ones lying close to the minority class are subsequently undersampled. Empirical evaluation on 21 datasets and 3 classifiers demonstrate substantial improvement in performance of RWMaU over the competing methods.
翻訳日:2021-09-30 09:36:19 公開日:2021-09-25
# (参考訳) バイオメディカルドメインの基準分解能に関する調査 [全文訳有]

Coreference Resolution for the Biomedical Domain: A Survey ( http://arxiv.org/abs/2109.12424v1 )

ライセンス: CC BY 4.0
Pengcheng Lu, Massimo Poesio(参考訳) コア参照の解決に関する問題は、生体医学文献から情報を取り出す上で最も頻繁に言及される課題の1つである。 このように、バイオメディカルジャンルは、ニュースドメイン以降、コア参照解決のための2番目に研究されているジャンルであり、一般的にNLPの研究が盛んである。 近年、この関心は、多くの重要なデータセット、ドメイン固有の文脈言語モデル、およびいくつかのアーキテクチャの開発に大きく結びついている。 本稿では, バイオメディカル領域におけるコア参照の現状を概観し, 最新の研究動向に特に注目する。

Issues with coreference resolution are one of the most frequently mentioned challenges for information extraction from the biomedical literature. Thus, the biomedical genre has long been the second most researched genre for coreference resolution after the news domain, and the subject of a great deal of research for NLP in general. In recent years this interest has grown enormously leading to the development of a number of substantial datasets, of domain-specific contextual language models, and of several architectures. In this paper we review the state-of-the-art of coreference in the biomedical domain with a particular attention on these most recent developments.
翻訳日:2021-09-30 08:33:44 公開日:2021-09-25
# (参考訳) Patch 分類におけるFocal Loss を用いたコントラストアンペア翻訳 [全文訳有]

Contrastive Unpaired Translation using Focal Loss for Patch Classification ( http://arxiv.org/abs/2109.12431v1 )

ライセンス: CC BY 4.0
Bernard Spiegl(参考訳) 画像から画像への変換モデルは、画像のオリジナルコンテンツを保持するために、入力領域から出力領域へ画像を転送します。 対照的な非対訳は、これらの問題を解決する既存の方法の1つである。 競合と比較して、この手法の顕著な利点は、入力ドメインと出力ドメインの両方が単一の画像のみである場合に、トレーニングと実行をうまく行う能力である。 この手法を先代と区別するもうひとつの重要な点は、イメージ全体ではなく、イメージパッチを使用することだ。 また、同じ画像から負(損失を計算するのに必要なパッチ)をサンプリングすることは、データセット内の他の画像から負をサンプリングするシナリオよりも優れた結果が得られる。 この種のアプローチは、他のパッチ(負)と比較して対応するパッチを同じ場所にマッピングすることを奨励すると同時に、出力画像の品質を改善し、メモリ使用量を大幅に削減し、ベースラインとして使用されるCycleGAN法と比較してモデルのトレーニングに要する時間を大幅に削減する。 一連の実験により,PatchNCEの損失に代えて焦点損失を用いることで,モデルの性能が向上し,画像から画像への変換における現在の最先端モデルを上回る結果が得られた。

Image-to-image translation models transfer images from input domain to output domain in an endeavor to retain the original content of the image. Contrastive Unpaired Translation is one of the existing methods for solving such problems. Significant advantage of this method, compared to competitors, is the ability to train and perform well in cases where both input and output domains are only a single image. Another key thing that differentiates this method from its predecessors is the usage of image patches rather than the whole images. It also turns out that sampling negatives (patches required to calculate the loss) from the same image achieves better results than a scenario where the negatives are sampled from other images in the dataset. This type of approach encourages mapping of corresponding patches to the same location in relation to other patches (negatives) while at the same time improves the output image quality and significantly decreases memory usage as well as the time required to train the model compared to CycleGAN method used as a baseline. Through a series of experiments we show that using focal loss in place of cross-entropy loss within the PatchNCE loss can improve on the model's performance and even surpass the current state-of-the-art model for image-to-image translation.
翻訳日:2021-09-30 08:19:00 公開日:2021-09-25
# (参考訳) 乱気流を追跡する人工エージェントの創発的挙動とニューラルダイナミクス

Emergent behavior and neural dynamics in artificial agents tracking turbulent plumes ( http://arxiv.org/abs/2109.12434v1 )

ライセンス: CC BY-SA 4.0
Satpreet Harcharan Singh, Floris van Breugel, Rajesh P. N. Rao, Bingni Wen Brunton(参考訳) 乱流プルームを追跡してその源を見つけることは複雑な制御問題であり、それは複数のセンサーの統合が必要であり、間欠的な臭気、風向きの変化、可変プルーム統計に頑健でなければならない。 この作業は、しばしば長距離を飛ぶ昆虫が食べ物や仲間を追いかけるために定期的に行われる。 この顕著な行動のいくつかの側面は、多くの実験研究で詳細に研究されている。 ここでは,強化学習で訓練された人工エージェントを用いて,シリコのアプローチを補完し,プルーム追跡を支援する行動と神経計算の統合的理解を実現する。 具体的には、深部強化学習(DRL)を用いて、リカレントニューラルネットワーク(RNN)エージェントを訓練し、模擬乱流プラムの源を見つける。 興味深いことに、エージェントの創発行動は飛ぶ昆虫に似ており、rnnは最後の匂いの遭遇以来の頭部方向や時間といったタスク関連の変数を表現することを学ぶ。 今回の分析は、風向の変化における羽根の追跡に関する興味深い実験可能な仮説を示唆している。 反射性短メモリの挙動は、一定風下での羽根を追跡するのに十分であるが、方向を変える羽根を追跡するには、長い時間スケールの記憶が不可欠である。 神経力学のレベルでは、RNNの集団活動は低次元であり、異なる動的構造に分類され、いくつかの行動モジュールに対応している。 当社のin silicoアプローチは,乱流プルーム追跡戦略の重要な直観を提供し,将来の実験的および理論的発展を動機付ける。

Tracking a turbulent plume to locate its source is a complex control problem because it requires multi-sensory integration and must be robust to intermittent odors, changing wind direction, and variable plume statistics. This task is routinely performed by flying insects, often over long distances, in pursuit of food or mates. Several aspects of this remarkable behavior have been studied in detail in many experimental studies. Here, we take a complementary in silico approach, using artificial agents trained with reinforcement learning to develop an integrated understanding of the behaviors and neural computations that support plume tracking. Specifically, we use deep reinforcement learning (DRL) to train recurrent neural network (RNN) agents to locate the source of simulated turbulent plumes. Interestingly, the agents' emergent behaviors resemble those of flying insects, and the RNNs learn to represent task-relevant variables, such as head direction and time since last odor encounter. Our analyses suggest an intriguing experimentally testable hypothesis for tracking plumes in changing wind direction -- that agents follow local plume shape rather than the current wind direction. While reflexive short-memory behaviors are sufficient for tracking plumes in constant wind, longer timescales of memory are essential for tracking plumes that switch direction. At the level of neural dynamics, the RNNs' population activity is low-dimensional and organized into distinct dynamical structures, with some correspondence to behavioral modules. Our in silico approach provides key intuitions for turbulent plume tracking strategies and motivates future targeted experimental and theoretical developments.
翻訳日:2021-09-30 08:07:29 公開日:2021-09-25
# (参考訳) マルチプレイヤーゲームにおけるアルゴリズム情報設計:シングルトン混雑の可能性と限界

Algorithmic Information Design in Multi-Player Games: Possibility and Limits in Singleton Congestion ( http://arxiv.org/abs/2109.12445v1 )

ライセンス: CC BY 4.0
Chenghan Zhou and Thanh H. Nguyen and Haifeng Xu(参考訳) これまでのマルチエージェント情報設計に関するアルゴリズム研究のほとんどは、エージェント間外部性のない制限された状況に焦点を当ててきたが、ゼロサムゲームやセカンドプライスオークションのような特別なゲームクラスを調査した例も少なくない。 本稿では,負の外部性を持つゲーム,すなわち,今日のデジタル経済,マシンスケジューリング,ルーティングなどにおいて広く応用されたアトミックシングルトン混雑ゲームにおいて,\emph{public} と \emph{private} のシグナリングのアルゴリズム的情報設計を開始する。 公開信号とプライベート信号の両方に対して,資源数が一定であれば最適な情報設計を効率的に計算できることを示す。 我々の知る限り、これは簡潔に表現可能な多人数ゲームにおける情報設計のための計算効率の良いアルゴリズムの最初のセットである。 われわれは,プレイヤーの限界信念をコンパクトに表現する「還元形式」の開発など,新しい手法を取り入れた。 資源が多ければ計算不能な結果が得られる。 多重平衡の課題を克服するために、平衡選択規則によらず、良いシグナリングスキームを計算できる可能性を除外する平衡-\emph{oblivious} NP-hardnessという新しい概念を導入する。

Most algorithmic studies on multi-agent information design so far have focused on the restricted situation with no inter-agent externalities; a few exceptions investigated special game classes such as zero-sum games and second-price auctions but have all focused only on optimal public signaling and exhibit sweepingly negative results. This paper initiates the algorithmic information design of both \emph{public} and \emph{private} signaling in a fundamental class of games with negative externalities, i.e., atomic singleton congestion games, with wide application in today's digital economy, machine scheduling, routing, etc. For both public and private signaling, we show that the optimal information design can be efficiently computed when the number of resources is a constant. To our knowledge, this is the first set of computationally efficient algorithms for information design in succinctly representable many-player games. Our results hinge on novel techniques such as developing ``reduced forms'' to compactly represent players' marginal beliefs. When there are many resources, we show computational intractability results. To overcome the challenge of multiple equilibria, here we introduce a new notion of equilibrium-\emph{oblivious} NP-hardness, which rules out any possibility of computing a good signaling scheme, irrespective of the equilibrium selection rule.
翻訳日:2021-09-30 08:05:55 公開日:2021-09-25
# (参考訳) 15級シナリオにおけるCXR画像からのCOVID-19の分類:システム内のバイアス回避の試み [全文訳有]

Classification of COVID-19 from CXR Images in a 15-class Scenario: an Attempt to Avoid Bias in the System ( http://arxiv.org/abs/2109.12453v1 )

ライセンス: CC BY 4.0
Chinmoy Bose and Anirvan Basu(参考訳) 世界保健機関(WHO)は2021年6月時点で、新型コロナウイルスによる死者3,698,621人を含む171.7万件を報告している。 胸部x線画像からcovid-19やその他の肺疾患を検出することは、cxrが高速で安価であるため、緊急診断や治療に非常に有効である。 本研究の目的は、cxrから他の14の肺疾患と共に、公平かつ偏りのない方法でcovid-19を検出できるシステムを開発することである。 提案システムは,CXR画像選択技術と深層学習に基づくモデルにより,新型コロナウイルスを含む15の疾患を分類する。 提案手法は, 分類精度を損なうことなく, トレーニングデータセットサイズを削減することを目的として, 最大変動を均一に保持し, 品質の低いcxrを除去することを目的としている。 さらに重要なことは、意思決定におけるしばしば隠れた偏見と不公平さを減らすことだ。 このソリューションは、15の肺疾患を一緒に扱うため、既存の研究よりも現実的な状況で有望な新型コロナウイルス検出手法を示している。 提案手法が医用画像分類やその他の関連分野に広く採用されることを願っている。

As of June 2021, the World Health Organization (WHO) has reported 171.7 million confirmed cases including 3,698,621 deaths from COVID-19. Detecting COVID-19 and other lung diseases from Chest X-Ray (CXR) images can be very effective for emergency diagnosis and treatment as CXR is fast and cheap. The objective of this study is to develop a system capable of detecting COVID-19 along with 14 other lung diseases from CXRs in a fair and unbiased manner. The proposed system consists of a CXR image selection technique and a deep learning based model to classify 15 diseases including COVID-19. The proposed CXR selection technique aims to retain the maximum variation uniformly and eliminate poor quality CXRs with the goal of reducing the training dataset size without compromising classifier accuracy. More importantly, it reduces the often hidden bias and unfairness in decision making. The proposed solution exhibits a promising COVID-19 detection scheme in a more realistic situation than most existing studies as it deals with 15 lung diseases together. We hope the proposed method will have wider adoption in medical image classification and other related fields.
翻訳日:2021-09-30 08:04:42 公開日:2021-09-25
# (参考訳) セマンティック仕様下での検証済みデプロイメントのためのAIモデル監査 [全文訳有]

Auditing AI models for Verified Deployment under Semantic Specifications ( http://arxiv.org/abs/2109.12456v1 )

ライセンス: CC BY 4.0
Homanga Bharadhwaj, De-An Huang, Chaowei Xiao, Anima Anandkumar, Animesh Garg(参考訳) トレーニングされたディープラーニング(DL)モデルをデプロイ前に監査することは、意図しない結果を防ぐ上で不可欠である。 監査における最大の課題の1つは、エンドユーザにとって直接的に役に立つヒューマンコンタプリタブルな仕様の取得方法を理解することです。 各ユニットテストは、予め定義された仕様(例えば95%以上の精度)が、入力空間における制御された、意味的に調整されたバリエーション(例えば、顔認識において、カメラに対する角度)に対して満たされているかどうかを検証する。 生成モデルの解釈可能な潜在空間において、意味的に整合した変動を直接検証することにより、これらの単体テストを実行する。 私たちのフレームワークであるAuditAIは、解釈可能な形式検証とスケーラビリティのギャップを埋めます。 塔,胸部x線,人間の顔,およびimagenetクラスの4つの異なるデータセットについて評価を行い,ピクセル空間の摂動のみを用いた検証の限界に対処しつつ,検証と認定トレーニングのための制御されたバリエーションを得る方法を示した。 論文に付随するブログ記事は、https://developer.nv idia.com/blog/nvidia -research-auditing-a i-models-for-verifie d-deployment-under-s emantic-specificatio nのリンクにある。

Auditing trained deep learning (DL) models prior to deployment is vital in preventing unintended consequences. One of the biggest challenges in auditing is in understanding how we can obtain human-interpretable specifications that are directly useful to the end-user. We address this challenge through a sequence of semantically-aligned unit tests, where each unit test verifies whether a predefined specification (e.g., accuracy over 95%) is satisfied with respect to controlled and semantically aligned variations in the input space (e.g., in face recognition, the angle relative to the camera). We perform these unit tests by directly verifying the semantically aligned variations in an interpretable latent space of a generative model. Our framework, AuditAI, bridges the gap between interpretable formal verification and scalability. With evaluations on four different datasets, covering images of towers, chest X-rays, human faces, and ImageNet classes, we show how AuditAI allows us to obtain controlled variations for verification and certified training while addressing the limitations of verifying using only pixel-space perturbations. A blog post accompanying the paper is at this link https://developer.nv idia.com/blog/nvidia -research-auditing-a i-models-for-verifie d-deployment-under-s emantic-specificatio ns
翻訳日:2021-09-30 07:47:08 公開日:2021-09-25
# (参考訳) 弱教師付きパラフレーズ生成のための選択的学習 [全文訳有]

Learning to Selectively Learn for Weakly-supervised Paraphrase Generation ( http://arxiv.org/abs/2109.12457v1 )

ライセンス: CC BY 4.0
Kaize Ding, Dingcheng Li, Alexander Hanbo Li, Xing Fan, Chenlei Guo, Yang Liu and Huan Liu(参考訳) パラフレーズ生成は、下流のNLPタスクに様々な応用がある長年のNLPタスクである。 しかし、既存の取り組みの有効性は主に大量のゴールデンラベルデータに依存している。 この問題に対処するために教師なしの取り組みが提案されているが、監督信号の欠如により意味のある言い回しを起こさない可能性がある。 本研究では,既存のパラダイムを超越し,弱い監督データを持つ高品質なパラフレーズを生成するための新しい手法を提案する。 具体的には,(1)検索に基づく疑似言い換え拡張により,豊富な弱ラベルの並列文を得る,(2)事前学習された言語モデル,すなわちbartの微調整のための貴重なサンプルを段階的に選択するメタ学習フレームワークを開発すること、等により,弱教師付き言い換え生成問題に取り組む。 提案手法は,既存の教師なしアプローチよりも大幅に改善され,教師付き最先端技術と同等の性能を示す。

Paraphrase generation is a longstanding NLP task that has diverse applications for downstream NLP tasks. However, the effectiveness of existing efforts predominantly relies on large amounts of golden labeled data. Though unsupervised endeavors have been proposed to address this issue, they may fail to generate meaningful paraphrases due to the lack of supervision signals. In this work, we go beyond the existing paradigms and propose a novel approach to generate high-quality paraphrases with weak supervision data. Specifically, we tackle the weakly-supervised paraphrase generation problem by: (1) obtaining abundant weakly-labeled parallel sentences via retrieval-based pseudo paraphrase expansion; and (2) developing a meta-learning framework to progressively select valuable samples for fine-tuning a pre-trained language model, i.e., BART, on the sentential paraphrasing task. We demonstrate that our approach achieves significant improvements over existing unsupervised approaches, and is even comparable in performance with supervised state-of-the-arts.
翻訳日:2021-09-30 07:21:39 公開日:2021-09-25
# 大規模ベイズ推論と逆機械学習への貢献

Contributions to Large Scale Bayesian Inference and Adversarial Machine Learning ( http://arxiv.org/abs/2109.13232v1 )

ライセンス: Link先を確認
V\'ictor Gallego(参考訳) ml方法論の急速な採用により、モデルは通常、予測の不確実性を考慮することなく、意思決定に採用されることが明らかになった。 より批判的に、それらは敵の例に弱い可能性がある。 したがって、予測の不確実性を考慮し、敵の例に対して堅牢なMLシステムの開発は、クリティカルで現実的なタスクにとって必須であると考えている。 まずは小売業のケーススタディから始める。 ベイズ構造時系列モデルを用いたNerlove-Arrowモデルのロバストな実装を提案する。 そのベイズ的性質は、管理者の見解を反映した事前情報を取り入れやすく、関連するデータで更新することができる。 しかし、このケースではギブスサンプリングのような古典的ベイズ技法が採用された。 現在、MLのランドスケープにはニューラルネットワークが浸透しており、この章では、このサブフィールドにおける現在の開発状況も調査している。 次に,ベイズ推論を複雑なモデルや大規模データレジームにスケールする問題に取り組む。 まず,SG-MCMC (Stochastic Gradient Markov Chain Monte Carlo) とSVGD (Stein Variational Gradient Descent) の2つの異なるベイズ的推論アルゴリズムの統一的なビューを提案し,改良的で効率的な新規サンプリング手法を提案する。 第2部では,マルコフ連鎖サンプリング器を後方近似に埋め込むことにより,確率モデルにおけるベイズ推定の効率を向上する枠組みを開発する。 その後,敵のリスク分析に基づく敵の分類に関する別の視点を示し,第2章のスケーラブルベイズ的アプローチを活用する。 第4章では、強化学習に転換し、エージェントが学習している間にRLの敵に対する説明の利点を示す。

The rampant adoption of ML methodologies has revealed that models are usually adopted to make decisions without taking into account the uncertainties in their predictions. More critically, they can be vulnerable to adversarial examples. Thus, we believe that developing ML systems that take into account predictive uncertainties and are robust against adversarial examples is a must for critical, real-world tasks. We start with a case study in retailing. We propose a robust implementation of the Nerlove-Arrow model using a Bayesian structural time series model. Its Bayesian nature facilitates incorporating prior information reflecting the manager's views, which can be updated with relevant data. However, this case adopted classical Bayesian techniques, such as the Gibbs sampler. Nowadays, the ML landscape is pervaded with neural networks and this chapter also surveys current developments in this sub-field. Then, we tackle the problem of scaling Bayesian inference to complex models and large data regimes. In the first part, we propose a unifying view of two different Bayesian inference algorithms, Stochastic Gradient Markov Chain Monte Carlo (SG-MCMC) and Stein Variational Gradient Descent (SVGD), leading to improved and efficient novel sampling schemes. In the second part, we develop a framework to boost the efficiency of Bayesian inference in probabilistic models by embedding a Markov chain sampler within a variational posterior approximation. After that, we present an alternative perspective on adversarial classification based on adversarial risk analysis, and leveraging the scalable Bayesian approaches from chapter 2. In chapter 4 we turn to reinforcement learning, introducing Threatened Markov Decision Processes, showing the benefits of accounting for adversaries in RL while the agent learns.
翻訳日:2021-09-29 14:57:10 公開日:2021-09-25
# BiTr-Unet:MRI脳腫瘍分離のためのCNN変換器複合ネットワーク

BiTr-Unet: a CNN-Transformer Combined Network for MRI Brain Tumor Segmentation ( http://arxiv.org/abs/2109.12271v1 )

ライセンス: Link先を確認
Qiran Jia, Hai Shu(参考訳) 畳み込みニューラルネットワーク(CNN)は3D画像の臓器や病変を自動的に識別することに成功した。 一方、視覚変換器ネットワークは2次元画像分類タスクにおいて例外的な性能を示した。 CNNと比較して、トランスフォーマーネットワークは、自己アテンションアルゴリズムによって長距離の特徴を抽出する利点がある。 そこで本稿では, マルチモーダルMRIにおける脳腫瘍セグメント化のためのBiTr-Unetと呼ばれるCNN-Transformer複合モデルを提案する。 提案するbitr-unetは, 腫瘍, 腫瘍コア, 造影腫瘍に対して, 平均ダイススコア0.9076, 0.8392, 0.8231, 平均ハウスドルフ距離4.5322, 13.4592, 14.9963のブラッツ2021バリデーションデータセットにおいて良好な性能を発揮する。

Convolutional neural networks (CNNs) have recently achieved remarkable success in automatically identifying organs or lesions on 3D medical images. Meanwhile, vision transformer networks have exhibited exceptional performance in 2D image classification tasks. Compared with CNNs, transformer networks have an obvious advantage of extracting long-range features due to their self-attention algorithm. Therefore, in this paper we present a CNN-Transformer combined model called BiTr-Unet for brain tumor segmentation on multi-modal MRI scans. The proposed BiTr-Unet achieves good performance on the BraTS 2021 validation dataset with mean Dice score 0.9076, 0.8392 and 0.8231, and mean Hausdorff distance 4.5322, 13.4592 and 14.9963 for the whole tumor, tumor core, and enhancing tumor, respectively.
翻訳日:2021-09-28 16:01:57 公開日:2021-09-25
# 故障解析とモデル修復の原理的アプローチ:医用画像における実証

A Principled Approach to Failure Analysis and Model Repairment: Demonstration in Medical Imaging ( http://arxiv.org/abs/2109.12347v1 )

ライセンス: Link先を確認
Thomas Henn, Yasukazu Sakamoto, Cl\'ement Jacquet, Shunsuke Yoshizawa, Masamichi Andou, Stephen Tchen, Ryosuke Saga, Hiroyuki Ishihara, Katsuhiko Shimizu, Yingzhen Li and Ryutaro Tanno(参考訳) マシンラーニングモデルは通常、データシフトやトレーニング環境での異常な状況のために、デプロイ後の予期せぬ失敗を示す。 ドメインの専門家は通常、手動で障害ケースを検査し、障害モードを特定し、モデルを修正しようとする、面倒なプロセスを経ます。 本研究では,2つの重要な疑問に答えることによって,このプロセスの標準化と原則の導入を目指しています。 i) 意味があり、異なる障害タイプを特定できたことをどうやって知るか。 ; (ii)モデルが実際に修復されたことをどうやって検証できますか? 細調整後の型内および型間一般化を計測し,異なるサブタイピング手法を比較するための指標を導入することにより,識別された障害タイプの品質を検証することを提案する。 さらに,先行したデータの性能を維持しつつ,障害タイプに対して高い精度を達成すれば,モデルが修復されると考えることもできる。 これら2つのアイデアを,特定された障害サブタイプとモデル修復の両方の品質を評価するための原則付きフレームワークに組み合わせる。 分類とオブジェクト検出タスクにおいて,その有用性を評価する。 私たちのコードはhttps://github.com/R okken-lab6/Failure-A nalysis-and-Model-Re pairmentで利用可能です。

Machine learning models commonly exhibit unexpected failures post-deployment due to either data shifts or uncommon situations in the training environment. Domain experts typically go through the tedious process of inspecting the failure cases manually, identifying failure modes and then attempting to fix the model. In this work, we aim to standardise and bring principles to this process through answering two critical questions: (i) how do we know that we have identified meaningful and distinct failure types?; (ii) how can we validate that a model has, indeed, been repaired? We suggest that the quality of the identified failure types can be validated through measuring the intra- and inter-type generalisation after fine-tuning and introduce metrics to compare different subtyping methods. Furthermore, we argue that a model can be considered repaired if it achieves high accuracy on the failure types while retaining performance on the previously correct data. We combine these two ideas into a principled framework for evaluating the quality of both the identified failure subtypes and model repairment. We evaluate its utility on a classification and an object detection tasks. Our code is available at https://github.com/R okken-lab6/Failure-A nalysis-and-Model-Re pairment
翻訳日:2021-09-28 16:01:39 公開日:2021-09-25
# マルチソースFew-shot Domain Adaptation

Multi-source Few-shot Domain Adaptation ( http://arxiv.org/abs/2109.12391v1 )

ライセンス: Link先を確認
Xiangyu Yue, Zangwei Zheng, Colorado Reed, Hari Prasanna Das, Kurt Keutzer, Alberto Sangiovanni Vincentelli(参考訳) マルチソースドメイン適応(MDA)は、複数の完全ラベルのソースドメインから未ラベルのターゲットドメインに予測モデルを転送することを目的としている。 しかし、多くのアプリケーションでは、関連するラベル付きソースデータセットは利用できない可能性があり、ソースラベルの収集は、ターゲットデータ自体のラベル付けと同じくらい高価である。 本稿では,マルチソース・マイ・ショット・ドメイン適応(mfda:multi-source few-shot domain adaptation)について検討する。 示すように、既存の手法は、MFDA設定において、ソースドメインとターゲットドメインの両方の差別的特徴を学習できないことが多い。 そこで本稿では,Multi-Source Few-shot Adaptation Network (MSFAN) と呼ばれる新しいフレームワークを提案する。 MSFANは、まず原型、多ドメインの自己教師型学習を用いて、ドメイン不変性だけでなく、クラス識別性も学習する。 第2に、MSFANは小さなラベル付きサポートセットを使用して、機能一貫性とドメイン間のドメイン不変性を強制する。 最後に、複数のソースのプロトタイプを利用してより良い分類法を学ぶ。 MSFANは最先端のMDA法と比較して、MFDA上の異なるドメインペアの平均分類精度を20.2%、9.4%、Office、Office-Home、DomainNetで16.2%改善している。

Multi-source Domain Adaptation (MDA) aims to transfer predictive models from multiple, fully-labeled source domains to an unlabeled target domain. However, in many applications, relevant labeled source datasets may not be available, and collecting source labels can be as expensive as labeling the target data itself. In this paper, we investigate Multi-source Few-shot Domain Adaptation (MFDA): a new domain adaptation scenario with limited multi-source labels and unlabeled target data. As we show, existing methods often fail to learn discriminative features for both source and target domains in the MFDA setting. Therefore, we propose a novel framework, termed Multi-Source Few-shot Adaptation Network (MSFAN), which can be trained end-to-end in a non-adversarial manner. MSFAN operates by first using a type of prototypical, multi-domain, self-supervised learning to learn features that are not only domain-invariant but also class-discriminative . Second, MSFAN uses a small, labeled support set to enforce feature consistency and domain invariance across domains. Finally, prototypes from multiple sources are leveraged to learn better classifiers. Compared with state-of-the-art MDA methods, MSFAN improves the mean classification accuracy over different domain pairs on MFDA by 20.2%, 9.4%, and 16.2% on Office, Office-Home, and DomainNet, respectively.
翻訳日:2021-09-28 16:01:19 公開日:2021-09-25
# テキスト可読性評価の推進:手作りの言語特徴を満たすトランスフォーマー

Pushing on Text Readability Assessment: A Transformer Meets Handcrafted Linguistic Features ( http://arxiv.org/abs/2109.12258v1 )

ライセンス: Link先を確認
Bruce W. Lee, Yoo Sung Jang, Jason Hyung-Jong Lee(参考訳) 可読性評価における2つの重要な改善点を報告する。 1.先進的意味論と三つの新しい特徴 2. 従来のMLモデル(例えば、手作りの機能を使ったランダムフォレスト)がトランスフォーマー(例えば、RoBERTa)と組み合わせてモデル性能を向上させるというタイムリーな証拠。 まず、適切なトランスフォーマーと従来のMLモデルを検討する。 次に,自家製抽出ソフトウェアを用いて手作り言語特徴255点を抽出する。 最後に、これらを組み立てて複数のハイブリッドモデルを作成し、可読性評価において一般的なデータセットの最先端(SOTA)精度を達成する。 手作りの機能を利用することで、小さなデータセットでのモデルパフォーマンスが向上する。 特に,我々のRoBERTA-RF-T1ハイブリッドは,従来のSOTAに比べて20.3%増加し,ほぼ完全な分類精度が99%に達する。

We report two essential improvements in readability assessment: 1. three novel features in advanced semantics and 2. the timely evidence that traditional ML models (e.g. Random Forest, using handcrafted features) can combine with transformers (e.g. RoBERTa) to augment model performance. First, we explore suitable transformers and traditional ML models. Then, we extract 255 handcrafted linguistic features using self-developed extraction software. Finally, we assemble those to create several hybrid models, achieving state-of-the-art (SOTA) accuracy on popular datasets in readability assessment. The use of handcrafted features help model performance on smaller datasets. Notably, our RoBERTA-RF-T1 hybrid achieves the near-perfect classification accuracy of 99%, a 20.3% increase from the previous SOTA.
翻訳日:2021-09-28 15:59:31 公開日:2021-09-25
# 読解理解以上のもの:テキスト質問回答のデータセットとメトリクスに関する調査

More Than Reading Comprehension: A Survey on Datasets and Metrics of Textual Question Answering ( http://arxiv.org/abs/2109.12264v1 )

ライセンス: Link先を確認
Yang Bai, Daisy Zhe Wang(参考訳) テキスト質問回答(英語: Textual Question Answering, QA)は、非構造化データを用いた自然言語におけるユーザの質問に対する正確な回答を提供することを目的としている。 この目標に対する最も一般的なアプローチの1つは、機械読解(MRC)である。 近年,従来のRCタスクに基づく新しいデータセットや評価指標が,より広範なテキストQAタスクのために提案されている。 本稿では,47の最近のテキストQAベンチマークデータセットを調査し,アプリケーションの観点から新しい分類法を提案する。 さらに,テキストQAタスクの評価指標を8つまとめる。 最後に,テキストQAベンチマークの構築動向について論じ,今後の作業の方向性を提案する。

Textual Question Answering (QA) aims to provide precise answers to user's questions in natural language using unstructured data. One of the most popular approaches to this goal is machine reading comprehension(MRC). In recent years, many novel datasets and evaluation metrics based on classical MRC tasks have been proposed for broader textual QA tasks. In this paper, we survey 47 recent textual QA benchmark datasets and propose a new taxonomy from an application point of view. In addition, We summarize 8 evaluation metrics of textual QA tasks. Finally, we discuss current trends in constructing textual QA benchmarks and suggest directions for future work.
翻訳日:2021-09-28 15:59:17 公開日:2021-09-25
# リコメンダ対話システムのためのニューラルネットワークテンプレートの学習

Learning Neural Templates for Recommender Dialogue System ( http://arxiv.org/abs/2109.12302v1 )

ライセンス: Link先を確認
Zujie Liang, Huang Hu, Can Xu, Jian Miao, Yingying He, Yining Chen, Xiubo Geng, Fan Liang, Daxin Jiang(参考訳) 最近のエンドツーエンドのニューラルモデルでは、会話レコメンダシステム(CRS)の進歩が期待できるが、2つの重要な課題が残っている。 まず、推奨項目を常に生成した返信に正確かつ適切に組み込むことはできない。 第2に、トレーニングコーパスに記載されている項目のみ、会話で推奨される機会がある。 これらの課題に取り組むために,項目推薦から対話生成を分離するレコメンダ対話システムとして,ntrdと呼ばれる新しい枠組みを提案する。 NTRDはレスポンステンプレートジェネレータとアイテムセレクタという2つの重要なコンポーネントを持っている。 前者はエンコーダ・デコーダモデルを採用し、ターゲットアイテムに関連付けられたスロット位置の応答テンプレートを生成し、後者は十分な注意機構を用いて適切なアイテムでスロット位置を埋める。 我々のアプローチは、古典的なスロットフィリングアプローチ(一般的に制御可能)と現代のニューラルNLGアプローチ(一般的にはより自然で正確)の長所を組み合わせる。 ベンチマークReDialでの大規模な実験は、NTRDが従来の最先端手法よりも大幅に優れていたことを示している。 また,本手法は,対話コーパスの訓練セットに現れない新たな項目を生成できるというユニークな利点がある。 コードは \url{https://github.com/j okieleung/ntrd} で入手できる。

Though recent end-to-end neural models have shown promising progress on Conversational Recommender System (CRS), two key challenges still remain. First, the recommended items cannot be always incorporated into the generated replies precisely and appropriately. Second, only the items mentioned in the training corpus have a chance to be recommended in the conversation. To tackle these challenges, we introduce a novel framework called NTRD for recommender dialogue system that decouples the dialogue generation from the item recommendation. NTRD has two key components, i.e., response template generator and item selector. The former adopts an encoder-decoder model to generate a response template with slot locations tied to target items, while the latter fills in slot locations with the proper items using a sufficient attention mechanism. Our approach combines the strengths of both classical slot filling approaches (that are generally controllable) and modern neural NLG approaches (that are generally more natural and accurate). Extensive experiments on the benchmark ReDial show our NTRD significantly outperforms the previous state-of-the-art methods. Besides, our approach has the unique advantage to produce novel items that do not appear in the training set of dialogue corpus. The code is available at \url{https://github.com/j okieleung/NTRD}.
翻訳日:2021-09-28 15:59:08 公開日:2021-09-25
# データ,アセンブル:不均質なラベルと部分的なラベルを持つ複数のデータセットを活用する

Data, Assemble: Leveraging Multiple Datasets with Heterogeneous and Partial Labels ( http://arxiv.org/abs/2109.12265v1 )

ライセンス: Link先を確認
Mintong Kang, Yongyi Lu, Alan L. Yuille, Zongwei Zhou(参考訳) ディープラーニングの成功は、広範なラベルを持つ大規模なデータセットに大きく依存していますが、部分的なラベルに関連する小さな異種データセット、特に医療画像の分野でのみアクセス可能です。 複数のデータセットから学ぶ場合、既存の課題には、データセット間の非互換性、異種、さらには競合するラベルプロトコルが含まれる。 本稿では,部分ラベル付きデータと膨大なラベル付きデータの全可能性を解き放つことを目的とした,新たなイニシアティブである"データ,アセンブル"を提案する。 教師付き学習パラダイムを部分ラベルに適合させるために,複数の視覚タスクを符号化し,問合せ方式で画像特徴を集約する動的アダプタを導入する。 さらに,ラベルの欠落した画像を活用するために擬似ラベルと一貫性の制約を適用し,データセット間のドメイン間ギャップを緩和する。 3つの自然画像データセットに関する概念実証研究と、2つの大規模胸部X線ベンチマークの厳密な評価から、「ネガティブな例」からの学習が興味のあるクラスの分類とセグメンテーションを促進することが判明した。 これは「ポジティブな例」は収集が難しいが「ネガティブな例」は比較的組み立てが容易な、まれな疾患や新興のパンデミックのコンピュータ支援診断に新たな光を当てている。 その結果,nih chestxrayベンチマークの先行技術を超えることに加えて,マイノリティクラスの疾患の同定においても,平均3点以上の改善が得られた。 驚くべきことに、既存の部分ラベルを使用する場合、モデルのパフォーマンスは、徹底したラベルを持つ完全にキュレートされたデータセットと同等(p>0.05)であり、追加で40%のアノテーションコストが不要である。

The success of deep learning relies heavily on large datasets with extensive labels, but we often only have access to several small, heterogeneous datasets associated with partial labels, particularly in the field of medical imaging. When learning from multiple datasets, existing challenges include incomparable, heterogeneous, or even conflicting labeling protocols across datasets. In this paper, we propose a new initiative--"data, assemble"--which aims to unleash the full potential of partially labeled data and enormous unlabeled data from an assembly of datasets. To accommodate the supervised learning paradigm to partial labels, we introduce a dynamic adapter that encodes multiple visual tasks and aggregates image features in a question-and-answer manner. Furthermore, we employ pseudo-labeling and consistency constraints to harness images with missing labels and to mitigate the domain gap across datasets. From proof-of-concept studies on three natural imaging datasets and rigorous evaluations on two large-scale thorax X-ray benchmarks, we discover that learning from "negative examples" facilitates both classification and segmentation of classes of interest. This sheds new light on the computer-aided diagnosis of rare diseases and emerging pandemics, wherein "positive examples" are hard to collect, yet "negative examples" are relatively easier to assemble. As a result, besides exceeding the prior art in the NIH ChestXray benchmark, our model is particularly strong in identifying diseases of minority classes, yielding over 3-point improvement on average. Remarkably, when using existing partial labels, our model performance is on-par (p>0.05) with that using a fully curated dataset with exhaustive labels, eliminating the need for additional 40% annotation costs.
翻訳日:2021-09-28 15:56:20 公開日:2021-09-25
# マルチビューマルチタスク学習によるがん生存者の心合併症リスクプロファイリング

Cardiac Complication Risk Profiling for Cancer Survivors via Multi-View Multi-Task Learning ( http://arxiv.org/abs/2109.12276v1 )

ライセンス: Link先を確認
Thai-Hoang Pham, Changchang Yin, Laxmi Mehta, Xueru Zhang, Ping Zhang(参考訳) 複雑化リスクプロファイリングは、臨床データにおける異種体(例えば、訪問、病気、薬物)間の複雑な相互作用のために、医療領域において重要な課題である。 電子健康記録や保険請求書などのリアルな臨床データの提供により、合併症リスクのプロファイリングに多くの深層学習手法が提案されている。 しかし、これらの既存の手法は2つのオープンな課題に直面している。 第一に、データ不均一性は、複数の視点(例えば、臨床訪問の順序、臨床特徴のセット)からデータを考慮しながら、単一の視点から臨床データを活用する方法に関連する。 第二に、一般化予測はシングルタスク学習に焦点をあてた手法のほとんどに関係しており、一方、各複雑化の開始は独立して予測され、サブ最適モデルに繋がる。 これらの問題に対処する複数の合併症の発生を予測するためのマルチビューマルチタスクネットワーク (MuViTaNet) を提案する。 特に、MuViTaNetは、多視点エンコーダを用いて患者表現を補完し、臨床データのシーケンスと臨床特徴のセットとして、臨床データを効果的に抽出する。 さらに、関連するラベル付きデータセットとラベルなしデータセットの両方からの追加情報を活用して、より正確な予測を行うための新しいマルチタスク学習スキームを使用して、より一般化された表現を生成する。 実験の結果, MuViTaNetは乳がん生存者において, 心臓合併症の進展をプロファイリングするための既存の方法よりも優れていた。 さらに、マルチビューのマルチタスクアーキテクチャのおかげで、MuViTaNetは複数の視点で予測を解釈するための効果的なメカニズムも提供する。

Complication risk profiling is a key challenge in the healthcare domain due to the complex interaction between heterogeneous entities (e.g., visit, disease, medication) in clinical data. With the availability of real-world clinical data such as electronic health records and insurance claims, many deep learning methods are proposed for complication risk profiling. However, these existing methods face two open challenges. First, data heterogeneity relates to those methods leveraging clinical data from a single view only while the data can be considered from multiple views (e.g., sequence of clinical visits, set of clinical features). Second, generalized prediction relates to most of those methods focusing on single-task learning, whereas each complication onset is predicted independently, leading to suboptimal models. We propose a multi-view multi-task network (MuViTaNet) for predicting the onset of multiple complications to tackle these issues. In particular, MuViTaNet complements patient representation by using a multi-view encoder to effectively extract information by considering clinical data as both sequences of clinical visits and sets of clinical features. In addition, it leverages additional information from both related labeled and unlabeled datasets to generate more generalized representations by using a new multi-task learning scheme for making more accurate predictions. The experimental results show that MuViTaNet outperforms existing methods for profiling the development of cardiac complications in breast cancer survivors. Furthermore, thanks to its multi-view multi-task architecture, MuViTaNet also provides an effective mechanism for interpreting its predictions in multiple perspectives, thereby helping clinicians discover the underlying mechanism triggering the onset and for making better clinical treatments in real-world scenarios.
翻訳日:2021-09-28 15:53:30 公開日:2021-09-25
# 幾何学的合成から学ぶ6次元オブジェクトポス推定

Learning Stereopsis from Geometric Synthesis for 6D Object Pose Estimation ( http://arxiv.org/abs/2109.12266v1 )

ライセンス: Link先を確認
Jun Wu, Lilu Liu, Yue Wang and Rong Xiong(参考訳) 現在のモノクラーベース6Dオブジェクトポーズ推定法は、通常、RGBDベースの手法よりも競争力の低い結果が得られる。 そこで本稿では,このギャップを埋めるために,短いベースライン2視点設定による3次元幾何ボリュームに基づくポーズ推定手法を提案する。 3次元空間に幾何学的ボリュームを構築することにより、隣接する2つの画像から同じ3次元空間に特徴を結合する。 次に、ネットワークを訓練して、ボリューム内のオブジェクトキーポイントの位置の分布を学習し、堅牢なソフトRANSACソルバを配置して、ポーズをクローズドな形で解決する。 精度とコストのバランスをとるため,反復的に性能を向上する粗大なフレームワークを提案する。 実験の結果,本手法は最先端のモノクロ法よりも優れており,特に重篤な閉塞状況において,異なる物体や場面で堅牢であることがわかった。

Current monocular-based 6D object pose estimation methods generally achieve less competitive results than RGBD-based methods, mostly due to the lack of 3D information. To make up this gap, this paper proposes a 3D geometric volume based pose estimation method with a short baseline two-view setting. By constructing a geometric volume in the 3D space, we combine the features from two adjacent images to the same 3D space. Then a network is trained to learn the distribution of the position of object keypoints in the volume, and a robust soft RANSAC solver is deployed to solve the pose in closed form. To balance accuracy and cost, we propose a coarse-to-fine framework to improve the performance in an iterative way. The experiments show that our method outperforms state-of-the-art monocular-based methods, and is robust in different objects and scenes, especially in serious occlusion situations.
翻訳日:2021-09-28 15:49:43 公開日:2021-09-25
# l$^{2}$nas:連続動作強化学習によるニューラルネットワークの最適化

L$^{2}$NAS: Learning to Optimize Neural Architectures via Continuous-Action Reinforcement Learning ( http://arxiv.org/abs/2109.12425v1 )

ライセンス: Link先を確認
Keith G. Mills, Fred X. Han, Mohammad Salameh, Seyed Saeed Changiz Rezaei, Linglong Kong, Wei Lu, Shuo Lian, Shangling Jui and Di Niu(参考訳) neural architecture search (nas) はディープニューラルネットワークの設計において顕著な結果をもたらしている。 微分可能なアーキテクチャ探索は、離散アーキテクチャ上の探索を勾配降下によって解けるハイパーパラメータ最適化問題に変換する。 しかし、非凸アーキテクチャハイパーパラメータ最適化問題の解法における勾配法の有効性と一般化性について疑問が提起されている。 本稿では,探索履歴における高性能アーキテクチャの分布に基づいて,アクタニューラルネットワークによるアーキテクチャハイパーパラメータのインテリジェントな最適化と更新を学習するL$^{2}$NASを提案する。 本稿では,アクター・クリティカル・フレームワークにおけるL$^{2}$NASを,連続的行動強化学習により効率的に訓練する量子駆動学習手法を提案する。 L$^{2}$NAS は NAS-Bench-201 ベンチマークや DARTS サーチスペースや Once-for-All MobileNetV3 サーチスペースで最先端の結果が得られることを示した。 また,L$^{2}$NASによって生成された検索ポリシーは,最小限の微調整で異なるトレーニングデータセット間で一般化可能であり,転送可能であることを示す。

Neural architecture search (NAS) has achieved remarkable results in deep neural network design. Differentiable architecture search converts the search over discrete architectures into a hyperparameter optimization problem which can be solved by gradient descent. However, questions have been raised regarding the effectiveness and generalizability of gradient methods for solving non-convex architecture hyperparameter optimization problems. In this paper, we propose L$^{2}$NAS, which learns to intelligently optimize and update architecture hyperparameters via an actor neural network based on the distribution of high-performing architectures in the search history. We introduce a quantile-driven training procedure which efficiently trains L$^{2}$NAS in an actor-critic framework via continuous-action reinforcement learning. Experiments show that L$^{2}$NAS achieves state-of-the-art results on NAS-Bench-201 benchmark as well as DARTS search space and Once-for-All MobileNetV3 search space. We also show that search policies generated by L$^{2}$NAS are generalizable and transferable across different training datasets with minimal fine-tuning.
翻訳日:2021-09-28 15:49:26 公開日:2021-09-25
# モバイルニューラルアーキテクチャ探索のためのニューラルネットワークブロックと設計空間のプロファイリング

Profiling Neural Blocks and Design Spaces for Mobile Neural Architecture Search ( http://arxiv.org/abs/2109.12426v1 )

ライセンス: Link先を確認
Keith G. Mills, Fred X. Han, Jialin Zhang, Seyed Saeed Changiz Rezaei, Fabian Chudak, Wei Lu, Shuo Lian, Shangling Jui and Di Niu(参考訳) ニューラルアーキテクチャサーチは、ニューラルネットワーク設計を自動化し、多くのディープラーニングアプリケーションで最先端の結果を達成した。 近年の文献では、精度を最大化するためのネットワーク設計に焦点が当てられているが、様々なハードウェアに対するアーキテクチャ設計空間の互換性を理解するための作業はほとんど行われていない。 本稿では、Huawei Kirin 9000 NPU、RTX 2080 Ti、AMD Threadripper 2990WX、Samsung Note10などの様々なデバイスにおける予測パワーと推論遅延を理解するために、MobileNetV3、ProxylessNAS、ResNetファミリーを構築するために使用されるニューラルネットワークブロックを分析する。 本稿では,ニューラルブロックのハードウェアへの親しみ度とマクロネットワークへの配置がネットワーク全体の性能に与える影響を,エンドツーエンドの測定のみで定量化する手法を提案する。 広範なプロファイリング結果に基づいて,設計知見を導出し,ハードウェア固有の検索空間削減に適用する。 本研究では,検索スペースの削減により,従来の検索スペースよりも精度の高いパレートフロンティアが生成され,ハードウェアによるアーキテクチャ検索がカスタマイズされることを示す。 さらに、測定から得られた洞察は、調査されたすべての検索空間において、特に高いimagenet top-1スコアをもたらす。

Neural architecture search automates neural network design and has achieved state-of-the-art results in many deep learning applications. While recent literature has focused on designing networks to maximize accuracy, little work has been conducted to understand the compatibility of architecture design spaces to varying hardware. In this paper, we analyze the neural blocks used to build Once-for-All (MobileNetV3), ProxylessNAS and ResNet families, in order to understand their predictive power and inference latency on various devices, including Huawei Kirin 9000 NPU, RTX 2080 Ti, AMD Threadripper 2990WX, and Samsung Note10. We introduce a methodology to quantify the friendliness of neural blocks to hardware and the impact of their placement in a macro network on overall network performance via only end-to-end measurements. Based on extensive profiling results, we derive design insights and apply them to hardware-specific search space reduction. We show that searching in the reduced search space generates better accuracy-latency Pareto frontiers than searching in the original search spaces, customizing architecture search according to the hardware. Moreover, insights derived from measurements lead to notably higher ImageNet top-1 scores on all search spaces investigated.
翻訳日:2021-09-28 15:49:06 公開日:2021-09-25
# 深層ニューラルネットワークと離散選択モデルを用いた旅行行動予測における機会の平等

Equality of opportunity in travel behavior prediction with deep neural networks and discrete choice models ( http://arxiv.org/abs/2109.12422v1 )

ライセンス: Link先を確認
Yunhan Zheng, Shenhao Wang, Jinhua Zhao(参考訳) 研究者たちは、旅行行動のモデル化に機械学習を採用する傾向にあるが、主に予測精度に注目し、機械学習アルゴリズムに埋め込まれた倫理的課題を無視している。 本研究では,旅行行動分析に重要な欠落次元である計算公正性を導入する。 まず機会の平等によって計算公正性を演算し、次にデータ固有のバイアスとモデリングによって導入されたバイアスを区別する。 次に,2017年の米国家計旅行調査(nhts)と2018-2019年のシカゴにおけるmy daily travel surveyを用いて,旅行行動モデルにおける予測の相違を示す。 経験的に、ディープ・ニューラル・ネットワーク(dnn)と離散的選択モデル(dcm)は、過度に予測された少数民族、低所得者、障害者の頻繁な運転率と、現実よりも社会的に不利なグループと農村の人口の移動負担を誤った予測と、複数の社会グループ間で一貫した予測の相違を明らかにする。 DNNとDCMを比較すると、DNNの誤識別誤差が小さいため、DNNは予測格差においてDCMより優れていることが分かる。 本研究では,予測格差を軽減するために,合成および実世界のデータを用いた絶対相関正則化手法を提案する。 その結果,旅行行動モデルにおける予測格差の出現率と,DNN層数,バッチサイズ,重量初期化など,モデル固有値の相違が引き続き持続していることが示唆された。 これらの予測格差は、公正性調整のない予測結果が交通政策作成に使用される場合、社会的不平等を悪化させる可能性があるため、旅行行動モデリングにおける公平性問題と公正な輸送決定のためのバイアス緩和アルゴリズムの使用について慎重に検討することを提唱する。

Although researchers increasingly adopt machine learning to model travel behavior, they predominantly focus on prediction accuracy, ignoring the ethical challenges embedded in machine learning algorithms. This study introduces an important missing dimension - computational fairness - to travel behavior analysis. We first operationalize computational fairness by equality of opportunity, then differentiate between the bias inherent in data and the bias introduced by modeling. We then demonstrate the prediction disparities in travel behavior modeling using the 2017 National Household Travel Survey (NHTS) and the 2018-2019 My Daily Travel Survey in Chicago. Empirically, deep neural network (DNN) and discrete choice models (DCM) reveal consistent prediction disparities across multiple social groups: both over-predict the false negative rate of frequent driving for the ethnic minorities, the low-income and the disabled populations, and falsely predict a higher travel burden of the socially disadvantaged groups and the rural populations than reality. Comparing DNN with DCM, we find that DNN can outperform DCM in prediction disparities because of DNN's smaller misspecification error. To mitigate prediction disparities, this study introduces an absolute correlation regularization method, which is evaluated with synthetic and real-world data. The results demonstrate the prevalence of prediction disparities in travel behavior modeling, and the disparities still persist regarding a variety of model specifics such as the number of DNN layers, batch size and weight initialization. Since these prediction disparities can exacerbate social inequity if prediction results without fairness adjustment are used for transportation policy making, we advocate for careful consideration of the fairness problem in travel behavior modeling, and the use of bias mitigation algorithms for fair transport decisions.
翻訳日:2021-09-28 15:43:29 公開日:2021-09-25
# 自然画像マット化のための長距離特徴伝達

Long-Range Feature Propagating for Natural Image Matting ( http://arxiv.org/abs/2109.12252v1 )

ライセンス: Link先を確認
Qinglin Liu, Haozhe Xie, Shengping Zhang, Bineng Zhong and Rongrong Ji(参考訳) 自然な画像マッチングは、トリマップ内の未知領域のアルファ値を推定する。 近年、深層学習に基づく手法は、その類似性に応じて、既知の領域から未知領域へのアルファ値の伝播を行っている。 しかし, 未知領域の50\%以上の画素は, 共通畳み込みニューラルネットワークの小さな有効受信フィールドの制限により, 未知領域の画素が受信フィールドの画素にのみ当てはまらない場合に, 不正確な推定が生じるため, 未知領域の画素と未知領域の画素との相関が得られないことが判明した。 この問題を解決するために,アルファマット推定のために受信フィールド外の長距離コンテキスト特徴を学習するLong-Range Feature Propagating Network (LFPNet)を提案する。 具体的には,まず,ダウンサンプル画像からコンテキスト特徴を抽出するプロパゲーションモジュールを設計した。 次に,周囲のコンテキストイメージパッチから内部センターイメージパッチへのコンテキスト特徴を明示的に伝達する,センターサーラウンドピラミッドプーリング(cspp)を提案する。 最後に、イメージ、トリマップ、コンテキスト機能を取り込んだマットングモジュールを使用して、アルファマットを推定します。 実験結果から,提案手法はAlphaMattingおよびAdobe Image Mattingデータセットの最先端手法に対して良好に動作することが示された。

Natural image matting estimates the alpha values of unknown regions in the trimap. Recently, deep learning based methods propagate the alpha values from the known regions to unknown regions according to the similarity between them. However, we find that more than 50\% pixels in the unknown regions cannot be correlated to pixels in known regions due to the limitation of small effective reception fields of common convolutional neural networks, which leads to inaccurate estimation when the pixels in the unknown regions cannot be inferred only with pixels in the reception fields. To solve this problem, we propose Long-Range Feature Propagating Network (LFPNet), which learns the long-range context features outside the reception fields for alpha matte estimation. Specifically, we first design the propagating module which extracts the context features from the downsampled image. Then, we present Center-Surround Pyramid Pooling (CSPP) that explicitly propagates the context features from the surrounding context image patch to the inner center image patch. Finally, we use the matting module which takes the image, trimap and context features to estimate the alpha matte. Experimental results demonstrate that the proposed method performs favorably against the state-of-the-art methods on the AlphaMatting and Adobe Image Matting datasets.
翻訳日:2021-09-28 15:41:37 公開日:2021-09-25
# recal-net : 白内障手術ビデオにおける意味セグメンテーションのための地域別調整ネットワーク

ReCal-Net: Joint Region-Channel-Wise Calibrated Network for Semantic Segmentation in Cataract Surgery Videos ( http://arxiv.org/abs/2109.12448v1 )

ライセンス: Link先を確認
Negin Ghamsarian, Mario Taschwer, Doris Putzgruber-Adamitsch , Stephanie Sarny, Yosuf El-Shabrawi, and Klaus Schoeffmann(参考訳) 手術ビデオにおけるセマンティックセグメンテーションは,手術成績の改善と手術ビデオ解析への幅広い応用の前提条件である。 しかし,手術ビデオのセグメンテーションには多くの課題がある。 特に白内障手術では、鈍的エッジ、色とコンテキストの変化、反射、透明性、動きのぼやきといった関連物体の様々な特徴が意味的セグメンテーションの課題となる。 本稿では,地域内および地域間依存性とチャネル間相互依存性を用いて特徴マップをキャリブレーションする,‘textit{ReCal}モジュール’と呼ばれる新しい畳み込みモジュールを提案する。 このキャリブレーション戦略は、各画素を中心にした多角的局所ビューを考慮して、同じセマンティックラベルの異なる表現を関連付けることで、セマンティック表現を効果的に強化することができる。 そこで,提案モジュールは,異なる物体の視覚的特徴と,異なる物体の視覚的特徴の相似性に対処することができる。 さらに,ReCal-Netと呼ばれるモジュールをベースとした新しいネットワークアーキテクチャを提案する。 実験の結果,白内障手術におけるすべての関連対象に対して,ReCal-Netが競合する最先端アプローチよりも優れていることが示された。 さらに, アブレーション研究により, recalモジュールのセグメンテーション精度の向上効果が示された。

Semantic segmentation in surgical videos is a prerequisite for a broad range of applications towards improving surgical outcomes and surgical video analysis. However, semantic segmentation in surgical videos involves many challenges. In particular, in cataract surgery, various features of the relevant objects such as blunt edges, color and context variation, reflection, transparency, and motion blur pose a challenge for semantic segmentation. In this paper, we propose a novel convolutional module termed as \textit{ReCal} module, which can calibrate the feature maps by employing region intra-and-inter-depe ndencies and channel-region cross-dependencies. This calibration strategy can effectively enhance semantic representation by correlating different representations of the same semantic label, considering a multi-angle local view centering around each pixel. Thus the proposed module can deal with distant visual characteristics of unique objects as well as cross-similarities in the visual characteristics of different objects. Moreover, we propose a novel network architecture based on the proposed module termed as ReCal-Net. Experimental results confirm the superiority of ReCal-Net compared to rival state-of-the-art approaches for all relevant objects in cataract surgery. Moreover, ablation studies reveal the effectiveness of the ReCal module in boosting semantic segmentation accuracy.
翻訳日:2021-09-28 15:41:16 公開日:2021-09-25
# 胸部X線レポート生成のための弱教師付きコントラスト学習

Weakly Supervised Contrastive Learning for Chest X-Ray Report Generation ( http://arxiv.org/abs/2109.12242v1 )

ライセンス: Link先を確認
An Yan, Zexue He, Xing Lu, Jiang Du, Eric Chang, Amilcare Gentili, Julian McAuley, Chun-Nan Hsu(参考訳) 放射線レポート生成は、放射線画像から記述テキストを自動的に生成することを目的としている。 典型的な設定は、クロスエントロピー損失を伴う画像-レポートペアのエンコーダ-デコーダモデルのトレーニングであり、通常の所見がデータセットを支配しているため、臨床診断のための情報文の生成に苦労している。 この課題に取り組み、より臨床的に正確なテキスト出力を促すために、医療レポート生成のための弱い教師付きコントラスト損失を提案する。 実験結果から,本手法はターゲットレポートと誤りだが意味的に密接な報告との対比により有益であることが示された。 これは、2つの公開ベンチマークの臨床的正確性とテキスト生成の指標の両方に関する以前の研究を上回っている。

Radiology report generation aims at generating descriptive text from radiology images automatically, which may present an opportunity to improve radiology reporting and interpretation. A typical setting consists of training encoder-decoder models on image-report pairs with a cross entropy loss, which struggles to generate informative sentences for clinical diagnoses since normal findings dominate the datasets. To tackle this challenge and encourage more clinically-accurate text outputs, we propose a novel weakly supervised contrastive loss for medical report generation. Experimental results demonstrate that our method benefits from contrasting target reports with incorrect but semantically-close ones. It outperforms previous work on both clinical correctness and text generation metrics for two public benchmarks.
翻訳日:2021-09-28 15:40:03 公開日:2021-09-25
# gSCANの体系的一般化: ほぼ解決され,次は何になるのか

Systematic Generalization on gSCAN: What is Nearly Solved and What is Next? ( http://arxiv.org/abs/2109.12243v1 )

ライセンス: Link先を確認
Linlu Qiu, Hexiang Hu, Bowen Zhang, Peter Shaw, Fei Sha(参考訳) 近年,接地言語理解のための体系的一般化を研究するために提案されたgscan(grounded scan)ベンチマークを分析した。 まず,従来のベンチマークのどの側面を,マルチモーダルな研究でよく用いられる手法で解くことができるかを検討する。 クロスモーダルな注意力を持つ汎用トランスフォーマーモデルは,gscanスプリットの大部分において強力なパフォーマンスを達成し,先行研究のより専門的なアプローチを驚くほど上回っています。 さらに,残りの誤りの多くは,視覚的文脈によらず,言語構造を体系的に一般化する上で,同じ根本的な課題が示されることが示唆された。 第2に,この発見に触発されて,オブジェクト間の関係を視覚環境に組み込むデータを生成することによって,gSCANの新しい課題を提案する。 最後に、gSCANのコマンドの範囲が狭いため、現在のモデルは驚くほどデータ効率が悪く、将来の作業には別の課題が考えられる。

We analyze the grounded SCAN (gSCAN) benchmark, which was recently proposed to study systematic generalization for grounded language understanding. First, we study which aspects of the original benchmark can be solved by commonly used methods in multi-modal research. We find that a general-purpose Transformer-based model with cross-modal attention achieves strong performance on a majority of the gSCAN splits, surprisingly outperforming more specialized approaches from prior work. Furthermore, our analysis suggests that many of the remaining errors reveal the same fundamental challenge in systematic generalization of linguistic constructs regardless of visual context. Second, inspired by this finding, we propose challenging new tasks for gSCAN by generating data to incorporate relations between objects in the visual environment. Finally, we find that current models are surprisingly data inefficient given the narrow scope of commands in gSCAN, suggesting another challenge for future work.
翻訳日:2021-09-28 15:39:49 公開日:2021-09-25
# コードの修復とコミットメッセージの生成を共同で学ぶ

Jointly Learning to Repair Code and Generate Commit Message ( http://arxiv.org/abs/2109.12296v1 )

ライセンス: Link先を確認
Jiaqi Bai, Long Zhou, Ambrosio Blanco, Shujie Liu, Furu Wei, Ming Zhou, Zhoujun Li(参考訳) 本稿では,プログラムコードを共同で修復し,コミットメッセージを生成する新しいタスクを提案する。 コード修復とコミットメッセージ生成は、ソフトウェア開発に不可欠な2つのタスクである。 しかし、既存の作業は通常、2つのタスクを独立して実行する。 バグの多いコード、固定コード、新しいタスクのコミットメッセージを含む多言語3重データセットを構築した。 本稿では,教師-学生法,マルチタスク法,バックトランスレーション法など,異なる学習手法で強化されたベースラインとしてカスケードモデルを提案する。 ケースケード方式のエラー伝搬問題に対処するために,コードを修復し,統一されたフレームワークでコミットメッセージを生成するジョイントモデルを提案する。 実験結果から,教師学習法とマルチタスク学習法を併用した拡張カスケードモデルでは,自動コード修復のメトリクスの最良のスコアが得られ,コグニティブモデルはコミットメッセージ生成におけるカスケードモデルよりも良好に振る舞うことがわかった。

We propose a novel task of jointly repairing program codes and generating commit messages. Code repair and commit message generation are two essential and related tasks for software development. However, existing work usually performs the two tasks independently. We construct a multilingual triple dataset including buggy code, fixed code, and commit messages for this novel task. We provide the cascaded models as baseline, which are enhanced with different training approaches, including the teacher-student method, the multi-task method, and the back-translation method. To deal with the error propagation problem of the cascaded method, the joint model is proposed that can both repair the code and generate the commit message in a unified framework. Experimental results show that the enhanced cascaded model with teacher-student method and multitask-learning method achieves the best score on different metrics of automated code repair, and the joint model behaves better than the cascaded model on commit message generation.
翻訳日:2021-09-28 15:39:32 公開日:2021-09-25
# エンドツーエンドフレーム意味解析のためのグラフベースニューラルモデル

A Graph-Based Neural Model for End-to-End Frame Semantic Parsing ( http://arxiv.org/abs/2109.12319v1 )

ライセンス: Link先を確認
Zhichao Lin, Yueheng Sun, Meishan Zhang(参考訳) Frameセマンティックパース(Frame semantic parsing)は、最近注目されているFrameNetに基づくセマンティック分析タスクである。 タスクは通常、(1)ターゲット識別、(2)フレーム分類、(3)セマンティックロールラベリングの3つのサブタスクを順次行う。 3つのサブタスクは密接な関係を持ち、前回の研究では個別にモデル化され、インターン接続を無視する一方、エラー伝播問題を引き起こす。 本研究では,タスクを協調的に処理するためのエンドツーエンドニューラルモデルを提案する。 具体的には,グラフ構築問題として,フレームセマンティック解析に関するグラフベースの手法を利用する。 すべての述語と役割はグラフノードとして扱われ、それらの関係はグラフエッジとして扱われる。 フレームセマンティック解析のベンチマークデータセットによる実験結果から,本手法は高い競合性を示し,パイプラインモデルよりも優れた性能を示した。

Frame semantic parsing is a semantic analysis task based on FrameNet which has received great attention recently. The task usually involves three subtasks sequentially: (1) target identification, (2) frame classification and (3) semantic role labeling. The three subtasks are closely related while previous studies model them individually, which ignores their intern connections and meanwhile induces error propagation problem. In this work, we propose an end-to-end neural model to tackle the task jointly. Concretely, we exploit a graph-based method, regarding frame semantic parsing as a graph construction problem. All predicates and roles are treated as graph nodes, and their relations are taken as graph edges. Experiment results on two benchmark datasets of frame semantic parsing show that our method is highly competitive, resulting in better performance than pipeline models.
翻訳日:2021-09-28 15:39:16 公開日:2021-09-25
# 解釈可能な事実抽出と検証のための文脈認識線形化によるグラフ推論

Graph Reasoning with Context-Aware Linearization for Interpretable Fact Extraction and Verification ( http://arxiv.org/abs/2109.12349v1 )

ライセンス: Link先を確認
Neema Kotonya, Thomas Spooner, Daniele Magazzeni and Francesca Toni(参考訳) 本稿では,テキストおよび表のエビデンスを用いた事実抽出と検証のためのエンドツーエンドシステムを提案する。 マルチタスク学習パラダイムを用いて,エビデンス抽出と正確性予測の両方のタスクに対して,グラフアテンションネットワークを共同でトレーニングすると同時に,ベラクシティ予測のみを学習する単一目的グラフモデルと,エビデンス抽出を分離する。 どちらの例でも、表証拠のセル単位の線形化の枠組みを採用しており、テーブルからの証拠をシーケンスとして扱うことができる。 テーブルの線形化に使用するテンプレートは、テーブルデータの内容だけでなくコンテキストもキャプチャします。 さらに,我々のアプローチの解釈可能性を示すケーススタディを提供する。 本システムでは,ブラインドテストデータに対するFEVEROUSスコア0.23と53%のラベル精度を実現する。

This paper presents an end-to-end system for fact extraction and verification using textual and tabular evidence, the performance of which we demonstrate on the FEVEROUS dataset. We experiment with both a multi-task learning paradigm to jointly train a graph attention network for both the task of evidence extraction and veracity prediction, as well as a single objective graph model for solely learning veracity prediction and separate evidence extraction. In both instances, we employ a framework for per-cell linearization of tabular evidence, thus allowing us to treat evidence from tables as sequences. The templates we employ for linearizing tables capture the context as well as the content of table data. We furthermore provide a case study to show the interpretability our approach. Our best performing system achieves a FEVEROUS score of 0.23 and 53% label accuracy on the blind test data.
翻訳日:2021-09-28 15:39:02 公開日:2021-09-25
# 言語間イベント抽出のための言語モデルプライミング

Language Model Priming for Cross-Lingual Event Extraction ( http://arxiv.org/abs/2109.12383v1 )

ライセンス: Link先を確認
Steven Fincke, Shantanu Agarwal, Scott Miller, Elizabeth Boschee(参考訳) 本稿では,イベント抽出タスクのための言語モデルを"プライミング"するための,新しい言語非依存なアプローチを提案する。 プライミングでは,実行時のモデルに対する質問に応じて,トランスフォーマースタックの言語モデルへの入力を異なる方法で拡張する。 例えば、モデルがトリガーの引数を"テスト"するように求められている場合、言語モデルへの入力の一部としてトリガーを提供し、同じ文内の他の場所でトリガーの"arrest"の引数について尋ねられたときよりも、候補引数の異なる表現を作成できるようにします。 本研究では,スパースおよびノイズの多い学習データの不足を言語モデルで補うことにより,ゼロショットの言語間設定において,引き起こしと引数の検出と分類の両面での精度を向上することを示す。

We present a novel, language-agnostic approach to "priming" language models for the task of event extraction, providing particularly effective performance in low-resource and zero-shot cross-lingual settings. With priming, we augment the input to the transformer stack's language model differently depending on the question(s) being asked of the model at runtime. For instance, if the model is being asked to identify arguments for the trigger "protested", we will provide that trigger as part of the input to the language model, allowing it to produce different representations for candidate arguments than when it is asked about arguments for the trigger "arrest" elsewhere in the same sentence. We show that by enabling the language model to better compensate for the deficits of sparse and noisy training data, our approach improves both trigger and argument detection and classification significantly over the state of the art in a zero-shot cross-lingual setting.
翻訳日:2021-09-28 15:38:48 公開日:2021-09-25
# 雑音を通す:事前学習言語モデルにおける情報処理の堅牢性のテスト

Sorting through the noise: Testing robustness of information processing in pre-trained language models ( http://arxiv.org/abs/2109.12393v1 )

ライセンス: Link先を確認
Lalchand Pandia and Allyson Ettinger(参考訳) 学習済みのlmsは下流のnlpタスクで印象的なパフォーマンスを示していますが、その処理や保持、入力に提示された情報の適用に関して、その洗練度を明確に理解していません。 本稿では,注意をそそるコンテンツに対して関連するコンテキスト情報を配置するモデルの頑健性を検討することで,この問題の構成要素に取り組む。 我々は,批判的コンテキスト情報を必要とするclozeタスクを持つモデルを示し,モデルがいかに強固に保持し,その重要な情報を予測に利用するかをテストするために,注意をそらすコンテンツを導入する。 モデルの文脈的手がかりの使用のダイナミクスに光を当てるために、これらの気晴らしの性質を体系的に操作します。 モデルが従来の文脈から関連する事実を理解・適用するために単純な文脈に現れるが、注意散らしながら無関係なコンテンツの存在は、混乱したモデル予測に明らかな影響を与える。 特に、モデルは意味的類似性と単語の位置の要因に特に影響を受けやすい。 これらの結果は,文脈意味のロバストな表現ではなく,表面的文脈的手がかりによってlm予測が駆動されるという結論と一致している。

Pre-trained LMs have shown impressive performance on downstream NLP tasks, but we have yet to establish a clear understanding of their sophistication when it comes to processing, retaining, and applying information presented in their input. In this paper we tackle a component of this question by examining robustness of models' ability to deploy relevant context information in the face of distracting content. We present models with cloze tasks requiring use of critical context information, and introduce distracting content to test how robustly the models retain and use that critical information for prediction. We also systematically manipulate the nature of these distractors, to shed light on dynamics of models' use of contextual cues. We find that although models appear in simple contexts to make predictions based on understanding and applying relevant facts from prior context, the presence of distracting but irrelevant content has clear impact in confusing model predictions. In particular, models appear particularly susceptible to factors of semantic similarity and word position. The findings are consistent with the conclusion that LM predictions are driven in large part by superficial contextual cues, rather than by robust representations of context meaning.
翻訳日:2021-09-28 15:38:29 公開日:2021-09-25
# マルチフィルタseq2seqモデルにおける潜在空間クラスタリングの強化:強化学習アプローチ

Enhancing Latent Space Clustering in Multi-filter Seq2Seq Model: A Reinforcement Learning Approach ( http://arxiv.org/abs/2109.12399v1 )

ライセンス: Link先を確認
Yunhao Yang, Zhaokun Xue(参考訳) sequence-to-sequence 言語処理タスクでは、異種意味論や文法構造を持つ文は、ネットワークのトレーニング中に収束の困難さを増大させる可能性がある。 この問題を解決するために,入力出力シーケンスにおける不均質な特徴をそれぞれ集中するモデルを提案する。 エンコーダ-デコーダアーキテクチャに基づいて,クラスタリングアルゴリズムを用いて潜在空間表現を分析するマルチフィルタseq2seqモデル(lms2s)を設計した。 表現はエンコーダと潜在空間エンハンサーから生成される。 クラスタ分類器は、表現をクラスタにグループ化する。 クラスタ分類器にソフトアクタ-クリティック強化学習アルゴリズムを適用し、シルエットスコアを最大化することによりクラスタリング品質を向上させる。 そして、複数のフィルタを対応するクラスタからのみ特徴によってトレーニングし、それに応じてトレーニングデータの均一性を解決できる。 セマンティクス解析と機械翻訳に関する実験は,クラスタリング品質とモデルの性能との正の相関を示すとともに,通常のエンコーダ・デコーダモデルに対するモデルによる拡張性を示す。

In sequence-to-sequence language processing tasks, sentences with heterogeneous semantics or grammatical structures may increase the difficulty of convergence while training the network. To resolve this problem, we introduce a model that concentrates the each of the heterogeneous features in the input-output sequences. Build upon the encoder-decoder architecture, we design a latent-enhanced multi-filter seq2seq model (LMS2S) that analyzes the latent space representations using a clustering algorithm. The representations are generated from an encoder and a latent space enhancer. A cluster classifier is applied to group the representations into clusters. A soft actor-critic reinforcement learning algorithm is applied to the cluster classifier to enhance the clustering quality by maximizing the Silhouette score. Then, multiple filters are trained by the features only from their corresponding clusters, the heterogeneity of the training data can be resolved accordingly. Our experiments on semantic parsing and machine translation demonstrate the positive correlation between the clustering quality and the model's performance, as well as show the enhancement our model has made with respect to the ordinary encoder-decoder model.
翻訳日:2021-09-28 15:38:07 公開日:2021-09-25
# 大規模音声言語理解における明確化質問の判断

Deciding Whether to Ask Clarifying Questions in Large-Scale Spoken Language Understanding ( http://arxiv.org/abs/2109.12451v1 )

ライセンス: Link先を確認
Joo-Kyung Kim, Guoyin Wang, Sungjin Lee, Young-Bum Kim(参考訳) 大規模会話エージェントは、asr曖昧性、意図曖昧性、仮説曖昧性などの様々な曖昧性を持つユーザの発話を理解するのに苦しむ。 あいまいさが検出されると、エージェントは、行動にコミットする前にあいまいさを解決するために明確な対話を行うべきである。 しかしながら、曖昧さのすべての発生について明確な質問を行うことは、ユーザエクスペリエンスを阻害する、過剰な質問につながる可能性がある。 ユーザの満足度に必要となる場合にのみ、明確な質問をトリガーするために、あいまいさと文脈的信号による仮説を生かした神経自覚モデルを提案する。 大規模商業会話エージェントからの実データを用いて,5種類の共通曖昧性について広範囲に実験を行い,一連のベースラインアプローチに対する大幅な改善を示す。

A large-scale conversational agent can suffer from understanding user utterances with various ambiguities such as ASR ambiguity, intent ambiguity, and hypothesis ambiguity. When ambiguities are detected, the agent should engage in a clarifying dialog to resolve the ambiguities before committing to actions. However, asking clarifying questions for all the ambiguity occurrences could lead to asking too many questions, essentially hampering the user experience. To trigger clarifying questions only when necessary for the user satisfaction, we propose a neural self-attentive model that leverages the hypotheses with ambiguities and contextual signals. We conduct extensive experiments on five common ambiguity types using real data from a large-scale commercial conversational agent and demonstrate significant improvement over a set of baseline approaches.
翻訳日:2021-09-28 15:37:48 公開日:2021-09-25
# ビューベース3次元モデル検索のための新しいパッチ畳み込みニューラルネットワーク

A Novel Patch Convolutional Neural Network for View-based 3D Model Retrieval ( http://arxiv.org/abs/2109.12299v1 )

ライセンス: Link先を確認
Zan Gao, Yuxiang Shao, Weili Guan, Meng Liu, Zhiyong Cheng, Shengyong Chen(参考訳) 近年,ビューベースの3dモデル検索手法が多数提案され,最新性能が実現されている。 これらの手法の多くは、より差別的な視点レベルの特徴を抽出し、3次元モデルのマルチビュー画像を効果的に集約することに焦点を当てている。 そこで我々は,マルチビュー画像間の長距離関連を捉えるために,パッチ特徴間の関係を利用する観点からこの問題に取り組む。 本研究では,ビュー間の関連性を把握するために,ビューに基づく3次元モデル検索のための新しいパッチ畳み込みニューラルネットワーク(PCNN)を提案する。 具体的には、まずcnnを用いて各ビューイメージのパッチ特徴を別々に抽出する。 第二に、PatchConvと呼ばれる新しいニューラルネットワークモジュールは、特徴空間内の隣り合うパッチ間の固有の関係を利用して、マルチビューイメージ間の長距離関連をキャプチャするように設計されている。 そして、適応重み付きビュー層をさらにPCNNに埋め込み、各ビュー特徴とビュープーリング特徴との類似性に応じて各ビューに重みを自動的に割り当てる。 最後に、フュージョンラッシファイアと特定分類器によって生成されたソフトマックス損失値からなる識別3dモデル特徴を抽出するために識別損失関数を用いる。 ModelNet40とModelNet10の2つの公開3Dモデル検索ベンチマークによる大規模な実験結果から、提案したPCNNは、それぞれ93.67%、96.23%という最先端のアプローチより優れていることが示された。

Recently, many view-based 3D model retrieval methods have been proposed and have achieved state-of-the-art performance. Most of these methods focus on extracting more discriminative view-level features and effectively aggregating the multi-view images of a 3D model, but the latent relationship among these multi-view images is not fully explored. Thus, we tackle this problem from the perspective of exploiting the relationships between patch features to capture long-range associations among multi-view images. To capture associations among views, in this work, we propose a novel patch convolutional neural network (PCNN) for view-based 3D model retrieval. Specifically, we first employ a CNN to extract patch features of each view image separately. Secondly, a novel neural network module named PatchConv is designed to exploit intrinsic relationships between neighboring patches in the feature space to capture long-range associations among multi-view images. Then, an adaptive weighted view layer is further embedded into PCNN to automatically assign a weight to each view according to the similarity between each view feature and the view-pooling feature. Finally, a discrimination loss function is employed to extract the discriminative 3D model feature, which consists of softmax loss values generated by the fusion lassifier and the specific classifier. Extensive experimental results on two public 3D model retrieval benchmarks, namely, the ModelNet40, and ModelNet10, demonstrate that our proposed PCNN can outperform state-of-the-art approaches, with mAP alues of 93.67%, and 96.23%, respectively.
翻訳日:2021-09-28 15:31:20 公開日:2021-09-25
# 教師なし人物再同定のためのハードサンプル誘導ハイブリッドコントラスト学習

Hard-sample Guided Hybrid Contrast Learning for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2109.12333v1 )

ライセンス: Link先を確認
Zheng Hu, Chuang Zhu, Gang He(参考訳) re-id (unsupervised person re-id) はコンピュータビジョンにおける有望で非常に困難な研究課題である。 ラベルのないデータで堅牢で差別的な特徴を学ぶことは、Re-IDにとって重要なことです。 近年,クラスタ化擬似ラベルに基づく教師なしRe-IDアルゴリズムに注目が集まっている。 しかし、従来のアプローチでは、クラスタセントロイドや全てのインスタンスをコントラスト学習に使うだけで、ハードサンプルの情報を完全に活用しなかった。 本稿では,クラスタレベルの損失とインスタンスレベルの損失を組み合わせたHHCL(Hard-sample Guided Hybrid Contrast Learning)アプローチを提案する。 提案手法は,より安定した方法でネットワークが更新されることを保証するために,クラスタ中心型コントラスト損失を適用する。 一方、ハードインスタンスのコントラスト損失の導入は、さらに識別情報を発掘する。 2つの人気のある大規模Re-IDベンチマークの大規模な実験により、HHCLは従来の最先端の手法よりも優れ、教師なしのRe-IDの性能が大幅に向上することが示された。 私たちの作業のコードは近々https://github.com/b upt-ai-cz/HHCL-ReID. comで公開されます。

Unsupervised person re-identification (Re-ID) is a promising and very challenging research problem in computer vision. Learning robust and discriminative features with unlabeled data is of central importance to Re-ID. Recently, more attention has been paid to unsupervised Re-ID algorithms based on clustered pseudo-label. However, the previous approaches did not fully exploit information of hard samples, simply using cluster centroid or all instances for contrastive learning. In this paper, we propose a Hard-sample Guided Hybrid Contrast Learning (HHCL) approach combining cluster-level loss with instance-level loss for unsupervised person Re-ID. Our approach applies cluster centroid contrastive loss to ensure that the network is updated in a more stable way. Meanwhile, introduction of a hard instance contrastive loss further mines the discriminative information. Extensive experiments on two popular large-scale Re-ID benchmarks demonstrate that our HHCL outperforms previous state-of-the-art methods and significantly improves the performance of unsupervised person Re-ID. The code of our work is available soon at https://github.com/b upt-ai-cz/HHCL-ReID.
翻訳日:2021-09-28 15:30:52 公開日:2021-09-25
# 正確なバイナリニューラルネットワークのための分布感度情報保持

Distribution-sensiti ve Information Retention for Accurate Binary Neural Network ( http://arxiv.org/abs/2109.12338v1 )

ライセンス: Link先を確認
Haotong Qin, Xiangguo Zhang, Ruihao Gong, Yifu Ding, Yi Xu, XianglongLiu(参考訳) モデルバイナリ化は、ニューラルネットワークを圧縮し、その推論プロセスを加速する効果的な方法である。 しかし、1ビットモデルと32ビットモデルの間には大きな性能差が残っている。 実証実験により、二項化は二項化ニューラルネットワーク(BNN)の性能を損なう前方・後方伝播における情報の大きな損失を引き起こすことが示され、二項化パラメータの限られた情報表現能力はBNN性能のボトルネックの1つである。 本稿では, 予測処理のオーバーヘッドを増大させることなく, 分散感応最適化によりBNNを改良し, 前方アクティベーションと後方勾配の情報を保持する新しい情報保持ネットワーク(DIR-Net)を提案する。 The DIR-Net mainly relies on two technical contributions: (1) Information Maximized Binarization (IMB): minimizing the information loss and the quantization error of weights/activations simultaneously by balancing and standardizing the weight distribution in the forward propagation; (2) Distribution-sensiti ve Two-stage Estimator (DTE): minimizing the information loss of gradients by gradual distribution-sensiti ve approximation of the sign function in the backward propagation, jointly considering the updating capability and accurate gradient. DIR-Netは、統合情報の観点から、BNNの前方および後方プロセスの両方を調査し、ネットワークバイナライゼーションのメカニズムに関する新たな洞察を提供する。 CIFAR-10とImageNetデータセットに関する総合的な実験は、我々のDIR-Netが主流かつコンパクトなアーキテクチャ下でのSOTAバイナライゼーションアプローチを一貫して上回っていることを示している。 さらに、実世界のリソース制限されたデバイス上でdir-netを実施し、11.1倍のストレージ節約と5.4倍のスピードアップを実現します。

Model binarization is an effective method of compressing neural networks and accelerating their inference process, which enables state-of-the-art models to run on resource-limited devices. However, a significant performance gap still exists between the 1-bit model and the 32-bit one. The empirical study shows that binarization causes a great loss of information in the forward and backward propagation which harms the performance of binary neural networks (BNNs), and the limited information representation ability of binarized parameter is one of the bottlenecks of BNN performance. We present a novel Distribution-sensiti ve Information Retention Network (DIR-Net) to retain the information of the forward activations and backward gradients, which improves BNNs by distribution-sensiti ve optimization without increasing the overhead in the inference process. The DIR-Net mainly relies on two technical contributions: (1) Information Maximized Binarization (IMB): minimizing the information loss and the quantization error of weights/activations simultaneously by balancing and standardizing the weight distribution in the forward propagation; (2) Distribution-sensiti ve Two-stage Estimator (DTE): minimizing the information loss of gradients by gradual distribution-sensiti ve approximation of the sign function in the backward propagation, jointly considering the updating capability and accurate gradient. The DIR-Net investigates both forward and backward processes of BNNs from the unified information perspective, thereby provides new insight into the mechanism of network binarization. Comprehensive experiments on CIFAR-10 and ImageNet datasets show our DIR-Net consistently outperforms the SOTA binarization approaches under mainstream and compact architectures. Additionally, we conduct our DIR-Net on real-world resource-limited devices which achieves 11.1 times storage saving and 5.4 times speedup.
翻訳日:2021-09-28 15:30:37 公開日:2021-09-25
# 超微細視分類のための合成特徴埋め込みと類似度指標

A Compositional Feature Embedding and Similarity Metric for Ultra-Fine-Grained Visual Categorization ( http://arxiv.org/abs/2109.12380v1 )

ライセンス: Link先を確認
Yajie Sun, Miaohua Zhang, Xiaohan Yu, Yi Liao, Yongsheng Gao(参考訳) 小さいクラス間分散でオブジェクトを分類することを目的とした細粒度視覚分類(fgvc)は近年大きく進歩している。 しかし、非常に類似したパターンのサブクラスを識別する超細粒度視覚分類(ultra-fgvc)は注目されていない。 超FGVCデータセットでは、粒度が低下するにつれてカテゴリ毎のサンプルが常に不足し、過度な問題を引き起こす。 さらに、異なるカテゴリの違いは、専門家にとっても区別するには微妙すぎる。 本稿では,これらの課題に触発され,新しい構成的特徴埋め込みと類似度指標(CECS)を提案する。 具体的には、合成特徴埋め込みモジュールにおいて、元の入力画像のパッチをランダムに選択し、これらのパッチを異なるカテゴリの画像のパッチに置き換えたり、マスクアウトしたりする。 次に、置換およびマスクされた画像を使用して、元の入力画像を強化し、より多様なサンプルを提供し、限られたトレーニングサンプルから生じる過剰フィッティング問題をほとんど軽減する。 さらに、多様なサンプルの学習は、モデルを最も差別的な特徴だけでなく、残りの領域の他の情報的特徴も学習させ、モデルの一般化と堅牢性を高める。 合成類似度測定モジュールにおいて、カテゴリ内距離を狭め、カテゴリ間距離を大きくすることで分類性能を向上させるために、新しい類似度測定器を開発した。 最近のベンチマーク手法を用いた2つの超FGVCデータセットと1つのFGVCデータセットの実験結果から,提案手法が最先端の性能を実現することを示す。

Fine-grained visual categorization (FGVC), which aims at classifying objects with small inter-class variances, has been significantly advanced in recent years. However, ultra-fine-grained visual categorization (ultra-FGVC), which targets at identifying subclasses with extremely similar patterns, has not received much attention. In ultra-FGVC datasets, the samples per category are always scarce as the granularity moves down, which will lead to overfitting problems. Moreover, the difference among different categories is too subtle to distinguish even for professional experts. Motivated by these issues, this paper proposes a novel compositional feature embedding and similarity metric (CECS). Specifically, in the compositional feature embedding module, we randomly select patches in the original input image, and these patches are then replaced by patches from the images of different categories or masked out. Then the replaced and masked images are used to augment the original input images, which can provide more diverse samples and thus largely alleviate overfitting problem resulted from limited training samples. Besides, learning with diverse samples forces the model to learn not only the most discriminative features but also other informative features in remaining regions, enhancing the generalization and robustness of the model. In the compositional similarity metric module, a new similarity metric is developed to improve the classification performance by narrowing the intra-category distance and enlarging the inter-category distance. Experimental results on two ultra-FGVC datasets and one FGVC dataset with recent benchmark methods consistently demonstrate that the proposed CECS method achieves the state of-the-art performance.
翻訳日:2021-09-28 15:30:06 公開日:2021-09-25
# 都市景観における監視カメラからの車両検出と追跡

Vehicle Detection and Tracking From Surveillance Cameras in Urban Scenes ( http://arxiv.org/abs/2109.12414v1 )

ライセンス: Link先を確認
Oumayma Messoussi, Felipe Gohring de Magalhaes, Francois Lamarre, Francis Perreault, Ibrahima Sogoba, Guillaume-Alexandre Bilodeau, Gabriela Nicolescu(参考訳) 都市部における車両の検知と追跡は、道路利用者の安全など、多くの交通関連アプリケーションにおいて重要なステップである。 多目的追跡(MOT)では、目標情報記述、長期閉塞、高速動作など、様々な課題が未解決のままである。 本稿では,前述した課題に対処するトラッキング・バイ・ディテクト・パラダイムに従って,複数車両検出・追跡システムを提案する。 車両再識別機能を備えたIOU(Intersection-ove r-Union)トラッカーを拡張したMOT手法を提案する。 これにより、物体の位置が高速な動きによって著しくずれた場合や、長時間の閉塞後の物体との整合性が向上する。 UA-DETRACベンチマークでは,オンライン利用に適した処理速度を維持しながら,ベースラインMOT法より優れている。

Detecting and tracking vehicles in urban scenes is a crucial step in many traffic-related applications as it helps to improve road user safety among other benefits. Various challenges remain unresolved in multi-object tracking (MOT) including target information description, long-term occlusions and fast motion. We propose a multi-vehicle detection and tracking system following the tracking-by-detectio n paradigm that tackles the previously mentioned challenges. Our MOT method extends an Intersection-over-Un ion (IOU)-based tracker with vehicle re-identification features. This allows us to utilize appearance information to better match objects after long occlusion phases and/or when object location is significantly shifted due to fast motion. We outperform our baseline MOT method on the UA-DETRAC benchmark while maintaining a total processing speed suitable for online use cases.
翻訳日:2021-09-28 15:29:36 公開日:2021-09-25
# 逆画像における2つの魂:多視点不整合を用いた普遍的逆例検出に向けて

Two Souls in an Adversarial Image: Towards Universal Adversarial Example Detection using Multi-view Inconsistency ( http://arxiv.org/abs/2109.12459v1 )

ライセンス: Link先を確認
Sohaib Kiani, Sana Awan, Chao Lan, Fengjun Li, Bo Luo(参考訳) ディープニューラルネットワーク(DNN)に対する回避攻撃では、攻撃者は良性サンプルと視覚的に区別できない敵インスタンスを生成し、ターゲットのDNNに送信して誤分類を引き起こす。 本稿では,新しい観測結果に基づいて,新しい多視点逆画像検出器Argosを提案する。 すなわち、敵の例には、真のラベルに対応する視覚的に変化しない内容と、誤分類されたラベルに対応する目に見えない摂動という2つの「スーール」が存在する。 このような矛盾は、トレーニングデータから得られた原画像、選択されたラベル、および画素分布から選択されたシードピクセルの画像を生成する自己回帰生成アプローチによってさらに増幅することができる。 生成された画像(すなわち「ビュー」)は、ラベルが敵対的であれば元の画像と大きく異なるため、argosが検出することを期待する不一致を示す。 この目的のために、Argosは、まず、一連の再生機構を用いて、攻撃によって誘導される画像の視覚内容とその誤分類されたラベルとの相違を増幅し、再生されたビューが予め設定された度合いにずれた場合に、画像を逆境として識別する。 実験の結果,Argosは6つのよく知られた対向攻撃に対して,検出精度と堅牢性の両方で2つの代表的な対向検出器よりも優れていた。 https://github.com/s ohaib730/Argos-Adver sarial_Detection

In the evasion attacks against deep neural networks (DNN), the attacker generates adversarial instances that are visually indistinguishable from benign samples and sends them to the target DNN to trigger misclassifications. In this paper, we propose a novel multi-view adversarial image detector, namely Argos, based on a novel observation. That is, there exist two "souls" in an adversarial instance, i.e., the visually unchanged content, which corresponds to the true label, and the added invisible perturbation, which corresponds to the misclassified label. Such inconsistencies could be further amplified through an autoregressive generative approach that generates images with seed pixels selected from the original image, a selected label, and pixel distributions learned from the training data. The generated images (i.e., the "views") will deviate significantly from the original one if the label is adversarial, demonstrating inconsistencies that Argos expects to detect. To this end, Argos first amplifies the discrepancies between the visual content of an image and its misclassified label induced by the attack using a set of regeneration mechanisms and then identifies an image as adversarial if the reproduced views deviate to a preset degree. Our experimental results show that Argos significantly outperforms two representative adversarial detectors in both detection accuracy and robustness against six well-known adversarial attacks. Code is available at: https://github.com/s ohaib730/Argos-Adver sarial_Detection
翻訳日:2021-09-28 15:29:22 公開日:2021-09-25
# Stackelberg Actor-Critic: ゲーム理論強化学習アルゴリズム

Stackelberg Actor-Critic: Game-Theoretic Reinforcement Learning Algorithms ( http://arxiv.org/abs/2109.12286v1 )

ライセンス: Link先を確認
Liyuan Zheng, Tanner Fiez, Zane Alumbaugh, Benjamin Chasnov and Lillian J. Ratliff(参考訳) アクター批判に基づく強化学習アルゴリズムにおけるアクターと批評家の階層的相互作用は、ゲーム理論の解釈に自然に結びつく。 我々はこの視点を採用し、スタックルバーグゲームとして知られるリーダー・フォロワー構造を持つ2人プレイの汎用ゲームとしてアクターと批評家の相互作用をモデル化する。 この抽象化を前提として,従来の個人勾配ではなく,リーダプレーヤが目的の全体微分に従う,Stackelbergアクタ批判アルゴリズムのメタフレームワークを提案する。 理論的観点からは,改良された更新に対するポリシー勾配定理を開発し,局所的スタックルバーグ平衡に対するスタックルバーグ・アクタ-クリティックアルゴリズムの局所収束保証を提供する。 経験的観点から,我々は,アクタ-クリティックな定式化によって引き起こされるコスト構造が与えられた場合の通常の勾配ダイナミクスと比較して,サイクリングを緩和し,収束を加速する学習ダイナミクスを簡単な例で示す。 最後に、OpenAIのジム環境に関する広範な実験により、Stackelbergのアクター批判アルゴリズムは、常に少なくとも同じようにパフォーマンスし、標準アクター批判アルゴリズムよりもはるかに優れていることが示されている。

The hierarchical interaction between the actor and critic in actor-critic based reinforcement learning algorithms naturally lends itself to a game-theoretic interpretation. We adopt this viewpoint and model the actor and critic interaction as a two-player general-sum game with a leader-follower structure known as a Stackelberg game. Given this abstraction, we propose a meta-framework for Stackelberg actor-critic algorithms where the leader player follows the total derivative of its objective instead of the usual individual gradient. From a theoretical standpoint, we develop a policy gradient theorem for the refined update and provide a local convergence guarantee for the Stackelberg actor-critic algorithms to a local Stackelberg equilibrium. From an empirical standpoint, we demonstrate via simple examples that the learning dynamics we study mitigate cycling and accelerate convergence compared to the usual gradient dynamics given cost structures induced by actor-critic formulations. Finally, extensive experiments on OpenAI gym environments show that Stackelberg actor-critic algorithms always perform at least as well and often significantly outperform the standard actor-critic algorithm counterparts.
翻訳日:2021-09-28 15:24:24 公開日:2021-09-25
# 深層学習による急性呼吸障害症候群の検出:モデルは何を学ぶか?

Deep Learning-Based Detection of the Acute Respiratory Distress Syndrome: What Are the Models Learning? ( http://arxiv.org/abs/2109.12323v1 )

ライセンス: Link先を確認
Gregory B. Rehm, Chao Wang, Irene Cortes-Puch, Chen-Nee Chuah, Jason Adams(参考訳) 急性呼吸窮迫症候群 (ARDS) は低酸素性呼吸不全の重症型であり, 院内死亡率は35-46%である。 死亡率の高さは、迅速な診断の難しさに関係していると考えられており、証拠に基づく治療の実施が遅れる可能性がある。 未バイアス人工呼吸器波形データ(VWD)を利用したディープニューラルネットワーク(DNN)アルゴリズムは、ARDSのスクリーニングを改善するのに役立つかもしれない。 まず,畳み込みニューラルネットワークを用いたards検出モデルは,auc (0.95+/-0.019 vs. 0.88+/-0.064)、精度 (0.84+/-0.026 vs 0.80+/-0.078)、特異性 (0.81+/-0.06 vs 0.71+/-0.089) において、ランダムフォレストモデルによる事前作業よりも優れることを示した。 周波数アブレーション研究は,専門的特徴工学に一般的に用いられる低周波領域と,手作業で実現しにくい高周波情報から特徴を学習できることを示唆する。 さらなる実験により、生理学的信号の微妙な高周波成分は、生理学的波形データを用いた従来のMLよりもDLモデルの優れた性能を説明できる可能性が示唆された。 我々の観察は、DLに基づく生理学的モデルの解釈性の向上を可能にし、生理的データの高周波情報がDLモデルの性能に与える影響を理解することができる。

The acute respiratory distress syndrome (ARDS) is a severe form of hypoxemic respiratory failure with in-hospital mortality of 35-46%. High mortality is thought to be related in part to challenges in making a prompt diagnosis, which may in turn delay implementation of evidence-based therapies. A deep neural network (DNN) algorithm utilizing unbiased ventilator waveform data (VWD) may help to improve screening for ARDS. We first show that a convolutional neural network-based ARDS detection model can outperform prior work with random forest models in AUC (0.95+/-0.019 vs. 0.88+/-0.064), accuracy (0.84+/-0.026 vs 0.80+/-0.078), and specificity (0.81+/-0.06 vs 0.71+/-0.089). Frequency ablation studies imply that our model can learn features from low frequency domains typically used for expert feature engineering, and high-frequency information that may be difficult to manually featurize. Further experiments suggest that subtle, high-frequency components of physiologic signals may explain the superior performance of DL models over traditional ML when using physiologic waveform data. Our observations may enable improved interpretability of DL-based physiologic models and may improve the understanding of how high-frequency information in physiologic data impacts the performance our DL model.
翻訳日:2021-09-28 15:24:08 公開日:2021-09-25
# 論理的クレダルネットワーク

Logical Credal Networks ( http://arxiv.org/abs/2109.12240v1 )

ライセンス: Link先を確認
Haifeng Qian, Radu Marinescu, Alexander Gray, Debarun Bhattacharjya, Francisco Barahona, Tian Gao, Ryan Riegel, Pravinda Sahu(参考訳) 本稿では,論理と確率を組み合わせた多くの先行モデルを一般化した,表現的確率論理である論理クレダルネットワークについて述べる。 論理公式の確率境界と条件付き確率境界で表される不正確な情報が与えられたとき、この論理は全ての解釈上の確率分布の集合を特定する。 一方,本手法では,非巡回性を必要としないような制約の少ない命題論理式と一階論理式が可能である。 一方、実世界の応用において重要なベイズ的ネットワークやマルコフランダム場と類似したマルコフ条件を持つ。 両方の特性を持つことにより,この論理が一意となり,不確実性のあるマスターミンドゲームを解くことやクレジットカード不正を検出することを含む,最大1つの後部推論タスクにおける性能について検討する。 その結果,提案手法は既存の手法よりも優れており,その利点は複数の不正確な情報ソースを集約することにある。

This paper introduces Logical Credal Networks, an expressive probabilistic logic that generalizes many prior models that combine logic and probability. Given imprecise information represented by probability bounds and conditional probability bounds of logic formulas, this logic specifies a set of probability distributions over all interpretations. On the one hand, our approach allows propositional and first-order logic formulas with few restrictions, e.g., without requiring acyclicity. On the other hand, it has a Markov condition similar to Bayesian networks and Markov random fields that is critical in real-world applications. Having both these properties makes this logic unique, and we investigate its performance on maximum a posteriori inference tasks, including solving Mastermind games with uncertainty and detecting credit card fraud. The results show that the proposed method outperforms existing approaches, and its advantage lies in aggregating multiple sources of imprecise information.
翻訳日:2021-09-28 15:22:42 公開日:2021-09-25
# オートマチック全脳からのグリオ芽腫の生存予測とMR画像の腫瘍分節化

Predicting survival of glioblastoma from automatic whole-brain and tumor segmentation of MR images ( http://arxiv.org/abs/2109.12334v1 )

ライセンス: Link先を確認
Sveinn P\'alsson, Stefano Cerri, Hans Skovgaard Poulsen, Thomas Urup, Ian Law, Koen Van Leemput(参考訳) 生存予測モデルは、グリオブラスト腫患者の治療のガイドとなる可能性がある。 しかし、診断情報を保持するMRイメージングバイオマーカーは、しばしば解釈が困難であり、データ取得をまたいだ一般化が困難であり、あるいは術前のMRデータにのみ適用可能である。 本稿では、MR画像から自動的に計算し、機械学習モデルに入力して患者の生存を予測できる新しい画像機能を導入することで、これらの問題を解決することを目的とする。 今回提案する特徴は, 腫瘍が周囲の脳構造に与える影響を計測し, 患者の脳の様々な構造の形状と健康な人の期待する形状とを比較し, 直接的生物学的解釈である。 必要なセグメンテーションを得るために、コントラスト適応性があり、モダリティの欠如に頑健な自動手法を用いて、スキャナーやイメージングプロトコルで機能を一般化する。 提案する特徴は腫瘍領域自体の特性に依存せず,術後画像にも応用可能であり,生存予測の文脈ではあまり研究されていない。 術前・術後の両データを用いた実験により, 従来の非画像的特徴よりも, 総合的, 進行的無生存率の点で, 予測的価値が得られた。

Survival prediction models can potentially be used to guide treatment of glioblastoma patients. However, currently available MR imaging biomarkers holding prognostic information are often challenging to interpret, have difficulties generalizing across data acquisitions, or are only applicable to pre-operative MR data. In this paper we aim to address these issues by introducing novel imaging features that can be automatically computed from MR images and fed into machine learning models to predict patient survival. The features we propose have a direct biological interpretation: They measure the deformation caused by the tumor on the surrounding brain structures, comparing the shape of various structures in the patient's brain to their expected shape in healthy individuals. To obtain the required segmentations, we use an automatic method that is contrast-adaptive and robust to missing modalities, making the features generalizable across scanners and imaging protocols. Since the features we propose do not depend on characteristics of the tumor region itself, they are also applicable to post-operative images, which have been much less studied in the context of survival prediction. Using experiments involving both pre- and post-operative data, we show that the proposed features carry prognostic value in terms of overall- and progression-free survival, over and above that of conventional non-imaging features.
翻訳日:2021-09-28 15:19:10 公開日:2021-09-25
# 放射線および潜時空間形状を用いたグリオ芽腫のMGMTメチル化状態の予測

Prediction of MGMT Methylation Status of Glioblastoma using Radiomics and Latent Space Shape Features ( http://arxiv.org/abs/2109.12339v1 )

ライセンス: Link先を確認
Sveinn P\'alsson, Stefano Cerri and Koen Van Leemput(参考訳) 本稿では,高次グリオーマにおけるmgmtプロモーターメチル化の予測法を提案する。 MR画像から深部畳み込みニューラルネットワークを用いて腫瘍を分離し, 変異型オートエンコーダで学習した放射線特徴と形状特徴の両方を抽出する。 我々は,特徴選択とランダム森林分類モデルのトレーニングからなる予測を得るために,標準機械学習ワークフローを実装した。 提案手法をrsna-asnr-miccai brats 2021チャレンジデータセットでトレーニングし,その課題に対する予測を行った。

In this paper we propose a method for predicting the status of MGMT promoter methylation in high-grade gliomas. From the available MR images, we segment the tumor using deep convolutional neural networks and extract both radiomic features and shape features learned by a variational autoencoder. We implemented a standard machine learning workflow to obtain predictions, consisting of feature selection followed by training of a random forest classification model. We trained and evaluated our method on the RSNA-ASNR-MICCAI BraTS 2021 challenge dataset and submitted our predictions to the challenge.
翻訳日:2021-09-28 15:18:47 公開日:2021-09-25
# 変形場積分と非剛性核融合による脳MRIの進歩的および粗大なレジストレーション

Joint Progressive and Coarse-to-fine Registration of Brain MRI via Deformation Field Integration and Non-Rigid Feature Fusion ( http://arxiv.org/abs/2109.12384v1 )

ライセンス: Link先を確認
Jinxin Lv, Zhiwei Wang, Hongkuan Shi, Haobo Zhang, Sheng Wang, Yilang Wang, and Qiang Li(参考訳) 脳MRI画像の登録は、複雑な脳組織(例えば皮質下核など)を整列させるのが非常に難しい変形磁場を解く必要がある。 既存の取り組みでは、対象の変形場を小さな動き、すなわちステージごとのプログレッシブ登録段階または低い分解能、すなわちフルサイズの変形場を粗大に推定する中間サブフィールドに分解する。 本稿では,これらの取り組みは相互排他的ではなく,進歩的かつ粗大な方法での脳MRI登録のための統一的な枠組みを提案する。 具体的には、デュアルエンコーダu-net上に構築し、固定移動mri対を符号化してマルチスケール変形サブフィールドにデコードする。 各復号ブロックは2つの新しいモジュールを含む。 一 変形場統合(DFI)において、単一の統合されたサブフィールドを演算し、それまでのすべての復号ブロックのサブフィールドによるワープに相当するワープを演算し、 二 非剛性特徴融合(NFF)において、固定移動対の特徴は、DFI積分サブフィールドで整列し、さらに微細なサブフィールドを予測するために融合する。 dfiとnffの両方を利用することで、対象の変形場は多スケールのサブフィールドに分解され、粗い磁場は粗い磁場の推定を緩和し、粗い磁場は前の粗い磁場では解けないような不一致を補うことができる。 プライベートデータセットとパブリックデータセットの広範な実験結果は、プログレッシブ登録のみよりも優れた脳MRI画像の登録性能を示し、粗大な推定のみを示し、平均的なDiceの10%以上増加している。

Registration of brain MRI images requires to solve a deformation field, which is extremely difficult in aligning intricate brain tissues, e.g., subcortical nuclei, etc. Existing efforts resort to decomposing the target deformation field into intermediate sub-fields with either tiny motions, i.e., progressive registration stage by stage, or lower resolutions, i.e., coarse-to-fine estimation of the full-size deformation field. In this paper, we argue that those efforts are not mutually exclusive, and propose a unified framework for robust brain MRI registration in both progressive and coarse-to-fine manners simultaneously. Specifically, building on a dual-encoder U-Net, the fixed-moving MRI pair is encoded and decoded into multi-scale deformation sub-fields from coarse to fine. Each decoding block contains two proposed novel modules: i) in Deformation Field Integration (DFI), a single integrated sub-field is calculated, warping by which is equivalent to warping progressively by sub-fields from all previous decoding blocks, and ii) in Non-rigid Feature Fusion (NFF), features of the fixed-moving pair are aligned by DFI-integrated sub-field, and then fused to predict a finer sub-field. Leveraging both DFI and NFF, the target deformation field is factorized into multi-scale sub-fields, where the coarser fields alleviate the estimate of a finer one and the finer field learns to make up those misalignments insolvable by previous coarser ones. The extensive and comprehensive experimental results on both private and public datasets demonstrate a superior registration performance of brain MRI images over progressive registration only and coarse-to-fine estimation only, with an increase by at most 10% in the average Dice.
翻訳日:2021-09-28 15:18:34 公開日:2021-09-25
# マルチオーケストレータモバイルエッジ学習における学習者のモチベーション:Stackelbergのゲームアプローチ

Motivating Learners in Multi-Orchestrator Mobile Edge Learning: A Stackelberg Game Approach ( http://arxiv.org/abs/2109.12409v1 )

ライセンス: Link先を確認
Mhd Saria Allahham, Sameh Sorour, Amr Mohamed, Aiman Erbad and Mohsen Guizani(参考訳) Mobile Edge Learning(MEL)は、異種エッジデバイス(IoTデバイスなど)上で機械学習モデルの分散トレーニングを可能にする学習パラダイムである。 マルチオーケストレータMELは、複数の学習タスクを異なるデータセットで共存させ、それぞれがオーケストレータによって管理され、分散トレーニングプロセスを容易にする。 MELでは、十分なトレーニングデータやコンピューティングリソースを入手することなく、トレーニング性能が低下する。 したがって、エッジデバイスを学習者にし、彼らのコンピューティングリソースを提供することを動機付け、プライベートデータを提供するか、オーケストレータから必要なデータを受け取り、学習タスクのトレーニングプロセスに参加することが重要である。 本研究では,オーケストレータと学習者の相互作用を2ラウンドのStackelbergゲームとして定式化し,学習者の参加を促すインセンティブ機構を提案する。 第1ラウンドでは、学習者がどの学習課題に携わるかを判断し、第2ラウンドでは、その効用が最大化されるように、参加する際のトレーニング用データ量を決定する。 次に,ゲームを分析し,学習者の最適な戦略を導出する。 最後に,提案するインセンティブ機構の性能を評価するため,数値実験を行った。

Mobile Edge Learning (MEL) is a learning paradigm that enables distributed training of Machine Learning models over heterogeneous edge devices (e.g., IoT devices). Multi-orchestrator MEL refers to the coexistence of multiple learning tasks with different datasets, each of which being governed by an orchestrator to facilitate the distributed training process. In MEL, the training performance deteriorates without the availability of sufficient training data or computing resources. Therefore, it is crucial to motivate edge devices to become learners and offer their computing resources, and either offer their private data or receive the needed data from the orchestrator and participate in the training process of a learning task. In this work, we propose an incentive mechanism, where we formulate the orchestrators-learne rs interactions as a 2-round Stackelberg game to motivate the participation of the learners. In the first round, the learners decide which learning task to get engaged in, and then in the second round, the amount of data for training in case of participation such that their utility is maximized. We then study the game analytically and derive the learners' optimal strategy. Finally, numerical experiments have been conducted to evaluate the performance of the proposed incentive mechanism.
翻訳日:2021-09-28 15:14:07 公開日:2021-09-25
# 高性能材料特性予測のためのスケーラブル深層ニューラルネットワーク

Scalable deeper graph neural networks for high-performance materials property prediction ( http://arxiv.org/abs/2109.12283v1 )

ライセンス: Link先を確認
Sadman Sadeed Omee, Steph-Yves Louis, Nihang Fu, Lai Wei, Sourin Dey, Rongzhi Dong, Qinyang Li, Jianjun Hu(参考訳) 機械学習(ML)に基づく材料発見は、材料科学におけるブレークスルーの最も有望なアプローチの1つである。 ヒューリスティックな知識に基づく記述子は、優れた性能を達成するためにmlアルゴリズムと組み合わせられているが、物理化学的メカニズムの複雑さにより、高効率な材料機械学習モデルを構築するために、構成や構造から表現学習を利用する必要がある。 これらの手法のうち、グラフニューラルネットワークは、結晶構造からハイレベルな特徴を学習する能力により、最高の性能を示している。 しかしながら、これらのモデルはすべて、メッセージパッシングGNNアーキテクチャの過度にスムースな問題のため、モデルをスケールアップできない。 本稿では,非常に深いグラフニューラルネットワークモデルを訓練できる,微分可能なグループ正規化とスキップ接続を備えたグラフ注意ニューラルネットワークモデルdeepgatgnnを提案する。 エネルギーとバンドギャップの予測のための6つのベンチマークデータセットに関する系統的なベンチマーク研究を通じて、我々のスケーラブルなDeeperGATGNNモデルは、異なるデータセットに対してコストのかかるハイパーパラメータチューニングをほとんど必要とせず、最大10倍改善した6つの特性のうち5つ以上の最先端の予測性能を達成することを示した。 我々の研究は、結晶構造をそれらの性質にマッピングする複雑さに対処するためには、堅牢な性能を達成するために大規模な非常に深いグラフニューラルネットワークが必要であることを示している。

Machine learning (ML) based materials discovery has emerged as one of the most promising approaches for breakthroughs in materials science. While heuristic knowledge based descriptors have been combined with ML algorithms to achieve good performance, the complexity of the physicochemical mechanisms makes it urgently needed to exploit representation learning from either compositions or structures for building highly effective materials machine learning models. Among these methods, the graph neural networks have shown the best performance by its capability to learn high-level features from crystal structures. However, all these models suffer from their inability to scale up the models due to the over-smoothing issue of their message-passing GNN architecture. Here we propose a novel graph attention neural network model DeeperGATGNN with differentiable group normalization and skip-connections, which allows to train very deep graph neural network models (e.g. 30 layers compared to 3-9 layers in previous works). Through systematic benchmark studies over six benchmark datasets for energy and band gap predictions, we show that our scalable DeeperGATGNN model needs little costly hyper-parameter tuning for different datasets and achieves the state-of-the-art prediction performances over five properties out of six with up to 10\% improvement. Our work shows that to deal with the high complexity of mapping the crystal materials structures to their properties, large-scale very deep graph neural networks are needed to achieve robust performances.
翻訳日:2021-09-28 15:13:28 公開日:2021-09-25
# Opacus: PyTorchのユーザフレンドリな差別化プライバシライブラリ

Opacus: User-Friendly Differential Privacy Library in PyTorch ( http://arxiv.org/abs/2109.12298v1 )

ライセンス: Link先を確認
Ashkan Yousefpour, Igor Shilov, Alexandre Sablayrolles, Davide Testuggine, Karthik Prasad, Mani Malek, John Nguyen, Sayan Gosh, Akash Bharadwaj, Jessica Zhao, Graham Cormode, Ilya Mironov(参考訳) OpacusはオープンソースのPyTorchライブラリで、差分プライバシー(opacus.aiでホストされている)でディープラーニングモデルをトレーニングする。 Opacusはシンプルさ、柔軟性、スピードのために設計されている。 シンプルでユーザフレンドリなAPIを提供し、コードに最大2行追加することで、機械学習実践者がトレーニングパイプラインをプライベートにすることができる。 マルチヘッドアテンション、畳み込み、LSTM、埋め込みなど、さまざまなレイヤをサポートすると同時に、他のユーザ定義レイヤをサポートする手段も提供する。 Opacusはバッチ化されたサンプル単位の勾配を計算し、従来の"マイクロバッチ"アプローチよりも効率がよい。 本稿では、Opacusを紹介し、その実装とユニークな特徴を駆動する原則を詳述し、その性能をMLの差分プライバシーのための他のフレームワークと比較する。

We introduce Opacus, a free, open-source PyTorch library for training deep learning models with differential privacy (hosted at opacus.ai). Opacus is designed for simplicity, flexibility, and speed. It provides a simple and user-friendly API, and enables machine learning practitioners to make a training pipeline private by adding as little as two lines to their code. It supports a wide variety of layers, including multi-head attention, convolution, LSTM, and embedding, right out of the box, and it also provides the means for supporting other user-defined layers. Opacus computes batched per-sample gradients, providing better efficiency compared to the traditional "micro batch" approach. In this paper we present Opacus, detail the principles that drove its implementation and unique features, and compare its performance against other frameworks for differential privacy in ML.
翻訳日:2021-09-28 15:13:00 公開日:2021-09-25
# ファウンデーションnftオークションの皮の下で

Under the Skin of Foundation NFT Auctions ( http://arxiv.org/abs/2109.12321v1 )

ライセンス: Link先を確認
MohammadAmin Fazli, Ali Owfi, Mohammad Reza Taesiri(参考訳) 非Fungible Tokens (NFTs) は暗号通貨コミュニティにおいて確固たる基盤を築き、その取引に相当量の資金が割り当てられている。 本稿では,NFTのオークションと取引を専門とするマーケットプレースであるFoundationについて検討した。 我々はFoundationのアクティビティを分析し、このプラットフォームで発生するいくつかの興味深い基盤となるダイナミクスを特定した。 さらに, ファウンデーション上の移動NFTに基づいて作成したグラフ上で, ソーシャルネットワーク分析を行い, その特性について説明した。 最後に、類似のnftを検索およびクラスタリングするためのニューラルネットワークベースの類似性モデルを構築した。 また,ほとんどのNFTにおいて,オークションのパフォーマンスは,クラスタ内の他のNFTのオークション性能に匹敵することを示した。

Non Fungible Tokens (NFTs) have gained a solid foothold within the crypto community, and substantial amounts of money have been allocated to their trades. In this paper, we studied one of the most prominent marketplaces dedicated to NFT auctions and trades, Foundation. We analyzed the activities on Foundation and identified several intriguing underlying dynamics that occur on this platform. Moreover, We performed social network analysis on a graph that we had created based on transferred NFTs on Foundation, and then described the characteristics of this graph. Lastly, We built a neural network-based similarity model for retrieving and clustering similar NFTs. We also showed that for most NFTs, their performances in auctions were comparable with the auction performance of other NFTs in their cluster.
翻訳日:2021-09-28 15:12:46 公開日:2021-09-25
# 多要素ニューラルネットワークを用いたシミュレーションデータによる傾斜き裂のプロパント沈降過程のサブスケールサロゲートモデルの構築

Constructing Sub-scale Surrogate Model for Proppant Settling in Inclined Fractures from Simulation Data with Multi-fidelity Neural Network ( http://arxiv.org/abs/2109.12311v1 )

ライセンス: Link先を確認
Pengfei Tang, Junsheng Zeng, Dongxiao Zhang, and Heng Li(参考訳) 傾斜流路に沈着する粒子はシェールガス生成の水圧破砕時に生じる重要な現象である。 一般に、大規模(フィールドスケール)プロパント輸送過程を正確にシミュレートするためには、物理的パラメータとプロパント沈降速度のマッピングが複雑であるため、高速で正確なサブスケールプロパント沈降モデルを構築することが重要な問題となる。 これまで、粒子沈降は高忠実度実験やメソスケールの数値シミュレーションによって研究されてきた。 本研究では,MFNN(Multi-fidelity Neural Network)と呼ばれる新しい手法を提案し,高忠実度と低忠実度(thus,低費用)データの両方を利用可能な定位サロゲートモデルを構築した。 その結果,mfnnによる沈降サロゲートの構築は高忠実度データの必要性を低減し,計算コストを80%削減できるが,精度の低下は高忠実度サロゲートと比較して5%未満であることがわかった。 さらに, 粒子沈降法をマクロスケールのプロパント輸送シミュレーションに適用し, 沈降モデルがプロパント輸送に有意であり, 正確な結果が得られることを示した。 これは貯水池応用におけるプロパント沈降速度を迅速に予測するための新しい経路を開く。

Particle settling in inclined channels is an important phenomenon that occurs during hydraulic fracturing of shale gas production. Generally, in order to accurately simulate the large-scale (field-scale) proppant transport process, constructing a fast and accurate sub-scale proppant settling model, or surrogate model, becomes a critical issue, since mapping between physical parameters and proppant settling velocity is complex. Previously, particle settling has usually been investigated via high-fidelity experiments and meso-scale numerical simulations, both of which are time-consuming. In this work, a new method is proposed and utilized, i.e., the multi-fidelity neural network (MFNN), to construct a settling surrogate model, which could utilize both high-fidelity and low-fidelity (thus, less expensive) data. The results demonstrate that constructing the settling surrogate with the MFNN can reduce the need for high-fidelity data and thus computational cost by 80%, while the accuracy lost is less than 5% compared to a high-fidelity surrogate. Moreover, the investigated particle settling surrogate is applied in macro-scale proppant transport simulation, which shows that the settling model is significant to proppant transport and yields accurate results. This opens novel pathways for rapidly predicting proppant settling velocity in reservoir applications.
翻訳日:2021-09-28 15:07:20 公開日:2021-09-25
# Byzantine Adversarial Agentによる分散オンライン最適化

Distributed Online Optimization with Byzantine Adversarial Agents ( http://arxiv.org/abs/2109.12340v1 )

ライセンス: Link先を確認
Sourav Sahoo, Anand Gokhale and Rachel Kalpana Kalaimani(参考訳) 本研究では,複数のエージェントが所定の更新ルールに従わないようなマルチエージェントシステムにおいて,非制約,離散時間,オンライン分散最適化の問題について検討する。 エージェントには、欠陥のあるエージェントの身元に関する事前情報がなく、任意のエージェントは、そのすぐ隣のエージェントとのみ通信することができる。 それぞれの時間ステップで、リプシッツの強い凸コスト関数がすべてのエージェントにローカルに暴露され、非デフォルトエージェントはローカル情報と隣人から得られた情報を使用して状態を更新する。 コスト関数が既知の場合,オフライン版と比較することにより,オンラインアルゴリズムの性能を測定する。 両者の違いは「後悔」と呼ばれる。 グラフトポロジー、敵の数と位置に関する十分な条件の下では、定義された後悔は次々に増加する。 さらに,理論結果を検証するために数値実験を行う。

We study the problem of non-constrained, discrete-time, online distributed optimization in a multi-agent system where some of the agents do not follow the prescribed update rule either due to failures or malicious intentions. None of the agents have prior information about the identities of the faulty agents and any agent can communicate only with its immediate neighbours. At each time step, a Lipschitz strongly convex cost function is revealed locally to all the agents and the non-faulty agents update their states using their local information and the information obtained from their neighbours. We measure the performance of the online algorithm by comparing it to its offline version when the cost functions are known apriori. The difference between the same is termed as regret. Under sufficient conditions on the graph topology, the number and location of the adversaries, the defined regret grows sublinearly. We further conduct numerical experiments to validate our theoretical results.
翻訳日:2021-09-28 15:06:54 公開日:2021-09-25
# 深層学習によるチャネル状態情報に基づく位置推定

Channel State Information Based Localization with Deep Learning ( http://arxiv.org/abs/2109.12398v1 )

ライセンス: Link先を確認
Kutay B\"olat(参考訳) ローカライゼーションはロボット工学や無線通信といった様々な分野において最も重要な問題の1つである。 例えば、無人航空機(UAV)は適切な制御戦略のために正確な位置の情報を必要とする。 この問題は、屋外アプリケーションのための統合GPSユニットで非常に効率的に処理される。 しかし, 屋内ではGPS信号が利用できないため, 特別な処理が必要である。 UAVのような移動ロボットのもう1つの側面は、移動ロボットと計算ユニットとの間に一定の無線通信が存在することである。 この通信は主に遠隔計測情報や制御動作の計算を直接取得するために行われる。 この送信の責任ある統合ユニットは商用無線通信チップセットである。 受信側のこれらのユニットは、様々な数学的手法で通信チャネルの多様な効果を取り除く責任がある。 これらの手法は主にチャネル自体を補償するために現在のチャネルのチャネル状態情報(csi)を必要とする。 補償後、チップセットはCSIとは無関係である。 しかし、送信機と受信機の両方の位置はCSIに直接影響を及ぼす。 csiは環境に関する情報を豊富に含んでいるが、処理された情報データビットのみをユーザに提供するために製造されるため、商用無線チップセットによってアクセシビリティがブロックされる。 しかし、IEEE 802.11nの標準化により、一部のチップセットはCSIへのアクセスを提供する。 したがって、csiデータは処理可能となり、ローカライズスキームに統合可能となった。 本プロジェクトでは,ローカライゼーションタスクのためのテスト環境を構築した。 適切なチップセットを持つ2つのルータが送信機と受信機として割り当てられた。 csiデータ収集のために運用された。 最後に、これらのデータは様々なディープラーニングモデルで処理された。

Localization is one of the most important problems in various fields such as robotics and wireless communications. For instance, Unmanned Aerial Vehicles (UAVs) require the information of the position precisely for an adequate control strategy. This problem is handled very efficiently with integrated GPS units for outdoor applications. However, indoor applications require special treatment due to the unavailability of GPS signals. Another aspect of mobile robots such as UAVs is that there is constant wireless communication between the mobile robot and a computational unit. This communication is mainly done for obtaining telemetry information or computation of control actions directly. The responsible integrated units for this transmission are commercial wireless communication chipsets. These units on the receiver side are responsible for getting rid of the diverse effects of the communication channel with various mathematical techniques. These techniques mainly require the Channel State Information (CSI) of the current channel to compensate the channel itself. After the compensation, the chipset has nothing to do with CSI. However, the locations of both the transmitter and receiver have a direct impact on CSI. Even though CSI contains such rich information about the environment, the accessibility of these data is blocked by the commercial wireless chipsets since they are manufactured to provide only the processed information data bits to the user. However, with the IEEE 802.11n standardization, certain chipsets provide access to CSI. Therefore, CSI data became processible and integrable to localization schemes. In this project, a test environment was constructed for the localization task. Two routers with proper chipsets were assigned as transmitter and receiver. They were operationalized for the CSI data collection. Lastly, these data were processed with various deep learning models.
翻訳日:2021-09-28 15:06:39 公開日:2021-09-25
# 通信効率の高い分散線形およびディープ一般化正準相関解析

Communication-Effici ent Distributed Linear and Deep Generalized Canonical Correlation Analysis ( http://arxiv.org/abs/2109.12400v1 )

ライセンス: Link先を確認
Sagar Shrestha and Xiao Fu(参考訳) 古典的およびディープラーニングに基づく一般化正準相関解析(GCCA)アルゴリズムは、線形変換とニューラルネットワークを用いて複数の`views'(音声と画像)からデータエンティティの低次元共通表現を求める。 ビューが異なる場所、組織、エッジデバイスで取得され、保存されると、GCCAを分散、並列、効率的な方法で計算することが動機になります。 しかし、既存の分散GCCAアルゴリズムは、確率的に高い通信オーバーヘッドを引き起こす可能性がある。 本研究は、最大分散(MAX-VAR)パラダイムの下で、線形および深部GCCAの通信効率の高い分散フレームワークを提案する。 オーバーヘッド問題は、分散コンピューティングエージェントと中央コントローラ間の情報交換を積極的に(量子化によって)圧縮することで解決される。 非定量化バージョンと比較して、提案アルゴリズムは、ほぼ精度と収束速度を損なうことなく、通信オーバーヘッドを約90 %$に抑える。 量子化された分散最適化による既存の一般的な結果はGCCAの特別な問題構造をカバーしていないため、これは非自明な努力である。 本結果は,重量子化や確率近似の下でも,線形および深部GCCAのアルゴリズムが線形速度の臨界点に収束することを示す。 さらに、線形MAX-VARの場合、量子化されたアルゴリズムは、計算エージェントの更新が一定の精度のレベルに達した場合、 a {\displaystyle a} に近づくことが示されている。 合成および実データ実験は,提案手法の有効性を示すために用いられる。

Classic and deep learning-based generalized canonical correlation analysis (GCCA) algorithms seek low-dimensional common representations of data entities from multiple ``views'' (e.g., audio and image) using linear transformations and neural networks, respectively. When the views are acquired and stored at different locations, organizations and edge devices, computing GCCA in a distributed, parallel and efficient manner is well-motivated. However, existing distributed GCCA algorithms may incur prohitively high communication overhead. This work puts forth a communication-effici ent distributed framework for both linear and deep GCCA under the maximum variance (MAX-VAR) paradigm. The overhead issue is addressed by aggressively compressing (via quantization) the exchanging information between the distributed computing agents and a central controller. Compared to the unquantized version, the proposed algorithm consistently reduces the communication overhead by about $90\%$ with virtually no loss in accuracy and convergence speed. Rigorous convergence analyses are also presented -- which is a nontrivial effort since no existing generic result from quantized distributed optimization covers the special problem structure of GCCA. Our result shows that the proposed algorithms for both linear and deep GCCA converge to critical points in a sublinear rate, even under heavy quantization and stochastic approximations. In addition, it is shown that in the linear MAX-VAR case, the quantized algorithm approaches a {\it global optimum} in a {\it geometric} rate -- if the computing agents' updates meet a certain accuracy level. Synthetic and real data experiments are used to showcase the effectiveness of the proposed approach.
翻訳日:2021-09-28 15:06:19 公開日:2021-09-25
# スマートホームエネルギー管理:シーケンスからシーケンスへの負荷予測とq-learning

Smart Home Energy Management: Sequence-to-Sequence Load Forecasting and Q-Learning ( http://arxiv.org/abs/2109.12440v1 )

ライセンス: Link先を確認
Mina Razghandi, Hao Zhou, Melike Erol-Kantarci, Damla Turgut(参考訳) スマートホームエネルギー管理システム(HEMS)は,顧客のエネルギーコスト削減に寄与するが,エネルギー生成と消費パターンの両面で不確実性に悩まされる。 本稿では,強化学習に基づくhems制御とともに,シーケンストシーケンス(seq2seq)学習に基づく供給と負荷予測を提案する。 本手法がHEMS動作に与える影響について検討する。 まず、seq2seq学習を用いて、太陽光発電(pv)電力と家庭機器の負荷を予測する。 次に、予測結果に基づいてHEMSのオフライン最適化にQ-learningを適用する。 最後に、訓練されたQ-ラーニングスキームのオンライン性能を実際のPVと負荷データで検証する。 Seq2Seq学習は、予測レベルと操作レベルの両方において、VARMA、SVR、LSTMと比較される。 シミュレーションの結果,seq2seqは予測誤差が低く,オンライン操作性能が向上した。

A smart home energy management system (HEMS) can contribute towards reducing the energy costs of customers; however, HEMS suffers from uncertainty in both energy generation and consumption patterns. In this paper, we propose a sequence to sequence (Seq2Seq) learning-based supply and load prediction along with reinforcement learning-based HEMS control. We investigate how the prediction method affects the HEMS operation. First, we use Seq2Seq learning to predict photovoltaic (PV) power and home devices' load. We then apply Q-learning for offline optimization of HEMS based on the prediction results. Finally, we test the online performance of the trained Q-learning scheme with actual PV and load data. The Seq2Seq learning is compared with VARMA, SVR, and LSTM in both prediction and operation levels. The simulation results show that Seq2Seq performs better with a lower prediction error and online operation performance.
翻訳日:2021-09-28 15:05:51 公開日:2021-09-25
# AbstractDifferentiat ion.jl: Juliaにおけるバックエンド非依存の微分プログラミング

AbstractDifferentiat ion.jl: Backend-Agnostic Differentiable Programming in Julia ( http://arxiv.org/abs/2109.12449v1 )

ライセンス: Link先を確認
Frank Sch\"afer, Mohamed Tarek, Lyndon White, Chris Rackauckas(参考訳) すべての問題に対して最適な自動微分(AD)システムは存在しない。 これは、ADシステムの情報選択と組み合わせが問題固有の変数になり、性能に大きな影響を及ぼすことを意味する。 ジュリアプログラミング言語では、主要な広告システムは同じ入力をターゲットとし、理論上は構成できる。 代わりに、Julia言語でADパッケージを切り替えるには、エンドユーザがそれぞれのパッケージのユーザ対応APIに慣れる必要があった。 さらに、新しいADパッケージの実装では、ADパッケージ開発者は、エンドユーザ向けの便利なAPI関数を定義するために定型的なコードを書く必要があった。 これらの問題に対する対応として、任意のADパッケージに対して、広範囲に統一されたユーザ対応APIを自動生成するためのAbstractDifferentiat ion.jlを提案する。 ADユーザとAD開発者の複雑さを分けることで、ADパッケージ開発者は、Addユーザのためのさまざまなユーティリティをサポートするために、Jacobian、Hessian、および遅延製品オペレータをプルバックやプッシュフォワードといったネイティブプリミティブから実装するだけでよい。

No single Automatic Differentiation (AD) system is the optimal choice for all problems. This means informed selection of an AD system and combinations can be a problem-specific variable that can greatly impact performance. In the Julia programming language, the major AD systems target the same input and thus in theory can compose. Hitherto, switching between AD packages in the Julia Language required end-users to familiarize themselves with the user-facing API of the respective packages. Furthermore, implementing a new, usable AD package required AD package developers to write boilerplate code to define convenience API functions for end-users. As a response to these issues, we present AbstractDifferentiat ion.jl for the automatized generation of an extensive, unified, user-facing API for any AD package. By splitting the complexity between AD users and AD developers, AD package developers only need to implement one or two primitive definitions to support various utilities for AD users like Jacobians, Hessians and lazy product operators from native primitives such as pullbacks or pushforwards, thus removing tedious -- but so far inevitable -- boilerplate code, and enabling the easy switching and composing between AD implementations for end-users.
翻訳日:2021-09-28 15:05:37 公開日:2021-09-25
# ロバストネスを超えて:レジリエントなマルチロボットシステムへのアプローチの分類

Beyond Robustness: A Taxonomy of Approaches towards Resilient Multi-Robot Systems ( http://arxiv.org/abs/2109.12343v1 )

ライセンス: Link先を確認
Amanda Prorok, Matthew Malencia, Luca Carlone, Gaurav S. Sukhatme, Brian M. Sadler, Vijay Kumar(参考訳) 堅牢性は、エンジニアリング、オートメーション、科学全般にとって重要だ。 しかし、堅牢性の性質は、過剰なプロビジョン、既知の不確実性、予測モデル、既知の敵などのコストのかかる要件によってしばしば基礎をなしている。 これらの条件は理想主義的であり、しばしば満足できない。 一方のレジリエンスは、予期せぬ破壊に耐え、ネガティブな出来事から素早く回復し、正常さに跳ね返る能力である。 本稿では,システム全体の相補性,多様性,冗長性を活用することで,逆境を克服できるエージェントやマルチロボットシステムのネットワークにおいて,レジリエンスがどのように実現されているかを分析する。 社会は、重要なインフラサービス(物流、輸送、精密農業など)を提供するための接続された自動化システムに依存しているため、レジリエンスなマルチロボットシステムを実現する手段が最重要である。 弾力性のないシステムの結果を列挙することによって、レジリエンスはエンジニアリング設計の中心となる必要がある、と我々は主張する。 この目標に向けて、コミュニティはどのように定義され、測定され、維持されるかを明確にする必要がある。 基礎となるロボティクス領域、知覚、制御、計画、学習にまたがるこれらの問題に対処する。 私たちの重要な貢献の1つは、アプローチの形式的な分類であり、レジリエントなシステムの決定要因やストレス要因についても議論するのに役立ちます。 最後に、この調査記事はレジリエンスの達成方法に関する洞察を提供する。 重要なのは、レジリエントなロボットシステムのメリットを享受するために、まだ取り組まなければならないオープンな問題に注目することです。

Robustness is key to engineering, automation, and science as a whole. However, the property of robustness is often underpinned by costly requirements such as over-provisioning, known uncertainty and predictive models, and known adversaries. These conditions are idealistic, and often not satisfiable. Resilience on the other hand is the capability to endure unexpected disruptions, to recover swiftly from negative events, and bounce back to normality. In this survey article, we analyze how resilience is achieved in networks of agents and multi-robot systems that are able to overcome adversity by leveraging system-wide complementarity, diversity, and redundancy - often involving a reconfiguration of robotic capabilities to provide some key ability that was not present in the system a priori. As society increasingly depends on connected automated systems to provide key infrastructure services (e.g., logistics, transport, and precision agriculture), providing the means to achieving resilient multi-robot systems is paramount. By enumerating the consequences of a system that is not resilient (fragile), we argue that resilience must become a central engineering design consideration. Towards this goal, the community needs to gain clarity on how it is defined, measured, and maintained. We address these questions across foundational robotics domains, spanning perception, control, planning, and learning. One of our key contributions is a formal taxonomy of approaches, which also helps us discuss the defining factors and stressors for a resilient system. Finally, this survey article gives insight as to how resilience may be achieved. Importantly, we highlight open problems that remain to be tackled in order to reap the benefits of resilient robotic systems.
翻訳日:2021-09-28 15:03:59 公開日:2021-09-25