このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210822となっている論文です。

PDF登録状況(公開日: 20210822)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 多言語音声認識のためのデュアルデコーダ適合器 [全文訳有]

A Dual-Decoder Conformer for Multilingual Speech Recognition ( http://arxiv.org/abs/2109.03277v1 )

ライセンス: CC BY 4.0
Krishna D N(参考訳) トランスフォーマーベースのモデルは最近、機械翻訳や音声認識などのシーケンシャル・トゥ・シーケンスアプリケーションで非常に人気がある。 本研究では,インド語用低リソース多言語音声認識のためのデュアルデコーダトランスフォーマモデルを提案する。 提案モデルは,コンバータ[1]エンコーダと2つの並列トランスフォーマーデコーダ,言語分類器から構成される。 音素認識タスクには音素デコーダ(phn-dec)、言語情報とともに音素シーケンスを予測するgraphemeデコーダ(grp-dec)を用いる。 我々は,マルチタスク学習フレームワークにおいて,音素認識と言語識別を補助的タスクとみなす。 我々は,共用CTC-Attention [2]トレーニングを用いて,音素認識,グラフ認識,言語識別タスクのネットワークを最適化する。 実験の結果,ベースラインアプローチよりもWERを大幅に削減できることがわかった。 また,デュアルデコーダ方式は単一デコーダ方式よりも大幅に改善されていることを示す。

Transformer-based models have recently become very popular for sequence-to-sequence applications such as machine translation and speech recognition. This work proposes a dual-decoder transformer model for low-resource multilingual speech recognition for Indian languages. Our proposed model consists of a Conformer [1] encoder, two parallel transformer decoders, and a language classifier. We use a phoneme decoder (PHN-DEC) for the phoneme recognition task and a grapheme decoder (GRP-DEC) to predict grapheme sequence along with language information. We consider phoneme recognition and language identification as auxiliary tasks in the multi-task learning framework. We jointly optimize the network for phoneme recognition, grapheme recognition, and language identification tasks with Joint CTC-Attention [2] training. Our experiments show that we can obtain a significant reduction in WER over the baseline approaches. We also show that our dual-decoder approach obtains significant improvement over the single decoder approach.
翻訳日:2021-09-12 12:29:15 公開日:2021-08-22
# (参考訳) マルチタスクコンフォーメータを用いたインド低リソース言語のための多言語音声認識 [全文訳有]

Multilingual Speech Recognition for Low-Resource Indian Languages using Multi-Task conformer ( http://arxiv.org/abs/2109.03969v1 )

ライセンス: CC BY 4.0
Krishna D N(参考訳) 近年、トランスフォーマーは機械翻訳や音声認識などのシーケンシャル・ツー・シーケンスアプリケーションで非常に人気がある。 本研究では,インド語用低リソース多言語音声認識のためのマルチタスク学習に基づくトランスフォーマモデルを提案する。 提案モデルはコンバータ[1]エンコーダと2つの並列トランスデコーダからなる。 音素認識タスクには音素デコーダ(phn-dec)、音素シーケンスの予測にはgraphemeデコーダ(grp-dec)を用いる。 我々は,音素認識タスクをマルチタスク学習フレームワークの補助タスクとみなしている。 CTC-Attention [2] トレーニングを用いて,音素認識タスクと音素認識タスクの両方にネットワークを最適化する。 文列を予測する前に,条件付き復号法を用いて言語情報をモデルに注入する。 実験の結果,提案手法は従来の手法よりも大幅に改善できることがわかった[4]。 また、コンバータベースのデュアルデコーダアプローチは、トランスフォーマベースのデュアルデコーダアプローチとシングルデコーダアプローチの両方より優れていることを示す。 最後に,単言語 ASR モデルと提案した多言語 ASR モデルを比較した。

Transformers have recently become very popular for sequence-to-sequence applications such as machine translation and speech recognition. In this work, we propose a multi-task learning-based transformer model for low-resource multilingual speech recognition for Indian languages. Our proposed model consists of a conformer [1] encoder and two parallel transformer decoders. We use a phoneme decoder (PHN-DEC) for the phoneme recognition task and a grapheme decoder (GRP-DEC) to predict grapheme sequence. We consider the phoneme recognition task as an auxiliary task for our multi-task learning framework. We jointly optimize the network for both phoneme and grapheme recognition tasks using Joint CTC-Attention [2] training. We use a conditional decoding scheme to inject the language information into the model before predicting the grapheme sequence. Our experiments show that our proposed approach can obtain significant improvement over previous approaches [4]. We also show that our conformer-based dual-decoder approach outperforms both the transformer-based dual-decoder approach and single decoder approach. Finally, We compare monolingual ASR models with our proposed multilingual ASR approach.
翻訳日:2021-09-12 12:16:53 公開日:2021-08-22
# (参考訳) モバイルデバイスを用いた小児感情認識分類器の訓練とプロファイリング [全文訳有]

Training and Profiling a Pediatric Emotion Recognition Classifier on Mobile Devices ( http://arxiv.org/abs/2108.11754v1 )

ライセンス: CC BY 4.0
Agnik Banerjee, Peter Washington, Cezmi Mutlu, Aaron Kline, Dennis P. Wall(参考訳) モバイルデバイスで感情の自動認識を実装することは、自閉症などの発達的行動条件を持つ子供を含む感情認識に苦しむ人々にとって、アクセス可能な診断および治療ツールとなる可能性がある。 より正確な感情分類器の構築には最近の進歩があるが、既存のモデルは計算コストがかかりすぎてモバイルデバイスにデプロイできない。 本研究では,エッジデバイス上での推論を目的とした各種機械学習モデルの最適化とプロファイルを行い,子どもの感情認識における過去の成果と一致した。 われわれの最良のモデルであるMobileNet-V2ネットワークはImageNetで事前トレーニングされ、65.11%の精度と64.19%のF1スコアを達成した。 このバランスの取れた精度は、26.62倍のパラメータを持つモデルを使用しており、完全に最適化されてもmoto g6では動作できなかったcafeの現在のartより1.79%低い。 この研究は、特殊な設計と最適化技術により、マシンラーニングモデルがモバイルデバイスへのデプロイに十分軽量になり、難しい画像分類タスクにおいて高い精度を達成することを実証する。

Implementing automated emotion recognition on mobile devices could provide an accessible diagnostic and therapeutic tool for those who struggle to recognize emotion, including children with developmental behavioral conditions such as autism. Although recent advances have been made in building more accurate emotion classifiers, existing models are too computationally expensive to be deployed on mobile devices. In this study, we optimized and profiled various machine learning models designed for inference on edge devices and were able to match previous state of the art results for emotion recognition on children. Our best model, a MobileNet-V2 network pre-trained on ImageNet, achieved 65.11% balanced accuracy and 64.19% F1-score on CAFE, while achieving a 45-millisecond inference latency on a Motorola Moto G6 phone. This balanced accuracy is only 1.79% less than the current state of the art for CAFE, which used a model that contains 26.62x more parameters and was unable to run on the Moto G6, even when fully optimized. This work validates that with specialized design and optimization techniques, machine learning models can become lightweight enough for deployment on mobile devices and still achieve high accuracies on difficult image classification tasks.
翻訳日:2021-08-28 03:36:27 公開日:2021-08-22
# 疎自己注意層を用いたRNN-Transducerの外部オーディオへの一般化

Generalizing RNN-Transducer to Out-Domain Audio via Sparse Self-Attention Layers ( http://arxiv.org/abs/2108.10752v1 )

ライセンス: Link先を確認
Juntae Kim, Jeehye Lee, Yoonhan Lee(参考訳) recurrent neural network transducers(rnn-t)は、入力された音響フレームを文字列に変換する、有望なエンドツーエンド音声認識フレームワークである。 RNN-Tの最先端エンコーダネットワークであるConformerは、その畳み込み層と自己アテンション層を通じて、ローカル・グローバルコンテキスト情報を効果的にモデル化することができる。 コンフォーマーRNN-Tは, 単語誤り率(WER)によって測定されるが, 列車と試験データが同一領域から抽出される状況下では, 大半が検証されている。 Conformer RNN-Tのドメインミスマッチ問題は、製品レベルの音声認識システムにおいて重要な問題である。 本研究では,コンバータにおける完全連結型自己意図層が,特に長文外発話において高い削除誤差を引き起こしていることを確認した。 この問題に対処するため,コンフォーメータベースのエンコーダネットワークでは,局所的および一般化されたグローバル情報を活用できる疎自己着層を導入する。 さらに,長文発話に対応する予測ネットワークの一般化のための状態リセット手法を提案する。 提案手法を領域外試験に適用し, 完全連結層と局所自己保持層を用いたコンバータと比較して, 24.6 % と 6.5 % の相対的文字誤り率 (CER) を削減した。

Recurrent neural network transducers (RNN-T) are a promising end-to-end speech recognition framework that transduces input acoustic frames into a character sequence. The state-of-the-art encoder network for RNN-T is the Conformer, which can effectively model the local-global context information via its convolution and self-attention layers. Although Conformer RNN-T has shown outstanding performance (measured by word error rate (WER) in general), most studies have been verified in the setting where the train and test data are drawn from the same domain. The domain mismatch problem for Conformer RNN-T has not been intensively investigated yet, which is an important issue for the product-level speech recognition system. In this study, we identified that fully connected self-attention layers in the Conformer caused high deletion errors, specifically in the long-form out-domain utterances. To address this problem, we introduce sparse self-attention layers for Conformer-based encoder networks, which can exploit local and generalized global information by pruning most of the in-domain fitted global connections. Further, we propose a state reset method for the generalization of the prediction network to cope with long-form utterances. Applying proposed methods to an out-domain test, we obtained 24.6\% and 6.5\% relative character error rate (CER) reduction compared to the fully connected and local self-attention layer-based Conformers, respectively.
翻訳日:2021-08-25 14:10:22 公開日:2021-08-22
# (参考訳) バッグ脅威認識のためのテンソルプール駆動型インスタンス分割フレームワーク [全文訳有]

Tensor Pooling Driven Instance Segmentation Framework for Baggage Threat Recognition ( http://arxiv.org/abs/2108.09603v1 )

ライセンス: CC BY 4.0
Taimur Hassan and Samet Akcay and Mohammed Bennamoun and Salman Khan and Naoufel Werghi(参考訳) X線画像からコントラバンドアイテムをスクリーニングするために設計された自動システムは、いまだに散らかり、隠蔽、極度の閉塞によって困難に直面している。 本稿では,手荷物X線スキャンにおける乱雑なコントラバンドデータを効果的に識別する,新しいマルチスケール輪郭インスタンスセグメンテーションフレームワークを用いて,この問題に対処する。 オブジェクトを囲む複数のボックスを生成するために、領域ベースまたはキーポイントベースの技術を用いる標準モデルとは異なり、輪郭によって定義される領域の階層構造に従って提案を導出する。 提案フレームワークはGDXray, SIXray, OPIXrayという3つの公開データセットで厳格に検証され, 平均精度スコア0.9779, 0.9614, 0.8396をそれぞれ達成して最先端の手法より優れている。 さらに、私たちの知る限りでは、マルチスケール情報を利用して色とグレースケールのセキュリティX線画像から乱れや隠蔽されたコントラバンドデータを認識する最初の輪郭インスタンスセグメンテーションフレームワークである。

Automated systems designed for screening contraband items from the X-ray imagery are still facing difficulties with high clutter, concealment, and extreme occlusion. In this paper, we addressed this challenge using a novel multi-scale contour instance segmentation framework that effectively identifies the cluttered contraband data within the baggage X-ray scans. Unlike standard models that employ region-based or keypoint-based techniques to generate multiple boxes around objects, we propose to derive proposals according to the hierarchy of the regions defined by the contours. The proposed framework is rigorously validated on three public datasets, dubbed GDXray, SIXray, and OPIXray, where it outperforms the state-of-the-art methods by achieving the mean average precision score of 0.9779, 0.9614, and 0.8396, respectively. Furthermore, to the best of our knowledge, this is the first contour instance segmentation framework that leverages multi-scale information to recognize cluttered and concealed contraband data from the colored and grayscale security X-ray imagery.
翻訳日:2021-08-25 05:31:52 公開日:2021-08-22
# (参考訳) 直交潜在空間投影による地質構造の自己監督 [全文訳有]

Self-Supervised Delineation of Geological Structures using Orthogonal Latent Space Projection ( http://arxiv.org/abs/2108.09605v1 )

ライセンス: CC BY 4.0
Oluwaseun Joseph Aribido, Ghassan AlRegib, Yazeed Alaudah(参考訳) 我々は,経験豊富な地震インタプリタから手動によるラベル付けを行うことなく,地震量の自動解析を支援する2つの機械学習フレームワークを開発した。 最初のフレームワークは教師なしの階層的クラスタリングモデルで、地震像をボリュームから、アルゴリズムによって決定されるある数のクラスタに分割する。 クラスタリングフレームワークは、密度と階層的なテクニックを組み合わせて、クラスタのサイズと均質性を決定する。 第2のフレームワークは、地震画像に対する地質学的関心の地域をラベル付けするための自己教師型ディープラーニングフレームワークで構成されている。 エンコーダ・デコーダアーキテクチャの潜在空間を2つの直交部分空間に射影し、そこから地震画像に対する関心領域を記述することを学ぶ。 両フレームワークの適用例を示すために,地震体積を連続した複数のクラスターにまとめ,地平線,断層,塩ドーム,カオス構造という異なる地震パターンに基づいて4つのクラスターを選定した。 選択されたクラスタからのイメージは、エンコーダ-デコーダネットワークのトレーニングに使用される。 エンコーダ・デコーダネットワークの出力は、振幅反射イベントが興味深い地質構造に属する可能性の確率マップである。 構造は確率写像を用いて記述される。 区切りされた画像はさらに、セグメンテーションモデルを訓練して、結果を完全な垂直セクションに拡張するために使われる。 その結果,地震の体積を,それに対応する構造成分に分解できることがわかった。 最後に、私たちのディープラーニングフレームワークを属性抽出器としてモデル化できることを示し、文献における様々な属性と比較し、それらと競合する性能を示した。

We developed two machine learning frameworks that could assist in automated litho-stratigraphic interpretation of seismic volumes without any manual hand labeling from an experienced seismic interpreter. The first framework is an unsupervised hierarchical clustering model to divide seismic images from a volume into certain number of clusters determined by the algorithm. The clustering framework uses a combination of density and hierarchical techniques to determine the size and homogeneity of the clusters. The second framework consists of a self-supervised deep learning framework to label regions of geological interest in seismic images. It projects the latent-space of an encoder-decoder architecture unto two orthogonal subspaces, from which it learns to delineate regions of interest in the seismic images. To demonstrate an application of both frameworks, a seismic volume was clustered into various contiguous clusters, from which four clusters were selected based on distinct seismic patterns: horizons, faults, salt domes and chaotic structures. Images from the selected clusters are used to train the encoder-decoder network. The output of the encoder-decoder network is a probability map of the possibility an amplitude reflection event belongs to an interesting geological structure. The structures are delineated using the probability map. The delineated images are further used to post-train a segmentation model to extend our results to full-vertical sections. The results on vertical sections show that we can factorize a seismic volume into its corresponding structural components. Lastly, we showed that our deep learning framework could be modeled as an attribute extractor and we compared our attribute result with various existing attributes in literature and demonstrate competitive performance with them.
翻訳日:2021-08-25 05:05:25 公開日:2021-08-22
# (参考訳) パーソナライズされた連合学習:組み合わせアプローチ [全文訳有]

Personalised Federated Learning: A Combinational Approach ( http://arxiv.org/abs/2108.09618v1 )

ライセンス: CC BY 4.0
Sone Kyaw Pye and Han Yu(参考訳) Federated Learning(FL)は、複数のクライアントが共同で共有モデルをトレーニングする分散機械学習アプローチである。 このようなシステムには、複数のクライアントからのより多くのトレーニングデータの利点があるが、データは識別不能で独立に分散される(非i.d.)。 FLでは、差分プライバシ(DP)やロバストアグリゲーション(RA)などのプライバシーと整合性保護機能が一般的に使用されている。 本研究は,一般的なディープラーニングタスクにおいて,FLモデルの性能がクライアントや状況によって異なることを示し,非i.dにより,FLモデルが局所モデルよりも悪い結果を示す。 データだ 次に,DPとRAの併用により性能がさらに低下することを示す。 次に, flにおける共通パーソナライズアプローチの異なる組み合わせによる性能への影響について, 微調整, ミックス・オブ・エキスパート・アンサンブル, マルチタスク学習, 知識蒸留などのアブレーション研究を行った。 パーソナライズアプローチの特定の組み合わせは、特定のシナリオにおいてより影響を受け、他の組み合わせは、常にパフォーマンスを改善し、組み合わせアプローチは個々のシナリオよりも優れていることが観察された。 ほとんどのクライアントは、パーソナライズされたFLと、非i.dによるパフォーマンス劣化から回復した。 data, DP, RA。

Federated learning (FL) is a distributed machine learning approach involving multiple clients collaboratively training a shared model. Such a system has the advantage of more training data from multiple clients, but data can be non-identically and independently distributed (non-i.i.d.). Privacy and integrity preserving features such as differential privacy (DP) and robust aggregation (RA) are commonly used in FL. In this work, we show that on common deep learning tasks, the performance of FL models differs amongst clients and situations, and FL models can sometimes perform worse than local models due to non-i.i.d. data. Secondly, we show that incorporating DP and RA degrades performance further. Then, we conduct an ablation study on the performance impact of different combinations of common personalization approaches for FL, such as finetuning, mixture-of-experts ensemble, multi-task learning, and knowledge distillation. It is observed that certain combinations of personalization approaches are more impactful in certain scenarios while others always improve performance, and combination approaches are better than individual ones. Most clients obtained better performance with combined personalized FL and recover from performance degradation caused by non-i.i.d. data, DP, and RA.
翻訳日:2021-08-25 04:43:06 公開日:2021-08-22
# (参考訳) コード学習タスクの評価手法 [全文訳有]

Evaluation Methodologies for Code Learning Tasks ( http://arxiv.org/abs/2108.09619v1 )

ライセンス: CC BY 4.0
Pengyu Nie, Jiyang Zhang, Junyi Jessy Li, Raymond J. Mooney, Milos Gligoric(参考訳) コード学習タスク(例えばコメント生成やメソッド命名など)のための機械学習(ML)モデルの開発に対する関心が高まっている。 MLモデルの有効性は大幅に向上したが、評価手法、すなわち、人々がデータセットをトレーニング、検証、テストセットに分割する方法は十分に設計されなかった。 具体的には、前述のトピックに関する以前の研究では、評価中のコードとコメントのタイムスタンプが考慮されていた(例えば、テストセットの例は2010年、トレーニングセットの例は2020年)。 これは、MLモデルの意図されたユースケースと矛盾する評価につながる可能性がある。 本稿では,新しい時間割評価手法を定式化し,文献で一般的に用いられる2つの手法であるmixed-projectとcross-projectについて述べる。 タイムセグメンテーションの方法論が最も現実的だと主張する。 また,MLモデルのさまざまなユースケースについて記述し,各ユースケースの評価に方法論を使用するためのガイドラインを提供する。 提案手法が与える影響を評価するために,タイムスタンプを用いたコード-コミットペアのデータセットを収集し,最近のコード学習mlモデルの学習と評価を行った。 その結果,異なる手法が相反する結果をもたらす可能性が示唆された。 タイムセグメンテーション評価手法を採用するようコミュニティに呼びかける。

There has been a growing interest in developing machine learning (ML) models for code learning tasks, e.g., comment generation and method naming. Despite substantial increase in the effectiveness of ML models, the evaluation methodologies, i.e., the way people split datasets into training, validation, and testing sets, were not well designed. Specifically, no prior work on the aforementioned topics considered the timestamps of code and comments during evaluation (e.g., examples in the testing set might be from 2010 and examples from the training set might be from 2020). This may lead to evaluations that are inconsistent with the intended use cases of the ML models. In this paper, we formalize a novel time-segmented evaluation methodology, as well as the two methodologies commonly used in the literature: mixed-project and cross-project. We argue that time-segmented methodology is the most realistic. We also describe various use cases of ML models and provide a guideline for using methodologies to evaluate each use case. To assess the impact of methodologies, we collect a dataset of code-comment pairs with timestamps to train and evaluate several recent code learning ML models for the comment generation and method naming tasks. Our results show that different methodologies can lead to conflicting and inconsistent results. We invite the community to adopt the time-segmented evaluation methodology.
翻訳日:2021-08-25 04:31:14 公開日:2021-08-22
# (参考訳) ソースコード検索における自動クエリ変換の体系的文献レビュー

A Systematic Literature Review of Automated Query Reformulations in Source Code Search ( http://arxiv.org/abs/2108.09646v1 )

ライセンス: CC BY 4.0
Mohammad Masudur Rahman and Chanchal K. Roy(参考訳) ソフトウェア開発者はしばしば、ソフトウェアの信頼性を確保するために重要なバグを修正する。 また、市場で競争力を維持するために、定期的にソフトウェアに新機能を追加する必要があるかもしれない。 これらのバグと機能は変更要求(すなわち、ソフトウェアユーザーが書いた技術文書)として報告される。 開発者はこれらのドキュメントを参照して、ソフトウェアコードの必要な変更を実装する。 変更実装の一部として、変更要求からいくつかの重要なキーワードをアドホッククエリとして選択することが多い。 その後、コード検索エンジン(例えばLucene)でクエリを実行し、変更が必要なソフトウェアコード内の正確な位置を見つけようとする。 残念ながら、経験豊富な開発者でさえ、適切なクエリの選択に失敗することが多い。 その結果、開発者はコード内の適切な場所を検出するのに苦労し、多くの試行錯誤でほとんどの時間を費やすことになります。 アドホッククエリを自動的に再構成することで、クエリの構築を支援する研究が数多く行われている。 本体系的文献レビューでは,2,970の候補研究から70の問合せ改革に関する基礎研究を注意深く選択し,接地理論を用いて詳細な質的分析を行い,6つの重要な研究課題に回答する。 我々の調査はいくつかの大きな発見を報告した。 まず、現在までに8つの主要な方法論(項重み付け、クエリ項共起分析、シソーラスルックアップ)がクエリの再構成に採用されている。 第2に、既存の研究は、いくつかの大きな制限(一般化可能性の欠如、語彙ミスマッチ問題、弱い評価、開発者の余分な負担など)に苦しめられている。 最後に,検索クエリのリフォームにおけるオープンな問題をいくつか検討し,今後の研究機会を複数提案する。

Software developers often fix critical bugs to ensure the reliability of their software. They might also need to add new features to their software at a regular interval to stay competitive in the market. These bugs and features are reported as change requests (i.e., technical documents written by software users). Developers consult these documents to implement the required changes in the software code. As a part of change implementation, they often choose a few important keywords from a change request as an ad hoc query. Then they execute the query with a code search engine (e.g., Lucene) and attempt to find out the exact locations within the software code that need to be changed. Unfortunately, even experienced developers often fail to choose the right queries. As a consequence, the developers often experience difficulties in detecting the appropriate locations within the code and spend the majority of their time in numerous trials and errors. There have been many studies that attempt to support developers in constructing queries by automatically reformulating their ad hoc queries. In this systematic literature review, we carefully select 70 primary studies on query reformulations from 2,970 candidate studies, perform an in-depth qualitative analysis using the Grounded Theory approach, and then answer six important research questions. Our investigation has reported several major findings. First, to date, eight major methodologies (e.g., term weighting, query-term co-occurrence analysis, thesaurus lookup) have been adopted in query reformulation. Second, the existing studies suffer from several major limitations (e.g., lack of generalizability, vocabulary mismatch problem, weak evaluation, the extra burden on the developers) that might prevent their wide adoption. Finally, we discuss several open issues in search query reformulations and suggest multiple future research opportunities.
翻訳日:2021-08-25 04:07:27 公開日:2021-08-22
# (参考訳) 側面:構造対応インスタンス深度推定を用いたセンタベースステレオ3d検出器 [全文訳有]

SIDE: Center-based Stereo 3D Detector with Structure-aware Instance Depth Estimation ( http://arxiv.org/abs/2108.09663v1 )

ライセンス: CC BY 4.0
Xidong Peng, Xinge Zhu, Tai Wang, and Yuexin Ma(参考訳) 3D検出は環境認識において不可欠である。 一般的に使用されるLiDARセンサーのコストが高いため、ステレオビジョンに基づく3D検出は経済的に効果的だが、近年は注目を集めている。 2次元画像に基づくこれらのアプローチでは、正確な深度情報が3次元検出の鍵となり、既存の手法のほとんどは、深度推定の予備段階に頼っている。 それらは主にグローバルな深度に焦点を合わせ、この特定のタスク、すなわち空間と局所性における深度情報の性質を無視する。 そこで本研究では, ステレオ画像を用いた立体画像によるアンカーフリー3D検出手法を提案し, 各オブジェクトのRoIsからコストボリュームを構成することで, インスタンスレベルの深度情報を探索する。 局所的なコスト量の情報のスパース性から,さらに,マッチングの重み付けと構造認識の注意を導入し,奥行き情報の集中化を図る。 KITTIデータセットで行った実験から,本手法は深度マップの監督のない既存手法と比較して最先端の性能を実現することが示された。

3D detection plays an indispensable role in environment perception. Due to the high cost of commonly used LiDAR sensor, stereo vision based 3D detection, as an economical yet effective setting, attracts more attention recently. For these approaches based on 2D images, accurate depth information is the key to achieve 3D detection, and most existing methods resort to a preliminary stage for depth estimation. They mainly focus on the global depth and neglect the property of depth information in this specific task, namely, sparsity and locality, where exactly accurate depth is only needed for these 3D bounding boxes. Motivated by this finding, we propose a stereo-image based anchor-free 3D detection method, called structure-aware stereo 3D detector (termed as SIDE), where we explore the instance-level depth information via constructing the cost volume from RoIs of each object. Due to the information sparsity of local cost volume, we further introduce match reweighting and structure-aware attention, to make the depth information more concentrated. Experiments conducted on the KITTI dataset show that our method achieves the state-of-the-art performance compared to existing methods without depth map supervision.
翻訳日:2021-08-25 04:06:18 公開日:2021-08-22
# (参考訳) MobileNet V1を用いた複数画像スプリシングの検出と位置推定 [全文訳有]

Detection and Localization of Multiple Image Splicing Using MobileNet V1 ( http://arxiv.org/abs/2108.09674v1 )

ライセンス: CC BY 4.0
Kalyani Kadam, Dr. Swati Ahirrao, Dr. Ketan Kotecha, Sayan Sahu(参考訳) 現代社会では、デジタル画像は情報とコミュニケーションの媒体の顕著な源となっている。 しかしそれらは、自由に利用できる画像編集ソフトウェアを使って簡単に変更できる。 2つ以上の画像を組み合わせて、ソーシャルメディアプラットフォーム間で情報を伝達し、社会の人々に影響を与える新しい画像を生成する。 この情報は、ポジティブな結果とネガティブな結果の両方をもたらす可能性がある。 したがって、画像中の複数の画像スプライシングの偽造を検知し、発見する技術を開発する必要がある。 本研究では,Mask R-CNNを用いた複数画像スプライシングの偽造検出手法を提案する。 また、複数のスプライシング画像の鍛造領域のパーセンテージスコアを算出する。 提案手法とResNetの変種の比較分析を行った。 提案したモデルはMISD(Multiple Image Splicing Dataset)を用いてトレーニング,テストを行い,提案モデルがResNetモデルの変種(ResNet 51,101,151)より優れていることを確認した。

In modern society, digital images have become a prominent source of information and medium of communication. They can, however, be simply altered using freely available image editing software. Two or more images are combined to generate a new image that can transmit information across social media platforms to influence the people in the society. This information may have both positive and negative consequences. Hence there is a need to develop a technique that will detect and locates a multiple image splicing forgery in an image. This research work proposes multiple image splicing forgery detection using Mask R-CNN, with a backbone as a MobileNet V1. It also calculates the percentage score of a forged region of multiple spliced images. The comparative analysis of the proposed work with the variants of ResNet is performed. The proposed model is trained and tested using our MISD (Multiple Image Splicing Dataset), and it is observed that the proposed model outperforms the variants of ResNet models (ResNet 51,101 and 151).
翻訳日:2021-08-25 03:51:51 公開日:2021-08-22
# (参考訳) 回帰のための効率的なガウス神経プロセス [全文訳有]

Efficient Gaussian Neural Processes for Regression ( http://arxiv.org/abs/2108.09676v1 )

ライセンス: CC BY 4.0
Stratis Markou, James Requeima, Wessel Bruinsma, Richard Turner(参考訳) Conditional Neural Processs (CNP; Garnelo et al., 2018) は、よく校正された予測を生成し、テスト時に高速な推論を可能にし、単純な最大精度の手順でトレーニングできる、魅力的なメタラーニングモデルのファミリーである。 CNPの制限は、出力の依存性をモデル化できないことである。 これにより予測性能が著しく低下し、コヒーレント関数サンプルの描画が不可能になるため、下流アプリケーションや意思決定におけるCNPの適用性が制限される。 NeuralProcesses (NPs; Garnelo et al., 2018)は、潜伏変数を使用してこの問題を緩和しようと試み、これらに依存して出力依存をモデル化するが、近似推論から生じる困難をもたらす。 One recent alternative (Bruinsma et al.,2021), which we refer to as the FullConvGNP, models dependencies in the predictions while still being trainable via exact maximum-likelihood.U nfortunately, the FullConvGNP relies on expensive 2D-dimensional convolutions, which limit its applicability to only one-dimensional data.In this work, we present an alternative way to model output dependencies which also lends it-self maximum likelihood training but, unlike the FullConvGNP, can be scaled to two- and three-dimensional data. 提案モデルは合成実験において優れた性能を示す

Conditional Neural Processes (CNP; Garnelo et al., 2018) are an attractive family of meta-learning models which produce well-calibrated predictions, enable fast inference at test time, and are trainable via a simple maximum likelihood procedure. A limitation of CNPs is their inability to model dependencies in the outputs. This significantly hurts predictive performance and renders it impossible to draw coherent function samples, which limits the applicability of CNPs in down-stream applications and decision making. NeuralProcesses (NPs; Garnelo et al., 2018) attempt to alleviate this issue by using latent variables, rely-ing on these to model output dependencies, but introduces difficulties stemming from approximate inference. One recent alternative (Bruinsma et al.,2021), which we refer to as the FullConvGNP, models dependencies in the predictions while still being trainable via exact maximum-likelihood.U nfortunately, the FullConvGNP relies on expensive 2D-dimensional convolutions, which limit its applicability to only one-dimensional data.In this work, we present an alternative way to model output dependencies which also lends it-self maximum likelihood training but, unlike the FullConvGNP, can be scaled to two- and three-dimensional data. The proposed models exhibit good performance in synthetic experiments
翻訳日:2021-08-25 03:37:05 公開日:2021-08-22
# (参考訳) Gustafson-Kesselクラスタリングに基づく高木-菅野ファジィモデルによる降雨流出予測 [全文訳有]

Rainfall-runoff prediction using a Gustafson-Kessel clustering based Takagi-Sugeno Fuzzy model ( http://arxiv.org/abs/2108.09684v1 )

ライセンス: CC BY 4.0
Subhrasankha Dey, Tanmoy Dam(参考訳) 降雨流出モデルは、物理的アプローチまたはシステムベースのアプローチを用いて表面流出を予測する。 高木・スジェノ(TS)ファジィモデル(英語版)はシステムベースのアプローチであり、いくつかの利点と既存のモデルに対する予測精度の改善により、近年の流体学者にとって一般的なモデリング選択である。 本稿では,Gustafson-Kessel(GK )クラスタリングに基づくTS Fuzzyモデルを用いて,新しい降雨流出モデルを提案する。 本稿では, GKアルゴリズムと, (i) Fuzzy C-Means (FCM) と (ii) Subtractive Clustering (SC) の2つのクラスタリングアルゴリズムを比較した。 提案するtsファジィモデルは, (i) 流域における降雨量, (ii) 流域出口での降雨量を用いて, 表面流出量を予測する。 提案モデルはインド工科大学kharagpur校のキャンパスに設置されたセンサから収集された降雨流出データを用いて検証される。 提案したモデルの最適ルール数は,検証指標によって異なる。 クラスタリングアルゴリズム毎に,RootMean Square Error (RMSE), Coefficient of efficiency (CE), Volumetric Error (VE), correlation Coefficient of determined(R)の4つの性能基準を比較した。

A rainfall-runoff model predicts surface runoff either using a physically-based approach or using a systems-based approach. Takagi-Sugeno (TS) Fuzzy models are systems-based approaches and a popular modeling choice for hydrologists in recent decades due to several advantages and improved accuracy in prediction over other existing models. In this paper, we propose a new rainfall-runoff model developed using Gustafson-Kessel (GK) clustering-based TS Fuzzy model. We present comparative performance measures of GK algorithms with two other clustering algorithms: (i) Fuzzy C-Means (FCM), and (ii)Subtractive Clustering (SC). Our proposed TS Fuzzy model predicts surface runoff using: (i) observed rainfall in a drainage basin and (ii) previously observed precipitation flow in the basin outlet. The proposed model is validated using the rainfall-runoff data collected from the sensors installed on the campus of the Indian Institute of Technology, Kharagpur. The optimal number of rules of the proposed model is obtained by different validation indices. A comparative study of four performance criteria: RootMean Square Error (RMSE), Coefficient of Efficiency (CE), Volumetric Error (VE), and Correlation Coefficient of Determination(R) have been quantitatively demonstrated for each clustering algorithm.
翻訳日:2021-08-25 03:25:57 公開日:2021-08-22
# (参考訳) 自己センブルノイズフィルタリングによる遠隔教師付き関係抽出の改善 [全文訳有]

Improving Distantly Supervised Relation Extraction with Self-Ensemble Noise Filtering ( http://arxiv.org/abs/2108.09689v1 )

ライセンス: CC0 1.0
Tapas Nayak and Navonil Majumder and Soujanya Poria(参考訳) 遠隔監視モデルでは,人間のアノテーションを使わずに遠隔監視法を用いて大量の訓練データを得ることができるため,関係抽出に非常に人気がある。 遠隔の監督では、文がタプルの2つの実体を含む場合、文はタプルの源と見なされる。 しかし、この条件は寛容であり、文中に関連性固有の情報が存在することを保証していない。 そのため、遠方の教師付きトレーニングデータには、モデルの性能に悪影響を及ぼす多くのノイズが含まれている。 本稿では,学習過程におけるノイズを除去する自己アンサンブルフィルタリング機構を提案する。 提案フレームワークは,遠方の監視によって得られたnew york timesデータセット上で評価する。 複数の最先端神経関係抽出モデルを用いた実験により,提案するフィルタリング機構がモデルのロバスト性を改善し,f1スコアを増加させることを示した。

Distantly supervised models are very popular for relation extraction since we can obtain a large amount of training data using the distant supervision method without human annotation. In distant supervision, a sentence is considered as a source of a tuple if the sentence contains both entities of the tuple. However, this condition is too permissive and does not guarantee the presence of relevant relation-specific information in the sentence. As such, distantly supervised training data contains much noise which adversely affects the performance of the models. In this paper, we propose a self-ensemble filtering mechanism to filter out the noisy samples during the training process. We evaluate our proposed framework on the New York Times dataset which is obtained via distant supervision. Our experiments with multiple state-of-the-art neural relation extraction models show that our proposed filtering mechanism improves the robustness of the models and increases their F1 scores.
翻訳日:2021-08-25 03:09:35 公開日:2021-08-22
# (参考訳) カリキュラム学習のための空間トランスフォーマーネットワーク [全文訳有]

Spatial Transformer Networks for Curriculum Learning ( http://arxiv.org/abs/2108.09696v1 )

ライセンス: CC BY 4.0
Fatemeh Azimi, Jean-Francois Jacques Nicolas Nies, Sebastian Palacio, Federico Raue, J\"orn Hees, Andreas Dengel(参考訳) カリキュラム学習はバイオインスパイアされたトレーニング技術であり、機械学習に広く採用され、収束率や得られた精度に関するニューラルネットワークの最適化とトレーニングを改善する。 カリキュラム学習の主なコンセプトは、より単純なタスクでトレーニングを開始し、徐々に難易度を高めることである。 したがって、自然な質問は、これらの単純なタスクをどうやって決定または生成するかである。 本研究では,Spatial Transformer Networks (STN) からインスピレーションを得て,簡単なカリキュラムを作成する。 STNは入力画像から乱れを取り除き、画像分類タスクの精度を高めることができることが証明されているので、STNによって処理された画像は容易なタスクと見なされ、カリキュラム学習の利益に活用できるという仮説を立てる。 そこで本研究では,STNが生成したデータを用いて,学習カリキュラム形成のための複数の戦略について検討する。 乱雑なMNISTデータセットとFashion-MNISTデータセットについて様々な実験を行い、前者はベースラインと比較して分類精度が3.8$pp向上した。

Curriculum learning is a bio-inspired training technique that is widely adopted to machine learning for improved optimization and better training of neural networks regarding the convergence rate or obtained accuracy. The main concept in curriculum learning is to start the training with simpler tasks and gradually increase the level of difficulty. Therefore, a natural question is how to determine or generate these simpler tasks. In this work, we take inspiration from Spatial Transformer Networks (STNs) in order to form an easy-to-hard curriculum. As STNs have been proven to be capable of removing the clutter from the input images and obtaining higher accuracy in image classification tasks, we hypothesize that images processed by STNs can be seen as easier tasks and utilized in the interest of curriculum learning. To this end, we study multiple strategies developed for shaping the training curriculum, using the data generated by STNs. We perform various experiments on cluttered MNIST and Fashion-MNIST datasets, where on the former, we obtain an improvement of $3.8$pp in classification accuracy compared to the baseline.
翻訳日:2021-08-25 02:59:18 公開日:2021-08-22
# (参考訳) セマンティクスセグメンテーションにおける自己制御 [全文訳有]

Self-Regulation for Semantic Segmentation ( http://arxiv.org/abs/2108.09702v1 )

ライセンス: CC BY 4.0
Zhang Dong, Zhang Hanwang, Tang Jinhui, Hua Xiansheng, Sun Qianru(参考訳) 本稿では,セマンティックセグメンテーション(SS)における2つの主要な障害事例の理由を探る。1)小さなオブジェクトや小さなオブジェクトの部分の欠如,2)大きなオブジェクトの小さな部分を間違ったクラスと誤ラベルすること。 興味深い発見として、Failure-1は詳細な機能の不足によるものであり、Failure-2は視覚的コンテキストの不足によるものです。 モデルがよりよいトレードオフを学習するために、SSニューラルネットワークのトレーニングにいくつかの自己規制(SR)損失を導入する。 によって、損失は、追加のデータや監視を使わずに、それ自体がモデルから来ていることを意味する。 sr損失を適用することで、深い層の特徴はより詳細を保つために浅い層によって制御され、一方、浅い層分類ロジットは深い層によって制御され、より意味を捉える。 我々は,ssタスクとssタスクの両方について広範な実験を行い,本手法がベースラインを一貫して超越していることを示す。 また、SR損失はSPGNetやOCRNetなど、最先端のSSモデルで容易に実装でき、トレーニング中に計算オーバーヘッドがほとんどなく、テストに役立ちません。

In this paper, we seek reasons for the two major failure cases in Semantic Segmentation (SS): 1) missing small objects or minor object parts, and 2) mislabeling minor parts of large objects as wrong classes. We have an interesting finding that Failure-1 is due to the underuse of detailed features and Failure-2 is due to the underuse of visual contexts. To help the model learn a better trade-off, we introduce several Self-Regulation (SR) losses for training SS neural networks. By "self", we mean that the losses are from the model per se without using any additional data or supervision. By applying the SR losses, the deep layer features are regulated by the shallow ones to preserve more details; meanwhile, shallow layer classification logits are regulated by the deep ones to capture more semantics. We conduct extensive experiments on both weakly and fully supervised SS tasks, and the results show that our approach consistently surpasses the baselines. We also validate that SR losses are easy to implement in various state-of-the-art SS models, e.g., SPGNet and OCRNet, incurring little computational overhead during training and none for testing.
翻訳日:2021-08-25 02:49:17 公開日:2021-08-22
# (参考訳) FEDI: Earth Mover の Distance アルゴリズムとディープ残像ネットワークを組み合わせることで糖尿病網膜症を同定するFew-shot Learning [全文訳有]

FEDI: Few-shot learning based on Earth Mover's Distance algorithm combined with deep residual network to identify diabetic retinopathy ( http://arxiv.org/abs/2108.09711v1 )

ライセンス: CC BY 4.0
Liangrui Pan, Boya Ji, Peng Xi, Xiaoqi Wang, Mitchai Chongcheawchamnan, Shaoliang Peng(参考訳) 糖尿病患者の視覚障害の主な原因は糖尿病網膜症である。 しかし, 眼底の診断により, drは容易に失明の発生を遅らせることができる。 現実の観点からは、臨床で大量の糖尿病網膜データを収集することは困難である。 本稿では,Earth Mover の Distance アルゴリズムをベースとした深層学習モデルを提案する。我々は,1000 サンプルデータの39 のカテゴリをベースとした小層学習のためのトレーニングと検証の分類タスクを構築し,深層学習ネットワークを訓練し,経験最大化事前学習モデルを得る。 事前学習したモデルの重みに基づいて、地球移動者の距離アルゴリズムは画像間の距離を計算し、画像間の類似性を取得し、モデルのパラメータを変更してトレーニングモデルの精度を向上させる。 最後に, 糖尿病性網膜テストセットの3way10shotタスクにおいて, モデルをさらに最適化するための小サンプル分類タスクを実験的に構築し, 93.5667%の精度を示した。 実験コードと結果については、https://github.com/p anliangrui/few-shot- learning-fundsを参照してください。

Diabetic retinopathy(DR) is the main cause of blindness in diabetic patients. However, DR can easily delay the occurrence of blindness through the diagnosis of the fundus. In view of the reality, it is difficult to collect a large amount of diabetic retina data in clinical practice. This paper proposes a few-shot learning model of a deep residual network based on Earth Mover's Distance algorithm to assist in diagnosing DR. We build training and validation classification tasks for few-shot learning based on 39 categories of 1000 sample data, train deep residual networks, and obtain experience maximization pre-training models. Based on the weights of the pre-trained model, the Earth Mover's Distance algorithm calculates the distance between the images, obtains the similarity between the images, and changes the model's parameters to improve the accuracy of the training model. Finally, the experimental construction of the small sample classification task of the test set to optimize the model further, and finally, an accuracy of 93.5667% on the 3way10shot task of the diabetic retina test set. For the experimental code and results, please refer to: https://github.com/p anliangrui/few-shot- learning-funds.
翻訳日:2021-08-25 02:28:59 公開日:2021-08-22
# (参考訳) 外部知識強化テキスト視覚質問応答 [全文訳有]

External Knowledge Augmented Text Visual Question Answering ( http://arxiv.org/abs/2108.09717v1 )

ライセンス: CC BY 4.0
Arka Ujjal Dey, Ernest Valveny, Gaurav Harit(参考訳) text-vqaのオープンエンドの質問応答タスクは、答えを生成するために、画像のローカル(以前は見つからなかった)のシーンテキストコンテンツの読み出しと推論を必要とする。 本研究では,これらのシーンテキストの理解を高めるために,外部知識の汎用的利用を提案する。 視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識の抽出,フィルタリング,エンコードを行うフレームワークを設計した。 経験的エビデンスを通じて、知識がインスタンスのみの手がかりをどのように強調するかを示し、データバイアスのトレーニング、回答エンティティ型の正確性の向上、マルチワード名付きエンティティの検出を支援する。 同様の上流ocrシステムとトレーニングデータの制約の下で、2つの公開データセットの最先端に匹敵する結果を生成する。

The open-ended question answering task of Text-VQA requires reading and reasoning about local, often previously unseen, scene-text content of an image to generate answers. In this work, we propose the generalized use of external knowledge to augment our understanding of the said scene-text. We design a framework to extract, filter, and encode knowledge atop a standard multimodal transformer for vision language understanding tasks. Through empirical evidence, we demonstrate how knowledge can highlight instance-only cues and thus help deal with training data bias, improve answer entity type correctness, and detect multiword named entities. We generate results comparable to the state-of-the-art on two publicly available datasets, under the constraints of similar upstream OCR systems and training data.
翻訳日:2021-08-25 02:21:31 公開日:2021-08-22
# (参考訳) ECGからの応力検出のためのトランスアーキテクチャ [全文訳有]

A Transformer Architecture for Stress Detection from ECG ( http://arxiv.org/abs/2108.09737v1 )

ライセンス: CC BY-SA 4.0
Behnam Behinaein, Anubhav Bhatti, Dirk Rodenburg, Paul Hungler, Ali Etemad(参考訳) 心電図(ECG)は感情認識に広く用いられている。 本稿では、畳み込み層に基づくディープニューラルネットワークと、ECG信号を用いたストレス検出のための変圧器機構を提案する。 WESAD と SWELL-KW の2つの公開データセットを用いて,この手法の評価を行った。 実験により,本モデルが2つのデータセットにおけるecgに基づく応力検出の最先端モデルと同等かそれ以上の強い結果が得られることを示した。 さらに,本手法はエンドツーエンドであり,手作りの特徴を必要とせず,数個の畳み込みブロックとトランスフォーマーコンポーネントでロバスト表現を学習できる。

Electrocardiogram (ECG) has been widely used for emotion recognition. This paper presents a deep neural network based on convolutional layers and a transformer mechanism to detect stress using ECG signals. We perform leave-one-subject-ou t experiments on two publicly available datasets, WESAD and SWELL-KW, to evaluate our method. Our experiments show that the proposed model achieves strong results, comparable or better than the state-of-the-art models for ECG-based stress detection on these two datasets. Moreover, our method is end-to-end, does not require handcrafted features, and can learn robust representations with only a few convolutional blocks and the transformer component.
翻訳日:2021-08-25 02:04:10 公開日:2021-08-22
# (参考訳) クライアントレベルデータ分散シフトのためのフレキシブルクラスタ化フェデレーション学習 [全文訳有]

Flexible Clustered Federated Learning for Client-Level Data Distribution Shift ( http://arxiv.org/abs/2108.09749v1 )

ライセンス: CC BY 4.0
Moming Duan, Duo Liu, Xinyuan Ji, Yu Wu, Liang Liang, Xianzhang Chen, Yujuan Tan(参考訳) フェデレーション学習(fl)は、複数の参加者デバイスが、トレーニングデータをローカルに保持しながら、グローバルなニューラルネットワークモデルに協力的に貢献できるようにする。 集中型トレーニング設定とは異なり、flの非iid、不均衡(統計的不均一性)、分散シフトトレーニングデータをフェデレーションネットワークに分散することにより、ローカルモデルとグローバルモデルとの差異が増大し、パフォーマンスがさらに低下する。 本稿では,フレキシブルクラスタ型フェデレーション学習(CFL)フレームワークFlexCFLを提案する。このフレームワークでは,1) クライアントの最適化方向の類似性に基づいてクライアントのトレーニングをグループ化し,2) フレームワークのスケーラビリティと実用性を実現するための効率的な新商品コールドスタート機構を実装し,3) クライアントレベルのデータ分散シフトの課題を満たすために柔軟にクライアントを移行させる。 FlexCFLは、共同最適化をサブ最適化のグループに分割することで改善を達成でき、分散シフト環境における精度と通信効率のバランスをとることができる。 収束と複雑性はflexcflの効率を示すために分析される。 また、いくつかのオープンデータセット上でFlexCFLを評価し、関連するCFLフレームワークと比較した。 その結果、FedAvgに比べてFlexCFLはFEMNISTでは+10.6%、FashionMNISTでは+3.5%、FedProxでは+8.4%、FeSEMでは+8.4%、絶対テスト精度は+10.6%向上した。 実験の結果,flexcflは分散シフト環境においても通信効率が高いことがわかった。

Federated Learning (FL) enables the multiple participating devices to collaboratively contribute to a global neural network model while keeping the training data locally. Unlike the centralized training setting, the non-IID, imbalanced (statistical heterogeneity) and distribution shifted training data of FL is distributed in the federated network, which will increase the divergences between the local models and the global model, further degrading performance. In this paper, we propose a flexible clustered federated learning (CFL) framework named FlexCFL, in which we 1) group the training of clients based on the similarities between the clients' optimization directions for lower training divergence; 2) implement an efficient newcomer device cold start mechanism for framework scalability and practicality; 3) flexibly migrate clients to meet the challenge of client-level data distribution shift. FlexCFL can achieve improvements by dividing joint optimization into groups of sub-optimization and can strike a balance between accuracy and communication efficiency in the distribution shift environment. The convergence and complexity are analyzed to demonstrate the efficiency of FlexCFL. We also evaluate FlexCFL on several open datasets and made comparisons with related CFL frameworks. The results show that FlexCFL can significantly improve absolute test accuracy by +10.6% on FEMNIST compared to FedAvg, +3.5% on FashionMNIST compared to FedProx, +8.4% on MNIST compared to FeSEM. The experiment results show that FlexCFL is also communication efficient in the distribution shift environment.
翻訳日:2021-08-25 01:57:43 公開日:2021-08-22
# (参考訳) 強化学習への促進的アプローチ [全文訳有]

A Boosting Approach to Reinforcement Learning ( http://arxiv.org/abs/2108.09767v1 )

ライセンス: CC BY 4.0
Nataly Brukhim, Elad Hazan, Karan Singh(参考訳) 複雑度が状態数に依存しないマルコフ決定過程における強化学習のための効率的なアルゴリズムについて検討する。 この定式化は、簡潔に大規模な問題を捉えるが、一般の形で計算的に難しいことも知られている。 前回のアプローチでは、遷移関数または値関数の構造を仮定したり、解の保証を局所最適条件に緩和することで計算の難しさを回避しようとする。 我々は,教師付き学習から借用した,弱い学習者を正確な方針に転換するための促進手法を検討する。 私たちが研究する弱い学習の概念は、ポリシー上の線形関数のサンプルベース近似最適化である。 この弱い学習可能性の仮定の下では、大域的最適性に達するまで、このような弱い学習方法の精度を向上させることができる効率的なアルゴリズムを与える。 本手法では, 近似保証, 割引係数, 分布ミスマッチ, アクション数といった, 問題の自然なパラメータの多項式である, サンプルの複雑性と実行時間境界を証明している。 特に、我々の境界は状態の数に依存しない。 以前のブースティング結果を適用する技術的困難は、ポリシー空間上の値関数が凸でないことである。 本稿では,Frank-Wolfe法の非凸変種を用いる方法と,弱学習者を乗算近似保証に組み込むことで,非凸性を克服し,グローバル収束を実現する勾配向上の最近の進歩を紹介する。

We study efficient algorithms for reinforcement learning in Markov decision processes whose complexity is independent of the number of states. This formulation succinctly captures large scale problems, but is also known to be computationally hard in its general form. Previous approaches attempt to circumvent the computational hardness by assuming structure in either transition function or the value function, or by relaxing the solution guarantee to a local optimality condition. We consider the methodology of boosting, borrowed from supervised learning, for converting weak learners into an accurate policy. The notion of weak learning we study is that of sampled-based approximate optimization of linear functions over policies. Under this assumption of weak learnability, we give an efficient algorithm that is capable of improving the accuracy of such weak learning methods, till global optimality is reached. We prove sample complexity and running time bounds on our method, that are polynomial in the natural parameters of the problem: approximation guarantee, discount factor, distribution mismatch and number of actions. In particular, our bound does not depend on the number of states. A technical difficulty in applying previous boosting results, is that the value function over policy space is not convex. We show how to use a non-convex variant of the Frank-Wolfe method, coupled with recent advances in gradient boosting that allow incorporating a weak learner with multiplicative approximation guarantee, to overcome the non-convexity and attain global convergence.
翻訳日:2021-08-25 01:24:01 公開日:2021-08-22
# (参考訳) cnnと脳の関係--課題と知見 [全文訳有]

Relating CNNs with brain: Challenges and findings ( http://arxiv.org/abs/2108.09768v1 )

ライセンス: CC BY 4.0
Reem Abdel-Salam(参考訳) 霊長類視覚系に緩やかに触発された従来のニューラルネットワークモデル(cnn)は、視覚野の神経反応を予測することが示されている。 しかし、cnnと視覚システムの関係は、多くの理由により不完全である。 一方、最先端のCNNアーキテクチャは非常に複雑ですが、知覚的に小さく、明確に構築された摂動によって騙されるため、ネットワークのレイヤを視覚システムにマッピングし、彼らが何をしているのかを理解するのが難しくなります。 一方で、cnnの特徴空間と視覚野の空間領域の間の正確なマッピングが分からないため、神経反応を正確に予測することは困難である。 本稿では,Algonauts Project 2021 Challenge: "How the Human Brain Makes Sense of a World in Motion" の一環として,視覚野と脳全体の神経反応を予測するための課題と方法について述べる。

Conventional neural network models (CNN), loosely inspired by the primate visual system, have been shown to predict neural responses in the visual cortex. However, the relationship between CNNs and the visual system is incomplete due to many reasons. On one hand state of the art CNN architecture is very complex, yet can be fooled by imperceptibly small, explicitly crafted perturbations which makes it hard difficult to map layers of the network with the visual system and to understand what they are doing. On the other hand, we don't know the exact mapping between feature space of the CNNs and the space domain of the visual cortex, which makes it hard to accurately predict neural responses. In this paper we review the challenges and the methods that have been used to predict neural responses in the visual cortex and whole brain as part of The Algonauts Project 2021 Challenge: "How the Human Brain Makes Sense of a World in Motion".
翻訳日:2021-08-25 01:03:45 公開日:2021-08-22
# (参考訳) gpuシミュレーションからリモート実世界トリフィンガーへのデクスタース操作の転送 [全文訳有]

Transferring Dexterous Manipulation from GPU Simulation to a Remote Real-World TriFinger ( http://arxiv.org/abs/2108.09779v1 )

ライセンス: CC BY 4.0
Arthur Allshire, Mayank Mittal, Varun Lodaya, Viktor Makoviychuk, Denys Makoviichuk, Felix Widmaier, Manuel W\"uthrich, Stefan Bauer, Ankur Handa, Animesh Garg(参考訳) 本稿では,NVIDIAのIsaacGymシミュレータでトレーニングした3つのフィンガーだけで,立方体を任意の6-DoFポーズに移動させるという,困難な操作課題を学習するシステムを提案する。 提案手法は,6自由度,報酬計算,およびモデルフリー強化学習エージェントの訓練において,対象ポーズの位置+四元表現とは対照的に,シミュレーションとsim-to-real転送の両方において経験的利点を示す。 操作対象のポーズのキーポイント表現とともにドメインランダム化戦略を活用することにより,リアルロボットチャレンジの主催者が保持する遠隔トリフィンガーシステムにおいて,高い成功率を83%達成する。 インハンド操作のさらなる研究を支援することを目的として、私たちはシステムのコードベースと、何十億もの経験を積んだトレーニング済みのチェックポイントをhttps://s2r2-ig.gith ub.ioで公開しています。

We present a system for learning a challenging dexterous manipulation task involving moving a cube to an arbitrary 6-DoF pose with only 3-fingers trained with NVIDIA's IsaacGym simulator. We show empirical benefits, both in simulation and sim-to-real transfer, of using keypoints as opposed to position+quaternion representations for the object pose in 6-DoF for policy observations and in reward calculation to train a model-free reinforcement learning agent. By utilizing domain randomization strategies along with the keypoint representation of the pose of the manipulated object, we achieve a high success rate of 83% on a remote TriFinger system maintained by the organizers of the Real Robot Challenge. With the aim of assisting further research in learning in-hand manipulation, we make the codebase of our system, along with trained checkpoints that come with billions of steps of experience available, at https://s2r2-ig.gith ub.io
翻訳日:2021-08-25 00:54:19 公開日:2021-08-22
# (参考訳) 粗いラベルから学習する効率的なアルゴリズム

Efficient Algorithms for Learning from Coarse Labels ( http://arxiv.org/abs/2108.09805v1 )

ライセンス: CC BY 4.0
Dimitris Fotakis, Alkis Kalavasis, Vasilis Kontonis, Christos Tzamos(参考訳) 多くの学習問題では、細かなラベル情報にアクセスできない場合がある。例えば、画像は注釈の専門知識によっては、ハスキー、犬、さらには動物と分類できる。 本研究では,これらの設定を定式化し,粗いデータから学習する問題を考察する。 設定された$\mathcal{Z}$から実際のラベルを観察する代わりに、$\mathcal{Z}$(またはパーティションの混合)のパーティションに対応する粗いラベルを観察します。 私たちのアルゴリズムの主な結果は、粗いデータが十分に有益であるときに、きめ細かいラベルから学べるどんな問題も効率的に学習できるということです。 粗いラベルのみを付与したきめ細かなラベルに対して、統計的クエリ(SQ)に応答する一般的なリダクションにより、この結果を得る。 要求される粗いラベルの数は、粗さによる情報歪みと ||\mathcal{z}|$ の細かいラベルの数に多項式的に依存する。 また、検閲された統計学における中心的な問題に焦点をあてた(無限に多くの)実価値ラベルについても検討する: ガウス平均は粗いデータから推定される。 分割中の集合が凸であるときに効率的なアルゴリズムを提供し、非常に単純な非凸集合に対してもNPハードであることを示す。

For many learning problems one may not have access to fine grained label information; e.g., an image can be labeled as husky, dog, or even animal depending on the expertise of the annotator. In this work, we formalize these settings and study the problem of learning from such coarse data. Instead of observing the actual labels from a set $\mathcal{Z}$, we observe coarse labels corresponding to a partition of $\mathcal{Z}$ (or a mixture of partitions). Our main algorithmic result is that essentially any problem learnable from fine grained labels can also be learned efficiently when the coarse data are sufficiently informative. We obtain our result through a generic reduction for answering Statistical Queries (SQ) over fine grained labels given only coarse labels. The number of coarse labels required depends polynomially on the information distortion due to coarsening and the number of fine labels $|\mathcal{Z}|$. We also investigate the case of (infinitely many) real valued labels focusing on a central problem in censored and truncated statistics: Gaussian mean estimation from coarse data. We provide an efficient algorithm when the sets in the partition are convex and establish that the problem is NP-hard even for very simple non-convex sets.
翻訳日:2021-08-25 00:37:37 公開日:2021-08-22
# (参考訳) UzBERT:Uzbek向けのBERTモデルの事前トレーニング [全文訳有]

UzBERT: pretraining a BERT model for Uzbek ( http://arxiv.org/abs/2108.09814v1 )

ライセンス: CC BY 4.0
B. Mansurov and A. Mansurov(参考訳) Transformerアーキテクチャに基づく事前訓練された言語モデルは、音声のタグ付け、名前付きエンティティ認識、質問応答など、様々な自然言語処理タスクにおいて最先端の結果を得た。 しかしながら、ウズベク語に対するそのような単言語モデルは公開されていない。 本稿では,BERTアーキテクチャに基づく事前訓練されたウズベク語モデルであるUzBERTを紹介する。 我々のモデルは、マスキング言語モデルの精度で多言語BERTを大幅に上回る。 私たちはこのモデルをMITオープンソースライセンスで公開しています。

Pretrained language models based on the Transformer architecture have achieved state-of-the-art results in various natural language processing tasks such as part-of-speech tagging, named entity recognition, and question answering. However, no such monolingual model for the Uzbek language is publicly available. In this paper, we introduce UzBERT, a pretrained Uzbek language model based on the BERT architecture. Our model greatly outperforms multilingual BERT on masked language model accuracy. We make the model publicly available under the MIT open-source license.
翻訳日:2021-08-25 00:36:33 公開日:2021-08-22
# (参考訳) セッションアウェア・レコメンダシステムのための多人数RNNを用いたデータ拡張 [全文訳有]

Data Augmentation Using Many-To-Many RNNs for Session-Aware Recommender Systems ( http://arxiv.org/abs/2108.09858v1 )

ライセンス: CC BY 4.0
Mart\'in Baigorria Alonso(参考訳) booking.com が主催する acm wsdm webtour 2021 challenge では,旅行ドメインにセッションアウェアレコメンダシステムを適用することに焦点を当てている。 ユーザ旅行における旅行予約のシーケンスを考えると、私たちはユーザの次の目的地を推奨します。 出力空間の広い次元を扱うため,本論文では,ユーザが選択した次の目的地を,最終ステップではなくシーケンスステップ毎に予測する多対多のrnnモデルを提案する。 1つのrnnでデータ拡張を行うのに、これが計算効率の良い代替手段であることを示し、最初の要素から始まり、セッションの全てのサブシーケンスを考える。 私たちのソリューションは最終リードボードで4位となり、精度@4は 0.5566でした。

The ACM WSDM WebTour 2021 Challenge organized by Booking.com focuses on applying Session-Aware recommender systems in the travel domain. Given a sequence of travel bookings in a user trip, we look to recommend the user's next destination. To handle the large dimensionality of the output's space, we propose a many-to-many RNN model, predicting the next destination chosen by the user at every sequence step as opposed to only the final one. We show how this is a computationally efficient alternative to doing data augmentation in a many-to-one RNN, where we consider every subsequence of a session starting from the first element. Our solution achieved 4th place in the final leaderboard, with an accuracy@4 of 0.5566.
翻訳日:2021-08-25 00:27:09 公開日:2021-08-22
# 新しい深部ニューラルネットワークによる気象予報を用いた風力予測

Wind Power Projection using Weather Forecasts by Novel Deep Neural Networks ( http://arxiv.org/abs/2108.09797v1 )

ライセンス: Link先を確認
Alagappan Swaminathan, Venkatakrishnan Sutharsan, Tamilselvi Selvaraj(参考訳) 従来のエネルギー生産方法から再生可能エネルギー生産への移行は、今後の再生可能エネルギー供給の予測モデルを改善する必要がある。 風力発電では、風の断続性のため、予測生産における誤差を否定することは不可能である。 電力グリッドの統合を成功させるためには、風力発電の予測に生じる不確実性を理解し、この情報を用いて正確で信頼性の高い予測を構築することが不可欠である。 これは風速、温度、風方向などの異なるパラメータの変更によって風力発電の変動を観測し、それに対する機能依存を導出することで達成できる。 最適化された機械学習アルゴリズムを用いることで、観測結果に隠れたパターンを見つけ、意味のあるデータを得ることができ、風力要求を正確に予測することができる。 BableshwarのGamesa's Wind Farmが提供する必要なデータを利用することで、電力曲線を用いた風力予測のパラメトリックモデルと非パラメトリックモデルの両方を探索する。 得られた結果は, 使用済みモデルの精度をよりよく理解するために比較され, 与えられたデータセットに基づいて風力発電の予測に最も適したモデルが決定される。

The transition from conventional methods of energy production to renewable energy production necessitates better prediction models of the upcoming supply of renewable energy. In wind power production, error in forecasting production is impossible to negate owing to the intermittence of wind. For successful power grid integration, it is crucial to understand the uncertainties that arise in predicting wind power production and use this information to build an accurate and reliable forecast. This can be achieved by observing the fluctuations in wind power production with changes in different parameters such as wind speed, temperature, and wind direction, and deriving functional dependencies for the same. Using optimized machine learning algorithms, it is possible to find obscured patterns in the observations and obtain meaningful data, which can then be used to accurately predict wind power requirements . Utilizing the required data provided by the Gamesa's wind farm at Bableshwar, the paper explores the use of both parametric and the non-parametric models for calculating wind power prediction using power curves. The obtained results are subject to comparison to better understand the accuracy of the utilized models and to determine the most suitable model for predicting wind power production based on the given data set.
翻訳日:2021-08-24 16:02:43 公開日:2021-08-22
# 部分輸送による効率的なミニバッチ法

An Efficient Mini-batch Method via Partial Transportation ( http://arxiv.org/abs/2108.09645v1 )

ライセンス: Link先を確認
Khai Nguyen, Dang Nguyen, Tung Pham, Nhat Ho(参考訳) ミニバッチ最適輸送(m-OT)は、大規模アプリケーションにおけるOTのメモリ問題に広く利用されている。 実用性にも拘わらず、m-OTは不特定マッピング、すなわち、ミニバッチレベルで最適であるが元の測度間の最適な輸送計画には存在しないマッピングに悩まされている。 そこで,本研究では,ミニバッチの最適輸送(m-POT)を,ミニバッチの最適輸送(m-POT)と呼ぶ実験値間の部分最適輸送(POT)を用いて提案する。 部分輸送からの洞察を生かして,m-otからの誤特定マッピングの原因を説明し,ポット経由のミニバッチ間の移動質量の制限が不正確なマッピングを緩和する理由を説明する。 最後に, m-POT と m-OT を比較し,最近提案したミニバッチ法, ミニバッチ不均衡最適輸送 (m-UOT) について広範な実験を行った。 我々はm-POTがm-UOTに匹敵する性能を持ちながらm-OT深部ドメイン適応アプリケーションよりも優れていることを観察した。 深部生成モデル、勾配流、色移動などの他の応用では、m-POTはm-OTおよびm-UOTよりも良好な性能が得られる。

Mini-batch optimal transport (m-OT) has been widely used recently to deal with the memory issue of OT in large-scale applications. Despite their practicality, m-OT suffers from misspecified mappings, namely, mappings that are optimal on the mini-batch level but do not exist in the optimal transportation plan between the original measures. To address the misspecified mappings issue, we propose a novel mini-batch method by using partial optimal transport (POT) between mini-batch empirical measures, which we refer to as mini-batch partial optimal transport (m-POT). Leveraging the insight from the partial transportation, we explain the source of misspecified mappings from the m-OT and motivate why limiting the amount of transported masses among mini-batches via POT can alleviate the incorrect mappings. Finally, we carry out extensive experiments on various applications to compare m-POT with m-OT and recently proposed mini-batch method, mini-batch unbalanced optimal transport (m-UOT). We observe that m-POT is better than m-OT deep domain adaptation applications while having comparable performance with m-UOT. On other applications, such as deep generative model, gradient flow, and color transfer, m-POT yields more favorable performance than both m-OT and m-UOT.
翻訳日:2021-08-24 16:01:41 公開日:2021-08-22
# 普遍的単調誤差をもつ普遍的一貫した学習規則

A universally consistent learning rule with a universally monotone error ( http://arxiv.org/abs/2108.09733v1 )

ライセンス: Link先を確認
Vladimir Pestov(参考訳) 予測誤差が単調な単調な一貫した学習規則を各データ分布の標本サイズで提案する。 このような規則の存在に関する問題は、1996年にDevroye, Gy\"orfi and Lugosi(彼はそれを"smart"と呼んだ)によって提起された。 我々の規則は完全に決定論的であり、任意の領域(標準ボレル空間)で巡回順序を用いて構築されたデータ依存の分割規則である。 中心となる考え方は、各ステップでラベルの十分な経験的多様性を示す循環区間のみを分割することであり、エラー関数が凸である領域を避けることである。

We present a universally consistent learning rule whose expected error is monotone non-increasing with the sample size under every data distribution. The question of existence of such rules was brought up in 1996 by Devroye, Gy\"orfi and Lugosi (who called them "smart"). Our rule is fully deterministic, a data-dependent partitioning rule constructed in an arbitrary domain (a standard Borel space) using a cyclic order. The central idea is to only partition at each step those cyclic intervals that exhibit a sufficient empirical diversity of labels, thus avoiding a region where the error function is convex.
翻訳日:2021-08-24 16:01:17 公開日:2021-08-22
# Pi-NAS: スーパーネットトレーニング一貫性シフトの低減によるニューラルネットワーク検索の改善

Pi-NAS: Improving Neural Architecture Search by Reducing Supernet Training Consistency Shift ( http://arxiv.org/abs/2108.09671v1 )

ライセンス: Link先を確認
Jiefeng Peng, Jiqi Zhang, Changlin Li, Guangrun Wang, Xiaodan Liang, Liang Lin(参考訳) 最近提案されたニューラルアーキテクチャサーチ (NAS) 手法は、スーパーネット内の数十億のアーキテクチャを共存させ、スーパーネットから分離したネットワーク重みを用いてその潜在的な精度を推定する。 しかし、予測されたアーキテクチャの精度と実際の能力とのランキングの相関は誤りであり、既存のnasメソッドのジレンマを引き起こす。 このランク付け相関問題は,特徴シフトやパラメータシフトを含む,スーパーネットトレーニングの整合性シフトに起因する。 特徴シフトはランダムパスサンプリングによる隠蔽層の動的入力分布として同定される。 入力分布は損失降下に影響を与え、最終的にアーキテクチャのランキングに影響を及ぼす。 パラメータシフトは、異なるトレーニングステップで異なるパスに配置された共有層に対する矛盾パラメータ更新として識別される。 急速に変化するパラメータは、アーキテクチャのランキングを保存できませんでした。 この2つのシフトを、Pi-NASと呼ばれる非自明なスーパーネットPiモデルを用いて同時に解決する。 具体的には,クロスパス学習を含むスーパーネットpiモデルを用いて,異なるパス間の機能一貫性のシフトを低減する。 一方,パラメータシフトやモデル衝突を克服するために,負のサンプルを含む新しい非自明な平均教師を採用する。 さらに、我々のPi-NASは教師なしの方法で動作し、より転送可能なアーキテクチャを検索できる。 ImageNetと幅広い下流タスク(COCO 2017、ADE20K、Cityscapesなど)に関する大規模な実験は、監督されたNASと比較して、Pi-NASの有効性と普遍性を示している。 コード:https://github.com/ Ernie1/Pi-NASを参照。

Recently proposed neural architecture search (NAS) methods co-train billions of architectures in a supernet and estimate their potential accuracy using the network weights detached from the supernet. However, the ranking correlation between the architectures' predicted accuracy and their actual capability is incorrect, which causes the existing NAS methods' dilemma. We attribute this ranking correlation problem to the supernet training consistency shift, including feature shift and parameter shift. Feature shift is identified as dynamic input distributions of a hidden layer due to random path sampling. The input distribution dynamic affects the loss descent and finally affects architecture ranking. Parameter shift is identified as contradictory parameter updates for a shared layer lay in different paths in different training steps. The rapidly-changing parameter could not preserve architecture ranking. We address these two shifts simultaneously using a nontrivial supernet-Pi model, called Pi-NAS. Specifically, we employ a supernet-Pi model that contains cross-path learning to reduce the feature consistency shift between different paths. Meanwhile, we adopt a novel nontrivial mean teacher containing negative samples to overcome parameter shift and model collision. Furthermore, our Pi-NAS runs in an unsupervised manner, which can search for more transferable architectures. Extensive experiments on ImageNet and a wide range of downstream tasks (e.g., COCO 2017, ADE20K, and Cityscapes) demonstrate the effectiveness and universality of our Pi-NAS compared to supervised NAS. See Codes: https://github.com/E rnie1/Pi-NAS.
翻訳日:2021-08-24 15:59:33 公開日:2021-08-22
# 多変量時系列予測のための進化的アンサンブル学習

Evolutionary Ensemble Learning for Multivariate Time Series Prediction ( http://arxiv.org/abs/2108.09659v1 )

ライセンス: Link先を確認
Hui Song, A. K. Qin, Flora D. Salim(参考訳) 多変量時系列(multivariate time series, mts)予測は金融、エネルギー、輸送といった多くの分野において重要な役割を果たす。 mts予測モデル(pm)を構築する典型的なパイプラインは、利用可能なチャネルのサブセットを選択し、選択されたチャネルから特徴を抽出することと、抽出された特徴に基づいてpmを構築することで構成される。 したがって、最適な予測性能の追求は、関連するすべての最適化問題を解決することでパイプラインの最適化に対応する。 これは解空間の広さによる非自明な仕事である。 パイプラインの特定のコンポーネントの最適化を目標とする既存の作業の多くとは違い,パイプライン全体を総合的に最適化する新たな進化的アンサンブル学習フレームワークを提案する。 このフレームワークでは、特定のパイプラインを候補解として符号化し、異なる集団サイズで多目的進化アルゴリズムを適用して複数のパレート最適集合(POS)を生成する。 最後に、選択アンサンブル学習は、POSから解の最適部分集合を選択し、それらを組み合わせて、グレディシーケンシャル選択と最小二乗法を用いて最終的な予測を得るように設計されている。 提案フレームワークを実装し,実世界の電力消費予測と空気品質予測という2つのアプリケーションの実装を評価する。 最先端技術との比較により,提案手法の優位性を示した。

Multivariate time series (MTS) prediction plays a key role in many fields such as finance, energy and transport, where each individual time series corresponds to the data collected from a certain data source, so-called channel. A typical pipeline of building an MTS prediction model (PM) consists of selecting a subset of channels among all available ones, extracting features from the selected channels, and building a PM based on the extracted features, where each component involves certain optimization tasks, i.e., selection of channels, feature extraction (FE) methods, and PMs as well as configuration of the selected FE method and PM. Accordingly, pursuing the best prediction performance corresponds to optimizing the pipeline by solving all of its involved optimization problems. This is a non-trivial task due to the vastness of the solution space. Different from most of the existing works which target at optimizing certain components of the pipeline, we propose a novel evolutionary ensemble learning framework to optimize the entire pipeline in a holistic manner. In this framework, a specific pipeline is encoded as a candidate solution and a multi-objective evolutionary algorithm is applied under different population sizes to produce multiple Pareto optimal sets (POSs). Finally, selective ensemble learning is designed to choose the optimal subset of solutions from the POSs and combine them to yield final prediction by using greedy sequential selection and least square methods. We implement the proposed framework and evaluate our implementation on two real-world applications, i.e., electricity consumption prediction and air quality prediction. The performance comparison with state-of-the-art techniques demonstrates the superiority of the proposed approach.
翻訳日:2021-08-24 15:58:14 公開日:2021-08-22
# 独立成分分析による脳波信号処理と畳み込みニューラルネットワークを用いた認知的ストレス分類

Electroencephalogram Signal Processing with Independent Component Analysis and Cognitive Stress Classification using Convolutional Neural Networks ( http://arxiv.org/abs/2108.09817v1 )

ライセンス: Link先を確認
Venkatakrishnan Sutharsan, Alagappan Swaminathan, Saisrinivasan Ramachandran, Madan Kumar Lakshmanan, Balaji Mahadevan(参考訳) eeg(electroencephalo gram)は、頭皮上に置かれた電極から得られる生体電気信号の活性による記録である。 脳波信号(EEG)記録では、得られた信号は、主にEOG信号によって汚染される。 このアーチファクトは脳波信号よりも大きいため、医療診断などの応用において人間の脳の機能をよりよく理解するために、これらのノイズ信号を除去する必要がある。 本稿では,独立成分分析(ICA)を用いた脳波信号の相互相関について提案する。 これは、相関係数に基づく成分をしきい値で選択し、完全にゼロにするのではなくその効果を低減し、情報損失を低減することによって行われる。 記録データの結果から,脳波データの損失が少なく,EOG信号のアーチファクトを除去できることが示唆された。 SNR値の増大と相関係数値の減少によりデノナイジングが検証される。 識別された信号は、入力された脳波信号の特徴を調べ、個人のストレスレベルを予測する人工ニューラルネットワーク(ANN)のトレーニングに使用される。

Electroencephalogram (EEG) is the recording which is the result due to the activity of bio-electrical signals that is acquired from electrodes placed on the scalp. In Electroencephalogram signal(EEG) recordings, the signals obtained are contaminated predominantly by the Electrooculogram(EOG ) signal. Since this artifact has higher magnitude compared to EEG signals, these noise signals have to be removed in order to have a better understanding regarding the functioning of a human brain for applications such as medical diagnosis. This paper proposes an idea of using Independent Component Analysis(ICA) along with cross-correlation to de-noise EEG signal. This is done by selecting the component based on the cross-correlation coefficient with a threshold value and reducing its effect instead of zeroing it out completely, thus reducing the information loss. The results of the recorded data show that this algorithm can eliminate the EOG signal artifact with little loss in EEG data. The denoising is verified by an increase in SNR value and the decrease in cross-correlation coefficient value. The denoised signals are used to train an Artificial Neural Network(ANN) which would examine the features of the input EEG signal and predict the stress levels of the individual.
翻訳日:2021-08-24 15:57:47 公開日:2021-08-22
# 量子機械学習の新しい潮流

New Trends in Quantum Machine Learning ( http://arxiv.org/abs/2108.09664v1 )

ライセンス: Link先を確認
Lorenzo Buffoni and Filippo Caruso(参考訳) ここでは、機械学習と量子物理学の新たな相互作用の可能性について展望する。 我々は、物理ハードウェアのブレークスルーによって計算をスピードアップする新しい方法を見つけるために、新しい量子技術とアルゴリズムから機械学習の恩恵を受ける方法を探り、既存のモデルを改善したり、量子領域で新しい学習スキームを考案したりする。 さらに、膨大な量のデータを生成する量子物理学の実験や機械学習は、それらを分析して予測したり、実験自体を制御したりするのに最適なツールとなるでしょう。 それに加えて、機械学習から借用されたデータ可視化技術やその他のスキームは、複雑な多様体の構造に関する直観や理論モデルに関する予測を行う上で、理論家にとって非常に有用である。 量子機械学習(Quantum Machine Learning)と名付けられたこの新しい研究分野は、古典的なものよりも大きなアドバンテージを提供すると期待されているため、急速に成長している。

Here we will give a perspective on new possible interplays between Machine Learning and Quantum Physics, including also practical cases and applications. We will explore the ways in which machine learning could benefit from new quantum technologies and algorithms to find new ways to speed up their computations by breakthroughs in physical hardware, as well as to improve existing models or devise new learning schemes in the quantum domain. Moreover, there are lots of experiments in quantum physics that do generate incredible amounts of data and machine learning would be a great tool to analyze those and make predictions, or even control the experiment itself. On top of that, data visualization techniques and other schemes borrowed from machine learning can be of great use to theoreticians to have better intuition on the structure of complex manifolds or to make predictions on theoretical models. This new research field, named as Quantum Machine Learning, is very rapidly growing since it is expected to provide huge advantages over its classical counterpart and deeper investigations are timely needed since they can be already tested on the already commercially available quantum machines.
翻訳日:2021-08-24 15:55:40 公開日:2021-08-22
# スパース分解と低ランク分解による凸潜在効果ロジットモデル

Convex Latent Effect Logit Model via Sparse and Low-rank Decomposition ( http://arxiv.org/abs/2108.09859v1 )

ライセンス: Link先を確認
Hongyuan Zhan and Kamesh Madduri and Venkataraman Shankar(参考訳) 本稿では,低集団に対する潜在的不均一性を考慮したロジスティック回帰モデル(logit)の学習のための凸定式化を提案する。 輸送において、ロジスティック回帰とその変種はしばしばユーティリティ理論の下で離散選択モデルとして解釈される(McFadden, 2001)。 交通分野におけるlogitモデルの2つの顕著な応用は、交通事故分析と選択モデリングである。 これらのアプリケーションでは、研究者は、同じ事故や選択シナリオの下で個々のバリエーションを理解し、捉えたいことが多い。 混合効果ロジスティック回帰(mixed logit)は、輸送研究者が採用する一般的なモデルである。 混合ロジットパラメータの分布を推定するには,ネストした高次元積分を用いた非凸最適化問題を解く必要がある。 シミュレーションに基づく最適化は通常、混合ロジットパラメータ推定問題を解くために適用される。 その人気にもかかわらず、個人の多様性を学ぶための混合logitアプローチにはいくつかの欠点がある。 まず、この分布のパラメトリックな形式は、非パラメトリックなアプローチを用いてある程度対処できるが、ユーザによって課されるドメイン知識と仮定を必要とする。 第二に、最適化問題は混合ロジットのパラメータ推定から生じ、非パラメトリック拡張は非凸であり、不安定なモデル解釈につながる。 第3に、シミュレーション支援推定におけるシミュレーションサイズは有限サンプル理論の保証を欠き、実際にはある程度任意に選択される。 これらの問題に対処するため、我々は、凸性を維持しながら潜伏した個々の不均一性をモデル化し、シミュレーションに基づく近似の必要性を回避するための定式化を開発する。 我々の構成は、各個体の集団における疎等質成分と低等質成分にパラメータを分解することに基づいている。

In this paper, we propose a convex formulation for learning logistic regression model (logit) with latent heterogeneous effect on sub-population. In transportation, logistic regression and its variants are often interpreted as discrete choice models under utility theory (McFadden, 2001). Two prominent applications of logit models in the transportation domain are traffic accident analysis and choice modeling. In these applications, researchers often want to understand and capture the individual variation under the same accident or choice scenario. The mixed effect logistic regression (mixed logit) is a popular model employed by transportation researchers. To estimate the distribution of mixed logit parameters, a non-convex optimization problem with nested high-dimensional integrals needs to be solved. Simulation-based optimization is typically applied to solve the mixed logit parameter estimation problem. Despite its popularity, the mixed logit approach for learning individual heterogeneity has several downsides. First, the parametric form of the distribution requires domain knowledge and assumptions imposed by users, although this issue can be addressed to some extent by using a non-parametric approach. Second, the optimization problems arise from parameter estimation for mixed logit and the non-parametric extensions are non-convex, which leads to unstable model interpretation. Third, the simulation size in simulation-assisted estimation lacks finite-sample theoretical guarantees and is chosen somewhat arbitrarily in practice. To address these issues, we are motivated to develop a formulation that models the latent individual heterogeneity while preserving convexity, and avoids the need for simulation-based approximation. Our setup is based on decomposing the parameters into a sparse homogeneous component in the population and low-rank heterogeneous parts for each individual.
翻訳日:2021-08-24 15:55:21 公開日:2021-08-22
# DisenKGAT:分散グラフ注意ネットワークを用いた知識グラフ埋め込み

DisenKGAT: Knowledge Graph Embedding with Disentangled Graph Attention Network ( http://arxiv.org/abs/2108.09628v1 )

ライセンス: Link先を確認
Junkang Wu, Wentao Shi, Xuezhi Cao, Jiawei Chen, Wenqiang Lei, Fuzheng Zhang, Wei Wu and Xiangnan He(参考訳) 知識グラフ補完(KGC)は、多くの下流タスクへの優れた貢献により、ディープラーニングコミュニティ全体の注目を集めている。 最近、KGCの研究が急増しているのを目撃したが、それらは単一の静的表現を採用するため、複雑な関係を正確に捉えるには不十分である。 本研究では,知識グラフ(kgs)の背後にある表現を活用し,マイクロ・ディエンタングル化とマクロ・ディエンタングル化を両立させた,新たな知識グラフアテンションネットワーク(disenkgat)を提案する。 マイクロディスタングルを実現するために,多様なコンポーネント表現を学習するための新しい関係認識アグリゲーションを提案する。 マクロ・ディスタングルメントでは、相互情報を正規化として利用し、独立性を高める。 絡み合いの助けを借りて、モデルは与えられたシナリオの観点で適応表現を生成することができる。 さらに、当社の作業は、さまざまなスコア機能に適応する強力な堅牢性と柔軟性を備えています。 既存の手法よりも精度と説明可能性の両面でDisenKGATの優位性を検証するために,公開ベンチマークデータセットの大規模な実験が行われた。

Knowledge graph completion (KGC) has become a focus of attention across deep learning community owing to its excellent contribution to numerous downstream tasks. Although recently have witnessed a surge of work on KGC, they are still insufficient to accurately capture complex relations, since they adopt the single and static representations. In this work, we propose a novel Disentangled Knowledge Graph Attention Network (DisenKGAT) for KGC, which leverages both micro-disentanglemen t and macro-disentanglemen t to exploit representations behind Knowledge graphs (KGs). To achieve micro-disentanglemen t, we put forward a novel relation-aware aggregation to learn diverse component representation. For macro-disentanglemen t, we leverage mutual information as a regularization to enhance independence. With the assistance of disentanglement, our model is able to generate adaptive representations in terms of the given scenario. Besides, our work has strong robustness and flexibility to adapt to various score functions. Extensive experiments on public benchmark datasets have been conducted to validate the superiority of DisenKGAT over existing methods in terms of both accuracy and explainability.
翻訳日:2021-08-24 15:50:31 公開日:2021-08-22
# StarVQA:ビデオ品質評価のための時空間アテンション

StarVQA: Space-Time Attention for Video Quality Assessment ( http://arxiv.org/abs/2108.09635v1 )

ライセンス: Link先を確認
Fengchuang Xing, Yuan-Gen Wang, Hanpin Wang, Leida Li, and Guopu Zhu(参考訳) 注目のメカニズムは近年コンピュータビジョンで開きつつある。 しかし,ビデオ品質評価(VQA)への応用は報告されていない。 地中ビデオの品質を評価することは、プリスタン参照の未知と撮影歪みのために難しい。 本稿では,StarVQA 問題として,新規な \underline{s}pace-\underline{t}ime \underline{a}ttention network fo\underline{r} を提案する。 StarVQAは、分割された時空の注意を交互に結合することでトランスフォーマーを構築する。 トレーニングにトランスフォーマーアーキテクチャを適用するため、starvqaは平均意見スコア(mos)を確率ベクトルに符号化し、特別ベクトルラベルトークンを学習可能な変数として組み込むことにより、ベクトル化回帰損失を設計できる。 ビデオシーケンスの長距離時空間依存性をキャプチャするために、starvqaは、各パッチの時空位置情報をトランスフォーマの入力にエンコードする。 LIVE-VQC, KoNViD-1k, LSVQ, LSVQ-1080p などのビデオデータセットのデファクト化実験を行った。 実験結果から,提案するstarvqaは最先端技術よりも優れていることが示された。 コードとモデルはhttps://github.com/d vl/starvqaで入手できる。

The attention mechanism is blooming in computer vision nowadays. However, its application to video quality assessment (VQA) has not been reported. Evaluating the quality of in-the-wild videos is challenging due to the unknown of pristine reference and shooting distortion. This paper presents a novel \underline{s}pace-\underline{t}ime \underline{a}ttention network fo\underline{r} the \underline{VQA} problem, named StarVQA. StarVQA builds a Transformer by alternately concatenating the divided space-time attention. To adapt the Transformer architecture for training, StarVQA designs a vectorized regression loss by encoding the mean opinion score (MOS) to the probability vector and embedding a special vectorized label token as the learnable variable. To capture the long-range spatiotemporal dependencies of a video sequence, StarVQA encodes the space-time position information of each patch to the input of the Transformer. Various experiments are conducted on the de-facto in-the-wild video datasets, including LIVE-VQC, KoNViD-1k, LSVQ, and LSVQ-1080p. Experimental results demonstrate the superiority of the proposed StarVQA over the state-of-the-art. Code and model will be available at: https://github.com/D VL/StarVQA.
翻訳日:2021-08-24 15:46:48 公開日:2021-08-22
# 水中画像強調のための領域適応

Domain Adaptation for Underwater Image Enhancement ( http://arxiv.org/abs/2108.09650v1 )

ライセンス: Link先を確認
Zhengyong Wang, Liquan Shen, Mei Yu, Kun Wang, Yufei Lin and Mai Xu(参考訳) 近年,水中画像強調において,学習に基づくアルゴリズムの性能が顕著に向上している。 多くは合成データのトレーニングに頼り、優れたパフォーマンスを達成する。 しかし、これらの手法は合成データと実際の領域間ギャップ(すなわち、ドメイン間ギャップ)を無視するので、合成データで訓練されたモデルは実際の水中シナリオによく当てはまらないことが多い。 さらに、複雑で変更可能な水中環境は、実際のデータ自身(すなわちドメイン内ギャップ)の間で大きな分散ギャップを引き起こす。 しかし、この問題に焦点をあてる研究はほとんどなく、それらの技術は様々な実画像に視覚的に無害なアーティファクトや色歪みをもたらすことが多い。 これらの観測により,ドメイン間およびドメイン内ギャップを最小化する新しい2相水中ドメイン適応ネットワーク(TUDA)を提案する。 具体的には、入力画像のリアリズムを強化する翻訳部と、拡張部とを含む第1フェーズに、新たなデュアルアライメントネットワークを設計する。 画像レベルと特徴レベルを2つの部分で比較学習することにより、ネットワークはドメイン間の不変性を向上し、ドメイン間のギャップを橋渡しすることができる。 第2フェーズでは、ランクベースの水中品質評価手法が組み込まれている強化画像の評価品質に応じて、実データを簡単に分類する。 ランキングから学習した暗黙の品質情報を活用することで、強調画像の知覚品質をより正確に評価することができる。 簡単な部分からの擬似ラベルを用いて、容易かつハードなサンプル間のドメイン内ギャップを効果的に低減する、容易かつハードな適応技術を行う。

Recently, learning-based algorithms have shown impressive performance in underwater image enhancement. Most of them resort to training on synthetic data and achieve outstanding performance. However, these methods ignore the significant domain gap between the synthetic and real data (i.e., interdomain gap), and thus the models trained on synthetic data often fail to generalize well to real underwater scenarios. Furthermore, the complex and changeable underwater environment also causes a great distribution gap among the real data itself (i.e., intra-domain gap). However, almost no research focuses on this problem and thus their techniques often produce visually unpleasing artifacts and color distortions on various real images. Motivated by these observations, we propose a novel Two-phase Underwater Domain Adaptation network (TUDA) to simultaneously minimize the inter-domain and intra-domain gap. Concretely, a new dual-alignment network is designed in the first phase, including a translation part for enhancing realism of input images, followed by an enhancement part. With performing image-level and feature-level adaptation in two parts by jointly adversarial learning, the network can better build invariance across domains and thus bridge the inter-domain gap. In the second phase, we perform an easy-hard classification of real data according to the assessed quality of enhanced images, where a rank-based underwater quality assessment method is embedded. By leveraging implicit quality information learned from rankings, this method can more accurately assess the perceptual quality of enhanced images. Using pseudo labels from the easy part, an easy-hard adaptation technique is then conducted to effectively decrease the intra-domain gap between easy and hard samples.
翻訳日:2021-08-24 15:46:28 公開日:2021-08-22
# 2つから1つ:ビジュアル言語モデリングネットワークを備えた新しいシーンテキスト認識器

From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network ( http://arxiv.org/abs/2108.09661v1 )

ライセンス: Link先を確認
Yuxin Wang, Hongtao Xie, Shancheng Fang, Jing Wang, Shenggao Zhu and Yongdong Zhang(参考訳) 本稿では,支配的な複雑な言語モデルを捨て,シーンテキスト認識における言語学習プロセスを再考する。 視覚的・言語的情報を2つの異なる構造で考える従来の手法とは違って,視覚的・言語的情報を言語能力に直結させることで,連合体とみなす視覚的言語モデリングネットワーク(VisionLAN)を提案する。 特に, 訓練段階では, 字幕付き特徴地図のテキスト認識について紹介する。 このような操作は、視覚モデルに対して、文字の視覚的テクスチャだけでなく、視覚的手がかりが混同されている場合(例えば)、認識のための視覚的コンテキストの言語情報を使用するように誘導する。 閉塞、騒音など)。 言語情報は、余分な言語モデルを必要としない視覚的特徴とともに獲得されるため、VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に考慮する。 さらにオクルージョンシーンテキスト(ost)データセットを提案し,文字方向の視覚手がかりが欠落した場合の性能評価を行った。 いくつかのベンチマークにおける最先端の結果は、我々の効果を証明している。 コードとデータセットはhttps://github.com/w angyuxin87/VisionLAN で入手できる。

In this paper, we abandon the dominant complex language model and rethink the linguistic learning process in the scene text recognition. Different from previous methods considering the visual and linguistic information in two separate structures, we propose a Visual Language Modeling Network (VisionLAN), which views the visual and linguistic information as a union by directly enduing the vision model with language capability. Specially, we introduce the text recognition of character-wise occluded feature maps in the training stage. Such operation guides the vision model to use not only the visual texture of characters, but also the linguistic information in visual context for recognition when the visual cues are confused (e.g. occlusion, noise, etc.). As the linguistic information is acquired along with visual features without the need of extra language model, VisionLAN significantly improves the speed by 39% and adaptively considers the linguistic information to enhance the visual features for accurate recognition. Furthermore, an Occlusion Scene Text (OST) dataset is proposed to evaluate the performance on the case of missing character-wise visual cues. The state of-the-art results on several benchmarks prove our effectiveness. Code and dataset are available at https://github.com/w angyuxin87/VisionLAN .
翻訳日:2021-08-24 15:46:01 公開日:2021-08-22
# ファウショット分類のための関係埋め込み

Relational Embedding for Few-Shot Classification ( http://arxiv.org/abs/2108.09666v1 )

ライセンス: Link先を確認
Dahyun Kang, Heeseung Kwon, Juhong Min, Minsu Cho(参考訳) 本研究では,「観察すべきこと」と「出席すべき場所」を関係論的に学習することで,マイショット分類の問題に対処する。 本手法は,自己相関表現(SCR)と相互相関注意(CCA)を用いて,画像内および画像間の関係パターンを利用する。 各画像内で、scrモジュールは基本特徴マップを自己相関テンソルに変換し、テンソルから構造パターンを抽出することを学ぶ。 画像間では、CAAモジュールは2つの画像表現間の相互相関を計算し、それらの間のコアテンションを生成することを学習する。 我々のRelational Embedding Network (RENet)は2つのリレーショナルモジュールを組み合わせて、エンドツーエンドでリレーショナル埋め込みを学ぶ。 実験評価では, miniImageNet, tieredImageNet, CUB-200-2011, CIFAR-FS の4つの多用された少ショット分類ベンチマークにおいて, 最先端の手法に対する一貫した改善を実現している。

We propose to address the problem of few-shot classification by meta-learning "what to observe" and "where to attend" in a relational perspective. Our method leverages relational patterns within and between images via self-correlational representation (SCR) and cross-correlational attention (CCA). Within each image, the SCR module transforms a base feature map into a self-correlation tensor and learns to extract structural patterns from the tensor. Between the images, the CCA module computes cross-correlation between two image representations and learns to produce co-attention between them. Our Relational Embedding Network (RENet) combines the two relational modules to learn relational embedding in an end-to-end manner. In experimental evaluation, it achieves consistent improvements over state-of-the-art methods on four widely used few-shot classification benchmarks of miniImageNet, tieredImageNet, CUB-200-2011, and CIFAR-FS.
翻訳日:2021-08-24 15:45:41 公開日:2021-08-22
# 視覚関係の学習:悪魔は尻尾にいる

Learning of Visual Relations: The Devil is in the Tails ( http://arxiv.org/abs/2108.09668v1 )

ライセンス: Link先を確認
Alakh Desai, Tz-Ying Wu, Subarna Tripathi, Nuno Vasconcelos(参考訳) 近年,視覚関係のモデル化に多大な努力が払われている。 これは主にアーキテクチャの設計に対処し、通常はパラメータを追加し、モデルの複雑さを増大させる。 しかし、視覚的関係学習は、物体群に関する共同推論の組合せの性質のため、長い問題である。 モデル複雑性の増大は、一般的に、過度に適合する傾向にあるため、長い尾の問題に不適である。 本稿では,悪魔は尻尾にあるという仮説を探究する。 この仮説の下では、モデルをシンプルに保ちながら、長い尾の分布に対処する能力を向上させることで、より良い性能が得られる。 この仮説を検証するために,最先端の長期認識文学に触発された視覚関係モデルの学習手法を考案した。 これは反復的に分離されたトレーニングスキームに基づいており、"Decoupled Training for Devil in the Tails"(DT2)と呼ばれている。 DT2は新しいサンプリング手法であるAlternating Class-Balanced Sampling (ACBS)を採用し、長い尾を持つ実体と視覚関係の述語分布の間の相互作用を捉える。 その結果、DT2-ACBSは極めて単純なアーキテクチャで、シーングラフ生成タスクにおいて、より複雑な最先端メソッドよりもはるかに優れていた。 これは、洗練されたモデルの開発は、問題の長い尾の性質と一致して考える必要があることを示唆している。

Significant effort has been recently devoted to modeling visual relations. This has mostly addressed the design of architectures, typically by adding parameters and increasing model complexity. However, visual relation learning is a long-tailed problem, due to the combinatorial nature of joint reasoning about groups of objects. Increasing model complexity is, in general, ill-suited for long-tailed problems due to their tendency to overfit. In this paper, we explore an alternative hypothesis, denoted the Devil is in the Tails. Under this hypothesis, better performance is achieved by keeping the model simple but improving its ability to cope with long-tailed distributions. To test this hypothesis, we devise a new approach for training visual relationships models, which is inspired by state-of-the-art long-tailed recognition literature. This is based on an iterative decoupled training scheme, denoted Decoupled Training for Devil in the Tails (DT2). DT2 employs a novel sampling approach, Alternating Class-Balanced Sampling (ACBS), to capture the interplay between the long-tailed entity and predicate distributions of visual relations. Results show that, with an extremely simple architecture, DT2-ACBS significantly outperforms much more complex state-of-the-art methods on scene graph generation tasks. This suggests that the development of sophisticated models must be considered in tandem with the long-tailed nature of the problem.
翻訳日:2021-08-24 15:45:21 公開日:2021-08-22
# 教師なしドメイン適応オブジェクト再識別のための不確実性認識クラスタリング

Uncertainty-aware Clustering for Unsupervised Domain Adaptive Object Re-identification ( http://arxiv.org/abs/2108.09682v1 )

ライセンス: Link先を確認
Pengfei Wang, Changxing Ding, Wentao Tan, Mingming Gong, Kui Jia, Dacheng Tao(参考訳) Unsupervised Domain Adaptive (UDA)オブジェクトの再識別(Re-ID)は、ラベル付きソースドメインでトレーニングされたモデルをラベル付きターゲットドメインに適応させることを目的としている。 最先端のオブジェクトRe-IDアプローチでは、クラスタリングアルゴリズムを採用して、ラベルのないターゲットドメインの擬似ラベルを生成する。 しかし,クラスタリング手法によって生じる不可避なラベルノイズは,re-idモデルの識別能力を大幅に低下させる。 この問題に対処するため,UDAタスクのための不確実性対応クラスタリングフレームワーク(UCF)を提案する。 まず,クラスタリング品質向上のために,新しい階層クラスタリング方式を提案する。 次に,モデル学習のための信頼できるラベル付き画像を選択するために,不確実性を考慮した協調インスタンス選択法を提案する。 両方のテクニックを組み合わせることで、ノイズラベルの影響を効果的に低減できる。 さらに,コンパクトなコントラスト損失を特徴とする強固なベースラインを導入する。 提案手法は,オブジェクトRe-IDのための複数のUDAタスクにおける最先端性能を一貫して達成し,教師なしと教師なしのRe-ID性能のギャップを著しく低減する。 特に,MSMT17$\to$Market15 01 タスクにおける教師なし UCF メソッドの性能は Market1501 の教師なし設定よりも優れている。 UCFのコードはhttps://github.com/W ang-pengfei/UCFで公開されている。

Unsupervised Domain Adaptive (UDA) object re-identification (Re-ID) aims at adapting a model trained on a labeled source domain to an unlabeled target domain. State-of-the-art object Re-ID approaches adopt clustering algorithms to generate pseudo-labels for the unlabeled target domain. However, the inevitable label noise caused by the clustering procedure significantly degrades the discriminative power of Re-ID model. To address this problem, we propose an uncertainty-aware clustering framework (UCF) for UDA tasks. First, a novel hierarchical clustering scheme is proposed to promote clustering quality. Second, an uncertainty-aware collaborative instance selection method is introduced to select images with reliable labels for model training. Combining both techniques effectively reduces the impact of noisy labels. In addition, we introduce a strong baseline that features a compact contrastive loss. Our UCF method consistently achieves state-of-the-art performance in multiple UDA tasks for object Re-ID, and significantly reduces the gap between unsupervised and supervised Re-ID performance. In particular, the performance of our unsupervised UCF method in the MSMT17$\to$Market150 1 task is better than that of the fully supervised setting on Market1501. The code of UCF is available at https://github.com/W ang-pengfei/UCF.
翻訳日:2021-08-24 15:44:58 公開日:2021-08-22
# 変圧器型検出ヘッドにおけるクエリ位置の誘導と類似の注意

Guiding Query Position and Performing Similar Attention for Transformer-Based Detection Heads ( http://arxiv.org/abs/2108.09691v1 )

ライセンス: Link先を確認
Xiaohu Jiang and Ze Chen and Zhicheng Wang and Erjin Zhou and ChunYuan(参考訳) DETRが提案された後、オブジェクトクエリと予測のための特徴マップ間のいくつかの交差アテンションを実行するトランスフォーマーベースの検出パラダイムが、その後、一連のトランスフォーマーベースの検出ヘッドを導出した。 これらのモデルは、各クロスアテンション後にオブジェクトクエリを繰り返す。 しかし、オブジェクトクエリの位置情報を示すクエリ位置を更新しません。 したがってモデルには、クエリ位置が表現すべき最新の領域を見つけ出し、さらに注意する必要がある。 この問題を解決するために,オブジェクトクエリの最新の位置情報を反復的にクエリ位置に埋め込むgqpos(guided query position)手法を提案する。 このようなトランスを用いた検出ヘッドのもう一つの問題は、マルチスケールの特徴マップに注意を向ける複雑さが高く、あらゆるスケールでの検知性能の向上を妨げる。 そこで本研究では,特徴写像の融合に加えて,注目重みマップを融合させて高分解能注目重みマップの学習を促進させる,SiAという新たな融合方式を提案する。 実験の結果,提案したGQPosは,DETR,SMCA,YoloS,Hoi Transformerなどの一連のモデルの性能を向上し,SiAはDETRやHoiTransformerなどのマルチスケールトランスフォーマーベース検出ヘッドの性能を一貫して向上することがわかった。

After DETR was proposed, this novel transformer-based detection paradigm which performs several cross-attentions between object queries and feature maps for predictions has subsequently derived a series of transformer-based detection heads. These models iterate object queries after each cross-attention. However, they don't renew the query position which indicates object queries' position information. Thus model needs extra learning to figure out the newest regions that query position should express and need more attention. To fix this issue, we propose the Guided Query Position (GQPos) method to embed the latest location information of object queries to query position iteratively. Another problem of such transformer-based detection heads is the high complexity to perform attention on multi-scale feature maps, which hinders them from improving detection performance at all scales. Therefore we propose a novel fusion scheme named Similar Attention (SiA): besides the feature maps is fused, SiA also fuse the attention weights maps to accelerate the learning of high-resolution attention weight map by well-learned low-resolution attention weight map. Our experiments show that the proposed GQPos improves the performance of a series of models, including DETR, SMCA, YoloS, and HoiTransformer and SiA consistently improve the performance of multi-scale transformer-based detection heads like DETR and HoiTransformer.
翻訳日:2021-08-24 15:44:38 公開日:2021-08-22
# Robustness-via-synth esis: 対向摂動を用いたロバストトレーニング

Robustness-via-Synth esis: Robust Training with Generative Adversarial Perturbations ( http://arxiv.org/abs/2108.09713v1 )

ライセンス: Link先を確認
Inci M. Baytas and Debayan Deb(参考訳) 敵対的攻撃が発見されると、堅牢なモデルはディープラーニングベースのシステムに義務付けられている。 先制攻撃による敵の訓練は、今日の敵の摂動に対する最も効果的な防御の1つである。 敵対的トレーニングのアプローチの大半は、入力画像に対する損失関数の勾配で各ピクセルを反復的に摂動することに焦点を当てている。 しかし、勾配に基づく攻撃を伴う敵対的な訓練は多様性を欠き、自然画像や様々な攻撃に対して十分に一般化していない。 本研究では,生成ネットワークを用いてランダムベクトルから逆摂動を自動的に合成するロバストなトレーニングアルゴリズムを提案する。 この分類器は、自然対向サンプルと合成対向サンプルとの最適な輸送距離で規則化されたクロスエントロピー損失で訓練される。 一般的な生成防御とは異なり、提案したワンステップ攻撃生成フレームワークは、分類器の損失の勾配を使わずに多様な摂動を合成する。 実験の結果,提案手法はCIFAR10, CIFAR100, SVHNデータセット上での様々な勾配に基づく, 生成的ロバストトレーニング手法と同等のロバスト性が得られることがわかった。 さらに、ベースラインと比較して、提案するロバストトレーニングフレームワークは、自然サンプルにうまく一般化する。 コードとトレーニングされたモデルは公開されます。

Upon the discovery of adversarial attacks, robust models have become obligatory for deep learning-based systems. Adversarial training with first-order attacks has been one of the most effective defenses against adversarial perturbations to this day. The majority of the adversarial training approaches focus on iteratively perturbing each pixel with the gradient of the loss function with respect to the input image. However, the adversarial training with gradient-based attacks lacks diversity and does not generalize well to natural images and various attacks. This study presents a robust training algorithm where the adversarial perturbations are automatically synthesized from a random vector using a generator network. The classifier is trained with cross-entropy loss regularized with the optimal transport distance between the representations of the natural and synthesized adversarial samples. Unlike prevailing generative defenses, the proposed one-step attack generation framework synthesizes diverse perturbations without utilizing gradient of the classifier's loss. Experimental results show that the proposed approach attains comparable robustness with various gradient-based and generative robust training techniques on CIFAR10, CIFAR100, and SVHN datasets. In addition, compared to the baselines, the proposed robust training framework generalizes well to the natural samples. Code and trained models will be made publicly available.
翻訳日:2021-08-24 15:44:13 公開日:2021-08-22
# Graph2Pix: グラフベースの画像変換フレームワーク

Graph2Pix: A Graph-Based Image to Image Translation Framework ( http://arxiv.org/abs/2108.09752v1 )

ライセンス: Link先を確認
Dilara Gokay, Enis Simsar, Efehan Atici, Alper Ahmetoglu, Atif Emre Yuksel, Pinar Yanardag(参考訳) 本稿では,画像生成のためのグラフベース画像変換フレームワークを提案する。 私たちは人気のあるクリエイティビティプラットフォームであるartbreeder(http://ar tbreeder.com)から収集されたリッチなデータを使用します。 新しい画像を作成するこのユニークなアプローチは、特定の画像の作成に関する履歴データを追跡する木のような構造につながる。 この構造に着想を得て、グラフと対応する画像を入力として取り出し、出力として単一の画像を生成する、Graph2Pixと呼ばれる新しいグラフから画像への変換モデルを提案する。 実験の結果, LPIPS (25%改善) や人間の知覚研究 (n=60) など, ベンチマーク指標を用いた画像から画像への変換フレームワークでは, ユーザが81.5%の時間で生成した画像が好まれることがわかった。 ソースコードとデータセットはhttps://github.com/c atlab-team/graph2pix で公開されている。

In this paper, we propose a graph-based image-to-image translation framework for generating images. We use rich data collected from the popular creativity platform Artbreeder (http://artbreeder.c om), where users interpolate multiple GAN-generated images to create artworks. This unique approach of creating new images leads to a tree-like structure where one can track historical data about the creation of a particular image. Inspired by this structure, we propose a novel graph-to-image translation model called Graph2Pix, which takes a graph and corresponding images as input and generates a single image as output. Our experiments show that Graph2Pix is able to outperform several image-to-image translation frameworks on benchmark metrics, including LPIPS (with a 25% improvement) and human perception studies (n=60), where users preferred the images generated by our method 81.5% of the time. Our source code and dataset are publicly available at https://github.com/c atlab-team/graph2pix .
翻訳日:2021-08-24 15:43:56 公開日:2021-08-22
# 条件付きテクスチャと構造双対生成による画像塗布

Image Inpainting via Conditional Texture and Structure Dual Generation ( http://arxiv.org/abs/2108.09760v1 )

ライセンス: Link先を確認
Xiefan Guo, Hongyu Yang, Di Huang(参考訳) 深部生成的アプローチは、最近、構造先行の導入により、画像の塗布にかなりの進歩をもたらした。 しかし, 構造復元時のテクスチャとの適切な相互作用の欠如により, 現状の解決法では汚損事例の取り扱いに不適性があり, 一般に歪んだ結果に苦しむ。 本稿では, 構造制約によるテクスチャ合成とテクスチャ誘導による構造再構成を結合的にモデル化し, より高信頼な生成のために相互に有効に活用する, 画像塗布用2ストリームネットワークを提案する。 さらに、グローバル一貫性を高めるために、構造とテクスチャ情報を交換・結合する双方向のgated feature fusion(bi-gff)モジュールと、生成されたコンテンツを地域親和性学習とマルチスケール特徴集約によって洗練するcontextual feature aggregation(cfa)モジュールが開発されている。 celeba, paris streetviewおよびplaces2データセットの質的および定量的実験は,提案手法の優越性を示している。 私たちのコードはhttps://github.com/X iefan-Guo/CTSDG.comで公開されています。

Deep generative approaches have recently made considerable progress in image inpainting by introducing structure priors. Due to the lack of proper interaction with image texture during structure reconstruction, however, current solutions are incompetent in handling the cases with large corruptions, and they generally suffer from distorted results. In this paper, we propose a novel two-stream network for image inpainting, which models the structure-constraine d texture synthesis and texture-guided structure reconstruction in a coupled manner so that they better leverage each other for more plausible generation. Furthermore, to enhance the global consistency, a Bi-directional Gated Feature Fusion (Bi-GFF) module is designed to exchange and combine the structure and texture information and a Contextual Feature Aggregation (CFA) module is developed to refine the generated contents by region affinity learning and multi-scale feature aggregation. Qualitative and quantitative experiments on the CelebA, Paris StreetView and Places2 datasets demonstrate the superiority of the proposed method. Our code is available at https://github.com/X iefan-Guo/CTSDG.
翻訳日:2021-08-24 15:43:38 公開日:2021-08-22
# MobileStereoNet: ステレオマッチングのための軽量ディープネットワークを目指して

MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching ( http://arxiv.org/abs/2108.09770v1 )

ライセンス: Link先を確認
Faranak Shamsafar, Samuel Woerz, Rafia Rahim, Andreas Zell(参考訳) 近年のステレオマッチング手法は深部モデルを用いて精度を継続的に改善している。 しかし、この利益は、ネットワークが適度なGPUにも収まらないように、高い計算コストで達成されている。 この問題は、モデルがリソース制限されたデバイスにデプロイされる必要がある場合に問題を引き起こす。 そこで本研究では,複雑さを低減し,精度を犠牲にすることなく,ステレオビジョンのための2つの軽量モデルを提案する。 コストボリュームの次元に応じて、2dと3dの畳み込みで構成されたエンコーダデコーダを備えた2dモデルと3dモデルを設計する。 この目的のために、2D MobileNetブロックを活用し、ステレオビジョンアプリケーションのためにそれを3Dに拡張する。 さらに,2次元モデルの精度を高めるために新たなコストボリュームを提案し,3次元ネットワークに近い性能を実現した。 実験の結果,提案した2D/3Dネットワークは,精度を保ちながら,計算コスト(27%/95%,72%/38%)を効果的に削減できることがわかった。 私たちのコードはhttps://github.com/c ogsys-tuebingen/mobi lestereonetで利用可能です。

Recent methods in stereo matching have continuously improved the accuracy using deep models. This gain, however, is attained with a high increase in computation cost, such that the network may not fit even on a moderate GPU. This issue raises problems when the model needs to be deployed on resource-limited devices. For this, we propose two light models for stereo vision with reduced complexity and without sacrificing accuracy. Depending on the dimension of cost volume, we design a 2D and a 3D model with encoder-decoders built from 2D and 3D convolutions, respectively. To this end, we leverage 2D MobileNet blocks and extend them to 3D for stereo vision application. Besides, a new cost volume is proposed to boost the accuracy of the 2D model, making it performing close to 3D networks. Experiments show that the proposed 2D/3D networks effectively reduce the computational expense (27%/95% and 72%/38% fewer parameters/operation s in 2D and 3D models, respectively) while upholding the accuracy. Our code is available at https://github.com/c ogsys-tuebingen/mobi lestereonet.
翻訳日:2021-08-24 15:43:19 公開日:2021-08-22
# クラスタリングのための距離分布の活用

The Exploitation of Distance Distributions for Clustering ( http://arxiv.org/abs/2108.09649v1 )

ライセンス: Link先を確認
Michael C. Thrun(参考訳) 距離測度は多くの機械学習アルゴリズムで使われているが、先行知識を用いた場合、文脈に依存しない距離測度の選択と評価に関する文献は限られている。 クラスタ分析では, 誤差確率に基づいて教師なし手法を適用し, 予め定義されたデータの分割を再現するという目標を暗黙的に設定し, 距離測定の選択を評価する。 このような研究は、しばしばデータの文脈に基づくデータのクラスターと、特定の研究のカスタム目標を使用する。 データコンテキストにより、距離分布の異なる特性が適切な距離選択に関係していると判断される。 しかし、クラスタ分析が類似したデータのパーティションを見つけるタスクに基づいている場合、パーティション内距離はインターパーティション間距離よりも小さくなければならない。 ミラード密度プロットによる分布解析を用いて,この仕様を体系的に検討することにより,クラスタ分析においてマルチモーダル距離分布が好ましいことを示した。 その結果, 教師なし手法の評価に先立ち, ガウス混合系の距離分布をモデル化することが有利である。 クラスタリングタスクのために、いくつかの人工データセットと自然データセットで実験を行う。

Although distance measures are used in many machine learning algorithms, the literature on the context-independent selection and evaluation of distance measures is limited in the sense that prior knowledge is used. In cluster analysis, current studies evaluate the choice of distance measure after applying unsupervised methods based on error probabilities, implicitly setting the goal of reproducing predefined partitions in data. Such studies use clusters of data that are often based on the context of the data as well as the custom goal of the specific study. Depending on the data context, different properties for distance distributions are judged to be relevant for appropriate distance selection. However, if cluster analysis is based on the task of finding similar partitions of data, then the intrapartition distances should be smaller than the interpartition distances. By systematically investigating this specification using distribution analysis through a mirrored-density plot, it is shown that multimodal distance distributions are preferable in cluster analysis. As a consequence, it is advantageous to model distance distributions with Gaussian mixtures prior to the evaluation phase of unsupervised methods. Experiments are performed on several artificial datasets and natural datasets for the task of clustering.
翻訳日:2021-08-24 15:37:49 公開日:2021-08-22
# テンソル因子化による時間ネットワーク埋め込み

Temporal Network Embedding via Tensor Factorization ( http://arxiv.org/abs/2108.09837v1 )

ライセンス: Link先を確認
Jing Ma, Qiuchen Zhang, Jian Lou, Li Xiong, Joyce C. Ho(参考訳) 静的グラフ構造化データでの表現学習は多くの実世界のアプリケーションに大きな影響を与えている。 しかし、時間とともにエッジが頻繁に変化する時間的ネットワークの進化にはあまり注意が払われていない。 このような時間的ネットワークの埋め込みは、グラフ構造情報と時間的発展パターンの両方をエンコードすべきである。 時間的発展するネットワーク表現を学ぶ既存のアプローチは、時間的相互依存を捉えることができない。 本稿ではテンソル分解に基づく時間的ネットワーク表現学習のための新しいアプローチであるToffeeを提案する。 本手法はテンソルテンソル-テンソル積演算子を利用してクロスタイム情報を符号化し,進化するネットワークの周期的変化をキャプチャする。 実験の結果,toffeeはリンク予測タスクに有効な組込みを生成する際に,複数の実世界の時間的ネットワーク上の既存手法よりも優れていることがわかった。

Representation learning on static graph-structured data has shown a significant impact on many real-world applications. However, less attention has been paid to the evolving nature of temporal networks, in which the edges are often changing over time. The embeddings of such temporal networks should encode both graph-structured information and the temporally evolving pattern. Existing approaches in learning temporally evolving network representations fail to capture the temporal interdependence. In this paper, we propose Toffee, a novel approach for temporal network representation learning based on tensor decomposition. Our method exploits the tensor-tensor product operator to encode the cross-time information, so that the periodic changes in the evolving networks can be captured. Experimental results demonstrate that Toffee outperforms existing methods on multiple real-world temporal networks in generating effective embeddings for the link prediction tasks.
翻訳日:2021-08-24 15:37:32 公開日:2021-08-22
# 実, 合成, 拡張火力試験によるrc柱の耐火性およびスポーリング予測のための説明可能な機械学習

Explainable Machine Learning using Real, Synthetic and Augmented Fire Tests to Predict Fire Resistance and Spalling of RC Columns ( http://arxiv.org/abs/2108.09862v1 )

ライセンス: Link先を確認
M.Z. Naser, V.K. Kodur(参考訳) 本稿では, 鉄筋コンクリート(rc)柱の耐火性および耐火性評価のための系統的機械学習(ml)手法の開発について述べる。 開発されたアプローチは、3つの新しいMLアルゴリズム、すなわちランダム・フォレスト(RF)、極端な勾配向上木(ExGBT)、ディープラーニング(DL)のアンサンブルから構成される。 これらのアルゴリズムは、幾何特性と材料特性の広範囲な収集、および494以上の観測結果からなる総合的な火災試験データベースを解析することにより、正常および高強度RC柱の火災性能を調べるための負荷条件を考慮に入れた。 開発されたアンサンブルは、定量的な洞察をML予測に提示することも可能で、"ブラックボックス"MLの概念から脱却し、透明で説明可能なMLへの確かなステップを確立することができる。 最も重要なことは、この研究が利用可能な火災試験の不足に対処し、実物、合成、拡張された火災試験の観測を活用できる新しい技術を提案することである。 開発されたMLアンサンブルは、標準および設計の火災露光と、1、2、3、4面の火災露光のために校正され、検証されている。 完全にデプロイされた場合、開発されたアンサンブルは60秒未満で5,000以上のrc柱を解析できるため、研究者や実践者にとって魅力的なソリューションとなる。 提案手法は, 他の構造部材の耐火性評価やスポーリング, 各種の火災シナリオおよび載荷条件下での簡易な拡張も可能であり, この研究領域の近代化と実践の道筋をたどることができる。

This paper presents the development of systematic machine learning (ML) approach to enable explainable and rapid assessment of fire resistance and fire-induced spalling of reinforced concrete (RC) columns. The developed approach comprises of an ensemble of three novel ML algorithms namely; random forest (RF), extreme gradient boosted trees (ExGBT), and deep learning (DL). These algorithms are trained to account for a wide collection of geometric characteristics and material properties, as well as loading conditions to examine fire performance of normal and high strength RC columns by analyzing a comprehensive database of fire tests comprising of over 494 observations. The developed ensemble is also capable of presenting quantifiable insights to ML predictions; thus, breaking free from the notion of 'blackbox' ML and establishing a solid step towards transparent and explainable ML. Most importantly, this work tackles the scarcity of available fire tests by proposing new techniques to leverage the use of real, synthetic and augmented fire test observations. The developed ML ensemble has been calibrated and validated for standard and design fire exposures and for one, two, three and four-sided fire exposures thus; covering a wide range of practical scenarios present during fire incidents. When fully deployed, the developed ensemble can analyze over 5,000 RC columns in under 60 seconds thus, providing an attractive solution for researchers and practitioners. The presented approach can also be easily extended for evaluating fire resistance and spalling of other structural members and under varying fire scenarios and loading conditions and hence paves the way to modernize the state of this research area and practice.
翻訳日:2021-08-24 15:37:20 公開日:2021-08-22
# Apache Submarine - シンプルな統合機械学習プラットフォーム

Apache Submarine: A Unified Machine Learning Platform Made Simple ( http://arxiv.org/abs/2108.09615v1 )

ライセンス: Link先を確認
Kai-Hsun Chen, Huan-Ping Su, Wei-Chiu Chuang, Hung-Chang Hsiao, Wangda Tan, Zhankun Tang, Xun Liu, Yanbo Liang, Wen-Chih Lo, Wanqiang Ji, Byron Hsu, Keqiu Hu, HuiYang Jian, Quan Zhou, Chien-Min Wang(参考訳) 機械学習がより広く適用されているため、インフラストラクチャ管理者と、専門家データサイエンティストや市民データサイエンティストを含むユーザの両方が生産性を向上させるために、マシンラーニングプラットフォームを用意する必要がある。 しかし、既存の機械学習プラットフォームは、接着剤コード、再現性、ポータビリティといった"Machine Learning Tech debts"に対処できない。 さらに、既存のプラットフォームは専門家データサイエンティストのみを考慮に入れており、インフラストラクチャ管理者や市民データサイエンティストには非ユーザフレンドリーである。 課題に対処するために、統合機械学習プラットフォームであるSubmarineを提案する。

As machine learning is applied more widely, it is necessary to have a machine learning platform for both infrastructure administrators and users including expert data scientists and citizen data scientists to improve their productivity. However, existing machine learning platforms are ill-equipped to address the "Machine Learning tech debts" such as glue code, reproducibility, and portability. Furthermore, existing platforms only take expert data scientists into consideration, and thus they are inflexible for infrastructure administrators and non-user-friendly for citizen data scientists. We propose Submarine, a unified machine learning platform, to address the challenges.
翻訳日:2021-08-24 15:34:37 公開日:2021-08-22
# 符号付き二部グラフニューラルネットワーク

Signed Bipartite Graph Neural Networks ( http://arxiv.org/abs/2108.09638v1 )

ライセンス: Link先を確認
Junjie Huang, Huawei Shen, Qi Cao, Shuchang Tao, Xueqi Cheng(参考訳) 署名されたネットワークは、ポジティブリンクとネガティブリンクの両方を持つようなソーシャルネットワークである。 このようなネットワーク(例えばバランス理論)をモデル化するために多くの理論とアルゴリズムが開発されている。 しかし、以前の研究は主にノードが同じタイプを持つ一箇所の署名ネットワークに焦点を当てていた。 符号付き二部ネットワークは、2つの異なるノードセットと2つのノードセット間の符号付きリンクを含む古典的な符号付きネットワークとは異なる。 署名された二部ネットワークは、ビジネス、政治、学術など多くの分野で一般的に見られるが、あまり研究されていない。 本稿では,まず,同一ノードの集合の符号付き関係を定義し,符号付き2部ネットワークの解析のための新しい視点を提供する。 次に、複数の実世界のデータセットの2つの視点からバランス理論の包括的分析を行う。 具体的には, ピアレビューデータセットにおいて, 符号付きバイパートイトネットワークにおける平衡同型比は, 分配相後に増加することがわかった。 これら2つの観点から,符号付き二部グラフニューラルネットワーク(SBGNN)を提案し,符号付き二部グラフネットワークのノード埋め込みを学習する。 SBGNNは、ほとんどのGNNのメッセージパッシング方式に従っているが、新しいメッセージ関数、集約関数、署名された二部ネットワークのための更新関数を設計する。 署名されたネットワークの機械学習タスクであるLink Sign Predictionタスクにおいて,実世界の4つのデータセットに対するモデルの有効性を検証する。 実験の結果,sbgnnモデルは,機能ベース手法やネットワーク組込み手法など,強力なベースライン手法と比較して著しく改善した。

Signed networks are such social networks having both positive and negative links. A lot of theories and algorithms have been developed to model such networks (e.g., balance theory). However, previous work mainly focuses on the unipartite signed networks where the nodes have the same type. Signed bipartite networks are different from classical signed networks, which contain two different node sets and signed links between two node sets. Signed bipartite networks can be commonly found in many fields including business, politics, and academics, but have been less studied. In this work, we firstly define the signed relationship of the same set of nodes and provide a new perspective for analyzing signed bipartite networks. Then we do some comprehensive analysis of balance theory from two perspectives on several real-world datasets. Specifically, in the peer review dataset, we find that the ratio of balanced isomorphism in signed bipartite networks increased after rebuttal phases. Guided by these two perspectives, we propose a novel Signed Bipartite Graph Neural Networks (SBGNNs) to learn node embeddings for signed bipartite networks. SBGNNs follow most GNNs message-passing scheme, but we design new message functions, aggregation functions, and update functions for signed bipartite networks. We validate the effectiveness of our model on four real-world datasets on Link Sign Prediction task, which is the main machine learning task for signed networks. Experimental results show that our SBGNN model achieves significant improvement compared with strong baseline methods, including feature-based methods and network embedding methods.
翻訳日:2021-08-24 15:34:25 公開日:2021-08-22
# DenseTNT:Dense Goal Setからのエンドツーエンドの軌道予測

DenseTNT: End-to-end Trajectory Prediction from Dense Goal Sets ( http://arxiv.org/abs/2108.09640v1 )

ライセンス: Link先を確認
Junru Gu, Chen Sun, Hang Zhao(参考訳) 人間の行動の確率性のため、道路エージェントの将来の軌道を予測することは自動運転にとって困難である。 近年,ゴールベース多軌道予測手法が有効であることが証明され,まずオーバーサンプリングされたゴール候補を採点し,最終セットを選択する。 しかし、これらの手法は通常、スパース事前定義されたアンカーとヒューリスティックな目標選択アルゴリズムに基づく目標予測を伴う。 本研究では,高密度な目標候補から直接トラジェクトリを出力する,アンカーフリーかつエンドツーエンドのトラジェクトリ予測モデルDenseTNTを提案する。 さらに,最終的なオンラインモデルにマルチフュージョン擬似ラベルを提供するために,オフライン最適化に基づく手法を導入する。 実験によれば、dungentntはargoverse motion forecasting benchmarkで1位、waymo open dataset motion prediction challenge 2021で1位という最先端のパフォーマンスを達成している。

Due to the stochasticity of human behaviors, predicting the future trajectories of road agents is challenging for autonomous driving. Recently, goal-based multi-trajectory prediction methods are proved to be effective, where they first score over-sampled goal candidates and then select a final set from them. However, these methods usually involve goal predictions based on sparse pre-defined anchors and heuristic goal selection algorithms. In this work, we propose an anchor-free and end-to-end trajectory prediction model, named DenseTNT, that directly outputs a set of trajectories from dense goal candidates. In addition, we introduce an offline optimization-based technique to provide multi-future pseudo-labels for our final online model. Experiments show that DenseTNT achieves state-of-the-art performance, ranking 1st on the Argoverse motion forecasting benchmark and being the 1st place winner of the 2021 Waymo Open Dataset Motion Prediction Challenge.
翻訳日:2021-08-24 15:31:57 公開日:2021-08-22
# 長手X線を用いたCOVID-19の深部生存解析

Deep survival analysis with longitudinal X-rays for COVID-19 ( http://arxiv.org/abs/2108.09641v1 )

ライセンス: Link先を確認
Michelle Shu, Richard Strong Bowen, Charles Herrmann, Gengmo Qi, Michele Santacatterina, Ramin Zabih(参考訳) 経時的分析はICUベッドなどの臨床資源を割り当てるための重要な統計ツールである。 しかし、coxモデルのような古典的な技法は、その高次元のために直接イメージを取り込むことができない。 本稿では,複数の時間依存イメージング研究と非画像データを時系列解析に自然に組み込むディープラーニング手法を提案する。 本手法は1,894人の臨床データに基づいてベンチマークを行い,画像のシーケンスが予測を大幅に改善することを示す。 例えば、古典的な時間-イベント法では、病院の入院率を予測するのに約30-40%の一致誤差を生じるが、我々の誤差は画像無しで25%、複数のx線を含む20%である。 アブレーション研究によれば、我々のモデルはスキャナーアーティファクトのようなスプリアスな特徴を学習していない。 私たちの焦点と評価はcovid-19にフォーカスしていますが、私たちの開発手法は広く適用できます。

Time-to-event analysis is an important statistical tool for allocating clinical resources such as ICU beds. However, classical techniques like the Cox model cannot directly incorporate images due to their high dimensionality. We propose a deep learning approach that naturally incorporates multiple, time-dependent imaging studies as well as non-imaging data into time-to-event analysis. Our techniques are benchmarked on a clinical dataset of 1,894 COVID-19 patients, and show that image sequences significantly improve predictions. For example, classical time-to-event methods produce a concordance error of around 30-40% for predicting hospital admission, while our error is 25% without images and 20% with multiple X-rays included. Ablation studies suggest that our models are not learning spurious features such as scanner artifacts. While our focus and evaluation is on COVID-19, the methods we develop are broadly applicable.
翻訳日:2021-08-24 15:31:42 公開日:2021-08-22
# スマートシティの身体的AI駆動操作:簡潔なレビュー

Embodied AI-Driven Operation of Smart Cities: A Concise Review ( http://arxiv.org/abs/2108.09823v1 )

ライセンス: Link先を確認
Farzan Shenavarmasouleh, Farid Ghareh Mohammadi, M. Hadi Amini, Hamid R. Arabnia(参考訳) スマートシティは、情報通信技術(ICT)で構成されるフレームワークと見なすことができる。 センサーでデータを収集し、クラウド技術を使用してエコシステム内の他の資産と通信する、接続されたデバイスのインテリジェントネットワークは、このフレームワークにおいて重要な役割を果たす。 市民の生活の質を最大化し、資源をより活用し、コストを削減し、持続可能性を改善することが、スマートシティが追求する究極の目標である。 したがって、接続されたデバイスから収集されたデータは、継続的に分析され、市内で提供されているサービスに関するより良い洞察を得ることができます。 ロボットと物理機械はスマートシティの不可分な部分である。 Embodied AIは、これらを深く研究し、現実の環境にどのように適合するかを探求する研究分野である。 静的データセットから学習しようとするインターネットaiとは対照的に、周囲の環境とのインタラクションによる学習に焦点を当てている。 Embodied AIは、コンピュータビジョン(Computer Vision)、トーク(NLP)、ナビゲート(Navigate)、インターアクティベート(Interact)を環境(強化学習(Reinforcement Learning))、推論(Reason)(General Intelligence)と同時に見ることができるエージェントを訓練することを目指している。 自律走行車とパーソナル・コンパニオンは、今ではEmbodied AIの恩恵を受けている。 本稿では,この分野の簡潔な検討を試みる。 私たちは、その定義、その特性、そしてその現在の成果を、異なるアルゴリズム、アプローチ、そしてその様々なコンポーネント(例えば、)で使われているソリューションと共に見ていく。 ビジョン、NLP、RL)。 そして、利用可能なシミュレーターと3D対話可能なデータベースを探索し、この分野の研究を可能とします。 最後に,課題に対処し,今後の研究の可能性を明らかにする。

A smart city can be seen as a framework, comprised of Information and Communication Technologies (ICT). An intelligent network of connected devices that collect data with their sensors and transmit them using cloud technologies in order to communicate with other assets in the ecosystem plays a pivotal role in this framework. Maximizing the quality of life of citizens, making better use of resources, cutting costs, and improving sustainability are the ultimate goals that a smart city is after. Hence, data collected from connected devices will continuously get thoroughly analyzed to gain better insights into the services that are being offered across the city; with this goal in mind that they can be used to make the whole system more efficient. Robots and physical machines are inseparable parts of a smart city. Embodied AI is the field of study that takes a deeper look into these and explores how they can fit into real-world environments. It focuses on learning through interaction with the surrounding environment, as opposed to Internet AI which tries to learn from static datasets. Embodied AI aims to train an agent that can See (Computer Vision), Talk (NLP), Navigate and Interact with its environment (Reinforcement Learning), and Reason (General Intelligence), all at the same time. Autonomous driving cars and personal companions are some of the examples that benefit from Embodied AI nowadays. In this paper, we attempt to do a concise review of this field. We will go through its definitions, its characteristics, and its current achievements along with different algorithms, approaches, and solutions that are being used in different components of it (e.g. Vision, NLP, RL). We will then explore all the available simulators and 3D interactable databases that will make the research in this area feasible. Finally, we will address its challenges and identify its potentials for future research.
翻訳日:2021-08-24 15:28:13 公開日:2021-08-22
# Exam Script 生成のための ExamGAN と Twin-ExamGAN

ExamGAN and Twin-ExamGAN for Exam Script Generation ( http://arxiv.org/abs/2108.09656v1 )

ライセンス: Link先を確認
Zhengyang Wu, Ke Deng, Judy Qiu, Yong Tang(参考訳) 現在、学習管理システム(LMS)は、初等教育から第三級教育の学生管理、文書化、追跡、報告、教育コースの納入、研修プログラム、学習・開発プログラムなど、様々な教育段階において広く利用されている。 効果的な学習成果評価に向けて,試験台本生成問題が多く注目され,近年研究されている。 しかし、この分野の研究はまだ初期段階にある。 様々な面から、生成した試験用スクリプトの品質をさらに改善する機会がある。 特に2つの重要な問題は、既存のソリューションによって無視されている。 第一に、コースが与えられた場合、クラス(または異なるクラス)における学生スコアの望ましい分布をもたらす試験スクリプトをどうやって生成するかは、まだ不明である。 第二に、実際に頻繁に遭遇するが、評価において同等の高品質な試験スクリプトをどうやって生成するか(すなわち、学生のスコアはどちらかを採って比較する)は今のところ不明である。 このギャップを埋めるために,ExamGAN (Exam Script Generative Adversarial Network) を提案し,その後,ExamGAN を T-ExamGAN (Twin-ExamGAN) に拡張し,高品質なテストスクリプトを生成する。 3つのベンチマークデータセットに関する広範な実験に基づいて、提案手法が最先端に対する様々な面で優れていることを検証した。 さらに本研究は,実教育シナリオにおける提案手法の有効性を実証する事例である。

Nowadays, the learning management system (LMS) has been widely used in different educational stages from primary to tertiary education for student administration, documentation, tracking, reporting, and delivery of educational courses, training programs, or learning and development programs. Towards effective learning outcome assessment, the exam script generation problem has attracted many attentions and been investigated recently. But the research in this field is still in its early stage. There are opportunities to further improve the quality of generated exam scripts in various aspects. In particular, two essential issues have been ignored largely by existing solutions. First, given a course, it is unknown yet how to generate an exam script which can result in a desirable distribution of student scores in a class (or across different classes). Second, while it is frequently encountered in practice, it is unknown so far how to generate a pair of high quality exam scripts which are equivalent in assessment (i.e., the student scores are comparable by taking either of them) but have significantly different sets of questions. To fill the gap, this paper proposes ExamGAN (Exam Script Generative Adversarial Network) to generate high quality exam scripts, and then extends ExamGAN to T-ExamGAN (Twin-ExamGAN) to generate a pair of high quality exam scripts. Based on extensive experiments on three benchmark datasets, it has verified the superiority of proposed solutions in various aspects against the state-of-the-art. Moreover, we have conducted a case study which demonstrated the effectiveness of proposed solution in a real teaching scenario.
翻訳日:2021-08-24 15:26:30 公開日:2021-08-22
# FRUGAL:ソフトウェア分析のためのSSLのアンロック

FRUGAL: Unlocking SSL for Software Analytics ( http://arxiv.org/abs/2108.09847v1 )

ライセンス: Link先を確認
Huy Tu and Tim Menzies(参考訳) 標準ソフトウェア分析は、しばしば許容可能なパフォーマンスでモデルを割り当てるために、ラベルで大量のデータを取得することを伴う。 しかし、以前の作業では、このような要件は高価であり、数千のコミットをラベル付けるのに数週間かかり、新しい研究問題やドメインを横断するときに常に利用できるとは限らない。 教師なし学習は、欠陥予測において広範に研究されているデータの中で隠れたパターンを学習するための有望な方向である。 それにもかかわらず、教師なし学習はそれ自体では効果がなく、他の領域(例えば静的解析や問題クローズタイム)では探索されていない。 この文学的ギャップと技術的な限界に動機づけられたfrugalは、洗練された(ディープラーナーなど)や高価な(100%手動ラベル付きデータなど)メソッドを必要としない単純な最適化スキーム上に構築された、チューニングされた半教師付きメソッドである。 FRUGALは、教師なし学習者の構成を(単純なグリッドサーチによって)最適化し、予測前のデータの2.5%しかラベル付けしない設計決定を検証します。 この論文の実験で示されているように、FRUGALは最先端の静的コード警告認識器とイシュークローズドタイム予測器より優れており、ラベル付けのコストは40(100%から2.5%)削減されている。 したがって、FRUGALは、特に先行作業の検証や新しい問題の研究において、データラベリングに多大な労力を費やすことができると断言する。 この研究に基づいて, 複雑で高価な手法の支持者は, より単純で安価な代替案に対して, 常にその手法をベースラインとすべきである。 例えば、FRUGALのような半教師付き学習者は、最先端のソフトウェア分析のベースラインとして機能することができる。

Standard software analytics often involves having a large amount of data with labels in order to commission models with acceptable performance. However, prior work has shown that such requirements can be expensive, taking several weeks to label thousands of commits, and not always available when traversing new research problems and domains. Unsupervised Learning is a promising direction to learn hidden patterns within unlabelled data, which has only been extensively studied in defect prediction. Nevertheless, unsupervised learning can be ineffective by itself and has not been explored in other domains (e.g., static analysis and issue close time). Motivated by this literature gap and technical limitations, we present FRUGAL, a tuned semi-supervised method that builds on a simple optimization scheme that does not require sophisticated (e.g., deep learners) and expensive (e.g., 100% manually labelled data) methods. FRUGAL optimizes the unsupervised learner's configurations (via a simple grid search) while validating our design decision of labelling just 2.5% of the data before prediction. As shown by the experiments of this paper FRUGAL outperforms the state-of-the-art adoptable static code warning recognizer and issue closed time predictor, while reducing the cost of labelling by a factor of 40 (from 100% to 2.5%). Hence we assert that FRUGAL can save considerable effort in data labelling especially in validating prior work or researching new problems. Based on this work, we suggest that proponents of complex and expensive methods should always baseline such methods against simpler and cheaper alternatives. For instance, a semi-supervised learner like FRUGAL can serve as a baseline to the state-of-the-art software analytics.
翻訳日:2021-08-24 15:26:04 公開日:2021-08-22
# 回折表面を用いた任意線形変換のオールオプティカル合成

All-Optical Synthesis of an Arbitrary Linear Transformation Using Diffractive Surfaces ( http://arxiv.org/abs/2108.09833v1 )

ライセンス: Link先を確認
Onur Kulce, Deniz Mengu, Yair Rivenson, Aydogan Ozcan(参考訳) 入力(N_i)と出力(N_o)の間の任意の複素値線形変換を全光学的に行うための回折曲面の設計を報告する。 まず, 単一回折面を考え, 行列擬逆法を用いて回折特徴量/ニューロンの複素値伝達係数を判定し, 所望/目標線形変換を行う。 このデータフリー設計手法に加えて,対象変換に対応する入出力フィールドの例を用いて,回折表面の伝達係数を最適化する深層学習に基づく設計手法も検討する。 我々は、データフリーな設計とデータ駆動(深層学習に基づく)の回折設計を用いて達成された全光学変換誤差と回折効率を比較し、(i)ユニタリ、非ユニタリ、非可逆変換、(ii)2次元離散フーリエ変換、(iii)任意の2次元置換演算、および(iv)ハイパスフィルタコヒーレントイメージングを含む任意の複素数値変換を行った。 解析の結果、空間工学的特徴/ニューロンの総数(N)がN_i x N_o以上であれば、どちらの設計手法も目標変換の完全な光学的実装に成功し、無視可能な誤差を達成できることがわかった。 しかし,n<n_i x n_oでは,データフリー設計に比べ,n<n_i x n_oの回折効率が大幅に向上し,全光変換精度が向上した。 これらの結論は一般に、空間工学的な回折曲面を用いる様々な光学プロセッサに適用できる。

We report the design of diffractive surfaces to all-optically perform arbitrary complex-valued linear transformations between an input (N_i) and output (N_o), where N_i and N_o represent the number of pixels at the input and output fields-of-view (FOVs), respectively. First, we consider a single diffractive surface and use a matrix pseudoinverse-based method to determine the complex-valued transmission coefficients of the diffractive features/neurons to all-optically perform a desired/target linear transformation. In addition to this data-free design approach, we also consider a deep learning-based design method to optimize the transmission coefficients of diffractive surfaces by using examples of input/output fields corresponding to the target transformation. We compared the all-optical transformation errors and diffraction efficiencies achieved using data-free designs as well as data-driven (deep learning-based) diffractive designs to all-optically perform (i) arbitrarily-chosen complex-valued transformations including unitary, nonunitary and noninvertible transforms, (ii) 2D discrete Fourier transformation, (iii) arbitrary 2D permutation operations, and (iv) high-pass filtered coherent imaging. Our analyses reveal that if the total number (N) of spatially-engineered diffractive features/neurons is N_i x N_o or larger, both design methods succeed in all-optical implementation of the target transformation, achieving negligible error. However, compared to data-free designs, deep learning-based diffractive designs are found to achieve significantly larger diffraction efficiencies for a given N and their all-optical transformations are more accurate for N < N_i x N_o. These conclusions are generally applicable to various optical processors that employ spatially-engineered diffractive surfaces.
翻訳日:2021-08-24 15:22:34 公開日:2021-08-22
# グラフ畳み込み深層学習による最適化分子構成の同定

Graph-Convolutional Deep Learning to Identify Optimized Molecular Configurations ( http://arxiv.org/abs/2108.09637v1 )

ライセンス: Link先を確認
Eshan Joshi, Samuel Somuyiwa, and Hossein Z. Jooya(参考訳) 従来の計算手法を用いて分子最適化問題に取り組むことは、最適化された構成の決定がNPハード問題であることが知られているため困難である。 近年,分子最適化タスクのベンチマークに異なるディープラーニング技術を適用することへの関心が高まっている。 本研究では,qm7-xデータセットで提供される平衡および非平衡配置を用いて分子構造を分類するグラフ畳み込み法を実装した。 原子間力はグラフ頂点に符号化され、最適化された構造における原子全体の力の大きさの実質的な抑制がグラフ分類タスクで学習される。 2つの異なるグラフプーリング層を用いて結果を示し,それぞれの性能を比較する。

Tackling molecular optimization problems using conventional computational methods is challenging, because the determination of the optimized configuration is known to be an NP-hard problem. Recently, there has been increasing interest in applying different deep-learning techniques to benchmark molecular optimization tasks. In this work, we implement a graph-convolutional method to classify molecular structures using the equilibrium and non-equilibrium configurations provided in the QM7-X data set. Atomic forces are encoded in graph vertices and the substantial suppression in the total force magnitude on the atoms in the optimized structure is learned for the graph classification task. We demonstrate the results using two different graph pooling layers and compare their respective performances.
翻訳日:2021-08-24 15:19:55 公開日:2021-08-22
# (参考訳) QUEACO:クエリ属性値抽出のための弱ラベル行動データからの宝物検索 [全文訳有]

QUEACO: Borrowing Treasures from Weakly-labeled Behavior Data for Query Attribute Value Extraction ( http://arxiv.org/abs/2108.08468v2 )

ライセンス: CC0 1.0
Danqing Zhang, Zheng Li, Tianyu Cao, Chen Luo, Tony Wu, Hanqing Lu, Yiwei Song, Bing Yin, Tuo Zhao, Qiang Yang(参考訳) ユーザクエリから名前付きエンティティを多種多様な表面的属性値として識別し,その後公式な標準形式に変換するクエリ属性値抽出の問題について検討する。 このような問題は、 {name entity recognition (NER) と {attribute value normalization (AVN) の2つのフェーズから構成される。 しかし、既存の研究はNERフェーズのみに焦点を当て、同様に重要なAVNを無視している。 そこで本稿では,このギャップを埋めるため,eコマース検索におけるクエリ属性値の統一抽出システムqueacoを提案する。 さらに,大規模弱ラベル動作データを活用することで,監視コストを低減し,抽出性能をさらに向上させる。 具体的には、NERフェーズにおいて、QUEACOは、強力なラベル付きデータに基づいてトレーニングされた教師ネットワークが擬似ラベルを生成し、学生ネットワークを訓練するための弱いラベル付きデータを洗練する新しい教師学生ネットワークを採用する。 一方、教師ネットワークは、強ラベルデータに対する生徒の演奏のフィードバックにより動的に適応でき、弱ラベルからノイズの多い監督を最大限に無視することができる。 avnフェーズでは、弱いラベルのクエリから属性への振舞いデータを利用して、クエリから表層フォーム属性値を製品から正準形式に正規化する。 実世界の大規模eコマースデータセットに関する広範な実験は、queacoの有効性を示している。

We study the problem of query attribute value extraction, which aims to identify named entities from user queries as diverse surface form attribute values and afterward transform them into formally canonical forms. Such a problem consists of two phases: {named entity recognition (NER)} and {attribute value normalization (AVN)}. However, existing works only focus on the NER phase but neglect equally important AVN. To bridge this gap, this paper proposes a unified query attribute value extraction system in e-commerce search named QUEACO, which involves both two phases. Moreover, by leveraging large-scale weakly-labeled behavior data, we further improve the extraction performance with less supervision cost. Specifically, for the NER phase, QUEACO adopts a novel teacher-student network, where a teacher network that is trained on the strongly-labeled data generates pseudo-labels to refine the weakly-labeled data for training a student network. Meanwhile, the teacher network can be dynamically adapted by the feedback of the student's performance on strongly-labeled data to maximally denoise the noisy supervisions from the weak labels. For the AVN phase, we also leverage the weakly-labeled query-to-attribute behavior data to normalize surface form attribute values from queries into canonical forms from products. Extensive experiments on a real-world large-scale E-commerce dataset demonstrate the effectiveness of QUEACO.
翻訳日:2021-08-24 12:52:15 公開日:2021-08-22
# (参考訳) フィードフォワードニューラルネットワークを用いた決定式フリーフェルミオン波動関数 [全文訳有]

Determinant-free fermionic wave function using feed-forward neural networks ( http://arxiv.org/abs/2108.08631v2 )

ライセンス: CC BY 4.0
Koji Inui, Yasuyuki Kato and Yukitoshi Motome(参考訳) フィードフォワードニューラルネットワークを用いて多体フェルミオン系の基底状態を求めるための一般的な枠組みを提案する。 フェルミオンの反可換関係は、通常、slater determinant(またはpfaffian)によって変分波動関数に実装される。 このボトルネックを回避し、実空間における粒子交換に伴う符号変化を明示的に計算し、全連結ニューラルネットワークを用いて波動関数の残りの部分の最適化を行う。 これにより計算コストは$O(N^2)$以下になる。 エネルギーの「ばらつき」をエネルギー自体と同時に最適化することにより近似の精度を向上させることができることを示す。 また,モンテカルロサンプリングにおける重み付け手法が計算を安定化できることがわかった。 これらの改良は変分モンテカルロ法に基づく他のアプローチにも適用できる。 さらに,システムの対称性,代表状態,一般化したGitzwiller-Jastrow因子を実装した追加ニューラルネットワークを用いることで,精度をさらに向上できることを示す。 本手法を2次元ハバードモデルに適用し,その効率性を示す。

We propose a general framework for finding the ground state of many-body fermionic systems by using feed-forward neural networks. The anticommutation relation for fermions is usually implemented to a variational wave function by the Slater determinant (or Pfaffian), which is a computational bottleneck because of the numerical cost of $O(N^3)$ for $N$ particles. We bypass this bottleneck by explicitly calculating the sign changes associated with particle exchanges in real space and using fully connected neural networks for optimizing the rest parts of the wave function. This reduces the computational cost to $O(N^2)$ or less. We show that the accuracy of the approximation can be improved by optimizing the "variance" of the energy simultaneously with the energy itself. We also find that a reweighting method in Monte Carlo sampling can stabilize the calculation. These improvements can be applied to other approaches based on variational Monte Carlo methods. Moreover, we show that the accuracy can be further improved by using the symmetry of the system, the representative states, and an additional neural network implementing a generalized Gutzwiller-Jastrow factor. We demonstrate the efficiency of the method by applying it to a two-dimensional Hubbard model.
翻訳日:2021-08-24 12:11:42 公開日:2021-08-22