このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210926となっている論文です。

PDF登録状況(公開日: 20210926)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) なぜクリックするのか:ビジュアルインプレッションを意識したニュースレコメンデーション [全文訳有]

Why Do We Click: Visual Impression-aware News Recommendation ( http://arxiv.org/abs/2109.12651v1 )

ライセンス: CC BY 4.0
Jiahao Xun, Shengyu Zhang, Zhou Zhao, Jieming Zhu, Qi Zhang, Jingjie Li, Xiuqiang He, Xiaofei He, Tat-Seng Chua, Fei Wu(参考訳) 情報過負荷のため、ニュースレコメンデーション研究シナリオへの関心は高まっている。 ユーザの関心を正確に捉えるために,既存の作品で広く使われているニュースタイトルに加えて,ニュースレコメンデーションのために,マルチモーダルな特徴をモデル化することを提案する。 さらに、既存の研究は、マルチモーダルモデリングモジュールを設計する際のクリック決定プロセスにはほとんど注意を払わない。 本研究は,ニュース閲覧時の視覚印象に基づいて,ユーザがクリック決定を行うという事実に着想を得て,ニュースレコメンデーションのためのビジュアル・セマンティック・モデリングによる視覚印象情報のキャプチャを提案する。 具体的には,ニュースタイトルの意味的意味を理解する際に,印象の分解された詳細に同時に対応できるように,局所印象モデリングモジュールを考案する。 さらに,世界的視点から印象を検査し,印象の異なる分野の配置や異なる単語の空間的位置などの構造情報を多様性のモデル化に取り入れる。 ビジュアルインプレッションを意識したニュースレコメンデーションの研究に対応するために,スナップショットインプレッション画像を追加してテキスト優位のニュースレコメンデーションデータセットマインドを拡張し,研究分野を養うために公開する。 現状のニュースレコメンデータとの比較と詳細な分析により,提案手法の有効性と,コンテンツベースレコメンデータの視覚印象をモデル化する有望な能力を実証した。

There is a soaring interest in the news recommendation research scenario due to the information overload. To accurately capture users' interests, we propose to model multi-modal features, in addition to the news titles that are widely used in existing works, for news recommendation. Besides, existing research pays little attention to the click decision-making process in designing multi-modal modeling modules. In this work, inspired by the fact that users make their click decisions mostly based on the visual impression they perceive when browsing news, we propose to capture such visual impression information with visual-semantic modeling for news recommendation. Specifically, we devise the local impression modeling module to simultaneously attend to decomposed details in the impression when understanding the semantic meaning of news title, which could explicitly get close to the process of users reading news. In addition, we inspect the impression from a global view and take structural information, such as the arrangement of different fields and spatial position of different words on the impression, into the modeling of multiple modalities. To accommodate the research of visual impression-aware news recommendation, we extend the text-dominated news recommendation dataset MIND by adding snapshot impression images and will release it to nourish the research field. Extensive comparisons with the state-of-the-art news recommenders along with the in-depth analyses demonstrate the effectiveness of the proposed method and the promising capability of modeling visual impressions for the content-based recommenders.
翻訳日:2021-10-03 08:48:55 公開日:2021-09-26
# 条件付きランダム場を用いたブルガリア人の特徴リッチ識別

Feature-Rich Named Entity Recognition for Bulgarian Using Conditional Random Fields ( http://arxiv.org/abs/2109.15121v1 )

ライセンス: Link先を確認
Georgi Georgiev, Preslav Nakov, Kuzman Ganchev, Petya Osenova, Kiril Ivanov Simov(参考訳) 本論文はブルガリア語ニューステキストにおける名前付きエンティティ(人、組織、場所、雑種)の自動認識と分類に対する特徴豊富なアプローチを提案する。 言語固有の語彙情報、構文情報、形態情報と、他の言語でよく使われている特徴を組み合わせる。 特に,BulTreeBankのリッチなタグセットアノテーション(680のモルフォ・シンタクティックタグ)を用いて,タスク固有のタグセット(ローカルおよび非ローカル)を導出する。 さらに、ドメイン固有のガゼッタとラベルなしのデータを追加し、F1=89.4%を達成しました。

The paper presents a feature-rich approach to the automatic recognition and categorization of named entities (persons, organizations, locations, and miscellaneous) in news text for Bulgarian. We combine well-established features used for other languages with language-specific lexical, syntactic and morphological information. In particular, we make use of the rich tagset annotation of the BulTreeBank (680 morpho-syntactic tags), from which we derive suitable task-specific tagsets (local and nonlocal). We further add domain-specific gazetteers and additional unlabeled data, achieving F1=89.4%, which is comparable to the state-of-the-art results for English.
翻訳日:2021-10-01 15:10:30 公開日:2021-09-26
# SemEval-2016 Task 3: コミュニティ質問応答のための機能豊富なシステムの構築

SUper Team at SemEval-2016 Task 3: Building a feature-rich system for community question answering ( http://arxiv.org/abs/2109.15120v1 )

ライセンス: Link先を確認
Tsvetomila Mihaylova, Pepa Gencheva, Martin Boyanov, Ivana Yovcheva, Todor Mihaylov, Momchil Hardalov, Yasen Kiprov, Daniel Balchev, Ivan Koychev, Preslav Nakov, Ivelina Nikolova, Galia Angelova(参考訳) 本稿では,SemEval-2016 Task 3 に参加するためのコミュニティ質問回答システムについて紹介する。 サブタスクC, およびサブタスクA, Bにおいて, セマンティック, 語彙, メタデータ, ユーザ関連といった多種多様な機能の組み合わせにより, 最高の結果を得た。 最も重要なグループは、質問のメタデータであり、コメントのために、QatarLivingデータに基づいて訓練されたセマンティックベクターとサブタスクAとCのコメントの類似性、およびSubtask Bのオリジナルと関連する質問の類似性が判明した。

We present the system we built for participating in SemEval-2016 Task 3 on Community Question Answering. We achieved the best results on subtask C, and strong results on subtasks A and B, by combining a rich set of various types of features: semantic, lexical, metadata, and user-related. The most important group turned out to be the metadata for the question and for the comment, semantic vectors trained on QatarLiving data and similarities between the question and the comment for subtasks A and C, and between the original and the related question for Subtask B.
翻訳日:2021-10-01 15:08:38 公開日:2021-09-26
# 深部グラフマッチングを用いた文書からのワンショットキー情報抽出

One-shot Key Information Extraction from Document with Deep Partial Graph Matching ( http://arxiv.org/abs/2109.13967v1 )

ライセンス: Link先を確認
Minghong Yao, Zhiguang Liu, Liangwei Wang, Houqiang Li, Liansheng Zhuang(参考訳) ドキュメントからキー情報抽出(kie)を自動化することで、迅速なインデクシングやアーカイブといった多くの産業シナリオにおいて、効率、生産性、セキュリティが向上する。 KIEタスクのための既存の教師付き学習方法の多くは、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。 しかし、大規模なデータセットの収集とラベリングは時間がかかり、多くのクラウドプラットフォームにとってユーザフレンドリーな要件ではない。 これらの課題を克服するため,我々は,部分グラフマッチングを用いたワンショットkieのエンド・ツー・エンド学習ネットワークを提案する。 類似性の学習と解法を別々に最適化する従来の手法とは対照的に,本手法では2つのプロセスをエンドツーエンドフレームワークで学習することができる。 既存のワンショットKIE手法は、図1に示すように、プリンタが求める位置を超えたテキストを扱うのに苦労するテンプレートまたは単純な注意に基づく学習手法である。 この問題を解決するために,テキストがドリフトしてもグローバルに最適化された解が見つかるように,一対一の制約を加える。 さらに,空間表現,テクスト表現,アスペクト表現の特徴を融合することにより,性能を向上させるマルチモーダルコンテキストアンサンブルブロックを設計する。 我々は,KIEの研究を促進するために,DKIEと命名されたワンショット文書KIEデータセットを多種多様な画像で収集・注釈した。 DKIEデータセットは、携帯電話が自然の場面で撮影した2.5Kのドキュメントイメージで構成されており、これまでで最大のワンショットKIEデータセットである。 DKIE実験の結果,近年のワンショット・教師あり学習手法と比較して最先端の学習性能が得られた。 データセットと提案されたワンショットKIEモデルがリリースされる

Automating the Key Information Extraction (KIE) from documents improves efficiency, productivity, and security in many industrial scenarios such as rapid indexing and archiving. Many existing supervised learning methods for the KIE task need to feed a large number of labeled samples and learn separate models for different types of documents. However, collecting and labeling a large dataset is time-consuming and is not a user-friendly requirement for many cloud platforms. To overcome these challenges, we propose a deep end-to-end trainable network for one-shot KIE using partial graph matching. Contrary to previous methods that the learning of similarity and solving are optimized separately, our method enables the learning of the two processes in an end-to-end framework. Existing one-shot KIE methods are either template or simple attention-based learning approach that struggle to handle texts that are shifted beyond their desired positions caused by printers, as illustrated in Fig.1. To solve this problem, we add one-to-(at most)-one constraint such that we will find the globally optimized solution even if some texts are drifted. Further, we design a multimodal context ensemble block to boost the performance through fusing features of spatial, textual, and aspect representations. To promote research of KIE, we collected and annotated a one-shot document KIE dataset named DKIE with diverse types of images. The DKIE dataset consists of 2.5K document images captured by mobile phones in natural scenes, and it is the largest available one-shot KIE dataset up to now. The results of experiments on DKIE show that our method achieved state-of-the-art performance compared with recent one-shot and supervised learning approaches. The dataset and proposed one-shot KIE model will be released soo
翻訳日:2021-09-30 14:52:35 公開日:2021-09-26
# (参考訳) ViT Cane:視覚障害者のためのビジュアルアシスタント [全文訳有]

ViT Cane: Visual Assistant for the Visually Impaired ( http://arxiv.org/abs/2109.13857v1 )

ライセンス: CC BY 4.0
Bhavesh Kumar(参考訳) 盲目で視覚的な課題は、独立して世界をナビゲートすることで複数の問題に直面します。 これらの課題には、目的地への最短経路を見つけ、距離から障害物を検出することが含まれる。 そこで本研究では,視覚変換器モデルを利用してリアルタイムに障害物を検出するViT Caneを提案する。 システム全体がPi Camera Module v2とRaspberry Pi 4Bと8GB Ramと4つのモーターで構成されています。 4つのモーターを用いた触覚入力に基づいて、障害物検出モデルは未知の地形の視覚的障害を解消し、容易に再現できるように設計されている。 本稿では, 視覚トランスフォーマーモデルの実用性について, 他のcnnモデルと比較して考察する。 厳密なテストを通じて、提案された障害物検出モデルは、cnnのデータセットよりもcoco(common object in context)データセットで高いパフォーマンスを達成している。 本システムの有効性を総合的屋内理解と障害物回避のための総合的フィールドテストにより検証した。

Blind and visually challenged face multiple issues with navigating the world independently. Some of these challenges include finding the shortest path to a destination and detecting obstacles from a distance. To tackle this issue, this paper proposes ViT Cane, which leverages a vision transformer model in order to detect obstacles in real-time. Our entire system consists of a Pi Camera Module v2, Raspberry Pi 4B with 8GB Ram and 4 motors. Based on tactile input using the 4 motors, the obstacle detection model is highly efficient in helping visually impaired navigate unknown terrain and is designed to be easily reproduced. The paper discusses the utility of a Visual Transformer model in comparison to other CNN based models for this specific application. Through rigorous testing, the proposed obstacle detection model has achieved higher performance on the Common Object in Context (COCO) data set than its CNN counterpart. Comprehensive field tests were conducted to verify the effectiveness of our system for holistic indoor understanding and obstacle avoidance.
翻訳日:2021-09-30 07:04:59 公開日:2021-09-26
# (参考訳) 自己教師付き単眼深度推定の潜在能力の抽出 [全文訳有]

Excavating the Potential Capacity of Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2109.12484v1 )

ライセンス: CC BY 4.0
Rui Peng, Ronggang Wang, Yawen Lai, Luyang Tang, Yangang Cai(参考訳) 自己監督的手法は、大きなポテンシャルと低いアノテーションコストのため、単眼深度推定においてますます重要な役割を果たす。 教師付きメソッドとのギャップを埋めるために、最近の研究はセマンティックセグメンテーションのような余分な制約を利用する。 しかし、これらの手法は必然的にモデルの負担を増大させます。 本稿では, 自己監督型単分子深度推定の潜在能力が, コストを増大させることなく発掘可能であることを示す。 In particular, we propose (1) a novel data augmentation approach called data grafting, which forces the model to explore more cues to infer depth besides the vertical image position, (2) an exploratory self-distillation loss, which is supervised by the self-distillation label generated by our new post-processing method - selective post-processing, and (3) the full-scale network, designed to endow the encoder with the specialization of depth estimation task and enhance the representational power of the model. 広範な実験によって、我々の貢献は計算オーバーヘッドを少なくしてベースラインに大幅なパフォーマンス改善をもたらすことが示され、epcdepthと名付けられたこのモデルは、追加の制約によって監視されたものでさえ、以前の最先端のメソッドを上回っています。

Self-supervised methods play an increasingly important role in monocular depth estimation due to their great potential and low annotation cost. To close the gap with supervised methods, recent works take advantage of extra constraints, e.g., semantic segmentation. However, these methods will inevitably increase the burden on the model. In this paper, we show theoretical and empirical evidence that the potential capacity of self-supervised monocular depth estimation can be excavated without increasing this cost. In particular, we propose (1) a novel data augmentation approach called data grafting, which forces the model to explore more cues to infer depth besides the vertical image position, (2) an exploratory self-distillation loss, which is supervised by the self-distillation label generated by our new post-processing method - selective post-processing, and (3) the full-scale network, designed to endow the encoder with the specialization of depth estimation task and enhance the representational power of the model. Extensive experiments show that our contributions can bring significant performance improvement to the baseline with even less computational overhead, and our model, named EPCDepth, surpasses the previous state-of-the-art methods even those supervised by additional constraints.
翻訳日:2021-09-30 06:59:57 公開日:2021-09-26
# (参考訳) 時間プール型ディープリカレントニューラルネットワークによる短期負荷予測 [全文訳有]

Short-Term Load Forecasting Using Time Pooling Deep Recurrent Neural Network ( http://arxiv.org/abs/2109.12498v1 )

ライセンス: CC BY 4.0
Elahe Khoshbakhti Vaygan, Roozbeh Rajabi, Abouzar Estebsari(参考訳) 再生可能エネルギー源と電気自動車のような新興負荷をスマートグリッドに統合することは、流通システム管理に不確実性をもたらす。 デマンドサイドマネジメント(Demand Side Management, DSM)は、不確実性を減らすためのアプローチのひとつ。 Nonintrusive Load Monitoring (NILM)のようなアプリケーションはDSMをサポートできるが、高解像度データの正確な予測が必要である。 これは、高いボラティリティのため、1つの住宅のような単一負荷では困難である。 本稿では,既存のDeep Learning-based methodについて概説し,Time Pooling Deep Recurrent Neural Networkを用いたソリューションを提案する。 提案手法は, 時間プーリング戦略を用いたデータ拡張を行い, オーバーフィッティング問題を克服し, データの不確かさをより効率的にモデル化する。 シミュレーションと実装の結果から,提案手法はRMSEとMAEの指標で既存のアルゴリズムよりも優れていることがわかった。

Integration of renewable energy sources and emerging loads like electric vehicles to smart grids brings more uncertainty to the distribution system management. Demand Side Management (DSM) is one of the approaches to reduce the uncertainty. Some applications like Nonintrusive Load Monitoring (NILM) can support DSM, however they require accurate forecasting on high resolution data. This is challenging when it comes to single loads like one residential household due to its high volatility. In this paper, we review some of the existing Deep Learning-based methods and present our solution using Time Pooling Deep Recurrent Neural Network. The proposed method augments data using time pooling strategy and can overcome overfitting problems and model uncertainties of data more efficiently. Simulation and implementation results show that our method outperforms the existing algorithms in terms of RMSE and MAE metrics.
翻訳日:2021-09-30 06:45:53 公開日:2021-09-26
# (参考訳) PETA: Transformers Attention を用いた写真アルバムのイベント認識 [全文訳有]

PETA: Photo Albums Event Recognition using Transformers Attention ( http://arxiv.org/abs/2109.12499v1 )

ライセンス: CC BY 4.0
Tamar Glaser, Emanuel Ben-Baruch, Gilad Sharir, Nadav Zamir, Asaf Noy, Lihi Zelnik-Manor(参考訳) 近年、個人写真の撮影量は大幅に増加し、複数の画像の理解と高レベルの画像理解に新たな課題が生じた。 個人写真アルバムにおけるイベント認識は、関連する画像と無関係画像の両方を含む、混乱した画像のコレクションからライフイベントが認識されるという難しいシナリオを提示する。 画像内のイベント認識はまた、低レベルの画像オブジェクト分類とは対照的に、高レベルの画像理解の課題を示す。 複数の入力を分析する方法がないため、従来の手法では、様々なタイプの繰り返しニューラルネットワークを含む時間的メカニズムを採用していた。 しかし、その有効時間窓は局所的である。 また、写真アルバムの混乱した特性を考えると、これらは自然な選択ではない。 画像表現のためのcnnとアルバム表現のためのトランスフォーマーの力を組み合わせることで、画像収集においてグローバル推論を行い、フォトアルバムのイベント認識に実用的かつ効率的なソリューションを提供する。 我々のソリューションは3つの顕著なベンチマークで最先端の結果に達し、すべてのデータセットで90%以上のmAPを達成した。 さらに,イベント認識における画像インポータンスタスクについても検討し,学習した注意が,この主観的課題に対する人間の注釈付き重要度とどのように相関するかを実証し,新たな応用への扉を開く。

In recent years the amounts of personal photos captured increased significantly, giving rise to new challenges in multi-image understanding and high-level image understanding. Event recognition in personal photo albums presents one challenging scenario where life events are recognized from a disordered collection of images, including both relevant and irrelevant images. Event recognition in images also presents the challenge of high-level image understanding, as opposed to low-level image object classification. In absence of methods to analyze multiple inputs, previous methods adopted temporal mechanisms, including various forms of recurrent neural networks. However, their effective temporal window is local. In addition, they are not a natural choice given the disordered characteristic of photo albums. We address this gap with a tailor-made solution, combining the power of CNNs for image representation and transformers for album representation to perform global reasoning on image collection, offering a practical and efficient solution for photo albums event recognition. Our solution reaches state-of-the-art results on 3 prominent benchmarks, achieving above 90\% mAP on all datasets. We further explore the related image-importance task in event recognition, demonstrating how the learned attentions correlate with the human-annotated importance for this subjective task, thus opening the door for new applications.
翻訳日:2021-09-30 06:38:30 公開日:2021-09-26
# (参考訳) 離散ウェーブレット変換と機械学習分類器を用いたてんかん発作検出法 [全文訳有]

An Efficient Epileptic Seizure Detection Technique using Discrete Wavelet Transform and Machine Learning Classifiers ( http://arxiv.org/abs/2109.13811v1 )

ライセンス: CC0 1.0
Rabel Guharoy, Nanda Dulal Jana and Suparna Biswas(参考訳) 本稿では,離散ウェーブレット変換(DWT)と機械学習分類器を用いたてんかん検出手法を提案する。 ここでDWTは、異なる周波数帯域における信号のより良い分解を提供するため、特徴抽出に使われてきた。 当初、DWTはEEG信号に適用され、詳細および近似係数または異なるサブバンドを抽出した。 係数の抽出後、主成分分析(pca)が異なるサブバンドに適用され、低次元特徴空間における重要な特徴を抽出するために特徴レベルの融合技術が用いられる。 サポートベクトルマシン(SVM)分類器、K-Nearest-Neighbor(K NN)分類器、ネイブベイズ(NB)分類器の3つの分類器が提案された脳波信号の分類に使用されている。 提案手法はbonnデータベース上でテストされ,kn,svm,nb分類器に対して最大100%の認識精度を提供する。

This paper presents an epilepsy detection method based on discrete wavelet transform (DWT) and Machine learning classifiers. Here DWT has been used for feature extraction as it provides a better decomposition of the signals in different frequency bands. At first, DWT has been applied to the EEG signal to extract the detail and approximate coefficients or different sub-bands. After the extraction of the coefficients, principal component analysis (PCA) has been applied on different sub-bands and then a feature level fusion technique is used to extract the important features in low dimensional feature space. Three classifiers namely: Support Vector Machine (SVM) classifier, K-Nearest-Neighbor (KNN) classifier, and Naive Bayes (NB) Classifiers have been used in the proposed work for classifying the EEG signals. The proposed method is tested on Bonn databases and provides a maximum of 100% recognition accuracy for KNN, SVM, NB classifiers.
翻訳日:2021-09-30 06:25:46 公開日:2021-09-26
# 有能な意見操作の荒らしを露呈する

Exposing Paid Opinion Manipulation Trolls ( http://arxiv.org/abs/2109.13726v1 )

ライセンス: Link先を確認
Todor Mihaylov, Ivan Koychev, Georgi Georgiev, Preslav Nakov(参考訳) 近年、Webフォーラムは意見操作のトロルによって侵略されている。 一部のトロルは、自身の有罪判決によって駆動される他のユーザーに影響を及ぼそうとするが、他のケースでは、例えば、特定の指示を与える政党や広報機関によって組織され、支払われることもある。 機械学習を使って自動で有料のトロールを見つけることは難しい作業であり、分類器を訓練するのに十分なトレーニングデータがない。 本稿では,複数の異なる人々からトロルと呼ばれるユーザがそうである可能性が高く,トロルと呼ばれることのないユーザがそうである可能性が低いことを前提として,トレーニングデータ問題を解決する。 プロファイルを比較して (i)有給トロル vs. (ii)"メンションド"トロール vs. (iii)ノントロール、さらに、識別訓練を受けた分類器 (ii) (iii) 区別も非常に上手です (i)から (iii)

Recently, Web forums have been invaded by opinion manipulation trolls. Some trolls try to influence the other users driven by their own convictions, while in other cases they can be organized and paid, e.g., by a political party or a PR agency that gives them specific instructions what to write. Finding paid trolls automatically using machine learning is a hard task, as there is no enough training data to train a classifier; yet some test data is possible to obtain, as these trolls are sometimes caught and widely exposed. In this paper, we solve the training data problem by assuming that a user who is called a troll by several different people is likely to be such, and one who has never been called a troll is unlikely to be such. We compare the profiles of (i) paid trolls vs. (ii)"mentioned" trolls vs. (iii) non-trolls, and we further show that a classifier trained to distinguish (ii) from (iii) does quite well also at telling apart (i) from (iii).
翻訳日:2021-09-29 14:54:58 公開日:2021-09-26
# (参考訳) 2021年ドイツ政党の選挙プログラム:SentiArtに基づくその理解性と類似性に関する計算分析 [全文訳有]

Electoral Programs of German Parties 2021: A Computational Analysis Of Their Comprehensibility and Likeability Based On SentiArt ( http://arxiv.org/abs/2109.12500v1 )

ライセンス: CC BY 4.0
Arthur M. Jacobs and Annette Kinder(参考訳) 2021年の議会選挙前に発行された6つのドイツ政党の選挙プログラムは、定量的な物語、話題、感情分析のための最先端の計算ツールを用いて分析される。 本稿では,プログラムのテキスト類似性,Jaccard Bag類似性,潜時意味解析,doc2vec,sBERT,表現複雑性と計算複雑性を比較検討する。 Fowlkes Mallows Scoreから得られた文書全体の新しい類似度尺度を、sBERT変換文のkmeansクラスタリングに適用する。 sentiart (jacobs, 2019) によって計算されたテキストの可読性と感情電位の新たな指標を用いて,プログラムの長さ,主アイデア,理解性,可愛性,意味的複雑性に関する類似性と相違を明らかにした。 中でも、spdとcduのプログラムは、理解可能で、好まれる最善の機会を持っていることが判明し、また、必ずしも多くの単語を共有する選挙プログラムのようなテキストを比較するのに、どの類似度尺度が最適かという重要な問題を提起した。 このような分析は定性的な分析やテキストの深い読解に取って代わることはできないが、実証的な研究で検証できる予測を提供し、将来の選挙プログラムの側面を変える動機となる可能性がある。

The electoral programs of six German parties issued before the parliamentary elections of 2021 are analyzed using state-of-the-art computational tools for quantitative narrative, topic and sentiment analysis. We compare different methods for computing the textual similarity of the programs, Jaccard Bag similarity, Latent Semantic Analysis, doc2vec, and sBERT, the representational and computational complexity increasing from the 1st to the 4th method. A new similarity measure for entire documents derived from the Fowlkes Mallows Score is applied to kmeans clustering of sBERT transformed sentences. Using novel indices of the readability and emotion potential of texts computed via SentiArt (Jacobs, 2019), our data shed light on the similarities and differences of the programs regarding their length, main ideas, comprehensibility, likeability, and semantic complexity. Among others, they reveal that the programs of the SPD and CDU have the best chances to be comprehensible and likeable -all other things being equal-, and they raise the important issue of which similarity measure is optimal for comparing texts such as electoral programs which necessarily share a lot of words. While such analyses can not replace qualitative analyses or a deep reading of the texts, they offer predictions that can be verified in empirical studies and may serve as a motivation for changing aspects of future electoral programs potentially making them more comprehensible and/or likeable.
翻訳日:2021-09-29 14:25:25 公開日:2021-09-26
# (参考訳) linda: マルチエージェントによるローカル情報分解によるチームメイトの認識 [全文訳有]

LINDA: Multi-Agent Local Information Decomposition for Awareness of Teammates ( http://arxiv.org/abs/2109.12508v1 )

ライセンス: CC BY 4.0
Jiahan Cao, Lei Yuan, Jianhao Wang, Shaowei Zhang, Chongjie Zhang, Yang Yu, De-Chuan Zhan(参考訳) 協調型マルチエージェント強化学習 (marl) では, エージェントが部分的観察のみにアクセスできる場合, 局所情報を効率的に活用することが重要である。 長時間の観察では、エージェントはチームメイトのために‘textit{awareness} を構築し、部分的な可観測性の問題を軽減することができる。 しかし、従来のMARL法は通常、この種のローカル情報の利用を無視する。 この問題に対処するために、エージェントがローカル情報を分解し、各チームメイトに対して認識を構築することを学習する新しいフレームワーク、マルチエージェント{Local Information Decomposition for Awareness of Teammates} (LINDA)を提案する。 認識を確率確率変数としてモデル化し,認識と実際のエージェントの軌跡の相互情報を最大化することにより,認識表現のインフォメーション性を確保するために表現学習を行う。 LINDAは特定のアルゴリズムに依存せず、様々なMARLメソッドに柔軟に統合することができる。 十分な実験により,提案手法は局所的な部分的観察から情報的認識を学習し,協調性を高め,特に課題において学習性能を著しく向上させることを示した。

In cooperative multi-agent reinforcement learning (MARL), where agents only have access to partial observations, efficiently leveraging local information is critical. During long-time observations, agents can build \textit{awareness} for teammates to alleviate the problem of partial observability. However, previous MARL methods usually neglect this kind of utilization of local information. To address this problem, we propose a novel framework, multi-agent \textit{Local INformation Decomposition for Awareness of teammates} (LINDA), with which agents learn to decompose local information and build awareness for each teammate. We model the awareness as stochastic random variables and perform representation learning to ensure the informativeness of awareness representations by maximizing the mutual information between awareness and the actual trajectory of the corresponding agent. LINDA is agnostic to specific algorithms and can be flexibly integrated to different MARL methods. Sufficient experiments show that the proposed framework learns informative awareness from local partial observations for better collaboration and significantly improves the learning performance, especially on challenging tasks.
翻訳日:2021-09-29 14:05:21 公開日:2021-09-26
# (参考訳) fMRIモデリングのための動的適応時空間グラフ畳み込み [全文訳有]

Dynamic Adaptive Spatio-temporal Graph Convolution for fMRI Modelling ( http://arxiv.org/abs/2109.12517v1 )

ライセンス: CC BY 4.0
Ahmed El-Gazzar, Rajat Mani Thomas, and Guido van Wingen(参考訳) 脳領域間の接続が時系列間の相関値として表現される機能的ネットワークとしての脳の特徴化は、ここ数年で非常に人気がある。 この表現は脳機能の理解を深めましたが、複雑な動的時空間の性質を持つ脳接続の単純化されたモデルを表しています。 データの単純化は、高度な非線形特徴抽出アルゴリズムを適用するメリットを損なう可能性がある。 本研究では,事前定義された静的相関に基づくグラフ構造の欠点を克服するために,動的適応時空間グラフ畳み込み(dast-gcn)モデルを提案する。 提案手法により、階層グラフ構造学習モジュールを介して脳領域間の動的接続をエンドツーエンドに推論し、脳との接続を教師付き学習フレームワークの表現型にマッピングする。 これはモデル、データ、ターゲットの計算能力を利用して脳の接続を表現し、問題の監視対象に対する潜在的なバイオマーカーの識別を可能にする。 静止状態機能スキャンから年齢・性別分類タスクのUKBiobankデータセット上でのパイプラインの評価を行い,現在適用されている線形・非線形の手法よりも優れていることを示す。 さらに,事前学習したグラフを同一タスクに対して独立したデータセットに転送することで,推定グラフ構造の一般化性を評価する。 本研究は,異なる走査パラメータと人口統計量に対するタスクロバスト性を示す。

The characterisation of the brain as a functional network in which the connections between brain regions are represented by correlation values across time series has been very popular in the last years. Although this representation has advanced our understanding of brain function, it represents a simplified model of brain connectivity that has a complex dynamic spatio-temporal nature. Oversimplification of the data may hinder the merits of applying advanced non-linear feature extraction algorithms. To this end, we propose a dynamic adaptive spatio-temporal graph convolution (DAST-GCN) model to overcome the shortcomings of pre-defined static correlation-based graph structures. The proposed approach allows end-to-end inference of dynamic connections between brain regions via layer-wise graph structure learning module while mapping brain connectivity to a phenotype in a supervised learning framework. This leverages the computational power of the model, data and targets to represent brain connectivity, and could enable the identification of potential biomarkers for the supervised target in question. We evaluate our pipeline on the UKBiobank dataset for age and gender classification tasks from resting-state functional scans and show that it outperforms currently adapted linear and non-linear methods in neuroimaging. Further, we assess the generalizability of the inferred graph structure by transferring the pre-trained graph to an independent dataset for the same task. Our results demonstrate the task-robustness of the graph against different scanning parameters and demographics.
翻訳日:2021-09-29 13:45:26 公開日:2021-09-26
# (参考訳) GANを用いたフラッド検出のための合成データ生成 [全文訳有]

Synthetic Data Generation for Fraud Detection using GANs ( http://arxiv.org/abs/2109.12546v1 )

ライセンス: CC BY-SA 4.0
Charitos Charitou, Simo Dragicevic, Artur d'Avila Garcez(参考訳) ギャンブルにおけるマネーロンダリングの検出は、消費者がオンラインチャネルに移行するにつれ、ギャンブル業界にとってますます困難になりつつある。 ギャンブルにおけるマネーロンダリングを防ぐための厳しい規制が長年適用されてきたが、オンラインギャンブルは依然として犯罪者が犯罪から収益を得るための手段となっている。 オンラインギャンブルの成長を補うことで、オンラインギャンブル体験と即時相互作用する性質から、問題ギャンブルや不正行為のレベルが高くなる可能性があるため、従来の物理的な形式でのギャンブルと比較して、より多くの懸念が生じる。 しかしながら、ほとんどの場合、これらの領域に対処しようとする組織の主な問題は、高品質なデータがないことです。 本稿では, 不正検出に関連する問題がクラス不均衡の重大な問題に直面しているため, 教師付き分類器を訓練するために, 合成データを生成するGAN(Generative Adversarial Networks)に基づく新しいシステムを提案する。 我々のフレームワークであるSynthetic Data Generation GAN (SDG-GAN) は,ベンチマークデータセットと実世界のギャンブル不正データセットの分類性能を向上し,高密度なオーバーサンプリング手法よりも優れていた。

Detecting money laundering in gambling is becoming increasingly challenging for the gambling industry as consumers migrate to online channels. Whilst increasingly stringent regulations have been applied over the years to prevent money laundering in gambling, despite this, online gambling is still a channel for criminals to spend proceeds from crime. Complementing online gambling's growth more concerns are raised to its effects compared with gambling in traditional, physical formats, as it might introduce higher levels of problem gambling or fraudulent behaviour due to its nature of immediate interaction with online gambling experience. However, in most cases the main issue when organisations try to tackle those areas is the absence of high quality data. Since fraud detection related issues face the significant problem of the class imbalance, in this paper we propose a novel system based on Generative Adversarial Networks (GANs) for generating synthetic data in order to train a supervised classifier. Our framework Synthetic Data Generation GAN (SDG-GAN), manages to outperformed density based over-sampling methods and improve the classification performance of benchmarks datasets and the real world gambling fraud dataset.
翻訳日:2021-09-29 13:36:20 公開日:2021-09-26
# (参考訳) ファウショット画像分類のための不整形特徴表現 [全文訳有]

Disentangled Feature Representation for Few-shot Image Classification ( http://arxiv.org/abs/2109.12548v1 )

ライセンス: CC BY 4.0
Hao Cheng, Yufei Wang, Haoliang Li, Alex C. Kot, Bihan Wen(参考訳) 一般化可能な特徴表現の学習は、少数の画像分類において重要である。 近年の作業では、メタタスクを用いたタスク固有の機能埋め込みを少数のショット学習に活用しているが、画像サンプルの背景、ドメイン、スタイルといった帰納的特徴に気を取られているため、多くの課題タスクで制限されている。 本研究では,少数の学習アプリケーションに対して,dfrと呼ばれる新しい特徴表現フレームワークを提案する。 DFRは、分類枝によってモデル化される識別的特徴を、変動枝のクラス非関連成分から適応的に分離することができる。 一般的に、一般的な深層数ショット学習手法のほとんどが分類ブランチとしてプラグインできるため、DFRは様々な数ショットタスクのパフォーマンスを向上させることができる。 さらに,ドメイン一般化タスクのベンチマークを行うために,DomainNetに基づく新しいFS-DomainNetデータセットを提案する。 我々は,提案したDFRを,汎用かつきめ細かな小ショット分類と,それに対応する4つのベンチマーク,すなわち mini-ImageNet, tiered-ImageNet, CUB, および提案するFS-DomainNetを用いて,広範囲な実験を行った。 効果的な機能拡張のおかげで、DFRベースの少数ショット分類器はすべてのデータセットで最先端の結果を得た。

Learning the generalizable feature representation is critical for few-shot image classification. While recent works exploited task-specific feature embedding using meta-tasks for few-shot learning, they are limited in many challenging tasks as being distracted by the excursive features such as the background, domain and style of the image samples. In this work, we propose a novel Disentangled Feature Representation framework, dubbed DFR, for few-shot learning applications. DFR can adaptively decouple the discriminative features that are modeled by the classification branch, from the class-irrelevant component of the variation branch. In general, most of the popular deep few-shot learning methods can be plugged in as the classification branch, thus DFR can boost their performance on various few-shot tasks. Furthermore, we propose a novel FS-DomainNet dataset based on DomainNet, for benchmarking the few-shot domain generalization tasks. We conducted extensive experiments to evaluate the proposed DFR on general and fine-grained few-shot classification, as well as few-shot domain generalization, using the corresponding four benchmarks, i.e., mini-ImageNet, tiered-ImageNet, CUB, as well as the proposed FS-DomainNet. Thanks to the effective feature disentangling, the DFR-based few-shot classifiers achieved the state-of-the-art results on all datasets.
翻訳日:2021-09-29 13:22:57 公開日:2021-09-26
# (参考訳) 分散ネットワーク制御における無線スケジューリングのための深層強化学習 [全文訳有]

Deep Reinforcement Learning for Wireless Scheduling in Distributed Networked Control ( http://arxiv.org/abs/2109.12562v1 )

ライセンス: CC BY 4.0
Wanchun Liu, Kang Huang, Daniel E. Quevedo, Branka Vucetic and Yonghui Li(参考訳) 共有無線リソースを用いた無線ネットワーク制御システム(wncss)における伝送スケジューリングの文献では、ほとんどの研究は、部分的に分散された設定、すなわち、コントローラとアクチュエータ、またはセンサとコントローラが同じ位置にあることに焦点を当てている。 この制限を克服するため,本研究では,分散プラント,センサ,アクチュエータ,コントローラを備えた完全分散wncについて検討する。 通信制限を克服するため、コントローラは送信をスケジュールし、制御のための逐次予測コマンドを生成する。 確率的システム理論の要素を用いて、制御系パラメータと通信系パラメータの両方で記述されるWNCSの十分な安定性条件を導出する。 条件が満たされると、wncの全プラントを安定化できる少なくとも1つの定常的かつ決定論的スケジューリングポリシーが存在する。 有限長可算ベクトル状態を用いてWNCSのステップ毎のコスト関数を解析・表現することにより、マルコフ決定プロセス問題に最適な送信スケジューリング問題を定式化し、それを解くための深層強化学習に基づくアルゴリズムを開発する。 数値計算の結果,提案アルゴリズムはベンチマーク・ポリシーを著しく上回る結果となった。

In the literature of transmission scheduling in wireless networked control systems (WNCSs) over shared wireless resources, most research works have focused on partially distributed settings, i.e., where either the controller and actuator, or the sensor and controller are co-located. To overcome this limitation, the present work considers a fully distributed WNCS with distributed plants, sensors, actuators and a controller, sharing a limited number of frequency channels. To overcome communication limitations, the controller schedules the transmissions and generates sequential predictive commands for control. Using elements of stochastic systems theory, we derive a sufficient stability condition of the WNCS, which is stated in terms of both the control and communication system parameters. Once the condition is satisfied, there exists at least one stationary and deterministic scheduling policy that can stabilize all plants of the WNCS. By analyzing and representing the per-step cost function of the WNCS in terms of a finite-length countable vector state, we formulate the optimal transmission scheduling problem into a Markov decision process problem and develop a deep-reinforcement-l earning-based algorithm for solving it. Numerical results show that the proposed algorithm significantly outperforms the benchmark policies.
翻訳日:2021-09-29 11:58:27 公開日:2021-09-26
# (参考訳) 機械翻訳における二酸化炭素排出量のベンチマーク [全文訳有]

Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation ( http://arxiv.org/abs/2109.12584v1 )

ライセンス: CC BY 4.0
Mirza Yusuf, Praatibh Surana, Gauri Gupta and Krithika Ramesh(参考訳) 近年,NLP の分野では,言語モデルの有用性が向上するにつれて,その応用が拡大するなど,大幅な進歩を遂げている。 しかし、これらのモデルには大量の計算能力とデータを訓練する必要があるため、カーボンフットプリントが大きくなる。 したがって、炭素効率を調べた上で、トレーニングモデル、特に大規模言語モデル全体の環境への影響を低減するための代替手段を探すことが不可欠である。 本研究では,複数の言語ペアをまたいだ機械翻訳モデルの性能を評価し,これらの言語ペア毎にこれらのモデルの訓練に必要な計算能力の差を評価し,これらのモデルの各種コンポーネントを調べ,これらの二酸化炭素排出量削減に最適化可能なパイプラインの側面を分析する。

In recent times, there has been definitive progress in the field of NLP, with its applications growing as the utility of our language models increases with advances in their performance. However, these models require a large amount of computational power and data to train, consequently leading to large carbon footprints. Therefore, is it imperative that we study the carbon efficiency and look for alternatives to reduce the overall environmental impact of training models, in particular large language models. In our work, we assess the performance of models for machine translation, across multiple language pairs to assess the difference in computational power required to train these models for each of these language pairs and examine the various components of these models to analyze aspects of our pipeline that can be optimized to reduce these carbon emissions.
翻訳日:2021-09-29 11:06:09 公開日:2021-09-26
# (参考訳) multidoc2dial: 複数の文書に基づいた対話のモデリング [全文訳有]

MultiDoc2Dial: Modeling Dialogues Grounded in Multiple Documents ( http://arxiv.org/abs/2109.12595v1 )

ライセンス: CC BY 4.0
Song Feng and Siva Sankalp Patel and Hui Wan and Sachindra Joshi(参考訳) 本稿では,目標指向対話のモデル化に関する新しいタスクとデータセットであるmultidoc2dialを提案する。 以前の作品のほとんどは、与えられた1つの文書または節に基づく理解タスクを読む機械として、文書化された対話モデリングを扱う。 本研究では,目的指向の情報参照会話が複数のトピックを含む,より現実的なシナリオに対処し,それゆえ,異なる文書を基盤としている。 このような作業を容易にするために,4つの異なるドメインから複数の文書に接頭した対話を含む新しいデータセットを提案する。 また、データセット内の対話ベースおよび文書ベースのコンテキストのモデリングについても検討する。 我々は,このような課題に対するさらなる研究を支援するために,強力なベースラインアプローチと様々な実験結果を提案する。

We propose MultiDoc2Dial, a new task and dataset on modeling goal-oriented dialogues grounded in multiple documents. Most previous works treat document-grounded dialogue modeling as a machine reading comprehension task based on a single given document or passage. In this work, we aim to address more realistic scenarios where a goal-oriented information-seeking conversation involves multiple topics, and hence is grounded on different documents. To facilitate such a task, we introduce a new dataset that contains dialogues grounded in multiple documents from four different domains. We also explore modeling the dialogue-based and document-based context in the dataset. We present strong baseline approaches and various experimental results, aiming to support further research efforts on such a task.
翻訳日:2021-09-29 10:57:22 公開日:2021-09-26
# (参考訳) 全スライディング画像における癌セグメンテーションのための構造認識スケール適応ネットワーク [全文訳有]

Structure-aware scale-adaptive networks for cancer segmentation in whole-slide images ( http://arxiv.org/abs/2109.12617v1 )

ライセンス: CC BY 4.0
Yibao Sun, Giussepi Lopez, Yaqi Wang, Xingru Huang, Huiyu Zhou, Qianni Zhang(参考訳) また,全スライディング画像における癌セグメンテーションは,癌評価に非常に有用である腫瘍負担評価の基本的なステップである。 しかし、曖昧な境界や小さな領域が腫瘍から切り離されるなどの要因は困難な課題となっている。 種々の視覚関連タスクにおけるマルチスケール機能の有用性を考慮し, 効果的かつ正確な癌セグメンテーションのための構造適応型特徴選択法を提案する。 一般的なエンコーダ・デコーダアーキテクチャを持つセグメンテーションネットワークに基づいて,あいまいな非剛性境界を表現するために,より堅牢な特徴を選択するためのスケール適応モジュールを提案する。 さらに,小領域分割に対処するための組織構造認識のための構造類似度指標を提案する。 さらに、いくつかの注意機構や選択的カーネル畳み込みを含む高度な設計をベースラインネットワークに適用し、比較研究を行った。 PAIP 2019の課題において, 提案した構造認識型スケール適応型ネットワークは, 肝癌セグメンテーションにおいて, 上位10件と比較すると優れた性能を示した。 大腸癌セグメンテーションのさらなる評価は、スケール適応モジュールがベースラインネットワークを改善したり、効率と精度のトレードオフを考慮すると、他の優れた注意機構の設計よりも優れていることを示している。

Cancer segmentation in whole-slide images is a fundamental step for viable tumour burden estimation, which is of great value for cancer assessment. However, factors like vague boundaries or small regions dissociated from viable tumour areas make it a challenging task. Considering the usefulness of multi-scale features in various vision-related tasks, we present a structure-aware scale-adaptive feature selection method for efficient and accurate cancer segmentation. Based on a segmentation network with a popular encoder-decoder architecture, a scale-adaptive module is proposed for selecting more robust features to represent the vague, non-rigid boundaries. Furthermore, a structural similarity metric is proposed for better tissue structure awareness to deal with small region segmentation. In addition, advanced designs including several attention mechanisms and the selective-kernel convolutions are applied to the baseline network for comparative study purposes. Extensive experimental results show that the proposed structure-aware scale-adaptive networks achieve outstanding performance on liver cancer segmentation when compared to top ten submitted results in the challenge of PAIP 2019. Further evaluation on colorectal cancer segmentation shows that the scale-adaptive module improves the baseline network or outperforms the other excellent designs of attention mechanisms when considering the tradeoff between efficiency and accuracy.
翻訳日:2021-09-29 10:40:05 公開日:2021-09-26
# (参考訳) Multi-Transformer: S&Pのボラティリティを予測するためのニューラルネットワークベースのアーキテクチャ [全文訳有]

Multi-Transformer: A New Neural Network-Based Architecture for Forecasting S&P Volatility ( http://arxiv.org/abs/2109.12621v1 )

ライセンス: CC BY 4.0
Eduardo Ramos-P\'erez, Pablo J. Alonso-Gonz\'alez, Jos\'e Javier N\'u\~nez-Vel\'azquez(参考訳) 2007-2008年の金融危機や新型コロナウイルスのパンデミックなどの出来事は、銀行や保険会社に大きな損失をもたらした。 彼らはまた、正確な株式リスクモデルを使用することの重要性を示し、効果的なヘッジ戦略を実装できるリスク管理機能を備えている。 株価のボラティリティ予測は、株式リスクの推定において重要な役割を果たすため、金融機関による経営行動において重要である。 そこで本研究では,新しい機械と深層学習技術に基づく,より正確なストックボラティリティモデルを提案する。 本稿では,マルチトランスと呼ばれるニューラルネットワークアーキテクチャを提案する。 Multi-TransformerはTransformerモデルの変種であり、すでに自然言語処理の分野で成功している。 実際、本論文はボラティリティ予測モデルに使用するために、従来のトランスフォーマー層にも適応する。 本稿では,マルチトランスフォーマ層とトランスフォーマ層に基づくハイブリッドモデルの方が精度が高く,フィードフォワード層や長期記憶セルに基づく他の自己回帰アルゴリズムやハイブリッドモデルよりもリスク対策が適切であることを示す。

Events such as the Financial Crisis of 2007-2008 or the COVID-19 pandemic caused significant losses to banks and insurance entities. They also demonstrated the importance of using accurate equity risk models and having a risk management function able to implement effective hedging strategies. Stock volatility forecasts play a key role in the estimation of equity risk and, thus, in the management actions carried out by financial institutions. Therefore, this paper has the aim of proposing more accurate stock volatility models based on novel machine and deep learning techniques. This paper introduces a neural network-based architecture, called Multi-Transformer. Multi-Transformer is a variant of Transformer models, which have already been successfully applied in the field of natural language processing. Indeed, this paper also adapts traditional Transformer layers in order to be used in volatility forecasting models. The empirical results obtained in this paper suggest that the hybrid models based on Multi-Transformer and Transformer layers are more accurate and, hence, they lead to more appropriate risk measures than other autoregressive algorithms or hybrid models based on feed forward layers or long short term memory cells.
翻訳日:2021-09-29 10:14:20 公開日:2021-09-26
# (参考訳) 地域特徴を用いたローゴ生成:より高速なR-CNNアプローチ [全文訳有]

Logo Generation Using Regional Features: A Faster R-CNN Approach to Generative Adversarial Networks ( http://arxiv.org/abs/2109.12628v1 )

ライセンス: CC BY 4.0
Aram Ter-Sarkisov and Eduardo Alonso(参考訳) 本稿では,Faster Regional Convolutional Neural Network (Faster R-CNN) から抽出した地域特徴を用いてロゴを生成するローカルローゴ生成適応ネットワーク (LL-GAN) を提案する。 このアプローチの強みは、オンラインで収集した小さなスタイルリッチなデータセットでフレームワークをトレーニングし、大きな印象的なロゴを生成することで示します。 当社のアプローチは,データサイズによるモード崩壊に苦しむ最先端モデル(StyleGAN2, Self-Attention GANs)に勝っている。

In this paper we introduce the Local Logo Generative Adversarial Network (LL-GAN) that uses regional features extracted from the Faster Regional Convolutional Neural Network (Faster R-CNN) to generate logos. We demonstrate the strength of this approach by training the framework on a small style-rich dataset collected online to generate large impressive logos. Our approach beats the state-of-the-art models (StyleGAN2, Self-Attention GANs) that suffer from mode collapse due to the size of the data.
翻訳日:2021-09-29 09:56:43 公開日:2021-09-26
# (参考訳) セレブ・ブランディングのための意思決定:Twitter Consumer-Generated Content (CGC) を用いた極性と知覚分析に基づくオピニオンマイニングアプローチ [全文訳有]

Decision Making For Celebrity Branding: An Opinion Mining Approach Based On Polarity And Sentiment Analysis Using Twitter Consumer-Generated Content (CGC) ( http://arxiv.org/abs/2109.12630v1 )

ライセンス: CC BY 4.0
Ali Nikseresht, Mohammad Hosein Raeisi, Hossein Abbasian Mohammadi(参考訳) ソーシャルメディア内のブランドに関する議論の量によって、デジタルマーケターは、CGCにおけるブランド、製品、インフルエンサー、サービス、広告キャンペーンに対する消費者の感情や見解を追跡し分析する機会を得られる。 本研究は,企業や著名人(その企業の広告キャンペーンに参加した経験のあるインフルエンサー)のパフォーマンスと,ソーシャルメディアでcgcに採用された自動感情分析とを比較し,どのインフルエンサー(企業毎に2人)が消費者の心に密接な影響を与えているかを見極めるための消費者の感情について検討することを目的とする。 この目的のために、ブランドやインフルエンサーのページからのいくつかの消費者ツイートを用いて、ナイーブアルゴリズム(lexicon-based)とナイーブベイズアルゴリズム(machine learning method)による感情分析に対する機械学習とレキシコンベースのアプローチを比較し、キャンペーンを評価するための望ましい結果を得る。 以上の結果から,このアプローチは精度の点で異なっており,機械学習法の方が精度が高かった。 最後に、これまでのキャンペーンにおいてどのインフルエンサーがより適切かを示し、当社の将来における適切なインフルエンサーの選択を助け、その後の広告キャンペーンをより良く、より適切な、より効率的なものにした。 感情分類の精度向上に関するさらなる研究が必要である。 このアプローチは他のソーシャルメディアのCGCタイプにも適用すべきである。 その結果,感情分析手法がソーシャルメディアの分析に最適な意思決定方法であることが判明した。 また、企業は消費者の感情を認識し、キャンペーンを考えるたびに適切な人物を選ぶべきであることも判明した。

The volume of discussions concerning brands within social media provides digital marketers with great opportunities for tracking and analyzing the feelings and views of consumers toward brands, products, influencers, services, and ad campaigns in CGC. The present study aims to assess and compare the performance of firms and celebrities (i.e., influencers that with the experience of being in an ad campaign of those companies) with the automated sentiment analysis that was employed for CGC at social media while exploring the feeling of the consumers toward them to observe which influencer (of two for each company) had a closer effect with the corresponding corporation on consumer minds. For this purpose, several consumer tweets from the pages of brands and influencers were utilized to make a comparison of machine learning and lexicon-based approaches to the sentiment analysis through the Naive algorithm (lexicon-based) and Naive Bayes algorithm (machine learning method) and obtain the desired results to assess the campaigns. The findings suggested that the approaches were dissimilar in terms of accuracy; the machine learning method yielded higher accuracy. Finally, the results showed which influencer was more appropriate according to their existence in previous campaigns and helped choose the right influencer in the future for our company and have a better, more appropriate, and more efficient ad campaign subsequently. It is required to conduct further studies on the accuracy improvement of the sentiment classification. This approach should be employed for other social media CGC types. The results revealed decision-making for which sentiment analysis methods are the best approaches for the analysis of social media. It was also found that companies should be aware of their consumers' sentiments and choose the right person every time they think of a campaign.
翻訳日:2021-09-29 09:44:48 公開日:2021-09-26
# (参考訳) 粒子軌道再構成のためのハイブリッド量子古典グラフニューラルネットワーク [全文訳有]

Hybrid Quantum Classical Graph Neural Networks for Particle Track Reconstruction ( http://arxiv.org/abs/2109.12636v1 )

ライセンス: CC BY 4.0
Cenk T\"uys\"uz, Carla Rieger, Kristiane Novotny, Bilge Demirk\"oz, Daniel Dobos, Karolos Potamianos, Sofia Vallecorsa, Jean-Roch Vlimant, Richard Forster(参考訳) 欧州原子核研究機構(CERN)の大型ハドロン衝突型加速器(LHC)は、粒子衝突(光度)の即時速度を高め、HL-LHC(High Luminosity LHC)となる。 この光度の増加は検出器と相互作用する粒子の数を大幅に増加させる。 粒子と検出器の相互作用は「hit」と呼ばれる。 HL-LHCはより多くの検出器ヒットを発生させ、それらのヒットから粒子軌道を決定するために再構成アルゴリズムを使用することで、組み合わせの課題を引き起こす。 この研究は、追跡検出器データとその複雑な形状のばらばらな性質を最適に考慮し得る、新しいグラフニューラルネットワークモデルを、変分量子層を使用することで恩恵を受けるハイブリッド量子古典グラフニューラルネットワークに変換する可能性を探求する。 このハイブリッドモデルが古典的手法に類似した性能を発揮することを示す。 また,PQC(Parametrized Quantum Circuits)の表現性やエンタングル能力について検討し,期待する利点を定量化するためにトレーニング性能を比較した。 これらの結果は将来の道路マップの構築に利用でき、回路ベースのハイブリッド量子古典グラフニューラルネットワークをさらに発展させることができる。

The Large Hadron Collider (LHC) at the European Organisation for Nuclear Research (CERN) will be upgraded to further increase the instantaneous rate of particle collisions (luminosity) and become the High Luminosity LHC (HL-LHC). This increase in luminosity will significantly increase the number of particles interacting with the detector. The interaction of particles with a detector is referred to as "hit". The HL-LHC will yield many more detector hits, which will pose a combinatorial challenge by using reconstruction algorithms to determine particle trajectories from those hits. This work explores the possibility of converting a novel Graph Neural Network model, that can optimally take into account the sparse nature of the tracking detector data and their complex geometry, to a Hybrid Quantum-Classical Graph Neural Network that benefits from using Variational Quantum layers. We show that this hybrid model can perform similar to the classical approach. Also, we explore Parametrized Quantum Circuits (PQC) with different expressibility and entangling capacities, and compare their training performance in order to quantify the expected benefits. These results can be used to build a future road map to further develop circuit based Hybrid Quantum-Classical Graph Neural Networks.
翻訳日:2021-09-29 09:24:27 公開日:2021-09-26
# (参考訳) 知識蒸留とアクティブラーニングによる質問応答性能の向上 [全文訳有]

Improving Question Answering Performance Using Knowledge Distillation and Active Learning ( http://arxiv.org/abs/2109.12662v1 )

ライセンス: CC BY 4.0
Yasaman Boreshban, Seyed Morteza Mirbostani, Gholamreza Ghassem-Sani, Seyed Abolghasem Mirroshandel, Shahin Amiriparian(参考訳) トランスフォーマーベースのアーキテクチャを含む現代の質問応答(qa)システムでは、計算量とモデルの複雑さが増大し、リソースが限られた実世界のアプリケーションでは効率が低下する。 さらに、そのようなモデルのトレーニングや微調整さえも、手元のタスクでは利用できないような大量のラベル付きデータを必要とします。 本稿では,上記の課題を包括的に分析し,適切な対策を提案する。 本稿では,事前学習したBERTシステムのパラメータとモデルの複雑さを低減し,アノテーションの取り組みを大幅に削減するために複数のアクティブラーニング(AL)戦略を利用する新しい知識蒸留(KD)手法を提案する。 特に,本モデルでは,6層TinyBERTとDistilBERTの合計パラメータの2%しか使用せず,その性能を実証する。 最後に、BERTフレームワークへのALアプローチの統合により、トレーニングデータの20%しか使用していない場合、SQuADデータセットの最先端結果が達成可能であることを示す。

Contemporary question answering (QA) systems, including transformer-based architectures, suffer from increasing computational and model complexity which render them inefficient for real-world applications with limited resources. Further, training or even fine-tuning such models requires a vast amount of labeled data which is often not available for the task at hand. In this manuscript, we conduct a comprehensive analysis of the mentioned challenges and introduce suitable countermeasures. We propose a novel knowledge distillation (KD) approach to reduce the parameter and model complexity of a pre-trained BERT system and utilize multiple active learning (AL) strategies for immense reduction in annotation efforts. In particular, we demonstrate that our model achieves the performance of a 6-layer TinyBERT and DistilBERT, whilst using only 2% of their total parameters. Finally, by the integration of our AL approaches into the BERT framework, we show that state-of-the-art results on the SQuAD dataset can be achieved when we only use 20% of the training data.
翻訳日:2021-09-29 09:00:07 公開日:2021-09-26
# (参考訳) ニューラルネットワークを用いたスタークラフトII演奏エージェント作成のための教師付き強化学習手法の適用

Applying supervised and reinforcement learning methods to create neural-network-based agents for playing StarCraft II ( http://arxiv.org/abs/2109.12691v1 )

ライセンス: CC BY 4.0
Micha{\l} Opanowicz(参考訳) 近年,StarCraft II や Dota 2 のような複雑なリアルタイムコンピュータゲームにエージェントを組み込むための複数のアプローチが提案されているが,多くの専門知識をエージェントに埋め込んだり,多くの研究者の計算資源に不当に大規模に利用したりしている。 本稿では,汎用的な教師付き強化学習でトレーニングされたStarCraft IIのフル2プレーヤマッチを,単一のGPUで1台のコンシューマグレードPC上でトレーニング可能なニューラルネットワークアーキテクチャを提案する。 また,ゲーム内スクリプトボットと比較して,実装が非自明なパフォーマンスを実現することを示す。 選択した1つのマップでプレイする以外、ゲームに関する仮定を単純化することはありません。 原則として、我々の手法は小さな修正を加えて任意のRTSゲームに適用できる。 私たちの研究結果は、最終的なパフォーマンスの観点からは最先端の大規模アプローチよりもはるかに遅れていますが、我々の研究は他の小規模実験の確かなベースラインとして機能できると考えています。

Recently, multiple approaches for creating agents for playing various complex real-time computer games such as StarCraft II or Dota 2 were proposed, however, they either embed a significant amount of expert knowledge into the agent or use a prohibitively large for most researchers amount of computational resources. We propose a neural network architecture for playing the full two-player match of StarCraft II trained with general-purpose supervised and reinforcement learning, that can be trained on a single consumer-grade PC with a single GPU. We also show that our implementation achieves a non-trivial performance when compared to the in-game scripted bots. We make no simplifying assumptions about the game except for playing on a single chosen map, and we use very little expert knowledge. In principle, our approach can be applied to any RTS game with small modifications. While our results are far behind the state-of-the-art large-scale approaches in terms of the final performance, we believe our work can serve as a solid baseline for other small-scale experiments.
翻訳日:2021-09-29 08:34:15 公開日:2021-09-26
# (参考訳) 深層学習を用いた多工程CTC自動検出 [全文訳有]

Automated Multi-Process CTC Detection using Deep Learning ( http://arxiv.org/abs/2109.12709v1 )

ライセンス: CC BY 4.0
Elena Ivanova, Kam W. Leong, and Andrew F. Laine(参考訳) 循環性腫瘍細胞 (CTC) は腫瘍予後におけるバイオマーカーとして有望である。 しかしながら、ctcの識別とその後の列挙のプロセスには手動作業が必要であり、これはエラーを起こしやすく、時間がかかる。 Mask-RCNNを用いたDeep Learningによるオブジェクト検出の最近の発展と、事前訓練されたモデルのより広範な利用により、制限されたデータによるセンシティブなタスクを前例のない精度で処理できるようになった。 本稿では,細胞ケラチン(ck)染色の網膜型同定,dapi細胞核のマスクrcnn型細胞検出,cd-45sの検出などを含む多チャンネル暗視野顕微鏡画像における循環性腫瘍細胞の自動同定のための3段階検出モデルを提案する。 トレーニングデータセットは46の高分散データポイントと10の負と36の正のデータポイントで構成されている。 テストセットは420の負のデータポイントからなる。 パイプラインの最終精度は98.81%である。

Circulating Tumor Cells (CTCs) bear great promise as biomarkers in tumor prognosis. However, the process of identification and later enumeration of CTCs require manual labor, which is error-prone and time-consuming. The recent developments in object detection via Deep Learning using Mask-RCNNs and wider availability of pre-trained models have enabled sensitive tasks with limited data of such to be tackled with unprecedented accuracy. In this report, we present a novel 3-stage detection model for automated identification of Circulating Tumor Cells in multi-channel darkfield microscopic images comprised of: RetinaNet based identification of Cytokeratin (CK) stains, Mask-RCNN based cell detection of DAPI cell nuclei and Otsu thresholding to detect CD-45s. The training dataset is composed of 46 high variance data points, with 10 Negative and 36 Positive data points. The test set is composed of 420 negative data points. The final accuracy of the pipeline is 98.81%.
翻訳日:2021-09-29 08:33:15 公開日:2021-09-26
# (参考訳) 非凸正則化器による確率的低ランクプラススパースマトリックス分離 [全文訳有]

Provable Low Rank Plus Sparse Matrix Separation Via Nonconvex Regularizers ( http://arxiv.org/abs/2109.12713v1 )

ライセンス: CC BY 4.0
April Sagan, John E. Mitchell(参考訳) 本稿では,低階行列および/またはスパースベクトルをある種の測定値から回収しようとする問題について考察する。 凸緩和に基づく手法は(おそらく大きすぎる)推定器バイアスに悩まされ、他の非凸法では階数や疎度を事前に知る必要があるが、非凸正規化器を用いて階数を最小化し、凸緩和からの推定器バイアスを伴わない$l_0$ノルムを用いる。 本稿では,このような問題に適用した交代近位勾配降下アルゴリズムの新たな解析を行い,イテレートと基底真理の誤差と低ランク行列との結合について述べる。 このアルゴリズムと誤差境界は、スパース最適化、行列補完、ロバストな主成分分析などに応用できる。

This paper considers a large class of problems where we seek to recover a low rank matrix and/or sparse vector from some set of measurements. While methods based on convex relaxations suffer from a (possibly large) estimator bias, and other nonconvex methods require the rank or sparsity to be known a priori, we use nonconvex regularizers to minimize the rank and $l_0$ norm without the estimator bias from the convex relaxation. We present a novel analysis of the alternating proximal gradient descent algorithm applied to such problems, and bound the error between the iterates and the ground truth sparse and low rank matrices. The algorithm and error bound can be applied to sparse optimization, matrix completion, and robust principal component analysis as special cases of our results.
翻訳日:2021-09-29 08:21:23 公開日:2021-09-26
# (参考訳) マルチモーダルデータ融合とニューラルネットワークを用いた表情認識に関する研究 [全文訳有]

Research on facial expression recognition based on Multimodal data fusion and neural network ( http://arxiv.org/abs/2109.12724v1 )

ライセンス: CC BY 4.0
Yi Han, Xubin Wang, Zhengyu Lu(参考訳) 顔認識は、ニューラルネットワークがパターン認識に適用される場合、難しい課題である。 現在の認識研究のほとんどは、単一の音源の顔データに基づいており、一般的には、低い精度と低い堅牢性の欠点がある。 本稿では,マルチモーダルデータ融合に基づく表情認識のためのニューラルネットワークアルゴリズムを提案する。 このアルゴリズムはマルチモーダルデータに基づいており、入力として顔画像、画像の向き付け勾配のヒストグラム、顔ランドマークのヒストグラムを取り、cnn、lnn、hnnの3つのサブニューラルネットワークを確立してデータ特徴を抽出し、マルチモーダルデータ特徴融合機構を用いて表情認識の精度を向上させる。 実験結果から,マルチモーダルデータの相補性により,従来の表情認識アルゴリズムと比較して精度,頑健性,検出速度が大幅に向上したことがわかった。 特に部分的咬合・照明・頭部姿勢変換の場合、アルゴリズムは高い信頼度を示す。

Facial expression recognition is a challenging task when neural network is applied to pattern recognition. Most of the current recognition research is based on single source facial data, which generally has the disadvantages of low accuracy and low robustness. In this paper, a neural network algorithm of facial expression recognition based on multimodal data fusion is proposed. The algorithm is based on the multimodal data, and it takes the facial image, the histogram of oriented gradient of the image and the facial landmarks as the input, and establishes CNN, LNN and HNN three sub neural networks to extract data features, using multimodal data feature fusion mechanism to improve the accuracy of facial expression recognition. Experimental results show that, benefiting by the complementarity of multimodal data, the algorithm has a great improvement in accuracy, robustness and detection speed compared with the traditional facial expression recognition algorithm. Especially in the case of partial occlusion, illumination and head posture transformation, the algorithm also shows a high confidence.
翻訳日:2021-09-29 07:53:58 公開日:2021-09-26
# BioCopy:Seq2Seqモデルにおけるプラグアンドプレイスパンコピー機構

BioCopy: A Plug-And-Play Span Copy Mechanism in Seq2Seq Models ( http://arxiv.org/abs/2109.12533v1 )

ライセンス: Link先を確認
Yi Liu, Guoan Zhang, Puning Yu, Jianlin Su, Shengfeng Pan(参考訳) コピー機構は、ソース(インプット)シーケンスから変化のないトークンを明示的に取得し、ニューラルセク2セックフレームワークの下でターゲット(アウトプット)シーケンスを生成する。 しかし、既存のコピー機構のほとんどは、ソース文からの単一単語のコピーのみを考慮し、長いスパンをコピーしながら本質的なトークンを失うことになる。 本研究では,上記の問題を緩和するために,BioCopyと呼ばれるプラグアンドプレイアーキテクチャを提案する。 具体的には、トレーニング段階において、トークン毎にBIOタグを構築し、BIOタグを併用してオリジナルのモデルをトレーニングする。 推測段階では、まず各タイミングでBIOタグを予測し、次に予測されたBIOラベルに基づいて異なるマスク戦略を実行し、語彙リスト上の確率分布の範囲を小さくする。 2つの別個の生成タスクの実験結果から,BioCopyを元のモデル構造に加えることで,ベースラインモデルよりも優れることが示された。

Copy mechanisms explicitly obtain unchanged tokens from the source (input) sequence to generate the target (output) sequence under the neural seq2seq framework. However, most of the existing copy mechanisms only consider single word copying from the source sentences, which results in losing essential tokens while copying long spans. In this work, we propose a plug-and-play architecture, namely BioCopy, to alleviate the problem aforementioned. Specifically, in the training stage, we construct a BIO tag for each token and train the original model with BIO tags jointly. In the inference stage, the model will firstly predict the BIO tag at each time step, then conduct different mask strategies based on the predicted BIO label to diminish the scope of the probability distributions over the vocabulary list. Experimental results on two separate generative tasks show that they all outperform the baseline models by adding our BioCopy to the original model structure.
翻訳日:2021-09-28 16:03:09 公開日:2021-09-26
# ElipseNet:胎児心エコー図における自動心生体計測のためのアンカーフリー楕円検出

EllipseNet: Anchor-Free Ellipse Detection for Automatic Cardiac Biometrics in Fetal Echocardiography ( http://arxiv.org/abs/2109.12474v1 )

ライセンス: Link先を確認
Jiancong Chen, Yingying Zhang, Jingyi Wang, Xiaoxue Zhou, Yihua He, Tong Zhang(参考訳) 重要な走査面として,第2三期周産期スクリーニングと胎児心エコー検査で4つの室像が日常的に観察される。 心-胸壁比 (CTR) と心軸を含むこの平面の生体計測は, 先天性心疾患の診断のためのソノグラフィーによって測定される。 しかし、音響シャドーイングのような一般的な人工物のため、従来の手動測定は低効率に苦しむだけでなく、操作者の技量によっても矛盾する結果となる。 本稿では, エルプス中の心・胸部領域を検出し, 胎児心生体計測におけるCTRと心軸を自動的に計算するアンカーフリーなエルプス検出ネットワークであるEllipseNetを提案する。 特に,各物体の中心を点として検出し,楕円のパラメータを同時に回帰するネットワークを定式化する。 我々は,協調的損失を定義し,回帰過程をさらに調整する。 2000名以上の心エコーデータを用いたelipsenetの評価を行った。 実験の結果,提案手法は最先端手法よりも優れていることがわかった。 ソースコードはhttps://git.openi.or g.cn/capepoint/Ellip seNetで入手できる。

As an important scan plane, four chamber view is routinely performed in both second trimester perinatal screening and fetal echocardiographic examinations. The biometrics in this plane including cardio-thoracic ratio (CTR) and cardiac axis are usually measured by sonographers for diagnosing congenital heart disease. However, due to the commonly existing artifacts like acoustic shadowing, the traditional manual measurements not only suffer from the low efficiency, but also with the inconsistent results depending on the operators' skills. In this paper, we present an anchor-free ellipse detection network, namely EllipseNet, which detects the cardiac and thoracic regions in ellipse and automatically calculates the CTR and cardiac axis for fetal cardiac biometrics in 4-chamber view. In particular, we formulate the network that detects the center of each object as points and regresses the ellipses' parameters simultaneously. We define an intersection-over-un ion loss to further regulate the regression procedure. We evaluate EllipseNet on clinical echocardiogram dataset with more than 2000 subjects. Experimental results show that the proposed framework outperforms several state-of-the-art methods. Source code will be available at https://git.openi.or g.cn/capepoint/Ellip seNet .
翻訳日:2021-09-28 16:00:56 公開日:2021-09-26
# ソフトラベルを用いた医用画像分割の不確かさのモデル化

Using Soft Labels to Model Uncertainty in Medical Image Segmentation ( http://arxiv.org/abs/2109.12622v1 )

ライセンス: Link先を確認
Jo\~ao Louren\c{c}o Silva, Arlindo L. Oliveira(参考訳) 医用画像のセグメンテーションは本質的に不確かである。 ある画像に対して、複数のもっともらしいセグメンテーション仮説が存在し、医師はしばしば病変や臓器の境界に異を唱える。 現実世界のアプリケーションに適合するためには、自動セグメンテーションシステムは、この不確実性と可変性を捉える必要がある。 これまでのところ、この問題は、ドロップアウト、複数のヘッド、あるいは変分推論を通じて、任意の画像に対して可能なセグメンテーション仮説のセットを無限に生成できるディープラーニングモデルの構築によって対処されてきた。 しかし、臨床では全ての仮説を閲覧することは実用的ではないかもしれない。 さらに、最近の研究は、いくつかの独立したアノテーションの後にセグメンテーションの多様性が高騰していることを示し、十分な数の医師群が、可能なセグメンテーションの空間全体を表現できることを示唆している。 そこで,本稿では,複数の医師のアノテーションからソフトラベルを得るための簡易な手法を提案する。 本手法はmiccai 2021 qubiq 課題において,複数の医用画像分割タスクにまたがって良好に動作し,適切に調整された予測を行い,平均的に他の医師よりも医師の予測に合致する性能を示した。

Medical image segmentation is inherently uncertain. For a given image, there may be multiple plausible segmentation hypotheses, and physicians will often disagree on lesion and organ boundaries. To be suited to real-world application, automatic segmentation systems must be able to capture this uncertainty and variability. Thus far, this has been addressed by building deep learning models that, through dropout, multiple heads, or variational inference, can produce a set - infinite, in some cases - of plausible segmentation hypotheses for any given image. However, in clinical practice, it may not be practical to browse all hypotheses. Furthermore, recent work shows that segmentation variability plateaus after a certain number of independent annotations, suggesting that a large enough group of physicians may be able to represent the whole space of possible segmentations. Inspired by this, we propose a simple method to obtain soft labels from the annotations of multiple physicians and train models that, for each image, produce a single well-calibrated output that can be thresholded at multiple confidence levels, according to each application's precision-recall requirements. We evaluated our method on the MICCAI 2021 QUBIQ challenge, showing that it performs well across multiple medical image segmentation tasks, produces well-calibrated predictions, and, on average, performs better at matching physicians' predictions than other physicians.
翻訳日:2021-09-28 16:00:37 公開日:2021-09-26
# エンティティリンクがディープラーニングを実現する - テクニックとソリューション

Entity Linking Meets Deep Learning: Techniques and Solutions ( http://arxiv.org/abs/2109.12520v1 )

ライセンス: Link先を確認
Wei Shen, Yuhan Li, Yinan Liu, Jiawei Han, Jianyong Wang, Xiaojie Yuan(参考訳) エンティティリンク(el)は、webテキストに現れるエンティティ言及と、それに対応するエンティティを知識ベースでリンクするプロセスである。 ELは知識工学やデータマイニングの分野で重要な役割を担い、知識ベース人口、コンテンツ分析、関係抽出、質問応答など様々なダウンストリームアプリケーションの基礎となっている。 近年,様々な分野において大きな成功を収めたディープラーニング(DL)は,従来の機械学習手法を超越し,最先端のパフォーマンスを得るためにEL手法にも活用されている。 本稿では,既存の DL ベースの EL 手法の総合的なレビューと解析を行う。 まず、埋め込み、特徴、アルゴリズムの3つの軸を用いて既存のDLベースのELメソッドを整理する新しい分類法を提案する。 次に,分類学の3つの軸に沿って,代表的EL法を体系的に調査する。 その後、一般的に使用されている10個のELデータセットを導入し、これらのデータセット上でDLベースのELメソッドの定量的性能解析を行う。 最後に,既存手法の限界について考察し,今後の展望を明らかにする。

Entity linking (EL) is the process of linking entity mentions appearing in web text with their corresponding entities in a knowledge base. EL plays an important role in the fields of knowledge engineering and data mining, underlying a variety of downstream applications such as knowledge base population, content analysis, relation extraction, and question answering. In recent years, deep learning (DL), which has achieved tremendous success in various domains, has also been leveraged in EL methods to surpass traditional machine learning based methods and yield the state-of-the-art performance. In this survey, we present a comprehensive review and analysis of existing DL based EL methods. First of all, we propose a new taxonomy, which organizes existing DL based EL methods using three axes: embedding, feature, and algorithm. Then we systematically survey the representative EL methods along the three axes of the taxonomy. Later, we introduce ten commonly used EL data sets and give a quantitative performance analysis of DL based EL methods over these data sets. Finally, we discuss the remaining limitations of existing methods and highlight some promising future directions.
翻訳日:2021-09-28 15:58:48 公開日:2021-09-26
# 自然言語処理におけるパラダイムシフト

Paradigm Shift in Natural Language Processing ( http://arxiv.org/abs/2109.12575v1 )

ライセンス: Link先を確認
Tianxiang Sun, Xiangyang Liu, Xipeng Qiu, Xuanjing Huang(参考訳) ディープラーニングの時代、ほとんどのNLPタスクのモデリングは、いくつかの主流パラダイムに収束した。 例えば、私たちは通常、POSタグ、NER、チャンキングといったタスクのバンドルを解決するためにシーケンスラベリングパラダイムを採用し、感情分析のようなタスクを解決するために分類パラダイムを採用しています。 事前学習型言語モデルの急速な進歩に伴い、近年はパラダイムシフトが増加傾向にあり、あるNLPタスクを別の言語として再構成することで解決している。 パラダイムシフトは多くのタスクで大きな成功を収め、モデルパフォーマンスを改善する有望な方法になりました。 さらに、これらのパラダイムのいくつかは、多数のNLPタスクを統合する大きな可能性を示しており、多様なタスクを処理する単一のモデルを構築することができる。 本稿では,近年のパラダイムシフトの現象を概観し,異なるNLPタスクを解く可能性のあるパラダイムをいくつか紹介する。

In the era of deep learning, modeling for most NLP tasks has converged to several mainstream paradigms. For example, we usually adopt the sequence labeling paradigm to solve a bundle of tasks such as POS-tagging, NER, Chunking, and adopt the classification paradigm to solve tasks like sentiment analysis. With the rapid progress of pre-trained language models, recent years have observed a rising trend of Paradigm Shift, which is solving one NLP task by reformulating it as another one. Paradigm shift has achieved great success on many tasks, becoming a promising way to improve model performance. Moreover, some of these paradigms have shown great potential to unify a large number of NLP tasks, making it possible to build a single model to handle diverse tasks. In this paper, we review such phenomenon of paradigm shifts in recent years, highlighting several paradigms that have the potential to solve different NLP tasks.
翻訳日:2021-09-28 15:58:32 公開日:2021-09-26
# ラベル付きデータを用いない熱源配置の温度場予測のための物理インフォーム畳み込みニューラルネットワーク

Physics-informed Convolutional Neural Networks for Temperature Field Prediction of Heat Source Layout without Labeled Data ( http://arxiv.org/abs/2109.12482v1 )

ライセンス: Link先を確認
Xiaoyu Zhao, Zhiqiang Gong, Yunyang Zhang, Wen Yao, Xiaoqian Chen(参考訳) 近年,深層学習に基づくサロゲートモデルが工学的解析と最適化に注目されている。 ほとんどのエンジニアリング問題におけるデータペアの構築には時間がかかるため、データ取得は、熱分析と設計のためにサーロゲートに存在するほとんどのディープサーロゲートモデルの予測能力ボトルネックになりつつある。 この問題に対処するために,熱シミュレーションサロゲートのための物理インフォームド畳み込みニューラルネットワーク(CNN)を開発した。 ネットワークは、熱源配置から、ラベル付きデータなしで定常的な温度場へのマッピングを学習でき、これは部分差分方程式(PDE)の族全体の解法と等しい。 ラベル付きデータを使わずに物理誘導訓練を実現するために,熱伝導方程式と有限差分法を用いて損失関数を構築する。 この解は境界条件に敏感であるため、ディリクレとノイマンの境界条件をパディングすることで厳密な制約を適切に課す。 また,目の前の問題の予測精度を向上させるためにニューラルネットワークアーキテクチャをよく設計し,計算領域における最適化難易度の不均衡を克服するために,画素レベルのオンラインハードサンプルマイニングを導入する。 提案手法は,数値的手法とデータ駆動型深層学習モデルで同等の予測を行うことができることを示す。 また,本論文で提案するネットワークコンポーネントとトレーニング手法の有効性を検討するため,様々なアブレーション研究を行った。

Recently, surrogate models based on deep learning have attracted much attention for engineering analysis and optimization. As the construction of data pairs in most engineering problems is time-consuming, data acquisition is becoming the predictive capability bottleneck of most deep surrogate models, which also exists in surrogate for thermal analysis and design. To address this issue, this paper develops a physics-informed convolutional neural network (CNN) for the thermal simulation surrogate. The network can learn a mapping from heat source layout to the steady-state temperature field without labeled data, which equals solving an entire family of partial difference equations (PDEs). To realize the physics-guided training without labeled data, we employ the heat conduction equation and finite difference method to construct the loss function. Since the solution is sensitive to boundary conditions, we properly impose hard constraints by padding in the Dirichlet and Neumann boundary conditions. In addition, the neural network architecture is well-designed to improve the prediction precision of the problem at hand, and pixel-level online hard example mining is introduced to overcome the imbalance of optimization difficulty in the computation domain. The experiments demonstrate that the proposed method can provide comparable predictions with numerical method and data-driven deep learning models. We also conduct various ablation studies to investigate the effectiveness of the network component and training methods proposed in this paper.
翻訳日:2021-09-28 15:52:58 公開日:2021-09-26
# バイレベル最適化によるデータ要約

Data Summarization via Bilevel Optimization ( http://arxiv.org/abs/2109.12534v1 )

ライセンス: Link先を確認
Zal\'an Borsos, Mojm\'ir Mutn\'y, Marco Tagliasacchi and Andreas Krause(参考訳) 膨大なデータセットが利用可能になるにつれ、機械学習にはさまざまな課題が伴う。 中でも顕著なのは、ハードウェアや人的リソースの制約の下でモデルを学ぶ必要があることだ。 このようなリソース制約のある設定では、シンプルで強力なアプローチはデータの小さなサブセットを操作することです。 coresetはデータの重み付きサブセットであり、最適化目標に対する近似保証を提供する。 しかし、既存のコアセットの構成は非常にモデル固有であり、線形回帰、ロジスティック回帰、および$k$-meansのような単純なモデルに限られる。 本研究では,コアセット選択を基数制約付き二レベル最適化問題として定式化する汎用コアセット構築フレームワークを提案する。 既存のアプローチとは対照的に、我々のフレームワークはモデル固有の適応を必要としない。 オンラインの非凸モデルのトレーニングやバッチアクティブラーニングなど,さまざまな環境での多種多様なモデルに対するフレームワークの有効性を示す。

The increasing availability of massive data sets poses a series of challenges for machine learning. Prominent among these is the need to learn models under hardware or human resource constraints. In such resource-constrained settings, a simple yet powerful approach is to operate on small subsets of the data. Coresets are weighted subsets of the data that provide approximation guarantees for the optimization objective. However, existing coreset constructions are highly model-specific and are limited to simple models such as linear regression, logistic regression, and $k$-means. In this work, we propose a generic coreset construction framework that formulates the coreset selection as a cardinality-constrai ned bilevel optimization problem. In contrast to existing approaches, our framework does not require model-specific adaptations and applies to any twice differentiable model, including neural networks. We show the effectiveness of our framework for a wide range of models in various settings, including training non-convex models online and batch active learning.
翻訳日:2021-09-28 15:52:35 公開日:2021-09-26
# もっと活発にしろ! 変分オートエンコーダの意味とサンプル表現の差異を理解する

Be More Active! Understanding the Differences between Mean and Sampled Representations of Variational Autoencoders ( http://arxiv.org/abs/2109.12679v1 )

ライセンス: Link先を確認
Lisa Bonheme and Marek Grzes(参考訳) 変分オートエンコーダが異種表現を学習する能力は、実用的応用に魅力的である。 しかし、下流のタスクに一般的に使用される平均表現は、通常、アンタングルメントが測定されるサンプルよりも相関性が高いことが最近示されている。 本稿では,学習表現のサブセットであるアクティブ変数のみが有用な情報をエンコードし,残り(パッシブ変数)は破棄されるという,選択的後方崩壊のレンズを通してこの観察を洗練する。 まず、当初サンプル表現のために提案された既存の定義を拡張し、各表現において活性変数が等しく非絡み合っていることを示す。 この新たな定義と、乱れlibからの事前学習モデルに基づいて、受動的変数を分離し、平均表現とサンプル表現の相違に責任があることを示す。 具体的には、受動的変数は他の変数と平均表現において高い相関スコアを示し、サンプル変数では完全に相関しない。 したがって、それらの高い相関関係が示唆するものにもかかわらず、平均表現は下流タスクアプリケーションにとっていまだに良い候補である、と結論づける。 しかし、特に相関した特徴に敏感なモデルを使用する場合、受動的変数を削除することは有益である。

The ability of Variational Autoencoders to learn disentangled representations has made them appealing for practical applications. However, their mean representations, which are generally used for downstream tasks, have recently been shown to be more correlated than their sampled counterpart, on which disentanglement is usually measured. In this paper, we refine this observation through the lens of selective posterior collapse, which states that only a subset of the learned representations, the active variables, is encoding useful information while the rest (the passive variables) is discarded. We first extend the existing definition, originally proposed for sampled representations, to mean representations and show that active variables are equally disentangled in both representations. Based on this new definition and the pre-trained models from disentanglement lib, we then isolate the passive variables and show that they are responsible for the discrepancies between mean and sampled representations. Specifically, passive variables exhibit high correlation scores with other variables in mean representations while being fully uncorrelated in sampled ones. We thus conclude that despite what their higher correlation might suggest, mean representations are still good candidates for downstream tasks applications. However, it may be beneficial to remove their passive variables, especially when used with models sensitive to correlated features.
翻訳日:2021-09-28 15:52:22 公開日:2021-09-26
# 生成対向ネットワークを有する軸受の寿命予測のための汎用マルチスケール特徴抽出

Generalized multiscale feature extraction for remaining useful life prediction of bearings with generative adversarial networks ( http://arxiv.org/abs/2109.12513v1 )

ライセンス: Link先を確認
Sungho Suh, Paul Lukowicz, Yong Oh Lee(参考訳) ベアリングは産業機械の重要な要素であり、その失敗は不必要なダウンタイムと経済損失につながる可能性がある。 したがって、軸受の残りの有用寿命(RUL)を予測する必要がある。 RUL予測の従来のデータ駆動アプローチでは、手動の特徴抽出に専門家の知識が必要であり、トレーニングデータとテストデータ間のデータ分散の相違に悩まされる可能性がある。 そこで本研究では,生成逆数ネットワークを用いた多段階特徴抽出手法を提案する。 逆行訓練は、異なる軸受からトレーニングデータの分布を学習し、健康段階分割とRUL予測のために導入する。 1次元の振動信号からシーケンスの特徴を捉えるため、U-Netアーキテクチャを適用して特徴を再構成し、敵ネットワークのジェネレータ内のマルチスケール層で処理する。 提案手法を検証するため,RUL予測のための2つの回転機械データセットに関する総合実験を行った。 実験結果から,提案手法はRULを効果的に予測し,より深いニューラルネットワークに基づく従来のRUL予測手法より優れていることが示された。 実装コードはhttps://github.com/o pensuh/GMFEで公開されている。

Bearing is a key component in industrial machinery and its failure may lead to unwanted downtime and economic loss. Hence, it is necessary to predict the remaining useful life (RUL) of bearings. Conventional data-driven approaches of RUL prediction require expert domain knowledge for manual feature extraction and may suffer from data distribution discrepancy between training and test data. In this study, we propose a novel generalized multiscale feature extraction method with generative adversarial networks. The adversarial training learns the distribution of training data from different bearings and is introduced for health stage division and RUL prediction. To capture the sequence feature from a one-dimensional vibration signal, we adapt a U-Net architecture that reconstructs features to process them with multiscale layers in the generator of the adversarial network. To validate the proposed method, comprehensive experiments on two rotating machinery datasets have been conducted to predict the RUL. The experimental results show that the proposed feature extraction method can effectively predict the RUL and outperforms the conventional RUL prediction approaches based on deep neural networks. The implementation code is available at https://github.com/o pensuh/GMFE.
翻訳日:2021-09-28 15:48:42 公開日:2021-09-26
# 深層埋め込みとコントラスト学習によるクラスタ分析

Cluster Analysis with Deep Embeddings and Contrastive Learning ( http://arxiv.org/abs/2109.12714v1 )

ライセンス: Link先を確認
Ramakrishnan Sundareswaran, Jansel Herrera-Gerena, John Just, Ali Janessari(参考訳) 教師なし表現学習(unsupervised disentangled representation learning)は、コンピュータビジョンにおける長年の問題である。 本稿では,インスタンスレベルのコントラスト学習と深層埋め込み型クラスタセンタを組み合わせることで,深層埋め込みから画像クラスタリングを行うための新しいフレームワークを提案する。 提案手法は,クラスタセンターをエンドツーエンドに表現し,予測する。 これは、クラスタリング損失、インスタンス単位のコントラスト損失、アンカー損失を組み合わせた3段階のアプローチによって実現される。 我々の基本的な直感は、インスタンスレベルの特徴を組み込んだアンサンブルロスと、意味的類似性を重視したクラスタリング手順を用いることで、潜在空間におけるより良い表現の学習が強化されるということです。 本手法は,正規化相互情報(NMI)などの標準クラスタリング指標を用いて,ユークリッド距離によって定義された幾何学的に分離されたクラスタ埋め込みを生成するとともに,一般的な視覚データセットに対して極めてよく機能する。 このフレームワークは広く受け入れられているクラスタリング手法に匹敵し、cifar-10データセットにおける最先端のコントラスト学習法を0.772のnmiスコアで上回り、強力なベースラインを7-8%改善した。

Unsupervised disentangled representation learning is a long-standing problem in computer vision. This work proposes a novel framework for performing image clustering from deep embeddings by combining instance-level contrastive learning with a deep embedding based cluster center predictor. Our approach jointly learns representations and predicts cluster centers in an end-to-end manner. This is accomplished via a three-pronged approach that combines a clustering loss, an instance-wise contrastive loss, and an anchor loss. Our fundamental intuition is that using an ensemble loss that incorporates instance-level features and a clustering procedure focusing on semantic similarity reinforces learning better representations in the latent space. We observe that our method performs exceptionally well on popular vision datasets when evaluated using standard clustering metrics such as Normalized Mutual Information (NMI), in addition to producing geometrically well-separated cluster embeddings as defined by the Euclidean distance. Our framework performs on par with widely accepted clustering methods and outperforms the state-of-the-art contrastive learning method on the CIFAR-10 dataset with an NMI score of 0.772, a 7-8% improvement on the strong baseline.
翻訳日:2021-09-28 15:48:24 公開日:2021-09-26
# 勧告システムのための深層探査

Deep Exploration for Recommendation Systems ( http://arxiv.org/abs/2109.12509v1 )

ライセンス: Link先を確認
Zheqing Zhu, Benjamin Van Roy(参考訳) スパースフィードバックや遅延フィードバックから効率的に学習できるレコメンデーションシステムの設計について検討する。 深層探査は、このようなコンテキストにおいて重要な役割を果たす可能性があるため、レコメンデーションシステムは、ユーザのニーズをより迅速に評価し、サービスをパーソナライズすることができる。 我々は、ディープ探索を行うトンプソンサンプリングに基づくアルゴリズムを設計する。 シミュレーションにより,提案アルゴリズムは,一般的なレコメンデーションシステム設計に対する肯定的なフィードバック率を大幅に向上させることができることを示す。 これらの結果は、深層探査を活用したプロダクションレコメンデーションシステムのエンジニアリングを刺激することを期待している。

We investigate the design of recommendation systems that can efficiently learn from sparse and delayed feedback. Deep Exploration can play an important role in such contexts, enabling a recommendation system to much more quickly assess a user's needs and personalize service. We design an algorithm based on Thompson Sampling that carries out Deep Exploration. We demonstrate through simulations that the algorithm can substantially amplify the rate of positive feedback relative to common recommendation system designs in a scalable fashion. These results demonstrate promise that we hope will inspire engineering of production recommendation systems that leverage Deep Exploration.
翻訳日:2021-09-28 15:45:40 公開日:2021-09-26
# スパースプラス低ランク行列分解:離散最適化アプローチ

Sparse Plus Low Rank Matrix Decomposition: A Discrete Optimization Approach ( http://arxiv.org/abs/2109.12701v1 )

ライセンス: Link先を確認
Dimitris Bertsimas, Ryan Cory-Wright and Nicholas A. G. Johnson(参考訳) SLR(Sparse Plus Low Rank decomposition problem)は、破損したデータ行列 $\mathbf{D}$ を摂動と低階行列 $\mathbf{X}$ を含むスパース行列 $\mathbf{Y}$ に分解する問題である。 SLRは、データ圧縮、潜時セマンティックインデックス、協調フィルタリング、医用画像など、多くのアプリケーションで発生するオペレーションリサーチと機械学習の基本的な問題である。 問題の基本となる離散性を直接モデル化する新しいSLRの定式化を導入する。 この定式化のために、高品質な解を計算するための交互最小化ヒューリスティックと、ヒューリスティックによって返される解に有意義な境界を与える新しい半定緩和を開発する。 我々はさらに、SLRの小さなインスタンスを証明可能な準最適に解決する、ヒューリスティックかつ凸緩和を利用するカスタムブランチとバウンドルーチンを開発する。 私たちのヒューリスティックは時間で$n=10000$に、リラクゼーションは時間で$n=200$に、ブランチとバウンドアルゴリズムは分で$n=25$にスケールできます。 その結果, この手法は, 低階行列のmseとスパース行列のmseの点で, 既存の最先端手法よりも優れていることがわかった。

We study the Sparse Plus Low Rank decomposition problem (SLR), which is the problem of decomposing a corrupted data matrix $\mathbf{D}$ into a sparse matrix $\mathbf{Y}$ containing the perturbations plus a low rank matrix $\mathbf{X}$. SLR is a fundamental problem in Operations Research and Machine Learning arising in many applications such as data compression, latent semantic indexing, collaborative filtering and medical imaging. We introduce a novel formulation for SLR that directly models the underlying discreteness of the problem. For this formulation, we develop an alternating minimization heuristic to compute high quality solutions and a novel semidefinite relaxation that provides meaningful bounds for the solutions returned by our heuristic. We further develop a custom branch and bound routine that leverages our heuristic and convex relaxation that solves small instances of SLR to certifiable near-optimality. Our heuristic can scale to $n=10000$ in hours, our relaxation can scale to $n=200$ in hours, and our branch and bound algorithm can scale to $n=25$ in minutes. Our numerical results demonstrate that our approach outperforms existing state-of-the-art approaches in terms of the MSE of the low rank matrix and that of the sparse matrix.
翻訳日:2021-09-28 15:42:55 公開日:2021-09-26
# チャンネル追跡のためのハイパーネットワークを用いたカルマンフィルタの神経増強

Neural Augmentation of Kalman Filter with Hypernetwork for Channel Tracking ( http://arxiv.org/abs/2109.12561v1 )

ライセンス: Link先を確認
Kumar Pratik, Rana Ali Amjad, Arash Behboodi, Joseph B. Soriaga, Max Welling(参考訳) 動的に異なるアプリケーションを追跡するために,Hypernetwork Kalman Filter (HKF)を提案する。 HKFはカルマンフィルタの一般化パワーとニューラルネットワークの表現力を組み合わせたものである。 カルマンフィルターのバンクを保持して、実際のダイナミクスを近似したものを選ぶ代わりに、HKFは観測シーケンスに基づいて各ダイナミクスに適応する。 CDL-Bチャネルモデルに関する広範な実験を通して、HKFは、カルマンフィルタの性能とジェニードップラー情報とを一致させて、幅広いドップラー値のチャネルを追跡できることを示す。 高ドップラー値では、ジェニーカルマンフィルタよりも約2dBのゲインが得られる。 HKFは、厳格な性能劣化に苦しむLSTMとは異なり、見えないドップラー、SNR値、パイロットパターンを一般化する。

We propose Hypernetwork Kalman Filter (HKF) for tracking applications with multiple different dynamics. The HKF combines generalization power of Kalman filters with expressive power of neural networks. Instead of keeping a bank of Kalman filters and choosing one based on approximating the actual dynamics, HKF adapts itself to each dynamics based on the observed sequence. Through extensive experiments on CDL-B channel model, we show that the HKF can be used for tracking the channel over a wide range of Doppler values, matching Kalman filter performance with genie Doppler information. At high Doppler values, it achieves around 2dB gain over genie Kalman filter. The HKF generalizes well to unseen Doppler, SNR values and pilot patterns unlike LSTM, which suffers from severe performance degradation.
翻訳日:2021-09-28 15:40:55 公開日:2021-09-26
# BARTを用いた語彙制約付きテキスト生成のための並列化

Parallel Refinements for Lexically Constrained Text Generation with BART ( http://arxiv.org/abs/2109.12487v1 )

ライセンス: Link先を確認
Xingwei He(参考訳) 語彙制約付きテキスト生成は、事前に指定されたキーワードを出力に組み込むことで生成されたテキストを制御することを目的としている。 以前の作業では、デコードプロセスを制御するか、あるいはジェネリック文や非文法文を生成する傾向がある候補出力を反復的に精錬することで、語彙的制約を出力に注入する。 これらの課題に対処するために、語彙制約付きテキスト生成のための制約付きBART(CBART)を提案する。 CBARTは、事前訓練されたモデルBARTを活用し、このタスクを2つのサブタスクに分解することにより、デコーダからエンコーダに生成負荷の一部を移行し、文質を向上させる。 具体的には、エンコーダ上にトークンレベルの分類子を追加してBARTを拡張し、デコーダに置換と挿入を指示する。 エンコーダに導かれたデコーダは、特定の位置の前にトークンを挿入し、信頼性の低いトークンを再予測することで、入力の複数のトークンを1ステップで洗練する。 推論遅延をさらに低減するため、デコーダはすべてのトークンを並列に予測する。 One-Billion-WordとYelpの実験結果によると、CBARTは高い品質と多様性を持つ可塑性テキストを生成できるが、推論は著しく加速する。

Lexically constrained text generation aims to control the generated text by incorporating some pre-specified keywords into the output. Previous work injects lexical constraints into the output by controlling the decoding process or refining the candidate output iteratively, which tends to generate generic or ungrammatical sentences, and has high computational complexity. To address these challenges, we propose Constrained BART (CBART) for lexically constrained text generation. CBART leverages the pre-trained model BART and transfers part of the generation burden from the decoder to the encoder by decomposing this task into two sub-tasks, thereby improving the sentence quality. Concretely, we extend BART by adding a token-level classifier over the encoder, aiming at instructing the decoder where to replace and insert. Guided by the encoder, the decoder refines multiple tokens of the input in one step by inserting tokens before specific positions and re-predicting tokens with low confidence. To further reduce the inference latency, the decoder predicts all tokens in parallel. Experiment results on One-Billion-Word and Yelp show that CBART can generate plausible text with high quality and diversity while significantly accelerating inference.
翻訳日:2021-09-28 15:37:33 公開日:2021-09-26
# XLM-K:多言語知識による言語間モデル事前学習の改善

XLM-K: Improving Cross-Lingual Language Model Pre-Training with Multilingual Knowledge ( http://arxiv.org/abs/2109.12573v1 )

ライセンス: Link先を確認
Xiaoze Jiang, Yaobo Liang, Weizhu Chen, Nan Duan(参考訳) 言語間事前学習は単言語とバイリンガルの平文コーパスを用いて大きな成功を収めた。 しかし、既存の事前学習モデルは言語に依存しないが言語間構造アライメントが豊富である多言語知識を無視している。 本稿では,事前学習に多言語知識を取り入れた言語横断モデルXLM-Kを提案する。 XLM-Kは既存の多言語事前トレーニングを2つの知識タスク、すなわちMasked Entity Prediction TaskとObject Entailment Taskで強化する。 MLQA, NER, XNLIにおけるXLM-Kの評価を行った。 実験結果から,既存の多言語言語モデルよりも顕著な改善が示された。 The results on MLQA and NER exhibit the superiority of XLM-K in knowledge related task。 XNLIの成功は、XLM-Kで得られるより優れた言語間移動性を示す。 さらに、事前学習体制で取得した所望の知識を確認するための詳細な調査分析も提供します。

Cross-lingual pre-training has achieved great successes using monolingual and bilingual plain text corpora. However, existing pre-trained models neglect multilingual knowledge, which is language agnostic but comprises abundant cross-lingual structure alignment. In this paper, we propose XLM-K, a cross-lingual language model incorporating multilingual knowledge in pre-training. XLM-K augments existing multilingual pre-training with two knowledge tasks, namely Masked Entity Prediction Task and Object Entailment Task. We evaluate XLM-K on MLQA, NER and XNLI. Experimental results clearly demonstrate significant improvements over existing multilingual language models. The results on MLQA and NER exhibit the superiority of XLM-K in knowledge related tasks. The success in XNLI shows a better cross-lingual transferability obtained in XLM-K. What is more, we provide a detailed probing analysis to confirm the desired knowledge captured in our pre-training regimen.
翻訳日:2021-09-28 15:37:10 公開日:2021-09-26
# 対話CSE: 文埋め込みの対話型コントラスト学習

DialogueCSE: Dialogue-based Contrastive Learning of Sentence Embeddings ( http://arxiv.org/abs/2109.12599v1 )

ライセンス: Link先を確認
Che Liu, Rui Wang, Jinghua Liu, Jian Sun, Fei Huang, Luo Si(参考訳) 対話からの文の埋め込みの学習は、アノテーションコストの低さとドメイン適応性の高さから注目されている。 従来の手法では, 文エンコーダ上にフィードフォワードネットワークを適用することにより, 文脈応答意味関係をモデル化し, 文埋め込みを得る。 しかしながら、意味的テクスト的類似性は要素間距離(例えばコサインとl2距離)で一般的に測定されるので、そのようなアーキテクチャはトレーニングと評価の間に大きなギャップをもたらす。 本稿では,対話型コントラスト学習手法であるDialogueCSEを提案する。 ダイアログCSEは、まず、マルチターンコンテキスト応答マッチング行列のガイダンスに基づいて、各候補応答埋め込み(すなわち、文脈自由埋め込み)に対してコンテキスト認識の埋め込みを生成する新しいマッチング誘導埋め込み(MGE)機構を導入する。 そして、各コンテキスト認識の埋め込みと対応する文脈自由な埋め込みをペアリングし、最終的にすべてのペア間のコントラスト損失を最小化する。 我々は,Microsoft Dialogue Corpus,Jing Dong Dialogue Corpus,E-Commerce Dialogue Corpusの3つの多ターン対話データセットについて評価を行った。 評価の結果,本手法はMAPとSpearmanの相関測度で3つのデータセットのベースラインを大幅に上回り,その有効性を示した。 さらに定量的な実験を行った結果,より多くの対話コンテキストを活用する場合のパフォーマンスが向上し,トレーニングデータが少ない場合には堅牢性が維持できることがわかった。

Learning sentence embeddings from dialogues has drawn increasing attention due to its low annotation cost and high domain adaptability. Conventional approaches employ the siamese-network for this task, which obtains the sentence embeddings through modeling the context-response semantic relevance by applying a feed-forward network on top of the sentence encoders. However, as the semantic textual similarity is commonly measured through the element-wise distance metrics (e.g. cosine and L2 distance), such architecture yields a large gap between training and evaluating. In this paper, we propose DialogueCSE, a dialogue-based contrastive learning approach to tackle this issue. DialogueCSE first introduces a novel matching-guided embedding (MGE) mechanism, which generates a context-aware embedding for each candidate response embedding (i.e. the context-free embedding) according to the guidance of the multi-turn context-response matching matrices. Then it pairs each context-aware embedding with its corresponding context-free embedding and finally minimizes the contrastive loss across all pairs. We evaluate our model on three multi-turn dialogue datasets: the Microsoft Dialogue Corpus, the Jing Dong Dialogue Corpus, and the E-commerce Dialogue Corpus. Evaluation results show that our approach significantly outperforms the baselines across all three datasets in terms of MAP and Spearman's correlation measures, demonstrating its effectiveness. Further quantitative experiments show that our approach achieves better performance when leveraging more dialogue context and remains robust when less training data is provided.
翻訳日:2021-09-28 15:36:57 公開日:2021-09-26
# 単語埋め込み空間からのバイリンガル語彙誘導のためのeuclidean vs. graph-based framingの解析

An Analysis of Euclidean vs. Graph-Based Framing for Bilingual Lexicon Induction from Word Embedding Spaces ( http://arxiv.org/abs/2109.12640v1 )

ライセンス: Link先を確認
Kelly Marchisio, Youngser Park, Ali Saad-Eldin, Anton Alyakin, Kevin Duh, Carey Priebe, Philipp Koehn(参考訳) バイリンガル語彙誘導(BLI)における最近の研究は、単語の埋め込みをユークリッド空間のベクトルと見なしている。 したがって、BLIは通常、埋め込みを共通空間に写像する線型変換を見つけることで解決される。 あるいは、単語埋め込みは重み付きグラフのノードとして理解することができる。 このフレーミングにより、線形変換を仮定せずにノードのグラフ近傍を調べることができ、グラフマッチング最適化文献から新しいテクニックを活用できる。 これらの対照的なアプローチは、これまでBLIでは比較されていない。 本研究では,異なるデータ条件下でのBLIに対するユークリッドとグラフに基づくアプローチの挙動について検討し,組み合わせた場合の相互補完効果を示す。 コードはhttps://github.com/k ellymarchisio/euc-v- graph-bliでリリースします。

Much recent work in bilingual lexicon induction (BLI) views word embeddings as vectors in Euclidean space. As such, BLI is typically solved by finding a linear transformation that maps embeddings to a common space. Alternatively, word embeddings may be understood as nodes in a weighted graph. This framing allows us to examine a node's graph neighborhood without assuming a linear transform, and exploits new techniques from the graph matching optimization literature. These contrasting approaches have not been compared in BLI so far. In this work, we study the behavior of Euclidean versus graph-based approaches to BLI under differing data conditions and show that they complement each other when combined. We release our code at https://github.com/k ellymarchisio/euc-v- graph-bli.
翻訳日:2021-09-28 15:36:28 公開日:2021-09-26
# QA-Align: 質問応答によるクロステキストコンテンツオーバーラップの表現

QA-Align: Representing Cross-Text Content Overlap by Aligning Question-Answer Propositions ( http://arxiv.org/abs/2109.12655v1 )

ライセンス: Link先を確認
Daniela Brook Weiss, Paul Roit, Ayal Klein, Ori Ernst, Ido Dagan(参考訳) マルチドキュメント要約のようなマルチテキストアプリケーションは、通常、関連するテキスト間の冗長性をモデル化するために必要となる。 重なり合う情報を融合する統合に直面する現状の手法 コンテンツ重複を明示的に表現するために,テキスト間の述語関係の整合化を提案し,情報統合のための足場を提供する。 私たちは、言及を推論するクラスタリングを超えて、単に共有の参照子を検出するのではなく、命題レベルで冗長性に関して重複をモデル化します。 我々の設定はQA-SRLを利用して、質問と回答のペアを使って述語と議論の関係を捉える。 クラウドワーカーを用いてQAベースのアライメントのデータセットを構築し、データセット上でトレーニングされたベースラインQAアライメントモデルを示す。 分析の結果、新しいタスクは意味的に困難であり、語彙的類似性を超えてコンテンツの重複を捉え、命題レベルのリンクとドキュメント間のコリファレンスを補完し、下流タスクの潜在的な利用を提供する。

Multi-text applications, such as multi-document summarization, are typically required to model redundancies across related texts. Current methods confronting consolidation struggle to fuse overlapping information. In order to explicitly represent content overlap, we propose to align predicate-argument relations across texts, providing a potential scaffold for information consolidation. We go beyond clustering coreferring mentions, and instead model overlap with respect to redundancy at a propositional level, rather than merely detecting shared referents. Our setting exploits QA-SRL, utilizing question-answer pairs to capture predicate-argument relations, facilitating laymen annotation of cross-text alignments. We employ crowd-workers for constructing a dataset of QA-based alignments, and present a baseline QA alignment model trained over our dataset. Analyses show that our new task is semantically challenging, capturing content overlap beyond lexical similarity and complements cross-document coreference with proposition-level links, offering potential use for downstream tasks.
翻訳日:2021-09-28 15:36:15 公開日:2021-09-26
# 多言語bertにおけるアテンションヘッドのprunabilityについて

On the Prunability of Attention Heads in Multilingual BERT ( http://arxiv.org/abs/2109.12683v1 )

ライセンス: Link先を確認
Aakriti Budhraja, Madhura Pande, Pratyush Kumar, Mitesh M. Khapra(参考訳) mBERTのような大規模多言語モデルは、言語間移動において有望であることを示している。 本研究では,mBERTの強靭性を定量化し,層レベルでの重要性を解釈するためにプルーニングを用いる。 4つのGLUEタスクにおいて、pruningによる相対的な精度低下はmBERTとBERTでほぼ同じ結果となり、多言語モデルの注意力の低下はpruningに対するロバスト性に影響を及ぼさないことが示唆された。 クロスリンガルタスクXNLIでは, プルーニングによる高い精度低下を報告し, クロスリンガル転送におけるロバスト性の低下を示唆した。 また、エンコーダ層の重要性は、言語ファミリーと事前学習コーパスサイズに敏感に依存する。 上位層は細調整の影響が比較的大きいため、英語(SVO)に似た言語で重要な情報をエンコードするが、下位層は細調整の影響が比較的少ないため、凝集性および低リソース言語では特に重要である。

Large multilingual models, such as mBERT, have shown promise in crosslingual transfer. In this work, we employ pruning to quantify the robustness and interpret layer-wise importance of mBERT. On four GLUE tasks, the relative drops in accuracy due to pruning have almost identical results on mBERT and BERT suggesting that the reduced attention capacity of the multilingual models does not affect robustness to pruning. For the crosslingual task XNLI, we report higher drops in accuracy with pruning indicating lower robustness in crosslingual transfer. Also, the importance of the encoder layers sensitively depends on the language family and the pre-training corpus size. The top layers, which are relatively more influenced by fine-tuning, encode important information for languages similar to English (SVO) while the bottom layers, which are relatively less influenced by fine-tuning, are particularly important for agglutinative and low-resource languages.
翻訳日:2021-09-28 15:35:55 公開日:2021-09-26
# デフォルト理論の帰納学習のためのクラスタリングとデモーションに基づくアルゴリズム

A Clustering and Demotion Based Algorithm for Inductive Learning of Default Theories ( http://arxiv.org/abs/2109.12624v1 )

ライセンス: Link先を確認
Huaduo Wang, Farhad Shakerin, Gopal Gupta(参考訳) 正および負の例から非単調論理プログラムを誘導するクラスタリングとデモーションに基づくアルゴリズムKmeans-FOLDを提案する。 このアルゴリズムはFOLDアルゴリズムにインスパイアされている。 FOLDアルゴリズム自体は、FOILアルゴリズムよりも改善されている。 我々のアルゴリズムはFOLDアルゴリズムよりも簡潔な論理プログラムを生成する。 提案アルゴリズムは, FOLDアルゴリズムを適用する前に, K平均クラスタリング法を用いて入力正のサンプルをクラスタリングする。 中間ステップで部分的に学習されたプログラムによってカバーされる肯定的な例は、折り畳みアルゴリズムのように破棄されるのではなく、その重みがアルゴリズムの次のイテレーションで減らされる。 UCIデータセットに対する実験により、K-Meansクラスタリングとデモーション戦略を組み合わせることで、複数の肯定的なサンプルを持つデータセットに対して大幅な改善が達成された。 結果として引き起こされるプログラムはより簡潔であり、それゆえ art inductive logic programming (ilp) の2つの状態である fold と aleph システムと比較して理解しやすい。

We present a clustering- and demotion-based algorithm called Kmeans-FOLD to induce nonmonotonic logic programs from positive and negative examples. Our algorithm improves upon-and is inspired by-the FOLD algorithm. The FOLD algorithm itself is an improvement over the FOIL algorithm. Our algorithm generates a more concise logic program compared to the FOLD algorithm. Our algorithm uses the K-means based clustering method to cluster the input positive samples before applying the FOLD algorithm. Positive examples that are covered by the partially learned program in intermediate steps are not discarded as in the FOLD algorithm, rather they are demoted, i.e., their weights are reduced in subsequent iterations of the algorithm. Our experiments on the UCI dataset show that a combination of K-Means clustering and our demotion strategy produces significant improvement for datasets with more than one cluster of positive examples. The resulting induced program is also more concise and therefore easier to understand compared to the FOLD and ALEPH systems, two state of the art inductive logic programming (ILP) systems.
翻訳日:2021-09-28 15:32:08 公開日:2021-09-26
# ISF-GAN:高分解能画像変換のためのインシシシトスタイル関数

ISF-GAN: An Implicit Style Function for High-Resolution Image-to-Image Translation ( http://arxiv.org/abs/2109.12492v1 )

ライセンス: Link先を確認
Yahui Liu, Yajing Chen, Linchao Bao, Nicu Sebe, Bruno Lepri, Marco De Nadai(参考訳) 近年,事前学習された無条件画像生成装置(例えばstylegan)を用いた画像編集手法への関心が高まっている。 しかし、これらの手法を用いて画像を複数の視覚領域に翻訳することは依然として困難である。 既存の作品では、画像のドメイン不変部分(例えば、人間の顔の翻訳におけるアイデンティティ)を保存しないことが多く、通常は複数のドメインを扱わないか、マルチモーダル翻訳を許可しない。 本研究は,事前学習した非条件生成器からのマルチモーダル・マルチドメイン画像間変換を実現するための暗黙的スタイル関数(isf)を提案する。 ISFは入力潜在コードのセマンティクスを操作して、所望の視覚領域に横たわる画像を生成する。 ヒトの顔と動物に対する手術の結果は,ベースラインよりも有意に改善した。 我々のモデルは、事前訓練された無条件GANを用いて、高解像度で費用対効果の高いマルチモーダル・アントラクショナル・イメージ・ツー・イメージ翻訳を可能にする。 コードとデータは、 \url{https://github.com/y hlleo/stylegan-mmuit } で入手できる。

Recently, there has been an increasing interest in image editing methods that employ pre-trained unconditional image generators (e.g., StyleGAN). However, applying these methods to translate images to multiple visual domains remains challenging. Existing works do not often preserve the domain-invariant part of the image (e.g., the identity in human face translations), they do not usually handle multiple domains, or do not allow for multi-modal translations. This work proposes an implicit style function (ISF) to straightforwardly achieve multi-modal and multi-domain image-to-image translation from pre-trained unconditional generators. The ISF manipulates the semantics of an input latent code to make the image generated from it lying in the desired visual domain. Our results in human face and animal manipulations show significantly improved results over the baselines. Our model enables cost-effective multi-modal unsupervised image-to-image translations at high resolution using pre-trained unconditional GANs. The code and data are available at: \url{https://github.com/y hlleo/stylegan-mmuit }.
翻訳日:2021-09-28 15:28:55 公開日:2021-09-26
# ビデオインコヒーレンス検出による自己教師付き映像表現学習

Self-Supervised Video Representation Learning by Video Incoherence Detection ( http://arxiv.org/abs/2109.12493v1 )

ライセンス: Link先を確認
Haozhi Cao, Yuecong Xu, Jianfei Yang, Kezhi Mao, Lihua Xie, Jianxiong Yin, Simon See(参考訳) 本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。 人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に由来する。 具体的には、同一の生ビデオから複数のサブクリップを階層的にサンプリングし、互いに無コヒーレンスの長さの異なるトレーニングサンプルを非コヒーレントクリップとして構成する。 ネットワークは、アンコヒーレンスクリップを入力として、アンコヒーレンスの位置と長さを予測することにより、ハイレベルな表現を学ぶように訓練される。 また,ビデオ内コントラスト学習を導入し,同一生映像からの非一貫性クリップ間の相互情報を最大化する。 提案手法は,様々なバックボーンネットワークを用いた行動認識と映像検索に関する広範な実験により評価される。 提案手法は,従来のコヒーレンスに基づく手法と比較して,異なるバックボーンネットワークと異なるデータセットにまたがる最先端の性能を実現することを示す。

This paper introduces a novel self-supervised method that leverages incoherence detection for video representation learning. It roots from the observation that visual systems of human beings can easily identify video incoherence based on their comprehensive understanding of videos. Specifically, the training sample, denoted as the incoherent clip, is constructed by multiple sub-clips hierarchically sampled from the same raw video with various lengths of incoherence between each other. The network is trained to learn high-level representation by predicting the location and length of incoherence given the incoherent clip as input. Additionally, intra-video contrastive learning is introduced to maximize the mutual information between incoherent clips from the same raw video. We evaluate our proposed method through extensive experiments on action recognition and video retrieval utilizing various backbone networks. Experiments show that our proposed method achieves state-of-the-art performance across different backbone networks and different datasets compared with previous coherence-based methods.
翻訳日:2021-09-28 15:28:38 公開日:2021-09-26
# 全知識蒸留:プログレッシブ蒸留 分解された知識が生徒を良くする

Partial to Whole Knowledge Distillation: Progressive Distilling Decomposed Knowledge Boosts Student Better ( http://arxiv.org/abs/2109.12507v1 )

ライセンス: Link先を確認
Xuanyang Zhang, Xiangyu Zhang, Jian Sun(参考訳) 知識蒸留分野は,コンパクトな学生と大規模教員のパフォーマンスギャップを小さくするために,様々な知識を繊細に設計する。 これらの既存の蒸留アプローチは単に \textit{knowledge quality} の改善に焦点を合わせているが、蒸留手順に対する \textit{knowledge quantity} の影響は無視している。 本稿では,教師の計算グラフから知識を抽出する従来の蒸留手法に対抗して,知識蒸留の有効性をさらに向上させるため,新しい「textit{knowledge amount}」の観点から非無視的な研究方向を探求する。 知識分解という新しい概念を導入し、さらに \textbf{p}artialを \textbf{w}hole \textbf{k}nowledge \textbf{d}istillation~(\textbf {pwkd})パラダイムに展開する。 具体的には,教師を同一の深さでもチャネル幅が大きくなる重み分担サブネットワークに再構成し,サブネットワークを併用して分解知識を得る(より多くのチャネルを持つサブネットワークはより多くの知識を表す)。 そして、循環学習率を利用して収束を加速する複数の訓練段階において、事前訓練を受けた教師から知識を部分的に抽出する。 一般に、 textbf{PWKD} は既存のオフライン知識蒸留手法と互換性のあるプラグインと見なすことができる。 本研究では,<textbf{PWKD}の有効性を検証するために,-CIFAR-100とImageNetの2つのベンチマークデータセットを用いて実験を行い,その総合評価結果から,<textbf{PWKD}はベルやホイッスルを使わずに既存の知識蒸留アプローチを一貫して改善することを示した。

Knowledge distillation field delicately designs various types of knowledge to shrink the performance gap between compact student and large-scale teacher. These existing distillation approaches simply focus on the improvement of \textit{knowledge quality}, but ignore the significant influence of \textit{knowledge quantity} on the distillation procedure. Opposed to the conventional distillation approaches, which extract knowledge from a fixed teacher computation graph, this paper explores a non-negligible research direction from a novel perspective of \textit{knowledge quantity} to further improve the efficacy of knowledge distillation. We introduce a new concept of knowledge decomposition, and further put forward the \textbf{P}artial to \textbf{W}hole \textbf{K}nowledge \textbf{D}istillation~(\textbf {PWKD}) paradigm. Specifically, we reconstruct teacher into weight-sharing sub-networks with same depth but increasing channel width, and train sub-networks jointly to obtain decomposed knowledge~(sub-netwo rks with more channels represent more knowledge). Then, student extract partial to whole knowledge from the pre-trained teacher within multiple training stages where cyclic learning rate is leveraged to accelerate convergence. Generally, \textbf{PWKD} can be regarded as a plugin to be compatible with existing offline knowledge distillation approaches. To verify the effectiveness of \textbf{PWKD}, we conduct experiments on two benchmark datasets:~CIFAR-100 and ImageNet, and comprehensive evaluation results reveal that \textbf{PWKD} consistently improve existing knowledge distillation approaches without bells and whistles.
翻訳日:2021-09-28 15:28:19 公開日:2021-09-26
# 構造保存画像スーパーリゾリューション

Structure-Preserving Image Super-Resolution ( http://arxiv.org/abs/2109.12530v1 )

ライセンス: Link先を確認
Cheng Ma, Yongming Rao, Jiwen Lu, Jie Zhou(参考訳) 単一画像超解像(sisr)における構造物質。 GAN(Generative Adversarial Network)の利点を生かした最近の研究は、フォトリアリスティック画像の復元によるSISRの開発を促進している。 しかし、回収された画像にはまだ望ましくない構造歪みがある。 本稿では,gan方式の利点を維持しつつ,上記の問題を緩和する構造保存型超解像(spsr)法を提案する。 まず、画像の勾配マップを利用して2つの側面の回復を誘導する勾配誘導付きSPSR(SPSR-G)を提案する。 一方,高分解能勾配写像を勾配分岐により復元し,sr過程の事前構造を付加する。 一方,超解像の2次制限を課す勾配損失は,生成ネットワークが幾何構造により集中するのに役立つ。 第2に、勾配写像は手作りであり、構造情報の限られた面のみを捉えることができるため、学習可能なニューラルネットワーク抽出器(NSE)を導入して、よりリッチな局所構造を探索し、より強力なSRの監督を提供することにより、SPSR-Gをさらに拡張する。 NSEを学習するための2つの自己教師型構造学習手法,コントラスト予測とジグソーパズルの解法を提案する。 本手法は,市販のSRネットワークで使用可能なモデルに依存しない。 5つのベンチマークデータセットによる実験結果から,提案手法はLPIPS,PSNR,SSIMの計測値において,最先端の知覚駆動SR法よりも優れていた。 自然なSR画像を生成しながら構造復元における手法の優位性を示す。 コードはhttps://github.com/M aclory/SPSR.comで入手できる。

Structures matter in single image super-resolution (SISR). Benefiting from generative adversarial networks (GANs), recent studies have promoted the development of SISR by recovering photo-realistic images. However, there are still undesired structural distortions in the recovered images. In this paper, we propose a structure-preserving super-resolution (SPSR) method to alleviate the above issue while maintaining the merits of GAN-based methods to generate perceptual-pleasant details. Firstly, we propose SPSR with gradient guidance (SPSR-G) by exploiting gradient maps of images to guide the recovery in two aspects. On the one hand, we restore high-resolution gradient maps by a gradient branch to provide additional structure priors for the SR process. On the other hand, we propose a gradient loss to impose a second-order restriction on the super-resolved images, which helps generative networks concentrate more on geometric structures. Secondly, since the gradient maps are handcrafted and may only be able to capture limited aspects of structural information, we further extend SPSR-G by introducing a learnable neural structure extractor (NSE) to unearth richer local structures and provide stronger supervision for SR. We propose two self-supervised structure learning methods, contrastive prediction and solving jigsaw puzzles, to train the NSEs. Our methods are model-agnostic, which can be potentially used for off-the-shelf SR networks. Experimental results on five benchmark datasets show that the proposed methods outperform state-of-the-art perceptual-driven SR methods under LPIPS, PSNR, and SSIM metrics. Visual results demonstrate the superiority of our methods in restoring structures while generating natural SR images. Code is available at https://github.com/M aclory/SPSR.
翻訳日:2021-09-28 15:27:45 公開日:2021-09-26
# DAMix: 単一画像のデハージングにおける教師なし領域適応のための密度認識データ拡張

DAMix: Density-Aware Data Augmentation for Unsupervised Domain Adaptation on Single Image Dehazing ( http://arxiv.org/abs/2109.12544v1 )

ライセンス: Link先を確認
Chia-Ming Chang, Chang-Sung Sung, Tsung-Nan Lin(参考訳) 学習に基づく手法は,近年,シングルイメージデハージングにおいて大きな成功を収めている。 しかし、これらの手法はドメインシフトに直面すると、しばしば性能が低下する。 具体的には、既存のデータセットの間にはヘイズ密度ギャップが存在し、これらのメソッドがデータセット間でテストされると、しばしばパフォーマンスが低下する。 この問題に対処するために,対象領域のヘイズ密度レベルに応じて合成ヘイズサンプルを生成する密度認識データ拡張法(DAMix)を提案する。 これらのサンプルは、密度認識分布からサンプリングされた組合せ比により、ヘイズ画像と対応する基底真理とを組合せて生成される。 これらは大気散乱モデルに従うだけでなく、ソースとターゲットドメインの間のヘイズ密度ギャップを橋渡しする。 DAMixは、さまざまなヘイズ密度を特徴とするサンプルからモデルを学習することを保証する。 DAMix が生成する様々なヘイズサンプルをよりよく活用するために,2つの枝を含む二重分岐脱ハージングネットワークを開発し,その領域のヘイズ密度に応じてヘイズを適応的に除去する。 さらに、デュアルブランチ設計によりネットワーク全体の学習能力が拡大するので、damix-edサンプルを十分に活用することができる。 既存のオープンソースデハジング手法に適用することにより,damixの有効性を評価する。 実験の結果, DAMix適用後, 全手法で大幅な改善が得られた。 さらに、DAMixと我々のモデルを組み合わせることで、ドメイン適応の観点から最先端(SOTA)の性能を実現することができる。

Learning-based methods have achieved great success on single image dehazing in recent years. However, these methods are often subject to performance degradation when domain shifts are confronted. Specifically, haze density gaps exist among the existing datasets, often resulting in poor performance when these methods are tested across datasets. To address this issue, we propose a density-aware data augmentation method (DAMix) that generates synthetic hazy samples according to the haze density level of the target domain. These samples are generated by combining a hazy image with its corresponding ground truth by a combination ratio sampled from a density-aware distribution. They not only comply with the atmospheric scattering model but also bridge the haze density gap between the source and target domains. DAMix ensures that the model learns from examples featuring diverse haze densities. To better utilize the various hazy samples generated by DAMix, we develop a dual-branch dehazing network involving two branches that can adaptively remove haze according to the haze density of the region. In addition, the dual-branch design enlarges the learning capacity of the entire network; hence, our network can fully utilize the DAMix-ed samples. We evaluate the effectiveness of DAMix by applying it to the existing open-source dehazing methods. The experimental results demonstrate that all methods show significant improvements after DAMix is applied. Furthermore, by combining DAMix with our model, we can achieve state-of-the-art (SOTA) performance in terms of domain adaptation.
翻訳日:2021-09-28 15:27:18 公開日:2021-09-26
# 周波数分散残差ネットワーク

Frequency Disentangled Residual Network ( http://arxiv.org/abs/2109.12556v1 )

ライセンス: Link先を確認
Satya Rajendra Singh, Roshan Reddy Yedla, Shiv Ram Dubey, Rakesh Sanodiya, Wei-Ta Chu(参考訳) ResNet(Residual Networks)は様々なコンピュータビジョンや画像処理アプリケーションに利用されている。 残差接続は勾配流を良くすることでネットワークのトレーニングを改善する。 残留ブロックは、トレーニング可能なパラメータを持つ少数の畳み込み層で構成され、過度に適合する。 さらに、現在の残余ネットワークは、高・低周波情報を適切に利用することができず、ネットワークの一般化能力にも挑戦している。 本稿では,これらの問題に対処するため,周波数不整合残差ネットワーク(FDResNet)を提案する。 具体的には、fdresnetは、低周波コンポーネントと高周波コンポーネントの残差ブロックの分離接続を含む。 提案手法は,低周波成分と高周波成分を分離し,一般化能力を高める。 さらに, 固定フィルタを用いた低周波および高周波成分の計算により, オーバーフィッティングが回避される。 提案モデルは、画像分類のためのベンチマークCIFAR10/100、Caltech、TinyImageNetデータセットでテストされる。 また,提案モデルの性能を画像検索フレームワークで検証した。 提案モデルがそれと相反する残差モデルを上回っていることに気付く。 カーネルサイズと標準偏差の影響も評価した。 また, 周波数分離の影響を, サリエンシマップを用いて解析した。

Residual networks (ResNets) have been utilized for various computer vision and image processing applications. The residual connection improves the training of the network with better gradient flow. A residual block consists of few convolutional layers having trainable parameters, which leads to overfitting. Moreover, the present residual networks are not able to utilize the high and low frequency information suitably, which also challenges the generalization capability of the network. In this paper, a frequency disentangled residual network (FDResNet) is proposed to tackle these issues. Specifically, FDResNet includes separate connections in the residual block for low and high frequency components, respectively. Basically, the proposed model disentangles the low and high frequency components to increase the generalization ability. Moreover, the computation of low and high frequency components using fixed filters further avoids the overfitting. The proposed model is tested on benchmark CIFAR10/100, Caltech and TinyImageNet datasets for image classification. The performance of the proposed model is also tested in image retrieval framework. It is noticed that the proposed model outperforms its counterpart residual model. The effect of kernel size and standard deviation is also evaluated. The impact of the frequency disentangling is also analyzed using saliency map.
翻訳日:2021-09-28 15:26:57 公開日:2021-09-26
# 画像検索のための視覚変換器ハッシュ

Vision Transformer Hashing for Image Retrieval ( http://arxiv.org/abs/2109.12564v1 )

ライセンス: Link先を確認
Shiv Ram Dubey, Satish Kumar Singh, Wei-Ta Chu(参考訳) ディープラーニングは、画像検索のためのハッシュ技術が著しく成長していることを示している。 近年,畳み込みのないセルフアテンションを利用した新しいアーキテクチャとしてトランスフォーマーが登場している。 Transformer は視覚認識のために Vision Transformer (ViT) にも拡張されており、ImageNet 上で有望なパフォーマンスを実現している。 本稿では,画像検索のためのVTS(Vision Transformer Based Hashing)を提案する。 我々は、ImageNet上のトレーニング済みViTをバックボーンネットワークとして利用し、ハッシュヘッドを追加する。 提案するVTSモデルは,Deep Supervised Hashing (DSH), HashNet, GreedyHash, Improved Deep Hashing Network (IDHN), Deep Polarized Network (DPN), Central similarity Quantization (CSQ) の6つの画像検索フレームワーク下でのハッシュ処理に最適である。 CIFAR10, ImageNet, NUS-Wide, COCOデータセットに関する広範な実験を行った。 提案したVTSに基づく画像検索は,最近の最先端のハッシュ技術よりも高いマージンを有する。 また、バックボーンネットワークが既存のネットワークであるAlexNetやResNetよりも優れているため、提案したVTSモデルも見出す。

Deep learning has shown a tremendous growth in hashing techniques for image retrieval. Recently, Transformer has emerged as a new architecture by utilizing self-attention without convolution. Transformer is also extended to Vision Transformer (ViT) for the visual recognition with a promising performance on ImageNet. In this paper, we propose a Vision Transformer based Hashing (VTS) for image retrieval. We utilize the pre-trained ViT on ImageNet as the backbone network and add the hashing head. The proposed VTS model is fine tuned for hashing under six different image retrieval frameworks, including Deep Supervised Hashing (DSH), HashNet, GreedyHash, Improved Deep Hashing Network (IDHN), Deep Polarized Network (DPN) and Central Similarity Quantization (CSQ) with their objective functions. We perform the extensive experiments on CIFAR10, ImageNet, NUS-Wide, and COCO datasets. The proposed VTS based image retrieval outperforms the recent state-of-the-art hashing techniques with a great margin. We also find the proposed VTS model as the backbone network is better than the existing networks, such as AlexNet and ResNet.
翻訳日:2021-09-28 15:26:43 公開日:2021-09-26
# 対話からの個人属性の抽出と推定

Extracting and Inferring Personal Attributes from Dialogue ( http://arxiv.org/abs/2109.12702v1 )

ライセンス: Link先を確認
Zhilin Wang, Xuhui Zhou, Rik Koncel-Kedziorski, Alex Marin, Fei Xia(参考訳) 個人属性は、趣味、ペット、家族、好き嫌い、嫌いといった人に関する構造化情報を表す。 本研究では,人間の対話から個人属性を抽出し,推定するタスクを紹介する。 まず,ソーシャルchit-chat対話モデルとタスク指向対話設定における個人属性の導入の利点を示す。 そこで我々は,個人属性抽出と推論のタスクを提案し,これらのタスクの言語的要求を分析する。 これらの課題を満たすために,制約付き属性生成と識別型リカクタを併用した自己回帰型言語モデルを組み合わせた,単純で拡張可能なモデルを提案する。 本モデルでは,個人属性を抽出する上での強靭なベースラインと,発話中に冗長でない個人属性を推定する上で,日常会話で頻繁に発生する常識推論や語彙推論を必要とする。

Personal attributes represent structured information about a person, such as their hobbies, pets, family, likes and dislikes. In this work, we introduce the tasks of extracting and inferring personal attributes from human-human dialogue. We first demonstrate the benefit of incorporating personal attributes in a social chit-chat dialogue model and task-oriented dialogue setting. Thus motivated, we propose the tasks of personal attribute extraction and inference, and then analyze the linguistic demands of these tasks. To meet these challenges, we introduce a simple and extensible model that combines an autoregressive language model utilizing constrained attribute generation with a discriminative reranker. Our model outperforms strong baselines on extracting personal attributes as well as inferring personal attributes that are not contained verbatim in utterances and instead requires commonsense reasoning and lexical inferences, which occur frequently in everyday conversation.
翻訳日:2021-09-28 15:25:07 公開日:2021-09-26
# 説明可能性の落とし穴 - 説明可能なAIのダークパターンを越えて

Explainability Pitfalls: Beyond Dark Patterns in Explainable AI ( http://arxiv.org/abs/2109.12480v1 )

ライセンス: Link先を確認
Upol Ehsan, Mark O. Riedl(参考訳) 説明可能なAI(XAI)システムを信頼できるものにするためには、有害な影響を理解することが、十分に設計された説明を生み出すのと同じくらい重要である。 本稿では,XAIにおける重要な負の効果について述べる。 ユーザを操作する意図がない場合でも、AIの説明から予期せぬ負の下流効果を示す説明可能性落とし穴(EP)を導入する。 EPは、意図的に欺くプラクティスであるダークパターンとは異なるが、関連している。 我々は、epsの概念を暗黒パターンと区別し、落とし穴に関する不確実性から生じる課題を強調することで強調する。 我々は、最善意にもかかわらず、数値的な説明に対する不当な信頼などの否定的な影響が如何に現れるかを示すケーススタディを用いて、概念を定式化し、運用する。 我々は,研究,設計,組織という3つの相互接続レベルでepsに対処するための積極的かつ予防的な戦略を提案する。

To make Explainable AI (XAI) systems trustworthy, understanding harmful effects is just as important as producing well-designed explanations. In this paper, we address an important yet unarticulated type of negative effect in XAI. We introduce explainability pitfalls(EPs), unanticipated negative downstream effects from AI explanations manifesting even when there is no intention to manipulate users. EPs are different from, yet related to, dark patterns, which are intentionally deceptive practices. We articulate the concept of EPs by demarcating it from dark patterns and highlighting the challenges arising from uncertainties around pitfalls. We situate and operationalize the concept using a case study that showcases how, despite best intentions, unsuspecting negative effects such as unwarranted trust in numerical explanations can emerge. We propose proactive and preventative strategies to address EPs at three interconnected levels: research, design, and organizational.
翻訳日:2021-09-28 15:22:25 公開日:2021-09-26
# SimpleX: コラボレーションフィルタリングのためのシンプルで強力なベースライン

SimpleX: A Simple and Strong Baseline for Collaborative Filtering ( http://arxiv.org/abs/2109.12613v1 )

ライセンス: Link先を確認
Kelong Mao, Jieming Zhu, Jinpeng Wang, Quanyu Dai, Zhenhua Dong, Xi Xiao, Xiuqiang He(参考訳) 協調フィルタリング(CF)は推薦システムにおいて広く研究されている研究テーマである。 CFモデルの学習は一般的に、相互作用エンコーダ、損失関数、負サンプリングという3つの主要なコンポーネントに依存する。 既存の多くの研究はより強力な相互作用エンコーダの設計に焦点を当てているが、損失関数と負のサンプリング比の影響はまだ十分に研究されていない。 本研究では,損失関数の選択と負のサンプリング比が同等に重要であることを示す。 より具体的には、コサインコントラスト損失(CCL)を提案し、さらにSimpleXと呼ばれる単純な統合CFモデルに組み込む。 11のベンチマークデータセットで広範な実験が行われ、合計で29の既存のcfモデルと比較された。 驚くべきことに、我々のCCL損失と大きな負のサンプリング比の下で、SimpleXは最も洗練された最先端のモデルを大きなマージン(例えば、LightGCNよりもNDCG@20が最大48.5%改善)で上回ることができる。 我々は,SimpleXがCFの今後の研究を促進するための単純な強力なベースラインとして機能するだけでなく,損失関数と負サンプリングの改善に向けた潜在的研究の方向性にも光を当てることができると考えている。

Collaborative filtering (CF) is a widely studied research topic in recommender systems. The learning of a CF model generally depends on three major components, namely interaction encoder, loss function, and negative sampling. While many existing studies focus on the design of more powerful interaction encoders, the impacts of loss functions and negative sampling ratios have not yet been well explored. In this work, we show that the choice of loss function as well as negative sampling ratio is equivalently important. More specifically, we propose the cosine contrastive loss (CCL) and further incorporate it to a simple unified CF model, dubbed SimpleX. Extensive experiments have been conducted on 11 benchmark datasets and compared with 29 existing CF models in total. Surprisingly, the results show that, under our CCL loss and a large negative sampling ratio, SimpleX can surpass most sophisticated state-of-the-art models by a large margin (e.g., max 48.5% improvement in NDCG@20 over LightGCN). We believe that SimpleX could not only serve as a simple strong baseline to foster future research on CF, but also shed light on the potential research direction towards improving loss function and negative sampling.
翻訳日:2021-09-28 15:22:09 公開日:2021-09-26
# 固有センシングによる手指外触覚操作の可能性について

On the Feasibility of Learning Finger-gaiting In-hand Manipulation with Intrinsic Sensing ( http://arxiv.org/abs/2109.12720v1 )

ライセンス: Link先を確認
Gagan Khandate, Maxmillian Haas-Heger, Matei Ciocarlie(参考訳) 指を外す操作は、物体の大きな角度を逆向きにするために重要な技術である。 しかし, 作業の不安定な性質のため, 任意の方向の手でこれらの歩行を実現することは困難である。 本研究では, モデルフリー強化学習(rl)を用いて, 精度把握のみを通してフィンガーゲイティングを学習し, 知覚・触覚フィードバックを用いて純粋に軸回りに回転するフィンガーゲイティングを実演する。 精度把握の固有の不安定性に取り組むために, 状態空間の効率的な探索を可能にする初期状態分布の利用を提案する。 本手法は,最先端の手法よりも,試料の複雑さを著しく改善して,指の利き方を学ぶことができる。 私たちが得るポリシーは堅牢で、新しいオブジェクトにも移行します。

Finger-gaiting manipulation is an important skill to achieve large-angle in-hand re-orientation of objects. However, achieving these gaits with arbitrary orientations of the hand is challenging due to the unstable nature of the task. In this work, we use model-free reinforcement learning (RL) to learn finger-gaiting only via precision grasps and demonstrate finger-gaiting for rotation about an axis purely using on-board proprioceptive and tactile feedback. To tackle the inherent instability of precision grasping, we propose the use of initial state distributions that enable effective exploration of the state space. Our method can learn finger-gaiting with significantly improved sample complexity than the state-of-the-art. The policies we obtain are robust and also transfer to novel objects.
翻訳日:2021-09-28 15:21:48 公開日:2021-09-26
# 並列ネットワーク学習フレームワークを用いたMRI再構成のための自己教師付き学習

Self-Supervised Learning for MRI Reconstruction with a Parallel Network Training Framework ( http://arxiv.org/abs/2109.12502v1 )

ライセンス: Link先を確認
Chen Hu, Cheng Li, Haifeng Wang, Qiegen Liu, Hairong Zheng and Shanshan Wang(参考訳) アンサンプされたk空間データからの画像再構成は,MRデータの獲得を促進する上で重要な役割を担い,近年,多くの深層学習手法が活用されている。 達成されたインスピレーションの結果にもかかわらず、これらの手法の最適化は一般的に、時間と収集が困難である完全サンプリングされた参照データに依存している。 そこで本研究では,新たな自己教師型学習手法を提案する。 具体的には、モデル最適化において、アンダーサンプルデータからk空間データの一部をランダムに選択し、2つの並列再構成ネットワークに入力して情報回復を行う。 スキャンされた全データポイントに2つの再構成損失が定義され、周波数情報を回復するネットワークの能力が向上する。 一方、学習したネットワークの未スキャンデータポイントを制限するために、2つの並列ネットワーク間の一貫性を強制するために差分損失を設計する。 このようにして、アンダーサンプルデータのみを用いて再構成モデルを適切に訓練することができる。 モデル評価において、アンダーサンプルデータを入力として扱い、2つのトレーニングされたネットワークのいずれかが高品質な結果の再構築を期待する。 提案手法は柔軟であり,既存の深層学習法でも適用可能である。 本手法の有効性を、オープン脳MRIデータセットを用いて評価する。 実験の結果, 提案手法は, 高加速率 (4, 8) の教師あり学習法と比較して, 競争力のある再構築性能が得られることがわかった。 コードは \url{https://github.com/c henhu96/Self-Supervi sed-MRI-Reconstructi on} で公開されている。

Image reconstruction from undersampled k-space data plays an important role in accelerating the acquisition of MR data, and a lot of deep learning-based methods have been exploited recently. Despite the achieved inspiring results, the optimization of these methods commonly relies on the fully-sampled reference data, which are time-consuming and difficult to collect. To address this issue, we propose a novel self-supervised learning method. Specifically, during model optimization, two subsets are constructed by randomly selecting part of k-space data from the undersampled data and then fed into two parallel reconstruction networks to perform information recovery. Two reconstruction losses are defined on all the scanned data points to enhance the network's capability of recovering the frequency information. Meanwhile, to constrain the learned unscanned data points of the network, a difference loss is designed to enforce consistency between the two parallel networks. In this way, the reconstruction model can be properly trained with only the undersampled data. During the model evaluation, the undersampled data are treated as the inputs and either of the two trained networks is expected to reconstruct the high-quality results. The proposed method is flexible and can be employed in any existing deep learning-based method. The effectiveness of the method is evaluated on an open brain MRI dataset. Experimental results demonstrate that the proposed self-supervised method can achieve competitive reconstruction performance compared to the corresponding supervised learning method at high acceleration rates (4 and 8). The code is publicly available at \url{https://github.com/c henhu96/Self-Supervi sed-MRI-Reconstructi on}.
翻訳日:2021-09-28 15:17:48 公開日:2021-09-26
# MEMS LiDARの内部時間同期のための簡易自己校正法

A Simple Self-calibration Method for The Internal Time Synchronization of MEMS LiDAR ( http://arxiv.org/abs/2109.12506v1 )

ライセンス: Link先を確認
Yu Zhang, Xiaoguang Di, Shiyu Yan, Bin Zhang, Baoling Qi and Chunhui Wang(参考訳) 本稿では,MEMS(マイクロエレクトロメカニカルシステム) LiDAR の内部時間同期のための簡単な自己校正手法を提案する。 まず,MEMSライダーにおける内部時間ずれの問題を紹介した。 次に,レーザーミラーとMEMSミラーの時間差を,人工的参加や特別に設計された協調目標を伴わずに自動的に計算できる,頑健な最小垂直勾配(MVG)が提案される。 最後に,MEMS LiDARの実際の実験を行い,提案手法の有効性を実証した。 キャリブレーションは、機器や人為的な参加を一切必要とせず、簡単な実験室環境で実施することができ、実用化における研究開発の進展を大いに加速する。

This paper proposes a simple self-calibration method for the internal time synchronization of MEMS(Micro-electrome chanical systems) LiDAR during research and development. Firstly, we introduced the problem of internal time misalignment in MEMS lidar. Then, a robust Minimum Vertical Gradient(MVG) prior is proposed to calibrate the time difference between the laser and MEMS mirror, which can be calculated automatically without any artificial participation or specially designed cooperation target. Finally, actual experiments on MEMS LiDARs are implemented to demonstrate the effectiveness of the proposed method. It should be noted that the calibration can be implemented in a simple laboratory environment without any ranging equipment and artificial participation, which greatly accelerate the progress of research and development in practical applications.
翻訳日:2021-09-28 15:17:25 公開日:2021-09-26
# 時間的興味検出とキーフレーム予測を用いた映像要約手法

A Video Summarization Method Using Temporal Interest Detection and Key Frame Prediction ( http://arxiv.org/abs/2109.12581v1 )

ライセンス: Link先を確認
Yubo An and Shenghui Zhao(参考訳) 本稿では,映像要約をシーケンスラベリングと時間的関心検出の組合せとして定式化した教師付き映像要約に対して,時間的関心検出と鍵フレーム予測を用いた映像要約法を提案する。 提案手法では,まず,フレームレベルの重要度スコアと時間的関心セグメントを同時に予測するフレキシブルなユニバーサルネットワークフレームを構築し,その2つのコンポーネントを異なる重み付けで組み合わせ,より詳細な映像要約を実現する。 2つのベンチマークデータセットの大規模な実験と解析により,本手法の有効性が証明された。 具体的には、他の最先端の方法と比較して、TVSumとSumMeでそれぞれ2.6%と4.2%のパフォーマンスが向上している。

In this paper, a Video Summarization Method using Temporal Interest Detection and Key Frame Prediction is proposed for supervised video summarization, where video summarization is formulated as a combination of sequence labeling and temporal interest detection problem. In our method, we firstly built a flexible universal network frame to simultaneously predicts frame-level importance scores and temporal interest segments, and then combine the two components with different weights to achieve a more detailed video summarization. Extensive experiments and analysis on two benchmark datasets prove the effectiveness of our method. Specifically, compared with other state-of-the-art methods, its performance is increased by at least 2.6% and 4.2% on TVSum and SumMe respectively.
翻訳日:2021-09-28 15:17:13 公開日:2021-09-26
# 容積的医用画像分割のための群シフト方向畳み込み

Group Shift Pointwise Convolution for Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2109.12629v1 )

ライセンス: Link先を確認
Junjun He, Jin Ye, Cheng Li, Diping Song, Wanli Chen, Shanshan Wang, Lixu Gu, and Yu Qiao(参考訳) 近年の研究では、体積医用画像の分割における3次元畳み込みの有効性が確認されている。 2次元に比べて、3次元の畳み込みは空間コンテキストを3次元で捉えることができる。 それでも、3d畳み込みを使用するモデルは、より訓練可能なパラメータを導入し、計算が複雑になり、特に利用可能なトレーニングデータが少ない医療アプリケーションでは、過剰フィッティングのモデル化が容易になる。 本稿では,GSP-Conv(Group Shift Pointwise Convolution)を導入することで,3次元畳み込みの有効性と効率を向上させることを目的とする。 gsp-convは3d畳み込みを1x1x1カーネルでポイントワイズに単純化し、モデルパラメータとフロップの数を劇的に削減する(例えば3x3x3カーネルの3d畳み込みより27倍少ない)。 限られた受容場を持つna\"ive pointwise畳み込みは、空間的イメージコンテキストをフルに利用することはできない。 この問題に対処するために,空間方向の異なる特徴マップをエレガントな方法でシフトする,パラメータフリーなグループシフト(GS)を提案する。 GSでは、ポイントワイズ畳み込みは異なる空間位置からの特徴にアクセスでき、ポイントワイズ畳み込みの限られた受容領域を補償することができる。 提案手法をProMISE12とBraTS18の2つのデータセット上で評価した。 その結果,3次元畳み込みを用いたモデルと同等あるいはそれ以上の性能が得られることがわかった。

Recent studies have witnessed the effectiveness of 3D convolutions on segmenting volumetric medical images. Compared with the 2D counterparts, 3D convolutions can capture the spatial context in three dimensions. Nevertheless, models employing 3D convolutions introduce more trainable parameters and are more computationally complex, which may lead easily to model overfitting especially for medical applications with limited available training data. This paper aims to improve the effectiveness and efficiency of 3D convolutions by introducing a novel Group Shift Pointwise Convolution (GSP-Conv). GSP-Conv simplifies 3D convolutions into pointwise ones with 1x1x1 kernels, which dramatically reduces the number of model parameters and FLOPs (e.g. 27x fewer than 3D convolutions with 3x3x3 kernels). Na\"ive pointwise convolutions with limited receptive fields cannot make full use of the spatial image context. To address this problem, we propose a parameter-free operation, Group Shift (GS), which shifts the feature maps along with different spatial directions in an elegant way. With GS, pointwise convolutions can access features from different spatial locations, and the limited receptive fields of pointwise convolutions can be compensated. We evaluate the proposed methods on two datasets, PROMISE12 and BraTS18. Results show that our method, with substantially decreased model complexity, achieves comparable or even better performance than models employing 3D convolutions.
翻訳日:2021-09-28 15:16:59 公開日:2021-09-26
# 3次元頭頸部ct画像における高精度臓器分割のための新しい複合畳み込みニューラルネットワーク

A Novel Hybrid Convolutional Neural Network for Accurate Organ Segmentation in 3D Head and Neck CT Images ( http://arxiv.org/abs/2109.12634v1 )

ライセンス: Link先を確認
Zijie Chen, Cheng Li, Junjun He, Jin Ye, Diping Song, Shanshan Wang, Lixu Gu, and Yu Qiao(参考訳) 放射線治療(RT)は頭頸部癌(HaN)治療クリニックで広く用いられている。 RTプランニングの重要なステップは、HaNCT画像における様々な臓器-リスク(OAR)の正確なセグメンテーションである。 それでも、通常のHaN CT画像は数十から数百のスライスを含んでいるので、手動でOARを分割するのは時間を要するし、面倒で、エラーを起こしやすい。 自動セグメンテーションアルゴリズムは緊急に必要である。 近年,この課題に対して畳み込みニューラルネットワーク(CNN)が広く研究されている。 特に3d cnnは3d han ct画像の処理によく用いられる。 na\"ive 3D CNNには2つの問題がある。 まず、3d ct画像の深度分解能は通常、平面内解像度の何倍も低い。 この差分を区別しない3D CNNの直接使用は、歪み画像の特徴の抽出と最終的なセグメンテーション性能に影響を与える可能性がある。 第二に、深刻な階級不均衡の問題があり、大きな臓器は小さな臓器の何倍も大きい。 すべての臓器の正確なセグメンテーションを同時に達成することは困難である。 これらの課題に対処するために,2次元と3次元の畳み込みを融合させて異なる空間解像度に対処し,3次元HaNCT画像から効果的なエッジとセマンティック特徴を抽出するハイブリッドCNNを提案する。 大小の臓器に対応するため,OrganNet2.5Dと呼ばれる最終モデルは,古典的な4つのダウンサンプリング操作の代わりに2つのみで構成され,各領域を維持するためにハイブリッド拡張畳み込みを導入する。 MICCAI 2015チャレンジデータセットの実験は、OrganNet2.5Dが最先端の手法と比較して有望なパフォーマンスを達成することを示した。

Radiation therapy (RT) is widely employed in the clinic for the treatment of head and neck (HaN) cancers. An essential step of RT planning is the accurate segmentation of various organs-at-risks (OARs) in HaN CT images. Nevertheless, segmenting OARs manually is time-consuming, tedious, and error-prone considering that typical HaN CT images contain tens to hundreds of slices. Automated segmentation algorithms are urgently required. Recently, convolutional neural networks (CNNs) have been extensively investigated on this task. Particularly, 3D CNNs are frequently adopted to process 3D HaN CT images. There are two issues with na\"ive 3D CNNs. First, the depth resolution of 3D CT images is usually several times lower than the in-plane resolution. Direct employment of 3D CNNs without distinguishing this difference can lead to the extraction of distorted image features and influence the final segmentation performance. Second, a severe class imbalance problem exists, and large organs can be orders of times larger than small organs. It is difficult to simultaneously achieve accurate segmentation for all the organs. To address these issues, we propose a novel hybrid CNN that fuses 2D and 3D convolutions to combat the different spatial resolutions and extract effective edge and semantic features from 3D HaN CT images. To accommodate large and small organs, our final model, named OrganNet2.5D, consists of only two instead of the classic four downsampling operations, and hybrid dilated convolutions are introduced to maintain the respective field. Experiments on the MICCAI 2015 challenge dataset demonstrate that OrganNet2.5D achieves promising performance compared to state-of-the-art methods.
翻訳日:2021-09-28 15:16:34 公開日:2021-09-26
# Nesterov Accelerated ADMM for Fast Diffomorphic Image Registration

Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration ( http://arxiv.org/abs/2109.12688v1 )

ライセンス: Link先を確認
Alexander Thorley, Xi Jia, Hyung Jin Chang, Boyang Liu, Karina Bunting, Victoria Stoll, Antonio de Marvao, Declan P. O'Regan, Georgios Gkoutos, Dipak Kotecha, Jinming Duan(参考訳) 反復最適化を用いた決定論的アプローチは、歴史的に拡散型画像登録(DiffIR)で成功している。 これらのアプローチは非常に正確であるが、通常はかなりの計算負荷を負う。 ディープラーニングに基づく確率論的手法の最近の発展は、DiffIRのサブ秒間実行を競合登録精度で達成し、従来の反復法に代わる高速な代替手段を提供している。 本稿では,DiffIRにおける反復的アプローチの性能優位性を保ちながら,この速度差を低減しようとする。 まず, 画像中の大きな変形を処理するために, 中間定常速度場を関数的に構成する簡易な反復法を提案する。 次に、任意の順序の正規化項を用いてこれらの速度場に滑らかさを課す凸最適化モデルを提案し、このモデルをNesterov勾配降下法と乗算器の交互方向法(ADMM)を組み合わせた高速アルゴリズムで解く。 最後に、GPUの計算能力を活用して、この高速化ADMMソルバを3次元心臓MRIデータセット上に実装し、ランタイムを2秒未満に短縮する。 本手法は, 厳密な二相変形を生成することに加えて, 最先端のディープラーニング法と反復的差分法を, dice と hausdorff のスコアで上回り, 深層学習法では推定時間に近づく速度で上回っている。

Deterministic approaches using iterative optimisation have been historically successful in diffeomorphic image registration (DiffIR). Although these approaches are highly accurate, they typically carry a significant computational burden. Recent developments in stochastic approaches based on deep learning have achieved sub-second runtimes for DiffIR with competitive registration accuracy, offering a fast alternative to conventional iterative methods. In this paper, we attempt to reduce this difference in speed whilst retaining the performance advantage of iterative approaches in DiffIR. We first propose a simple iterative scheme that functionally composes intermediate non-stationary velocity fields to handle large deformations in images whilst guaranteeing diffeomorphisms in the resultant deformation. We then propose a convex optimisation model that uses a regularisation term of arbitrary order to impose smoothness on these velocity fields and solve this model with a fast algorithm that combines Nesterov gradient descent and the alternating direction method of multipliers (ADMM). Finally, we leverage the computational power of GPU to implement this accelerated ADMM solver on a 3D cardiac MRI dataset, further reducing runtime to less than 2 seconds. In addition to producing strictly diffeomorphic deformations, our methods outperform both state-of-the-art deep learning-based and iterative DiffIR approaches in terms of dice and Hausdorff scores, with speed approaching the inference time of deep learning-based methods.
翻訳日:2021-09-28 15:16:06 公開日:2021-09-26
# 自律最小侵襲ロボット手術におけるロバスト不確実性推定によるマーカーレス縫合針6Dポッド追跡

Markerless Suture Needle 6D Pose Tracking with Robust Uncertainty Estimation for Autonomous Minimally Invasive Robotic Surgery ( http://arxiv.org/abs/2109.12722v1 )

ライセンス: Link先を確認
Zih-Yun Chiu, Albert Z Liao, Florian Richter, Bjorn Johnson, and Michael C. Yip(参考訳) 縫合針の局所化は自律縫合において重要な役割を果たす。 縫合針の6Dポーズを強固に追跡するために、従来のアプローチでは針にマーカーを追加したり、特徴抽出のための複雑な操作を行なっていた。 そこで本研究では,ベイズフィルタを用いたマーカーレス縫合針ポーズトラッキングの新しい手法を提案する。 データ効率の良い特徴点検出器を訓練して針の特徴点を抽出する。 そして,これらの検出に基づいて,針の予測射影と検出の重なりを計測し,効率よく計算できる新しい観察モデルを提案する。 また,提案手法では,観測ノイズの共分散の近似を導出し,検出の不確実性に対してより堅牢なモデルを実現する。 シミュレーション実験の結果,提案した観測モデルでは,約1.5mmの位置と1度の位置の追跡誤差が低いことがわかった。 また,実環境において提案手法を併用したマーカーレス特徴検出器の質的評価結果を示す。 その結果,実ポーズの投影と実ポーズの投影との間に高い一貫性が示された。

Suture needle localization plays a crucial role towards autonomous suturing. To track the 6D pose of a suture needle robustly, previous approaches usually add markers on the needle or perform complex operations for feature extraction, making these methods difficult to be applicable to real-world environments. Therefore in this work, we present a novel approach for markerless suture needle pose tracking using Bayesian filters. A data-efficient feature point detector is trained to extract the feature points on the needle. Then based on these detections, we propose a novel observation model that measures the overlap between the detections and the expected projection of the needle, which can be calculated efficiently. In addition, for the proposed method, we derive the approximation for the covariance of the observation noise, making this model more robust to the uncertainty in the detections. The experimental results in simulation show that the proposed observation model achieves low tracking errors of approximately 1.5mm in position in space and 1 degree in orientation. We also demonstrate the qualitative results of our trained markerless feature detector combined with the proposed observation model in real-world environments. The results show high consistency between the projection of the tracked pose and that of the real pose.
翻訳日:2021-09-28 15:15:32 公開日:2021-09-26
# 畳み込みニューラルネットワークのための曲率注入適応モーメント最適化器

Curvature Injected Adaptive Momentum Optimizer for Convolutional Neural Networks ( http://arxiv.org/abs/2109.12504v1 )

ライセンス: Link先を確認
Shiv Ram Dubey, S.H. Shabbeer Basha, Satish Kumar Singh, Bidyut Baran Chaudhuri(参考訳) 本稿では,適応運動量で曲率情報を注入することにより,勾配降下最適化器のための新しいアプローチAdaInjectを提案する。 具体的には、更新ルールに第2次モーメントを注入する重みとして曲率情報を用いる。 曲率情報は、短期パラメータ履歴を介して取得される。 adainjectアプローチは、曲率情報を活用してパラメータ更新を促進する。 提案手法は本質的に汎用的であり,任意の適応運動量確率勾配最適化器と統合可能である。 AdaInjectオプティマイザの有効性は、理論解析とおもちゃの例を用いて検証される。 また,提案したインジェクションベースオプティマイザの収束特性を示す。 さらに,adainjectアプローチの有効性を,4つのベンチマークデータセット上で,最先端オプティマイザ,すなわちadaminject,diffgradi nject,radaminject,ad abeliefinjectと連携して,広範な実験を通じて記述する。 実験には様々なCNNモデルが使用されている。 CIFAR10データセット上のResNeXt29モデルでdiffGradInjectオプティマイザを使用して、トップ-1の分類エラー率を16.54.%$で改善した。 全体としては,提案するadainjectアプローチによる既存のオプティマイザの性能向上が期待できる。

In this paper, we propose a new approach, hereafter referred as AdaInject, for the gradient descent optimizers by injecting the curvature information with adaptive momentum. Specifically, the curvature information is used as a weight to inject the second order moment in the update rule. The curvature information is captured through the short-term parameter history. The AdaInject approach boosts the parameter update by exploiting the curvature information. The proposed approach is generic in nature and can be integrated with any existing adaptive momentum stochastic gradient descent optimizers. The effectiveness of the AdaInject optimizer is tested using a theoretical analysis as well as through toy examples. We also show the convergence property of the proposed injection based optimizer. Further, we depict the efficacy of the AdaInject approach through extensive experiments in conjunction with the state-of-the-art optimizers, i.e., AdamInject, diffGradInject, RadamInject, and AdaBeliefInject on four benchmark datasets. Different CNN models are used in the experiments. A highest improvement in the top-1 classification error rate of $16.54\%$ is observed using diffGradInject optimizer with ResNeXt29 model over the CIFAR10 dataset. Overall, we observe very promising performance improvement of existing optimizers with the proposed AdaInject approach.
翻訳日:2021-09-28 15:12:36 公開日:2021-09-26
# 人間の指導による優先経験に基づく強化学習 : メソロジーと自律運転への応用

Prioritized Experience-based Reinforcement Learning with Human Guidance: Methdology and Application to Autonomous Driving ( http://arxiv.org/abs/2109.12516v1 )

ライセンス: Link先を確認
Jingda Wu, Zhiyu Huang, Wenhui Huang, Chen Lv(参考訳) 強化学習には、最適化と制御の問題を解決するための巧妙な定義と卓越した計算努力が必要である。 強化学習に人間の指導を導入することは、学習性能を改善する有望な方法である。 本稿では,人間指導に基づく強化学習フレームワークを総合的に構築する。 強化学習アルゴリズムの効率性と性能を高めるために,強化学習プロセスにおいて人間の指導に適応する新たな優先体験再生機構を提案する。 人間の作業負荷を軽減するため,人間の行動を模倣するインクリメンタルオンライン学習法に基づいて行動モデルを構築した。 我々は提案アルゴリズムを評価するために2つの挑戦的な自律運転タスクを設計する。 提案アルゴリズムのトレーニングおよびテスト性能および学習機構にアクセスするための実験を行った。 最新技術との比較結果は,学習効率,性能,ロバスト性の観点から,アルゴリズムの利点を示唆する。

Reinforcement learning requires skillful definition and remarkable computational efforts to solve optimization and control problems, which could impair its prospect. Introducing human guidance into reinforcement learning is a promising way to improve learning performance. In this paper, a comprehensive human guidance-based reinforcement learning framework is established. A novel prioritized experience replay mechanism that adapts to human guidance in the reinforcement learning process is proposed to boost the efficiency and performance of the reinforcement learning algorithm. To relieve the heavy workload on human participants, a behavior model is established based on an incremental online learning method to mimic human actions. We design two challenging autonomous driving tasks for evaluating the proposed algorithm. Experiments are conducted to access the training and testing performance and learning mechanism of the proposed algorithm. Comparative results against the state-of-the-arts suggest the advantages of our algorithm in terms of learning efficiency, performance, and robustness.
翻訳日:2021-09-28 15:12:13 公開日:2021-09-26
# AsySQN: 計算資源利用を向上した高速垂直フェデレーション学習アルゴリズム

AsySQN: Faster Vertical Federated Learning Algorithms with Better Computation Resource Utilization ( http://arxiv.org/abs/2109.12519v1 )

ライセンス: Link先を確認
Qingsong Zhang, Bin Gu, Cheng Deng, Songxiang Gu, Liefeng Bo, Jian Pei, and Heng Huang(参考訳) 垂直連合学習(英: vertical federated learning, vfl)は、新しい組織間学習(企業、企業、組織など)とプライバシー保護の協調学習を訓練する効果的なパラダイムである。 確率勾配降下法 (sgd) は, 文単位の計算量が少ないため, vflモデルの訓練によく用いられる。 しかし、既存のSGDベースのVFLアルゴリズムは、多数の通信ラウンドのため、通信に精通している。 一方、既存のvflアルゴリズムの多くは、実世界のアプリケーションにおける計算資源の利用を著しく阻害する同期計算を用いる。 通信と計算資源利用の課題に対処するために,vflのための非同期確率的準ニュートン(asysqn)フレームワークを提案し,その3つのアルゴリズム,すなわちasysqn-sgd,-svrg,-sa gaを提案する。 提案するasysqn型アルゴリズムでは,逆ヘッセン行列を明示的に計算することなく,下降ステップを近似的にスケールできるため,sgd法よりもはるかに高速に情報収束できるため,通信ラウンド数を劇的に削減できる。 さらに、非同期計算を採用することで、計算リソースをより活用することができる。 強凸問題に対する提案アルゴリズムの収束率を理論的に証明する。 実単語データセットに対する大規模な数値実験により,最先端のVFLアルゴリズムと比較して,通信コストの低減と,アルゴリズムの計算資源利用性の向上が示された。

Vertical federated learning (VFL) is an effective paradigm of training the emerging cross-organizational (e.g., different corporations, companies and organizations) collaborative learning with privacy preserving. Stochastic gradient descent (SGD) methods are the popular choices for training VFL models because of the low per-iteration computation. However, existing SGD-based VFL algorithms are communication-expens ive due to a large number of communication rounds. Meanwhile, most existing VFL algorithms use synchronous computation which seriously hamper the computation resource utilization in real-world applications. To address the challenges of communication and computation resource utilization, we propose an asynchronous stochastic quasi-Newton (AsySQN) framework for VFL, under which three algorithms, i.e. AsySQN-SGD, -SVRG and -SAGA, are proposed. The proposed AsySQN-type algorithms making descent steps scaled by approximate (without calculating the inverse Hessian matrix explicitly) Hessian information convergence much faster than SGD-based methods in practice and thus can dramatically reduce the number of communication rounds. Moreover, the adopted asynchronous computation can make better use of the computation resource. We theoretically prove the convergence rates of our proposed algorithms for strongly convex problems. Extensive numerical experiments on real-word datasets demonstrate the lower communication costs and better computation resource utilization of our algorithms compared with state-of-the-art VFL algorithms.
翻訳日:2021-09-28 15:12:00 公開日:2021-09-26
# クリックスルーレート予測のための動的逐次グラフ学習

Dynamic Sequential Graph Learning for Click-Through Rate Prediction ( http://arxiv.org/abs/2109.12541v1 )

ライセンス: Link先を確認
Yunfei Chu, Xiaofu Chang, Kunyang Jia, Jingzhen Zhou and Hongxia Yang(参考訳) クリックスルー率予測はレコメンダシステムやその他の多くのアプリケーションにおいて重要な役割を果たす。 既存手法は主にユーザの履歴行動からユーザ関心を抽出する。 しかしながら、行動シーケンスは、システムの露出によって制限される、ユーザの直接対話されたアイテムのみを含むため、潜在的関心事をすべて反映するほどに富みがないことが多い。 本稿では,ユーザやアイテムに関連付けられたローカルサブグラフからのコラボレーティブ情報を利用して,ユーザやアイテムの表現を強化するダイナミックシーケンシャルグラフ学習(dsgl)という新しい手法を提案する。 具体的には、動的シーケンスグラフ(DSG)、すなわち、歴史的相互作用からタイムスタンプが誘導される軽量なエゴグラフを設計する。 各スコアリングモーメントにおいて,対象ユーザと候補項目のDSGをそれぞれ構築する。 DSGに基づいて,グラフ畳み込み操作をボトムアップ方式で反復的に行い,対象ユーザと候補項目の最終的な表現を得る。 グラフ畳み込みについては,対話時間情報と時間的依存性を活用し,進化的ユーザとアイテムのダイナミクスを学習する時間認識型シーケンシャルエンコーディング層を設計する。 さらに、優先認識型注意モジュールと目標認識型注意モジュールから構成される目標参照デュアルアテンション層を提案し、対象に関連のある行動を自動的に探索し、信頼できない隣人からの騒音を緩和する。 実世界のCTR予測ベンチマークの結果は、DSGLによる改善を実証している。

Click-through rate prediction plays an important role in the field of recommender system and many other applications. Existing methods mainly extract user interests from user historical behaviors. However, behavioral sequences only contain users' directly interacted items, which are limited by the system's exposure, thus they are often not rich enough to reflect all the potential interests. In this paper, we propose a novel method, named Dynamic Sequential Graph Learning (DSGL), to enhance users or items' representations by utilizing collaborative information from the local sub-graphs associated with users or items. Specifically, we design the Dynamic Sequential Graph (DSG), i.e., a lightweight ego subgraph with timestamps induced from historical interactions. At every scoring moment, we construct DSGs for the target user and the candidate item respectively. Based on the DSGs, we perform graph convolutional operations iteratively in a bottom-up manner to obtain the final representations of the target user and the candidate item. As for the graph convolution, we design a Time-aware Sequential Encoding Layer that leverages the interaction time information as well as temporal dependencies to learn evolutionary user and item dynamics. Besides, we propose a Target-Preference Dual Attention Layer, composed of a preference-aware attention module and a target-aware attention module, to automatically search for parts of behaviors that are relevant to the target and alleviate the noise from unreliable neighbors. Results on real-world CTR prediction benchmarks demonstrate the improvements brought by DSGL.
翻訳日:2021-09-28 15:11:34 公開日:2021-09-26
# MixNN: ニューラルネットワーク層混在による推論攻撃に対するフェデレーション学習の保護

MixNN: Protection of Federated Learning Against Inference Attacks by Mixing Neural Network Layers ( http://arxiv.org/abs/2109.12550v1 )

ライセンス: Link先を確認
Antoine Boutet and Thomas Lebrun and Jan Aalmoes and Adrien Baud(参考訳) 機械学習(ml)は、複雑なタスクを実行するための学習モデルを提供するコア技術として登場した。 MLaaS(Machine Learning as a Service)によって強化され、ML機能に依存するアプリケーションの数が増えています。 しかし、MLモデルは異なるエンティティからの受動的またはアクティブな攻撃を通じて、異なるプライバシ違反の原因となっている。 そこで本稿では,MixNNをプロキシベースのプライバシ保護システムとして,機密属性を推論しようとする疑わしい,悪意のある集約サーバに対して,参加者のプライバシ保護を行う。 MixNNは参加者からモデル更新を受け取り、アグリゲーションサーバに混合更新を送信する前に、参加者間でレイヤを混ぜる。 この混合戦略は、ユーティリティとのトレードオフなしにプライバシを大幅に削減します。 実際、モデルの更新を混合することは、サーバが計算した更新の集約の結果に影響を与えません。 我々はmixnnを実験的に評価し,sgdアルゴリズムのプライバシ脆弱性を利用して異なる設定(アグリゲーションサーバは受動的あるいはアクティブな攻撃を行うことができる)でプライバシリークを定量化する新しい属性推論攻撃simを設計した。 mixnnは,従来のフェデレーション学習と同等の実用性を維持しつつ,ノイズ勾配(ユーティリティを損なうことがよく知られている)を用いたベースラインと比較して,属性推論を著しく制限している。

Machine Learning (ML) has emerged as a core technology to provide learning models to perform complex tasks. Boosted by Machine Learning as a Service (MLaaS), the number of applications relying on ML capabilities is ever increasing. However, ML models are the source of different privacy violations through passive or active attacks from different entities. In this paper, we present MixNN a proxy-based privacy-preserving system for federated learning to protect the privacy of participants against a curious or malicious aggregation server trying to infer sensitive attributes. MixNN receives the model updates from participants and mixes layers between participants before sending the mixed updates to the aggregation server. This mixing strategy drastically reduces privacy without any trade-off with utility. Indeed, mixing the updates of the model has no impact on the result of the aggregation of the updates computed by the server. We experimentally evaluate MixNN and design a new attribute inference attack, Sim, exploiting the privacy vulnerability of SGD algorithm to quantify privacy leakage in different settings (i.e., the aggregation server can conduct a passive or an active attack). We show that MixNN significantly limits the attribute inference compared to a baseline using noisy gradient (well known to damage the utility) while keeping the same level of utility as classic federated learning.
翻訳日:2021-09-28 15:11:10 公開日:2021-09-26
# MetaDrive: 汎用強化学習のための多言語駆動シナリオの構築

MetaDrive: Composing Diverse Driving Scenarios for Generalizable Reinforcement Learning ( http://arxiv.org/abs/2109.12674v1 )

ライセンス: Link先を確認
Quanyi Li, Zhenghao Peng, Zhenghai Xue, Qihang Zhang, Bolei Zhou(参考訳) 安全運転には、見つからない環境への一般化可能性、複雑なマルチエージェント環境での意思決定、周囲の交通に対する安全意識など、人間や知的エージェントからの複数の能力が必要である。 強化学習の成功にもかかわらず、rl研究の大部分は、統合的な対話環境が欠如しているため、それぞれの能力について別々に研究している。 本研究では,一般化された強化学習アルゴリズムの研究のために,metadriveと呼ばれる新しい運転シミュレーションプラットフォームを開発した。 metadriveは非常に構成的であり、手続き生成と実際のトラフィックデータ再生の両方から無限の多様な運転シナリオを生成できる。 MetaDriveをベースとした,シングルエージェントとマルチエージェントの両方の設定において,さまざまなRLタスクとベースラインを構築し,未確認シーン間の一般化性のベンチマーク,安全な探索,マルチエージェントトラフィックの学習を行う。 私たちはこのシミュレータをオープンソース化し、開発を以下で継続しています。

Driving safely requires multiple capabilities from human and intelligent agents, such as the generalizability to unseen environments, the decision making in complex multi-agent settings, and the safety awareness of the surrounding traffic. Despite the great success of reinforcement learning, most of the RL research studies each capability separately due to the lack of the integrated interactive environments. In this work, we develop a new driving simulation platform called MetaDrive for the study of generalizable reinforcement learning algorithms. MetaDrive is highly compositional, which can generate an infinite number of diverse driving scenarios from both the procedural generation and the real traffic data replay. Based on MetaDrive, we construct a variety of RL tasks and baselines in both single-agent and multi-agent settings, including benchmarking generalizability across unseen scenes, safe exploration, and learning multi-agent traffic. We open-source this simulator and maintain its development at: https://github.com/d ecisionforce/metadri ve
翻訳日:2021-09-28 15:10:48 公開日:2021-09-26
# 効率的な非線形計算機

Efficient Non-linear Calculators ( http://arxiv.org/abs/2109.12686v1 )

ライセンス: Link先を確認
Adedamola Wuraola, Nitish Patel(参考訳) ディジタルハードウェア上でスムーズな非線形性を生成する新しいアルゴリズムを提案する。 非線形性は本質的に二次的であり、対称型と非対称型の両方を持つ。 整数(および固定点)の実装はASICまたはFPGA上のデジタルゲートでの使用に非常に適している。 実装はマルチプライアレスである。 LSTMセルで必要となる非線形出力のスケーリングが実装に統合される。 これもまた乗算を必要としない。 非線形性は様々なANNアーキテクチャの活性化機能として有用である。 浮動小数点写像は他の非線形と比較され、ベンチマークされている。 その結果,これらの機能はANN設計段階で考慮すべきであることが示唆された。 実装のハードウェアリソースの使用状況は徹底的に調査されている。 我々の結果は、エッジアプリケーションにおける実装を強く主張する。 本資料は,本研究の結果の概要を要約し,著者による査読付き原稿(https://doi.org/10. 1016/j.neucom.2021.0 2.030)について概説する。

A novel algorithm for producing smooth nonlinearities on digital hardware is presented. The non-linearities are inherently quadratic and have both symmetrical and asymmetrical variants. The integer (and fixed point) implementation is highly amenable for use with digital gates on an ASIC or FPGA. The implementations are multiplier-less. Scaling of the non-linear output, as required in an LSTM cell, is integrated into the implementation. This too does not require a multiplier. The non-linearities are useful as activation functions in a variety of ANN architectures. The floating point mappings have been compared with other non-linearities and have been benchmarked. Results show that these functions should be considered in the ANN design phase. The hardware resource usage of the implementations have been thoroughly investigated. Our results make a strong case for implementions in edge applications. This document summarizes the findings and serves to give a quick overview of the outcomes of our research\footnote{The authors peer-reviewed manuscripts (available at https://doi.org/10.1 016/j.neucom.2021.02 .030) offer more detail and may be better suited for a thorough consideration}.
翻訳日:2021-09-28 15:10:33 公開日:2021-09-26
# 軌道生成器を変調する有限状態機械ポリシー

Finite State Machine Policies Modulating Trajectory Generator ( http://arxiv.org/abs/2109.12696v1 )

ライセンス: Link先を確認
Ren Liu, Nitish Sontakke, Sehoon Ha(参考訳) 深層強化学習(deep rl)は脚付きロボットのためのコントローラを開発するための効果的なツールとして登場した。 しかし、単純なニューラルネットワーク表現は、外挿能力の貧弱さで知られており、学習された振る舞いは目に見えない摂動や困難な地形に弱い。 そこで研究者らは、より堅牢な動作を実現するために、軌道発生器(TG)とフィードバック制御信号を組み合わせた新しいアーキテクチャ、PMTG(Policies Modulating Trajectory Generators)を調査した。 本研究では、単純なTGを非同期有限状態マシン(Async FSM)に置き換えることで、PMTGフレームワークを有限状態マシンPMTGで拡張することを提案する。 本発明は、予期せぬ摂動を交渉する政策に対して、接触イベントの明確な概念を提供する。 提案手法は,シミュレーションロボットと実ロボットの両方において,挑戦的地形や外的摂動といった様々なシナリオにおいて,より堅牢な動作を実現することを実証した。 補足ビデオはhttp://youtu.be/xuit szam8f0.com/で見ることができる。

Deep reinforcement learning (deep RL) has emerged as an effective tool for developing controllers for legged robots. However, a simple neural network representation is known for its poor extrapolation ability, making the learned behavior vulnerable to unseen perturbations or challenging terrains. Therefore, researchers have investigated a novel architecture, Policies Modulating Trajectory Generators (PMTG), which combines trajectory generators (TG) and feedback control signals to achieve more robust behaviors. In this work, we propose to extend the PMTG framework with a finite state machine PMTG by replacing simple TGs with asynchronous finite state machines (Async FSMs). This invention offers an explicit notion of contact events to the policy to negotiate unexpected perturbations. We demonstrated that the proposed architecture could achieve more robust behaviors in various scenarios, such as challenging terrains or external perturbations, on both simulated and real robots. The supplemental video can be found at: http://youtu.be/XUiT SZaM8f0.
翻訳日:2021-09-28 15:10:18 公開日:2021-09-26
# 分散最適化のための量子化

Quantization for Distributed Optimization ( http://arxiv.org/abs/2109.12497v1 )

ライセンス: Link先を確認
Vineeth S(参考訳) 大量のデータが、単一のワーカー非効率で大規模な機械学習モデルのトレーニングにつながった。 Parallel-SGDのような分散機械学習手法はこの問題に対処するためのソリューションとして大きな関心を集めている。 しかしながら、分散システムの性能は、勾配とパラメータを同期するネットワーク通信コストが高いため、労働者数と線形にスケールしない。 研究者たちは、勾配を圧縮することでこの問題を軽減するために量子化やスパーシフィケーションのような手法を提案している。 ほとんどの圧縮スキームは圧縮勾配となり、all-reduceのような効率的なプロトコルで直接集約できない。 本稿では,バニラSGDの性能を維持しながら通信オーバヘッドを大幅に低減する,全リデューサ互換の勾配圧縮方式を提案する。 CIFAR10データセットによる実験結果とプロセス中に導出された観測結果について述べる。 当社の圧縮手法は、ディープラーニングフレームワークが現在提供しているビルトインメソッドよりも優れています。 コードはリポジトリで入手できる。 \url{https://github.com/v ineeths96/Gradient-C ompression}。

Massive amounts of data have led to the training of large-scale machine learning models on a single worker inefficient. Distributed machine learning methods such as Parallel-SGD have received significant interest as a solution to tackle this problem. However, the performance of distributed systems does not scale linearly with the number of workers due to the high network communication cost for synchronizing gradients and parameters. Researchers have proposed techniques such as quantization and sparsification to alleviate this problem by compressing the gradients. Most of the compression schemes result in compressed gradients that cannot be directly aggregated with efficient protocols such as all-reduce. In this paper, we present a set of all-reduce compatible gradient compression schemes which significantly reduce the communication overhead while maintaining the performance of vanilla SGD. We present the results of our experiments with the CIFAR10 dataset and observations derived during the process. Our compression methods perform better than the in-built methods currently offered by the deep learning frameworks. Code is available at the repository: \url{https://github.com/v ineeths96/Gradient-C ompression}.
翻訳日:2021-09-28 15:05:14 公開日:2021-09-26
# ソーシャルメディアにおける偽ニュースの読解と注釈に関する研究

A Study of Fake News Reading and Annotating in Social Media Context ( http://arxiv.org/abs/2109.12523v1 )

ライセンス: Link先を確認
Jakub Simko, Patrik Racsko, Matus Tomlein, Martin Hanakova, Maria Bielikova(参考訳) 偽ニュースのオンライン拡散は社会全体の脅威となっている。 この拡散の多くは、ソーシャルネットワークやオンラインメディアサイトなど、新しいメディアフォーマットによって実現されている。 研究者や実践者は、偽ニュースを特徴付け、それらを検出する自動化方法を考案することで、この問題に答えようとしている。 検出方法は、ニュースコンテンツとコンテキストの複雑さと適切にアノテートされたデータセットの欠如によって、これまでは限られた成功にとどまった。 自動誤情報検出手法の効率を高める一つの方法は、人間の検出作業を模倣することである。 オンラインユーザのニュース消費行動を理解することも重要である。 そこで本稿では,44名の被験者に対して,ニュース記事を含む投稿を含むソーシャルメディアのフィードから,偽ニュースの投稿を気軽に読み取るためのアイトラッキング研究を行った。 第2回では,参加者に対して,これらの記事の真偽を決定するよう求めた。 また、同様のシナリオを用いたフォローアップ定性的な研究についても述べるが、今回は7人の専門家によるフェイクニュースアノテータを用いた。 本報告では,両研究の記載,得られたデータセットの特徴,およびいくつかの知見について述べる。

The online spreading of fake news is a major issue threatening entire societies. Much of this spreading is enabled by new media formats, namely social networks and online media sites. Researchers and practitioners have been trying to answer this by characterizing the fake news and devising automated methods for detecting them. The detection methods had so far only limited success, mostly due to the complexity of the news content and context and lack of properly annotated datasets. One possible way to boost the efficiency of automated misinformation detection methods, is to imitate the detection work of humans. It is also important to understand the news consumption behavior of online users. In this paper, we present an eye-tracking study, in which we let 44 lay participants to casually read through a social media feed containing posts with news articles, some of which were fake. In a second run, we asked the participants to decide on the truthfulness of these articles. We also describe a follow-up qualitative study with a similar scenario but this time with 7 expert fake news annotators. We present the description of both studies, characteristics of the resulting dataset (which we hereby publish) and several findings.
翻訳日:2021-09-28 15:05:00 公開日:2021-09-26
# ab initio量子化学のための自己回帰ニューラルネットワーク波動関数

Autoregressive neural-network wavefunctions for ab initio quantum chemistry ( http://arxiv.org/abs/2109.12606v1 )

ライセンス: Link先を確認
Thomas D. Barrett, Aleksei Malyshev and A. I. Lvovsky(参考訳) 電子構造計算は、ニューラルネットワーク量子状態(NNQS)の挑戦的な新しいパラダイムとして最近登場した標準的な多体問題である。 本稿では,高効率かつスケーラブルなサンプリングを可能にする新しい自己回帰ニューラルネットワーク(ARN)を用いて電子波動関数をパラメータ化するとともに,表現性を犠牲にすることなく分子系の構造を反映した物理先行情報を埋め込む。 これにより、最大30個のスピン軌道を持つ分子の電子構造計算が可能となり、これは従来のnnqsの用途よりも多くのスレーター行列式を考慮し、強い量子相関が存在する場合でも、我々のansatzはデファクトの金標準結合クラスター法を上回ることができることが判明した。 サンプリングがもはや計算ボトルネックにならない高度に表現力のあるニューラルネットワークでは、さらなるスケーリングの障壁は波動関数のアンザッツ自体に関連せず、モンテカルロの変動的なアプローチに固有のものであると結論付ける。

Performing electronic structure calculations is a canonical many-body problem that has recently emerged as a challenging new paradigm for neural network quantum states (NNQS). Here, we parameterise the electronic wavefunction with a novel autoregressive neural network (ARN) that permits highly efficient and scalable sampling, whilst also embedding physical priors that reflect the structure of molecular systems without sacrificing expressibility. This allows us to perform electronic structure calculations on molecules with up to 30 spin-orbitals - which consider multiple orders of magnitude more Slater determinants than previous applications of conventional NNQS - and we find that our ansatz can outperform the de-facto gold-standard coupled cluster methods even in the presence of strong quantum correlations. With a highly expressive neural network for which sampling is no longer a computational bottleneck, we conclude that the barriers to further scaling are not associated with the wavefunction ansatz itself, but rather are inherent to any variational Monte Carlo approach.
翻訳日:2021-09-28 15:04:42 公開日:2021-09-26
# Soundata: 再現可能なオーディオデータセット使用のためのPythonライブラリ

Soundata: A Python library for reproducible use of audio datasets ( http://arxiv.org/abs/2109.12690v1 )

ライセンス: Link先を確認
Magdalena Fuentes, Justin Salamon, Pablo Zinemanas, Mart\'in Rocamora, Gen\'is Paja, Ir\'an R. Rom\'an, Rachel Bittner, Marius Miron, Xavier Serra and Juan Pablo Bello(参考訳) Soundataは、標準化された方法でオーディオデータセットを読み込み、処理するためのPythonライブラリで、各プロジェクトでカスタムローダを記述する必要性をなくし、標準バージョンに対するデータ検証ツールを提供することで再現性を向上させる。 ユーザーはデータセットを素早くダウンロードし、標準化された再現可能な方法でメモリにロードし、データセットが完全で正しいことを検証することで、研究パイプラインを高速化する。 Soundataは、環境音、バイオ音響、音声データセットなどを扱うことで、ミルデータとミルデータを補完する設計に基づいている。 soundataは、使いやすく、コントリビュートしやすく、再現性を高め、柔軟な方法でサウンドデータセットの使用を標準化するために作られた。

Soundata is a Python library for loading and working with audio datasets in a standardized way, removing the need for writing custom loaders in every project, and improving reproducibility by providing tools to validate data against a canonical version. It speeds up research pipelines by allowing users to quickly download a dataset, load it into memory in a standardized and reproducible way, validate that the dataset is complete and correct, and more. Soundata is based and inspired on mirdata and design to complement mirdata by working with environmental sound, bioacoustic and speech datasets, among others. Soundata was created to be easy to use, easy to contribute to, and to increase reproducibility and standardize usage of sound datasets in a flexible way.
翻訳日:2021-09-28 15:04:22 公開日:2021-09-26