このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210904となっている論文です。

PDF登録状況(公開日: 20210904)

TitleAuthorsAbstract論文公表日・翻訳日
# コミュニティ質問応答におけるマルチリレーショナルグラフに基づく異種マルチタスク学習

Multi-Relational Graph based Heterogeneous Multi-Task Learning in Community Question Answering ( http://arxiv.org/abs/2110.02059v1 )

ライセンス: Link先を確認
Zizheng Lin, Haowen Ke, Ngo-Yin Wong, Jiaxin Bai, Yangqiu Song, Huan Zhao, Junpeng Ye(参考訳) Stack Overflowのようなコミュニティ質問回答(CQA)プラットフォームを研究するために、さまざまなデータマイニングタスクが提案されている。 これらのタスクの関連性は、マルチタスク学習(mtl)を通じて互いに有用な学習シグナルを提供する。 しかし、これらのタスクの多様性が高いため、統一されたフレームワークでそれらを共同で解決できる既存の作品はほとんどない。 この課題に対処するため、異種CQAタスクを効率的に解決するHMTGIN(Heterogeneous Multi-Task Graph Isomorphism Network)と呼ばれるマルチリレーショナルグラフベースのMTLモデルを開発した。 各トレーニングフォワードパスでは、HMTGINは入力されたCQAフォーラムグラフをグラフ同型ネットワークの拡張によって埋め込み、接続をスキップする。 埋め込みはタスク固有の出力層間で共有され、それぞれの損失を計算する。 さらに、タスクの関係に関するドメイン知識に基づく2つのクロスタスク制約を用いて、共同学習を規則化する。 評価では、埋め込みは異なるタスク固有の出力層間で共有され、対応する予測を行う。 我々の知る限りでは、HMTGINはマルチリレーショナルグラフの側面からCQAタスクに取り組むことができる最初のMTLモデルである。 HMTGINの有効性を評価するため,Stack Overflowから200万ノードを超える大規模マルチリレーショナルグラフCQAデータセットを構築した。 拡張実験により、(1)$ HMTGINは5つのタスクのすべてのベースラインよりも優れており、(2)$ MTL戦略とクロスタスク制約は大きな利点を持っている。

Various data mining tasks have been proposed to study Community Question Answering (CQA) platforms like Stack Overflow. The relatedness between some of these tasks provides useful learning signals to each other via Multi-Task Learning (MTL). However, due to the high heterogeneity of these tasks, few existing works manage to jointly solve them in a unified framework. To tackle this challenge, we develop a multi-relational graph based MTL model called Heterogeneous Multi-Task Graph Isomorphism Network (HMTGIN) which efficiently solves heterogeneous CQA tasks. In each training forward pass, HMTGIN embeds the input CQA forum graph by an extension of Graph Isomorphism Network and skip connections. The embeddings are then shared across all task-specific output layers to compute respective losses. Moreover, two cross-task constraints based on the domain knowledge about tasks' relationships are used to regularize the joint learning. In the evaluation, the embeddings are shared among different task-specific output layers to make corresponding predictions. To the best of our knowledge, HMTGIN is the first MTL model capable of tackling CQA tasks from the aspect of multi-relational graphs. To evaluate HMTGIN's effectiveness, we build a novel large-scale multi-relational graph CQA dataset with over two million nodes from Stack Overflow. Extensive experiments show that: $(1)$ HMTGIN is superior to all baselines on five tasks; $(2)$ The proposed MTL strategy and cross-task constraints have substantial advantages.
翻訳日:2021-10-10 11:43:04 公開日:2021-09-04
# (参考訳) ゼロショット物体検出のための意味誘導コントラストネットワーク [全文訳有]

Semantics-Guided Contrastive Network for Zero-Shot Object detection ( http://arxiv.org/abs/2109.06062v1 )

ライセンス: CC BY 4.0
Caixia Yan, Xiaojun Chang, Minnan Luo, Huan Liu, Xiaoqin Zhang, and Qinghua Zheng(参考訳) ゼロショットオブジェクト検出(ZSD)は、従来の検出モデルを拡張して、見えないカテゴリからオブジェクトを検出するタスクである。 既存のほとんどのアプローチは、厳密なマッピング・トランスファー戦略でZSDタスクに取り組む。 1)これらのモデルの学習プロセスは、利用可能な未確認クラス情報を無視するので、見やすいカテゴリーに偏りやすい。 2)本来の視覚的特徴空間は十分に構造化されておらず,識別情報がない。 これらの問題に対処するために,我々は,ゼロショット検出の領域にコントラスト学習機構を最初に導入する検出フレームワークであるcon contrastzsdという,zsdのための新しい意味論的ガイド付きコントラストネットワークを開発した。 特に、ContrastZSDには2つの意味論的指導型コントラスト学習サブネットが組み込まれている。 相互に対照的なタスクは、基底真理ラベルと定義済みのクラス類似度分布の両方から導かれる追加の監視信号を利用する。 これらの明示的なセマンティック監視の指導の下で、モデルは目に見えないカテゴリに関するより多くの知識を学習し、視覚的特徴のデータ構造をより良い視覚的セマンティックアライメントのためにより差別的に最適化する。 ZSDの2つの一般的なベンチマーク、すなわちPASCAL VOCとMS COCOで大規模な実験が行われた。 その結果,本手法はZSDタスクと一般化ZSDタスクの両方において,従来の最先端技術よりも優れていた。

Zero-shot object detection (ZSD), the task that extends conventional detection models to detecting objects from unseen categories, has emerged as a new challenge in computer vision. Most existing approaches tackle the ZSD task with a strict mapping-transfer strategy, which may lead to suboptimal ZSD results: 1) the learning process of those models ignores the available unseen class information, and thus can be easily biased towards the seen categories; 2) the original visual feature space is not well-structured and lack of discriminative information. To address these issues, we develop a novel Semantics-Guided Contrastive Network for ZSD, named ContrastZSD, a detection framework that first brings contrastive learning mechanism into the realm of zero-shot detection. Particularly, ContrastZSD incorporates two semantics-guided contrastive learning subnets that contrast between region-category and region-region pairs respectively. The pairwise contrastive tasks take advantage of additional supervision signals derived from both ground truth label and pre-defined class similarity distribution. Under the guidance of those explicit semantic supervision, the model can learn more knowledge about unseen categories to avoid the bias problem to seen concepts, while optimizing the data structure of visual features to be more discriminative for better visual-semantic alignment. Extensive experiments are conducted on two popular benchmarks for ZSD, i.e., PASCAL VOC and MS COCO. Results show that our method outperforms the previous state-of-the-art on both ZSD and generalized ZSD tasks.
翻訳日:2021-09-19 16:13:14 公開日:2021-09-04
# (参考訳) LAViTeR:画像とキャプション生成による視覚・テキスト表現の学習 [全文訳有]

LAViTeR: Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation ( http://arxiv.org/abs/2109.04993v1 )

ライセンス: CC BY 4.0
Mohammad Abuzar Shaikh, Zhanghexuan Ji, Dana Moukheiber, Sargur Srihari, Mingchen Gao(参考訳) 大規模な画像テキストペアからの視覚的およびテキスト的表現の事前学習は、多くの下流視覚言語タスクの標準的アプローチになりつつある。 トランスフォーマーベースのモデルは、自己教師付き学習タスクのリストを通じて、モーダル内の注意を学習する。 本稿では,視覚およびテキスト表現学習のための新しいアーキテクチャであるLAViTeRを提案する。 メインモジュールであるVisual Textual Alignment (VTA)は、GANベースの画像合成とイメージキャプションという2つの補助的なタスクによって支援される。 また,学習した視覚とテキストの埋め込みの類似度を計測する新しい評価指標を提案する。 CUBとMS-COCOの2つの公開データセットによる実験結果から、関節機能埋め込み空間における優れた視覚的およびテキスト的表現アライメントが示された。

Pre-training visual and textual representations from large-scale image-text pairs is becoming a standard approach for many downstream vision-language tasks. The transformer-based models learn inter and intra-modal attention through a list of self-supervised learning tasks. This paper proposes LAViTeR, a novel architecture for visual and textual representation learning. The main module, Visual Textual Alignment (VTA) will be assisted by two auxiliary tasks, GAN-based image synthesis and Image Captioning. We also propose a new evaluation metric measuring the similarity between the learnt visual and textual embedding. The experimental results on two public datasets, CUB and MS-COCO, demonstrate superior visual and textual representation alignment in the joint feature embedding space
翻訳日:2021-09-19 15:41:58 公開日:2021-09-04
# ビデオ広告コンテンツ構造化のためのマルチモーダル表現学習

Multi-modal Representation Learning for Video Advertisement Content Structuring ( http://arxiv.org/abs/2109.06637v1 )

ライセンス: Link先を確認
Daya Guo and Zhaoyang Zeng(参考訳) ビデオ広告コンテンツ構造化は、所定のビデオ広告をセグメント化し、各セグメントをプレゼンテーション形式、シーン、スタイルといった様々な次元にラベル付けすることを目的としている。 実際のビデオとは違って、ビデオ広告はキャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含み、重要なビデオセマンティクスを提供し、構造化プロセスを強化する。 本稿では,ビデオオーディオとテキストの相互作用により,ビデオ広告からマルチモーダル表現を学ぶマルチモーダルエンコーダを提案する。 マルチモーダル表現に基づき、境界マッチングネットワークを適用して時間的提案を生成する。 提案をより正確にするために、シーン誘導アライメントと再ランク付けにより生成された提案を精査する。 最後に,提案したマルチモーダルエンコーダに位置埋め込みを組み込んで,各提案の局所的特徴とビデオ全体のグローバル的特徴との時間的関係を捉えて分類する。 実験の結果,acmマルチメディア2021グランドチャレンジにおけるマルチモーダル広告ビデオ理解課題において,複数のベースラインとランク1に比べて有意に改善が得られた。 さらに,ビデオ広告におけるキャプションや音声などのマルチモーダルコンテンツを活用することで,パフォーマンスが著しく向上することを示す。

Video advertisement content structuring aims to segment a given video advertisement and label each segment on various dimensions, such as presentation form, scene, and style. Different from real-life videos, video advertisements contain sufficient and useful multi-modal content like caption and speech, which provides crucial video semantics and would enhance the structuring process. In this paper, we propose a multi-modal encoder to learn multi-modal representation from video advertisements by interacting between video-audio and text. Based on multi-modal representation, we then apply Boundary-Matching Network to generate temporal proposals. To make the proposals more accurate, we refine generated proposals by scene-guided alignment and re-ranking. Finally, we incorporate proposal located embeddings into the introduced multi-modal encoder to capture temporal relationships between local features of each proposal and global features of the whole video for classification. Experimental results show that our method achieves significantly improvement compared with several baselines and Rank 1 on the task of Multi-modal Ads Video Understanding in ACM Multimedia 2021 Grand Challenge. Ablation study further shows that leveraging multi-modal content like caption and speech in video advertisements significantly improve the performance.
翻訳日:2021-09-19 13:43:43 公開日:2021-09-04
# 超解像データ同化

Super-resolution data assimilation ( http://arxiv.org/abs/2109.08017v1 )

ライセンス: Link先を確認
S\'ebastien Barth\'el\'emy and Julien Brajard and Laurent Bertino and Fran\c{c}ois Counillon(参考訳) まず、モデルフィールドが高分解能観測とよりよく一致しているため、補正はより持続し、アンサンブルデータ同化により予測誤差の共分散が改善される。 しかし、解像度の増大は計算コストの3次増加と関連している。 ここでは,超解像技術に触発されたアプローチをテストし,srda(super- resolution data assimilation)と呼ぶ。 低解像度の予測から始めて、ニューラルネットワーク(NN)は高解像度のフィールドをエミュレートし、高解像度の観測を同化するために使用される。 srdaを簡易な表層海洋力学を表す準地磁気モデルに適用し,モデルの解像度を基準高分解能の最大4倍に抑え,アンサンブルカルマンフィルタデータ同化法を応用した。 SRDA は NN の代わりに立方体スプライン補間による低分解能データ同化法と SRDA バージョンより優れていることを示す。 NNの低分解能モデルと高分解能モデルとの系統的な差異を予測できる能力は、例えば渦の伝播速度の差を補正することで、強化された性能を説明する。 計算コストはLRデータ同化システム(25員のアンサンブルを使用する)より55倍高くなり、SRDAはエラーを40倍に減らし、HRシステムに非常に近い性能となる(LR EnKFでは92倍)。 アンサンブルシステムの信頼性はSRDAによって低下しない。

Increasing the resolution of a model can improve the performance of a data assimilation system: first because model field are in better agreement with high resolution observations, then the corrections are better sustained and, with ensemble data assimilation, the forecast error covariances are improved. However, resolution increase is associated with a cubical increase of the computational costs. Here we are testing an approach inspired from images super-resolution techniques and called "Super-resolution data assimilation" (SRDA). Starting from a low-resolution forecast, a neural network (NN) emulates a high-resolution field that is then used to assimilate high-resolution observations. We apply the SRDA to a quasi-geostrophic model representing simplified surface ocean dynamics, with a model resolution up to four times lower than the reference high-resolution and we use the Ensemble Kalman Filter data assimilation method. We show that SRDA outperforms the low-resolution data assimilation approach and a SRDA version with cubic spline interpolation instead of NN. The NN's ability to anticipate the systematic differences between low and high resolution model dynamics explains the enhanced performance, for example by correcting the difference of propagation speed of eddies. Increasing the computational cost by 55\% above the LR data assimilation system (using a 25-members ensemble), the SRDA reduces the errors by 40\% making the performance very close to the HR system (16\% larger, compared to 92\% larger for the LR EnKF). The reliability of the ensemble system is not degraded by SRDA.
翻訳日:2021-09-19 13:43:23 公開日:2021-09-04
# メイクアップを取り入れた実世界の事例

Real-World Adversarial Examples involving Makeup Application ( http://arxiv.org/abs/2109.03329v1 )

ライセンス: Link先を確認
Chang-Sheng Lin, Chia-Yi Hsu, Pin-Yu Chen, Chia-Mu Yu(参考訳) ディープニューラルネットワークは急速に発展し、画像分類や自然言語処理など、いくつかのタスクで優れたパフォーマンスを達成している。 しかし、近年の研究では、デジタルと物理の両方の敵の例がニューラルネットワークを騙すことが示されている。 顔認識システムは、物理的な敵からの脅威を含む様々なアプリケーションで使用される。 そこで本研究では,フルフェイスメイクを用いた物理的対人攻撃を提案する。 人間の顔に化粧があることは合理的な可能性であり、攻撃の不可避性を高める可能性がある。 攻撃枠組みでは,サイクル・アドバイサル・ジェネレーティブ・ネットワーク(サイクル・GAN)と被害者分類器を組み合わせる。 サイクルGANは対向化粧を生成するために使用され、犠牲者分類器のアーキテクチャはVGG16である。 実験の結果,色や位置関連誤差などのメークアップアプリケーションにおいて,手作業によるミスを効果的に克服できることがわかった。 また,モデル学習に用いたアプローチが物理的攻撃に影響を及ぼすことを実証し,事前学習したモデルから得られた逆摂動は対応するトレーニングデータに影響されることを示した。

Deep neural networks have developed rapidly and have achieved outstanding performance in several tasks, such as image classification and natural language processing. However, recent studies have indicated that both digital and physical adversarial examples can fool neural networks. Face-recognition systems are used in various applications that involve security threats from physical adversarial examples. Herein, we propose a physical adversarial attack with the use of full-face makeup. The presence of makeup on the human face is a reasonable possibility, which possibly increases the imperceptibility of attacks. In our attack framework, we combine the cycle-adversarial generative network (cycle-GAN) and a victimized classifier. The Cycle-GAN is used to generate adversarial makeup, and the architecture of the victimized classifier is VGG 16. Our experimental results show that our attack can effectively overcome manual errors in makeup application, such as color and position-related errors. We also demonstrate that the approaches used to train the models can influence physical attacks; the adversarial perturbations crafted from the pre-trained model are affected by the corresponding training data.
翻訳日:2021-09-09 13:54:32 公開日:2021-09-04
# 新生児胸部雑音分離のための非負性マトリックス共役法

A New Non-Negative Matrix Co-Factorisation Approach for Noisy Neonatal Chest Sound Separation ( http://arxiv.org/abs/2109.03275v1 )

ライセンス: Link先を確認
Ethan Grooby, Jinyuan He, Davood Fattahi, Lindsay Zhou, Arrabella King, Ashwin Ramanathan, Atul Malhotra, Guy A. Dumont, Faezeh Marzbanrad(参考訳) 高品質な心臓と肺の音を持つことで、臨床医は新生児の心臓呼吸の健康を正確に評価し、タイムリーなケアを行うことができる。 しかし、ノイズの多い胸部録音が一般的であり、タイムリーで正確な評価を妨げている。 非負のマトリックス共役に基づく新しいアプローチが提案され, 胸部雑音を心臓, 肺, 騒音成分に分離し, この問題に対処する。 この方法は、ノイズ録音の音を分離しながら、20の高品質な心臓と肺の音を訓練することで達成される。 本法は, 心臓および肺の音を含む68秒間ノイズ記録を用いて検討し, 非負行列分解法の現状と比較した。 その結果、心拍数と肺音質スコアはそれぞれ有意な改善を示し、従来の方法と比較して心拍数3.6bpmと1.2bpmの精度が向上した。

Obtaining high-quality heart and lung sounds enables clinicians to accurately assess a newborn's cardio-respiratory health and provide timely care. However, noisy chest sound recordings are common, hindering timely and accurate assessment. A new Non-negative Matrix Co-Factorisation-bas ed approach is proposed to separate noisy chest sound recordings into heart, lung, and noise components to address this problem. This method is achieved through training with 20 high-quality heart and lung sounds, in parallel with separating the sounds of the noisy recording. The method was tested on 68 10-second noisy recordings containing both heart and lung sounds and compared to the current state of the art Non-negative Matrix Factorisation methods. Results show significant improvements in heart and lung sound quality scores respectively, and improved accuracy of 3.6bpm and 1.2bpm in heart and breathing rate estimation respectively, when compared to existing methods.
翻訳日:2021-09-09 13:31:20 公開日:2021-09-04
# 確率的画像モデリングの分布外一般化について

On the Out-of-distribution Generalization of Probabilistic Image Modelling ( http://arxiv.org/abs/2109.02639v1 )

ライセンス: Link先を確認
Mingtian Zhang, Andi Zhang, Steven McDonagh(参考訳) out-of-distribution (ood) 検出とロスレス圧縮は、データ分布が異なる第1データセット上の確率モデルのトレーニングによって解決できる2つの問題である。 確率モデルの一般化を定義することによって、画像モデルの場合、OOD一般化能力は局所的な特徴に支配されていることを示す。 これは、OODの性能向上に向け、ローカル画像の特徴のみをモデル化するローカル自動回帰モデルの提案を動機付けます。 提案手法をOOD検出タスクに適用し、追加データを導入することなく最先端の未監視OOD検出性能を実現する。 さらに,新しいロスレス画像圧縮機であるneroc(neural local lossless compressor)を構築し,最先端の圧縮速度とモデルサイズを報告した。

Out-of-distribution (OOD) detection and lossless compression constitute two problems that can be solved by the training of probabilistic models on a first dataset with subsequent likelihood evaluation on a second dataset, where data distributions differ. By defining the generalization of probabilistic models in terms of likelihood we show that, in the case of image models, the OOD generalization ability is dominated by local features. This motivates our proposal of a Local Autoregressive model that exclusively models local image features towards improving OOD performance. We apply the proposed model to OOD detection tasks and achieve state-of-the-art unsupervised OOD detection performance without the introduction of additional data. Additionally, we employ our model to build a new lossless image compressor: NeLLoC (Neural Local Lossless Compressor) and report state-of-the-art compression rates and model size.
翻訳日:2021-09-08 14:44:41 公開日:2021-09-04
# 深部畳み込みニューラルネットワークによる均質化における弾性テンソルとその境界予測

Deep Convolutional Neural Networks Predict Elasticity Tensors and their Bounds in Homogenization ( http://arxiv.org/abs/2109.03020v1 )

ライセンス: Link先を確認
Bernhard Eidel(参考訳) 本研究は3次元畳み込みニューラルネットワーク(CNN)を用いて任意の位相分数のランダムな異種二相材料と弾性マクロスケールの剛性との結合を訓練し、明示的均質化シミュレーションを置き換える。 未知境界条件 (BCs) による合成複合材料の真の剛性の不確かさを低減するため, CNNは周期的BCの剛性を超えて, 運動学的に均一なBCを通した上界, 応力均一なBCを通した下界を予測した。 本研究は,cnn設計によるミクロ組織生成,畳み込み操作,非線形活性化およびプール操作,トレーニングと検証,テストにおける性能測定へのバックプロパゲーションなど,均質化-cnnのワークフローについて述べる。 そこでCNNは、標準試験セットだけでなく、ダイヤモンドベースのコーティングの実際の2相微細構造のサンプルについても予測精度を示す。 3つの境界タイプをすべてカバーしているCNNは、3つの異なるネットで別々の処理を行うのと同じくらい正確である。 このコントリビューションのCNNは、個々のスナップショットサンプルに対する適切なRVEサイズの指標を剛性によって制限する。 さらに、コストのかかるシミュレーションを伴わずに、合成ミクロ構造のアンサンブルに有効な弾性剛性を統計的に解析することができる。

In the present work, 3D convolutional neural networks (CNNs) are trained to link random heterogeneous, two-phase materials of arbitrary phase fractions to their elastic macroscale stiffness thus replacing explicit homogenization simulations. In order to reduce the uncertainty of the true stiffness of the synthetic composites due to unknown boundary conditions (BCs), the CNNs predict beyond the stiffness for periodic BC the upper bound through kinematically uniform BC, and the lower bound through stress uniform BC. This work describes the workflow of the homogenization-CNN, from microstructure generation over the CNN design, the operations of convolution, nonlinear activation and pooling as well as training and validation along with backpropagation up to performance measurements in tests. Therein the CNNs demonstrate the predictive accuracy not only for the standard test set but also for samples of the real, two-phase microstructure of a diamond-based coating. The CNN that covers all three boundary types is virtually as accurate as the separate treatment in three different nets. The CNNs of this contribution provide through stiffness bounds an indicator of the proper RVE size for individual snapshot samples. Moreover, they enable statistical analyses for the effective elastic stiffness on ensembles of synthetical microstructures without costly simulations.
翻訳日:2021-09-08 14:27:18 公開日:2021-09-04
# (参考訳) 改良型ターボファンエンジンの寿命予測のための注目型マルチヘッドモデルの実証評価

An empirical evaluation of attention-based multi-head models for improved turbofan engine remaining useful life prediction ( http://arxiv.org/abs/2109.01761v1 )

ライセンス: CC BY 4.0
Abiodun Ayodeji, Wenhai Wang, Jianzhong Su, Jianquan Yuan, Xinggao Liu(参考訳) シングルユニット(head)は、多変量時系列信号で訓練されたディープラーニングアーキテクチャにおける、従来の入力特徴抽出器である。 単一ヘッドネットワークが生成する固定次元ベクトル表現の重要性は,産業機械の状態監視と予測保守において実証されてきた。 しかし、ヘテロジニアスセンサ信号を1つのヘッドで処理すると、時間変化多変量入力の多様性を明示的に説明できないモデルが得られる。 本研究は、多変量時系列信号における各センサ読み出しの固有パターンを独立に捉えるために、コンテキスト固有のヘッドを開発することにより、従来のシングルヘッドディープラーニングモデルをより堅牢な形式に拡張する。 ターボファン航空機エンジンベンチマークデータセット(CMAPSS)を用いて、マルチヘッド完全連結ニューロン、再帰性ネットワーク、畳み込みネットワーク、トランスフォーマースタイルのスタンドアローンアテンションネットワーク、およびそれらの有用寿命推定のための変種の有効性と利点を検証する。 また,マルチヘッドモデルに対する異なる注意機構の影響も評価した。 さらに、各アーキテクチャの相対的優位性と計算オーバーヘッドを解析する。 その結果,注目層の利用はタスクに敏感であり,モデルに依存していることが明らかとなった。 その結果,5つの最先端モデルと比較し,比較的単純なマルチヘッドアーキテクチャが最先端モデルよりも優れた性能を示した。 本研究は, 産業資産の余寿命の理解を深めるために, マルチヘッドモデルとアテンションメカニズムの重要性を実証するものである。

A single unit (head) is the conventional input feature extractor in deep learning architectures trained on multivariate time series signals. The importance of the fixed-dimensional vector representation generated by the single-head network has been demonstrated for industrial machinery condition monitoring and predictive maintenance. However, processing heterogeneous sensor signals with a single head may result in a model that cannot explicitly account for the diversity in time-varying multivariate inputs. This work extends the conventional single-head deep learning models to a more robust form by developing context-specific heads to independently capture the inherent pattern of each sensor reading in multivariate time series signals. Using the turbofan aircraft engine benchmark dataset (CMAPSS), an extensive experiment is performed to verify the effectiveness and benefits of multi-head fully connected neurons, recurrent networks, convolution network, the transformer-style stand-alone attention network, and their variants for remaining useful life estimation. Moreover, the effect of different attention mechanisms on the multi-head models is also evaluated. In addition, each architecture's relative advantage and computational overhead are analyzed. Results show that utilizing the attention layer is task-sensitive and model-dependent, as it does not provide consistent improvement across the models investigated. The result is further compared with five state-of-the-art models, and the comparison shows that a relatively simple multi-head architecture performs better than the state-of-the-art models. The results presented in this study demonstrate the importance of multi-head models and attention mechanisms to improved understanding of the remaining useful life of industrial assets.
翻訳日:2021-09-08 10:14:22 公開日:2021-09-04
# (参考訳) 2段階ディープニューラルネットワークを用いたシーム彫刻検出と位置推定 [全文訳有]

Seam Carving Detection and Localization using Two-Stage Deep Neural Networks ( http://arxiv.org/abs/2109.01764v1 )

ライセンス: CC BY 4.0
Lakshmanan Nataraj, Chandrakanth Gudavalli, Tajuddin Manhar Mohammed, Shivkumar Chandrasekaran, B.S. Manjunath(参考訳) seam sculptureは、コンテンツを意識した方法で画像をリサイズする方法である。 しかし、この方法は画像からオブジェクトを彫るのにも使うことができる。 本論文では,シーム彫刻画像の検出とローカライズを行う2段階の手法を提案する。 まず、シームが彫られた画像の小さなパッチを検出するための検出器を構築する。 次に、パッチ検出器の出力に基づいて画像上のヒートマップを計算する。 これらの熱マップを用いて、画像全体が刻まれているかどうかを検知する別の検出器を構築する。 実験の結果,本手法はシーム彫刻画像の検出と局所化に有効であることがわかった。

Seam carving is a method to resize an image in a content aware fashion. However, this method can also be used to carve out objects from images. In this paper, we propose a two-step method to detect and localize seam carved images. First, we build a detector to detect small patches in an image that has been seam carved. Next, we compute a heatmap on an image based on the patch detector's output. Using these heatmaps, we build another detector to detect if a whole image is seam carved or not. Our experimental results show that our approach is effective in detecting and localizing seam carved images.
翻訳日:2021-09-08 10:12:57 公開日:2021-09-04
# (参考訳) 教師なし単語表現モデルとトピックモデリングを用いた効果的なユーザ意図マイニング [全文訳有]

Effective user intent mining with unsupervised word representation models and topic modelling ( http://arxiv.org/abs/2109.01765v1 )

ライセンス: CC BY 4.0
Bencheng Wei(参考訳) 顧客とカスタマーサービスエージェント間のチャットの背後にある意図を理解することは、近年、異なる文化や教育のバックグラウンドを持つ人々によるインターネットの利用が指数関数的に増加しているため、重要な問題となっている。 さらに重要なのは、eコマースの急増により、顧客とエージェント間のテキスト会話が大幅に増加したことだ。 本稿では,テキストデータの背後にある会話意図をデータマイニングする手法を提案する。 カスタマサービスデータセットを使用して、教師なしテキスト表現モデルをトレーニングし、文とインテントのコサイン類似性に基づいて事前定義されたインテントをランク付けするインテントマッピングモデルを開発する。 トピックモデリング技術はインテントを定義するために使われ、ドメインの専門家はトピックモデリング結果の解釈にも関与します。 このアプローチでは、ラベルのないカスタマサービスのテキストデータの裏側にあるユーザの意図をよく理解することができます。

Understanding the intent behind chat between customers and customer service agents has become a crucial problem nowadays due to an exponential increase in the use of the Internet by people from different cultures and educational backgrounds. More importantly, the explosion of e-commerce has led to a significant increase in text conversation between customers and agents. In this paper, we propose an approach to data mining the conversation intents behind the textual data. Using the customer service data set, we train unsupervised text representation models, and then develop an intent mapping model which would rank the predefined intents base on cosine similarity between sentences and intents. Topic-modeling techniques are used to define intents and domain experts are also involved to interpret topic modelling results. With this approach, we can get a good understanding of the user intentions behind the unlabelled customer service textual data.
翻訳日:2021-09-08 10:02:36 公開日:2021-09-04
# (参考訳) 動的解集合解のためのオートマトン:予備報告

Automata for dynamic answer set solving: Preliminary report ( http://arxiv.org/abs/2109.01782v1 )

ライセンス: CC0 1.0
Pedro Cabalar (1), Mart\'in Di\'eguez (2), Susana Hahn (3), Torsten Schaub (3) ((1) University of Corunna, Spain, (2) Universit\'e d'Angers, France, (3) University of Potsdam, Germany)(参考訳) 本稿では,動的論理から言語構造を記述したAnswer Set Programming(ASP)の拡張で表現される時間的制約を実装する方法について検討する。 まず,このような制約を強制するためにautomattaをどのように利用できるかを検討する。 その考え方は、動的制約を、元の制約の満足度を強制する論理プログラムの観点で表現されたオートマトンに変換することである。 このアプローチを魅力的にしているのは,タイムスタンプの独立性と,不満足な検出の可能性だ。 一方、ASP.NETでのメタプログラミングに依存した動的公式から交代オートマトンへの変換について詳しく述べる。 これはグリンゴの理論表現に適用された最初の改定の応用である。 一方,動的公式のモナディック二次公式への変換を2つ提案する。 これらは、市販のツールが対応するオートマトンを構築するために使用できる。 我々はどちらのアプローチも、動的制約を論理プログラムに直接マップする時間的aspソルバtelingoの1つと経験的に対比する。 この予備研究は完全性制約の動的公式に限定されているため、その実装と(経験的な)結果が従来の線形動的論理にも容易に適用できる。

We explore different ways of implementing temporal constraints expressed in an extension of Answer Set Programming (ASP) with language constructs from dynamic logic. Foremost, we investigate how automata can be used for enforcing such constraints. The idea is to transform a dynamic constraint into an automaton expressed in terms of a logic program that enforces the satisfaction of the original constraint. What makes this approach attractive is its independence of time stamps and the potential to detect unsatisfiability. On the one hand, we elaborate upon a transformation of dynamic formulas into alternating automata that relies on meta-programming in ASP. This is the first application of reification applied to theory expressions in gringo. On the other hand, we propose two transformations of dynamic formulas into monadic second-order formulas. These can then be used by off-the-shelf tools to construct the corresponding automata. We contrast both approaches empirically with the one of the temporal ASP solver telingo that directly maps dynamic constraints to logic programs. Since this preliminary study is restricted to dynamic formulas in integrity constraints, its implementations and (empirical) results readily apply to conventional linear dynamic logic, too.
翻訳日:2021-09-08 09:57:06 公開日:2021-09-04
# (参考訳) プラガブルイベントによるイベントベースエンドタスク予測のためのデュアルトランスファー学習 [全文訳有]

Dual Transfer Learning for Event-based End-task Prediction via Pluggable Event to Image Translation ( http://arxiv.org/abs/2109.01801v1 )

ライセンス: CC BY 4.0
Lin Wang, Yujeong Chae, Kuk-Jin Yoon(参考訳) イベントカメラは、ピクセルごとの強度変化を認識し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを出力する新しいセンサーである。 エンコーダ-デコーダライクなネットワークに基づいて、イベントのみをエンドタスク学習や意味セグメンテーションに使用できることが示されている。 しかし、イベントは狭く、主にエッジ情報を反映しているため、デコーダのみに依存するオリジナルの詳細を復元することは困難である。 さらに、ほとんどのメソッドは、監督のためにピクセル単位での損失に頼るため、スパースイベントからの視覚的詳細を十分に活用できないため、最適なパフォーマンスが低下する可能性がある。 本稿では,DTL(Dual Transfer Learning)と呼ばれるシンプルな2ストリームフレームワークを提案し,追加の推論コストを伴わずに,エンドタスクのパフォーマンスを効果的に向上させる。 提案手法は、eel(event to end-task learning)ブランチ、eit(event to image translation)ブランチ、およびeitブランチから機能レベルの親和性情報とピクセルレベルの知識を同時に探索してeelブランチを改善するtransport learning(tl)モジュールの3つの部分から構成されている。 この単純で斬新な方法はイベントからの強力な表現学習をもたらし、セマンティックセグメンテーションや深さ推定といったエンドタスクのパフォーマンス向上によって証明される。

Event cameras are novel sensors that perceive the per-pixel intensity changes and output asynchronous event streams with high dynamic range and less motion blur. It has been shown that events alone can be used for end-task learning, \eg, semantic segmentation, based on encoder-decoder-like networks. However, as events are sparse and mostly reflect edge information, it is difficult to recover original details merely relying on the decoder. Moreover, most methods resort to pixel-wise loss alone for supervision, which might be insufficient to fully exploit the visual details from sparse events, thus leading to less optimal performance. In this paper, we propose a simple yet flexible two-stream framework named Dual Transfer Learning (DTL) to effectively enhance the performance on the end-tasks without adding extra inference cost. The proposed approach consists of three parts: event to end-task learning (EEL) branch, event to image translation (EIT) branch, and transfer learning (TL) module that simultaneously explores the feature-level affinity information and pixel-level knowledge from the EIT branch to improve the EEL branch. This simple yet novel method leads to strong representation learning from events and is evidenced by the significant performance boost on the end-tasks such as semantic segmentation and depth estimation.
翻訳日:2021-09-08 09:56:10 公開日:2021-09-04
# (参考訳) DNSに基づく物理インフォームドCNNによる3次元マイクロCT画像の透過性の推定 [全文訳有]

Estimating permeability of 3D micro-CT images by physics-informed CNNs based on DNS ( http://arxiv.org/abs/2109.01818v1 )

ライセンス: CC BY-SA 4.0
Stephan G\"arttner and Faruk O. Alpak and Andreas Meier and Nadja Ray and Florian Frank(参考訳) 近年、畳み込みニューラルネットワーク(CNN)は、多孔質メディア研究や応用における効果的な流体力学パラメータの高速な近似を行う能力への関心が高まっている。 本稿では,地質岩のマイクロCTによる透水率予測手法を提案する。 透過性予測専用のCNNのためのトレーニングデータセットは、典型的な古典格子ボルツマン法(LBM)によって生成される透過性ラベルからなり、セグメント化された画像データの細孔空間を流れる流れをシミュレートする。 その代わりに、定常ストークス方程式を効率的かつ分散並列に解き、直接数値シミュレーション(DNS)を行う。 そこで我々は,複雑な細孔ジオメトリで頻繁に観測されるlbmの収束問題を回避し,トレーニングデータセットの汎用性と精度を向上させる。 DNS計算された透過性を用いて、物理インフォームドCNN PhyCNN)は、細孔空間の調整された特性量を追加して訓練される。 より正確には、細孔空間のグラフ表現におけるフロー問題への接続を利用して、ワークフローの重要な革新的要素である最大フロー値の観点から、制限された構造に関する追加情報をネットワークに提供する。 その結果,古生代岩層から採取した様々な砂岩試料に対して,前例のない予測精度とロバスト性が確認された。

In recent years, convolutional neural networks (CNNs) have experienced an increasing interest for their ability to perform fast approximation of effective hydrodynamic parameters in porous media research and applications. This paper presents a novel methodology for permeability prediction from micro-CT scans of geological rock samples. The training data set for CNNs dedicated to permeability prediction consists of permeability labels that are typically generated by classical lattice Boltzmann methods (LBM) that simulate the flow through the pore space of the segmented image data. We instead perform direct numerical simulation (DNS) by solving the stationary Stokes equation in an efficient and distributed-parallel manner. As such, we circumvent the convergence issues of LBM that frequently are observed on complex pore geometries, and therefore, improve on the generality and accuracy of our training data set. Using the DNS-computed permeabilities, a physics-informed CNN PhyCNN) is trained by additionally providing a tailored characteristic quantity of the pore space. More precisely, by exploiting the connection to flow problems on a graph representation of the pore space, additional information about confined structures is provided to the network in terms of the maximum flow value, which is the key innovative component of our workflow. As a result, unprecedented prediction accuracy and robustness are observed for a variety of sandstone samples from archetypal rock formations.
翻訳日:2021-09-08 09:39:42 公開日:2021-09-04
# (参考訳) 独立画像データセットから生成したコードブックを用いたプライバシー保護画像検索方式 [全文訳有]

A Privacy-Preserving Image Retrieval Scheme Using A Codebook Generated From Independent Plain-Image Dataset ( http://arxiv.org/abs/2109.01841v1 )

ライセンス: CC BY 4.0
Kenta Iida and Hitoshi Kiya(参考訳) 本稿では,平画像データセットを用いたコードブックを用いたプライバシー保護画像検索手法を提案する。 etcシステムで提案されている暗号化圧縮(etc)画像は、画像所有者がアップロードしたetc画像からコードブックを生成する従来のプライバシー保存画像リトライバルスキームで使用されており、コードブックを用いて拡張された簡易ディスクリプタを画像ディスクリプタとして算出する。 対照的に、提案方式では、アップロードされた画像に依存しないデータセットからコードブックを生成する。 独立したデータセットを使用することで、再計算を必要としないコードブックを使用するだけでなく、常に高い検索精度を提供することができます。 実験では,画像所有者の暗号化画像によらず,プレーン画像データセットからコードブックを生成する場合でも,高い検索性能を維持することを実証した。

In this paper, we propose a privacy-preserving image-retrieval scheme using a codebook generated by using a plain-image dataset. Encryption-then-comp ression (EtC) images, which were proposed for EtC systems, have been used in conventional privacy-preserving image-retrieval schemes, in which a codebook is generated from EtC images uploaded by image owners, and extended SIMPLE descriptors are then calculated as image descriptors by using the codebook. In contrast, in the proposed scheme, a codebook is generated from a dataset independent of uploaded images. The use of an independent dataset enables us not only to use a codebook that does not require recalculation but also to constantly provide a high retrieval accuracy. In an experiment, the proposed scheme is demonstrated to maintain a high retrieval performance, even if codebooks are generated from a plain image dataset independent of image owners' encrypted images.
翻訳日:2021-09-08 09:17:13 公開日:2021-09-04
# (参考訳) 破滅的忘れに対する生成的表現の堅牢性について [全文訳有]

On robustness of generative representations against catastrophic forgetting ( http://arxiv.org/abs/2109.01844v1 )

ライセンス: CC BY 4.0
Wojciech Masarczyk, Kamil Deja, Tomasz Trzci\'nski(参考訳) 新しいタスクを学習しながら学習した知識を破滅的に忘れることは、現代のニューラルネットワークの限界として広く観察されている。 この欠点を軽減するために多くの継続的学習法が提案されているが、主な疑問は未解決のままである。 本研究では,ニューラルモデルにより内部に構築された表現の特異性に関する一連の研究仮説をポーズし,検証することにより,この問題に対処することを目的とする。 より具体的には、破滅的な忘れ物に対する識別的および生成的モデルにおける表現の堅牢性を比較するための経験的評価セットを設計する。 識別モデルにより学習された表現は、その生成モデルよりも破滅的な忘れがちであり、連続学習のための生成モデルを開発する利点に新たな光を当てている。 最後に,本研究は,再生機構以上の連続学習において生成モデルを採用する新たな研究経路と可能性を開く。

Catastrophic forgetting of previously learned knowledge while learning new tasks is a widely observed limitation of contemporary neural networks. Although many continual learning methods are proposed to mitigate this drawback, the main question remains unanswered: what is the root cause of catastrophic forgetting? In this work, we aim at answering this question by posing and validating a set of research hypotheses related to the specificity of representations built internally by neural models. More specifically, we design a set of empirical evaluations that compare the robustness of representations in discriminative and generative models against catastrophic forgetting. We observe that representations learned by discriminative models are more prone to catastrophic forgetting than their generative counterparts, which sheds new light on the advantages of developing generative models for continual learning. Finally, our work opens new research pathways and possibilities to adopt generative models in continual learning beyond mere replay mechanisms.
翻訳日:2021-09-08 09:08:17 公開日:2021-09-04
# (参考訳) 編集可能なシーンレンダリングのためのオブジェクト合成ニューラルラジアンスフィールドの学習

Learning Object-Compositional Neural Radiance Field for Editable Scene Rendering ( http://arxiv.org/abs/2109.01847v1 )

ライセンス: CC BY 4.0
Bangbang Yang, Yinda Zhang, Yinghao Xu, Yijin Li, Han Zhou, Hujun Bao, Guofeng Zhang, Zhaopeng Cui(参考訳) 暗黙のニューラルレンダリング技術は、新しいビュー合成に有望な結果を示している。 しかし、既存の手法は通常、シーン全体をエンコードするので、一般的にオブジェクトのアイデンティティを意識せず、家具の移動や追加といった高度な編集作業に制限される。 本稿では,物体合成型ニューラルラジアンス場を学習し,クラスタ化された実世界のシーンの編集機能を備えたリアルなレンダリングを実現するニューラルシーンレンダリングシステムを提案する。 具体的には、シーンブランチがシーンの形状と外観を符号化し、オブジェクトブランチが学習可能なオブジェクトアクティベーションコードに基づいて各スタンドアロンオブジェクトを符号化する新しい双方向アーキテクチャを設計する。 過度に乱雑な場面での訓練を生き残るために,オクルード領域における3次元空間の曖昧さを解消し,各対象の鋭い境界を学習するためのシーン誘導訓練戦略を提案する。 大規模な実験により,本システムは静的シーンのノベルビュー合成における競合性能だけでなく,オブジェクトレベルの編集のためのリアルなレンダリングも実現している。

Implicit neural rendering techniques have shown promising results for novel view synthesis. However, existing methods usually encode the entire scene as a whole, which is generally not aware of the object identity and limits the ability to the high-level editing tasks such as moving or adding furniture. In this paper, we present a novel neural scene rendering system, which learns an object-compositional neural radiance field and produces realistic rendering with editing capability for a clustered and real-world scene. Specifically, we design a novel two-pathway architecture, in which the scene branch encodes the scene geometry and appearance, and the object branch encodes each standalone object conditioned on learnable object activation codes. To survive the training in heavily cluttered scenes, we propose a scene-guided training strategy to solve the 3D space ambiguity in the occluded regions and learn sharp boundaries for each object. Extensive experiments demonstrate that our system not only achieves competitive performance for static scene novel-view synthesis, but also produces realistic rendering for object-level editing.
翻訳日:2021-09-08 08:58:30 公開日:2021-09-04
# (参考訳) 深い単調双対ネットワークによる因果関係の確率の推定 [全文訳有]

Estimating the probabilities of causation via deep monotonic twin networks ( http://arxiv.org/abs/2109.01904v1 )

ライセンス: CC BY 4.0
Athanasios Vlontzos, Bernhard Kainz, Ciaran M. Gilligan-Lee(参考訳) 因果的クエリに機械学習を使って答える作業は、近年数多く行われている。 ほとんどは、条件付き平均治療効果のような介入的問合せに焦点を当てている。 しかし、Pearl氏が指摘するように、介入クエリは因果クエリのより大きな階層の一部に過ぎず、反ファクトが上部にある。 それにもかかわらず、私たちのコミュニティは、偽のクエリに機械学習ツールを適用することには成功していません。 この研究は、反事実クエリを推定するためのディープラーニングを用いて、アブダクション、アクション、予測の代替であるツインネットワークの反事実推論(twin network counterfactual inference)の実装方法を示すことによって、この課題に対処します。 我々は、ツインネットワークのグラフィカルな性質によって、特にディープラーニングに順応しやすくなり、訓練された場合、反実的推論が可能な単純なニューラルネットワークアーキテクチャが得られることを示す。 重要なことは、トレーニング中に既知の識別可能性の制約をどのように強制するかを示し、各カウンターファクトクエリに対する応答が一意に決定されるようにすることである。 合成データと実データの両方において、ある事象が他の事象の必要または十分な原因である程度を定量化する重要な反事実クエリーである因果関係の確率を正確に推定することで、このアプローチを実証する。

There has been much recent work using machine learning to answer causal queries. Most focus on interventional queries, such as the conditional average treatment effect. However, as noted by Pearl, interventional queries only form part of a larger hierarchy of causal queries, with counterfactuals sitting at the top. Despite this, our community has not fully succeeded in adapting machine learning tools to answer counterfactual queries. This work addresses this challenge by showing how to implement twin network counterfactual inference -- an alternative to abduction, action, & prediction counterfactual inference -- with deep learning to estimate counterfactual queries. We show how the graphical nature of twin networks makes them particularly amenable to deep learning, yielding simple neural network architectures that, when trained, are capable of counterfactual inference. Importantly, we show how to enforce known identifiability constraints during training, ensuring the answer to each counterfactual query is uniquely determined. We demonstrate our approach by using it to accurately estimate the probabilities of causation -- important counterfactual queries that quantify the degree to which one event was a necessary or sufficient cause of another -- on both synthetic and real data.
翻訳日:2021-09-08 08:57:32 公開日:2021-09-04
# (参考訳) 音響変換器を用いた集団カウント [全文訳有]

Audio-Visual Transformer Based Crowd Counting ( http://arxiv.org/abs/2109.01926v1 )

ライセンス: CC BY 4.0
Usman Sajid, Xiangyu Chen, Hasan Sajid, Taejoon Kim, Guanghui Wang(参考訳) 群衆の推定は非常に難しい問題です。 最近の研究では聴覚情報を利用して視覚モデルを支援するが、機能抽出と統合のための効果的なアプローチが欠如しているため、性能は限られている。 本稿では,視覚と音声の両方の入力を効果的に活用し,モダリティアソシエーションと生産的特徴抽出に有効に活用することで,群衆カウントにおける重要な課題に対処する新しいマルチタスクネットワークを提案する。 提案するネットワークは,補助的および明示的なイメージパッチインポータンスランキング(pir)とパッチワイズ群衆推定(pce)情報の概念を導入して,第3の(実行時)モダリティを生成する。 これらのモダリティ(オーディオ、ビジュアル、ランタイム)は、トランスフォーマティブにインスパイアされたクロスモダリティコアテンションメカニズムによって、最終的に群衆の推定結果を出力する。 リッチな視覚特徴を得るために,トランス型融合を中間に持つマルチブランチ構造を提案する。 大規模な実験的評価の結果,提案手法はすべての評価条件下での最先端ネットワークよりも33.8%向上した。 また、我々のネットワークの視覚のみのバリエーションを分析し比較し、従来のアプローチよりもその優位性を実証的に示す。

Crowd estimation is a very challenging problem. The most recent study tries to exploit auditory information to aid the visual models, however, the performance is limited due to the lack of an effective approach for feature extraction and integration. The paper proposes a new audiovisual multi-task network to address the critical challenges in crowd counting by effectively utilizing both visual and audio inputs for better modalities association and productive feature extraction. The proposed network introduces the notion of auxiliary and explicit image patch-importance ranking (PIR) and patch-wise crowd estimate (PCE) information to produce a third (run-time) modality. These modalities (audio, visual, run-time) undergo a transformer-inspired cross-modality co-attention mechanism to finally output the crowd estimate. To acquire rich visual features, we propose a multi-branch structure with transformer-style fusion in-between. Extensive experimental evaluations show that the proposed scheme outperforms the state-of-the-art networks under all evaluation settings with up to 33.8% improvement. We also analyze and compare the vision-only variant of our network and empirically demonstrate its superiority over previous approaches.
翻訳日:2021-09-08 08:37:16 公開日:2021-09-04
# (参考訳) gprMaxの自動実装による任意複素誘電特性のモデル化 [全文訳有]

Modelling Arbitrary Complex Dielectric Properties -- an automated implementation for gprMax ( http://arxiv.org/abs/2109.01928v1 )

ライセンス: CC BY 4.0
Sylwia Majchrowska and Iraklis Giannakis and Craig Warren and Antonios Giannopoulos(参考訳) 地中貫入レーダ(GPR)をモデル化する際には、複雑な電磁特性を持つ物質を正確にシミュレートする必要がある。 土、コンクリート、水で満たされたパイプ。 電磁波伝搬をシミュレートするオープンソースソフトウェアのひとつにgprMaxがある。 有限差分時間領域 (fdtd) 法によるマクスウェル方程式の解法に yee のアルゴリズムを用いる。 fdtd法の重要な欠点は分散特性を持つ材料をモデル化する能力の制限であり、現在はマルチデバイ、ドルード、ローレンツメディアといった特定の緩和機構に制限されている。 したがって、任意の複素材料のモデル化は、これらの関数の組合せとして近似することで行うべきである。 本稿では,Google Summer of Code(GSoC)プログラム2021の一環として,マルチデバイ拡張を用いて複雑な分散材料を自動でシミュレートするためにgprMax内に新たなモジュールを開発する作業について述べる。 このモジュールは、havriliak-negami, cole-cole, cole-davidson, jonscher, complex-refractive index modelをモデル化することができる。

There is a need to accurately simulate materials with complex electromagnetic properties when modelling Ground Penetrating Radar (GPR), as many objects encountered with GPR contain water, e.g. soils, curing concrete, and water-filled pipes. One of widely-used open-source software that simulates electromagnetic wave propagation is gprMax. It uses Yee's algorithm to solve Maxwell's equations with the Finite-Difference Time-Domain (FDTD) method. A significant drawback of the FDTD method is the limited ability to model materials with dispersive properties, currently narrowed to specific set of relaxation mechanisms, namely multi-Debye, Drude and Lorentz media. Consequently, modelling any arbitrary complex material should be done by approximating it as a combination of these functions. This paper describes work carried out as part of the Google Summer of Code (GSoC) programme 2021 to develop a new module within gprMax that can be used to simulate complex dispersive materials using multi-Debye expansions in an automatic manner. The module is capable of modelling Havriliak-Negami, Cole-Cole, Cole-Davidson, Jonscher, Complex-Refractive Index Models, and indeed any arbitrary dispersive material with real and imaginary permittivity specified by the user.
翻訳日:2021-09-08 08:18:05 公開日:2021-09-04
# (参考訳) 多クラス設定における文脈同期の自己監督検出:現象型アノテーション使用例 [全文訳有]

Self-Supervised Detection of Contextual Synonyms in a Multi-Class Setting: Phenotype Annotation Use Case ( http://arxiv.org/abs/2109.01935v1 )

ライセンス: CC BY 4.0
Jingqing Zhang, Luis Bolanos, Tong Li, Ashwani Tanwar, Guilherme Freire, Xian Yang, Julia Ive, Vibhor Gupta, Yike Guo(参考訳) contextized word embeddedsは文脈的同義語を検出する強力なツールである。 しかし、現在の最先端(SOTA)深層学習の概念抽出手法の多くは、文脈のポテンシャルを監督し、過小評価している。 本稿では,浅層マッチングによって生成されたデータに基づいて,概念の文脈的同義性を検出できる自己教師型事前学習手法を提案する。 本手法は,電子健康記録から表現型情報を抽出するために,スパースマルチクラス設定(15,000以上の概念)に適用する。 さらに,クラス空間の問題に対処するためのデータ拡張手法について検討する。 提案手法では,F1 と Recall がそれぞれ 4.5 点,4.0 点を達成し,従来の SOTA よりも高い性能を示した。 ラベル付きデータの20倍の精度で微調整を行った結果,BioBERT と ClinicalBERT も上回った。 また、3つのICUベンチマークの外部評価は、我々のモデルで注釈付けされた表現型を特徴として活用する利点を示す。

Contextualised word embeddings is a powerful tool to detect contextual synonyms. However, most of the current state-of-the-art (SOTA) deep learning concept extraction methods remain supervised and underexploit the potential of the context. In this paper, we propose a self-supervised pre-training approach which is able to detect contextual synonyms of concepts being training on the data created by shallow matching. We apply our methodology in the sparse multi-class setting (over 15,000 concepts) to extract phenotype information from electronic health records. We further investigate data augmentation techniques to address the problem of the class sparsity. Our approach achieves a new SOTA for the unsupervised phenotype concept annotation on clinical text on F1 and Recall outperforming the previous SOTA with a gain of up to 4.5 and 4.0 absolute points, respectively. After fine-tuning with as little as 20\% of the labelled data, we also outperform BioBERT and ClinicalBERT. The extrinsic evaluation on three ICU benchmarks also shows the benefit of using the phenotypes annotated by our model as features.
翻訳日:2021-09-08 08:09:29 公開日:2021-09-04
# (参考訳) 単言語モデルによる言語非依存表現の学習能力について [全文訳有]

On the ability of monolingual models to learn language-agnostic representations ( http://arxiv.org/abs/2109.01942v1 )

ライセンス: CC BY 4.0
Leandro Rodrigues de Souza, Rodrigo Nogueira, Roberto Lotufo(参考訳) 事前訓練された多言語モデルは、ゼロショット言語間転送のデファクトなデフォルトアプローチとなっている。 これまでの研究は、これらのモデルが2つ以上の言語で事前訓練された場合、共通のパラメータを持つ言語間表現を実現できることを示した。 本研究では,1つの言語で事前学習しても,モデルが言語に依存しない表現を実現できることを示す。 つまり、異なる言語で事前訓練および微調整された単言語モデルは、同じターゲット言語を使用するものと比較して、競争性能が向上することがわかった。 驚くべきことに、これらのモデルはトレーニング済み言語に関係なく、同じタスクで同様のパフォーマンスを示す。 例えば、ドイツ語やポルトガル語のような遠方の言語で事前訓練されたモデルは、英語のタスクでも同様に機能する。

Pretrained multilingual models have become a de facto default approach for zero-shot cross-lingual transfer. Previous work has shown that these models are able to achieve cross-lingual representations when pretrained on two or more languages with shared parameters. In this work, we provide evidence that a model can achieve language-agnostic representations even when pretrained on a single language. That is, we find that monolingual models pretrained and finetuned on different languages achieve competitive performance compared to the ones that use the same target language. Surprisingly, the models show a similar performance on a same task regardless of the pretraining language. For example, models pretrained on distant languages such as German and Portuguese perform similarly on English tasks.
翻訳日:2021-09-08 07:49:44 公開日:2021-09-04
# (参考訳) 単語領域アライメントによる胸部X線と放射線診断の併用学習の改善 [全文訳有]

Improving Joint Learning of Chest X-Ray and Radiology Report by Word Region Alignment ( http://arxiv.org/abs/2109.01949v1 )

ライセンス: CC BY 4.0
Zhanghexuan Ji, Mohammad Abuzar Shaikh, Dana Moukheiber, Sargur Srihari, Yifan Peng, Mingchen Gao(参考訳) 自己教師付き学習は、ラベルのない胸部x線とその関連するフリーテキストレポートを手作業で監視することなく臨床ルーチンに蓄積する機会を提供する。 本稿では,胸部x線画像の事前学習のためのジョイント画像テキスト表現学習ネットワーク(joimternet)を提案する。 このモデルは、視覚的テキストマッチングのためのグローバル画像文レベルとローカル画像領域語レベルの両方で事前訓練された。 どちらもクロスエントロピーベースとランキングベースのトリプルトマッチングロースに双方向的に制約されている。 領域ワードマッチングは、そのマッピングを直接監視することなく、注意機構を用いて計算される。 事前学習されたマルチモーダル表現学習は、画像および/またはテキストエンコーディングに関する下流タスクの道を開く。 我々は2つのデータセット(OpenI-IUとMIMIC-CXR)の相互モダリティ検索と多ラベル分類による表現学習の質を示す。

Self-supervised learning provides an opportunity to explore unlabeled chest X-rays and their associated free-text reports accumulated in clinical routine without manual supervision. This paper proposes a Joint Image Text Representation Learning Network (JoImTeRNet) for pre-training on chest X-ray images and their radiology reports. The model was pre-trained on both the global image-sentence level and the local image region-word level for visual-textual matching. Both are bidirectionally constrained on Cross-Entropy based and ranking-based Triplet Matching Losses. The region-word matching is calculated using the attention mechanism without direct supervision about their mapping. The pre-trained multi-modal representation learning paves the way for downstream tasks concerning image and/or text encoding. We demonstrate the representation learning quality by cross-modality retrievals and multi-label classifications on two datasets: OpenI-IU and MIMIC-CXR
翻訳日:2021-09-08 07:41:00 公開日:2021-09-04
# オンライン学生の知識状態の評価--新しいデータ、新しいアプローチ、正確性の向上

Assessing the Knowledge State of Online Students -- New Data, New Approaches, Improved Accuracy ( http://arxiv.org/abs/2109.01753v1 )

ライセンス: Link先を確認
Robin Schmucker, Jingbo Wang, Shijia Hu, Tom M. Mitchell(参考訳) オンラインコースを通った個々の学生の知識変化状況を評価することの問題点を考察する。 この学生パフォーマンス(sp)モデリング問題は、知識追跡としても知られ、適応型オンライン教育システムを構築するための重要なステップである。 具体的には,様々なタイプの学生のログデータを活用して,将来の学生の知識状態を予測する正確な機械学習モデルを訓練する方法について検討する。 この研究は、4つの異なるインテリジェントなチュータシステムから最近利用可能になった4つの非常に大きなデータセットを初めて使用した。 まず、従来の質問応答ログ(例えば、生徒の最新の回答のパターン)から容易に計算できる新機能を導入することで、精度の向上を実現します。 第2に、質問応答ペア(例えば、学生が見たビデオセグメント、スキップしたビデオセグメント)を超える学生の歴史の特徴と、カリキュラムの必須構造に関する情報を利用する。 第3に、カリキュラムの異なる側面(例えば、学生史の初期と後期のセグメントを専門とする)の複数の専門的なモデリングモデルを訓練し、これらの専門的なモデルを組み合わせて、学生の知識をグループで予測する。 これら4つのデータセットの平均AUCスコアは0.766のロジスティック回帰アプローチスコアと比較すると0.807であり、最先端のディープニューラルネットワークアプローチよりも優れています。 重要なのは、各データセットにおける3つの方法論的イノベーションのそれぞれから一貫した改善を観察し、我々の手法が汎用的であり、他のオンライン学習システムにも改善をもたらす可能性が高いことを示唆することです。

We consider the problem of assessing the changing knowledge state of individual students as they go through online courses. This student performance (SP) modeling problem, also known as knowledge tracing, is a critical step for building adaptive online teaching systems. Specifically, we conduct a study of how to utilize various types and large amounts of students log data to train accurate machine learning models that predict the knowledge state of future students. This study is the first to use four very large datasets made available recently from four distinct intelligent tutoring systems. Our results include a new machine learning approach that defines a new state of the art for SP modeling, improving over earlier methods in several ways: First, we achieve improved accuracy by introducing new features that can be easily computed from conventional question-response logs (e.g., the pattern in the student's most recent answers). Second, we take advantage of features of the student history that go beyond question-response pairs (e.g., which video segments the student watched, or skipped) as well as information about prerequisite structure in the curriculum. Third, we train multiple specialized modeling models for different aspects of the curriculum (e.g., specializing in early versus later segments of the student history), then combine these specialized models to create a group prediction of student knowledge. Taken together, these innovations yield an average AUC score across these four datasets of 0.807 compared to the previous best logistic regression approach score of 0.766, and also outperforming state-of-the-art deep neural net approaches. Importantly, we observe consistent improvements from each of our three methodological innovations, in each dataset, suggesting that our methods are of general utility and likely to produce improvements for other online tutoring systems as well.
翻訳日:2021-09-07 17:29:27 公開日:2021-09-04
# 縮尺符号勾配の高速収束について

On Faster Convergence of Scaled Sign Gradient Descent ( http://arxiv.org/abs/2109.01806v1 )

ライセンス: Link先を確認
Xiuxian Li, Kuo-Yi Lin, Li Li, Yiguang Hong, Jie Chen(参考訳) 通信は大規模ネットワーク上の産業アプリケーションにおいて重要なボトルネックと見なされてきた。 コミュニケーションの負担を軽減するため,近年,産業コミュニティと学術コミュニティの両方において,適応勾配法(adamなど)と密接に関連している手話に基づく最適化アルゴリズムが普及している。 この線に沿って, 1) 目的関数は強凸であり, 2) 目的関数は非凸であるがポリアック・ロジャシエヴィチの不等式を満たす, 3) 勾配は確率的であり,スケールド・サインGDと呼ばれる。 最初の2つのケースでは、スケールされた符号GDが線形速度で収束することを示すことができる。 例えば、一定の学習率を使用する場合、アルゴリズムは最適値の近傍に線形収束することが示され、このアルゴリズムは減少する学習率を使用する場合、$O(1/k)$で収束し、$k$は反復数である。 結果はパラメータサーバフレームワークの多数決によって分散設定にも拡張される。 最後に,ロジスティック回帰に関する数値実験を行い,理論的知見を裏付ける。

Communication has been seen as a significant bottleneck in industrial applications over large-scale networks. To alleviate the communication burden, sign-based optimization algorithms have gained popularity recently in both industrial and academic communities, which is shown to be closely related to adaptive gradient methods, such as Adam. Along this line, this paper investigates faster convergence for a variant of sign-based gradient descent, called scaled signGD, in three cases: 1) the objective function is strongly convex; 2) the objective function is nonconvex but satisfies the Polyak-Lojasiewicz (PL) inequality; 3) the gradient is stochastic, called scaled signGD in this case. For the first two cases, it can be shown that the scaled signGD converges at a linear rate. For case 3), the algorithm is shown to converge linearly to a neighborhood of the optimal value when a constant learning rate is employed, and the algorithm converges at a rate of $O(1/k)$ when using a diminishing learning rate, where $k$ is the iteration number. The results are also extended to the distributed setting by majority vote in a parameter-server framework. Finally, numerical experiments on logistic regression are performed to corroborate the theoretical findings.
翻訳日:2021-09-07 17:28:56 公開日:2021-09-04
# 脳卒中診断における断層画像の弱教師付きセマンティックセグメンテーション

Weakly supervised semantic segmentation of tomographic images in the diagnosis of stroke ( http://arxiv.org/abs/2109.01887v1 )

ライセンス: Link先を確認
Anna Dobshik, Andrey Tulupov, Vladimir Berikov(参考訳) 本稿では,非コントラスト計算トモグラフィ脳画像上での急性脳梗塞による領域分割の自動アルゴリズムを提案する。 提案アルゴリズムは,いくつかの画像が正確にラベル付けされ,いくつかの画像が不正確なラベル付けされた場合に,弱教師付きシナリオで学習するために設計されている。 CT画像の手動アノテーションの過程で放射線技師が行った不正確さの結果として、誤りラベルが現れる。 不正確なラベル付きトレーニングデータの場合、セグメンテーション問題を解決する手法を提案する。 いくつかの変更を加えてU-Netニューラルネットワークアーキテクチャを使用する。 実計算トモグラフィースキャン実験により,提案手法はセグメント化精度を向上することが示された。

This paper presents an automatic algorithm for the segmentation of areas affected by an acute stroke on the non-contrast computed tomography brain images. The proposed algorithm is designed for learning in a weakly supervised scenario when some images are labeled accurately, and some images are labeled inaccurately. Wrong labels appear as a result of inaccuracy made by a radiologist in the process of manual annotation of computed tomography images. We propose methods for solving the segmentation problem in the case of inaccurately labeled training data. We use the U-Net neural network architecture with several modifications. Experiments on real computed tomography scans show that the proposed methods increase the segmentation accuracy.
翻訳日:2021-09-07 17:28:36 公開日:2021-09-04
# グラフェン推定による学習グラフニューラルネットワーク

Training Graph Neural Networks by Graphon Estimation ( http://arxiv.org/abs/2109.01918v1 )

ライセンス: Link先を確認
Ziqing Hu, Yihao Fang, Lizhen Lin(参考訳) 本研究では,基礎となるネットワークデータから得られたグラフトン推定値から再サンプリングすることで,グラフニューラルネットワークのトレーニングを行う。 より具体的には、基礎となるネットワークのグラフオンまたはリンク確率行列が最初に得られ、各レイヤでのトレーニングプロセス中に新しいネットワークを再サンプリングして使用する。 再サンプリングによって引き起こされる不確実性のため、グラフニューラルネットワーク(gnn)モデルにおける過剰スモーシングの既知の問題を軽減するのに役立つ。 私たちのフレームワークは一般的で、計算効率が高く、概念的にシンプルです。 また,本手法の特長は,トレーニングプロセス中に最小限の追加チューニングが必要となる点である。 以上の結果から,本手法はGNNトレーニング法と競合し,GNNトレーニング法よりも優れた結果が得られた。

In this work, we propose to train a graph neural network via resampling from a graphon estimate obtained from the underlying network data. More specifically, the graphon or the link probability matrix of the underlying network is first obtained from which a new network will be resampled and used during the training process at each layer. Due to the uncertainty induced from the resampling, it helps mitigate the well-known issue of over-smoothing in a graph neural network (GNN) model. Our framework is general, computationally efficient, and conceptually simple. Another appealing feature of our method is that it requires minimal additional tuning during the training process. Extensive numerical results show that our approach is competitive with and in many cases outperform the other over-smoothing reducing GNN training methods.
翻訳日:2021-09-07 17:28:26 公開日:2021-09-04
# OCTAVA:光コヒーレンス断層撮影血管造影画像の定量的解析のためのオープンソースツールボックス

OCTAVA: an open-source toolbox for quantitative analysis of optical coherence tomography angiography images ( http://arxiv.org/abs/2109.01835v1 )

ライセンス: Link先を確認
Gavrielle R. Untracht, Rolando Matos, Nikolaos Dikaios, Mariam Bapir, Abdullah K. Durrani, Teemapron Butsabong, Paola Campagnolo, David D. Sampson, Christian Heiss and Danuta M. Sampson(参考訳) 光コヒーレンス断層撮影法(optical coherence tomography angiography,octa)は、眼科と皮膚科を中心に研究および臨床応用における微小血管の非侵襲的可視化と特徴付けを行う。 さまざまな機器、イメージングプロトコル、処理方法、メトリクスが微小血管を記述するために用いられており、異なる研究結果を比較することは、現在実現不可能である。 OCTAデータ解析の標準化に寄与することを目的として,標準化ワークフローにおけるOCTA最大強度投影画像の事前処理,セグメンテーション,定量的解析を自動化するために,OCTAVA(OCTA Vascular Analyzer)というユーザフレンドリなオープンソースツールボックスを報告した。 本稿では,フィルタリングの最適化,セグメンテーションアルゴリズムの選択,メトリクスの定義を含む各分析ステップを提案する。 市販・非商用機器およびサンプルのOCTA画像の定量的解析を行い、OCTAVAが微小血管のキャラクタリゼーションの指標を正確に再現可能であることを示す。 広く採用されれば、早期発見のための信頼性の高い微小血管バイオマーカーの開発や、微小血管疾患の治療の指導に十分な規模のデータの研究と集約が可能になる。

Optical coherence tomography angiography (OCTA) performs non-invasive visualization and characterization of microvasculature in research and clinical applications mainly in ophthalmology and dermatology. A wide variety of instruments, imaging protocols, processing methods and metrics have been used to describe the microvasculature, such that comparing different study outcomes is currently not feasible. With the goal of contributing to standardization of OCTA data analysis, we report a user-friendly, open-source toolbox, OCTAVA (OCTA Vascular Analyzer), to automate the pre-processing, segmentation, and quantitative analysis of en face OCTA maximum intensity projection images in a standardized workflow. We present each analysis step, including optimization of filtering and choice of segmentation algorithm, and definition of metrics. We perform quantitative analysis of OCTA images from different commercial and non-commercial instruments and samples and show OCTAVA can accurately and reproducibly determine metrics for characterization of microvasculature. Wide adoption could enable studies and aggregation of data on a scale sufficient to develop reliable microvascular biomarkers for early detection, and to guide treatment, of microvascular disease.
翻訳日:2021-09-07 17:26:01 公開日:2021-09-04
# 構造脳ネットワークとグラフ神経ネットワークを用いたグリオーマにおけるisocitrate dehydrogenase変異の予測

Predicting isocitrate dehydrogenase mutationstatus in glioma using structural brain networksand graph neural networks ( http://arxiv.org/abs/2109.01854v1 )

ライセンス: Link先を確認
Yiran Wei, Yonghao Li, Xi Chen, Carola-Bibiane Sch\"onlieb, Chao Li, and Stephen J. Price(参考訳) グリオーマは一般的な悪性脳腫瘍であり、患者の生存率が異なる。 Isocitrate dehydrogenase (IDH)遺伝子変異は、グリオーマの診断と予後に重要な価値を与え、現在、治療の標準として受け入れられている。 術前MRIによる非侵襲的IDH変異予測は重要な臨床的意義を有する。 機械学習とディープラーニングモデルは、IDH変異状態を予測する上で適切なパフォーマンスを示す。 しかし、ほとんどのモデルでは腫瘍の浸潤による系統的な脳の変化を無視しており、脳内の白い物質がグリオーマの印として認識されている。 構造的脳ネットワークは、より正確なIDH変異の予測のためにグラフニューラルネットワーク(GNN)によって捉えられる脳組織を特徴づける効果的なツールを提供する。 本稿では,患者の脳の構造的ネットワークに基づくGNNを用いたIDH変異の予測手法を提案する。 具体的には、まず、関心領域(roi)を提供するために、エッジ(白質路)とノード(皮質および皮質下脳領域)のアトラスからなる、健康な被験者のネットワークテンプレートを構築する。 次に, 患者エッジとノードのROIから潜在性多モードMRI特徴を抽出するために, オートエンコーダを用いた。 これらの脳ネットワークのエッジとノードの特徴は、IDH変異の予測においてGNNアーキテクチャを訓練するために使用される。 提案手法は, 3D-CNN と 3D-DenseNet を用いてベースラインモデルより優れていることを示す。 さらに, モデル解釈は, 腫瘍に浸潤した管を同定する能力を示し, 臨床知識に対応している。 結論として、脳ネットワークとGNNを統合することで、計算神経科学とコンピュータビジョンアプローチを用いて脳の病変を研究する新たな道が開かれる。

Glioma is a common malignant brain tumor that shows distinct survival among patients. The isocitrate dehydrogenase (IDH) gene mutation status provides critical diagnostic and prognostic value for glioma and is now accepted as the standard of care. A non-invasive prediction of IDH mutation based on the pre-treatment MRI has crucial clinical significance. Machine learning and deep learning models show reasonable performance in predicting IDH mutation status. However, most models neglect the systematic brain alterations caused by tumor invasion, where the infiltration along white matter tracts throughout the brain is identified as a hallmark of glioma. Structural brain network provides an effective tool to characterise brain organisation, which could be captured by the graph neural networks (GNN) for a more accurate prediction of IDH mutation status. Here we propose a method to predict the IDH mutation using GNN, based on the structural brain network of patients. Specifically, we firstly construct a network template of healthy subjects, which consists of atlases of edges (white matter tracts) and nodes (cortical and subcortical brain regions) to provide regions of interest (ROI). Next, we employ autoencoders to extract the latent multi-modal MRI features from the ROIs of the edge and node in patients. These features of edge and node of brain networks are used to train a GNN architecture in predicting IDH mutation status. The results show that the proposed method outperforms the baseline models using 3D-CNN and 3D-DenseNet. In addition, the model interpretation suggests its ability to identify the tracts infiltrated by tumor and corresponds to clinical prior knowledge. In conclusion, integrating brain networks with GNN offers a new avenue to study brain lesions using computational neuroscience and computer vision approaches.
翻訳日:2021-09-07 17:25:40 公開日:2021-09-04
# 長期変動需要を有するサプライチェーンにおけるモデル再訓練と情報共有

Model retraining and information sharing in a supply chain with long-term fluctuating demands ( http://arxiv.org/abs/2109.01784v1 )

ライセンス: Link先を確認
Takahiro Ezaki, Naoto Imura, Katsuhiro Nishinari(参考訳) 実証データに基づく需要予測は、サプライチェーンを最適化するための実行可能なアプローチである。 しかしながら、このアプローチでは、過去のデータから構築されたモデルが環境の長期的変化によって時代遅れになる場合があり、そのモデルが最新のデータを使用して更新(再トレーニング)されるべきである。 本研究では,最小限の設定を用いてサプライチェーンにおけるモデル更新の効果を検討する。 我々は,サプライチェーンの各パーティが独自の予測モデルを持っている場合,極めて単純な補充政策を適用した場合でも,非協調モデルの再訓練がブルウィップ効果を引き起こすことを示した。 また,関係者間での予測モデル共有はブルホイップ効果を著しく減少させることが示唆された。

Demand forecasting based on empirical data is a viable approach for optimizing a supply chain. However, in this approach, a model constructed from past data occasionally becomes outdated due to long-term changes in the environment, in which case the model should be updated (i.e., retrained) using the latest data. In this study, we examine the effects of updating models in a supply chain using a minimal setting. We demonstrate that when each party in the supply chain has its own forecasting model, uncoordinated model retraining causes the bullwhip effect even if a very simple replenishment policy is applied. Our results also indicate that sharing the forecasting model among the parties involved significantly reduces the bullwhip effect.
翻訳日:2021-09-07 17:23:56 公開日:2021-09-04
# 汎用確率ゲームにおけるマルコフ完全平衡計算の複雑さについて

On the Complexity of Computing Markov Perfect Equilibrium in General-Sum Stochastic Games ( http://arxiv.org/abs/2109.01795v1 )

ライセンス: Link先を確認
Xiaotie Deng, Yuhao Li, David Henry Mguni, Jun Wang, Yaodong Yang(参考訳) 強化学習におけるマルコフ決定プロセスの役割と同様に、確率ゲーム(SG)はマルチエージェント強化学習(MARL)とシーケンシャルエージェント相互作用の研究の基礎を築いた。 本稿では,指数的精度における有限状態割引確率ゲームにおける近似マルコフ完全平衡 (MPE) の計算が \textbf{PPAD}-完全であることを示す。 我々は,MPE計算を定点問題に変換するために,戦略空間に多項式的に有界な記述を持つ関数を採用する。 完全性の結果は、固定点問題をラインの {\sc 終点へ還元するのに続く。 以上の結果から, SGs における MPE の発見は \textbf{NP}=\textbf{co-NP} がなければ, 極めて困難である可能性が示唆された。 我々の研究は、汎用SG上でのMPE計算の研究と、現在ゼロサムSG上での実りあるアルゴリズムの開発に、MARL研究の信頼性を提供する。

Similar to the role of Markov decision processes in reinforcement learning, Stochastic Games (SGs) lay the foundation for the study of multi-agent reinforcement learning (MARL) and sequential agent interactions. In this paper, we derive that computing an approximate Markov Perfect Equilibrium (MPE) in a finite-state discounted Stochastic Game within the exponential precision is \textbf{PPAD}-complete. We adopt a function with a polynomially bounded description in the strategy space to convert the MPE computation to a fixed-point problem, even though the stochastic game may demand an exponential number of pure strategies, in the number of states, for each agent. The completeness result follows the reduction of the fixed-point problem to {\sc End of the Line}. Our results indicate that finding an MPE in SGs is highly unlikely to be \textbf{NP}-hard unless \textbf{NP}=\textbf{co-NP}. Our work offers confidence for MARL research to study MPE computation on general-sum SGs and to develop fruitful algorithms as currently on zero-sum SGs.
翻訳日:2021-09-07 17:23:44 公開日:2021-09-04
# SEC4SR: 話者認識のためのセキュリティ分析プラットフォーム

SEC4SR: A Security Analysis Platform for Speaker Recognition ( http://arxiv.org/abs/2109.01766v1 )

ライセンス: Link先を確認
Guangke Chen and Zhe Zhao and Fu Song and Sen Chen and Lingling Fan and Yang Liu(参考訳) 敵攻撃は話者認識(SR)にまで拡大された。 しかし、既存の攻撃はしばしば異なるSRモデル、認識タスク、データセットを使用して評価され、コンピュータビジョンから借用される敵防衛はごくわずかである。 しかし、これらの防御は適応攻撃に対して徹底的に評価されていない。 したがって、敵の攻撃や防御の強みや限界についての定量的な理解がいまだに欠けている。 SRシステムの確保にはより効果的な防御も必要である。 このギャップを埋めるために、私たちは最初のプラットフォームであるSEC4SRを紹介します。これは、研究者がSRにおける敵攻撃と防衛を体系的かつ包括的な評価を可能にする最初のプラットフォームです。 また、アダプティブアタックの装備技術も備えている。 SEC4SRを用いて、これまでで最大規模の敵攻撃と防衛に関する実証的研究を行い、23の防衛、15の攻撃、4の攻撃設定を含む。 Our study provides lots of useful findings that may advance future research: such as (1) all the transformations slightly degrade accuracy on benign examples and their effectiveness vary with attacks; (2) most transformations become less effective under adaptive attacks, but some transformations become more effective; (3) few transformations combined with adversarial training yield stronger defenses over some but not all attacks, while our feature-level transformation combined with adversarial training yields the strongest defense over all the attacks. 大規模な実験は、将来の研究に役立つSEC4SRの能力と利点を実証している。

Adversarial attacks have been expanded to speaker recognition (SR). However, existing attacks are often assessed using different SR models, recognition tasks and datasets, and only few adversarial defenses borrowed from computer vision are considered. Yet,these defenses have not been thoroughly evaluated against adaptive attacks. Thus, there is still a lack of quantitative understanding about the strengths and limitations of adversarial attacks and defenses. More effective defenses are also required for securing SR systems. To bridge this gap, we present SEC4SR, the first platform enabling researchers to systematically and comprehensively evaluate adversarial attacks and defenses in SR. SEC4SR incorporates 4 white-box and 2 black-box attacks, 24 defenses including our novel feature-level transformations. It also contains techniques for mounting adaptive attacks. Using SEC4SR, we conduct thus far the largest-scale empirical study on adversarial attacks and defenses in SR, involving 23 defenses, 15 attacks and 4 attack settings. Our study provides lots of useful findings that may advance future research: such as (1) all the transformations slightly degrade accuracy on benign examples and their effectiveness vary with attacks; (2) most transformations become less effective under adaptive attacks, but some transformations become more effective; (3) few transformations combined with adversarial training yield stronger defenses over some but not all attacks, while our feature-level transformation combined with adversarial training yields the strongest defense over all the attacks. Extensive experiments demonstrate capabilities and advantages of SEC4SR which can benefit future research in SR.
翻訳日:2021-09-07 17:22:31 公開日:2021-09-04
# 変圧器モデルを用いた大規模自然言語理解システムにおける誤り検出

Error Detection in Large-Scale Natural Language Understanding Systems Using Transformer Models ( http://arxiv.org/abs/2109.01754v1 )

ライセンス: Link先を確認
Rakesh Chada, Pradeep Natarajan, Darshan Fofadiya, Prathap Ramachandra(参考訳) Alexa、Siri、Cortana、Google Assistantといった大規模な会話アシスタントは、ドメイン、インテント、名前付きエンティティ認識の複数のモデルを使用して、発話毎に処理する。 モデル開発の分離と大量のトラフィック量を考えると、そのようなシステムによって誤って処理された発話を特定することは極めて困難である。 オフラインのTransformerモデルを用いて、ドメイン分類エラーを検出する。 本稿では,RoBERTaモデルからの発話符号化と生産システムによるNbest仮説を組み合わせる。 次に、ドメイン分類エラーを伴う人称発話の小さなデータセットを用いて、マルチタスク設定でエンドツーエンドを微調整する。 大規模対話型AIシステムにおいて,トラフィックの0.5%を占める1つのドメインから誤分類を検出するためのアプローチを検証した。 提案手法は,バイ・LSTMベースラインを16.9%,スタンドアローンのRoBERTaモデルを4.8%,F1スコアを30%向上させる。 我々はこれをさらに2.2%から32.2%改善し、複数のモデルを組み立てる。

Large-scale conversational assistants like Alexa, Siri, Cortana and Google Assistant process every utterance using multiple models for domain, intent and named entity recognition. Given the decoupled nature of model development and large traffic volumes, it is extremely difficult to identify utterances processed erroneously by such systems. We address this challenge to detect domain classification errors using offline Transformer models. We combine utterance encodings from a RoBERTa model with the Nbest hypothesis produced by the production system. We then fine-tune end-to-end in a multitask setting using a small dataset of humanannotated utterances with domain classification errors. We tested our approach for detecting misclassifications from one domain that accounts for <0.5% of the traffic in a large-scale conversational AI system. Our approach achieves an F1 score of 30% outperforming a bi- LSTM baseline by 16.9% and a standalone RoBERTa model by 4.8%. We improve this further by 2.2% to 32.2% by ensembling multiple models.
翻訳日:2021-09-07 17:05:16 公開日:2021-09-04
# 効率的な類似検索と推薦のための表現学習

Representation Learning for Efficient and Effective Similarity Search and Recommendation ( http://arxiv.org/abs/2109.01815v1 )

ライセンス: Link先を確認
Casper Hansen(参考訳) データの表現と運用は、効率的かつ効率的な計算ソリューションを構築する上で重要である。 一般的なアプローチは、データオブジェクトをバイナリベクトルとして表現することであり、ストレージをほとんど必要とせず、ハッシュテーブルへの直接インデックスや、適切な空間での類似性計算による効率的な類似性検索を可能にする。 ハッシュコードの表現性に限界があるため、実際の数値表現と比較して、少数のビットを使用してセマンティックコンテンツや潜在プロパティを適切にキャプチャするハッシュコードをどうやって生成するかが課題であり、ハッシュコードが検索効率を低下させない方法で分散されることを保証する。 最先端技術では、表現学習を用いてハッシュコードを生成する。そこでは、意味がハッシュコードにエンコードされるニューラルオートエンコーダアーキテクチャに焦点を当て、ハッシュコードの元の入力を再構築する学習を行う。 この論文は、上述した課題に対処し、(i)より表現力のある表現を通してハッシュ符号の有効性を向上し、そして(ii)検索方法の選択に特に適した表現を学習することによってハッシュ符号の効率を向上させることによる、技術の現在の状態、すなわちハミング距離よりも効果的な類似度尺度を提示する。 コントリビューションは、類似性検索とレコメンデーションに関連するいくつかのタスクで実証的に検証される。

How data is represented and operationalized is critical for building computational solutions that are both effective and efficient. A common approach is to represent data objects as binary vectors, denoted \textit{hash codes}, which require little storage and enable efficient similarity search through direct indexing into a hash table or through similarity computations in an appropriate space. Due to the limited expressibility of hash codes, compared to real-valued representations, a core open challenge is how to generate hash codes that well capture semantic content or latent properties using a small number of bits, while ensuring that the hash codes are distributed in a way that does not reduce their search efficiency. State of the art methods use representation learning for generating such hash codes, focusing on neural autoencoder architectures where semantics are encoded into the hash codes by learning to reconstruct the original inputs of the hash codes. This thesis addresses the above challenge and makes a number of contributions to representation learning that (i) improve effectiveness of hash codes through more expressive representations and a more effective similarity measure than the current state of the art, namely the Hamming distance, and (ii) improve efficiency of hash codes by learning representations that are especially suited to the choice of search method. The contributions are empirically validated on several tasks related to similarity search and recommendation.
翻訳日:2021-09-07 17:05:01 公開日:2021-09-04
# マスク付き言語モデリングのイライラする単純事前学習

Frustratingly Simple Pretraining Alternatives to Masked Language Modeling ( http://arxiv.org/abs/2109.01819v1 )

ライセンス: Link先を確認
Atsuki Yamaguchi, George Chrysostomou, Katerina Margatina and Nikolaos Aletras(参考訳) Masked Language Modeling (MLM) は、自然言語処理においてテキスト表現の学習に広く利用されている。 MLMは、[MASK]プレースホルダーに置き換えられた入力トークンのランダムなサンプルを、語彙全体のマルチクラス設定で予測するためにモデルを訓練する。 事前トレーニングでは、MLM以外のトークンやシーケンスレベルの補助目的と併用して、下流のパフォーマンスを改善することが一般的である(例)。 次の文の予測) しかし、これまでの研究では、他の単純な言語学的直感的目的が、メインの事前学習目的としてスタンドアロンで使用できるかどうかを検証できていない。 本稿では,MLMの代替としてトークンレベルの分類タスクに基づく5つの簡単な事前学習目標について検討する。 GLUE と SQuAD の実証実験の結果,提案手法はBERT-BASE アーキテクチャを用いて MLM に匹敵する性能を示した。 さらに,より小さなモデルを用いて,BERT-BASEのパラメータの41%の事前学習を行うことで,GLUEスコアの1%の低下しか得られないことを示す。

Masked language modeling (MLM), a self-supervised pretraining objective, is widely used in natural language processing for learning text representations. MLM trains a model to predict a random sample of input tokens that have been replaced by a [MASK] placeholder in a multi-class setting over the entire vocabulary. When pretraining, it is common to use alongside MLM other auxiliary objectives on the token or sequence level to improve downstream performance (e.g. next sentence prediction). However, no previous work so far has attempted in examining whether other simpler linguistically intuitive or not objectives can be used standalone as main pretraining objectives. In this paper, we explore five simple pretraining objectives based on token-level classification tasks as replacements of MLM. Empirical results on GLUE and SQuAD show that our proposed methods achieve comparable or better performance to MLM using a BERT-BASE architecture. We further validate our methods using smaller models, showing that pretraining a model with 41% of the BERT-BASE's parameters, BERT-MEDIUM results in only a 1% drop in GLUE scores with our best objective.
翻訳日:2021-09-07 17:04:37 公開日:2021-09-04
# FewshotQA: 事前学習されたテキスト-テキストモデルを用いた質問応答タスクの簡単な学習フレームワーク

FewshotQA: A simple framework for few-shot learning of question answering tasks using pre-trained text-to-text models ( http://arxiv.org/abs/2109.01951v1 )

ライセンス: Link先を確認
Rakesh Chada, Pradeep Natarajan(参考訳) 少数の例(数発設定と呼ばれる)から学習するタスクは、現実世界の設定に重要な重要性と関連性を持っています。 質問応答(QA)の場合、現在の最先端の事前訓練モデルでは、良い結果を得るためには、何万ものサンプルを微調整する必要がある。 彼らのパフォーマンスは、数ショット設定で著しく低下する(100例)。 そこで本研究では,事前学習したテキスト・テキスト・モデルを利用した簡単な微調整フレームワークを提案する。 具体的には、入力を質問の結合、回答スパンと文脈を表すマスクトークンとして構成する。 この入力を前提として、モデルは事前学習対象と同じ目的を用いて微調整される。 様々な少数ショット構成に関する実験的研究を通じて、この定式化が複数のqaベンチマーク(トレーニングサンプルが16個しかない場合平均34.2f1ポイント)において大きな利益をもたらすことを示した。 ゲインはより大きなモデル(Eg:-72.3 F1 on SQuAD with BART-large with only 32 example)でさらに拡張され、多言語設定によく翻訳される。 多言語tydiqaベンチマークでは,本モデルは最大40f1点,平均33f1点という絶対マージンでxlm-roberta-largeよりも優れている(<=64トレーニング例)。 これらの向上に寄与する因子を分析するため,詳細なアブレーション研究を行う。

The task of learning from only a few examples (called a few-shot setting) is of key importance and relevance to a real-world setting. For question answering (QA), the current state-of-the-art pre-trained models typically need fine-tuning on tens of thousands of examples to obtain good results. Their performance degrades significantly in a few-shot setting (< 100 examples). To address this, we propose a simple fine-tuning framework that leverages pre-trained text-to-text models and is directly aligned with their pre-training framework. Specifically, we construct the input as a concatenation of the question, a mask token representing the answer span and a context. Given this input, the model is fine-tuned using the same objective as that of its pre-training objective. Through experimental studies on various few-shot configurations, we show that this formulation leads to significant gains on multiple QA benchmarks (an absolute gain of 34.2 F1 points on average when there are only 16 training examples). The gains extend further when used with larger models (Eg:- 72.3 F1 on SQuAD using BART-large with only 32 examples) and translate well to a multilingual setting . On the multilingual TydiQA benchmark, our model outperforms the XLM-Roberta-large by an absolute margin of upto 40 F1 points and an average of 33 F1 points in a few-shot setting (<= 64 training examples). We conduct detailed ablation studies to analyze factors contributing to these gains.
翻訳日:2021-09-07 17:04:17 公開日:2021-09-04
# 視覚的質問応答に対する相対的空間推論

Weakly Supervised Relative Spatial Reasoning for Visual Question Answering ( http://arxiv.org/abs/2109.01934v1 )

ライセンス: Link先を確認
Pratyay Banerjee, Tejas Gokhale, Yezhou Yang, Chitta Baral(参考訳) 視覚と言語(V\&L)推論は、オブジェクトやアクション、セマンティクスや言語基盤の理解、そして2つのモダリティ間の相互作用についての推論を必要とする。 視覚的推論の重要な側面は空間的理解であり、物体の相対的な位置、すなわちシーンの幾何学を暗黙的に学習する。 本研究では,対象の対方向相対位置の予測を分類と回帰課題として定式化し,そのような幾何学的理解へのv\&lモデルの忠実性を評価する。 以上の結果から,現状の変圧器を用いたV\&Lモデルでは,この課題に優れる十分な能力が欠如していることが示唆された。 この動機付けにより,3次元空間推論 (sr) のプロキシーとして,対象遠心推定と相対位置推定の2つの目標をデザインし,既設深度推定器の弱い v\&l を訓練する。 これにより、「GQA」視覚質問応答チャレンジ(完全教師付き、少数ショット、O.O.D設定)の精度が大幅に向上し、相対空間推論も改善された。 コードとデータは \href{https://github.com/p ratyay-banerjee/weak _sup_vqa}{here} でリリースされる。

Vision-and-language (V\&L) reasoning necessitates perception of visual concepts such as objects and actions, understanding semantics and language grounding, and reasoning about the interplay between the two modalities. One crucial aspect of visual reasoning is spatial understanding, which involves understanding relative locations of objects, i.e.\ implicitly learning the geometry of the scene. In this work, we evaluate the faithfulness of V\&L models to such geometric understanding, by formulating the prediction of pair-wise relative locations of objects as a classification as well as a regression task. Our findings suggest that state-of-the-art transformer-based V\&L models lack sufficient abilities to excel at this task. Motivated by this, we design two objectives as proxies for 3D spatial reasoning (SR) -- object centroid estimation, and relative position estimation, and train V\&L with weak supervision from off-the-shelf depth estimators. This leads to considerable improvements in accuracy for the "GQA" visual question answering challenge (in fully supervised, few-shot, and O.O.D settings) as well as improvements in relative spatial reasoning. Code and data will be released \href{https://github.com/p ratyay-banerjee/weak _sup_vqa}{here}.
翻訳日:2021-09-07 17:03:33 公開日:2021-09-04
# 睡眠段階分類のための領域一般化型多視点空間時間グラフ畳み込みネットワーク

Multi-View Spatial-Temporal Graph Convolutional Networks with Domain Generalization for Sleep Stage Classification ( http://arxiv.org/abs/2109.01824v1 )

ライセンス: Link先を確認
Ziyu Jia, Youfang Lin, Jing Wang, Xiaojun Ning, Yuanlai He, Ronghao Zhou, Yuhan Zhou, Li-wei H. Lehman(参考訳) 睡眠ステージ分類は睡眠アセスメントと疾患診断に必須である。 これまでの睡眠段階の分類の試みは高い分類性能を達成しているが, 1) 多チャンネル脳信号からの時間的空間的特徴と時間的特徴を効果的に活用する方法はいまだに困難である。 以前の研究では、脳領域間の空間的トポロジー情報を十分に活用できなかった。 2) 個々の生体信号にみられる多くの差異から, 被験者の違いを克服し, ディープニューラルネットワークの一般化を改善する方法が重要である。 3) 多くの深層学習法は, モデルの脳への解釈性を無視している。 以上の課題に対処するために、睡眠段階分類のための領域一般化を伴うマルチビュー時空間グラフ畳み込みネットワーク(MSTGCN)を提案する。 具体的には,脳領域の機能的接続と物理的距離近接に基づいて,mstgcnのための2つの脳ビューグラフを構築した。 MSTGCNは、空間的特徴を抽出するためのグラフ畳み込みと、睡眠段階間の遷移規則をキャプチャするための時間畳み込みからなる。 また、睡眠段階分類において最も関連性の高い時空間情報を取得するために注意機構を用いる。 最後に、ドメイン一般化とMSTGCNを統合フレームワークに統合し、主観的不変な睡眠特徴を抽出する。 2つの公開データセットの実験は、提案されたモデルが最先端のベースラインより優れていることを示している。

Sleep stage classification is essential for sleep assessment and disease diagnosis. Although previous attempts to classify sleep stages have achieved high classification performance, several challenges remain open: 1) How to effectively utilize time-varying spatial and temporal features from multi-channel brain signals remains challenging. Prior works have not been able to fully utilize the spatial topological information among brain regions. 2) Due to the many differences found in individual biological signals, how to overcome the differences of subjects and improve the generalization of deep neural networks is important. 3) Most deep learning methods ignore the interpretability of the model to the brain. To address the above challenges, we propose a multi-view spatial-temporal graph convolutional networks (MSTGCN) with domain generalization for sleep stage classification. Specifically, we construct two brain view graphs for MSTGCN based on the functional connectivity and physical distance proximity of the brain regions. The MSTGCN consists of graph convolutions for extracting spatial features and temporal convolutions for capturing the transition rules among sleep stages. In addition, attention mechanism is employed for capturing the most relevant spatial-temporal information for sleep stage classification. Finally, domain generalization and MSTGCN are integrated into a unified framework to extract subject-invariant sleep features. Experiments on two public datasets demonstrate that the proposed model outperforms the state-of-the-art baselines.
翻訳日:2021-09-07 17:02:39 公開日:2021-09-04
# 原文からプッシュするパラフレーズ:多言語パラフレーズ生成アプローチ

Pushing Paraphrase Away from Original Sentence: A Multi-Round Paraphrase Generation Approach ( http://arxiv.org/abs/2109.01862v1 )

ライセンス: Link先を確認
Zhe Lin and Xiaojun Wan(参考訳) 近年、Seq2Seqに基づくニューラルパラフレーズ生成は優れた性能を発揮しているが、生成したパラフレーズには多様性の欠如がある。 本稿では,生成したパラフレーズと原文との多様性の向上,すなわち生成したパラフレーズを原文と可能な限り異なるものにすることに焦点を当てる。 マルチラウンドパラフレーズ生成を利用して多様性を向上させるBTmPG(Back-Translati on Guided Multi-round Paraphrase Generation)を提案する。 2つのベンチマークデータセット上でBTmPGを評価する。 自動評価と人的評価の両方では、BTmPGは原文の意味を保ちながらパラフレーズの多様性を向上させることができる。

In recent years, neural paraphrase generation based on Seq2Seq has achieved superior performance, however, the generated paraphrase still has the problem of lack of diversity. In this paper, we focus on improving the diversity between the generated paraphrase and the original sentence, i.e., making generated paraphrase different from the original sentence as much as possible. We propose BTmPG (Back-Translation guided multi-round Paraphrase Generation), which leverages multi-round paraphrase generation to improve diversity and employs back-translation to preserve semantic information. We evaluate BTmPG on two benchmark datasets. Both automatic and human evaluation show BTmPG can improve the diversity of paraphrase while preserving the semantics of the original sentence.
翻訳日:2021-09-07 17:00:23 公開日:2021-09-04
# インターネットミームによる表現型コミュニケーションに向けて:新しいマルチモーダル対話データセットとベンチマーク

Towards Expressive Communication with Internet Memes: A New Multimodal Conversation Dataset and Benchmark ( http://arxiv.org/abs/2109.01839v1 )

ライセンス: Link先を確認
Zhengcong Fei, Zekang Li, Jinchao Zhang, Yang Feng, Jie Zhou(参考訳) ある種の新しい表現要素として、インターネットミームは、対話を鮮やかに、移動し、興味深いものにするため、オンラインチャットシナリオで広く使われている。 しかし、現在の対話研究のほとんどは、テキストのみの対話タスクに焦点を当てている。 本稿では,新しいタスクである \textbf{m}eme incorporated \textbf{o}pen-domain \textbf{d}ialogue (mod)を提案する。 従来の対話タスクと比較して、MODはモデルがマルチモーダル要素とそれらの背後にある感情を理解する必要があるため、はるかに難しい。 このMOD研究を促進するために,大量のインターネットミームを組み込んだ大規模オープンドメイン多モーダル対話データセットを構築した。 データセットは、$\sim$45Kの中国語会話と$\sim$606Kの発話からなる。 各会話には平均4ドルのインターネットミームを含む約13ドルの発話が含まれており、インターネットミームを備えた発話には対応する感情が注釈付けされる。 さらに,MOD課題を解決するために,統合生成ネットワークを利用する,シンプルで効果的な手法を提案する。 実験の結果,提案手法はテキストやミームを含む表現力のあるコミュニケーションを実現することができることがわかった。 コーパスとモデルはhttps://github.com/l izekang/DSTC10-MODで公開されている。

As a kind of new expression elements, Internet memes are popular and extensively used in online chatting scenarios since they manage to make dialogues vivid, moving, and interesting. However, most current dialogue researches focus on text-only dialogue tasks. In this paper, we propose a new task named as \textbf{M}eme incorporated \textbf{O}pen-domain \textbf{D}ialogue (MOD). Compared to previous dialogue tasks, MOD is much more challenging since it requires the model to understand the multimodal elements as well as the emotions behind them. To facilitate the MOD research, we construct a large-scale open-domain multimodal dialogue dataset incorporating abundant Internet memes into utterances. The dataset consists of $\sim$45K Chinese conversations with $\sim$606K utterances. Each conversation contains about $13$ utterances with about $4$ Internet memes on average and each utterance equipped with an Internet meme is annotated with the corresponding emotion. In addition, we present a simple and effective method, which utilizes a unified generation network to solve the MOD task. Experimental results demonstrate that our method trained on the proposed corpus is able to achieve expressive communication including texts and memes. The corpus and models have been publicly available at https://github.com/l izekang/DSTC10-MOD.
翻訳日:2021-09-07 16:58:39 公開日:2021-09-04
# Stimuli-Aware Visual Emotion Analysis

Stimuli-Aware Visual Emotion Analysis ( http://arxiv.org/abs/2109.01812v1 )

ライセンス: Link先を確認
Jingyuan Yang, Jie Li, Xiumei Wang, Yuxuan Ding, Xinbo Gao(参考訳) 近年,ソーシャルネットワーク上の画像を通して感情を表現・理解する傾向が高まり,視覚的感情分析(VEA)が注目されている。 従来の視覚タスクとは異なり、veaは人間の認知プロセスの複雑さと曖昧さがはるかに高いため、本質的により難しい。 既存の手法の多くは、様々な感情刺激によって誘発される特定の特徴を無視して、画像全体から一般的な特徴を抽出する深層学習技術を採用している。 心理理論における「刺激-組織-反応(s-o-r)」感情モデルに着想を得て,刺激選択(s),特徴抽出(o),感情予測(r)の3段階からなる刺激認識vea法を提案した。 まず、市販のツールを用いて、イメージから特定の感情刺激(色、物、顔)を選択する。 我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。 そこで我々は,global-net,semantic -net,expression-netという3つの特定のネットワークを設計し,異なる刺激から異なる感情的特徴を同時に抽出する。 最後に,mikel's wheelの固有の構造を生かした新しい階層的クロスエントロピー損失をデザインし,難解な例と感情特異的な簡単な例を区別する。 実験により,提案手法が4つの公的な視覚感情データセットにおける最先端のアプローチを一貫して上回ることを示した。 アブレーション研究と可視化は,本手法の有効性と解釈可能性をさらに証明している。

Visual emotion analysis (VEA) has attracted great attention recently, due to the increasing tendency of expressing and understanding emotions through images on social networks. Different from traditional vision tasks, VEA is inherently more challenging since it involves a much higher level of complexity and ambiguity in human cognitive process. Most of the existing methods adopt deep learning techniques to extract general features from the whole image, disregarding the specific features evoked by various emotional stimuli. Inspired by the \textit{Stimuli-Organism-Res ponse (S-O-R)} emotion model in psychological theory, we proposed a stimuli-aware VEA method consisting of three stages, namely stimuli selection (S), feature extraction (O) and emotion prediction (R). First, specific emotional stimuli (i.e., color, object, face) are selected from images by employing the off-the-shelf tools. To the best of our knowledge, it is the first time to introduce stimuli selection process into VEA in an end-to-end network. Then, we design three specific networks, i.e., Global-Net, Semantic-Net and Expression-Net, to extract distinct emotional features from different stimuli simultaneously. Finally, benefiting from the inherent structure of Mikel's wheel, we design a novel hierarchical cross-entropy loss to distinguish hard false examples from easy ones in an emotion-specific manner. Experiments demonstrate that the proposed method consistently outperforms the state-of-the-art approaches on four public visual emotion datasets. Ablation study and visualizations further prove the validity and interpretability of our method.
翻訳日:2021-09-07 16:58:19 公開日:2021-09-04
# k平均クラスタリングによるイベントベース視覚の移動物体検出

Moving Object Detection for Event-based Vision using k-means Clustering ( http://arxiv.org/abs/2109.01879v1 )

ライセンス: Link先を確認
Anindya Mondal, Mayukhmali Das(参考訳) 移動物体検出はコンピュータビジョンにおいて重要なタスクである。 イベントベースのカメラはバイオインスパイアされたカメラで、人間の目の動きを模倣する。 これらのカメラは、レイテンシの低減、hdr、高動き時のモーションボケの低減、消費電力の低減など、従来のフレームベースのカメラよりも複数の利点がある。 しかし、イベントベースのカメラはノイズに敏感で解像度が低いため、これらの利点は高いコストで得られる。 さらに、イベントベースのセンサーは、シーンの明るさのバイナリ変化のみを捉え、テクスチャや色などの視覚的特徴を欠いているため、これらのカメラで物体を検出する作業は困難である。 本稿では,k-meansクラスタリング手法のイベントベースデータにおける移動物体検出への応用について検討する。 k平均を用いた公開データセットの実験結果は、最先端の手法よりもパフォーマンスが大幅に向上したことを示している。

Moving object detection is a crucial task in computer vision. Event-based cameras are bio-inspired cameras that work by mimicking the working of the human eye. These cameras have multiple advantages over conventional frame-based cameras, like reduced latency, HDR, reduced motion blur during high motion, low power consumption, etc. However, these advantages come at a high cost, as event-based cameras are noise sensitive and have low resolution. Moreover, the task of moving object detection in these cameras is difficult, as event-based sensors capture only the binary changes in brightness of a scene, lacking useful visual features like texture and color. In this paper, we investigate the application of the k-means clustering technique in detecting moving objects in event-based data. Experimental results in publicly available datasets using k-means show significant improvement in performance over the state-of-the-art methods.
翻訳日:2021-09-07 16:57:54 公開日:2021-09-04
# テキストに基づく感情検出の限界を明らかにする

Uncovering the Limits of Text-based Emotion Detection ( http://arxiv.org/abs/2109.01900v1 )

ライセンス: Link先を確認
Nurudin Alvarez-Gonzalez, Andreas Kaltenbrunner, Vicen\c{c} G\'omez(参考訳) テキストから感情を特定することは、現実世界のさまざまなタスクにとって重要です。 感情分類のための最大のコーパスは、読者が58kのメッセージにラベル付けしたgoemotionsと、ライターがラベル付けしたメッセージが33mあるventだ。 ベンチマークを設計し、いくつかの特徴空間と学習アルゴリズムを評価する。その中には、以前のGoEmotionsの強力なベースラインを上回ったBERT上の2つのシンプルな新しいモデルが含まれる。 また,人間の参加者による実験を通じて,著者の感情表現方法と読み手の認識方法の違いを分析した。 著者が表現する感情は,読者が知覚する感情よりも識別が難しいことが示唆された。 研究者がモデルを探索するための公開Webインターフェースを共有しています。

Identifying emotions from text is crucial for a variety of real world tasks. We consider the two largest now-available corpora for emotion classification: GoEmotions, with 58k messages labelled by readers, and Vent, with 33M writer-labelled messages. We design a benchmark and evaluate several feature spaces and learning algorithms, including two simple yet novel models on top of BERT that outperform previous strong baselines on GoEmotions. Through an experiment with human participants, we also analyze the differences between how writers express emotions and how readers perceive them. Our results suggest that emotions expressed by writers are harder to identify than emotions that readers perceive. We share a public web interface for researchers to explore our models.
翻訳日:2021-09-07 16:57:19 公開日:2021-09-04
# 会話における学習のためのニューラルネットワークに基づく言語類似度尺度

A Neural Network-Based Linguistic Similarity Measure for Entrainment in Conversations ( http://arxiv.org/abs/2109.01924v1 )

ライセンス: Link先を確認
Mingzhi Yu, Diane Litman, Shuang Ma, Jian Wu(参考訳) 言語訓練は、人々が会話でお互いを模倣する傾向がある現象である。 エントレメントを定量化するための中核的な手段は、会話相手間の言語的類似度尺度である。 現在の類似度尺度のほとんどは、言語的マーカーに依存し、言語構造や対話のコンテキストを無視するback-of-wordsアプローチに基づいている。 この問題に対処するため,我々はニューラルネットワークモデルを用いて学習の類似度尺度を提案する。 我々のモデルは文脈認識であり、さらに新しいコンポーネントを活用して対話間での高水準言語的特徴の共有を学習する。 まず,新規成分の有効性について検討する。 次に,コーパスに基づく学習分析において類似度測定を行うためにモデルを用いる。 両評価課題の有望な結果を観察する。

Linguistic entrainment is a phenomenon where people tend to mimic each other in conversation. The core instrument to quantify entrainment is a linguistic similarity measure between conversational partners. Most of the current similarity measures are based on bag-of-words approaches that rely on linguistic markers, ignoring the overall language structure and dialogue context. To address this issue, we propose to use a neural network model to perform the similarity measure for entrainment. Our model is context-aware, and it further leverages a novel component to learn the shared high-level linguistic features across dialogues. We first investigate the effectiveness of our novel component. Then we use the model to perform similarity measure in a corpus-based entrainment analysis. We observe promising results for both evaluation tasks.
翻訳日:2021-09-07 16:57:08 公開日:2021-09-04
# Eden: 強化学習アルゴリズムをブーイングするための統一環境フレームワーク

Eden: A Unified Environment Framework for Booming Reinforcement Learning Algorithms ( http://arxiv.org/abs/2109.01768v1 )

ライセンス: Link先を確認
Ruizhi Chen, Xiaoyu Wu, Yansong Pan, Kaizhao Yuan, Ling Li, TianYun Ma, JiYuan Liang, Rui Zhang, Kai Wang, Chen Zhang, Shaohui Peng, Xishan Zhang, Zidong Du, Qi Guo, Yunji Chen(参考訳) AlphaGoがトップの人間プレイヤーを倒すにつれ、強化学習(RL)アルゴリズムは徐々に強力な人工知能(AI)を構築するためのコードベースになりつつある。 RLアルゴリズムの設計は、まず特定の環境に適応する必要があるため、設計された環境はRLアルゴリズムの迅速かつ深い開発を導く。 しかし、既存の環境は現実世界のゲームとカスタマイズされたおもちゃ環境に分けられ、明らかに欠点がある。 現実世界のゲームでは、人間のエンターテイメントのために設計されており、ほとんどのRL研究者にとって難しすぎる。 カスタマイズされた玩具環境では、RLアルゴリズムの統一評価基準は広く受け入れられていない。 そこで,本研究では,初のrl用仮想ユーザフレンドリ環境フレームワークを提案する。 本フレームワークでは, 主流研究におけるRLタスクのすべてを実現する環境を, 容易に設定できる。 そして、すべての主流の最先端rlアルゴリズムを便利に評価し比較することができる。 したがって、本研究は、SOTA RLアルゴリズムの全ての分類のための構成環境と、複数の分類RLアルゴリズムの組込み環境と、あらゆる種類のRLアルゴリズムの評価基準とを主に含んでいる。 これらすべての努力により、さまざまなタスクにおいて一般的な能力を持つAIを育成する可能性が提供され、おそらくAIの新しい章が開かれるだろう。

With AlphaGo defeats top human players, reinforcement learning(RL) algorithms have gradually become the code-base of building stronger artificial intelligence(AI). The RL algorithm design firstly needs to adapt to the specific environment, so the designed environment guides the rapid and profound development of RL algorithms. However, the existing environments, which can be divided into real world games and customized toy environments, have obvious shortcomings. For real world games, it is designed for human entertainment, and too much difficult for most of RL researchers. For customized toy environments, there is no widely accepted unified evaluation standard for all RL algorithms. Therefore, we introduce the first virtual user-friendly environment framework for RL. In this framework, the environment can be easily configured to realize all kinds of RL tasks in the mainstream research. Then all the mainstream state-of-the-art(SOT A) RL algorithms can be conveniently evaluated and compared. Therefore, our contributions mainly includes the following aspects: 1.single configured environment for all classification of SOTA RL algorithms; 2.combined environment of more than one classification RL algorithms; 3.the evaluation standard for all kinds of RL algorithms. With all these efforts, a possibility for breeding an AI with capability of general competency in a variety of tasks is provided, and maybe it will open up a new chapter for AI.
翻訳日:2021-09-07 16:56:42 公開日:2021-09-04
# 時系列分類と予測のための注意神経制御微分方程式

Attentive Neural Controlled Differential Equations for Time-series Classification and Forecasting ( http://arxiv.org/abs/2109.01876v1 )

ライセンス: Link先を確認
Sheo Yon Jhin, Heejoo Shin, Seoyoung Hong, Solhee Park, Noseong Park(参考訳) 微分方程式にインスパイアされたニューラルネットワークは、ここ数年で急増している。 ニューラル常微分方程式(NODE)とニューラル制御微分方程式(NCDE)はその代表的な例である。 理論上、NCDEはNODEよりも時系列データに優れた表現学習機能を提供する。 特に、NCDEは不規則な時系列データを処理するのに適していることが知られている。 しかし、NODEは注意を引いた後に拡張されているが、NCDEにどのように注意を組み込むかはまだ研究されていない。 そこで,本研究では,2つのNCDEを用いて時系列分類と予測を行うANCDE(Attentive Neural Controlled Differential Equations)の手法を提案する。 3つの実世界の時系列データセットと10のベースラインで実験を行う。 いくつかの値を落とした後、不規則な時系列実験も行います。 非自明なマージンで全てのケースで最高の精度を示す。 我々の可視化は、提示された注意機構が重要な情報に集中して機能することを示している。

Neural networks inspired by differential equations have proliferated for the past several years. Neural ordinary differential equations (NODEs) and neural controlled differential equations (NCDEs) are two representative examples of them. In theory, NCDEs provide better representation learning capability for time-series data than NODEs. In particular, it is known that NCDEs are suitable for processing irregular time-series data. Whereas NODEs have been successfully extended after adopting attention, however, it had not been studied yet how to integrate attention into NCDEs. To this end, we present the method of Attentive Neural Controlled Differential Equations (ANCDEs) for time-series classification and forecasting, where dual NCDEs are used: one for generating attention values, and the other for evolving hidden vectors for a downstream machine learning task. We conduct experiments with three real-world time-series datasets and 10 baselines. After dropping some values, we also conduct irregular time-series experiments. Our method consistently shows the best accuracy in all cases by non-trivial margins. Our visualizations also show that the presented attention mechanism works as intended by focusing on crucial information.
翻訳日:2021-09-07 16:54:44 公開日:2021-09-04
# 領域一般化のための可換分布アライメントと多様体制限可逆性

Barycenteric distribution alignment and manifold-restricted invertibility for domain generalization ( http://arxiv.org/abs/2109.01902v1 )

ライセンス: Link先を確認
Boyang Lyu, Thuan Nguyen, Prakash Ishwar, Matthias Scheutz, Shuchin Aeron(参考訳) 共通表現関数とラベリング関数からなるドメイン一般化(DG)問題に対して、学習対象の表現に依存する未確認領域上のリスクに対して、よく知られ広く採用されている上界に現れる、項を明示的に最適化できない既存のアプローチの欠点を指摘する。 この目的のために、我々はまず、予測リスクに対する新しい上限を導出する。 本稿では,学習すべき表現,すなわち多様体制限可逆性について軽度仮定を課すことは,この問題に対処するのに十分であることを示す。 さらに、既存のアプローチとは異なり、我々の新しい上限は損失関数のリプシッツ性の仮定を必要としない。 さらに、表現空間における分布的不一致は、wasserstein-2 barycenterコストによって処理される。 この文脈では、様々な最適な輸送指標、特に$L^1$距離(総変量距離とも呼ばれる)とWasserstein-2距離をクルバック・リーブラーの発散と結びつける、古くて最近の輸送不等式を創造的に活用する。 これらの分析と洞察は、3つの競合する目標を付加的にバランスさせる新たなDG表現学習コストを動機付けている。1) クロスエントロピーによる分類誤差の最小化、2) ワッサーシュタイン-2バリセンターコストによる表現空間におけるドメイン不変性の強化、3) 自己エンコーダベースの再構築損失または相互情報損失である。 提案したアルゴリズムは、現在の多くの領域一般化アプローチの典型である任意の逆トレーニング機構の使用を完全に回避している点に注意が必要である。 いくつかの標準データセットのシミュレーション結果は、よく知られたDGアルゴリズムよりも優れた性能を示す。

For the Domain Generalization (DG) problem where the hypotheses are composed of a common representation function followed by a labeling function, we point out a shortcoming in existing approaches that fail to explicitly optimize for a term, appearing in a well-known and widely adopted upper bound to the risk on the unseen domain, that is dependent on the representation to be learned. To this end, we first derive a novel upper bound to the prediction risk. We show that imposing a mild assumption on the representation to be learned, namely manifold restricted invertibility, is sufficient to deal with this issue. Further, unlike existing approaches, our novel upper bound doesn't require the assumption of Lipschitzness of the loss function. In addition, the distributional discrepancy in the representation space is handled via the Wasserstein-2 barycenter cost. In this context, we creatively leverage old and recent transport inequalities, which link various optimal transport metrics, in particular the $L^1$ distance (also known as the total variation distance) and the Wasserstein-2 distances, with the Kullback-Liebler divergence. These analyses and insights motivate a new representation learning cost for DG that additively balances three competing objectives: 1) minimizing classification error across seen domains via cross-entropy, 2) enforcing domain-invariance in the representation space via the Wasserstein-2 barycenter cost, and 3) promoting non-degenerate, nearly-invertible representation via one of two mechanisms, viz., an autoencoder-based reconstruction loss or a mutual information loss. It is to be noted that the proposed algorithms completely bypass the use of any adversarial training mechanism that is typical of many current domain generalization approaches. Simulation results on several standard datasets demonstrate superior performance compared to several well-known DG algorithms.
翻訳日:2021-09-07 16:54:30 公開日:2021-09-04
# ゼロショットモデルのロバスト微調整

Robust fine-tuning of zero-shot models ( http://arxiv.org/abs/2109.01903v1 )

ライセンス: Link先を確認
Mitchell Wortsman, Gabriel Ilharco, Mike Li, Jong Wook Kim, Hannaneh Hajishirzi, Ali Farhadi, Hongseok Namkoong, Ludwig Schmidt(参考訳) CLIPのような大規模な事前学習モデルでは、ゼロショット推論を行う場合(例えば、特定のデータセットを微調整することなく)、さまざまなデータ分布に対して一貫した精度を提供する。 既存の微調整手法は分布の精度を大幅に向上させるが、分布外ロバスト性も低下させる。 我々は,ゼロショットモデルと微調整モデルの重み付けという,ロバスト性を改善するための単純かつ効果的な方法を導入することで,この緊張に対処する。 通常の微調整と比較して、結果として生じる重量空間のアンサンブルは、分配精度と一致または分配精度を大きく改善する。 イメージネットと5つの導出分布シフトについて, 重み空間アンサンブルは, 分散精度を2~10ポイント向上するとともに, 分布精度を標準微調整と比較して約1ポイント向上させた。 これらの改善は、微調整や推論の間、追加の計算コストを伴わない。

Large pre-trained models such as CLIP offer consistent accuracy across a range of data distributions when performing zero-shot inference (i.e., without fine-tuning on a specific dataset). Although existing fine-tuning approaches substantially improve accuracy in-distribution, they also reduce out-of-distribution robustness. We address this tension by introducing a simple and effective method for improving robustness: ensembling the weights of the zero-shot and fine-tuned models. Compared to standard fine-tuning, the resulting weight-space ensembles provide large accuracy improvements out-of-distribution, while matching or improving in-distribution accuracy. On ImageNet and five derived distribution shifts, weight-space ensembles improve out-of-distribution accuracy by 2 to 10 percentage points while increasing in-distribution accuracy by nearly 1 percentage point relative to standard fine-tuning. These improvements come at no additional computational cost during fine-tuning or inference.
翻訳日:2021-09-07 16:52:26 公開日:2021-09-04
# 自律移動ロボットの高速画像処理

Fast Image-Anomaly Mitigation for Autonomous Mobile Robots ( http://arxiv.org/abs/2109.01889v1 )

ライセンス: Link先を確認
Gianmario Fumagalli, Yannick Huber, Marcin Dymczyk, Roland Siegwart, Renaud Dub\'e(参考訳) 雨やほこりのようなカメラ異常は、画像の質と、その関連タスク(ローカライゼーションやセグメンテーションなど)を著しく劣化させる可能性がある。 本研究では,これらのアーティファクトをリアルタイムに効果的に緩和し,計算能力に制限のある自律システムのデプロイを支援する前処理ステップを実装することで,この問題に対処する。 そこで本研究では,非閉塞領域を再構築する際の問題点を解決するために,逆向きに学習したアグリゲーション付き浅層発電機を提案する。 また、我々のアーキテクチャをトレーニングし、モデルの初期化を改善するためにリアルな合成雨滴を使用するために、最も大きな公開データセットの1つを作成します。 既存のデータセットと、既存のアパッチの最大40倍の推論時間で、リアルタイムなパフォーマンスを実現すると同時に、既存のデータセットと、私たち自身のイメージをベンチマークする。

Camera anomalies like rain or dust can severelydegrade image quality and its related tasks, such as localizationand segmentation. In this work we address this importantissue by implementing a pre-processing step that can effectivelymitigate such artifacts in a real-time fashion, thus supportingthe deployment of autonomous systems with limited computecapabilities. We propose a shallow generator with aggregation,trained in an adversarial setting to solve the ill-posed problemof reconstructing the occluded regions. We add an enhancer tofurther preserve high-frequency details and image colorization.We also produce one of the largest publicly available datasets1to train our architecture and use realistic synthetic raindrops toobtain an improved initialization of the model. We benchmarkour framework on existing datasets and on our own imagesobtaining state-of-the-art results while enabling real-time per-formance, with up to 40x faster inference time than existingapproaches.
翻訳日:2021-09-07 16:50:59 公開日:2021-09-04
# Node機能カーネルがグラフ畳み込みネットワークロバストネスを向上

Node Feature Kernels Increase Graph Convolutional Network Robustness ( http://arxiv.org/abs/2109.01785v1 )

ライセンス: Link先を確認
Mohamed El Amine Seddik, Changmin Wu, Johannes F. Lutzeyer and Michalis Vazirgiannis(参考訳) 広く使われているグラフ畳み込みネットワーク(gcns)の入力の摂動に対する堅牢性が重要性を増している。 本稿では,確率行列理論解析が可能なランダムGCNを提案する。 この分析は、グラフが十分に摂動している場合、あるいは極端な場合がランダムである場合、gcnはノードの機能の恩恵を受けることができないことを示唆する。 さらに、グラフ構造の隣接行列にノード特徴カーネルを追加することで、GCNにおけるメッセージパッシングステップの強化がこの問題を解決することが観察された。 6つの実データセット上のノード分類に使用されるGCNの実証的研究は、理論的な発見をさらに確認し、グラフ構造の摂動によってGCNがノードの特徴だけで実行されるマルチ層パーセプトロンよりも著しく低下することを示した。 実際、摂動グラフのメッセージパッシングにノード機能カーネルを追加すると、GCNのパフォーマンスが大幅に改善され、グラフ摂動に対してより堅牢になる。 私たちのコードは、https://github.com/C hangminWu/RobustGCN. comで公開されています。

The robustness of the much-used Graph Convolutional Networks (GCNs) to perturbations of their input is becoming a topic of increasing importance. In this paper, the random GCN is introduced for which a random matrix theory analysis is possible. This analysis suggests that if the graph is sufficiently perturbed, or in the extreme case random, then the GCN fails to benefit from the node features. It is furthermore observed that enhancing the message passing step in GCNs by adding the node feature kernel to the adjacency matrix of the graph structure solves this problem. An empirical study of a GCN utilised for node classification on six real datasets further confirms the theoretical findings and demonstrates that perturbations of the graph structure can result in GCNs performing significantly worse than Multi-Layer Perceptrons run on the node features alone. In practice, adding a node feature kernel to the message passing of perturbed graphs results in a significant improvement of the GCN's performance, thereby rendering it more robust to graph perturbations. Our code is publicly available at:https://github.co m/ChangminWu/RobustG CN.
翻訳日:2021-09-07 16:47:53 公開日:2021-09-04
# RAMA: GPU上の高速マルチカットアルゴリズム

RAMA: A Rapid Multicut Algorithm on GPU ( http://arxiv.org/abs/2109.01838v1 )

ライセンス: Link先を確認
Ahmed Abbas and Paul Swoboda(参考訳) 本稿では,マルチカットのための高並列な素数双対アルゴリズムを提案する。 相関クラスタリング) 問題は、機械学習やコンピュータビジョンで広く使われている古典的なグラフクラスタリング問題である。 提案アルゴリズムは,(1) 下位のマルチカット緩和の不等式に該当する競合するサイクルを見つけること,(2) エッジとサイクル間のメッセージパッシングを行い,検出された違反サイクルから生じるラグランジュ緩和を最適化すること,(3) 行列行列行列乗算による高コストの制約エッジを求めること,の3段階からなる。 本アルゴリズムは最適までの距離を推定する原始解と双対下界を生成する。 我々は,GPUにアルゴリズムを実装し,CPU上で動作する従来のシリアルアルゴリズムと比較して,ソリューションの品質を犠牲にすることなく,実行速度を1~2桁改善したことを示す。 最大$\mathcal{O}(10^8)$変数を数秒で、小さな原始双対ギャップで、非常に大規模なベンチマーク問題を解くことができる。 コードはhttps://github.com/p awelswoboda/ramaで利用可能です。

We propose a highly parallel primal-dual algorithm for the multicut (a.k.a. correlation clustering) problem, a classical graph clustering problem widely used in machine learning and computer vision. Our algorithm consists of three steps executed recursively: (1) Finding conflicted cycles that correspond to violated inequalities of the underlying multicut relaxation, (2) Performing message passing between the edges and cycles to optimize the Lagrange relaxation coming from the found violated cycles producing reduced costs and (3) Contracting edges with high reduced costs through matrix-matrix multiplications. Our algorithm produces primal solutions and dual lower bounds that estimate the distance to optimum. We implement our algorithm on GPUs and show resulting one to two order-of-magnitudes improvements in execution speed without sacrificing solution quality compared to traditional serial algorithms that run on CPUs. We can solve very large scale benchmark problems with up to $\mathcal{O}(10^8)$ variables in a few seconds with small primal-dual gaps. We make our code available at https://github.com/p awelswoboda/RAMA.
翻訳日:2021-09-07 16:47:26 公開日:2021-09-04
# 深層学習は視音響トモグラフィと磁気共鳴画像の完全自動脳画像登録を促進する

Deep learning facilitates fully automated brain image registration of optoacoustic tomography and magnetic resonance imaging ( http://arxiv.org/abs/2109.01880v1 )

ライセンス: Link先を確認
Yexing Hu and Berkan Lafci and Artur Luzgin and Hao Wang and Jan Klohs and Xose Luis Dean-Ben and Ruiqing Ni and Daniel Razansky and Wuwei Ren(参考訳) マルチスペクトル光音響トモグラフィ(Multi-spectral optoacoustic tomography、MSOT)は、歯状脳からの多重分子および機能情報を提供する新しい光学イメージング法である。 磁気共鳴イメージング(MRI)により、優れたソフト・コントラストと高分解能脳解剖学を提供することができる。 それでもマルチモーダル画像の登録は、主にこれらのモダリティによって表現される全く異なる画像コントラストのために、依然として困難である。 これまで報告された登録アルゴリズムは、データ解釈と正確な定量化を損なう手作業によるユーザ依存の脳セグメンテーションに依存していた。 本稿では,深層学習によるMSOT-MRIマルチモーダル画像の完全自動登録手法を提案する。 自動化ワークフローには、適切なマスクを生成するニューラルネットワークベースのイメージセグメンテーションが含まれている。 アルゴリズムの性能は、断面MSOTと高磁場MRI前臨床スキャナーによって取得されたデータセットで示される。 自動登録法はさらに手動および半自動登録で検証され、その堅牢性と正確性を示す。

Multi-spectral optoacoustic tomography (MSOT) is an emerging optical imaging method providing multiplex molecular and functional information from the rodent brain. It can be greatly augmented by magnetic resonance imaging (MRI) that offers excellent soft-tissue contrast and high-resolution brain anatomy. Nevertheless, registration of multi-modal images remains challenging, chiefly due to the entirely different image contrast rendered by these modalities. Previously reported registration algorithms mostly relied on manual user-dependent brain segmentation, which compromised data interpretation and accurate quantification. Here we propose a fully automated registration method for MSOT-MRI multimodal imaging empowered by deep learning. The automated workflow includes neural network-based image segmentation to generate suitable masks, which are subsequently registered using an additional neural network. Performance of the algorithm is showcased with datasets acquired by cross-sectional MSOT and high-field MRI preclinical scanners. The automated registration method is further validated with manual and half-automated registration, demonstrating its robustness and accuracy.
翻訳日:2021-09-07 16:47:08 公開日:2021-09-04
# クロスドメイン名前付きエンティティ認識のためのデータ拡張

Data Augmentation for Cross-Domain Named Entity Recognition ( http://arxiv.org/abs/2109.01758v1 )

ライセンス: Link先を確認
Shuguang Chen, Gustavo Aguilar, Leonardo Neves and Thamar Solorio(参考訳) 名前付きエンティティ認識(NER)における現在の研究は、データ拡張技術がより堅牢なモデルを生成することを示している。 しかし、既存の技術のほとんどは、アノテーション付きデータが非常に限られている低リソースシナリオにおけるドメイン内データの強化に焦点を当てている。 対照的に、NERタスクのクロスドメインデータ拡張について検討する。 低リソースドメインに投影することにより、高リソースドメインからのデータを活用する可能性を検討する。 具体的には、パターン(例)を学習することで、データ表現を高リソースから低リソース領域に変換する新しいニューラルネットワークを提案する。 スタイル、ノイズ、略語など 区別するテキストと、両方のドメインが整列している共有機能空間です。 我々は、多様なデータセットを実験し、データを低リソースドメイン表現に変換することで、高リソースドメインのデータのみを使用して大幅に改善できることを示す。

Current work in named entity recognition (NER) shows that data augmentation techniques can produce more robust models. However, most existing techniques focus on augmenting in-domain data in low-resource scenarios where annotated data is quite limited. In contrast, we study cross-domain data augmentation for the NER task. We investigate the possibility of leveraging data from high-resource domains by projecting it into the low-resource domains. Specifically, we propose a novel neural architecture to transform the data representation from a high-resource to a low-resource domain by learning the patterns (e.g. style, noise, abbreviations, etc.) in the text that differentiate them and a shared feature space where both domains are aligned. We experiment with diverse datasets and show that transforming the data to the low-resource domain representation achieves significant improvements over only using data from high-resource domains.
翻訳日:2021-09-07 16:46:03 公開日:2021-09-04
# 新型コロナウイルスパンデミックにおけるマルチモーダル信頼できないニュース検出のためのコントラスト学習の促進

Supervised Contrastive Learning for Multimodal Unreliable News Detection in COVID-19 Pandemic ( http://arxiv.org/abs/2109.01850v1 )

ライセンス: Link先を確認
Wenjia Zhang, Lin Gui, Yulan He(参考訳) デジタルニュース産業が情報拡散の主流になるにつれて、偽ニュースの悪影響は爆発的に拡大している。 ニュースレポートの信頼性は独立して考えるべきではない。 むしろ、同様のイベントに関する以前発表されたニュース記事は、ニュースレポートの信頼性を評価するために使用できる。 そこで本研究では,テキスト情報と視覚情報の両方をコントラスト的学習戦略を用いた非信頼記事から取得する,bertベースのマルチモーダル不信頼ニュース検出フレームワークを提案する。 対照的な学習者は、信頼できないニュース分類器と対話し、類似の信頼できるニュース(または類似の信頼できないニュース)をより近くに押し寄せながら、類似のコンテンツと反対の信頼性ラベルを持つニュース記事をマルチモーダル埋め込み空間で互いに遠ざける。 COVID-19関連データセットであるReCOVeryの実験結果から、我々のモデルは信頼性の低いニュース検出において、多くの競争上のベースラインを上回ります。

As the digital news industry becomes the main channel of information dissemination, the adverse impact of fake news is explosively magnified. The credibility of a news report should not be considered in isolation. Rather, previously published news articles on the similar event could be used to assess the credibility of a news report. Inspired by this, we propose a BERT-based multimodal unreliable news detection framework, which captures both textual and visual information from unreliable articles utilising the contrastive learning strategy. The contrastive learner interacts with the unreliable news classifier to push similar credible news (or similar unreliable news) closer while moving news articles with similar content but opposite credibility labels away from each other in the multimodal embedding space. Experimental results on a COVID-19 related dataset, ReCOVery, show that our model outperforms a number of competitive baseline in unreliable news detection.
翻訳日:2021-09-07 16:45:50 公開日:2021-09-04
# マルチモーダル感性解析のための3モーダル表現のハイブリッドコントラスト学習

Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2109.01797v1 )

ライセンス: Link先を確認
Sijie Mai, Ying Zeng, Shuangjia Zheng, Haifeng Hu(参考訳) スマートデバイスの幅広い応用により、多くのタスクで使用できるマルチモーダルデータの利用が可能になる。 マルチモーダル感情分析(MSA)の分野では、これまでのほとんどの研究はモーダル内およびモーダル間相互作用の探索に重点を置いていた。 しかしながら、モダリティギャップのため、クロスモーダル情報(言語、視覚、音声)を用いたネットワークのトレーニングは依然として困難であり、既存の手法では、まだ、イントラモーダル・イントラモーダルダイナミクスを十分に学習することができない。 さらに,各サンプル内のダイナミクスの学習が注目される一方で,クラス間の関係の学習は無視される。 さらに、データセットのサイズは既存のメソッドの一般化能力を制限する。 本稿では,三様相表現のハイブリッドコントラスト学習のための新しいフレームワークhyconを提案する。 具体的には,相互モーダル相互作用を十分に探求し,クラス間関係を保ち,モダリティギャップを低減できる,イントラモーダル/インターモーダルコントラスト学習とセミコントラスト学習(これをハイブリッドコントラスト学習と呼ぶ)を同時に行う。 また,モデルが準最適解に陥るのを防ぐために,改良項が考案された。 さらに、HyConは自然に大量のトレーニングペアを生成して、より一般化し、限られたデータセットの負の効果を減らすことができる。 公開データセットに関する広範な実験により,提案手法が既存手法よりも優れていることが示された。

The wide application of smart devices enables the availability of multimodal data, which can be utilized in many tasks. In the field of multimodal sentiment analysis (MSA), most previous works focus on exploring intra- and inter-modal interactions. However, training a network with cross-modal information (language, visual, audio) is still challenging due to the modality gap, and existing methods still cannot ensure to sufficiently learn intra-/inter-modal dynamics. Besides, while learning dynamics within each sample draws great attention, the learning of inter-class relationships is neglected. Moreover, the size of datasets limits the generalization ability of existing methods. To address the afore-mentioned issues, we propose a novel framework HyCon for hybrid contrastive learning of tri-modal representation. Specifically, we simultaneously perform intra-/inter-modal contrastive learning and semi-contrastive learning (that is why we call it hybrid contrastive learning), with which the model can fully explore cross-modal interactions, preserve inter-class relationships and reduce the modality gap. Besides, a refinement term is devised to prevent the model falling into a sub-optimal solution. Moreover, HyCon can naturally generate a large amount of training pairs for better generalization and reduce the negative effect of limited datasets. Extensive experiments on public datasets demonstrate that our proposed method outperforms existing works.
翻訳日:2021-09-07 16:41:55 公開日:2021-09-04
# 批判的:正当性物体検出のための自己校正弱教師付き学習

To be Critical: Self-Calibrated Weakly Supervised Learning for Salient Object Detection ( http://arxiv.org/abs/2109.01770v1 )

ライセンス: Link先を確認
Yongri Piao, Jian Wang, Miao Zhang, Zhengxuan Ma, Huchuan Lu(参考訳) weakly supervised salient object detection (wsod) は、画像レベルのアノテーションを用いた塩分モデルの開発を目的としている。 先行研究の成功にもかかわらず、saliency networkの効果的なトレーニング戦略の探求と、画像レベルのアノテーションとsalient objectsの正確なマッチングはまだ不十分である。 本研究では,擬似ラベルとネットワーク予測の相互校正ループを明示的に確立し,擬似ラベルによる誤りの発散からサリエンシネットワークを解放し,自己校正型トレーニング戦略を提案する。 2)より小さなデータセット(imagenetの約1.8%)でも、よくマッチしたアノテーションによってモデルのパフォーマンスと汎用性が向上できることを証明します。 これはWSODの開発に新たな光を当て、コミュニティへのより多くの貢献を奨励します。 包括的実験により,本手法は既存のwsodメソッドを自己調整戦略のみを採用することにより,すべてに勝ることを示した。 提案されたデータセットのトレーニングによって、着実に改善される。 また,本手法は平均で94.7%の性能を達成している。 さらに、予測結果を「地上の真実」として採用した完全教師付きモデル(BASNetは95.6%、ITSDは97.3%)は、ピクセルレベルのアノテーションのラベル付け時間をわずか0.32%に抑えている。

Weakly-supervised salient object detection (WSOD) aims to develop saliency models using image-level annotations. Despite of the success of previous works, explorations on an effective training strategy for the saliency network and accurate matches between image-level annotations and salient objects are still inadequate. In this work, 1) we propose a self-calibrated training strategy by explicitly establishing a mutual calibration loop between pseudo labels and network predictions, liberating the saliency network from error-prone propagation caused by pseudo labels. 2) we prove that even a much smaller dataset (merely 1.8% of ImageNet) with well-matched annotations can facilitate models to achieve better performance as well as generalizability. This sheds new light on the development of WSOD and encourages more contributions to the community. Comprehensive experiments demonstrate that our method outperforms all the existing WSOD methods by adopting the self-calibrated strategy only. Steady improvements are further achieved by training on the proposed dataset. Additionally, our method achieves 94.7% of the performance of fully-supervised methods on average. And what is more, the fully supervised models adopting our predicted results as "ground truths" achieve successful results (95.6% for BASNet and 97.3% for ITSD on F-measure), while costing only 0.32% of labeling time for pixel-level annotation.
翻訳日:2021-09-07 16:41:00 公開日:2021-09-04
# PR-Net:パーソナライズされたビデオハイライト検出のための参照推論

PR-Net: Preference Reasoning for Personalized Video Highlight Detection ( http://arxiv.org/abs/2109.01799v1 )

ライセンス: Link先を確認
Runnan Chen, Penghao Zhou, Wenzhe Wang, Nenglun Chen, Pai Peng, Xing Sun, Wenping Wang(参考訳) パーソナライズされたビデオハイライト検出は、ユーザの好みに応じて、長い動画を興味深い瞬間に短縮することを目的としている。 現在の手法では、ユーザの履歴を総合的な情報として、ユーザの嗜好を予測するが、ユーザの興味の固有の多様性を否定し、曖昧な選好表現をもたらす。 本稿では,フレームレベルのハイライト予測を考慮し,多種多様性を考慮した簡易かつ効率的な選好推論フレームワーク(PR-Net)を提案する。 具体的には、それぞれの入力クエリフレームに対して異なるユーザ固有の好みを生成し、対応するクエリフレームに対する履歴ハイライトの類似度重み付け和として提示する。 次に、ユーザ固有の選好と、より全体的なハイライト測定のための学習可能な総合選好によって、異なる包括的選好が形成される。 最後に、各クエリフレームのハイライト度と非ハイライト度を、その包括的および非ハイライト的嗜好と意味的類似度として算出する。 さらに、不完全アノテーションによる曖昧さを軽減するために、コンパクトで微分可能な距離空間を確保するために、新しい双方向のコントラスト損失を提案する。 このように,本手法は,平均精度が12%の相対的改善で最先端手法を著しく上回っている。

Personalized video highlight detection aims to shorten a long video to interesting moments according to a user's preference, which has recently raised the community's attention. Current methods regard the user's history as holistic information to predict the user's preference but negating the inherent diversity of the user's interests, resulting in vague preference representation. In this paper, we propose a simple yet efficient preference reasoning framework (PR-Net) to explicitly take the diverse interests into account for frame-level highlight prediction. Specifically, distinct user-specific preferences for each input query frame are produced, presented as the similarity weighted sum of history highlights to the corresponding query frame. Next, distinct comprehensive preferences are formed by the user-specific preferences and a learnable generic preference for more overall highlight measurement. Lastly, the degree of highlight and non-highlight for each query frame is calculated as semantic similarity to its comprehensive and non-highlight preferences, respectively. Besides, to alleviate the ambiguity due to the incomplete annotation, a new bi-directional contrastive loss is proposed to ensure a compact and differentiable metric space. In this way, our method significantly outperforms state-of-the-art methods with a relative improvement of 12% in mean accuracy precision.
翻訳日:2021-09-07 16:40:35 公開日:2021-09-04
# シミュレーションに基づく移動学習と適応融合によるUAV小物体検出の総合的手法

A Comprehensive Approach for UAV Small Object Detection with Simulation-based Transfer Learning and Adaptive Fusion ( http://arxiv.org/abs/2109.01800v1 )

ライセンス: Link先を確認
Chen Rui, Guo Youwei, Zheng Huafei, Jiang Hongyu(参考訳) 無人航空機(UAV)の正確な検出は、UAV防衛システムにおいて重要な役割を果たす。 深層学習は、UAVオブジェクト検出に広く採用されているが、このトピックの研究は、データセットの量とUAVの小さなスケールによって制限されている。 これらの問題に対処するために,シミュレーションデータと適応融合に基づく転送学習を組み合わせる新しい包括的アプローチを提案する。 まず、Microsoftによって提案されたオープンソースのプラグインAirSimを使って、大量現実的なシミュレーションデータを生成する。 次に、実世界のデータセットのシミュレーションデータセットと微調整モデルに基づいて、事前学習したYOLOv5モデルを得る。 最後に,小型物体検出性能をさらに向上させる適応核融合機構を提案する。 実験結果は、UAV物体検出における2.7%の性能向上につながるシミュレーションベースの伝達学習の有効性を示す。 さらに、転送学習と適応融合機構により、元のyolo v5モデルと比較して7.1%の改善が得られた。

Precisely detection of Unmanned Aerial Vehicles(UAVs) plays a critical role in UAV defense systems. Deep learning is widely adopted for UAV object detection whereas researches on this topic are limited by the amount of dataset and small scale of UAV. To tackle these problems, a novel comprehensive approach that combines transfer learning based on simulation data and adaptive fusion is proposed. Firstly, the open-source plugin AirSim proposed by Microsoft is used to generate mass realistic simulation data. Secondly, transfer learning is applied to obtain a pre-trained YOLOv5 model on the simulated dataset and fine-tuned model on the real-world dataset. Finally, an adaptive fusion mechanism is proposed to further improve small object detection performance. Experiment results demonstrate the effectiveness of simulation-based transfer learning which leads to a 2.7% performance increase on UAV object detection. Furthermore, with transfer learning and adaptive fusion mechanism, 7.1% improvement is achieved compared to the original YOLO v5 model.
翻訳日:2021-09-07 16:40:17 公開日:2021-09-04
# RiWNet:悪天候下でロバストな移動オブジェクトインスタンスセグメンテーションネットワーク

RiWNet: A moving object instance segmentation Network being Robust in adverse Weather conditions ( http://arxiv.org/abs/2109.01820v1 )

ライセンス: Link先を確認
Chenjie Wang, Chengyuan Li, Bin Luo, Wei Wang, Jun Liu(参考訳) シーン内の各移動オブジェクトインスタンスのセグメンテーションは、多くのアプリケーションにとって不可欠である。 しかし、他の多くのコンピュータビジョンタスクと同様に、このタスクは最適な天気ではうまく機能するが、悪天候では失敗する傾向がある。 気象条件において堅牢であるためには、所定の気象パターンのデータでネットワークをトレーニングするか、複数のセンサーを融合させるのが通常である。 我々は,ネットワークの構造設計を通じて,気象干渉に対するレジリエンスを向上させるための新たな可能性に注目する。 まず,先進的なトップダウンインタラクションと注意調整モジュールを備えた新しいfpn構造であるriwfpnを提案する。 RiWFPNは他のFPN構造を直接置き換えることで、最適でない気象条件下でのネットワークの堅牢性を向上させることができる。 次に,SOLOV2を拡張して映像中の時間情報をキャプチャして動作情報を学習し,RiWFPNを用いた移動オブジェクトインスタンスセグメンテーションネットワークRiWNetを提案する。 最後に,VKTTIデータセットに基づく移動インスタンスセグメンテーションデータセットであるVKTTI移動データセットを提案する。 この実験は、RiWFPNが他のFPN構造と比較して悪天候に対するネットワークのレジリエンスをいかに改善するかを示す。 riwnetは、いくつかの困難なデータセットにおいて、他の最先端の手法と比較し、特に悪天候下での性能を示す。

Segmenting each moving object instance in a scene is essential for many applications. But like many other computer vision tasks, this task performs well in optimal weather, but then adverse weather tends to fail. To be robust in weather conditions, the usual way is to train network in data of given weather pattern or to fuse multiple sensors. We focus on a new possibility, that is, to improve its resilience to weather interference through the network's structural design. First, we propose a novel FPN structure called RiWFPN with a progressive top-down interaction and attention refinement module. RiWFPN can directly replace other FPN structures to improve the robustness of the network in non-optimal weather conditions. Then we extend SOLOV2 to capture temporal information in video to learn motion information, and propose a moving object instance segmentation network with RiWFPN called RiWNet. Finally, in order to verify the effect of moving instance segmentation in different weather disturbances, we propose a VKTTI-moving dataset which is a moving instance segmentation dataset based on the VKTTI dataset, taking into account different weather scenes such as rain, fog, sunset, morning as well as overcast. The experiment proves how RiWFPN improves the network's resilience to adverse weather effects compared to other FPN structures. We compare RiWNet to several other state-of-the-art methods in some challenging datasets, and RiWNet shows better performance especially under adverse weather conditions.
翻訳日:2021-09-07 16:40:02 公開日:2021-09-04
# ディープフェイク映像検出のための時空間不整合学習

Spatiotemporal Inconsistency Learning for DeepFake Video Detection ( http://arxiv.org/abs/2109.01860v1 )

ライセンス: Link先を確認
Zhihao Gu(参考訳) 近年,顔面手術技術の急速な発展が公衆の関心を喚起している。 ディープラーニングの成功に続いて、既存の手法は常にDeepFakeビデオ検出をバイナリ分類問題として定式化し、フレームベースおよびビデオベースソリューションを開発する。 しかし、偽造ビデオの空間的時間的不整合を捉えることにはほとんど注意が払われていない。 本稿では,この課題を空間的不整合学習(STIL)プロセスと呼び,空間的不整合モジュール(SIM),時間的不整合モジュール(TIM),情報補完モジュール(ISM)からなる新しいSTILブロックにインスタンス化する。 具体的には,隣接するフレームと水平方向,垂直方向の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。 ISMは、SIMからの空間情報とTIMからの時間情報を同時に利用し、より包括的な時空間表現を確立する。 さらに、STILブロックは柔軟で、既存の2D CNNにプラグインすることができます。 本手法の有効性を実証するために,広範な実験と可視化を行った。

The rapid development of facial manipulation techniques has aroused public concerns in recent years. Following the success of deep learning, existing methods always formulate DeepFake video detection as a binary classification problem and develop frame-based and video-based solutions. However, little attention has been paid to capturing the spatial-temporal inconsistency in forged videos. To address this issue, we term this task as a Spatial-Temporal Inconsistency Learning (STIL) process and instantiate it into a novel STIL block, which consists of a Spatial Inconsistency Module (SIM), a Temporal Inconsistency Module (TIM), and an Information Supplement Module (ISM). Specifically, we present a novel temporal modeling paradigm in TIM by exploiting the temporal difference over adjacent frames along with both horizontal and vertical directions. And the ISM simultaneously utilizes the spatial information from SIM and temporal information from TIM to establish a more comprehensive spatial-temporal representation. Moreover, our STIL block is flexible and could be plugged into existing 2D CNNs. Extensive experiments and visualizations are presented to demonstrate the effectiveness of our method against the state-of-the-art competitors.
翻訳日:2021-09-07 16:39:35 公開日:2021-09-04
# 領域特異的残留環-GANデータ拡張を用いたカスケードマスク-RCNN法によるロバストミトーシスの検出

Robust Mitosis Detection Using a Cascade Mask-RCNN Approach With Domain-Specific Residual Cycle-GAN Data Augmentation ( http://arxiv.org/abs/2109.01878v1 )

ライセンス: Link先を確認
Gauthier Roy, Jules Dedieu, Capucine Bertrand, Alireza Moshayedi, Ali Mammadov, St\'ephanie Petit, Saima Ben Hadj and Rutger H.J. Fick (Tribvn Healthcare)(参考訳) MIDOG mitosis 検出の課題として,Mask-RCNN 検出器と ResNet50 と DenseNet201 の分類アンサンブルを用いたカスケードアルゴリズムを開発した。 MIDOGのトレーニングデータは、4つのスキャナーから派生した200フレームで構成され、そのうち3つはセントロイドアノテーションを付加したミオティックインスタンスに注釈付けされている。 まず、検出器と分類ネットワークの一般化性を高めるために、各スキャナドメインを他のスキャナドメインに変換するために最先端の残留サイクルGANを使用します。 トレーニング中、各イメージに対してランダムに4つのドメインのうちの1つをロードします。 このようにして、私たちのネットワークは、アノテーションがなくても、第4の非アノテーションスキャナドメインから学べます。 第2に,センタロイドベースの固定サイズのバウンディングボックスを使用するのではなく,検出器ネットワークをトレーニングするために,ミトーシス特有のバウンディングボックスを作成する。 私たちは、小さなミトースを手動でアノテートし、この小さなデータセットでマスクrcnnをトレーニングし、残りのデータに適用して、完全なアノテーションを取得します。 課題と難解な例のみを用いてフォローアップ分類アンサンブルを訓練した。 予備テストセットでは、アルゴリズムがF1スコアの0.7578を獲得し、リーダーボードの2位になった。

For the MIDOG mitosis detection challenge, we created a cascade algorithm consisting of a Mask-RCNN detector, followed by a classification ensemble consisting of ResNet50 and DenseNet201 to refine detected mitotic candidates. The MIDOG training data consists of 200 frames originating from four scanners, three of which are annotated for mitotic instances with centroid annotations. Our main algorithmic choices are as follows: first, to enhance the generalizability of our detector and classification networks, we use a state-of-the-art residual Cycle-GAN to transform each scanner domain to every other scanner domain. During training, we then randomly load, for each image, one of the four domains. In this way, our networks can learn from the fourth non-annotated scanner domain even if we don't have annotations for it. Second, for training the detector network, rather than using centroid-based fixed-size bounding boxes, we create mitosis-specific bounding boxes. We do this by manually annotating a small selection of mitoses, training a Mask-RCNN on this small dataset, and applying it to the rest of the data to obtain full annotations. We trained the follow-up classification ensemble using only the challenge-provided positive and hard-negative examples. On the preliminary test set, the algorithm scores an F1 score of 0.7578, putting us as the second-place team on the leaderboard.
翻訳日:2021-09-07 16:39:16 公開日:2021-09-04
# 意味セグメンテーションのためのスパース空間注意ネットワーク

Sparse Spatial Attention Network for Semantic Segmentation ( http://arxiv.org/abs/2109.01915v1 )

ライセンス: Link先を確認
Mengyu Liu and Hujun Yin(参考訳) 空間的注意機構は,グローバルなコンテキスト情報を各クエリ位置に集約することにより,長距離依存関係をキャプチャする。 本稿では,空間的注意ネットワーク(SSANet)を提案し,その性能を犠牲にすることなく,空間的注意機構の効率を向上させる。 具体的には、スパース非局所(SNL)ブロックを提案し、各クエリ要素のキー要素と値要素のサブセットをサンプリングし、長距離関係を適応的に捉え、スパース親和性行列を生成し、コンテキスト情報を効率的に集約する。 実験結果から,提案手法は他の文脈集約手法よりも優れ,Cityscapes,PASCAL Context,ADE20Kデータセットの最先端性能を実現していることがわかった。

The spatial attention mechanism captures long-range dependencies by aggregating global contextual information to each query location, which is beneficial for semantic segmentation. In this paper, we present a sparse spatial attention network (SSANet) to improve the efficiency of the spatial attention mechanism without sacrificing the performance. Specifically, a sparse non-local (SNL) block is proposed to sample a subset of key and value elements for each query element to capture long-range relations adaptively and generate a sparse affinity matrix to aggregate contextual information efficiently. Experimental results show that the proposed approach outperforms other context aggregation methods and achieves state-of-the-art performance on the Cityscapes, PASCAL Context and ADE20K datasets.
翻訳日:2021-09-07 16:38:50 公開日:2021-09-04
# ISyNet:AIアクセラレータのための畳み込みニューラルネットワーク設計

ISyNet: Convolutional Neural Networks design for AI accelerator ( http://arxiv.org/abs/2109.01932v1 )

ライセンス: Link先を確認
Alexey Letunovskiy, Vladimir Korviakov, Vladimir Polovnikov, Anastasiia Kargapoltseva, Ivan Mazurenko, Yepan Xiong(参考訳) 近年、Deep Learningはコンピュータビジョン、自然言語処理、音声認識など多くの実践的な問題で大きな成果を上げている。 この研究の主な目的は、たとえ複雑さが過激に高いとしても、モデルの品質を改善することであった。 しかし、しばしばリアルタイムな作業を必要とする運用ソリューションでは、モデルのレイテンシが非常に重要な役割を果たす。 現在の最先端アーキテクチャは、モデル複雑性を考慮したニューラルアーキテクチャサーチ(NAS)によって見出される。 しかし、特定のハードウェアに適した検索スペースの設計は依然として難しい課題である。 この問題に対処するため,我々は,ニューラルネットワーク探索空間のハードウェア効率の測定手法として,行列効率測定(MEM),ハードウェア効率の高い操作からなる探索空間,遅延対応スケーリング手法,および特殊ニューラル処理ユニット(NPU)ハードウェア上で高速かつ高精度に設計されたアーキテクチャセットISyNetを提案する。 我々は、ImageNet上のNPUデバイスの設計アーキテクチャと、下流の分類および検出タスクの一般化能力の利点を示す。

In recent years Deep Learning reached significant results in many practical problems, such as computer vision, natural language processing, speech recognition and many others. For many years the main goal of the research was to improve the quality of models, even if the complexity was impractically high. However, for the production solutions, which often require real-time work, the latency of the model plays a very important role. Current state-of-the-art architectures are found with neural architecture search (NAS) taking model complexity into account. However, designing of the search space suitable for specific hardware is still a challenging task. To address this problem we propose a measure of hardware efficiency of neural architecture search space - matrix efficiency measure (MEM); a search space comprising of hardware-efficient operations; a latency-aware scaling method; and ISyNet - a set of architectures designed to be fast on the specialized neural processing unit (NPU) hardware and accurate at the same time. We show the advantage of the designed architectures for the NPU devices on ImageNet and the generalization ability for the downstream classification and detection tasks.
翻訳日:2021-09-07 16:38:35 公開日:2021-09-04
# 対人目標攻撃を利用した対人ロバスト性向上

Utilizing Adversarial Targeted Attacks to Boost Adversarial Robustness ( http://arxiv.org/abs/2109.01945v1 )

ライセンス: Link先を確認
Uriya Pesso, Koby Bibas, Meir Feder(参考訳) 敵対的攻撃はディープニューラルネットワーク(DNN)の性能を低下させるのに非常に効果的であることが示されている。 最も顕著な防御は、堅牢なモデルを学ぶ方法である敵の訓練である。 それでも、敵の訓練はDNNを敵の摂動に免疫させるものではない。 我々は,最近提案された予測正規化最大公準を取り入れた新しい解を提案する。 具体的には、各仮説がテストサンプルの特定のラベルを仮定する、異なる仮説に従って敵の攻撃を行う。 そして,仮説の確率を比較することにより,ラベルの予測を行う。 我々の精錬過程は、直交部分空間特性の最近の発見に対応している。 我々は、ImageNet、CIFAR10、MNISTでトレーニングされたResNet-50、WideResNet-28、A2層ConvNetを用いて、16の敵攻撃ベンチマークに対するアプローチを広範囲に評価し、それぞれ5.7%、3.7%、0.6%の大幅な改善を示した。

Adversarial attacks have been shown to be highly effective at degrading the performance of deep neural networks (DNNs). The most prominent defense is adversarial training, a method for learning a robust model. Nevertheless, adversarial training does not make DNNs immune to adversarial perturbations. We propose a novel solution by adopting the recently suggested Predictive Normalized Maximum Likelihood. Specifically, our defense performs adversarial targeted attacks according to different hypotheses, where each hypothesis assumes a specific label for the test sample. Then, by comparing the hypothesis probabilities, we predict the label. Our refinement process corresponds to recent findings of the adversarial subspace properties. We extensively evaluate our approach on 16 adversarial attack benchmarks using ResNet-50, WideResNet-28, and a2-layer ConvNet trained with ImageNet, CIFAR10, and MNIST, showing a significant improvement of up to 5.7%, 3.7%, and 0.6% respectively.
翻訳日:2021-09-07 16:38:14 公開日:2021-09-04
# MLCTR:多層非線形行列分解に基づく高速スケーラブル結合テンソル補完

MLCTR: A Fast Scalable Coupled Tensor Completion Based on Multi-Layer Non-Linear Matrix Factorization ( http://arxiv.org/abs/2109.01773v1 )

ライセンス: Link先を確認
Ajim Uddin, Dan Zhou, Xinyuan Tao, Chia-Ching Chou, Dantong Yu(参考訳) 予測を得る企業は、投資決定、配当期待、株価において重要な役割を果たす。 しばしば、非線形な多方向関係、時空間構造、異なるレベルの空間を持つ複数のテンソル互換データセットを含む。 現在の非線形テンソル補完アルゴリズムはノイズの埋め込みやオーバーフィットを学習する傾向がある。 本稿では,テンソル補完問題の組込み学習の側面に注目し,テンソル分解・補完(mlctr)のための新しい多層ニューラルネットワークアーキテクチャを提案する。 ネットワークアーキテクチャには、オーバーフィッティングを最小限に抑える一連の低ランク行列分解(MF)ビルディングブロック、非線形性のために各層のインターリーブ転送関数、勾配減少問題を低減しニューラルネットワークの深さを増大させるバイパス接続など、多くの利点がある。 さらに、このモデルは、学習における高速収束のためにSGDに基づく最適化を採用する。 提案アルゴリズムはEPSデータに欠落した値を出力するのに非常に効率的である。 要素行列に非線形性を導入するという我々の戦略は、組込み学習とエンドツーエンドのテンソルモデルにおいて顕著な性能を示し、因子行列からテンソルを再構成するフェーズにおいて非線形性を持つアプローチを上回ります。

Firms earning prediction plays a vital role in investment decisions, dividends expectation, and share price. It often involves multiple tensor-compatible datasets with non-linear multi-way relationships, spatiotemporal structures, and different levels of sparsity. Current non-linear tensor completion algorithms tend to learn noisy embedding and incur overfitting. This paper focuses on the embedding learning aspect of the tensor completion problem and proposes a new multi-layer neural network architecture for tensor factorization and completion (MLCTR). The network architecture entails multiple advantages: a series of low-rank matrix factorizations (MF) building blocks to minimize overfitting, interleaved transfer functions in each layer for non-linearity, and by-pass connections to reduce the gradient diminishing problem and increase the depths of neural networks. Furthermore, the model employs Stochastic Gradient Descent(SGD) based optimization for fast convergence in training. Our algorithm is highly efficient for imputing missing values in the EPS data. Experiments confirm that our strategy of incorporating non-linearity in factor matrices demonstrates impressive performance in embedding learning and end-to-end tensor models, and outperforms approaches with non-linearity in the phase of reconstructing tensors from factor matrices.
翻訳日:2021-09-07 16:31:17 公開日:2021-09-04
# 慢性糖尿病予測における360°インサイト

Customer 360-degree Insights in Predicting Chronic Diabetes ( http://arxiv.org/abs/2109.01863v1 )

ライセンス: Link先を確認
Asish Satpathy, Satyajit Behari(参考訳) 糖尿病などの慢性疾患が世界中で流行しており、毎年かなりの数の死亡の原因となっている。 また、こうした慢性疾患の治療は医療費が高い。 しかし、研究によると、糖尿病は医療費を下げながら積極的に管理され予防される。 私たちは、2018年後半に現在の属性を持つ、テキサス州を代表する1000万人の顧客の360度データのサンプルを発掘しました。 市場調査データベンダから得られたサンプルは、デモグラフィー、ライフスタイル、場合によっては自己報告された慢性状態からなる1000以上の顧客属性を持つ。 本研究では,80%の精度で慢性糖尿病を予測できる分類モデルを開発した。 糖尿病などの慢性疾患を予測し,予防的に予防するために,360度顧客の膨大なデータを有用に活用できる事例を示した。

Chronic diseases such as diabetes are quite prevalent in the world and are responsible for a significant number of deaths per year. In addition, treatments for such chronic diseases account for a high healthcare cost. However, research has shown that diabetes can be proactively managed and prevented while lowering these healthcare costs. We have mined a sample of ten million customers' 360-degree data representing the state of Texas, USA, with attributes current as of late 2018. The sample received from a market research data vendor has over 1000 customer attributes consisting of demography, lifestyle, and in some cases self-reported chronic conditions. In this study, we have developed a classification model to predict chronic diabetes with an accuracy of 80%. We demonstrate a use case where a large volume of 360-degree customer data can be useful to predict and hence proactively prevent chronic diseases such as diabetes.
翻訳日:2021-09-07 16:30:55 公開日:2021-09-04
# 量子ニューラルネットワークの概観:方法,モデル,ジレンマ

A review of Quantum Neural Networks: Methods, Models, Dilemma ( http://arxiv.org/abs/2109.01840v1 )

ライセンス: Link先を確認
Renxin Zhao and Shi Wang(参考訳) 量子コンピュータハードウェアの急速な発展は、qnnの実現のためのハードウェアの基礎を築いた。 量子特性のため、QNNは従来のものよりも高いストレージ容量と計算効率を示す。 本稿では,実装手法,量子回路モデル,難易度という3つの部分から,過去6年間のqnnの開発について概説する。 そのうちの1つは実装手法であり、主にVQAのようなQNNモデルを構築するための基礎となるアルゴリズムや理論フレームワークを指す。 第2部では、QBM、QCVNNなど、QNNの量子回路モデルを紹介している。 第3部では,現在遭遇している大きな問題について説明している。 要するに、このフィールドはまだ探索段階であり、魔法と実用的重要性に満ちている。

The rapid development of quantum computer hardware has laid the hardware foundation for the realization of QNN. Due to quantum properties, QNN shows higher storage capacity and computational efficiency compared to its classical counterparts. This article will review the development of QNN in the past six years from three parts: implementation methods, quantum circuit models, and difficulties faced. Among them, the first part, the implementation method, mainly refers to some underlying algorithms and theoretical frameworks for constructing QNN models, such as VQA. The second part introduces several quantum circuit models of QNN, including QBM, QCVNN and so on. The third part describes some of the main difficult problems currently encountered. In short, this field is still in the exploratory stage, full of magic and practical significance.
翻訳日:2021-09-07 16:27:59 公開日:2021-09-04
# 逐次学習のための固有再帰ダイナミクスを改良したスパイクニューラルネットワーク

Spiking Neural Networks with Improved Inherent Recurrence Dynamics for Sequential Learning ( http://arxiv.org/abs/2109.01905v1 )

ライセンス: Link先を確認
Wachirawit Ponghiran and Kaushik Roy(参考訳) 漏れた統合と発火(LIF)ニューロンを持つスパイクニューラルネットワーク(SNN)は、イベント駆動方式で動作でき、内部状態が時間とともに情報を保持し、特にエッジデバイス上でエネルギー効率の良いニューロモルフィックコンピューティングの機会を提供する。 しかしながら、SNNにおける多くの代表的著作は、連続学習におけるそれらの固有の再発(過去の情報を保持する膜電位)の有用性を十分に示していない。 作品のほとんどが、レートコーディングを通じて、人工的に入力表現を拡張して静的画像を認識するためにsnsを訓練している。 我々は,SNNを逐次的タスクのために訓練し,内部状態が長いシーケンスを学習し,消失する勾配問題に耐性を持たせるようなLIFニューロンのネットワークへの修正を提案する。 そこで我々は,提案するSNNのトレーニング手法を開発し,本質的な再帰ダイナミクスを改良した。 スパイクニューロンの活性化関数の導出とスパイクニューロンの非分化性を克服するために用いられるサーロゲート誘導体とのミスマッチを軽減するために、スパイクニューロンは(バイナリスパイクとは対照的に)マルチビット出力を生成することができる。 実験の結果,TIMIT と LibriSpeech 100h のデータセット上で提案した SNN アーキテクチャは LSTM に匹敵する精度(それぞれ 1.10% と 0.36% )を示すが,LSTM より2倍少ないパラメータを持つことがわかった。 スパースSNN出力は、それぞれTIMITとLibriSpeech 100hデータセットのLSTMの軽量な代替として一般的に考えられているGRUと比較して、乗算操作において10.13xと11.14xの節約につながる。

Spiking neural networks (SNNs) with leaky integrate and fire (LIF) neurons, can be operated in an event-driven manner and have internal states to retain information over time, providing opportunities for energy-efficient neuromorphic computing, especially on edge devices. Note, however, many representative works on SNNs do not fully demonstrate the usefulness of their inherent recurrence (membrane potentials retaining information about the past) for sequential learning. Most of the works train SNNs to recognize static images by artificially expanded input representation in time through rate coding. We show that SNNs can be trained for sequential tasks and propose modifications to a network of LIF neurons that enable internal states to learn long sequences and make their inherent recurrence resilient to the vanishing gradient problem. We then develop a training scheme to train the proposed SNNs with improved inherent recurrence dynamics. Our training scheme allows spiking neurons to produce multi-bit outputs (as opposed to binary spikes) which help mitigate the mismatch between a derivative of spiking neurons' activation function and a surrogate derivative used to overcome spiking neurons' non-differentiabilit y. Our experimental results indicate that the proposed SNN architecture on TIMIT and LibriSpeech 100h dataset yields accuracy comparable to that of LSTMs (within 1.10% and 0.36%, respectively), but with 2x fewer parameters than LSTMs. The sparse SNN outputs also lead to 10.13x and 11.14x savings in multiplication operations compared to GRUs, which is generally con-sidered as a lightweight alternative to LSTMs, on TIMIT and LibriSpeech 100h datasets, respectively.
翻訳日:2021-09-07 16:27:49 公開日:2021-09-04
# GOHOME: グラフ指向ヒートマップ出力フォーフューチャ運動推定

GOHOME: Graph-Oriented Heatmap Output forfuture Motion Estimation ( http://arxiv.org/abs/2109.01827v1 )

ライセンス: Link先を確認
Thomas Gilles, Stefano Sabatini, Dzmitry Tsishkou, Bogdan Stanciulescu, Fabien Moutarde(参考訳) 本稿では,交通現場におけるエージェントの将来の位置確率分布を表すヒートマップ出力を生成するために,ハイ定義マップとスパースプロジェクションのグラフ表現を利用するGOHOMEを提案する。 このヒートマップ出力は、エージェントの将来可能な場所の制約のない2次元グリッド表現をもたらし、固有のマルチモダリティと予測の不確かさの測定を可能にする。 私たちのグラフ指向モデルは、周囲のコンテキストを四角いイメージとして表現し、古典的なcnnで処理するという高い計算負荷を回避します。 GOHOMEは、3$rd$ on Argoverse Motion Forecasting Benchmark on the MissRate$_6$ metric に到達し、1$^{st}$ place method HOMEに比べて、大幅なスピードアップとメモリ負荷の低減を実現している。 また、heatmap出力はマルチモーダル・センスリングを可能にし、1$^{st}$ place$6$を最高のアンサンブルで15$\%$以上改善できることも強調した。

In this paper, we propose GOHOME, a method leveraging graph representations of the High Definition Map and sparse projections to generate a heatmap output representing the future position probability distribution for a given agent in a traffic scene. This heatmap output yields an unconstrained 2D grid representation of agent future possible locations, allowing inherent multimodality and a measure of the uncertainty of the prediction. Our graph-oriented model avoids the high computation burden of representing the surrounding context as squared images and processing it with classical CNNs, but focuses instead only on the most probable lanes where the agent could end up in the immediate future. GOHOME reaches 3$rd$ on Argoverse Motion Forecasting Benchmark on the MissRate$_6$ metric while achieving significant speed-up and memory burden diminution compared to 1$^{st}$ place method HOME. We also highlight that heatmap output enables multimodal ensembling and improve 1$^{st}$ place MissRate$_6$ by more than 15$\%$ with our best ensemble.
翻訳日:2021-09-07 16:23:18 公開日:2021-09-04
# (参考訳) 身体活動認識のためのデータ拡張のためのトランスフォーマーネットワーク [全文訳有]

Transformer Networks for Data Augmentation of Human Physical Activity Recognition ( http://arxiv.org/abs/2109.01081v2 )

ライセンス: CC BY 4.0
Sandeep Ramachandra, Alexander Hoelzemann and Kristof Van Laerhoven(参考訳) データ拡張は、トレーニングで使用されるデータを増やすために、分類において広く使用されるテクニックである。 一般化を改善し、トレーニングに必要なアノテートされたヒューマンアクティビティデータ量を減らし、データセットに必要な労力と時間を削減する。 センサ時系列データは、画像とは異なり、計算学的に単純な変換アルゴリズムでは拡張できない。 Recurrent Generative Adversarial Networks (RGAN)のような最先端技術モデルは、現実的な合成データを生成するために使用される。 本稿では,データにグローバルな注意を払っているトランスフォーマーベースの生成敵ネットワークを,PAMAP2とリアルワールドヒューマンアクティビティ認識データセットでRGANと比較する。 新しいアプローチは、以前のアプローチよりもデータ拡張に必要な計算リソースの時間と節約を改善する。

Data augmentation is a widely used technique in classification to increase data used in training. It improves generalization and reduces amount of annotated human activity data needed for training which reduces labour and time needed with the dataset. Sensor time-series data, unlike images, cannot be augmented by computationally simple transformation algorithms. State of the art models like Recurrent Generative Adversarial Networks (RGAN) are used to generate realistic synthetic data. In this paper, transformer based generative adversarial networks which have global attention on data, are compared on PAMAP2 and Real World Human Activity Recognition data sets with RGAN. The newer approach provides improvements in time and savings in computational resources needed for data augmentation than previous approach.
翻訳日:2021-09-07 13:00:51 公開日:2021-09-04
# コントラスト学習を用いた言語モデル埋め込みにおける関係構造の導入

Imposing Relation Structure in Language-Model Embeddings Using Contrastive Learning ( http://arxiv.org/abs/2109.00840v2 )

ライセンス: Link先を確認
Christos Theodoropoulos, James Henderson, Andrei C. Coman, Marie-Francine Moens(参考訳) 言語モデルテキスト埋め込みはNLP研究に革命をもたらしたが、テキスト内のエンティティ間の関係のような高度な意味情報をキャプチャする能力は限られている。 本稿では,グラフ構造における関係を符号化するために文埋め込みを訓練する,新しいコントラスト学習フレームワークを提案する。 文(非構造化テキスト)とそのグラフが与えられたとき、比較学習を用いて、文字ベール(el boukkouri et al.,2020)モデルで得られた文のトークンレベルの表現に関係関係構造を課す。 得られた関係認識文の埋め込みは、単純なKNN分類器のみを用いて、関係抽出タスクにおける最先端の処理結果を達成し、提案手法の成功を実証する。 tsne解析によるさらなる可視化は、ベースラインと比較して学習表現空間の有効性を示している。 さらに, 比較学習目的を用いて, 名前付きエンティティ認識のための異なる空間を学習できることを示し, 両方の表現空間をエンティティ関係タスクでうまく結合する方法を実証する。

Though language model text embeddings have revolutionized NLP research, their ability to capture high-level semantic information, such as relations between entities in text, is limited. In this paper, we propose a novel contrastive learning framework that trains sentence embeddings to encode the relations in a graph structure. Given a sentence (unstructured text) and its graph, we use contrastive learning to impose relation-related structure on the token-level representations of the sentence obtained with a CharacterBERT (El Boukkouri et al.,2020) model. The resulting relation-aware sentence embeddings achieve state-of-the-art results on the relation extraction task using only a simple KNN classifier, thereby demonstrating the success of the proposed method. Additional visualization by a tSNE analysis shows the effectiveness of the learned representation space compared to baselines. Furthermore, we show that we can learn a different space for named entity recognition, again using a contrastive learning objective, and demonstrate how to successfully combine both representation spaces in an entity-relation task.
翻訳日:2021-09-07 11:52:01 公開日:2021-09-04
# 強固な一般化のための地域対応訓練

Regional Adversarial Training for Better Robust Generalization ( http://arxiv.org/abs/2109.00678v2 )

ライセンス: Link先を確認
Chuanbiao Song, Yanbo Fan, Yichen Yang, Baoyuan Wu, Yiming Li, Zhifeng Li, Kun He(参考訳) 対戦訓練(AT)は、様々な敵攻撃に対する最も有望な防御方法の1つとして実証されている。 我々の知る限り、既存のATベースの手法は、通常、最も敵対的な摂動点を訓練し、全ての摂動点を等しく扱う。 本研究では,その多様性と,良性サンプル近傍の摂動点の特性を考察した,新たな対角トレーニングフレームワークを提案する。 この枠組みを実現するために,本手法では,まず,典型的な射影勾配降下法(pgd)による攻撃経路を活用し,攻撃経路に基づく攻撃領域を構築する地域敵訓練(rat)防御手法を提案する。 次に、RATは、この領域内で様々な摂動トレーニングポイントを効率的にサンプリングし、距離対応ラベル平滑化機構を用いて、異なる場所の摂動ポイントがモデル性能に異なる影響を与えるであろう直感を捉える。 いくつかのベンチマークデータセットの大規模な実験により、RATは標準対人訓練(SAT)を一貫して改善し、より堅牢な一般化を示す。

Adversarial training (AT) has been demonstrated as one of the most promising defense methods against various adversarial attacks. To our knowledge, existing AT-based methods usually train with the locally most adversarial perturbed points and treat all the perturbed points equally, which may lead to considerably weaker adversarial robust generalization on test data. In this work, we introduce a new adversarial training framework that considers the diversity as well as characteristics of the perturbed points in the vicinity of benign samples. To realize the framework, we propose a Regional Adversarial Training (RAT) defense method that first utilizes the attack path generated by the typical iterative attack method of projected gradient descent (PGD), and constructs an adversarial region based on the attack path. Then, RAT samples diverse perturbed training points efficiently inside this region, and utilizes a distance-aware label smoothing mechanism to capture our intuition that perturbed points at different locations should have different impact on the model performance. Extensive experiments on several benchmark datasets show that RAT consistently makes significant improvement on standard adversarial training (SAT), and exhibits better robust generalization.
翻訳日:2021-09-07 11:51:44 公開日:2021-09-04