このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210826となっている論文です。

PDF登録状況(公開日: 20210826)

TitleAuthorsAbstract論文公表日・翻訳日
# 時間制約下における聴覚脳-コンピュータインタフェースにおける刺激速度のオンライン最適化

Online Optimization of Stimulation Speed in an Auditory Brain-Computer Interface under Time Constraints ( http://arxiv.org/abs/2109.06011v1 )

ライセンス: Link先を確認
Jan Sosulski, David H\"ubner, Aaron Klein, Michael Tangermann(参考訳) 機械学習を用いた脳波による脳信号の復号は、脳-コンピュータインタフェース(BCI)の鍵となる。 BCIプロトコルの刺激パラメータやその他の実験的な設定は、典型的には文献によって選択される。 復号性能は、誘発された脳信号や最適なパラメータに影響を及ぼすため、パラメータの選択に直接依存する。 したがって、実験パラメータに対する高速かつ自動化された選択手順は、BCIのユーザビリティを大幅に向上させることができる。 閉鎖ループ聴覚事象関連電位プロトコルにおけるランダム探索とランダム探索を組み合わせたベイズ最適化の評価を行った。 我々は, 正規化線形判別分析の分類性能を最大化する, 個別に最適な刺激速度(刺激オンセット非同期(SOA)とも呼ばれる)を求める。 騒音下でのベイズ最適化とオンラインbci実験の時間的プレッシャーを実現するために,まずオフラインシミュレーションを用いて内部最適化モデルの初期化と制約を行った。 そして,健常者13名を対象にオンライン評価を行った。 13の主題のうち8つについて、ベイジアン最適化を用いた提案されたアプローチが、複数の評価されたSOAの値から、個々に最適なSOAを選択することに成功しました。 しかし、私たちのデータでは、主題はSOAパラメータによって非常に異なる程度に影響されたことを示唆しています。 これにより、影響が限定された被験者に対して自動パラメータ選択が実現不可能となる。 本研究は,個別化実験プロトコルの利点を活かし,聴覚的BCIで評価する手法を提案する。 他の実験パラメータに適用すると、我々のアプローチは異なる対象グループに対するBCIの使用性を高めることができる。

The decoding of brain signals recorded via, e.g., an electroencephalogram , using machine learning is key to brain-computer interfaces (BCIs). Stimulation parameters or other experimental settings of the BCI protocol typically are chosen according to the literature. The decoding performance directly depends on the choice of parameters, as they influence the elicited brain signals and optimal parameters are subject-dependent. Thus a fast and automated selection procedure for experimental parameters could greatly improve the usability of BCIs. We evaluate a standalone random search and a combined Bayesian optimization with random search in a closed-loop auditory event-related potential protocol. We aimed at finding the individually best stimulation speed -- also known as stimulus onset asynchrony (SOA) -- that maximizes the classification performance of a regularized linear discriminant analysis. To make the Bayesian optimization feasible under noise and the time pressure posed by an online BCI experiment, we first used offline simulations to initialize and constrain the internal optimization model. Then we evaluated our approach online with 13 healthy subjects. We could show that for 8 out of 13 subjects, the proposed approach using Bayesian optimization succeeded to select the individually optimal SOA out of multiple evaluated SOA values. Our data suggests, however, that subjects were influenced to very different degrees by the SOA parameter. This makes the automatic parameter selection infeasible for subjects where the influence is limited. Our work proposes an approach to exploit the benefits of individualized experimental protocols and evaluated it in an auditory BCI. When applied to other experimental parameters our approach could enhance the usability of BCI for different target groups -- specifically if an individual disease progress may prevent the use of standard parameters.
翻訳日:2021-09-19 13:42:56 公開日:2021-08-26
# マルチターゲット適応を意識した繰り返しドメイン

Reiterative Domain Aware Multi-target Adaptation ( http://arxiv.org/abs/2109.00919v1 )

ライセンス: Link先を確認
Sudipan Saha and Shan Zhao and Xiao Xiang Zhu(参考訳) ほとんどのドメイン適応手法は単一ソースシングルターゲット適応設定に重点を置いている。 マルチターゲットドメイン適応は、複数の未ラベルのターゲットドメインに対して単一の分類器が学習される強力な拡張である。 マルチターゲット分類器を構築するには,ラベル付きソースと異なるラベル付き対象ドメインの機能を効果的に集約することが不可欠である。 これに向けて、最近発表されたDomain-Aware Curriculum Graph Co-Teaching (D-CGCT)は、グラフニューラルネットワークに基づく二値分類器ヘッドを利用する。 D-CGCTは、ネットワークがそのようなターゲットドメインに適応しやすいと仮定して、ソースとより類似したターゲットドメインから、一度に1つのドメインに適応するシーケンシャル適応戦略を使用する。 しかし、絶対的な意味ではドメインや難しいドメインは存在せず、それぞれのドメインは異なる特性を示すサンプルを持つことができる。 本稿では,各対象領域を複数回繰り返し,反復回数を同じに保ち,適応性能を向上させるReiterative D-CGCT(RD-CGCT)を提案する。 RD-CGCTは、トレーニングミニバッチのトレーニングサンプルよりも多くのソースサンプルを考慮し、適応性をさらに向上する。 提案されたRD-CGCTは、Office-HomeおよびOffice31データセットのD-CGCTよりも性能が大幅に向上する。

Most domain adaptation methods focus on single-source-single -target adaptation setting. Multi-target domain adaptation is a powerful extension in which a single classifier is learned for multiple unlabeled target domains. To build a multi-target classifier, it is crucial to effectively aggregate features from the labeled source and different unlabeled target domains. Towards this, recently introduced Domain-aware Curriculum Graph Co-Teaching (D-CGCT) exploits dual classifier head, one of which is based on the graph neural network. D-CGCT uses a sequential adaptation strategy that adapts one domain at a time starting from the target domains that are more similar to the source, assuming that the network finds it easier to adapt to such target domains. However, we argue that there is no easier domain or difficult domain in absolute sense and each domain can have samples showing different characteristics. Following this cue, we propose Reiterative D-CGCT (RD-CGCT) that obtains better adaptation performance by reiterating multiple times over each target domain, while keeping the total number of iterations as same. RD-CGCT further improves the adaptation performance by considering more source samples than training samples in the training minibatch. Proposed RD-CGCT significantly improves the performance over D-CGCT for Office-Home and Office31 datasets.
翻訳日:2021-09-05 08:55:24 公開日:2021-08-26
# (参考訳) stressnas:neural architecture searchによる状態とストレス検出 [全文訳有]

StressNAS: Affect State and Stress Detection Using Neural Architecture Search ( http://arxiv.org/abs/2108.12502v1 )

ライセンス: CC BY 4.0
Lam Huynh, Tri Nguyen, Thu Nguyen, Susanna Pirttikangas and Pekka Siirtola(参考訳) スマートウォッチは、生理的信号を正確に捉える能力へと急速に進化してきた。 ストレス検出は、人間の健康に対する潜在的な利益のために多くの研究を惹きつける。 ディープニューラルネットワーク(DNN)の適用性について検討し,生理的シグナルを通じて人的意思決定を強化することを提案する。 しかし、手作業によるDNNは、特にこの現象の複雑な性質のため、ストレス検出における面倒な作業を証明する。 そこで本研究では,WESADのデータのみを用いたニューラルネットワーク探索を用いた深層ニューラルネットワークトレーニング手法を提案する。 実験の結果,wesad手首信号の組み合わせを用いて,従来のml法を8.22%,6.02%の3状態分類器に上回った。 さらに,提案手法は人間設計DNNの必要性を最小限に抑えつつ,性能を4.39%(3状態)と8.99%(バイナリ)に向上させる。

Smartwatches have rapidly evolved towards capabilities to accurately capture physiological signals. As an appealing application, stress detection attracts many studies due to its potential benefits to human health. It is propitious to investigate the applicability of deep neural networks (DNN) to enhance human decision-making through physiological signals. However, manually engineering DNN proves a tedious task especially in stress detection due to the complex nature of this phenomenon. To this end, we propose an optimized deep neural network training scheme using neural architecture search merely using wrist-worn data from WESAD. Experiments show that our approach outperforms traditional ML methods by 8.22% and 6.02% in the three-state and two-state classifiers, respectively, using the combination of WESAD wrist signals. Moreover, the proposed method can minimize the need for human-design DNN while improving performance by 4.39% (three-state) and 8.99% (binary).
翻訳日:2021-09-01 12:52:19 公開日:2021-08-26
# (参考訳) PTRAIL -- 並列軌跡データ前処理のためのpythonパッケージ [全文訳有]

PTRAIL -- A python package for parallel trajectory data preprocessing ( http://arxiv.org/abs/2108.13202v1 )

ライセンス: CC BY 4.0
Salman Haidri, Yaksh J. Haranwala, Vania Bogorny, Chiara Renso, Vinicius Prado da Fonseca, Amilcar Soares(参考訳) 軌道データは、時間とともに空間における位置を変える物体の痕跡を表す。 この種のデータは処理や分析が複雑であり、一般的には膨大な量で生成されるため、ジオロケーションデバイスやヒューマンハンドリング、エリアカバレッジの制限によって発生するエラーが発生しやすい。 したがって、トラジェクトリデータの事前処理に適したソフトウェアが必要である。 本稿では,フィルタリングや特徴抽出,補間など,いくつかの軌道前処理ステップを提供するpythonパッケージであるptrailを提案する。 ptrailは並列計算とベクトル化を使い、他のpythonライブラリと比べて大きなデータセットに適しており、高速である。

Trajectory data represent a trace of an object that changes its position in space over time. This kind of data is complex to handle and analyze, since it is generally produced in huge quantities, often prone to errors generated by the geolocation device, human mishandling, or area coverage limitation. Therefore, there is a need for software specifically tailored to preprocess trajectory data. In this work we propose PTRAIL, a python package offering several trajectory preprocessing steps, including filtering, feature extraction, and interpolation. PTRAIL uses parallel computation and vectorization, being suitable for large datasets and fast compared to other python libraries.
翻訳日:2021-09-01 12:46:07 公開日:2021-08-26
# (参考訳) 病理画像分割のためのトランスフォーマティックセグメンテーションネットワークの評価 [全文訳有]

Evaluating Transformer based Semantic Segmentation Networks for Pathological Image Segmentation ( http://arxiv.org/abs/2108.11993v1 )

ライセンス: CC BY 4.0
Cam Nguyen, Zuhayr Asad, Yuankai Huo(参考訳) 病理は癌診断において重要な役割を担っている。 畳み込みニューラルネットワーク(CNN)の急速な進歩とともに。 コンピュータ支援型病理画像解析において, 様々なCNNを用いた病理画像分割手法が開発されている。 ここ数年、Transformer Neural Network(Transformer) は、新しいディープラーニングパラダイムとして、画像全体にわたるグローバルな長距離依存関係をキャプチャするユニークなメリットを示してきた。 このような利点は、空間的に異質な病理像の探索に有益である。 しかし,病的イメージセグメンテーションにおける現在のトランスフォーマーに基づくアプローチを体系的に評価した研究はほとんどない。 スライド画像全体(WSI)におけるトランスフォーマーセグメンテーションモデルの性能を評価するため,腫瘍セグメンテーションに関する6つの有意なトランスフォーマーモデルについて,PAIP肝病理組織学的データセットを用いて定量的に評価した。 より包括的な分析のために、トランスフォーマーベースのモデルを6つの主要なcnnベースのモデルと比較する。 その結果,トランスフォーマーモデルの方がcnnモデルよりも優れた性能を示すことがわかった。 特に、Segmenter、Swin-Transformer、TransUNetはトランスフォーマーベースで、評価された12モデルの中で最高のパフォーマーとして登場した。

Histopathology has played an essential role in cancer diagnosis. With the rapid advances in convolutional neural networks (CNN). Various CNN-based automated pathological image segmentation approaches have been developed in computer-assisted pathological image analysis. In the past few years, Transformer neural networks (Transformer) have shown the unique merit of capturing the global long distance dependencies across the entire image as a new deep learning paradigm. Such merit is appealing for exploring spatially heterogeneous pathological images. However, there have been very few, if any, studies that have systematically evaluated the current Transformer based approaches in pathological image segmentation. To assess the performance of Transformer segmentation models on whole slide images (WSI), we quantitatively evaluated six prevalent transformer-based models on tumor segmentation, using the widely used PAIP liver histopathological dataset. For a more comprehensive analysis, we also compare the transformer-based models with six major traditional CNN-based models. The results show that the Transformer-based models exhibit a general superior performance over the CNN-based models. In particular, Segmenter, Swin-Transformer and TransUNet, all transformer-based, came out as the best performers among the twelve evaluated models.
翻訳日:2021-08-30 23:32:09 公開日:2021-08-26
# (参考訳) BERT事前学習モデルを用いた新しい文順序付け手法 [全文訳有]

A New Sentence Ordering Method Using BERT Pretrained Model ( http://arxiv.org/abs/2108.11994v1 )

ライセンス: CC BY 4.0
Melika Golestani, Seyedeh Zahra Razavi, and Heshaam Faili(参考訳) 自然言語理解能力(NLU)を備えたシステムの構築は、AIの最も古い領域の1つである。 NLUの重要な構成要素は、テキストに含まれるイベントの論理的継承を検出することである。 文順序付けのタスクは、AIタスクに応用されたイベントの継承を学習するために提案される。 統計的手法を用いた先行研究のパフォーマンスは低いが、ニューラルネットワークベースのアプローチはモデル学習のための大きなコーパスを必要としている。 本稿では,訓練段階を必要とせず,学習のための大きなコーパスを必要とする文順序付け手法を提案する。 この目的のために,bert事前学習モデルを用いて文埋め込みを生成し,コサイン類似度スコアを用いて文類似度を測定する。 逐次事象のコヒーレンスレベルを示す指標として,このスコアを提案する。 最終的に文をブルートフォース検索によってソートし、シーケンスされた文の全体的な類似性を最大化する。 提案手法は,5文ストーリーのコーパスであるROCStoriesの他のベースラインよりも優れていた。 この方法は、巨大なコーパスが利用できない場合、ニューラルネットワークベースの手法よりも特に効率的である。 この方法の他の利点は、言語知識に対する解釈可能性と無意味さである。

Building systems with capability of natural language understanding (NLU) has been one of the oldest areas of AI. An essential component of NLU is to detect logical succession of events contained in a text. The task of sentence ordering is proposed to learn succession of events with applications in AI tasks. The performance of previous works employing statistical methods is poor, while the neural networks-based approaches are in serious need of large corpora for model learning. In this paper, we propose a method for sentence ordering which does not need a training phase and consequently a large corpus for learning. To this end, we generate sentence embedding using BERT pre-trained model and measure sentence similarity using cosine similarity score. We suggest this score as an indicator of sequential events' level of coherence. We finally sort the sentences through brute-force search to maximize overall similarities of the sequenced sentences. Our proposed method outperformed other baselines on ROCStories, a corpus of 5-sentence human-made stories. The method is specifically more efficient than neural network-based methods when no huge corpus is available. Among other advantages of this method are its interpretability and needlessness to linguistic knowledge.
翻訳日:2021-08-30 23:20:31 公開日:2021-08-26
# (参考訳) 逆学習型ディープニューラルネットワークのロジット分布の理解 [全文訳有]

Understanding the Logit Distributions of Adversarially-Traine d Deep Neural Networks ( http://arxiv.org/abs/2108.12001v1 )

ライセンス: CC BY 4.0
Landan Seguin, Anthony Ndirango, Neeli Mishra, SueYeon Chung, Tyler Lee(参考訳) 敵防衛は、敵攻撃からの入力摂動に不変であるように、ディープニューラルネットワークを訓練する。 ほぼ全ての防衛戦略は、敵意の訓練を通じてこの不変性を達成する。 敵の摂動による入力の訓練 敵の攻撃を緩和する敵の訓練は成功したが、敵の訓練を受けた(AT)モデルと標準モデルの行動の違いはいまだに理解されていない。 近年のATモデル蒸留による入力摂動を伴わないロバスト性学習研究により,ATモデルにおけるロジット分布を解析し,対角訓練中に何を学んだかを検討した。 対向性学習に不可欠な3つのロジット特性を同定する。 まず,対向訓練がロジット分布の2つの重要な特性を縮小することを示すための理論的正当性を示す: 最大ロジット値と「ロジットギャップ」(ロジット最大値と次の最大値との差異)は,モデルの平均値よりも低い。 第2に、atモデルと標準モデルは、どのサンプルが信頼度が高いか低いかによって大きく異なることを示し、最も信頼度の高いサンプルを可視化することで明確な質的差異を示す。 最後に, 蒸留中の非マックスロジット情報を操作し, 生徒の頑健性への影響を計測することにより, 不正確な授業に関する情報を学習する。 以上の結果から,入力摂動を伴わない対角的頑健さの学習には,複雑な分布に従う特定の標本的信頼度と不正なクラス順序を学習するモデルが必要であることが示唆された。

Adversarial defenses train deep neural networks to be invariant to the input perturbations from adversarial attacks. Almost all defense strategies achieve this invariance through adversarial training i.e. training on inputs with adversarial perturbations. Although adversarial training is successful at mitigating adversarial attacks, the behavioral differences between adversarially-traine d (AT) models and standard models are still poorly understood. Motivated by a recent study on learning robustness without input perturbations by distilling an AT model, we explore what is learned during adversarial training by analyzing the distribution of logits in AT models. We identify three logit characteristics essential to learning adversarial robustness. First, we provide a theoretical justification for the finding that adversarial training shrinks two important characteristics of the logit distribution: the max logit values and the "logit gaps" (difference between the logit max and next largest values) are on average lower for AT models. Second, we show that AT and standard models differ significantly on which samples are high or low confidence, then illustrate clear qualitative differences by visualizing samples with the largest confidence difference. Finally, we find learning information about incorrect classes to be essential to learning robustness by manipulating the non-max logit information during distillation and measuring the impact on the student's robustness. Our results indicate that learning some adversarial robustness without input perturbations requires a model to learn specific sample-wise confidences and incorrect class orderings that follow complex distributions.
翻訳日:2021-08-30 23:08:56 公開日:2021-08-26
# (参考訳) いつ、どのようにして2重降臨が起こるか [全文訳有]

When and how epochwise double descent happens ( http://arxiv.org/abs/2108.12006v1 )

ライセンス: CC BY 4.0
Cory Stephenson, Tyler Lee(参考訳) ディープニューラルネットワークは、パラメータ数の増加に伴って‘ダブル降下’の振る舞いを示すことが知られている。 近年,一般化誤差が最初は低下し,その後上昇し,トレーニング時間の増加とともに再び低下する,'epochwise double descent'効果が存在することが示されている。 これは,訓練に要する時間の長さが長く,検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。 本研究は, 理論的にこの効果が起こりそうな時期を特徴付けるために, エポックワイズ二重降下解析可能なモデルを構築した。 このモデルは、トレーニングデータが学習が遅いが情報的でない特徴を含んでいるという仮説に基づいている。 次に、ディープニューラルネットワークが理論モデルと同様に振る舞うことを実験的に示す。 以上の結果から,epochwise二重降下は致命的なノイズ量を必要とするが,第2臨界騒音レベル以上では早期停止が有効であることが示された。 理論からの洞察を用いて、入力から特徴の学習を遅くし、一般化性能を低下させる方法と、標準訓練の一般化性能に適合する、あるいは超越する2つの方法を与える。 その結果,訓練データにおける学習のダイナミクスと雑音の相互作用から,エポックワイズな二元降がいかに出現するか,新たな知見が得られた。

Deep neural networks are known to exhibit a `double descent' behavior as the number of parameters increases. Recently, it has also been shown that an `epochwise double descent' effect exists in which the generalization error initially drops, then rises, and finally drops again with increasing training time. This presents a practical problem in that the amount of time required for training is long, and early stopping based on validation performance may result in suboptimal generalization. In this work we develop an analytically tractable model of epochwise double descent that allows us to characterise theoretically when this effect is likely to occur. This model is based on the hypothesis that the training data contains features that are slow to learn but informative. We then show experimentally that deep neural networks behave similarly to our theoretical model. Our findings indicate that epochwise double descent requires a critical amount of noise to occur, but above a second critical noise level early stopping remains effective. Using insights from theory, we give two methods by which epochwise double descent can be removed: one that removes slow to learn features from the input and reduces generalization performance, and another that instead modifies the training dynamics and matches or exceeds the generalization performance of standard training. Taken together, our results suggest a new picture of how epochwise double descent emerges from the interplay between the dynamics of training and noise in the training data.
翻訳日:2021-08-30 22:37:50 公開日:2021-08-26
# (参考訳) EmoBERTa:RoBERTaとの会話における話者認識感情認識 [全文訳有]

EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa ( http://arxiv.org/abs/2108.12009v1 )

ライセンス: CC BY 4.0
Taewoon Kim and Piek Vossen(参考訳) 我々は,erc(emotion recognition in conversation)タスクを解決する単純かつ表現力のあるスキームであるrobertaとの会話における話者認識について紹介する。 エモベルタは、単に話者名を発話に準備し、対話中の発話の間に分離トークンを挿入することで、話者内および話者間の状態と文脈を学習し、現在の話者の感情をエンドツーエンドで予測することができる。 実験の結果,2つの一般的なERCデータセット上で,基本的かつ直線的なアプローチを用いて新たな技術状況に到達できることが判明した。 コードとモデルをhttps://github.com/t ae898/ercでオープンソース化しました。

We present EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa, a simple yet expressive scheme of solving the ERC (emotion recognition in conversation) task. By simply prepending speaker names to utterances and inserting separation tokens between the utterances in a dialogue, EmoBERTa can learn intra- and inter- speaker states and context to predict the emotion of a current speaker, in an end-to-end manner. Our experiments show that we reach a new state of the art on the two popular ERC datasets using a basic and straight-forward approach. We've open sourced our code and models at https://github.com/t ae898/erc.
翻訳日:2021-08-30 22:19:54 公開日:2021-08-26
# (参考訳) DeepFlow:シームズネットワークを用いた異常交通流検出 [全文訳有]

DeepFlow: Abnormal Traffic Flow Detection Using Siamese Networks ( http://arxiv.org/abs/2108.12016v1 )

ライセンス: CC BY 4.0
Sepehr Sabour, Sanjeev Rao and Majid Ghaderi(参考訳) 現在、多くの都市は道路安全と効率のために車両交通を監視する監視システムと交通管制センターを備えている。 監視プロセスは主に手動で行われ、非効率で費用がかかる。 近年,機械学習技術を用いてトラフィックフローデータを自動的に解析する手法が文献で提案されている。 しかし、既存のソリューションでは、簡単には利用できない大規模な、包括的なデータセットを必要とするため、アプリケーションに制限がある。 本稿では,小規模データセットのみをトレーニングに使用するシナリオに適した,シャムニューラルネットに基づくトラフィック異常検出システムであるdeepflowを開発した。 本モデルでは,車両から収集した軌道データを解析することにより,異常な交通流を検出することができる。 DeepFlowを評価するために、SUMOで現実的な車両交通シミュレーションを使用する。 以上の結果から,DeepFlowはF1スコアの78%で異常なトラフィックパターンを検出すると同時に,動的時間ウォーピング(DTW),グローバルアライメントカーネル(GAK),iForestなどの既存手法よりも優れていた。

Nowadays, many cities are equipped with surveillance systems and traffic control centers to monitor vehicular traffic for road safety and efficiency. The monitoring process is mostly done manually which is inefficient and expensive. In recent years, several data-driven solutions have been proposed in the literature to automatically analyze traffic flow data using machine learning techniques. However, existing solutions require large and comprehensive datasets for training which are not readily available, thus limiting their application. In this paper, we develop a traffic anomaly detection system, referred to as DeepFlow, based on Siamese neural networks, which are suitable in scenarios where only small datasets are available for training. Our model can detect abnormal traffic flows by analyzing the trajectory data collected from the vehicles in a fleet. To evaluate DeepFlow, we use realistic vehicular traffic simulations in SUMO. Our results show that DeepFlow detects abnormal traffic patterns with an F1 score of 78%, while outperforming other existing approaches including: Dynamic Time Warping (DTW), Global Alignment Kernels (GAK), and iForest.
翻訳日:2021-08-30 22:05:49 公開日:2021-08-26
# (参考訳) セマンティックに基づく質問生成のための自己批判的学習 [全文訳有]

Semantic-based Self-Critical Training For Question Generation ( http://arxiv.org/abs/2108.12026v1 )

ライセンス: CC BY 4.0
Lo\"ic, Kwate Dassi(参考訳) 本稿では,ニューラルネットワーク生成のための完全変換器を用いた強化学習ジェネレータアーキテクチャを提案する。 質問生成は、コンテキストと回答が与えられた質問を生成するタスクである。 生成した質問の品質を向上させるために,ジェネレータ・評価器アーキテクチャにおける意味に基づく自己クリティカルなトレーニングレイアウトを考案した。 n-gramオーバーラップのみに基づく言語モデリングの評価指標は,参照文字列と候補文字列のセマンティックな関係を考慮しない。 評価ステップを改善するために,BLEU と BERTScore と NUBIA を用いて n-gram 重なりの重なりのモデルを評価し,テキスト生成のための新しい評価指標である BERTScore と NUBIA を用いた。 質問生成は、質問応答データセットの拡張、会話システム、教育アセスメントシステムなど、多くの下流アプリケーションで使用することができる。

We present in this work a fully Transformer-based reinforcement learning generator-evaluator architecture for neural question generation. Question generation is a task that consists in generating questions given a context and answer. To improve the quality of the generated question, we came up with a semantic-based self-critical training layout in generator-evaluator architecture, which goes beyond typical maximum likelihood training. Evaluation metrics for language modeling only based on n-gram overlapping do not consider semantic relations between reference and candidate strings. To improve the evaluation step, we assess our model for both n-gram overlap using BLEU and semantically using BERTScore and NUBIA, a novel state-of-the-art evaluation metric for text generation. Question generation could be used in many downstream applications, including in extending question answering datasets, conversational systems, and educational assessment systems.
翻訳日:2021-08-30 21:54:43 公開日:2021-08-26
# (参考訳) 画像領域における異方性表現の学習に関するチュートリアル [全文訳有]

A Tutorial on Learning Disentangled Representations in the Imaging Domain ( http://arxiv.org/abs/2108.12043v1 )

ライセンス: CC BY 4.0
Xiao Liu, Pedro Sanchez, Spyridon Thermos, Alison Q. O'Neil, and Sotirios A.Tsaftaris(参考訳) 汎用表現学習のアプローチとして, 遠方表現学習が提案されている。 これはアノテーションの欠如、あるいは限定された形で行うことができる。 良質な一般的な表現は、わずかな量のデータを使って新しい対象のタスクに対して容易に微調整できるし、また対応するタスクで目立ったパフォーマンスを達成する未熟なドメインで直接使うこともできる。 このデータとアノテーション要件の緩和は、コンピュータビジョンと医療における、扱いやすい、手頃な価格のアプリケーションへの期待を誘う。 最後に、非絡み合った表現はモデル説明可能性を提供し、変動要因の根底にある因果関係を理解するのに役立つ。 本稿では,不連続表現学習の概要,構成要素と基準について述べるとともに,コンピュータビジョンと医用画像の応用について述べる。 我々は、最近の機械学習の進歩を絡み合うように統合するための特定された機会と残りの課題を提示することで、チュートリアルを締めくくった。

Disentangled representation learning has been proposed as an approach to learning general representations. This can be done in the absence of, or with limited, annotations. A good general representation can be readily fine-tuned for new target tasks using modest amounts of data, or even be used directly in unseen domains achieving remarkable performance in the corresponding task. This alleviation of the data and annotation requirements offers tantalising prospects for tractable and affordable applications in computer vision and healthcare. Finally, disentangled representations can offer model explainability and can help us understand the underlying causal relations of the factors of variation, increasing their suitability for real-world deployment. In this tutorial paper, we will offer an overview of the disentangled representation learning, its building blocks and criteria, and discuss applications in computer vision and medical imaging. We conclude our tutorial by presenting the identified opportunities for the integration of recent machine learning advances into disentanglement, as well as the remaining challenges.
翻訳日:2021-08-30 21:47:37 公開日:2021-08-26
# (参考訳) 自動顕微鏡のための超高速焦点検出 [全文訳有]

Ultrafast Focus Detection for Automated Microscopy ( http://arxiv.org/abs/2108.12050v1 )

ライセンス: CC BY 4.0
Maksim Levental, Ryan Chard, Gregg A. Wildenberg(参考訳) 近年の科学機器の進歩により、毎日の研究室で発生するデータの量と速度が劇的に増加した。 走査型電子顕微鏡は、今や技術進歩が、脳の解剖学的関係を導出するために使用される神経科学など、多くの科学領域において重要なデータを持つ科学者を圧倒している例である。 これらの機器は、全ての可能性を実現するのに等しく高度な計算資源と技術を必要としている。 本稿では、連続的に収集した電子顕微鏡像に対する高速焦点外検出アルゴリズムを示し、神経学研究にほぼリアルタイムな品質制御を提供することを実証する。 本手法は, 従来のコンピュータビジョン技術に適応し, 様々な微細な組織学的特徴を検出する手法である。 さらに,GPGPUプリミティブを用いて特徴付けを高速化することで,手法の並列性をさらに活用する。 焦点外の条件をほぼリアルタイムに検出するテストが行われる。 funcX関数としてこれらの機能をデプロイし、データ収集時に自動パイプラインを使用して適用できることを示します。 本稿では,マルチビーム顕微鏡をサポート可能な拡張と,オートフォーカスの実装を目的とした既存のフォーカスシステムとの統合について論じる。

Recent advances in scientific instruments have resulted in dramatic increase in the volumes and velocities of data being generated in every-day laboratories. Scanning electron microscopy is one such example where technological advancements are now overwhelming scientists with critical data for montaging, alignment, and image segmentation -- key practices for many scientific domains, including, for example, neuroscience, where they are used to derive the anatomical relationships of the brain. These instruments now necessitate equally advanced computing resources and techniques to realize their full potential. Here we present a fast out-of-focus detection algorithm for electron microscopy images collected serially and demonstrate that it can be used to provide near-real time quality control for neurology research. Our technique, Multi-scale Histologic Feature Detection, adapts classical computer vision techniques and is based on detecting various fine-grained histologic features. We further exploit the inherent parallelism in the technique by employing GPGPU primitives in order to accelerate characterization. Tests are performed that demonstrate near-real-time detection of out-of-focus conditions. We deploy these capabilities as a funcX function and show that it can be applied as data are collected using an automated pipeline . We discuss extensions that enable scaling out to support multi-beam microscopes and integration with existing focus systems for purposes of implementing auto-focus.
翻訳日:2021-08-30 20:58:34 公開日:2021-08-26
# (参考訳) 自己説明型グラフニューラルネットワークを目指して [全文訳有]

Towards Self-Explainable Graph Neural Network ( http://arxiv.org/abs/2108.12055v1 )

ライセンス: CC BY 4.0
Enyan Dai, Suhang Wang(参考訳) グラフ構造化データにディープニューラルネットワークを一般化するグラフニューラルネットワーク(GNN)は、グラフモデリングにおいて大きな成功を収めている。 しかしながら、グラフのディープラーニングの拡張として、GNNには説明可能性がないため、モデルの透明性を求めるシナリオへの採用がほとんど制限される。 ディープラーニングの解説性を改善するために多くの努力がなされているが、gnnはノード特徴とグラフトポロジの両方を利用して予測を行うため、gnnの予測を説明するために直接適用できないi.i.dデータに焦点を当てている。 GNNの説明可能性に関する研究はほとんどなく、ポストホックな説明に重点を置いている。 ポストホックな説明はGNNから直接得られるものではないので、それらはバイアスを受け、真の説明を誤って表現することができる。 そこで本稿では,予測と説明を同時に行う自己説明可能なGNNの新たな問題について検討する。 そこで我々は,各未ラベルノードに対して$K$-nearestのラベル付きノードを検索して説明可能なノード分類を与える新しいフレームワークを提案し,ノード類似性と局所構造類似性の両方の観点から,最も近いラベル付きノードを解釈可能な類似モジュールで見つける。 実世界および合成データセットに関する広範囲な実験により,提案手法によるノード分類の有効性が示された。

Graph Neural Networks (GNNs), which generalize the deep neural networks to graph-structured data, have achieved great success in modeling graphs. However, as an extension of deep learning for graphs, GNNs lack explainability, which largely limits their adoption in scenarios that demand the transparency of models. Though many efforts are taken to improve the explainability of deep learning, they mainly focus on i.i.d data, which cannot be directly applied to explain the predictions of GNNs because GNNs utilize both node features and graph topology to make predictions. There are only very few work on the explainability of GNNs and they focus on post-hoc explanations. Since post-hoc explanations are not directly obtained from the GNNs, they can be biased and misrepresent the true explanations. Therefore, in this paper, we study a novel problem of self-explainable GNNs which can simultaneously give predictions and explanations. We propose a new framework which can find $K$-nearest labeled nodes for each unlabeled node to give explainable node classification, where nearest labeled nodes are found by interpretable similarity module in terms of both node similarity and local structure similarity. Extensive experiments on real-world and synthetic datasets demonstrate the effectiveness of the proposed framework for explainable node classification.
翻訳日:2021-08-30 20:44:55 公開日:2021-08-26
# (参考訳) GANモデルを用いた教育領域における不均衡データセットの感情分析 [全文訳有]

Using GAN-based models to sentimental analysis on imbalanced datasets in education domain ( http://arxiv.org/abs/2108.12061v1 )

ライセンス: CC BY-SA 4.0
Ru Yang, Maryam Edalati(参考訳) 新型コロナウイルス(COVID-19)のパンデミックで世界中が苦戦している中、オンライン学習とホームオフィスはますます一般的になっている。 多くの学校が授業をオンライン教室に移している。 そのため,学校と教員の双方が改善すべき点を把握できるように,学生のレビューからのフィードバックや意見を研究に向けて掘り下げることが重要である。 本稿では、感情分類のための均衡データセットと不均衡データセットの両方を用いて、機械学習とディープラーニングモデルを訓練する。 2つのSOTAカテゴリ対応テキスト生成GANモデル、CatGANとSentiGANを使用して、高度に不均衡なデータセットのバランスをとるために使用されるテキストを合成する。 異なる領域から異なる不均衡度を持つ3つのデータセットの結果、データセットのバランスをとるために生成されたテキストを使用すると、感情分類における機械学習とディープラーニングモデルのF1スコアは2.79%から9.28%増加する。 また,cr100kの平均成長度はcr23kよりも高く,深層学習の平均成長度は機械学習アルゴリズムよりも高く,複雑な深層学習モデルの平均成長度は実験における単純な深層学習モデルよりも高くなることが示された。

While the whole world is still struggling with the COVID-19 pandemic, online learning and home office become more common. Many schools transfer their courses teaching to the online classroom. Therefore, it is significant to mine the students' feedback and opinions from their reviews towards studies so that both schools and teachers can know where they need to improve. This paper trains machine learning and deep learning models using both balanced and imbalanced datasets for sentiment classification. Two SOTA category-aware text generation GAN models: CatGAN and SentiGAN, are utilized to synthesize text used to balance the highly imbalanced dataset. Results on three datasets with different imbalance degree from distinct domains show that when using generated text to balance the dataset, the F1-score of machine learning and deep learning model on sentiment classification increases 2.79% ~ 9.28%. Also, the results indicate that the average growth degree for CR100k is higher than CR23k, the average growth degree for deep learning is more increased than machine learning algorithms, and the average growth degree for more complex deep learning models is more increased than simpler deep learning models in experiments.
翻訳日:2021-08-30 20:26:14 公開日:2021-08-26
# (参考訳) モバイル端末におけるユーザエクスペリエンス向上のための画像コンテンツの自動検索手法 [全文訳有]

An Automatic Image Content Retrieval Method for better Mobile Device Display User Experiences ( http://arxiv.org/abs/2108.12068v1 )

ライセンス: CC BY-SA 4.0
Alessandro Bruno(参考訳) 多くの商用携帯電話には高解像度デジタルカメラが組み込まれている。 これにより、モバイルビジュアル検索、画像クロッピング、オブジェクト検出、コンテンツベースの画像検索、画像分類など、画像解析に専用の新しいタイプのアプリケーションが可能になる。 本稿では,ユーザの視覚的体験を豊かにするために,モバイルデバイスディスプレイ用の画像コンテンツ検索と分類のための新しいモバイルアプリケーションを提案する。 モバイルアプリケーションは、知覚的視点から、与えられた画像の最も重要な領域を検出することを目的とした視覚的相性法を用いて、画像の内容に基づいて一定数の画像を抽出することができる。 まず,2次元塩分濃度関数の局所的最大値を用いて知覚的視点から最も重要な領域を抽出する。 次に、画像のしきい値サリエンシーマップの局所極大を中心とする境界ボックスを用いて、サリエント領域をトリッピングする。 そして、各画像クロップは、svmおよびsiftディスクリプタに基づいて画像分類システムに供給され、画像に存在するオブジェクトのクラスを検出する。 ImageNetリポジトリはセマンティックカテゴリ分類のリファレンスとして使用された。 Androidプラットフォームは、クライアントサーバアーキテクチャ上でモバイルアプリケーションを実装するために使用された。 モバイルクライアントは、カメラが撮影した写真をサーバに送信し、画像を処理し、その結果(画像作物や関連するターゲットクラスなどの画像内容)をモバイルクライアントに返す。 このアプリケーションは何千もの画像上で動作し、モバイルディスプレイでのユーザによる視覚的エクスペリエンス向上に向けての成果を示した。

A growing number of commercially available mobile phones come with integrated high-resolution digital cameras. That enables a new class of dedicated applications to image analysis such as mobile visual search, image cropping, object detection, content-based image retrieval, image classification. In this paper, a new mobile application for image content retrieval and classification for mobile device display is proposed to enrich the visual experience of users. The mobile application can extract a certain number of images based on the content of an image with visual saliency methods aiming at detecting the most critical regions in a given image from a perceptual viewpoint. First, the most critical areas from a perceptual perspective are extracted using the local maxima of a 2D saliency function. Next, a salient region is cropped using the bounding box centred on the local maxima of the thresholded Saliency Map of the image. Then, each image crop feds into an Image Classification system based on SVM and SIFT descriptors to detect the class of object present in the image. ImageNet repository was used as the reference for semantic category classification. Android platform was used to implement the mobile application on a client-server architecture. A mobile client sends the photo taken by the camera to the server, which processes the image and returns the results (image contents such as image crops and related target classes) to the mobile client. The application was run on thousands of pictures and showed encouraging results towards a better user visual experience with mobile displays.
翻訳日:2021-08-30 20:09:22 公開日:2021-08-26
# スパースシナプスバーストによるドメイン伝達の連続学習

Continual learning under domain transfer with sparse synaptic bursting ( http://arxiv.org/abs/2108.12056v1 )

ライセンス: Link先を確認
Shawn L. Beaulieu, Jeff Clune, Nick Cheney(参考訳) 既存のマシンは、予測と制御を簡単にするための機能的に特定のツールである。 明日の機械は、変異性、レジリエンス、自律性において生物学的システムに近いかもしれない。 しかし、まずは、繰り返し露出することなく新しい情報を学習し、保持しなければなりません。 このようなシステムを設計するための過去の取り組みは、制約のあるアプリケーション状況でタスク固有のモジュールを使用して、人工ニューラルネットワークを構築し、規制しようとしてきた。 これはまだ、既存の知識を損なうことなく、これまで見つからなかったデータの長いシーケンスを連続的に学習することを可能にしていない。 本稿では,これまで見られなかったデータセット(ImageNet, CIFAR-100)を,時間とともにほとんど忘れずに逐次学習できるシステムを提案する。 これは、第2フィードフォワードニューラルネットワークによって生成されたトップダウン変調を用いて入力に基づいて畳み込みニューラルネットワークにおける重みの活性を調節することによって達成される。 本手法は,タスク固有のモジュールの維持ではなく,タスク間で再利用される重みのスパースバーストを用いて,ドメイン転送下で連続的に学習する。 スパースシナプスバーストは、以前獲得した関数を破損させることなく、新しい入力への適応を容易にする方法で強化および縮小されたアクティビティのバランスをとる。 この挙動は、制御されたシナプスが一様抑制の初期状態から選択的に阻害または成長される事前のメタ学習フェーズ中に現れる。

Existing machines are functionally specific tools that were made for easy prediction and control. Tomorrow's machines may be closer to biological systems in their mutability, resilience, and autonomy. But first they must be capable of learning, and retaining, new information without repeated exposure to it. Past efforts to engineer such systems have sought to build or regulate artificial neural networks using task-specific modules with constrained circumstances of application. This has not yet enabled continual learning over long sequences of previously unseen data without corrupting existing knowledge: a problem known as catastrophic forgetting. In this paper, we introduce a system that can learn sequentially over previously unseen datasets (ImageNet, CIFAR-100) with little forgetting over time. This is accomplished by regulating the activity of weights in a convolutional neural network on the basis of inputs using top-down modulation generated by a second feed-forward neural network. We find that our method learns continually under domain transfer with sparse bursts of activity in weights that are recycled across tasks, rather than by maintaining task-specific modules. Sparse synaptic bursting is found to balance enhanced and diminished activity in a way that facilitates adaptation to new inputs without corrupting previously acquired functions. This behavior emerges during a prior meta-learning phase in which regulated synapses are selectively disinhibited, or grown, from an initial state of uniform suppression.
翻訳日:2021-08-30 14:25:52 公開日:2021-08-26
# トランスフォーマーはテキスト生成ganのrnnのドロップイン代替として使えるのか?

Can the Transformer Be Used as a Drop-in Replacement for RNNs in Text-Generating GANs? ( http://arxiv.org/abs/2108.12275v1 )

ライセンス: Link先を確認
Kevin Blin and Andrei Kucharavy(参考訳) 本稿では,計算予算を限定した微調整テキスト生成の問題に対処する。 そこで我々は,DPGAN (Diversity-Promoting GAN) アーキテクチャを高性能に実現し,LSTM層を自己注意型トランスフォーマー層に置き換えることを試みた。 得られた自己注意 DPGAN (SADPGAN) は, テキストの性能, 品質, 多様性, 安定性について評価した。 計算実験により、トランスアーキテクチャはLSTM層に取って代わることができず、事前学習フェーズでは性能が低く、GANチューニングフェーズでは完全にモード崩壊する。 この結果から,テキスト生成GANにおけるRNNの代替として使用するには,トランスフォーマーアーキテクチャを適応する必要があることが示唆された。

In this paper we address the problem of fine-tuned text generation with a limited computational budget. For that, we use a well-performing text generative adversarial network (GAN) architecture - Diversity-Promoting GAN (DPGAN), and attempted a drop-in replacement of the LSTM layer with a self-attention-based Transformer layer in order to leverage their efficiency. The resulting Self-Attention DPGAN (SADPGAN) was evaluated for performance, quality and diversity of generated text and stability. Computational experiments suggested that a transformer architecture is unable to drop-in replace the LSTM layer, under-performing during the pre-training phase and undergoing a complete mode collapse during the GAN tuning phase. Our results suggest that the transformer architecture need to be adapted before it can be used as a replacement for RNNs in text-generating GANs.
翻訳日:2021-08-30 14:23:52 公開日:2021-08-26
# The Devil is the Detail: Simple Tricks Improvs Systematic Generalization of Transformers

The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers ( http://arxiv.org/abs/2108.12284v1 )

ライセンス: Link先を確認
R\'obert Csord\'as, Kazuki Irie, J\"urgen Schmidhuber(参考訳) 近年,ニューラルネットワークの系統的一般化能力をテストするために,多くのデータセットが提案されている。 標準タスクからデフォルトのハイパーパラメータでトレーニングされるコンパニオンベースライントランスフォーマは、劇的に失敗することが示されている。 ここでは,組込みのスケーリング,早期停止,相対的位置埋め込み,普遍的トランスフォーマティブといった基本的なモデル構成を再検討することで,系統的一般化におけるトランスフォーマの性能を大幅に向上できることを実証する。 SCAN,CFQ,PCFG,COGS,数学データセットの5つの一般的なデータセットの改善について報告する。 また,PCFGの生産性分割では50%から85%,COGSでは35%から81%に改善した。 スキャンにおいて、相対的な位置埋め込みはeos決定問題(newman et al., 2020)をほとんど軽減し、カットオフ26で長さ分割の精度100%を得る。 重要なことに、これらのモデル間のパフォーマンスの違いは、通常IDデータ分割で見えない。 これは、体系的に一般化するニューラルネットワークを開発するための適切な一般化検証セットを要求する。 私たちは結果を再現するコードを公にリリースします。

Recently, many datasets have been proposed to test the systematic generalization ability of neural networks. The companion baseline Transformers, typically trained with default hyper-parameters from standard tasks, are shown to fail dramatically. Here we demonstrate that by revisiting model configurations as basic as scaling of embeddings, early stopping, relative positional embedding, and Universal Transformer variants, we can drastically improve the performance of Transformers on systematic generalization. We report improvements on five popular datasets: SCAN, CFQ, PCFG, COGS, and Mathematics dataset. Our models improve accuracy from 50% to 85% on the PCFG productivity split, and from 35% to 81% on COGS. On SCAN, relative positional embedding largely mitigates the EOS decision problem (Newman et al., 2020), yielding 100% accuracy on the length split with a cutoff at 26. Importantly, performance differences between these models are typically invisible on the IID data split. This calls for proper generalization validation sets for developing neural networks that generalize systematically. We publicly release the code to reproduce our results.
翻訳日:2021-08-30 14:21:09 公開日:2021-08-26
# 抽象テキスト要約のためのコントラスト学習によるSeq2Seqオートエンコーダの強化

Enhanced Seq2Seq Autoencoder via Contrastive Learning for Abstractive Text Summarization ( http://arxiv.org/abs/2108.11992v1 )

ライセンス: Link先を確認
Chujie Zheng, Kunpeng Zhang, Harry Jiannan Wang, Ling Fan, Zhe Wang(参考訳) 本稿では,抽象テキスト要約のためのコントラスト学習を通じて,シークエンシングシーケンス・ツー・シーケンス(seq2seq)オートエンコーダを提案する。 本モデルは,多層双方向エンコーダと自動回帰デコーダを備えた標準トランスフォーマーアーキテクチャを採用する。 そこで本研究では,自己指導型コントラスト学習と文レベルの文書拡張を併用する。 これら2つのコンポーネント、seq2seqオートエンコーダとコントラスト学習は、微調整によって共同で訓練され、ルージュスコアと人間評価に関するテキスト要約のパフォーマンスが向上する。 2つのデータセットの実験を行い、我々のモデルは既存のベンチマークよりも優れており、より複雑なアーキテクチャと広範な計算資源で訓練された最先端の抽象システムに匹敵するパフォーマンスを達成できることを示した。

In this paper, we present a denoising sequence-to-sequence (seq2seq) autoencoder via contrastive learning for abstractive text summarization. Our model adopts a standard Transformer-based architecture with a multi-layer bi-directional encoder and an auto-regressive decoder. To enhance its denoising ability, we incorporate self-supervised contrastive learning along with various sentence-level document augmentation. These two components, seq2seq autoencoder and contrastive learning, are jointly trained through fine-tuning, which improves the performance of text summarization with regard to ROUGE scores and human evaluation. We conduct experiments on two datasets and demonstrate that our model outperforms many existing benchmarks and even achieves comparable performance to the state-of-the-art abstractive systems trained with more complex architecture and extensive computation resources.
翻訳日:2021-08-30 14:19:54 公開日:2021-08-26
# ビデオ領域適応のためのクロスモーダルコントラスト特徴の学習

Learning Cross-modal Contrastive Features for Video Domain Adaptation ( http://arxiv.org/abs/2108.11974v1 )

ライセンス: Link先を確認
Donghyun Kim, Yi-Hsuan Tsai, Bingbing Zhuang, Xiang Yu, Stan Sclaroff, Kate Saenko, Manmohan Chandraker(参考訳) アクション認識などのビデオ関連タスクにおいて,ビデオから伝達可能な,ドメイン適応的な特徴表現を学習することが重要である。 既存のビデオ領域適応法は主にRGB画像空間から派生した対角的特徴アライメントに依存している。 しかし、ビデオデータは通常、RGBや光フローなどのマルチモーダル情報と関連付けられており、クロスドメイン適応設定の下でのクロスモーダル入力を考慮したより良い手法を設計することは依然として困難である。 そこで本研究では,クロスモーダルとクロスドメインの特徴表現を同時に正規化する,ビデオドメイン適応のための統合フレームワークを提案する。 具体的には、ドメインの各モダリティを視点として扱い、コントラスト学習手法を適切に設計されたサンプリング戦略で活用する。 その結果、当初モダリティ間の接続が欠如していたり、ドメイン間のアライメントが低かったりした特徴空間を正規化することが目的となった。 我々は、UCF、HMDB、EPIC-Kitchensといったドメイン適応型行動認識ベンチマークデータセットの実験を行い、最先端のアルゴリズムに対する我々のコンポーネントの有効性を実証する。

Learning transferable and domain adaptive feature representations from videos is important for video-relevant tasks such as action recognition. Existing video domain adaptation methods mainly rely on adversarial feature alignment, which has been derived from the RGB image space. However, video data is usually associated with multi-modal information, e.g., RGB and optical flow, and thus it remains a challenge to design a better method that considers the cross-modal inputs under the cross-domain adaptation setting. To this end, we propose a unified framework for video domain adaptation, which simultaneously regularizes cross-modal and cross-domain feature representations. Specifically, we treat each modality in a domain as a view and leverage the contrastive learning technique with properly designed sampling strategies. As a result, our objectives regularize feature spaces, which originally lack the connection across modalities or have less alignment across domains. We conduct experiments on domain adaptive action recognition benchmark datasets, i.e., UCF, HMDB, and EPIC-Kitchens, and demonstrate the effectiveness of our components against state-of-the-art algorithms.
翻訳日:2021-08-30 14:16:11 公開日:2021-08-26
# Drop-DTW:アウトリーチを落としてシーケンス間の共通信号を調整する

Drop-DTW: Aligning Common Signal Between Sequences While Dropping Outliers ( http://arxiv.org/abs/2108.11996v1 )

ライセンス: Link先を確認
Nikita Dvornik and Isma Hadji and Konstantinos G. Derpanis and Animesh Garg and Allan D. Jepson(参考訳) 本研究では,異常値を含む信号のシーケンス列アライメントの問題を考える。 標準動的時間ウォーピング(DTW)アルゴリズムは、外れ値がないと仮定すると、2つの(一般に)可変長列間の最適アライメントを効率的に計算する。 dtwは信号の時間的シフトや拡張に頑健であるが、列に任意に散在できる外れ値が存在する場合、シーケンスを有意義な方法で整列することができない。 この問題に対処するため,提案アルゴリズムは,一致から外れ値要素を自動的に取り除きながら,シーケンス間の共通信号を整列する新しいアルゴリズムであるDrop-DTWを導入する。 手順全体は、効率的で完全に微分可能な単一の動的プログラムとして実装されている。 実験の結果,Drop-DTWはシーケンス検索に頑健な類似性尺度であり,多様なアプリケーションに対するトレーニング損失としての有効性を示した。 drop-dtwでは,授業映像の時間的局所化,ノイズ映像からの表現学習,視聴覚検索と局所化のためのクロスモーダル表現学習を行う。 すべてのアプリケーションにおいて、弱いあるいは教師なしのアプローチを採用し、これらの設定の下で最先端の結果を示す。

In this work, we consider the problem of sequence-to-sequence alignment for signals containing outliers. Assuming the absence of outliers, the standard Dynamic Time Warping (DTW) algorithm efficiently computes the optimal alignment between two (generally) variable-length sequences. While DTW is robust to temporal shifts and dilations of the signal, it fails to align sequences in a meaningful way in the presence of outliers that can be arbitrarily interspersed in the sequences. To address this problem, we introduce Drop-DTW, a novel algorithm that aligns the common signal between the sequences while automatically dropping the outlier elements from the matching. The entire procedure is implemented as a single dynamic program that is efficient and fully differentiable. In our experiments, we show that Drop-DTW is a robust similarity measure for sequence retrieval and demonstrate its effectiveness as a training loss on diverse applications. With Drop-DTW, we address temporal step localization on instructional videos, representation learning from noisy videos, and cross-modal representation learning for audio-visual retrieval and localization. In all applications, we take a weakly- or unsupervised approach and demonstrate state-of-the-art results under these settings.
翻訳日:2021-08-30 14:15:50 公開日:2021-08-26
# 差別者を捨てるな! テストタイムトレーニング用リユースアドバー

Stop Throwing Away Discriminators! Re-using Adversaries for Test-Time Training ( http://arxiv.org/abs/2108.12280v1 )

ライセンス: Link先を確認
Gabriele Valvano, Andrea Leo, Sotirios A. Tsaftaris(参考訳) ペアデータを必要としないデータ分散を学習する能力のおかげで、GAN(Generative Adversarial Networks)は、医療画像セグメンテーションなど、多くのコンピュータビジョン手法の不可欠な部分となっている。 これらの方法は、事前にデータ駆動形状を提供するセグメンタと逆マスク判別器を共同で訓練する。 推論時に、識別器は破棄され、テスト画像上のラベルマップを予測するためにセグメンタのみが使用される。 しかし、差別者を排除すべきだろうか? ここでは、敵対的差別者のライフサイクルは訓練後に終わるべきではないと論じる。 逆に、安定なGANのトレーニングは、推論時にセグメンタミスを修正するために使用できる、強力な形状の事前を生成する。 そこで我々は, 過度に適合したり, 破滅的に忘れたりすることのない安定マスク識別装置を開発した。 テスト時には、各テストインスタンスのセグメンタを事前に学習した形状を満たすまで微調整します。 本手法は, 実装が簡単で, モデル性能が向上する。 さらに、推論でマスク判別器を再利用するための新しい方向も開く。 私たちは実験に使用されたコードをhttps://vios-s.githu b.io/adversarial-tes t-time-trainingでリリースします。

Thanks to their ability to learn data distributions without requiring paired data, Generative Adversarial Networks (GANs) have become an integral part of many computer vision methods, including those developed for medical image segmentation. These methods jointly train a segmentor and an adversarial mask discriminator, which provides a data-driven shape prior. At inference, the discriminator is discarded, and only the segmentor is used to predict label maps on test images. But should we discard the discriminator? Here, we argue that the life cycle of adversarial discriminators should not end after training. On the contrary, training stable GANs produces powerful shape priors that we can use to correct segmentor mistakes at inference. To achieve this, we develop stable mask discriminators that do not overfit or catastrophically forget. At test time, we fine-tune the segmentor on each individual test instance until it satisfies the learned shape prior. Our method is simple to implement and increases model performance. Moreover, it opens new directions for re-using mask discriminators at inference. We release the code used for the experiments at https://vios-s.githu b.io/adversarial-tes t-time-training.
翻訳日:2021-08-30 14:12:41 公開日:2021-08-26
# 新しい物体のセマンティック配置のための安定な構成予測

Predicting Stable Configurations for Semantic Placement of Novel Objects ( http://arxiv.org/abs/2108.12062v1 )

ライセンス: Link先を確認
Chris Paxton, Chris Xie, Tucker Hermans, and Dieter Fox(参考訳) 人間環境は様々な配置で構成された多数のオブジェクトを含む。 我々のゴールは、新しい環境における学習された意味的関係に従って、ロボットが未確認の物体を配置できるようにすることである。 1)物体の物理的に有効な位置を見つけること,(2)これらのポーズが学習された高レベルの意味的関係を満たすかどうかを決定すること,である。 我々は、未知のオブジェクトのセマンティック配置のための計画アルゴリズムと密に統合するために、モデルとトレーニングをゼロから構築する。 私たちはモデルを純粋にシミュレーションでトレーニングし、現実世界で使用するための微調整は不要です。 提案手法は,RGB-Dセンシングのみによる形状の異なるシーンにおける未知物体のセマンティック・アレンジメントのための動作計画を可能にする。 シミュレーションアブレーションによる実験により, 信頼度の高い計画にリレーショナル分類器だけでは不十分であることが判明した。 我々はさらに,様々なオブジェクトを用いた実世界の実験を通して,多様な操作計画を作成し実行するためのプランナーの能力を示す。

Human environments contain numerous objects configured in a variety of arrangements. Our goal is to enable robots to repose previously unseen objects according to learned semantic relationships in novel environments. We break this problem down into two parts: (1) finding physically valid locations for the objects and (2) determining if those poses satisfy learned, high-level semantic relationships. We build our models and training from the ground up to be tightly integrated with our proposed planning algorithm for semantic placement of unknown objects. We train our models purely in simulation, with no fine-tuning needed for use in the real world. Our approach enables motion planning for semantic rearrangement of unknown objects in scenes with varying geometry from only RGB-D sensing. Our experiments through a set of simulated ablations demonstrate that using a relational classifier alone is not sufficient for reliable planning. We further demonstrate the ability of our planner to generate and execute diverse manipulation plans through a set of real-world experiments with a variety of objects.
翻訳日:2021-08-30 14:07:07 公開日:2021-08-26
# 自己回帰外生系における有限時間システム同定と適応制御

Finite-time System Identification and Adaptive Control in Autoregressive Exogenous Systems ( http://arxiv.org/abs/2108.11959v1 )

ライセンス: Link先を確認
Sahin Lale, Kamyar Azizzadenesheli, Babak Hassibi, Anima Anandkumar(参考訳) 自己回帰外因性系 (ARX) は、LQGシステムのような部分的に観測可能な LDS を含む確率線形力学系 (LDS) のモデリングに用いられる入力出力力学系の一般的なクラスである。 本研究では,未知のARXシステムのシステム識別と適応制御の問題について検討する。 オープンループとクローズドループの両方のデータ収集を行うarxシステムに対して,有限時間学習保証を提供する。 これらの保証を用いて、任意に強い凸あるいは凸2次規制コストを持つ未知のARXシステムの適応制御アルゴリズムを設計する。 強い凸コスト関数の下で,オンライン勾配降下に基づく適応制御アルゴリズムを設計し,凸制御再パラメータ化により構築したコントローラの設計と更新を行う。 我々のアルゴリズムは探索とコミットのアプローチによって$\tilde{\mathcal{O}}(\sqrt{T})$後悔していることを示し、もしモデル推定が閉ループデータ収集を用いてエポックで更新された場合、相互作用の時間ステップの後に$\text{polylog}(T)$を最適に後悔する。 凸2次コスト関数の場合、制御器の設計の不確実性原理に直面して最適化を展開させる適応制御アルゴリズムを提案する。 この設定では、探索とコミットのアプローチは、$\tilde{\mathcal{O}}(T^{2/3})$の後悔の上界を持ち、連続モデル推定更新による適応制御は、$T$タイムステップの後に$\tilde{\mathcal{O}}(T^{2/3})$後悔することを示す。

Autoregressive exogenous (ARX) systems are the general class of input-output dynamical systems used for modeling stochastic linear dynamical systems (LDS) including partially observable LDS such as LQG systems. In this work, we study the problem of system identification and adaptive control of unknown ARX systems. We provide finite-time learning guarantees for the ARX systems under both open-loop and closed-loop data collection. Using these guarantees, we design adaptive control algorithms for unknown ARX systems with arbitrary strongly convex or convex quadratic regulating costs. Under strongly convex cost functions, we design an adaptive control algorithm based on online gradient descent to design and update the controllers that are constructed via a convex controller reparametrization. We show that our algorithm has $\tilde{\mathcal{O}}(\sqrt{T})$ regret via explore and commit approach and if the model estimates are updated in epochs using closed-loop data collection, it attains the optimal regret of $\text{polylog}(T)$ after $T$ time-steps of interaction. For the case of convex quadratic cost functions, we propose an adaptive control algorithm that deploys the optimism in the face of uncertainty principle to design the controller. In this setting, we show that the explore and commit approach has a regret upper bound of $\tilde{\mathcal{O}}(T^{2/3})$, and the adaptive control with continuous model estimate updates attains $\tilde{\mathcal{O}}(\sqrt{T})$ regret after $T$ time-steps.
翻訳日:2021-08-30 14:01:58 公開日:2021-08-26
# 実環境における音声からの感情の分類と顧客満足度の評価

Classification of Emotions and Evaluation of Customer Satisfaction from Speech in Real World Acoustic Environments ( http://arxiv.org/abs/2108.11981v1 )

ライセンス: Link先を確認
Luis Felipe Parra-Gallego, Juan Rafael Orozco-Arroyave(参考訳) 本稿では、感情をしっかり認識し、実際の音響シナリオにおける顧客満足度を評価するのに適した特徴を見つけることに焦点を当てる。 感情の分類は、標準的でよく知られたコーパスに基づいており、顧客満足度の評価は、コールセンターエージェントとの通話中に受信したサービスについての顧客の実際の意見の記録に基づいている。 この研究で検討された特徴セットには、x-vectorsとi-vectorsという2つの話者モデル、およびInterspeech 2010 Paralinguistics Challenge (I2010PC)で導入されたよく知られた特徴セットが含まれる。 さらに,音声から感情や顧客満足度をロバストにモデル化するための代替機能セットとして,ディボイスフレームワークを用いて抽出した音声,調音,韻律機能について紹介する。 その結果、I2010PC機能セットは、典型的には文献で使用される標準データベースで感情を分類する最良の方法であることがわかった。 コールセンタで収集した録音を音響条件を制御せずに検討する場合,調音特性を用いて最適な結果を得る。 i2010pcの特徴セットは1584の尺度を含み、調音アプローチは488の尺度しか含まない。 提案手法は, 音響条件が制御されていない実世界の用途に適しており, 産業用途にも有用である可能性が示唆された。

This paper focuses on finding suitable features to robustly recognize emotions and evaluate customer satisfaction from speech in real acoustic scenarios. The classification of emotions is based on standard and well-known corpora and the evaluation of customer satisfaction is based on recordings of real opinions given by customers about the received service during phone calls with call-center agents. The feature sets considered in this study include two speaker models, namely x-vectors and i-vectors, and also the well known feature set introduced in the Interspeech 2010 Paralinguistics Challenge (I2010PC). Additionally, we introduce the use of phonation, articulation and prosody features extracted with the DisVoice framework as alternative feature sets to robustly model emotions and customer satisfaction from speech. The results indicate that the I2010PC feature set is the best approach to classify emotions in the standard databases typically used in the literature. When considering the recordings collected in the call-center, without any control over the acoustic conditions, the best results are obtained with our articulation features. The I2010PC feature set includes 1584 measures while the articulation approach only includes 488 measures. We think that the proposed approach is more suitable for real-world applications where the acoustic conditions are not controlled and also it is potentially more convenient for industrial applications.
翻訳日:2021-08-30 14:01:21 公開日:2021-08-26
# GraphQLクエリのコスト(拡張バージョン)を学ぶ

Learning GraphQL Query Costs (Extended Version) ( http://arxiv.org/abs/2108.11139v2 )

ライセンス: Link先を確認
Georgios Mavroudeas and Guillaume Baudart and Alan Cha and Martin Hirzel and Jim A. Laredo and Malik Magdon-Ismail and Louis Mandel and Erik Wittern(参考訳) GraphQLはAPI用のクエリ言語であり、既存のマイクロサービス、REST API、データベース、その他のソースから要求されたデータをフェッチする、これらのクエリを実行するランタイムである。 その表現力と柔軟性は、多くの業界、特にWebを通じてAPIプロバイダにとって魅力的な候補となっている。 GraphQLでクライアントのクエリを盲目的にサーブする大きな欠点は、クエリのコストが予想外に大きくなり、プロバイダの計算とリソースのオーバーロードが発生し、クライアントのAPIレート制限のオーバーロードとインフラストラクチャのオーバーロードが発生することだ。 これらの欠点を軽減するためには、クエリの実行前に効率的にクエリのコストを見積もる必要がある。 GraphQLクエリにはネスト構造があり、GraphQL APIは異なる設計規則に従っており、基礎となるデータソースが隠されているため、クエリコストの推定は難しい。 最悪の静的クエリ分析に基づく推定は、コストを大幅に過大評価する傾向があるため、成功は限られている。 本稿では,クエリコストを効率的に正確に推定する機械学習手法を提案する。 また,公開商用apiからのクエリ応答データ上でテストすることにより,このアプローチのパワーを実証する。 私たちのフレームワークは効率的で、高い精度でクエリコストを予測し、静的解析を高いマージンで上回っています。

GraphQL is a query language for APIs and a runtime for executing those queries, fetching the requested data from existing microservices, REST APIs, databases, or other sources. Its expressiveness and its flexibility have made it an attractive candidate for API providers in many industries, especially through the web. A major drawback to blindly servicing a client's query in GraphQL is that the cost of a query can be unexpectedly large, creating computation and resource overload for the provider, and API rate-limit overages and infrastructure overload for the client. To mitigate these drawbacks, it is necessary to efficiently estimate the cost of a query before executing it. Estimating query cost is challenging, because GraphQL queries have a nested structure, GraphQL APIs follow different design conventions, and the underlying data sources are hidden. Estimates based on worst-case static query analysis have had limited success because they tend to grossly overestimate cost. We propose a machine-learning approach to efficiently and accurately estimate the query cost. We also demonstrate the power of this approach by testing it on query-response data from publicly available commercial APIs. Our framework is efficient and predicts query costs with high accuracy, consistently outperforming the static analysis by a large margin.
翻訳日:2021-08-30 11:21:58 公開日:2021-08-26
# (参考訳) SOMTimeS:時系列クラスタリングのための自己組織化マップとその重度会話への応用

SOMTimeS: Self Organizing Maps for Time Series Clustering and its Application to Serious Illness Conversations ( http://arxiv.org/abs/2108.11523v1 )

ライセンス: CC BY 4.0
Ali Javed, Donna M. Rizzo, Byung Suk Lee, Robert Gramling(参考訳) 大規模時系列データセットのクラスタリングと分析が可能なスケーラブルアルゴリズムの需要が高まっている。 コホーネン自己組織化マップ(Kohonen Self-organizing map、SOM)は、複雑なデータの可視化とクラスタ化、データの次元の低減、影響力のある特徴の選択を行う、教師なしのニューラルネットワークの一種である。 他のクラスタリング方法と同様に、SOMは入力データ間の類似性の尺度を必要とする(この作業時系列では)。 ダイナミック・タイム・ワープ(DTW)はそのような尺度の一つであり、時系列を整列する際の歪みを考慮に入れている。 クラスタリングでの使用にもかかわらず、dtwは実行時の複雑さが時系列データの長さと2倍になるため、実際には制限されている。 そこで本研究では,DTWをベースとしたクラスタリング手法であるSOMTimeS(Self-Organi zing Map for TIME Series)を提案する。 SOMTimeSの計算性能は、不必要なDTW計算をSOMのトレーニングフェーズで実行できることに由来する。 また,K-meansに対して,クラスタリングアルゴリズムの上位性能と比較し,同様のプルーニング戦略を実装した。 カリフォルニア大学リバーサイド分類アーカイブのベンチマーク時系列データセット112件について, プルーニングの有効性, 精度, 実行時間, スケーラビリティを評価した。 同様の精度で,SOMTimeSとK平均の速度は平均1.8倍であったが,データセットによって1倍から18倍に変化した。 SOMTimeS と K-means はそれぞれ 43% と 50% の DTW 計算を行った。 我々は,SOMtimeSを言語会話データに適用し,患者・クリニックの重篤な病的会話の大規模コホート研究の一環として,複雑な時間的シーケンスの現象を用いたアルゴリズムの有用性を実証した。

There is an increasing demand for scalable algorithms capable of clustering and analyzing large time series datasets. The Kohonen self-organizing map (SOM) is a type of unsupervised artificial neural network for visualizing and clustering complex data, reducing the dimensionality of data, and selecting influential features. Like all clustering methods, the SOM requires a measure of similarity between input data (in this work time series). Dynamic time warping (DTW) is one such measure, and a top performer given that it accommodates the distortions when aligning time series. Despite its use in clustering, DTW is limited in practice because it is quadratic in runtime complexity with the length of the time series data. To address this, we present a new DTW-based clustering method, called SOMTimeS (a Self-Organizing Map for TIME Series), that scales better and runs faster than other DTW-based clustering algorithms, and has similar performance accuracy. The computational performance of SOMTimeS stems from its ability to prune unnecessary DTW computations during the SOM's training phase. We also implemented a similar pruning strategy for K-means for comparison with one of the top performing clustering algorithms. We evaluated the pruning effectiveness, accuracy, execution time and scalability on 112 benchmark time series datasets from the University of California, Riverside classification archive. We showed that for similar accuracy, the speed-up achieved for SOMTimeS and K-means was 1.8x on average; however, rates varied between 1x and 18x depending on the dataset. SOMTimeS and K-means pruned 43% and 50% of the total DTW computations, respectively. We applied SOMtimeS to natural language conversation data collected as part of a large healthcare cohort study of patient-clinician serious illness conversations to demonstrate the algorithm's utility with complex, temporally sequenced phenomena.
翻訳日:2021-08-28 01:55:03 公開日:2021-08-26
# (参考訳) chessmix: リモートセンシング意味セグメンテーションのための空間コンテキストデータ拡張 [全文訳有]

ChessMix: Spatial Context Data Augmentation for Remote Sensing Semantic Segmentation ( http://arxiv.org/abs/2108.11535v1 )

ライセンス: CC BY 4.0
Matheus Barros Pereira, Jefersson Alex dos Santos(参考訳) セマンティックセグメンテーションデータセットのラベル付けは、画像分類やオブジェクト検出といったタスクと比較した場合、費用がかかる。 これは、非常に高い空間分解能データを扱うだけでなく、手動ラベリングを行うためにこの分野の専門家の知識を必要とするリモートセンシングアプリケーションに特に当てはまる。 データ拡張技術は、ラベル付きサンプルの数が少なく不均衡な状況下でのディープラーニングモデルの改善に役立つ。 本研究では,リモートセンシング意味セグメンテーションの空間的文脈を探索する新しいデータ拡張手法を提案する。 この方法であるチェスミックスは、変換されたミニパッチをチェスボードのようなグリッドに混ぜることで、既存のトレーニングセットから新しい合成画像を生成する。 ChessMixは、不均衡の問題を軽減するために、最も稀なクラスの多くの例でパッチを優先順位付けする。 さまざまなよく知られた3つのリモートセンシングデータセットの結果、これはネットワークのパフォーマンス向上に役立つ有望なアプローチであり、特に利用可能なデータが少ないデータセットでうまく機能することを示している。 また、チェスミックスはラベル付き画素の少ないオブジェクトのセグメンテーションを、最も一般的なデータ拡張法と比較して改善できることを示した。

Labeling semantic segmentation datasets is a costly and laborious process if compared with tasks like image classification and object detection. This is especially true for remote sensing applications that not only work with extremely high spatial resolution data but also commonly require the knowledge of experts of the area to perform the manual labeling. Data augmentation techniques help to improve deep learning models under the circumstance of few and imbalanced labeled samples. In this work, we propose a novel data augmentation method focused on exploring the spatial context of remote sensing semantic segmentation. This method, ChessMix, creates new synthetic images from the existing training set by mixing transformed mini-patches across the dataset in a chessboard-like grid. ChessMix prioritizes patches with more examples of the rarest classes to alleviate the imbalance problems. The results in three diverse well-known remote sensing datasets show that this is a promising approach that helps to improve the networks' performance, working especially well in datasets with few available data. The results also show that ChessMix is capable of improving the segmentation of objects with few labeled pixels when compared to the most common data augmentation methods widely used.
翻訳日:2021-08-28 01:53:50 公開日:2021-08-26
# (参考訳) 視覚・言語ナビゲーション:調査と分類 [全文訳有]

Visual-and-Language Navigation: A Survey and Taxonomy ( http://arxiv.org/abs/2108.11544v1 )

ライセンス: CC BY 4.0
Wansen Wu, Tao Chang, Xinmeng Li(参考訳) 自然言語を理解でき、視覚世界で対応する行動を実行するエージェントは、AI(Artificial Intelligent)の長期的な課題の1つである。 人間からの多彩な指示のため、エージェントは自然言語を非構造的、以前は目に見えない環境で視覚と行動に結びつけることができる。 人間による指示がナビゲーションタスクである場合、この課題はVisual-and-Language Navigation (VLN)と呼ばれる。 重要性を増し、非常に実用的な分野である。 本稿では,特定の手法の詳細に焦点をあてるのではなく,VLNタスクを包括的に調査し,これらのタスクにおける言語命令の異なる特徴を慎重に分類する。 命令が与えられると、タスクはシングルターンとマルチターンに分けられる。 単ターンタスクでは、命令が経路を含むか否かに基づいて、さらに目標指向と経路指向に分割する。 マルチターンタスクでは,エージェントが命令に応答するかどうかに基づいて命令タスクと対話タスクに分割した。 この分類は、研究者が特定のタスクの要点をよりよく把握し、将来の研究の方向性を特定することを可能にする。

An agent that can understand natural-language instruction and carry out corresponding actions in the visual world is one of the long-term challenges of Artificial Intelligent (AI). Due to multifarious instructions from humans, it requires the agent can link natural language to vision and action in unstructured, previously unseen environments. If the instruction given by human is a navigation task, this challenge is called Visual-and-Language Navigation (VLN). It is a booming multi-disciplinary field of increasing importance and with extraordinary practicality. Instead of focusing on the details of specific methods, this paper provides a comprehensive survey on VLN tasks and makes a classification carefully according the different characteristics of language instructions in these tasks. According to when the instructions are given, the tasks can be divided into single-turn and multi-turn. For single-turn tasks, we further divided them into goal-orientation and route-orientation based on whether the instructions contain a route. For multi-turn tasks, we divided them into imperative task and interactive task based on whether the agent responses to the instructions. This taxonomy enable researchers to better grasp the key point of a specific task and identify directions for future research.
翻訳日:2021-08-28 01:37:46 公開日:2021-08-26
# (参考訳) 身体的ポイントゴールナビゲーションにおけるビジュアルオドメトリ手法のサプライズ効果 [全文訳有]

The Surprising Effectiveness of Visual Odometry Techniques for Embodied PointGoal Navigation ( http://arxiv.org/abs/2108.11550v1 )

ライセンス: CC0 1.0
Xiaoming Zhao, Harsh Agrawal, Dhruv Batra, Alexander Schwing(参考訳) パーソナルロボットは、特定の目標に確実にナビゲートすることが基本である。 このタスクを研究するために、シミュレーションされたEmbodied AI環境にPointGoalナビゲーションが導入されている。 近年の進歩は、ノイズのないエゴセントリックな視覚、ノイズのないアクチュエーター、そして最も重要なことに完璧な位置決めを仮定して、写真リアルな環境においてほぼ完璧な精度(99.6%の成功)でPointGoalナビゲーションタスクを解決している。 しかし、視覚センサーとアクティベーションのための現実的なノイズモデルの下では、GPSとコンパスセンサーにアクセスできないため、ポイントゴールナビゲーションの99.6%は0.3%しか成功していない。 本研究では,この現実的な環境でのポイントゴールナビゲーションのタスク,すなわち,GPSやコンパスセンサを利用せず,知覚とアクティベーションのための現実的なノイズモデルにおいて,視覚計測の驚くべき効果を示す。 ナビゲーションポリシにビジュアルオドメトリ技術を統合することで,人気の高いHabitat PointNavベンチマークの最先端性を大きなマージンで改善し,64.5%から71.7%に向上し,6.4倍の高速化を実現した。

It is fundamental for personal robots to reliably navigate to a specified goal. To study this task, PointGoal navigation has been introduced in simulated Embodied AI environments. Recent advances solve this PointGoal navigation task with near-perfect accuracy (99.6% success) in photo-realistically simulated environments, assuming noiseless egocentric vision, noiseless actuation, and most importantly, perfect localization. However, under realistic noise models for visual sensors and actuation, and without access to a "GPS and Compass sensor," the 99.6%-success agents for PointGoal navigation only succeed with 0.3%. In this work, we demonstrate the surprising effectiveness of visual odometry for the task of PointGoal navigation in this realistic setting, i.e., with realistic noise models for perception and actuation and without access to GPS and Compass sensors. We show that integrating visual odometry techniques into navigation policies improves the state-of-the-art on the popular Habitat PointNav benchmark by a large margin, improving success from 64.5% to 71.7% while executing 6.4 times faster.
翻訳日:2021-08-28 00:34:18 公開日:2021-08-26
# (参考訳) CoSEM: アプリケーション利用予測のためのコンテキストとセマンティックな埋め込み [全文訳有]

CoSEM: Contextual and Semantic Embedding for App Usage Prediction ( http://arxiv.org/abs/2108.11561v1 )

ライセンス: CC BY 4.0
Yonchanok Khaokaew, Mohammad Saiedur Rahaman, Ryen W. White, Flora D. Salim(参考訳) ユーザエクスペリエンスを向上させるために,スマートフォンシステムの最適化には,アプリ使用率の予測が重要である。 既存のモデリングアプローチでは、履歴アプリ使用ログと幅広い意味情報を使用してアプリ使用を予測するが、それらは特定のシナリオでのみ有効であり、異なる状況で一般化することはできない。 本稿では,1)意味情報組込みと2)個人の歴史的アプリ利用に基づく文脈情報組込みの融合を活用した,アプリ利用予測のための文脈的および意味的組込みモデル(cosem)を開発することにより,この問題に対処する。 広範な実験により,セマンティック情報と履歴アプリの利用情報の組み合わせにより,実世界の3つのデータセットのベースラインを上回ることができ,mdrスコアが0.05,0.57,0.86,ヒット率スコアが0.071, 0.75, 0.95以上となった。

App usage prediction is important for smartphone system optimization to enhance user experience. Existing modeling approaches utilize historical app usage logs along with a wide range of semantic information to predict the app usage; however, they are only effective in certain scenarios and cannot be generalized across different situations. This paper address this problem by developing a model called Contextual and Semantic Embedding model for App Usage Prediction (CoSEM) for app usage prediction that leverages integration of 1) semantic information embedding and 2) contextual information embedding based on historical app usage of individuals. Extensive experiments show that the combination of semantic information and history app usage information enables our model to outperform the baselines on three real-world datasets, achieving an MRR score over 0.55,0.57,0.86 and Hit rate scores of more than 0.71, 0.75, and 0.95, respectively.
翻訳日:2021-08-28 00:08:34 公開日:2021-08-26
# (参考訳) 微分プライベート線形二次系の適応制御 [全文訳有]

Adaptive Control of Differentially Private Linear Quadratic Systems ( http://arxiv.org/abs/2108.11563v1 )

ライセンス: CC BY 4.0
Sayak Ray Chowdhury, Xingyu Zhou and Ness Shroff(参考訳) 本稿では,差分プライバシー制約下での強化学習(RL)における後悔最小化の問題について検討する。 この作業は、プライバシに関する懸念が最重要になっているパーソナライズされたサービスを提供するための、幅広いRLアプリケーションによって動機付けられています。 これまでの作業とは対照的に、我々は厳格なプライバシー保証を提供しながら、非タブラルなRL設定に向けた第一歩を踏み出します。 特に、微分プライベート線形二次系(LQ)の適応制御について考察する。 プライバシ保護を保証しながらサブ線形後悔を達成できる,最初のプライベートRLアルゴリズムであるPRLを開発した。 さらに重要なのは、プライバシによる追加コストが$\frac{\ln(1/\delta)^{1/4}}{\epsilon^{1/2}}$与えられたプライバシーパラメータ$\epsilon, \delta > 0$であることだ。 このプロセスを通じて,従来の非私的制御を一般化するだけでなく,一般私的制御の基盤として機能する正規化子の変更によるLQシステムの適応制御の一般的な手順も提供する。

In this paper, we study the problem of regret minimization in reinforcement learning (RL) under differential privacy constraints. This work is motivated by the wide range of RL applications for providing personalized service, where privacy concerns are becoming paramount. In contrast to previous works, we take the first step towards non-tabular RL settings, while providing a rigorous privacy guarantee. In particular, we consider the adaptive control of differentially private linear quadratic (LQ) systems. We develop the first private RL algorithm, PRL, which is able to attain a sub-linear regret while guaranteeing privacy protection. More importantly, the additional cost due to privacy is only on the order of $\frac{\ln(1/\delta)^{1/4}}{\epsilon^{1/2}}$ given privacy parameters $\epsilon, \delta > 0$. Through this process, we also provide a general procedure for adaptive control of LQ systems under changing regularizers, which not only generalizes previous non-private controls, but also serves as the basis for general private controls.
翻訳日:2021-08-27 23:58:34 公開日:2021-08-26
# (参考訳) ラベル雑音下での頑健な長期学習 [全文訳有]

Robust Long-Tailed Learning under Label Noise ( http://arxiv.org/abs/2108.11569v1 )

ライセンス: CC0 1.0
Tong Wei and Jiang-Xin Shi and Wei-Wei Tu and Yu-Feng Li(参考訳) ロングテール学習は、テールクラスの一般化を改善することを目的として、近年多くの注目を集めている。 既存の作品の多くは、トレーニングデータセットの一般的なノイズを考慮せずに教師付き学習を使用する。 ロングテール学習をより現実的なシナリオへ移行するために,ロングテールラベル分布下でのラベルノイズ問題を考察する。 まず,既存の手法の性能に対するノイズラベルの悪影響を観察し,この問題の本質的な課題を明らかにする。 従来の文献におけるノイズの多いラベルに対処する最も一般的な手法として、小さめのトリックは長い尾のラベル分布で失敗する。 その理由は、深層ニューラルネットワークが尾のクラスで正しくラベル付けされたりラベル付けされたりした例を区別できないからである。 この制限を克服するために,ラベルノイズに耐性のある距離ベース距離メトリックを設計することで,新しいプロトタイプノイズ検出手法を確立する。 以上の知見に基づいて,長期学習のためのノイズ検出を実現する頑健なフレームワーク~\algoを提案し,その後ラベルの平滑化と多彩なラベル推定によるソフトな擬似ラベル処理を行った。 さらに,半教師付き学習アルゴリズムを自然に活用し,一般化をさらに改善することができる。 ベンチマークや実世界のデータセットに関する広範な実験は、既存のベースラインよりも優れた方法を示している。 特に本手法は,テスト精度でdisditionmixを3\%上回っている。 ソースコードはまもなくリリースされる。

Long-tailed learning has attracted much attention recently, with the goal of improving generalisation for tail classes. Most existing works use supervised learning without considering the prevailing noise in the training dataset. To move long-tailed learning towards more realistic scenarios, this work investigates the label noise problem under long-tailed label distribution. We first observe the negative impact of noisy labels on the performance of existing methods, revealing the intrinsic challenges of this problem. As the most commonly used approach to cope with noisy labels in previous literature, we then find that the small-loss trick fails under long-tailed label distribution. The reason is that deep neural networks cannot distinguish correctly-labeled and mislabeled examples on tail classes. To overcome this limitation, we establish a new prototypical noise detection method by designing a distance-based metric that is resistant to label noise. Based on the above findings, we propose a robust framework,~\algo, that realizes noise detection for long-tailed learning, followed by soft pseudo-labeling via both label smoothing and diverse label guessing. Moreover, our framework can naturally leverage semi-supervised learning algorithms to further improve the generalisation. Extensive experiments on benchmark and real-world datasets demonstrate the superiority of our methods over existing baselines. In particular, our method outperforms DivideMix by 3\% in test accuracy. Source code will be released soon.
翻訳日:2021-08-27 23:42:46 公開日:2021-08-26
# (参考訳) NeighCNN:特徴保存損失関数を用いたCNNに基づくSARスペックル低減 [全文訳有]

NeighCNN: A CNN based SAR Speckle Reduction using Feature preserving Loss Function ( http://arxiv.org/abs/2108.11573v1 )

ライセンス: CC BY 4.0
Praveen Ravirathinam, Darshan Agrawal, J. Jennifer Ranjani(参考訳) 合成開口レーダのようなコヒーレントイメージングシステムは、自動的ターゲット認識のような応用を困難にする乗算ノイズに影響を受けやすい。 本稿では,比較的単純な畳み込みニューラルネットワークアーキテクチャで乗法雑音を処理するディープラーニングに基づくスペックル低減アルゴリズムNeighCNNを提案する。 我々は,深層ネットワークのトレーニングにおいて,ユークリッド,近隣,知覚的損失の重み付け和のユニークな組み合わせである損失関数を設計した。 ユークリッドと近隣の損失はピクセルレベルの情報を考慮し、知覚的損失は2つの画像間の高レベルな意味的特徴を考慮する。 neighcnnアーキテクチャのテストには,各種合成および実sar画像が用いられ,提案アーキテクチャのノイズ除去とエッジ保存能力が検証された。 合成画像上でのアーキテクチャの効率を評価するために,ピーク信号対雑音比,構造類似度指数,普遍画像品質指標などの性能指標を用いる。

Coherent imaging systems like synthetic aperture radar are susceptible to multiplicative noise that makes applications like automatic target recognition challenging. In this paper, NeighCNN, a deep learning-based speckle reduction algorithm that handles multiplicative noise with relatively simple convolutional neural network architecture, is proposed. We have designed a loss function which is an unique combination of weighted sum of Euclidean, neighbourhood, and perceptual loss for training the deep network. Euclidean and neighbourhood losses take pixel-level information into account, whereas perceptual loss considers high-level semantic features between two images. Various synthetic, as well as real SAR images, are used for testing the NeighCNN architecture, and the results verify the noise removal and edge preservation abilities of the proposed architecture. Performance metrics like peak-signal-to-noise ratio, structural similarity index, and universal image quality index are used for evaluating the efficiency of the proposed architecture on synthetic images.
翻訳日:2021-08-27 23:26:52 公開日:2021-08-26
# (参考訳) 機械読解における注意の理解 [全文訳有]

Understanding Attention in Machine Reading Comprehension ( http://arxiv.org/abs/2108.11574v1 )

ライセンス: CC BY 4.0
Yiming Cui, Wei-Nan Zhang, Wanxiang Che, Ting Liu, Zhigang Chen(参考訳) Machine Reading Comprehension(MRC)データセットの一部で人間レベルのパフォーマンスを達成することは、強力な事前学習言語モデル(PLM)の助けを借りて、もはや困難ではない。 しかし、これらのアーティファクトの内部メカニズムはまだ不明であり、これらのモデルをさらに理解するための障害となっている。 本稿では,plmに基づくmrcモデルの潜在的な説明可能性を分析するため,マルチヘッド自己着脱と最終性能の関係を検討するために,一連の分析実験を行う。 SQuAD(英語)とCMRC 2018(中国語)の定量的解析を行い、BERT, ALBERT, ELECTRAの2つの分散抽出MCCデータセットを様々な側面で分析した。 注意力は最も重要であり,他の部分に比べて最終結果と強い相関関係がみられた。 可視化やケーススタディを通じて、注意マップのいくつかの一般的な発見を観察し、これらのモデルがどのように問題を解くかを理解するのに役立つかもしれない。

Achieving human-level performance on some of Machine Reading Comprehension (MRC) datasets is no longer challenging with the help of powerful Pre-trained Language Models (PLMs). However, the internal mechanism of these artifacts still remains unclear, placing an obstacle for further understanding these models. This paper focuses on conducting a series of analytical experiments to examine the relations between the multi-head self-attention and the final performance, trying to analyze the potential explainability in PLM-based MRC models. We perform quantitative analyses on SQuAD (English) and CMRC 2018 (Chinese), two span-extraction MRC datasets, on top of BERT, ALBERT, and ELECTRA in various aspects. We discover that {\em passage-to-question} and {\em passage understanding} attentions are the most important ones, showing strong correlations to the final performance than other parts. Through visualizations and case studies, we also observe several general findings on the attention maps, which could be helpful to understand how these models solve the questions.
翻訳日:2021-08-27 23:17:38 公開日:2021-08-26
# (参考訳) 時空間表現学習のためのシフトチャンクトランス [全文訳有]

Shifted Chunk Transformer for Spatio-Temporal Representational Learning ( http://arxiv.org/abs/2108.11575v1 )

ライセンス: CC BY-SA 4.0
Xuefan Zha, Wentao Zhu, Tingxun Lv, Sen Yang, Ji Liu(参考訳) 時空間表現学習は、アクション認識、ビデオオブジェクトセグメンテーション、アクション予測など様々な分野で広く採用されている。 従来の時空間表現学習アプローチでは、主にフレーム内およびフレーム間の特徴を学ぶためにConvNetまたはLSTMのようなシーケンシャルモデルを用いていた。 近年,自然言語処理(nlp)や画像分類などの研究においてトランスフォーマモデルが優勢となっている。 しかし、Pure-Transformerベースの時空間学習は、小さなパッチからきめ細かい特徴を抽出するために、メモリと計算に不当にコストがかかる可能性がある。 トレーニングの難易度に取り組み,時空間学習の強化を図るため,純粋自己着脱ブロックを有するシフトチャンクトランスを構築した。 最近のNLPにおける効率的なTransformer設計を活用して、このシフトチャンクTransformerは、局所的な小さなパッチからグローバルなビデオクリップまで、階層的な時空間的特徴を学習することができる。 移動自着は複雑なフレーム間分散を効果的にモデル化することができる。 さらに,Transformerに基づくクリップエンコーダを構築し,長期の時間依存性をモデル化する。 シフトチャンク変換器における各成分およびハイパーパラメータの精度を評価するための徹底的なアブレーション研究を行い、Kinetics-400, Kinetics-600, UCF101, HMDB51における従来の最先端手法よりも優れていた。 コードとトレーニングされたモデルがリリースされる。

Spatio-temporal representational learning has been widely adopted in various fields such as action recognition, video object segmentation, and action anticipation. Previous spatio-temporal representational learning approaches primarily employ ConvNets or sequential models,e.g., LSTM, to learn the intra-frame and inter-frame features. Recently, Transformer models have successfully dominated the study of natural language processing (NLP), image classification, etc. However, the pure-Transformer based spatio-temporal learning can be prohibitively costly on memory and computation to extract fine-grained features from a tiny patch. To tackle the training difficulty and enhance the spatio-temporal learning, we construct a shifted chunk Transformer with pure self-attention blocks. Leveraging the recent efficient Transformer design in NLP, this shifted chunk Transformer can learn hierarchical spatio-temporal features from a local tiny patch to a global video clip. Our shifted self-attention can also effectively model complicated inter-frame variances. Furthermore, we build a clip encoder based on Transformer to model long-term temporal dependencies. We conduct thorough ablation studies to validate each component and hyper-parameters in our shifted chunk Transformer, and it outperforms previous state-of-the-art approaches on Kinetics-400, Kinetics-600, UCF101, and HMDB51. Code and trained models will be released.
翻訳日:2021-08-27 23:02:30 公開日:2021-08-26
# (参考訳) 特徴とラベルの機械学習

Machine Unlearning of Features and Labels ( http://arxiv.org/abs/2108.11577v1 )

ライセンス: CC BY 4.0
Alexander Warnecke, Lukas Pirch, Christian Wressnegger and Konrad Rieck(参考訳) 機械学習モデルから情報を取り除くことは、トレーニングプロセスを部分的に戻す必要のある非自明なタスクである。 このタスクは、クレジットカード番号やパスワードなどの機密データが誤ってモデルに入力され、その後削除される場合、避けられない。 近年,この問題を解決するために,機械学習の異なる概念が提案されている。 これらのアプローチは個々のデータポイントを取り除くのに有効であるが、大きな機能群とラベルを戻さなければならないシナリオにはスケールしない。 本稿では,特徴とラベルを学習しない手法を提案する。 本手法は影響関数の概念を基盤とし,モデルパラメータのクローズドフォーム更新による学習を実現する。 これにより、トレーニングデータの影響を学習モデルに振り返り、データ漏洩やプライバシーの問題を修正することができる。 強い凸損失関数を持つモデルを学習するために,提案手法は理論的保証付き未学習を認定する。 非凸損失モデルに対しては、未学習の特徴やラベルが他の戦略よりも効果的ではるかに高速であることを示す。

Removing information from a machine learning model is a non-trivial task that requires to partially revert the training process. This task is unavoidable when sensitive data, such as credit card numbers or passwords, accidentally enter the model and need to be removed afterwards. Recently, different concepts for machine unlearning have been proposed to address this problem. While these approaches are effective in removing individual data points, they do not scale to scenarios where larger groups of features and labels need to be reverted. In this paper, we propose a method for unlearning features and labels. Our approach builds on the concept of influence functions and realizes unlearning through closed-form updates of model parameters. It enables to adapt the influence of training data on a learning model retrospectively, thereby correcting data leaks and privacy issues. For learning models with strongly convex loss functions, our method provides certified unlearning with theoretical guarantees. For models with non-convex losses, we empirically show that unlearning features and labels is effective and significantly faster than other strategies.
翻訳日:2021-08-27 22:44:23 公開日:2021-08-26
# (参考訳) 確率的変分推論による項目応答理論のモデル化

Modeling Item Response Theory with Stochastic Variational Inference ( http://arxiv.org/abs/2108.11579v1 )

ライセンス: CC BY 4.0
Mike Wu, Richard L. Davis, Benjamin W. Domingue, Chris Piech, Noah Goodman(参考訳) 項目応答理論 (IRT) は、質問に対する反応に基づいて人間の行動や態度を理解するためのユビキタスモデルである。 大規模な現代のデータセットは、人間の行動におけるよりニュアンスを捉える機会を提供し、心理学的モデリングを改善し、科学的理解と公共政策を改善する可能性がある。 しかし、より大きなデータセットはよりフレキシブルなアプローチを可能にするが、IRTモデルに適合する現代のアルゴリズムの多くは、現実世界のアプリケーションを禁じる膨大な計算要求を持っている。 このボトルネックに対処するために,irtの変分ベイズ推定アルゴリズムを導入し,精度を犠牲にすることなく高速かつスケーラブルであることを示す。 この手法を認知科学と教育の5つの大規模項目応答データセットに適用すると、代替推論アルゴリズムよりも高いログ確率と高い精度が得られる。 この新しい推論手法を用いて, IRTを表現型ベイズ応答モデルで一般化し, ディープラーニングの最近の進歩を活用し, 非線形アイテム特性曲線(ICC)をニューラルネットワークで捉える。 TIMSSの等級数学テストを用いて、非線形IRTモデルは興味深い非対称ICCを捉えることができることを示す。 アルゴリズムの実装はオープンソースであり、簡単に利用できる。

Item Response Theory (IRT) is a ubiquitous model for understanding human behaviors and attitudes based on their responses to questions. Large modern datasets offer opportunities to capture more nuances in human behavior, potentially improving psychometric modeling leading to improved scientific understanding and public policy. However, while larger datasets allow for more flexible approaches, many contemporary algorithms for fitting IRT models may also have massive computational demands that forbid real-world application. To address this bottleneck, we introduce a variational Bayesian inference algorithm for IRT, and show that it is fast and scalable without sacrificing accuracy. Applying this method to five large-scale item response datasets from cognitive science and education yields higher log likelihoods and higher accuracy in imputing missing data than alternative inference algorithms. Using this new inference approach we then generalize IRT with expressive Bayesian models of responses, leveraging recent advances in deep learning to capture nonlinear item characteristic curves (ICC) with neural networks. Using an eigth-grade mathematics test from TIMSS, we show our nonlinear IRT models can capture interesting asymmetric ICCs. The algorithm implementation is open-source, and easily usable.
翻訳日:2021-08-27 22:43:32 公開日:2021-08-26
# (参考訳) 局所内接ラグランジアンによるモデルベースチャンス制約強化学習 [全文訳有]

Model-based Chance-Constrained Reinforcement Learning via Separated Proportional-Integra l Lagrangian ( http://arxiv.org/abs/2108.11623v1 )

ライセンス: CC BY 4.0
Baiyu Peng, Jingliang Duan, Jianyu Chen, Shengbo Eben Li, Genjin Xie, Congsheng Zhang, Yang Guan, Yao Mu, Enxin Sun(参考訳) 安全性は現実世界に適用される強化学習(rl)に不可欠である。 確率制約(確率的制約)を加えることは不確実性の下でRLの安全性を高めるのに適した方法である。 ペナルティ法やラグランジアン法のような既存の確率制約付きrl法は周期的振動を示すか、保存的または安全でないポリシーを学ぶ。 本稿では,分離された比例積分ラグランジアン(SPIL)アルゴリズムを提案する。 まず,ペナルティ重みを制御入力とし,安全な確率を制御出力とするフィードバック制御の観点から,制約付きポリシー最適化プロセスをレビューする。 これにより、ペナルティ法を比例制御器として定式化し、ラグランジアン法を積分制御器として定式化する。 次に,これらを統一し,両者の利点を得るための比例積分ラグランジアン法と,積分値を妥当な範囲で制限する積分分離法を提案する。 トレーニングを加速するために、安全な確率の勾配をモデルベースで計算する。 本手法は,車追従シミュレーションにおいてrlポリシーの振動と保守性を低減できることを実証する。 その実用性を証明するために,本手法を実世界の移動ロボットナビゲーションタスクに適用する。

Safety is essential for reinforcement learning (RL) applied in the real world. Adding chance constraints (or probabilistic constraints) is a suitable way to enhance RL safety under uncertainty. Existing chance-constrained RL methods like the penalty methods and the Lagrangian methods either exhibit periodic oscillations or learn an over-conservative or unsafe policy. In this paper, we address these shortcomings by proposing a separated proportional-integra l Lagrangian (SPIL) algorithm. We first review the constrained policy optimization process from a feedback control perspective, which regards the penalty weight as the control input and the safe probability as the control output. Based on this, the penalty method is formulated as a proportional controller, and the Lagrangian method is formulated as an integral controller. We then unify them and present a proportional-integra l Lagrangian method to get both their merits, with an integral separation technique to limit the integral value in a reasonable range. To accelerate training, the gradient of safe probability is computed in a model-based manner. We demonstrate our method can reduce the oscillations and conservatism of RL policy in a car-following simulation. To prove its practicality, we also apply our method to a real-world mobile robot navigation task, where our robot successfully avoids a moving obstacle with highly uncertain or even aggressive behaviors.
翻訳日:2021-08-27 22:42:28 公開日:2021-08-26
# (参考訳) CoMPM:会話における感情認識のための話者の事前学習メモリトラッキングを用いた文脈モデリング [全文訳有]

CoMPM: Context Modeling with Speaker's Pre-trained Memory Tracking for Emotion Recognition in Conversation ( http://arxiv.org/abs/2108.11626v1 )

ライセンス: CC BY 4.0
Joosung Lee, Wooin Lee(参考訳) 対話型機械の利用が進むにつれて、会話における感情認識(ERC)の課題がより重要になる。 機械が生成した文が感情を反映すると、より人間的な交感的な会話が可能になる。 会話における感情認識は、過去の発話を考慮しなければ不正確であるため、多くの研究は会話の文脈を反映して演奏を改善する。 文脈内における話者の過去の発話の記憶をトラッキングする事前学習メモリモジュール(PM)と組み合わせた文脈埋め込みモジュール(CoMPM)を導入し、事前学習メモリが感情認識の最終精度を大幅に向上させることを示す。 マルチパーティデータセット(meld、emorynlp)とdyadicサードパーティデータセット(iemocap、dailydialog)の両方で実験を行い、我々のアプローチがすべてのデータセットで競争力のあるパフォーマンスを達成することを示した。

As the use of interactive machines grow, the task of Emotion Recognition in Conversation (ERC) became more important. If the machine generated sentences reflect emotion, more human-like sympathetic conversations are possible. Since emotion recognition in conversation is inaccurate if the previous utterances are not taken into account, many studies reflect the dialogue context to improve the performances. We introduce CoMPM, a context embedding module (CoM) combined with a pre-trained memory module (PM) that tracks memory of the speaker's previous utterances within the context, and show that the pre-trained memory significantly improves the final accuracy of emotion recognition. We experimented on both the multi-party datasets (MELD, EmoryNLP) and the dyadic-party datasets (IEMOCAP, DailyDialog), showing that our approach achieve competitive performance on all datasets.
翻訳日:2021-08-27 22:24:07 公開日:2021-08-26
# (参考訳) オーディオ超解像の自己認識 [全文訳有]

Self-Attention for Audio Super-Resolution ( http://arxiv.org/abs/2108.11637v1 )

ライセンス: CC BY 4.0
Nathana\"el Carraz Rakotonirina(参考訳) 畳み込みは局所的にのみ動作するため、グローバルな相互作用をモデル化できない。 しかし、セルフアテンションはシーケンスの長距離依存性をキャプチャする表現を学習することができる。 畳み込みと自己認識を組み合わせた超高解像度オーディオのためのネットワークアーキテクチャを提案する。 Attention-based Feature-Wise Linear Modulation (AFiLM) は、畳み込みモデルの活性化を変調するために、リカレントニューラルネットワークの代わりに自己アテンションメカニズムを使用する。 広範な実験によって、我々のモデルが標準ベンチマークの既存のアプローチを上回っていることが分かりました。 さらに、より並列化が可能となり、トレーニングが大幅に高速化される。

Convolutions operate only locally, thus failing to model global interactions. Self-attention is, however, able to learn representations that capture long-range dependencies in sequences. We propose a network architecture for audio super-resolution that combines convolution and self-attention. Attention-based Feature-Wise Linear Modulation (AFiLM) uses self-attention mechanism instead of recurrent neural networks to modulate the activations of the convolutional model. Extensive experiments show that our model outperforms existing approaches on standard benchmarks. Moreover, it allows for more parallelization resulting in significantly faster training.
翻訳日:2021-08-27 22:11:02 公開日:2021-08-26
# (参考訳) convolutional neural networks demystified: a matched filtering perspective based tutorial [全文訳有]

Convolutional Neural Networks Demystified: A Matched Filtering Perspective Based Tutorial ( http://arxiv.org/abs/2108.11663v1 )

ライセンス: CC BY 4.0
Ljubisa Stankovic and Danilo Mandic(参考訳) ディープニューラルネットワーク(dnn)および特に畳み込みニューラルネットワーク(cnn)は、大量の信号や画像を分析するためのデファクトスタンダードである。 しかし、彼らの開発と基礎となる原則は、主にアドホックでブラックボックス方式で実行されてきた。 CNNのデミスティフィケーションを支援するため、最初の原則と一致するフィルタリングの観点から、それらの操作を再考する。 我々は,そのバックボーンであるCNN内の畳み込み動作が,予め定義された特徴の存在に対して入力信号/イメージを検査するマッチングフィルタであることを確認した。 この視点は物理的に意味があることが示されており、プール、ゼロパディング、次元減少の様々な方法を含むCNNの操作に関するステップバイステップのチュートリアルの基礎となっている。 最初の原則から始めると、フィードフォワードパスと学習段階(バックプロパゲーション)の両方が、ワークアウトした数値例とそれに対応する可視化を通して詳細に照らされる。 このチュートリアルが深層ニューラルネットワークの理解とさらなる発展に新たな光と物理的直感をもたらすことを願っています。

Deep Neural Networks (DNN) and especially Convolutional Neural Networks (CNN) are a de-facto standard for the analysis of large volumes of signals and images. Yet, their development and underlying principles have been largely performed in an ad-hoc and black box fashion. To help demystify CNNs, we revisit their operation from first principles and a matched filtering perspective. We establish that the convolution operation within CNNs, their very backbone, represents a matched filter which examines the input signal/image for the presence of pre-defined features. This perspective is shown to be physically meaningful, and serves as a basis for a step-by-step tutorial on the operation of CNNs, including pooling, zero padding, various ways of dimensionality reduction. Starting from first principles, both the feed-forward pass and the learning stage (via back-propagation) are illuminated in detail, both through a worked-out numerical example and the corresponding visualizations. It is our hope that this tutorial will help shed new light and physical intuition into the understanding and further development of deep neural networks.
翻訳日:2021-08-27 22:01:05 公開日:2021-08-26
# (参考訳) 手書き文字認識のためのStackMixとBlot拡張 [全文訳有]

StackMix and Blot Augmentations for Handwritten Text Recognition ( http://arxiv.org/abs/2108.11667v1 )

ライセンス: CC BY-SA 4.0
Alex Shonenkov and Denis Karachev and Maxim Novopoltsev and Mark Potanin and Denis Dimitrov(参考訳) 本稿では,現在の最先端技術に勝る手書きテキスト認識(htr)システムを提案する。 この比較は、HTRタスクデータセット(Ben-tham、IAM、Saint Gall)で最も頻繁に使用される3つで実施された。 さらに、最近発表された2つのデータセットであるpeter the greats manuscriptsとhkrデータセットについて、ニューラルネットワークのアーキテクチャと、ストライクスルーテキスト(手書きブロット)をシミュレートする拡張と、htrタスクで非常に効果的であることが判明した新しいテキスト生成メソッド(stackmix)について説明する。

This paper proposes a handwritten text recognition(HTR) system that outperforms current state-of-the-artmeth ods. The comparison was carried out on three of themost frequently used in HTR task datasets, namely Ben-tham, IAM, and Saint Gall. In addition, the results on tworecently presented datasets, Peter the Greats manuscriptsand HKR Dataset, are provided.The paper describes the architecture of the neural net-work and two ways of increasing the volume of train-ing data: augmentation that simulates strikethrough text(HandWritten Blots) and a new text generation method(StackMix), which proved to be very effective in HTR tasks.StackMix can also be applied to the standalone task of gen-erating handwritten text based on printed text.
翻訳日:2021-08-27 21:34:33 公開日:2021-08-26
# (参考訳) 対人的再プログラミングが機能する理由, 失敗する時期, 相違点の把握方法 [全文訳有]

Why Adversarial Reprogramming Works, When It Fails, and How to Tell the Difference ( http://arxiv.org/abs/2108.11673v1 )

ライセンス: CC BY 4.0
Yang Zheng, Xiaoyi Feng, Zhaoqiang Xia, Xiaoyue Jiang, Ambra Demontis, Maura Pintor, Battista Biggio, Fabio Roli(参考訳) 逆再プログラミングは、異なるタスクを実行するために機械学習モデルを再提案することを可能にする。 例えば、動物を認識するために訓練されたモデルは、入力として提供される数字画像に敵対プログラムを埋め込むことで、数字を認識するように書き換えることができる。 近年の研究では、敵対的再プログラミングは、サービスとして提供される機械学習モデルを悪用するだけでなく、トレーニングデータが少ない場合のトランスファー学習を改善するためにも用いられることが示されている。 しかし、その成功に影響を及ぼす要因はほとんど説明されていない。 本研究では,その成功は,入力勾配がより整列し,入力が高次元の場合,平均入力勾配の大きさに依存することを示すために,逆リプログラミングの一階線形モデルを開発した。 14の異なる再プログラミングタスクを含む実験結果から, 上記の要因が, 対人再プログラミングの成功と失敗と相関していることが示唆された。

Adversarial reprogramming allows repurposing a machine-learning model to perform a different task. For example, a model trained to recognize animals can be reprogrammed to recognize digits by embedding an adversarial program in the digit images provided as input. Recent work has shown that adversarial reprogramming may not only be used to abuse machine-learning models provided as a service, but also beneficially, to improve transfer learning when training data is scarce. However, the factors affecting its success are still largely unexplained. In this work, we develop a first-order linear model of adversarial reprogramming to show that its success inherently depends on the size of the average input gradient, which grows when input gradients are more aligned, and when inputs have higher dimensionality. The results of our experimental analysis, involving fourteen distinct reprogramming tasks, show that the above factors are correlated with the success and the failure of adversarial reprogramming.
翻訳日:2021-08-27 21:24:33 公開日:2021-08-26
# (参考訳) VAEのダイナミックスからODEパラメータを遠ざける [全文訳有]

Disentangling ODE parameters from dynamics in VAEs ( http://arxiv.org/abs/2108.11684v1 )

ライセンス: CC BY 4.0
Stathi Fotiadis, Mario Lino, Chris Cantwell, Anil Bharath(参考訳) ディープネットワークは動的システムの予測にますます関心を寄せてきたが、一般化はいまだに解明されていない。 本研究では,データ生成過程の変動要因として,ODEの物理パラメータについて考察する。 vaesの教師付きディスタングルからアイデアを活用することで、odeパラメータを潜在空間のダイナミクスから分離することを目指している。 実験により、教師付き非絡み合いにより、VAEはダイナミックスにおける変数をキャプチャし、トレーニングデータに存在しないODEパラメータ空間にもっとよく外挿できることが示された。

Deep networks have become increasingly of interest in dynamical system prediction, but generalization remains elusive. In this work, we consider the physical parameters of ODEs as factors of variation of the data generating process. By leveraging ideas from supervised disentanglement in VAEs, we aim to separate the ODE parameters from the dynamics in the latent space. Experiments show that supervised disentanglement allows VAEs to capture the variability in the dynamics and extrapolate better to ODE parameter spaces that were not present in the training data.
翻訳日:2021-08-27 21:08:53 公開日:2021-08-26
# (参考訳) ベイズ深層ネットワークを用いた不確実性モデリングとカリキュラム学習による医用画像の意味セグメンテーションの信頼性向上 [全文訳有]

Improving the Reliability of Semantic Segmentation of Medical Images by Uncertainty Modeling with Bayesian Deep Networks and Curriculum Learning ( http://arxiv.org/abs/2108.11693v1 )

ライセンス: CC BY 4.0
Sora Iwamoto, Bisser Raytchev, Toru Tamaki and Kazufumi Kaneda(参考訳) 本稿では,ベイズ深層ネットワークが提供する不確実性対策をカリキュラム学習を通じて活用し,不確実性推定をシステムにフィードバックし,不確実性が高い地域でのトレーニングデータをより密に評価する手法を提案する。 セマンティックセグメンテーションタスク(iPSセルコロニーセグメンテーション)の具体的設定において,提案システムはモデルの信頼性を大幅に向上させることができることを示す。

In this paper we propose a novel method which leverages the uncertainty measures provided by Bayesian deep networks through curriculum learning so that the uncertainty estimates are fed back to the system to resample the training data more densely in areas where uncertainty is high. We show in the concrete setting of a semantic segmentation task (iPS cell colony segmentation) that the proposed system is able to increase significantly the reliability of the model.
翻訳日:2021-08-27 20:57:49 公開日:2021-08-26
# (参考訳) オンラインデートのリコメンデーションに必要なのは写真だけ [全文訳有]

Photos Are All You Need for Reciprocal Recommendation in Online Dating ( http://arxiv.org/abs/2108.11714v1 )

ライセンス: CC BY 4.0
James Neve and Ryan McConville(参考訳) Recommender Systemsは、ユーザのアイテムの好みを予測するアルゴリズムである。 相互レコメンダ(reciprocal Recommenders)は、質問対象が人間である推薦システムのサブセットであり、それゆえに双方向の嗜好関係を予測することを目的としている。 オンラインデートサービスやソーシャルネットワークなどの設定で使用される。 特に、ユーザが提供した画像は、ユーザの好みの重要な部分であり、文献ではあまり活用されていない。 本稿では,ユーザの画像選択履歴を解釈し,これを用いてレコメンデーションを行う新しい手法を提案する。 我々は、リカレントニューラルネットワークをトレーニングし、ユーザの好みを学習し、両方のユーザーを満たすレコメンデーションを作成するために使用できる相互選好関係の予測を行う。 提案システムは,写真のみを用いて大規模リアルタイムオンラインデートデータセットの相互レコメンデーションを生成する場合,F1スコアが0.87であることを示す。 本システムは,コンテンツベースおよび協調フィルタリングシステムにおいて,技術状況において著しく優れる。

Recommender Systems are algorithms that predict a user's preference for an item. Reciprocal Recommenders are a subset of recommender systems, where the items in question are people, and the objective is therefore to predict a bidirectional preference relation. They are used in settings such as online dating services and social networks. In particular, images provided by users are a crucial part of user preference, and one that is not exploited much in the literature. We present a novel method of interpreting user image preference history and using this to make recommendations. We train a recurrent neural network to learn a user's preferences and make predictions of reciprocal preference relations that can be used to make recommendations that satisfy both users. We show that our proposed system achieves an F1 score of 0.87 when using only photographs to produce reciprocal recommendations on a large real world online dating dataset. Our system significantly outperforms on the state of the art in both content-based and collaborative filtering systems.
翻訳日:2021-08-27 20:48:23 公開日:2021-08-26
# (参考訳) アクティブ推論による3次元オブジェクト中心表現の在り方 [全文訳有]

Disentangling What and Where for 3D Object-Centric Representations Through Active Inference ( http://arxiv.org/abs/2108.11762v1 )

ライセンス: CC BY 4.0
Toon Van de Maele, Tim Verbelen, Ozan Catal and Bart Dhoedt(参考訳) 現代の物体検出と分類モデルは高い精度を達成するが、これらは固定された列車セットに予め制約されているため、新しい未知の物体カテゴリーを扱うには柔軟ではない。 さらに、これらのモデルは、しばしば単一のフレーム上で動作し、曖昧な視点の場合に誤った分類をもたらす可能性がある。 本稿では、オブジェクト分類の証拠を積極的に収集し、時間とともに新しいオブジェクト分類を学習できるアクティブ推論エージェントを提案する。 人間の脳からインスピレーションを得て、2つの情報ストリーム(what-とwhere-stream)からなるオブジェクト中心の生成モデルを構築します。 what-streamは観測されたオブジェクトが特定のカテゴリに属しているかどうかを予測し、where-streamは内部3d参照フレーム内のオブジェクトを表現している。 エージェント(i)は、教師なしの方法で多くの対象カテゴリの表現を学習でき、(ii)最先端の分類精度を実現し、必要に応じて曖昧さを積極的に解決し、(iii)新しい対象カテゴリを識別できることを示す。 さらに,エージェントが画素ベースのレンダリングから所定のポーズでオブジェクトを検索できるエンド・ツー・エンド方式でシステムを検証する。 これは、三次元オブジェクトを含む幅広いタスクに使用できるモジュール式でインテリジェントなシステムを構築するための第一歩だと考えています。

Although modern object detection and classification models achieve high accuracy, these are typically constrained in advance on a fixed train set and are therefore not flexible to deal with novel, unseen object categories. Moreover, these models most often operate on a single frame, which may yield incorrect classifications in case of ambiguous viewpoints. In this paper, we propose an active inference agent that actively gathers evidence for object classifications, and can learn novel object categories over time. Drawing inspiration from the human brain, we build object-centric generative models composed of two information streams, a what- and a where-stream. The what-stream predicts whether the observed object belongs to a specific category, while the where-stream is responsible for representing the object in its internal 3D reference frame. We show that our agent (i) is able to learn representations for many object categories in an unsupervised way, (ii) achieves state-of-the-art classification accuracies, actively resolving ambiguity when required and (iii) identifies novel object categories. Furthermore, we validate our system in an end-to-end fashion where the agent is able to search for an object at a given pose from a pixel-based rendering. We believe that this is a first step towards building modular, intelligent systems that can be used for a wide range of tasks involving three dimensional objects.
翻訳日:2021-08-27 20:36:19 公開日:2021-08-26
# (参考訳) ICM-3D:Instantiated Category Modeling for 3D Instance Segmentation [全文訳有]

ICM-3D: Instantiated Category Modeling for 3D Instance Segmentation ( http://arxiv.org/abs/2108.11771v1 )

ライセンス: CC BY 4.0
Ruihang Chu, Yukang Chen, Tao Kong, Lu Qi and Lei Li(参考訳) 3Dポイントクラウドを個々のインスタンスに分離することは、3Dビジョンにとって重要なタスクである。 シーンの未知数と異なる数のインスタンスがあるため、これは困難である。 既存のディープラーニングベースの作業は、2ステップのパイプラインに重点を置いている。 このような2段階のパイプラインは、中間目的の切断につながる。 本稿では,ポイント単位の分類問題として,3次元インスタンス分割の統合的再構成を提案する。 Instaniated categorization を用いて3Dインスタンスを分割するシングルステップ手法 ICM-3D を提案する。 拡張カテゴリ情報は、3次元空間位置から自動的に構築される。 icm-3dの有効性を検証するために広範な実験を行い、複数のフレームワーク、バックボーン、ベンチマークにまたがってインスパイアなパフォーマンスが得られることを示した。

Separating 3D point clouds into individual instances is an important task for 3D vision. It is challenging due to the unknown and varying number of instances in a scene. Existing deep learning based works focus on a two-step pipeline: first learn a feature embedding and then cluster the points. Such a two-step pipeline leads to disconnected intermediate objectives. In this paper, we propose an integrated reformulation of 3D instance segmentation as a per-point classification problem. We propose ICM-3D, a single-step method to segment 3D instances via instantiated categorization. The augmented category information is automatically constructed from 3D spatial positions. We conduct extensive experiments to verify the effectiveness of ICM-3D and show that it obtains inspiring performance across multiple frameworks, backbones and benchmarks.
翻訳日:2021-08-27 20:25:09 公開日:2021-08-26
# (参考訳) リアルタイム深部CNNモデルにおける二次的相互情報正規化 [全文訳有]

Quadratic mutual information regularization in real-time deep CNN models ( http://arxiv.org/abs/2108.11774v1 )

ライセンス: CC BY 4.0
Maria Tzelepi and Anastasios Tefas(参考訳) 本稿では,高分解能映像入力のための計算能力に制限のあるデバイス上で,リアルタイムに効果的に動作可能な正規化軽量深層畳み込みニューラルネットワークモデルを提案する。 さらに,利用モデルの一般化能力を向上させるために,2次相互情報に動機づけられた新しい正規化手法を提案する。 自律システムに関わる様々な二分分類問題に関する広範囲な実験を行い,提案モデルの有効性と,提案する正規化器の有効性を示した。

In this paper, regularized lightweight deep convolutional neural network models, capable of effectively operating in real-time on devices with restricted computational power for high-resolution video input are proposed. Furthermore, a novel regularization method motivated by the Quadratic Mutual Information, in order to improve the generalization ability of the utilized models is proposed. Extensive experiments on various binary classification problems involved in autonomous systems are performed, indicating the effectiveness of the proposed models as well as of the proposed regularizer.
翻訳日:2021-08-27 20:06:02 公開日:2021-08-26
# (参考訳) 逆境重症度の階層的評価 [全文訳有]

A Hierarchical Assessment of Adversarial Severity ( http://arxiv.org/abs/2108.11785v1 )

ライセンス: CC BY 4.0
Guillaume Jeanneret, Juan C Perez, Pablo Arbelaez(参考訳) 敵対的ロバスト性は、ニューラルネットワークの脆さを示す成長分野である。 敵対的堅牢性に関する文献は広大なが、これらの研究には次元が欠落している。 誤分類と適切なラベルのセマンティックエラーを計算することにより、逆汚職の下流への影響を定量化するため、この概念を「逆重大性」と呼ぶ。 本研究は,大規模データセットにおけるロバスト性と重大性を測定することによって,敵対的雑音の影響を研究することを目的としている。 (ii)これらの攻撃は分類モデルの敵対的堅牢性と重大さをベンチマークできる。 3) 従来の逆行訓練をシンプルながら効果的な階層型カリキュラムトレーニングで強化し, 階層型ツリー内でこれらのノードを徐々に学習する。 階層的な防御により、深いモデルにより、敵のロバスト性は1.85%向上し、全ての攻撃の重症度は平均0.17減少する。

Adversarial Robustness is a growing field that evidences the brittleness of neural networks. Although the literature on adversarial robustness is vast, a dimension is missing in these studies: assessing how severe the mistakes are. We call this notion "Adversarial Severity" since it quantifies the downstream impact of adversarial corruptions by computing the semantic error between the misclassification and the proper label. We propose to study the effects of adversarial noise by measuring the Robustness and Severity into a large-scale dataset: iNaturalist-H. Our contributions are: (i) we introduce novel Hierarchical Attacks that harness the rich structured space of labels to create adversarial examples. (ii) These attacks allow us to benchmark the Adversarial Robustness and Severity of classification models. (iii) We enhance the traditional adversarial training with a simple yet effective Hierarchical Curriculum Training to learn these nodes gradually within the hierarchical tree. We perform extensive experiments showing that hierarchical defenses allow deep models to boost the adversarial Robustness by 1.85% and reduce the severity of all attacks by 0.17, on average.
翻訳日:2021-08-27 19:56:06 公開日:2021-08-26
# (参考訳) エンサンブルCNNと不確かさ分類を用いた磁気共鳴画像における多発性硬化病変の同定・分離 [全文訳有]

Multiple Sclerosis Lesions Identification/Segme ntation in Magnetic Resonance Imaging using Ensemble CNN and Uncertainty Classification ( http://arxiv.org/abs/2108.11791v1 )

ライセンス: CC BY 4.0
Giuseppe Placidi, Luigi Cinque, Filippo Mignosi, Matteo Polsinelli(参考訳) 磁気共鳴画像(MRI)による多発性硬化症(MS)病変の同定・分類のためのいくつかの自動的戦略が提案されている。 これは、MRI不安定性、特異なMS異種性、MRI非特異性に起因する曖昧性によるものである。 そこで本研究では,MS病変の同定・分類を3つの重要な概念に基づく自動的枠組みとして,不確実性のモデリング,CNNの2つの個別訓練,病変自体と周囲の病変に対して最適化された1つの提案,それぞれ軸方向,冠方向,矢状方向,CNN出力のアンサンブルを提案する。 提案したフレームワークは、単一のイメージングモードであるFLAIR(FLuid-Attenuat ed Inversion Recovery)から2016年MSSEGベンチマークの公開データセットをトレーニングし、検証し、テストする。 また,MSSEGの接地トラスと7つのヒトラッカーに対して通常使用される指標のほとんどを用いて,分割された病変に対して行った比較では,提案した枠組みと他のラッカーとの間に有意な差は認められなかった。 不確実性についても結果が示されるが、他の利率器との比較は不可能である。

To date, several automated strategies for identification/segme ntation of Multiple Sclerosis (MS) lesions by Magnetic Resonance Imaging (MRI) have been presented which are either outperformed by human experts or, at least, whose results are well distinguishable from humans. This is due to the ambiguity originated by MRI instabilities, peculiar MS Heterogeneity and MRI unspecific nature with respect to MS. Physicians partially treat the uncertainty generated by ambiguity relying on personal radiological/clinica l/anatomical background and experience. We present an automated framework for MS lesions identification/segme ntation based on three pivotal concepts to better emulate human reasoning: the modeling of uncertainty; the proposal of two, separately trained, CNN, one optimized with respect to lesions themselves and the other to the environment surrounding lesions, respectively repeated for axial, coronal and sagittal directions; the ensemble of the CNN output. The proposed framework is trained, validated and tested on the 2016 MSSEG benchmark public data set from a single imaging modality, FLuid-Attenuated Inversion Recovery (FLAIR). The comparison, performed on the segmented lesions by means of most of the metrics normally used with respect to the ground-truth and the 7 human raters in MSSEG, prove that there is no significant difference between the proposed framework and the other raters. Results are also shown for the uncertainty, though a comparison with the other raters is impossible.
翻訳日:2021-08-27 19:38:58 公開日:2021-08-26
# (参考訳) オンライン自己獲得知識蒸留を用いた軽量ニューラルネットワークの効率的な学習 [全文訳有]

Efficient training of lightweight neural networks using Online Self-Acquired Knowledge Distillation ( http://arxiv.org/abs/2108.11798v1 )

ライセンス: CC BY 4.0
Maria Tzelepi and Anastasios Tefas(参考訳) 知識蒸留は、重厚で強力なモデルから知識を伝達することで、コンパクトで高速なモデルを訓練するための非常に有望なアプローチとして確立されている。 しかし、従来のkdは永続的、計算的、メモリ要求のプロセスを構成する。 本稿では, オンライン自己獲得知識蒸留(OSAKD)を提案し, ディープニューラルモデルの性能をオンライン的に向上することを目的とした。 出力特徴空間におけるデータサンプルの未知確率分布の推定にk-nnノンパラメトリック密度推定法を用いる。 これにより、データサンプルの後方クラス確率を直接推定することができ、それらをソフトラベルとして使用し、クラスとの類似性に関する明示的な情報を符号化し、計算コストに悪影響を及ぼす。 4つのデータセットの実験的評価により,提案手法の有効性が検証された。

Knowledge Distillation has been established as a highly promising approach for training compact and faster models by transferring knowledge from heavyweight and powerful models. However, KD in its conventional version constitutes an enduring, computationally and memory demanding process. In this paper, Online Self-Acquired Knowledge Distillation (OSAKD) is proposed, aiming to improve the performance of any deep neural model in an online manner. We utilize k-nn non-parametric density estimation technique for estimating the unknown probability distributions of the data samples in the output feature space. This allows us for directly estimating the posterior class probabilities of the data samples, and we use them as soft labels that encode explicit information about the similarities of the data with the classes, negligibly affecting the computational cost. The experimental evaluation on four datasets validates the effectiveness of proposed method.
翻訳日:2021-08-27 19:05:23 公開日:2021-08-26
# (参考訳) 説明可能なバイオメディカルテキスト分類のためのラベル注意型微調整事前学習言語モデル [全文訳有]

Fine-tuning Pretrained Language Models with Label Attention for Explainable Biomedical Text Classification ( http://arxiv.org/abs/2108.11809v1 )

ライセンス: CC BY-SA 4.0
Bruce Nguyen and Shaoxiong Ji(参考訳) デジタルバイオメディカルデータの大規模成長により、バイオメディカルテキストのインデクシングと分類がますます重要になっている。 それゆえ、これまでの研究ではルールベースのシステムからディープニューラルネットワークまで、主にフィードフォワード、畳み込み、リカレントニューラルアーキテクチャに焦点をあてた多くの技術が考案されている。 最近では、多くの自然言語処理タスクにおいて、微調整トランスフォーマーベース事前訓練モデル(PTM)が優れた性能を示している。 しかし、バイオメディカル領域におけるPTMの直接使用は、ラベル記述の豊富な意味情報を無視して、対象文書のみに限られる。 本稿では,PTMの微調整プロセスに意味ラベル記述を注入する改良されたラベルアテンションに基づくアーキテクチャを提案する。 2つの公開医療データセットの結果、提案手法は従来の微調整PTMと先行技術モデルよりも優れていた。 さらに, ラベル注意機構による微調整は, 解釈可能性研究において解釈可能であることを示す。

The massive growth of digital biomedical data is making biomedical text indexing and classification increasingly important. Accordingly, previous research has devised numerous techniques ranging from rule-based systems to deep neural networks, with most focusing on feedforward, convolutional or recurrent neural architectures. More recently, fine-tuned transformers-based pretrained models (PTMs) have demonstrated superior performance in many natural language processing tasks. However, the direct use of PTMs in the biomedical domain is only limited to the target documents, ignoring the rich semantic information in the label descriptions. In this paper, we develop an improved label attention-based architecture to inject semantic label description into the fine-tuning process of PTMs. Results on two public medical datasets show that the proposed fine-tuning scheme outperforms the conventionally fine-tuned PTMs and prior state-of-the-art models. Furthermore, we show that fine-tuning with the label attention mechanism is interpretable in the interpretability study.
翻訳日:2021-08-27 18:55:15 公開日:2021-08-26
# (参考訳) エージェントはいつ探索すべきか? [全文訳有]

When should agents explore? ( http://arxiv.org/abs/2108.11811v1 )

ライセンス: CC BY 4.0
Miruna P\^islar, David Szepesvari, Georg Ostrovski, Diana Borsa, Tom Schaul(参考訳) 調査は強化学習(rl)の中心的な課題である。 事実上、既存のすべてのメソッドは、徐々にしか変化しないモノリシックな振る舞いポリシーの特徴を共有します。 対照的に、動物や人間の探索行動は、モードを切り替える形態を含む、豊富な多様性を示す。 本稿では,rlのモードスイッチング,非モノリシック探索の初期研究について述べる。 我々は、切り替える異なるモード、切り換えが合理的な時間スケール、良い切り換えトリガーとなる信号について検討する。 また,スイッチング機構を適応的かつ堅牢にし,過パラメータ調整に伴う負担を伴わずに柔軟性を実現するアルゴリズムコンポーネントを提案する。 最後に,2モード探索と切り換えによるアタリの時間スケールの有望かつ詳細な解析を報告する。

Exploration remains a central challenge for reinforcement learning (RL). Virtually all existing methods share the feature of a monolithic behaviour policy that changes only gradually (at best). In contrast, the exploratory behaviours of animals and humans exhibit a rich diversity, namely including forms of switching between modes. This paper presents an initial study of mode-switching, non-monolithic exploration for RL. We investigate different modes to switch between, at what timescales it makes sense to switch, and what signals make for good switching triggers. We also propose practical algorithmic components that make the switching mechanism adaptive and robust, which enables flexibility without an accompanying hyper-parameter-tuni ng burden. Finally, we report a promising and detailed analysis on Atari, using two-mode exploration and switching at sub-episodic time-scales.
翻訳日:2021-08-27 18:46:51 公開日:2021-08-26
# (参考訳) セマンティックセグメンテーションのための画像を超えた文脈情報のマイニング [全文訳有]

Mining Contextual Information Beyond Image for Semantic Segmentation ( http://arxiv.org/abs/2108.11819v1 )

ライセンス: CC BY 4.0
Zhenchao Jin, Tao Gong, Dongdong Yu, Qi Chu, Jian Wang, Changhu Wang, Jie Shao(参考訳) 本稿では,セマンティックイメージセグメンテーションにおける文脈集約問題について検討する。 既存の研究は、個々の画像内の文脈情報を集約することで、画素表現を改善することに焦点を当てている。 印象的ではあるが、これらの手法は入力画像を超えた対応するクラスのピクセルの表現の重要性を無視している。 そこで本稿では,画素表現をさらに強化するために,個々の画像を超えた文脈情報をマイニングすることを提案する。 まず、トレーニング中に動的に更新される機能メモリモジュールを設定して、さまざまなカテゴリのデータセットレベルの表現を格納した。 そして,各画素表現のクラス確率分布を,接地木分割の監督下で学習する。 最後に、対応するクラス確率分布に基づいてデータセットレベルの表現を集約することにより、各ピクセルの表現を増強する。 さらに,記憶されたデータセットレベルの表現を利用することで,クラス内コンパクト性とクラス間分散をよりよく扱うための表現一貫性のある学習戦略を提案する。 提案手法は既存のセグメンテーションフレームワーク(例えば、fcn, pspnet, ocrnet, deeplabv3)に無益に組み込むことができ、一貫したパフォーマンス改善をもたらす。 画像を超えてコンテキスト情報をマイニングすることで、ADE20K、LIP、Cityscapes、COCO-Stuffといった様々なベンチマークで最先端のパフォーマンスを報告できます。

This paper studies the context aggregation problem in semantic image segmentation. The existing researches focus on improving the pixel representations by aggregating the contextual information within individual images. Though impressive, these methods neglect the significance of the representations of the pixels of the corresponding class beyond the input image. To address this, this paper proposes to mine the contextual information beyond individual images to further augment the pixel representations. We first set up a feature memory module, which is updated dynamically during training, to store the dataset-level representations of various categories. Then, we learn class probability distribution of each pixel representation under the supervision of the ground-truth segmentation. At last, the representation of each pixel is augmented by aggregating the dataset-level representations based on the corresponding class probability distribution. Furthermore, by utilizing the stored dataset-level representations, we also propose a representation consistent learning strategy to make the classification head better address intra-class compactness and inter-class dispersion. The proposed method could be effortlessly incorporated into existing segmentation frameworks (e.g., FCN, PSPNet, OCRNet and DeepLabV3) and brings consistent performance improvements. Mining contextual information beyond image allows us to report state-of-the-art performance on various benchmarks: ADE20K, LIP, Cityscapes and COCO-Stuff.
翻訳日:2021-08-27 18:21:53 公開日:2021-08-26
# (参考訳) State of the Art: Face Recognition [全文訳有]

State of the Art: Face Recognition ( http://arxiv.org/abs/2108.11821v1 )

ライセンス: CC0 1.0
Rubel Biswas and Pablo Blanco-Medina(参考訳) 法医学的応用におけるCSEM(Child Sexual Exploitation Materials)の活用は、顔認識の進歩の恩恵を受ける可能性がある。 しかし、csemにおける顔の差別的な部分、すなわち目は、しばしば被害者の識別を困難にしてしまう可能性がある。 顔認識のアプローチのほとんどはそのような閉塞に対処できないため、不正確な顔認識結果が得られる。 本論文は,自然・眼球障害顔画像に対する短時間の顔認識手法を提案する。 本研究の目的は,隠蔽顔の自動顔認識のための最良ベースラインアプローチを選択することである。

Working with Child Sexual Exploitation Material (CSEM) in forensic applications might be benefited from the progress in automatic face recognition. However, discriminative parts of a face in CSEM, i.e., mostly the eyes, could be often occluded to difficult the victim's identification. Most of the face recognition approaches cannot deal with such kind of occlusions, resulting in inaccurate face recognition results. This document presents a short review face recognition methods for images with natural and eye occlude faces. The purpose is to select the best baseline approach for solving automatic face recognition of occluded faces.
翻訳日:2021-08-27 18:05:15 公開日:2021-08-26
# (参考訳) 歩行者とロボット屋内位置決めのための磁界センシング [全文訳有]

Magnetic Field Sensing for Pedestrian and Robot Indoor Positioning ( http://arxiv.org/abs/2108.11824v1 )

ライセンス: CC0 1.0
Leonid Antsfeld and Boris Chidlovskii(参考訳) 本稿では、(i)携帯端末で収集されたデータと(ii)自家電磁界で磁気データを摂動するローカライゼーションロボットの2つの設定において、磁場データを用いた屋内位置決めの問題に対処する。 まず, 異なる強磁性体によって生成される室内環境における磁気異常の利点を生かした, 新規な拡張パイプラインを提案する。 我々は、屋内磁気異常による地球の磁場の変化を捉え、それらを多変量時系列で変換する。 その後、時間パターンを視覚パターンに変換する。 我々は、磁場時系列を画像シーケンスとして表現するために、Recurrence Plots、Gramian Angular Fields、Markov Transition Fieldsの手法を用いる。 畳み込み層と再帰層を組み合わせたディープニューラルネットワークにおいて,ユーザ位置の連続的な値を回帰する。 第2の設定では,ロボットの電磁界による磁場データの摂動解析を行う。 異なるロボットが取得した列車とテストセットのミスマッチを補償するために、メインパイプラインにアライメントステップを追加します。 我々は2つのパブリック(MagPieとIPIN'20)と1つのプロプライエタリ(Hyundaiデパート)データセットでメソッドをテストする。 評価の結果を報告し,提案手法がアートメソッドの状態を大きなマージンで上回っていることを示す。

In this paper we address the problem of indoor localization using magnetic field data in two setups, when data is collected by (i) human-held mobile phone and (ii) by localization robots that perturb magnetic data with their own electromagnetic field. For the first setup, we revise the state of the art approaches and propose a novel extended pipeline to benefit from the presence of magnetic anomalies in indoor environment created by different ferromagnetic objects. We capture changes of the Earth's magnetic field due to indoor magnetic anomalies and transform them in multi-variate times series. We then convert temporal patterns into visual ones. We use methods of Recurrence Plots, Gramian Angular Fields and Markov Transition Fields to represent magnetic field time series as image sequences. We regress the continuous values of user position in a deep neural network that combines convolutional and recurrent layers. For the second setup, we analyze how magnetic field data get perturbed by robots' electromagnetic field. We add an alignment step to the main pipeline, in order to compensate the mismatch between train and test sets obtained by different robots. We test our methods on two public (MagPie and IPIN'20) and one proprietary (Hyundai department store) datasets. We report evaluation results and show that our methods outperform the state of the art methods by a large margin.
翻訳日:2021-08-27 17:57:56 公開日:2021-08-26
# (参考訳) インダクティブ・トランスファー・ラーニングによる幾何学に基づく加工特徴検索 [全文訳有]

Geometry Based Machining Feature Retrieval with Inductive Transfer Learning ( http://arxiv.org/abs/2108.11838v1 )

ライセンス: CC BY 4.0
N S Kamal, Barathi Ganesh HB, Sajith Variyar VV, Sowmya V, Soman KP(参考訳) 製造業は、機械部品の再利用をコスト削減や持続可能な製造慣行として広く採用してきた。 部品の設計から再利用可能な特徴を特定し、データベースから類似した特徴を見つけることが、このプロセスの重要な部分である。 本研究は,完全畳み込み幾何学的特徴の助けを借りて,インダクティブトランスファー学習を用いたCADモデルから高レベルの意味的特徴を抽出し,学習することができる。 抽出した特徴をフロベニウスノルムを用いてデータベースの他のCADモデルと比較し、同一の特徴を検索する。 その後,空間的ピラミッドプール層を有する深層畳み込みニューラルネットワークに抽出した特徴を伝達し,特徴検索の性能を著しく向上させた。 その結果, モデルが加工特徴から幾何学的要素を効果的に捕捉できることが判明した。

Manufacturing industries have widely adopted the reuse of machine parts as a method to reduce costs and as a sustainable manufacturing practice. Identification of reusable features from the design of the parts and finding their similar features from the database is an important part of this process. In this project, with the help of fully convolutional geometric features, we are able to extract and learn the high level semantic features from CAD models with inductive transfer learning. The extracted features are then compared with that of other CAD models from the database using Frobenius norm and identical features are retrieved. Later we passed the extracted features to a deep convolutional neural network with a spatial pyramid pooling layer and the performance of the feature retrieval increased significantly. It was evident from the results that the model could effectively capture the geometrical elements from machining features.
翻訳日:2021-08-27 17:45:24 公開日:2021-08-26
# (参考訳) ai at work -- 技術的標準による安全性と差別リスクの軽減 [全文訳有]

AI at work -- Mitigating safety and discriminatory risk with technical standards ( http://arxiv.org/abs/2108.11844v1 )

ライセンス: CC BY-SA 4.0
Nikolas Becker, Pauline Junginger, Lukas Martinez, Daniel Krupka, Leonie Beining(参考訳) 職場における人工知能(AI)とAIの手法の使用は、仕事の安全と差別のリスクだけでなく、大きな機会を秘めている。 法的規制に加えて、AIシステムの開発とテストの技術的要件を定義することによって、そのようなリスクを軽減する上で、技術標準が重要な役割を果たす。 本稿では,既存の国際標準,ヨーロッパ標準,ドイツ標準および現在開発中の標準の概要と評価について述べる。 この論文は、研究プロジェクト「ExamAI - Testing and Auditing of AI systems」の一部であり、産業生産環境や人的資源管理(HR)分野におけるAIの利用に焦点を当てている。

The use of artificial intelligence (AI) and AI methods in the workplace holds both great opportunities as well as risks to occupational safety and discrimination. In addition to legal regulation, technical standards will play a key role in mitigating such risk by defining technical requirements for development and testing of AI systems. This paper provides an overview and assessment of existing international, European and German standards as well as those currently under development. The paper is part of the research project "ExamAI - Testing and Auditing of AI systems" and focusses on the use of AI in an industrial production environment as well as in the realm of human resource management (HR).
翻訳日:2021-08-27 17:38:50 公開日:2021-08-26
# (参考訳) 名前付きエンティティ型付けと認識のための自己回帰型言語モデルの一検討 [全文訳有]

A Realistic Study of Auto-regressive Language Models for Named Entity Typing and Recognition ( http://arxiv.org/abs/2108.11857v1 )

ライセンス: CC BY 4.0
Elena V. Epure, Romain Hennequin(参考訳) 名前付きエンティティ認識(NER)のための言語モデルの印象的な結果にもかかわらず、様々なテキストジャンルへの一般化、エンティティタイプセットの増加、新しいエンティティは依然として課題である。 新しいケースでトレーニングや微調整のために数千のアノテーションを収集するのは、高価で時間を要する。 対照的に、人間は簡単な指示で名前のついた実体を容易に識別できる。 これに触発されて、我々は大規模なデータセットへの依存に挑戦し、メタ学習設定でNERのための事前学習言語モデルの研究を行う。 まず、ゼロショット転送シナリオで名前付きエンティティタイプ(net)をテストする。 そして、推論の例をほとんど示さずにNERを実行する。 本稿では,事前学習したモデルにのみアクセス可能で,これらのグループについて報告する際,見知らぬ名前と稀な名前を選択する手法を提案する。 メタ学習者としての自動回帰言語モデルは、特に通常の名前や見慣れた名前に対して、かなりよくNETとNERを実行できる;名前の不規則性は、特定のエンティティタイプにしばしば現れる場合、効果的に悪用できるキューになりうる;モデル以外の単語が結果に最も悪影響を及ぼす;モデルは、数ショットのNERにおけるコンテキストキューよりも、名前に頼っているようだ。

Despite impressive results of language models for named entity recognition (NER), their generalization to varied textual genres, a growing entity type set, and new entities remains a challenge. Collecting thousands of annotations in each new case for training or fine-tuning is expensive and time-consuming. In contrast, humans can easily identify named entities given some simple instructions. Inspired by this, we challenge the reliance on large datasets and study pre-trained language models for NER in a meta-learning setup. First, we test named entity typing (NET) in a zero-shot transfer scenario. Then, we perform NER by giving few examples at inference. We propose a method to select seen and rare / unseen names when having access only to the pre-trained model and report results on these groups. The results show: auto-regressive language models as meta-learners can perform NET and NER fairly well especially for regular or seen names; name irregularity when often present for a certain entity type can become an effective exploitable cue; names with words foreign to the model have the most negative impact on results; the model seems to rely more on name than context cues in few-shot NER.
翻訳日:2021-08-27 17:27:06 公開日:2021-08-26
# (参考訳) エスペクタのクラスの比較:線形モデルにおける勾配降下がリッジ回帰を上回ったのはいつか?

Comparing Classes of Estimators: When does Gradient Descent Beat Ridge Regression in Linear Models? ( http://arxiv.org/abs/2108.11872v1 )

ライセンス: CC0 1.0
Dominic Richards, Edgar Dobriban, Patrick Rebeschini(参考訳) データから学習する現代の方法は、最適化方法のステップライズや正規化学習方法の正規化強度など、多くのチューニングパラメータに依存する。 性能はこれらのパラメータに強く依存するため、特に調整されたパラメータだけでなく、メソッドのemph{classes of Method}の比較を開発することが重要である。 ここでは,クラス内の \emph{best メソッドの相対的性能を用いて推定器のクラスを比較する。 これにより、学習アルゴリズムのチューニング感度を厳密に定量化できます。 本研究では,ランダム等方的地盤真理パラメータを持つ標準線形モデルにおいて,正則化パラメータの均一格子によるリッジ回帰と定段化による勾配降下の統計的推定性能について検討した。 1)直交設計については,emph{exact minimax optimal class of estimators} が多項式減衰学習率の勾配降下に等しいことを示す。 リッジ回帰と勾配降下の正確な準最適性は一定ステップで示され、特定の範囲で1/k$または1/k^2$で崩壊することを示している。 2) 非零固有値が多数ある一般設計では, 勾配降下は, 固有値が緩やかに減衰するときにリッジ回帰よりも, 指数が一乗よりも小さい力則として優れる。 代わりに固有値が急速に減衰した場合、指数法則がユニティよりも大きいか指数関数的に大きい場合、リッジ回帰は勾配勾配よりも優れる。 この結果は、チューニングパラメータの重要性を強調します。 特に、最適に調整されたリッジ回帰は、我々の場合において最良の推定量であるが、有限正規化格子上のチューニングに制限された場合、勾配降下により性能が向上する。

Modern methods for learning from data depend on many tuning parameters, such as the stepsize for optimization methods, and the regularization strength for regularized learning methods. Since performance can depend strongly on these parameters, it is important to develop comparisons between \emph{classes of methods}, not just for particularly tuned ones. Here, we take aim to compare classes of estimators via the relative performance of the \emph{best method in the class}. This allows us to rigorously quantify the tuning sensitivity of learning algorithms. As an illustration, we investigate the statistical estimation performance of ridge regression with a uniform grid of regularization parameters, and of gradient descent iterates with a fixed stepsize, in the standard linear model with a random isotropic ground truth parameter. (1) For orthogonal designs, we find the \emph{exact minimax optimal classes of estimators}, showing they are equal to gradient descent with a polynomially decaying learning rate. We find the exact suboptimalities of ridge regression and gradient descent with a fixed stepsize, showing that they decay as either $1/k$ or $1/k^2$ for specific ranges of $k$ estimators. (2) For general designs with a large number of non-zero eigenvalues, we find that gradient descent outperforms ridge regression when the eigenvalues decay slowly, as a power law with exponent less than unity. If instead the eigenvalues decay quickly, as a power law with exponent greater than unity or exponentially, we find that ridge regression outperforms gradient descent. Our results highlight the importance of tuning parameters. In particular, while optimally tuned ridge regression is the best estimator in our case, it can be outperformed by gradient descent when both are restricted to being tuned over a finite regularization grid.
翻訳日:2021-08-27 17:09:23 公開日:2021-08-26
# (参考訳) 複数の時空間スケールで予測する時空間LSTMモデル [全文訳有]

A spatio-temporal LSTM model to forecast across multiple temporal and spatial scales ( http://arxiv.org/abs/2108.11875v1 )

ライセンス: CC BY 4.0
Yihao Hu, Fearghal O'Donncha, Paulito Palmes, Meredith Burke, Ramon Filgueira, Jon Grant(参考訳) 本稿では,環境データセットに適用した時系列予測のための新しい時空間LSTMアーキテクチャを提案する。 このフレームワークは、複数のセンサーと、現在の速度、温度、溶存酸素の3つの異なる海洋変数で評価された。 ネットワークの実装は、名目上は隔てられたものの、自然環境システムの一部として接続された2つの方向に進み、センサーデータの空間的(個々のセンサー間)と時間的要素をまたいだ。 4つのセンサーが現在の速度をサンプリングし、8つの温度と溶解酸素を測定してフレームワークを評価した。 スライディングウインドウマトリクスを用いて日時特徴とデータの過去の履歴を抽出し,各センサの時間信号に基づいて独立に学習したrfおよびxgbベースラインモデルと比較した。 結果は、複雑な信号を正確に再現し、最先端のベンチマークに匹敵する性能を提供する能力を示した。 特に、新しいフレームワークは、単純なマスキング層を介して欠落した値を処理する、より単純な前処理とトレーニングパイプラインを提供した。 本論文は, 環境科学へのML適用の基本的な課題として, 1) 海洋力学などの環境条件の測定を行う際のデータ空間とコスト, 2) 環境データセットが空間的・時間的方向と本質的に結びついているのに対して, 古典的MLアプローチはこれらの方向の1つしか考慮していない,という2つの課題に対処する。 さらに、全ての入力ステップ間でパラメータを共有することで、SPATIALは高速でスケーラブルで容易にパラメータ化できる予測フレームワークとなる。

This paper presents a novel spatio-temporal LSTM (SPATIAL) architecture for time series forecasting applied to environmental datasets. The framework was evaluated across multiple sensors and for three different oceanic variables: current speed, temperature, and dissolved oxygen. Network implementation proceeded in two directions that are nominally separated but connected as part of a natural environmental system -- across the spatial (between individual sensors) and temporal components of the sensor data. Data from four sensors sampling current speed, and eight measuring both temperature and dissolved oxygen evaluated the framework. Results were compared against RF and XGB baseline models that learned on the temporal signal of each sensor independently by extracting the date-time features together with the past history of data using sliding window matrix. Results demonstrated ability to accurately replicate complex signals and provide comparable performance to state-of-the-art benchmarks. Notably, the novel framework provided a simpler pre-processing and training pipeline that handles missing values via a simple masking layer. Enabling learning across the spatial and temporal directions, this paper addresses two fundamental challenges of ML applications to environmental science: 1) data sparsity and the challenges and costs of collecting measurements of environmental conditions such as ocean dynamics, and 2) environmental datasets are inherently connected in the spatial and temporal directions while classical ML approaches only consider one of these directions. Furthermore, sharing of parameters across all input steps makes SPATIAL a fast, scalable, and easily-parameterized forecasting framework.
翻訳日:2021-08-27 17:07:41 公開日:2021-08-26
# (参考訳) フェデレーションラーニングのためのSQLベースのトレーニングデータデバッグの実現 [全文訳有]

Enabling SQL-based Training Data Debugging for Federated Learning ( http://arxiv.org/abs/2108.11884v1 )

ライセンス: CC BY 4.0
Yejia Liu, Weiyuan Wu, Lampros Flokas, Jiannan Wang, Eugene Wu(参考訳) 予期せぬ振る舞いを見るとき、フェデレートされた学習環境でロジスティック回帰モデルをデバッグするにはどうすればよいか(例えば、モデルは高収入顧客のローンアプリケーションを全て拒否する)。 sqlベースのトレーニングデータデバッグフレームワークは、非フェデレーション学習環境でこのような問題を修正するのに効果的であることが証明された。 モデル予測よりも予期せぬクエリ結果が与えられると、このフレームワークはトレーニングデータからラベルエラーを自動的に取り除き、トレーニングされたモデルで予期せぬ振る舞いが消える。 本稿では,この連帯学習の強力な枠組みを実現する。 重要な課題は、セキュアで効率的で正確なフェデレーションのためのセキュリティプロトコルを開発する方法である。 この目標を達成するためには、複数の分野(データベース、機械学習、サイバーセキュリティ)の技術をシームレスに統合する方法を検討する必要があります。 まず,最先端sqlベースのトレーニングデータデバッグフレームワークであるrainを,フェデレーション学習環境に拡張したfedrainを提案する。 我々は、FedRainを機能させ、セキュリティ保証と時間の複雑さを分析するためのいくつかの技術的課題に対処する。 分析の結果,fedrainは効率とセキュリティの両面で不足していることがわかった。 これらの制限を克服するため、我々はセキュリティプロトコルを再設計し、フェデレートされた学習に適した新しいSQLベースのトレーニングデータデバッグフレームワークであるFrogを提案する。 理論分析の結果、カエルはフェドラインよりも安全で正確で効率的であることが判明した。 いくつかの実世界のデータセットとケーススタディを用いて広範な実験を行う。 実験結果は理論解析と一致し,実際にカエルの有効性を検証する。

How can we debug a logistical regression model in a federated learning setting when seeing the model behave unexpectedly (e.g., the model rejects all high-income customers' loan applications)? The SQL-based training data debugging framework has proved effective to fix this kind of issue in a non-federated learning setting. Given an unexpected query result over model predictions, this framework automatically removes the label errors from training data such that the unexpected behavior disappears in the retrained model. In this paper, we enable this powerful framework for federated learning. The key challenge is how to develop a security protocol for federated debugging which is proved to be secure, efficient, and accurate. Achieving this goal requires us to investigate how to seamlessly integrate the techniques from multiple fields (Databases, Machine Learning, and Cybersecurity). We first propose FedRain, which extends Rain, the state-of-the-art SQL-based training data debugging framework, to our federated learning setting. We address several technical challenges to make FedRain work and analyze its security guarantee and time complexity. The analysis results show that FedRain falls short in terms of both efficiency and security. To overcome these limitations, we redesign our security protocol and propose Frog, a novel SQL-based training data debugging framework tailored for federated learning. Our theoretical analysis shows that Frog is more secure, more accurate, and more efficient than FedRain. We conduct extensive experiments using several real-world datasets and a case study. The experimental results are consistent with our theoretical analysis and validate the effectiveness of Frog in practice.
翻訳日:2021-08-27 16:53:30 公開日:2021-08-26
# (参考訳) 混合開始制御を考慮した人間のオペレータ認知能力 [全文訳有]

Human operator cognitive availability aware Mixed-Initiative control ( http://arxiv.org/abs/2108.11885v1 )

ライセンス: CC BY 4.0
Giannis Petousakis, Manolis Chiou, Grigoris Nikolaou, Rustam Stolkin(参考訳) 本稿では,遠隔操作型移動ロボットのための認知アベイラビリティAware Mixed-Initiative Controllerを提案する。 コントローラは、AIまたは人間のオペレータによって起動される異なるレベルの自律性(LOA)間の動的切り替えを可能にする。 コントローラは、最先端のコンピュータビジョン方法と市販のウェブカメラを活用して、オペレータの認知的可用性を推測し、AI開始のLOAスイッチングを通知する。 これは、以前のMixed-Initiative (MI)コントローラに対する定性的進歩を構成する。 このコントローラは、遠隔ロボットで人間のオペレーターが探索タスクを行なわなければならない災害対応実験で評価される。 MIシステムは演算子を効果的に支援し、性能と作業負荷の量的および質的な結果によって示される。 さらに,複雑なmiコントローラを評価する実験的な難しさについて考察する。

This paper presents a Cognitive Availability Aware Mixed-Initiative Controller for remotely operated mobile robots. The controller enables dynamic switching between different levels of autonomy (LOA), initiated by either the AI or the human operator. The controller leverages a state-of-the-art computer vision method and an off-the-shelf web camera to infer the cognitive availability of the operator and inform the AI-initiated LOA switching. This constitutes a qualitative advancement over previous Mixed-Initiative (MI) controllers. The controller is evaluated in a disaster response experiment, in which human operators have to conduct an exploration task with a remote robot. MI systems are shown to effectively assist the operators, as demonstrated by quantitative and qualitative results in performance and workload. Additionally, some insights into the experimental difficulties of evaluating complex MI controllers are presented.
翻訳日:2021-08-27 16:07:44 公開日:2021-08-26
# (参考訳) フェデレーション強化学習:技術、応用、オープンチャレンジ

Federated Reinforcement Learning: Techniques, Applications, and Open Challenges ( http://arxiv.org/abs/2108.11887v1 )

ライセンス: CC BY 4.0
Jiaju Qi, Qihao Zhou, Lei Lei, Kan Zheng(参考訳) 本稿では,強化学習(RL)の創発的かつ有望な分野であるフェデレーション強化学習(FRL)の包括的調査について述べる。 フェデレートラーニング(FL)とRLのチュートリアルから始め,データプライバシーを維持しながら,FLの基本的概念を活用してRLの性能を向上させる新たな手法としてFRLを導入することに焦点をあてる。 フレームワーク内のエージェントの分布特性により、FRLアルゴリズムは2つのカテゴリ、すなわち2つのカテゴリに分けられる。 水平連邦強化学習(HFRL)と垂直連邦強化学習(VFRL)。 式による各カテゴリの詳細な定義を提供し、技術的観点からFRLの進化を調査し、従来のRLアルゴリズムよりもその優位性を強調する。 さらに、FRLに関する既存の研究は、エッジコンピューティング、通信、制御最適化、攻撃検出などのアプリケーションによって要約されている。 最後に、FRL内のオープンな問題の解決に不可欠であるいくつかの重要な研究の方向性を説明し、議論する。

This paper presents a comprehensive survey of Federated Reinforcement Learning (FRL), an emerging and promising field in Reinforcement Learning (RL). Starting with a tutorial of Federated Learning (FL) and RL, we then focus on the introduction of FRL as a new method with great potential by leveraging the basic idea of FL to improve the performance of RL while preserving data-privacy. According to the distribution characteristics of the agents in the framework, FRL algorithms can be divided into two categories, i.e. Horizontal Federated Reinforcement Learning (HFRL) and Vertical Federated Reinforcement Learning (VFRL). We provide the detailed definitions of each category by formulas, investigate the evolution of FRL from a technical perspective, and highlight its advantages over previous RL algorithms. In addition, the existing works on FRL are summarized by application fields, including edge computing, communication, control optimization, and attack detection. Finally, we describe and discuss several key research directions that are crucial to solving the open problems within FRL.
翻訳日:2021-08-27 15:56:49 公開日:2021-08-26
# (参考訳) ユーザ中心半自動インフォグラフィック作成とレコメンデーション [全文訳有]

User-Centric Semi-Automated Infographics Authoring and Recommendation ( http://arxiv.org/abs/2108.11914v1 )

ライセンス: CC BY 4.0
Anjul Tyagi, Jian Zhao, Pushkar Patel, Swasti Khurana, Klaus Mueller(参考訳) インフォグラフィックの設計は、プロのデザイナーでさえ、非専門家や時間消費にとって退屈なプロセスである。 そこで本研究では,自動および半自動インフォグラフィック設計のための柔軟な枠組みを提案する。 このフレームワークはインフォグラフィックで主要なデザインコンポーネントをキャプチャし、生成ワークフローを3つのステップに合理化し、各アスペクトを独立して制御し、最適化することができる。 また,このフレームワークをベースとして,インフォグラフィックの異なるデザインコンポーネントの推薦を提供することで,入力から高品質なインフォグラフィックを作成できる対話型ツールである \name{} を提案する。 同時に、より経験豊富なデザイナーは、canvasを使ってツールにカスタムデザインとレイアウトのアイデアを提供し、自動生成プロセスの一部を制御できる。 作業の一環として、個別の視覚グループ(VG)と接続設計データセット(SVG)と、セグメント化されたVGを備えた1k完全インフォグラフィックイメージデータセットも提供しています。 このデータセットは、我々のフレームワークによって作成されたインフォグラフィックデザインの多様化に重要な役割を果たします。 我々は,類似ツールとの比較,初心者および専門家によるユーザスタディ,ケーススタディを用いて,アプローチを評価した。 その結果、我々のフレームワークと \name{} は、カスタマイズしたインフォグラフィックを作成し、様々なデザインを探索する上で優れていることを確認した。

Designing infographics can be a tedious process for non-experts and time-consuming even for professional designers. Based on the literature and a formative study, we propose a flexible framework for automated and semi-automated infographics design. This framework captures the main design components in infographics and streamlines the generation workflow into three steps, allowing users to control and optimize each aspect independently. Based on the framework, we also propose an interactive tool, \name{}, for assisting novice designers with creating high-quality infographics from an input in a markdown format by offering recommendations of different design components of infographics. Simultaneously, more experienced designers can provide custom designs and layout ideas to the tool using a canvas to control the automated generation process partially. As part of our work, we also contribute an individual visual group (VG) and connection designs dataset (in SVG), along with a 1k complete infographic image dataset with segmented VGs. This dataset plays a crucial role in diversifying the infographic designs created by our framework. We evaluate our approach with a comparison against similar tools, a user study with novice and expert designers, and a case study. Results confirm that our framework and \name{} excel in creating customized infographics and exploring a large variety of designs.
翻訳日:2021-08-27 15:55:36 公開日:2021-08-26
# (参考訳) 時間依存機械学習のためのスケッチ [全文訳有]

Sketches for Time-Dependent Machine Learning ( http://arxiv.org/abs/2108.11923v1 )

ライセンス: CC BY 4.0
Jesus Antonanzas, Marta Arias and Albert Bifet(参考訳) 時系列データは、それらを生成する基盤となるプロセスの変更の対象となり、これらの変更により、古いサンプル上に構築されたモデルが時代遅れになったり、パフォーマンスが悪くなったりします。 本研究では,現在のデータ分布とその時間的変化に関する情報を機械学習アルゴリズムに組み込む手法を提案する。 我々のソリューションは、データ特徴の統計、特に平均と分散を異なる時間分解能で効率的に維持することに基づいている。 これらのデータ要約は、入力属性で実行することができ、その場合、追加の入力機能としてモデルに入力したり、リカレントニューラルネットワークのようなモデルによって学習された潜在表現としてモデルに入力することができる。 分類タスクにおいて,提案手法は,特徴や潜在要約を伴わない等価アーキテクチャの予測能力を大幅に上回ることができる。 さらに、これらの修正は、適切に調整されたときに顕著な計算およびメモリオーバーヘッドを生じさせない。

Time series data can be subject to changes in the underlying process that generates them and, because of these changes, models built on old samples can become obsolete or perform poorly. In this work, we present a way to incorporate information about the current data distribution and its evolution across time into machine learning algorithms. Our solution is based on efficiently maintaining statistics, particularly the mean and the variance, of data features at different time resolutions. These data summarisations can be performed over the input attributes, in which case they can then be fed into the model as additional input features, or over latent representations learned by models, such as those of Recurrent Neural Networks. In classification tasks, the proposed techniques can significantly outperform the prediction capabilities of equivalent architectures with no feature / latent summarisations. Furthermore, these modifications do not introduce notable computational and memory overhead when properly adjusted.
翻訳日:2021-08-27 15:29:04 公開日:2021-08-26
# (参考訳) トレーニングフリーと理論的根拠付きメトリクスを用いたニューラルアーキテクチャ探索の理解と高速化 [全文訳有]

Understanding and Accelerating Neural Architecture Search with Training-Free and Theory-Grounded Metrics ( http://arxiv.org/abs/2108.11939v1 )

ライセンス: CC BY-SA 4.0
Wuyang Chen, Xinyu Gong, Yunchao Wei, Humphrey Shi, Zhicheng Yan, Yi Yang, Zhangyang Wang(参考訳) この研究は、ニューラルネットワーク検索(nas)のための原則的で統一されたトレーニングフリーフレームワークの設計を目標とし、高いパフォーマンス、低コスト、そして深い解釈を提供する。 NASは、高性能ニューラルネットワークの発見を自動化するために爆発的に研究されてきたが、資源消費に悩まされ、しばしば訓練や近似によって探索バイアスを引き起こす。 最近のNAS作業は、トレーニングなしでネットワークのパフォーマンスを予測できる指標を探し始めます。 しかし、ディープネットワークの限られた特性を利用するか、トレーニング不要な指標の利点はより広範な探索手法には適用されない。 厳密な相関分析により,検索されたネットワークの"teg"特性 - 訓練性,表現性,一般化 - を無訓練で評価することで,nasを理解・加速するための統一的な枠組みを提案する。 TEGインジケータは、スーパーネットとシングルパスの両方のアプローチを含む様々なNAS検索手法にスケールアップおよび統合することができる。 TEG-NASフレームワークの有効かつ効率的なガイダンスは,検索精度の向上と検索時間コストの2.3倍以上の削減をもたらす。 さらに,3つの地形の「TEG」特性の探索軌跡を可視化し,局所最小値がNAS-Bench-201でより容易に発見できる一方で,複雑な地形形状のため,DARTSの探索空間では「TEG」特性のバランスがより困難であることを示した。 私たちのコードはhttps://github.com/V ITA-Group/TEGNASで利用可能です。

This work targets designing a principled and unified training-free framework for Neural Architecture Search (NAS), with high performance, low cost, and in-depth interpretation. NAS has been explosively studied to automate the discovery of top-performer neural networks, but suffers from heavy resource consumption and often incurs search bias due to truncated training or approximations. Recent NAS works start to explore indicators that can predict a network's performance without training. However, they either leveraged limited properties of deep networks, or the benefits of their training-free indicators are not applied to more extensive search methods. By rigorous correlation analysis, we present a unified framework to understand and accelerate NAS, by disentangling "TEG" characteristics of searched networks - Trainability, Expressivity, Generalization - all assessed in a training-free manner. The TEG indicators could be scaled up and integrated with various NAS search methods, including both supernet and single-path approaches. Extensive studies validate the effective and efficient guidance from our TEG-NAS framework, leading to both improved search accuracy and over 2.3x reduction in search time cost. Moreover, we visualize search trajectories on three landscapes of "TEG" characteristics, observing that while a good local minimum is easier to find on NAS-Bench-201 given its simple topology, balancing "TEG" characteristics is much harder on the DARTS search space due to its complex landscape geometry. Our code is available at https://github.com/V ITA-Group/TEGNAS.
翻訳日:2021-08-27 15:16:36 公開日:2021-08-26
# (参考訳) Semantically Coherent Out-of-Distribution Detection

Semantically Coherent Out-of-Distribution Detection ( http://arxiv.org/abs/2108.11941v1 )

ライセンス: CC BY 4.0
Jingkang Yang, Haoqi Wang, Litong Feng, Xiaopeng Yan, Huabin Zheng, Wayne Zhang, Ziwei Liu(参考訳) 現在のアウト・オブ・ディストリビューション(OOD)検出ベンチマークは、ひとつのデータセットをイン・ディストリビューション(ID)として定義し、他のすべてのデータセットをOODとして定義することで、一般的に構築されている。 しかし、これらのベンチマークでは残念ながら、同じセマンティクスと不可分な共変量シフトを持つにもかかわらず、cifar犬とimagenet犬を完全に区別するという、望ましくない、非現実的目標がいくつか導入されている。 これらの非現実的な目標は、非常に狭い範囲のモデル能力をもたらし、実際のアプリケーションでの使用を大幅に制限します。 これらの欠点を克服するために、ベンチマークを再設計し、セマンティクス的にコヒーレントな分散検出(sc-ood)を提案する。 SC-OODベンチマークでは、既存の手法は大きなパフォーマンス劣化に悩まされており、データソース間の低レベル差に非常に敏感であり、固有のセマンティクスを無視していることが示唆されている。 効果的なSC-OOD検出手法を開発するために、外部ラベル付きデータセットを活用し、IDとOODデータの共同モデリングのための教師なし二重グループ化(UDG)を特徴とする簡潔なフレームワークを設計する。 提案するudgは,教師なしのデータを活用し,モデルの意味知識を充実させるだけでなく,id/oodサンプルを識別することで,id分類とood検出タスクを同時に行うことができる。 本手法はSC-OODベンチマークにおける最先端性能を実現する。 コードとベンチマークはプロジェクトのページで提供されています。

Current out-of-distribution (OOD) detection benchmarks are commonly built by defining one dataset as in-distribution (ID) and all others as OOD. However, these benchmarks unfortunately introduce some unwanted and impractical goals, e.g., to perfectly distinguish CIFAR dogs from ImageNet dogs, even though they have the same semantics and negligible covariate shifts. These unrealistic goals will result in an extremely narrow range of model capabilities, greatly limiting their use in real applications. To overcome these drawbacks, we re-design the benchmarks and propose the semantically coherent out-of-distribution detection (SC-OOD). On the SC-OOD benchmarks, existing methods suffer from large performance degradation, suggesting that they are extremely sensitive to low-level discrepancy between data sources while ignoring their inherent semantics. To develop an effective SC-OOD detection approach, we leverage an external unlabeled set and design a concise framework featured by unsupervised dual grouping (UDG) for the joint modeling of ID and OOD data. The proposed UDG can not only enrich the semantic knowledge of the model by exploiting unlabeled data in an unsupervised manner, but also distinguish ID/OOD samples to enhance ID classification and OOD detection tasks simultaneously. Extensive experiments demonstrate that our approach achieves state-of-the-art performance on SC-OOD benchmarks. Code and benchmarks are provided on our project page: https://jingkang50.g ithub.io/projects/sc ood.
翻訳日:2021-08-27 14:48:28 公開日:2021-08-26
# (参考訳) 単語と文字の階層的リカレントニューラルネットワークを用いた位置不変Truecasing [全文訳有]

Position-Invariant Truecasing with a Word-and-Character Hierarchical Recurrent Neural Network ( http://arxiv.org/abs/2108.11943v1 )

ライセンス: CC BY 4.0
Hao Zhang and You-Chi Cheng and Shankar Kumar and Mingqing Chen and Rajiv Mathews(参考訳) truecasingは、音声認識や機械翻訳の自動システムまたは人間が生成したノイズの多いテキストの正しいケース(uppercaseまたはlowercase)を復元するタスクである。 名前付きエンティティ認識や言語モデリングなどの下流NLPタスクのパフォーマンスを向上させる。 本稿では,高速で高精度でコンパクトな2階層型単語と文字をベースとしたリカレントニューラルネットワークモデルを提案する。 また, シーケンス蒸留を用いて, 文中のトークンの位置を無視しながら, 真偽化の問題にも対処する。 位置不変の方法で。

Truecasing is the task of restoring the correct case (uppercase or lowercase) of noisy text generated either by an automatic system for speech recognition or machine translation or by humans. It improves the performance of downstream NLP tasks such as named entity recognition and language modeling. We propose a fast, accurate and compact two-level hierarchical word-and-character-b ased recurrent neural network model, the first of its kind for this problem. Using sequence distillation, we also address the problem of truecasing while ignoring token positions in the sentence, i.e. in a position-invariant manner.
翻訳日:2021-08-27 14:42:35 公開日:2021-08-26
# Stacked Ensemble Learning を用いたEGG, ECG, Respiration Rate, SpO2に基づく休息位置の同定

Identification of the Resting Position Based on EGG, ECG, Respiration Rate and SpO2 Using Stacked Ensemble Learning ( http://arxiv.org/abs/2108.11604v1 )

ライセンス: Link先を確認
Md. Mohsin Sarker Raihan, Muhammad Muinul Islam, Fariha Fairoz, and Abdullah Bin Shams(参考訳) restは高いレベルの生理学的、心理的パフォーマンスに不可欠です。 また、筋肉の修復、再構築、強化も必要である。 休息の質と休息姿勢には有意な相関がある。 したがって、安静位置の特定は健康な生活を維持する上で最も重要なものである。 休息姿勢は4つの基本的なカテゴリーに分類できる: 後肢(夕食)、左/右側面の向き、自由落下位置である。 後者の位置は研究者によって既に不健全な姿勢であると考えられており、そのため排除することができる。 本稿では, 心電図 (EGG) , 心電図 (ECG) , 呼吸速度, 心拍数, 酸素飽和度 (SpO2) などの生理指標から得られたデータをもとに, 静止位置の他の3つの状態を分析した。 これらのパラメータに基づいて、この静止位置は、決定木、ランダムフォレスト、Xgboostアルゴリズムを用いて設計されたハイブリッドスタックアンサンブル機械学習モデルを用いて分類される。 本研究は,ハイブリッドモデルを用いて静止位置を100%精度良く予測できることを示す。 生理的パラメータに基づいて安静位置を同定する方法は,ウェアラブルデバイスに組み込む可能性を秘めている。 これは、従来のポリソノグラフィー(睡眠モニタリング)や安静位置研究に使用されるRGBカメラを排除し、ユーザーのプライバシーを維持しつつ、身体の姿勢を監視するための低コストで高精度で自律的な技術である。

Rest is essential for a high-level physiological and psychological performance. It is also necessary for the muscles to repair, rebuild, and strengthen. There is a significant correlation between the quality of rest and the resting posture. Therefore, identification of the resting position is of paramount importance to maintain a healthy life. Resting postures can be classified into four basic categories: Lying on the back (supine), facing of the left / right sides and free-fall position. The later position is already considered to be an unhealthy posture by researchers equivocally and hence can be eliminated. In this paper, we analyzed the other three states of resting position based on the data collected from the physiological parameters: Electrogastrogram (EGG), Electrocardiogram (ECG), Respiration Rate, Heart Rate, and Oxygen Saturation (SpO2). Based on these parameters, the resting position is classified using a hybrid stacked ensemble machine learning model designed using the Decision tree, Random Forest, and Xgboost algorithms. Our study demonstrates a 100% accurate prediction of the resting position using the hybrid model. The proposed method of identifying the resting position based on physiological parameters has the potential to be integrated into wearable devices. This is a low cost, highly accurate and autonomous technique to monitor the body posture while maintaining the user privacy by eliminating the use of RGB camera conventionally used to conduct the polysomnography (sleep Monitoring) or resting position studies.
翻訳日:2021-08-27 14:18:20 公開日:2021-08-26
# 深層学習に基づく辞書学習と断層画像再構成

Deep learning based dictionary learning and tomographic image reconstruction ( http://arxiv.org/abs/2108.11730v1 )

ライセンス: Link先を確認
Jevgenija Rudzusika, Thomas Koehler, Ozan \"Oktem(参考訳) 本研究は,スパース信号処理の原理とディープラーニングのアイデアを組み合わせた,臨床低用量トモグラフィにおける画像再構成のためのアプローチを提案する。 まず, 統計学的観点からは, スパース信号表現を辞書の観点で表現し, 生成モデルから生じる分布と実信号の経験的分布を整合させる過程として辞書学習を解釈する。 その結果、学習辞書を用いたスパース符号化は、デコーダが線形関数であり、エンコーダがスパース符号化アルゴリズムである特定の変分オートエンコーダに似ていることが分かる。 次に,並列処理や確率最適化など,深層学習の文脈で導入された計算処理の進歩にも,辞書学習のメリットがあることを示す。 最後に, ディクショナリによる正規化は, 最新技術モデルとデータ駆動手法と比較してCT再構成における競合性能を実現することを示す。

This work presents an approach for image reconstruction in clinical low-dose tomography that combines principles from sparse signal processing with ideas from deep learning. First, we describe sparse signal representation in terms of dictionaries from a statistical perspective and interpret dictionary learning as a process of aligning distribution that arises from a generative model with empirical distribution of true signals. As a result we can see that sparse coding with learned dictionaries resembles a specific variational autoencoder, where the decoder is a linear function and the encoder is a sparse coding algorithm. Next, we show that dictionary learning can also benefit from computational advancements introduced in the context of deep learning, such as parallelism and as stochastic optimization. Finally, we show that regularization by dictionaries achieves competitive performance in computed tomography (CT) reconstruction comparing to state-of-the-art model based and data driven approaches.
翻訳日:2021-08-27 14:17:54 公開日:2021-08-26
# BAMBOOにおけるWeisfeiler-Leman:新しいAMRグラフメトリクスとAMRグラフ類似性ベンチマーク

Weisfeiler-Leman in the BAMBOO: Novel AMR Graph Metrics and a Benchmark for AMR Graph Similarity ( http://arxiv.org/abs/2108.11949v1 )

ライセンス: Link先を確認
Juri Opitz and Angel Daza and Anette Frank(参考訳) 表現(AMR)の類似性を評価するためにいくつかの指標が提案されているが、それらが人間の類似性評価とどのように関連しているかは分かっていない。 さらに、現在のメトリクスには相補的な長所と短所がある。スピードを強調するものもあれば、コストのかかるアライメントステップの価格でグラフ構造のアライメントを明確にするものもある。 本研究では,従来の指標の強度を統一し,弱点を緩和する新しいWeisfeiler-Leman AMR類似度指標を提案する。 具体的には、新しいメトリクスは文脈化されたサブ構造にマッチし、ノード間のn:mアライメントを誘導することができる。 さらに、グラフベースのMR類似度メトリクスの実証評価をサポートする最初のベンチマークであるOvert Objectives (BAMBOO)に基づくAMRメトリックのベンチマークを導入する。 bambooは、文の類似性目標から、意味変化や意味保存グラフ変換に対するメトリクスのロバスト性を調べるストレステストまで、複数のオーバート目標を定義することで、結果の解釈可能性を最大化する。 従来のメトリクスと私たちのメトリクスをプロファイリングすることで、BAMBOOの利点を示します。 結果は、我々の新しいメトリクスが将来の仕事の強力なベースラインになることを示している。

Several metrics have been proposed for assessing the similarity of (abstract) meaning representations (AMRs), but little is known about how they relate to human similarity ratings. Moreover, the current metrics have complementary strengths and weaknesses: some emphasize speed, while others make the alignment of graph structures explicit, at the price of a costly alignment step. In this work we propose new Weisfeiler-Leman AMR similarity metrics that unify the strengths of previous metrics, while mitigating their weaknesses. Specifically, our new metrics are able to match contextualized substructures and induce n:m alignments between their nodes. Furthermore, we introduce a Benchmark for AMR Metrics based on Overt Objectives (BAMBOO), the first benchmark to support empirical assessment of graph-based MR similarity metrics. BAMBOO maximizes the interpretability of results by defining multiple overt objectives that range from sentence similarity objectives to stress tests that probe a metric's robustness against meaning-altering and meaning-preserving graph transformations. We show the benefits of BAMBOO by profiling previous metrics and our own metrics. Results indicate that our novel metrics may serve as a strong baseline for future work.
翻訳日:2021-08-27 14:17:39 公開日:2021-08-26
# LocTex: 局所的なテキストスーパービジョンからデータ効率の良い視覚表現を学習する

LocTex: Learning Data-Efficient Visual Representations from Localized Textual Supervision ( http://arxiv.org/abs/2108.11950v1 )

ライセンス: Link先を確認
Zhijian Liu, Simon Stent, Jie Li, John Gideon, Song Han(参考訳) オブジェクト検出やセマンティック/インスタンスセグメンテーションなどのコンピュータビジョンタスクは、大規模なトレーニングデータセットの面倒なアノテーションに依存している。 本稿では,ローカライズされたテキストアノテーション(キャプションと同期マウスオーバージェスチャ)を利用してアノテーションの労力を削減するLocTexを提案する。 本稿では,画像とキャプションの対比的事前学習フレームワークを導入し,マウストレースによるクロスモーダル・アテンションマップを監督し,粗い局所化信号を提供する。 学習した視覚機能は、リッチなセマンティクス(フリーフォームキャプションから)と正確な位置決め(マウストレースから)をキャプチャし、様々な下流視覚タスクに転送する際に非常に効果的である。 ImageNetによる教師付き事前トレーニングと比較して、LocTexは、事前トレーニングデータセットのサイズを10倍、ターゲットデータセットを2倍削減し、COCOインスタンスセグメンテーションのパフォーマンスを同等または改善する。 同じ量のアノテーションが提供されると、PASCAL VOC画像分類のタスクにおいて、従来の最先端の "vision+Language" 事前トレーニングアプローチよりも約4%高い精度を達成する。

Computer vision tasks such as object detection and semantic/instance segmentation rely on the painstaking annotation of large training datasets. In this paper, we propose LocTex that takes advantage of the low-cost localized textual annotations (i.e., captions and synchronized mouse-over gestures) to reduce the annotation effort. We introduce a contrastive pre-training framework between images and captions and propose to supervise the cross-modal attention map with rendered mouse traces to provide coarse localization signals. Our learned visual features capture rich semantics (from free-form captions) and accurate localization (from mouse traces), which are very effective when transferred to various downstream vision tasks. Compared with ImageNet supervised pre-training, LocTex can reduce the size of the pre-training dataset by 10x or the target dataset by 2x while achieving comparable or even improved performance on COCO instance segmentation. When provided with the same amount of annotations, LocTex achieves around 4% higher accuracy than the previous state-of-the-art "vision+language" pre-training approach on the task of PASCAL VOC image classification.
翻訳日:2021-08-27 14:17:16 公開日:2021-08-26
# TPH-YOLOv5: ドローン捕獲シナリオにおけるオブジェクト検出のためのトランスフォーマ予測ヘッドに基づくYOLOv5の改良

TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios ( http://arxiv.org/abs/2108.11539v1 )

ライセンス: Link先を確認
Xingkui Zhu, Shuchang Lyu, Xu Wang, Qi Zhao(参考訳) ドローンが捕捉するシナリオにおけるオブジェクト検出は、最近の一般的なタスクである。 ドローンは常に異なる高度を移動するため、オブジェクトスケールは激しく異なり、ネットワークの最適化に負担がかかる。 さらに、高速で低高度の飛行は、密集した物体に動きのぼやけをもたらすため、物体の区別は大きな課題となる。 上記の2つの問題を解決するために,TPH-YOLOv5を提案する。 YOLOv5に基づいて、異なるスケールのオブジェクトを検出するために、別の予測ヘッドを追加します。 次に,従来の予測ヘッドを Transformer Prediction Heads (TPH) に置き換え,自己認識機構を用いて予測ポテンシャルを探索する。 また、畳み込みブロックアテンションモデル(CBAM)を統合し、密集したオブジェクトのシナリオに注意領域を求める。 提案するTPH-YOLOv5の改良のために,データ拡張,マルチスケールテスト,マルチモデル統合,余分な分類器の利用など,有用な戦略の袋を提供する。 データセットのVisDrone2021に関する大規模な実験によると、TPH-YOLOv5は、ドローンが捉えたシナリオにおいて、優れた解釈性を持つ。 DET-test-challengeデータセットでは、TPH-YOLOv5のAP結果は39.18%であり、従来のSOTA法(DPNetV3)よりも1.81%良い。 2021年のVisDrone Challengeでは、TPHYOLOv5が5位となり、1位モデル(AP 39.43%)で好成績を挙げた。 ベースラインモデル(yolov5)と比較して、tph-yolov5は約7%改善している。

Object detection on drone-captured scenarios is a recent popular task. As drones always navigate in different altitudes, the object scale varies violently, which burdens the optimization of networks. Moreover, high-speed and low-altitude flight bring in the motion blur on the densely packed objects, which leads to great challenge of object distinction. To solve the two issues mentioned above, we propose TPH-YOLOv5. Based on YOLOv5, we add one more prediction head to detect different-scale objects. Then we replace the original prediction heads with Transformer Prediction Heads (TPH) to explore the prediction potential with self-attention mechanism. We also integrate convolutional block attention model (CBAM) to find attention region on scenarios with dense objects. To achieve more improvement of our proposed TPH-YOLOv5, we provide bags of useful strategies such as data augmentation, multiscale testing, multi-model integration and utilizing extra classifier. Extensive experiments on dataset VisDrone2021 show that TPH-YOLOv5 have good performance with impressive interpretability on drone-captured scenarios. On DET-test-challenge dataset, the AP result of TPH-YOLOv5 are 39.18%, which is better than previous SOTA method (DPNetV3) by 1.81%. On VisDrone Challenge 2021, TPHYOLOv5 wins 5th place and achieves well-matched results with 1st place model (AP 39.43%). Compared to baseline model (YOLOv5), TPH-YOLOv5 improves about 7%, which is encouraging and competitive.
翻訳日:2021-08-27 14:16:37 公開日:2021-08-26
# XCI-Sketch:カラーアウトラインとスケッチの生成のための画像からのカラー情報の抽出

XCI-Sketch: Extraction of Color Information from Images for Generation of Colored Outlines and Sketches ( http://arxiv.org/abs/2108.11554v1 )

ライセンス: Link先を確認
Harsh Rathod, Manisimha Varma, Parna Chowdhury, Sameer Saxena, V Manushree, Ankita Ghosh, Sahil Khose(参考訳) スケッチは、個人の創造的視点から視覚的なシーンを伝える媒体である。 色を加えることでスケッチ全体の表現性が大幅に向上する。 本稿では,輪郭描画データセットを用いて,人物が描いたスケッチを模倣する2つの手法を提案する。 まず,k-means色クラスタリングによる画像処理手法を適用し,カラーアウトラインの描画を行う。 第2の方法は、生成逆数ネットワークを用いて、以前に観測されなかった画像から色付きスケッチを生成するモデルを開発する。 定量的および定性的な評価によって得られた結果を評価する。

Sketches are a medium to convey a visual scene from an individual's creative perspective. The addition of color substantially enhances the overall expressivity of a sketch. This paper proposes two methods to mimic human-drawn colored sketches by utilizing the Contour Drawing Dataset. Our first approach renders colored outline sketches by applying image processing techniques aided by k-means color clustering. The second method uses a generative adversarial network to develop a model that can generate colored sketches from previously unobserved images. We assess the results obtained through quantitative and qualitative evaluations.
翻訳日:2021-08-27 14:16:10 公開日:2021-08-26
# 視覚的関係のコローカライゼーション

Few-shot Visual Relationship Co-localization ( http://arxiv.org/abs/2108.11618v1 )

ライセンス: Link先を確認
Revant Teotia, Vaibhav Mishra, Mayank Maheshwari, Anand Mishra(参考訳) 本稿では,画像の小さな袋が共通だが潜在的な述語を含むことを前提として,各画像の共通述語を介して接続された視覚的対象物対の局在化に関心がある。 この問題を視覚関係共局在 (visual relationship co-localization) またはvrc (vrc) と呼ぶ。 VRCは、よく研究されているオブジェクトのコローカライゼーションタスクよりも難しいタスクです。 これは、ほんの数枚の画像を使用するとさらに困難になる。このモデルは、目に見えない述語を通して接続された視覚的対象物対をコローカライズすることを学ぶ必要がある。 vrcを解決するために,バッグの各画像で共通の視覚関係を選択する最適化フレームワークを提案する。 最適化フレームワークの目標は、画像間の視覚的な類似性を学ぶことで、ほんの数ショット設定で最適なソリューションを見つけることである。 頑健な視覚的関係表現を得るために,視覚的対象から視覚的対象への変換ベクトルとして関係埋め込みを学習する,シンプルで効果的な手法を用いる。 さらに,視覚的関係の類似性を学習するために,数発の分類タスクによく用いられるメタラーニング手法を用いる。 最後に,探索可能な解の指数関数的な数から生じる組合せ複雑性問題に取り組むために,約最良解を選択する欲望近似推論アルゴリズムを用いる。 提案手法は,VrR-VGとVG-150という2つの課題のある公開データセットから得られるバッグサイズの変化を網羅的に評価し,視覚的コローカライズ性能を実現する。

In this paper, given a small bag of images, each containing a common but latent predicate, we are interested in localizing visual subject-object pairs connected via the common predicate in each of the images. We refer to this novel problem as visual relationship co-localization or VRC as an abbreviation. VRC is a challenging task, even more so than the well-studied object co-localization task. This becomes further challenging when using just a few images, the model has to learn to co-localize visual subject-object pairs connected via unseen predicates. To solve VRC, we propose an optimization framework to select a common visual relationship in each image of the bag. The goal of the optimization framework is to find the optimal solution by learning visual relationship similarity across images in a few-shot setting. To obtain robust visual relationship representation, we utilize a simple yet effective technique that learns relationship embedding as a translation vector from visual subject to visual object in a shared space. Further, to learn visual relationship similarity, we utilize a proven meta-learning technique commonly used for few-shot classification tasks. Finally, to tackle the combinatorial complexity challenge arising from an exponential number of feasible solutions, we use a greedy approximation inference algorithm that selects approximately the best solution. We extensively evaluate our proposed framework on variations of bag sizes obtained from two challenging public datasets, namely VrR-VG and VG-150, and achieve impressive visual co-localization performance.
翻訳日:2021-08-27 14:16:02 公開日:2021-08-26
# 新しい補間手法とインスタンスベース学習の対応

A New Interpolation Approach and Corresponding Instance-Based Learning ( http://arxiv.org/abs/2108.11530v1 )

ライセンス: Link先を確認
Shiyou Lian(参考訳) 関数の近似値の発見から始まり、2つの数値の間の近似次数の測定方法を導入し、"strict approximation" と "strict approximation region" の概念を提案し、対応する1次元補間法と公式を導出し、高次元補間のために "sum-times-difference formula" と呼ばれる計算モデルを提示し、新しい補間アプローチ、すなわち adb補間法を開発する。 ADB補間は実関数を満足な結果で補間するために適用される。 補間法は原理と効果から見て、新しいアイデアであり、単純計算の利点、安定した精度、並列処理の促進、高次元補間に非常に適しており、ベクトル値関数の補間にも容易に拡張できる。 インスタンスベースの新しい学習手法であるADB補間を用いた学習手法をインスタンスベースの学習に適用する。 この学習法は, 数学的基礎, 暗黙距離重み, 誤分類の回避, 高効率, 広範囲の応用, 解釈可能などの利点も備えた, 独特な手法である。 原則として,本手法は,帰納的学習に属する深層学習が相互に補完しうる類似学習の一種であり,ビッグデータやクラウドコンピューティング環境における「異なるアプローチであるが,同じ結果」の効果も有する。 したがって、ADB補間を用いた学習は、深層学習と二重の「広範な学習」と見なすこともできる。

Starting from finding approximate value of a function, introduces the measure of approximation-degree between two numerical values, proposes the concepts of "strict approximation" and "strict approximation region", then, derives the corresponding one-dimensional interpolation methods and formulas, and then presents a calculation model called "sum-times-difference formula" for high-dimensional interpolation, thus develops a new interpolation approach, that is, ADB interpolation. ADB interpolation is applied to the interpolation of actual functions with satisfactory results. Viewed from principle and effect, the interpolation approach is of novel idea, and has the advantages of simple calculation, stable accuracy, facilitating parallel processing, very suiting for high-dimensional interpolation, and easy to be extended to the interpolation of vector valued functions. Applying the approach to instance-based learning, a new instance-based learning method, learning using ADB interpolation, is obtained. The learning method is of unique technique, which has also the advantages of definite mathematical basis, implicit distance weights, avoiding misclassification, high efficiency, and wide range of applications, as well as being interpretable, etc. In principle, this method is a kind of learning by analogy, which and the deep learning that belongs to inductive learning can complement each other, and for some problems, the two can even have an effect of "different approaches but equal results" in big data and cloud computing environment. Thus, the learning using ADB interpolation can also be regarded as a kind of "wide learning" that is dual to deep learning.
翻訳日:2021-08-27 14:15:14 公開日:2021-08-26
# サイバー物理システムのための$\beta$-vaeの潜在空間を用いた効率的な分散検出

Efficient Out-of-Distribution Detection Using Latent Space of $\beta$-VAE for Cyber-Physical Systems ( http://arxiv.org/abs/2108.11800v1 )

ライセンス: Link先を確認
Shreyas Ramakrishna, Zahra Rahiminasab, Gabor Karsai, Arvind Easwaran, Abhishek Dubey(参考訳) Deep Neural Networksは、自律型サイバー物理システム(CPS)の設計に積極的に利用されている。 これらのモデルの利点は、高次元状態空間を扱い、操作状態空間のコンパクトな代理表現を学ぶ能力である。 しかし、モデルのトレーニングに使用されるサンプル観察は、物理的環境の全状態空間をカバーできない可能性があり、その結果、システムはトレーニング分布に属さない条件下で運用される可能性が高い。 トレーニングディストリビューションに属さないこれらの条件は、out-of-Distribution (OOD)と呼ばれる。 実行時のOOD条件の検出は、CPSの安全性に不可欠である。 さらに、OOD条件によって生じる可能性のある結果を軽減するために、適切な制御アクションを選択するために、OODのソースであるコンテキストや特徴を特定することも望ましい。 本稿では,この問題を画像上でのマルチラベル時系列OOD検出問題として検討し,OODを短時間のウィンドウ(変更点)とトレーニングデータ分布の両方で逐次定義する。 この問題を解決する一般的なアプローチは、マルチチェーンの1クラス分類器の使用である。 しかし、計算資源が限られており、短い推論時間を必要とするCPSにとっては、このアプローチは高価である。 私たちの貢献は、画像特徴のバリエーションに敏感な部分的に不連続な潜在空間を持つ1つの$\beta$-variational autoencoder検出器の設計と訓練のためのアプローチです。 我々は、潜在空間における特徴に敏感な潜伏変数を用いて、OOD画像を検出し、OODの原因となる最も可能性の高い特徴を特定する。 我々は、CARLAシミュレーターとnuImagesと呼ばれる現実世界の自動車データセットにAutonomous Vehicleを用いたアプローチを実証する。

Deep Neural Networks are actively being used in the design of autonomous Cyber-Physical Systems (CPSs). The advantage of these models is their ability to handle high-dimensional state-space and learn compact surrogate representations of the operational state spaces. However, the problem is that the sampled observations used for training the model may never cover the entire state space of the physical environment, and as a result, the system will likely operate in conditions that do not belong to the training distribution. These conditions that do not belong to training distribution are referred to as Out-of-Distribution (OOD). Detecting OOD conditions at runtime is critical for the safety of CPS. In addition, it is also desirable to identify the context or the feature(s) that are the source of OOD to select an appropriate control action to mitigate the consequences that may arise because of the OOD condition. In this paper, we study this problem as a multi-labeled time series OOD detection problem over images, where the OOD is defined both sequentially across short time windows (change points) as well as across the training data distribution. A common approach to solving this problem is the use of multi-chained one-class classifiers. However, this approach is expensive for CPSs that have limited computational resources and require short inference times. Our contribution is an approach to design and train a single $\beta$-Variational Autoencoder detector with a partially disentangled latent space sensitive to variations in image features. We use the feature sensitive latent variables in the latent space to detect OOD images and identify the most likely feature(s) responsible for the OOD. We demonstrate our approach using an Autonomous Vehicle in the CARLA simulator and a real-world automotive dataset called nuImages.
翻訳日:2021-08-27 14:14:43 公開日:2021-08-26
# 時空間グラフコントラスト学習

Spatio-Temporal Graph Contrastive Learning ( http://arxiv.org/abs/2108.11873v1 )

ライセンス: Link先を確認
Xu Liu, Yuxuan Liang, Yu Zheng, Bryan Hooi, Roger Zimmermann(参考訳) ディープラーニングモデルは時空間グラフ(STG)予測のための現代的なツールである。 その効果にもかかわらず、パフォーマンス向上のために大規模なデータセットを必要とし、ノイズの摂動に弱い。 これらの制限を緩和するために、直感的なアイデアは、一般的なデータ拡張と対比学習技術を使用することである。 しかし,既存のグラフコントラスト学習手法は,3つの理由からstg予測には直接適用できない。 まず,コントラスト学習から得られた事前学習表現から予測課題が利益を得られないことを実証的に発見する。 第2に、STGデータに対しては、ノイズの打ち消しに使用されるデータ拡張があまり検討されない。 第三に、サンプルの意味的類似性は見過ごされている。 本稿では,これらの問題に取り組むための時空間グラフコントラスト学習フレームワーク(stgcl)を提案する。 具体的には、事前訓練されたパラダイムを用いることよりも、予測損失を補助的なコントラスト損失と統合することで、性能を向上させる。 グラフ構造,時間領域,周波数領域の4種類のデータ拡張について詳述した。 また、最もセマンティックに類似した否定をフィルタリングするルールベースの戦略によって、古典的な対照的な損失を拡大します。 我々のフレームワークは3つの実世界のデータセットと4つの最先端モデルで評価されている。 一貫性のある改善は、STGCLが既存のディープモデルのための既製のプラグインとして使用できることを示している。

Deep learning models are modern tools for spatio-temporal graph (STG) forecasting. Despite their effectiveness, they require large-scale datasets to achieve better performance and are vulnerable to noise perturbation. To alleviate these limitations, an intuitive idea is to use the popular data augmentation and contrastive learning techniques. However, existing graph contrastive learning methods cannot be directly applied to STG forecasting due to three reasons. First, we empirically discover that the forecasting task is unable to benefit from the pretrained representations derived from contrastive learning. Second, data augmentations that are used for defeating noise are less explored for STG data. Third, the semantic similarity of samples has been overlooked. In this paper, we propose a Spatio-Temporal Graph Contrastive Learning framework (STGCL) to tackle these issues. Specifically, we improve the performance by integrating the forecasting loss with an auxiliary contrastive loss rather than using a pretrained paradigm. We elaborate on four types of data augmentations, which disturb data in terms of graph structure, time domain, and frequency domain. We also extend the classic contrastive loss through a rule-based strategy that filters out the most semantically similar negatives. Our framework is evaluated across three real-world datasets and four state-of-the-art models. The consistent improvements demonstrate that STGCL can be used as an off-the-shelf plug-in for existing deep models.
翻訳日:2021-08-27 14:14:16 公開日:2021-08-26
# 共分散作用素とガウス過程の間のリーマン距離の推定

Estimation of Riemannian distances between covariance operators and Gaussian processes ( http://arxiv.org/abs/2108.11683v1 )

ライセンス: Link先を確認
Ha Quang Minh(参考訳) 本研究では,関数的確率過程,特にガウス過程に関連する共分散作用素の文脈において,無限次元正定値ヒルベルト・シュミット作用素,すなわちアフィン不変リーマン距離とログヒルベルト・シュミット距離の間の二つのリーマン距離を考察する。 最初の主な結果は、両距離がヒルベルト・シュミットノルムに収束することを示している。 ヒルベルト空間値確率変数の濃度結果を用いて, (i) サンプル共分散作用素, (ii) 有限, 正規化共分散行列, (iii) 与えられた過程によって生成された有限サンプルから両距離を一貫して効率的に推定できることを示した。 我々の理論解析は、カーネルヒルベルト空間(RKHS)の共分散とクロス共分散作用素を再現する方法を広く活用する。 理論定式化はガウス過程の共分散作用素に関する数値実験で説明される。

In this work we study two Riemannian distances between infinite-dimensional positive definite Hilbert-Schmidt operators, namely affine-invariant Riemannian and Log-Hilbert-Schmidt distances, in the context of covariance operators associated with functional stochastic processes, in particular Gaussian processes. Our first main results show that both distances converge in the Hilbert-Schmidt norm. Using concentration results for Hilbert space-valued random variables, we then show that both distances can be consistently and efficiently estimated from (i) sample covariance operators, (ii) finite, normalized covariance matrices, and (iii) finite samples generated by the given processes, all with dimension-independen t convergence. Our theoretical analysis exploits extensively the methodology of reproducing kernel Hilbert space (RKHS) covariance and cross-covariance operators. The theoretical formulation is illustrated with numerical experiments on covariance operators of Gaussian processes.
翻訳日:2021-08-27 14:13:57 公開日:2021-08-26
# 類似シーンは類似の感情を喚起する:スティル化画像キャプションのための並列データ拡張

Similar Scenes arouse Similar Emotions: Parallel Data Augmentation for Stylized Image Captioning ( http://arxiv.org/abs/2108.11912v1 )

ライセンス: Link先を確認
Guodun Li, Yuchen Zhai, Zehao Lin, Yin Zhang(参考訳) スティル化画像キャプションシステムは、所定の画像に意味的に関連するだけでなく、所定のスタイル記述と整合したキャプションを生成することを目的としている。 このタスクの最大の課題の1つは、十分なペア化されたスタイリングデータの不足である。 多くの研究は、データ拡張の観点から考えることなく、教師なしアプローチに焦点を当てている。 私たちは、人々が似たような場面にいるときに似たような感情を思い出し、似たような感情を似たようなスタイルのフレーズで表現することから始めます。 本稿では,スタイライズされた小文からスタイル句を抽出し,それを大規模字幕にグラフトする,新しい抽出・再帰生成データ拡張フレームワークを提案する。 まず,感情信号抽出器をデザインし,スタイライズされた小文からスタイル句を抽出する。 第2に,大規模事実データにおける問合せ画像やキャプションに類似した画像とスタイル化されたキャプションのペアで表現されたシーンを検索するために,プラグイン可能なマルチモーダルシーン検索器を構築する。 最終的に、類似シーンのスタイルフレーズと現在のシーンの事実記述に基づいて、情緒認識キャプションジェネレータを構築し、現在のシーンの流動的で多彩なスタイル化されたキャプションを生成する。 広範な実験結果から,我々のフレームワークは,データの不足問題を効果的に軽減できることがわかった。 また、教師なしと教師なしの両方で既存の画像キャプションモデルの性能を著しく向上させ、文の関連性とスタイル性の両方において最先端のスタイリッシュな画像キャプション手法をかなりのマージンで上回っている。

Stylized image captioning systems aim to generate a caption not only semantically related to a given image but also consistent with a given style description. One of the biggest challenges with this task is the lack of sufficient paired stylized data. Many studies focus on unsupervised approaches, without considering from the perspective of data augmentation. We begin with the observation that people may recall similar emotions when they are in similar scenes, and often express similar emotions with similar style phrases, which underpins our data augmentation idea. In this paper, we propose a novel Extract-Retrieve-Gen erate data augmentation framework to extract style phrases from small-scale stylized sentences and graft them to large-scale factual captions. First, we design the emotional signal extractor to extract style phrases from small-scale stylized sentences. Second, we construct the plugable multi-modal scene retriever to retrieve scenes represented with pairs of an image and its stylized caption, which are similar to the query image or caption in the large-scale factual data. In the end, based on the style phrases of similar scenes and the factual description of the current scene, we build the emotion-aware caption generator to generate fluent and diversified stylized captions for the current scene. Extensive experimental results show that our framework can alleviate the data scarcity problem effectively. It also significantly boosts the performance of several existing image captioning models in both supervised and unsupervised settings, which outperforms the state-of-the-art stylized image captioning methods in terms of both sentence relevance and stylishness by a substantial margin.
翻訳日:2021-08-27 14:13:40 公開日:2021-08-26
# SASRA: 連続環境における視覚・言語ナビゲーションのための時間時空間推論エージェント

SASRA: Semantically-aware Spatio-temporal Reasoning Agent for Vision-and-Language Navigation in Continuous Environments ( http://arxiv.org/abs/2108.11945v1 )

ライセンス: Link先を確認
Muhammad Zubair Irshad, Niluthpol Chowdhury Mithun, Zachary Seymour, Han-Pang Chiu, Supun Samarasekera, Rakesh Kumar(参考訳) 本稿では,連続した3次元環境における視覚・言語ナビゲーション(VLN)タスクに対する新しいアプローチを提案する。 既存のエンド・ツー・エンドの学習に基づくVLN手法は、主に生の視覚的観察に焦点をあて、新しい環境への一般化に不可欠な意味的時空間推論能力が欠如しているため、この課題に苦慮している。 本稿では,古典的意味マッピング手法と学習に基づく手法を組み合わせることに焦点を当てたハイブリッドトランスフォーマー・リカレンスモデルを提案する。 提案手法は,トップダウンのローカルエゴ中心セマンティックマップを構築し,VLNポリシーの効果的な学習を可能にするために,地図と言語モダリティを整合させるクロスモーダルグラウンドを実行することで,時間的セマンティックメモリを生成する。 実験結果から,本手法は未発見環境におけるsplの相対的改善率22%以上の最先端手法やベースラインよりも優れていることがわかった。

This paper presents a novel approach for the Vision-and-Language Navigation (VLN) task in continuous 3D environments, which requires an autonomous agent to follow natural language instructions in unseen environments. Existing end-to-end learning-based VLN methods struggle at this task as they focus mostly on utilizing raw visual observations and lack the semantic spatio-temporal reasoning capabilities which is crucial in generalizing to new environments. In this regard, we present a hybrid transformer-recurren ce model which focuses on combining classical semantic mapping techniques with a learning-based method. Our method creates a temporal semantic memory by building a top-down local ego-centric semantic map and performs cross-modal grounding to align map and language modalities to enable effective learning of VLN policy. Empirical results in a photo-realistic long-horizon simulation environment show that the proposed approach outperforms a variety of state-of-the-art methods and baselines with over 22% relative improvement in SPL in prior unseen environments.
翻訳日:2021-08-27 14:13:10 公開日:2021-08-26
# poissoneg: poisson learningによる半教師による医療画像分割

PoissonSeg: Semi-Supervised Few-Shot Medical Image Segmentation via Poisson Learning ( http://arxiv.org/abs/2108.11694v1 )

ライセンス: Link先を確認
Xiaoang Shen, Guokai Zhang, Huilin Lai, Jihao Luo, Ye Luo, Jianwei Lu(参考訳) 深層学習の医用画像セグメンテーションへの応用は、豊富なピクセルレベルの注釈データがないために妨げられている。 Few-shot Semantic Segmentation (FSS)はデッドロックを壊すための有望な戦略である。 しかし、ハイパフォーマンスなFSSモデルでは、過剰適合を避けるために十分なピクセルレベルのアノテートクラスが必要であるため、アノテーションが不要なため、医用画像のセグメンテーションのパフォーマンスボトルネックが生じる。 そこで, 医用画像に対する半教師付きfssを提案し, ラベルなしデータを用いてさらなる性能向上を図る。 それにもかかわらず、既存の半教師付きfss法には、(1)ラベル付きデータとラベルなしデータの関係を無視する、(2)エンドツーエンドトレーニングにラベルなしデータを直接使用する、という2つの明らかな欠陥がある。 そこで本研究では, 医用画像セグメンテーションのための, 半教師付きfssフレームワークを提案する。 提案フレームワークでは,データ関係のモデル化と監視信号の伝搬にPoisson学習,モデルにより一貫性のある表現を学習するための空間一貫性校正を採用している。 このプロセスでは、ラベルなしサンプルはエンドツーエンドのトレーニングには関与せず、グラフベースの学習によるクエリ画像セグメンテーションのための監視情報を提供する。 医用画像セグメンテーションデータセット(医用画像セグメンテーションデータセット)について広範な実験を行った。 ISIC皮膚病変の分節,腹部MRIの分節,腹部CTの腹部臓器の分節)により,提案フレームワークの最先端性能と広範な適用性を示した。

The application of deep learning to medical image segmentation has been hampered due to the lack of abundant pixel-level annotated data. Few-shot Semantic Segmentation (FSS) is a promising strategy for breaking the deadlock. However, a high-performing FSS model still requires sufficient pixel-level annotated classes for training to avoid overfitting, which leads to its performance bottleneck in medical image segmentation due to the unmet need for annotations. Thus, semi-supervised FSS for medical images is accordingly proposed to utilize unlabeled data for further performance improvement. Nevertheless, existing semi-supervised FSS methods has two obvious defects: (1) neglecting the relationship between the labeled and unlabeled data; (2) using unlabeled data directly for end-to-end training leads to degenerated representation learning. To address these problems, we propose a novel semi-supervised FSS framework for medical image segmentation. The proposed framework employs Poisson learning for modeling data relationship and propagating supervision signals, and Spatial Consistency Calibration for encouraging the model to learn more coherent representations. In this process, unlabeled samples do not involve in end-to-end training, but provide supervisory information for query image segmentation through graph-based learning. We conduct extensive experiments on three medical image segmentation datasets (i.e. ISIC skin lesion segmentation, abdominal organs segmentation for MRI and abdominal organs segmentation for CT) to demonstrate the state-of-the-art performance and broad applicability of the proposed framework.
翻訳日:2021-08-27 14:12:46 公開日:2021-08-26
# 畳み込みニューラルネットワークの一貫性相対信頼度とラベルフリーモデル選択

Consistent Relative Confidence and Label-Free Model Selection for Convolutional Neural Networks ( http://arxiv.org/abs/2108.11845v1 )

ライセンス: Link先を確認
Bin Liu(参考訳) 本稿では,深部畳み込みニューラルネットワーク(CNN)に基づく画像分類について述べる。 候補cnnモデルのセットが与えられた場合、現在のタスクに最適な一般化特性を持つ適切なモデルを選択するには、どうすればよいのか? 現在のモデル選択方法は、クロスエントロピー損失、分類誤差率、負のログ類似度などのパフォーマンス指標を定義するためにラベル付きデータのバッチにアクセスする必要がある。 しかし、多くの場合、ラベル付けされたデータは、ラベル付け自体が時間と費用のかかる作業であるため、時間内に利用できない。 そこで本研究では,ラベルなしデータのみを用いたCNNモデル選択手法を提案する。 この手法は、一貫した相対信頼(CRC)と呼ばれる原理に基づいて開発される。 提案手法の有効性と有効性は,データセットMNISTとFasionMNISTに基づく広範な実験により実証された。

This paper is concerned with image classification based on deep convolutional neural networks (CNNs). The focus is centered around the following question: given a set of candidate CNN models, how to select the right one that has the best generalization property for the current task? Present model selection methods require access to a batch of labeled data for defining a performance metric, such as the cross-entropy loss, the classification error rate, the negative log-likelihood, and so on. In many practical cases, however, labeled data are not available in time as labeling itself is a time-consuming and expensive task. To this end, this paper presents an approach to CNN model selection using only unlabeled data. This method is developed based on a principle termed consistent relative confidence (CRC). The effectiveness and efficiency of the presented method are demonstrated by extensive experimental studies based on datasets MNIST and FasionMNIST.
翻訳日:2021-08-27 14:12:00 公開日:2021-08-26
# テンプレートレス形状対応のための教師なし密度変形埋め込みネットワーク

Unsupervised Dense Deformation Embedding Network for Template-Free Shape Correspondence ( http://arxiv.org/abs/2108.11609v1 )

ライセンス: Link先を確認
Ronghan Chen, Yang Cong, Jiahua Dong(参考訳) 近年,3次元変形学習からの形状対応が注目を集めている。 しかしながら、現在のディープラーニングベースの手法では、ポイント単位の翻訳を学習するために、密度の高いアノテーションを監督する必要がある。 さらに、グローバル特徴埋め込みによって元の形状の局所的な幾何学的詳細を捉えられなかった。 これらの課題に対処するために,非剛性形状間の変形を局所的特徴から予測する新しい非教師付き高密度変形埋め込みネットワーク (ud^2e-net) を開発した。 変形予測のために変形不変な局所特徴を整合させることは自明ではないので、frst に外部幾何学的特徴をソースから内在座標へ共有正準形状に符号化し、デコーダは対応する対象特徴を合成する。 さらに、合成された特徴と原特徴との分布ばらつきを軽減するために、有界な最大平均誤差損失を発生させる。 自然変形を密接な監督なく学習するために,新しいトレース・伝播アルゴリズムを提案する粗パラメータ化変形グラフを導入し,変形の質と有効性を改善する。 ud^2e-netは,faust inter challengeでは24%,faust intra challengeでは13%,state-of-the-art unsupervised法を24%上回った。

Shape correspondence from 3D deformation learning has attracted appealing academy interests recently. Nevertheless, current deep learning based methods require the supervision of dense annotations to learn per-point translations, which severely overparameterize the deformation process. Moreover, they fail to capture local geometric details of original shape via global feature embedding. To address these challenges, we develop a new Unsupervised Dense Deformation Embedding Network (i.e., UD^2E-Net), which learns to predict deformations between non-rigid shapes from dense local features. Since it is non-trivial to match deformation-variant local features for deformation prediction, we develop an Extrinsic-Intrinsic Autoencoder to frst encode extrinsic geometric features from source into intrinsic coordinates in a shared canonical shape, with which the decoder then synthesizes corresponding target features. Moreover, a bounded maximum mean discrepancy loss is developed to mitigate the distribution divergence between the synthesized and original features. To learn natural deformation without dense supervision, we introduce a coarse parameterized deformation graph, for which a novel trace and propagation algorithm is proposed to improve both the quality and effciency of the deformation. Our UD^2E-Net outperforms state-of-the-art unsupervised methods by 24% on Faust Inter challenge and even supervised methods by 13% on Faust Intra challenge.
翻訳日:2021-08-27 14:11:31 公開日:2021-08-26
# 武器紛争におけるメディエーションのための機械学習

Machine Learning for Mediation in Armed Conflicts ( http://arxiv.org/abs/2108.11942v1 )

ライセンス: Link先を確認
M. Arana-Catania, F.A. Van Lier, Rob Procter(参考訳) 今日の紛争はますます複雑で流動的で断片化されつつあり、しばしば複数の異なる関心を持つ国や国際的な俳優のホストを巻き込んでいる。 この発展は紛争調停にとって大きな課題となり、仲介者は紛争当事者の範囲や政治的地位の進化、平和形成における関連性や関係の低いアクターの区別、重要な紛争問題の特定と相互依存など、紛争のダイナミクスを理解するのに苦労している。 国際的な平和努力は、これらの課題にうまく対処するには不適当に思える。 コンフリクト予測や情報収集など、さまざまなコンフリクト関連分野においてテクノロジーの利用が増えているが、コンフリクトメディエーションにテクノロジーが貢献する方法についてはあまり注目されていない。 このケーススタディは、現在進行中のメディエーションプロセスのデータに最先端の機械学習技術を適用した最初の事例である。 イエメンの平和交渉の対話文を用いて、知識を管理し、複雑な情報を評価するための競合分析ツールを追加することで、機械学習ツールが国際仲介者を効果的に支援できることを示す。 コンフリクトメディエーションにおける機械学習ツールの可能性を示すだけでなく、文脈に敏感でターゲットを絞ったツールを開発し、有意義で責任ある実装を保証するために、学際的かつ参加的な研究設計の重要性も強調する。

Today's conflicts are becoming increasingly complex, fluid and fragmented, often involving a host of national and international actors with multiple and often divergent interests. This development poses significant challenges for conflict mediation, as mediators struggle to make sense of conflict dynamics, such as the range of conflict parties and the evolution of their political positions, the distinction between relevant and less relevant actors in peace making, or the identification of key conflict issues and their interdependence. International peace efforts appear increasingly ill-equipped to successfully address these challenges. While technology is being increasingly used in a range of conflict related fields, such as conflict predicting or information gathering, less attention has been given to how technology can contribute to conflict mediation. This case study is the first to apply state-of-the-art machine learning technologies to data from an ongoing mediation process. Using dialogue transcripts from peace negotiations in Yemen, this study shows how machine-learning tools can effectively support international mediators by managing knowledge and offering additional conflict analysis tools to assess complex information. Apart from illustrating the potential of machine learning tools in conflict mediation, the paper also emphasises the importance of interdisciplinary and participatory research design for the development of context-sensitive and targeted tools and to ensure meaningful and responsible implementation.
翻訳日:2021-08-27 14:11:05 公開日:2021-08-26
# 実行可能aiのための欲望決定フォレストを用いたマルチモーダルノード特徴からのネットワークモジュール検出

Network Module Detection from Multi-Modal Node Features with a Greedy Decision Forest for Actionable Explainable AI ( http://arxiv.org/abs/2108.11674v1 )

ライセンス: Link先を確認
Bastian Pfeifer, Anna Saranti and Andreas Holzinger(参考訳) ネットワークベースのアルゴリズムは、研究や産業のほとんどの領域で様々なアプリケーションで使われており、非常に実用的です。 本研究では,新しいグリーディ決定フォレストを用いて,マルチモーダルノードの特徴に基づくサブネットワーク検出について述べる。 後者は専門家を維持し、将来そのようなアルゴリズムへの信頼を得る上で重要な要素となるだろう。 本稿では,具体的な応用例を示すために,バイオインフォマティクスとシステム生物学に焦点をあて,特にバイオメディシンに焦点をあてる。 しかし,本手法は他の多くの領域にも適用可能である。 システム生物学は、統計データ駆動機械学習が大量のマルチモーダルバイオメディカルデータの分析を可能にする分野の非常に良い例である。 これは、患者の複雑さをシステムレベルでモデル化し、個々の患者に最適な医療判断、医療実践、治療を行うという、将来的な精密医療の目標を達成するために重要である。 われわれのglass-boxアプローチは、マルチオミクスデータから病気の原因となるネットワークモジュールを明らかにするのに役立つだろう。

Network-based algorithms are used in most domains of research and industry in a wide variety of applications and are of great practical use. In this work, we demonstrate subnetwork detection based on multi-modal node features using a new Greedy Decision Forest for better interpretability. The latter will be a crucial factor in retaining experts and gaining their trust in such algorithms in the future. To demonstrate a concrete application example, we focus in this paper on bioinformatics and systems biology with a special focus on biomedicine. However, our methodological approach is applicable in many other domains as well. Systems biology serves as a very good example of a field in which statistical data-driven machine learning enables the analysis of large amounts of multi-modal biomedical data. This is important to reach the future goal of precision medicine, where the complexity of patients is modeled on a system level to best tailor medical decisions, health practices and therapies to the individual patient. Our glass-box approach could help to uncover disease-causing network modules from multi-omics data to better understand diseases such as cancer.
翻訳日:2021-08-27 14:10:21 公開日:2021-08-26
# 異常検出と特徴点スコアに基づく可読性ネットワークトラブルシューティング

Human readable network troubleshooting based on anomaly detection and feature scoring ( http://arxiv.org/abs/2108.11807v1 )

ライセンス: Link先を確認
Jose M. Navarro, Alexis Huet and Dario Rossi(参考訳) ネットワークのトラブルシューティングは、まだ人間中心のプロセスだ。 診断過程におけるヒューマンオペレーターの時間を削減するために、(i)時間領域の異常を検出する教師なし学習方法、(ii)特徴空間の特徴をランク付けするための注意機構、(iii)以前に収集したドメイン知識をシームレスに組み込むことができる専門家知識モジュールに基づくシステムを提案する。 本稿では,全システムと個々のビルディングブロックの性能を徹底的に評価する:特に,(i)10個の異常検出アルゴリズムと(ii)10個の注意機構を考察し,各分野におけるアートの現状を包括的に表現する。 数ヶ月間の実ルータテレメトリデータに値するエキスパートラベルデータセットのユニークなコレクションを活用して,制約付きストリームモード設定における実用的な結果と,学術的な設定において理想的なオラクルが達成可能な結果を対比して,徹底的なパフォーマンス評価を行う。 実験の結果, (i) 提案システムは専門家との高レベルの合意を達成し, (ii) 単純な統計的アプローチでも過去の事例から有用な情報を抽出することができ, トラブルシューティング性能を著しく向上させることができることがわかった。

Network troubleshooting is still a heavily human-intensive process. To reduce the time spent by human operators in the diagnosis process, we present a system based on (i) unsupervised learning methods for detecting anomalies in the time domain, (ii) an attention mechanism to rank features in the feature space and finally (iii) an expert knowledge module able to seamlessly incorporate previously collected domain-knowledge. In this paper, we thoroughly evaluate the performance of the full system and of its individual building blocks: particularly, we consider (i) 10 anomaly detection algorithms as well as (ii) 10 attention mechanisms, that comprehensively represent the current state of the art in the respective fields. Leveraging a unique collection of expert-labeled datasets worth several months of real router telemetry data, we perform a thorough performance evaluation contrasting practical results in constrained stream-mode settings, with the results achievable by an ideal oracle in academic settings. Our experimental evaluation shows that (i) the proposed system is effective in achieving high levels of agreement with the expert, and (ii) that even a simple statistical approach is able to extract useful information from expert knowledge gained in past cases, significantly improving troubleshooting performance.
翻訳日:2021-08-27 14:10:00 公開日:2021-08-26
# バイラテラル除音拡散モデル

Bilateral Denoising Diffusion Models ( http://arxiv.org/abs/2108.11514v1 )

ライセンス: Link先を確認
Max W. Y. Lam, Jun Wang, Rongjie Huang, Dan Su, Dong Yu(参考訳) denoising diffusion probabilistic models (ddpms) は競争の激しい生成モデルであるが、効率的なサンプリングには困難が伴う。 本稿では,高品質なサンプル生成にかなり少ないステップを要した,新しいバイラテラル除音拡散モデル(bddms)を提案する。 双方向モデリングの目的から,bddmは,スコアネットワークとスケジューリングネットワークを用いて,それぞれフォワードとリバースプロセスをパラメータ化する。 我々は,2つのネットワークをトレーニングするための補助的目的として,標準証拠よりも新しい下限を導出できることを示した。 特に、BDDMは効率的で、簡単に訓練でき、推論ノイズスケジュールを最適化することで、事前訓練されたDDPMをさらに改善することができる。 実験の結果, BDDMsは3段階のサンプリングで高忠実度サンプルを生成でき, DDPMsと同等あるいはそれ以上の品質のサンプルを, わずか16ステップ(62倍のスピードアップ)で1000ステップで生成できることがわかった。

Denoising diffusion probabilistic models (DDPMs) have emerged as competitive generative models yet brought challenges to efficient sampling. In this paper, we propose novel bilateral denoising diffusion models (BDDMs), which take significantly fewer steps to generate high-quality samples. From a bilateral modeling objective, BDDMs parameterize the forward and reverse processes with a score network and a scheduling network, respectively. We show that a new lower bound tighter than the standard evidence lower bound can be derived as a surrogate objective for training the two networks. In particular, BDDMs are efficient, simple-to-train, and capable of further improving any pre-trained DDPM by optimizing the inference noise schedules. Our experiments demonstrated that BDDMs can generate high-fidelity samples with as few as 3 sampling steps and produce comparable or even higher quality samples than DDPMs using 1000 steps with only 16 sampling steps (a 62x speedup).
翻訳日:2021-08-27 14:08:51 公開日:2021-08-26
# エフェメライドから天体間の効果的な相互作用核を発見するための機械学習

Machine Learning for Discovering Effective Interaction Kernels between Celestial Bodies from Ephemerides ( http://arxiv.org/abs/2108.11894v1 )

ライセンス: Link先を確認
Ming Zhong, Jason Miller, Mauro Maggioni(参考訳) 天体運動の基礎となるメカニズムの正確な予測モデルの構築は、理論物理学の基本的な発展に影響を与えている。 候補となる理論は、惑星、恒星、その他の天体の観測と将来の位置をできるだけ忠実に予測しようとするものである。 Luなどで開発されたデータ駆動学習アプローチを採用しています。 価格は2019$)で、zhongらにも拡大されている。 2020ドルは、太陽系の天体の動きの安定的で正確なモデルである。 我々のモデルは集団動力学の枠組みに基づいており、nasaジェット推進研究所の開発エフェメライドから学んでいる。 太陽系の主要天体を相互に相互作用する物質としてモデル化することにより、我々の学習モデルは、軌道の固有幾何学的性質だけでなく、近日点の沈降率などの力学の高感度な特徴を保った極めて正確なダイナミクスを生成する。 我々の学習したモデルは、特に火星、水星、月の近日点を再現するという点で、観測データに統一的な説明を与えることができる。 さらに、このモデルはニュートンの普遍重力の法則よりも優れており、アインシュタインの一般相対性理論から導かれたアインシュタイン・インフェルト・ホフマン方程式と同様に、月上でも作用する。

Building accurate and predictive models of the underlying mechanisms of celestial motion has inspired fundamental developments in theoretical physics. Candidate theories seek to explain observations and predict future positions of planets, stars, and other astronomical bodies as faithfully as possible. We use a data-driven learning approach, extending that developed in Lu et al. ($2019$) and extended in Zhong et al. ($2020$), to a derive stable and accurate model for the motion of celestial bodies in our Solar System. Our model is based on a collective dynamics framework, and is learned from the NASA Jet Propulsion Lab's development ephemerides. By modeling the major astronomical bodies in the Solar System as pairwise interacting agents, our learned model generate extremely accurate dynamics that preserve not only intrinsic geometric properties of the orbits, but also highly sensitive features of the dynamics, such as perihelion precession rates. Our learned model can provide a unified explanation to the observation data, especially in terms of reproducing the perihelion precession of Mars, Mercury, and the Moon. Moreover, Our model outperforms Newton's Law of Universal Gravitation in all cases and performs similarly to, and exceeds on the Moon, the Einstein-Infeld-Hoff man equations derived from Einstein's theory of general relativity.
翻訳日:2021-08-27 14:08:33 公開日:2021-08-26
# LayoutReader: 読み出し順序検出のためのテキストとレイアウトの事前トレーニング

LayoutReader: Pre-training of Text and Layout for Reading Order Detection ( http://arxiv.org/abs/2108.11591v1 )

ライセンス: Link先を確認
Zilong Wang, Yiheng Xu, Lei Cui, Jingbo Shang, Furu Wei(参考訳) 読み出し順序検出は、視覚的にリッチな文書(レシートやフォームなど)を理解するための基盤となる。 残念ながら、大規模なデータセットをアノテートするには労力がかかりすぎるため、高度なディープラーニングモデルを活用する既存の作業はありませんでした。 WORD文書の読み込み順序はXMLメタデータに埋め込まれているのに対し、WORD文書をPDFや画像に変換するのは容易である。 そこで我々は,様々な文書タイプをカバーする50万の文書画像に対して,読み出し順序,テキスト,レイアウト情報を含むベンチマークデータセットであるreadingbankを構築した。 この最初の大規模データセットは、読み出し順序検出のためのディープニューラルネットワークの力を解き放つ。 特に,提案するLayoutReaderは,セック2seqモデルを用いて,読み出し順序予測のためのテキストとレイアウト情報をキャプチャする。 読み出し順序検出においてほぼ完全に動作し,実験結果のテキスト行の順序付けにおいて,オープンソースのOCRエンジンと商用OCRエンジンの両方を大幅に改善する。 データセットとモデルは \url{https://aka.ms/readi ngbank} でリリースします。

Reading order detection is the cornerstone to understanding visually-rich documents (e.g., receipts and forms). Unfortunately, no existing work took advantage of advanced deep learning models because it is too laborious to annotate a large enough dataset. We observe that the reading order of WORD documents is embedded in their XML metadata; meanwhile, it is easy to convert WORD documents to PDFs or images. Therefore, in an automated manner, we construct ReadingBank, a benchmark dataset that contains reading order, text, and layout information for 500,000 document images covering a wide spectrum of document types. This first-ever large-scale dataset unleashes the power of deep neural networks for reading order detection. Specifically, our proposed LayoutReader captures the text and layout information for reading order prediction using the seq2seq model. It performs almost perfectly in reading order detection and significantly improves both open-source and commercial OCR engines in ordering text lines in their results in our experiments. We will release the dataset and model at \url{https://aka.ms/readi ngbank}.
翻訳日:2021-08-27 14:08:10 公開日:2021-08-26
# 名前付きエンティティ認識におけるラベル付きエンティティ問題に対する否定サンプリングの再考

Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition ( http://arxiv.org/abs/2108.11607v1 )

ライセンス: Link先を確認
Yangming Li, Lemao Liu, Shuming Shi(参考訳) 多くの状況(例えば遠隔監視)において、ラベルなしのエンティティ問題は名前付きエンティティ認識(NER)モデルの性能を著しく低下させる。 近年, 負のサンプリングに基づく顕著なアプローチによってこの問題に対処されている。 本研究では,この方向で2つの研究を行う。 まず、なぜ負のサンプリングが理論的にも経験的にも成功するのかを分析する。 名前付きエンティティはデータセットにおいて非常に疎いという観測に基づいて、長い文において、サンプル負にラベルのないエンティティを含まない確率が高いという理論的保証を示す。 合成データセットのミスサンプリングテストは、実際に保証を検証しました。 第二に、ハードネガティブをマイニングし、さらにミスアンプ率を下げるために、負サンプリングのための重み付き適応サンプリング分布を提案する。 合成データセットと注釈付きデータセットの実験により,ロバスト性および有効性において負のサンプリングを著しく改善することが示された。 私たちはまた、現実世界のデータセットで新たな最先端の結果を得ました。

In many situations (e.g., distant supervision), unlabeled entity problem seriously degrades the performances of named entity recognition (NER) models. Recently, this issue has been well addressed by a notable approach based on negative sampling. In this work, we perform two studies along this direction. Firstly, we analyze why negative sampling succeeds both theoretically and empirically. Based on the observation that named entities are highly sparse in datasets, we show a theoretical guarantee that, for a long sentence, the probability of containing no unlabeled entities in sampled negatives is high. Missampling tests on synthetic datasets have verified our guarantee in practice. Secondly, to mine hard negatives and further reduce missampling rates, we propose a weighted and adaptive sampling distribution for negative sampling. Experiments on synthetic datasets and well-annotated datasets show that our method significantly improves negative sampling in robustness and effectiveness. We also have achieved new state-of-the-art results on real-world datasets.
翻訳日:2021-08-27 14:07:54 公開日:2021-08-26
# 中間タスクの微調整が機能する理由の再考

Rethinking Why Intermediate-Task Fine-Tuning Works ( http://arxiv.org/abs/2108.11696v1 )

ライセンス: Link先を確認
Ting-Yun Chang and Chi-Jen Lu(参考訳) 中間ラベル付きデータタスクの補助訓練(STILTs)は、まず、対象のタスクに先立って、中間タスクで事前訓練された言語モデルを微調整する手法である。 STILTは事前訓練された言語モデルの性能をさらに向上させることができるが、なぜ、いつ機能するのかは未だ不明である。 従来の研究では、コモンセンス推論のような複雑な推論を伴う中間タスクはRoBERTaで特にうまく機能している。 本稿では,中間タスクによる改善は推論やその他の複雑なスキルを含むタスクと直交する可能性があることを見出し,gpt2によって合成された単純なリアルフェイク識別タスクは多様なターゲットタスクの恩恵を受ける。 様々な要因がSTILTに与える影響について広範な実験を行った。 これらの結果はSTILTsパイプラインにおける中間微調整の役割を再考することを示唆している。

Supplementary Training on Intermediate Labeled-data Tasks (STILTs) is a widely applied technique, which first fine-tunes the pretrained language models on an intermediate task before on the target task of interest. While STILTs is able to further improve the performance of pretrained language models, it is still unclear why and when it works. Previous research shows that those intermediate tasks involving complex inference, such as commonsense reasoning, work especially well for RoBERTa. In this paper, we discover that the improvement from an intermediate task could be orthogonal to it containing reasoning or other complex skills -- a simple real-fake discrimination task synthesized by GPT2 can benefit diverse target tasks. We conduct extensive experiments to study the impact of different factors on STILTs. These findings suggest rethinking the role of intermediate fine-tuning in the STILTs pipeline.
翻訳日:2021-08-27 14:07:39 公開日:2021-08-26
# backtranslationを用いた低リソース名前付きエンティティ認識のためのデータ拡張

Data Augmentation for Low-Resource Named Entity Recognition Using Backtranslation ( http://arxiv.org/abs/2108.11703v1 )

ライセンス: Link先を確認
Usama Yaseen, Stefan Langer(参考訳) state of art自然言語処理システムは、高いパフォーマンスを達成するために、かなりのトレーニングデータセットに依存している。 特殊な低リソースドメインにおけるそのようなデータセットの欠如は、最適でないパフォーマンスをもたらす。 本研究では,低リソースなエンティティ認識のための高品質で言語学的に多様な合成データを生成するために,逆翻訳を適用する。 材料科学(MaSciP)と生物医学領域(S800)の2つのデータセットについて実験を行った。 その結果,提案する拡張戦略,特に低リソースシナリオの有効性が実証された。

The state of art natural language processing systems relies on sizable training datasets to achieve high performance. Lack of such datasets in the specialized low resource domains lead to suboptimal performance. In this work, we adapt backtranslation to generate high quality and linguistically diverse synthetic data for low-resource named entity recognition. We perform experiments on two datasets from the materials science (MaSciP) and biomedical domains (S800). The empirical results demonstrate the effectiveness of our proposed augmentation strategy, particularly in the low-resource scenario.
翻訳日:2021-08-27 14:07:25 公開日:2021-08-26
# フランス語の法定記事検索データセット

A Statutory Article Retrieval Dataset in French ( http://arxiv.org/abs/2108.11792v1 )

ライセンス: Link先を確認
Antoine Louis, Gerasimos Spanakis, Gijs Van Dijck(参考訳) 法定記事検索は、法的問題に関連する法律記事を自動的に検索する作業である。 近年の自然言語処理の進歩は多くの法的タスクに多大な関心が寄せられているが、大規模で高品質な注釈付きデータセットが不足しているため、法定項目の検索は未対応のままである。 このボトルネックに対処するために、ベルギー法定記事検索データセット(bsard)を紹介し、経験豊富な法律家によってラベル付けされた1,100以上のフランス語の法的質問と、ベルギー法記事22,600以上のコーパスから関連する記事からなる。 BSARDを用いて、項重み付けとプール埋め込みに基づく教師なし情報検索手法をベンチマークする。 私たちの最高のパフォーマンスベースラインは、50.8%のr@100を達成しています。 データ領域の特異性と対処課題により、BSARDは法情報検索の今後の研究にユニークな課題を提示している。

Statutory article retrieval is the task of automatically retrieving law articles relevant to a legal question. While recent advances in natural language processing have sparked considerable interest in many legal tasks, statutory article retrieval remains primarily untouched due to the scarcity of large-scale and high-quality annotated datasets. To address this bottleneck, we introduce the Belgian Statutory Article Retrieval Dataset (BSARD), which consists of 1,100+ French native legal questions labeled by experienced jurists with relevant articles from a corpus of 22,600+ Belgian law articles. Using BSARD, we benchmark several unsupervised information retrieval methods based on term weighting and pooled embeddings. Our best performing baseline achieves 50.8% R@100, which is promising for the feasibility of the task and indicates that there is still substantial room for improvement. By the specificity of the data domain and addressed task, BSARD presents a unique challenge problem for future research on legal information retrieval.
翻訳日:2021-08-27 14:07:17 公開日:2021-08-26
# Just say No: 攻撃的文脈におけるニューラルダイアログ生成のスタンスの分析

Just Say No: Analyzing the Stance of Neural Dialogue Generation in Offensive Contexts ( http://arxiv.org/abs/2108.11830v1 )

ライセンス: Link先を確認
Ashutosh Baheti, Maarten Sap, Alan Ritter, Mark Riedl(参考訳) 人間の会話で訓練された対話モデルは、不注意に不快な反応を生み出すことを学ぶ。 さらにモデルは、攻撃的な文脈に同意することで、誰でも侮辱することができる。 文脈的攻撃的言語のダイナミクスを理解するために,攻撃的reddit会話における対話モデル応答のスタンスについて検討する。 具体的には、2000のRedditスレッドと、攻撃的な言語とスタンスでラベル付けされたモデルレスポンスのデータセットであるToxiChatをクラウドアノテートします。 分析の結果,ユーザの反応の42%が有害なコメントに同意しており,その3倍が安全コメント(13%)であることがわかった。 データセットに微調整されたプリトレーニングトランスベースの分類器では,攻撃ラベルが 0.71 f1,スタンスラベルが 0.53 macro-f1 となる。 最後に,既存の制御可能なテキスト生成(ctg)手法を分析し,対話モデルの文脈的攻撃行動の軽減を図る。 ベースラインと比較すると,最高のCTGモデルでは,攻撃的文脈と一致して19%,攻撃的応答が29%減少した。 これは、より安全な対話モデルにおける不適切な行動のより多くの形態を特徴付け、分析するための将来の作業の必要性を浮き彫りにしている。 私たちのコードとコーパスはhttps://github.com/a baheti95/ToxiChat で公開されています。

Dialogue models trained on human conversations inadvertently learn to generate offensive responses. Moreover, models can insult anyone by agreeing with an offensive context. To understand the dynamics of contextually offensive language, we study the stance of dialogue model responses in offensive Reddit conversations. Specifically, we crowd-annotate ToxiChat, a new dataset of 2,000 Reddit threads and model responses labeled with offensive language and stance. Our analysis reveals that 42% of user responses agree with toxic comments; 3x their agreement with safe comments (13%). Pre-trained transformer-based classifiers fine-tuned on our dataset achieve 0.71 F1 for offensive labels and 0.53 Macro-F1 for stance labels. Finally, we analyze some existing controllable text generation (CTG) methods to mitigate the contextual offensive behavior of dialogue models. Compared to the baseline, our best CTG model obtains a 19% reduction in agreement with offensive context and 29% fewer offensive responses. This highlights the need for future work to characterize and analyze more forms of inappropriate behavior in dialogue models to help make them safer. Our code and corpus are available at https://github.com/a baheti95/ToxiChat .
翻訳日:2021-08-27 14:06:58 公開日:2021-08-26
# 抽象テキスト要約のためのコントラスト学習による露出バイアスの軽減

Alleviating Exposure Bias via Contrastive Learning for Abstractive Text Summarization ( http://arxiv.org/abs/2108.11846v1 )

ライセンス: Link先を確認
Shichao Sun and Wenjie Li(参考訳) エンコーダ-デコーダモデルは、1つまたは複数の文書を本質的な内容を失うことなくより短いバージョンに圧縮することを目的として、抽象的なテキスト要約において顕著な成功を収めている。 残念なことにこれらのモデルは、主にトレーニングと推論、すなわち露出バイアスの問題に相違する。 トレーニング段階において、これらのモデルを強制する教師は、デコーダへの入力として金の要約トークンが与えられた金の要約の可能性を最大にするために最適化され、推論時に与えられたトークンは生成されたトークンに置き換えられる。 その結果、低品質の要約が生成される可能性が非常に高い。 この問題を解決するために, コントラスト学習を活用し, 低品質要約の可能性を低減し, その一方で, ゴールド要約の可能性を高めることを提案する。 私たちのソリューションは、トレーニング中にモデルが知覚する状態を拡張するので、露出バイアス問題を軽減できると期待します。 本手法は,異なるデータセット上での最先端モデルの性能を効果的に改善できることを実験的に実証する。

Encoder-decoder models have achieved remarkable success in abstractive text summarization, which aims to compress one or more documents into a shorter version without the loss of the essential content. Unfortunately, these models mostly suffer a discrepancy between training and inference, i.e., the exposure bias problem. During the training stage, with teacher forcing these models are optimized to maximize the likelihood of the gold summary given the gold summary tokens as input to the decoder, while at inference the given tokens are replaced by the generated tokens. Consequently, low-quality summaries are very likely to be generated. To remedy this problem, we propose to leverage contrastive learning to decrease the likelihood of these low-quality summaries, and meanwhile increase the likelihood of the gold summary. Since our solution expands the states that the model perceives during training, we expect that the exposure bias problem can be alleviated. We experimentally demonstrate that our method effectively improves the performance of the state-of-the-art model on different datasets.
翻訳日:2021-08-27 14:06:36 公開日:2021-08-26
# 自動Fact-Checkingに関する調査

A Survey on Automated Fact-Checking ( http://arxiv.org/abs/2108.11896v1 )

ライセンス: Link先を確認
Zhijiang Guo, Michael Schlichtkrull, Andreas Vlachos(参考訳) ファクトチェックは、情報と誤った情報の両方が現代のメディアエコシステムに広まるスピードによってますます重要になっている。 そのため、研究者は、自然言語処理、機械学習、知識表現、データベースに基づく技術を用いて、ファクトチェックを自動化し、クレームの検証性を自動的に予測する方法を模索している。 本稿では,自然言語処理によるファクトチェックの自動化に関する調査を行い,関連するタスクや分野との関係について述べる。 本稿では,既存のデータセットとモデルを概観し,共通概念の定義と識別を統一することを目的とする。 最後に,今後の研究課題を強調する。

Fact-checking has become increasingly important due to the speed with which both information and misinformation can spread in the modern media ecosystem. Therefore, researchers have been exploring how fact-checking can be automated, using techniques based on natural language processing, machine learning, knowledge representation, and databases to automatically predict the veracity of claims. In this paper, we survey automated fact-checking stemming from natural language processing, and discuss its connections to related tasks and disciplines. In this process, we present an overview of existing datasets and models, aiming to unify the various definitions given and identify common concepts. Finally, we highlight challenges for future research.
翻訳日:2021-08-27 14:06:17 公開日:2021-08-26
# HAN: 音声言語理解のための高次注意ネットワーク

HAN: Higher-order Attention Network for Spoken Language Understanding ( http://arxiv.org/abs/2108.11916v1 )

ライセンス: Link先を確認
Dongsheng Chen, Zhiqi Huang, Yuexian Zou(参考訳) 意図検出やスロット充填を含む音声言語理解(slu)は、人間とコンピュータの相互作用のコアコンポーネントである。 2つのサブタスク間の関係の自然な属性は、細かな機能インタラクション、すなわちトークンレベルのインテント機能とスロット機能に対する要求を高くする。 先行研究は主に2つのサブタスクと注意に基づくモデルの関係を協調的にモデル化することに焦点を当てたが、注意秩序の探求は無視された。 本稿では,従来の注目をバイリニアアテンションブロックに置き換えることを提案し,導入した高次アテンションネットワーク(HAN)がSLUタスクの改善をもたらすことを示す。 重要なのは,高次注意から得られる有効性を検討するために,幅広い分析を行うことである。

Spoken Language Understanding (SLU), including intent detection and slot filling, is a core component in human-computer interaction. The natural attributes of the relationship among the two subtasks make higher requirements on fine-grained feature interaction, i.e., the token-level intent features and slot features. Previous works mainly focus on jointly modeling the relationship between the two subtasks with attention-based models, while ignoring the exploration of attention order. In this paper, we propose to replace the conventional attention with our proposed Bilinear attention block and show that the introduced Higher-order Attention Network (HAN) brings improvement for the SLU task. Importantly, we conduct wide analysis to explore the effectiveness brought from the higher-order attention.
翻訳日:2021-08-27 14:06:06 公開日:2021-08-26
# MCML:少しショットスロットタグ付けのための新しいメモリベースコントラストメタラーニング手法

MCML: A Novel Memory-based Contrastive Meta-Learning Method for Few Shot Slot Tagging ( http://arxiv.org/abs/2108.11635v1 )

ライセンス: Link先を確認
Hongru Wang, Zezhong Wang, Gabriel Pui Cheong Fung, Kam-Fai Wong(参考訳) メタラーニングは、数ショット学習のタスクにおいて、数ショットスロットタギングに広く使用されている。 しかし、既存手法の性能は破滅的な忘れ込みの影響を強く受けている。 この現象は、トレーニングとテストモジュールが歴史的情報、すなわち歴史的情報を考慮していないため、ディープラーニングでは一般的である。 メトリックベースのメタラーニングでトレーニング済みのエピソード。 そこで本研究では,メモリベースのContrastive Meta-learning(MCML)手法を提案する。 具体的には,前訓練されたエピソードのラベル表現の追跡に明示的なメモリを使用する学習・メモリ機構を提案し,少数のショットエピソードに埋め込まれた現在のラベルとメモリに記憶されている歴史的なラベルを比較し,テストエピソードに埋め込まれた入力ラベルとメモリ内のラベルクラスタとのコントラストに基づいて出力ラベルを決定する適応型メモリ機構を提案する。 実験の結果,mmlはsnipsデータセットの1ショット,5ショット,10ショット,20ショットのシナリオすべてにおいて,メトリクスベースのメタラーニングと最適化に基づくメタラーニングよりも優れていた。

Meta-learning is widely used for few-shot slot tagging in the task of few-shot learning. The performance of existing methods is, however, seriously affected by catastrophic forgetting. This phenomenon is common in deep learning as the training and testing modules fail to take into account historical information, i.e. previously trained episodes in the metric-based meta-learning. To overcome this predicament, we propose the Memory-based Contrastive Meta-learning (MCML) method. Specifically, we propose a learn-from-memory mechanism that use explicit memory to keep track of the label representations of previously trained episodes and propose a contrastive learning method to compare the current label embedded in the few shot episode with the historic ones stored in the memory, and an adaption-from memory mechanism to determine the output label based on the contrast between the input labels embedded in the test episode and the label clusters in the memory. Experimental results show that MCML is scalable and outperforms metric-based meta-learning and optimization-based meta-learning on all 1shot, 5-shot, 10-shot, and 20-shot scenarios of the SNIPS dataset.
翻訳日:2021-08-27 14:05:47 公開日:2021-08-26
# 自律型温室制御のためのロバストモデルに基づく強化学習

Robust Model-based Reinforcement Learning for Autonomous Greenhouse Control ( http://arxiv.org/abs/2108.11645v1 )

ライセンス: Link先を確認
Wanpeng Zhang, Xiaoyan Cao, Yao Yao, Zhicheng An, Dijun Luo, Xi Xiao(参考訳) 高効率で天候の依存度が低いため、自律的な温室は新鮮な食料の需要の増加に対応する理想的な解決策となる。 しかし、温室効果ガス対策の意思決定空間は天文学的な数字であるため、経営者は作物栽培の適切な管理戦略を見つける上での課題に直面している。 したがって、インテリジェントなクローズドループ制御フレームワークは、自動制御ポリシーを生成するために非常に望ましい。 最適制御のための強力なツールとして、強化学習(RL)アルゴリズムは人間の意思決定を超え、クローズドループ制御フレームワークにシームレスに統合することができる。 しかし、農業自動化制御のような複雑な現実のシナリオでは、環境との相互作用が時間がかかり費用がかかるため、RLアルゴリズムの適用はサンプル効率と安全性という2つの大きな課題に直面している。 モデルベースRL法は温室制御の効率問題を著しく軽減するが,安全性の問題はあまり注目されていない。 本稿では,サンプルの効率と安全性の課題を満たすために,自律的温室効果ガス制御のためのモデルベースロバストrlフレームワークを提案する。 具体的には,シミュレータとして動作し,政策最適化の支援を行う環境モデルのアンサンブルを導入し,サンプル効率の低い問題に対処する。 安全上の問題として,極端ケースにおける温室栽培政策の適応性の向上に寄与する,最悪のサンプルに焦点をあてるサンプルドロップアウトモジュールを提案する。 実験の結果,本手法は既存の手法よりも頑健な温室栽培政策を学習できることが判明した。

Due to the high efficiency and less weather dependency, autonomous greenhouses provide an ideal solution to meet the increasing demand for fresh food. However, managers are faced with some challenges in finding appropriate control strategies for crop growth, since the decision space of the greenhouse control problem is an astronomical number. Therefore, an intelligent closed-loop control framework is highly desired to generate an automatic control policy. As a powerful tool for optimal control, reinforcement learning (RL) algorithms can surpass human beings' decision-making and can also be seamlessly integrated into the closed-loop control framework. However, in complex real-world scenarios such as agricultural automation control, where the interaction with the environment is time-consuming and expensive, the application of RL algorithms encounters two main challenges, i.e., sample efficiency and safety. Although model-based RL methods can greatly mitigate the efficiency problem of greenhouse control, the safety problem has not got too much attention. In this paper, we present a model-based robust RL framework for autonomous greenhouse control to meet the sample efficiency and safety challenges. Specifically, our framework introduces an ensemble of environment models to work as a simulator and assist in policy optimization, thereby addressing the low sample efficiency problem. As for the safety concern, we propose a sample dropout module to focus more on worst-case samples, which can help improve the adaptability of the greenhouse planting policy in extreme cases. Experimental results demonstrate that our approach can learn a more effective greenhouse planting policy with better robustness than existing methods.
翻訳日:2021-08-27 14:05:26 公開日:2021-08-26
# SLIM:Slot-Intent Mapping with BERT for Joint Multi-Intent Detection and Slot Filling

SLIM: Explicit Slot-Intent Mapping with BERT for Joint Multi-Intent Detection and Slot Filling ( http://arxiv.org/abs/2108.11711v1 )

ライセンス: Link先を確認
Fengyu Cai, Wanhao Zhou, Fei Mi and Boi Faltings(参考訳) 発話レベルのインテント検出とトークンレベルのスロット充填は、タスク指向システムにおける自然言語理解(nlu)の2つの重要なタスクである。 既存のアプローチの多くは、発話には単一の意図しか存在しないと仮定している。 しかし、現実のシナリオでは、発話の中に複数の意図があることが多い。 本稿では,BERTに基づくマルチインテント検出とスロットフィリングを共同で学習する,SLIMと呼ばれるマルチインテントNLUフレームワークを提案する。 既存のアノテーションデータを完全に活用し、スロットとインテント間の相互作用をキャプチャするために、SLIMはスロットとインテント間の多対一マッピングを学習するための明示的なスロットインテント分類器を導入した。 3つの公開マルチインテントデータセットの実証的な結果から,(1)複数の意図を持つNLUの最先端技術と比較してSLIMの優れた性能を示し,(2)スロットインテント分類器から得られる利点を示した。

Utterance-level intent detection and token-level slot filling are two key tasks for natural language understanding (NLU) in task-oriented systems. Most existing approaches assume that only a single intent exists in an utterance. However, there are often multiple intents within an utterance in real-life scenarios. In this paper, we propose a multi-intent NLU framework, called SLIM, to jointly learn multi-intent detection and slot filling based on BERT. To fully exploit the existing annotation data and capture the interactions between slots and intents, SLIM introduces an explicit slot-intent classifier to learn the many-to-one mapping between slots and intents. Empirical results on three public multi-intent datasets demonstrate (1) the superior performance of SLIM compared to the current state-of-the-art for NLU with multiple intents and (2) the benefits obtained from the slot-intent classifier.
翻訳日:2021-08-27 14:05:01 公開日:2021-08-26
# 行動検出のためのアイデンティティ対応グラフメモリネットワーク

Identity-aware Graph Memory Network for Action Detection ( http://arxiv.org/abs/2108.11559v1 )

ライセンス: Link先を確認
Jingcheng Ni, Jie Qin, Di Huang(参考訳) アクション検出は、高レベルのビデオ理解とメディア解釈において重要な役割を果たす。 既存の多くの研究は、この時空間的ローカライゼーションを文脈をモデル化し、ビデオで伝えられるアクター、オブジェクト、シーンの関係を捉えている。 しかし、彼らは個人間の一貫性と区別を考慮せずに全ての俳優を普遍的に扱うことが多く、改善の余地がたくさんある。 本稿では,グラフメモリネットワークであるidentity-aware graph memory network (igmn) を通じて,長期的および短期的コンテキストにおけるアクターのアイデンティティ情報を明確に強調する。 具体的には,階層型グラフニューラルネットワーク(HGNN)を提案する。 短期的文脈においては、異なるアイデンティティを持つアクターによる干渉の影響を低減するために、ID認識制約を生成するデュアルアテンションモジュール(DAM)を開発する。 AVAデータセットの大規模な実験により,AVA v2.1 と v2.2 の最先端結果が得られた。

Action detection plays an important role in high-level video understanding and media interpretation. Many existing studies fulfill this spatio-temporal localization by modeling the context, capturing the relationship of actors, objects, and scenes conveyed in the video. However, they often universally treat all the actors without considering the consistency and distinctness between individuals, leaving much room for improvement. In this paper, we explicitly highlight the identity information of the actors in terms of both long-term and short-term context through a graph memory network, namely identity-aware graph memory network (IGMN). Specifically, we propose the hierarchical graph neural network (HGNN) to comprehensively conduct long-term relation modeling within the same identity as well as between different ones. Regarding short-term context, we develop a dual attention module (DAM) to generate identity-aware constraint to reduce the influence of interference by the actors of different identities. Extensive experiments on the challenging AVA dataset demonstrate the effectiveness of our method, which achieves state-of-the-art results on AVA v2.1 and v2.2.
翻訳日:2021-08-27 14:03:45 公開日:2021-08-26
# sketchlattice: スケッチ操作のためのラッチ表現

SketchLattice: Latticed Representation for Sketch Manipulation ( http://arxiv.org/abs/2108.11636v1 )

ライセンス: Link先を確認
Yonggang Qi, Guoyao Su, Pinaki Nath Chowdhury, Mingkang Li, Yi-Zhe Song(参考訳) スケッチ表現を設計する上で重要な課題は、スケッチの抽象的で象徴的な性質を扱うことである。 既存の作品では、(i)既製のcnnベースのネットワークを用いてスケッチを自然な画像として扱うピクセル形式、または(ii)逐次rnnベースの手法で描画順序の構造情報を利用する精巧に設計されたベクター形式のいずれかを使用している。 画素形式は直感的に構造的手がかりを活用できないが、ほとんどの場合、ベクトル形式のスケッチは実用的使用を制限する。 そこで本研究では,ベクトルデータを必要とするボトルネックを除去するだけでなく,ベクトルデータが提供する構造的手がかりも保存する格子構造スケッチ表現を提案する。 本質的に、スケッチ格子(sketch lattice)は、スケッチのピクセル形式から格子グラフを用いてサンプリングされた点の集合である。 我々の格子構造は、生成タスクのスケッチ抽象化モデリングに大きく貢献する構造変化に特に適していることを示す。 格子表現はグラフモデルを用いて効果的に符号化することができ、既存の最先端モデルよりもモデルパラメータ(13.5倍)が大幅に少ない。 広範な実験により,スケッチ修復や画像からスケッチへの合成など,スケッチ操作におけるスケッチ格子の有効性が実証された。

The key challenge in designing a sketch representation lies with handling the abstract and iconic nature of sketches. Existing work predominantly utilizes either, (i) a pixelative format that treats sketches as natural images employing off-the-shelf CNN-based networks, or (ii) an elaborately designed vector format that leverages the structural information of drawing orders using sequential RNN-based methods. While the pixelative format lacks intuitive exploitation of structural cues, sketches in vector format are absent in most cases limiting their practical usage. Hence, in this paper, we propose a lattice structured sketch representation that not only removes the bottleneck of requiring vector data but also preserves the structural cues that vector data provides. Essentially, sketch lattice is a set of points sampled from the pixelative format of the sketch using a lattice graph. We show that our lattice structure is particularly amenable to structural changes that largely benefits sketch abstraction modeling for generation tasks. Our lattice representation could be effectively encoded using a graph model, that uses significantly fewer model parameters (13.5 times lesser) than existing state-of-the-art. Extensive experiments demonstrate the effectiveness of sketch lattice for sketch manipulation, including sketch healing and image-to-sketch synthesis.
翻訳日:2021-08-27 14:03:25 公開日:2021-08-26
# ポイントクラウド登録におけるロバスト損失

A Robust Loss for Point Cloud Registration ( http://arxiv.org/abs/2108.11682v1 )

ライセンス: Link先を確認
Zhi Deng, Yuxin Yao, Bailin Deng, Juyong Zhang(参考訳) 表面レジストレーションの性能は、ソースとターゲット形状のアライメントエラーに使用されるメトリックに大きく依存している。 伝統的に、そのような計量は、原面上の点から目標面上の最も近い点までの点間距離に基づいており、最も近い点対応の不安定性による故障の影響を受ける。 本稿では、2つの形状とランダムな直線との交点に基づく新しい計量法を提案するが、これは特定の対応を前提としない。 単一登録問題に対する直接最適化や,一連の登録問題に対する教師なし学習を含む,広範な実験により,この指標の有効性を検証する。 その結果,提案手法を用いたアルゴリズムは,最先端の最適化手法と教師なし学習手法よりも優れていた。

The performance of surface registration relies heavily on the metric used for the alignment error between the source and target shapes. Traditionally, such a metric is based on the point-to-point or point-to-plane distance from the points on the source surface to their closest points on the target surface, which is susceptible to failure due to instability of the closest-point correspondence. In this paper, we propose a novel metric based on the intersection points between the two shapes and a random straight line, which does not assume a specific correspondence. We verify the effectiveness of this metric by extensive experiments, including its direct optimization for a single registration problem as well as unsupervised learning for a set of registration problems. The results demonstrate that the algorithms utilizing our proposed metric outperforms the state-of-the-art optimization-based and unsupervised learning-based methods.
翻訳日:2021-08-27 14:03:04 公開日:2021-08-26
# Glimpse-Attend-and-E xplore:アクティブビジュアル探索のための自己注意

Glimpse-Attend-and-E xplore: Self-Attention for Active Visual Exploration ( http://arxiv.org/abs/2108.11717v1 )

ライセンス: Link先を確認
Soroush Seifi, Abhishek Jha, Tinne Tuytelaars(参考訳) 能動型視覚探索は,視覚的視野の限られたエージェントが,シーン内で最高の視聴方向を選択した部分的な観察に基づいて環境を理解するのを支援することを目的としている。 最近の手法では、トレーニングが難しい強化学習や、タスク固有で密集した予測タスクにしか実装できない不確実性マップを用いることで、この問題に対処しようと試みている。 本稿では, (a) タスク固有の不確実性マップではなく, 視覚探索をガイドするために自己注意を用いる, (b) 濃密かつスパースな予測タスクに使用できる, (c) コントラストストリームを用いて学習した表現をさらに改善するモデルを提案する。 従来の研究と異なり,再現,セグメント化,分類といった複数のタスクにおけるモデルの適用例を示す。 私たちのモデルは、調査を進める上でデータセットのバイアスに依存せず、成果を奨励するものです。 さらに,本モデルで学習した特徴と注意度を調べるためのアブレーション研究を行った。 最後に,ダウンストリームタスクの損失を最小化することで,シーンの異なる領域への出席を学習することを示す。 コード: https://github.com/s oroushseifi/glimpse- attend-explore。

Active visual exploration aims to assist an agent with a limited field of view to understand its environment based on partial observations made by choosing the best viewing directions in the scene. Recent methods have tried to address this problem either by using reinforcement learning, which is difficult to train, or by uncertainty maps, which are task-specific and can only be implemented for dense prediction tasks. In this paper, we propose the Glimpse-Attend-and-E xplore model which: (a) employs self-attention to guide the visual exploration instead of task-specific uncertainty maps; (b) can be used for both dense and sparse prediction tasks; and (c) uses a contrastive stream to further improve the representations learned. Unlike previous works, we show the application of our model on multiple tasks like reconstruction, segmentation and classification. Our model provides encouraging results while being less dependent on dataset bias in driving the exploration. We further perform an ablation study to investigate the features and attention learned by our model. Finally, we show that our self-attention module learns to attend different regions of the scene by minimizing the loss on the downstream task. Code: https://github.com/s oroushseifi/glimpse- attend-explore.
翻訳日:2021-08-27 14:02:48 公開日:2021-08-26
# 単一ドメインの一般化のための多様性の学習

Learning to Diversify for Single Domain Generalization ( http://arxiv.org/abs/2108.11726v1 )

ライセンス: Link先を確認
Zijian Wang, Yadan Luo, Ruihong Qiu, Zi Huang, Mahsa Baktashmotlagh(参考訳) ドメイン一般化(DG)は、複数のソース(トレーニング)ドメインで訓練されたモデルを、分散的に異なるターゲット(テスト)ドメインに一般化することを目的としている。 本稿では、複数のソースドメインの可用性を厳密に要求する従来のDGとは対照的に、より現実的で困難なシナリオである単一ドメイン一般化(Single-DG)について考察する。 このシナリオでは、限られた多様性は、目に見えないターゲット領域上のモデルの一般化を阻害する可能性がある。 この問題に対処するため,本稿では,原点と相補的な多様な分布の画像を合成することにより,モデルの一般化能力を高めるためのスタイル補完モジュールを提案する。 より具体的には、生成したサンプルとソースの相互情報(MI)のトラクタブルな上限を適用して、2段階の最適化を反復的に実施する。(1) サンプルペアごとにMI上限近似を最小化することにより、生成した画像はソースサンプルから多様化せざるを得なくなり、(2) 同一セマンティックカテゴリのサンプル間でMIを最大化し、ネットワークが多様なスタイルの画像から識別的特徴を学習するのに役立つ。 3つのベンチマークデータセットに対する大規模な実験は、最先端のシングルDGメソッドを最大25.14%上回るアプローチの優位性を示している。

Domain generalization (DG) aims to generalize a model trained on multiple source (i.e., training) domains to a distributionally different target (i.e., test) domain. In contrast to the conventional DG that strictly requires the availability of multiple source domains, this paper considers a more realistic yet challenging scenario, namely Single Domain Generalization (Single-DG), where only one source domain is available for training. In this scenario, the limited diversity may jeopardize the model generalization on unseen target domains. To tackle this problem, we propose a style-complement module to enhance the generalization power of the model by synthesizing images from diverse distributions that are complementary to the source ones. More specifically, we adopt a tractable upper bound of mutual information (MI) between the generated and source samples and perform a two-step optimization iteratively: (1) by minimizing the MI upper bound approximation for each sample pair, the generated images are forced to be diversified from the source samples; (2) subsequently, we maximize the MI between the samples from the same semantic category, which assists the network to learn discriminative features from diverse-styled images. Extensive experiments on three benchmark datasets demonstrate the superiority of our approach, which surpasses the state-of-the-art single-DG methods by up to 25.14%.
翻訳日:2021-08-27 14:02:25 公開日:2021-08-26
# 境界に着目した水中画像意味セマンティクスセグメンテーション法と実際の水中シーンセマンティクスデータセット

An Underwater Image Semantic Segmentation Method Focusing on Boundaries and a Real Underwater Scene Semantic Segmentation Dataset ( http://arxiv.org/abs/2108.11727v1 )

ライセンス: Link先を確認
Zhiwei Ma, Haojie Li, Zhihui Wang, Dan Yu, Tianyi Wang, Yingshuang Gu, Xin Fan, and Zhongxuan Luo(参考訳) 水中物体把持技術の発展に伴い,水中物体認識と高精度セグメンテーションが課題となっている。 既存の水中物体検出技術は、物体の一般的な位置のみを与えることができ、物体の輪郭のようなより詳細な情報を与えることができない。 この問題に対処するために,実シーンの水中意味セグメンテーションデータセット(dut-useg:dut underwater segmentation dataset)をラベル付け,確立する。 dut-usegデータセットは6617のイメージを含み、1487のイメージはセマンティックセグメンテーションとインスタンスセグメンテーションアノテーションを持ち、残りの5130のイメージはオブジェクト検出ボックスアノテーションを持っている。 このデータセットに基づいて,境界(US-Net: Underwater Segmentation Network)に着目した半教師付き水中セマンティックセマンティックセマンティクスネットワークを提案する。 擬似ラベル生成器と境界検出サブネットワークを設計することにより、水中物体と背景の境界の微妙な学習を実現し、境界領域のセグメンテーション効果を向上させる。 提案手法は,dut-usegデータセットにおけるholothurian, echinus, starfishの3つのカテゴリにおいて6.7%改善し,最新結果を得た。 DUTUSEGデータセットはhttps://github.com/b axiyi/DUT-USEGで公開される。

With the development of underwater object grabbing technology, underwater object recognition and segmentation of high accuracy has become a challenge. The existing underwater object detection technology can only give the general position of an object, unable to give more detailed information such as the outline of the object, which seriously affects the grabbing efficiency. To address this problem, we label and establish the first underwater semantic segmentation dataset of real scene(DUT-USEG:DUT Underwater Segmentation Dataset). The DUT- USEG dataset includes 6617 images, 1487 of which have semantic segmentation and instance segmentation annotations, and the remaining 5130 images have object detection box annotations. Based on this dataset, we propose a semi-supervised underwater semantic segmentation network focusing on the boundaries(US-Net: Underwater Segmentation Network). By designing a pseudo label generator and a boundary detection subnetwork, this network realizes the fine learning of boundaries between underwater objects and background, and improves the segmentation effect of boundary areas. Experiments show that the proposed method improves by 6.7% in three categories of holothurian, echinus, starfish in DUT-USEG dataset, and achieves state-of-the-art results. The DUT- USEG dataset will be released at https://github.com/b axiyi/DUT-USEG.
翻訳日:2021-08-27 14:01:57 公開日:2021-08-26
# グループ活動認識のための時空間動的推論ネットワーク

Spatio-Temporal Dynamic Inference Network for Group Activity Recognition ( http://arxiv.org/abs/2108.11743v1 )

ライセンス: Link先を確認
Hangjie Yuan, Dong Ni, Mang Wang(参考訳) グループ活動認識は、人々のグループが行う活動を理解することを目的としている。 これを解決するために、複雑な時空間相互作用のモデル化が鍵となる。 従来の手法は、個人固有の相互作用コンテキストを無視した事前定義されたグラフの推論において制限される。 さらに,計算コストが高く,過度にスムースな問題の原因となる推論方式を採用する。 本稿では、動的関係(DR)モジュールと動的ウォーク(DW)モジュールで構成される動的推論ネットワーク(DIN)を提案することにより、時空間の個人固有の推論を実現する。 まず、一次時空間グラフ上の相互作用場を初期化する。 各相互作用場において,dwと関係行列の予測にdrを適用することで,動的ウォークオフセットを協調処理で予測し,個人特異的相互作用グラフを形成する。 特定のグラフ上の特徴を更新することにより、局所初期化を伴うグローバルレベルの相互作用フィールドを保持できる。 実験は両方のモジュールの有効性を示す。 さらにdinは、同じ設定の2つの人気のあるデータセットにおける以前の最先端のメソッドに比べて大幅に改善され、推論モジュールの計算オーバーヘッドは大幅に削減された。

Group activity recognition aims to understand the activity performed by a group of people. In order to solve it, modeling complex spatio-temporal interactions is the key. Previous methods are limited in reasoning on a predefined graph, which ignores the inherent person-specific interaction context. Moreover, they adopt inference schemes that are computationally expensive and easily result in the over-smoothing problem. In this paper, we manage to achieve spatio-temporal person-specific inferences by proposing Dynamic Inference Network (DIN), which composes of Dynamic Relation (DR) module and Dynamic Walk (DW) module. We firstly propose to initialize interaction fields on a primary spatio-temporal graph. Within each interaction field, we apply DR to predict the relation matrix and DW to predict the dynamic walk offsets in a joint-processing manner, thus forming a person-specific interaction graph. By updating features on the specific graph, a person can possess a global-level interaction field with a local initialization. Experiments indicate both modules' effectiveness. Moreover, DIN achieves significant improvement compared to previous state-of-the-art methods on two popular datasets under the same setting, while costing much less computation overhead of the reasoning module.
翻訳日:2021-08-27 14:01:28 公開日:2021-08-26
# 空中画像オブジェクト検出器における物理対向攻撃

Physical Adversarial Attacks on an Aerial Imagery Object Detector ( http://arxiv.org/abs/2108.11765v1 )

ライセンス: Link先を確認
Andrew Du, Bo Chen, Tat-Jun Chin, Yee Wei Law, Michele Sasdelli, Ramesh Rajasegaran, Dillon Campbell(参考訳) 深層ニューラルネットワーク(dnn)は、地球観測衛星プラットフォームを用いて収集された膨大な航空画像を処理するために不可欠である。 しかし、DNNは敵の例に弱いため、この弱点は空中画像のDNNにも悪影響を及ぼすことが期待される。 本研究では,空撮画像に対する物理的敵意攻撃に対する最初の取り組みの1つを実演し,敵意パッチを最適化し,目標対象物(cars)に製作・設置し,頭上画像に適用した物体検出装置の有効性を著しく低下させる。 航空画像、特に衛星プラットフォームから捉えた画像に対する物理的敵対攻撃は、大気要因(光、天気、季節)と観測者と観測者の間の距離によって挑戦される。 これらの課題の効果を調べるため,我々は,空中の物体探知機に対する物理的敵意攻撃の有効性を評価するための新しい実験と指標を考案した。 以上の結果から,衛星画像処理におけるdnnに対する物理的な敵対的攻撃による脅威が示唆された。

Deep neural networks (DNNs) have become essential for processing the vast amounts of aerial imagery collected using earth-observing satellite platforms. However, DNNs are vulnerable towards adversarial examples, and it is expected that this weakness also plagues DNNs for aerial imagery. In this work, we demonstrate one of the first efforts on physical adversarial attacks on aerial imagery, whereby adversarial patches were optimised, fabricated and installed on or near target objects (cars) to significantly reduce the efficacy of an object detector applied on overhead images. Physical adversarial attacks on aerial images, particularly those captured from satellite platforms, are challenged by atmospheric factors (lighting, weather, seasons) and the distance between the observer and target. To investigate the effects of these challenges, we devised novel experiments and metrics to evaluate the efficacy of physical adversarial attacks against object detectors in aerial scenes. Our results indicate the palpable threat posed by physical adversarial attacks towards DNNs for processing satellite imagery.
翻訳日:2021-08-27 14:01:09 公開日:2021-08-26
# 物体検出における多スペクトルデータに基づく深度分布マップ生成器の比較

A Comparison of Deep Saliency Map Generators on Multispectral Data in Object Detection ( http://arxiv.org/abs/2108.11767v1 )

ライセンス: Link先を確認
Jens Bayer, David M\"unch, Michael Arens(参考訳) ディープニューラルネットワーク、特に畳み込み型ディープニューラルネットワークは、画像、映画、音声を分類、分割、あるいは生成する最新の手法である。 しかし、これらの手法は内部で何が起こるかのセマンティックな理解が不十分である。 なぜcovid-19検出器が肺ct画像の山を陽性と分類したのかという疑問は、全体的な特異性と感度よりも興味深い。 特に人間のドメインエキスパートの知識が与えられた出力と一致しない場合。 このようにして、人間のドメインの専門家は、システムによって指摘される情報に関して、自らの選択を再考することもできます。 さらに、ディープラーニングモデルを制御することもでき、現在のデータセットバイアスを見つけることができる。 現在、コンピュータビジョン領域のほとんどの説明可能なAIメソッドは、画像の分類に純粋に使われており、画像は可視スペクトルの通常の画像である。 その結果、マルチモーダル画像データに対してどのように振る舞うかは比較されず、オブジェクト検出に使用する場合の振舞については、ほとんどの方法が検討されていない。 この仕事はギャップを埋めようとします。 まず,3つのサリエンシマップ生成法について,異なるスペクトル間でどのように異なるかを検討した。 これは正確かつ体系的な訓練によって達成される。 次に,物体検出に用いる際の挙動について検討する。 実用的課題として、自律運転のための赤外線および視覚スペクトルでの物体検出を選択した。 この研究で使用されるデータセットはMultispectral Object Detection Datasetであり、各シーンはFIR、MIR、NIR、および視覚スペクトルで利用可能である。 その結果,赤外線と視覚アクティベーションマップには違いが認められた。 さらに、赤外線と視覚データの両方による高度なトレーニングは、ネットワークの出力を改善するだけでなく、唾液マップのより焦点を絞ったスポットにもつながります。

Deep neural networks, especially convolutional deep neural networks, are state-of-the-art methods to classify, segment or even generate images, movies, or sounds. However, these methods lack of a good semantic understanding of what happens internally. The question, why a COVID-19 detector has classified a stack of lung-ct images as positive, is sometimes more interesting than the overall specificity and sensitivity. Especially when human domain expert knowledge disagrees with the given output. This way, human domain experts could also be advised to reconsider their choice, regarding the information pointed out by the system. In addition, the deep learning model can be controlled, and a present dataset bias can be found. Currently, most explainable AI methods in the computer vision domain are purely used on image classification, where the images are ordinary images in the visible spectrum. As a result, there is no comparison on how the methods behave with multimodal image data, as well as most methods have not been investigated on how they behave when used for object detection. This work tries to close the gaps. Firstly, investigating three saliency map generator methods on how their maps differ across the different spectra. This is achieved via accurate and systematic training. Secondly, we examine how they behave when used for object detection. As a practical problem, we chose object detection in the infrared and visual spectrum for autonomous driving. The dataset used in this work is the Multispectral Object Detection Dataset, where each scene is available in the FIR, MIR and NIR as well as visual spectrum. The results show that there are differences between the infrared and visual activation maps. Further, an advanced training with both, the infrared and visual data not only improves the network's output, it also leads to more focused spots in the saliency maps.
翻訳日:2021-08-27 14:00:51 公開日:2021-08-26
# 集合学習によるカテゴリ間ビデオハイライト検出

Cross-category Video Highlight Detection via Set-based Learning ( http://arxiv.org/abs/2108.11770v1 )

ライセンス: Link先を確認
Minghao Xu, Hang Wang, Bingbing Ni, Riheng Zhu, Zhenbang Sun, Changhu Wang(参考訳) ソーシャルメディアプラットフォーム上での動画閲覧の効率を高めるためには、自律ハイライト検出が不可欠である。 データ駆動方式でこの目標を達成するためには、実際に使用される対象ビデオカテゴリではハイライトアノテーションが利用できない場合が多いが、別のビデオカテゴリ(ソースビデオカテゴリと命名される)の監督は達成可能である。 このような状況において、ソースビデオカテゴリから取得したハイライト知識をターゲットに転送することにより、ターゲットビデオカテゴリの効果的なハイライト検出を導出することができる。 我々はこの問題をカテゴリ間ビデオハイライト検出と呼び、これまで研究されてきたことはめったにない。 このような現実的な問題に対処するために,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。 本フレームワークでは,より広いコンテキスト下でビデオセグメントのハイライト範囲を評価することにより,従来のペアベース学習を改善するために,まずセットベース学習モジュール(SLモジュール)を設計する。 このような学習方法に基づき,2つの異なる学習者を紹介し,対象カテゴリービデオの基本的な識別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴について述べる。 これら2種類のハイライト知識は、知識蒸留によってさらに統合される。 3つのベンチマークデータセットに対する大規模な実験は、提案したSL-モジュールの優位性を示し、DL-VHD法は、様々なカテゴリのハイライト検出タスクにおいて、5つの典型的なUnsupervised Domain Adaptation (UDA)アルゴリズムより優れている。 私たちのコードはhttps://github.com/C hrisAllenMing/Cross_ Category_Video_Highl ightで利用可能です。

Autonomous highlight detection is crucial for enhancing the efficiency of video browsing on social media platforms. To attain this goal in a data-driven way, one may often face the situation where highlight annotations are not available on the target video category used in practice, while the supervision on another video category (named as source video category) is achievable. In such a situation, one can derive an effective highlight detector on target video category by transferring the highlight knowledge acquired from source video category to the target one. We call this problem cross-category video highlight detection, which has been rarely studied in previous works. For tackling such practical problem, we propose a Dual-Learner-based Video Highlight Detection (DL-VHD) framework. Under this framework, we first design a Set-based Learning module (SL-module) to improve the conventional pair-based learning by assessing the highlight extent of a video segment under a broader context. Based on such learning manner, we introduce two different learners to acquire the basic distinction of target category videos and the characteristics of highlight moments on source video category, respectively. These two types of highlight knowledge are further consolidated via knowledge distillation. Extensive experiments on three benchmark datasets demonstrate the superiority of the proposed SL-module, and the DL-VHD method outperforms five typical Unsupervised Domain Adaptation (UDA) algorithms on various cross-category highlight detection tasks. Our code is available at https://github.com/C hrisAllenMing/Cross_ Category_Video_Highl ight .
翻訳日:2021-08-27 14:00:22 公開日:2021-08-26
# 視聴覚イベントローカライズのためのマルチモジュレーションネットワーク

Multi-Modulation Network for Audio-Visual Event Localization ( http://arxiv.org/abs/2108.11773v1 )

ライセンス: Link先を確認
Hao Wang, Zheng-Jun Zha, Liang Li, Xuejin Chen, Jiebo Luo(参考訳) 本研究では,可聴性と可視性を兼ね備えた視聴覚イベントのローカライズについて検討する。 既存の作業は,2つのモードのセグメント間の情報的相関や,マルチスケールなイベントの提案を無視しながら,セグメントレベルでの音声と視覚の特徴の符号化と調整に重点を置いている。 以上の相関関係を学習し,それを意味指導として活用し,関連する聴覚・視覚・融合特徴を変調する新しいマルチ変調ネットワーク(M2N)を提案する。 特に特徴エンコーディングにおいて,クロスモーダル正規化とイントラモーダル正規化を提案する。 前者は、交叉モーダル関係を確立し、活用することにより、2つのモーダルの特徴を変調する。 後者は、同じモダリティのイベント関連セマンティックガイダンスで単一のモダリティの特徴を変調する。 融合段階では,マルチスケールのイベント提案を導入し,クロスモーダルセグメント間の密マッチングを可能にするマルチスケール提案変調モジュールとマルチアグリゲーションセグメント変調モジュールを提案する。 M2Nは、聴覚、視覚、融合の特徴を、音声・視覚イベントに関する相関情報によって変調することにより、正確なイベントローカライゼーションを行う。 AVEデータセット上で行った大規模な実験により,提案手法は,教師付きイベントの局所化と相互モダリティの局所化の両方において,最先端の手法であることがわかった。

We study the problem of localizing audio-visual events that are both audible and visible in a video. Existing works focus on encoding and aligning audio and visual features at the segment level while neglecting informative correlation between segments of the two modalities and between multi-scale event proposals. We propose a novel MultiModulation Network (M2N) to learn the above correlation and leverage it as semantic guidance to modulate the related auditory, visual, and fused features. In particular, during feature encoding, we propose cross-modal normalization and intra-modal normalization. The former modulates the features of two modalities by establishing and exploiting the cross-modal relationship. The latter modulates the features of a single modality with the event-relevant semantic guidance of the same modality. In the fusion stage,we propose a multi-scale proposal modulating module and a multi-alignment segment modulating module to introduce multi-scale event proposals and enable dense matching between cross-modal segments. With the auditory, visual, and fused features modulated by the correlation information regarding audio-visual events, M2N performs accurate event localization. Extensive experiments conducted on the AVE dataset demonstrate that our proposed method outperforms the state of the art in both supervised event localization and cross-modality localization.
翻訳日:2021-08-27 13:59:55 公開日:2021-08-26
# State of the Art: Image Hashing

State of the Art: Image Hashing ( http://arxiv.org/abs/2108.11794v1 )

ライセンス: Link先を確認
Rubel Biswas and Pablo Blanco-Medina(参考訳) 知覚的画像ハッシュ法は、画像検索、重複画像やほぼ重複画像の発見、大規模画像コンテンツからの類似画像の発見など、様々な目的に応用されることが多い。 画像ハッシュ技術の主な課題はロバストな特徴抽出であり、視覚的に同一の画像で同じまたは類似のハッシュを生成する。 本稿では,従来の知覚ハッシュ法と深層学習に基づく知覚ハッシュ法について概説する。

Perceptual image hashing methods are often applied in various objectives, such as image retrieval, finding duplicate or near-duplicate images, and finding similar images from large-scale image content. The main challenge in image hashing techniques is robust feature extraction, which generates the same or similar hashes in images that are visually identical. In this article, we present a short review of the state-of-the-art traditional perceptual hashing and deep learning-based perceptual hashing methods, identifying the best approaches.
翻訳日:2021-08-27 13:59:32 公開日:2021-08-26
# ORにおける臨床ポーズ推定と事例分割のための教師なしドメイン適応

Unsupervised domain adaptation for clinician pose estimation and instance segmentation in the OR ( http://arxiv.org/abs/2108.11801v1 )

ライセンス: Link先を確認
Vinkle Srivastav, Afshin Gangi, Nicolas Padoy(参考訳) 手術室(OR)における臨床医の微細な局在化は,新世代のOR支援システムを設計する上で重要な要素である。 人物のピクセルに基づくセグメンテーションとボディーキーポイント検出のためのコンピュータビジョンモデルは、臨床活動とorの空間配置をよりよく理解するために必要である。 ORイメージが従来のビジョンデータセットと大きく異なるだけでなく、プライバシ上の懸念から、データやアノテーションの収集や生成が難しいため、これは難しい作業です。 これらの懸念に対処するため,まず1倍から12倍までの低解像度画像に対して,共同人物のポーズ推定とインスタンスセグメンテーションの実施について検討する。 第二に、ドメインシフトとアノテーションの欠如に対処するために、ラベル付きソースドメインから統計的に異なるラベルなしターゲットドメインにモデルを適応させる、新しい教師なしドメイン適応法である「emph{Adaptor}」を提案する。 本稿では,ラベル付き対象領域画像の異なる拡張に対する明示的な幾何学的制約を利用して,正確な擬似ラベルを生成することを提案し,これらの擬似ラベルを用いて,高解像度のOR画像と低解像度のOR画像を用いて,emph{self-training}フレームワークでモデルを訓練する。 さらに,統計的に異なるソースと対象ドメインデータを扱うために,emph{disentangled feature normalization}を提案する。 2つのデータセットである \emph{mvor+} と \emph{tum-or-test} に関する詳細なアブレーション実験の結果は、特に低解像度のプライバシー保護や画像において、強固に構築されたベースラインに対するアプローチの有効性を示している。 最後に,100\%のラベル付き教師付き教師付き教師付きモデルに対して,ラベル付き監督の最大数 \textbf{1\%} で比較結果が得られる大規模データ集合 \emph{coco} 上で,半教師付き学習 (ssl) 法として手法の汎用性を示す。

The fine-grained localization of clinicians in the operating room (OR) is a key component to design the new generation of OR support systems. Computer vision models for person pixel-based segmentation and body-keypoints detection are needed to better understand the clinical activities and the spatial layout of the OR. This is challenging, not only because OR images are very different from traditional vision datasets, but also because data and annotations are hard to collect and generate in the OR due to privacy concerns. To address these concerns, we first study how joint person pose estimation and instance segmentation can be performed on low resolutions images from 1x to 12x. Second, to address the domain shift and the lack of annotations, we propose a novel unsupervised domain adaptation method, called \emph{AdaptOR}, to adapt a model from an \emph{in-the-wild} labeled source domain to a statistically different unlabeled target domain. We propose to exploit explicit geometric constraints on the different augmentations of the unlabeled target domain image to generate accurate pseudo labels, and using these pseudo labels to train the model on high- and low-resolution OR images in a \emph{self-training} framework. Furthermore, we propose \emph{disentangled feature normalization} to handle the statistically different source and target domain data. Extensive experimental results with detailed ablation studies on the two OR datasets \emph{MVOR+} and \emph{TUM-OR-test} show the effectiveness of our approach against strongly constructed baselines, especially on the low-resolution privacy-preserving OR images. Finally, we show the generality of our method as a semi-supervised learning (SSL) method on the large-scale \emph{COCO} dataset, where we achieve comparable results with as few as \textbf{1\%} of labeled supervision against a model trained with 100\% labeled supervision.
翻訳日:2021-08-27 13:59:23 公開日:2021-08-26
# HyperPoseを用いた高速で柔軟なヒューマンポース推定

Fast and Flexible Human Pose Estimation with HyperPose ( http://arxiv.org/abs/2108.11826v1 )

ライセンス: Link先を確認
Yixiao Guo, Jiawei Liu, Guo Li, Luo Mai, Hao Dong(参考訳) 人間のポーズを推定することはマルチメディアアプリケーションにおいて重要な課題である。 既存のポーズ推定ライブラリは、標準ポーズ推定アルゴリズムを再現する。 現実世界のアプリケーションでこれらのアルゴリズムをカスタマイズする際、既存のライブラリはカスタムポーズ推定アルゴリズムを開発する柔軟性と、これらのアルゴリズムをコモディティデバイスで実行する高性能の両方を提供することができない。 本稿では,新しいフレキシブルかつ高性能なポーズ推定ライブラリであるHyperposeを紹介する。 Hyperposeは、開発者がアプリケーションのポーズ推定アルゴリズムを簡単にカスタマイズできる表現力のあるPython APIを提供する。 さらに、リアルタイムポーズ推定に最適化されたモデル推論エンジンを提供する。 このエンジンは、慎重に設計されたポーズ推定タスクをCPUやGPUに動的にディスパッチすることで、デプロイメント環境に関係なく、ハードウェアリソースの高活用を自動で実現する。 広範な評価結果から,hyperposeは推定精度を損なうことなく,最先端のポーズ推定ライブラリと比較して最大3.1x~7.3倍高いポーズ推定スループットを達成できることがわかった。 2021年までに、hyperposeはgithubで1000以上の星を獲得し、業界とアカデミーの両方からユーザを引き付けた。

Estimating human pose is an important yet challenging task in multimedia applications. Existing pose estimation libraries target reproducing standard pose estimation algorithms. When it comes to customising these algorithms for real-world applications, none of the existing libraries can offer both the flexibility of developing custom pose estimation algorithms and the high-performance of executing these algorithms on commodity devices. In this paper, we introduce Hyperpose, a novel flexible and high-performance pose estimation library. Hyperpose provides expressive Python APIs that enable developers to easily customise pose estimation algorithms for their applications. It further provides a model inference engine highly optimised for real-time pose estimation. This engine can dynamically dispatch carefully designed pose estimation tasks to CPUs and GPUs, thus automatically achieving high utilisation of hardware resources irrespective of deployment environments. Extensive evaluation results show that Hyperpose can achieve up to 3.1x~7.3x higher pose estimation throughput compared to state-of-the-art pose estimation libraries without compromising estimation accuracy. By 2021, Hyperpose has received over 1000 stars on GitHub and attracted users from both industry and academy.
翻訳日:2021-08-27 13:58:47 公開日:2021-08-26
# 弱教師付きセグメンテーション学習のための自己教師付きマルチスケール一貫性

Self-supervised Multi-scale Consistency for Weakly Supervised Segmentation Learning ( http://arxiv.org/abs/2108.11900v1 )

ライセンス: Link先を確認
Gabriele Valvano, Andrea Leo, Sotirios A. Tsaftaris(参考訳) 詳細なアノテーションによる大規模な医療データセットの収集には時間がかかり、専門家が必要です。 そのため、弱い教師付き学習は、スクリブルのようなより弱い形式のアノテーションを使って機械学習モデルを最適化することを目的としており、より簡単かつ迅速に収集できる。 残念ながら、弱いラベルでのトレーニングは困難で、定期化が必要です。 本稿では,注目機構と組み合わさって,セグメンタがオブジェクト間のマルチスケール関係を学習し,性能を向上する,新たな自己教師型マルチスケール一貫性損失を提案する。 いくつかの医学的および非医学的データセットに最先端のパフォーマンスを示す。 実験に使用されたコードはhttps://vios-s.githu b.io/multiscale-pyag .com/で入手できる。

Collecting large-scale medical datasets with fine-grained annotations is time-consuming and requires experts. For this reason, weakly supervised learning aims at optimising machine learning models using weaker forms of annotations, such as scribbles, which are easier and faster to collect. Unfortunately, training with weak labels is challenging and needs regularisation. Herein, we introduce a novel self-supervised multi-scale consistency loss, which, coupled with an attention mechanism, encourages the segmentor to learn multi-scale relationships between objects and improves performance. We show state-of-the-art performance on several medical and non-medical datasets. The code used for the experiments is available at https://vios-s.githu b.io/multiscale-pyag .
翻訳日:2021-08-27 13:58:31 公開日:2021-08-26
# メッシュリカバリのための確率的モデリング

Probabilistic Modeling for Human Mesh Recovery ( http://arxiv.org/abs/2108.11944v1 )

ライセンス: Link先を確認
Nikos Kolotouros, Georgios Pavlakos, Dinesh Jayaraman, Kostas Daniilidis(参考訳) 本稿は,2次元証拠による3次元人体再構成の問題に焦点をあてる。 これは本質的に曖昧な問題であるが、最近の作品の大半は不確実性モデリングを避け、通常は与えられた入力に対する単一の推定を後退させる。 これとは対照的に,本稿では,再構成のあいまいさを取り入れることを提案し,入力から3Dポーズの分布へのマッピングを学習するものとして,問題を再考する。 我々のアプローチは正規化フローモデルに基づいており、一連の利点を提供している。 従来, 単一の3次元推定が必要であった場合, 効率的なモード計算が可能であった。 このモードを使用すると、決定論的ユニモーダル回帰モデルにおける技術の状態と同等のパフォーマンスが得られる。 同時に、各サンプルの確率にアクセスできるので、我々のモデルは一連の下流タスクにおいて有用であることを示し、予測の確率的性質をより正確に推定するためのツールとして活用する。 これらのタスクには、複数の未対応ビューからの再構築、および私たちのモデルがメッシュリカバリの強力なイメージベースプリエントとして機能するヒューマンモデルフィッティングが含まれます。 本結果は,確率的モデリングの重要性を検証し,各種設定における最先端性能を示す。 https://www.seas.upe nn.edu/~nkolot/proje cts/prohmr。

This paper focuses on the problem of 3D human reconstruction from 2D evidence. Although this is an inherently ambiguous problem, the majority of recent works avoid the uncertainty modeling and typically regress a single estimate for a given input. In contrast to that, in this work, we propose to embrace the reconstruction ambiguity and we recast the problem as learning a mapping from the input to a distribution of plausible 3D poses. Our approach is based on the normalizing flows model and offers a series of advantages. For conventional applications, where a single 3D estimate is required, our formulation allows for efficient mode computation. Using the mode leads to performance that is comparable with the state of the art among deterministic unimodal regression models. Simultaneously, since we have access to the likelihood of each sample, we demonstrate that our model is useful in a series of downstream tasks, where we leverage the probabilistic nature of the prediction as a tool for more accurate estimation. These tasks include reconstruction from multiple uncalibrated views, as well as human model fitting, where our model acts as a powerful image-based prior for mesh recovery. Our results validate the importance of probabilistic modeling, and indicate state-of-the-art performance across a variety of settings. Code and models are available at: https://www.seas.upe nn.edu/~nkolot/proje cts/prohmr.
翻訳日:2021-08-27 13:58:20 公開日:2021-08-26
# AVATAR: Java-Pythonプログラム翻訳のための並列コーパス

AVATAR: A Parallel Corpus for Java-Python Program Translation ( http://arxiv.org/abs/2108.11590v1 )

ライセンス: Link先を確認
Wasi Uddin Ahmad, Md Golam Rahman Tushar, Saikat Chakraborty, Kai-Wei Chang(参考訳) プログラム翻訳とは、あるプログラミング言語から別のプログラミング言語へソースコードを移行することを指す。 異なる言語にソフトウェアを移植するのは時間と費用がかかるため、ソフトウェア開発において非常に実践的な価値があります。 プログラム翻訳の自動化はソフトウェア移行において最重要であり、近年の研究者らは並列コーパスが利用できないために教師なしアプローチを探求している。 しかし、プログラム言語のための事前訓練された言語モデルの可用性は、少数のラベル付き例で教師付き微調整を可能にする。 本研究では,8,475のプログラミング問題とその解決法をJavaとPythonの2言語で記述したコーパスを提案する。 競合するプログラミングサイト、オンラインプラットフォーム、オープンソースリポジトリからデータセットを収集します。 大規模なソースコード収集や提案データセットの微調整など,スクラッチからトレーニングされたモデルを含む,いくつかのベースラインを提示する。 実験の結果、モデルは語彙マッチングでは比較的よく機能するが、構文やデータフローマッチングで正確なコードを生成することができないことがわかった。

Program translation refers to migrating source code from one programming language to another. It has a tremendous practical value in software development as porting software across different languages is time-consuming and costly. Automating program translation is of paramount importance in software migration, and recently researchers explored unsupervised approaches due to the unavailability of parallel corpora. However, the availability of pre-trained language models for programming languages enable supervised fine-tuning with a small amount of labeled examples. In this work, we present a corpus of 8,475 programming problems and their solutions written in two popular languages, Java and Python. We collect the dataset from competitive programming sites, online platforms, and open source repositories. We present several baselines, including models trained from scratch or pre-trained on large-scale source code collection and fine-tuned on our proposed dataset. Experiment results show that while the models perform relatively well in terms of the lexical match, they lack in generating code that is accurate in terms of syntax and data-flow match.
翻訳日:2021-08-27 13:58:01 公開日:2021-08-26
# Retrieval Augmented Code GenerationとSummarization

Retrieval Augmented Code Generation and Summarization ( http://arxiv.org/abs/2108.11601v1 )

ライセンス: Link先を確認
Md Rizwan Parvez, Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang(参考訳) ソフトウェア開発者は、ソフトウェア開発中に多くのソースコードとドキュメントを書きます。 本質的に、開発者はソフトウェアの実装やドキュメント化をしながら、過去に書いたソースコードやコード要約の一部を思い出すことが多い。 開発者のコードや要約生成動作を模倣するために,検索データベースから関連コードや要約を検索し,コード生成や要約モデルへの補完として提供する検索拡張フレームワークである‘tool’を提案する。 \tool にはいくつかの特異性がある。 まず、最先端の高密度検索技術を拡張して、関連するコードや要約を検索する。 第2に、ユニモーダル(コードまたは自然言語記述のみ)やバイモーダルインスタンス(コード記述ペア)を含む検索データベースと連携することができる。 我々は,Java と Python のコード生成と要約のベンチマークデータセットに関する実験と広範囲な解析を行い,提案した検索拡張フレームワークの有効性を裏付ける有望な結果を得た。

Software developers write a lot of source code and documentation during software development. Intrinsically, developers often recall parts of source code or code summaries that they had written in the past while implementing software or documenting them. To mimic developers' code or summary generation behavior, we propose a retrieval augmented framework, \tool, that retrieves relevant code or summaries from a retrieval database and provides them as a supplement to code generation or summarization models. \tool has a couple of uniqueness. First, it extends the state-of-the-art dense retrieval technique to search for relevant code or summaries. Second, it can work with retrieval databases that include unimodal (only code or natural language description) or bimodal instances (code-description pairs). We conduct experiments and extensive analysis on two benchmark datasets of code generation and summarization in Java and Python, and the promising results endorse the effectiveness of our proposed retrieval augmented framework.
翻訳日:2021-08-27 13:57:45 公開日:2021-08-26
# アスペクトレベルの感情分析のための知識グラフ強調アスペクト埋め込みのスケーラブルなエンドツーエンドトレーニング

Scalable End-to-End Training of Knowledge Graph-Enhanced Aspect Embedding for Aspect Level Sentiment Analysis ( http://arxiv.org/abs/2108.11656v1 )

ライセンス: Link先を確認
Sk Mainul Islam, Sourangshu Bhattacharya(参考訳) アスペクトレベルの感情分類(ALSC)は、ベンチマークデータセットの80%未満のマクロF1スコアを示す最先端モデルの難しい問題である。 既存のモデルは知識グラフ(KG)におけるアスペクト・アスペクト関係に関する情報を含まない。 dbpedia所属。 主な課題は、KGエンティティに対するアスペクトの不正確な曖昧さと、ALSCモデルとの共同トレーニングにおいて、大きなKGからアスペクト表現を学習できないことにある。 KGをベースとしたアスペクト埋め込みとALSCモデルの効率的な共同学習を可能にする2段階のグローバルな実体埋め込み方式を提案する。 アスペクトの曖昧さにおける不正確な問題に対処する,新しい不正確な曖昧さ検出手法を提案する。 提案手法は最近のBERTベースのベースラインよりも2.5~4.1ドルの一貫した改善を示す。

Aspect level sentiment classification (ALSC) is a difficult problem with state-of-the-art models showing less than 80% macro-F1 score on benchmark datasets. Existing models do not incorporate information on aspect-aspect relations in knowledge graphs (KGs), e.g. DBpedia. Two main challenges stem from inaccurate disambiguation of aspects to KG entities, and the inability to learn aspect representations from the large KGs in joint training with ALSC models. We propose a two-level global-local entity embedding scheme that allows efficient joint training of KG-based aspect embeddings and ALSC models. A novel incorrect disambiguation detection technique addresses the problem of inaccuracy in aspect disambiguation. The proposed methods show a consistent improvement of $2.5 - 4.1$ percentage points, over the recent BERT-based baselines.
翻訳日:2021-08-27 13:57:27 公開日:2021-08-26
# オンライン偽情報検出とマニピュレーションのための技術アプローチ

Technological Approaches to Detecting Online Disinformation and Manipulation ( http://arxiv.org/abs/2108.11669v1 )

ライセンス: Link先を確認
Ale\v{s} Hor\'ak, V\'it Baisa, Ond\v{r}ej Herman(参考訳) プロパガンダや偽情報をオンライン環境に移すことは、過去10年間にデジタル情報チャンネルがニュースソースとして急速に普及したという事実により可能である。 このようなメディアの主な利点は、情報生成と普及のスピードにある。 これに対し、必然的にプレッシャーが増し、編集作業の加速、事実確認、ソース信頼性の精査が促進される。 本章では,複数の基準に基づき,不正情報やマニピュレーション手法を検出するためのコンピュータ支援手法の概要について述べる。 本稿では,ファクトチェック,トピック識別,テキストスタイル分析,あるいはソーシャルメディアチャネルにおけるメッセージフィルタリングをサポートする自動手法の技術的側面に着目する。 ほとんどの技術は、利用可能な情報リソースを組み合わせた特徴抽出を伴う人工知能と機械学習を使用している。 以下のテキストは、まず操作と情報拡散のコンピュータ検出に関連するタスクを指定する。 第2のセクションは、分析のタスクを解決するための具体的な方法を示し、第3のセクションは、評価と比較のために、この領域で公開および使用される現在の検証およびベンチマークデータセットを列挙する。

The move of propaganda and disinformation to the online environment is possible thanks to the fact that within the last decade, digital information channels radically increased in popularity as a news source. The main advantage of such media lies in the speed of information creation and dissemination. This, on the other hand, inevitably adds pressure, accelerating editorial work, fact-checking, and the scrutiny of source credibility. In this chapter, an overview of computer-supported approaches to detecting disinformation and manipulative techniques based on several criteria is presented. We concentrate on the technical aspects of automatic methods which support fact-checking, topic identification, text style analysis, or message filtering on social media channels. Most of the techniques employ artificial intelligence and machine learning with feature extraction combining available information resources. The following text firstly specifies the tasks related to computer detection of manipulation and disinformation spreading. The second section presents concrete methods of solving the tasks of the analysis, and the third sections enlists current verification and benchmarking datasets published and used in this area for evaluation and comparison.
翻訳日:2021-08-27 13:57:15 公開日:2021-08-26
# テキストからの共感と心の理論の計算的アプローチ

A Computational Approach to Measure Empathy and Theory-of-Mind from Written Texts ( http://arxiv.org/abs/2108.11810v1 )

ライセンス: Link先を確認
Yoon Kyung Lee, Inju Lee, Jae Eun Park, Yoonwon Jung, Jiwon Kim, Sowon Hahn(参考訳) 人の意図や思考を推測する人間の能力である理論・オブ・ミンド(ToM)は共感経験の重要な部分である。 ここでは、NLPモデルを使用してテキストで表現されたToMを測定するためのフレームワークを提供する。 そこで本研究では,ToMレベルの異なる朝鮮語文74,014文をクラウドソーシングした18,238の日記であるToM-Diaryを紹介する。 各日記は、訓練された心理学生によってToMレベルに注釈付けされ、選択された心理学専門家によってレビューされた。 アノテータは最初に、他の人に言及したかどうかに基づいて日記を分割した。 自己中心の文章の例は「私は気分が良い」である。 他の文は、さらに異なるレベルに分類された。 これらのレベルは、1)心的状態を推測せずに他人の存在を語る(例:通りを歩いてる男を見た)か、2)他人の視点を採らない(例:なぜマスクを着るのを拒むのか理解できない)か、または3)他人の視点を採る(例:働き続けるのが困難だったに違いない)かによって異なる。 文中のToMレベルを,最先端の変換器ベースモデル(BERTなど)で予測できるかどうかを検討した。 bertは,他の言語よりも自己中心文の検出に成功していることがわかった。 他人の視点(最も高いtomレベル)をうまく捉えた文は、予測するのが最も困難だった。 本研究は,著者が共感し,他者の視点を捉える能力を見極めるための,大規模かつ計算的なアプローチに有望な方向性を示唆する。 データセットは[URL](https://github.com/ Humanfactorspsych/co vid19-tom-empathy-di ary)。

Theory-of-mind (ToM), a human ability to infer the intentions and thoughts of others, is an essential part of empathetic experiences. We provide here the framework for using NLP models to measure ToM expressed in written texts. For this purpose, we introduce ToM-Diary, a crowdsourced 18,238 diaries with 74,014 Korean sentences annotated with different ToM levels. Each diary was annotated with ToM levels by trained psychology students and reviewed by selected psychology experts. The annotators first divided the diaries based on whether they mentioned other people: self-focused and other-focused. Examples of self-focused sentences are "I am feeling good". The other-focused sentences were further classified into different levels. These levels differ by whether the writer 1) mentions the presence of others without inferring their mental state(e.g., I saw a man walking down the street), 2) fails to take the perspective of others (e.g., I don't understand why they refuse to wear masks), or 3) successfully takes the perspective of others (It must have been hard for them to continue working). We tested whether state-of-the-art transformer-based models (e.g., BERT) could predict underlying ToM levels in sentences. We found that BERT more successfully detected self-focused sentences than other-focused ones. Sentences that successfully take the perspective of others (the highest ToM level) were the most difficult to predict. Our study suggests a promising direction for large-scale and computational approaches for identifying the ability of authors to empathize and take the perspective of others. The dataset is at [URL](https://github.com/ humanfactorspsych/co vid19-tom-empathy-di ary)
翻訳日:2021-08-27 13:56:57 公開日:2021-08-26
# SAUCE: 高速Webスケールコーパス拡張のための縮小スパース文書署名ビットベクタ

SAUCE: Truncated Sparse Document Signature Bit-Vectors for Fast Web-Scale Corpus Expansion ( http://arxiv.org/abs/2108.11948v1 )

ライセンス: Link先を確認
Muntasir Wahed, Daniel Gruhl, Alfredo Alba, Anna Lisa Gentile, Petar Ristoski, Chad Deluca, Steve Welch, Ismini Lourentzou(参考訳) テキスト表現の最近の進歩は、大量のテキストの訓練が自然言語理解にとって重要であることを示している。 しかし、トピック的関心の概念を事前に定義せずに訓練されたモデルは、通常、特定のドメインに転送する際には慎重に微調整する必要がある。 十分な量のドメイン内テキストが利用できない場合、関連するドキュメントのシードコーパスを大規模Webデータから拡張することは、いくつかの課題をもたらす。 まず,Webコーパスのサイズが大きくなるにつれて,計算コストが急速に高くなるような処理を行う。 密度の大きいベクトル空間とペアワイズ類似性に頼れば、計算コストが増大する。 第二に、ドメインの概念がより曖昧になるにつれて、ドメイン固有の稀な用語の長い尾を捉えることは、特に限られた種子コーパスのシナリオ下では非自明になる。 本稿では,いくつかの関連文書を持つ小さなシードコーパスを問合せとして,ドメイン固有の概念用語の長い尾を捉えることを目的とした,高速な近似コーパス展開の問題について考察する。 関連性フィードバックが限定された大規模ドメイン固有コーパスを効率よく収集するため,SAUCE (Signature Assisted Unsupervised Corpus Expansion) と呼ばれる,新規なスパース文書ビットベクトル表現を提案する。 実験の結果,SAUCEは高いドメイン内語彙カバレッジを確保しつつ計算負担を軽減できることがわかった。

Recent advances in text representation have shown that training on large amounts of text is crucial for natural language understanding. However, models trained without predefined notions of topical interest typically require careful fine-tuning when transferred to specialized domains. When a sufficient amount of within-domain text may not be available, expanding a seed corpus of relevant documents from large-scale web data poses several challenges. First, corpus expansion requires scoring and ranking each document in the collection, an operation that can quickly become computationally expensive as the web corpora size grows. Relying on dense vector spaces and pairwise similarity adds to the computational expense. Secondly, as the domain concept becomes more nuanced, capturing the long tail of domain-specific rare terms becomes non-trivial, especially under limited seed corpora scenarios. In this paper, we consider the problem of fast approximate corpus expansion given a small seed corpus with a few relevant documents as a query, with the goal of capturing the long tail of a domain-specific set of concept terms. To efficiently collect large-scale domain-specific corpora with limited relevance feedback, we propose a novel truncated sparse document bit-vector representation, termed Signature Assisted Unsupervised Corpus Expansion (SAUCE). Experimental results show that SAUCE can reduce the computational burden while ensuring high within-domain lexical coverage.
翻訳日:2021-08-27 13:56:26 公開日:2021-08-26
# テキスト生成と分類のための記号ベクトル結合の潜時空間エネルギーモデル

Latent Space Energy-Based Model of Symbol-Vector Coupling for Text Generation and Classification ( http://arxiv.org/abs/2108.11556v1 )

ライセンス: Link先を確認
Bo Pang, Ying Nian Wu(参考訳) テキスト生成と分類のための遅延空間エネルギーに基づく先行モデルを提案する。 このモデルは連続潜在ベクトルに基づいてテキストシーケンスを生成するジェネレータネットワーク上に立っている。 先行モデルのエネルギー項は連続的潜在ベクトルとシンボリックな1ホットベクトルを結合するので、離散圏は連続的潜在ベクトルに基づいて観測された例から推測することができる。 このような潜在空間結合は、自然に情報ボトルネックの正規化を組み込むことを可能にし、連続的潜在ベクトルを基礎となるカテゴリに関する情報である観測例から情報を抽出するように促す。 本手法では,シンボルベクトル結合,ジェネレータネットワーク,推論ネットワークを共同で学習する。 私たちのモデルは、カテゴリラベルが提供されない教師なしの設定で学習できます。 カテゴリラベルがトレーニング例のサブセットとして提供される半教師付き設定でも学習することができる。 提案手法は,(1)高品位,多様性,解釈性を有するテキスト生成をジェネレータに指導し,(2)テキストを効果的に分類する,構造的かつ有意義な潜在空間を学習することを示す。

We propose a latent space energy-based prior model for text generation and classification. The model stands on a generator network that generates the text sequence based on a continuous latent vector. The energy term of the prior model couples a continuous latent vector and a symbolic one-hot vector, so that discrete category can be inferred from the observed example based on the continuous latent vector. Such a latent space coupling naturally enables incorporation of information bottleneck regularization to encourage the continuous latent vector to extract information from the observed example that is informative of the underlying category. In our learning method, the symbol-vector coupling, the generator network and the inference network are learned jointly. Our model can be learned in an unsupervised setting where no category labels are provided. It can also be learned in semi-supervised setting where category labels are provided for a subset of training examples. Our experiments demonstrate that the proposed model learns well-structured and meaningful latent space, which (1) guides the generator to generate text with high quality, diversity, and interpretability, and (2) effectively classifies text.
翻訳日:2021-08-27 13:56:01 公開日:2021-08-26
# GNNSampler: GNNとハードウェアのサンプリングアルゴリズムのギャップを埋める

GNNSampler: Bridging the Gap between Sampling Algorithms of GNN and Hardware ( http://arxiv.org/abs/2108.11571v1 )

ライセンス: Link先を確認
Xin Liu, Mingyu Yan, Shuhan Song, Zhengyang Lv, Wenming Li, Guangyu Sun, Xiaochun Ye, Dongrui Fan(参考訳) サンプリングはグラフニューラルネットワーク(GNN)のトレーニングにおいて重要な操作であり、コスト削減に役立つ。 従来の研究は、数学的および統計的手法によるサンプリングアルゴリズムの改善を検討してきた。 しかし、サンプリングアルゴリズムとハードウェアの間にはギャップがある。 ハードウェアを考慮せずに、アルゴリズム設計者は単にアルゴリズムレベルでサンプリングを最適化するだけで、ハードウェア機能を活用することで既存のサンプリングアルゴリズムの効率を向上する大きな可能性を欠いている。 本稿では,まず,GNNSamplerと呼ばれるメインストリームサンプリングアルゴリズムの統一プログラミングモデルを提案する。 第2に,サンプリング時の不規則なメモリアクセスを緩和するために,実世界のデータセットにおけるノードとその周辺ノード(ハードウェア機能)間のデータの局所性を検討する。 第3に,GNNSamplerにおける局所性を考慮した多種多様なサンプリングアルゴリズムを実装し,GNNのトレーニングにおける一般的なサンプリングプロセスを最適化する。 最後に,大規模グラフデータセットに関する実験を行い,学習時間,モデル精度,ハードウェアレベルのメトリクスの関連性を分析し,gnnトレーニングにおける時間と精度の良好なトレードオフを実現する。 広範な実験結果から,本手法は主流サンプリングアルゴリズムに普遍的であり,gnnの学習時間(層別サンプリングでは4.83%からサブグラフベースサンプリングでは44.92%)を同等の精度で削減できることがわかった。

Sampling is a critical operation in the training of Graph Neural Network (GNN) that helps reduce the cost. Previous works have explored improving sampling algorithms through mathematical and statistical methods. However, there is a gap between sampling algorithms and hardware. Without consideration of hardware, algorithm designers merely optimize sampling at the algorithm level, missing the great potential of promoting the efficiency of existing sampling algorithms by leveraging hardware features. In this paper, we first propose a unified programming model for mainstream sampling algorithms, termed GNNSampler, covering the key processes for sampling algorithms in various categories. Second, we explore the data locality among nodes and their neighbors (i.e., the hardware feature) in real-world datasets for alleviating the irregular memory access in sampling. Third, we implement locality-aware optimizations in GNNSampler for diverse sampling algorithms to optimize the general sampling process in the training of GNN. Finally, we emphatically conduct experiments on large graph datasets to analyze the relevance between the training time, model accuracy, and hardware-level metrics, which helps achieve a good trade-off between time and accuracy in GNN training. Extensive experimental results show that our method is universal to mainstream sampling algorithms and reduces the training time of GNN (range from 4.83% with layer-wise sampling to 44.92% with subgraph-based sampling) with comparable accuracy.
翻訳日:2021-08-27 13:55:40 公開日:2021-08-26
# DSKReG:リレーショナルGNNによるリコメンデーションのための知識グラフ上の微分可能なサンプリング

DSKReG: Differentiable Sampling on Knowledge Graph for Recommendation with Relational GNN ( http://arxiv.org/abs/2108.11883v1 )

ライセンス: Link先を確認
Yu Wang, Zhiwei Liu, Ziwei Fan, Lichao Sun, Philip S. Yu(参考訳) 情報爆発時代には,ユーザの好む情報を発見するために,リコメンデータシステム(RS)が広く研究され,応用されている。 RSは、コールドスタート問題に苦しむ際には性能が悪く、知識グラフ(KG)をサイド情報として組み込んだ場合、緩和できる。 しかし、既存の研究の多くは、KGsのノード次数が歪み、KGsの大量の相互作用が推奨できないという事実を無視している。 本稿では,これらの問題に対処するために,関係gnn (dskreg) を用いた推薦のための知識グラフの微分可能なサンプリングを提案する。 モデル学習手順と協調して関連する項目の選択を最適化できる,微分可能なサンプリング戦略を考案する。 実験の結果,我々のモデルは最先端のKGベースのレコメンデータシステムよりも優れていた。 コードはhttps://github.com/y uwang-1024/dskregで入手できる。

In the information explosion era, recommender systems (RSs) are widely studied and applied to discover user-preferred information. A RS performs poorly when suffering from the cold-start issue, which can be alleviated if incorporating Knowledge Graphs (KGs) as side information. However, most existing works neglect the facts that node degrees in KGs are skewed and massive amount of interactions in KGs are recommendation-irrel evant. To address these problems, in this paper, we propose Differentiable Sampling on Knowledge Graph for Recommendation with Relational GNN (DSKReG) that learns the relevance distribution of connected items from KGs and samples suitable items for recommendation following this distribution. We devise a differentiable sampling strategy, which enables the selection of relevant items to be jointly optimized with the model training procedure. The experimental results demonstrate that our model outperforms state-of-the-art KG-based recommender systems. The code is available online at https://github.com/Y uWang-1024/DSKReG.
翻訳日:2021-08-27 13:55:17 公開日:2021-08-26
# PAENet: 3次元から2次元網膜血管セグメンテーションのためのプログレッシブアテンション強化ネットワーク

PAENet: A Progressive Attention-Enhanced Network for 3D to 2D Retinal Vessel Segmentation ( http://arxiv.org/abs/2108.11695v1 )

ライセンス: Link先を確認
Zhuojie Wu and Muyi Sun(参考訳) 光コヒーレンス・トモグラフィー(OCTA)画像では3次元から2次元の網膜血管セグメンテーションは難しい問題である。 網膜血管の正確な分割は眼科疾患の診断と予防に重要である。 しかし,OCTAボリュームの3Dデータをフル活用することは,良好なセグメンテーション結果を得る上で重要な要素である。 本稿では,多機能表現を抽出するアテンション機構に基づく,プログレッシブアテンション強化ネットワーク(PAENet)を提案する。 具体的には,3次元特徴学習経路と2次元分割経路の2つの主要部分から構成される。 3次元特徴学習経路において,新しい適応プーリングモジュール (apm) を設計し,新しい4重アテンションモジュール (qam) を提案する。 APMはボリュームの投影方向に沿って依存関係を捕捉し、特徴融合のための一連のプーリング係数を学び、特徴次元を効率的に減少させる。 さらに、QAMは、4D特徴テンソルを最大限活用する4群クロス次元依存関係をキャプチャすることで特徴を再重み付けする。 2次元分割経路では,より詳細な情報を得るために,2次元経路に3次元情報を注入する機能融合モジュール(FFM)を提案する。 一方、空間次元とチャネル次元のセマンティック相互依存性をモデル化するために、偏極自己認識ブロック(PSA)を採用する。 実験により, OCTA-500データセットに対する広範な実験により, 提案アルゴリズムは, 従来の手法と比較して, 最先端の性能を達成することを示した。

3D to 2D retinal vessel segmentation is a challenging problem in Optical Coherence Tomography Angiography (OCTA) images. Accurate retinal vessel segmentation is important for the diagnosis and prevention of ophthalmic diseases. However, making full use of the 3D data of OCTA volumes is a vital factor for obtaining satisfactory segmentation results. In this paper, we propose a Progressive Attention-Enhanced Network (PAENet) based on attention mechanisms to extract rich feature representation. Specifically, the framework consists of two main parts, the three-dimensional feature learning path and the two-dimensional segmentation path. In the three-dimensional feature learning path, we design a novel Adaptive Pooling Module (APM) and propose a new Quadruple Attention Module (QAM). The APM captures dependencies along the projection direction of volumes and learns a series of pooling coefficients for feature fusion, which efficiently reduces feature dimension. In addition, the QAM reweights the features by capturing four-group cross-dimension dependencies, which makes maximum use of 4D feature tensors. In the two-dimensional segmentation path, to acquire more detailed information, we propose a Feature Fusion Module (FFM) to inject 3D information into the 2D path. Meanwhile, we adopt the Polarized Self-Attention (PSA) block to model the semantic interdependencies in spatial and channel dimensions respectively. Experimentally, our extensive experiments on the OCTA-500 dataset show that our proposed algorithm achieves state-of-the-art performance compared with previous methods.
翻訳日:2021-08-27 13:54:11 公開日:2021-08-26
# 研究・リアルタイムモニタリング・クラウド制御のための高忠実度歩行者追跡システム

Benchmarking high-fidelity pedestrian tracking systems for research, real-time monitoring and crowd control ( http://arxiv.org/abs/2108.11719v1 )

ライセンス: Link先を確認
Caspar A. S. Pouw, Joris Willems, Frank van Schadewijk, Jasmin Thurau, Federico Toschi, Alessandro Corbetta(参考訳) 実生活環境における高忠実度歩行者追跡は, 歩行速度, 相互距離, 身体方向など, 関連する観測対象の統計を定量化できる, 基本的な群集動力学研究において重要なツールである。 この技術が進歩するにつれて、社会においても益々有用になりつつある。 実際、継続的な都市化は交通ハブや駅などの既存の歩行者インフラを圧倒し、流れのモニタリングと動的理解の両方を目指して、リアルタイムの高精度な利用データに対する緊急の需要を生み出している。 歩行者追跡技術の研究と技術に成功させるためには、正確さの検証とベンチマークが不可欠である。 これはデータ品質の保証だけでなく、体系的なエラーの特定にも必要です。 本稿では,プライバシーに配慮した歩行者追跡技術について,コミュニティにおけるオープンスタンダードに向けたベンチマークスイートを提示し,議論する。 このスイートは技術に依存しず、学術および商業の歩行者追跡システムに適用でき、実験室環境と実生活環境の両方で動作する。 ベンチマークスイートは、正確な群衆フラックス推定、密度推定、位置検出、軌道精度を含む、歩行者追跡品質の特定の側面に対処する5つのテストで構成される。 テストの出力は、単一の数で表される品質要素である。 TU Eindhovenで開発された頭上の深度マップに基づいて,実運用と商用の2つの追跡システムのベンチマーク結果を提供する。 評価結果は品質要因に基づいて検討し,典型的なセンサとアルゴリズムの性能について報告する。 これにより、現在の最先端、その制限、インストールの推奨事項、特にマルチセンサーのセットアップとデータステッチに注意を払うことができます。

High-fidelity pedestrian tracking in real-life conditions has been an important tool in fundamental crowd dynamics research allowing to quantify statistics of relevant observables including walking velocities, mutual distances and body orientations. As this technology advances, it is becoming increasingly useful also in society. In fact, continued urbanization is overwhelming existing pedestrian infrastructures such as transportation hubs and stations, generating an urgent need for real-time highly-accurate usage data, aiming both at flow monitoring and dynamics understanding. To successfully employ pedestrian tracking techniques in research and technology, it is crucial to validate and benchmark them for accuracy. This is not only necessary to guarantee data quality, but also to identify systematic errors. In this contribution, we present and discuss a benchmark suite, towards an open standard in the community, for privacy-respectful pedestrian tracking techniques. The suite is technology-independe nt and is applicable to academic and commercial pedestrian tracking systems, operating both in lab environments and real-life conditions. The benchmark suite consists of 5 tests addressing specific aspects of pedestrian tracking quality, including accurate crowd flux estimation, density estimation, position detection and trajectory accuracy. The output of the tests are quality factors expressed as single numbers. We provide the benchmark results for two tracking systems, both operating in real-life, one commercial, and the other based on overhead depth-maps developed at TU Eindhoven. We discuss the results on the basis of the quality factors and report on the typical sensor and algorithmic performance. This enables us to highlight the current state-of-the-art, its limitations and provide installation recommendations, with specific attention to multi-sensor setups and data stitching.
翻訳日:2021-08-27 13:53:47 公開日:2021-08-26
# 新しい領域とエッジを用いた深部オートエンコーダを用いた肩筋mriのセグメンテーション

Segmentation of Shoulder Muscle MRI Using a New Region and Edge based Deep Auto-Encoder ( http://arxiv.org/abs/2108.11720v1 )

ライセンス: Link先を確認
Saddam Hussain Khan, Asifullah Khan, Yeon Soo Lee, Mehdi Hassan, and Woong Kyo jeong(参考訳) 肩筋MRIの自動分割は, 涙の筋の大きさ, 形状, テクスチャ, 空間的位置の変動が大きいため, 困難である。 涙と筋肉の手動セグメンテーションは困難で、時間がかかり、病的専門知識に主観的である。 本研究は,肩関節MRIにおける新しい領域とエッジに基づくDeep Auto-Encoder (RE-DAE)を提案する。 提案手法は畳み込みニューラルネットワーク(cnn)のエンコーダブロックとデコーダブロックにおいて,平均および最大プール動作を調和的に行う。 ディープオートエンコーダ(DAE)に組み込まれたリージョンベースのセグメンテーションは、スムーズで均質な領域の抽出を促進する。 対照的に、エッジベースのセグメンテーションは境界情報と解剖情報を学習しようとする。 これらの2つの概念は、DAEに体系的に組み合わされ、識別的かつスパースなハイブリッド特徴空間(領域の均一性と境界の両方を探索する)を生成する。 さらに, 涙領域を効果的に学習するために, 静的注意という概念が提案されている。 提案したMRIセグメンテーションに基づくDAEアーキテクチャの性能は、ホールドアウトクロスバリデーション技術を用いて3次元MRI肩部筋のデータセットを用いて検証されている。 MRIデータは韓国のソウルにある韓国大学安南病院から収集された。 トランスファーラーニングとファインチューニングの両方を用いて、革新的なカスタムメイドCNNアーキテクチャと既存のトレーニング済みCNNアーキテクチャを用いて、実験的な比較を行った。 提案したSA-RE-DAEによる筋データセットの客観的評価では, それぞれ85.58%, 87.07%, 81.57%, 95.58%であった。 以上の結果から, 肩関節mriの涙と筋領域を精度良く切り分けることができ, 良好な臨床判断が可能であることが示唆された。

Automatic segmentation of shoulder muscle MRI is challenging due to the high variation in muscle size, shape, texture, and spatial position of tears. Manual segmentation of tear and muscle portion is hard, time-consuming, and subjective to pathological expertise. This work proposes a new Region and Edge-based Deep Auto-Encoder (RE-DAE) for shoulder muscle MRI segmentation. The proposed RE-DAE harmoniously employs average and max-pooling operation in the encoder and decoder blocks of the Convolutional Neural Network (CNN). Region-based segmentation incorporated in the Deep Auto-Encoder (DAE) encourages the network to extract smooth and homogenous regions. In contrast, edge-based segmentation tries to learn the boundary and anatomical information. These two concepts, systematically combined in a DAE, generate a discriminative and sparse hybrid feature space (exploiting both region homogeneity and boundaries). Moreover, the concept of static attention is exploited in the proposed RE-DAE that helps in effectively learning the tear region. The performances of the proposed MRI segmentation based DAE architectures have been tested using a 3D MRI shoulder muscle dataset using the hold-out cross-validation technique. The MRI data has been collected from the Korea University Anam Hospital, Seoul, South Korea. Experimental comparisons have been conducted by employing innovative custom-made and existing pre-trained CNN architectures both using transfer learning and fine-tuning. Objective evaluation on the muscle datasets using the proposed SA-RE-DAE showed a dice similarity of 85.58% and 87.07%, an accuracy of 81.57% and 95.58% for tear and muscle regions, respectively. The high visual quality and the objective result suggest that the proposed SA-RE-DAE is able to correctly segment tear and muscle regions in shoulder muscle MRI for better clinical decisions.
翻訳日:2021-08-27 13:53:19 公開日:2021-08-26
# 配電シフトによる試験時間トレーニング用逆マスク判別器の再利用

Re-using Adversarial Mask Discriminators for Test-time Training under Distribution Shifts ( http://arxiv.org/abs/2108.11926v1 )

ライセンス: Link先を確認
Gabriele Valvano, Andrea Leo, Sotirios A. Tsaftaris(参考訳) フレキシブルなデータ駆動の損失を学習する能力のおかげで、GAN(Generative Adversarial Networks)は、医療画像セグメンテーションのための半弱教師付き手法の不可欠な部分である。 GANは、一連のトレーニングデータに基づいて、ジェネレータと敵判別器を共同最適化する。 訓練が完了すると、通常判別器は破棄され、生成器のみが推論に使用される。 差別者は捨てるべきなのか? 本研究では,安定な判別子を訓練することで表現的損失関数を生成し,推定で再使用してセグメンテーションミスの検出と修正を行うことができる。 まず、重要な課題を特定し、判別器を推論で再利用可能なものにするための可能な解決策を提案する。 次に,識別器と画像再構成コスト(デコーダによる)を組み合わせることで,モデルをさらに改善できることを示す。 提案手法は単純で,事前学習したGANの試験時間性能を向上させる。 さらに, 標準のポストプロセッシング手法と互換性があり, オンライン連続学習にも活用できる可能性が示唆された。 本研究は,敵判別器を推論時に再利用するための新たな研究手法を開拓する。

Thanks to their ability to learn flexible data-driven losses, Generative Adversarial Networks (GANs) are an integral part of many semi- and weakly-supervised methods for medical image segmentation. GANs jointly optimise a generator and an adversarial discriminator on a set of training data. After training has completed, the discriminator is usually discarded and only the generator is used for inference. But should we discard discriminators? In this work, we argue that training stable discriminators produces expressive loss functions that we can re-use at inference to detect and correct segmentation mistakes. First, we identify key challenges and suggest possible solutions to make discriminators re-usable at inference. Then, we show that we can combine discriminators with image reconstruction costs (via decoders) to further improve the model. Our method is simple and improves the test-time performance of pre-trained GANs. Moreover, we show that it is compatible with standard post-processing techniques and it has potentials to be used for Online Continual Learning. With our work, we open new research avenues for re-using adversarial discriminators at inference.
翻訳日:2021-08-27 13:52:46 公開日:2021-08-26
# 遺伝子トランスフォーマー:癌サブタイプの遺伝子発現に基づく分類のためのトランスフォーマー

Gene Transformer: Transformers for the Gene Expression-based Classification of Cancer Subtypes ( http://arxiv.org/abs/2108.11833v1 )

ライセンス: Link先を確認
Anwar Khan and Boreom Lee(参考訳) Adenocarcinoma と squamous cell carcinoma はそれぞれすべての肺癌亜型の約40%と30%を占め、治療に対する臨床的および分子的反応の点で幅広い異種性を示す。 分子サブタイピングは、これらの課題を克服し、予後を予測し、臨床意思決定を改善するための重要な生物学的洞察を提供する。 過去10年間で、従来のMLアルゴリズムとDLベースのCNNは、遺伝子発現データセットから癌サブタイプの分類に使われてきた。 しかし、これらの方法は癌バイオマーカーの同定に偏る可能性がある。 近年,自己着脱機構を利用したトランスフォーマーアーキテクチャが高スループットな遺伝子発現をエンコードし,計算量的に複雑でパラメトリックに高価な表現を学習する。 しかし、自然言語処理アプリケーション用のデータセットと比較して、遺伝子発現は限られた数の観察から数十万の遺伝子で構成されており、バイオインフォマティクス応用のためのトランスフォーマーを効率的に訓練することは困難である。 そこで本研究では,複数のがんサブタイプにまたがる関連バイオマーカーを同定することにより,多頭自己照準モジュールを用いた高次元遺伝子発現の複雑さに対処する,エンドツーエンドのディープラーニング手法であるgene transformerを提案する。 提案したアーキテクチャは,すべての評価指標に対して全体的な性能向上を実現し,従来の分類アルゴリズムよりも誤分類誤差が少なくなった。 分類の結果,遺伝子トランスフォーマーは癌サブタイプの分類に有効な手法であり,計算生物学における深層学習モデルの改善もこの領域でよく反映できることが示された。

Adenocarcinoma and squamous cell carcinoma constitute approximately 40% and 30% of all lung cancer subtypes, respectively, and display broad heterogeneity in terms of clinical and molecular responses to therapy. Molecular subtyping has enabled precision medicine to overcome these challenges and provide significant biological insights to predict prognosis and improve clinical decision making. Over the past decade, conventional ML algorithms and DL-based CNNs have been espoused for the classification of cancer subtypes from gene expression datasets. However, these methods are potentially biased toward identification of cancer biomarkers. Recently proposed transformer-based architectures that leverage the self-attention mechanism encode high throughput gene expressions and learn representations that are computationally complex and parametrically expensive. However, compared to the datasets for natural language processing applications, gene expression consists of several hundreds of thousands of genes from a limited number of observations, making it difficult to efficiently train transformers for bioinformatics applications. Hence, we propose an end-to-end deep learning approach, Gene Transformer, which addresses the complexity of high-dimensional gene expression with a multi-head self-attention module by identifying relevant biomarkers across multiple cancer subtypes without requiring feature selection as a prerequisite for the current classification algorithms. The proposed architecture achieved an overall improved performance for all evaluation metrics and had fewer misclassification errors than the commonly used traditional classification algorithms. The classification results show that Gene Transformer can be an efficient approach for classifying cancer subtypes, indicating that any improvement in deep learning models in computational biology can also be reflected well in this domain.
翻訳日:2021-08-27 13:52:09 公開日:2021-08-26
# ディープラーニング最適化器の非凸最適化に必要なステップ数とはバッチサイズの合理的関数である

The Number of Steps Needed for Nonconvex Optimization of a Deep Learning Optimizer is a Rational Function of Batch Size ( http://arxiv.org/abs/2108.11713v1 )

ライセンス: Link先を確認
Hideaki Iiduka(参考訳) 近年,非凸最適化のためのディープラーニングオプティマイザの収束と収束率解析が広く研究されている。 一方、最適化器の数値評価により、バッチサイズとディープニューラルネットワークのトレーニングに必要なステップ数との関係が明確になった。 本論文の主な貢献は、各最適化器の非凸最適化に必要なステップ数が、バッチサイズの有理関数として表現できることを理論的に示すことである。 これらの有理関数を持つことは、以前の研究で数値的に検証された2つの重要な事実に繋がる。 第一の事実は、非凸最適化に必要なステップの数を最小化する最適なバッチサイズが存在することである。 これは、最適なバッチサイズよりも大きなバッチサイズを使用することで、非凸最適化に必要なステップ数が減少しないことを意味する。 第二の事実は、最適なバッチサイズがオプティマイザに依存することである。 特に、モーメントとアダム型オプティマイザはより大きい最適バッチを利用して、確率勾配勾配最適化器よりも非凸最適化に必要な最小ステップ数を削減できることが理論的に示されている。

Recently, convergence as well as convergence rate analyses of deep learning optimizers for nonconvex optimization have been widely studied. Meanwhile, numerical evaluations for the optimizers have precisely clarified the relationship between batch size and the number of steps needed for training deep neural networks. The main contribution of this paper is to show theoretically that the number of steps needed for nonconvex optimization of each of the optimizers can be expressed as a rational function of batch size. Having these rational functions leads to two particularly important facts, which were validated numerically in previous studies. The first fact is that there exists an optimal batch size such that the number of steps needed for nonconvex optimization is minimized. This implies that using larger batch sizes than the optimal batch size does not decrease the number of steps needed for nonconvex optimization. The second fact is that the optimal batch size depends on the optimizer. In particular, it is shown theoretically that momentum and Adam-type optimizers can exploit larger optimal batches and further reduce the minimum number of steps needed for nonconvex optimization than can the stochastic gradient descent optimizer.
翻訳日:2021-08-27 13:50:56 公開日:2021-08-26
# 2f冗長下における局部SGDのビザンチン耐故障性

Byzantine Fault-Tolerance in Federated Local SGD under 2f-Redundancy ( http://arxiv.org/abs/2108.11769v1 )

ライセンス: Link先を確認
Nirupam Gupta, Thinh T. Doan and Nitin Vaidya(参考訳) フェデレーション機械学習におけるビザンチン障害耐性の問題を考える。 この問題では,複数のエージェントにそれぞれローカルデータと,信頼性の高い集中コーディネータを備える。 障害のない環境では、エージェントはコーディネータと協力し、ローカルデータ上で定義されたローカルコスト関数の集合の最小化子を見つける。 我々は、一部のエージェント($N$のうちf$)がビザンティンの欠陥であるシナリオを考える。 このようなエージェントは、所定のアルゴリズムを正しく従う必要はなく、任意の誤った情報をコーディネータに伝達することができる。 ビザンチン系エージェントの存在下では、非標準系エージェントのより合理的な目標は、非標準系エージェントのみの集約コスト関数の最小値を見つけることである。 この特定のゴールは、一般的に正確にフォールトトレランスと呼ばれる。 最近の研究は、非デフォルトエージェントが2f$-redundancyのプロパティを満たす場合に限り、正確なフォールトトレランスが達成可能であることを示した。 この特性の下では、古典的確率勾配D(SGD)アルゴリズムの分散実装に正確なフォールトトレランスを与えることが知られている。 しかし、フェデレートされたローカルSGDアルゴリズムは、フェデレーションされた機械学習のより一般的な手法である。 そこで本研究では,比較除去(CE)と呼ばれる新しい手法を提案する。 我々は,2f$-redundancy以下では,非フーティエージェントが局所コスト関数の勾配を正確に計算できる場合,CEを用いた局所SGDアルゴリズムは決定論的条件下で正確にフォールトトレランスを得ることができることを示した。 一般確率的場合、エージェントが局所勾配の非バイアスノイズ推定しか計算できない場合、我々のアルゴリズムは確率勾配の分散とビザンチンエージェントの分数に比例した近似誤差による近似フォールトトレランスを達成する。

We consider the problem of Byzantine fault-tolerance in federated machine learning. In this problem, the system comprises multiple agents each with local data, and a trusted centralized coordinator. In fault-free setting, the agents collaborate with the coordinator to find a minimizer of the aggregate of their local cost functions defined over their local data. We consider a scenario where some agents ($f$ out of $N$) are Byzantine faulty. Such agents need not follow a prescribed algorithm correctly, and may communicate arbitrary incorrect information to the coordinator. In the presence of Byzantine agents, a more reasonable goal for the non-faulty agents is to find a minimizer of the aggregate cost function of only the non-faulty agents. This particular goal is commonly referred as exact fault-tolerance. Recent work has shown that exact fault-tolerance is achievable if only if the non-faulty agents satisfy the property of $2f$-redundancy. Now, under this property, techniques are known to impart exact fault-tolerance to the distributed implementation of the classical stochastic gradient-descent (SGD) algorithm. However, we do not know of any such techniques for the federated local SGD algorithm - a more commonly used method for federated machine learning. To address this issue, we propose a novel technique named comparative elimination (CE). We show that, under $2f$-redundancy, the federated local SGD algorithm with CE can indeed obtain exact fault-tolerance in the deterministic setting when the non-faulty agents can accurately compute gradients of their local cost functions. In the general stochastic case, when agents can only compute unbiased noisy estimates of their local gradients, our algorithm achieves approximate fault-tolerance with approximation error proportional to the variance of stochastic gradients and the fraction of Byzantine agents.
翻訳日:2021-08-27 13:50:21 公開日:2021-08-26
# 並列化拡散型サンプリングに基づく運動計画

Parallelised Diffeomorphic Sampling-based Motion Planning ( http://arxiv.org/abs/2108.11775v1 )

ライセンス: Link先を確認
Tin Lai, Weiming Zhi, Tucker Hermans and Fabio Ramos(参考訳) パラレル化拡散型サンプリングベースモーションプランニング(PDMP)を提案する。 PDMPは、単射および微分可能写像(diffeomorphisms)を用いて、サンプリングベースモーションプランナーのサンプリング分布を、正規化フローに似た方法で変換する新しい並列化フレームワークである。 これらの微分同相性を表現するために可逆的ニューラルネットワーク構造を用いる正規化フローモデルとは異なり、所望のコストの勾配情報から構築し、障害物回避などの望ましい振る舞いを符号化する。 これらの変換されたサンプリング分布はサンプリングベースの動作計画に使用できる。 特定の例として、サンプルが衝突する傾向が低いような環境幾何学の知識でサンプリング分布を初期化したい場合が挙げられる。 この目的のために, 環境占有データから連続的占有表現を学習し, 表現の勾配が有効な微分同型を定義し, 高速な並列評価が可能となることを提案する。 これをサンプリング分布の「形態」として、衝突しやすいサンプルをはるかに少なくする。 PDMPは、コストの勾配情報を利用して、最適化に基づく運動計画法と似た方法で仕様を注入できるが、サンプリング分布からの描画に依存し、より大域的な解を見つける傾向を保ち、軌道最適化とサンプリングベース計画法の間のギャップを埋める。

We propose Parallelised Diffeomorphic Sampling-based Motion Planning (PDMP). PDMP is a novel parallelised framework that uses bijective and differentiable mappings, or diffeomorphisms, to transform sampling distributions of sampling-based motion planners, in a manner akin to normalising flows. Unlike normalising flow models which use invertible neural network structures to represent these diffeomorphisms, we develop them from gradient information of desired costs, and encode desirable behaviour, such as obstacle avoidance. These transformed sampling distributions can then be used for sampling-based motion planning. A particular example is when we wish to imbue the sampling distribution with knowledge of the environment geometry, such that drawn samples are less prone to be in collisions. To this end, we propose to learn a continuous occupancy representation from environment occupancy data, such that gradients of the representation defines a valid diffeomorphism and is amenable to fast parallel evaluation. We use this to "morph" the sampling distribution to draw far fewer collision-prone samples. PDMP is able to leverage gradient information of costs, to inject specifications, in a manner similar to optimisation-based motion planning methods, but relies on drawing from a sampling distribution, retaining the tendency to find more global solutions, thereby bridging the gap between trajectory optimisation and sampling-based planning methods.
翻訳日:2021-08-27 13:49:50 公開日:2021-08-26
# 発火試験予測における試験臭の利用について

On the use of test smells for prediction of flaky tests ( http://arxiv.org/abs/2108.11781v1 )

ライセンス: Link先を確認
B. H. P. Camara, M. A. G. Silva, A. T. Endo, S. R. Vergilio(参考訳) 回帰テストは、品質の高いソフトウェアを提供するための重要なフェーズです。 しかし、フレキなテストはテスト結果の評価を妨げ、コストを増大させる可能性がある。 これは、フレキテストが非決定的に通過または失敗し、テストのフレキネスを適切に識別するためには、テストスイートを何度も再実行する必要があるためである。 この課題に対処するため、予測モデルと機械学習に基づくアプローチが提案されている。 テストケース語彙の使用に基づく既存のアプローチは、コンテキストに敏感であり、過剰フィッティングしがちであり、クロスプロジェクトシナリオで実行すると低いパフォーマンスを示します。 これらの制約を克服するため,フレークテストの予測器としての試験臭の使用について検討した。 本研究は,テスト嗅覚がプロジェクト横断文脈におけるフレキネスを予測するための分類器として優れた性能を持つかどうかを実証研究し,各テスト嗅覚の情報ゲインを解析した。 また,テスト臭いに基づくアプローチを語彙に基づくアプローチと比較した。 その結果,テストフェーズにおけるフレキネスを予測するために,適切な性能(ランサムフォレスト0.83%)を有する分類器を得た。 この分類器は、プロジェクト横断予測のための語彙ベースモデルよりも優れた性能を示した。 Assertion RouletteとSlepy Testテストの臭いタイプは、最良の情報ゲイン値に関連するものだ。

Regression testing is an important phase to deliver software with quality. However, flaky tests hamper the evaluation of test results and can increase costs. This is because a flaky test may pass or fail non-deterministicall y and to identify properly the flakiness of a test requires rerunning the test suite multiple times. To cope with this challenge, approaches have been proposed based on prediction models and machine learning. Existing approaches based on the use of the test case vocabulary may be context-sensitive and prone to overfitting, presenting low performance when executed in a cross-project scenario. To overcome these limitations, we investigate the use of test smells as predictors of flaky tests. We conducted an empirical study to understand if test smells have good performance as a classifier to predict the flakiness in the cross-project context, and analyzed the information gain of each test smell. We also compared the test smell-based approach with the vocabulary-based one. As a result, we obtained a classifier that had a reasonable performance (Random Forest, 0.83%) to predict the flakiness in the testing phase. This classifier presented better performance than vocabulary-based model for cross-project prediction. The Assertion Roulette and Sleepy Test test smell types are the ones associated with the best information gain values.
翻訳日:2021-08-27 13:49:28 公開日:2021-08-26
# 活性多様体近傍の下位手法:サドル点回避、局所収束、漸近正規性

Subgradient methods near active manifolds: saddle point avoidance, local convergence, and asymptotic normality ( http://arxiv.org/abs/2108.11832v1 )

ライセンス: Link先を確認
Damek Davis, Dmitriy Drusvyatskiy, Liwei Jiang(参考訳) 実際には非滑らかな最適化問題は有益な滑らかな部分構造を示す傾向があり、それらの領域は滑らかな変動の「アクティブ多様体」に階層化され、一般的な近位アルゴリズムは有限時間で「特定」される。 識別は滑らかなダイナミクスへの遷移を伴い、二階加速技術に対応する。 同定は明らかに有用なアルゴリズムであるが、経験的証拠は、有限時間で活性多様体を同定しないアルゴリズム(特に下次法)でさえその影響を受けていることを示唆している。 アクティブ多様体は、非滑らか最適化における劣勾配法にどのように影響するか? 本研究では,この問題の滑らかな部分構造を完全に露呈する2つのアルゴリズム的有用特性 -- 目標と下位勾配近似 -- を導入することで,この問題に答える。 これらの性質は、活性多様体に沿った(確率的)劣階法(英語版)の影が、暗黙の退化を伴う不正確なリーマン勾配法であることを示唆している。 これらの性質は、コーン可逆/分解可能関数や一般半代数問題など、幅広い問題に対して成り立つことを証明している。 さらに, 滑らかな変形とスペクトルリフトの下でその性質が保たれていることを証明した。 この視点は、局所収束率、漸近正規性、鞍点回避といった問題の非滑らかさにもかかわらず、並列がスムーズな最適化をもたらすいくつかのアルゴリズム的な結果をもたらす。 漸近的正規性の結果は、確率的非線形プログラミングの最も古典的な設定においても新しいように見える。 ジェネリックなクラーク正則半代数問題に対する摂動劣勾配法は、局所的な最小値にのみ収束する。

Nonsmooth optimization problems arising in practice tend to exhibit beneficial smooth substructure: their domains stratify into "active manifolds" of smooth variation, which common proximal algorithms "identify" in finite time. Identification then entails a transition to smooth dynamics, and accommodates second-order acceleration techniques. While identification is clearly useful algorithmically, empirical evidence suggests that even those algorithms that do not identify the active manifold in finite time -- notably the subgradient method -- are nonetheless affected by it. This work seeks to explain this phenomenon, asking: how do active manifolds impact the subgradient method in nonsmooth optimization? In this work, we answer this question by introducing two algorithmically useful properties -- aiming and subgradient approximation -- that fully expose the smooth substructure of the problem. We show that these properties imply that the shadow of the (stochastic) subgradient method along the active manifold is precisely an inexact Riemannian gradient method with an implicit retraction. We prove that these properties hold for a wide class of problems, including cone reducible/decomposab le functions and generic semialgebraic problems. Moreover, we develop a thorough calculus, proving such properties are preserved under smooth deformations and spectral lifts. This viewpoint then leads to several algorithmic consequences that parallel results in smooth optimization, despite the nonsmoothness of the problem: local rates of convergence, asymptotic normality, and saddle point avoidance. The asymptotic normality results appear to be new even in the most classical setting of stochastic nonlinear programming. The results culminate in the following observation: the perturbed subgradient method on generic, Clarke regular semialgebraic problems, converges only to local minimizers.
翻訳日:2021-08-27 13:49:06 公開日:2021-08-26
# グラフニューラルネットワークを用いたWeb画像文脈抽出とDOM木への文埋め込み

Web Image Context Extraction with Graph Neural Networks and Sentence Embeddings on the DOM tree ( http://arxiv.org/abs/2108.11629v1 )

ライセンス: Link先を確認
Chen Dang (QR), Hicham Randrianarivo (QR), Rapha\"el Fournier-S'Niehotta (CNAM, CEDRIC - VERTIGO), Nicolas Audebert (CNAM, CEDRIC - VERTIGO)(参考訳) Web画像コンテキスト抽出(WICE)は、周辺Webページの内容を用いて画像を記述するテキスト情報を取得する。 WICEを実行する前の一般的な前処理ステップは、Webページの内容をレンダリングすることだ。 大規模な処理(検索エンジンのインデックス化など)では、計算コストが非常に高く(ページあたり数秒まで)なる可能性がある。 このコストを回避するために、グラフニューラルネットワーク(GNN)と自然言語処理モデルを組み合わせた新しいWICEアプローチを導入する。 提案手法は,ノードタイプとテキストを特徴として含むグラフモデルに依存する。 モデルは、テキストコンテキストを抽出するために、GNNのいくつかのブロックを介して供給される。 基底真理を持つラベル付きWICEデータセットは存在しないので、画像キャプションに最も近い意味的テキストを見つけるためのプロキシタスクで、GNNを訓練し、評価する。 次に、最も関連性の高いテキストノードを見つけるために重要度を解釈し、それらを画像コンテキストとして定義する。 GNNのおかげで、我々のモデルはWebページから構造情報と意味情報をエンコードできる。 提案手法はHTMLデータのみを用いて大規模WICE問題に対処するための有望な結果をもたらすことを示す。

Web Image Context Extraction (WICE) consists in obtaining the textual information describing an image using the content of the surrounding webpage. A common preprocessing step before performing WICE is to render the content of the webpage. When done at a large scale (e.g., for search engine indexation), it may become very computationally costly (up to several seconds per page). To avoid this cost, we introduce a novel WICE approach that combines Graph Neural Networks (GNNs) and Natural Language Processing models. Our method relies on a graph model containing both node types and text as features. The model is fed through several blocks of GNNs to extract the textual context. Since no labeled WICE dataset with ground truth exists, we train and evaluate the GNNs on a proxy task that consists in finding the semantically closest text to the image caption. We then interpret importance weights to find the most relevant text nodes and define them as the image context. Thanks to GNNs, our model is able to encode both structural and semantic information from the webpage. We show that our approach gives promising results to help address the large-scale WICE problem using only HTML data.
翻訳日:2021-08-27 13:48:37 公開日:2021-08-26
# 量子アニーラを用いた生成化学と薬物設計のための離散変分オートエンコーダの訓練

Training a discrete variational autoencoder for generative chemistry and drug design on a quantum annealer ( http://arxiv.org/abs/2108.11644v1 )

ライセンス: Link先を確認
A.I. Gircha, A.S. Boev, K. Avchaciov, P.O. Fedichev, A.K. Fedorov(参考訳) 深層生成化学モデルは、創薬を促進する強力なツールとして出現する。 しかし、可能な全ての薬物様分子の構造空間の膨大なサイズと複雑さは、量子コンピュータと深い古典的ネットワークを組み合わせたハイブリッドアーキテクチャで克服できるような大きな障害を引き起こす。 我々は,制限ボルツマンマシン (RBM) を潜在層に縮小した小型離散分散変分オートエンコーダ (DVAE) を開発した。 提案したモデルのサイズは、最先端のD-Wave量子アニールに適合するほど小さく、生物活性化合物のChEMBLデータセットのサブセットのトレーニングが可能であった。 最後に、ChEMBLの分子に典型的な範囲で、医薬化学および合成アクセシビリティ特性を有する新規な化学構造を4290ドルで生成した。 実験結果は,既存の量子アニーリングデバイスを用いた創薬問題の実現可能性を示し,実際に関連する応用のための量子生成モデル構築への道を開く。

Deep generative chemistry models emerge as powerful tools to expedite drug discovery. However, the immense size and complexity of the structural space of all possible drug-like molecules pose significant obstacles, which could be overcome with hybrid architectures combining quantum computers with deep classical networks. We built a compact discrete variational autoencoder (DVAE) with a Restricted Boltzmann Machine (RBM) of reduced size in its latent layer. The size of the proposed model was small enough to fit on a state-of-the-art D-Wave quantum annealer and allowed training on a subset of the ChEMBL dataset of biologically active compounds. Finally, we generated $4290$ novel chemical structures with medicinal chemistry and synthetic accessibility properties in the ranges typical for molecules from ChEMBL. The experimental results point towards the feasibility of using already existing quantum annealing devices for drug discovery problems, which opens the way to building quantum generative models for practically relevant applications.
翻訳日:2021-08-27 13:47:56 公開日:2021-08-26
# (参考訳) ニューラルマシン翻訳のための繰り返し複数の層を奥行きで共有する [全文訳有]

Recurrent multiple shared layers in Depth for Neural Machine Translation ( http://arxiv.org/abs/2108.10417v2 )

ライセンス: CC BY-SA 4.0
GuoLiang Li and Yiyang Li(参考訳) より深いモデルを学ぶことは、通常、モデルパフォーマンスを改善するためのシンプルで効果的なアプローチであるが、より深いモデルはより大きなモデルパラメータを持ち、訓練することがより困難である。 より深いモデルを得るためには、単にモデルのレイヤーを積み重ねるだけではうまく機能しているように思えるが、以前の研究では、モデルにメリットはないと主張した。 本稿では,トランスフォーマーのエンコーダブロックとデコーダブロックを奥行き方向にループする再帰機構を持つ深層モデルを提案する。 モデルパラメータの増加に対処するために、異なる再帰モーメントでパラメータを共有することを選択する。 我々は,wmt16英語対ドイツ語およびwmt14英語対フランス翻訳タスクについて実験を行い,トランスフォーマーモデルパラメータの27.23%である0.35, 1.45ブルーポイントの浅層トランスフォーマーベース/ビッグベースを上回った。 深層トランス (20層エンコーダ, 6層デコーダ) と比較して, モデル性能と推論速度は類似しているが, モデルパラメータは前者の54.72%である。

Learning deeper models is usually a simple and effective approach to improve model performance, but deeper models have larger model parameters and are more difficult to train. To get a deeper model, simply stacking more layers of the model seems to work well, but previous works have claimed that it cannot benefit the model. We propose to train a deeper model with recurrent mechanism, which loops the encoder and decoder blocks of Transformer in the depth direction. To address the increasing of model parameters, we choose to share parameters in different recursive moments. We conduct our experiments on WMT16 English-to-German and WMT14 English-to-France translation tasks, our model outperforms the shallow Transformer-Base/Big baseline by 0.35, 1.45 BLEU points, which is 27.23% of Transformer-Big model parameters. Compared to the deep Transformer(20-layer encoder, 6-layer decoder), our model has similar model performance and infer speed, but our model parameters are 54.72% of the former.
翻訳日:2021-08-27 11:04:15 公開日:2021-08-26
# 色だけ:ニューラルステインラーニングを用いた画像に基づく空間的遺伝子発現予測

All You Need is Color: Image based Spatial Gene Expression Prediction using Neural Stain Learning ( http://arxiv.org/abs/2108.10446v2 )

ライセンス: Link先を確認
Muhammad Dawood, Kim Branson, Nasir M. Rajpoot, Fayyaz ul Amir Afsar Minhas(参考訳) 「腫瘍部の定期組織像において、その染色吸収特性をモデル化して、所定の空間的位置における異なる遺伝子の発現レベルを予測することは可能か。」 本研究では,ヘマトキシリン&エオシン(H&E)ヒストロジーセクションのデジタル病理画像を用いて,空間転写学的遺伝子発現プロファイルの予測のための「ステイン・アウェア」機械学習手法を提案する。 遺伝子発現予測に使用される最近の深層学習法とは違って,提案手法であるNeural Stain Learning (NSL) は,問題固有の染色脱畳行列をエンドツーエンドに学習することで,組織と遺伝子発現パターンとの関係を明示的にモデル化する。 提案手法は,11個のトレーニング可能な重みパラメータのみで,細胞組成と形態的特徴を持つ古典回帰モデルと深層学習法の両方に優れる。 提案手法から得られた遺伝子発現予測は,他の手法と比較して,より大規模な遺伝子配列に対するシークエンシングによって得られた真の発現値と高い相関関係を示した。

"Is it possible to predict expression levels of different genes at a given spatial location in the routine histology image of a tumor section by modeling its stain absorption characteristics?&quo t; In this work, we propose a "stain-aware" machine learning approach for prediction of spatial transcriptomic gene expression profiles using digital pathology image of a routine Hematoxylin & Eosin (H&E) histology section. Unlike recent deep learning methods which are used for gene expression prediction, our proposed approach termed Neural Stain Learning (NSL) explicitly models the association of stain absorption characteristics of the tissue with gene expression patterns in spatial transcriptomics by learning a problem-specific stain deconvolution matrix in an end-to-end manner. The proposed method with only 11 trainable weight parameters outperforms both classical regression models with cellular composition and morphological features as well as deep learning methods. We have found that the gene expression predictions from the proposed approach show higher correlations with true expression values obtained through sequencing for a larger set of genes in comparison to other approaches.
翻訳日:2021-08-27 10:53:11 公開日:2021-08-26
# クロスクオリティLFW:非拘束環境におけるクロスリゾリューション画像認識のためのデータベース

Cross-Quality LFW: A Database for Analyzing Cross-Resolution Image Face Recognition in Unconstrained Environments ( http://arxiv.org/abs/2108.10290v2 )

ライセンス: Link先を確認
Martin Knoche, Stefan H\"ormann, Gerhard Rigoll(参考訳) 現実世界の顔認識アプリケーションは、様々な被写体間距離、カメラ設定の貧弱さ、モーションボケなどの撮影条件が異なるため、最適化された画質や解像度を扱うことが多い。 この特性は性能に無知な影響を及ぼす。 最近のクロスレゾリューション顔認識アプローチでは、画像品質の現実世界のエッジケースに対する堅牢性を測定するために、シンプルで任意で非現実的なダウン・アンド・アップ・スケーリング技術を用いた。 そこで我々は,LFW(Labeled Faces in the Wild)から派生した,新しい標準ベンチマークデータセットと評価プロトコルを提案する。 XQLFW(Cross-Quality Labeled Faces in the Wild)は、ポーズ、年齢、類似性、敵対的な攻撃に焦点を当てた従来のデリバティブとは対照的に、品質差を最大化します。 必要に応じてよりリアルな合成劣化画像のみを含む。 提案するデータセットは,画像品質が最先端のアプローチに与える影響をさらに調査するために使用される。 XQLFWでは、これらのモデルがクロスクオリティのケースで異なる性能を示すので、LFWの性能によって一般化能力は正確には予測されない。 さらに,近年の深層学習モデルを用いて,クロスレゾリューションの応用を訓練し,画像品質に対する感受性を評価する。 クロスレゾリューション顔認識のさらなる研究を奨励し、画像品質のロバスト性の評価を喚起するために、評価のためのデータベースとコードを公開する。

Real-world face recognition applications often deal with suboptimal image quality or resolution due to different capturing conditions such as various subject-to-camera distances, poor camera settings, or motion blur. This characteristic has an unignorable effect on performance. Recent cross-resolution face recognition approaches used simple, arbitrary, and unrealistic down- and up-scaling techniques to measure robustness against real-world edge-cases in image quality. Thus, we propose a new standardized benchmark dataset and evaluation protocol derived from the famous Labeled Faces in the Wild (LFW). In contrast to previous derivatives, which focus on pose, age, similarity, and adversarial attacks, our Cross-Quality Labeled Faces in the Wild (XQLFW) maximizes the quality difference. It contains only more realistic synthetically degraded images when necessary. Our proposed dataset is then used to further investigate the influence of image quality on several state-of-the-art approaches. With XQLFW, we show that these models perform differently in cross-quality cases, and hence, the generalizing capability is not accurately predicted by their performance on LFW. Additionally, we report baseline accuracy with recent deep learning models explicitly trained for cross-resolution applications and evaluate the susceptibility to image quality. To encourage further research in cross-resolution face recognition and incite the assessment of image quality robustness, we publish the database and code for evaluation.
翻訳日:2021-08-27 10:52:54 公開日:2021-08-26
# 侵略ゲームにおけるイベントの統一分類とマルチモーダルデータセット

A Unified Taxonomy and Multimodal Dataset for Events in Invasion Games ( http://arxiv.org/abs/2108.11149v2 )

ライセンス: Link先を確認
Henrik Biermann, Jonas Theiner, Manuel Bassek, Dominik Raabe, Daniel Memmert, Ralph Ewerth(参考訳) サッカーやハンドボールといった複雑なスポーツゲームにおける位置データやビデオデータによるイベントの自動検出は、研究や産業に大きな関心を寄せている。 1つの要件は、基本的な概念、すなわちピッチで起こるイベントの基本的な理解である。 以前の作業では、フリーキック、フリースロー、ゴールなど、明確に定義されたルールに基づいたいわゆる低レベルのイベントのみを扱うことが多い。 パスのような高レベルのイベントは、一貫した定義が欠如しているため、頻繁にアプローチされる。 これは、イベントアノテーションに関して慎重に検証する必要がある曖昧さのレベルを導入する。 しかし、ほとんどの研究は、未知の品質のプライベートデータセットに関する商用提供者からのアノテーションを採用し、サッカーのみに焦点を当てているため、この検証手順は無視される。 これらの問題に対処するために,(1)侵略ゲームのための幅広い低レベル・高レベルのイベントをカバーし,例えばサッカーやハンドボールに洗練されている普遍的分類法,(2)細粒度・球中心のイベントスポッティングの研究を促進するために,金標準アノテーション付きビデオと位置データからなる2つのマルチモーダルデータセットをリリースする。 人間のパフォーマンス実験では,提案する分類法の頑健性が示され,アノテーションにおける不一致やあいまいさは,イベントの複雑さとともに増大する。 イベントスポッティングにビデオ分類のためのI3Dモデルを採用し、ベンチマークの可能性を明らかにする。 データセットは、https://github.com/m m4spa/eigd.comで入手できる。

The automatic detection of events in complex sports games like soccer and handball using positional or video data is of large interest in research and industry. One requirement is a fundamental understanding of underlying concepts, i.e., events that occur on the pitch. Previous work often deals only with so-called low-level events based on well-defined rules such as free kicks, free throws, or goals. High-level events, such as passes, are less frequently approached due to a lack of consistent definitions. This introduces a level of ambiguity that necessities careful validation when regarding event annotations. Yet, this validation step is usually neglected as the majority of studies adopt annotations from commercial providers on private datasets of unknown quality and focuses on soccer only. To address these issues, we present (1) a universal taxonomy that covers a wide range of low and high-level events for invasion games and is exemplarily refined to soccer and handball, and (2) release two multi-modal datasets comprising video and positional data with gold-standard annotations to foster research in fine-grained and ball-centered event spotting. Experiments on human performance demonstrate the robustness of the proposed taxonomy, and that disagreements and ambiguities in the annotation increase with the complexity of the event. An I3D model for video classification is adopted for event spotting and reveals the potential for benchmarking. Datasets are available at: https://github.com/m m4spa/eigd
翻訳日:2021-08-27 10:52:20 公開日:2021-08-26
# (参考訳) YOLOP:パンオプティカル・ドライビング・パーセプションで一度だけ見る [全文訳有]

YOLOP: You Only Look Once for Panoptic Driving Perception ( http://arxiv.org/abs/2108.11250v2 )

ライセンス: CC BY 4.0
Dong Wu, Manwen Liao, Weitian Zhang, Xinggang Wang(参考訳) パノプティクス駆動認識システムは、自律運転の重要な部分である。 高精度かつリアルタイムな知覚システムは、運転中に合理的な判断を行うことで車両を補助することができる。 本稿では,交通物体検出,乾燥領域分割,車線検出を同時に行うパノプティカル駆動認識ネットワーク(YOLOP)を提案する。 特徴抽出のための1つのエンコーダと、特定のタスクを処理する3つのデコーダで構成されている。 私たちのモデルは、BDD100Kデータセットで非常によく機能し、正確性とスピードの観点から、3つのタスクすべてで最先端の処理を実現しています。 また,複合学習におけるマルチタスク学習モデルの有効性を,アブレイティブスタディを通して検証する。 私たちの知る限りでは、この3つの視覚知覚タスクをjetson tx2(23 fps)組み込みデバイス上でリアルタイムに処理し、優れた精度を維持することができる最初の作業です。 さらなる研究を容易にするため、ソースコードと事前訓練されたモデルはhttps://github.com/h ustvl/YOLOP.comでリリースされる。

A panoptic driving perception system is an essential part of autonomous driving. A high-precision and real-time perception system can assist the vehicle in making the reasonable decision while driving. We present a panoptic driving perception network (YOLOP) to perform traffic object detection, drivable area segmentation and lane detection simultaneously. It is composed of one encoder for feature extraction and three decoders to handle the specific tasks. Our model performs extremely well on the challenging BDD100K dataset, achieving state-of-the-art on all three tasks in terms of accuracy and speed. Besides, we verify the effectiveness of our multi-task learning model for joint training via ablative studies. To our best knowledge, this is the first work that can process these three visual perception tasks simultaneously in real-time on an embedded device Jetson TX2(23 FPS) and maintain excellent accuracy. To facilitate further research, the source codes and pre-trained models will be released at https://github.com/h ustvl/YOLOP.
翻訳日:2021-08-27 09:31:24 公開日:2021-08-26
# (参考訳) ラベル割り当て蒸留による物体検出の改善

Improving Object Detection by Label Assignment Distillation ( http://arxiv.org/abs/2108.10520v2 )

ライセンス: CC BY 4.0
Chuong H. Nguyen, Thuy C. Nguyen, Tuan N. Tang, Nam L.H. Phan(参考訳) オブジェクト検出におけるラベル割り当ては、画像内のサンプルされた領域に前景または背景のターゲットを割り当てることを目的としている。 画像分類のラベル付けとは異なり、この問題はオブジェクトの境界ボックスのために適切に定義されていない。 本稿では,蒸留の観点から問題を考察し,ラベル割り当て蒸留(LAD)と呼ぶ。 最初のモチベーションは非常に単純で、教師ネットワークを使って生徒のラベルを生成します。 これは、教師の予測を直接の目標(ソフトラベル)として使うか、または教師が動的に割り当てるハードラベル(LAD)を通して達成できる。 実験の結果, (i)LADはソフトラベルよりも有効であるが, 相補的であることがわかった。 (ii)ladを使用すると、より小さな教師はより大きな生徒を著しく改善できるが、ソフトラベルはできない。 次に,2つのネットワークがスクラッチから同時に学習し,教師と学生の役割を動的に交換するコラーニングLADを紹介する。 PAA-ResNet50を教師として使うことで、PAA-ResNet101とPAA-ResNeXt101の検出器を、COCOテストデブセットで46ドル、47.5ドルに改善できます。 強力な教師であるPAA-SwinBでは、PAA-ResNet50を1倍のスケジュールトレーニングで43.9ドル、PAA-ResNet101を47.9ドルに改善し、現在の手法を大きく上回っている。 ソースコードとチェックポイントはhttps://github.com/c ybercore-co-ltd/cola d_paperで公開します。

Label assignment in object detection aims to assign targets, foreground or background, to sampled regions in an image. Unlike labeling for image classification, this problem is not well defined due to the object's bounding box. In this paper, we investigate the problem from a perspective of distillation, hence we call Label Assignment Distillation (LAD). Our initial motivation is very simple, we use a teacher network to generate labels for the student. This can be achieved in two ways: either using the teacher's prediction as the direct targets (soft label), or through the hard labels dynamically assigned by the teacher (LAD). Our experiments reveal that: (i) LAD is more effective than soft-label, but they are complementary. (ii) Using LAD, a smaller teacher can also improve a larger student significantly, while soft-label can't. We then introduce Co-learning LAD, in which two networks simultaneously learn from scratch and the role of teacher and student are dynamically interchanged. Using PAA-ResNet50 as a teacher, our LAD techniques can improve detectors PAA-ResNet101 and PAA-ResNeXt101 to $46 \rm AP$ and $47.5\rm AP$ on the COCO test-dev set. With a strong teacher PAA-SwinB, we improve the PAA-ResNet50 to $43.9\rm AP$ with only \1x schedule training, and PAA-ResNet101 to $47.9\rm AP$, significantly surpassing the current methods. Our source code and checkpoints will be released at https://github.com/c ybercore-co-ltd/CoLA D_paper.
翻訳日:2021-08-27 09:17:30 公開日:2021-08-26
# 単語はラベルよりも強力:データプログラミングを用いたポインタラベルなし学習

The Word is Mightier than the Label: Learning without Pointillistic Labels using Data Programming ( http://arxiv.org/abs/2108.10921v2 )

ライセンス: Link先を確認
Chufan Gao and Mononito Goswami(参考訳) ほとんどの高度な教師付き機械学習(ML)モデルは、大量のポイントバイポイントラベル付きトレーニング例に依存している。 大量のデータをハンドラベリングすることは面倒で、高価で、エラーを起こしやすい。 近年、競争力のあるエンドモデル分類器を作成するために、弱い監督源の多種多様な利用を調査している研究もある。 本稿では,弱い監督に関する最近の研究,特にデータプログラミング(dp)フレームワークについて調査する。 DPは、潜在的なノイズのあるヒューリスティックのセットを入力として、ヒューリスティックの確率的グラフィカルモデルを用いて、データセットの各データポイントにノイズ付き確率ラベルを割り当てる。 DPの背後にある数学の基礎を解析し、2つの実世界のテキスト分類タスクに適用してそのパワーを実証する。 さらに,従来データスパース設定で適用されてきた点的アクティブおよび半教師付き学習手法とdpを比較した。

Most advanced supervised Machine Learning (ML) models rely on vast amounts of point-by-point labelled training examples. Hand-labelling vast amounts of data may be tedious, expensive, and error-prone. Recently, some studies have explored the use of diverse sources of weak supervision to produce competitive end model classifiers. In this paper, we survey recent work on weak supervision, and in particular, we investigate the Data Programming (DP) framework. Taking a set of potentially noisy heuristics as input, DP assigns denoised probabilistic labels to each data point in a dataset using a probabilistic graphical model of heuristics. We analyze the math fundamentals behind DP and demonstrate the power of it by applying it on two real-world text classification tasks. Furthermore, we compare DP with pointillistic active and semi-supervised learning techniques traditionally applied in data-sparse settings.
翻訳日:2021-08-27 09:15:18 公開日:2021-08-26