このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210310となっている論文です。

PDF登録状況(公開日: 20210310)

TitleAuthorsAbstract論文公表日・翻訳日
# 臨床テキストからのcovid-19診断と症状の抽出--新しい注釈付きコーパスと神経イベント抽出フレームワーク

Extracting COVID-19 Diagnoses and Symptoms From Clinical Text: A New Annotated Corpus and Neural Event Extraction Framework ( http://arxiv.org/abs/2012.00974v2 )

ライセンス: Link先を確認
Kevin Lybarger, Mari Ostendorf, Matthew Thompson, Meliha Yetisgen(参考訳) コロナウイルス病2019(COVID-19)は世界的なパンデミックである。 新型コロナウイルスの発生以来、多くのことが学んできたが、感染拡大の追跡、症状の記述、感染の深刻さの予測、医療利用の予測など、多くの疑問がある。 フリーテキスト臨床ノートにはこれらの疑問を解決するための重要な情報が含まれている。 データ駆動、自動情報抽出モデルは、このテキストエンコードされた情報を大規模研究に利用するために必要である。 本研究は、covid-19 annotated clinical text(cact)コーパスと呼ばれる新しい臨床コーパスを提示し、covid-19の診断、テスト、臨床プレゼンテーションを特徴付ける詳細な注釈を含む1,472のノートからなる。 本研究では,すべてのアノテート現象を共同抽出し,関連するアサーション値(0.83-0.97 F1,アサーション0.73-0.79 F1)を用いて,COVID-19および症状事象の同定に高い性能を発揮するスパンベースのイベント抽出モデルを提案する。 二次利用アプリケーションでは、構造化患者データ(例えば、患者データ)を用いて、新型コロナウイルス検査結果の予測について検討した。 バイタルサインと検査結果) 自動的に症状情報を抽出する。 自動抽出された症状は、構造化データだけでなく予測性能を向上させる。

Coronavirus disease 2019 (COVID-19) is a global pandemic. Although much has been learned about the novel coronavirus since its emergence, there are many open questions related to tracking its spread, describing symptomology, predicting the severity of infection, and forecasting healthcare utilization. Free-text clinical notes contain critical information for resolving these questions. Data-driven, automatic information extraction models are needed to use this text-encoded information in large-scale studies. This work presents a new clinical corpus, referred to as the COVID-19 Annotated Clinical Text (CACT) Corpus, which comprises 1,472 notes with detailed annotations characterizing COVID-19 diagnoses, testing, and clinical presentation. We introduce a span-based event extraction model that jointly extracts all annotated phenomena, achieving high performance in identifying COVID-19 and symptom events with associated assertion values (0.83-0.97 F1 for events and 0.73-0.79 F1 for assertions). In a secondary use application, we explored the prediction of COVID-19 test results using structured patient data (e.g. vital signs and laboratory results) and automatically extracted symptom information. The automatically extracted symptoms improve prediction performance, beyond structured data alone.
翻訳日:2021-05-25 04:13:07 公開日:2021-03-10
# ロボットシステムのための人間の触覚ジェスチャー解釈

Human Haptic Gesture Interpretation for Robotic Systems ( http://arxiv.org/abs/2012.01959v3 )

ライセンス: Link先を確認
Elizabeth Bibit Bianchini, Prateek Verma and Kenneth Salisbury(参考訳) 物理的な人間とロボットの相互作用(phri)は、人間と人間の相互作用よりも効率的で通信性が低い。 人間のタッチジェスチャーを解釈するのは、人間とロボットの能力の間に極端なギャップがある、面倒で難しい作業だ。 人間のタッチ認識能力、センサーの違い、ジェスチャクラス、特徴セット、そして分類アルゴリズムを実証する以前の作品の中には、転送不能な結果のコングロマリットと標準の欠如がある。 このギャップに対処するため,本研究は,1)文献で特定されるジェスチャーの特徴の大部分を網羅する4つのタッチジェスチャークラス,2)内部の手首トルクセンサのみを備えた共通のpHRIロボットアーム上の広範囲な力データセットの収集,3)特徴セットと分類アルゴリズムの組み合わせの徹底的な性能比較を行う。 提案したジェスチャ定義のうち高い分類精度をテストセットで示し、ニューラルネットワークの分類器が特徴セットとアルゴリズムの他の組み合わせよりも優れていることを強調した。

Physical human-robot interactions (pHRI) are less efficient and communicative than human-human interactions, and a key reason is a lack of informative sense of touch in robotic systems. Interpreting human touch gestures is a nuanced, challenging task with extreme gaps between human and robot capability. Among prior works that demonstrate human touch recognition capability, differences in sensors, gesture classes, feature sets, and classification algorithms yield a conglomerate of non-transferable results and a glaring lack of a standard. To address this gap, this work presents 1) four proposed touch gesture classes that cover the majority of the gesture characteristics identified in the literature, 2) the collection of an extensive force dataset on a common pHRI robotic arm with only its internal wrist force-torque sensor, and 3) an exhaustive performance comparison of combinations of feature sets and classification algorithms on this dataset. We demonstrate high classification accuracies among our proposed gesture definitions on a test set, emphasizing that neural network classifiers on the raw data outperform other combinations of feature sets and algorithms.
翻訳日:2021-05-23 15:05:06 公開日:2021-03-10
# バイシブル・サーマルパーソン再同定のための双極性三重項損失を持つ強いが単純なベースライン

Strong but Simple Baseline with Dual-Granularity Triplet Loss for Visible-Thermal Person Re-Identification ( http://arxiv.org/abs/2012.05010v2 )

ライセンス: Link先を確認
Haijun Liu, Yanxia Chai, Xiaoheng Tan, Dong Li and Xichuan Zhou(参考訳) 本稿では,可視的熱的人物再同定(vt-reid)に対する概念的に単純かつ効果的な双粒度三重項損失を提案する。 一般に、ReIDモデルは常にサンプルベースの三重項損失と粒度レベルからの識別損失で訓練される。 粗粒度レベルからクラス内コンパクト性やクラス間識別を促進するために、センターベース損失を導入することが可能である。 提案する双粒度三重項損失は,プール処理やバッチ正規化といった典型的な操作の単純な構成と相まって,階層的な細粒度から粗粒度まで,サンプルベース三重項損失と中心ベース三重項損失をうまく整理する。 RegDBとSYSU-MM01データセットの実験では、グローバルな特徴のみにより、二重粒度3重項の損失はVT-ReIDの性能を著しく向上させることができる。 高品質で将来の研究を促進するために、強力なVT-ReIDベースラインとなる可能性がある。

In this letter, we propose a conceptually simple and effective dual-granularity triplet loss for visible-thermal person re-identification (VT-ReID). In general, ReID models are always trained with the sample-based triplet loss and identification loss from the fine granularity level. It is possible when a center-based loss is introduced to encourage the intra-class compactness and inter-class discrimination from the coarse granularity level. Our proposed dual-granularity triplet loss well organizes the sample-based triplet loss and center-based triplet loss in a hierarchical fine to coarse granularity manner, just with some simple configurations of typical operations, such as pooling and batch normalization. Experiments on RegDB and SYSU-MM01 datasets show that with only the global features our dual-granularity triplet loss can improve the VT-ReID performance by a significant margin. It can be a strong VT-ReID baseline to boost future research with high quality.
翻訳日:2021-05-16 02:02:43 公開日:2021-03-10
# DAX:ニューラルネットワークのためのDeep Argumentative eXplanation

DAX: Deep Argumentative eXplanation for Neural Networks ( http://arxiv.org/abs/2012.05766v3 )

ライセンス: Link先を確認
Emanuele Albini, Piyawat Lertvittayakumjorn, Antonio Rago and Francesca Toni(参考訳) 近年のeXplainable AI(XAI)への注目は急速に高まっているが、文献での説明ではニューラルネットワーク(NN)の実際の機能に関する洞察はほとんど得られず、透明性を著しく制限している。 我々は,計算的議論(意見が重要な様々な設定で推論抽象化を提供するシンボリックaiの一種)を,深層的議論的説明(daxs)を基盤とする足場として活用し,nnsを説明する手法を提案する。 3つのDAXインスタンス化(様々なニューラルアーキテクチャやタスク)を定義し、安定性、計算コスト、深さの重要性を実証的に評価する。 また、テキスト分類モデルのためのDAXを用いた人間実験を行い、人間に理解でき、判断に沿うとともに、ユーザ受け入れの観点からは競合し、議論的な精神をもった既存のXAIへのアプローチを示す。

Despite the rapid growth in attention on eXplainable AI (XAI) of late, explanations in the literature provide little insight into the actual functioning of Neural Networks (NNs), significantly limiting their transparency. We propose a methodology for explaining NNs, providing transparency about their inner workings, by utilising computational argumentation (a form of symbolic AI offering reasoning abstractions for a variety of settings where opinions matter) as the scaffolding underpinning Deep Argumentative eXplanations (DAXs). We define three DAX instantiations (for various neural architectures and tasks) and evaluate them empirically in terms of stability, computational cost, and importance of depth. We also conduct human experiments with DAXs for text classification models, indicating that they are comprehensible to humans and align with their judgement, while also being competitive, in terms of user acceptance, with existing approaches to XAI that also have an argumentative spirit.
翻訳日:2021-05-15 06:27:32 公開日:2021-03-10
# ベイズネットワーク分類器に対する影響駆動型説明

Influence-Driven Explanations for Bayesian Network Classifiers ( http://arxiv.org/abs/2012.05773v3 )

ライセンス: Link先を確認
Antonio Rago, Emanuele Albini, Pietro Baroni and Francesca Toni(参考訳) 近年のaiにおける最も差し迫った問題の1つは、多くのモデルの説明可能性の欠如に対処する必要性である。 我々は, 離散ベイズネットワーク分類器(bcs)の説明に注目し, 入力変数と出力変数だけではなく, 中間変数を説明に含めることで, 内部動作の透明性を高めることを目標としている。 提案されたBCに対する影響駆動的説明(IDX)は、BC内の変数間の因果関係を用いて体系的に生成され、インフルエンスと呼ばれ、その振る舞いに従って関係性と呼ばれる論理的要求によって分類される。 これらの関係性はどちらもヒューリスティックな説明方法を超えた保証を提供し、説明の基盤となる情報が特定の文脈やユーザの要求に合わせて調整されることを可能にする。 我々は,BCの様々な形態,例えばナイーブやマルチラベル,バイナリやカテゴリなどを説明するIDXの能力を実証するとともに,BCの文献からの説明への最近のアプローチを統合する。 理論的および経験的分析によりidxを評価し,既存の説明法と比較した場合,その有意なアドバンテージを示す。

One of the most pressing issues in AI in recent years has been the need to address the lack of explainability of many of its models. We focus on explanations for discrete Bayesian network classifiers (BCs), targeting greater transparency of their inner workings by including intermediate variables in explanations, rather than just the input and output variables as is standard practice. The proposed influence-driven explanations (IDXs) for BCs are systematically generated using the causal relationships between variables within the BC, called influences, which are then categorised by logical requirements, called relation properties, according to their behaviour. These relation properties both provide guarantees beyond heuristic explanation methods and allow the information underpinning an explanation to be tailored to a particular context's and user's requirements, e.g., IDXs may be dialectical or counterfactual. We demonstrate IDXs' capability to explain various forms of BCs, e.g., naive or multi-label, binary or categorical, and also integrate recent approaches to explanations for BCs from the literature. We evaluate IDXs with theoretical and empirical analyses, demonstrating their considerable advantages when compared with existing explanation methods.
翻訳日:2021-05-15 06:27:13 公開日:2021-03-10
# AdvantageNAS: クレジット割り当てによる効率的なニューラルネットワーク検索

AdvantageNAS: Efficient Neural Architecture Search with Credit Assignment ( http://arxiv.org/abs/2012.06138v2 )

ライセンス: Link先を確認
Rei Sato, Jun Sakuma, Youhei Akimoto(参考訳) ニューラルネットワークサーチ(NAS)は、人間の努力や専門知識なしに、ニューラルネットワークアーキテクチャを自動設計するためのアプローチである。 しかし、NASの計算コストが高いため、商用アプリケーションでは使用が制限される。 最近の2つのNASパラダイム、すなわちワンショットとスパース伝播は、それぞれ時間と空間の複雑さを減らし、この問題を解決する手がかりを提供する。 本稿では,単発・スパース伝搬NAS,すなわちアドバンテージNASの探索戦略を提案する。 AdvantageNASは、アーキテクチャ更新の勾配推定にクレジット代入を導入することにより、探索効率を向上させる勾配ベースのアプローチである。 NAS-Bench-201 および PTB データセットを用いた実験により,AdvantageNAS が既存のスパース伝搬NAS と比較して,限られた時間予算下で高い性能のアーキテクチャを発見することが示された。 advantagenasの信頼性をさらに解明するため、理論的に検討し、期待損失を単調に改善し収束することを発見した。

Neural architecture search (NAS) is an approach for automatically designing a neural network architecture without human effort or expert knowledge. However, the high computational cost of NAS limits its use in commercial applications. Two recent NAS paradigms, namely one-shot and sparse propagation, which reduce the time and space complexities, respectively, provide clues for solving this problem. In this paper, we propose a novel search strategy for one-shot and sparse propagation NAS, namely AdvantageNAS, which further reduces the time complexity of NAS by reducing the number of search iterations. AdvantageNAS is a gradient-based approach that improves the search efficiency by introducing credit assignment in gradient estimation for architecture updates. Experiments on the NAS-Bench-201 and PTB dataset show that AdvantageNAS discovers an architecture with higher performance under a limited time budget compared to existing sparse propagation NAS. To further reveal the reliabilities of AdvantageNAS, we investigate it theoretically and find that it monotonically improves the expected loss and thus converges.
翻訳日:2021-05-11 03:08:00 公開日:2021-03-10
# (参考訳) 条件付きテキスト生成のための逆摂動を用いたコントラスト学習 [全文訳有]

Contrastive Learning with Adversarial Perturbations for Conditional Text Generation ( http://arxiv.org/abs/2012.07280v6 )

ライセンス: CC BY 4.0
Seanie Lee, Dong Bok Lee, Sung Ju Hwang(参考訳) 近年, Transformer アーキテクチャを用いたSequence-to-Sequence (seq2seq) モデルは,機械翻訳などの条件付きテキスト生成タスクにおいて顕著な性能を発揮している。 しかし、それらの多くは、トレーニング中に誤って生成されたトークンに晒されることなく、各ステップで与えられた基底真理ラベルを強制する教師の強制で訓練されており、それは"露光バイアス"問題として知られる、見当たらない入力への一般化を損なう。 本研究では,正のペアと負のペアを対比することにより条件付きテキスト生成問題を軽減することを提案する。 しかし, ランダムな非ターゲット配列を負の例として用いて, 逆学習フレームワークを用いてモデルを訓練することは, 特に大きなテキストコーパスで事前学習したモデルでは, 正しい出力と容易に区別できるため, 最適以下である。 また、ポジティブな例を生成するにはドメイン固有の拡張ヒューリスティックが必要である。 そこで本研究では,seq2seqモデルの対比学習のための正・負のサンプル生成法を提案する。 具体的には,条件付き確率を最小化するために入力列に小さな摂動を追加して負の例を生成し,条件付き確率が高いよう強制しながら大きな摂動を付加することで正の例を生成する。 このような「ハード」な正対と負の対が我々の手法で生成され、正しい出力と間違った出力をよりよく区別するためにモデルが導かれる。 提案手法は,3つのテキスト生成タスク(機械翻訳,テキスト要約,質問生成)におけるSeq2seqの一般化を大幅に改善することを示す。

Recently, sequence-to-sequence (seq2seq) models with the Transformer architecture have achieved remarkable performance on various conditional text generation tasks, such as machine translation. However, most of them are trained with teacher forcing with the ground truth label given at each time step, without being exposed to incorrectly generated tokens during training, which hurts its generalization to unseen inputs, that is known as the "exposure bias" problem. In this work, we propose to mitigate the conditional text generation problem by contrasting positive pairs with negative pairs, such that the model is exposed to various valid or incorrect perturbations of the inputs, for improved generalization. However, training the model with naive contrastive learning framework using random non-target sequences as negative examples is suboptimal, since they are easily distinguishable from the correct output, especially so with models pretrained with large text corpora. Also, generating positive examples requires domain-specific augmentation heuristics which may not generalize over diverse domains. To tackle this problem, we propose a principled method to generate positive and negative samples for contrastive learning of seq2seq models. Specifically, we generate negative examples by adding small perturbations to the input sequence to minimize its conditional likelihood, and positive examples by adding large perturbations while enforcing it to have a high conditional likelihood. Such "hard" positive and negative pairs generated using our method guides the model to better distinguish correct outputs from incorrect ones. We empirically show that our proposed method significantly improves the generalization of the seq2seq on three text generation tasks - machine translation, text summarization, and question generation.
翻訳日:2021-05-09 08:11:35 公開日:2021-03-10
# エージェントクラス情報を用いた異種マルチエージェント強化学習におけるエージェント間コミュニケーションの特化

Specializing Inter-Agent Communication in Heterogeneous Multi-Agent Reinforcement Learning using Agent Class Information ( http://arxiv.org/abs/2012.07617v2 )

ライセンス: Link先を確認
Douglas De Rizzo Meneghetti, Reinaldo Augusto da Costa Bianchi(参考訳) グラフニューラルネットワークとのエージェント通信の最近の進歩に触発されて、ノードラベルがエージェントクラスとエッジラベル、エージェントの2つのクラス間の通信タイプを表す有向ラベル付き異種エージェントグラフとして、マルチエージェント通信能力の表現を提案する。 また、各エージェントクラス間の交換メッセージへの個々の変換を学習することにより、完全に協調した多エージェントタスクにおけるコミュニケーションを専門とするニューラルネットワークアーキテクチャを導入する。 また,異種エージェントの環境に対するパラメータ共有を伴うエンコーディングおよびアクション選択モジュールを用いることで,エージェントクラスが多数動作する環境において,同等あるいは優れた性能を示す。

Inspired by recent advances in agent communication with graph neural networks, this work proposes the representation of multi-agent communication capabilities as a directed labeled heterogeneous agent graph, in which node labels denote agent classes and edge labels, the communication type between two classes of agents. We also introduce a neural network architecture that specializes communication in fully cooperative heterogeneous multi-agent tasks by learning individual transformations to the exchanged messages between each pair of agent classes. By also employing encoding and action selection modules with parameter sharing for environments with heterogeneous agents, we demonstrate comparable or superior performance in environments where a larger number of agent classes operates.
翻訳日:2021-05-08 14:37:25 公開日:2021-03-10
# Shape My Face:表面から表面への変換による3D顔スキャンの登録

Shape My Face: Registering 3D Face Scans by Surface-to-Surface Translation ( http://arxiv.org/abs/2012.09235v2 )

ライセンス: Link先を確認
Mehdi Bahri, Eimear O' Sullivan, Shunwang Gong, Feng Liu, Xiaoming Liu, Michael M. Bronstein, Stefanos Zafeiriou(参考訳) 標準登録アルゴリズムは、慎重に事前処理と手作業で登録するために各面に独立して適用する必要がある。 近年、学習に基づくアプローチにより、以前に訓練されたモデルによる推論の実行に対する新しいスキャンの登録を減らしている。 本稿では,登録タスクを表面から表面への変換問題としてキャストし,生の3d顔スキャンから直接潜在幾何情報を確実にキャプチャするモデルを設計する。 改良されたポイントクラウドエンコーダに基づく強力なエンコーダ・デコーダアーキテクチャであるShape-My-Face(SMF)、新しい視覚的アテンション機構、スキップ接続を備えたグラフ畳み込みデコーダ、メッシュ畳み込みをスムーズに統合する特殊な口モデルを紹介する。 以前の最先端の機械学習アルゴリズムによる顔スキャンの非厳密な登録と比較して、SMFは生データを事前に定義された顔テンプレートで厳格に整列させる必要がある。 さらに,我々のモデルでは,最小限の監視でトポロジカルなメッシュを提供し,より高速なトレーニング時間を提供し,トレーニング可能なパラメータを桁違いに削減し,ノイズに対してより頑健で,これまで見つからなかったデータセットに一般化することができる。 多様なデータに基づいて登録の質を広く評価する。 我々は,異なるモード,センサタイプ,解像度の面スキャンを用いて,モデルのロバスト性と一般化性を示す。 最後に,スキャンを登録する学習により,SMFは線形・非線形のハイブリッドモデルを生成することを示す。 SMFの潜伏空間のマニピュレーションは、表現の移動のような形状生成や形態形成の応用を可能にする。 コモディティハードウェア上で9つの大規模データベースからなる人間の顔のデータセット上でsmfをトレーニングする。

Standard registration algorithms need to be independently applied to each surface to register, following careful pre-processing and hand-tuning. Recently, learning-based approaches have emerged that reduce the registration of new scans to running inference with a previously-trained model. In this paper, we cast the registration task as a surface-to-surface translation problem, and design a model to reliably capture the latent geometric information directly from raw 3D face scans. We introduce Shape-My-Face (SMF), a powerful encoder-decoder architecture based on an improved point cloud encoder, a novel visual attention mechanism, graph convolutional decoders with skip connections, and a specialized mouth model that we smoothly integrate with the mesh convolutions. Compared to the previous state-of-the-art learning algorithms for non-rigid registration of face scans, SMF only requires the raw data to be rigidly aligned (with scaling) with a pre-defined face template. Additionally, our model provides topologically-sound meshes with minimal supervision, offers faster training time, has orders of magnitude fewer trainable parameters, is more robust to noise, and can generalize to previously unseen datasets. We extensively evaluate the quality of our registrations on diverse data. We demonstrate the robustness and generalizability of our model with in-the-wild face scans across different modalities, sensor types, and resolutions. Finally, we show that, by learning to register scans, SMF produces a hybrid linear and non-linear morphable model. Manipulation of the latent space of SMF allows for shape generation, and morphing applications such as expression transfer in-the-wild. We train SMF on a dataset of human faces comprising 9 large-scale databases on commodity hardware.
翻訳日:2021-05-03 03:03:03 公開日:2021-03-10
# (参考訳) 局所観測を用いた分布地図分類 [全文訳有]

Distributed Map Classification using Local Observations ( http://arxiv.org/abs/2012.10480v2 )

ライセンス: CC BY 4.0
Guangyi Liu, Arash Amini, Martin Tak\'a\v{c}, H\'ector Mu\~noz-Avila, and Nader Motee(参考訳) コミュニケーションロボットのチームを用いて地図を分類する問題を考察する。 全てのロボットが視覚知覚能力の局所化を図り、近隣のロボットと情報を交換できると考えられる。 グラフ分解手法を用いて,全てのロボットが近隣のロボットと通信し,情報を融合し,地図分類のための環境の最も有意義な部分への次の移動を計画できるオフライン学習構造を提案する。 主なアイデアは、与えられた無向グラフを有向星グラフの結合に分解し、有界数の星グラフを訓練するロボットを訓練することである。 これにより、オフライントレーニングの計算コストを大幅に削減し、学習をスケーラブルにする(ロボットの数に依存しない)。 本手法は,多数の通信ロボットを用いた大規模環境における高速地図分類に特に有用である。 提案手法の有効性を広範囲なシミュレーションにより検証する。

We consider the problem of classifying a map using a team of communicating robots. It is assumed that all robots have localized visual sensing capabilities and can exchange their information with neighboring robots. Using a graph decomposition technique, we proposed an offline learning structure that makes every robot capable of communicating with and fusing information from its neighbors to plan its next move towards the most informative parts of the environment for map classification purposes. The main idea is to decompose a given undirected graph into a union of directed star graphs and train robots w.r.t a bounded number of star graphs. This will significantly reduce the computational cost of offline training and makes learning scalable (independent of the number of robots). Our approach is particularly useful for fast map classification in large environments using a large number of communicating robots. We validate the usefulness of our proposed methodology through extensive simulations.
翻訳日:2021-05-01 19:59:42 公開日:2021-03-10
# ロボットの協調運動に向けて : 変換木における運動政策のエンドツーエンド学習

Towards Coordinated Robot Motions: End-to-End Learning of Motion Policies on Transform Trees ( http://arxiv.org/abs/2012.13457v2 )

ライセンス: Link先を確認
M. Asif Rana, Anqi Li, Dieter Fox, Sonia Chernova, Byron Boots, Nathan Ratliff(参考訳) 複数のタスクを同時にこなすロボットの動きを生成することは、ロボットが課す幾何学的制約のために難しい。 本稿では,人間の実演から構造化ポリシーを学習し,マルチタスク問題を解決することを提案する。 我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。 ポリシー構造は、1)タスクの完了に直接関連するスペースを特定する、2)学習する必要のない特定のタスクのためのポリシーを設計するためのインタフェースを提供する。 タスク空間上の動作の偏りを強調し,マルチタスク問題に適したエンドツーエンド学習目標関数を導出する。 さらに、学習したポリシークラスから発生する動きは安定することが保証される。 7-DOF Rethink Sawyer ロボットを用いた3つのロボット作業の質的,定量的評価により,提案手法の有効性を検証する。

Generating robot motion that fulfills multiple tasks simultaneously is challenging due to the geometric constraints imposed by the robot. In this paper, we propose to solve multi-task problems through learning structured policies from human demonstrations. Our structured policy is inspired by RMPflow, a framework for combining subtask policies on different spaces. The policy structure provides the user an interface to 1) specifying the spaces that are directly relevant to the completion of the tasks, and 2) designing policies for certain tasks that do not need to be learned. We derive an end-to-end learning objective function that is suitable for the multi-task problem, emphasizing the deviation of motions on task spaces. Furthermore, the motion generated from the learned policy class is guaranteed to be stable. We validate the effectiveness of our proposed learning framework through qualitative and quantitative evaluations on three robotic tasks on a 7-DOF Rethink Sawyer robot.
翻訳日:2021-04-25 08:05:27 公開日:2021-03-10
# 外部記憶における結合による創発的シンボル

Emergent Symbols through Binding in External Memory ( http://arxiv.org/abs/2012.14601v2 )

ライセンス: Link先を確認
Taylor W. Webb, Ishan Sinha, Jonathan D. Cohen(参考訳) 人間の知能の重要な側面は、高次元の感覚データから直接抽象的な規則を推論し、限られた量の訓練経験しか与えない能力である。 深層ニューラルネットワークアルゴリズムは、高次元データから直接学習する強力なツールであることが証明されているが、現在、抽象ルールをデータ効率良く導入するための能力が欠けているため、シンボル処理のメカニズムはこの能力を考慮する必要がある、と主張する人もいる。 本稿では,外部メモリを付加した再帰型ネットワークであるEmergent Symbol Binding Network (ESBN)を導入することにより,このギャップを埋める方向に進む。 このバインディングメカニズムにより、シンボルのような表現が、明示的にシンボル処理機構を組み込む必要なしに学習プロセスを通して実現され、ESBNは、それらのルールが適用される特定のエンティティから抽象化された方法でルールを学ぶことができる。 一連のタスクを通じて、このアーキテクチャは、限られた数のトレーニング例しか与えない新しいエンティティへの学習ルールのほぼ完全な一般化を示し、他の多くの競合ニューラルネットワークアーキテクチャよりも優れています。

A key aspect of human intelligence is the ability to infer abstract rules directly from high-dimensional sensory data, and to do so given only a limited amount of training experience. Deep neural network algorithms have proven to be a powerful tool for learning directly from high-dimensional data, but currently lack this capacity for data-efficient induction of abstract rules, leading some to argue that symbol-processing mechanisms will be necessary to account for this capacity. In this work, we take a step toward bridging this gap by introducing the Emergent Symbol Binding Network (ESBN), a recurrent network augmented with an external memory that enables a form of variable-binding and indirection. This binding mechanism allows symbol-like representations to emerge through the learning process without the need to explicitly incorporate symbol-processing machinery, enabling the ESBN to learn rules in a manner that is abstracted away from the particular entities to which those rules apply. Across a series of tasks, we show that this architecture displays nearly perfect generalization of learned rules to novel entities given only a limited number of training examples, and outperforms a number of other competitive neural network architectures.
翻訳日:2021-04-18 20:42:46 公開日:2021-03-10
# VinVL:視覚言語モデルにおける視覚表現の再検討

VinVL: Revisiting Visual Representations in Vision-Language Models ( http://arxiv.org/abs/2101.00529v2 )

ライセンス: Link先を確認
Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao(参考訳) 本稿では、視覚言語(VL)タスクの視覚表現を改善するための詳細な研究を行い、画像のオブジェクト中心表現を提供するための改善されたオブジェクト検出モデルを開発する。 最も広く使われている \emph{bottom-up and top-down} モデルである \cite{anderson2018bottom} と比較すると、新しいモデルはより大きく、VLタスクによく設計されており、複数のパブリックアノテーション付きオブジェクト検出データセットを組み合わせた、はるかに大きなトレーニングコーパスで事前訓練されている。 したがって、よりリッチな視覚オブジェクトと概念の集合の表現を生成することができる。 従来のVL研究は、視覚言語融合モデルの改善とオブジェクト検出モデルの改善に重点を置いていたが、VLモデルでは視覚的特徴が著しく重要であることを示す。 実験では,新しいオブジェクト検出モデルによって生成された視覚的特徴をトランスフォーマーベースのVL融合モデルである \oscar \cite{li2020oscar} に供給し,改良されたアプローチ \short\ を用いてVLモデルを事前学習し,広範囲の下流VLタスクで微調整する。 その結果,新しい視覚的特徴は全VLタスクのパフォーマンスを著しく改善し,7つの公開ベンチマークで最新の結果が得られた。 新しいオブジェクト検出モデルを公開します。

This paper presents a detailed study of improving visual representations for vision language (VL) tasks and develops an improved object detection model to provide object-centric representations of images. Compared to the most widely used \emph{bottom-up and top-down} model \cite{anderson2018bottom}, the new model is bigger, better-designed for VL tasks, and pre-trained on much larger training corpora that combine multiple public annotated object detection datasets. Therefore, it can generate representations of a richer collection of visual objects and concepts. While previous VL research focuses mainly on improving the vision-language fusion model and leaves the object detection model improvement untouched, we show that visual features matter significantly in VL models. In our experiments we feed the visual features generated by the new object detection model into a Transformer-based VL fusion model \oscar \cite{li2020oscar}, and utilize an improved approach \short\ to pre-train the VL model and fine-tune it on a wide range of downstream VL tasks. Our results show that the new visual features significantly improve the performance across all VL tasks, creating new state-of-the-art results on seven public benchmarks. We will release the new object detection model to public.
翻訳日:2021-04-13 07:24:32 公開日:2021-03-10
# (参考訳) BERTによる特許における参照マイニングの改善 [全文訳有]

Improving reference mining in patents with BERT ( http://arxiv.org/abs/2101.01039v3 )

ライセンス: CC BY 4.0
Ken Voskuil and Suzan Verberne(参考訳) 本稿では,特許から科学的参照を抽出することの課題に対処する。 本稿では,この課題をシーケンスラベリングタスクとしてアプローチし,BERTモデルの長列抽出におけるメリットについて検討する。 科学文献への特許の言及は、科学と産業の関係を研究するために重要である。 ほとんどの先行研究は、この分析のために、特許アーカイブのメタデータで提供されるフロントページ引用のみを使用する。 本稿では,条件付き確率場 (crf) と flair を用いた参照抽出のための事前作業について述べる。 トレーニングデータの品質を改善し,ラベル付きデータ(BERT, BioBERT, sciBERT)に基づいて3つのBERTモデルをトレーニングする。 トレーニングデータの改善によって,トレーニングモデルの品質が大幅に向上することが分かりました。 さらに、BERTモデルはCRFとFrairを破り、クロスバリデーションで97%のリコールスコアを得た。 最良のモデルでは、3万の特許の膨大なコレクションをラベル付けし、引用を抽出し、それらをWeb of Scienceデータベースの出版物にマッチさせる。 従来のトレーニングデータとメソッドより50%多く参照し、合計で735万参照している。 これらの特許公開リンクにより、後続の研究は、どの種類の科学的研究が発明につながるかをさらに分析する。

In this paper we address the challenge of extracting scientific references from patents. We approach the problem as a sequence labelling task and investigate the merits of BERT models to the extraction of these long sequences. References in patents to scientific literature are relevant to study the connection between science and industry. Most prior work only uses the front-page citations for this analysis, which are provided in the metadata of patent archives. In this paper we build on prior work using Conditional Random Fields (CRF) and Flair for reference extraction. We improve the quality of the training data and train three BERT-based models on the labelled data (BERT, bioBERT, sciBERT). We find that the improved training data leads to a large improvement in the quality of the trained models. In addition, the BERT models beat CRF and Flair, with recall scores around 97% obtained with cross validation. With the best model we label a large collection of 33 thousand patents, extract the citations, and match them to publications in the Web of Science database. We extract 50% more references than with the old training data and methods: 735 thousand references in total. With these patent-publication links, follow-up research will further analyze which types of scientific work lead to inventions.
翻訳日:2021-04-12 04:53:35 公開日:2021-03-10
# (参考訳) スパイキングニューロンに対する線形制約学習 [全文訳有]

Linear Constraints Learning for Spiking Neurons ( http://arxiv.org/abs/2103.12564v1 )

ライセンス: CC BY 4.0
Huy Le Nguyen, Dominique Chu(参考訳) スパイク符号化ニューロンを用いて正確なスパイクタイミングで情報をエンコーディングすることは、レート符号化アプローチよりも計算能力が高いことが示されている。 しかし、スパイクニューロンに対する既存の教師あり学習アルゴリズムは複雑であり、時間の複雑さをもたらす。 これらの制限に対処するために,教師付きマルチスパイク学習アルゴリズムを提案する。 本研究では,線形制約満足度問題として大量の重み付け更新を定式化し,効率的に解くことができる。 実験の結果,本手法はMNISTデータセット上の既存のアルゴリズムと比較して効率が良いことがわかった。 さらに, LIFニューロンモデルの分類能力について, システムのいくつかのパラメータと比較して実験を行った。

Encoding information with precise spike timings using spike-coded neurons has been shown to be more computationally powerful than rate-coded approaches. However, most existing supervised learning algorithms for spiking neurons are complicated and offer poor time complexity. To address these limitations, we propose a supervised multi-spike learning algorithm which reduces the required number of training iterations. We achieve this by formulating a large number of weight updates as a linear constraint satisfaction problem, which can be solved efficiently. Experimental results show this method offers better efficiency compared to existing algorithms on the MNIST dataset. Additionally, we provide experimental results on the classification capacity of the LIF neuron model, relative to several parameters of the system.
翻訳日:2021-04-05 04:07:16 公開日:2021-03-10
# 部分微分方程式は、ニューラルネットワークの生成に必要なすべてである -- 物理人工知能システムの理論

Partial Differential Equations is All You Need for Generating Neural Architectures -- A Theory for Physical Artificial Intelligence Systems ( http://arxiv.org/abs/2103.08313v1 )

ライセンス: Link先を確認
Ping Guo, Kaizhu Huang, and Zenglin Xu(参考訳) 本研究では、統計物理学における反応拡散方程式、量子力学におけるSchr\"odinger方程式、パル軸光学におけるヘルムホルツ方程式を神経偏微分方程式(NPDE)に一般化し、人工知能研究の分野における基本方程式とみなすことができる。 数値解を見つけるためにNPDEを判別するために有限差分法を採用し、多層パーセプトロン、畳み込みニューラルネットワーク、繰り返しニューラルネットワークを含むディープニューラルネットワークアーキテクチャの基本構成ブロックを生成する。 また,適応モーメント推定,L-BFGS,擬似逆学習アルゴリズム,偏微分方程式制約最適化などの学習戦略についても述べる。 我々は、解釈可能なディープニューラルネットワークの物理的なイメージを示すことは重要であると信じており、アナログコンピューティングデバイス設計に適用でき、物理的人工知能への道を開くことができる。

In this work, we generalize the reaction-diffusion equation in statistical physics, Schr\"odinger equation in quantum mechanics, Helmholtz equation in paraxial optics into the neural partial differential equations (NPDE), which can be considered as the fundamental equations in the field of artificial intelligence research. We take finite difference method to discretize NPDE for finding numerical solution, and the basic building blocks of deep neural network architecture, including multi-layer perceptron, convolutional neural network and recurrent neural networks, are generated. The learning strategies, such as Adaptive moment estimation, L-BFGS, pseudoinverse learning algorithms and partial differential equation constrained optimization, are also presented. We believe it is of significance that presented clear physical image of interpretable deep neural networks, which makes it be possible for applying to analog computing device design, and pave the road to physical artificial intelligence.
翻訳日:2021-04-05 01:03:35 公開日:2021-03-10
# BrainNetGAN:認知症分類のための生成的対向ネットワークを用いた脳接続データの拡張

BrainNetGAN: Data augmentation of brain connectivity using generative adversarial network for dementia classification ( http://arxiv.org/abs/2103.08494v1 )

ライセンス: Link先を確認
Chao Li, Yiran Wei, Xi Chen(参考訳) アルツハイマー病 (ad) は最も一般的な年齢関連認知症である。 正確な管理のために認知症リスクのある個人を特定することは依然として課題である。 脳MRIは、脳の老化を検出する非侵襲的なバイオマーカーを提供する。 拡散MRIで検出された脳構造変化が認知症と関連しているという以前の証拠がある。 マウント研究は脳を複雑なネットワークとして概念化し、様々な神経学的、精神医学的障害を特徴づけるこのアプローチの有用性を示した。 したがって,構造的結合性は認知症分類において有望である。 提案したBrainNetGANは、二元認知症分類タスクのための脳構造接続行列を増強する、生成的対向ネットワークである。 拡散MRIデータに対するトラクトグラフィーを用いて、分離した脳領域間の構造接続行列を構築した。 BrainNetGANモデルは、実際の脳ネットワークデータの潜伏分布を反映する偽の脳接続行列を生成するように訓練されている。 最後に,二元性認知症分類のための畳み込みニューラルネットワーク分類器を提案する。 数値計算の結果,BrainNetGANデータセットを用いて,テストセットのバイナリ分類性能が改善された。 提案手法では,任意の数の拡張連結行列を素早く合成でき,同様の分類タスクに容易に移行できる。

Alzheimer's disease (AD) is the most common age-related dementia. It remains a challenge to identify the individuals at risk of dementia for precise management. Brain MRI offers a noninvasive biomarker to detect brain aging. Previous evidence shows that the brain structural change detected by diffusion MRI is associated with dementia. Mounting studies has conceptualised the brain as a complex network, which has shown the utility of this approach in characterising various neurological and psychiatric disorders. Therefore, the structural connectivity shows promise in dementia classification. The proposed BrainNetGAN is a generative adversarial network variant to augment the brain structural connectivity matrices for binary dementia classification tasks. Structural connectivity matrices between separated brain regions are constructed using tractography on diffusion MRI data. The BrainNetGAN model is trained to generate fake brain connectivity matrices, which are expected to reflect latent distribution of the real brain network data. Finally, a convolutional neural network classifier is proposed for binary dementia classification. Numerical results show that the binary classification performance in the testing set was improved using the BrainNetGAN augmented dataset. The proposed methodology allows quick synthesis of an arbitrary number of augmented connectivity matrices and can be easily transferred to similar classification tasks.
翻訳日:2021-04-05 01:02:59 公開日:2021-03-10
# 資金調達における最適ターゲット:機械学習アプローチ

Optimal Targeting in Fundraising: A Machine Learning Approach ( http://arxiv.org/abs/2103.10251v1 )

ライセンス: Link先を確認
Tobias Cagala, Ulrich Glogowsky, Johannes Rincke, Anthony Strittmatter(参考訳) 本稿では,資金調達効果を高める手段として,最適ターゲティングについて検討する。 我々は無条件ギフトで潜在的ドナーをランダムに提供し、因果機械学習技術を用いて、この資金集めツールを予測されたネットドナーに"最適"にターゲットする。 この戦略により、我々の募金活動は損失を回避し、利用可能な資金を大幅に増やし、その結果、サービスと商品の供給を増やすことができる。 さらに、これらの利益を実現するために、慈善団体は簡単に利用できるデータに頼るだけでよい。 無駄な資源をターゲットとした資金調達を控える慈善団体を結論づける。

This paper studies optimal targeting as a means to increase fundraising efficacy. We randomly provide potential donors with an unconditional gift and use causal-machine learning techniques to "optimally" target this fundraising tool to the predicted net donors: individuals who, in expectation, give more than their solicitation costs. With this strategy, our fundraiser avoids lossy solicitations, significantly boosts available funds, and, consequently, can increase service and goods provision. Further, to realize these gains, the charity can merely rely on readily available data. We conclude that charities that refrain from fundraising targeting waste significant resources.
翻訳日:2021-04-05 01:02:26 公開日:2021-03-10
# Lane-Keeping性能に基づく自動機械学習(AutoML)によるトラクション検出

An Automated Machine Learning (AutoML) Method for Driving Distraction Detection Based on Lane-Keeping Performance ( http://arxiv.org/abs/2103.08311v1 )

ライセンス: Link先を確認
Chen Chai, Juanwu Lu, Xuan Jiang, Xiupeng Shi, Zeng Zeng(参考訳) スマートフォンの豊か化により、携帯電話の使用による混乱が安全を脅かされている。 運転の邪魔を和らげる有望な方法は、それらを検出し、リアルタイムの安全警告を与えることである。 しかし、既存の検出アルゴリズムは2つの大きな課題に直面している。車載カメラセンサーによるユーザ受け入れの低下と、ドライバの個人差による事前学習モデルの不確実性である。 そこで本研究では,車線保持性能データに基づいて,最適モデルを自己学習するドメイン固有自動機械学習(AutoML)を提案する。 AutoMLは、知識ベースの特徴抽出、再帰的特徴除去(RFE)による特徴選択、アルゴリズムの選択、ベイズ最適化によるハイパーパラメータ自動チューニングを含む、重要なモデリングステップを自動最適化パイプラインに統合する。 XGBoostをベースとしたAutoMLメソッドはAutoGBMと呼ばれ、予測と特徴ランキングのための分類器として構築されている。 このモデルは、短いメッセージのブラウジング、長いメッセージのブラウジング、電話の応答という、電話使用による3つの運転妨害のシミュレーション実験に基づいてテストされる。 提案手法は, グループレベルでは80\%, 個人精度では90\%の予測能力を有し, 良好な結果予測を実現するため, 信頼度が高く, 携帯電話関連運転障害の予測に有望であることがわかった。 さらに、各障害タイプとドライバが異なる最適化されたハイパーパラメータ値を必要とするという事実も発覚し、運転障害を検出するためにAutoMLを利用する必要性を再確認した。 目的のAutoGBMは機能が少ないだけでなく、システム設計に関するデータ駆動の洞察も提供する。

With the enrichment of smartphones, driving distractions caused by phone usages have become a threat to driving safety. A promising way to mitigate driving distractions is to detect them and give real-time safety warnings. However, existing detection algorithms face two major challenges, low user acceptance caused by in-vehicle camera sensors, and uncertain accuracy of pre-trained models due to drivers individual differences. Therefore, this study proposes a domain-specific automated machine learning (AutoML) to self-learn the optimal models to detect distraction based on lane-keeping performance data. The AutoML integrates the key modeling steps into an auto-optimizable pipeline, including knowledge-based feature extraction, feature selection by recursive feature elimination (RFE), algorithm selection, and hyperparameter auto-tuning by Bayesian optimization. An AutoML method based on XGBoost, termed AutoGBM, is built as the classifier for prediction and feature ranking. The model is tested based on driving simulator experiments of three driving distractions caused by phone usage: browsing short messages, browsing long messages, and answering a phone call. The proposed AutoGBM method is found to be reliable and promising to predict phone-related driving distractions, which achieves satisfactory results prediction, with a predictive power of 80\% on group level and 90\% on individual level accuracy. Moreover, the results also evoke the fact that each distraction types and drivers require different optimized hyperparameters values, which reconfirm the necessity of utilizing AutoML to detect driving distractions. The purposed AutoGBM not only produces better performance with fewer features; but also provides data-driven insights about system design.
翻訳日:2021-04-05 01:02:15 公開日:2021-03-10
# ニューラルアーキテクチャ探索のためのトレーニングレスモデル性能推定

Trainless Model Performance Estimation for Neural Architecture Search ( http://arxiv.org/abs/2103.08312v1 )

ライセンス: Link先を確認
Ekaterina Gracheva(参考訳) ニューラルアーキテクチャサーチは、ディープラーニング分野において欠かせない部分となっている。 現代的な手法では、タスクに最適なアーキテクチャを見つけ出すことができますし、スクラッチからネットワークを構築することもできますが、通常は膨大なトレーニングが必要です。 本稿では,その非学習性能に基づいてタスクに適したアーキテクチャを見出すための簡易な手法を提案する。 本稿では,基準偏差を平均値で割った非トレーニング精度の相対標準偏差として,メトリックスコアを導入する。 各ニューラルネットワークアーキテクチャの統計は、単一のデータバッチ上の異なる種を持つ複数の初期化で計算される。 最も低いメートル法スコアを持つアーキテクチャは、CIFAR-10、CIFAR-100、ImageNetのダウンスケール版に対して平均911.90 \pm 2.27$、64.08 \pm 5.63$、38.76 \pm 6.62$の精度を持つ。 その結果、優れたアーキテクチャはトレーニング前の初期化に対して安定すべきであることが示された。 この手続きにはcifarが約190ドル、imagenetが133.9ドル、画像が256ドル、初期化が100ドルかかる。

Neural architecture search has become an indispensable part of the deep learning field. Modern methods allow to find out the best performing architectures for a task, or to build a network from scratch, but they usually require a tremendous amount of training. In this paper we present a simple method, allowing to discover a suitable architecture for a task based on its untrained performance. We introduce the metric score as the relative standard deviation of the untrained accuracy, which is the standard deviation divided by the mean. Statistics for each neural architecture are calculated over multiple initialisations with different seeds on a single batch of data. An architecture with the lowest metric score value has on average an accuracy of $91.90 \pm 2.27$, $64.08 \pm 5.63$ and $38.76 \pm 6.62$ for CIFAR-10, CIFAR-100 and a downscaled version of ImageNet, respectively. The results show that a good architecture should be stable against initialisations before training. The procedure takes about $190$ s for CIFAR and $133.9$ s for ImageNet, on a batch of $256$ images and $100$ initialisations.
翻訳日:2021-04-05 01:01:45 公開日:2021-03-10
# エネルギー劣化ネットワーク(EDeN)

Energy Decay Network (EDeN) ( http://arxiv.org/abs/2103.15552v1 )

ライセンス: Link先を確認
Jamie Nicholas Shelley, Optishell Consultancy(参考訳) この論文とそれに伴うPythonとC++ Frameworkは、狭義の(差別に基づく)AIで認識された問題の著者たちの製品である。 (Artificial Intelligence) The Framework attempts to develop a genetic transfer of experience through potential structural expressions using a common regulation/exchange value (energy) to create a model whereby neural architecture and all unit processes are co-dependently developed by genetic and real time signal processing influences; successful routes are defined by stability of the spike distribution per epoch which is influenced by genetically encoded morphological development biases.These principles are aimed towards creating a diverse and robust network that is capable of adapting to general tasks by training within a simulation designed for transfer learning to other mediums at scale.

This paper and accompanying Python and C++ Framework is the product of the authors perceived problems with narrow (Discrimination based) AI. (Artificial Intelligence) The Framework attempts to develop a genetic transfer of experience through potential structural expressions using a common regulation/exchange value (energy) to create a model whereby neural architecture and all unit processes are co-dependently developed by genetic and real time signal processing influences; successful routes are defined by stability of the spike distribution per epoch which is influenced by genetically encoded morphological development biases.These principles are aimed towards creating a diverse and robust network that is capable of adapting to general tasks by training within a simulation designed for transfer learning to other mediums at scale.
翻訳日:2021-04-05 01:01:27 公開日:2021-03-10
# 生成対立ネットワークを用いた事前学習したエンドツーエンド音声認識の微調整

Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative Adversarial Networks ( http://arxiv.org/abs/2103.13329v1 )

ライセンス: Link先を確認
Md Akmal Haidar and Mehdi Rezagholizadeh(参考訳) GAN(Generative Adversarial Network)を用いたエンド・ツー・エンド(E2E)ASRシステムの逆トレーニングを低リソースASRコーパスに対して行った。 GANは、2プレイヤーのmin-maxゲームを通して真のデータ表現を学ぶのに役立つ。 しかし、ganフレームワークを用いた大規模asrコーパスを用いたe2e asrモデルのトレーニングは、高分散勾配更新と顔収束問題のために過度に時間がかかる可能性があるため、検討されていない。 本稿では,asrモデルが生成器として動作し,判別器が実データとasr出力を区別しようとするgan目的を用いて,事前学習したasrモデルを微調整する新しい枠組みを提案する。 ASRモデルが事前学習されているため、ASRモデル出力(ソフト分布ベクトル)が判別器からより高いスコアを得るのに役立ち、GANフレームワーク内で識別器のタスクを困難にすることで、微調整段階におけるASRモデルの性能を向上させることができると仮定する。 ここでは、事前学習されたASRモデルを、追加の対向損失を用いて判別器に対して微調整する。 完全なLibriSpeechデータセットを用いた実験により,提案手法はベースラインや従来のGANベースの逆数モデルよりも優れていることがわかった。

Adversarial training of end-to-end (E2E) ASR systems using generative adversarial networks (GAN) has recently been explored for low-resource ASR corpora. GANs help to learn the true data representation through a two-player min-max game. However, training an E2E ASR model using a large ASR corpus with a GAN framework has never been explored, because it might take excessively long time due to high-variance gradient updates and face convergence issues. In this paper, we introduce a novel framework for fine-tuning a pre-trained ASR model using the GAN objective where the ASR model acts as a generator and a discriminator tries to distinguish the ASR output from the real data. Since the ASR model is pre-trained, we hypothesize that the ASR model output (soft distribution vectors) helps to get higher scores from the discriminator and makes the task of the discriminator harder within our GAN framework, which in turn improves the performance of the ASR model in the fine-tuning stage. Here, the pre-trained ASR model is fine-tuned adversarially against the discriminator using an additional adversarial loss. Experiments on full LibriSpeech dataset show that our proposed approach outperforms baselines and conventional GAN-based adversarial models.
翻訳日:2021-04-05 01:01:18 公開日:2021-03-10
# 大規模産業用IoTのための機械学習

Machine Learning for Massive Industrial Internet of Things ( http://arxiv.org/abs/2103.08308v1 )

ライセンス: Link先を確認
Hui Zhou, Changyang She, Yansha Deng, Mischa Dohler, and Arumugam Nallanathan(参考訳) 産業用モノのインターネット(Industrial Internet of Things, IIoT)は、モノのインターネット(Internet of Things)技術を産業用環境に統合することによって、将来の製造設備に革命をもたらす。 大規模なIIoTデバイスのデプロイでは、無線ネットワークがさまざまなQoS(Quality-of-Servi ce)要件でユビキタス接続をサポートすることは困難である。 機械学習は無線ネットワークを最適化するための強力なデータ駆動ツールとされているが、独自の特徴を持つ巨大なIIoT問題に機械学習を適用する方法はまだ未解決である。 本稿では,一般的な大規模非クリティカルかつクリティカルなIIoTユースケースのQoS要件をまず要約する。 次に、巨大なIIoTシナリオにおけるユニークな特徴と、その制限と潜在的研究方向で対応する機械学習ソリューションを特定します。 さらに、大規模IIoTにおける個別層と層間問題に対する既存の機械学習ソリューションについて述べる。 最後に,深層ニューラルネットワークと深層強化学習技術に基づく大規模アクセス問題の事例研究を行い,大規模iiotシナリオにおける機械学習の有効性を検証する。

Industrial Internet of Things (IIoT) revolutionizes the future manufacturing facilities by integrating the Internet of Things technologies into industrial settings. With the deployment of massive IIoT devices, it is difficult for the wireless network to support the ubiquitous connections with diverse quality-of-service (QoS) requirements. Although machine learning is regarded as a powerful data-driven tool to optimize wireless network, how to apply machine learning to deal with the massive IIoT problems with unique characteristics remains unsolved. In this paper, we first summarize the QoS requirements of the typical massive non-critical and critical IIoT use cases. We then identify unique characteristics in the massive IIoT scenario, and the corresponding machine learning solutions with its limitations and potential research directions. We further present the existing machine learning solutions for individual layer and cross-layer problems in massive IIoT. Last but not the least, we present a case study of massive access problem based on deep neural network and deep reinforcement learning techniques, respectively, to validate the effectiveness of machine learning in massive IIoT scenario.
翻訳日:2021-04-05 01:00:33 公開日:2021-03-10
# 脳-コンピュータインタフェースにおける脳波モータ画像復号のためのモデル非依存メタラーニング

Model-Agnostic Meta-Learning for EEG Motor Imagery Decoding in Brain-Computer-Inter facing ( http://arxiv.org/abs/2103.08664v1 )

ライセンス: Link先を確認
Denghao Li, Pablo Ortega, Xiaoxi Wei and Aldo Faisal(参考訳) 本稿では,脳波BCIデコーダのトレーニングのためのメタラーニングのアイデアを紹介する。 Meta-Learningは、機械学習システムのトレーニング方法であり、学習を学ぶ。 ここでは、メタラーニングを単純なDeep Learning BCIアーキテクチャに適用し、同じアーキテクチャ上でのトランスファーラーニングと比較する。 私たちのメタラーニング戦略は、bciデコーダの最適なパラメータを見つけ、異なるユーザと記録セッションを素早く一般化できるようにします。 我々のアルゴリズムを physionet eeg motor image dataset でテストした。 提案手法は運動画像の分類精度を60%から80%に向上させ,低データ条件下での他のアルゴリズムよりも優れていた。 私たちは、メタラーニングや学習から学習へのアプローチを確立することで、ニューラルネットワークのデコーダを迅速にセットアップし、それらを日々の生活にもっと適させるという課題に、ニューラルエンジニアリングと人間が直面するのに役立つと信じています。

We introduce here the idea of Meta-Learning for training EEG BCI decoders. Meta-Learning is a way of training machine learning systems so they learn to learn. We apply here meta-learning to a simple Deep Learning BCI architecture and compare it to transfer learning on the same architecture. Our Meta-learning strategy operates by finding optimal parameters for the BCI decoder so that it can quickly generalise between different users and recording sessions -- thereby also generalising to new users or new sessions quickly. We tested our algorithm on the Physionet EEG motor imagery dataset. Our approach increased motor imagery classification accuracy between 60% to 80%, outperforming other algorithms under the little-data condition. We believe that establishing the meta-learning or learning-to-learn approach will help neural engineering and human interfacing with the challenges of quickly setting up decoders of neural signals to make them more suitable for daily-life.
翻訳日:2021-04-05 01:00:16 公開日:2021-03-10
# emonet: 多言語音声感情認識のためのトランスファー学習フレームワーク

EmoNet: A Transfer Learning Framework for Multi-Corpus Speech Emotion Recognition ( http://arxiv.org/abs/2103.08310v1 )

ライセンス: Link先を確認
Maurice Gerczuk and Shahin Amiriparian and Sandra Ottl and Bj\"orn Schuller(参考訳) 本稿では,多体音声感情認識(SER)の話題について,深層移動学習の観点から考察する。 感情音声データの大規模なコーパスであるエモセットは、既存の多数のサーコーパスから組み立てられる。 EmoSetには、26のSERコーパスから84181のオーディオ録音が含まれており、合計65時間を超える。 コーパスを使用して、マルチコーパス音声感情認識のための新しいフレームワーク、すなわちEmoNetを作成する。 ディープresnetアーキテクチャと残差アダプタの組み合わせは、マルチドメイン視覚認識の分野からエモセット上のマルチコーパスサーに転送される。 ResNetの2つの適切なベースラインと従来型のトレーニングおよび転送設定と比較して、残留アダプタアプローチは、26コーパスすべてでマルチドメインSERモデルのパラメータ効率的なトレーニングを可能にする。 1つのデータベースでトレーニングされたモデルのパラメータ数を3.5ドルしか持たない共有モデルは、EmoSetの26コーパスのうち21でパフォーマンスが向上する。 McNemarのテストによって測定されたこれらの改善は、10個のデータセットに対して$p<0.05$でさらに重要であり、残りのアダプタ転送実験でわずか2つのコーパスしか減少しない。 最後に、EmoNetフレームワークをhttps://github.com/E IHW/EmoNet.comでユーザと開発者に公開しています。 EmoNetは、包括的にドキュメント化され、さまざまなマルチコーパス転送学習設定で使用できる広範なコマンドラインインターフェースを提供する。

In this manuscript, the topic of multi-corpus Speech Emotion Recognition (SER) is approached from a deep transfer learning perspective. A large corpus of emotional speech data, EmoSet, is assembled from a number of existing SER corpora. In total, EmoSet contains 84181 audio recordings from 26 SER corpora with a total duration of over 65 hours. The corpus is then utilised to create a novel framework for multi-corpus speech emotion recognition, namely EmoNet. A combination of a deep ResNet architecture and residual adapters is transferred from the field of multi-domain visual recognition to multi-corpus SER on EmoSet. Compared against two suitable baselines and more traditional training and transfer settings for the ResNet, the residual adapter approach enables parameter efficient training of a multi-domain SER model on all 26 corpora. A shared model with only $3.5$ times the number of parameters of a model trained on a single database leads to increased performance for 21 of the 26 corpora in EmoSet. Measured by McNemar's test, these improvements are further significant for ten datasets at $p<0.05$ while there are just two corpora that see only significant decreases across the residual adapter transfer experiments. Finally, we make our EmoNet framework publicly available for users and developers at https://github.com/E IHW/EmoNet. EmoNet provides an extensive command line interface which is comprehensively documented and can be used in a variety of multi-corpus transfer learning settings.
翻訳日:2021-04-05 00:59:27 公開日:2021-03-10
# オートエンコーダネットワークを用いた離散減衰信号の高速パラメータ推定

Rapid parameter estimation of discrete decaying signals using autoencoder networks ( http://arxiv.org/abs/2103.08663v1 )

ライセンス: Link先を確認
Jim C. Visschers, Dmitry Budker, Lykourgos Bougas(参考訳) 本研究では,離散サンプリング信号の信号パラメータの高速抽出にオートエンコーダネットワークを用いることを実証する。 特に、密度の高いオートエンコーダネットワークを用いて、指数関数的減衰信号や減衰振動から興味のあるパラメータを抽出する。 3段階のトレーニング手法とニューラルネットワークサイズを慎重に選択することにより、従来のアルゴリズムによる信号分析手法と比較して、オートエンコーダネットワークの潜時空間から直接関連する信号パラメータを大幅に改善できる。 本手法の精度と精度は従来のアルゴリズムに基づく信号解析法とよく似ており, 抽出された信号パラメータがクレーア・ラオ下限によって与えられた基本パラメータ推定限界に近づいていることを示す。 さらに, オートエンコーダネットワークは信号解析が可能であり, パラメータ抽出は75 khzの速度で, 従来の手法と同等の精度で桁違いに高速化できることを示した。 最後に,データ取得システムとデータ解析システム間の転送速度を最適化することで,200khz以下の解析レートが実現可能であることを示す。

In this work we demonstrate the use of autoencoder networks for rapid extraction of the signal parameters of discretely sampled signals. In particular, we use dense autoencoder networks to extract the parameters of interest from exponentially decaying signals and decaying oscillations. Using a three-stage training method and careful choice of the neural network size, we are able to retrieve the relevant signal parameters directly from the latent space of the autoencoder network at significantly improved rates compared to traditional algorithmic signal-analysis approaches. We show that the achievable precision and accuracy of this method of analysis is similar to conventional, algorithm-based signal analysis methods, by demonstrating that, the extracted signal parameters are approaching their fundamental parameter estimation limit as provided by the Cram\'er-Rao lower bound. Furthermore, we demonstrate that autoencoder networks are able to achieve signal analysis, and, hence, parameter extraction, at rates of 75 kHz, orders-of-magnitude faster than conventional techniques with equal precision. Finally, we explore the limitations of our approach, demonstrating that analysis rates of $>$200 kHz are feasible with further optimization of the transfer rate between the data-acquisition system and data-analysis system.
翻訳日:2021-04-05 00:59:06 公開日:2021-03-10
# リアルタイム手振り認識のための新しい形状マッチング記述子

A novel shape matching descriptor for real-time hand gesture recognition ( http://arxiv.org/abs/2101.03923v2 )

ライセンス: Link先を確認
Michalis Lazarou, Bo Li, Tania Stathaki(参考訳) 現在の手のジェスチャー認識手法は機械学習の利用に大きく依存している。 しかし、例えばデータが不足しているような状況では、機械学習をうまく適用できないシナリオがある。 これは、クエリと各ジェスチャーがユニークなクラスを表すハンドジェスチャのデータセットの間に1対1のマッチングが必要な場合である。 学習アルゴリズムを訓練できない状況では、特徴抽出のような古典的なコンピュータビジョン技術を使ってオブジェクト間の類似性を識別することができる。 形状は画像から抽出できる最も重要な特徴の1つであるが、最も正確な形状マッチングアルゴリズムはリアルタイムアプリケーションでは計算的に非効率である。 本稿では,リアルタイムハンドジェスチャー認識のための新しい形状マッチング手法を提案する。 筆者らが収集した手振りデータセットとMPEG-7データセットの修正版を用いて,本手法と他の形状マッチング手法との比較実験を行った。 提案手法は,他の手法よりも優れ,リアルタイムアプリケーションにおける精度と計算効率の優れた組み合わせを提供する。

The current state-of-the-art hand gesture recognition methodologies heavily rely in the use of machine learning. However there are scenarios that machine learning cannot be applied successfully, for example in situations where data is scarce. This is the case when one-to-one matching is required between a query and a dataset of hand gestures where each gesture represents a unique class. In situations where learning algorithms cannot be trained, classic computer vision techniques such as feature extraction can be used to identify similarities between objects. Shape is one of the most important features that can be extracted from images, however the most accurate shape matching algorithms tend to be computationally inefficient for real-time applications. In this work we present a novel shape matching methodology for real-time hand gesture recognition. Extensive experiments were carried out comparing our method with other shape matching methods with respect to accuracy and computational complexity using our own collected hand gesture dataset and a modified version of the MPEG-7 dataset.%that is widely used for comparing 2D shape matching algorithms. Our method outperforms the other methods and provides a good combination of accuracy and computational efficiency for real-time applications.
翻訳日:2021-04-04 14:40:40 公開日:2021-03-10
# (参考訳) MLPF:グラフニューラルネットワークを用いた効率的な機械学習粒子フロー再構成 [全文訳有]

MLPF: Efficient machine-learned particle-flow reconstruction using graph neural networks ( http://arxiv.org/abs/2101.08578v2 )

ライセンス: CC BY 4.0
Joosep Pata, Javier Duarte, Jean-Roch Vlimant, Maurizio Pierini, Maria Spiropulu(参考訳) 汎用粒子検出器では、粒子フローアルゴリズムを用いて、熱量計とトラッカーからの情報を組み合わせることで、事象の包括的粒子レベルビューを再構築することができ、ジェットの検出器分解能と欠落する横運動量を大幅に改善することができる。 CERN 大型ハドロン衝突型加速器 (LHC) の高輝度化の計画を考えると、既存の再構成アルゴリズムを再検討し、多くの陽子-陽子相互作用を持つ環境において、物理と計算性能の両方が十分であることを保証する必要がある。 機械学習は、ヘテロジニアスコンピューティングプラットフォームに適した計算効率の良いイベント再構成の見通しを提供する一方で、粒状検出器のルールベースのアルゴリズムよりも、再現性を大幅に改善する。 本稿では、並列化可能で計算効率が高く、スケーラブルなグラフニューラルネットワークをシミュレーションイベントにマルチタスク目的を用いて最適化した、新しい、エンドツーエンドのトレーニング可能な、マシン主導のパーティクルフローアルゴリズムであるmlpfを紹介する。 プロトン-陽子衝突で生成するトップクォーク-反クォーク対のモンテカルロデータセットにおけるmlpfアルゴリズムの物理と計算性能について,高輝度lhcに期待される条件と類似した条件で報告する。 mlpfアルゴリズムは、ルールベースベンチマークアルゴリズムに対する物理応答を改善し、ハイピレップ環境における計算スケーラブルな粒子フロー再構成を実証する。

In general-purpose particle detectors, the particle-flow algorithm may be used to reconstruct a comprehensive particle-level view of the event by combining information from the calorimeters and the trackers, significantly improving the detector resolution for jets and the missing transverse momentum. In view of the planned high-luminosity upgrade of the CERN Large Hadron Collider (LHC), it is necessary to revisit existing reconstruction algorithms and ensure that both the physics and computational performance are sufficient in an environment with many simultaneous proton-proton interactions (pileup). Machine learning may offer a prospect for computationally efficient event reconstruction that is well-suited to heterogeneous computing platforms, while significantly improving the reconstruction quality over rule-based algorithms for granular detectors. We introduce MLPF, a novel, end-to-end trainable, machine-learned particle-flow algorithm based on parallelizable, computationally efficient, and scalable graph neural networks optimized using a multi-task objective on simulated events. We report the physics and computational performance of the MLPF algorithm on a Monte Carlo dataset of top quark-antiquark pairs produced in proton-proton collisions in conditions similar to those expected for the high-luminosity LHC. The MLPF algorithm improves the physics response with respect to a rule-based benchmark algorithm and demonstrates computationally scalable particle-flow reconstruction in a high-pileup environment.
翻訳日:2021-03-21 15:35:09 公開日:2021-03-10
# (参考訳) 経験的モードモデリング: ノイズデータからの非線形ダイナミクスの復元と予測のためのデータ駆動アプローチ [全文訳有]

Empirical Mode Modeling: A data-driven approach to recover and forecast nonlinear dynamics from noisy data ( http://arxiv.org/abs/2103.07281v1 )

ライセンス: CC BY 4.0
Joseph Park, Gerald M Pao, Erik Stabenau, George Sugihara, Thomas Lorimer(参考訳) データ駆動型モデルフリー分析は、複雑な非線形システムの発見と予測のための自然な選択である。 システム状態空間で動作する方法は、明示的な多次元状態空間を必要とするか、あるいは利用可能な観測から近似されたものである。 観測データはノイズでしばしばサンプリングされるため、ノイズは解析性能を低下させる状態空間表現を損なう可能性がある。 そこで,我々は経験的モードモデリングと呼ぶ経験的動的モデリングを用いて経験的モード分解の合成を評価し,ノイズの存在下での状態空間表現の情報量を増やす。 数学的、生態学的に重要な3つの状態空間表現に対する物理応用の評価は、経験的モードモデリングがノイズの存在下でデータ駆動、モデルフリー、状態空間分析に有用であることを示唆している。

Data-driven, model-free analytics are natural choices for discovery and forecasting of complex, nonlinear systems. Methods that operate in the system state-space require either an explicit multidimensional state-space, or, one approximated from available observations. Since observational data are frequently sampled with noise, it is possible that noise can corrupt the state-space representation degrading analytical performance. Here, we evaluate the synthesis of empirical mode decomposition with empirical dynamic modeling, which we term empirical mode modeling, to increase the information content of state-space representations in the presence of noise. Evaluation of a mathematical, and, an ecologically important geophysical application across three different state-space representations suggests that empirical mode modeling may be a useful technique for data-driven, model-free, state-space analysis in the presence of noise.
翻訳日:2021-03-16 03:52:44 公開日:2021-03-10
# (参考訳) PatchNet -- 効率的なビデオ処理のための短距離テンプレートマッチング [全文訳有]

PatchNet -- Short-range Template Matching for Efficient Video Processing ( http://arxiv.org/abs/2103.07371v1 )

ライセンス: CC0 1.0
Huizi Mao, Sibo Zhu, Song Han, William J. Dally(参考訳) オブジェクト認識は、多くのビデオ処理タスクにおいて基本的な問題であり、デバイス上のビデオ認識の道のりを、低い計算コストで正確に見つけ出す。 PatchNetは、隣接するビデオフレーム内のオブジェクトにマッチする効率的な畳み込みニューラルネットワークである。 ピクセル機能の代わりにパッチワイドの相関機能を学ぶ。 PatchNetは非常にコンパクトで、わずか58MFLOPs、$5\times$ MobileNetV2よりシンプルです。 ビデオオブジェクト検出と視覚オブジェクト追跡という2つのタスクでその応用を実演する。 ImageNet VIDでは、PatchNetはR-FCN ResNet-101のフロップを5倍、EfficientDet-D0は3.4倍、mAP損失は1%未満です。 OTB2015 では、PatchNet は SiamFC と SiamRPN を 2.5x 削減します。 Jetson Nanoの実験では、フロップ減少に伴う2.8倍から4.3倍の速度アップが実証されている。 コードはhttps://github.com/R alphMao/PatchNetで公開されている。

Object recognition is a fundamental problem in many video processing tasks, accurately locating seen objects at low computation cost paves the way for on-device video recognition. We propose PatchNet, an efficient convolutional neural network to match objects in adjacent video frames. It learns the patchwise correlation features instead of pixel features. PatchNet is very compact, running at just 58MFLOPs, $5\times$ simpler than MobileNetV2. We demonstrate its application on two tasks, video object detection and visual object tracking. On ImageNet VID, PatchNet reduces the flops of R-FCN ResNet-101 by 5x and EfficientDet-D0 by 3.4x with less than 1% mAP loss. On OTB2015, PatchNet reduces SiamFC and SiamRPN by 2.5x with no accuracy loss. Experiments on Jetson Nano further demonstrate 2.8x to 4.3x speed-ups associated with flops reduction. Code is open sourced at https://github.com/R alphMao/PatchNet.
翻訳日:2021-03-16 03:41:16 公開日:2021-03-10
# (参考訳) Jigsawのパズルとしての顔画像:生成的対向ネットワークを用いた機械の人間の顔の合成知覚 [全文訳有]

Face Images as Jigsaw Puzzles: Compositional Perception of Human Faces for Machines Using Generative Adversarial Networks ( http://arxiv.org/abs/2103.06331v1 )

ライセンス: CC BY 4.0
Mahla Abdolahnejad and Peter Xiaoping Liu(参考訳) HRI(Human-Robot-Inte raction)の重要な目標は、機械が人間の顔認識に近いレベルを達成することです。 機械学習と人間の知能の重要な違いの1つは、構成性の欠如です。 本稿では,より小さな部品からなる顔画像の分布を生成的敵ネットワークで学習するための新しい手法を提案する。 これにより、より柔軟なマシンフェイス認識と、外部トレーニング例への一般化が容易になる。 このモデルでは,部品を組み立てることで,現実的な高品質な顔画像が作成可能であることを実証する。 さらに,このモデルが顔の部位と分布の関係を学習することを示した。 したがって、特定の顔の部分は生成された顔画像間で交換可能である。

An important goal in human-robot-interact ion (HRI) is for machines to achieve a close to human level of face perception. One of the important differences between machine learning and human intelligence is the lack of compositionality. This paper introduces a new scheme to enable generative adversarial networks to learn the distribution of face images composed of smaller parts. This results in a more flexible machine face perception and easier generalization to outside training examples. We demonstrate that this model is able to produce realistic high-quality face images by generating and piecing together the parts. Additionally, we demonstrate that this model learns the relations between the facial parts and their distributions. Therefore, the specific facial parts are interchangeable between generated face images.
翻訳日:2021-03-13 10:58:41 公開日:2021-03-10
# (参考訳) 変分オートエンコーダの敵攻撃に対する脆弱性診断 [全文訳有]

Diagnosing Vulnerability of Variational Auto-Encoders to Adversarial Attacks ( http://arxiv.org/abs/2103.06701v1 )

ライセンス: CC BY 4.0
Anna Kuzina, Max Welling, Jakub M. Tomczak(参考訳) 本研究では,変分オートエンコーダ(VAE)に対する敵攻撃について検討する。 所定の潜入コード(監視攻撃)を取得するためにデータポイントを変更するか、または劇的に異なるコード(監視されていない攻撃)を取得する方法を示します。 モデル修正($-VAE, NVAE)がVAEのロバスト性に及ぼす影響について検討し, 定量化のための指標を提案する。

In this work, we explore adversarial attacks on the Variational Autoencoders (VAE). We show how to modify data point to obtain a prescribed latent code (supervised attack) or just get a drastically different code (unsupervised attack). We examine the influence of model modifications ($\beta$-VAE, NVAE) on the robustness of VAEs and suggest metrics to quantify it.
翻訳日:2021-03-13 08:16:58 公開日:2021-03-10
# (参考訳) 現実的劣化画像を用いた超解像超解像 [全文訳有]

Super-Resolving Beyond Satellite Hardware Using Realistically Degraded Images ( http://arxiv.org/abs/2103.06270v1 )

ライセンス: CC BY 4.0
Jack White, Alex Codoreanu, Ignacio Zuleta, Colm Lynch, Giovanni Marchisio, Stephen Petrie, Alan R. Duffy(参考訳) 現代の深層超解法(SR)ネットワークは、画像再構成と拡張において貴重な技術として確立されている。 しかし、これらのネットワークは通常、実際の画像に存在する典型的な画像劣化ノイズを欠いたベンチマーク画像データに基づいて訓練およびテストされます。 本稿では、現実的に劣化した衛星画像の再構成におけるSR性能の評価により、実リモートセンシングペイロードにおける深部SRの使用の可能性を検証する。 本研究では, 深層超分解能ネットワーク(EDSR)と呼ばれる最先端のSR技術を用いて, 領域特異的な事前学習なしに, 地上サンプリング距離の低い画像の符号化画素データを復元できることを実証した。 しかし、この回復は選択された地理的タイプによって異なる。 その結果、カスタムトレーニングは頭上の画像の再構築をさらに改善する可能性があり、新しい衛星ハードウェアは、深層SRが後者の欠如を克服することができるが前者ではないため、ピクセルサイズを最小化するよりも光学性能を優先すべきである。

Modern deep Super-Resolution (SR) networks have established themselves as valuable techniques in image reconstruction and enhancement. However, these networks are normally trained and tested on benchmark image data that lacks the typical image degrading noise present in real images. In this paper, we test the feasibility of using deep SR in real remote sensing payloads by assessing SR performance in reconstructing realistically degraded satellite images. We demonstrate that a state-of-the-art SR technique called Enhanced Deep Super-Resolution Network (EDSR), without domain specific pre-training, can recover encoded pixel data on images with poor ground sampling distance, provided the ground resolved distance is sufficient. However, this recovery varies amongst selected geographical types. Our results indicate that custom training has potential to further improve reconstruction of overhead imagery, and that new satellite hardware should prioritise optical performance over minimising pixel size as deep SR can overcome a lack of the latter but not the former.
翻訳日:2021-03-13 06:07:48 公開日:2021-03-10
# (参考訳) 相互情報最大化によるハードアテンション制御 [全文訳有]

Hard Attention Control By Mutual Information Maximization ( http://arxiv.org/abs/2103.06371v1 )

ライセンス: CC BY 4.0
Himanshu Sahni and Charles Isbell(参考訳) 生物エージェントは、環境からの情報の受信率を制限するために注意の原則を採用してきた。 人工エージェントが周囲の限られたビューにしかアクセスできない場合、どのようにしてタスクを効果的に解決するために注意を制御することができますか? 本稿では,各ステップにおける環境状態と注目位置の相互情報を最大化することにより,ハードアテンションウィンドウの制御方法を学ぶためのアプローチを提案する。 エージェントは、その状態に関する予測を行うために内部世界モデルを採用し、予測が間違っている可能性がある場所に注目します。 注意は、部分的な観察を保存し、観察されていない状態を追跡する動的メモリアーキテクチャと共同訓練されます。 本手法は, 部分観測の系列から完全状態を予測するのに有効であることを示す。 また, エージェントの内部表現, 生きたメンタルマップは, 2つの部分観測可能な強化学習タスクの制御に利用できることを示した。 トレーニングされたエージェントのビデオはhttps://sites.google .com/view/hard-atten tion-controlで見ることができる。

Biological agents have adopted the principle of attention to limit the rate of incoming information from the environment. One question that arises is if an artificial agent has access to only a limited view of its surroundings, how can it control its attention to effectively solve tasks? We propose an approach for learning how to control a hard attention window by maximizing the mutual information between the environment state and the attention location at each step. The agent employs an internal world model to make predictions about its state and focuses attention towards where the predictions may be wrong. Attention is trained jointly with a dynamic memory architecture that stores partial observations and keeps track of the unobserved state. We demonstrate that our approach is effective in predicting the full state from a sequence of partial observations. We also show that the agent's internal representation of the surroundings, a live mental map, can be used for control in two partially observable reinforcement learning tasks. Videos of the trained agent can be found at https://sites.google .com/view/hard-atten tion-control.
翻訳日:2021-03-13 04:48:44 公開日:2021-03-10
# (参考訳) リコメンダーシステムにおける人気バイアスのユーザ中心評価 [全文訳有]

User-centered Evaluation of Popularity Bias in Recommender Systems ( http://arxiv.org/abs/2103.06364v1 )

ライセンス: CC BY 4.0
Himan Abdollahpouri, Masoud Mansoury, Robin Burke, Bamshad Mobasher, Edward Malthouse(参考訳) レコメンデーションとランキングシステムは人気バイアスに悩まされていることが知られており、アルゴリズムは人気アイテムを数個選んで、他の項目の大半を下書きする傾向にある。 先行研究では、人気バイアスを緩和し、ロングテール、あまり人気のないアイテムの推奨を強化する様々なアプローチを調査した。 これらのアプローチの有効性は、しばしば異なる指標を用いて評価され、人気アイテムの過剰濃度が減少する程度を評価する。 しかし,このバイアスに対するユーザ中心の評価にはあまり注意が払われていない。 本稿では,これらのアルゴリズムをユーザの視点から評価したい場合,人気バイアスの緩和を評価するための既存の指標の限界を示すとともに,これらの制限に対処できる新しい指標を提案する。 さらに,ユーザ中心の観点から,人気バイアスを緩和する効果的なアプローチを提案する。 最後に,近年提案されている最新技術を用いて,人気バイアスを軽減し,既存の指標やユーザの視点から評価する手法について検討する。 2つの公開データセットを用いた実験結果から,既存の人気バイアス緩和手法は,人気項目に対するユーザの寛容さを無視することが示された。 提案手法は,既存指標を改良しつつ,利用者間の人気バイアスを効果的に解消する。

Recommendation and ranking systems are known to suffer from popularity bias; the tendency of the algorithm to favor a few popular items while under-representing the majority of other items. Prior research has examined various approaches for mitigating popularity bias and enhancing the recommendation of long-tail, less popular, items. The effectiveness of these approaches is often assessed using different metrics to evaluate the extent to which over-concentration on popular items is reduced. However, not much attention has been given to the user-centered evaluation of this bias; how different users with different levels of interest towards popular items are affected by such algorithms. In this paper, we show the limitations of the existing metrics to evaluate popularity bias mitigation when we want to assess these algorithms from the users' perspective and we propose a new metric that can address these limitations. In addition, we present an effective approach that mitigates popularity bias from the user-centered point of view. Finally, we investigate several state-of-the-art approaches proposed in recent years to mitigate popularity bias and evaluate their performances using the existing metrics and also from the users' perspective. Our experimental results using two publicly-available datasets show that existing popularity bias mitigation techniques ignore the users' tolerance towards popular items. Our proposed user-centered method can tackle popularity bias effectively for different users while also improving the existing metrics.
翻訳日:2021-03-13 01:17:43 公開日:2021-03-10
# (参考訳) 解剖学的変異とマルチベンダスキャナデータを用いたct椎間板分割データセット [全文訳有]

A Computed Tomography Vertebral Segmentation Dataset with Anatomical Variations and Multi-Vendor Scanner Data ( http://arxiv.org/abs/2103.06360v1 )

ライセンス: CC BY 4.0
Hans Liebl (1), David Schinz (1), Anjany Sekuboyina (1 and 2), Luca Malagutti (1), Maximilian T. L\"offler (3), Amirhossein Bayat (1 and 2), Malek El Husseini (1 and 2), Giles Tetteh (1 and 2), Katharina Grau (1), Eva Niederreiter (1), Thomas Baum (1), Benedikt Wiestler (1), Bjoern Menze (2), Rickmer Braren (4), Claus Zimmer (1), Jan S. Kirschke (1) ((1) Department of Diagnostic and Interventional Neuroradiology, School of Medicine, Klinikum rechts der Isar, Technical University of Munich, Germany (2) Department of Informatics, Technical University of Munich, Germany (3) Department of Diagnostic and Interventional Radiology, University Medical Center Freiburg, Freiburg im Breisgau, Germany (4) Department of Diagnostic and Interventional Radiology, School of Medicine, Klinikum rechts der Isar, Technical University of Munich, Germany)(参考訳) ディープラーニングアルゴリズムの出現により、完全に自動化された放射線画像解析が到達範囲内にある。 脊椎イメージングでは、いくつかのアトラスと形状に基づく深層学習セグメンテーションアルゴリズムが提案され、その後、形態学と病理学の自動解析が可能となった。 最初の大規模Vertebrae Segmentation Challenge (VerSe 2019)は、これらが正常な解剖学的に良好に機能することを示したが、トレーニングデータセットに頻繁に存在しない変種では失敗する。 この経験に基づいて,VerSe 2020データセットの大幅な増加と,VerSeチャレンジの第2回(MICCAI 2020, Lima, Peru)の結果について報告する。 VerSe 2020は、4つの異なるスキャナーメーカーから複数のセンターで収集され、列挙異常 (n=77) や移行椎骨 (n=161) などの解剖学的変異を示すケースが豊富である300名の被験者の注釈付き脊椎CT画像を含む。 メタデータには、脊椎ラベリング情報、ヒトと機械のハイブリッドアルゴリズムと解剖学的評価を用いて得られたボクセルレベルのセグメンテーションマスクが含まれており、堅牢で正確なセグメンテーションアルゴリズムの開発とベンチマークを可能にする。

With the advent of deep learning algorithms, fully automated radiological image analysis is within reach. In spine imaging, several atlas- and shape-based as well as deep learning segmentation algorithms have been proposed, allowing for subsequent automated analysis of morphology and pathology. The first Large Scale Vertebrae Segmentation Challenge (VerSe 2019) showed that these perform well on normal anatomy, but fail in variants not frequently present in the training dataset. Building on that experience, we report on the largely increased VerSe 2020 dataset and results from the second iteration of the VerSe challenge (MICCAI 2020, Lima, Peru). VerSe 2020 comprises annotated spine computed tomography (CT) images from 300 subjects with 4142 fully visualized and annotated vertebrae, collected across multiple centres from four different scanner manufacturers, enriched with cases that exhibit anatomical variants such as enumeration abnormalities (n=77) and transitional vertebrae (n=161). Metadata includes vertebral labelling information, voxel-level segmentation masks obtained with a human-machine hybrid algorithm and anatomical ratings, to enable the development and benchmarking of robust and accurate segmentation algorithms.
翻訳日:2021-03-13 01:00:35 公開日:2021-03-10
# (参考訳) サイバー物理システムの学習に基づく脆弱性解析 [全文訳有]

Learning-Based Vulnerability Analysis of Cyber-Physical Systems ( http://arxiv.org/abs/2103.06271v1 )

ライセンス: CC BY 4.0
Amir Khazraei, Spencer Hallyburton, Qitong Gao, Yu Wang and Miroslav Pajic(参考訳) 本研究は,サイバー物理システム(CPS)の脆弱性解析におけるディープラーニングの利用に焦点を当てる。 具体的には、低レベル制御が拡張カルマンフィルタ(EKF)や異常検知器などに基づいているCPS(ロボット工学など)で広く使用されている制御アーキテクチャを検討する。 本研究の目的は,システム動作を最大に劣化させるステルス攻撃を設計できる学習可能な攻撃ジェネレータを開発することである。 ランタイム情報の一部がアタッカーに認識される学習ベースのグレーボックスフレームワークにこのような問題をどのようにキャストするかを示し、フィードフォワードニューラルネットワーク(FNN)に基づく2つのモデルを紹介します。両方のモデルはオフラインでトレーニングされ、推定エラーに対する攻撃効果と異常検出に使用される残留信号を組み合わせたコスト関数を使用して、トレーニングされたモデルがそのような効果的なセンサー攻撃をリアルタイムで再帰的に生成できるようにします。 提案手法の有効性をいくつかのケーススタディに示す。

This work focuses on the use of deep learning for vulnerability analysis of cyber-physical systems (CPS). Specifically, we consider a control architecture widely used in CPS (e.g., robotics), where the low-level control is based on e.g., the extended Kalman filter (EKF) and an anomaly detector. To facilitate analyzing the impact potential sensing attacks could have, our objective is to develop learning-enabled attack generators capable of designing stealthy attacks that maximally degrade system operation. We show how such problem can be cast within a learning-based grey-box framework where parts of the runtime information are known to the attacker, and introduce two models based on feed-forward neural networks (FNN); both models are trained offline, using a cost function that combines the attack effects on the estimation error and the residual signal used for anomaly detection, so that the trained models are capable of recursively generating such effective sensor attacks in real-time. The effectiveness of the proposed methods is illustrated on several case studies.
翻訳日:2021-03-12 23:04:21 公開日:2021-03-10
# (参考訳) 近似推論による軌道最適化の進展:探索、共分散制御、適応リスク [全文訳有]

Advancing Trajectory Optimization with Approximate Inference: Exploration, Covariance Control and Adaptive Risk ( http://arxiv.org/abs/2103.06319v1 )

ライセンス: CC BY 4.0
Joe Watson, Jan Peters(参考訳) 離散時間確率的最適制御は、有意な不確実性の下での一般非線形システムにとって困難な問題であり、実用的ソルバは通常、確実性等価仮定、再計画および/または広範な正規化に依存する。 推論としての制御(英: Control as inference)は、確率的制御を等価な推論問題とみなすアプローチであり、探索や正規化など既存の手法よりも望ましい性質を示している。 我々は、制御(i2c)アルゴリズムの入力推論を特に検討し、高度な軌道最適化を可能にする3つの重要な特性を導出する:オープンループオプティマイマの利点と非線形システムのために最適化するときのクローズドループ分散減少を組み合わせた「専門家」線形ガウスコントローラ、推論定式化からの固有の適応リスク感受性、およびわずかなアルゴリズムの調整だけで共分散制御機能。

Discrete-time stochastic optimal control remains a challenging problem for general, nonlinear systems under significant uncertainty, with practical solvers typically relying on the certainty equivalence assumption, replanning and/or extensive regularization. Control as inference is an approach that frames stochastic control as an equivalent inference problem, and has demonstrated desirable qualities over existing methods, namely in exploration and regularization. We look specifically at the input inference for control (i2c) algorithm, and derive three key characteristics that enable advanced trajectory optimization: An `expert' linear Gaussian controller that combines the benefits of open-loop optima and closed-loop variance reduction when optimizing for nonlinear systems, inherent adaptive risk sensitivity from the inference formulation, and covariance control functionality with only a minor algorithmic adjustment.
翻訳日:2021-03-12 22:28:47 公開日:2021-03-10
# (参考訳) マルチモダリティとは? [全文訳有]

What is Multimodality? ( http://arxiv.org/abs/2103.06304v1 )

ライセンス: CC BY 4.0
Letitia Parcalabescu, Nils Trost, Anette Frank(参考訳) 近年は、ビジョン、テキスト、スピーチなどを組み合わせたマルチモーダル機械学習の分野で急速な発展を見せています。 本稿では,機械学習の時代に不適であることを証明した,時代遅れのマルチモーダリティの定義をどう利用するかを説明する。 与えられた機械学習タスクに関連する表現と情報に焦点を当てたマルチモーダル機械学習の文脈における(マルチ)モダリティの新しいタスク相対性定義を提案する。 新しいマルチモーダルの定義では、マルチモーダル研究の欠落基盤、言語基盤の重要な構成要素、そしてNLUにとって重要なマイルストーンを提供することを目指しています。

The last years have shown rapid developments in the field of multimodal machine learning, combining e.g., vision, text or speech. In this position paper we explain how the field uses outdated definitions of multimodality that prove unfit for the machine learning era. We propose a new task-relative definition of (multi)modality in the context of multimodal machine learning that focuses on representations and information that are relevant for a given machine learning task. With our new definition of multimodality we aim to provide a missing foundation for multimodal research, an important component of language grounding and a crucial milestone towards NLU.
翻訳日:2021-03-12 21:07:55 公開日:2021-03-10
# (参考訳) 真理はいかにフェイクニュースに進化するか? 偽ニュースの進化に関する実証的研究 [全文訳有]

How does Truth Evolve into Fake News? An Empirical Study of Fake News Evolution ( http://arxiv.org/abs/2103.05944v1 )

ライセンス: CC BY 4.0
Mingfei Guo, Xiuying Chen, Juntao Li, Dongyan Zhao, Rui Yan(参考訳) インターネットからフェイクニュースを自動的に識別することは、詐欺検出タスクで難しい問題です。 オンラインニュースは伝播中に常に修正され、例えば悪意のあるユーザーが元の真実を歪め、偽ニュースを作る。 しかし、継続的進化のプロセスは前例のない偽ニュースを生成し、オリジナルのモデルを騙すことになる。 偽ニュース進化過程を追跡する新しいデータセットであるFake News Evolution(FNE)データセットを提示する。 我々のデータセットは950のペアデータで構成されており、それぞれが進化過程の3つの重要なフェーズ、すなわち真実、フェイクニュース、そして進化したフェイクニュースを表す記事で構成されています。 進化中の特徴を観察し,誤情報技術,テキスト類似性,キーワードトップ10,分類精度,発話部分,感情特性について検討した。

Automatically identifying fake news from the Internet is a challenging problem in deception detection tasks. Online news is modified constantly during its propagation, e.g., malicious users distort the original truth and make up fake news. However, the continuous evolution process would generate unprecedented fake news and cheat the original model. We present the Fake News Evolution (FNE) dataset: a new dataset tracking the fake news evolution process. Our dataset is composed of 950 paired data, each of which consists of articles representing the three significant phases of the evolution process, which are the truth, the fake news, and the evolved fake news. We observe the features during the evolution and they are the disinformation techniques, text similarity, top 10 keywords, classification accuracy, parts of speech, and sentiment properties.
翻訳日:2021-03-12 16:13:48 公開日:2021-03-10
# (参考訳) ゼロショットニューラルマシン翻訳のための自己学習 [全文訳有]

Self-Learning for Zero Shot Neural Machine Translation ( http://arxiv.org/abs/2103.05951v1 )

ライセンス: CC BY 4.0
Surafel M. Lakew, Matteo Negri, Marco Turchi(参考訳) モノリンガルデータを用いたニューラルマシン翻訳(NMT)手法は、資源の豊富な条件を着実に改善しています。 しかし、現実世界の低リソース言語を用いた評価は未だに不十分なパフォーマンスをもたらす。 本研究は、ゼロショットソースとターゲット言語で並列データを共有するピボット言語を仮定することなく学習する、新しいゼロショットNMTモデリング手法を提案する。 このアプローチは,少なくとも目標言語を観察する事前学習されたnmtモデルからの初期化,ターゲットの単言語データを活用したソースサイドの拡張,ゼロショットペアへの初期モデル最適化の学習という3つの段階に基づいている。 言語族, スクリプト, 関連性の4つの異なるゼロショットペアによる経験的発見は, 教師付きバイリンガルベースラインに対する最大5.93BLEUの改善によるアプローチの有効性を示した。 教師なしNMTと比較して,ドメインミスマッチ設定においても一貫した改善が観察され,本手法の有用性が確認された。

Neural Machine Translation (NMT) approaches employing monolingual data are showing steady improvements in resource rich conditions. However, evaluations using real-world low-resource languages still result in unsatisfactory performance. This work proposes a novel zero-shot NMT modeling approach that learns without the now-standard assumption of a pivot language sharing parallel data with the zero-shot source and target languages. Our approach is based on three stages: initialization from any pre-trained NMT model observing at least the target language, augmentation of source sides leveraging target monolingual data, and learning to optimize the initial model to the zero-shot pair, where the latter two constitute a self-learning cycle. Empirical findings involving four diverse (in terms of a language family, script and relatedness) zero-shot pairs show the effectiveness of our approach with up to +5.93 BLEU improvement against a supervised bilingual baseline. Compared to unsupervised NMT, consistent improvements are observed even in a domain-mismatch setting, attesting to the usability of our method.
翻訳日:2021-03-12 16:04:59 公開日:2021-03-10
# (参考訳) チームフェニックス - WASSA 2021: 事前学習された言語モデルによるニュース記事の感情分析 [全文訳有]

Team Phoenix at WASSA 2021: Emotion Analysis on News Stories with Pre-Trained Language Models ( http://arxiv.org/abs/2103.06057v1 )

ライセンス: CC BY 4.0
Yash Butala, Kanishk Singh, Adarsh Kumar and Shrey Shrivastava(参考訳) 感情は人類の基本である。 人間のような方法で社会的相互作用を認識し、理解し、応答する能力は、特にソーシャルメディアボットにおいて、人工エージェントで最も望ましい能力の1つです。 過去数年間、言語における感情的側面の計算的理解と検出は、人間とコンピュータの相互作用の進歩に不可欠であった。 WASSA Shared Task 2021は2つのトラック、Track-1 for EmpathyとDistress PredictionとTrack-2 for Multi-Dimension Emotion Predictionをエッセイレベルでリリースした。 我々は、wasa 2021共有タスク(トラック1とトラック2の両方)のシステムエントリについて説明し、トラック固有のタスクのために事前訓練された言語モデルからの情報を活用した。 提案モデルは,平均ピアソンスコア0.417,マクロf1スコア0.502をトラック1とトラック2で達成した。 共有タスクリーダーボードでは、トラック1で4位、トラック2で2位を確保しました。

Emotion is fundamental to humanity. The ability to perceive, understand and respond to social interactions in a human-like manner is one of the most desired capabilities in artificial agents, particularly in social-media bots. Over the past few years, computational understanding and detection of emotional aspects in language have been vital in advancing human-computer interaction. The WASSA Shared Task 2021 released a dataset of news-stories across two tracks, Track-1 for Empathy and Distress Prediction and Track-2 for Multi-Dimension Emotion prediction at the essay-level. We describe our system entry for the WASSA 2021 Shared Task (for both Track-1 and Track-2), where we leveraged the information from Pre-trained language models for Track-specific Tasks. Our proposed models achieved an Average Pearson Score of 0.417 and a Macro-F1 Score of 0.502 in Track 1 and Track 2, respectively. In the Shared Task leaderboard, we secured 4th rank in Track 1 and 2nd rank in Track 2.
翻訳日:2021-03-12 15:42:18 公開日:2021-03-10
# 双方向事前翻訳による多数投票によるバイテクスト検索の改善

Majority Voting with Bidirectional Pre-translation Improves Bitext Retrieval ( http://arxiv.org/abs/2103.06369v1 )

ライセンス: Link先を確認
Alex Jones and Derry Tanti Wijaya(参考訳) 高品質の並列コーポラの取得は、NMTシステムのトレーニングに非常に重要です。 しかし、多くの言語ペアは十分な金本位制の訓練データを持っていないため、2つの言語でペアの文書からいわゆる"pseudo-parallel" ;文をマイニングする手法が一般的である。 本稿では,現在の手法の問題点を概説し,それらの問題に対する計算学的に経済的な解決策を提案し,タトエバ類似度検索ベンチマークと下流タスク,すなわちNMTでの新しい手法で成功を実証する。 資源関連要因(リソース関連因子)の効果を明らかにする。 バイテキストマイニングアプローチの最適選択に関する単言語/バイリンガルデータ(ある言語でどの程度)と、他の言語で観測されているbuccデータセットとのエコー問題。 実験に使用されるコードとデータは公開されています。

Obtaining high-quality parallel corpora is of paramount importance for training NMT systems. However, as many language pairs lack adequate gold-standard training data, a popular approach has been to mine so-called "pseudo-parallel" ; sentences from paired documents in two languages. In this paper, we outline some problems with current methods, propose computationally economical solutions to those problems, and demonstrate success with novel methods on the Tatoeba similarity search benchmark and on a downstream task, namely NMT. We uncover the effect of resource-related factors (i.e. how much monolingual/bilingua l data is available for a given language) on the optimal choice of bitext mining approach, and echo problems with the oft-used BUCC dataset that have been observed by others. We make the code and data used for our experiments publicly available.
翻訳日:2021-03-12 15:02:18 公開日:2021-03-10
# タスク指向対話における因果認識型安全ポリシー改善

Causal-aware Safe Policy Improvement for Task-oriented dialogue ( http://arxiv.org/abs/2103.06370v1 )

ライセンス: Link先を確認
Govardana Sachithanandam Ramachandran, Kazuma Hashimoto, Caiming Xiong(参考訳) 複雑なタスクを解決するための強化学習(rl)の最近の成功は、訓練された環境を探索し活用する能力に起因していることが多い。 安価なシミュレータは、政治上のサンプルデータに利用できるため、サンプル効率は通常問題ではない。 一方、タスク指向対話は通常、人間のデモを用いて収集されたオフラインデータから学習される。 多様なデモの収集と注釈は高価である。 残念なことに、非政治的データで訓練されたRL手法の使用は、人間の反応の確率性や対話管理システムの非マルコフ的信念状態によってさらに悪化するバイアスや一般化の問題を引き起こす。 そこで本研究では,タスク指向対話政策学習のためのバッチrlフレームワーク,causal aware safe policy improvement (caspi)を提案する。 本手法は,対話政策のパフォーマンスを保証し,実演データを模倣するのではなく,人間の反応の背後にある意図に従って報酬を形作ることを学習する。 Multiwoz2.0データセットの対話対テキスト生成およびエンドツーエンド対話タスクにおけるこのフレームワークの有効性を実証する。 提案手法は,いずれの場合においても,これらの測定値の現況を上回っている。 エンド・ツー・エンドの場合、我々の手法はデータの10倍のトレーニングしか行わず、4つの評価指標のうち3つで現在の状態を達成できた。

The recent success of reinforcement learning's (RL) in solving complex tasks is most often attributed to its capacity to explore and exploit an environment where it has been trained. Sample efficiency is usually not an issue since cheap simulators are available to sample data on-policy. On the other hand, task oriented dialogues are usually learnt from offline data collected using human demonstrations. Collecting diverse demonstrations and annotating them is expensive. Unfortunately, use of RL methods trained on off-policy data are prone to issues of bias and generalization, which are further exacerbated by stochasticity in human response and non-markovian belief state of a dialogue management system. To this end, we propose a batch RL framework for task oriented dialogue policy learning: causal aware safe policy improvement (CASPI). This method gives guarantees on dialogue policy's performance and also learns to shape rewards according to intentions behind human responses, rather than just mimicking demonstration data; this couple with batch-RL helps overall with sample efficiency of the framework. We demonstrate the effectiveness of this framework on a dialogue-context-to- text Generation and end-to-end dialogue task of the Multiwoz2.0 dataset. The proposed method outperforms the current state of the art on these metrics, in both case. In the end-to-end case, our method trained only on 10\% of the data was able to out perform current state in three out of four evaluation metrics.
翻訳日:2021-03-12 15:02:02 公開日:2021-03-10
# Sparse と Disentangled Latent Representation による連続的セマンティックセマンティックセマンティックセグメンテーション

Continual Semantic Segmentation via Repulsion-Attraction of Sparse and Disentangled Latent Representations ( http://arxiv.org/abs/2103.06342v1 )

ライセンス: Link先を確認
Umberto Michieli and Pietro Zanuttigh(参考訳) ディープニューラルネットワークは、新しいタスクを学ぶ際に古いタスクを忘れてしまうという大きな制限に苦しむ。 本稿では,意味セグメンテーションにおけるクラスインクリメンタル連続学習に注目し,新しいカテゴリを時間とともに提供し,事前のトレーニングデータは保持しない。 提案された連続学習スキームは、潜在空間を形作り、新しいクラスの認識を改善しながら忘れを減らす。 私たちのフレームワークは、3つの新しいコンポーネントによって駆動されています。 第一に、プロトタイプマッチングは古いクラスでの潜在空間一貫性を強制し、エンコーダは前述のクラスで同様の潜在表現を次のステップで生成するように制限する。 第二に、スパーシフィケーション機能により、潜在空間に新しいクラスを収容できる空間を作ることができる。 最後に、コントラスト学習は、異なるクラスの機能を分解しながら、セマンティクスに応じて特徴をクラスタリングするために使用される。 Pascal VOC2012とADE20Kデータセットの広範な評価は、私たちのアプローチの有効性を示し、最先端の方法を大幅に上回っています。

Deep neural networks suffer from the major limitation of catastrophic forgetting old tasks when learning new ones. In this paper we focus on class incremental continual learning in semantic segmentation, where new categories are made available over time while previous training data is not retained. The proposed continual learning scheme shapes the latent space to reduce forgetting whilst improving the recognition of novel classes. Our framework is driven by three novel components which we also combine on top of existing techniques effortlessly. First, prototypes matching enforces latent space consistency on old classes, constraining the encoder to produce similar latent representation for previously seen classes in the subsequent steps. Second, features sparsification allows to make room in the latent space to accommodate novel classes. Finally, contrastive learning is employed to cluster features according to their semantics while tearing apart those of different classes. Extensive evaluation on the Pascal VOC2012 and ADE20K datasets demonstrates the effectiveness of our approach, significantly outperforming state-of-the-art methods.
翻訳日:2021-03-12 15:00:44 公開日:2021-03-10
# 長文質問応答の進歩へのハードル

Hurdles to Progress in Long-form Question Answering ( http://arxiv.org/abs/2103.06332v1 )

ライセンス: Link先を確認
Kalpesh Krishna, Aurko Roy, Mohit Iyyer(参考訳) 長文質問応答(LFQA)の課題は、与えられた質問に関連する文書を検索し、それを用いて段落長の回答を生成することである。 近年,LFQA に対して多くのモデルが提案されているが,本論文では,タスクの定式化が,現在有意義なモデリングの進歩を妨げている評価やデータセット作成に関する根本的な課題を提起している。 これらの課題を実証するために,我々はまず,eli5 lfqaデータセットの最先端性能を実現するために,スパース注意とコントラストレトリバー学習に依存する新しいシステムを設計した。 While our system tops the public leaderboard, a detailed analysis reveals several troubling trends: (1) our system's generated answers are not actually grounded in the documents that it retrieves; (2) ELI5 contains significant train / test overlap, as at least 81% of ELI5 validation questions occur in paraphrased form in the training set; (3) ROUGE-L is not an informative metric of generated answer quality and can be easily gamed; and (4) human evaluations used for other text generation tasks are unreliable for LFQA. これらの各課題を緩和するための提案を行い、より厳密なLFQA研究と将来有意義な進歩につながることを願っています。

The task of long-form question answering (LFQA) involves retrieving documents relevant to a given question and using them to generate a paragraph-length answer. While many models have recently been proposed for LFQA, we show in this paper that the task formulation raises fundamental challenges regarding evaluation and dataset creation that currently preclude meaningful modeling progress. To demonstrate these challenges, we first design a new system that relies on sparse attention and contrastive retriever learning to achieve state-of-the-art performance on the ELI5 LFQA dataset. While our system tops the public leaderboard, a detailed analysis reveals several troubling trends: (1) our system's generated answers are not actually grounded in the documents that it retrieves; (2) ELI5 contains significant train / test overlap, as at least 81% of ELI5 validation questions occur in paraphrased form in the training set; (3) ROUGE-L is not an informative metric of generated answer quality and can be easily gamed; and (4) human evaluations used for other text generation tasks are unreliable for LFQA. We provide suggestions to mitigate each of these issues, which we hope will lead to more rigorous LFQA research and meaningful progress in the future.
翻訳日:2021-03-12 14:57:55 公開日:2021-03-10
# 自己改善トラジェクティブ・コントラスト学習による文脈ベースメタ強化学習の改善

Improving Context-Based Meta-Reinforcement Learning with Self-Supervised Trajectory Contrastive Learning ( http://arxiv.org/abs/2103.06386v1 )

ライセンス: Link先を確認
Bernie Wang, Simon Xu, Kurt Keutzer, Yang Gao, Bichen Wu(参考訳) メタ強化学習は通常、単一のタスク強化学習方法よりも大きなサンプルの順序を必要とします。 これはメタトレーニングがより多様な分散に対処し、コンテキストエンコーダのような余分なコンポーネントを訓練する必要があるためである。 そこで本研究では,メタトレーニングを改善するためにTCL(Trajectory Contrastive Learning)と名付けた,新たな自己監督型学習タスクを提案する。 TCLはコントラスト学習を採用し、同じ軌道から2つの遷移ウィンドウがサンプリングされるかどうかを予測するためにコンテキストエンコーダを訓練する。 TCLはコンテキストベースのメタRLの自然な階層構造を利用し、最小限の仮定を行い、コンテキストベースのメタRLアルゴリズムに適用できる。 コンテキストエンコーダのトレーニングを加速し、メタトレーニング全体を改善します。 実験によると、TCLは、メタRL MuJoCo(6の5)とメタワールドベンチマーク(50の44)の両方のほとんどの環境において、強力なメタRLベースラインよりも優れています。

Meta-reinforcement learning typically requires orders of magnitude more samples than single task reinforcement learning methods. This is because meta-training needs to deal with more diverse distributions and train extra components such as context encoders. To address this, we propose a novel self-supervised learning task, which we named Trajectory Contrastive Learning (TCL), to improve meta-training. TCL adopts contrastive learning and trains a context encoder to predict whether two transition windows are sampled from the same trajectory. TCL leverages the natural hierarchical structure of context-based meta-RL and makes minimal assumptions, allowing it to be generally applicable to context-based meta-RL algorithms. It accelerates the training of context encoders and improves meta-training overall. Experiments show that TCL performs better or comparably than a strong meta-RL baseline in most of the environments on both meta-RL MuJoCo (5 of 6) and Meta-World benchmarks (44 out of 50).
翻訳日:2021-03-12 14:56:53 公開日:2021-03-10
# 機械学習技術に基づく自動肝組織デライン化:調査,現状,今後の方向性

Automated liver tissues delineation based on machine learning techniques: A survey, current trends and future orientations ( http://arxiv.org/abs/2103.06384v1 )

ライセンス: Link先を確認
Ayman Al-Kababji, Faycal Bensaali, Sarada Prasad Dakua(参考訳) 近年、機械学習とコンピュータビジョンがどのように成長したかは否定できない。 彼らの最大の利点は、その自動化、適合性、そして再現可能な方法で数秒で驚くべき結果を生成する能力にある。 これは、現在のグラフィカル処理ユニットのコンピューティング能力に到達したユビキタスな進歩と、そのような技術の高効率な実装によって支援されています。 そこで本研究では,2014年から2020年にかけて,研究者が肝臓,肝腫瘍,肝血管構造を分類するために用いた,さまざまな機械学習アルゴリズムについて検討した。 関心組織(肝硬膜腫,肝腫瘍,肝血管)に基づいて調査した研究を分割し,同時に複数の課題に取り組む研究を強調した。 さらに、機械学習アルゴリズムは教師付きまたは教師なしのいずれにも分類され、特定のスキームに該当する作業量が重要であればさらに分割される。 さらに、前述の組織のマスクを含む文献やウェブサイトに見られるさまざまなデータセットや課題を徹底的に議論し、主催者のオリジナルの貢献と他の研究者の貢献を強調する。 また、文献で過度に使用されるメトリクスは、我々のレビューにおいて、その課題に対するそれらの関連性を強調している。 最後に、革新的な研究者が取り組むべき重要な課題と将来の方向性が強調され、船舶のセグメンテーションの課題に関する多くの研究の不足、そしてなぜその欠落を加速的に対処する必要があるのかなどの対処が必要なギャップが露呈されます。

There is no denying how machine learning and computer vision have grown in the recent years. Their highest advantages lie within their automation, suitability, and ability to generate astounding results in a matter of seconds in a reproducible manner. This is aided by the ubiquitous advancements reached in the computing capabilities of current graphical processing units and the highly efficient implementation of such techniques. Hence, in this paper, we survey the key studies that are published between 2014 and 2020, showcasing the different machine learning algorithms researchers have used to segment the liver, hepatic-tumors, and hepatic-vasculature structures. We divide the surveyed studies based on the tissue of interest (hepatic-parenchyma, hepatic-tumors, or hepatic-vessels), highlighting the studies that tackle more than one task simultaneously. Additionally, the machine learning algorithms are classified as either supervised or unsupervised, and further partitioned if the amount of works that fall under a certain scheme is significant. Moreover, different datasets and challenges found in literature and websites, containing masks of the aforementioned tissues, are thoroughly discussed, highlighting the organizers original contributions, and those of other researchers. Also, the metrics that are used excessively in literature are mentioned in our review stressing their relevancy to the task at hand. Finally, critical challenges and future directions are emphasized for innovative researchers to tackle, exposing gaps that need addressing such as the scarcity of many studies on the vessels segmentation challenge, and why their absence needs to be dealt with in an accelerated manner.
翻訳日:2021-03-12 14:51:43 公開日:2021-03-10
# Sentence Objectives Frameworkを用いた階層的注意ネットワークを用いたARDSの同定

Identifying ARDS using the Hierarchical Attention Network with Sentence Objectives Framework ( http://arxiv.org/abs/2103.06352v1 )

ライセンス: Link先を確認
Kevin Lybarger, Linzee Mabrey, Matthew Thau, Pavan K. Bhatraju, Mark Wurfel, Meliha Yetisgen(参考訳) 急性呼吸困難症候群(ARDS)は、しばしば未診断または後期診断される生命を脅かす状態である。 ARDSは、特にCOVID-19に感染した人々で顕著です。 自由テキスト胸部X線写真報告におけるARDSインジケーターの自動同定と因子の確立について検討する。 胸部X線写真レポートの新たな注釈付きコーパスを提示し、文章分類フレームワークHANSO(Hierarchical Attention Network with Sentence Objectives)を導入する。 HANSOはきめ細かいアノテーションを使用して文書分類のパフォーマンスを改善します。 HANSOは, 注釈付きスパンがうるさい場合でも, 関連アノテーションを利用して, 高い性能でARDS関連情報を抽出することができる。 HANSOは、注釈付き胸部X線写真画像をゴールドスタンダードとして使用し、ARDSの指標である両側浸潤物を特定し、ヒトのアノテーション(0.84 F1)に匹敵する性能(0.87 F1)で胸部X線写真報告を行う。 このアルゴリズムは、臨床医や研究者によるardsのより効率的かつ迅速な同定を促進し、患者ケアを改善する新しい治療法の開発に寄与する。

Acute respiratory distress syndrome (ARDS) is a life-threatening condition that is often undiagnosed or diagnosed late. ARDS is especially prominent in those infected with COVID-19. We explore the automatic identification of ARDS indicators and confounding factors in free-text chest radiograph reports. We present a new annotated corpus of chest radiograph reports and introduce the Hierarchical Attention Network with Sentence Objectives (HANSO) text classification framework. HANSO utilizes fine-grained annotations to improve document classification performance. HANSO can extract ARDS-related information with high performance by leveraging relation annotations, even if the annotated spans are noisy. Using annotated chest radiograph images as a gold standard, HANSO identifies bilateral infiltrates, an indicator of ARDS, in chest radiograph reports with performance (0.87 F1) comparable to human annotations (0.84 F1). This algorithm could facilitate more efficient and expeditious identification of ARDS by clinicians and researchers and contribute to the development of new therapies to improve patient care.
翻訳日:2021-03-12 14:49:51 公開日:2021-03-10
# レポート:ツイートの自己報告に基づいて、twitterユーザーの正確な年齢を自動的に抽出する

ReportAGE: Automatically extracting the exact age of Twitter users based on self-reports in tweets ( http://arxiv.org/abs/2103.06357v1 )

ライセンス: Link先を確認
Ari Z. Klein, Arjun Magge, Graciela Gonzalez-Hernandez(参考訳) 研究アプリケーションにおけるソーシャルメディアデータの有用性向上には,利用者年齢を含むソーシャルメディア研究人口の人口統計情報を自動的に検出する手法が必要である。 本研究の目的は、ツイート中の自己報告に基づいて、ユーザの正確な年齢を自動的に識別する手法を開発し、評価することである。 エンドツーエンドの自動自然言語処理(NLP)パイプラインであるReportAGEには、年齢に言及する可能性のあるツイートを検索するためのクエリパターン、ユーザの正確な年齢("age"Tweet)を自己レポートする検索ツイートを識別する分類器、年齢を識別するためのルールベースの抽出が含まれている。 レポートの作成と評価のために,クエリパターンにマッチする11,000のつぶやきを手作業でアノテートした。 5つの注釈者全員によって注釈付された1000のツイートに基づいて、注釈間合意(fleiss' kappa)は「年齢」と「年齢なし」のツイートを識別する0.80、注釈者が同意した「年齢」のツイートのうち正確な年齢を特定する0.95であった。 ディープニューラルネットワーク分類器は、roberta-large pretrainedモデルに基づいて、"age"クラスで0.914(precision = 0.905, recall = 0.942)の最高値を達成した。 分類器の予測を用いて年齢抽出を評価すると、"age"クラスに対して0.855(precision = 0.805, recall = 0.914)のf1スコアを達成した。 ホールドアウトテストセットで直接評価すると、"age"クラスに対して0.931(precision = 0.873, recall = 0.998)のf1スコアを達成した。 われわれは、245,927ユーザーが投稿した12億以上のツイートにReportAGEを配置し、その年齢を132,637人(54%)と予測した。 この多数のユーザに正確な年齢の検出をスケールすることは、既存のバイナリやマルチクラス分類アプローチの既定年齢グループと一致しない研究アプリケーションのためのソーシャルメディアデータの有用性を前進させることができる。

Advancing the utility of social media data for research applications requires methods for automatically detecting demographic information about social media study populations, including users' age. The objective of this study was to develop and evaluate a method that automatically identifies the exact age of users based on self-reports in their tweets. Our end-to-end automatic natural language processing (NLP) pipeline, ReportAGE, includes query patterns to retrieve tweets that potentially mention an age, a classifier to distinguish retrieved tweets that self-report the user's exact age ("age" tweets) and those that do not ("no age" tweets), and rule-based extraction to identify the age. To develop and evaluate ReportAGE, we manually annotated 11,000 tweets that matched the query patterns. Based on 1000 tweets that were annotated by all five annotators, inter-annotator agreement (Fleiss' kappa) was 0.80 for distinguishing "age" and "no age" tweets, and 0.95 for identifying the exact age among the "age" tweets on which the annotators agreed. A deep neural network classifier, based on a RoBERTa-Large pretrained model, achieved the highest F1-score of 0.914 (precision = 0.905, recall = 0.942) for the "age" class. When the age extraction was evaluated using the classifier's predictions, it achieved an F1-score of 0.855 (precision = 0.805, recall = 0.914) for the "age" class. When it was evaluated directly on the held-out test set, it achieved an F1-score of 0.931 (precision = 0.873, recall = 0.998) for the "age" class. We deployed ReportAGE on more than 1.2 billion tweets posted by 245,927 users, and predicted ages for 132,637 (54%) of them. Scaling the detection of exact age to this large number of users can advance the utility of social media data for research applications that do not align with the predefined age groupings of extant binary or multi-class classification approaches.
翻訳日:2021-03-12 14:49:32 公開日:2021-03-10
# 構造からの移動とrgbd深部融合

Structure-From-Motio n and RGBD Depth Fusion ( http://arxiv.org/abs/2103.06366v1 )

ライセンス: Link先を確認
Akash Chandrashekar, John Papadakis, Andrew Willis, Jamie Gantert(参考訳) 本稿では,sfm(structure-from- motion)による深度推定をセンサ深度計測と統合することにより,典型的なrgbdセンサを補強する手法について述べる。 RGBD深度検知技術における限界は,(1)遠方面(>5m),(2)暗黒面,(3)明るく照らされた屋内シーン,(4)太陽が照らされた屋外シーンの4つの重要な文脈における深度測定を防止する。 SfM技術はRGB画像シーケンスのみからの多視点再構成により深度を算出する。 したがって、SfMの深さ推定は同じ制限を被らず、前述の4つの状況で計算することができる。 本研究は,RGBD深度データとSfM推定深度データを融合して,ロボットのローカライゼーションやマッピング,オブジェクト認識やトラッキングなど,多くの重要な下流アプリケーションで処理可能な,改良された深度ストリームを生成する。

This article describes a technique to augment a typical RGBD sensor by integrating depth estimates obtained via Structure-from-Motio n (SfM) with sensor depth measurements. Limitations in the RGBD depth sensing technology prevent capturing depth measurements in four important contexts: (1) distant surfaces (>5m), (2) dark surfaces, (3) brightly lit indoor scenes and (4) sunlit outdoor scenes. SfM technology computes depth via multi-view reconstruction from the RGB image sequence alone. As such, SfM depth estimates do not suffer the same limitations and may be computed in all four of the previously listed circumstances. This work describes a novel fusion of RGBD depth data and SfM-estimated depths to generate an improved depth stream that may be processed by one of many important downstream applications such as robotic localization and mapping, as well as object recognition and tracking.
翻訳日:2021-03-12 14:47:15 公開日:2021-03-10
# プログラム理解と生成のための統一事前学習

Unified Pre-training for Program Understanding and Generation ( http://arxiv.org/abs/2103.06333v1 )

ライセンス: Link先を確認
Wasi Uddin Ahmad and Saikat Chakraborty and Baishakhi Ray and Kai-Wei Chang(参考訳) コード要約と生成により、プログラミング言語(PL)と自然言語(NL)の変換が促進される一方、コード翻訳はレガシーコードのPLから別のPLへのマイグレーションに有効である。 本稿では,プログラムと言語理解と生成タスクの幅広いスペクトルを実行できるシーケンス・ツー・シーケンスモデルplbartについて述べる。 PLBARTは、JavaとPythonの関数と関連するNLテキストの広範なコレクションに、自動エンコーディングを通知することで事前トレーニングされている。 コード要約、生成、7つのプログラミング言語の翻訳を含む言語生成タスクの実験は、plbartが最先端モデルよりも優れており、あるいは競合することを示している。 さらに、プログラム修復、クローン検出、脆弱なコード検出などの識別タスクの実験は、プログラム理解におけるPLBARTの有効性を示している。 さらに分析により、plbartはプログラムの意味論に不可欠なプログラム構文、スタイル(例えば識別子命名規則)、論理フロー(例えば、elseブロック内のブロックが他のifブロックと等価である場合)を学習し、限られたアノテーションでさえ優れていることが明らかになった。

Code summarization and generation empower conversion between programming language (PL) and natural language (NL), while code translation avails the migration of legacy code from one PL to another. This paper introduces PLBART, a sequence-to-sequence model capable of performing a broad spectrum of program and language understanding and generation tasks. PLBART is pre-trained on an extensive collection of Java and Python functions and associated NL text via denoising autoencoding. Experiments on language generation tasks, including code summarization, generation, translation in seven programming languages show that PLBART outperforms or rivals state-of-the-art models. Moreover, experiments on discriminative tasks, e.g., program repair, clone detection, and vulnerable code detection demonstrate PLBART's effectiveness in program understanding. Furthermore, analysis reveals that PLBART learns program syntax, style (e.g., identifier naming convention), logical flow (e.g., if block inside an else block is equivalent to else if block) that are crucial to program semantics and thus excels even with limited annotations.
翻訳日:2021-03-12 14:42:27 公開日:2021-03-10
# S4RL: 驚くほど単純なオフライン強化学習の自己監督

S4RL: Surprisingly Simple Self-Supervision for Offline Reinforcement Learning ( http://arxiv.org/abs/2103.06326v1 )

ライセンス: Link先を確認
Samarth Sinha, Animesh Garg(参考訳) オフライン強化学習は、対話なしに大規模なデータセットからポリシーを学ぶことを提案する。 これらのアルゴリズムにより、環境に転送可能なデータから有用なスキルを学ぶことができ、トレーニングされたポリシーを、自動運転車のような対話がコストがかかる、あるいは危険な現実の環境で展開することが可能になった。 しかし、現在のアルゴリズムは、トレーニング対象のデータセットにオーバーフィットし、デプロイ時に環境への悪いアウトオブディストリビューション(OOD)一般化を実行する。 本稿では,環境にデプロイした場合の一般化と補間に優れた値関数を学習するために,状態からのデータ拡張を利用する,驚くほどシンプルな自己スーパービジョンアルゴリズム(s4rl)を提案する。 我々は、OODデータに外挿可能な値関数の学習を支援する異なるデータ拡張手法と、データ拡張とオフラインRLアルゴリズムを組み合わせてポリシーを学習する方法を検討する。 S4RLを使用することにより、D4RLの一般的なベンチマークデータセット上のほとんどのベンチマークオフライン強化学習タスクにおいて、シンプルで簡単に実装できることを実験的に示しました。

Offline reinforcement learning proposes to learn policies from large collected datasets without interaction. These algorithms have made it possible to learn useful skills from data that can then be transferred to the environment, making it feasible to deploy the trained policies in real-world settings where interactions may be costly or dangerous, such as self-driving. However, current algorithms overfit to the dataset they are trained on and perform poor out-of-distribution (OOD) generalization to the environment when deployed. We propose a Surprisingly Simple Self-Supervision algorithm (S4RL), which utilizes data augmentations from states to learn value functions that are better at generalizing and extrapolating when deployed in the environment. We investigate different data augmentation techniques that help learning a value function that can extrapolate to OOD data, and how to combine data augmentations and offline RL algorithms to learn a policy. We experimentally show that using S4RL significantly improves the state-of-the-art on most benchmark offline reinforcement learning tasks on popular benchmark datasets from D4RL, despite being simple and easy to implement.
翻訳日:2021-03-12 14:42:06 公開日:2021-03-10
# ニューラルネットワークを用いた非線形次元低減のための局所類似性保存フレームワーク

A Local Similarity-Preservin g Framework for Nonlinear Dimensionality Reduction with Neural Networks ( http://arxiv.org/abs/2103.06383v1 )

ライセンス: Link先を確認
Xiang Wang, Xiaoyong Li, Junxing Zhu, Zichen Xu, Kaijun Ren, Weiming Zhang, Xinwang Liu, Kui Yu(参考訳) 現実世界のデータは通常高い次元を持ち、次元の呪いを緩和することが重要である。 高次元のデータは通常、コヒーレントな構造であり、データの真の自由度は比較的小さい。 問題を緩和するグローバルおよびローカル次元の減少方法があります。 局所次元還元の既存の方法のほとんどは固有値または特異値分解との埋め込みを得るが、ここでは計算の複雑性は大量のデータに対して非常に高い。 本稿では、単語の埋め込み表現学習における最近の進歩を一般化し、行列の次元化を一般化する、Vec2vecという新しい局所非線形アプローチを提案する。 計算複雑性を低減するために、隠れた1つの層しか持たないニューラルネットワークを用いた非線形埋め込みを得る。 ニューラルネットワークをトレーニングするために,マトリクスの近傍類似度グラフを構築し,ランダムウォーク特性を利用してデータポイントのコンテキストを定義する。 vec2vecは多数の高次元データにおいて最先端の局所次元低減法よりも効率的である。 8つの実データセット上のデータ分類とクラスタリングの広範な実験は、統計仮説テストにおいて、Vec2vecがいくつかの古典的な次元還元方法よりも優れていることを示し、最近開発された最先端のUMAPと競合している。

Real-world data usually have high dimensionality and it is important to mitigate the curse of dimensionality. High-dimensional data are usually in a coherent structure and make the data in relatively small true degrees of freedom. There are global and local dimensionality reduction methods to alleviate the problem. Most of existing methods for local dimensionality reduction obtain an embedding with the eigenvalue or singular value decomposition, where the computational complexities are very high for a large amount of data. Here we propose a novel local nonlinear approach named Vec2vec for general purpose dimensionality reduction, which generalizes recent advancements in embedding representation learning of words to dimensionality reduction of matrices. It obtains the nonlinear embedding using a neural network with only one hidden layer to reduce the computational complexity. To train the neural network, we build the neighborhood similarity graph of a matrix and define the context of data points by exploiting the random walk properties. Experiments demenstrate that Vec2vec is more efficient than several state-of-the-art local dimensionality reduction methods in a large number of high-dimensional data. Extensive experiments of data classification and clustering on eight real datasets show that Vec2vec is better than several classical dimensionality reduction methods in the statistical hypothesis test, and it is competitive with recently developed state-of-the-art UMAP.
翻訳日:2021-03-12 14:41:45 公開日:2021-03-10
# 新機能統合とモデル結合によるVMAFの強化

Enhancing VMAF through New Feature Integration and Model Combination ( http://arxiv.org/abs/2103.06338v1 )

ライセンス: Link先を確認
Fan Zhang and Angeliki Katsenou and Christos Bampis and Lukas Krasula and Zhi Li and David Bull(参考訳) VMAFは、SVMレグレッションによる複数の品質メトリックとビデオ機能を組み合わせた、ストリーミングアプリケーション用に設計された機械学習ベースのビデオ品質評価方法です。 従来の品質評価法に比べて主観的意見との相関が高い。 本稿では,複数のモデルの組み合わせとともに,新しいビデオ機能と代替品質指標(多様なプールから選択された)の統合によるVMAFの強化を提案する。 提案手法により,異なる内容と歪み特性を持つ複数のデータベースのトレーニングが可能となる。 拡張VMAF法は8つのHDビデオデータベース上で評価され,従来のVMAFモデル (0.6.1) と他のベンチマーク品質指標を一貫して上回り,主観的基底真理データと高い相関を示した。

VMAF is a machine learning based video quality assessment method, originally designed for streaming applications, which combines multiple quality metrics and video features through SVM regression. It offers higher correlation with subjective opinions compared to many conventional quality assessment methods. In this paper we propose enhancements to VMAF through the integration of new video features and alternative quality metrics (selected from a diverse pool) alongside multiple model combination. The proposed combination approach enables training on multiple databases with varying content and distortion characteristics. Our enhanced VMAF method has been evaluated on eight HD video databases, and consistently outperforms the original VMAF model (0.6.1) and other benchmark quality metrics, exhibiting higher correlation with subjective ground truth data.
翻訳日:2021-03-12 14:40:14 公開日:2021-03-10
# タントラ:タイミングベースの広告ネットワークトラフィックリフォーム攻撃

TANTRA: Timing-Based Adversarial Network Traffic Reshaping Attack ( http://arxiv.org/abs/2103.06297v1 )

ライセンス: Link先を確認
Yam Sharon and David Berend and Yang Liu and Asaf Shabtai and Yuval Elovici(参考訳) ネットワーク侵入攻撃は既知の脅威である。 このような攻撃を検出するため、ネットワーク侵入検知システム(NIDS)が開発された。 これらのシステムは、ネットワークトラフィックから抽出された特徴の高次元ベクトルに機械学習モデルを適用し、侵入を検出する。 NIDSの進歩は、攻撃者がこれらのシステムに検知されずに攻撃を実行しなければならないことを困難にしている。 NIDSをバイパスする以前の研究は、主に攻撃トラフィックから抽出された機能を妨害して検出システムを騙すことに重点を置いていたが、これは攻撃の機能を阻害する可能性がある。 本研究では、さまざまなNIDSをバイパスできる、エンドツーエンドのタイミングベースのAdversarial Network Traffic Reformingping AttackであるTANTRAを紹介します。 我々の回避攻撃は、ターゲットネットワークの良性パケット間の時間差を学習するために訓練された長い短期記憶(LSTM)ディープニューラルネットワーク(DNN)を利用する。 トレーニングされたlstmは、コンテンツを変更することなく、悪意のあるトラフィックパケット(攻撃)間の時間差を設定するために使用され、良質なネットワークトラフィックのように“保持”され、侵入として検出されない。 8つの一般的な侵入攻撃と3つの最先端のNIDSシステム上でTANTRAを評価し、ネットワーク侵入検出システム評価の平均成功率99.99\%を達成します。 また,この新たな回避攻撃に対処する新たな緩和手法を提案する。

Network intrusion attacks are a known threat. To detect such attacks, network intrusion detection systems (NIDSs) have been developed and deployed. These systems apply machine learning models to high-dimensional vectors of features extracted from network traffic to detect intrusions. Advances in NIDSs have made it challenging for attackers, who must execute attacks without being detected by these systems. Prior research on bypassing NIDSs has mainly focused on perturbing the features extracted from the attack traffic to fool the detection system, however, this may jeopardize the attack's functionality. In this work, we present TANTRA, a novel end-to-end Timing-based Adversarial Network Traffic Reshaping Attack that can bypass a variety of NIDSs. Our evasion attack utilizes a long short-term memory (LSTM) deep neural network (DNN) which is trained to learn the time differences between the target network's benign packets. The trained LSTM is used to set the time differences between the malicious traffic packets (attack), without changing their content, such that they will "behave" like benign network traffic and will not be detected as an intrusion. We evaluate TANTRA on eight common intrusion attacks and three state-of-the-art NIDS systems, achieving an average success rate of 99.99\% in network intrusion detection system evasion. We also propose a novel mitigation technique to address this new evasion attack.
翻訳日:2021-03-12 14:37:52 公開日:2021-03-10
# リニアマッピングに基づく変分アンサンブルカルマンフィルタ

Linear-Mapping based Variational Ensemble Kalman Filter ( http://arxiv.org/abs/2103.06315v1 )

ライセンス: Link先を確認
Linjie Wen, Jinglai Li(参考訳) 一般観測モデルにおける問題に対する線形マッピングに基づく変分カルマンフィルタを提案する。 具体的には,先行アンサンブルから後方アンサンブルへの線形写像を構成するために提案手法を定式化し,変換された分布と実際の後方の分布とのKulback-Leibler分散を最小化することにより線形写像を算出する。

We propose a linear-mapping based variational Ensemble Kalman filter for problems with generic observation models. Specifically, the proposed method is formulated as to construct a linear mapping from the prior ensemble to the posterior one, and the linear mapping is computed by minimizing the Kullback-Leibler divergence between the transformed distribution by the linear mapping and the actual posterior.
翻訳日:2021-03-12 14:35:33 公開日:2021-03-10
# 半環辞書を用いた関数型コレクションプログラミング

Functional Collection Programming with Semi-Ring Dictionaries ( http://arxiv.org/abs/2103.06376v1 )

ライセンス: Link先を確認
Amir Shaikhha, Mathieu Huot, Jaclyn Smith, Dan Olteanu(参考訳) 本稿では, 集合, 多重集合, 配列, ベクトル, 行列などの他のコレクション型をサブスクライブする, 合成および純粋関数型コレクションの強力なクラスであるセミリング辞書を紹介する。 そこで我々は,半環辞書を中心とした静的型付け言語SDQLを開発し,アグリゲーションや関数コレクション,線形代数といった関係代数学の表現をエンコードする。 さらに、これらの辞書の背後にある半環代数構造のおかげで、SDQLはデータベースや線形代数でよく使われる幅広い最適化を統一する。 その結果、SDQLは、データベースシステムまたは線形代数フレームワークに限られる最適化をまとめることで、ハイブリッドデータベースと線形代数ワークロードの効率的な処理を可能にします。 実験結果から,少数のリレーショナルおよびリニア代数のワークロードがSDQL言語と最適化を活用できることが示唆された。 全体として、sdqlは(ネストしない、フラットな)リレーショナルデータのための最先端のインメモリシステムであるtyperとtectorwiseの競合性能を達成し、線形代数ワークロードのscipyに対する平均2倍のスピードアップを達成している。 最後に、ネストしたバイオメディカルデータに対する線形代数処理を含むハイブリッドワークロードの場合、sdqlは最先端のネストリレーショナルエンジンであるtransnce上で最大1桁のスピードアップを行うことができる。

This paper introduces semi-ring dictionaries, a powerful class of compositional and purely functional collections that subsume other collection types such as sets, multisets, arrays, vectors, and matrices. We develop SDQL, a statically typed language centered around semi-ring dictionaries, that can encode expressions in relational algebra with aggregations, functional collections, and linear algebra. Furthermore, thanks to the semi-ring algebraic structures behind these dictionaries, SDQL unifies a wide range of optimizations commonly used in databases and linear algebra. As a result, SDQL enables efficient processing of hybrid database and linear algebra workloads, by putting together optimizations that are otherwise confined to either database systems or linear algebra frameworks. Through experimental results, we show that a handful of relational and linear algebra workloads can take advantage of the SDQL language and optimizations. Overall, we observe that SDQL achieves competitive performance to Typer and Tectorwise, which are state-of-the-art in-memory systems for (flat, not nested) relational data, and achieves an average 2x speedup over SciPy for linear algebra workloads. Finally, for hybrid workloads involving linear algebra processing over nested biomedical data, SDQL can give up to one order of magnitude speedup over Trance, a state-of-the-art nested relational engine.
翻訳日:2021-03-12 14:35:23 公開日:2021-03-10
# 天文化学タギングにおける離散表現学習

Disentangled Representation Learning for Astronomical Chemical Tagging ( http://arxiv.org/abs/2103.06377v1 )

ライセンス: Link先を確認
Damien de Mijolla, Melissa Ness, Serena Viti, Adam Wheeler(参考訳) 現代の天文学調査は、数百万の恒星のスペクトルデータを観測している。 これらのスペクトルは、銀河の形成と化学濃縮の歴史を追跡できる化学情報を含んでいる。 しかし、スペクトルから情報を抽出し、正確で正確な化学量測定を行うことは困難です。 本稿では,他のパラメータから恒星スペクトルの変化の化学的要因を分離するためのデータ駆動手法を提案する。 \teff, \logg, \feh)。 これにより、これらのパラメータを取り除き、各恒星のスペクトル投影を構築することができる。 このことは、元素の存在量自体の初歩的な知識を持たず、そのため、合成恒星スペクトルに依存するモデリングに関連する不確実性や体系を回避できる。 変動の既知の非化学的要因を取り除くために,不連続スペクトル表現を学習するニューラルネットワークアーキテクチャを開発し,実装する。 合成APOGEE様データセットの離散スペクトルを用いて、化学的に同一の恒星の回収をシミュレートする。 このリカバリは信号対雑音比の関数として減少するが、ニューラルネットワークアーキテクチャはより単純なモデリング選択よりも優れていることを示す。 本研究は,データ駆動アビダンスフリーケミカルタギングの実現可能性を示す。

Modern astronomical surveys are observing spectral data for millions of stars. These spectra contain chemical information that can be used to trace the Galaxy's formation and chemical enrichment history. However, extracting the information from spectra, and making precise and accurate chemical abundance measurements are challenging. Here, we present a data-driven method for isolating the chemical factors of variation in stellar spectra from those of other parameters (i.e. \teff, \logg, \feh). This enables us to build a spectral projection for each star with these parameters removed. We do this with no ab initio knowledge of elemental abundances themselves, and hence bypass the uncertainties and systematics associated with modeling that rely on synthetic stellar spectra. To remove known non-chemical factors of variation, we develop and implement a neural network architecture that learns a disentangled spectral representation. We simulate our recovery of chemically identical stars using the disentangled spectra in a synthetic APOGEE-like dataset. We show that this recovery declines as a function of the signal to noise ratio, but that our neural network architecture outperforms simpler modeling choices. Our work demonstrates the feasibility of data-driven abundance-free chemical tagging.
翻訳日:2021-03-12 14:34:57 公開日:2021-03-10
# (参考訳) TransMed:トランスフォーマーがマルチモーダル医療画像分類を進める [全文訳有]

TransMed: Transformers Advance Multi-modal Medical Image Classification ( http://arxiv.org/abs/2103.05940v1 )

ライセンス: CC BY 4.0
Yin Dai and Yifan Gao(参考訳) 過去10年間で、畳み込みニューラルネットワーク(CNN)は、疾患分類、腫瘍分割、病変検出などの医療画像分析タスクで非常に競争力のあるパフォーマンスを示しています。 CNNは画像の局所的な特徴を抽出する上で大きな利点がある。 しかし、畳み込み操作の局所性のために、それは長距離関係をうまく扱うことができません。 近年,コンピュータビジョンにトランスフォーマーが適用され,大規模データセットで大きな成功を収めている。 自然画像と比較して、マルチモーダルな医用画像は明確かつ重要な長距離依存を持ち、効果的なマルチモーダル融合戦略はディープモデルの性能を大幅に向上させることができる。 これにより,トランスフォーマー構造を解析し,マルチモーダル医療画像に適用することが可能になる。 既存のトランスフォーマーベースのネットワークアーキテクチャは、パフォーマンス向上のために大規模なデータセットを必要とする。 しかし、医用画像データセットは比較的小さいため、純粋なトランスフォーマーを医用画像解析に適用することは困難である。 そこで,マルチモーダル医療画像分類のためのTransMedを提案する。 TransMedはCNNとトランスフォーマーの利点を組み合わせて、画像の低レベル特徴を効率的に抽出し、モダリティ間の長距離依存関係を確立する。 術前の耳下腺腫瘍診断の難易度をモデルとして評価し,本手法の有用性を検討した。 CNNとトランスフォーマーの組み合わせは多くの医療画像解析タスクにおいて大きな可能性を秘めていると我々は主張する。 私たちの最良の知識に、これは医療画像分類にトランスを適用する最初の仕事です。

Over the past decade, convolutional neural networks (CNN) have shown very competitive performance in medical image analysis tasks, such as disease classification, tumor segmentation, and lesion detection. CNN has great advantages in extracting local features of images. However, due to the locality of convolution operation, it can not deal with long-range relationships well. Recently, transformers have been applied to computer vision and achieved remarkable success in large-scale datasets. Compared with natural images, multi-modal medical images have explicit and important long-range dependencies, and effective multi-modal fusion strategies can greatly improve the performance of deep models. This prompts us to study transformer-based structures and apply them to multi-modal medical images. Existing transformer-based network architectures require large-scale datasets to achieve better performance. However, medical imaging datasets are relatively small, which makes it difficult to apply pure transformers to medical image analysis. Therefore, we propose TransMed for multi-modal medical image classification. TransMed combines the advantages of CNN and transformer to efficiently extract low-level features of images and establish long-range dependencies between modalities. We evaluated our model for the challenging problem of preoperative diagnosis of parotid gland tumors, and the experimental results show the advantages of our proposed method. We argue that the combination of CNN and transformer has tremendous potential in a large number of medical image analysis tasks. To our best knowledge, this is the first work to apply transformers to medical image classification.
翻訳日:2021-03-12 14:30:02 公開日:2021-03-10
# (参考訳) FSCE:Contrastive Proposal EncodingによるFew-Shotオブジェクト検出 [全文訳有]

FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding ( http://arxiv.org/abs/2103.05950v1 )

ライセンス: CC BY 4.0
Bo Sun, Banghuai Li, Shengcai Cai, Ye Yuan, Chi Zhang(参考訳) 未確認物体(FSOD)と呼ばれる非常に少数の訓練例から、未確認物体の認識に新たな関心がもたらされた。 最近の研究では、優れた機能埋め込みが有利な数ショット学習パフォーマンスを達成する鍵であることを実証している。 We observed object proposals with different Intersection-of-Unio n (IoU) scores is similar to the intra-image augmentation used in contrastive approach。 そして、我々はこの類推を活用し、FSODでより堅牢なオブジェクト表現を達成するために、教師付きコントラスト学習を組み込む。 対比提案符号化(FSCE)によるFew-Shotオブジェクト検出について述べる。これは、検出されたオブジェクトの分類を容易にする対比認識オブジェクト提案符号化を学習するためのシンプルで効果的なアプローチである。 稀なオブジェクトの平均精度 (ap) の低下は、主に新しいインスタンスを使用可能なクラスとして誤分類することによるものである。 また, インスタンスレベルのクラス内コンパクト性とクラス間分散を, コントラスト的提案符号化損失(CPE損失)を通じて促進することにより, 誤分類問題を緩和する。 我々の設計は、あらゆるショットとすべてのデータ分割において現在の最先端の作業よりも優れており、標準ベンチマークPASCAL VOCでは+8.8%、挑戦的なCOCOベンチマークでは+2.7%である。 https://github.com/b sun0802/fsce.git

Emerging interests have been brought to recognize previously unseen objects given very few training examples, known as few-shot object detection (FSOD). Recent researches demonstrate that good feature embedding is the key to reach favorable few-shot learning performance. We observe object proposals with different Intersection-of-Unio n (IoU) scores are analogous to the intra-image augmentation used in contrastive approaches. And we exploit this analogy and incorporate supervised contrastive learning to achieve more robust objects representations in FSOD. We present Few-Shot object detection via Contrastive proposals Encoding (FSCE), a simple yet effective approach to learning contrastive-aware object proposal encodings that facilitate the classification of detected objects. We notice the degradation of average precision (AP) for rare objects mainly comes from misclassifying novel instances as confusable classes. And we ease the misclassification issues by promoting instance level intra-class compactness and inter-class variance via our contrastive proposal encoding loss (CPE loss). Our design outperforms current state-of-the-art works in any shot and all data splits, with up to +8.8% on standard benchmark PASCAL VOC and +2.7% on challenging COCO benchmark. Code is available at: https://github.com/b sun0802/FSCE.git
翻訳日:2021-03-12 14:17:48 公開日:2021-03-10
# (参考訳) COLA-Net:画像復元のための協調型注意ネットワーク [全文訳有]

COLA-Net: Collaborative Attention Network for Image Restoration ( http://arxiv.org/abs/2103.05961v1 )

ライセンス: CC BY 4.0
Chong Mou, Jian Zhang, Xiaopeng Fan, Hangfan Liu, Ronggang Wang(参考訳) 局所的および非局所的注意に基づく手法は、様々な画像復元タスクでよく研究され、有望なパフォーマンスをもたらす。 しかし、既存の手法のほとんどは、一種類の注意機構(ローカルまたは非ローカル)のみに焦点を当てている。 さらに、自然画像の自己相似性を生かして、既存の画素単位の非局所的注意操作は、画像変性による長距離依存を特徴づける過程でずれを引き起こす傾向がある。 そこで本論文では,局所的および非局所的な注意メカニズムを組み合わせ,複雑なテクスチャと反復的な詳細を持つ領域の画像コンテンツを復元する試みとして,画像復元のための新たな協調的注意ネットワーク(COLA-Net)を提案する。 さらに, 3次元パッチによる長距離特徴対応を捉えるために, 有効かつ堅牢なパッチワイズ非局所注意モデルを開発した。 合成画像のデノイジング,実画像デノイジング,圧縮アーティファクト削減タスクに関する広範な実験により,本提案手法は,計算複雑性を維持しつつ,ピーク信号対ノイズ比と視覚知覚の両方において最先端の性能を実現することができることを示した。 ソースコードはhttps://github.com/M C-E/COLA-Netで入手できる。

Local and non-local attention-based methods have been well studied in various image restoration tasks while leading to promising performance. However, most of the existing methods solely focus on one type of attention mechanism (local or non-local). Furthermore, by exploiting the self-similarity of natural images, existing pixel-wise non-local attention operations tend to give rise to deviations in the process of characterizing long-range dependence due to image degeneration. To overcome these problems, in this paper we propose a novel collaborative attention network (COLA-Net) for image restoration, as the first attempt to combine local and non-local attention mechanisms to restore image content in the areas with complex textures and with highly repetitive details respectively. In addition, an effective and robust patch-wise non-local attention model is developed to capture long-range feature correspondences through 3D patches. Extensive experiments on synthetic image denoising, real image denoising and compression artifact reduction tasks demonstrate that our proposed COLA-Net is able to achieve state-of-the-art performance in both peak signal-to-noise ratio and visual perception, while maintaining an attractive computational complexity. The source code is available on https://github.com/M C-E/COLA-Net.
翻訳日:2021-03-12 13:59:31 公開日:2021-03-10
# (参考訳) SDD-FIQA:類似分布距離を用いた教師なし顔画像品質評価 [全文訳有]

SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance ( http://arxiv.org/abs/2103.05977v1 )

ライセンス: CC BY 4.0
Fu-Zhao Ou, Xingyu Chen, Ruixin Zhang, Yuge Huang, Shaoxin Li, Jilin Li, Yong Li, Liujuan Cao, and Yuan-Gen Wang(参考訳) 近年、顔画像品質評価(FIQA)は、制約のないシナリオにおける認識性能の安定性と信頼性を保証するために、顔認識システムの不可欠な部分となっています。 この目的のために、FIQAメソッドは、本質的特性と顔画像の認識可能性の両方を考慮するべきである。 先行研究のほとんどは,部分的クラス内情報のみを考慮に入れた質スコアとして,サンプル単位の埋め込み不確実性やペア単位の類似性を推定することを目的としている。 しかし、これらの方法は、顔画像の認識可能性を推定するためのクラス間の貴重な情報を無視します。 本研究では,高品質な顔画像はクラス内サンプルと類似し,クラス間サンプルと相似であるべきだと論じる。 そこで本稿では,顔画像品質評価のための類似度分布距離(SDD-FIQA)を組み込んだ新しい教師なしFIQA手法を提案する。 本手法は,クラス内類似度分布とクラス間類似度分布の間のWasserstein Distance (WD)を計算することにより,品質疑似ラベルを生成する。 これらの品質疑似ラベルにより、品質予測のための回帰ネットワークのトレーニングが可能です。 ベンチマークデータセットに関する広範な実験は、提案されたSDD-FIQAが最先端を圧倒的なマージンで上回っていることを示しています。 一方,本手法は異なる認識システムにまたがって優れた一般化を示す。

In recent years, Face Image Quality Assessment (FIQA) has become an indispensable part of the face recognition system to guarantee the stability and reliability of recognition performance in an unconstrained scenario. For this purpose, the FIQA method should consider both the intrinsic property and the recognizability of the face image. Most previous works aim to estimate the sample-wise embedding uncertainty or pair-wise similarity as the quality score, which only considers the information from partial intra-class. However, these methods ignore the valuable information from the inter-class, which is for estimating to the recognizability of face image. In this work, we argue that a high-quality face image should be similar to its intra-class samples and dissimilar to its inter-class samples. Thus, we propose a novel unsupervised FIQA method that incorporates Similarity Distribution Distance for Face Image Quality Assessment (SDD-FIQA). Our method generates quality pseudo-labels by calculating the Wasserstein Distance (WD) between the intra-class similarity distributions and inter-class similarity distributions. With these quality pseudo-labels, we are capable of training a regression network for quality prediction. Extensive experiments on benchmark datasets demonstrate that the proposed SDD-FIQA surpasses the state-of-the-arts by an impressive margin. Meanwhile, our method shows good generalization across different recognition systems.
翻訳日:2021-03-12 13:36:38 公開日:2021-03-10
# (参考訳) ロバスト顔検出のための広アスペクト比マッチング [全文訳有]

Wide Aspect Ratio Matching for Robust Face Detection ( http://arxiv.org/abs/2103.05993v1 )

ライセンス: CC BY 4.0
Shi Luo, Xiongfei Li, Xiaoli Zhang(参考訳) 近年,顔検出におけるアンカーベース手法の進歩が目覚ましい。 アンカー設計とアンカーマッチング戦略が決定されると、多くのポジティブアンカーがサンプリングされる。 しかしながら、極端なアスペクト比の顔は常に標準アンカーマッチング戦略に従ってサンプリングされない。 実際、アンカーと極端なアスペクト比面の間の最大IoUsはまだ固定サンプリングしきい値よりも低いです。 本稿ではまず,各面の最大IoUに影響を与える要因を理論的に検討する。 そして、アンカーマッチングシミュレーションを行い、顔のアスペクト比のサンプリング範囲を評価する。 また,広範囲のアスペクト比において,地対面からより代表的な正のアンカーを収集する広いアスペクト比マッチング(warm)戦略を提案する。 最後に,receptive field diversity(rfd)モジュールという新しい機能拡張モジュールを提案し,異なるアスペクト比に対応する多様な受容フィールドを提供する。 広範な実験により, WIDER FACE や FDDB データセットなど, 難易度の高い顔検出ベンチマークにおいて, 検出器が極端にアスペクト比を捕捉し, 有望な検出性能を達成できることが示された。

Recently, anchor-based methods have achieved great progress in face detection. Once anchor design and anchor matching strategy determined, plenty of positive anchors will be sampled. However, faces with extreme aspect ratio always fail to be sampled according to standard anchor matching strategy. In fact, the max IoUs between anchors and extreme aspect ratio faces are still lower than fixed sampling threshold. In this paper, we firstly explore the factors that affect the max IoU of each face in theory. Then, anchor matching simulation is performed to evaluate the sampling range of face aspect ratio. Besides, we propose a Wide Aspect Ratio Matching (WARM) strategy to collect more representative positive anchors from ground-truth faces across a wide range of aspect ratio. Finally, we present a novel feature enhancement module, named Receptive Field Diversity (RFD) module, to provide diverse receptive field corresponding to different aspect ratios. Extensive experiments show that our method can help detectors better capture extreme aspect ratio faces and achieve promising detection performance on challenging face detection benchmarks, including WIDER FACE and FDDB datasets.
翻訳日:2021-03-12 13:16:48 公開日:2021-03-10
# (参考訳) 教師なし画像分割のためのディープスーパーピクセルカット [全文訳有]

Deep Superpixel Cut for Unsupervised Image Segmentation ( http://arxiv.org/abs/2103.06031v1 )

ライセンス: CC BY 4.0
Qinghong Lin, Weichan Zhong, Jianglin Lu(参考訳) 最も重要な視覚課題の一つである画像分割は長年にわたって研究されてきた。 初期のアルゴリズムのほとんどは教師なしの手法であり、手作りの機能を使って画像を多くの領域に分割する。 近年,ディープラーニング技術の成功により,画像セグメンテーションにおいてCNNベースの手法が優れた性能を示した。 しかし、これらの手法は多くの人間のアノテーションに依存しており、収集にはコストがかかる。 本論文では,以下の2つの段階を含む,画像分割の詳細な非監視手法を提案する。 まず,スーパーピクセルワイドオートエンコーダ(SuperAE)を用いて,スムーズな画像の埋め込みと再構成を学習し,そのスムーズな画像を渡してスーパーピクセルを生成する。 次に,超画素間の深い類似度を測定し,ソフトパーティショニング問題として画像分割を定式化する,deep superpixel cut(dsc)と呼ばれる新しいクラスタリングアルゴリズムを提案する。 バックプロパゲーションにより、DSCはスーパーピクセルを知覚領域に適応的に分割する。 BSDS500データセットの実験結果から,提案手法の有効性が示された。

Image segmentation, one of the most critical vision tasks, has been studied for many years. Most of the early algorithms are unsupervised methods, which use hand-crafted features to divide the image into many regions. Recently, owing to the great success of deep learning technology, CNNs based methods show superior performance in image segmentation. However, these methods rely on a large number of human annotations, which are expensive to collect. In this paper, we propose a deep unsupervised method for image segmentation, which contains the following two stages. First, a Superpixelwise Autoencoder (SuperAE) is designed to learn the deep embedding and reconstruct a smoothed image, then the smoothed image is passed to generate superpixels. Second, we present a novel clustering algorithm called Deep Superpixel Cut (DSC), which measures the deep similarity between superpixels and formulates image segmentation as a soft partitioning problem. Via backpropagation, DSC adaptively partitions the superpixels into perceptual regions. Experimental results on the BSDS500 dataset demonstrate the effectiveness of the proposed method.
翻訳日:2021-03-12 13:03:11 公開日:2021-03-10
# (参考訳) イベントカメラ用時系列最新のイベントボリューム(TORE) [全文訳有]

Time-Ordered Recent Event (TORE) Volumes for Event Cameras ( http://arxiv.org/abs/2103.06108v1 )

ライセンス: CC BY 4.0
R. Wes Baldwin, Ruixu Liu, Mohammed Almatrafi, Vijayan Asari, Keigo Hirakawa(参考訳) イベントカメラは、非常に低遅延で広いダイナミックレンジの高速イメージングを可能にするエキサイティングで新しいセンサーモダリティです。 残念ながら、ほとんどの機械学習アーキテクチャは、イベントカメラから生成されたようなスパースデータを直接扱うように設計されていない。 イベントカメラの多くの最先端のアルゴリズムは、重要なタイミング情報を隠蔽し、データ量を増やし、全体的なネットワークパフォーマンスを制限する、補間されたイベント表現に依存しています。 本稿では,時系列最近のイベント(TORE)ボリュームというイベント表現を詳述する。 TOREボリュームは、最小限の情報損失で生のスパイクタイミング情報をコンパクトに格納するように設計されています。 このバイオインスパイアされた設計はメモリ効率が良く、計算が速く、時間ブロックを避ける。 固定および予め定義されたフレームレート)で、過去のデータからの"ローカルメモリ"を含んでいる。 設計は、さまざまな課題(例えば、)で評価される。 イベントデノイジング、画像再構成、分類、および人間のポーズ推定)は、最先端のパフォーマンスを劇的に改善することが示されています。 TOREボリュームは、現在イベント表現を利用しているアルゴリズムの簡単に実装できる代替品です。

Event cameras are an exciting, new sensor modality enabling high-speed imaging with extremely low-latency and wide dynamic range. Unfortunately, most machine learning architectures are not designed to directly handle sparse data, like that generated from event cameras. Many state-of-the-art algorithms for event cameras rely on interpolated event representations - obscuring crucial timing information, increasing the data volume, and limiting overall network performance. This paper details an event representation called Time-Ordered Recent Event (TORE) volumes. TORE volumes are designed to compactly store raw spike timing information with minimal information loss. This bio-inspired design is memory efficient, computationally fast, avoids time-blocking (i.e. fixed and predefined frame rates), and contains "local memory" from past data. The design is evaluated on a wide range of challenging tasks (e.g. event denoising, image reconstruction, classification, and human pose estimation) and is shown to dramatically improve state-of-the-art performance. TORE volumes are an easy-to-implement replacement for any algorithm currently utilizing event representations.
翻訳日:2021-03-12 12:50:17 公開日:2021-03-10
# 論文「CME」の改訂

Modified our paper "CME" ( http://arxiv.org/abs/2103.04612v2 )

ライセンス: Link先を確認
Bohao Li(参考訳) 本論文は著者によって誤りにより修正されている。

This paper has been modified by the author due to errors.
翻訳日:2021-03-12 12:22:58 公開日:2021-03-10
# (参考訳) 骨年齢推定のための逆回帰学習 [全文訳有]

Adversarial Regression Learning for Bone Age Estimation ( http://arxiv.org/abs/2103.06149v1 )

ライセンス: CC0 1.0
Youshan Zhang and Brian D. Davison(参考訳) 小児の内分泌疾患の診断における骨格年齢の決定には,手書きX線写真による骨年齢の推定が不可欠である。 しかしながら、既存の自動メソッドは、トレーニングサンプルとテストサンプルの相違を考慮せずに、テスト画像にのみモデルを適用するため、一般化能力が低下する。 本稿では,骨年齢推定のための逆回帰学習ネットワーク(ARLNet)を提案する。 具体的には、細かく調整されたインセプションV3ニューラルネットワークから骨の特徴を抽出し、トレーニングの回帰率の損失を提案します。 トレーニングデータとテストデータとの相違を減らすために,学習データからテストデータへの遷移を保証するために,逆回帰損失と特徴再構成損失を提案し,その逆も提案し,トレーニングデータとテストデータの両方から不変な特徴を保存する。 実験の結果,提案モデルが最先端の手法を上回っていることが示された。

Estimation of bone age from hand radiographs is essential to determine skeletal age in diagnosing endocrine disorders and depicting the growth status of children. However, existing automatic methods only apply their models to test images without considering the discrepancy between training samples and test samples, which will lead to a lower generalization ability. In this paper, we propose an adversarial regression learning network (ARLNet) for bone age estimation. Specifically, we first extract bone features from a fine-tuned Inception V3 neural network and propose regression percentage loss for training. To reduce the discrepancy between training and test data, we then propose adversarial regression loss and feature reconstruction loss to guarantee the transition from training data to test data and vice versa, preserving invariant features from both training and test data. Experimental results show that the proposed model outperforms state-of-the-art methods.
翻訳日:2021-03-12 12:19:24 公開日:2021-03-10
# (参考訳) 対話型機械学習におけるユースケースと手法の連携に向けて [全文訳有]

Towards Connecting Use Cases and Methods in Interpretable Machine Learning ( http://arxiv.org/abs/2103.06254v1 )

ライセンス: CC BY 4.0
Valerie Chen, Jeffrey Li, Joon Sik Kim, Gregory Plumb, Ameet Talwalkar(参考訳) IML(Interpretable Machine Learning)の分野への関心が高まっているにもかかわらず、研究者の手法がターゲットとする技術的目標と消費者のユースケースの高レベル目標との間に大きなギャップが持続する。 本研究では,IML法の基礎的研究と評価を実用的分類学に合成する。 この分類法は、研究者と消費者のギャップを概念化するツールとして機能し、その方法とユースケースコンポーネント間の接続の欠如によって説明される。 また、研究者や消費者が協力して、どのようなユースケースに有用な方法を見つけられるように、3段階のワークフローを記述する基盤も提供しています。 最終的に、このワークフローから得られた結果に基づいて、より完全な分類法によって、消費者は、ターゲットとするユースケースや研究者が提案する方法の適切なユースケースを特定するための適切な方法を見つけることができるようになるだろう。

Despite increasing interest in the field of Interpretable Machine Learning (IML), a significant gap persists between the technical objectives targeted by researchers' methods and the high-level goals of consumers' use cases. In this work, we synthesize foundational work on IML methods and evaluation into an actionable taxonomy. This taxonomy serves as a tool to conceptualize the gap between researchers and consumers, illustrated by the lack of connections between its methods and use cases components. It also provides the foundation from which we describe a three-step workflow to better enable researchers and consumers to work together to discover what types of methods are useful for what use cases. Eventually, by building on the results generated from this workflow, a more complete version of the taxonomy will increasingly allow consumers to find relevant methods for their target use cases and researchers to identify applicable use cases for their proposed methods.
翻訳日:2021-03-12 12:08:14 公開日:2021-03-10
# (参考訳) Attribute-augmented Graph Neural Networksによる逐次推奨の改善 [全文訳有]

Improving Sequential Recommendation with Attribute-augmented Graph Neural Networks ( http://arxiv.org/abs/2103.05923v1 )

ライセンス: CC BY 4.0
Xinzhou Dong, Beihong Jin, Wei Zhuo, Beibei Li, Taofeng Xue(参考訳) 多くの実用的なレコメンデーションシステムは、ユーザとイテムのインタラクションをマイニングするだけでなく、ユーザが対話するアイテムの豊富な属性情報を完全に無視することで、異なるユーザに対してアイテムレコメンデーションを提供する。 本稿では,Murzimという属性拡張グラフニューラルネットワークモデルを提案する。 murzimはユーザとアイテムのインタラクションシーケンスと対応するアイテム属性シーケンスから構築されたグラフを入力として取ります。 GNNとノードアグリゲーションとアテンションネットワークを組み合わせることで、Murzimはユーザーの好みパターンをキャプチャし、ユーザーとアイテムのインタラクションシーケンスの埋め込みを生成し、次の項目の予測を通じてレコメンデーションを生成することができる。 複数のデータセットに対して広範な実験を行う。 実験の結果,murzimはリコールやmrrの点で最先端の手法よりも優れており,より優れたレコメンデーションを生成するために,murzimがアイテム属性情報を利用できることを示した。 現在、murzimはインド最大のストリーミングプラットフォームであるmx playerに展開されており、数万人のユーザーのために動画を推奨している。

Many practical recommender systems provide item recommendation for different users only via mining user-item interactions but totally ignoring the rich attribute information of items that users interact with. In this paper, we propose an attribute-augmented graph neural network model named Murzim. Murzim takes as input the graphs constructed from the user-item interaction sequences and corresponding item attribute sequences. By combining the GNNs with node aggregation and an attention network, Murzim can capture user preference patterns, generate embeddings for user-item interaction sequences, and then generate recommendations through next-item prediction. We conduct extensive experiments on multiple datasets. Experimental results show that Murzim outperforms several state-of-the-art methods in terms of recall and MRR, which illustrates that Murzim can make use of item attribute information to produce better recommendations. At present, Murzim has been deployed in MX Player, one of India's largest streaming platforms, and is recommending videos for tens of thousands of users.
翻訳日:2021-03-12 11:22:58 公開日:2021-03-10
# (参考訳) 認知モデルを用いた人-コンピュータインタラクションのためのウォームスタート強化学習エージェントの訓練 [全文訳有]

Using Cognitive Models to Train Warm Start Reinforcement Learning Agents for Human-Computer Interactions ( http://arxiv.org/abs/2103.06160v1 )

ライセンス: CC BY 4.0
Chao Zhang, Shihan Wang, Henk Aarts and Mehdi Dastani(参考訳) ヒューマンコンピュータインタラクションアプリケーションにおける強化学習(RL)エージェントは、正常に動作する前に繰り返しユーザーインタラクションを必要とする。 この「コールドスタート」問題に対処するため、実ユーザに適用する前に認知モデルを用いてRLエージェントを事前訓練する手法を提案する。 関連する認知モデルを簡単に検討した後,本研究の方法論的アプローチと,先行研究と継続研究の2つのケーススタディについて述べる。 このポジションペーパーは、RL、HCI、認知科学研究者間の対話を刺激し、アプローチの最大限の可能性を探ることを願っています。

Reinforcement learning (RL) agents in human-computer interactions applications require repeated user interactions before they can perform well. To address this "cold start" problem, we propose a novel approach of using cognitive models to pre-train RL agents before they are applied to real users. After briefly reviewing relevant cognitive models, we present our general methodological approach, followed by two case studies from our previous and ongoing projects. We hope this position paper stimulates conversations between RL, HCI, and cognitive science researchers in order to explore the full potential of the approach.
翻訳日:2021-03-12 11:11:54 公開日:2021-03-10
# (参考訳) fMRIを用いた自殺予測の批判的再評価 [全文訳有]

A critical reappraisal of predicting suicidal ideation using fMRI ( http://arxiv.org/abs/2103.06114v1 )

ライセンス: CC BY 4.0
Timothy Verstynen, Konrad Kording(参考訳) 多くの精神疾患では、神経イメージングは前言的な精神プロセスへのアクセスを提供することで診断と治療に革命をもたらす可能性があります。 彼らの研究「自殺と感情の概念の神経表現の機械学習は自殺の若者を識別します。 「1、just、そして同僚は、死亡に関連する言葉や概念の提示中に、ヒト参加者のボクセルワイズfmri応答を訓練したナイーブ・ベイズ分類器は、個人が91%の分類精度で自殺イデオロギーを報告したかどうかを予測することができる。 本稿では,著者が用いた手法の再評価を行い,同じデータセットの再解析を行い,著者の精度を疑問視する。

For many psychiatric disorders, neuroimaging offers a potential for revolutionizing diagnosis and treatment by providing access to preverbal mental processes. In their study "Machine learning of neural representations of suicide and emotion concepts identifies suicidal youth."1, Just and colleagues report that a Naive Bayes classifier, trained on voxelwise fMRI responses in human participants during the presentation of words and concepts related to mortality, can predict whether an individual had reported having suicidal ideations with a classification accuracy of 91%. Here we report a reappraisal of the methods employed by the authors, including re-analysis of the same data set, that calls into question the accuracy of the authors findings.
翻訳日:2021-03-12 11:05:45 公開日:2021-03-10
# (参考訳) 多球画像を用いた6-DoF全方位映像の構成学習 [全文訳有]

Learning to compose 6-DoF omnidirectional videos using multi-sphere images ( http://arxiv.org/abs/2103.05842v1 )

ライセンス: CC BY 4.0
Jisheng Li, Yuze He, Yubin Hu, Yuxing Han, Jiangtao Wen(参考訳) Omnidirectional VideoはVirtual Realityの重要なコンポーネントである。 6自由度 (6-dof) で見ることのできるコンテンツを生成するために様々な方法が提案されているが、既存のシステムは通常、複雑な深度推定、画像のインペインティング、前処理を含む。 本論文では,3D ConvNetを用いて6-DoF VRで体験できる多球画像(MSI)表現を生成するシステムを提案する。 このシステムは、奥行きマップやセグメンテーションマスクを必要とせずに、従来の全方向VRカメラの映像を直接利用し、6-DoF全方向ビデオ合成の全体的な複雑さを大幅に単純化する。 新たに設計されたfeeded sphere sweep volume (wssv) fusing技術を使えば、ほとんどのパノラマvrカメラのセットアップと互換性がある。 高品質なアーティファクトフリーな6-dofコンテンツに対する基礎的真理生成手法を提案し,研究開発コミュニティによる6-dofコンテンツ生成に利用可能である。

Omnidirectional video is an essential component of Virtual Reality. Although various methods have been proposed to generate content that can be viewed with six degrees of freedom (6-DoF), existing systems usually involve complex depth estimation, image in-painting or stitching pre-processing. In this paper, we propose a system that uses a 3D ConvNet to generate a multi-sphere images (MSI) representation that can be experienced in 6-DoF VR. The system utilizes conventional omnidirectional VR camera footage directly without the need for a depth map or segmentation mask, thereby significantly simplifying the overall complexity of the 6-DoF omnidirectional video composition. By using a newly designed weighted sphere sweep volume (WSSV) fusing technique, our approach is compatible with most panoramic VR camera setups. A ground truth generation approach for high-quality artifact-free 6-DoF contents is proposed and can be used by the research and development community for 6-DoF content generation.
翻訳日:2021-03-12 11:01:37 公開日:2021-03-10
# (参考訳) サイド情報の誘導によるパンスハーピングのための深層畳み込みスパース符号化ネットワーク [全文訳有]

Deep Convolutional Sparse Coding Network for Pansharpening with Guidance of Side Information ( http://arxiv.org/abs/2103.05946v1 )

ライセンス: CC BY 4.0
Shuang Xu and Jiangshe Zhang and Kai Sun and Zixiang Zhao and Lu Huang and Junmin Liu and Chunxia Zhang(参考訳) Pansharpeningはリモートセンシングの分野で基本的な問題です。 本稿では,部分案内型畳み込みスパース符号化(SCSC)モデルを提案する。 鍵となる考え方は、低分解能マルチスペクトル画像をパンクロマティック画像関連特徴マップとパンクロマティック画像関連特徴マップに分割することであり、パンクロマティック画像の側情報によって前者が正規化される。 アルゴリズムアンローリング技術の原理により、提案モデルはSCSCpansharpening neural Network(SCSC-PNN)と呼ばれるディープニューラルネットワークとして一般化される。 3つの衛星の13の古典的な方法および最先端の方法と比較されて、数値実験はSCSC-PNNが他より優秀であることを示します。 コードはhttps://github.com/x sxjtu/SCSC-PNNで入手できる。

Pansharpening is a fundamental issue in remote sensing field. This paper proposes a side information partially guided convolutional sparse coding (SCSC) model for pansharpening. The key idea is to split the low resolution multispectral image into a panchromatic image related feature map and a panchromatic image irrelated feature map, where the former one is regularized by the side information from panchromatic images. With the principle of algorithm unrolling techniques, the proposed model is generalized as a deep neural network, called as SCSC pansharpening neural network (SCSC-PNN). Compared with 13 classic and state-of-the-art methods on three satellites, the numerical experiments show that SCSC-PNN is superior to others. The codes are available at https://github.com/x sxjtu/SCSC-PNN.
翻訳日:2021-03-12 10:48:08 公開日:2021-03-10
# (参考訳) DSEC:シナリオを駆動するためのステレオイベントカメラデータセット [全文訳有]

DSEC: A Stereo Event Camera Dataset for Driving Scenarios ( http://arxiv.org/abs/2103.06011v1 )

ライセンス: CC BY 4.0
Mathias Gehrig, Willem Aarents, Daniel Gehrig, Davide Scaramuzza(参考訳) 一度学術ベンチャーになった自動運転は、過去10年間で比類のない企業資金を得ています。 しかし、現在の自動運転車の運転条件は理想的なシナリオに限られている。 これは、夜間、日の出、日没といった困難な照明条件での運転が未解決の問題であることを意味する。 これらのケースでは、標準カメラは低照度と高ダイナミックレンジ性能の点で限界まで押し上げられている。 これらの課題を解決するために、このような厳しい照明条件を含み、豊富な感覚データを提供する新しいデータセットであるDSECを提案します。 DSECは、2つのカラーフレームカメラと2つの高解像度モノクロームイベントカメラの広いベースラインステレオ設定からデータを提供する。 さらに、ライダーデータとRTK GPS測定値を収集し、両ハードウェアはすべてのカメラデータと同期する。 このデータセットの特徴の1つは、高解像度のイベントカメラを含むことである。 イベントカメラは、高い時間分解能と高いダイナミックレンジ性能で注目を集めています。 しかし、その斬新さから、運転シナリオにおけるイベントカメラデータセットは稀である。 本研究は,イベントカメラを用いた初の高分解能大規模ステレオデータセットを提案する。 このデータセットは、様々な照明条件で駆動することによって収集された53のシーケンスを含み、イベントベースのステレオアルゴリズムの開発と評価のための真実の相違を提供する。

Once an academic venture, autonomous driving has received unparalleled corporate funding in the last decade. Still, the operating conditions of current autonomous cars are mostly restricted to ideal scenarios. This means that driving in challenging illumination conditions such as night, sunrise, and sunset remains an open problem. In these cases, standard cameras are being pushed to their limits in terms of low light and high dynamic range performance. To address these challenges, we propose, DSEC, a new dataset that contains such demanding illumination conditions and provides a rich set of sensory data. DSEC offers data from a wide-baseline stereo setup of two color frame cameras and two high-resolution monochrome event cameras. In addition, we collect lidar data and RTK GPS measurements, both hardware synchronized with all camera data. One of the distinctive features of this dataset is the inclusion of high-resolution event cameras. Event cameras have received increasing attention for their high temporal resolution and high dynamic range performance. However, due to their novelty, event camera datasets in driving scenarios are rare. This work presents the first high-resolution, large-scale stereo dataset with event cameras. The dataset contains 53 sequences collected by driving in a variety of illumination conditions and provides ground truth disparity for the development and evaluation of event-based stereo algorithms.
翻訳日:2021-03-12 10:38:27 公開日:2021-03-10
# (参考訳) モデル化深層学習による光フィールド顕微鏡の神経局在化への応用 [全文訳有]

Model-inspired Deep Learning for Light-Field Microscopy with Application to Neuron Localization ( http://arxiv.org/abs/2103.06164v1 )

ライセンス: CC BY 4.0
Pingfan Song, Herman Verinaz Jadan, Carmel L. Howe, Peter Quicke, Amanda J. Foust, Pier Luigi Dragotti(参考訳) 光電場顕微鏡は入射光線の空間的および角度的情報を捉えることができる。 そこで本研究では,光フィールド顕微鏡画像を用いた高速かつ堅牢なソースの3Dローカリゼーションを実現するモデルに基づく深層学習手法を提案する。 これは、エピポーラ平面画像(EPI)を対応するスパース符号にマッピングするために、畳み込みスパース符号化(CSC)問題を効率的に解くディープネットワークを開発することで達成される。 ネットワークアーキテクチャはConvolutional Iterative Shrinkage and Thresholding Algorithm (ISTA)を解き放ち、ネットワークパラメータはトレーニングデータセットから学習することによって体系的に設計されている。 このような原則化された設計により、ディープネットワークはモデルに含まれるドメイン知識とデータから得られる新しいパラメータの両方を活用でき、モデルベースと学習ベースの方法の利点を組み合わせることができます。 光場からの哺乳類ニューロンの局在に関する実用的な実験は、提案されたアプローチが同時に性能、解釈可能性および効率を高めることを示した。

Light-field microscopes are able to capture spatial and angular information of incident light rays. This allows reconstructing 3D locations of neurons from a single snap-shot.In this work, we propose a model-inspired deep learning approach to perform fast and robust 3D localization of sources using light-field microscopy images. This is achieved by developing a deep network that efficiently solves a convolutional sparse coding (CSC) problem to map Epipolar Plane Images (EPI) to corresponding sparse codes. The network architecture is designed systematically by unrolling the convolutional Iterative Shrinkage and Thresholding Algorithm (ISTA) while the network parameters are learned from a training dataset. Such principled design enables the deep network to leverage both domain knowledge implied in the model, as well as new parameters learned from the data, thereby combining advantages of model-based and learning-based methods. Practical experiments on localization of mammalian neurons from light-fields show that the proposed approach simultaneously provides enhanced performance, interpretability and efficiency.
翻訳日:2021-03-12 10:22:27 公開日:2021-03-10
# (参考訳) 弱ラベルと解剖学的知識--TOF-MRAにおける頭蓋内動脈瘤検出のための深層学習の実践 [全文訳有]

Weak labels and anatomical knowledge: making deep learning practical for intracranial aneurysm detection in TOF-MRA ( http://arxiv.org/abs/2103.06168v1 )

ライセンス: CC BY-SA 4.0
Tommaso Di Noto, Guillaume Marie, Sebastien Tourbier, Yasser Alem\'an-G\'omez, Oscar Esteban, Guillaume Saliou, Meritxell Bach Cuadra, Patric Hagmann, Jonas Richiardi(参考訳) 教師付きセグメンテーションアルゴリズムは、自動異常検出のための最先端の結果を得る。 しかし、これらのモデルは、医療専門家のために描くのに時間がかかるボキセルワイズラベルを必要とします。 voxel-wiseアノテーションの興味深い代替案は、弱いラベルの使用である。これらは粗い、または大きすぎるアノテーションであり、精度は低いが、作成がかなり高速である。 本研究では,脳動脈瘤検出の課題に対して,大小の弱いラベルを用いてトレーニングした,完全自動化されたディープニューラルネットワークを開発する。 さらに,脳動脈瘤は主に特定の解剖学的位置に存在するため,トレーニングと推論の両方において脳血管の基盤となる解剖学を活かしたモデルを構築した。 本研究では,TOF-MRA(Time-Of-Fli ght Magnetic Resonance Angiography)を施行し,合計154例の動脈瘤を呈した250名(120名,130名)に適用した。 アルゴリズムの堅牢性を評価するために、我々はTOF-MRAデータ(93患者、20制御、125動脈瘤)のためのMICCAIチャレンジに参加しました。 当社のネットワークは、社内データで平均77%の感度を達成し、患者1人当たりの平均False Positive(FP)レートは0.72です。 その代わり、チャレンジデータでは、平均fpレート1.18で59%の感度を達成し、検出では7位/14位、オープンリーダーボードでは4位/11位となった。 破裂リスクに対する検出性能の計算では, 2つの危険群 (p = 0.12) の統計的差は認められなかったが, 危険動脈瘤に対する感受性は高く(78%)であった。 本手法は, 臨床に有用な感度を, 弱いラベルと先行解剖学的知識を用いて達成できることを示唆し, 時間とデータに制限のある病院への深層学習の可能性を広げるものである。

Supervised segmentation algorithms yield state-of-the-art results for automated anomaly detection. However, these models require voxel-wise labels which are time-consuming to draw for medical experts. An interesting alternative to voxel-wise annotations is the use of weak labels: these can be coarse or oversized annotations that are less precise, but considerably faster to create. In this work, we address the task of brain aneurysm detection by developing a fully automated, deep neural network that is trained utilizing oversized weak labels. Furthermore, since aneurysms mainly occur in specific anatomical locations, we build our model leveraging the underlying anatomy of the brain vasculature both during training and inference. We apply our model to 250 subjects (120 patients, 130 controls) who underwent Time-Of-Flight Magnetic Resonance Angiography (TOF-MRA) and presented a total of 154 aneurysms. To assess the robustness of the algorithm, we participated in a MICCAI challenge for TOF-MRA data (93 patients, 20 controls, 125 aneurysms) which allowed us to obtain results also for subjects coming from a different institution. Our network achieves an average sensitivity of 77% on our in-house data, with a mean False Positive (FP) rate of 0.72 per patient. Instead, on the challenge data, we attain a sensitivity of 59% with a mean FP rate of 1.18, ranking in 7th/14 position for detection and in 4th/11 for segmentation on the open leaderboard. When computing detection performances with respect to aneurysms' risk of rupture, we found no statistical difference between two risk groups (p = 0.12), although the sensitivity for dangerous aneurysms was higher (78%). Our approach suggests that clinically useful sensitivity can be achieved using weak labels and exploiting prior anatomical knowledge; this expands the feasibility of deep learning studies to hospitals that have limited time and data.
翻訳日:2021-03-12 10:12:30 公開日:2021-03-10
# (参考訳) 半緩和最適輸送のための高速ブロック座標Frank-Wolfeアルゴリズム

Fast block-coordinate Frank-Wolfe algorithm for semi-relaxed optimal transport ( http://arxiv.org/abs/2103.05857v1 )

ライセンス: CC BY 4.0
Takumi Fukunaga, Hiroyuki Kasai(参考訳) 空間的位置を考慮した2つの確率分布間の距離を提供する最適輸送(OT)が,幅広い応用に応用されている。 OT問題の計算には、厳密な質量保存制約を持つ線形プログラミングの解決が必要である。 この要求は大規模問題への適用を妨げる。 この問題を軽減するため、最近提案された relaxed-ot アプローチでは、そのような制約を緩和することでより高速なアルゴリズムを使用する。 実用上の有効性が実証されている。 それでも、収束は遅い。 この目的のために, 凸半相対型otに対処し, 分散解を与える高速ブロック座標frank-wolfe (bcfw) アルゴリズムを提案する。 具体的には、最悪の収束反復の上限と、線型化双対性ギャップとラグランジアン双対性ギャップの等価性を提供する。 bcfwの3つの高速変種も提案されている。 色伝達問題における数値的な評価は,提案アルゴリズムが異なる設定で最先端のアルゴリズムより優れていることを示す。

Optimal transport (OT), which provides a distance between two probability distributions by considering their spatial locations, has been applied to widely diverse applications. Computing an OT problem requires solution of linear programming with tight mass-conservation constraints. This requirement hinders its application to large-scale problems. To alleviate this issue, the recently proposed relaxed-OT approach uses a faster algorithm by relaxing such constraints. Its effectiveness for practical applications has been demonstrated. Nevertheless, it still exhibits slow convergence. To this end, addressing a convex semi-relaxed OT, we propose a fast block-coordinate Frank-Wolfe (BCFW) algorithm, which gives sparse solutions. Specifically, we provide their upper bounds of the worst convergence iterations, and equivalence between the linearization duality gap and the Lagrangian duality gap. Three fast variants of the proposed BCFW are also proposed. Numerical evaluations in color transfer problem demonstrate that the proposed algorithms outperform state-of-the-art algorithms across different settings.
翻訳日:2021-03-12 08:20:00 公開日:2021-03-10
# (参考訳) 重み付き有限オートマトンとしてコードされる自律行動の逆強化学習 [全文訳有]

Inverse Reinforcement Learning of Autonomous Behaviors Encoded as Weighted Finite Automata ( http://arxiv.org/abs/2103.05895v1 )

ライセンス: CC BY 4.0
Tianyu Wang, Nikolay Atanasov(参考訳) 本稿では,論理タスク仕様とコスト関数を実演から学習する手法を提案する。 線形時間論理(LTL)公式は、自律システムの複雑な目的や制約を表現するために広く用いられている。 しかし、このような仕様は手作業で構築するのは困難かもしれない。 その代わりに、時間的論理構造と遷移コストを自律エージェントによって推測する必要があるタスクの実行を実証する。 本稿では,タスクの未知論理構造を近似した重み付き有限オートマトン(WFA)の抽出にスペクトル学習手法を用いる。 その後、ハイレベルタスクガイダンスのためのWFAと低レベル制御のためのラベル付きマルコフ決定プロセス(L-MDP)の製品を定義し、実証者の行動に合わせたコスト関数を最適化する。 本手法は、推論されたタスク仕様の実行を新しい環境構成に一般化できることを実証する。

This paper presents a method for learning logical task specifications and cost functions from demonstrations. Linear temporal logic (LTL) formulas are widely used to express complex objectives and constraints for autonomous systems. Yet, such specifications may be challenging to construct by hand. Instead, we consider demonstrated task executions, whose temporal logic structure and transition costs need to be inferred by an autonomous agent. We employ a spectral learning approach to extract a weighted finite automaton (WFA), approximating the unknown logic structure of the task. Thereafter, we define a product between the WFA for high-level task guidance and a Labeled Markov decision process (L-MDP) for low-level control and optimize a cost function that matches the demonstrator's behavior. We demonstrate that our method is capable of generalizing the execution of the inferred task specification to new environment configurations.
翻訳日:2021-03-12 08:18:34 公開日:2021-03-10
# (参考訳) ダイナミクスの異なるエージェントによる不完全なデモンストレーションから学ぶ [全文訳有]

Learning from Imperfect Demonstrations from Agents with Varying Dynamics ( http://arxiv.org/abs/2103.05910v1 )

ライセンス: CC BY 4.0
Zhangjie Cao, Dorsa Sadigh(参考訳) 模倣学習は、ロボットがデモから学ぶことを可能にする。 以前の模倣学習アルゴリズムは、通常、最適な専門家のデモンストレーションへのアクセスを想定している。 しかし、多くの実世界のアプリケーションでは、この仮定は限定的です。 収集されたほとんどのデモンストレーションは最適ではなく、わずかに異なるダイナミクスを持つエージェントによって生成される。 したがって,実演が最適でない場合や,ダイナミックスが異なるエージェントから引き出される場合,模倣学習の問題に対処できる。 我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。 提案したスコアは、より情報的なデモンストレーションから学び、あまり関係のないデモを無視します。 シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。

Imitation learning enables robots to learn from demonstrations. Previous imitation learning algorithms usually assume access to optimal expert demonstrations. However, in many real-world applications, this assumption is limiting. Most collected demonstrations are not optimal or are produced by an agent with slightly different dynamics. We therefore address the problem of imitation learning when the demonstrations can be sub-optimal or be drawn from agents with varying dynamics. We develop a metric composed of a feasibility score and an optimality score to measure how useful a demonstration is for imitation learning. The proposed score enables learning from more informative demonstrations, and disregarding the less relevant demonstrations. Our experiments on four environments in simulation and on a real robot show improved learned policies with higher expected return.
翻訳日:2021-03-12 07:41:56 公開日:2021-03-10
# (参考訳) 地上の公平性:生産システムへのアルゴリズム公平性アプローチの適用 [全文訳有]

Fairness On The Ground: Applying Algorithmic Fairness Approaches to Production Systems ( http://arxiv.org/abs/2103.06172v1 )

ライセンス: CC BY 4.0
Chlo\'e Bakalar, Renata Barreto, Miranda Bogen, Sam Corbett-Davies, Melissa Hall, Isabel Kloumann, Michelle Lam, Joaquin Qui\~nonero Candela, Manish Raghavan, Joshua Simons, Jonathan Tannen, Edmund Tong, Kate Vredenburgh, Jiejing Zhao(参考訳) 機械学習システムによる決定が公平であることを保証するため、多くの技術的アプローチが提案されているが、実際のシステムでストレステストされているものはほとんどない。 本稿では,大規模技術企業のコンテキストにおいて,複雑な生産システムにアルゴリズムフェアネスアプローチを適用するという課題に対する,あるチームのアプローチの例を示す。 我々は,製品設計と政策設計の規範的問題(「システムの利害関係者の利益とニーズのトレードオフはどのようにあるべきか」など)をいかに切り離すかについて議論する。 システム実装の実証的な質問から("システムは実際に望ましいトレードオフを達成しているのか? また、後者の質問に答えるアプローチも提示し、機械学習システムと人間のラベラーがこれらのトレードオフを異なる関連グループでどのように行っているかを測定することができます。 私たちは、フェアネスツールとアプローチを大規模で複雑なプロダクションシステムに統合した経験が、同様の課題に直面している他の実践者にとって役に立つことを願っています。

Many technical approaches have been proposed for ensuring that decisions made by machine learning systems are fair, but few of these proposals have been stress-tested in real-world systems. This paper presents an example of one team's approach to the challenge of applying algorithmic fairness approaches to complex production systems within the context of a large technology company. We discuss how we disentangle normative questions of product and policy design (like, "how should the system trade off between different stakeholders' interests and needs?") from empirical questions of system implementation (like, "is the system achieving the desired tradeoff in practice?"). We also present an approach for answering questions of the latter sort, which allows us to measure how machine learning systems and human labelers are making these tradeoffs across different relevant groups. We hope our experience integrating fairness tools and approaches into large-scale and complex production systems will be useful to other practitioners facing similar challenges, and illuminating to academics and researchers looking to better address the needs of practitioners.
翻訳日:2021-03-12 07:09:25 公開日:2021-03-10
# (参考訳) 最大エントロピーRL(おそらく)はロバストなRL問題を解く [全文訳有]

Maximum Entropy RL (Provably) Solves Some Robust RL Problems ( http://arxiv.org/abs/2103.06257v1 )

ライセンス: CC BY 4.0
Benjamin Eysenbach and Sergey Levine(参考訳) 強化学習(RL)の潜在的な応用の多くは、エージェントが力学や報酬関数の障害に直面してうまく機能することを保証する必要がある。 本稿では,標準最大エントロピーRLが力学および報酬関数の障害に対して頑健であることを理論的に証明する。 MaxEnt RLのこの能力は、以前の作業で実証的に観察されていますが、私たちの知識を最大限に活用することは、MaxEnt RL堅牢なセットの最初の厳格な証明と理論的特徴付けを提供します。 従来のロバストなRLアルゴリズムは、報酬関数やダイナミックスと同様の障害を扱うように設計されているが、これらの手法は通常、ベースRLアルゴリズムの上に可動部とハイパーパラメータを追加する必要がある。 対照的に、我々の理論結果は MaxEnt RL 自体が特定の障害に対して堅牢であり、追加の修正を必要としないことを示唆している。 これは、MaxEnt RLが最高の堅牢なRL法であることを意味するわけではないが、MaxEnt RLは驚くほど単純で、形式的な保証を持っている。

Many potential applications of reinforcement learning (RL) require guarantees that the agent will perform well in the face of disturbances to the dynamics or reward function. In this paper, we prove theoretically that standard maximum entropy RL is robust to some disturbances in the dynamics and the reward function. While this capability of MaxEnt RL has been observed empirically in prior work, to the best of our knowledge our work provides the first rigorous proof and theoretical characterization of the MaxEnt RL robust set. While a number of prior robust RL algorithms have been designed to handle similar disturbances to the reward function or dynamics, these methods typically require adding additional moving parts and hyperparameters on top of a base RL algorithm. In contrast, our theoretical results suggest that MaxEnt RL by itself is robust to certain disturbances, without requiring any additional modifications. While this does not imply that MaxEnt RL is the best available robust RL method, MaxEnt RL does possess a striking simplicity and appealing formal guarantees.
翻訳日:2021-03-12 06:45:36 公開日:2021-03-10
# (参考訳) 非対称符号開口を用いたデフォーカスブラーのカーネルスケールと向きの推定 [全文訳有]

Learning to Estimate Kernel Scale and Orientation of Defocus Blur with Asymmetric Coded Aperture ( http://arxiv.org/abs/2103.05843v1 )

ライセンス: CC BY 4.0
Jisheng Li, Qi Dai, Jiangtao Wen(参考訳) 一貫したインフォーカス入力画像は、動的環境を知覚する機械ビジョンシステムにとって不可欠な前提条件です。 デフォーカスブラーは視覚システムの性能を著しく低下させる。 この問題に対処するために,デフォーカスブラーのカーネルスケールと向きを推定し,レンズ焦点を迅速に調整するディープラーニングベースのフレームワークを提案する。 パイプラインは,入力スタックから最適スライスを選択するために,可変数の入力仮説に対して3D ConvNetを利用する。 ランダムシャッフルとGumbel-softmaxを使用してネットワークパフォーマンスを改善します。 また, 様々な非対称符号化開口を有する合成デフォーカス画像を生成し, 訓練を容易にすることを提案する。 本フレームワークの有効性を実証するために実験を行った。

Consistent in-focus input imagery is an essential precondition for machine vision systems to perceive the dynamic environment. A defocus blur severely degrades the performance of vision systems. To tackle this problem, we propose a deep-learning-based framework estimating the kernel scale and orientation of the defocus blur to adjust lens focus rapidly. Our pipeline utilizes 3D ConvNet for a variable number of input hypotheses to select the optimal slice from the input stack. We use random shuffle and Gumbel-softmax to improve network performance. We also propose to generate synthetic defocused images with various asymmetric coded apertures to facilitate training. Experiments are conducted to demonstrate the effectiveness of our framework.
翻訳日:2021-03-12 05:59:57 公開日:2021-03-10
# (参考訳) 全方位ビデオのための新しいタイルセグメンテーション方式 [全文訳有]

Novel tile segmentation scheme for omnidirectional video ( http://arxiv.org/abs/2103.05858v1 )

ライセンス: CC BY 4.0
Jisheng Li, Ziyu Wen, Sihan Li, Yikai Zhao, Bichuan Guo, Jiangtao Wen(参考訳) 通常の全方位ビデオエンコーディング技術は、マッププロジェクションを使用して、球形から1つまたは複数の2D形状にシーンを平らにします。 等角射影や立方射影を含む一般的な投影法は、様々なレベルの補間を持ち、多くの非情報収集画素を生成し、無駄なビットレートをもたらす。 本論文では,従来の等角投影方式と比較して,最大28%の画素面積と20%のBDレートを平均的に節約できるタイル型全方位ビデオ分割方式を提案する。

Regular omnidirectional video encoding technics use map projection to flatten a scene from a spherical shape into one or several 2D shapes. Common projection methods including equirectangular and cubic projection have varying levels of interpolation that create a large number of non-information-carr ying pixels that lead to wasted bitrate. In this paper, we propose a tile based omnidirectional video segmentation scheme which can save up to 28% of pixel area and 20% of BD-rate averagely compared to the traditional equirectangular projection based approach.
翻訳日:2021-03-12 05:49:26 公開日:2021-03-10
# (参考訳) 空間的注意に基づく全方向画像の非参照知覚品質予測ネットワーク [全文訳有]

Spatial Attention-based Non-reference Perceptual Quality Prediction Network for Omnidirectional Images ( http://arxiv.org/abs/2103.06116v1 )

ライセンス: CC BY 4.0
Li Yang, Mai Xu, Deng Xin and Bo Feng(参考訳) 視覚的注意と知覚的品質の相関が強いため、画像品質評価にヒトの唾液情報を使用しようとする手法は多い。 このメカニズムは優れた性能を得ることができるが、ネットワークは、全方位画像(ODI)に容易にアクセスできない人間の唾液ラベルを必要とする。 この問題を軽減するために,ODI(SAP-net)の非参照品質評価のための空間的注意に基づく知覚品質予測ネットワークを提案する。 SAP-netを駆動するために,1,080 ODIに対して200人の被験者の主観的スコアからなる大規模IQAデータセット(IQA-ODI)を構築した。 IQA-ODIには120の高品質のODIと960のODIがあり、JPEG圧縮とマップ投影の両方に障害がある。 人間の敬礼ラベルがないと、ネットワークは自己照査によってodisの人間の知覚的品質を適応的に推定でき、それによって品質スコアの予測性能が著しく向上する。 さらに,本手法は,ODIにおける品質評価タスクの計算複雑性を大幅に低減する。 広範な実験は、当社のネットワークがODIの品質評価のための9つの最先端の方法を上回ることを検証します。 データセットとコードは \url{ https://github.com/y anglixiaoshen/SAP-Ne t} で入手できる。

Due to the strong correlation between visual attention and perceptual quality, many methods attempt to use human saliency information for image quality assessment. Although this mechanism can get good performance, the networks require human saliency labels, which is not easily accessible for omnidirectional images (ODI). To alleviate this issue, we propose a spatial attention-based perceptual quality prediction network for non-reference quality assessment on ODIs (SAP-net). To drive our SAP-net, we establish a large-scale IQA dataset of ODIs (IQA-ODI), which is composed of subjective scores of 200 subjects on 1,080 ODIs. In IQA-ODI, there are 120 high quality ODIs as reference, and 960 ODIs with impairments in both JPEG compression and map projection. Without any human saliency labels, our network can adaptively estimate human perceptual quality on impaired ODIs through a self-attention manner, which significantly promotes the prediction performance of quality scores. Moreover, our method greatly reduces the computational complexity in quality assessment task on ODIs. Extensive experiments validate that our network outperforms 9 state-of-the-art methods for quality assessment on ODIs. The dataset and code have been available on \url{ https://github.com/y anglixiaoshen/SAP-Ne t}.
翻訳日:2021-03-12 05:41:43 公開日:2021-03-10
# (参考訳) 動的ポース推定 [全文訳有]

Dynamical Pose Estimation ( http://arxiv.org/abs/2103.06182v1 )

ライセンス: CC BY 4.0
Heng Yang, Chris Doran, Jean-Jacques Slotine(参考訳) 既知の対応を与えられた2組の3次元幾何学的プリミティブを整列する問題を研究する。 最初の貢献は、このプリミティブアライメントフレームワークが、ポイントクラウド登録、プリミティブ(mesh)登録、カテゴリレベルの3D登録、アブソリューションポーズ推定(APE)、カテゴリレベルのAPEを含む5つの認識問題を統一することを示しています。 第2の貢献は、仮想ばねと減衰に起因する剛体力学をシミュレートすることで、プリミティブアライメント問題を解決するための、最初の汎用的で実用的なアルゴリズムであるDynAMical Pose Estimation (DAMP)を提案することである。 3つ目の貢献は、シミュレーションおよび実データにおける5つの知覚問題にDAMPを適用し、(i)DAMPが3D-3D対応を持つ最初の3つの問題において常に大域最適解に収束することを示し、(ii)DAMPは2D-3D対応を持つ最後の2つの問題において最適解に収束するが、DAMPは局所ミニマをエスケープするための単純なスキームで、ほとんど常に成功する。 我々の最後の貢献は、基礎となる力学系の平衡点の局所的な安定性を特徴付けることにより、DAMPの驚くべき経験的性能を解明し、点雲登録の際の大域収束結果を正式に証明することである。

We study the problem of aligning two sets of 3D geometric primitives given known correspondences. Our first contribution is to show that this primitive alignment framework unifies five perception problems including point cloud registration, primitive (mesh) registration, category-level 3D registration, absolution pose estimation (APE), and category-level APE. Our second contribution is to propose DynAMical Pose estimation (DAMP), the first general and practical algorithm to solve primitive alignment problem by simulating rigid body dynamics arising from virtual springs and damping, where the springs span the shortest distances between corresponding primitives. Our third contribution is to apply DAMP to the five perception problems in simulated and real datasets and demonstrate (i) DAMP always converges to the globally optimal solution in the first three problems with 3D-3D correspondences; (ii) although DAMP sometimes converges to suboptimal solutions in the last two problems with 2D-3D correspondences, with a simple scheme for escaping local minima, DAMP almost always succeeds. Our last contribution is to demystify the surprising empirical performance of DAMP and formally prove a global convergence result in the case of point cloud registration by charactering local stability of the equilibrium points of the underlying dynamical system.
翻訳日:2021-03-12 05:29:18 公開日:2021-03-10
# (参考訳) 抽象パターン学習と言語モデリングのためのニューラルネットワークにおける関係重み付け [全文訳有]

Relational Weight Priors in Neural Networks for Abstract Pattern Learning and Language Modelling ( http://arxiv.org/abs/2103.06198v1 )

ライセンス: CC BY 4.0
Radha Kopparti and Tillman Weyde(参考訳) ディープニューラルネットワークは自然言語処理(NLP)における主要なアプローチとなっている。 しかし近年,NLPにおける深層学習の性能とデータ効率を抑える体系性に欠点があることが明らかになっている。 これらの欠点は、主に合成データに基づいて、低レベルの人工タスクで明確に示される。 抽象パターンは、見えないデータに対する一般化の観点から、ニューラルネットワークにとって難しい問題の最もよく知られた例である。 それらは価値ではなく、平等のような項目間の関係によって定義される。 これらの低レベル問題は、ニューラルネットワークが体系的に学習できないことを示しています。 本研究では,抽象パターンの等価性と距離関係の学習を促進する関係誘導バイアスを作成するための新しい方法として,組み込み関係に基づくパターン(ERBP)を提案する。 ERBPはRelation Based Patterns(RBP)をベースにしているが、ネットワーク重み付けの前にベイジアンとしてモデル化され、標準のネットワーク学習で正規化用語として実装されている。 ERBPは標準的なニューラルネットワークに簡単に統合でき、学習能力に影響を与えない。 我々の実験では、ERBPの先行は合成ノイズのない配列から抽象パターンを学習する際にほぼ完全に一般化される。 ERBPはまた、RNN、GRU、LSTMネットワークによるメロディーにおける単語と文字レベルの自然言語モデルとピッチ予測を改善します。 また,グラフ編集距離の学習や文の補足など,より複雑な作業でも改善が見られた。 ERBPは、RBPや標準ネットワークよりも一貫して改善されており、自然言語タスクのパフォーマンスに寄与する抽象パターン学習を可能にしている。

Deep neural networks have become the dominant approach in natural language processing (NLP). However, in recent years, it has become apparent that there are shortcomings in systematicity that limit the performance and data efficiency of deep learning in NLP. These shortcomings can be clearly shown in lower-level artificial tasks, mostly on synthetic data. Abstract patterns are the best known examples of a hard problem for neural networks in terms of generalisation to unseen data. They are defined by relations between items, such as equality, rather than their values. It has been argued that these low-level problems demonstrate the inability of neural networks to learn systematically. In this study, we propose Embedded Relation Based Patterns (ERBP) as a novel way to create a relational inductive bias that encourages learning equality and distance-based relations for abstract patterns. ERBP is based on Relation Based Patterns (RBP), but modelled as a Bayesian prior on network weights and implemented as a regularisation term in otherwise standard network learning. ERBP is is easy to integrate into standard neural networks and does not affect their learning capacity. In our experiments, ERBP priors lead to almost perfect generalisation when learning abstract patterns from synthetic noise-free sequences. ERBP also improves natural language models on the word and character level and pitch prediction in melodies with RNN, GRU and LSTM networks. We also find improvements in in the more complex tasks of learning of graph edit distance and compositional sentence entailment. ERBP consistently improves over RBP and over standard networks, showing that it enables abstract pattern learning which contributes to performance in natural language tasks.
翻訳日:2021-03-12 01:59:29 公開日:2021-03-10
# (参考訳) AutoDO: スケーラブル確率的暗黙差分法によるラベルノイズ付きバイアスデータに対するロバスト自動拡張 [全文訳有]

AutoDO: Robust AutoAugment for Biased Data with Label Noise via Scalable Probabilistic Implicit Differentiation ( http://arxiv.org/abs/2103.05863v1 )

ライセンス: CC BY 4.0
Denis Gudovskiy, Luca Rigazio, Shun Ishizaka, Kazuki Kozuka, Sotaro Tsukizawa(参考訳) AutoAugmentはディープラーニングモデルに対する自動拡張手法への関心を呼び起こした。 これらの手法は、テストデータの一般化を改善する列車データに対する画像変換ポリシーを推定する。 政策探索の複雑さを減少させる方向に進化した最近の論文では、偏りやノイズのあるデータに適用した場合、これらの手法が堅牢でないことが示されている。 これらの制限を克服するために、テストデータと歪んだ列車データセット間の分布シフトを最小限に抑える、汎用自動データセット最適化(AutoDO)タスクとしてAutoAugmentを再構成します。 autodoモデルでは,ポイント毎のハイパーパラメータの集合を明示的に推定し,列車データの分布を柔軟に変化させる。 特に、強調、損失重み、および暗黙の微分を用いて共同で推定されるソフトラベルのためのハイパーパラメータを含む。 本研究では,fisher情報を用いた理論的な確率論的解釈を行い,その複雑性がデータセットサイズと線形にスケールすることを示す。 SVHN, CIFAR-10/100, ImageNet分類に関する実験では,従来の方法と比較して,ラベルノイズの偏りのあるデータセットの9.3%の改善と,低表現のSVHNクラスに対する36.6%の利得を示した。

AutoAugment has sparked an interest in automated augmentation methods for deep learning models. These methods estimate image transformation policies for train data that improve generalization to test data. While recent papers evolved in the direction of decreasing policy search complexity, we show that those methods are not robust when applied to biased and noisy data. To overcome these limitations, we reformulate AutoAugment as a generalized automated dataset optimization (AutoDO) task that minimizes the distribution shift between test data and distorted train dataset. In our AutoDO model, we explicitly estimate a set of per-point hyperparameters to flexibly change distribution of train data. In particular, we include hyperparameters for augmentation, loss weights, and soft-labels that are jointly estimated using implicit differentiation. We develop a theoretical probabilistic interpretation of this framework using Fisher information and show that its complexity scales linearly with the dataset size. Our experiments on SVHN, CIFAR-10/100, and ImageNet classification show up to 9.3% improvement for biased datasets with label noise compared to prior methods and, importantly, up to 36.6% gain for underrepresented SVHN classes.
翻訳日:2021-03-12 01:30:52 公開日:2021-03-10
# (参考訳) MixMo: ディープサブネットによる複数の出力に対する複数の入力の混合 [全文訳有]

MixMo: Mixing Multiple Inputs for Multiple Outputs via Deep Subnetworks ( http://arxiv.org/abs/2103.06132v1 )

ライセンス: CC BY 4.0
Alexandre Rame, Remy Sun, Matthieu Cord(参考訳) 最近の戦略は、単一のベースネットワーク内に同時に多様なサブネットワークを組み込むことによって、無料でアンサンブルを実現した。 トレーニング中の主なアイデアは、各サブネットワークが同時に提供される複数の入力の1つだけを分類することを学ぶことです。 しかし、これらの複数の入力をどのように混合すべきかという疑問はまだ研究されていない。 本稿では,マルチインプットマルチアウトプット深層サブネットワーク学習のための新たな汎用フレームワークであるMixMoについて紹介する。 我々の主要な動機は、より適切な混合機構により、従来のアプローチに隠された最適下総和演算を置き換えることである。 そのためには、混合サンプルデータ強化の成功からインスピレーションを得ます。 機能、特にCutMixのパッチによるバイナリミキシングは、サブネットをより強く、より多様なものにすることによって、結果を向上します。 CIFAR-100およびTiny-ImageNet分類データセットの最新技術を改善します。 実装が容易で、推論にコストがかかることに加えて、我々のモデルはよりコストの高いデータ拡張深層アンサンブルよりも優れています。 我々は,従来の研究を補完する新たな研究ラインをオープンし,機能的に運用し,大規模ネットワークの表現性を向上する。

Recent strategies achieved ensembling for free by fitting concurrently diverse subnetworks inside a single base network. The main idea during training is that each subnetwork learns to classify only one of the multiple inputs simultaneously provided. However, the question of how these multiple inputs should be mixed has not been studied yet. In this paper, we introduce MixMo, a new generalized framework for learning multi-input multi-output deep subnetworks. Our key motivation is to replace the suboptimal summing operation hidden in previous approaches by a more appropriate mixing mechanism. For that purpose, we draw inspiration from successful mixed sample data augmentations. We show that binary mixing in features - particularly with patches from CutMix - enhances results by making subnetworks stronger and more diverse. We improve state of the art on the CIFAR-100 and Tiny-ImageNet classification datasets. In addition to being easy to implement and adding no cost at inference, our models outperform much costlier data augmented deep ensembles. We open a new line of research complementary to previous works, as we operate in features and better leverage the expressiveness of large networks.
翻訳日:2021-03-12 01:07:47 公開日:2021-03-10
# (参考訳) 重要重量のマルチキャリブレーション分割 [全文訳有]

Multicalibrated Partitions for Importance Weights ( http://arxiv.org/abs/2103.05853v1 )

ライセンス: CC BY 4.0
Parikshit Gopalan, Omer Reingold, Vatsal Sharan, Udi Wieder(参考訳) 2つの分布が$R$と$P$をポイントに与える確率の比率は、重み付けまたは確率スコアとして知られ、多くの異なる分野、特に統計学と機械学習において基本的な役割を果たす。 その応用中、重要度重みはドメイン適応、異常検出、klダイバージェンスのような様々な多様性の推定の中心である。 私たちは、$R$と$P$が各ディストリビューションのサンプルからのみ与えられる共通の設定を検討します。 重みの見積に関する膨大な文献は、ヒューリスティックなものか、R$とP$に関する強い仮定、あるいは重要性の重みそのものに関するものである。 本稿では,重要度重みの推定に対する計算的視点を考察し,境界のある計算資源で得られる限界と可能性の要因について考察する。 我々は MaxEntropy アプローチを用いた以前の研究を大幅に強化し、$Q$ を$P$ に最も近い分布で定義し、これはすべての集合 $C \in \mathcal{C}$ に対して$R$ と同じように見えるが、$\mathcal{C}$ は集合の巨大な集合であるかもしれない。 マックスエントロピー法は、集合の基底真理重みの平均が明らかに大きい場合でも、$C \in \mathcal{C}$の集合に高い平均スコアを割り当てることに失敗することを示した。 同様に、平均スコアは$C \in \mathcal{C}$と過大評価される可能性がある。 したがって、サンドウィッチ境界を重み付けのセットワイズ精度の概念として定式化する。 これらの境界について検討し,重みから自然完全性と音質要件を捉えた。 標準学習可能性仮定の下でこれらの境界を満たす重みを計算する効率的なアルゴリズムを提案する。 我々の手法は、分布の領域の多重校正分割という新しい概念に依存しており、これはそれ自体が有用であるように見える。

The ratio between the probability that two distributions $R$ and $P$ give to points $x$ are known as importance weights or propensity scores and play a fundamental role in many different fields, most notably, statistics and machine learning. Among its applications, importance weights are central to domain adaptation, anomaly detection, and estimations of various divergences such as the KL divergence. We consider the common setting where $R$ and $P$ are only given through samples from each distribution. The vast literature on estimating importance weights is either heuristic, or makes strong assumptions about $R$ and $P$ or on the importance weights themselves. In this paper, we explore a computational perspective to the estimation of importance weights, which factors in the limitations and possibilities obtainable with bounded computational resources. We significantly strengthen previous work that use the MaxEntropy approach, that define the importance weights based on a distribution $Q$ closest to $P$, that looks the same as $R$ on every set $C \in \mathcal{C}$, where $\mathcal{C}$ may be a huge collection of sets. We show that the MaxEntropy approach may fail to assign high average scores to sets $C \in \mathcal{C}$, even when the average of ground truth weights for the set is evidently large. We similarly show that it may overestimate the average scores to sets $C \in \mathcal{C}$. We therefore formulate Sandwiching bounds as a notion of set-wise accuracy for importance weights. We study these bounds to show that they capture natural completeness and soundness requirements from the weights. We present an efficient algorithm that under standard learnability assumptions computes weights which satisfy these bounds. Our techniques rely on a new notion of multicalibrated partitions of the domain of the distributions, which appear to be useful objects in their own right.
翻訳日:2021-03-12 00:38:51 公開日:2021-03-10
# (参考訳) 深部ニューラルネットワークの一般化予測に対するロバスト性 [全文訳有]

Robustness to Pruning Predicts Generalization in Deep Neural Networks ( http://arxiv.org/abs/2103.06002v1 )

ライセンス: CC BY 4.0
Lorenz Kuhn, Clare Lyle, Aidan N. Gomez, Jonas Rothfuss, Yarin Gal(参考訳) パラメータ数やノルムに基づいてモデルの単純さを捉えることを目的とした既存の一般化尺度は、過剰パラメータのディープニューラルネットワークにおける一般化の説明に失敗している。 本論文では, ネットワークの単純性について, 理論的に動機づけた新たな尺度について紹介する。prunability: the minimum \emph{fraction} of the network's parameters that can keep while pruning without affectly influence its training loss. ネットワークパラメータの最小の \emph{fraction} と呼ぶ。 本手法は,CIFAR-10で訓練された大規模な畳み込みネットワーク上でのモデルの一般化性能を高い精度で予測し,既存のプルーニングベース手法と異なりネットワークサイズで成長せず,特に困難な二重降下条件下でもテストセットの損失と高い相関性を示す。 最後に, プルーナビリティの成功は, モデルマージン, ミニマの平坦度, 最適化速度に基づく既知の複雑性尺度との関係から説明できないこと, 新たな尺度が既存の平坦度に基づく尺度と類似していること, および, その予測が他のベースラインと低い相互情報を示すことを明らかにする。

Existing generalization measures that aim to capture a model's simplicity based on parameter counts or norms fail to explain generalization in overparameterized deep neural networks. In this paper, we introduce a new, theoretically motivated measure of a network's simplicity which we call prunability: the smallest \emph{fraction} of the network's parameters that can be kept while pruning without adversely affecting its training loss. We show that this measure is highly predictive of a model's generalization performance across a large set of convolutional networks trained on CIFAR-10, does not grow with network size unlike existing pruning-based measures, and exhibits high correlation with test set loss even in a particularly challenging double descent setting. Lastly, we show that the success of prunability cannot be explained by its relation to known complexity measures based on models' margin, flatness of minima and optimization speed, finding that our new measure is similar to -- but more predictive than -- existing flatness-based measures, and that its predictions exhibit low mutual information with those of other baselines.
翻訳日:2021-03-11 23:04:23 公開日:2021-03-10
# (参考訳) 区分的線形回帰と分類

Piecewise linear regression and classification ( http://arxiv.org/abs/2103.06189v1 )

ライセンス: CC BY 4.0
Alberto Bemporad(参考訳) 本論文では,特徴空間の多面分割上の片方向線形予測器を用いた多変量回帰と分類問題の解法を提案する。 PARC (Piecewise Affine Regression and Classification) と呼ばれる結果のアルゴリズムは, (i) 数値目標のリッジ回帰問題, (i) カテゴリー目標のソフトマックス回帰問題, (ii) 線形分離のソフトマックス回帰あるいはクラスタセントロイド計算, (ii) 予測精度と分割性のバランスをとる基準に基づいて, 異なるクラスタにトレーニングポイントを割り当てることとを交互に行う。 PARCは、適切に構築された客観的関数を最適化するブロックコーディネート下降アルゴリズムであり、有限個のステップでその関数の局所最小値に収束することを証明する。 アルゴリズムの精度は、合成および実世界のデータセット上で数値的に検証され、この手法は、得られた予測子を最適化モデルの一部として使用する場合に特に有用である線形回帰/分類の拡張を提供することを示す。 この論文で説明されているアルゴリズムのPython実装はhttp://cse.lab.imtlu cca.it/~bemporad/par c で入手できる。

This paper proposes a method for solving multivariate regression and classification problems using piecewise linear predictors over a polyhedral partition of the feature space. The resulting algorithm that we call PARC (Piecewise Affine Regression and Classification) alternates between (i) solving ridge regression problems for numeric targets, softmax regression problems for categorical targets, and either softmax regression or cluster centroid computation for piecewise linear separation, and (ii) assigning the training points to different clusters on the basis of a criterion that balances prediction accuracy and piecewise-linear separability. We prove that PARC is a block-coordinate descent algorithm that optimizes a suitably constructed objective function, and that it converges in a finite number of steps to a local minimum of that function. The accuracy of the algorithm is extensively tested numerically on synthetic and real-world datasets, showing that the approach provides an extension of linear regression/classific ation that is particularly useful when the obtained predictor is used as part of an optimization model. A Python implementation of the algorithm described in this paper is available at http://cse.lab.imtlu cca.it/~bemporad/par c .
翻訳日:2021-03-11 22:39:38 公開日:2021-03-10
# (参考訳) 深層ニューラルネットワークの一般化と平坦性が相関する理由 [全文訳有]

Why Flatness Correlates With Generalization For Deep Neural Networks ( http://arxiv.org/abs/2103.06219v1 )

ライセンス: CC BY 4.0
Shuofeng Zhang, Isaac Reid, Guillermo Valle P\'erez, Ard Louis(参考訳) ロスランドスケープの局所平坦性は、ディープニューラルネットワーク(DNN)のより良い一般化と相関しており、多くの異なる局所平坦度尺度を生み出している。 ここでは、これらの測度は、局所的な大域的性質への近似であり、パラメータの集合の体積が特定の関数にマッピングされるため、一般化と相関する。 このグローバルボリュームは、初期化前にベイズ人と同等です。 テストセットでゼロ誤差を与える関数の場合、それは直接ベイズ後部に比例し、体積は平坦性よりも一般化のより堅牢で理論的に根拠付き予測器である。 パラメータ再スケーリングの下で平坦度測定は失敗するが、体積は不変であり、したがって一般化とよく相関している。 さらに、SGDの変種は平坦性一般化相関を破りうるが、体積一般化相関はそのままである。

The intuition that local flatness of the loss landscape is correlated with better generalization for deep neural networks (DNNs) has been explored for decades, spawning many different local flatness measures. Here we argue that these measures correlate with generalization because they are local approximations to a global property, the volume of the set of parameters mapping to a specific function. This global volume is equivalent to the Bayesian prior upon initialization. For functions that give zero error on a test set, it is directly proportional to the Bayesian posterior, making volume a more robust and theoretically better grounded predictor of generalization than flatness. Whilst flatness measures fail under parameter re-scaling, volume remains invariant and therefore continues to correlate well with generalization. Moreover, some variants of SGD can break the flatness-generalizat ion correlation, while the volume-generalizatio n correlation remains intact.
翻訳日:2021-03-11 22:38:20 公開日:2021-03-10
# (参考訳) BIKED: データ駆動自転車設計のためのデータセットと機械学習ベンチマーク [全文訳有]

BIKED: A Dataset and Machine Learning Benchmarks for Data-Driven Bicycle Design ( http://arxiv.org/abs/2103.05844v1 )

ライセンス: CC BY 4.0
Lyle Regenwetter, Brent Curry, Faez Ahmed(参考訳) 本論文では,数百人のデザイナーが設計した自転車モデル4500点からなるデータセット「BIKED」について述べる。 自転車用のさまざまなデータ駆動設計アプリケーションを可能にし、一般的にデータ駆動設計方法の開発をサポートすると私たちは期待している。 データセットは、アセンブリイメージ、コンポーネントイメージ、数値設計パラメータ、クラスラベルを含む、さまざまな設計情報で構成されている。 本稿ではまず,データセットの処理について論じ,提供される各種特徴について述べる。 次に、教師なしクラスタリング研究を用いて、データのスケール、多様性、構造を説明します。 次に、さまざまなデータ駆動アプリケーションを調べます。 異なるトレーニングデータに基づいて訓練された10アルゴリズムのベースライン分類性能を提供する。 次に、パラメトリックデータ、画像データ、およびこれら2つの組み合わせを用いた3つのディープニューラルネットワークの分類性能を対比する。 訓練された分類モデルの1つを使用して、特定の設計パラメータが分類予測に影響を与える範囲をよりよく理解するために、Shapley Additive Explanations Analysisを実施します。 次に,画像とパラメトリックデータで学習した2つの変分オートエンコーダ(vaes)を用いて,自転車の再構成と設計合成をテストした。 さらに、元のパラメータ空間における補間タスクと外挿タスクのパフォーマンスと、VAEの潜入空間とを対比する。 最後に、この論文で積極的に検討された数を超える他のアプリケーションのためのいくつかのエキサイティングな可能性を議論し、データセットの全体的な長所と短所を要約します。

In this paper, we present "BIKED," a dataset comprised of 4500 individually designed bicycle models sourced from hundreds of designers. We expect BIKED to enable a variety of data-driven design applications for bicycles and generally support the development of data-driven design methods. The dataset is comprised of a variety of design information including assembly images, component images, numerical design parameters, and class labels. In this paper, we first discuss the processing of the dataset and present the various features provided. We then illustrate the scale, variety, and structure of the data using several unsupervised clustering studies. Next, we explore a variety of data-driven applications. We provide baseline classification performance for 10 algorithms trained on differing amounts of training data. We then contrast classification performance of three deep neural networks using parametric data, image data, and a combination of the two. Using one of the trained classification models, we conduct a Shapley Additive Explanations Analysis to better understand the extent to which certain design parameters impact classification predictions. Next, we test bike reconstruction and design synthesis using two Variational Autoencoders (VAEs) trained on images and parametric data. We furthermore contrast the performance of interpolation and extrapolation tasks in the original parameter space and the latent space of a VAE. Finally, we discuss some exciting possibilities for other applications beyond the few actively explored in this paper and summarize overall strengths and weaknesses of the dataset.
翻訳日:2021-03-11 20:10:57 公開日:2021-03-10
# (参考訳) 半離散最適輸送:硬さ, 規則化, 数値解

Semi-Discrete Optimal Transport: Hardness, Regularization and Numerical Solution ( http://arxiv.org/abs/2103.06263v1 )

ライセンス: CC BY 4.0
Bahar Taskesen, Soroosh Shafieezadeh-Abadeh, Daniel Kuhn(参考訳) 離散的(おそらく非離散的)確率測度の間のワッサースタイン距離を評価する半離散的最適輸送問題は計算的に難しいと考えられている。 しかし、そのような問題は統計学、機械学習、コンピュータビジョンにおいて普遍的であるが、この認識は理論的な正当化を受けていない。 このギャップを埋めるために、2つの点で支持される離散確率測度と標準ハイパーキューブ上のルベーグ測度とのワッサーシュタイン距離の計算は既に#Pハードであることを示す。 この知見は,半離散的最適輸送問題に対する近似解を求めるきっかけとなる。 そこで我々は,不明瞭な確率分布に支配される付加的外乱による輸送コストを乱し,対象関数が与えられたあいまいさ集合内から最も悪質な外乱分布で滑らかになるような分布的に頑健な双対輸送問題を導入する。 さらに、双対目的関数の平滑化は主目的関数の正則化と等価であることを示し、いくつかの既知の新しい正則化スキームを生み出す曖昧性集合を同定する。 副産物として, 半離散的最適輸送問題と, 伝統的に心理学や経済学で研究されてきた離散的選択モデルとの関係を見出した。 正規化最適輸送問題を効率的に解くために,不正確な確率的勾配オラクルを用いた確率的勾配降下アルゴリズムを用いる。 新しい収束解析により、このアルゴリズムは、エントロピー正規化器による半離散最適輸送問題に対する既知の収束保証を改善することが明らかになった。

Semi-discrete optimal transport problems, which evaluate the Wasserstein distance between a discrete and a generic (possibly non-discrete) probability measure, are believed to be computationally hard. Even though such problems are ubiquitous in statistics, machine learning and computer vision, however, this perception has not yet received a theoretical justification. To fill this gap, we prove that computing the Wasserstein distance between a discrete probability measure supported on two points and the Lebesgue measure on the standard hypercube is already #P-hard. This insight prompts us to seek approximate solutions for semi-discrete optimal transport problems. We thus perturb the underlying transportation cost with an additive disturbance governed by an ambiguous probability distribution, and we introduce a distributionally robust dual optimal transport problem whose objective function is smoothed with the most adverse disturbance distributions from within a given ambiguity set. We further show that smoothing the dual objective function is equivalent to regularizing the primal objective function, and we identify several ambiguity sets that give rise to several known and new regularization schemes. As a byproduct, we discover an intimate relation between semi-discrete optimal transport problems and discrete choice models traditionally studied in psychology and economics. To solve the regularized optimal transport problems efficiently, we use a stochastic gradient descent algorithm with imprecise stochastic gradient oracles. A new convergence analysis reveals that this algorithm improves the best known convergence guarantee for semi-discrete optimal transport problems with entropic regularizers.
翻訳日:2021-03-11 19:58:58 公開日:2021-03-10
# (参考訳) コントラスト損失による自律運転のためのドメイン非依存視覚表現の学習 [全文訳有]

Learning a Domain-Agnostic Visual Representation for Autonomous Driving via Contrastive Loss ( http://arxiv.org/abs/2103.05902v1 )

ライセンス: CC BY 4.0
Dongseok Shim and H. Jin Kim(参考訳) ディープニューラルネットワークは、セマンティックセグメンテーションや深さ推定などの自動運転アプリケーションで広く研究されている。 しかし、教師ありの方法でニューラルネットワークをトレーニングするには、大量の注釈付きラベルが必要となる。 近年,仮想環境から収集した合成データは,実世界のデータに比べて取得が容易で,精度も高いが,ドメインシフト問題による一般化が不十分であることが多い。 本論文では,2段階の非監視領域適応フレームワークであるDACL(Domain-Agnostic Contrastive Learning)を提案する。 DACLは、トレーニングとテストデータ分布の違いがある場合、ドメインに依存しない表現を学習してパフォーマンスの劣化を克服する。 提案手法は,従来の最先端手法と比較して単眼深度推定タスクの性能が向上し,セマンティックセグメンテーションタスクの有効性を示す。

Deep neural networks have been widely studied in autonomous driving applications such as semantic segmentation or depth estimation. However, training a neural network in a supervised manner requires a large amount of annotated labels which are expensive and time-consuming to collect. Recent studies leverage synthetic data collected from a virtual environment which are much easier to acquire and more accurate compared to data from the real world, but they usually suffer from poor generalization due to the inherent domain shift problem. In this paper, we propose a Domain-Agnostic Contrastive Learning (DACL) which is a two-stage unsupervised domain adaptation framework with cyclic adversarial training and contrastive loss. DACL leads the neural network to learn domain-agnostic representation to overcome performance degradation when there exists a difference between training and test data distribution. Our proposed approach achieves better performance in the monocular depth estimation task compared to previous state-of-the-art methods and also shows effectiveness in the semantic segmentation task.
翻訳日:2021-03-11 19:57:43 公開日:2021-03-10
# (参考訳) 対称性とAI [全文訳有]

Symmetry meets AI ( http://arxiv.org/abs/2103.06115v1 )

ライセンス: CC BY 4.0
Gabriela Barenboim, Johannes Hirn and Veronica Sanz(参考訳) ニューラルネットワーク(NN)が、タスクの実行を学ぶ際に対称性の存在を発見できるかどうかを探索する。 このため、適切に制御された物理テンプレートに基づいて数百個のNNを訓練し、対称性の情報は提供されない。 これらのNNの最後に隠された層からの出力を対称性分類タスクの入力として、より少ない次元に投影し、対称性に関する情報が誘導なしで元のNNによって識別されたことを示す。 この手順の学際的な適用として、我々はピカソ、ポロック、ヴァンゴッホなどの異なるスタイルの芸術絵画における対称性の存在とレベルを特定します。

We explore whether Neural Networks (NNs) can {\it discover} the presence of symmetries as they learn to perform a task. For this, we train hundreds of NNs on a {\it decoy task} based on well-controlled Physics templates, where no information on symmetry is provided. We use the output from the last hidden layer of all these NNs, projected to fewer dimensions, as the input for a symmetry classification task, and show that information on symmetry had indeed been identified by the original NN without guidance. As an interdisciplinary application of this procedure, we identify the presence and level of symmetry in artistic paintings from different styles such as those of Picasso, Pollock and Van Gogh.
翻訳日:2021-03-11 19:42:29 公開日:2021-03-10
# (参考訳) インターネットマーケットプレイスにおけるグローバル推論の効率的なアルゴリズム [全文訳有]

Efficient Algorithms for Global Inference in Internet Marketplaces ( http://arxiv.org/abs/2103.05277v2 )

ライセンス: CC BY 4.0
Rohan Ramanath, Sathiya Keerthi, Yao Pan, Konstantin Salomatin, Kinjal Basu(参考訳) インターネット市場(eコマース、ライドシェアリング、フードデリバリー、プロフェッショナルサービス、広告)における需要と供給のマッチングは、(数百万の)結合制約と(最大10億の)非結合ポリトープ制約を持つリニアプログラム(lp)として定式化できるグローバルな推論問題である。 近年まで、LP定式化によるWebスケールデータにおけるそのような問題の解決は難しかった。 最近の研究(basu et al., 2020)は、ポリトープの制約が単純である場合にそのような問題を解決するために二重分解に基づくアプローチを開発した。 この研究では、これらの単純なポリトープを超えて、より複雑な構造化されたポリトープ制約を必要とする現実世界のインターネットマーケットプレイスを示す必要性を動機付けます。 我々は、グローバルな推論問題に広く適用可能な新しいアルゴリズムにより、近年の文献を拡大する。 任意のポリトープに投影するポリトープ上の解の性質に関する理論的知見を用いて,効率的なインクリメンタルアルゴリズムを導出し,性能の大幅な向上を示す。 より優れた最適化ルーチンと適応アルゴリズムを使用して、目的の滑らかさを制御し、ソリューションの速度をさらに向上させます。 Webスケールマーケットプレイスデータを用いた実験結果から,本手法の有効性について紹介する。

Matching demand to supply in internet marketplaces (e-commerce, ride-sharing, food delivery, professional services, advertising) is a global inference problem that can be formulated as a Linear Program (LP) with (millions of) coupling constraints and (up to a billion) non-coupling polytope constraints. Until recently, solving such problems on web-scale data with an LP formulation was intractable. Recent work (Basu et al., 2020) developed a dual decomposition-based approach to solve such problems when the polytope constraints are simple. In this work, we motivate the need to go beyond these simple polytopes and show real-world internet marketplaces that require more complex structured polytope constraints. We expand on the recent literature with novel algorithms that are more broadly applicable to global inference problems. We derive an efficient incremental algorithm using a theoretical insight on the nature of solutions on the polytopes to project onto any arbitrary polytope, that shows massive improvements in performance. Using better optimization routines along with an adaptive algorithm to control the smoothness of the objective, improves the speed of the solution even further. We showcase the efficacy of our approach via experimental results on web-scale marketplace data.
翻訳日:2021-03-11 19:33:50 公開日:2021-03-10
# (参考訳) BASAR:ブラックボックス攻撃による骨格的行動認識 [全文訳有]

BASAR:Black-box Attack on Skeletal Action Recognition ( http://arxiv.org/abs/2103.05266v2 )

ライセンス: CC BY 4.0
Yunfeng Diao and Tianjia Shao and Yong-Liang Yang and Kun Zhou and He Wang(参考訳) 骨格運動は、独立したデータソースまたは補完として人間の活動認識に重要な役割を果たします。 骨格に基づく活動認識器の堅牢性は近年疑問視されており、認識器の完全知識が攻撃者にアクセス可能な場合、敵攻撃に対して脆弱であることが示されている。 しかし、このホワイトボックス要件はたいていのシナリオでは過度に制限され、攻撃は真の脅威ではない。 本稿では,そのような脅威がブラックボックスの設定下でも存在することを示す。 そこで本研究では,最初のブラックボックス対人攻撃法BASARを提案する。 BASAR を通じて、敵対的攻撃は真に脅威であるだけでなく、非常に詐欺的であることを示す。なぜなら、対逆的サンプルは非多様体のみが存在するという共通の信念とは対照的に、オンマニホールド敵対的サンプルは骨格運動においてかなり一般的であるからである。 徹底的な評価と比較を通じて,バザールはモデル,データ,攻撃モードにまたがって攻撃を成功させることができることを示した。 過酷な知覚研究を通じて、効果的だが知覚不能な攻撃が達成できることを実証する。 異なるアクティビティ認識に対する攻撃を分析することで、BASARは脆弱性の潜在的な原因を特定し、どの分類器が攻撃に対してより堅牢になるかについての洞察を提供します。

Skeletal motion plays a vital role in human activity recognition as either an independent data source or a complement. The robustness of skeleton-based activity recognizers has been questioned recently, which shows that they are vulnerable to adversarial attacks when the full-knowledge of the recognizer is accessible to the attacker. However, this white-box requirement is overly restrictive in most scenarios and the attack is not truly threatening. In this paper, we show that such threats do exist under black-box settings too. To this end, we propose the first black-box adversarial attack method BASAR. Through BASAR, we show that adversarial attack is not only truly a threat but also can be extremely deceitful, because on-manifold adversarial samples are rather common in skeletal motions, in contrast to the common belief that adversarial samples only exist off-manifold. Through exhaustive evaluation and comparison, we show that BASAR can deliver successful attacks across models, data, and attack modes. Through harsh perceptual studies, we show that it achieves effective yet imperceptible attacks. By analyzing the attack on different activity recognizers, BASAR helps identify the potential causes of their vulnerability and provides insights on what classifiers are likely to be more robust against attack.
翻訳日:2021-03-11 19:01:20 公開日:2021-03-10
# (参考訳) OPANAS: one-shot Path Aggregation Network Architecture Search for Object [全文訳有]

OPANAS: One-Shot Path Aggregation Network Architecture Search for Object ( http://arxiv.org/abs/2103.04507v2 )

ライセンス: CC0 1.0
Tingting Liang, Yongtao Wang, Guosheng Hu, Zhi Tang, Haibin Ling(参考訳) 近年、ニューラルアーキテクチャサーチ (NAS) を用いて特徴ピラミッドネットワーク (FPN) を設計し、視覚オブジェクト検出の有望な結果を得た。 そこで本研究では,検索効率と検出精度を有意に向上させる,新しいOne-Shot Path Aggregation Network Architecture Search(OPANAS)アルゴリズムを提案する。 具体的には、トップダウン、ボトムアップ、融合分割、スケール等化、スキップ接続、およびなしの検索空間を構築するために、6つの異種情報パスを最初に導入します。 次に,FPNの候補を高密度に連結した有向非巡回グラフで表現するFPNの新しい探索空間を提案する(各ノードは特徴ピラミッドであり,各エッジは6つの異種情報パスの1つである)。 第3に,最適なパスアグリゲーションアーキテクチャ,すなわちスーパーネットをまず学習し,次に進化アルゴリズムを用いて最適な候補を見つけるための効率的なワンショット探索法を提案する。 Experimental results demonstrate the efficacy of the proposed OPANAS for object detection: (1) OPANAS is more efficient than state-of-the-art methods (e.g., NAS-FPN and Auto-FPN), at significantly smaller searching cost (e.g., only 4 GPU days on MS-COCO); (2) the optimal architecture found by OPANAS significantly improves main-stream detectors including RetinaNet, Faster R-CNN and Cascade R-CNN, by 2.3-3.2 % mAP comparing to their FPN counterparts; and (3) a new state-of-the-art accuracy-speed trade-off (52.2 % mAP at 7.6 FPS) at smaller training costs than comparable state-of-the-arts. コードはhttps://github.com/V DIGPKU/OPANASで公開されます。

Recently, neural architecture search (NAS) has been exploited to design feature pyramid networks (FPNs) and achieved promising results for visual object detection. Encouraged by the success, we propose a novel One-Shot Path Aggregation Network Architecture Search (OPANAS) algorithm, which significantly improves both searching efficiency and detection accuracy. Specifically, we first introduce six heterogeneous information paths to build our search space, namely top-down, bottom-up, fusing-splitting, scale-equalizing, skip-connect and none. Second, we propose a novel search space of FPNs, in which each FPN candidate is represented by a densely-connected directed acyclic graph (each node is a feature pyramid and each edge is one of the six heterogeneous information paths). Third, we propose an efficient one-shot search method to find the optimal path aggregation architecture, that is, we first train a super-net and then find the optimal candidate with an evolutionary algorithm. Experimental results demonstrate the efficacy of the proposed OPANAS for object detection: (1) OPANAS is more efficient than state-of-the-art methods (e.g., NAS-FPN and Auto-FPN), at significantly smaller searching cost (e.g., only 4 GPU days on MS-COCO); (2) the optimal architecture found by OPANAS significantly improves main-stream detectors including RetinaNet, Faster R-CNN and Cascade R-CNN, by 2.3-3.2 % mAP comparing to their FPN counterparts; and (3) a new state-of-the-art accuracy-speed trade-off (52.2 % mAP at 7.6 FPS) at smaller training costs than comparable state-of-the-arts. Code will be released at https://github.com/V DIGPKU/OPANAS.
翻訳日:2021-03-11 18:59:56 公開日:2021-03-10
# (参考訳) Reactive Graspingのための未知オブジェクトの深層6-DoF追跡 [全文訳有]

Deep 6-DoF Tracking of Unknown Objects for Reactive Grasping ( http://arxiv.org/abs/2103.05401v2 )

ライセンス: CC BY 4.0
Marc Tuscher, Julian H\"orz, Danny Driess, Marc Toussaint(参考訳) 未知の物体のロボット操作は重要な研究分野である。 実用的応用は、ロボットが未知の環境と相互作用する必要がある多くの現実世界で起こります。 未知の物体追跡法, ポイントサンプリング法, 動的軌道計画法を提案することにより, 反応的把握の課題に取り組む。 オブジェクト追跡手法は,6-DoF未知のオブジェクト追跡手法に,Samese NetworksとIterative Closest Pointアプローチを組み合わせてポイントクラウド登録を行う。 この方法はさらなる訓練を必要とせず、騒音や咬合に頑健である。 従来は見つからなかった多種多様の物体をつかみ、物体の摂動やより低い把握点に対して堅牢なロボット操作システムを提案する。

Robotic manipulation of unknown objects is an important field of research. Practical applications occur in many real-world settings where robots need to interact with an unknown environment. We tackle the problem of reactive grasping by proposing a method for unknown object tracking, grasp point sampling and dynamic trajectory planning. Our object tracking method combines Siamese Networks with an Iterative Closest Point approach for pointcloud registration into a method for 6-DoF unknown object tracking. The method does not require further training and is robust to noise and occlusion. We propose a robotic manipulation system, which is able to grasp a wide variety of formerly unseen objects and is robust against object perturbations and inferior grasping points.
翻訳日:2021-03-11 18:42:47 公開日:2021-03-10
# ELLA: 学習言語抽象化による探索

ELLA: Exploration through Learned Language Abstraction ( http://arxiv.org/abs/2103.05825v1 )

ライセンス: Link先を確認
Suvir Mirchandani, Siddharth Karamcheti, Dorsa Sadigh(参考訳) 言語命令を理解することができるエージェントの構築は、効果的で堅牢な人間とAIのコラボレーションに不可欠である。 最近の研究は, 合成言語を用いた環境下での強化学習によるエージェントの訓練に焦点が当てられているが, 長い水平, スパース・リワードタスクを定義し, 学習方針には経験のエピソードが数多く必要である。 そこで、ELA:Exploration through Learned Language Abstractionは、高レベルの命令とシンプルな低レベルの命令とを関連付けて、環境によって提供されるスパースな報酬を豊かにする報酬形成アプローチです。 ELLAには2つの重要な要素がある: 1)エージェントが低レベル命令を完了したときに識別する終了分類器と2)低レベル命令と高レベルタスクの成功とを相関する関連分類器である。 終端分類器は命令と終端状態のペアからオフラインで学習する。 特に、言語と抽象化の以前の作業から離れて、低レベルの命令に対する高レベルの命令の明示的な分解に頼ることなく、オンラインの関連性分類器を学びます。 さまざまな命令の複雑さと報酬のスパーシティを備えた複雑なグリッドワールド環境のスイートでは、ELLAは、競合する言語ベースの報酬形成とノーシェイピング方法と比較して、複数の環境におけるサンプル効率の大幅な向上を示しています。

Building agents capable of understanding language instructions is critical to effective and robust human-AI collaboration. Recent work focuses on training these instruction following agents via reinforcement learning in environments with synthetic language; however, these instructions often define long-horizon, sparse-reward tasks, and learning policies requires many episodes of experience. To this end, we introduce ELLA: Exploration through Learned Language Abstraction, a reward shaping approach that correlates high-level instructions with simpler low-level instructions to enrich the sparse rewards afforded by the environment. ELLA has two key elements: 1) A termination classifier that identifies when agents complete low-level instructions, and 2) A relevance classifier that correlates low-level instructions with success on high-level tasks. We learn the termination classifier offline from pairs of instructions and terminal states. Notably, in departure from prior work in language and abstraction, we learn the relevance classifier online, without relying on an explicit decomposition of high-level instructions to low-level instructions. On a suite of complex grid world environments with varying instruction complexities and reward sparsity, ELLA shows a significant gain in sample efficiency across several environments compared to competitive language-based reward shaping and no-shaping methods.
翻訳日:2021-03-11 15:09:15 公開日:2021-03-10
# deepcpcfg: エンドツーエンド情報抽出のためのディープラーニングと文脈自由文法

DeepCPCFG: Deep Learning and Context Free Grammars for End-to-End Information Extraction ( http://arxiv.org/abs/2103.05908v1 )

ライセンス: Link先を確認
Freddy C. Chua, Nigel P. Duffy(参考訳) 深層学習と条件確率的文脈自由文法(CPCFG)を組み合わせることで,複雑な文書から構造化情報を抽出するエンドツーエンドシステムを構築する。 文書のクラスごとに、抽出する情報の構造を記述するCPCFGを作成します。 条件付き確率はディープニューラルネットワークによってモデル化される。 この文法を用いて2次元文書を解析し,抽出した情報を含む構造化レコードを直接生成する。 このシステムはエンドツーエンド(ドキュメント、レコード)ペアでトレーニングされる。 スキャンされた請求書から最新の結果を得るためにこのアプローチを適用します。

We combine deep learning and Conditional Probabilistic Context Free Grammars (CPCFG) to create an end-to-end system for extracting structured information from complex documents. For each class of documents, we create a CPCFG that describes the structure of the information to be extracted. Conditional probabilities are modeled by deep neural networks. We use this grammar to parse 2-D documents to directly produce structured records containing the extracted information. This system is trained end-to-end with (Document, Record) pairs. We apply this approach to extract information from scanned invoices achieving state-of-the-art results.
翻訳日:2021-03-11 15:08:52 公開日:2021-03-10
# ロバスト性に対するポストホック特徴アライメントの限界

Limitations of Post-Hoc Feature Alignment for Robustness ( http://arxiv.org/abs/2103.05898v1 )

ライセンス: Link先を確認
Collin Burns and Jacob Steinhardt(参考訳) 機能アライメントは、トレーニング配信とテスト配信の間の機能アクティベーションの分布と一致する分散シフトへの堅牢性を改善するアプローチです。 機能アライメントに対する特に単純だが効果的なアプローチは、訓練されたニューラルネットワーク内の2つの分布間のバッチ正規化統計を調整することである。 このテクニックは最近、ロバスト性ベンチマークのパフォーマンスが素晴らしいため、新たな関心を集めている。 しかし、いつ、なぜこの方法が機能するのかはよく分かっていない。 アプローチをより詳細に調査し、いくつかの制限を特定します。 分散シフトの狭いセットでのみ有意に役立つことを示し、パフォーマンスを低下させるいくつかの設定を特定します。 また,このような制約が発生する理由として,そもそもこのアプローチが効果的である理由を指摘する。 私たちの調査結果は、このアプローチとUnsupervised Domain Adaptationの有用性を疑問に思っています。

Feature alignment is an approach to improving robustness to distribution shift that matches the distribution of feature activations between the training distribution and test distribution. A particularly simple but effective approach to feature alignment involves aligning the batch normalization statistics between the two distributions in a trained neural network. This technique has received renewed interest lately because of its impressive performance on robustness benchmarks. However, when and why this method works is not well understood. We investigate the approach in more detail and identify several limitations. We show that it only significantly helps with a narrow set of distribution shifts and we identify several settings in which it even degrades performance. We also explain why these limitations arise by pinpointing why this approach can be so effective in the first place. Our findings call into question the utility of this approach and Unsupervised Domain Adaptation more broadly for improving robustness in practice.
翻訳日:2021-03-11 15:08:42 公開日:2021-03-10
# マルチラベル胸部X線分類における関係学習の視点

A Relational-learning Perspective to Multi-label Chest X-ray Classification ( http://arxiv.org/abs/2103.06220v1 )

ライセンス: Link先を確認
Anjany Sekuboyina, Daniel O\~noro-Rubio, Jens Kleesiek and Brandon Malone(参考訳) 胸部x線画像のマルチラベル分類は, 判別的手法を用いて頻繁に行われる。 画像を直接バイナリラベルにマップする方法を学びます。 このようなアプローチは、アノテーションの不確実性やラベル間の依存関係などの補助情報を組み込むことを困難にします。 そこで本研究では,エンコーダの予測性能を向上するだけでなく,新たなドメイン知識を導入するための一般的なフレームワークとして機能する,多ラベル分類の新たな知識グラフ再構成を提案する。 具体的には,胸部X線画像とそのラベルからマルチモーダル知識グラフを構築し,リンク予測問題としてマルチラベル分類を行う。 補助情報を組み込むことは、ノードと関係を追加することで簡単に実現できます。 公開ラジオグラフデータセット(CheXpert)でテストすると、ナイーブナレッジグラフを使用したリレーショナルリフォーマレーションは、83.5%のROC曲線の面積を達成し、純粋に差別的なアプローチよりも"sim 1"の改善によって、最先端のパフォーマンスを上回ります。

Multi-label classification of chest X-ray images is frequently performed using discriminative approaches, i.e. learning to map an image directly to its binary labels. Such approaches make it challenging to incorporate auxiliary information such as annotation uncertainty or a dependency among the labels. Building towards this, we propose a novel knowledge graph reformulation of multi-label classification, which not only readily increases predictive performance of an encoder but also serves as a general framework for introducing new domain knowledge. Specifically, we construct a multi-modal knowledge graph out of the chest X-ray images and its labels and pose multi-label classification as a link prediction problem. Incorporating auxiliary information can then simply be achieved by adding additional nodes and relations among them. When tested on a publicly-available radiograph dataset (CheXpert), our relational-reformula tion using a naive knowledge graph outperforms the state-of-art by achieving an area-under-ROC curve of 83.5%, an improvement of "sim 1" over a purely discriminative approach.
翻訳日:2021-03-11 15:08:28 公開日:2021-03-10
# amharic news text classification データセット

An Amharic News Text classification Dataset ( http://arxiv.org/abs/2103.05639v1 )

ライセンス: Link先を確認
Israel Abebe Azime and Nebil Mohammed(参考訳) nlpでは、テキスト分類は私たちが解決しようとする主要な問題の1つであり、言語分析におけるその使用は説明がつかない。 ラベル付きトレーニングデータがないため、Amharicのような低リソース言語でこれらのタスクを行うのが難しくなった。 この種のデータを収集、ラベル付け、注釈付け、価値あるものにするタスクは、下級の研究者、学校、機械学習の実践者が言語に既存の分類モデルを実装することを奨励する。 本稿では,50万以上のニュース記事からなるアムハラ語のテキスト分類データセットを6つのクラスに分類することを目的とする。 このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。

In NLP, text classification is one of the primary problems we try to solve and its uses in language analyses are indisputable. The lack of labeled training data made it harder to do these tasks in low resource languages like Amharic. The task of collecting, labeling, annotating, and making valuable this kind of data will encourage junior researchers, schools, and machine learning practitioners to implement existing classification models in their language. In this short paper, we aim to introduce the Amharic text classification dataset that consists of more than 50k news articles that were categorized into 6 classes. This dataset is made available with easy baseline performances to encourage studies and better performance experiments.
翻訳日:2021-03-11 15:08:06 公開日:2021-03-10
# テキストデータの解釈可能なバイアス軽減:分類性能を維持しながら、患者ノートの性別バイアスを低減する

Interpretable bias mitigation for textual data: Reducing gender bias in patient notes while maintaining classification performance ( http://arxiv.org/abs/2103.05841v1 )

ライセンス: Link先を確認
Joshua R. Minot, Nicholas Cheney, Marc Maier, Danne C. Elbers, Christopher M. Danforth, and Peter Sheridan Dodds(参考訳) 一般に医療システム、特に患者の治療決定と結果は、性別やその他の人口構成要素に基づくバイアスによって影響を受ける。 言語モデルが医学に適用されるにつれて、患者ケアに影響を与えるプロセスにアルゴリズム的公平性を構築することへの関心が高まっている。 この問題に対処する作業の多くは、言語モデルで符号化されたバイアス(コーパスの遠い読みから導かれる概念間の関係の統計的推定)に焦点を当てている。 この研究に基づいて,医療従事者や言語モデルによる単語選択がバイアスとどのように相互作用するかを検討する。 2つの臨床ノートから性別付き言語を識別・除去し,BERTに基づく性別分類器を用いた新しい脱バイアス法を記述した。 データ拡張による低~中レベルのバイアス除去のための健康状態分類タスクの最小劣化を示す。 最後に、言語モデルで符号化されるバイアスと、健康記録で経験的に観察されるバイアスを比較します。 本研究は,自然言語処理パイプラインにおけるバイアスを識別・低減するために,データ拡張を用いた解釈可能なアプローチを概説する。

Medical systems in general, and patient treatment decisions and outcomes in particular, are affected by bias based on gender and other demographic elements. As language models are increasingly applied to medicine, there is a growing interest in building algorithmic fairness into processes impacting patient care. Much of the work addressing this question has focused on biases encoded in language models -- statistical estimates of the relationships between concepts derived from distant reading of corpora. Building on this work, we investigate how word choices made by healthcare practitioners and language models interact with regards to bias. We identify and remove gendered language from two clinical-note datasets and describe a new debiasing procedure using BERT-based gender classifiers. We show minimal degradation in health condition classification tasks for low- to medium-levels of bias removal via data augmentation. Finally, we compare the bias semantically encoded in the language models with the bias empirically observed in health records. This work outlines an interpretable approach for using data augmentation to identify and reduce the potential for bias in natural language processing pipelines.
翻訳日:2021-03-11 15:07:53 公開日:2021-03-10
# RL-CSDia:コンピュータサイエンス図の表現学習

RL-CSDia: Representation Learning of Computer Science Diagrams ( http://arxiv.org/abs/2103.05900v1 )

ライセンス: Link先を確認
Shaowei Wang, LingLing Zhang, Xuan Luo, Yi Yang, Xin Hu, and Jun Liu(参考訳) 最近のコンピュータビジョンの研究は、主に現実世界のシーンを表現する自然画像に焦点を当てている。 視覚的質問応答など、多様なタスクで優れたパフォーマンスを発揮します。 図は、教育分野で頻繁に現れる視覚表現の特別な形態であり、学習者がマルチモーダル知識を理解するために非常に重要です。 現在のダイアグラムの研究は、生物学や地理学などの自然の分野に焦点を当てており、その表現はまだ自然のイメージに類似している。 コンピュータサイエンスなどの他の図は複雑なトポロジと関係を含むグラフィックで構成されており、この種の図の研究はいまだに空白である。 グラフィックダイアグラムの理解の主な課題は、データの希少性と意味の混乱であり、それは主に表現の多様性に反映されます。 本稿では,コンピュータサイエンス・ダイアグラム(csdia)と呼ばれる新しいグラフィック図のデータセットを構築する。 1200以上の図とオブジェクトと関係の完全なアノテーションを含んでいる。 図中の様々な表現に起因する視覚ノイズを考慮して,図形のトポロジーを導入し,位相構造を解析する。 その後、トポロジー、視覚的特徴、テキストの3つの枝から図を表現するために、図解析ネット(DPN: Diagram Parsing Net)を提案し、図の理解能力を評価するために、図分類タスクにモデルを適用します。 提案されたDPNがダイアグラム理解に及ぼす影響を示した。

Recent studies on computer vision mainly focus on natural images that express real-world scenes. They achieve outstanding performance on diverse tasks such as visual question answering. Diagram is a special form of visual expression that frequently appears in the education field and is of great significance for learners to understand multimodal knowledge. Current research on diagrams preliminarily focuses on natural disciplines such as Biology and Geography, whose expressions are still similar to natural images. Another type of diagrams such as from Computer Science is composed of graphics containing complex topologies and relations, and research on this type of diagrams is still blank. The main challenges of graphic diagrams understanding are the rarity of data and the confusion of semantics, which are mainly reflected in the diversity of expressions. In this paper, we construct a novel dataset of graphic diagrams named Computer Science Diagrams (CSDia). It contains more than 1,200 diagrams and exhaustive annotations of objects and relations. Considering the visual noises caused by the various expressions in diagrams, we introduce the topology of diagrams to parse topological structure. After that, we propose Diagram Parsing Net (DPN) to represent the diagram from three branches: topology, visual feature, and text, and apply the model to the diagram classification task to evaluate the ability of diagrams understanding. The results show the effectiveness of the proposed DPN on diagrams understanding.
翻訳日:2021-03-11 15:07:18 公開日:2021-03-10
# 条件付きadversarial debiasingによるバイアスデータからの非バイアス分類法学習に向けて

Towards Learning an Unbiased Classifier from Biased Data via Conditional Adversarial Debiasing ( http://arxiv.org/abs/2103.06179v1 )

ライセンス: Link先を確認
Christian Reimers and Paul Bodesheim and Jakob Runge and Joachim Denzler(参考訳) 分類器のバイアスは、特に安全およびセキュリティクリティカルな分野における応用において、現代のディープラーニング手法の深刻な問題である。 分類器のバイアスはトレーニングデータセットのバイアスの直接的な結果であり、しばしば関連する特徴と無関係な特徴の共起によって引き起こされる。 この問題を解決するには、データセットから分類器へのバイアスの伝播を防ぐ学習アルゴリズムが必要です。 本稿では,訓練画像のラベルに急激な結びつきを持つが,検査画像のラベルとは統計的に独立な特徴に対処する,新たな逆偏り除去法を提案する。 したがって、トレーニング中に関連する機能の自動識別は、無関係な特徴によって乱される。 これは、皮膚がんの自動検出や運転支援など、多くのコンピュータビジョンタスクにおける幅広いバイアス関連の問題の場合である。 我々は、上記の偏見に対する既存の手法よりも、我々のアプローチが優れているという数学的証明によって論じる。 実験の結果,本手法は猫や犬の実世界画像を用いたベンチマークデータセットにおいて,最先端技術よりも優れた性能を示すことがわかった。

Bias in classifiers is a severe issue of modern deep learning methods, especially for their application in safety- and security-critical areas. Often, the bias of a classifier is a direct consequence of a bias in the training dataset, frequently caused by the co-occurrence of relevant features and irrelevant ones. To mitigate this issue, we require learning algorithms that prevent the propagation of bias from the dataset into the classifier. We present a novel adversarial debiasing method, which addresses a feature that is spuriously connected to the labels of training images but statistically independent of the labels for test images. Thus, the automatic identification of relevant features during training is perturbed by irrelevant features. This is the case in a wide range of bias-related problems for many computer vision tasks, such as automatic skin cancer detection or driver assistance. We argue by a mathematical proof that our approach is superior to existing techniques for the abovementioned bias. Our experiments show that our approach performs better than state-of-the-art techniques on a well-known benchmark dataset with real-world images of cats and dogs.
翻訳日:2021-03-11 15:06:57 公開日:2021-03-10
# CUAD: 法律契約レビューのためのエキスパートアノテーション付きNLPデータセット

CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review ( http://arxiv.org/abs/2103.06268v1 )

ライセンス: Link先を確認
Dan Hendrycks and Collin Burns and Anya Chen and Spencer Ball(参考訳) 多くの専門ドメインは、大規模なラベル付きデータセットには高価なエキスパートアノテータを必要とするため、ディープラーニングには触れられません。 我々は、法的契約レビューのための新しいデータセットであるcontract understanding atticus dataset (cuad)を導入することで、法律領域におけるこのボトルネックに対処する。 CUADはThe Atticus Projectから数十名の法律専門家によって作成され、13,000以上のアノテーションで構成されている。 タスクは、人間がレビューする上で重要な契約の突出した部分を強調することです。 トランスフォーマーモデルの性能は初期段階にあるが,この性能はモデル設計とトレーニングデータセットサイズの影響を強く受けている。 これらの有望な結果にもかかわらず、改善の余地はまだある。 専門家によって注釈付けされた唯一の大規模で専門的なNLPベンチマークの1つとして、CUADはより広範なNLPコミュニティのための挑戦的な研究ベンチマークとして機能する。

Many specialized domains remain untouched by deep learning, as large labeled datasets require expensive expert annotators. We address this bottleneck within the legal domain by introducing the Contract Understanding Atticus Dataset (CUAD), a new dataset for legal contract review. CUAD was created with dozens of legal experts from The Atticus Project and consists of over 13,000 annotations. The task is to highlight salient portions of a contract that are important for a human to review. We find that Transformer models have nascent performance, but that this performance is strongly influenced by model design and training dataset size. Despite these promising results, there is still substantial room for improvement. As one of the only large, specialized NLP benchmarks annotated by experts, CUAD can serve as a challenging research benchmark for the broader NLP community.
翻訳日:2021-03-11 15:06:22 公開日:2021-03-10
# 最大平均差における残留流の普遍近似

Universal Approximation of Residual Flows in Maximum Mean Discrepancy ( http://arxiv.org/abs/2103.05793v1 )

ライセンス: Link先を確認
Zhifeng Kong, Kamalika Chaudhuri(参考訳) 正規化フローは、簡単な可能性計算を提供する柔軟な深層生成モデルのクラスです。 経験的成功にもかかわらず、その表現性に関する理論的理解はほとんどない。 本研究では,リプシッツ残差ブロックからなる正規化流のクラスである残差流について検討する。 残差流は最大平均差の普遍近似であることを示す。 異なる仮定の下で近似を達成するために、残余ブロック数の上界を提供する。

Normalizing flows are a class of flexible deep generative models that offer easy likelihood computation. Despite their empirical success, there is little theoretical understanding of their expressiveness. In this work, we study residual flows, a class of normalizing flows composed of Lipschitz residual blocks. We prove residual flows are universal approximators in maximum mean discrepancy. We provide upper bounds on the number of residual blocks to achieve approximation under different assumptions.
翻訳日:2021-03-11 15:05:26 公開日:2021-03-10
# 航空安全事象の前兆予測のためのマルチクラス多重インスタンス学習

Multi-Class Multiple Instance Learning for Predicting Precursors to Aviation Safety Events ( http://arxiv.org/abs/2103.06244v1 )

ライセンス: Link先を確認
Marc-Henri Bleu-Laine, Tejas G. Puranik, Dimitri N. Mavris, Bryan Matthews(参考訳) 近年、商業航空会社の業務から収集した航空データを活用して安全性を向上させる機械学習技術の適用が急速に拡大しています。 異常検出と予測保守が機械学習アプリケーションの主要なターゲットとなっている。 しかし,本論文は比較的新しい応用である前駆体の同定に焦点を当てている。 前駆体は、悪意のある出来事自体の前に起こる悪意のある出来事と相関するイベントです。 したがって、前駆者の採掘は、安全事故の背後にある理由と、将来の有害事象の可能性をオペレータに警告するためにフライト中に追跡することができる署名を識別する能力を理解することを含む多くの利点を提供します。 本研究は,MHCNN-RNNアーキテクチャを応用した,弱い教師付き学習タスクであるMIL(Multiple-instanc e Learning)フレームワークと,慎重に設計されたバイナリ分類器を組み合わせることを提案する。 マルチクラス分類器が作成され、比較され、バイナリ分類器を組み合わせて、MHCNN-RNNを複数の出力を扱うように修正することで、任意の飛行に対して異なる有害事象を予測できる。 その結果,複数の2値分類器の性能が向上し,接近時の高速・高経路角イベントを正確に予測できることがわかった。 複数のバイナリ分類器は、これらの事象と相関する航空機のパラメータを決定できる。 特定されたパラメータは、イベントの前兆と見なすことができ、将来これらのイベントを防止するためにさらに研究または追跡することができる。

In recent years, there has been a rapid growth in the application of machine learning techniques that leverage aviation data collected from commercial airline operations to improve safety. Anomaly detection and predictive maintenance have been the main targets for machine learning applications. However, this paper focuses on the identification of precursors, which is a relatively newer application. Precursors are events correlated with adverse events that happen prior to the adverse event itself. Therefore, precursor mining provides many benefits including understanding the reasons behind a safety incident and the ability to identify signatures, which can be tracked throughout a flight to alert the operators of the potential for an adverse event in the future. This work proposes using the multiple-instance learning (MIL) framework, a weakly supervised learning task, combined with carefully designed binary classifier leveraging a Multi-Head Convolutional Neural Network-Recurrent Neural Network (MHCNN-RNN) architecture. Multi-class classifiers are then created and compared, enabling the prediction of different adverse events for any given flight by combining binary classifiers, and by modifying the MHCNN-RNN to handle multiple outputs. Results obtained showed that the multiple binary classifiers perform better and are able to accurately forecast high speed and high path angle events during the approach phase. Multiple binary classifiers are also capable of determining the aircraft's parameters that are correlated to these events. The identified parameters can be considered precursors to the events and may be studied/tracked further to prevent these events in the future.
翻訳日:2021-03-11 15:05:21 公開日:2021-03-10
# ニューラルネットワークのオーバーコンプリート表現における深い構造

Reframing Neural Networks: Deep Structure in Overcomplete Representations ( http://arxiv.org/abs/2103.05804v1 )

ライセンス: Link先を確認
Calvin Murdock and Simon Lucey(参考訳) 従来の浅い表現学習技術と比較して、ディープニューラルネットワークはほぼすべてのアプリケーションベンチマークで優れたパフォーマンスを達成しています。 しかし、その明確な実証的利点にもかかわらず、なぜそのような効果があるのかはまだよく分かっていない。 本稿では,構造化過剰フレームを用いた表現学習のための統一フレームワークであるdeep frame approximationを提案する。 正確な推論には反復最適化が必要であるが、フィードフォワードディープニューラルネットワークの操作によって近似することができる。 次に, モデル容量が, 深さ, 幅, スキップ接続などの超パラメータによって引き起こされるフレーム構造とどのように関連しているかを間接的に解析する。 これらの構造的差異を、表現の特異性と安定性に結びついたデータ非依存なコヒーレンス尺度であるディープフレームポテンシャルで定量化する。 モデル選択の基準として,resnets や densenets など,一般的なディープネットワークアーキテクチャ上での一般化誤差との相関性を示す。 また,反復最適化アルゴリズムを実装した繰り返しネットワークが,フィードフォワード近似に匹敵する性能を実現することを示す。 この確立されたオーバーコンプリート表現の理論との接続は、アドホックなエンジニアリングに依存しない原則付きディープネットワークアーキテクチャ設計の新たな方向性を示唆している。

In comparison to classical shallow representation learning techniques, deep neural networks have achieved superior performance in nearly every application benchmark. But despite their clear empirical advantages, it is still not well understood what makes them so effective. To approach this question, we introduce deep frame approximation, a unifying framework for representation learning with structured overcomplete frames. While exact inference requires iterative optimization, it may be approximated by the operations of a feed-forward deep neural network. We then indirectly analyze how model capacity relates to the frame structure induced by architectural hyperparameters such as depth, width, and skip connections. We quantify these structural differences with the deep frame potential, a data-independent measure of coherence linked to representation uniqueness and stability. As a criterion for model selection, we show correlation with generalization error on a variety of common deep network architectures such as ResNets and DenseNets. We also demonstrate how recurrent networks implementing iterative optimization algorithms achieve performance comparable to their feed-forward approximations. This connection to the established theory of overcomplete representations suggests promising new directions for principled deep network architecture design with less reliance on ad-hoc engineering.
翻訳日:2021-03-11 15:04:37 公開日:2021-03-10
# 空間的一貫性表現学習

Spatially Consistent Representation Learning ( http://arxiv.org/abs/2103.06122v1 )

ライセンス: Link先を確認
Byungseok Roh, Wuhyun Shin, Ildoo Kim, Sungwoong Kim(参考訳) 自己教師付き学習はラベルのない画像から転送可能な表現を得るために広く使われている。 特に,近年のコントラスト学習手法は,下流画像分類課題において印象的な性能を示している。 これらの対照的手法は、セマンティック保存変換の下でイメージレベルで不変なグローバル表現を生成することに焦点を当てているが、局所表現の空間的一貫性を見落としやすいため、オブジェクト検出やインスタンスセグメンテーションなどのローカリゼーションタスクの事前トレーニングに制限がある。 さらに、既存のコントラスト法で使用される積極的に切り抜かれたビューは、単一の画像の意味的に異なる領域間の表現距離を最小化することができる。 本稿では,多目的および位置特定タスクのための空間整合表現学習アルゴリズム(scrl)を提案する。 特に,ランダムに切り取られた局所領域のコヒーレントな空間表現を幾何学的翻訳やズーム操作に従って生成しようとする,新しい自己教師付き目的を考案する。 ベンチマークデータセットを用いたダウンストリームローカライズタスクでは,画像レベルの教師付き事前学習や最先端の自己教師付き学習手法よりも優れたパフォーマンス改善が得られた。

Self-supervised learning has been widely used to obtain transferrable representations from unlabeled images. Especially, recent contrastive learning methods have shown impressive performances on downstream image classification tasks. While these contrastive methods mainly focus on generating invariant global representations at the image-level under semantic-preserving transformations, they are prone to overlook spatial consistency of local representations and therefore have a limitation in pretraining for localization tasks such as object detection and instance segmentation. Moreover, aggressively cropped views used in existing contrastive methods can minimize representation distances between the semantically different regions of a single image. In this paper, we propose a spatially consistent representation learning algorithm (SCRL) for multi-object and location-specific tasks. In particular, we devise a novel self-supervised objective that tries to produce coherent spatial representations of a randomly cropped local region according to geometric translations and zooming operations. On various downstream localization tasks with benchmark datasets, the proposed SCRL shows significant performance improvements over the image-level supervised pretraining as well as the state-of-the-art self-supervised learning methods.
翻訳日:2021-03-11 15:04:21 公開日:2021-03-10
# 教師なしキーポイント検出のためのレグレッシブドメイン適応

Regressive Domain Adaptation for Unsupervised Keypoint Detection ( http://arxiv.org/abs/2103.06175v1 )

ライセンス: Link先を確認
Junguang Jiang, Yifei Ji, Ximei Wang, Yufeng Liu, Jianmin Wang, Mingsheng Long(参考訳) ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的とする。 多くのDA理論とアルゴリズムが提案されているが、そのほとんどは分類設定に調整されており、特に実用的なキーポイント検出タスクでは回帰タスクに失敗する可能性がある。 この困難だが重要な課題に取り組むために、教師なしのキーポイント検出のためのレグレッシブドメイン適応(RegDA)法を提案する。 直近の理論的研究に触発されて、まず対向回帰器を用いて対象領域の差を最大化し、特徴発生器を訓練し、この差を最小限に抑える。 しかし、出力空間の寸法が高いため、このレグレッサーは、ソースのサポートから逸脱するサンプルを検出することができません。 この問題を克服するために,我々は2つの重要なアイデアを提案する。 まず、出力空間の確率密度がスパースであるという観測に基づいて、このスパーシティを記述するために空間確率分布を導入し、それを用いて逆レグレッサの学習を導く。 第二に、高次元空間の最適化難易度を緩和するため、対向訓練におけるミニマックスゲームを2つの逆目標の最小化に革新的に変換する。 広範な実験により, 異なるデータセット上のPCKの点で, 8% から 11% の大幅な改善が得られた。

Domain adaptation (DA) aims at transferring knowledge from a labeled source domain to an unlabeled target domain. Though many DA theories and algorithms have been proposed, most of them are tailored into classification settings and may fail in regression tasks, especially in the practical keypoint detection task. To tackle this difficult but significant task, we present a method of regressive domain adaptation (RegDA) for unsupervised keypoint detection. Inspired by the latest theoretical work, we first utilize an adversarial regressor to maximize the disparity on the target domain and train a feature generator to minimize this disparity. However, due to the high dimension of the output space, this regressor fails to detect samples that deviate from the support of the source. To overcome this problem, we propose two important ideas. First, based on our observation that the probability density of the output space is sparse, we introduce a spatial probability distribution to describe this sparsity and then use it to guide the learning of the adversarial regressor. Second, to alleviate the optimization difficulty in the high-dimensional space, we innovatively convert the minimax game in the adversarial training to the minimization of two opposite goals. Extensive experiments show that our method brings large improvement by 8% to 11% in terms of PCK on different datasets.
翻訳日:2021-03-11 15:04:04 公開日:2021-03-10
# 小型TinyMLモデルの量子化ガイドトレーニング

Quantization-Guided Training for Compact TinyML Models ( http://arxiv.org/abs/2103.06231v1 )

ライセンス: Link先を確認
Sedigh Ghamari, Koray Ozcan, Thu Dinh, Andrey Melnikov, Juan Carvajal, Jan Ernst, Sek Chai(参考訳) 量子化誘導訓練 (qgt) では, dnnのトレーニングを最適化された低ビット精度目標へ誘導し, 8ビット精度以下の極端圧縮レベルに達する。 標準的な量子化対応トレーニング(QAT)アプローチとは異なり、QGTはカスタマイズされた正規化を使用して、量子化エラーを減らしながら精度を最大化する分布への重み付けを奨励する。 このアプローチの主な利点の1つは、圧縮ボトルネックを特定する能力である。 ビジョンデータセットの最先端モデルアーキテクチャを用いてqgtを検証する。 また,81KBの小型モデルを用いたQGTの有効性を,浮動小数点ベースラインと比較してわずか3%の精度低下を保ちつつ,2ビット精度(17.7倍の縮小)で実証した。

We propose a Quantization Guided Training (QGT) method to guide DNN training towards optimized low-bit-precision targets and reach extreme compression levels below 8-bit precision. Unlike standard quantization-aware training (QAT) approaches, QGT uses customized regularization to encourage weight values towards a distribution that maximizes accuracy while reducing quantization errors. One of the main benefits of this approach is the ability to identify compression bottlenecks. We validate QGT using state-of-the-art model architectures on vision datasets. We also demonstrate the effectiveness of QGT with an 81KB tiny model for person detection down to 2-bit precision (representing 17.7x size reduction), while maintaining an accuracy drop of only 3% compared to a floating-point baseline.
翻訳日:2021-03-11 15:03:39 公開日:2021-03-10
# 都市水の深層センシング

Deep Sensing of Urban Waterlogging ( http://arxiv.org/abs/2103.05927v1 )

ライセンス: Link先を確認
Shi-Wei Lo(参考訳) モンスーンシーズンには、都市部で突然の洪水が頻繁に発生し、社会活動や経済活動が妨げられ、インフラや生活を脅かす可能性がある。 効率的な大規模集水センシング・情報システムを利用することで,災害管理を円滑にし,一般市民の意識を高め,洪水災害時の損失を軽減できる貴重なリアルタイム災害情報を提供できる。 そこで本研究では,深層ニューラルネットワークと情報通信技術による視覚センシング手法を開発し,ウォーターログセンシングとイベントロケーションマッピングを実現するエンドツーエンドのメカニズムを提供する。 台湾のモンスーン季節における深層センシングシステムの利用が実証され, 島全体での降水現象が予測された。 このシステムは、ビデオ物事のフレームワークのインターネットを介して約2379のビジョンソースを感知し、5分でイベント位置情報を送信できます。 提案手法は,全国的規模で水利きイベントを検知し,従来の水利きセンシング手法に代わる効率的かつ高度にスケーラブルな代替手段を提供する。

In the monsoon season, sudden flood events occur frequently in urban areas, which hamper the social and economic activities and may threaten the infrastructure and lives. The use of an efficient large-scale waterlogging sensing and information system can provide valuable real-time disaster information to facilitate disaster management and enhance awareness of the general public to alleviate losses during and after flood disasters. Therefore, in this study, a visual sensing approach driven by deep neural networks and information and communication technology was developed to provide an end-to-end mechanism to realize waterlogging sensing and event-location mapping. The use of a deep sensing system in the monsoon season in Taiwan was demonstrated, and waterlogging events were predicted on the island-wide scale. The system could sense approximately 2379 vision sources through an internet of video things framework and transmit the event-location information in 5 min. The proposed approach can sense waterlogging events at a national scale and provide an efficient and highly scalable alternative to conventional waterlogging sensing methods.
翻訳日:2021-03-11 15:03:25 公開日:2021-03-10
# 可変レート離散表現学習

Variable-rate discrete representation learning ( http://arxiv.org/abs/2103.06089v1 )

ライセンス: Link先を確認
Sander Dieleman, Charlie Nash, Jesse Engel, Karen Simonyan(参考訳) 知覚信号における意味のある情報内容は通常不均等に分布する。 例えば、音声信号では、しばしば多くの沈黙があり、発音の速度はかなり異なることがあります。 本研究では,低速オートエンコーダ (SlowAEs) を高レベル変数レート離散表現の教師なし学習用として提案し,それを音声に適用する。 入力信号の正解情報の密度に応じて,結果のイベントベース表現が自動的に成長あるいは縮小し,忠実な信号再構成が可能であることを示す。 イベントベースの表現モデリングのためのランレングストランスフォーマー(RLT)を開発し、それらを音声ドメイン内の言語モデルの構築に使用し、文法的および意味的に一貫性のある発話と継続を生成することができる。

Semantically meaningful information content in perceptual signals is usually unevenly distributed. In speech signals for example, there are often many silences, and the speed of pronunciation can vary considerably. In this work, we propose slow autoencoders (SlowAEs) for unsupervised learning of high-level variable-rate discrete representations of sequences, and apply them to speech. We show that the resulting event-based representations automatically grow or shrink depending on the density of salient information in the input signals, while still allowing for faithful signal reconstruction. We develop run-length Transformers (RLTs) for event-based representation modelling and use them to construct language models in the speech domain, which are able to generate grammatical and semantically coherent utterances and continuations.
翻訳日:2021-03-11 15:02:46 公開日:2021-03-10
# 高速かつ柔軟:抽象推論タスクにおけるヒューマンプログラム誘導

Fast and flexible: Human program induction in abstract reasoning tasks ( http://arxiv.org/abs/2103.05823v1 )

ライセンス: Link先を確認
Aysja Johnson, Wai Keen Vong, Brenden M. Lake, Todd M. Gureckis(参考訳) Abstraction and Reasoning Corpus (ARC) は、最近 Chollet (2019) によって提案された挑戦的なプログラム誘導データセットである。 ここでは、ARC(1000人中40人)のタスクのサブセットを解決する人間の行動研究から収集された最初の結果のセットを報告します。 このタスクのサブセットにはかなりのばらつきが含まれているが,本研究では,人間は基礎となるプログラムを推測し,新しいテスト入力例に対して,平均80%のタスクが解き,65%のタスクが80%以上の参加者によって解かれるように,正しいテスト結果を生成することができた。 さらに,生成過程における行動シーケンス内における行動の一貫性と変動性の興味深いパターン,タスク毎の変換を記述する自然言語記述,人間が犯したエラーなどを見いだす。 以上の結果から,タスクの関連する特徴や特性を迅速かつ確実に決定し,正しいソリューションを作成できることが示唆された。 将来のモデリング作業では、ここで収集した自然言語記述をARCの基盤となる意味論に結びつけることで、これらの知見を取り入れることができます。

The Abstraction and Reasoning Corpus (ARC) is a challenging program induction dataset that was recently proposed by Chollet (2019). Here, we report the first set of results collected from a behavioral study of humans solving a subset of tasks from ARC (40 out of 1000). Although this subset of tasks contains considerable variation, our results showed that humans were able to infer the underlying program and generate the correct test output for a novel test input example, with an average of 80% of tasks solved per participant, and with 65% of tasks being solved by more than 80% of participants. Additionally, we find interesting patterns of behavioral consistency and variability within the action sequences during the generation process, the natural language descriptions to describe the transformations for each task, and the errors people made. Our findings suggest that people can quickly and reliably determine the relevant features and properties of a task to compose a correct solution. Future modeling work could incorporate these findings, potentially by connecting the natural language descriptions we collected here to the underlying semantics of ARC.
翻訳日:2021-03-11 15:02:20 公開日:2021-03-10
# AIシステムの非凝集評価を設計する:選択、考察、トレードオフ

Designing Disaggregated Evaluations of AI Systems: Choices, Considerations, and Tradeoffs ( http://arxiv.org/abs/2103.06076v1 )

ライセンス: Link先を確認
Solon Barocas, Anhong Guo, Ece Kamar, Jacquelyn Krones, Meredith Ringel Morris, Jennifer Wortman Vaughan, Duncan Wadsworth, Hanna Wallach(参考訳) AIシステムの「分別評価」を行うことで、パフォーマンスの格差を明らかにした作品もいくつかあります。 これらの取り組みは、分散評価を設計する際に行わなければならない選択肢と、これらの設計選択とこれらの検討の間のトレードオフの根底にある重要な考慮事項に焦点をあてて構築されます。 分散評価の設計に関わる選択肢、考慮事項、トレードオフについてより深く理解することで、研究者、実践者、一般の人々が、特定のグループに対してAIシステムがいかにパフォーマンスを低下させるかを理解することができます。

Several pieces of work have uncovered performance disparities by conducting "disaggregated evaluations" of AI systems. We build on these efforts by focusing on the choices that must be made when designing a disaggregated evaluation, as well as some of the key considerations that underlie these design choices and the tradeoffs between these considerations. We argue that a deeper understanding of the choices, considerations, and tradeoffs involved in designing disaggregated evaluations will better enable researchers, practitioners, and the public to understand the ways in which AI systems may be underperforming for particular groups of people.
翻訳日:2021-03-11 15:02:02 公開日:2021-03-10
# BCFNet: 注意メカニズムを備えたバランスの取れた協調フィルタリングネットワーク

BCFNet: A Balanced Collaborative Filtering Network with Attention Mechanism ( http://arxiv.org/abs/2103.06105v1 )

ライセンス: Link先を確認
Chang-Dong Wang, Zi-Yuan Hu, Jin Huang, Zhi-Hong Deng, Ling Huang, Jian-Huang Lai and Philip S. Yu(参考訳) コラボレーティブフィルタリング(cf)ベースの推奨手法は広く研究されており、一般的には表現学習ベースのcf法とマッチング関数学習ベースのcf法という2つのタイプに分類することができる。 表現学習は、ユーザとアイテムの表現のための共通の低次元空間を学習しようとする。 この場合、共通のスペースで類似度が高い場合、ユーザーとアイテムはよりよく一致します。 マッチング関数学習は、ユーザとアイテムのペアをマッチングスコアにマップする複雑なマッチング関数を直接学習しようとする。 どちらの手法も開発が進んでいるが,2つの根本的な欠陥,すなわち表現学習は,ユーザやアイテムの潜在的な特徴に対する表現性に制限のあるドット製品を適用すること,マッチング関数学習は低ランク関係を捉える上で弱点を持つ。 このような欠点を克服するために,2種類の手法の長所を有するbcfnet( balanced collaborative filtering network)という新しい推奨モデルを提案する。 さらに注意機構は、暗黙のフィードバックの中で隠れた情報をよりよく捉え、ニューラルネットワークの学習能力を強化するように設計されている。 さらに、バランスモジュールは、DNNの過度な問題を軽減するように設計されている。 8つの実世界のデータセットに関する広範な実験は、提案されたモデルの有効性を示す。

Collaborative Filtering (CF) based recommendation methods have been widely studied, which can be generally categorized into two types, i.e., representation learning-based CF methods and matching function learning-based CF methods. Representation learning tries to learn a common low dimensional space for the representations of users and items. In this case, a user and item match better if they have higher similarity in that common space. Matching function learning tries to directly learn the complex matching function that maps user-item pairs to matching scores. Although both methods are well developed, they suffer from two fundamental flaws, i.e., the representation learning resorts to applying a dot product which has limited expressiveness on the latent features of users and items, while the matching function learning has weakness in capturing low-rank relations. To overcome such flaws, we propose a novel recommendation model named Balanced Collaborative Filtering Network (BCFNet), which has the strengths of the two types of methods. In addition, an attention mechanism is designed to better capture the hidden information within implicit feedback and strengthen the learning ability of the neural network. Furthermore, a balance module is designed to alleviate the over-fitting issue in DNNs. Extensive experiments on eight real-world datasets demonstrate the effectiveness of the proposed model.
翻訳日:2021-03-11 15:01:51 公開日:2021-03-10
# 差分プライバシーを用いた量子機械学習

Quantum machine learning with differential privacy ( http://arxiv.org/abs/2103.06232v1 )

ライセンス: Link先を確認
William M Watkins, Samuel Yen-Chi Chen, Shinjae Yoo(参考訳) 量子機械学習(QML)は、画像認識から自然音声処理まで、さまざまな分類タスクに学習モデルを使用する傾向を補完することができます。 量子的な利点は、古典的コンピュータ上での量子演算の難解性によって生じる。 機械学習で使用される多くのデータセットはクラウドソースまたはプライベート情報を含んでいる。 私たちの知る限りでは、現在のQMLモデルにはプライバシー保護機能が装備されていない。 したがって、プライバシ保護アルゴリズムはQMLで実装する必要がある。 1つの解決策は、機械学習アルゴリズムを個別にプライベートにすることで、トレーニングデータセットに対する単一のデータポイントの影響を最小限に抑えることである。 異なるプライベート機械学習モデルが調査されているが、QMLの文脈では差分プライバシーはまだ研究されていない。 本研究では,微分プライベート最適化アルゴリズムを用いて,プライバシの保護を訓練したハイブリッド量子古典モデルを開発した。 プライバシー保護QMLの実証実験はこれが初めてである。 実験により,QMLはモデル精度を低下させることなく,ユーザの感応情報を保護できることが実証された。 量子モデルは古典的なコンピュータ上でシミュレートされテストされるが、近未来の量子デバイス(ノイズのある中間スケール量子[NISQ])に効率的に実装される可能性を示す。 このアプローチの成功は、空間的に分類された2次元データセットとバイナリMNIST分類の分類によって示される。 このプライバシー保護QMLの実装は、NISQテクノロジの機密性と正確な学習を保証します。

Quantum machine learning (QML) can complement the growing trend of using learned models for a myriad of classification tasks, from image recognition to natural speech processing. A quantum advantage arises due to the intractability of quantum operations on a classical computer. Many datasets used in machine learning are crowd sourced or contain some private information. To the best of our knowledge, no current QML models are equipped with privacy-preserving features, which raises concerns as it is paramount that models do not expose sensitive information. Thus, privacy-preserving algorithms need to be implemented with QML. One solution is to make the machine learning algorithm differentially private, meaning the effect of a single data point on the training dataset is minimized. Differentially private machine learning models have been investigated, but differential privacy has yet to be studied in the context of QML. In this study, we develop a hybrid quantum-classical model that is trained to preserve privacy using differentially private optimization algorithm. This marks the first proof-of-principle demonstration of privacy-preserving QML. The experiments demonstrate that differentially private QML can protect user-sensitive information without diminishing model accuracy. Although the quantum model is simulated and tested on a classical computer, it demonstrates potential to be efficiently implemented on near-term quantum devices (noisy intermediate-scale quantum [NISQ]). The approach's success is illustrated via the classification of spatially classed two-dimensional datasets and a binary MNIST classification. This implementation of privacy-preserving QML will ensure confidentiality and accurate learning on NISQ technology.
翻訳日:2021-03-11 15:01:30 公開日:2021-03-10
# リバースエクスペリエンスリプレイを用いたストリーミング線形システム同定

Streaming Linear System Identification with Reverse Experience Replay ( http://arxiv.org/abs/2103.05896v1 )

ライセンス: Link先を確認
Prateek Jain, Suhas S Kowshik, Dheeraj Nagaraj, Praneeth Netrapalli(参考訳) ストリームアルゴリズムによる1つの軌道から確率的線形時間不変量(lti)力学系を推定する問題を考える。 この問題は、時系列解析で遭遇するベクトル自己回帰(VAR)モデルのパラメータを推定することと同等である(Hamilton (2020))。 最近の論文(Faradonbeh et al., 2018; Simchowitz et al., 2018; Sarkar and Rakhlin, 2019)では、通常の最小正方形(OLS)回帰を使用して、問題の最適な有限時間推定値を提供することができる。 しかし、このような手法はolsの最適なソリューションが利用可能なオフライン設定に適用できる。 しかし、強化学習(RL)で遭遇する多くの問題において、勾配オラクルを用いて囲碁上のパラメータを推定することが重要である。 Gy\orfi and Walk, 1996, Nagaraj et al., 2020) の相関データ点から確率勾配を用いる場合, SGD のような標準的な手法ではうまく機能しないため, この課題は困難である。 本研究では、RL文学(Lin, 1992)で普及した経験再生(ER)技術にインスパイアされた新しいアルゴリズムであるSGD with Reverse Experience Replay(SGD-RER)を提案する。 SGD-RERはデータを小さなバッファに分割し、個々のバッファに格納されたデータに対してSGDを後方に実行する。 このアルゴリズムは依存構造を正確に分解し、標準問題設定におけるパラメータ誤差と予測誤差の両方について理論的に最適な保証を得る。 したがって、線形システム同定の古典的問題であるVARモデル推定に対して、私たちの知る限り、最適なSGDスタイルのアルゴリズムを初めて提供する。 我々の研究は、オンライン手法でサンプル間の依存関係を最適に分解できるアルゴリズムの設計に、依存関係構造に関する知識が役立つことを示す。

We consider the problem of estimating a stochastic linear time-invariant (LTI) dynamical system from a single trajectory via streaming algorithms. The problem is equivalent to estimating the parameters of vector auto-regressive (VAR) models encountered in time series analysis (Hamilton (2020)). A recent sequence of papers (Faradonbeh et al., 2018; Simchowitz et al., 2018; Sarkar and Rakhlin, 2019) show that ordinary least squares (OLS) regression can be used to provide optimal finite time estimator for the problem. However, such techniques apply for offline setting where the optimal solution of OLS is available apriori. But, in many problems of interest as encountered in reinforcement learning (RL), it is important to estimate the parameters on the go using gradient oracle. This task is challenging since standard methods like SGD might not perform well when using stochastic gradients from correlated data points (Gy\"orfi and Walk, 1996; Nagaraj et al., 2020). In this work, we propose a novel algorithm, SGD with Reverse Experience Replay (SGD-RER), that is inspired by the experience replay (ER) technique popular in the RL literature (Lin, 1992). SGD-RER divides data into small buffers and runs SGD backwards on the data stored in the individual buffers. We show that this algorithm exactly deconstructs the dependency structure and obtains information theoretically optimal guarantees for both parameter error and prediction error for standard problem settings. Thus, we provide the first - to the best of our knowledge - optimal SGD-style algorithm for the classical problem of linear system identification aka VAR model estimation. Our work demonstrates that knowledge of dependency structure can aid us in designing algorithms which can deconstruct the dependencies between samples optimally in an online fashion.
翻訳日:2021-03-11 15:00:59 公開日:2021-03-10
# ヘテロジニアスデータからのパーソナライズされた治療効果推定のためのツリーベースフェデレーション学習手法

A Tree-based Federated Learning Approach for Personalized Treatment Effect Estimation from Heterogeneous Data Sources ( http://arxiv.org/abs/2103.06261v1 )

ライセンス: Link先を確認
Xiaoqing Tan, Chung-Chou H. Chang, Lu Tang(参考訳) フェデレーション学習は、データプライバシ保護のために分散ヘルスデータネットワークから機密データを分析するための魅力的なフレームワークである。 このフレームワークの下で、ローカルサイトのデータパートナーは、データの分散を保ちながら、コーディネートサイトのオーケストレーションの下で分析モデルを共同構築する。 しかし、既存のフェデレーション学習手法では、サイト間のデータは主に地球人口の均質なサンプルであると仮定しており、推定や推論においてサイト間の余分な変動を適切に説明できていない。 マルチホスピタル型電子健康記録ネットワーク上に描画し, サイト分割によるデータソースの不均一性を積極的にモデル化しながら, 医療現場全体での個人化治療効果推定装置の効率よく解釈可能なツリーベースアンサンブルを構築した。 本手法の効率性は, 酸素飽和が病院の死亡率に及ぼす影響を検討し, 総合的数値解析によって裏付けられた。

Federated learning is an appealing framework for analyzing sensitive data from distributed health data networks due to its protection of data privacy. Under this framework, data partners at local sites collaboratively build an analytical model under the orchestration of a coordinating site, while keeping the data decentralized. However, existing federated learning methods mainly assume data across sites are homogeneous samples of the global population, hence failing to properly account for the extra variability across sites in estimation and inference. Drawing on a multi-hospital electronic health records network, we develop an efficient and interpretable tree-based ensemble of personalized treatment effect estimators to join results across hospital sites, while actively modeling for the heterogeneity in data sources through site partitioning. The efficiency of our method is demonstrated by a study of causal effects of oxygen saturation on hospital mortality and backed up by comprehensive numerical results.
翻訳日:2021-03-11 15:00:28 公開日:2021-03-10
# コンピュータ診断のための深層学習と医用画像の特徴と臨床特徴の融合

Fusing Medical Image Features and Clinical Features with Deep Learning for Computer-Aided Diagnosis ( http://arxiv.org/abs/2103.05855v1 )

ライセンス: Link先を確認
Songxiao Yang, Xiabi Liu, Zhongshu Zheng, Wei Wang, Xiaohong Ma(参考訳) 現在のコンピュータ支援診断(CAD)方法は、主に医療画像に依存します。 実用的な臨床診断で考慮する必要がある臨床情報は、CADに完全に採用されていません。 本稿では,mri(mri)/ct画像と診断のための臨床情報を融合した深層学習に基づく新しい手法を提案する。 画像の特徴と臨床特徴を抽出する2つの神経層の経路が実行され、同時に、画像特徴の抽出を導くための注意として臨床特徴が使用される。 最後に、これらの2つの特徴は決定を下すために結合される。 本研究では,アルツハイマー病診断,軽度認知障害コンバータ予測,肝微小血管浸潤診断への応用について検討した。 本研究は, 臨床特徴によって導かれる画像特徴抽出値と, 診断性能を効果的かつ安定的に向上させる2種類の分類特徴の連結性を実証するものである。

Current Computer-Aided Diagnosis (CAD) methods mainly depend on medical images. The clinical information, which usually needs to be considered in practical clinical diagnosis, has not been fully employed in CAD. In this paper, we propose a novel deep learning-based method for fusing Magnetic Resonance Imaging (MRI)/Computed Tomography (CT) images and clinical information for diagnostic tasks. Two paths of neural layers are performed to extract image features and clinical features, respectively, and at the same time clinical features are employed as the attention to guide the extraction of image features. Finally, these two modalities of features are concatenated to make decisions. We evaluate the proposed method on its applications to Alzheimer's disease diagnosis, mild cognitive impairment converter prediction and hepatic microvascular invasion diagnosis. The encouraging experimental results prove the values of the image feature extraction guided by clinical features and the concatenation of two modalities of features for classification, which improve the performance of diagnosis effectively and stably.
翻訳日:2021-03-11 14:59:50 公開日:2021-03-10
# VideoMoCo: 時間的対比の例を用いた対比ビデオ表現学習

VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples ( http://arxiv.org/abs/2103.05905v1 )

ライセンス: Link先を確認
Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, and Wei Liu(参考訳) MoCoは教師なし画像表現学習に有効である。 本稿では,教師なし映像表現学習のためのVideoMoCoを提案する。 ビデオシーケンスを入力サンプルとして、MoCoの時系列特徴表現を2つの視点から改善します。 まず、このサンプルから時間的に複数のフレームをドロップアウトするジェネレータを導入する。 識別器は、フレーム削除に関係なく、類似した特徴表現を符号化する。 敵学習のトレーニングイテレーション中に異なるフレームを適応的に削除することで、この入力サンプルを拡張して時間的にロバストなエンコーダをトレーニングする。 第二に、コントラスト損失を計算する際に、時間減衰を用いてメモリキューのキー減衰をモデル化する。 キーエンキュー後にモーメントエンコーダが更新されると、コントラスト学習に現在の入力サンプルを使用すると、キーの表現能力が低下する。 この劣化は時間減衰によって反映され、入力サンプルに待ち行列の最近のキーに出席する。 その結果、経験的にプリテキストタスクを設計することなく、MoCoをビデオ表現の学習に適応します。 エンコーダの時間的ロバスト性を強化し,鍵の時間的減衰をモデル化することにより,ビデオモコはコントラスト学習に基づく時間的改善を行う。 UCF101およびHMDB51を含むベンチマークデータセットの実験は、VideoMoCoが最先端のビデオ表現学習方法として立っていることを示しています。

MoCo is effective for unsupervised image representation learning. In this paper, we propose VideoMoCo for unsupervised video representation learning. Given a video sequence as an input sample, we improve the temporal feature representations of MoCo from two perspectives. First, we introduce a generator to drop out several frames from this sample temporally. The discriminator is then learned to encode similar feature representations regardless of frame removals. By adaptively dropping out different frames during training iterations of adversarial learning, we augment this input sample to train a temporally robust encoder. Second, we use temporal decay to model key attenuation in the memory queue when computing the contrastive loss. As the momentum encoder updates after keys enqueue, the representation ability of these keys degrades when we use the current input sample for contrastive learning. This degradation is reflected via temporal decay to attend the input sample to recent keys in the queue. As a result, we adapt MoCo to learn video representations without empirically designing pretext tasks. By empowering the temporal robustness of the encoder and modeling the temporal decay of the keys, our VideoMoCo improves MoCo temporally based on contrastive learning. Experiments on benchmark datasets including UCF101 and HMDB51 show that VideoMoCo stands as a state-of-the-art video representation learning method.
翻訳日:2021-03-11 14:59:32 公開日:2021-03-10
# Tree-LSTM Aspect Sentiment Triplet Extraction (TASTE) の組成依存性について教えてください。

Tell Me Why You Feel That Way: Processing Compositional Dependency for Tree-LSTM Aspect Sentiment Triplet Extraction (TASTE) ( http://arxiv.org/abs/2103.05815v1 )

ライセンス: Link先を確認
A. Sutherland, S. Bensch, T. Hellstr\"om, S. Magg, S.Wermter(参考訳) 感情分析は、文全体の感情の分類から、文に存在するターゲット、個々のターゲットが持っている感情、その感情の原因となる因果語が何であるかのコンテキスト情報の提供へと移行しました。 しかし、これは、エンティティ、その感情、およびその感情のための因果的言葉を決定する共同三重項タスクでニューラルネットワークを訓練するために必要なデータセットに、精巧な要件が配置されています。 主観的なアノテーションの積み重ねやドメイン・オーバーフィッティングに悩まされ、新しいコンテキストで適用するとモデル一般化が悪くなるため、この種のデータをトレーニングシステムに必要なのは問題になります。 これらの問題は、将来的に追加のコンテキスト要素を共同で決定しようとすると複雑になる可能性もあります。 これらの問題を緩和するために,三重項学習データを必要としない文から,係り受け木-LSTMの合成感情解析構造と相補的記号規則を用いたハイブリッドニューラルシンボリック手法を提案する。 本手法は,必要なデータを単純化し,Tree-LSTMを通して解釈しやすさを提供するとともに,最先端の手法に則して実行可能であることを示す。

Sentiment analysis has transitioned from classifying the sentiment of an entire sentence to providing the contextual information of what targets exist in a sentence, what sentiment the individual targets have, and what the causal words responsible for that sentiment are. However, this has led to elaborate requirements being placed on the datasets needed to train neural networks on the joint triplet task of determining an entity, its sentiment, and the causal words for that sentiment. Requiring this kind of data for training systems is problematic, as they suffer from stacking subjective annotations and domain over-fitting leading to poor model generalisation when applied in new contexts. These problems are also likely to be compounded as we attempt to jointly determine additional contextual elements in the future. To mitigate these problems, we present a hybrid neural-symbolic method utilising a Dependency Tree-LSTM's compositional sentiment parse structure and complementary symbolic rules to correctly extract target-sentiment-cau se triplets from sentences without the need for triplet training data. We show that this method has the potential to perform in line with state-of-the-art approaches while also simplifying the data required and providing a degree of interpretability through the Tree-LSTM.
翻訳日:2021-03-11 14:58:50 公開日:2021-03-10
# 音声言語理解のための結果ベースのポータブルフレームワーク

A Result based Portable Framework for Spoken Language Understanding ( http://arxiv.org/abs/2103.06010v1 )

ライセンス: Link先を確認
Lizhi Cheng, Weijia Jia, Wenmian Yang(参考訳) タスク指向対話システムの中核的構成要素である音声言語理解(slu)は、シングルターン対話の研究において大きな進歩を遂げている。 しかし、既存のマルチターンSLU法は移植性が低く、他のシングルターンSLUモデルと互換性があるという意味では、マルチターン対話の性能は未だに満足できない。 さらに、既存のマルチターンSLU法は、現在の発話を予測する際に過去の予測結果を利用せず、有用な情報を無駄にします。 本稿では,これらの欠点を解消するために,RPFSLU (Result-based Portable Framework for SLU) を提案する。 RPFSLUは、ほとんどの既存のシングルターンSLUモデルがマルチターン対話からコンテキスト情報を取得し、現在の予測中の対話履歴における予測結果を最大限に活用します。 公開データセットKVRETの実験結果は、ベースライン内のすべてのSLUモデルがマルチターンSLUタスクでRPFSLUによって強化されることを示した。

Spoken language understanding (SLU), which is a core component of the task-oriented dialogue system, has made substantial progress in the research of single-turn dialogue. However, the performance in multi-turn dialogue is still not satisfactory in the sense that the existing multi-turn SLU methods have low portability and compatibility for other single-turn SLU models. Further, existing multi-turn SLU methods do not exploit the historical predicted results when predicting the current utterance, which wastes helpful information. To gap those shortcomings, in this paper, we propose a novel Result-based Portable Framework for SLU (RPFSLU). RPFSLU allows most existing single-turn SLU models to obtain the contextual information from multi-turn dialogues and takes full advantage of predicted results in the dialogue history during the current prediction. Experimental results on the public dataset KVRET have shown that all SLU models in baselines acquire enhancement by RPFSLU on multi-turn SLU tasks.
翻訳日:2021-03-11 14:58:27 公開日:2021-03-10
# バイオメディカルテキストによる因果関係の知識に基づく抽出

Knowledge-based Extraction of Cause-Effect Relations from Biomedical Text ( http://arxiv.org/abs/2103.06078v1 )

ライセンス: Link先を確認
Sachin Pawar, Ravina More, Girish K. Palshikar, Pushpak Bhattacharyya, Vasudeva Varma(参考訳) バイオメディカルテキストから因果関係(CE)を抽出するための知識に基づくアプローチを提案する。 提案手法は,因果トリガを発見するための教師なし機械学習手法と,これらの因果トリガの原因/効果引数を識別するための高精度言語規則の組み合わせを組み合わせたものである。 568,528文からなる58,761個の白血病関連PubMed抽象語を用いたアプローチの評価を行った。 このコーパスから152,655ceのトリプレットを抽出でき、それぞれのトリプレットが原因フレーズ、効果フレーズ、因果トリガーで構成されている。 既存の知識ベースであるSemMedDB (Kilicoglu et al., 2012)と比較して、抽出数はおよそ2倍である。 さらに提案手法は500文のデータセット上で既存のSemRep(Rindflesch and Fiszman, 2003)よりも優れていた。

We propose a knowledge-based approach for extraction of Cause-Effect (CE) relations from biomedical text. Our approach is a combination of an unsupervised machine learning technique to discover causal triggers and a set of high-precision linguistic rules to identify cause/effect arguments of these causal triggers. We evaluate our approach using a corpus of 58,761 Leukaemia-related PubMed abstracts consisting of 568,528 sentences. We could extract 152,655 CE triplets from this corpus where each triplet consists of a cause phrase, an effect phrase and a causal trigger. As compared to the existing knowledge base - SemMedDB (Kilicoglu et al., 2012), the number of extractions are almost twice. Moreover, the proposed approach outperformed the existing technique SemRep (Rindflesch and Fiszman, 2003) on a dataset of 500 sentences.
翻訳日:2021-03-11 14:58:10 公開日:2021-03-10
# エンティティとリレーションを共同で抽出するテクニック:調査

Techniques for Jointly Extracting Entities and Relations: A Survey ( http://arxiv.org/abs/2103.06118v1 )

ライセンス: Link先を確認
Sachin Pawar, Pushpak Bhattacharyya, Girish K. Palshikar(参考訳) 関係抽出は情報抽出において重要なタスクであり、エンティティ参照間の意味関係の識別を扱う。 伝統的に、関係抽出は「パイプライン」の方法でエンティティ抽出後に行われるので、関係抽出は、抽出されたエンティティの対の間に意味的関係が存在するかどうかを決定することだけに焦点を当てる。 これにより、エンティティ抽出段階から関係抽出段階へエラーが伝播する。 また、実体抽出は関係についての知識なしに行われます。 したがって, エンティティと関係抽出を共同で行うことは, 両者にとって有益であることがわかった。 本稿では,エンティティと関係を共同で抽出する様々な手法について検討する。 我々は,共同抽出に採用する手法,すなわち関節抽出の手法を分類する。 共同推論や共同モデリング、あるいは両方を採用するかどうか。 さらに,ジョイント推論とジョイントモデリングの代表的な手法について述べる。 また,これらのデータセットに対する統合抽出手法の評価手法と性能について述べる。 本稿では,一般領域共同抽出手法のバイオメディカルデータセットへの応用について簡単な解析を行った。 本調査は, 共同抽出手法の広い視野をカバーすることで, 情報抽出分野の研究者や実践者にとって有用である。

Relation Extraction is an important task in Information Extraction which deals with identifying semantic relations between entity mentions. Traditionally, relation extraction is carried out after entity extraction in a "pipeline" fashion, so that relation extraction only focuses on determining whether any semantic relation exists between a pair of extracted entity mentions. This leads to propagation of errors from entity extraction stage to relation extraction stage. Also, entity extraction is carried out without any knowledge about the relations. Hence, it was observed that jointly performing entity and relation extraction is beneficial for both the tasks. In this paper, we survey various techniques for jointly extracting entities and relations. We categorize techniques based on the approach they adopt for joint extraction, i.e. whether they employ joint inference or joint modelling or both. We further describe some representative techniques for joint inference and joint modelling. We also describe two standard datasets, evaluation techniques and performance of the joint extraction approaches on these datasets. We present a brief analysis of application of a general domain joint extraction approach to a Biomedical dataset. This survey is useful for researchers as well as practitioners in the field of Information Extraction, by covering a broad landscape of joint extraction techniques.
翻訳日:2021-03-11 14:57:54 公開日:2021-03-10
# 複素スケジューリング問題に対する2段階フレームワークと強化学習に基づく最適化アルゴリズム

A Two-stage Framework and Reinforcement Learning-based Optimization Algorithms for Complex Scheduling Problems ( http://arxiv.org/abs/2103.05847v1 )

ライセンス: Link先を確認
Yongming He, Guohua Wu, Yingwu Chen and Witold Pedrycz(参考訳) 多様性と複雑性のため、スケジューリングに効率的である一般的な解法はほとんど存在しない。 本研究では、強化学習(RL)と従来の運用研究(OR)のアルゴリズムを組み合わせ、複雑なスケジューリング問題に効率的に対処する2段階のフレームワークを開発する。 スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。 MDPはRLメソッドを通じて元の問題の検索空間を狭くし、混合整数プログラミングプロセスはORアルゴリズムによって解決される。 これら2つの段階は、終了基準が満たされるまで反復的にインタラクティブに行われる。 この考えの下では、RLとORの組み合わせ方法の2つの実装バージョンが提案される。 アジャイル地球観測衛星スケジューリング問題は、提案されたスケジューリングフレームワークと方法の有効性を示す例として選択される。 手法の収束と一般化能力は訓練シナリオの性能によって検証され、効率と精度は50の未訓練シナリオで検証される。 その結果,提案手法は,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。 さらに、RLに基づく最適化アルゴリズムは、非学習アルゴリズムよりもスケーラビリティが強いことが分かる。 本研究は,強化学習法とヒューリスティック法,数理計画法を組み合わせた複合組合せ最適化問題を解く利点を明らかにした。

There hardly exists a general solver that is efficient for scheduling problems due to their diversity and complexity. In this study, we develop a two-stage framework, in which reinforcement learning (RL) and traditional operations research (OR) algorithms are combined together to efficiently deal with complex scheduling problems. The scheduling problem is solved in two stages, including a finite Markov decision process (MDP) and a mixed-integer programming process, respectively. This offers a novel and general paradigm that combines RL with OR approaches to solving scheduling problems, which leverages the respective strengths of RL and OR: The MDP narrows down the search space of the original problem through an RL method, while the mixed-integer programming process is settled by an OR algorithm. These two stages are performed iteratively and interactively until the termination criterion has been met. Under this idea, two implementation versions of the combination methods of RL and OR are put forward. The agile Earth observation satellite scheduling problem is selected as an example to demonstrate the effectiveness of the proposed scheduling framework and methods. The convergence and generalization capability of the methods are verified by the performance of training scenarios, while the efficiency and accuracy are tested in 50 untrained scenarios. The results show that the proposed algorithms could stably and efficiently obtain satisfactory scheduling schemes for agile Earth observation satellite scheduling problems. In addition, it can be found that RL-based optimization algorithms have stronger scalability than non-learning algorithms. This work reveals the advantage of combining reinforcement learning methods with heuristic methods or mathematical programming methods for solving complex combinatorial optimization problems.
翻訳日:2021-03-11 14:57:39 公開日:2021-03-10
# Manifold Regularized Dynamic Network Pruning

Manifold Regularized Dynamic Network Pruning ( http://arxiv.org/abs/2103.05861v1 )

ライセンス: Link先を確認
Yehui Tang, Yunhe Wang, Yixing Xu, Yiping Deng, Chao Xu, Dacheng Tao, Chang Xu(参考訳) ニューラルネットワークプルーニングは、深層モデルの計算の複雑さを低減し、リソース制限のあるデバイスに適切にデプロイするために不可欠なアプローチです。 従来の方法と比較して,最近開発された動的プルーニング法は,各入力インスタンスに対する冗長フィルタの変種を判定し,高い高速化を実現する。 既存の手法の多くは、各インスタンスの有効なサブネットワークを独立して発見し、異なる入力間の関係を利用しない。 与えられたネットワークアーキテクチャにおける冗長性を最大限に掘り下げるために,全てのインスタンスの多様体情報をプルーンネットワーク(manidp)の空間に埋め込むことで冗長フィルタを動的に除去する新しいパラダイムを提案する。 まず,学習セット内の画像間の認識複雑性と特徴類似性について検討する。 その後、インスタンスとprunedサブネットワーク間のマニホールド関係は、トレーニング手順に整列されます。 提案手法の有効性をいくつかのベンチマークで検証し,最先端手法と比較して精度と計算コストの両面で優れた性能を示した。 例えば、ResNet-34 の 55.3% FLOP を、ImageNet の 0.57% トップ-1 の精度劣化で削減できます。

Neural network pruning is an essential approach for reducing the computational complexity of deep models so that they can be well deployed on resource-limited devices. Compared with conventional methods, the recently developed dynamic pruning methods determine redundant filters variant to each input instance which achieves higher acceleration. Most of the existing methods discover effective sub-networks for each instance independently and do not utilize the relationship between different inputs. To maximally excavate redundancy in the given network architecture, this paper proposes a new paradigm that dynamically removes redundant filters by embedding the manifold information of all instances into the space of pruned networks (dubbed as ManiDP). We first investigate the recognition complexity and feature similarity between images in the training set. Then, the manifold relationship between instances and the pruned sub-networks will be aligned in the training procedure. The effectiveness of the proposed method is verified on several benchmarks, which shows better performance in terms of both accuracy and computational cost compared to the state-of-the-art methods. For example, our method can reduce 55.3% FLOPs of ResNet-34 with only 0.57% top-1 accuracy degradation on ImageNet.
翻訳日:2021-03-11 14:56:00 公開日:2021-03-10
# 軌跡マッピングを用いたマグロの栄養管理と養殖魚槽への応用

Tuna Nutriment Tracking using Trajectory Mapping in Application to Aquaculture Fish Tank ( http://arxiv.org/abs/2103.05886v1 )

ライセンス: Link先を確認
Hilmil Pradana and Keiichi Horio(参考訳) 魚の供給のコストは、通常、総生産コストの約40%です。 タンク内の魚の状態を推定し、栄養素の量を調整することは、魚の給餌システムのコスト管理に重要な役割を担っている。 本手法は,養殖魚養殖場から採取したビデオの栄養状態の追跡に基づく。 追跡アプローチは、魚の行動についてより理解するために栄養の移動を認識するために適用されます。 近年,物体のより正確かつ高速な判定を行うトラッキングアルゴリズムの開発に注目する研究者が増えている。 残念なことに、最近の研究では、複雑な関係を持つ複数の物体の効率的で堅牢な追跡は未解決のままである。 したがって、水産養殖における追跡アルゴリズムの開発に注力することは、追跡対象には多くの水生生物が存在するため、より困難である。 上記の問題に追従することにより,実環境データセットにおいて一貫して機能する古典的最小コスト問題に基づくマグロ栄養トラッキングを開発する。 提案手法は平均誤差距離と標準偏差に対して21.32ピクセルと3.8ピクセルを達成した。 ヒトの注釈者によるデータに基づく定量的評価により,本手法は養殖魚の養殖に有用であり,実環境データセットにも広く適用可能であることが示された。

The cost of fish feeding is usually around 40 percent of total production cost. Estimating a state of fishes in a tank and adjusting an amount of nutriments play an important role to manage cost of fish feeding system. Our approach is based on tracking nutriments on videos collected from an active aquaculture fish farm. Tracking approach is applied to acknowledge movement of nutriment to understand more about the fish behavior. Recently, there has been increasing number of researchers focused on developing tracking algorithms to generate more accurate and faster determination of object. Unfortunately, recent studies have shown that efficient and robust tracking of multiple objects with complex relations remain unsolved. Hence, focusing to develop tracking algorithm in aquaculture is more challenging because tracked object has a lot of aquatic variant creatures. By following aforementioned problem, we develop tuna nutriment tracking based on the classical minimum cost problem which consistently performs well in real environment datasets. In evaluation, the proposed method achieved 21.32 pixels and 3.08 pixels for average error distance and standard deviation, respectively. Quantitative evaluation based on the data generated by human annotators shows that the proposed method is valuable for aquaculture fish farm and can be widely applied to real environment datasets.
翻訳日:2021-03-11 14:55:43 公開日:2021-03-10
# 低レベルビジョンタスクに対するCOPY-BLEND Augmentationの評価

Evaluating COPY-BLEND Augmentation for Low Level Vision Tasks ( http://arxiv.org/abs/2103.05889v1 )

ライセンス: Link先を確認
Pranjay Shyam, Sandeep Singh Sengar, Kuk-Jin Yoon, Kyung-Soo Kim(参考訳) 領域修正に基づくデータ拡張技術により、高レベルの視覚タスク(オブジェクト検出、セマンティックセグメンテーション、画像分類など)の性能向上が示されている。 基盤となるアルゴリズムに、複数の識別機能に焦点を当てるように促す。 しかし、これらの技術は近隣地域との空間的関係を損なうため、低レベルの視覚タスク用に設計されたアルゴリズム(低照度画像強調、画像のデハージング、デブロアリングなど)を訓練する際に性能を低下させることができる。 回復した地域とその周辺地域のテキストの整合性は 効果的な性能を確保するために重要です 本論文では、ノイズの多い画像からパッチをコピーし、クリーンな画像にブレンドする単純なコピーブレンドデータ拡張技術の有効性を検討し、基礎となるアルゴリズムが影響を受けた領域をローカライズし、復元された画像の知覚的品質を高めることを保証する。 性能改善を評価するために,異なる領域修正に基づく拡張手法とともに広範囲な実験を行い,性能改善,データセットのトレーニング要件の削減,低光度画像強調,画像デハジング,画像デブラリングなどのタスク間の早期収束など,ベースラインアルゴリズムの変更を伴わずに報告を行う。

Region modification-based data augmentation techniques have shown to improve performance for high level vision tasks (object detection, semantic segmentation, image classification, etc.) by encouraging underlying algorithms to focus on multiple discriminative features. However, as these techniques destroy spatial relationship with neighboring regions, performance can be deteriorated when using them to train algorithms designed for low level vision tasks (low light image enhancement, image dehazing, deblurring, etc.) where textural consistency between recovered and its neighboring regions is important to ensure effective performance. In this paper, we examine the efficacy of a simple copy-blend data augmentation technique that copies patches from noisy images and blends onto a clean image and vice versa to ensure that an underlying algorithm localizes and recovers affected regions resulting in increased perceptual quality of a recovered image. To assess performance improvement, we perform extensive experiments alongside different region modification-based augmentation techniques and report observations such as improved performance, reduced requirement for training dataset, and early convergence across tasks such as low light image enhancement, image dehazing and image deblurring without any modification to baseline algorithm.
翻訳日:2021-03-11 14:55:22 公開日:2021-03-10
# ES-Net:再識別でもっと学ぶための好意的な部分

ES-Net: Erasing Salient Parts to Learn More in Re-Identification ( http://arxiv.org/abs/2103.05918v1 )

ライセンス: Link先を確認
Dong Shen, Shuai Zhao, Jinming Hu, Hao Feng, Deng Cai, Xiaofei He(参考訳) インスタンスレベルの認識問題として、再識別(re-ID)には多様な機能をキャプチャするモデルが必要である。 しかし、継続的なトレーニングでは、再IDモデルは、過度の領域にますます注意を払っています。 結果として、モデルは少数の小さな領域のみにのみ注目し、他の重要な情報を無視することができる。 この現象は、特に小さな個体間変動データでモデルを評価する場合、性能を低下させる。 本論文では, 画像中のサラエント領域を消去し, 包括的な特徴を学習するためのネットワークであるES-Netを提案する。 ES-Netは、オブジェクトの信頼度を基準とし、トレーニングバッチ内で効率よくそれらを消去する新しい手法を提案する。 一方, オーバーラッシング問題を緩和するために, グローバルマックスとグローバル平均プールを一般化するトレーニング可能なプール層Pプーリングを用いる。 実験は2つの特定の再識別タスク(Person re-ID, Vehicle re-ID)で行われる。 ES-Netは3つのPerson re-IDベンチマークと2つのVine re-IDベンチマークで最先端の手法より優れています。 具体的には、mAP / Rank-1レート:Market1501の88.6% / 95.7%、DuckMTMC-reIDの78.8% / 89.2%、MSMT17の57.3% / 80.9%、Veri-776の81.9% / 97.0%。 ランク1/ランク5: 83.6% / 96.9% on VehicleID (Small)、79.9% / 93.5% on VehicleID (Medium)、76.9% / 90.7% on VehicleID (Large)。 さらに,視認されたサルエント領域は,ランキング結果に対する人間解釈可能な視覚的な説明を示す。

As an instance-level recognition problem, re-identification (re-ID) requires models to capture diverse features. However, with continuous training, re-ID models pay more and more attention to the salient areas. As a result, the model may only focus on few small regions with salient representations and ignore other important information. This phenomenon leads to inferior performance, especially when models are evaluated on small inter-identity variation data. In this paper, we propose a novel network, Erasing-Salient Net (ES-Net), to learn comprehensive features by erasing the salient areas in an image. ES-Net proposes a novel method to locate the salient areas by the confidence of objects and erases them efficiently in a training batch. Meanwhile, to mitigate the over-erasing problem, this paper uses a trainable pooling layer P-pooling that generalizes global max and global average pooling. Experiments are conducted on two specific re-identification tasks (i.e., Person re-ID, Vehicle re-ID). Our ES-Net outperforms state-of-the-art methods on three Person re-ID benchmarks and two Vehicle re-ID benchmarks. Specifically, mAP / Rank-1 rate: 88.6% / 95.7% on Market1501, 78.8% / 89.2% on DuckMTMC-reID, 57.3% / 80.9% on MSMT17, 81.9% / 97.0% on Veri-776, respectively. Rank-1 / Rank-5 rate: 83.6% / 96.9% on VehicleID (Small), 79.9% / 93.5% on VehicleID (Medium), 76.9% / 90.7% on VehicleID (Large), respectively. Moreover, the visualized salient areas show human-interpretable visual explanations for the ranking results.
翻訳日:2021-03-11 14:54:59 公開日:2021-03-10
# MapFusion: HDMapによる3Dオブジェクト検出のための汎用フレームワーク

MapFusion: A General Framework for 3D Object Detection with HDMaps ( http://arxiv.org/abs/2103.05929v1 )

ライセンス: Link先を確認
Jin Fang, Dingfu Zhou, Xibin Song, Liangjun Zhang(参考訳) 3Dオブジェクト検出は、自動運転における重要な認識コンポーネントです。 最近のアプローチは、Lidarセンサーのみに基づいており、カメラで融合している。 しかし、インテリジェントな車両の基本的なインフラであるマップ(High Definition Mapsなど)は、物体検出タスクの強化にあまり使われていない。 本稿では,地図情報を現代の3Dオブジェクト検出器パイプラインに統合する簡易かつ効果的なフレームワークであるMapFusionを提案する。 特に,hdマップの特徴抽出と融合のためのfeatureaggモジュールと,検出バックボーンのための補助セグメンテーションヘッドとしてmapegモジュールを設計した。 提案するmapfusionは検出器独立であり,様々な検出器に容易に統合できる。 大規模な公道走行データセットに対する3つの異なるベースラインの実験結果は、提案フレームワークの優位性を示している。 マップ情報を融合することにより、3つの強力な3dオブジェクト検出ベースラインで平均精度(map)が1.27ポイントから2.79ポイント向上する。

3D object detection is a key perception component in autonomous driving. Most recent approaches are based on Lidar sensors only or fused with cameras. Maps (e.g., High Definition Maps), a basic infrastructure for intelligent vehicles, however, have not been well exploited for boosting object detection tasks. In this paper, we propose a simple but effective framework - MapFusion to integrate the map information into modern 3D object detector pipelines. In particular, we design a FeatureAgg module for HD Map feature extraction and fusion, and a MapSeg module as an auxiliary segmentation head for the detection backbone. Our proposed MapFusion is detector independent and can be easily integrated into different detectors. The experimental results of three different baselines on large public autonomous driving dataset demonstrate the superiority of the proposed framework. By fusing the map information, we can achieve 1.27 to 2.79 points improvements for mean Average Precision (mAP) on three strong 3d object detection baselines.
翻訳日:2021-03-11 14:54:27 公開日:2021-03-10
# AttaNet: 高速かつ正確なシーン解析のための注意強化ネットワーク

AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing ( http://arxiv.org/abs/2103.05930v1 )

ライセンス: Link先を確認
Qi Song and Kangfu Mei and Rui Huang(参考訳) セマンティックセグメンテーションモデルのパフォーマンスには、グローバルコンテキストとマルチレベルセマンティクスという2つの要素が非常に重要です。 しかし、両方の要素をキャプチャする特徴を生成することは、常に高い計算複雑性をもたらすため、リアルタイムシナリオでは問題となる。 本稿では,AttaNet(Attention-A ugmented Network)と呼ばれる新しいモデルを提案し,効率を高く保ちながら,グローバルコンテキストとマルチレベルセマンティクスの両方をキャプチャする。 AttaNetは、Strip Attention Module (SAM) と Attention Fusion Module (AFM) の2つの主要なモジュールで構成されている。 分割精度の低い挑戦画像では、水平領域よりも垂直領域の方がはるかに多く、SAMはストリップ操作を用いて、非局所的なアプローチに比べて、文脈情報のほとんどを保持しながら、垂直方向にグローバルコンテキストを符号化する複雑さを劇的に低減する。 さらに、AFMは計算を制限するためのクロスレベルアグリゲーション戦略に従い、各画素の異なるレベルの機能の重要性を重み付けるための注意戦略を採用し、効率的なマルチレベル表現を得ます。 2つのセマンティクスセグメンテーションベンチマークについて広範な実験を行い,71fps/79.9%miou,130 fps/78.5%miou,180fps /70.1%miouなど,都市景観における速度/精度トレードオフの異なるレベルを達成し,ade20kにおけるパフォーマンスも向上した。

Two factors have proven to be very important to the performance of semantic segmentation models: global context and multi-level semantics. However, generating features that capture both factors always leads to high computational complexity, which is problematic in real-time scenarios. In this paper, we propose a new model, called Attention-Augmented Network (AttaNet), to capture both global context and multilevel semantics while keeping the efficiency high. AttaNet consists of two primary modules: Strip Attention Module (SAM) and Attention Fusion Module (AFM). Viewing that in challenging images with low segmentation accuracy, there are a significantly larger amount of vertical strip areas than horizontal ones, SAM utilizes a striping operation to reduce the complexity of encoding global context in the vertical direction drastically while keeping most of contextual information, compared to the non-local approaches. Moreover, AFM follows a cross-level aggregation strategy to limit the computation, and adopts an attention strategy to weight the importance of different levels of features at each pixel when fusing them, obtaining an efficient multi-level representation. We have conducted extensive experiments on two semantic segmentation benchmarks, and our network achieves different levels of speed/accuracy trade-offs on Cityscapes, e.g., 71 FPS/79.9% mIoU, 130 FPS/78.5% mIoU, and 180 FPS/70.1% mIoU, and leading performance on ADE20K as well.
翻訳日:2021-03-11 14:54:13 公開日:2021-03-10
# イベントベース視覚オドメトリーの時空間登録

Spatiotemporal Registration for Event-based Visual Odometry ( http://arxiv.org/abs/2103.05955v1 )

ライセンス: Link先を確認
Daqi Liu Alvaro Parra and Tat-Jun Chin(参考訳) イベントセンシングの有用な応用は、特に高時間分解能を必要とする設定において視覚計測である。 コントラスト最大化の最先端手法は、歪んだイベントの画像のコントラストを最大化することにより、一連のイベントから動きを回復する。 しかし、画像解像度と時間分解能のコストスケールは、コントラスト画像に十分な構造を与えるために大きなバッチサイズを必要とするため、制限することができる。 本研究では,イベントベース回転運動推定手法として時空間登録を提案する。 私たちは理論的にアプローチを正当化し、コントラスト最大化よりも基本的で実用的な利点を確立します。 特に、時空間登録は副産物として特徴トラックも生成し、グラフベースの平均運動の最適化により、効率的な視覚オドメトリーパイプラインを直接サポートします。 当社のビジュアルドオドメトリーパイプラインのシンプルさにより、毎秒1M以上のイベントを処理できます。 また,高精度ロボットアームを用いて,速度変動が大きい動き列を取得するビジュアルオドメトリーのための新しいイベントデータセットも提供した。

A useful application of event sensing is visual odometry, especially in settings that require high-temporal resolution. The state-of-the-art method of contrast maximisation recovers the motion from a batch of events by maximising the contrast of the image of warped events. However, the cost scales with image resolution and the temporal resolution can be limited by the need for large batch sizes to yield sufficient structure in the contrast image. In this work, we propose spatiotemporal registration as a compelling technique for event-based rotational motion estimation. We theoretcally justify the approach and establish its fundamental and practical advantages over contrast maximisation. In particular, spatiotemporal registration also produces feature tracks as a by-product, which directly supports an efficient visual odometry pipeline with graph-based optimisation for motion averaging. The simplicity of our visual odometry pipeline allows it to process more than 1 M events/second. We also contribute a new event dataset for visual odometry, where motion sequences with large velocity variations were acquired using a high-precision robot arm.
翻訳日:2021-03-11 14:53:40 公開日:2021-03-10
# 自己スーパービジョンを超えて:バックボーンを改善するためのシンプルで効果的なネットワーク蒸留方法

Beyond Self-Supervision: A Simple Yet Effective Network Distillation Alternative to Improve Backbones ( http://arxiv.org/abs/2103.05959v1 )

ライセンス: Link先を確認
Cheng Cui and Ruoyu Guo and Yuning Du and Dongliang He and Fu Li and Zewu Wu and Qiwen Liu and Shilei Wen and Jizhou Huang and Xiaoguang Hu and Dianhai Yu and Errui Ding and Yanjun Ma(参考訳) 近年,事前学習モデルがニューラルネットワークの性能にどのように影響するかを明らかにする研究が進められている。 自己スーパービジョンと半教師付き学習技術はコミュニティによって広く研究されており、強力な事前学習モデルを得る上で大きな可能性を秘めている。 しかし、これらのモデルは膨大なトレーニングコスト(何億ものイメージやトレーニングイテレーション)を必要とします。 本論文では,既設の大規模モデルから知識蒸留を行い,既存のベースラインネットワークを改善することを提案する。 教師モデルが生成するソフトラベルと人による注釈付きハードラベルの両方に整合性を持たなければならない既存の知識蒸留フレームワークとは異なり,本ソリューションは,教師モデルと整合性のある生徒モデルの予測のみを駆動することによって蒸留を行う。 それゆえ、我々の蒸留設定は手作業でラベル付けされたデータを取り除き、教師モデルの能力を最大限活用するために追加のラベル付きデータで訓練することができる。 例えば、MobileNetV3-largeとResNet50-DのImageNet-1k検証セットのtop-1精度は、それぞれ75.2%から79%、79.1%から83%に大幅に改善することができる。 また,蒸留性能に影響を及ぼす主要因と,その効果の違いについても徹底的に分析した。 転送学習、オブジェクト検出、セマンティックセグメンテーションを含む広範な下流コンピュータビジョンタスクは、蒸留された事前訓練されたモデルから大幅に利益を得ることができます。 すべての実験はPaddlePaddleに基づいて実施されており、コードとssld接尾辞付き事前訓練モデルのシリーズはPaddleClasで利用可能である。

Recently, research efforts have been concentrated on revealing how pre-trained model makes a difference in neural network performance. Self-supervision and semi-supervised learning technologies have been extensively explored by the community and are proven to be of great potential in obtaining a powerful pre-trained model. However, these models require huge training costs (i.e., hundreds of millions of images or training iterations). In this paper, we propose to improve existing baseline networks via knowledge distillation from off-the-shelf pre-trained big powerful models. Different from existing knowledge distillation frameworks which require student model to be consistent with both soft-label generated by teacher model and hard-label annotated by humans, our solution performs distillation by only driving prediction of the student model consistent with that of the teacher model. Therefore, our distillation setting can get rid of manually labeled data and can be trained with extra unlabeled data to fully exploit capability of teacher model for better learning. We empirically find that such simple distillation settings perform extremely effective, for example, the top-1 accuracy on ImageNet-1k validation set of MobileNetV3-large and ResNet50-D can be significantly improved from 75.2% to 79% and 79.1% to 83%, respectively. We have also thoroughly analyzed what are dominant factors that affect the distillation performance and how they make a difference. Extensive downstream computer vision tasks, including transfer learning, object detection and semantic segmentation, can significantly benefit from the distilled pretrained models. All our experiments are implemented based on PaddlePaddle, codes and a series of improved pretrained models with ssld suffix are available in PaddleClas.
翻訳日:2021-03-11 14:53:24 公開日:2021-03-10
# 適応的セット予測としてのHOI検出の修正

Reformulating HOI Detection as Adaptive Set Prediction ( http://arxiv.org/abs/2103.05983v1 )

ライセンス: Link先を確認
Mingfei Chen, Yue Liao, Si Liu, Zhiyuan Chen, Fei Wang, Chen Qian(参考訳) HOI(Human-Object Interaction)検出では、どの画像領域に集中すべきかを決定することが重要です。 従来のHOI検出器は、検出された人間と物体のペアか、あるいは事前に定義された相互作用位置に焦点を合わせ、効果的な特徴の学習を制限する。 本稿では,hoi検出を適応集合予測問題として再構成し,並列インスタンスとインタラクションブランチを用いた適応集合型一段階フレームワーク(as-net)を提案する。 これを達成するために、トレーニング可能なインタラクションクエリセットをトランスとのインタラクション予測セットにマップします。 各クエリは、マルチヘッドコアテンションを通じて、グローバルコンテキストから対話関連機能を適応的に集約する。 また、各接地面と相互作用予測とを一致させることにより、訓練過程を適応的に監視する。 さらに、インスタンスブランチからインタラクションブランチにインストラクティブ機能を導入するための効果的なインスタンス認識アテンションモジュールを設計する。 3つの難しいHOI検出データセットに、人間のポーズや言語機能を追加することなく、従来の最先端のメソッドを上回ります。 特に、大規模なHICO-DETデータセットで331\%$の相対的な改善を達成しています。 コードはhttps://github.com/y oyomimi/AS-Netで入手できる。

Determining which image regions to concentrate on is critical for Human-Object Interaction (HOI) detection. Conventional HOI detectors focus on either detected human and object pairs or pre-defined interaction locations, which limits learning of the effective features. In this paper, we reformulate HOI detection as an adaptive set prediction problem, with this novel formulation, we propose an Adaptive Set-based one-stage framework (AS-Net) with parallel instance and interaction branches. To attain this, we map a trainable interaction query set to an interaction prediction set with a transformer. Each query adaptively aggregates the interaction-relevant features from global contexts through multi-head co-attention. Besides, the training process is supervised adaptively by matching each ground-truth with the interaction prediction. Furthermore, we design an effective instance-aware attention module to introduce instructive features from the instance branch into the interaction branch. Our method outperforms previous state-of-the-art methods without any extra human pose and language features on three challenging HOI detection datasets. Especially, we achieve over $31\%$ relative improvement on a large scale HICO-DET dataset. Code is available at https://github.com/y oyomimi/AS-Net.
翻訳日:2021-03-11 14:52:54 公開日:2021-03-10
# セルフスーパービジョンによるフェーショット学習のためのマルチプレテキストアテンションネットワーク

Multi-Pretext Attention Network for Few-shot Learning with Self-supervision ( http://arxiv.org/abs/2103.05985v1 )

ライセンス: Link先を確認
Hainan Li, Renshuai Tao, Jun Li, Haotong Qin, Yifu Ding, Shuo Wang and Xianglong Liu(参考訳) 少ないショット学習は興味深い、そして難しい研究であり、機械は人間のような少数のサンプルから学習することができる。 既存の研究では、大量のラベルのないデータから補助情報を利用することは滅多にない。 教師なし学習はラベルなしデータを利用する効率的な手法として出現する。 既存の自己教師あり学習法は、常に増補によって単一のサンプルの幾何学的変換の組み合わせに依存するが、タスクにとって同じ重要な異なるサンプル間の内在的相関情報を真剣に無視する。 本研究では,補助サンプルに依存しず,入力サンプル間の内在的相関情報を利用する,自己教師付き学習のための新しい拡張フリー手法であるグラフ駆動クラスタリング(gc)を提案する。 さらに,従来の拡張信頼手法とGCを組み合わせた特定の注意機構を利用して,最適化した重みを適応的に学習し,性能を向上し,特徴抽出器がより普遍的な表現を得られるようにするマルチテキスト注意ネットワーク(MAN)を提案する。 miniImageNetおよびtieredImageNetデータセット上でMANを幅広く評価し、提案手法が最新(SOTA)関連手法より優れていることを実証した。

Few-shot learning is an interesting and challenging study, which enables machines to learn from few samples like humans. Existing studies rarely exploit auxiliary information from large amount of unlabeled data. Self-supervised learning is emerged as an efficient method to utilize unlabeled data. Existing self-supervised learning methods always rely on the combination of geometric transformations for the single sample by augmentation, while seriously neglect the endogenous correlation information among different samples that is the same important for the task. In this work, we propose a Graph-driven Clustering (GC), a novel augmentation-free method for self-supervised learning, which does not rely on any auxiliary sample and utilizes the endogenous correlation information among input samples. Besides, we propose Multi-pretext Attention Network (MAN), which exploits a specific attention mechanism to combine the traditional augmentation-relied methods and our GC, adaptively learning their optimized weights to improve the performance and enabling the feature extractor to obtain more universal representations. We evaluate our MAN extensively on miniImageNet and tieredImageNet datasets and the results demonstrate that the proposed method outperforms the state-of-the-art (SOTA) relevant methods.
翻訳日:2021-03-11 14:52:35 公開日:2021-03-10
# ヒューマンパースのための品質認識ネットワーク

Quality-Aware Network for Human Parsing ( http://arxiv.org/abs/2103.05997v1 )

ライセンス: Link先を確認
Lu Yang and Qing Song and Zhihui Wang and Zhiwei Liu and Songcen Xu and Zhihao Li(参考訳) ネットワーク出力の品質を推定する方法は重要な問題であり、現在、人間の解析の分野で効果的なソリューションはありません。 この問題を解決するために,出力確率マップに基づく統計手法を提案し,画素スコアと呼ばれる画素品質情報を算出する。 また,QAM(Quality-Aware Module)は,人間の解析結果の質を推定するために,異なる品質情報を融合するために提案されている。 QAMと簡潔で効果的なネットワーク設計を組み合わせて、人間の解析のための品質認識ネットワーク(QANet)を提案します。 QAMとQANetの優位性により、CIHP、MHP-v2、Pascal-Person-Part、LIPを含む3つの複数および1つのヒューマンパーシングベンチマークで最高のパフォーマンスを実現します。 トレーニングと推論時間を増やすことなく、QAMはAP$^\text{r}$ criterionを、複数の人間の解析タスクにおいて10ポイント以上改善する。 QAMは他のタスクにも拡張可能で、品質評価も良い。 インスタンスのセグメンテーション。 具体的には、QAMはCoCOおよびLVISv1.0データセットでマスクR-CNNを約1%mAP改善する。 提案したQAMとQANetに基づいて,CVPR2019 COCO DensePose Challengeでは総合システムが1位,CVPR2020 LIP Challengeでは1位と2位となった。 コードとモデルはhttps://github.com/s oeaver/qanetで入手できる。

How to estimate the quality of the network output is an important issue, and currently there is no effective solution in the field of human parsing. In order to solve this problem, this work proposes a statistical method based on the output probability map to calculate the pixel quality information, which is called pixel score. In addition, the Quality-Aware Module (QAM) is proposed to fuse the different quality information, the purpose of which is to estimate the quality of human parsing results. We combine QAM with a concise and effective network design to propose Quality-Aware Network (QANet) for human parsing. Benefiting from the superiority of QAM and QANet, we achieve the best performance on three multiple and one single human parsing benchmarks, including CIHP, MHP-v2, Pascal-Person-Part and LIP. Without increasing the training and inference time, QAM improves the AP$^\text{r}$ criterion by more than 10 points in the multiple human parsing task. QAM can be extended to other tasks with good quality estimation, e.g. instance segmentation. Specifically, QAM improves Mask R-CNN by ~1% mAP on COCO and LVISv1.0 datasets. Based on the proposed QAM and QANet, our overall system wins 1st place in CVPR2019 COCO DensePose Challenge, and 1st place in Track 1 & 2 of CVPR2020 LIP Challenge. Code and models are available at https://github.com/s oeaver/QANet.
翻訳日:2021-03-11 14:52:15 公開日:2021-03-10
# 主成分に基づく画像分割--in vitro細胞コロニーの概説への新しいアプローチ

Principal component-based image segmentation: a new approach to outline in vitro cell colonies ( http://arxiv.org/abs/2103.06022v1 )

ライセンス: Link先を確認
Delmon Arous, Stefan Schrunner, Ingunn Hanson, Nina F.J. Edin, Eirik Malinen(参考訳) 生体内クローン原性アッセイ(in vitro clonogenic assay)は、培養皿において細胞がコロニーを形成する能力を研究する技術である。 光イメージングにより、染色されたコロニーの皿をデジタルでスキャンして評価することができる。 染色コロニーの同定, 分節化および計数は, 高スループットスクリーニングおよび生物学的アッセイの定量的評価において重要な役割を担っている。 このような画像/スキャンされたアッセイの画像処理は、背景雑音や空間的に異なる照明などの画像/スキャン取得アーティファクトや、懸濁媒体内の汚染物質の影響を受け得る。 既存のアプローチではこれらの問題に対処するが、セグメンテーションの品質は特にノイズや低コントラストの画像でさらに改善する必要がある。 本研究では,主成分分析,k-meansクラスタリング,修正流域分割アルゴリズムを用いて,問合せされたコロニーを特徴付け,抽出,分割することにより,これらの課題を解消するための客観的かつ汎用的な機械学習手法を提案する。 空間的テクスチャアセスメントを通じて目に見えるコロニーを自動的に識別し、連続したセグメンテーションに備えて背景からそれらを判別することを目的としている。 提案するセグメンテーションアルゴリズムは,人間の観察者による手動計測と同様の品質を示した。 高いf1スコア (>0.9) と低いルート平均二乗誤差 (約14%) は、基底真理データと良い一致を示した。 さらに、それは最新の方法よりも優れています。 この方法論は将来のがん研究の応用において重要なツールとなるだろう。

The in vitro clonogenic assay is a technique to study the ability of a cell to form a colony in a culture dish. By optical imaging, dishes with stained colonies can be scanned and assessed digitally. Identification, segmentation and counting of stained colonies play a vital part in high-throughput screening and quantitative assessment of biological assays. Image processing of such pictured/scanned assays can be affected by image/scan acquisition artifacts like background noise and spatially varying illumination, and contaminants in the suspension medium. Although existing approaches tackle these issues, the segmentation quality requires further improvement, particularly on noisy and low contrast images. In this work, we present an objective and versatile machine learning procedure to amend these issues by characterizing, extracting and segmenting inquired colonies using principal component analysis, k-means clustering and a modified watershed segmentation algorithm. The intention is to automatically identify visible colonies through spatial texture assessment and accordingly discriminate them from background in preparation for successive segmentation. The proposed segmentation algorithm yielded a similar quality as manual counting by human observers. High F1 scores (>0.9) and low root-mean-square errors (around 14%) underlined good agreement with ground truth data. Moreover, it outperformed a recent state-of-the-art method. The methodology will be an important tool in future cancer research applications.
翻訳日:2021-03-11 14:51:50 公開日:2021-03-10
# federated domain generalization on medical image segmentation via episodic learning in continuous frequency space (英語)

FedDG: Federated Domain Generalization on Medical Image Segmentation via Episodic Learning in Continuous Frequency Space ( http://arxiv.org/abs/2103.06030v1 )

ライセンス: Link先を確認
Quande Liu, Cheng Chen, Jing Qin, Qi Dou, Pheng-Ann Heng(参考訳) フェデレーションラーニングは、分散医療機関がプライバシ保護を備えた共有予測モデルを共同で学習することを可能にします。 臨床展開では、連合学習で訓練されたモデルは、連邦外の完全に見えない病院に適用された場合、パフォーマンス低下に苦しむ可能性がある。 本稿では,フェデレートされたドメイン一般化(FedDG)の新たな課題を指摘した上で,フェデレーションされたモデルを複数の分散ドメインから学習し,直接対象ドメインに一般化することを目的とした。 本稿では,データ分散化の困難な制約の下で各クライアントがマルチソースデータ分散を活用できるようにすることにより,ELCFS(Episodic Learning in Continuous Frequency Space)と呼ばれる新しい手法を提案する。 私達のアプローチは有効な連続的な頻度スペース補間メカニズムを通してプライバシー保護の方法で顧客を渡る配分情報を送信します。 トランスファーマルチソース分布により,局所学習を領域分布シフトにさらし,特に医用画像分割シナリオにおけるモデル一般化の課題を満たすために,境界指向のエピソディック学習パラダイムを慎重に設計する。 本手法の有効性は,2つの医用画像分割作業における最先端および深部アブレーション実験よりも優れていた。 コードは「https://github.com/l iuquande/FedDG-ELCFS 」で入手できます。

Federated learning allows distributed medical institutions to collaboratively learn a shared prediction model with privacy protection. While at clinical deployment, the models trained in federated learning can still suffer from performance drop when applied to completely unseen hospitals outside the federation. In this paper, we point out and solve a novel problem setting of federated domain generalization (FedDG), which aims to learn a federated model from multiple distributed source domains such that it can directly generalize to unseen target domains. We present a novel approach, named as Episodic Learning in Continuous Frequency Space (ELCFS), for this problem by enabling each client to exploit multi-source data distributions under the challenging constraint of data decentralization. Our approach transmits the distribution information across clients in a privacy-protecting way through an effective continuous frequency space interpolation mechanism. With the transferred multi-source distributions, we further carefully design a boundary-oriented episodic learning paradigm to expose the local learning to domain distribution shifts and particularly meet the challenges of model generalization in medical image segmentation scenario. The effectiveness of our method is demonstrated with superior performance over state-of-the-arts and in-depth ablation experiments on two medical image segmentation tasks. The code is available at "https://github.com/l iuquande/FedDG-ELCFS ".
翻訳日:2021-03-11 14:51:24 公開日:2021-03-10
# ImageNetにおける顔難読化の検討

A Study of Face Obfuscation in ImageNet ( http://arxiv.org/abs/2103.06191v1 )

ライセンス: Link先を確認
Kaiyu Yang, Jacqueline Yau, Li Fei-Fei, Jia Deng, Olga Russakovsky(参考訳) 画像の難読化(ぼやけ、モザイクなど) プライバシー保護に広く使われています しかし、コンピュータビジョンの研究は、しばしばオリジナルの不明瞭な画像へのアクセスを仮定してプライバシーを無視する。 本稿では,imagenetチャレンジにおける画像難読化について検討する。 ImageNetチャレンジのほとんどのカテゴリは、人々のカテゴリではありません。しかし、多くの偶発的な人々が画像の中にいます。 まずデータセットに面をアノテートします。 次に,典型的な難読化手法である顔のぼやけが分類精度に与える影響について検討する。 さまざまな深層ニューラルネットワークを顔画像上でベンチマークし、異なるカテゴリに対する異なる影響を観察します。 それでも、全体的な精度はわずかに低下する($\leq 0.68\%$)。 さらに,オブジェクト認識,シーン認識,顔属性分類,オブジェクト検出という4つの下流タスクへの転送学習を実験した。 結果は、顔が破れた画像で学んだ特徴が等しく転送可能であることを示している。 データとコードはhttps://github.com/p rincetonvisualai/ima genet-face-obfuscati onで入手できる。

Image obfuscation (blurring, mosaicing, etc.) is widely used for privacy protection. However, computer vision research often overlooks privacy by assuming access to original unobfuscated images. In this paper, we explore image obfuscation in the ImageNet challenge. Most categories in the ImageNet challenge are not people categories; nevertheless, many incidental people are in the images, whose privacy is a concern. We first annotate faces in the dataset. Then we investigate how face blurring -- a typical obfuscation technique -- impacts classification accuracy. We benchmark various deep neural networks on face-blurred images and observe a disparate impact on different categories. Still, the overall accuracy only drops slightly ($\leq 0.68\%$), demonstrating that we can train privacy-aware visual classifiers with minimal impact on accuracy. Further, we experiment with transfer learning to 4 downstream tasks: object recognition, scene recognition, face attribute classification, and object detection. Results show that features learned on face-blurred images are equally transferable. Data and code are available at https://github.com/p rincetonvisualai/ima genet-face-obfuscati on.
翻訳日:2021-03-11 14:50:50 公開日:2021-03-10
# インボリューション:視覚認識のためのコンボリューションのインボリューションの反転

Involution: Inverting the Inherence of Convolution for Visual Recognition ( http://arxiv.org/abs/2103.06255v1 )

ライセンス: Link先を確認
Duo Li, Jie Hu, Changhu Wang, Xiangtai Li, Qi She, Lei Zhu, Tong Zhang, Qifeng Chen(参考訳) 畳み込みは現代のニューラルネットワークの中核的な要素であり、視覚におけるディープラーニングの急増を引き起こしている。 本研究では,視覚タスク,特に空間に依存しない,チャネル固有の標準畳み込みの原理を再考する。 その代わり,前述の畳み込みの設計原理を逆向きにすることで,ディープニューラルネットワークのための新しい原子操作を提案する。 さらに、最近人気のセルフアテンションオペレーターを軽視し、過度に複雑なインスタンス化としてInvolutionファミリーにサブミットします。 提案する畳み込み演算子は、イメージネット分類、ココ検出、セグメンテーションを含むいくつかの一般的なベンチマークで異なるディープラーニングモデルと、シティスケープセグメンテーションを駆動する、視覚認識のための新しい世代のニューラルネットワークを構築するための基本的なレンガとして活用することができる。 ResNet-50による畳み込みベースラインの性能は最大1.6%の精度、2.5%と2.4%のバウンディングボックスAP、4.7%は計算コストを66%、65%、72%、そして57%に圧縮しながら完全にIoUを意味する。 すべてのタスクのコードと事前トレーニングされたモデルはhttps://github.com/d -li14/involution.com で入手できる。

Convolution has been the core ingredient of modern neural networks, triggering the surge of deep learning in vision. In this work, we rethink the inherent principles of standard convolution for vision tasks, specifically spatial-agnostic and channel-specific. Instead, we present a novel atomic operation for deep neural networks by inverting the aforementioned design principles of convolution, coined as involution. We additionally demystify the recent popular self-attention operator and subsume it into our involution family as an over-complicated instantiation. The proposed involution operator could be leveraged as fundamental bricks to build the new generation of neural networks for visual recognition, powering different deep learning models on several prevalent benchmarks, including ImageNet classification, COCO detection and segmentation, together with Cityscapes segmentation. Our involution-based models improve the performance of convolutional baselines using ResNet-50 by up to 1.6% top-1 accuracy, 2.5% and 2.4% bounding box AP, and 4.7% mean IoU absolutely while compressing the computational cost to 66%, 65%, 72%, and 57% on the above benchmarks, respectively. Code and pre-trained models for all the tasks are available at https://github.com/d -li14/involution.
翻訳日:2021-03-11 14:50:32 公開日:2021-03-10
# グラフ畳み込みネットワークの効率的なトレーニングのためのサンプリング方法:調査

Sampling methods for efficient training of graph convolutional networks: A survey ( http://arxiv.org/abs/2103.05872v1 )

ライセンス: Link先を確認
Xin Liu, Mingyu Yan, Lei Deng, Guoqi Li, Xiaochun Ye, Dongrui Fan(参考訳) グラフ畳み込みネットワーク(GCN)は,グラフ表現の学習性能が優れており,様々な研究分野から注目されている。 GCNは他の方法と比較してうまく機能しますが、まだ課題に直面しています。 大規模グラフに対するGCNモデルを従来の方法でトレーニングするには、高い計算とメモリコストが必要となる。 したがって,GCNの学習における効率性やスケーラビリティの面での急激なニーズにより,サンプリング手法が提案され,大きな効果が得られた。 本稿では,サンプリング機構に基づくサンプリング手法を分類し,gcnの効率的なトレーニングのためのサンプリング手法の包括的調査を行う。 サンプリング法の特徴と相違を強調するために,各カテゴリにおける詳細な比較を行い,さらに,各カテゴリにおけるサンプリング法の総合比較分析を行う。 最後に,サンプリング手法の課題と今後の研究方向性について論じる。

Graph Convolutional Networks (GCNs) have received significant attention from various research fields due to the excellent performance in learning graph representations. Although GCN performs well compared with other methods, it still faces challenges. Training a GCN model for large-scale graphs in a conventional way requires high computation and memory costs. Therefore, motivated by an urgent need in terms of efficiency and scalability in training GCN, sampling methods are proposed and achieve a significant effect. In this paper, we categorize sampling methods based on the sampling mechanisms and provide a comprehensive survey of sampling methods for efficient training of GCN. To highlight the characteristics and differences of sampling methods, we present a detailed comparison within each category and further give an overall comparative analysis for the sampling methods in all categories. Finally, we discuss some challenges and future research directions of the sampling methods.
翻訳日:2021-03-11 14:49:48 公開日:2021-03-10
# S-ICD 埋込み適性検査のための深層学習法

Deep learning methods for screening patients' S-ICD implantation eligibility ( http://arxiv.org/abs/2103.06021v1 )

ライセンス: Link先を確認
Anthony J. Dunn, Mohamed H. ElRefai, Paul R. Roberts, Stefano Coniglio, Benedict M. Wiles and Alain B. Zemkoho(参考訳) 皮下植込み型除細動器(s-icds)は心室性不整脈による突然の心死の予防に用いられる。 T Wave Over Sensing (TWOS)は、S-ICDに固有のリスクであり、不適切なショックを引き起こす可能性がある。 TWOSの主要な予測器は、高いT:R比(T波とR波の振幅の比)である。 現在、患者の心電図(ECG)を10秒以上スクリーニングし、T:R比を測定し、S-ICD植込みの適性を決定する。 T:R比の経時変化のために、10秒は患者のT:R比の正常値を確実に決定するのに十分長くありません。 本稿では,畳み込みニューラルネットワーク(CNN)に基づく位相空間再構成行列を用いたモデルを開発し,R波やT波を明示的に検出することなく10秒ECGセグメントからT:R比を予測し,TWOSの問題を回避する。 このツールは、ずっと長い期間患者を自動的にスクリーニングし、その期間におけるt:r比の挙動を詳細に記述するために使うことができる。 また、より信頼性が高く記述的なスクリーニングにより、S-ICD移植に対する患者の適性を評価することもできる。

Subcutaneous Implantable Cardioverter-Defibri llators (S-ICDs) are used for prevention of sudden cardiac death triggered by ventricular arrhythmias. T Wave Over Sensing (TWOS) is an inherent risk with S-ICDs which can lead to inappropriate shocks. A major predictor of TWOS is a high T:R ratio (the ratio between the amplitudes of the T and R waves). Currently patients' Electrocardiograms (ECGs) are screened over 10 seconds to measure the T:R ratio, determining the patients' eligibility for S-ICD implantation. Due to temporal variations in the T:R ratio, 10 seconds is not long enough to reliably determine the normal values of a patient's T:R ratio. In this paper, we develop a convolutional neural network (CNN) based model utilising phase space reconstruction matrices to predict T:R ratios from 10-second ECG segments without explicitly locating the R or T waves, thus avoiding the issue of TWOS. This tool can be used to automatically screen patients over a much longer period and provide an in-depth description of the behaviour of the T:R ratio over that period. The tool can also enable much more reliable and descriptive screenings to better assess patients' eligibility for S-ICD implantation.
翻訳日:2021-03-11 14:49:36 公開日:2021-03-10
# 古典的反復アルゴリズムに触発されたグラフニューラルネットワーク

Graph Neural Networks Inspired by Classical Iterative Algorithms ( http://arxiv.org/abs/2103.06064v1 )

ライセンス: Link先を確認
Yongyi Yang, Tang Liu, Yangkun Wang, Jinjing Zhou, Quan Gan, Zhewei Wei, Zheng Zhang, Zengfeng Huang, David Wipf(参考訳) グラフニューラルネットワーク(GNN)の最近の成功にもかかわらず、一般的なアーキテクチャはしばしば、例えばグラフの異性愛または敵対的な攻撃の結果として生じるような、過密、長距離依存性、およびスプリアスエッジに対する感受性を含む重要な制限を示す。 これらの問題を少なくとも部分的には単純な透過的な枠組みで解決するため、我々は2つの古典的反復アルゴリズム、すなわち近勾配降下法と反復再重み付き最小二乗法(IRLS)の更新規則を模倣し統合するために設計された新しいGNN層を考える。 前者は拡張可能なベースGNNアーキテクチャを定義し、任意の伝搬ステップを許可することによって長距離依存性をキャプチャしながら、過スムージングに免疫的である。 対照的に、後者は根本的なエンドツーエンドのエネルギー関数に明示的に固定される新しい注意メカニズムを生成し、エッジの不確実性に関して安定性に寄与する。 組み合わせると、標準化されたベンチマーク、逆摂動グラフ、ヘテロフィリーグラフ、長距離依存を含むグラフなど、さまざまなシナリオで評価される非常に単純な頑健なモデルが得られる。 そこで我々は,各タスクに対して明示的に設計されているSOTA GNN手法との比較を行い,ノード分類の精度を向上する。

Despite the recent success of graph neural networks (GNN), common architectures often exhibit significant limitations, including sensitivity to oversmoothing, long-range dependencies, and spurious edges, e.g., as can occur as a result of graph heterophily or adversarial attacks. To at least partially address these issues within a simple transparent framework, we consider a new family of GNN layers designed to mimic and integrate the update rules of two classical iterative algorithms, namely, proximal gradient descent and iterative reweighted least squares (IRLS). The former defines an extensible base GNN architecture that is immune to oversmoothing while nonetheless capturing long-range dependencies by allowing arbitrary propagation steps. In contrast, the latter produces a novel attention mechanism that is explicitly anchored to an underlying end-toend energy function, contributing stability with respect to edge uncertainty. When combined we obtain an extremely simple yet robust model that we evaluate across disparate scenarios including standardized benchmarks, adversarially-pertur bated graphs, graphs with heterophily, and graphs involving long-range dependencies. In doing so, we compare against SOTA GNN approaches that have been explicitly designed for the respective task, achieving competitive or superior node classification accuracy.
翻訳日:2021-03-11 14:49:15 公開日:2021-03-10
# 交通予測のための時空間テンソルグラフ畳み込みネットワーク

Spatial-Temporal Tensor Graph Convolutional Network for Traffic Prediction ( http://arxiv.org/abs/2103.06126v1 )

ライセンス: Link先を確認
Xuran Xu, Tong Zhang, Chunyan Xu, Zhen Cui, and Jian Yang(参考訳) 都市交通の指導と管理には正確な交通予測が不可欠である。 しかし,既存の交通予測モデルの多くは,交通データ間の空間的時間的依存を捉える場合の計算負担やメモリ空間を考慮していない。 本研究では,トラヒック速度予測を扱うための因子化空間-時間テンソルグラフ畳み込みネットワークを提案する。 トラフィックネットワークは、空間情報と時間情報を同時に統合するグラフにモデル化および統合されます。 さらに、グラフ畳み込みをテンソル空間に拡張し、空間時間グラフデータからより識別性の高い特徴を抽出するテンソルグラフ畳み込みネットワークを提案する。 計算負荷を軽減するために、我々はタッカーテンソル分解を取り、小さな空間、時間、および特徴モードで別々のフィルタリングを実行するテンソル畳み込みを導出する。 さらに、テンソル分解の過程でこれらの自明なコンポーネントを捨てる際に、トラフィックデータのノイズ抑制の恩恵を受ける。 2つの実世界のトラヒックスピードデータセットに関する広範囲な実験により、従来のトラヒック予測手法よりも効果が示され、その間に最先端のパフォーマンスが達成される。

Accurate traffic prediction is crucial to the guidance and management of urban traffics. However, most of the existing traffic prediction models do not consider the computational burden and memory space when they capture spatial-temporal dependence among traffic data. In this work, we propose a factorized Spatial-Temporal Tensor Graph Convolutional Network to deal with traffic speed prediction. Traffic networks are modeled and unified into a graph that integrates spatial and temporal information simultaneously. We further extend graph convolution into tensor space and propose a tensor graph convolution network to extract more discriminating features from spatial-temporal graph data. To reduce the computational burden, we take Tucker tensor decomposition and derive factorized a tensor convolution, which performs separate filtering in small-scale space, time, and feature modes. Besides, we can benefit from noise suppression of traffic data when discarding those trivial components in the process of tensor decomposition. Extensive experiments on two real-world traffic speed datasets demonstrate our method is more effective than those traditional traffic prediction methods, and meantime achieves state-of-the-art performance.
翻訳日:2021-03-11 14:48:51 公開日:2021-03-10
# Range-GAN:Range-Cons trained Generative Adversarial Network for Conditioned Design synthesis

Range-GAN: Range-Constrained Generative Adversarial Network for Conditioned Design Synthesis ( http://arxiv.org/abs/2103.06230v1 )

ライセンス: Link先を確認
Amin Heyrani Nobari, Wei Chen, Faez Ahmed(参考訳) 典型的なエンジニアリング設計タスクは、特定の制約、すなわちパフォーマンスや属性要件を満たすまでデザインを反復的に変更する努力を必要とする。 過去の研究は、望ましい設計を特定の要求から直接生成する逆設計問題を解決する方法を提案しており、試行錯誤のプロセスは避けている。 それらのアプローチの中で、条件付き深層生成モデルは、1)複雑な高次元設計のために機能し、2)任意の条件で複数の代替設計を生成できるため、大きなポテンシャルを示す。 本研究では,条件付き深層生成モデルであるrange-ganを提案する。 ラベル認識型自己拡張手法を導入することにより,データ駆動逆設計問題におけるスパース条件付け問題に対処する。 また,所定の要求範囲を均等にカバーできる新しい均一性損失を提案する。 制約付き3次元形状生成の実例を通して,ラベル認識による自己表現は生成した3次元形状に対する制約満足度を平均14%向上させ,均一性損失は生成形状属性の均一性において平均125%向上することを示した。 この研究は、範囲制約を考慮したデータ駆動逆設計問題の基盤となり、条件空間に疎い領域が存在する。

Typical engineering design tasks require the effort to modify designs iteratively until they meet certain constraints, i.e., performance or attribute requirements. Past work has proposed ways to solve the inverse design problem, where desired designs are directly generated from specified requirements, thus avoid the trial and error process. Among those approaches, the conditional deep generative model shows great potential since 1) it works for complex high-dimensional designs and 2) it can generate multiple alternative designs given any condition. In this work, we propose a conditional deep generative model, Range-GAN, to achieve automatic design synthesis subject to range constraints. The proposed model addresses the sparse conditioning issue in data-driven inverse design problems by introducing a label-aware self-augmentation approach. We also propose a new uniformity loss to ensure generated designs evenly cover the given requirement range. Through a real-world example of constrained 3D shape generation, we show that the label-aware self-augmentation leads to an average improvement of 14% on the constraint satisfaction for generated 3D shapes, and the uniformity loss leads to a 125% average increase on the uniformity of generated shapes' attributes. This work laid the foundation for data-driven inverse design problems where we consider range constraints and there are sparse regions in the condition space.
翻訳日:2021-03-11 14:48:33 公開日:2021-03-10
# creativegan: 創造的デザイン合成のための生成的広告ネットワークの編集

CreativeGAN: Editing Generative Adversarial Networks for Creative Design Synthesis ( http://arxiv.org/abs/2103.06242v1 )

ライセンス: Link先を確認
Amin Heyrani Nobari, Muhammad Fathy Rashad, Faez Ahmed(参考訳) ディープニューラルネットワークなどの最新の機械学習技術は、ビッグデータのパターンを発見し、正確な予測を行うことで、画像認識から言語理解まで、多くの分野を変革しています。 彼らはまた、製品の作成とイノベーションの実現に不可欠である新しいデザインを合成するための有望な結果を示した。 generative adversarial networks (gans) を含む生成モデルは、製品設計からメタマテリアル設計まで幅広い応用で設計合成に有効であることが証明されている。 これらの自動計算設計手法は、経験とヒューリスティックスを使ったアイデアを反復的に探求する時間を要するプロセスによって設計を作成する人間設計者を支援することができる。 しかし、'creative' デザインの自動合成にはまだ課題が残っている。 しかし、GANモデルは独自のデザインを生成することができず、イノベーションの鍵となり、AIベースの設計自動化アプリケーションに大きなギャップがあります。 本論文では,新しいデザインを作成するための自動手法であるCreativeGANを提案する。 デザインをユニークなものにするコンポーネントを識別し、GANモデルを変更することで、識別されたユニークなコンポーネントでデザインを生成する可能性が高まる。 この方法は、最先端のノベルティ検出、セグメンテーション、ノベルティローカライゼーション、書き換え、創造的デザイン合成のための生成モデルを組み合わせる。 自転車デザインのデータセットを用いて,ユニークなフレームとハンドルを備えた自転車デザインを新たに作成し,レアノベルティを幅広いデザインに一般化できることを実証した。 提案手法は,人間の介入を必要とせず,創造的デザインの合成と探索を再考する方法を示す。

Modern machine learning techniques, such as deep neural networks, are transforming many disciplines ranging from image recognition to language understanding, by uncovering patterns in big data and making accurate predictions. They have also shown promising results for synthesizing new designs, which is crucial for creating products and enabling innovation. Generative models, including generative adversarial networks (GANs), have proven to be effective for design synthesis with applications ranging from product design to metamaterial design. These automated computational design methods can support human designers, who typically create designs by a time-consuming process of iteratively exploring ideas using experience and heuristics. However, there are still challenges remaining in automatically synthesizing `creative' designs. GAN models, however, are not capable of generating unique designs, a key to innovation and a major gap in AI-based design automation applications. This paper proposes an automated method, named CreativeGAN, for generating novel designs. It does so by identifying components that make a design unique and modifying a GAN model such that it becomes more likely to generate designs with identified unique components. The method combines state-of-art novelty detection, segmentation, novelty localization, rewriting, and generative models for creative design synthesis. Using a dataset of bicycle designs, we demonstrate that the method can create new bicycle designs with unique frames and handles, and generalize rare novelties to a broad set of designs. Our automated method requires no human intervention and demonstrates a way to rethink creative design synthesis and exploration.
翻訳日:2021-03-11 14:48:08 公開日:2021-03-10
# 外乱検出における色数と形状の影響:自動評価からユーザ評価まで

Impacts of the Numbers of Colors and Shapes on Outlier Detection: from Automated to User Evaluation ( http://arxiv.org/abs/2103.06084v1 )

ライセンス: Link先を確認
Loann Giovannangeli, Romain Giot, David Auber and Romain Bourqui(参考訳) 効率的な表現の設計は、複雑なデータや大規模データを探索し分析するための実りある方法として確立されている。 これらの表現では、データは表現自体のニーズに応じて様々な視覚的属性で符号化される。 視覚特性に関するコヒーレントな設計選択を行うため、視覚検索分野は特徴の人間の脳知覚に基づくガイドラインを提案する。 しかし、情報視覚化表現は、これらのガイドラインが検証した量よりも多くのデータを記述する必要がある。 以来、情報可視化コミュニティはこれらのガイドラインをより広いパラメータ空間に拡張しました。 本稿では,視覚探索理論を情報可視化コンテキストに拡張することで,このテーマに寄与する。 ランダムに並べられた気晴らしのグリッドに未知のアウトリーヤを見つけるよう被験者に依頼される視覚的検索タスクを検討する。 刺激は分類データを視覚的に符号化するために色と形状の特徴によって定義される。 実験プロトコルは、機械学習モデルに基づくパラメータ空間削減ステップ(サブサンプリング)と、容量制限を測定し、仮説を検証するためのユーザ評価で構成されている。 その結果,外乱率のエンコードに使用される視覚的属性の数が主な難易度であることがわかった。 冗長にエンコードすると、表示の不均一性はタスクに影響を与えません。 1つの属性でエンコードすると、その容量制限(色は7、形は5)に達するまで、その属性の不均一性に依存します。 最後に、2つの属性を同時にエンコードすると、小さな異質性でもパフォーマンスが大幅に低下します。

The design of efficient representations is well established as a fruitful way to explore and analyze complex or large data. In these representations, data are encoded with various visual attributes depending on the needs of the representation itself. To make coherent design choices about visual attributes, the visual search field proposes guidelines based on the human brain perception of features. However, information visualization representations frequently need to depict more data than the amount these guidelines have been validated on. Since, the information visualization community has extended these guidelines to a wider parameter space. This paper contributes to this theme by extending visual search theories to an information visualization context. We consider a visual search task where subjects are asked to find an unknown outlier in a grid of randomly laid out distractor. Stimuli are defined by color and shape features for the purpose of visually encoding categorical data. The experimental protocol is made of a parameters space reduction step (i.e., sub-sampling) based on a machine learning model, and a user evaluation to measure capacity limits and validate hypotheses. The results show that the major difficulty factor is the number of visual attributes that are used to encode the outlier. When redundantly encoded, the display heterogeneity has no effect on the task. When encoded with one attribute, the difficulty depends on that attribute heterogeneity until its capacity limit (7 for color, 5 for shape) is reached. Finally, when encoded with two attributes simultaneously, performances drop drastically even with minor heterogeneity.
翻訳日:2021-03-11 14:47:43 公開日:2021-03-10
# Social InteractionGAN: 多人数インタラクションシーケンス生成

SocialInteractionGAN : Multi-person Interaction Sequence Generation ( http://arxiv.org/abs/2103.05916v1 )

ライセンス: Link先を確認
Louis Airale (M-PSI, PERCEPTION), Dominique Vaufreydaz (M-PSI), Xavier Alameda-Pineda (PERCEPTION)(参考訳) 社会的相互作用における人間の行動の予測は、ソーシャルロボットや人工アバターの設計に重要な応用がある。 本論文では,ヒューマンインタラクション生成を離散的マルチシーケンス生成問題としてモデル化し,条件付きインタラクション生成のための新しい対比アーキテクチャであるSocialInteractionGAN を提案する。 本モデルは,再帰型エンコーダデコーダジェネレータネットワークとデュアルストリームディスクリミネータ上に構築する。 このアーキテクチャにより、識別者は相互作用のリアリズムと個々のアクションシーケンスのリアリズムを共同で評価することができる。 各ストリーム内では、短いサブシーケンスで動作するリカレントネットワークが出力信号を局所的な評価で内包し、次の世代を誘導する。 相互作用する参加者の文脈情報はエージェント間で共有され、世代と差別評価プロセスの両方で再注入されます。 提案されたSocialInteractionGAN は、相互に相互作用する人々の高いリアリズムアクションシーケンスを成功させ、反復的および畳み込み的差別的ベースラインの多様性に有利に比較することを示した。 改良インセプションスコア(modified inception score)とfr{\'e}chetインセプション距離メトリクス(fr{\'e}chet inception distance metrics)を用いて評価を行った。 生成されたシーケンスの分布は、実際のデータに近づきつつある。 特に私たちのモデルは、あらゆるアクションを活用しながら、インタラクションシーケンスのダイナミクスを適切に学習します。

Prediction of human actions in social interactions has important applications in the design of social robots or artificial avatars. In this paper, we model human interaction generation as a discrete multi-sequence generation problem and present SocialInteractionGAN , a novel adversarial architecture for conditional interaction generation. Our model builds on a recurrent encoder-decoder generator network and a dual-stream discriminator. This architecture allows the discriminator to jointly assess the realism of interactions and that of individual action sequences. Within each stream a recurrent network operating on short subsequences endows the output signal with local assessments, better guiding the forthcoming generation. Crucially, contextual information on interacting participants is shared among agents and reinjected in both the generation and the discriminator evaluation processes. We show that the proposed SocialInteractionGAN succeeds in producing high realism action sequences of interacting people, comparing favorably to a diversity of recurrent and convolutional discriminator baselines. Evaluations are conducted using modified Inception Score and Fr{\'e}chet Inception Distance metrics, that we specifically design for discrete sequential generated data. The distribution of generated sequences is shown to approach closely that of real data. In particular our model properly learns the dynamics of interaction sequences, while exploiting the full range of actions.
翻訳日:2021-03-11 14:47:21 公開日:2021-03-10
# 自動話者自立型構音明瞭度評価システム

Automatic Speaker Independent Dysarthric Speech Intelligibility Assessment System ( http://arxiv.org/abs/2103.06157v1 )

ライセンス: Link先を確認
Ayush Tripathi and Swapnil Bhosale and Sunil Kumar Kopparapu(参考訳) 構音障害(dysarthria)は、個人が発声において重要な役割を果たす筋肉を制御する能力を妨げる状態である。 唇、声帯、舌、横隔膜の動きを補助する筋肉の微細な制御の喪失は、異常な発声をもたらす。 個人が話す音声の明瞭さを分析して、構音の重症度を評価することができる。 連続知性評価は、言語病理学者が薬の影響を研究するだけでなく、パーソナライズドセラピーの計画にも役立つ。 a) 患者が実施し, (b) 臨床医が解釈し, 信頼性が高く, 自動的, 簡便な臨床医を支援する。 dysarthricデータの可用性の欠如は、患者が大量の発話を話すことを必要とする話者依存型自動知性評価システムの開発につながった。 本稿では, (a) 構音障害患者が話す必要のある最適な(小さい)発話数を選択するためのコスト最小化手順, (b) 患者に少数の単語を話すことを要求する4つの異なる話者独立知性評価システム, (c) 評価スコアが言語病理学者(slp)が対応できる知覚スコアに近いことを提案する。 患者が発声する少数の発話の必要性とSLPに関連しうるスコアは, ユーザビリティの観点から, 変形性関節症患者と臨床医の双方に有益である。

Dysarthria is a condition which hampers the ability of an individual to control the muscles that play a major role in speech delivery. The loss of fine control over muscles that assist the movement of lips, vocal chords, tongue and diaphragm results in abnormal speech delivery. One can assess the severity level of dysarthria by analyzing the intelligibility of speech spoken by an individual. Continuous intelligibility assessment helps speech language pathologists not only study the impact of medication but also allows them to plan personalized therapy. It helps the clinicians immensely if the intelligibility assessment system is reliable, automatic, simple for (a) patients to undergo and (b) clinicians to interpret. Lack of availability of dysarthric data has resulted in development of speaker dependent automatic intelligibility assessment systems which requires patients to speak a large number of utterances. In this paper, we propose (a) a cost minimization procedure to select an optimal (small) number of utterances that need to be spoken by the dysarthric patient, (b) four different speaker independent intelligibility assessment systems which require the patient to speak a small number of words, and (c) the assessment score is close to the perceptual score that the Speech Language Pathologist (SLP) can relate to. The need for small number of utterances to be spoken by the patient and the score being relatable to the SLP benefits both the dysarthric patient and the clinician from usability perspective.
翻訳日:2021-03-11 14:46:24 公開日:2021-03-10
# ステアリング制御のためのエンドツーエンド駆動モデルへのオリエンテーションの導入

Incorporating Orientations into End-to-end Driving Model for Steering Control ( http://arxiv.org/abs/2103.05846v1 )

ライセンス: Link先を確認
Peng Wan, Zhenbo Song, Jianfeng Lu(参考訳) 本稿では,単眼画像シーケンスを入力とし,操舵制御角度を直接生成する,自律運転のためのエンド・ツー・エンドのディープニューラルネットワークモデルを提案する。 まず、エンドツーエンドの運転問題をローカルパス計画プロセスとしてモデル化します。 古典的計画アルゴリズムにおける環境表現に触発される(即ち) ビーム曲率法)、画素方向の向きをネットワークに入力し、方向認識の特徴を学習する。 次に、トレーニングデータセットにおけるステアリング値の不均衡分布を扱うために、ステアリングロス2というコスト感受性損失関数の改善を提案する。 さらに、対応するLiDARおよび画像シーケンス、および標準的な運転行動を提供する新しいエンドツーエンドの運転データセットも提示します。 私たちのデータセットには、都市、国、オフロードなどの複数の運転シナリオが含まれます。 公開可能なLiVi-Setと当社独自のデータセットで多数の実験を行い,提案手法を用いたモデルが操舵角度を正確に予測できることを示した。

In this paper, we present a novel end-to-end deep neural network model for autonomous driving that takes monocular image sequence as input, and directly generates the steering control angle. Firstly, we model the end-to-end driving problem as a local path planning process. Inspired by the environmental representation in the classical planning algorithms(i.e. the beam curvature method), pixel-wise orientations are fed into the network to learn direction-aware features. Next, to handle the imbalanced distribution of steering values in training datasets, we propose an improvement on a cost-sensitive loss function named SteeringLoss2. Besides, we also present a new end-to-end driving dataset, which provides corresponding LiDAR and image sequences, as well as standard driving behaviors. Our dataset includes multiple driving scenarios, such as urban, country, and off-road. Numerous experiments are conducted on both public available LiVi-Set and our own dataset, and the results show that the model using our proposed methods can predict steering angle accurately.
翻訳日:2021-03-11 14:45:57 公開日:2021-03-10
# タスク駆動型運転シーン分類のイメージベースアプローチ

An Image-based Approach of Task-driven Driving Scene Categorization ( http://arxiv.org/abs/2103.05920v1 )

ライセンス: Link先を確認
Shaochi Hu, Hanwei Fan, Biao Gao, XijunZhao and Huijing Zhao(参考訳) 視覚認識による運転シーンの分類は、安全運転と自動運転車の下流タスクにとって重要な技術である。 従来の手法では、シーン関連オブジェクトを検出したり、細かなラベル付きシーン画像の大きなデータセットでトレーニングされた分類器を用いてシーンカテゴリを推論する。 キャンパスや公園のような散らかったダイナミックなシーンでは、人間の活動はルールによって強く制限されず、場所の機能的特性はオブジェクトと強く相関しない。 そこで、シーンカテゴリーを定義し、モデル化し、推論する方法は、ロボットがシーンを通り抜けるのを助けるのに非常に役立ちます。 本稿では,弱監督データを用いたタスク駆動運転場面分類手法を提案する。 運転シーンのフロントビュービデオを考えると、アンカーポイントのセットは、アンカーポイントがセマンティックラベルではなく、シーンのセマンティック属性を意味するインジケータが前のものと異なる人間のドライバーの意思決定に従うことによってマークされる。 コントラスト学習によって異なる意味的属性のシーンを識別する尺度が学習され、その尺度に基づいて駆動シーンのプロファイリングと分類法が開発された。 実験は、北京大学の混雑したダイナミックなキャンパスを通過した車両が記録されたフロントビューのビデオで行われます。 シーンは、直線道路、ターン道路、警告トラフィックに分類されます。 セマンティックシーンの類似度学習と運転シーンの分類の結果は広く研究され、シーンの分類の結果は学習ビデオで97.17 %、新しいシーンのビデオで85.44 %である。

Categorizing driving scenes via visual perception is a key technology for safe driving and the downstream tasks of autonomous vehicles. Traditional methods infer scene category by detecting scene-related objects or using a classifier that is trained on large datasets of fine-labeled scene images. Whereas at cluttered dynamic scenes such as campus or park, human activities are not strongly confined by rules, and the functional attributes of places are not strongly correlated with objects. So how to define, model and infer scene categories is crucial to make the technique really helpful in assisting a robot to pass through the scene. This paper proposes a method of task-driven driving scene categorization using weakly supervised data. Given a front-view video of a driving scene, a set of anchor points is marked by following the decision making of a human driver, where an anchor point is not a semantic label but an indicator meaning the semantic attribute of the scene is different from that of the previous one. A measure is learned to discriminate the scenes of different semantic attributes via contrastive learning, and a driving scene profiling and categorization method is developed based on that measure. Experiments are conducted on a front-view video that is recorded when a vehicle passed through the cluttered dynamic campus of Peking University. The scenes are categorized into straight road, turn road and alerting traffic. The results of semantic scene similarity learning and driving scene categorization are extensively studied, and positive result of scene categorization is 97.17 \% on the learning video and 85.44\% on the video of new scenes.
翻訳日:2021-03-11 14:45:42 公開日:2021-03-10
# 点雲列におけるモデルフリー車両追跡と状態推定

Model-free Vehicle Tracking and State Estimation in Point Cloud Sequences ( http://arxiv.org/abs/2103.06028v1 )

ライセンス: Link先を確認
Ziqi Pang, Zhichao Li, Naiyan Wang(参考訳) 周囲の交通参加者の状態を推定することは、自動運転の中核にとどまる。 本稿では,第1フレームのオブジェクト状態を入力としてモデルフリーの単一オブジェクトトラッキング(SOT)と,その後のフレームにおける状態推定とトラッキングを共同で解決する,この問題の新たな設定について検討する。 この新しい設定の主な目的は、マルチオブジェクトトラッキングにおける一般的な「検出と追跡」スキームの強い制限を破ることです。 さらに,提案するタスクの副産物である点群をオーバーレイすることで形状が完成し,状態推定の性能が向上するだけでなく,多数の応用例があることに気付いた。 このタスクのベンチマークは今のところ利用できないため、新しいデータセットLiDAR-SOTとWaymo Openデータセットに基づいた対応する評価プロトコルを構築しています。 そこで我々は,点群登録,車両形状,動作優先度に基づく最適化アルゴリズムSOTrackerを提案する。 SOTrackerの有効性を定量的かつ定性的に証明し、LiDARデータの空間性や急激な動きの変化などを含む点雲におけるSOTの難問を明らかにする。 最後に,提案するタスクとアルゴリズムが,lidarスキャンのシミュレーション,モーションデータの生成,光学フローのアノテーションなど,他の自動運転アプリケーションにどのように役立つかについても検討する。 ベンチマークとアルゴリズムのコードとプロトコルはhttps://github.com/T uSimple/LiDAR_SOT/で入手できます。 ビデオデモはhttps://www.youtube. com/watch?v=BpHixKs91i8 です。

Estimating the states of surrounding traffic participants stays at the core of autonomous driving. In this paper, we study a novel setting of this problem: model-free single object tracking (SOT), which takes the object state in the first frame as input, and jointly solves state estimation and tracking in subsequent frames. The main purpose for this new setting is to break the strong limitation of the popular "detection and tracking" scheme in multi-object tracking. Moreover, we notice that shape completion by overlaying the point clouds, which is a by-product of our proposed task, not only improves the performance of state estimation but also has numerous applications. As no benchmark for this task is available so far, we construct a new dataset LiDAR-SOT and corresponding evaluation protocols based on the Waymo Open dataset. We then propose an optimization-based algorithm called SOTracker based on point cloud registration, vehicle shapes, and motion priors. Our quantitative and qualitative results prove the effectiveness of our SOTracker and reveal the challenging cases for SOT in point clouds, including the sparsity of LiDAR data, abrupt motion variation, etc. Finally, we also explore how the proposed task and algorithm may benefit other autonomous driving applications, including simulating LiDAR scans, generating motion data, and annotating optical flow. The code and protocols for our benchmark and algorithm are available at https://github.com/T uSimple/LiDAR_SOT/ . A video demonstration is at https://www.youtube. com/watch?v=BpHixKs91i8 .
翻訳日:2021-03-11 14:45:15 公開日:2021-03-10
# 深い相互情報最大化によるクロスモーダル画像検索

Cross-modal Image Retrieval with Deep Mutual Information Maximization ( http://arxiv.org/abs/2103.06032v1 )

ライセンス: Link先を確認
Chunbin Gu, Jiajun Bu, Xixi Zhou, Chengwei Yao, Dongfang Ma, Zhi Yu, Xifeng Yan(参考訳) 本稿では,この画像と所望の画像の特定の修正を記述したテキストに加えて,入力がソース画像を含むクロスモーダル画像検索について検討する。 先行研究は通常、この課題に取り組むために3段階の戦略を用いる: 1) 入力の特徴を抽出する; 2) ソースイメージとその修正されたテキストの特徴を融合特徴を得るために融合させる; 3) 所望の画像とソースイメージと修正テキストとの類似度をディープメトリック学習を用いて学習する。 従来の画像/テキストエンコーダは距離メトリック学習の有用な表現と共通のペアベース損失関数を学習できるため、新しい融合ネットワークを設計することで検索精度が向上する。 しかし、これらの方法は、異なるモダリティの特徴の一貫性のない分布と表現によって引き起こされるモダリティギャップをうまく処理しないため、特徴融合と類似性学習に大きく影響します。 この問題を軽減するために,テキスト,画像,融合間の依存度を高めることにより,このギャップを橋渡しする手法として,対照的な自己教師型学習手法であるDeep InforMax(DIM)を採用した。 本手法では, テキストモダリティと画像モダリティの間のモダリティギャップを, 意味的には一致しない表現間の相互情報を最大化する。 さらに,画像エンコーダの低レベル層と融合ネットワークの高レベル層との間のDeep InforMaxを利用して,意味的に同一の融合特徴と所望の画像特徴の効果的な共通部分空間を求める。 3つの大規模ベンチマークデータセットに関する広範な実験により,異なるモダリティ間のモダリティギャップを橋渡しし,最先端の検索性能を実現することができた。

In this paper, we study the cross-modal image retrieval, where the inputs contain a source image plus some text that describes certain modifications to this image and the desired image. Prior work usually uses a three-stage strategy to tackle this task: 1) extract the features of the inputs; 2) fuse the feature of the source image and its modified text to obtain fusion feature; 3) learn a similarity metric between the desired image and the source image + modified text by using deep metric learning. Since classical image/text encoders can learn the useful representation and common pair-based loss functions of distance metric learning are enough for cross-modal retrieval, people usually improve retrieval accuracy by designing new fusion networks. However, these methods do not successfully handle the modality gap caused by the inconsistent distribution and representation of the features of different modalities, which greatly influences the feature fusion and similarity learning. To alleviate this problem, we adopt the contrastive self-supervised learning method Deep InforMax (DIM) to our approach to bridge this gap by enhancing the dependence between the text, the image, and their fusion. Specifically, our method narrows the modality gap between the text modality and the image modality by maximizing mutual information between their not exactly semantically identical representation. Moreover, we seek an effective common subspace for the semantically same fusion feature and desired image's feature by utilizing Deep InforMax between the low-level layer of the image encoder and the high-level layer of the fusion network. Extensive experiments on three large-scale benchmark datasets show that we have bridged the modality gap between different modalities and achieve state-of-the-art retrieval performance.
翻訳日:2021-03-11 14:44:50 公開日:2021-03-10
# U-Net Transformer: 医療画像セグメンテーションのための自己およびクロスアテンション

U-Net Transformer: Self and Cross Attention for Medical Image Segmentation ( http://arxiv.org/abs/2103.06104v1 )

ライセンス: Link先を確認
Olivier Petit, Nicolas Thome, Cl\'ement Rambour, Luc Soler(参考訳) 医療画像セグメンテーションは、複雑で低コントラストな解剖学的構造にとって特に困難です。 本稿では,イメージセグメンテーションのためのU字型アーキテクチャと,トランスフォーマーからの自己および相互アテンションを組み合わせたU-Transformerネットワークを提案する。 U-Transformerは、U-Netが長距離のコンテキスト相互作用と空間依存をモデル化できないことを克服している。 この目的のために、セルフアテンションモジュールはエンコーダ特徴間のグローバルな相互作用を活用する一方、スキップ接続におけるクロスアテンションは、非セマンティック特徴をフィルタリングすることでU-Netデコーダの空間的復元を可能にする。 2つの腹部CT画像データセットの実験は、U-NetおよびローカルアテンションU-Netと比較してU-Transformerがもたらした大きなパフォーマンス向上を示しています。 また,U-Transformerが生み出した自己認識と相互認識の両面の重要性を強調した。

Medical image segmentation remains particularly challenging for complex and low-contrast anatomical structures. In this paper, we introduce the U-Transformer network, which combines a U-shaped architecture for image segmentation with self- and cross-attention from Transformers. U-Transformer overcomes the inability of U-Nets to model long-range contextual interactions and spatial dependencies, which are arguably crucial for accurate segmentation in challenging contexts. To this end, attention mechanisms are incorporated at two main levels: a self-attention module leverages global interactions between encoder features, while cross-attention in the skip connections allows a fine spatial recovery in the U-Net decoder by filtering out non-semantic features. Experiments on two abdominal CT-image datasets show the large performance gain brought out by U-Transformer compared to U-Net and local Attention U-Nets. We also highlight the importance of using both self- and cross-attention, and the nice interpretability features brought out by U-Transformer.
翻訳日:2021-03-11 14:44:18 公開日:2021-03-10
# Sim2Real 3D Object Classification using Spherical Kernel Point Convolution and a Deep Center Voting Scheme

Sim2Real 3D Object Classification using Spherical Kernel Point Convolution and a Deep Center Voting Scheme ( http://arxiv.org/abs/2103.06134v1 )

ライセンス: Link先を確認
Jean-Baptiste Weibel, Timothy Patten, Markus Vincze(参考訳) ほとんどのサービスロボットタスクでは、オブジェクトの意味的理解が不可欠ですが、3Dオブジェクト分類は依然としてオープンな問題です。 人工的な3dモデルからの学習は、この問題に取り組むのに必要なアノテーションのコストを軽減するが、ほとんどの方法は、人工的な3dデータと実際の3dデータの違いに未だに苦労している。 我々は、これらの問題の原因は、多くの方法が形状ではなく、点座標から直接学習するという事実であると考えます。 グラフとして表される物体表面を直接利用する球状核点畳み込みと,分類結果に対するセグメンテーション不良の影響を制限するための投票方式について紹介する。 提案手法は,人工物体から実物体へ移動する際に,最先端の手法を最大36%改善する。

While object semantic understanding is essential for most service robotic tasks, 3D object classification is still an open problem. Learning from artificial 3D models alleviates the cost of annotation necessary to approach this problem, but most methods still struggle with the differences existing between artificial and real 3D data. We conjecture that the cause of those issue is the fact that many methods learn directly from point coordinates, instead of the shape, as the former is hard to center and to scale under variable occlusions reliably. We introduce spherical kernel point convolutions that directly exploit the object surface, represented as a graph, and a voting scheme to limit the impact of poor segmentation on the classification results. Our proposed approach improves upon state-of-the-art methods by up to 36% when transferring from artificial objects to real objects.
翻訳日:2021-03-11 14:43:59 公開日:2021-03-10
# 適切なセグメンテーションメトリクスを使っているか? DICE係数を超えるCNN訓練における人間の専門家知覚の相関関係の同定

Are we using appropriate segmentation metrics? Identifying correlates of human expert perception for CNN training beyond rolling the DICE coefficient ( http://arxiv.org/abs/2103.06205v1 )

ライセンス: Link先を確認
Florian Kofler, Ivan Ezhov, Fabian Isensee, Fabian Balsiger, Christoph Berger, Maximilian Koerner, Johannes Paetzold, Hongwei Li, Suprosanna Shit, Richard McKinley, Spyridon Bakas, Claus Zimmer, Donna Ankerst, Jan Kirschke, Benedikt Wiestler, Bjoern H. Menze(参考訳) 本研究では,質的人間エキスパート知覚の定量的相関について検討する。 バイオメディカル画像分割課題に考慮された現在の品質指標と損失関数は、専門家によるセグメンテーション品質評価と適度に相関していること、特に脳グリオーマの腫瘍増強など、臨床的に関連のある小さな構造について発見する。 本研究では,古典統計学と実験心理学を用いて,現代の深層学習手法を補完する複合損失関数を創出し,人間の品質評価に適合させる手法を提案する。 MRI画像で成人脳腫瘍を同定するためのCNNを訓練する場合、提案された4つの損失候補は、他のラベルチャネルのパフォーマンスを維持しながら、腫瘍ラベルを増強する臨床的に重要かつ最も難しいセグメント上の確立されたベースラインよりも優れています。

In this study, we explore quantitative correlates of qualitative human expert perception. We discover that current quality metrics and loss functions, considered for biomedical image segmentation tasks, correlate moderately with segmentation quality assessment by experts, especially for small yet clinically relevant structures, such as the enhancing tumor in brain glioma. We propose a method employing classical statistics and experimental psychology to create complementary compound loss functions for modern deep learning methods, towards achieving a better fit with human quality assessment. When training a CNN for delineating adult brain tumor in MR images, all four proposed loss candidates outperform the established baselines on the clinically important and hardest to segment enhancing tumor label, while maintaining performance for other label channels.
翻訳日:2021-03-11 14:43:42 公開日:2021-03-10
# 相関イメージングのための登録誤差推定フレームワーク

A registration error estimation framework for correlative imaging ( http://arxiv.org/abs/2103.06256v1 )

ライセンス: Link先を確認
Guillaume Potier, Fr\'ed\'eric Lavancier, Stephan Kunne and Perrine Paul-Gilloteaux(参考訳) コリレーティブイメージングワークフローは現在、バイオイメージングに広く使われており、少なくとも2つの異なる相補的なイメージングモードを使用して同じサンプルをイメージすることを目指している。 ワークフローの一部は、ソースイメージとターゲットイメージをリンクする変換を見つけることに依存します。 ポイントベースの登録における登録エラーの推定に特に興味があります。 本研究では, 登録問題に対する多変量線形回帰の応用を提案し, 剛性およびアフィン変換時および異方性雑音時における関連誤差推定の枠組みを提案する。 これらの開発は、生物学者がマルチモーダル相関画像を分析するための意思決定支援ツールとして使用することができ、ICYのオープンソースプラグインであるEc-CLEMの下で利用可能である。

Correlative imaging workflows are now widely used in bioimaging and aims to image the same sample using at least two different and complementary imaging modalities. Part of the workflow relies on finding the transformation linking a source image to a target image. We are specifically interested in the estimation of registration error in point-based registration. We propose an application of multivariate linear regression to solve the registration problem allowing us to propose a framework for the estimation of the associated error in the case of rigid and affine transformations and with anisotropic noise. These developments can be used as a decision-support tool for the biologist to analyze multimodal correlative images and are available under Ec-CLEM, an open-source plugin under ICY.
翻訳日:2021-03-11 14:43:24 公開日:2021-03-10
# 機械学習に応用したトポロジー: グローバルからローカルへ

Topology Applied to Machine Learning: From Global to Local ( http://arxiv.org/abs/2103.05796v1 )

ライセンス: Link先を確認
Henry Adams and Michael Moy(参考訳) 実例を用いて,2000年代初頭の持続的ホモロジーの誕生以来,応用トポロジーが進化してきた1つの方法を説明する。 最初のデータへのトポロジーの応用は、自然画像からの3-円3$ピクセルパッチの3つの円モデルや、2つの特異点の円を介してクラインボトルが取り付けられた球体であるシクロオクタン分子の構成空間など、データセットの全体的な形状を強調した。 全球形状の研究では、短い持続ホモロジーバーはサンプリングノイズとして無視される。 しかし、最近では永続ホモロジーがデータの局所幾何学に関する疑問に答えるために使われてきた。 例えば、機械学習の問題で使用するために、ローカルジオメトリをベクトル化する方法は? 永続的ホモロジーとそのベクトル化手法は、局所幾何学とグローバルトポロジの両方を機械学習に組み込む一般的な技術を提供する。 私たちのメタ仮説は、短いバーが多くの機械学習タスクの長いバーと同じくらい重要であるということです。 この主張を擁護するために, 形状認識, エージェントベースモデリング, 材料科学, 考古学, 生物学への永続的ホモロジーの適用について検討する。 さらに,永続ホモロジーを曲率やフラクタル次元を含む空間の幾何学的特徴と結びつける研究や,永続ホモロジーを機械学習に組み込むための様々な手法について検討した。

Through the use of examples, we explain one way in which applied topology has evolved since the birth of persistent homology in the early 2000s. The first applications of topology to data emphasized the global shape of a dataset, such as the three-circle model for $3 \times 3$ pixel patches from natural images, or the configuration space of the cyclo-octane molecule, which is a sphere with a Klein bottle attached via two circles of singularity. In these studies of global shape, short persistent homology bars are disregarded as sampling noise. More recently, however, persistent homology has been used to address questions about the local geometry of data. For instance, how can local geometry be vectorized for use in machine learning problems? Persistent homology and its vectorization methods, including persistence landscapes and persistence images, provide popular techniques for incorporating both local geometry and global topology into machine learning. Our meta-hypothesis is that the short bars are as important as the long bars for many machine learning tasks. In defense of this claim, we survey applications of persistent homology to shape recognition, agent-based modeling, materials science, archaeology, and biology. Additionally, we survey work connecting persistent homology to geometric features of spaces, including curvature and fractal dimension, and various methods that have been used to incorporate persistent homology into machine learning.
翻訳日:2021-03-11 14:42:40 公開日:2021-03-10
# 均一凸集合上の線形バンド

Linear Bandits on Uniformly Convex Sets ( http://arxiv.org/abs/2103.05907v1 )

ライセンス: Link先を確認
Thomas Kerdreux, Christophe Roux, Alexandre d'Aspremont, Sebastian Pokutta(参考訳) 線形バンディットアルゴリズムは、$\tilde{\mathcal{O}}(n\sqrt{T})$ コンパクト凸作用集合上の擬似調整境界 $\mathcal{K}\subset\mathbb{R}^n$ を生成し、構造上の仮定の2つのタイプは、より良い擬似補正境界をもたらす。 $\mathcal{K}$ が単純あるいは $\ell_p$ ball with $p\in]1,2]$ であるとき、$\tilde{\mathcal{O}}(\sqrt{nT})$ pseudo-regret bounds を持つバンディットアルゴリズムが存在する。 ここでは、$\tilde{\mathcal{O}}(\sqrt{nT})$の擬似残界を楽しむ $\ell_p$ 球を超えるいくつかの強凸集合のバンディットアルゴリズムを導出し、[BCB12, \S 5.5.] から開放的な質問に答える。 興味深いことに、作用集合が一様凸であるが必ずしも強凸でないとき、$\mathcal{O}(\sqrt{n})$より小さい次元依存を持つ擬回帰境界を得る。 しかし、これは、$\tilde{\mathcal{O}}(\sqrt{T})$と$\tilde{\mathcal{O}}(T)$の間に異なる$T$の漸近率を犠牲にしている。

Linear bandit algorithms yield $\tilde{\mathcal{O}}(n\sqrt{T})$ pseudo-regret bounds on compact convex action sets $\mathcal{K}\subset\mathbb{R}^n$ and two types of structural assumptions lead to better pseudo-regret bounds. When $\mathcal{K}$ is the simplex or an $\ell_p$ ball with $p\in]1,2]$, there exist bandits algorithms with $\tilde{\mathcal{O}}(\sqrt{nT})$ pseudo-regret bounds. Here, we derive bandit algorithms for some strongly convex sets beyond $\ell_p$ balls that enjoy pseudo-regret bounds of $\tilde{\mathcal{O}}(\sqrt{nT})$, which answers an open question from [BCB12, \S 5.5.]. Interestingly, when the action set is uniformly convex but not necessarily strongly convex, we obtain pseudo-regret bounds with a dimension dependency smaller than $\mathcal{O}(\sqrt{n})$. However, this comes at the expense of asymptotic rates in $T$ varying between $\tilde{\mathcal{O}}(\sqrt{T})$ and $\tilde{\mathcal{O}}(T)$.
翻訳日:2021-03-11 14:42:14 公開日:2021-03-10
# 驚きの適切性のレビューと洗練

A Review and Refinement of Surprise Adequacy ( http://arxiv.org/abs/2103.05939v1 )

ライセンス: Link先を確認
Michael Weiss and Rwiddhi Chakraborty and Paolo Tonella(参考訳) Surprise Adequacy (SA)は、ディープラーニング(DL)テストにおいて、新しく最も有望なAdequacy基準の1つである。 適切な基準として、DLテストスイートの強度を評価するために使用されます。 さらに、トレーニングデータに十分に表現されていないディープニューラルネットワーク(DNN)への入力や、DNNの再トレーニング用のサンプルの選択にも使用されている。 しかし、テストスイートのSAメトリックの計算は、距離計算の二次数を含むため、非常に高価である可能性があります。 そこで,性能を最適化するが機能的に等価なsaの実装を開発・リリースし,評価時間を最大97\%削減した。 また,sa omputation アルゴリズムの改良版を提案し,さらなる評価速度の向上を目指す。 mnist について実験を行い,sa の分布検出能力に着目し,sa の初回リリース時に提示した結果の一部を再現した。 実験の結果, 改良された変種は通常のSAよりもかなり高速であり, 同等の結果が得られた。 私たちの実験結果は、dnnトレーニング手順に関連する非決定性に非常に敏感なsaの問題も露呈しています。

Surprise Adequacy (SA) is one of the emerging and most promising adequacy criteria for Deep Learning (DL) testing. As an adequacy criterion, it has been used to assess the strength of DL test suites. In addition, it has also been used to find inputs to a Deep Neural Network (DNN) which were not sufficiently represented in the training data, or to select samples for DNN retraining. However, computation of the SA metric for a test suite can be prohibitively expensive, as it involves a quadratic number of distance calculations. Hence, we developed and released a performance-optimize d, but functionally equivalent, implementation of SA, reducing the evaluation time by up to 97\%. We also propose refined variants of the SA omputation algorithm, aiming to further increase the evaluation speed. We then performed an empirical study on MNIST, focused on the out-of-distribution detection capabilities of SA, which allowed us to reproduce parts of the results presented when SA was first released. The experiments show that our refined variants are substantially faster than plain SA, while producing comparable outcomes. Our experimental results exposed also an overlooked issue of SA: it can be highly sensitive to the non-determinism associated with the DNN training procedure.
翻訳日:2021-03-11 14:41:44 公開日:2021-03-10
# 高次元機械学習における平均場法とアルゴリズム的視点

Mean-field methods and algorithmic perspectives for high-dimensional machine learning ( http://arxiv.org/abs/2103.05945v1 )

ライセンス: Link先を確認
Benjamin Aubin(参考訳) ほとんどの機械学習アルゴリズムの分析で生じる主な困難は、多数の相互作用するランダム変数を、解析的に、そして数値的に扱うことである。 この博士論文では、乱れたシステムの統計物理学のツールに基づいたアプローチを再検討する。 リッチな文献を通して開発され、多数の粒子のマクロな挙動を微視的相互作用から推測するように設計されている。 この研究の核心は、様々な理論モデルの位相図に光を当てるために、レプリカ法とメッセージパッシングアルゴリズムの深い関係を生かして、統計的閾値とアルゴリズム的しきい値の間の潜在的な差異を強調したものである。 基本的には、教師-学生パラダイムで生成された合成タスクとデータに焦点をあてる。 特に、これらの平均場法をベイズ最適解析に応用し、パーセプトロンに対するラデマチャー一般化境界を最悪のケースで解析し、一般化線形モデルの文脈における経験的リスク最小化を行う。 最後に,ニューラルネットワークを用いたランダム重み付き生成モデルを用いて,構造化事前情報を用いた推定モデルを解析するフレームワークを開発した。

The main difficulty that arises in the analysis of most machine learning algorithms is to handle, analytically and numerically, a large number of interacting random variables. In this Ph.D manuscript, we revisit an approach based on the tools of statistical physics of disordered systems. Developed through a rich literature, they have been precisely designed to infer the macroscopic behavior of a large number of particles from their microscopic interactions. At the heart of this work, we strongly capitalize on the deep connection between the replica method and message passing algorithms in order to shed light on the phase diagrams of various theoretical models, with an emphasis on the potential differences between statistical and algorithmic thresholds. We essentially focus on synthetic tasks and data generated in the teacher-student paradigm. In particular, we apply these mean-field methods to the Bayes-optimal analysis of committee machines, to the worst-case analysis of Rademacher generalization bounds for perceptrons, and to empirical risk minimization in the context of generalized linear models. Finally, we develop a framework to analyze estimation models with structured prior informations, produced for instance by deep neural networks based generative models with random weights.
翻訳日:2021-03-11 14:41:23 公開日:2021-03-10
# 対称テンソル分解における対称性破壊

Symmetry Breaking in Symmetric Tensor Decomposition ( http://arxiv.org/abs/2103.06234v1 )

ライセンス: Link先を確認
Yossi Arjevani, Joan Bruna, Michael Field, Joe Kileel, Matthew Trager, Francis Williams(参考訳) 本稿では,対称テンソルのランク分解の計算に伴う最適化問題について考察する。 我々は、よく定義された意味で、この非常に非凸な最適化問題におけるミニマが、ターゲットテンソルの対称性を損なうが、あまり多くはないことを示す。 この対称性の破れ現象は、テンソルノルムの様々な選択に適用され、最近開発された対称性に基づく分析ツールのセットを使って最適化の風景を研究することができる。 対象関数が多変量多項式であるという事実は、対称性破れ現象に関するより洗練された情報を得るために計算代数学から記号的手法を適用することができる。

In this note, we consider the optimization problem associated with computing the rank decomposition of a symmetric tensor. We show that, in a well-defined sense, minima in this highly nonconvex optimization problem break the symmetry of the target tensor -- but not too much. This phenomenon of symmetry breaking applies to various choices of tensor norms, and makes it possible to study the optimization landscape using a set of recently-developed symmetry-based analytical tools. The fact that the objective function under consideration is a multivariate polynomial allows us to apply symbolic methods from computational algebra to obtain more refined information on the symmetry breaking phenomenon.
翻訳日:2021-03-11 14:41:05 公開日:2021-03-10
# 逆問題に対する変分推論フレームワーク

A Variational Inference Framework for Inverse Problems ( http://arxiv.org/abs/2103.05909v1 )

ライセンス: Link先を確認
Luca Maestrini, Robert G. Aykroyd and Matt P. Wand(参考訳) 変動ベイズ近似による逆問題モデル適合の枠組みを提案する。 この手法は、標準的なマルコフ連鎖モンテカルロ法と比較して、幅広いアプリケーションに対する統計モデル仕様の柔軟性、精度の向上、モデルの適合時間短縮を保証する。 私たちが説明する変分ベイズに対するメッセージパッシングと因子グラフフラグメントのアプローチは、近似推論アルゴリズムの実装を合理化し、ソフトウェア開発の基礎を形成する。 このようなアプローチにより、多数の応答分布とペナリゼーションを逆問題モデルに置き換えることができる。 解析は1次元および2次元の応答変数に概説されるが,変数間の弱い相互作用の無効化に基づくアルゴリズムステップの合理化は,高次元の逆問題に拡張可能である。 生体医学的・考古学的問題に動機づけられた画像処理アプリケーションもイラストに含まれています。

We present a framework for fitting inverse problem models via variational Bayes approximations. This methodology guarantees flexibility to statistical model specification for a broad range of applications, good accuracy performances and reduced model fitting times, when compared with standard Markov chain Monte Carlo methods. The message passing and factor graph fragment approach to variational Bayes we describe facilitates streamlined implementation of approximate inference algorithms and forms the basis to software development. Such approach allows for supple inclusion of numerous response distributions and penalizations into the inverse problem model. Albeit our analysis is circumscribed to one- and two-dimensional response variables, we lay down an infrastructure where streamlining algorithmic steps based on nullifying weak interactions between variables are extendible to inverse problems in higher dimensions. Image processing applications motivated by biomedical and archaeological problems are included as illustrations.
翻訳日:2021-03-11 14:40:53 公開日:2021-03-10
# マルチモーダル医用画像におけるオーバーサンプリング誤差はギブス効果による

Oversampling errors in multimodal medical imaging are due to the Gibbs effect ( http://arxiv.org/abs/2103.05964v1 )

ライセンス: Link先を確認
Davide Poggiali, Diego Cecchin, Cristina Campi, Stefano De Marchi(参考訳) マルチモーダルな3次元医用画像の解析には補間が必要であり, 必然的に補間誤差が生じる。 本研究では,アンダーサンプリングとオーバーサンプリング戦略を比較し,オーバーサンプリングエラーの所在を特定するために,3種類のニューロイメージングソフトウェアツールを組み込んだ3次元画像について検討する。 その結果,最下位画像サイズに対するアンダーサンプリングはセグメント誤差毎の平均値において有利であり,オーバーサンプリング誤差は勾配が急勾配である場合に大きく,ギブス効果を示すことがわかった。

To analyse multimodal 3-dimensional medical images, interpolation is required for resampling which - unavoidably - introduces an interpolation error. In this work we consider three segmented 3-dimensional images resampled with three different neuroimaging software tools for comparing undersampling and oversampling strategies and to identify where the oversampling error lies. The results indicate that undersampling to the lowest image size is advantageous in terms of mean value per segment errors and that the oversampling error is larger where the gradient is steeper, showing a Gibbs effect.
翻訳日:2021-03-11 14:40:11 公開日:2021-03-10
# rmp2: ロボット学習のための構造化コンポーザブルポリシークラス

RMP2: A Structured Composable Policy Class for Robot Learning ( http://arxiv.org/abs/2103.05922v1 )

ライセンス: Link先を確認
Anqi Li, Ching-An Cheng, M. Asif Rana, Man Xie, Karl Van Wyk, Nathan Ratliff, Byron Boots(参考訳) RMPflowが指定する構造化ポリシークラスを用いて、加速型ロボットシステムの動作ポリシーを学習する問題を検討する。 RMPflowはマルチタスク制御フレームワークであり、多くのロボティクス問題にうまく適用されている。 学習における構造化ポリシークラスとしてRMPflowを使用することは、十分な表現性、事前知識の異なるレベルを注入する柔軟性、ロボット間でポリシーを転送する能力など、いくつかのメリットがある。 しかし、エンドツーエンド学習のためのRMPflowポリシーの実装は、いくつかの計算課題に直面している。 本研究では、RMPflowのメッセージパッシングアルゴリズムを再検討し、RMPflowポリシーの計算に現代的な自動微分ツール(TensorFlowやPyTorchなど)を使用するRMP2という、より効率的な代替アルゴリズムを提案する。 新しい設計では,RMPflowの強みを保ちながら,1)複雑な変換を設計する簡単なプログラミングインターフェース,2)汎用非巡回グラフ(DAG)変換構造のサポート,3)ポリシー学習におけるエンドツーエンドの微分可能性,4)計算効率の向上など,自動微分の利点を生かしている。 これらの特徴により、rmp2はドメイン知識のエンコーディングに適した効率的なロボット学習のための構造化ポリシークラスとして扱うことができる。 本実験では,RMP2が付与する構造化ポリシクラスを使用することで,目標達成のための強化学習タスクにおけるポリシパフォーマンスと安全性を改善できることを示した。

We consider the problem of learning motion policies for acceleration-based robotics systems with a structured policy class specified by RMPflow. RMPflow is a multi-task control framework that has been successfully applied in many robotics problems. Using RMPflow as a structured policy class in learning has several benefits, such as sufficient expressiveness, the flexibility to inject different levels of prior knowledge as well as the ability to transfer policies between robots. However, implementing a system for end-to-end learning RMPflow policies faces several computational challenges. In this work, we re-examine the message passing algorithm of RMPflow and propose a more efficient alternate algorithm, called RMP2, that uses modern automatic differentiation tools (such as TensorFlow and PyTorch) to compute RMPflow policies. Our new design retains the strengths of RMPflow while bringing in advantages from automatic differentiation, including 1) easy programming interfaces to designing complex transformations; 2) support of general directed acyclic graph (DAG) transformation structures; 3) end-to-end differentiability for policy learning; 4) improved computational efficiency. Because of these features, RMP2 can be treated as a structured policy class for efficient robot learning which is suitable encoding domain knowledge. Our experiments show that using structured policy class given by RMP2 can improve policy performance and safety in reinforcement learning tasks for goal reaching in cluttered space.
翻訳日:2021-03-11 14:39:59 公開日:2021-03-10
# 完全なグラディエントDQN強化学習: おそらく収束型スキーム

Full Gradient DQN Reinforcement Learning: A Provably Convergent Scheme ( http://arxiv.org/abs/2103.05981v1 )

ライセンス: Link先を確認
K. Avrachenkov, V.S. Borkar, H.P. Dolhare, K. Patil(参考訳) DQN強化学習アルゴリズムを確率近似法としてo.d.eを用いて解析する。 (正規微分方程式) のアプローチと、ある理論的問題を指摘する。 そこで本研究では,音の理論的基礎を持つフルグラデーションdqn(fg-dqn,略してfg-dqn)と呼ばれる修正スキームを提案し,サンプル問題に対する元のスキームと比較する。 我々はFG-DQNのより良い性能を観察する。

We analyze the DQN reinforcement learning algorithm as a stochastic approximation scheme using the o.d.e. (for `ordinary differential equation') approach and point out certain theoretical issues. We then propose a modified scheme called Full Gradient DQN (FG-DQN, for short) that has a sound theoretical basis and compare it with the original scheme on sample problems. We observe a better performance for FG-DQN.
翻訳日:2021-03-11 14:39:31 公開日:2021-03-10
# チェレンコフ望遠鏡アレイの背景拒絶手法としての光センサタイミング情報を用いた深層学習

Deep learning with photosensor timing information as a background rejection method for the Cherenkov Telescope Array ( http://arxiv.org/abs/2103.06054v1 )

ライセンス: Link先を確認
Samuel Spencer, Thomas Armstrong, Jason Watson, Salvatore Mangano, Yves Renier, Garret Cotter(参考訳) 新しい深層学習技術は、今後のチェレンコフ望遠鏡アレイ(CTA)のようなイメージング大気チェレンコフ望遠鏡(IACT)のための有望な新しい分析方法を提示します。 特に、畳み込みニューラルネットワーク(CNN)の使用は、チェレンコフシャワー画像に含まれるすべての情報を使用して、画像のパラメータ化の必要性を回避し、データの高速処理を可能にする、直接イベント分類方法を提供することができます。 この分野での既存の作業は、IACTカメラの光増倍器から統合された電荷の画像を利用してきたが、現在および今後のIACTカメラの大半は、トリガー後の光センサーの波形全体を読み取る能力を持っている。 カメラ平面における広範囲のエアシャワー(EAS)からのチェレンコフ光子の到着時間は、その放出の高度と望遠鏡からの衝撃距離に依存するため、これらの波形はIACTイベント分類に有用な情報を含む。 本研究は,プロトンおよび電子誘導easに対する背景拒絶法として,新しい深層学習手法を用いて,これらのカメラ画素波形を用いる可能性について検討する。 それらの情報を利用する手段は、波形パラメータの7つの追加2次元ピクセルマップを作成することであり、統合電荷画像と共に機械学習アルゴリズムに供給される。 最終的に、電子に対する唯一の分類力は事象の方向に基づくが、タイミング情報に基づく手法はガンマ/ハドロン分離における同様の電荷ベースの手法を上回っているように見える。 また,他の天体物理学実験において,深層学習とタイミング情報を組み合わせたイベント分類手法についても検討した。

New deep learning techniques present promising new analysis methods for Imaging Atmospheric Cherenkov Telescopes (IACTs) such as the upcoming Cherenkov Telescope Array (CTA). In particular, the use of Convolutional Neural Networks (CNNs) could provide a direct event classification method that uses the entire information contained within the Cherenkov shower image, bypassing the need to Hillas parameterise the image and allowing fast processing of the data. Existing work in this field has utilised images of the integrated charge from IACT camera photomultipliers, however the majority of current and upcoming generation IACT cameras have the capacity to read out the entire photosensor waveform following a trigger. As the arrival times of Cherenkov photons from Extensive Air Showers (EAS) at the camera plane are dependent upon the altitude of their emission and the impact distance from the telescope, these waveforms contain information potentially useful for IACT event classification. In this test-of-concept simulation study, we investigate the potential for using these camera pixel waveforms with new deep learning techniques as a background rejection method, against both proton and electron induced EAS. We find that a means of utilising their information is to create a set of seven additional 2-dimensional pixel maps of waveform parameters, to be fed into the machine learning algorithm along with the integrated charge image. Whilst we ultimately find that the only classification power against electrons is based upon event direction, methods based upon timing information appear to out-perform similar charge based methods for gamma/hadron separation. We also review existing methods of event classifications using a combination of deep learning and timing information in other astroparticle physics experiments.
翻訳日:2021-03-11 14:39:20 公開日:2021-03-10
# パラメータ依存偏微分方程式の減数次モデルに対する深層学習法

A Deep Learning approach to Reduced Order Modelling of Parameter Dependent Partial Differential Equations ( http://arxiv.org/abs/2103.06183v1 )

ライセンス: Link先を確認
Nicola R. Franco, Andrea Manzoni, Paolo Zunino(参考訳) パラメータ依存型PDEの枠組みの中で,パラメータ対解写像の効率的な近似のためのDeep Neural Networksに基づく構築的アプローチを開発する。 この研究は、コルモゴロフ n-width の遅い崩壊を示す問題に対処する際に、低基底法のような最先端アルゴリズムの限界と欠点に動機づけられている。 私たちの仕事は、解多様体の高い忠実度近似を符号化および復号するために使用する深いオートエンコーダの使用に基づいています。 ニューラルネットワークの近似能力を十分に活用するために、我々は最小潜在次元の概念を基礎とするコルモゴロフ n-幅の非線形バージョンを考える。 この最小次元は解多様体の位相的性質と密接に関連していることを示し、二階楕円型PDEに特に重点を置く理論的な結果を与える。 最後に,提案手法を従来のPOD-Galerkin還元順序モデルと比較した数値実験を報告する。 特に、パラメトリライズされた対流拡散PDEを検討し、強い輸送場、特異項、確率係数の存在下で方法論をテストします。

Within the framework of parameter dependent PDEs, we develop a constructive approach based on Deep Neural Networks for the efficient approximation of the parameter-to-solutio n map. The research is motivated by the limitations and drawbacks of state-of-the-art algorithms, such as the Reduced Basis method, when addressing problems that show a slow decay in the Kolmogorov n-width. Our work is based on the use of deep autoencoders, which we employ for encoding and decoding a high fidelity approximation of the solution manifold. In order to fully exploit the approximation capabilities of neural networks, we consider a nonlinear version of the Kolmogorov n-width over which we base the concept of a minimal latent dimension. We show that this minimal dimension is intimately related to the topological properties of the solution manifold, and we provide some theoretical results with particular emphasis on second order elliptic PDEs. Finally, we report numerical experiments where we compare the proposed approach with classical POD-Galerkin reduced order models. In particular, we consider parametrized advection-diffusion PDEs, and we test the methodology in the presence of strong transport fields, singular terms and stochastic coefficients.
翻訳日:2021-03-11 14:38:52 公開日:2021-03-10
# 強化学習におけるクレジットアサインメントの情報理論的視点

An Information-Theoreti c Perspective on Credit Assignment in Reinforcement Learning ( http://arxiv.org/abs/2103.06224v1 )

ライセンス: Link先を確認
Dilip Arumugam, Peter Henderson, Pierre-Luc Bacon(参考訳) 強化学習における信用割当の課題をどう定式化するか? 一般的な直観は、難解なクレジット割り当ての鍵となる貢献者としての寛大さに注意を向け、伝統的なヒューリスティックスは、古典的な適格性トレースを呼び出すことで、ソリューションの一時的な厳格さに目を向ける。 我々は、クレジット割り当てが困難になるのは報酬自体のスパース性ではなく、emph{information sparsity}(情報スパース性)であると仮定する。 我々は、情報理論を用いてこの概念を定義し、クレジット割当が効率的な学習の障害である場合に特徴付けることを提案する。 この観点から、一定の行動方針の下で信用を測定するためのいくつかの情報理論のメカニズムを概説し、情報理論のポテンシャルを有能な与信割り当ての鍵となるツールとして強調する。

How do we formalize the challenge of credit assignment in reinforcement learning? Common intuition would draw attention to reward sparsity as a key contributor to difficult credit assignment and traditional heuristics would look to temporal recency for the solution, calling upon the classic eligibility trace. We posit that it is not the sparsity of the reward itself that causes difficulty in credit assignment, but rather the \emph{information sparsity}. We propose to use information theory to define this notion, which we then use to characterize when credit assignment is an obstacle to efficient learning. With this perspective, we outline several information-theoreti c mechanisms for measuring credit under a fixed behavior policy, highlighting the potential of information theory as a key tool towards provably-efficient credit assignment.
翻訳日:2021-03-11 14:38:33 公開日:2021-03-10
# 体操AIに関する調査 : シミュレータから研究課題へ

A Survey of Embodied AI: From Simulators to Research Tasks ( http://arxiv.org/abs/2103.04918v3 )

ライセンス: Link先を確認
Jiafei Duan, Samson Yu, Hui Li Tan, Hongyuan Zhu and Cheston Tan(参考訳) ネットAI」の時代から「具体化AI」の時代へとパラダイムが変化し、AIアルゴリズムやエージェントは、インターネットから主に収集された画像、ビデオ、テキストのデータセットから学習しなくなりました。 その代わり、実物でもシミュレートであれ、環境との身体的相互作用を通じて学習する。 その結果、インボディードAI研究タスクの多様性をサポートするために、インボディードAIシミュレーターの需要が大幅に増加した。 このインボディードAIへの関心の高まりは、人工知能のさらなる追求に有益であるが、この分野に関する現代的で包括的な調査は行われていない。 本稿では、最先端のAIシミュレータと、それらの間の接続をマッピングする研究を包括的に調査する。 本論文では,9つの最先端のAIシミュレータを7つの特徴からベンチマークすることにより,AI研究におけるシミュレータの利用状況を把握することを目的とする。 最後に、AI研究課題のシミュレータとピラミッド階層に基づいて、AI-視覚探索、視覚ナビゲーション、および具体的質問応答(QA)における主要な研究課題を調査し、最先端のアプローチ、評価、データセットについて述べる。

There has been an emerging paradigm shift from the era of "internet AI" to "embodied AI", whereby AI algorithms and agents no longer simply learn from datasets of images, videos or text curated primarily from the internet. Instead, they learn through embodied physical interactions with their environments, whether real or simulated. Consequently, there has been substantial growth in the demand for embodied AI simulators to support a diversity of embodied AI research tasks. This growing interest in embodied AI is beneficial to the greater pursuit of artificial general intelligence, but there is no contemporary and comprehensive survey of this field. This paper comprehensively surveys state-of-the-art embodied AI simulators and research, mapping connections between these. By benchmarking nine state-of-the-art embodied AI simulators in terms of seven features, this paper aims to understand the simulators in their provision for use in embodied AI research. Finally, based upon the simulators and a pyramidal hierarchy of embodied AI research tasks, this paper surveys the main research tasks in embodied AI -- visual exploration, visual navigation and embodied question answering (QA), covering the state-of-the-art approaches, evaluation and datasets.
翻訳日:2021-03-11 12:45:55 公開日:2021-03-10
# シーングラフ生成のためのセマンティックアンビジティの確率的モデル化

Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation ( http://arxiv.org/abs/2103.05271v2 )

ライセンス: Link先を確認
Gengcong Yang, Jingyi Zhang, Yong Zhang, Baoyuan Wu, Yujiu Yang(参考訳) 正確な」シーングラフを生成するために、ほぼ全ての既存手法は決定論的にペアワイズ関係を予測している。 しかし、視覚的関係はしばしば意味的に曖昧である。 具体的には,言語知識に着想を得て,同義的曖昧性,偽性曖昧性,多視点曖昧性という3つのタイプに分類した。 あいまいさは自然に、多様な予測の必要性を動機づける、"emph{implicit multi-label}"の問題に繋がる。 本研究では,プラグアンドプレイ確率不確実性モデリング(PUM)モジュールを提案する。 各組合地域をガウス分布としてモデル化し、その分散は対応する視覚コンテンツの不確実性を測定する。 従来の決定論的手法と比較して、不確実性モデリングは特徴表現の確率性をもたらし、自然に多様な予測を可能にする。 副産物として、PUMはよりきめ細かい関係をカバーし、頻繁な関係に対する偏見の問題を軽減する。 大規模ビジュアルゲノムベンチマークに関する広範な実験は、PUMと新たに提案されたResCAGCNを組み合わせることで、特に平均リコールメトリックの下で最先端のパフォーマンスを達成できることを示しています。 さらに,既存のモデルに組み込むことで,pumの普遍的有効性を証明し,多様で多彩な視覚関係を生み出す能力について洞察的な分析を行う。

To generate "accurate" scene graphs, almost all existing methods predict pairwise relationships in a deterministic manner. However, we argue that visual relationships are often semantically ambiguous. Specifically, inspired by linguistic knowledge, we classify the ambiguity into three types: Synonymy Ambiguity, Hyponymy Ambiguity, and Multi-view Ambiguity. The ambiguity naturally leads to the issue of \emph{implicit multi-label}, motivating the need for diverse predictions. In this work, we propose a novel plug-and-play Probabilistic Uncertainty Modeling (PUM) module. It models each union region as a Gaussian distribution, whose variance measures the uncertainty of the corresponding visual content. Compared to the conventional deterministic methods, such uncertainty modeling brings stochasticity of feature representation, which naturally enables diverse predictions. As a byproduct, PUM also manages to cover more fine-grained relationships and thus alleviates the issue of bias towards frequent relationships. Extensive experiments on the large-scale Visual Genome benchmark show that combining PUM with newly proposed ResCAGCN can achieve state-of-the-art performances, especially under the mean recall metric. Furthermore, we prove the universal effectiveness of PUM by plugging it into some existing models and provide insightful analysis of its ability to generate diverse yet plausible visual relationships.
翻訳日:2021-03-11 12:45:35 公開日:2021-03-10
# ディープラーニングに基づく3Dセグメンテーション:調査

Deep Learning based 3D Segmentation: A Survey ( http://arxiv.org/abs/2103.05423v2 )

ライセンス: Link先を確認
Yong He, Hongshan Yu, Xiaoyan Liu, Zhengeng Yang, Wei Sun, Yaonan Wang, Qiang Fu, Yanmei Zou and Ajmal Mian(参考訳) 3Dオブジェクトセグメンテーションは、自動運転、ロボティクス、拡張現実、医療画像分析など、コンピュータビジョンの根本的かつ困難な問題です。 コンピュータビジョン、グラフィックス、機械学習コミュニティから大きな注目を集めています。 伝統的に、3dセグメンテーションは手作りの特徴と工学的手法で行われ、許容できる精度を達成できず、大規模データには一般化できなかった。 2Dコンピュータビジョンにおける大きな成功によって、ディープラーニング技術は、最近3Dセグメンテーションタスクの選択ツールにもなっている。 これにより、さまざまなベンチマークデータセットで評価された多くのメソッドが文献に流入しました。 本論文では,150以上の論文を対象とする深層学習に基づく3Dセグメンテーションの最近の進展を総合的に調査する。 最も一般的に使用されるパイプラインを要約し、ハイライトと欠点を説明し、これらのセグメンテーションメソッドの競合結果を分析する。 分析に基づいて、将来への有望な研究の方向性も提供する。

3D object segmentation is a fundamental and challenging problem in computer vision with applications in autonomous driving, robotics, augmented reality and medical image analysis. It has received significant attention from the computer vision, graphics and machine learning communities. Traditionally, 3D segmentation was performed with hand-crafted features and engineered methods which failed to achieve acceptable accuracy and could not generalize to large-scale data. Driven by their great success in 2D computer vision, deep learning techniques have recently become the tool of choice for 3D segmentation tasks as well. This has led to an influx of a large number of methods in the literature that have been evaluated on different benchmark datasets. This paper provides a comprehensive survey of recent progress in deep learning based 3D segmentation covering over 150 papers. It summarizes the most commonly used pipelines, discusses their highlights and shortcomings, and analyzes the competitive results of these segmentation methods. Based on the analysis, it also provides promising research directions for the future.
翻訳日:2021-03-11 12:45:11 公開日:2021-03-10
# マルチスピーカマルチスタイルテキストから音声へのプリトレーニングと学習可能な話者表現の組み入れに関する研究

Investigating on Incorporating Pretrained and Learnable Speaker Representations for Multi-Speaker Multi-Style Text-to-Speech ( http://arxiv.org/abs/2103.04088v2 )

ライセンス: Link先を確認
Chung-Ming Chien, Jheng-Hao Lin, Chien-yu Huang, Po-chun Hsu, Hung-yi Lee(参考訳) 数発のマルチスピーカーマルチスタイルの音声クローニングタスクは、いくつかの参照サンプルを与えられたリファレンススピーカーに似た音声とスピーキングスタイルで発話を合成することです。 本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。 様々な種類の組込みのうち、音声変換によって事前学習された組込みは最高の性能を達成する。 事前訓練された話者表現と学習可能な話者表現を組み合わせたFastSpeech 2モデルは、少数ショット話者に大きな一般化能力を示し、ICASSP 2021 M2VoCチャレンジの1ショットトラックで2位を獲得した。

The few-shot multi-speaker multi-style voice cloning task is to synthesize utterances with voice and speaking style similar to a reference speaker given only a few reference samples. In this work, we investigate different speaker representations and proposed to integrate pretrained and learnable speaker representations. Among different types of embeddings, the embedding pretrained by voice conversion achieves the best performance. The FastSpeech 2 model combined with both pretrained and learnable speaker representations shows great generalization ability on few-shot speakers and achieved 2nd place in the one-shot track of the ICASSP 2021 M2VoC challenge.
翻訳日:2021-03-11 12:44:57 公開日:2021-03-10