このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201229となっている論文です。

PDF登録状況(公開日: 20201229)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 確率行列分解におけるより解釈可能な特徴選択表現のためのスパース符号化 [全文訳有]

Sparse encoding for more-interpretable feature-selecting representations in probabilistic matrix factorization ( http://arxiv.org/abs/2012.04171v3 )

ライセンス: CC0 1.0
Joshua C. Chang, Patrick Fletcher, Jungmin Han, Ted L. Chang, Shashaank Vattikuti, Bart Desmet, Ayah Zirikly, Carson C. Chow(参考訳) 数量データの次元性低減法は、モデル解釈が最重要である医療情報学やその他の分野の幅広い応用に不可欠である。 このようなデータに対して,階層的ポアソン行列分解 (hpf) および他のスパース確率的非負行列分解 (nmf) 法は解釈可能な生成モデルであると考えられる。 これらは、学習した表現を予測にデコードするためのスパース変換からなる。 しかし、表現デコードにおけるスパーシティは、必ずしも元のデータ特徴から表現のエンコーディングにスパーシティを伴わない。 HPFはしばしば、エンコーダの間隔を持つかのように、文献で誤って解釈される。 デコーダ空間とエンコーダ空間の区別は微妙だが重要である。 エンコーダの間隔が不足しているため、HPFは古典的NMFのカラムクラスタリング特性を持っていない。 一般化加法モデル (GAM) を用いてエンコーダ空間を自己整合的に拡張することで, それぞれの表現座標を元のデータ特徴のサブセットに関連付けることができる。 その際、このメソッドは機能選択を行う能力も得る。 本手法をシミュレーションデータに応用し,医療従事者における患者共生表現の具体的応用として,エンコーダ空間がいかに実用的かを示す。

Dimensionality reduction methods for count data are critical to a wide range of applications in medical informatics and other fields where model interpretability is paramount. For such data, hierarchical Poisson matrix factorization (HPF) and other sparse probabilistic non-negative matrix factorization (NMF) methods are considered to be interpretable generative models. They consist of sparse transformations for decoding their learned representations into predictions. However, sparsity in representation decoding does not necessarily imply sparsity in the encoding of representations from the original data features. HPF is often incorrectly interpreted in the literature as if it possesses encoder sparsity. The distinction between decoder sparsity and encoder sparsity is subtle but important. Due to the lack of encoder sparsity, HPF does not possess the column-clustering property of classical NMF -- the factor loading matrix does not sufficiently define how each factor is formed from the original features. We address this deficiency by self-consistently enforcing encoder sparsity, using a generalized additive model (GAM), thereby allowing one to relate each representation coordinate to a subset of the original data features. In doing so, the method also gains the ability to perform feature selection. We demonstrate our method on simulated data and give an example of how encoder sparsity is of practical use in a concrete application of representing inpatient comorbidities in Medicare patients.
翻訳日:2021-05-17 12:06:14 公開日:2020-12-29
# 画像検索再帰の理解:グラフニューラルネットワークの視点から

Understanding Image Retrieval Re-Ranking: A Graph Neural Network Perspective ( http://arxiv.org/abs/2012.07620v2 )

ライセンス: Link先を確認
Xuanmeng Zhang, Minyue Jiang, Zhedong Zheng, Xiao Tan, Errui Ding, Yi Yang(参考訳) 画像検索タスクのポストプロセッシングツールとして広く採用されている,高信頼な検索サンプルを利用して検索結果を洗練する手法である。 しかし、再ランク付けの1つの大きな欠陥、すなわち高い計算複雑性に気付き、現実のアプリケーションでは耐え難い時間コストを発生させる。 本稿では,高並列性グラフニューラルネット(GNN)関数として再分類可能であることを示す。 特に,従来のリグレード処理を,高品質なギャラリーサンプルの検索と更新機能という2つのフェーズに分割する。 第1フェーズはk-ネアレストの隣のグラフの構築と等しく、第2フェーズはグラフ内でメッセージを拡散していると見なすことができる。 実際には、GNNは接続されたエッジで頂点を気にするだけです。 グラフはスパースなので、頂点の特徴を効率的に更新できる。 market-1501データセットでは、1k40m gpuで89.2sから9.4msへのリランキング処理を高速化し、リアルタイムのポストプロセッシングを容易にする。 同様に,VeRi-776,Oxford-5k, Paris-6k,University- 1652の4つの画像検索ベンチマークに対して,時間的制約を伴って比較あるいはより優れた検索結果が得られた。 私たちのコードは公開されています。

The re-ranking approach leverages high-confidence retrieved samples to refine retrieval results, which have been widely adopted as a post-processing tool for image retrieval tasks. However, we notice one main flaw of re-ranking, i.e., high computational complexity, which leads to an unaffordable time cost for real-world applications. In this paper, we revisit re-ranking and demonstrate that re-ranking can be reformulated as a high-parallelism Graph Neural Network (GNN) function. In particular, we divide the conventional re-ranking process into two phases, i.e., retrieving high-quality gallery samples and updating features. We argue that the first phase equals building the k-nearest neighbor graph, while the second phase can be viewed as spreading the message within the graph. In practice, GNN only needs to concern vertices with the connected edges. Since the graph is sparse, we can efficiently update the vertex features. On the Market-1501 dataset, we accelerate the re-ranking processing from 89.2s to 9.4ms with one K40m GPU, facilitating the real-time post-processing. Similarly, we observe that our method achieves comparable or even better retrieval results on the other four image retrieval benchmarks, i.e., VeRi-776, Oxford-5k, Paris-6k and University-1652, with limited time cost. Our code is publicly available.
翻訳日:2021-05-08 14:29:28 公開日:2020-12-29
# 深層学習を用いた量子ニューラルネットワーク

Quantum neural networks with deep residual learning ( http://arxiv.org/abs/2012.07772v2 )

ライセンス: Link先を確認
Yanying Liang, Wei Peng, Zhu-Jun Zheng, Olli Silv\'en, Guoying Zhao(参考訳) 古典的機械学習タスクにおけるニューラルネットワークの成功に触発されて、量子ニューラルネットワーク(qnn)の開発には、特に量子データや本質的に量子性を持つタスクに対して多大な努力が払われてきた。 現在、古典的計算の計算と熱力学的制限を回避するために量子コンピューティングプロセッサが間近に出現し、効率的な量子ニューラルネットワークを設計することは、量子機械学習において貴重なタスクとなる。 本稿では,深層残留学習(resqnn)を用いた新しい量子ニューラルネットワークを提案する。 具体的には、残差接続を持つ多重層量子パーセプトロンを提供する。 我々のResQNNは未知のユニタリを学び、素晴らしいパフォーマンスを得ることができます。 さらに、モデルは古典的ニューラルネットワークのバックプロパゲーションの類似として、エンドツーエンドでトレーニングすることができる。 ResQNNの有効性を探るため,クリーンかつノイズの多いトレーニングデータの設定下で,量子データに関する広範な実験を行った。 実験結果から,現在の「textit{Nature communication, 2020}」の成果と比較して,ResQNNの堅牢性と優位性を示した。 さらに、ノイズの多いデータの割合が高い場合、ResQNNモデルの優位性がさらに大きくなり、提案手法のノイズの多いデータに対する一般化能力と顕著な耐性が示唆される。

Inspired by the success of neural networks in the classical machine learning tasks, there has been tremendous effort to develop quantum neural networks (QNNs), especially for quantum data or tasks that are inherently quantum in nature. Currently, with the imminent advent of quantum computing processors to evade the computational and thermodynamic limitation of classical computations,} designing an efficient quantum neural network becomes a valuable task in quantum machine learning. In this paper, a novel quantum neural network with deep residual learning (ResQNN) is proposed. {Specifically, a multiple layer quantum perceptron with residual connection is provided. Our ResQNN is able to learn an unknown unitary and get remarkable performance. Besides, the model can be trained with an end-to-end fashion, as analogue of the backpropagation in the classical neural networks. To explore the effectiveness of our ResQNN , we perform extensive experiments on the quantum data under the setting of both clean and noisy training data. The experimental results show the robustness and superiority of our ResQNN, when compared to current remarkable work, which is from \textit{Nature communications, 2020}. Moreover, when training with higher proportion of noisy data, the superiority of our ResQNN model can be even significant, which implies the generalization ability and the remarkable tolerance for noisy data of the proposed method.
翻訳日:2021-05-08 14:24:03 公開日:2020-12-29
# (参考訳) 一般化誤差に基づく個別条件付き相互情報境界 [全文訳有]

Individually Conditional Individual Mutual Information Bound on Generalization Error ( http://arxiv.org/abs/2012.09922v2 )

ライセンス: CC BY 4.0
Ruida Zhou, Chao Tian, Tie Liu(参考訳) 本稿では,bu と al の誤差分解手法を組み合わせた一般化誤差に関する新しい情報理論境界を提案する。 そして、Steinke と Zakynthinou の条件付き相互情報(CMI)構築。 前作『haghifam et al.』に収録。 上記の2つの手法を組み合わせて、条件付き個別相互情報(CIMI)バウンダリを提案する。 しかし、単純なガウス的な設定では、CMI と CIMI の境界は、Bu らによる境界よりも順序的に劣る。 この観察により,条件付き相互情報における条件付け項を削減し,この問題を克服する新たな境界の提案が求められた。 この境界を確立する過程で条件付き疎結合補題が確立され、これらの情報理論境界間の有意義な二分法と比較がもたらされる。

We propose a new information-theoreti c bound on generalization error based on a combination of the error decomposition technique of Bu et al. and the conditional mutual information (CMI) construction of Steinke and Zakynthinou. In a previous work, Haghifam et al. proposed a different bound combining the two aforementioned techniques, which we refer to as the conditional individual mutual information (CIMI) bound. However, in a simple Gaussian setting, both the CMI and the CIMI bounds are order-wise worse than that by Bu et al.. This observation motivated us to propose the new bound, which overcomes this issue by reducing the conditioning terms in the conditional mutual information. In the process of establishing this bound, a conditional decoupling lemma is established, which also leads to a meaningful dichotomy and comparison among these information-theoreti c bounds.
翻訳日:2021-05-02 10:15:52 公開日:2020-12-29
# 条件付きマスキング言語モデルを用いた普遍文表現学習

Universal Sentence Representation Learning with Conditional Masked Language Model ( http://arxiv.org/abs/2012.14388v2 )

ライセンス: Link先を確認
Ziyi Yang, Yinfei Yang, Daniel Cer, Jax Law, Eric Darve(参考訳) 本稿では,大規模未ラベルコーパス上で文表現を効果的に学習する新しい訓練手法である条件付きマスケッド言語モデリング(CMLM)を提案する。 CMLMは、隣接する文の符号化ベクトルを条件付けして、文章表現学習をMLM訓練に統合する。 英語cmlmモデルは、(半)教師付き信号で学習されたモデルよりも優れたパフォーマンスを実現しています。 完全に教師なしの学習方法として、CMLMは様々な言語やドメインに便利に拡張できる。 我々は,bitext retrieval~(br)と自然言語推論〜(nli)タスクを併用した多言語cmlmモデルが,従来の多言語モデルよりも大きなマージンを示した。 学習した表現の同じ言語バイアスを探索し、文の意味を保ちながら、表現から識別する言語を除去する原理的コンポーネントベースのアプローチを提案する。

This paper presents a novel training method, Conditional Masked Language Modeling (CMLM), to effectively learn sentence representations on large scale unlabeled corpora. CMLM integrates sentence representation learning into MLM training by conditioning on the encoded vectors of adjacent sentences. Our English CMLM model achieves state-of-the-art performance on SentEval, even outperforming models learned using (semi-)supervised signals. As a fully unsupervised learning method, CMLM can be conveniently extended to a broad range of languages and domains. We find that a multilingual CMLM model co-trained with bitext retrieval~(BR) and natural language inference~(NLI) tasks outperforms the previous state-of-the-art multilingual models by a large margin. We explore the same language bias of the learned representations, and propose a principle component based approach to remove the language identifying information from the representation while still retaining sentence semantics.
翻訳日:2021-04-19 11:05:42 公開日:2020-12-29
# 行動認識のためのテンソル表現

Tensor Representations for Action Recognition ( http://arxiv.org/abs/2012.14371v2 )

ライセンス: Link先を確認
Piotr Koniusz and Lei Wang and Anoop Cherian(参考訳) ビデオシーケンスにおける人間の行動は、空間的特徴と時間的ダイナミクスの間の複雑な相互作用によって特徴づけられる。 本稿では,アクション認識タスクにおける視覚的特徴間の高次関係をコンパクトにキャプチャするテンソル表現を提案する。 テンソルに基づく2つの特徴表現 viz を提案する。 i)シーケンス互換性カーネル (SCK) と (ii) 動的互換性カーネル (DCK) であり、前者は特徴間の時空間相関に基づくもので、後者はシーケンスのアクションダイナミクスを明示的にモデル化する。 また、SCK(+)の一般化についても検討し、ビデオ上で訓練された深層学習モデルから得られるスケルトン3Dボディジョイントやフレーム単位の分類スコアなどのマルチモーダル入力を組み込むことができる相関関係の局所的言語間相互作用を捉える。 コンパクトで高速な記述子につながるこれらのカーネルの線形化を導入する。 我々は, (i) 3Dスケルトンアクションシーケンス, (ii) きめ細かいビデオシーケンス, (iii) 標準のきめ細かいビデオについて実験を行った。 最終表現は特徴の高次関係を捉えるテンソルであるため、ロバストな細粒度認識のための共起と関連している。 高次テンソルと、いわゆる固有値パワー正規化(epn)を用いて、高次発生のスペクトル検出を行い、アクションシーケンスの特徴を単に数えるのではなく、特徴のきめ細かい関係を検出する。 Z* 次元特徴量から構築された位数 r のテンソルが EPN と組み合わさって、少なくとも 1 つの高階発生が、その dim の binom(Z*,r) 部分空間の 1 つに「射影」されているかどうかを実際に検出することを証明する。 テンソルで表されるrは、そのような「検出者」にbinom(z*,r)を付与したテンソルパワー正規化計量を形成する。

Human actions in video sequences are characterized by the complex interplay between spatial features and their temporal dynamics. In this paper, we propose novel tensor representations for compactly capturing such higher-order relationships between visual features for the task of action recognition. We propose two tensor-based feature representations, viz. (i) sequence compatibility kernel (SCK) and (ii) dynamics compatibility kernel (DCK); the former building on the spatio-temporal correlations between features, while the latter explicitly modeling the action dynamics of a sequence. We also explore generalization of SCK, coined SCK(+), that operates on subsequences to capture the local-global interplay of correlations, which can incorporate multi-modal inputs e.g., skeleton 3D body-joints and per-frame classifier scores obtained from deep learning models trained on videos. We introduce linearization of these kernels that lead to compact and fast descriptors. We provide experiments on (i) 3D skeleton action sequences, (ii) fine-grained video sequences, and (iii) standard non-fine-grained videos. As our final representations are tensors that capture higher-order relationships of features, they relate to co-occurrences for robust fine-grained recognition. We use higher-order tensors and so-called Eigenvalue Power Normalization (EPN) which have been long speculated to perform spectral detection of higher-order occurrences, thus detecting fine-grained relationships of features rather than merely count features in action sequences. We prove that a tensor of order r, built from Z* dimensional features, coupled with EPN indeed detects if at least one higher-order occurrence is `projected' into one of its binom(Z*,r) subspaces of dim. r represented by the tensor, thus forming a Tensor Power Normalization metric endowed with binom(Z*,r) such `detectors'.
翻訳日:2021-04-19 11:01:03 公開日:2020-12-29
# CT/CXR画像に基づく新型コロナウイルスのスクリーニングと一般向けCTスキャンデータの構築

Screening COVID-19 Based on CT/CXR Images & Building a Publicly Available CT-scan Dataset of COVID-19 ( http://arxiv.org/abs/2012.14204v2 )

ライセンス: Link先を確認
Maryam Dialameh and Ali Hamzeh and Hossein Rahmani and Amir Reza Radmard and Safoura Dialameh(参考訳) 新型コロナウイルスの急激な流行は、世界中の人間の生命を脅かす。 診断インフラが不十分なため、正確で効率的で安価で迅速な診断ツールの開発が重要である。 胸部X線 (CXR) やCTCT (CT) などの胸部X線撮影は、新型コロナウイルスをスクリーニングする方法として考えられるため、自動画像分類ツールの開発は、COVID-19患者の検出に極めて有用である。 これまで、研究者はいくつかの異なるスクリーニング方法を提案してきたが、いずれも信頼性が高く高感度な性能を達成できなかった。 現在の方法の主な欠点は、十分なトレーニングデータがないこと、一般化性能が低いこと、偽陽性検出率が高いことである。 このような制限に対処するため、本研究ではまず、1000人以上からなる13k以上のCT画像からなる、大規模で公開可能なCTスキャンデータセットを構築した。 第2に,提案したCTデータセットを用いてCOVID-19をスクリーニングする深層学習モデルを提案し,その結果を報告する。 最後に,cxr画像からcovid-19をスクリーニングするためのctモデルをトランスファーラーニングアプローチで拡張した。 実験の結果,CT法とCXR法でそれぞれ0.886と0.984のスコアが得られた。

The rapid outbreak of COVID-19 threatens humans life all around the world. Due to insufficient diagnostic infrastructures, developing an accurate, efficient, inexpensive, and quick diagnostic tool is of great importance. As chest radiography, such as chest X-ray (CXR) and CT computed tomography (CT), is a possible way for screening COVID-19, developing an automatic image classification tool is immensely helpful for detecting the patients with COVID-19. To date, researchers have proposed several different screening methods; however, none of them could achieve a reliable and highly sensitive performance yet. The main drawbacks of current methods are the lack of having enough training data, low generalization performance, and a high rate of false-positive detection. To tackle such limitations, this study firstly builds a large-size publicly available CT-scan dataset, consisting of more than 13k CT-images of more than 1000 individuals, in which 8k images are taken from 500 patients infected with COVID-19. Secondly, we propose a deep learning model for screening COVID-19 using our proposed CT dataset and report the baseline results. Finally, we extend the proposed CT model for screening COVID-19 from CXR images using a transfer learning approach. The experimental results show that the proposed CT and CXR methods achieve the AUC scores of 0.886 and 0.984 respectively.
翻訳日:2021-04-19 10:56:20 公開日:2020-12-29
# (参考訳) 製品分布の混合成分の源同定 [全文訳有]

Source Identification for Mixtures of Product Distributions ( http://arxiv.org/abs/2012.14540v1 )

ライセンス: CC BY 4.0
Spencer L. Gordon, Bijan Mazaheri, Yuval Rabani, Leonard J. Schulman(参考訳) 我々は、$n$ビット上の$k$の製品分布の混合物のソース識別のためのアルゴリズムを与える。 これは、多くのアプリケーションによる機械学習の根本的な問題である。 提案手法は, 2^{o(k^2)} n^{o(k)}$演算演算を用いて,複数線形モーメントの近似値(例えば,十分大きなサンプルから導出する)を入力として, 同定可能な混合物のソースパラメータを同定する。 その結果,これらの混合物のソース同定の計算複雑性に初めて明示的な境界が与えられた。 Feldman氏、O'Donnell氏、Servedio氏(FOCS 2005)、Chen and Moitra氏(STOC 2019)による以前の結果の改善は、(ソースのパラメトリック識別なしで)混合を学習することのみを保証する。 本分析は,tahmasebi,motahari, maddah-ali(isit 2018)による同定可能な情報源の質的特徴を定量的に評価した。

We give an algorithm for source identification of a mixture of $k$ product distributions on $n$ bits. This is a fundamental problem in machine learning with many applications. Our algorithm identifies the source parameters of an identifiable mixture, given, as input, approximate values of multilinear moments (derived, for instance, from a sufficiently large sample), using $2^{O(k^2)} n^{O(k)}$ arithmetic operations. Our result is the first explicit bound on the computational complexity of source identification of such mixtures. The running time improves previous results by Feldman, O'Donnell, and Servedio (FOCS 2005) and Chen and Moitra (STOC 2019) that guaranteed only learning the mixture (without parametric identification of the source). Our analysis gives a quantitative version of a qualitative characterization of identifiable sources that is due to Tahmasebi, Motahari, and Maddah-Ali (ISIT 2018).
翻訳日:2021-04-19 07:32:17 公開日:2020-12-29
# (参考訳) 活動日記合成のための個人別多出力深層生成ネットワークアプローチ [全文訳有]

A Differentially Private Multi-Output Deep Generative Networks Approach For Activity Diary Synthesis ( http://arxiv.org/abs/2012.14574v1 )

ライセンス: CC BY 4.0
Godwin Badu-Marfo, Bilal Farooq and Zachary Patterson(参考訳) 本研究では,最先端のディープラーニング手法を用いて,旅行人口の行動日記を合成するプライバシ・バイ・デザインの生成モデルを開発した。 提案手法は,合成人口を基盤とするサンプル集団のプライバシー保護を確保しつつ,合成旅行データの開発と適用に新たな深層学習を寄与させることにより,人口合成に関する文献を拡大する。 まず,社会経済的な特徴と地理的および時間的明示的な活動の縦列をシミュレートする活動日記の完全非一般化を示す。 第2に,調査参加者の独特さを識別する解像度レベルを制御するために,差分プライバシーアプローチを導入する。 最後に,GAN(Generative Adversarial Networks)を用いて実験を行った。 統計的分布,ペア相関性を評価し,様々なノイズに対するシミュレーションデータセット上で保証されるプライバシーレベルを測定した。 モデルの結果,構造化社会経済的特徴と逐次的ツアー活動を含む複数のアウトプットからなる活動日記を,異なるプライベートな方法でシミュレートすることに成功した。

In this work, we develop a privacy-by-design generative model for synthesizing the activity diary of the travel population using state-of-art deep learning approaches. This proposed approach extends literature on population synthesis by contributing novel deep learning to the development and application of synthetic travel data while guaranteeing privacy protection for members of the sample population on which the synthetic populations are based. First, we show a complete de-generalization of activity diaries to simulate the socioeconomic features and longitudinal sequences of geographically and temporally explicit activities. Second, we introduce a differential privacy approach to control the level of resolution disclosing the uniqueness of survey participants. Finally, we experiment using the Generative Adversarial Networks (GANs). We evaluate the statistical distributions, pairwise correlations and measure the level of privacy guaranteed on simulated datasets for varying noise. The results of the model show successes in simulating activity diaries composed of multiple outputs including structured socio-economic features and sequential tour activities in a differentially private manner.
翻訳日:2021-04-19 06:59:29 公開日:2020-12-29
# (参考訳) ノイズのある擬似ラベルに基づく医用画像セグメンテーションのためのアノテーション有効学習と逆学習 [全文訳有]

Annotation-Efficient Learning for Medical Image Segmentation based on Noisy Pseudo Labels and Adversarial Learning ( http://arxiv.org/abs/2012.14584v1 )

ライセンス: CC BY 4.0
Lu Wang, Dong Guo, Guotai Wang and Shaoting Zhang(参考訳) 深層学習は、医用画像セグメンテーションの最先端のパフォーマンスを達成しているが、その成功は、手動で注釈付けされた大量の画像に頼っている。 本稿では,トレーニング画像のアノテーションを避けるためのセグメンテーションタスクのためのアノテーション効率のよい学習フレームワークを提案する。そこでは,改良されたサイクル一貫性生成支援ネットワーク(GAN)を用いて,形状モデルあるいは公開データセットから得られた未使用の医療画像と補助マスクの集合から学習する。 まず、GANを用いて、補助マスクの助けを借りて、変分オートエンコーダ(VAE)ベースの識別器で表される暗黙の高レベルな形状制約の下で、トレーニング画像の擬似ラベルを生成し、識別器のフィードバックを用いて、より良い擬似ラベルのためにジェネレータを校正する識別器誘導ジェネレータチャネル校正(DGCC)モジュールを構築する。 ノイズの多い擬似ラベルから学ぶために,ノイズ重み付きダイス損失を用いたノイズロバスト反復学習法についても紹介する。 基礎画像の光学ディスクや超音波画像の胎児頭部のような単純な形状の物体,X線画像の肺やCT画像の肝臓などの複雑な構造の2つを用いて,我々の枠組みを検証した。 実験の結果,(1)vaeに基づく判別器とdgccモジュールは高品質の擬似ラベルを得るのに役立つことがわかった。 2) 提案手法は, 雑音擬似ラベルの効果を効果的に克服することができる。 3) 訓練画像のアノテーションを使用しない方法の分割性能は, 人間のアノテーションによる学習と近いか, あるいは同等である。

Despite that deep learning has achieved state-of-the-art performance for medical image segmentation, its success relies on a large set of manually annotated images for training that are expensive to acquire. In this paper, we propose an annotation-efficient learning framework for segmentation tasks that avoids annotations of training images, where we use an improved Cycle-Consistent Generative Adversarial Network (GAN) to learn from a set of unpaired medical images and auxiliary masks obtained either from a shape model or public datasets. We first use the GAN to generate pseudo labels for our training images under the implicit high-level shape constraint represented by a Variational Auto-encoder (VAE)-based discriminator with the help of the auxiliary masks, and build a Discriminator-guided Generator Channel Calibration (DGCC) module which employs our discriminator's feedback to calibrate the generator for better pseudo labels. To learn from the pseudo labels that are noisy, we further introduce a noise-robust iterative learning method using noise-weighted Dice loss. We validated our framework with two situations: objects with a simple shape model like optic disc in fundus images and fetal head in ultrasound images, and complex structures like lung in X-Ray images and liver in CT images. Experimental results demonstrated that 1) Our VAE-based discriminator and DGCC module help to obtain high-quality pseudo labels. 2) Our proposed noise-robust learning method can effectively overcome the effect of noisy pseudo labels. 3) The segmentation performance of our method without using annotations of training images is close or even comparable to that of learning from human annotations.
翻訳日:2021-04-19 06:42:06 公開日:2020-12-29
# (参考訳) ROAD: The Real ORNL Automotive Dynamometer Controller Area Intrusion Detection Dataset (包括的CAN IDSデータセットサーベイとガイド) [全文訳有]

ROAD: The Real ORNL Automotive Dynamometer Controller Area Network Intrusion Detection Dataset (with a comprehensive CAN IDS dataset survey & guide) ( http://arxiv.org/abs/2012.14600v1 )

ライセンス: CC BY 4.0
Miki E. Verma and Michael D. Iannacone and Robert A. Bridges and Samuel C. Hollifield and Bill Kay and Frank L. Combs(参考訳) controller area network (can)プロトコルは現代の車両で広く使われているが、メッセージ認証のような重要なセキュリティ特性を欠いている。 これらの不確実性に対処するために、これらのネットワークに対する改ざん、異常、または攻撃を検出する研究分野が急速に成長し、この分野はこれらの問題に対処する様々な新しいアプローチとアルゴリズムを開発してきた。 このCAN異常検出・侵入検知システム(IDS)研究領域の進展の大きな障害の1つは、現実的なラベル付き攻撃を伴う高忠実度データセットの欠如であり、これらのアプローチを評価、比較、検証することが困難である。 本研究では,公開可能なCAN侵入データセットの包括的調査を行う。 データとドキュメントの詳細な分析に基づいて、データセット毎に詳細な説明を提供し、欠点やメリット、提案されたユースケースを列挙します。 分析の目的は、研究者がcan idをテストするための適切なデータセットを見つけることにある。 我々は、Real ORNL Automotive Dynamometer (ROAD) CAN Intrusion Datasetを紹介する。

The Controller Area Network (CAN) protocol is ubiquitous in modern vehicles, but the protocol lacks many important security properties, such as message authentication. To address these insecurities, a rapidly growing field of research has emerged that seeks to detect tampering, anomalies, or attacks on these networks; this field has developed a wide variety of novel approaches and algorithms to address these problems. One major impediment to the progression of this CAN anomaly detection and intrusion detection system (IDS) research area is the lack of high-fidelity datasets with realistic labeled attacks, without which it is difficult to evaluate, compare, and validate these proposed approaches. In this work we present the first comprehensive survey of publicly available CAN intrusion datasets. Based on a thorough analysis of the data and documentation, for each dataset we provide a detailed description and enumerate the drawbacks, benefits, and suggested use cases. Our analysis is aimed at guiding researchers in finding appropriate datasets for testing a CAN IDS. We present the Real ORNL Automotive Dynamometer (ROAD) CAN Intrusion Dataset, providing the first dataset with real, advanced attacks to the existing collection of open datasets.
翻訳日:2021-04-19 06:10:22 公開日:2020-12-29
# (参考訳) 構造化および非構造化知識を用いた統一オープンドメイン質問応答 [全文訳有]

Unified Open-Domain Question Answering with Structured and Unstructured Knowledge ( http://arxiv.org/abs/2012.14610v1 )

ライセンス: CC BY 4.0
Barlas Oguz, Xilun Chen, Vladimir Karpukhin, Stan Peshterliev, Dmytro Okhonko, Michael Schlichtkrull, Sonal Gupta, Yashar Mehdad, Scott Yih(参考訳) 我々は、テキスト、表、リスト、知識ベースを含む構造化、非構造化、半構造化の知識ソースを用いて、オープンドメイン質問応答(odqa)を研究する。 提案手法は,テキストのみに制限された最新の強力なレトリバーリーダモデルを適用し,テキストに還元することで,すべてのソースを均質化する。 このような改革によって知識ベースQAを大幅に改善できることを示す。 以前の研究とは対照的に、コンバインドソースは、構築によって単一のソースをターゲットにしたデータセットであっても、常に役に立ちます。 その結果,3つのODQAベンチマークで最先端の結果が得られた。

We study open-domain question answering (ODQA) with structured, unstructured and semi-structured knowledge sources, including text, tables, lists, and knowledge bases. Our approach homogenizes all sources by reducing them to text, and applies recent, powerful retriever-reader models which have so far been limited to text sources only. We show that knowledge-base QA can be greatly improved when reformulated in this way. Contrary to previous work, we find that combining sources always helps, even for datasets which target a single source by construction. As a result, our unified model produces state-of-the-art results on 3 popular ODQA benchmarks.
翻訳日:2021-04-19 05:44:38 公開日:2020-12-29
# (参考訳) ロバスト軌道計画のための基準曲線の動的曲率に基づく効率的な生成法 [全文訳有]

An Efficient Generation Method based on Dynamic Curvature of the Reference Curve for Robust Trajectory Planning ( http://arxiv.org/abs/2012.14617v1 )

ライセンス: CC BY 4.0
Yuchen Sun and Dongchun Ren and Shiqi Lian and Mingyu Fan and Xiangyi Teng(参考訳) 軌道計画は、ソーシャルロボティクスや自動運転車など、さまざまな自動運転プラットフォームの基本課題である。 多くの軌道計画アルゴリズムは、基準曲線に基づくFrenetフレームを用いて計画次元を減少させる。 しかし、古典的な軌道計画手法では、生成した軌道は連続的に基準曲線に従うべきであるという暗黙の仮定が一般的である。 この仮定が実際のアプリケーションで常に当てはまるとは限らないため、計画において望ましくない問題を引き起こす可能性がある。 一つの問題は、計画された軌道の基準曲線への投影が不連続であることである。 そして、参照曲線上のいくつかのセグメントは、計画されたパスの任意の部分のイメージではない。 もう一つの問題は、計画された経路が単純な参照曲線を連続的に従うときに自己干渉する可能性があることである。 これらの問題が発生した場合、生成した軌道は不自然であり、準最適である。 本稿では,まずこれらの問題を実演し,カルテジアンフレームからフレネフレームへの新しい変換を用いた効率的な軌道生成法を提案する。 シミュレーションした街路シナリオ実験の結果,提案手法の有効性が示された。

Trajectory planning is a fundamental task on various autonomous driving platforms, such as social robotics and self-driving cars. Many trajectory planning algorithms use a reference curve based Frenet frame with time to reduce the planning dimension. However, there is a common implicit assumption in classic trajectory planning approaches, which is that the generated trajectory should follow the reference curve continuously. This assumption is not always true in real applications and it might cause some undesired issues in planning. One issue is that the projection of the planned trajectory onto the reference curve maybe discontinuous. Then, some segments on the reference curve are not the image of any part of the planned path. Another issue is that the planned path might self-intersect when following a simple reference curve continuously. The generated trajectories are unnatural and suboptimal ones when these issues happen. In this paper, we firstly demonstrate these issues and then introduce an efficient trajectory generation method which uses a new transformation from the Cartesian frame to Frenet frames. Experimental results on a simulated street scenario demonstrated the effectiveness of the proposed method.
翻訳日:2021-04-19 05:31:16 公開日:2020-12-29
# (参考訳) ビデオ処理教育のためのVIPギャラリー [全文訳有]

The VIP Gallery for Video Processing Education ( http://arxiv.org/abs/2012.14625v1 )

ライセンス: CC BY 4.0
Todd Goodall and Alan C. Bovik(参考訳) デジタルビデオは日常生活に浸透する。 モバイルビデオ、デジタルテレビ、デジタルシネマは今や至るところで普及しており、デジタルビデオ処理(DVP)の分野は著しく成長している。 デジタルビデオシステムは、天文学、通信、監視、娯楽、ビデオコーディング、コンピュータビジョン、視覚研究など、科学や工学の分野にも浸透している。 結果として、DVPの教育ツールは、大規模で多様な学生の基盤を養わなければならない。 dvp教育の強化に向けて,実世界のコンテンツに対するdvpの例を提供し,オンライン講義の包括的コーパスを補完する教育ツールの集大成を作成し,アナログビデオ,人間の視覚処理,現代のビデオコーデックなど,多数の主要なdvpトピックを整理するユーザフレンドリなインターフェースを開発した。 このデモギャラリーは現在、テキサス大学オースティン校の大学院「‘デジタルビデオ’」で効果的に使われている。 学生は、高度に視覚的な講義から学習理論と、現代ビデオ処理の基本原理の美しさを捉えたギャラリーから具体的な例を見ることによって、概念へのアクセスを強化している。 これらのツールの教育的価値をよりよく理解するために,学生の背景,期待,成果を評価するための質問紙調査を行った。 調査結果は,この新しいディダクティック・ビデオ・ツールセットの教育効果を支持する。

Digital video pervades daily life. Mobile video, digital TV, and digital cinema are now ubiquitous, and as such, the field of Digital Video Processing (DVP) has experienced tremendous growth. Digital video systems also permeate scientific and engineering disciplines including but not limited to astronomy, communications, surveillance, entertainment, video coding, computer vision, and vision research. As a consequence, educational tools for DVP must cater to a large and diverse base of students. Towards enhancing DVP education we have created a carefully constructed gallery of educational tools that is designed to complement a comprehensive corpus of online lectures by providing examples of DVP on real-world content, along with a user-friendly interface that organizes numerous key DVP topics ranging from analog video, to human visual processing, to modern video codecs, etc. This demonstration gallery is currently being used effectively in the graduate class ``Digital Video'' at the University of Texas at Austin. Students receive enhanced access to concepts through both learning theory from highly visual lectures and watching concrete examples from the gallery, which captures the beauty of the underlying principles of modern video processing. To better understand the educational value of these tools, we conducted a pair of questionaire-based surveys to assess student background, expectations, and outcomes. The survey results support the teaching efficacy of this new didactic video toolset.
翻訳日:2021-04-19 04:57:52 公開日:2020-12-29
# (参考訳) 言語理解のための多元構造優先型自己注意ネットワーク [全文訳有]

Multiple Structural Priors Guided Self Attention Network for Language Understanding ( http://arxiv.org/abs/2012.14642v1 )

ライセンス: CC BY 4.0
Le Qi, Yu Zhang, Qingyu Yin, Ting Liu(参考訳) 自己注意ネットワーク(SAN)は最近のNLP研究で広く利用されている。 CNNやRNNとは異なり、標準のSANは通常位置に依存しないため、単語列間の構造的先行をキャプチャできない。 既存の研究では、SANに1つのマスク戦略を適用して、より豊富な構造情報のモデリングに失敗する。 本稿では,新しいマルチマスク方式のマルチヘッドアテンション機構を用いて,異なる構造先行を異なるアテンションヘッドに変換するマルチ構造優先型自己注意ネットワーク(Multiple Structure Priors Guided Self Attention Network, MS-SAN)を提案する。 特に,単語の逐次順序と相対的な位置を含む構造的前置詞の2つのカテゴリを統合する。 テキストの潜在階層構造をキャプチャするために,これらの情報を単語コンテキストだけでなく,依存構文木からも抽出する。 2つのタスクの実験結果から,MS-SANは他の強力なベースラインに対して大幅な改善が得られた。

Self attention networks (SANs) have been widely utilized in recent NLP studies. Unlike CNNs or RNNs, standard SANs are usually position-independent , and thus are incapable of capturing the structural priors between sequences of words. Existing studies commonly apply one single mask strategy on SANs for incorporating structural priors while failing at modeling more abundant structural information of texts. In this paper, we aim at introducing multiple types of structural priors into SAN models, proposing the Multiple Structural Priors Guided Self Attention Network (MS-SAN) that transforms different structural priors into different attention heads by using a novel multi-mask based multi-head attention mechanism. In particular, we integrate two categories of structural priors, including the sequential order and the relative position of words. For the purpose of capturing the latent hierarchical structure of the texts, we extract these information not only from the word contexts but also from the dependency syntax trees. Experimental results on two tasks show that MS-SAN achieves significant improvements against other strong baselines.
翻訳日:2021-04-19 04:48:08 公開日:2020-12-29
# (参考訳) リーマン多様体上のパーゼンウィンドウ近似 [全文訳有]

Parzen Window Approximation on Riemannian Manifold ( http://arxiv.org/abs/2012.14661v1 )

ライセンス: CC BY 4.0
Abhishek and Shekhar Verma(参考訳) グラフモチベーション学習では、ラベルの伝搬は接続されたデータポイント間のエッジとして表されるデータ親和性に大きく依存する。 アフィニティ割当は、多様体上のデータの分布を暗黙的に仮定する。 この仮定は成立せず、高密度領域へのドリフトによる不正確なメトリック割り当てにつながる可能性がある。 ドリフトはヒートカーネルベースのアフィニティに影響し、グローバルに固定されたパーズン窓は本物の隣人を捨てるか、遠方のデータポイントを近所のメンバーにするよう強制する。 これによりバイアスアフィニティ行列が得られる。 本稿では, リーマン多様体上の不均一なデータサンプリングによる偏りを, 近傍サイズ, 周囲寸法, 平坦度範囲などの関数として決定された可変パーゼンウィンドウで追従する。 さらに、バイアスの原因となる不均一なサンプリングの効果を相殺する親和性調整が用いられる。 不規則なサンプリング効果を考慮して正確なラベル伝播を実現する親和性指標を提案する。 合成および実世界のデータセットに対する大規模な実験により,提案手法は分類精度を著しく向上し,グラフラプラシアン多様体正規化法において既存のParzenウィンドウ推定器よりも優れていることを確認した。

In graph motivated learning, label propagation largely depends on data affinity represented as edges between connected data points. The affinity assignment implicitly assumes even distribution of data on the manifold. This assumption may not hold and may lead to inaccurate metric assignment due to drift towards high-density regions. The drift affected heat kernel based affinity with a globally fixed Parzen window either discards genuine neighbors or forces distant data points to become a member of the neighborhood. This yields a biased affinity matrix. In this paper, the bias due to uneven data sampling on the Riemannian manifold is catered to by a variable Parzen window determined as a function of neighborhood size, ambient dimension, flatness range, etc. Additionally, affinity adjustment is used which offsets the effect of uneven sampling responsible for the bias. An affinity metric which takes into consideration the irregular sampling effect to yield accurate label propagation is proposed. Extensive experiments on synthetic and real-world data sets confirm that the proposed method increases the classification accuracy significantly and outperforms existing Parzen window estimators in graph Laplacian manifold regularization methods.
翻訳日:2021-04-19 04:33:55 公開日:2020-12-29
# (参考訳) RADDLE:ロバストなタスク指向対話システムのための評価ベンチマークと分析プラットフォーム [全文訳有]

RADDLE: An Evaluation Benchmark and Analysis Platform for Robust Task-oriented Dialog Systems ( http://arxiv.org/abs/2012.14666v1 )

ライセンス: CC BY 4.0
Baolin Peng, Chunyuan Li, Zhu Zhang, Chenguang Zhu, Jinchao Li, Jianfeng Gao(参考訳) タスク指向対話システムが最大限に有用であるためには、(1)新しいタスクドメインの訓練例を少数含む一般化可能な方法で会話を処理でき、(2)様々なスタイル、モダリティ、ドメインでのユーザ入力に対して堅牢である必要がある。 これらの目標を追求するために、様々なドメインのモデルのパフォーマンスを評価するためのコーパスとツールの集合であるraddle benchmarkを紹介します。 限られた訓練データを持つタスクを含めることで、RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。 RADDLEには、言語の変化、音声エラー、見えないエンティティ、ドメイン外発話といった側面において、詳細な堅牢性分析を容易にする診断チェックリストも含まれている。 先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。 全体として、既存のモデルは堅牢性評価に満足できないため、将来の改善の機会が示唆される。

For task-oriented dialog systems to be maximally useful, it must be able to process conversations in a way that is (1) generalizable with a small number of training examples for new task domains, and (2) robust to user input in various styles, modalities or domains. In pursuit of these goals, we introduce the RADDLE benchmark, a collection of corpora and tools for evaluating the performance of models across a diverse set of domains. By including tasks with limited training data, RADDLE is designed to favor and encourage models with a strong generalization ability. RADDLE also includes a diagnostic checklist that facilitates detailed robustness analysis in aspects such as language variations, speech errors, unseen entities, and out-of-domain utterances. We evaluate recent state-of-the-art systems based on pre-training and fine-tuning, and find that grounded pre-training on heterogeneous dialog corpora performs better than training a separate model per domain. Overall, existing models are less than satisfactory in robustness evaluation, which suggests opportunities for future improvement.
翻訳日:2021-04-19 04:14:31 公開日:2020-12-29
# (参考訳) webly教師付ききめ細かな認識のためのヒントとコツ: webfg 2020チャレンジから学ぶ [全文訳有]

Tips and Tricks for Webly-Supervised Fine-Grained Recognition: Learning from the WebFG 2020 Challenge ( http://arxiv.org/abs/2012.14672v1 )

ライセンス: CC BY 4.0
Xiu-Shen Wei, Yu-Yan Xu, Yazhou Yao, Jia Wei, Si Xi, Wenyuan Xu, Weidong Zhang, Xiaoxin Lv, Dengpan Fu, Qing Li, Baoying Chen, Haojie Guo, Taolue Xue, Haipeng Jing, Zhiheng Wang, Tianming Zhang, Mingwen Zhang(参考訳) WebFG 2020は、南京科学技術大学、エディンバラ大学、南京大学、アデレード大学、早稲田大学などが主催する国際大会である。 この課題は主にWebで制御された微粒化認識問題に注意を払っている。 文献では、既存のディープラーニング手法は大規模で高品質なラベル付きトレーニングデータに強く依存しており、現実のアプリケーションにおけるその実践性とスケーラビリティに限界をもたらす。 特に、詳細な認識では、ラベル付けの専門知識を必要とする視覚的タスクでは、ラベル付きトレーニングデータを取得するコストが極めて高い。 大量の高品質なトレーニングデータを得るのは非常に困難である。 そこで, 自由なWebデータを用いた微粒化認識モデルの学習が, コミュニティの研究者の注目を集めている。 この課題は,大規模手動ラベル付きデータセットに対する深層学習手法の極端依存を緩和し,その実践性と拡張性を高めるため,Webイメージを微粒化モデルの訓練に活用するWeb教師ありの微粒化認識手法を開発することにある。 この技術レポートでは、合計54の競合するチームのWebFG 2020ソリューションのトップをまとめて、勝利したチームのセットで何がベストに機能するか、驚くほど役に立たなかったのかを議論しています。

WebFG 2020 is an international challenge hosted by Nanjing University of Science and Technology, University of Edinburgh, Nanjing University, The University of Adelaide, Waseda University, etc. This challenge mainly pays attention to the webly-supervised fine-grained recognition problem. In the literature, existing deep learning methods highly rely on large-scale and high-quality labeled training data, which poses a limitation to their practicability and scalability in real world applications. In particular, for fine-grained recognition, a visual task that requires professional knowledge for labeling, the cost of acquiring labeled training data is quite high. It causes extreme difficulties to obtain a large amount of high-quality training data. Therefore, utilizing free web data to train fine-grained recognition models has attracted increasing attentions from researchers in the fine-grained community. This challenge expects participants to develop webly-supervised fine-grained recognition methods, which leverages web images in training fine-grained recognition models to ease the extreme dependence of deep learning methods on large-scale manually labeled datasets and to enhance their practicability and scalability. In this technical report, we have pulled together the top WebFG 2020 solutions of total 54 competing teams, and discuss what methods worked best across the set of winning teams, and what surprisingly did not help.
翻訳日:2021-04-19 03:34:45 公開日:2020-12-29
# (参考訳) 最適化に基づく多焦点画像融合におけるデフォーカス拡散効果の低減に向けて [全文訳有]

Towards Reducing Severe Defocus Spread Effects for Multi-Focus Image Fusion via an Optimization Based Strategy ( http://arxiv.org/abs/2012.14678v1 )

ライセンス: CC BY 4.0
Shuang Xu and Lizhen Ji and Zhe Wang and Pengfei Li and Kai Sun and Chunxia Zhang and Jiangshe Zhang(参考訳) マルチフォーカス画像融合(MFF)は、シーン内の全てのオブジェクトがシャープなオールインフォーカス画像を生成する一般的な技術である。 しかし,既存の手法は実世界のマルチフォーカス画像のデフォーカス拡散効果にはほとんど注意を払わない。 したがって、ほとんどの方法はフォーカスマップの境界付近でうまく動作しない。 融合画像内の各局所領域はソース画像中の最も鋭い領域に類似すべきであるという考えに基づき,デフォーカス拡散効果を低減するための最適化に基づく手法を提案する。 まず、構造類似性の原理と検出された焦点マップを組み合わせることで、新しいMFFアセスメントを示す。 そして、MFF問題は、この計量を最大化する。 最適化は勾配上昇によって解決される。 実世界のデータセットで行った実験は、提案モデルの優位性を検証する。 コードはhttps://github.com/x sxjtu/mff-ssimで入手できる。

Multi-focus image fusion (MFF) is a popular technique to generate an all-in-focus image, where all objects in the scene are sharp. However, existing methods pay little attention to defocus spread effects of the real-world multi-focus images. Consequently, most of the methods perform badly in the areas near focus map boundaries. According to the idea that each local region in the fused image should be similar to the sharpest one among source images, this paper presents an optimization-based approach to reduce defocus spread effects. Firstly, a new MFF assessmentmetric is presented by combining the principle of structure similarity and detected focus maps. Then, MFF problem is cast into maximizing this metric. The optimization is solved by gradient ascent. Experiments conducted on the real-world dataset verify superiority of the proposed model. The codes are available at https://github.com/x sxjtu/MFF-SSIM.
翻訳日:2021-04-19 03:27:42 公開日:2020-12-29
# (参考訳) 非自己回帰モデルを用いた高速再翻訳によるニューラルマシン翻訳 [全文訳有]

Faster Re-translation Using Non-Autoregressive Model For Simultaneous Neural Machine Translation ( http://arxiv.org/abs/2012.14681v1 )

ライセンス: CC BY 4.0
Hyojung Han, Sathish Indurthi, Mohd Abbas Zaidi, Nikhil Kumar Lakumarapu, Beomseok Lee, Sangha Kim, Chanwoo Kim, Inchul Hwang(参考訳) 近年,ライブイベントの字幕翻訳やリアルタイムビデオ通話翻訳などの魅力的な応用を可能にするため,同時翻訳が注目されている。 これらの翻訳アプリケーションのいくつかは、再翻訳アプローチをもたらす部分翻訳の編集を可能にする。 現在の再翻訳アプローチは、自動回帰シーケンス生成モデル(reta)に基づいており、(部分的な)翻訳において連続的にタールゲットトークンを生成する。 入力されたソース入力と対応するターゲット出力との推論時間ギャップが増大するに従って、シーケンシャル生成 inReTAmodelslead による多重再翻訳を行う。 さらに、大量の推論操作を行うため、ReTAモデルはリソース制約のあるデバイスには適さない。 本研究では,上記の制約を克服するために,非自己回帰シーケンス生成モデル(fretna)に基づく高速再翻訳システムを提案する。 提案モデルは,複数の翻訳タスクにおいて提案したモデルを評価し,提案モデルが複数の順序で推論時間を短縮し,ReTAモデルとストリーミング(Wait-k)モデルと比較して競争力のあるBLEUスコアを実現する。 また、ストリーミングベースのWait-kモデルよりも計算時間(1.5倍低い)と翻訳品質の両方で優れている。

Recently, simultaneous translation has gathered a lot of attention since it enables compelling applications such as subtitle translation for a live event or real-time video-call translation. Some of these translation applications allow editing of partial translation giving rise to re-translation approaches. The current re-translation approaches are based on autoregressive sequence generation models (ReTA), which generate tar-get tokens in the (partial) translation sequentially. The multiple re-translations with sequential generation inReTAmodelslead to an increased inference time gap between the incoming source input and the corresponding target output as the source input grows. Besides, due to the large number of inference operations involved, the ReTA models are not favorable for resource-constrained devices. In this work, we propose a faster re-translation system based on a non-autoregressive sequence generation model (FReTNA) to overcome the aforementioned limitations. We evaluate the proposed model on multiple translation tasks and our model reduces the inference times by several orders and achieves a competitive BLEUscore compared to the ReTA and streaming (Wait-k) models.The proposed model reduces the average computation time by a factor of 20 when compared to the ReTA model by incurring a small drop in the translation quality. It also outperforms the streaming-based Wait-k model both in terms of computation time (1.5 times lower) and translation quality.
翻訳日:2021-04-19 03:12:27 公開日:2020-12-29
# (参考訳) キャリブレーションカスケードによる事前学習言語モデルの高速化 [全文訳有]

Accelerating Pre-trained Language Models via Calibrated Cascade ( http://arxiv.org/abs/2012.14682v1 )

ライセンス: CC BY 4.0
Lei Li, Yankai Lin, Shuhuai Ren, Deli Chen, Xuancheng Ren, Peng Li, Jie Zhou, Xu Sun(参考訳) 動的早期退避は、モデル全体を通過することなく浅い層に退避することで、事前訓練された言語モデル(PLM)推論を加速することを目的としている。 本稿では,動的早期退避の動作機構を解析し,推論速度と性能のトレードオフを満足させることができないことを示す。 一方、浅い層におけるPLMの表現は正確な予測には不十分である。 一方、内部のオフランプは信頼できる終了決定を下すことができない。 そこで我々はカスケードBERTを提案する。CascadeBERTはカスケード方式で適切なサイズで完全なモデルを動的に選択する。 より信頼性の高いモデル選択を実現するため,モデルの出力クラス確率を各インスタンスの真の難易度を反映させる難易度認識目的を考案する。 大規模実験により, 動的早期排出法と知識蒸留法の両方を含む PLM 加速の強いベースラインモデルよりも, 提案手法が優れていることが示された。

Dynamic early exiting aims to accelerate pre-trained language models' (PLMs) inference by exiting in shallow layer without passing through the entire model. In this paper, we analyze the working mechanism of dynamic early exiting and find it cannot achieve a satisfying trade-off between inference speed and performance. On one hand, the PLMs' representations in shallow layers are not sufficient for accurate prediction. One the other hand, the internal off-ramps cannot provide reliable exiting decisions. To remedy this, we instead propose CascadeBERT, which dynamically selects a proper-sized, complete model in a cascading manner. To obtain more reliable model selection, we further devise a difficulty-aware objective, encouraging the model output class probability to reflect the real difficulty of each instance. Extensive experimental results demonstrate the superiority of our proposal over strong baseline models of PLMs' acceleration including both dynamic early exiting and knowledge distillation methods.
翻訳日:2021-04-19 02:59:46 公開日:2020-12-29
# (参考訳) 多様体上のデータ駆動ディリクレサンプリング [全文訳有]

Data driven Dirichlet sampling on manifolds ( http://arxiv.org/abs/2101.00947v1 )

ライセンス: CC BY 4.0
Luan S Prado and Thiago G Ritto(参考訳) 本稿では、ディリクレ分布に基づく多様体をサンプリングする新しい方法を提案する。 提案手法は, データの観測を行う基礎となる多様体を完全に尊重し, 少ない計算労力で大量のサンプリングを行う。 これは、例えば、ニューラルネットワークのトレーニングプロセスや不確実性解析や確率的最適化において、非常に役に立ちます。 その単純さと効率のため、我々は新しい手法には大きな可能性があると考えている。 3つの多様体 (2次元リング, Mobius strip, クモ幾何学) は提案手法を検証し, ガスシール係数に関する工学的応用に適用する。

This article presents a novel method to sampling on manifolds based on the Dirichlet distribution. The proposed strategy allows to completely respect the underlying manifold around which data is observed, and to do massive samplings with low computational effort. This can be very helpful, for instance, in neural networks training process, as well as in uncertainty analysis and stochastic optimization. Due to its simplicity and efficiency, we believe that the new method has great potential. Three manifolds (two dimensional ring, Mobius strip and spider geometry) are considered to test the proposed methodology, and then it is employed to an engineering application, related to gas seal coefficients.
翻訳日:2021-04-19 02:49:54 公開日:2020-12-29
# (参考訳) 量子オートエンコーダによる量子状態の復調 --理論と応用 [全文訳有]

Denoising quantum states with Quantum Autoencoders -- Theory and Applications ( http://arxiv.org/abs/2012.14714v1 )

ライセンス: CC BY 4.0
Tom Achache, Lior Horesh, John Smolin(参考訳) 量子オートエンコーダ(qae)を量子回路として実装し、グリーンバーガー・ホーン・サイレンジャー状態(ghz)をビットフリップチャネルとより一般的な量子非分極チャネルという様々なノイズの量子チャネルに補正する。 QAEはノイズのないGHZ状態を生成するための生成モデルとしても機能するが、ノイズのない状態のほぼ完全な再構築を可能にするため、特に興味深い結果を示している。 最後に、QAEs: Quantum Secret Sharing (QSS)の有用な応用について述べる。 ノイズがQSSを損なう原因を分析し,QAEがQSSプロトコルをノイズの存在下でも成功させることを示す。

We implement a Quantum Autoencoder (QAE) as a quantum circuit capable of correcting Greenberger-Horne-Ze ilinger (GHZ) states subject to various noisy quantum channels : the bit-flip channel and the more general quantum depolarizing channel. The QAE shows particularly interesting results, as it enables to perform an almost perfect reconstruction of noisy states, but can also, more surprisingly, act as a generative model to create noise-free GHZ states. Finally, we detail a useful application of QAEs : Quantum Secret Sharing (QSS). We analyze how noise corrupts QSS, causing it to fail, and show how the QAE allows the QSS protocol to succeed even in the presence of noise.
翻訳日:2021-04-19 02:43:23 公開日:2020-12-29
# (参考訳) バイアスド最適化 [全文訳有]

Present-Biased Optimization ( http://arxiv.org/abs/2012.14736v1 )

ライセンス: CC BY 4.0
Fedor V. Fomin, Pierre Fraigniaud, and Petr A. Golovach(参考訳) 本稿では,現在のバイアスエージェントの行動,すなわち,将来の行動のコストを,実際のコストと比較して誤って予測するエージェントについて検討する。 具体的には、Akerlof (1991) が提案したもともとの枠組みを拡張し、プロクラステネーションや放棄を含む時間的一貫性のない計画に関する人間の行動の様々な側面を研究するとともに、Kleinberg と Oren (2014) によって最近提案されたこの枠組みを包含するエレガントなグラフ理論モデルも拡張した。 この拡張の利点は2つあります。 まず、実行すべき最適化タスクに応じて、現在のバイアスエージェントの挙動をきめ細かい分析を行うことができる。 特に,タスク対ヒットタスクについて検討し,現在バイアスのかかったエージェントが計算した解のコストと最適解のコストとの比が問題制約によって大きく異なることを示す。 第2に、我々の拡張は、将来のコストの過小評価だけでなく、最小化/最大化と過小評価/過小評価の組合せについても研究することができる。 4つのシナリオについて検討し,3つのシナリオのコスト比率の上限(原シナリオのコスト比率はアンバウンドであることが知られている)を確立し,最適化タスクが考慮される限り,現在のバイアスエージェントの行動の完全な全体像を提供する。

This paper explores the behavior of present-biased agents, that is, agents who erroneously anticipate the costs of future actions compared to their real costs. Specifically, the paper extends the original framework proposed by Akerlof (1991) for studying various aspects of human behavior related to time-inconsistent planning, including procrastination, and abandonment, as well as the elegant graph-theoretic model encapsulating this framework recently proposed by Kleinberg and Oren (2014). The benefit of this extension is twofold. First, it enables to perform fine grained analysis of the behavior of present-biased agents depending on the optimisation task they have to perform. In particular, we study covering tasks vs. hitting tasks, and show that the ratio between the cost of the solutions computed by present-biased agents and the cost of the optimal solutions may differ significantly depending on the problem constraints. Second, our extension enables to study not only underestimation of future costs, coupled with minimization problems, but also all combinations of minimization/maximiz ation, and underestimation/over estimation. We study the four scenarios, and we establish upper bounds on the cost ratio for three of them (the cost ratio for the original scenario was known to be unbounded), providing a complete global picture of the behavior of present-biased agents, as far as optimisation tasks are concerned.
翻訳日:2021-04-19 02:28:03 公開日:2020-12-29
# (参考訳) 階層型カリキュラム学習による対話応答選択 [全文訳有]

Dialogue Response Selection with Hierarchical Curriculum Learning ( http://arxiv.org/abs/2012.14756v1 )

ライセンス: CC BY 4.0
Yixuan Su, Deng Cai, Qingyu Zhou, Zibo Lin, Simon Baker, Yunbo Cao, Shuming Shi, Nigel Collier, Yan Wang(参考訳) 対話応答選択のためのマッチングモデルの学習について検討する。 近年,ランダム陰性は信頼度の高いモデルの学習には自明すぎることが指摘され,(1)コーパスレベルのカリキュラム(CC)と(2)インスタンスレベルのカリキュラム(IC)という2つの補完的なカリキュラムからなる階層型カリキュラム学習(HCL)フレームワークを提案する。 ccでは、モデルによって、対話コンテキストと応答の間の一致した手がかりを見つける能力が徐々に増大する。 一方、icは対話の文脈と応答のミスマッチした情報を識別するモデルの能力を段階的に強化する。 3つの最先端マッチングモデルを持つ2つのベンチマークデータセットに関する実証研究は、提案したHCLが様々な評価指標でモデル性能を著しく改善することを示した。

We study the learning of a matching model for dialogue response selection. Motivated by the recent finding that random negatives are often too trivial to train a reliable model, we propose a hierarchical curriculum learning (HCL) framework that consists of two complementary curricula: (1) corpus-level curriculum (CC); and (2) instance-level curriculum (IC). In CC, the model gradually increases its ability in finding the matching clues between the dialogue context and response. On the other hand, IC progressively strengthens the model's ability in identifying the mismatched information between the dialogue context and response. Empirical studies on two benchmark datasets with three state-of-the-art matching models demonstrate that the proposed HCL significantly improves the model performance across various evaluation metrics.
翻訳日:2021-04-19 02:03:56 公開日:2020-12-29
# (参考訳) CMV-BERT:BERTのマルチボキャブ事前訓練 [全文訳有]

CMV-BERT: Contrastive multi-vocab pretraining of BERT ( http://arxiv.org/abs/2012.14763v1 )

ライセンス: CC BY 4.0
Wei Zhu, Daniel Cheung(参考訳) 本研究では,コンピュータビジョンの分野でよく研究されているコントラスト学習(a)と,その一方が細粒度で,他方が粗粒度である複数語彙(b)という2つの要素を用いて,言語モデルの事前学習を改善するCMV-BERTを提案する。 2つの方法はどちらも原文の異なる見方を提供しており、どちらも有益であることを示している。 提案したCMV-BERTが事前学習言語モデルの改善に有効であることを示す。

In this work, we represent CMV-BERT, which improves the pretraining of a language model via two ingredients: (a) contrastive learning, which is well studied in the area of computer vision; (b) multiple vocabularies, one of which is fine-grained and the other is coarse-grained. The two methods both provide different views of an original sentence, and both are shown to be beneficial. Downstream tasks demonstrate our proposed CMV-BERT are effective in improving the pretrained language models.
翻訳日:2021-04-19 01:48:30 公開日:2020-12-29
# (参考訳) 校正情報のない視覚熱カメラデータセットとマルチモードアライメント [全文訳有]

Visual-Thermal Camera Dataset Release and Multi-Modal Alignment without Calibration Information ( http://arxiv.org/abs/2012.14833v1 )

ライセンス: CC BY 4.0
Frank Mascarich, Kostas Alexis(参考訳) 本報告では,視覚的・熱的カメラデータに対するデータセットのリリースと,それに続く手順を詳述し,本質的・外生的キャリブレーション情報を用いることなく,両者の画素レベルの対応を図った。 この目標を達成するために、マルチモーダル画像アライメントの領域の進歩を享受し、特にマットス相互情報メトリクスを用いて登録プロセスを導く。 リリースデータセットでは、生のビジュアルカメラデータとサーマルカメラデータ、およびアライメントフレームの両方を、キャリブレーションパラメータとともにリリースし、このようなマルチモーダル画像ストリーム間の共通的なローカル/グローバルな特徴の調査をより容易にすることを目的としています。

This report accompanies a dataset release on visual and thermal camera data and details a procedure followed to align such multi-modal camera frames in order to provide pixel-level correspondence between the two without using intrinsic or extrinsic calibration information. To achieve this goal we benefit from progress in the domain of multi-modal image alignment and specifically employ the Mattes Mutual Information Metric to guide the registration process. In the released dataset we release both the raw visual and thermal camera data, as well as the aligned frames, alongside calibration parameters with the goal to better facilitate the investigation on common local/global features across such multi-modal image streams.
翻訳日:2021-04-19 01:11:30 公開日:2020-12-29
# (参考訳) drs at mrp 2020: 談話表現構造をグラフとして表現する [全文訳有]

DRS at MRP 2020: Dressing up Discourse Representation Structures as Graphs ( http://arxiv.org/abs/2012.14837v1 )

ライセンス: CC BY 4.0
Lasha Abzianidze, Johan Bos, Stephan Oepen(参考訳) 談話表現理論(DRT)は、自然言語の言論の意味を表す公式な説明である。 DRTにおける意味は、通常ネストボックスとして表現されるモデル理論解釈を持つ意味表現であるDES(Discourse Representation Structure)を通じてモデル化される。 対照的に、有向ラベル付きグラフは自然言語テキストのセマンティクスを符号化するために使われる一般的なデータ構造である。 本稿では、2020年のクロスフレームワークと言語間意味表現構文における共有タスクにおいて、DRTを新しいフレームワークとして含めるためのラベル付きグラフとしてDRSをドレッシングする手順について述べる。 共有タスクの目標の1つは、いくつかのセマンティックグラフフレームワークの統一モデルを促進することであるため、変換手順は、他のグラフベースの意味表現フレームワークと幾らか似ているDRTグラフフレームワークに偏りがあった。

Discourse Representation Theory (DRT) is a formal account for representing the meaning of natural language discourse. Meaning in DRT is modeled via a Discourse Representation Structure (DRS), a meaning representation with a model-theoretic interpretation, which is usually depicted as nested boxes. In contrast, a directed labeled graph is a common data structure used to encode semantics of natural language texts. The paper describes the procedure of dressing up DRSs as directed labeled graphs to include DRT as a new framework in the 2020 shared task on Cross-Framework and Cross-Lingual Meaning Representation Parsing. Since one of the goals of the shared task is to encourage unified models for several semantic graph frameworks, the conversion procedure was biased towards making the DRT graph framework somewhat similar to other graph-based meaning representation frameworks.
翻訳日:2021-04-19 01:03:42 公開日:2020-12-29
# (参考訳) Parallel Meaning Bank: 複数の言語を意味的にアノテーションするフレームワーク [全文訳有]

The Parallel Meaning Bank: A Framework for Semantically Annotating Multiple Languages ( http://arxiv.org/abs/2012.14854v1 )

ライセンス: CC BY 4.0
Lasha Abzianidze, Rik van Noord, Chunliu Wang, Johan Bos(参考訳) 本論文は,英語以外の言語で書かれたテキストに対して,作曲意味論の注釈付けを容易にするためのフレームワークであるParallel Meaning Bankの背景にある考え方を概説する。 アノテーション手順は半自動的であり、セグメンテーション、シンボル化、セマンティックタグ付け、単語感覚の曖昧さ、構文構造、テーマロールラベリング、コレファレンスという7つの言語情報からなる。 文書が英語の翻訳に基づいている限り、新しい言語を銀行の意味に追加することができるが、パラレル平均銀行の根底にある言語学の仮定に関する新たな興味深い課題も導入する。

This paper gives a general description of the ideas behind the Parallel Meaning Bank, a framework with the aim to provide an easy way to annotate compositional semantics for texts written in languages other than English. The annotation procedure is semi-automatic, and comprises seven layers of linguistic information: segmentation, symbolisation, semantic tagging, word sense disambiguation, syntactic structure, thematic role labelling, and co-reference. New languages can be added to the meaning bank as long as the documents are based on translations from English, but also introduce new interesting challenges on the linguistics assumptions underlying the Parallel Meaning Bank.
翻訳日:2021-04-19 00:45:29 公開日:2020-12-29
# (参考訳) 4Gから6Gへの小細胞進化:過去・現在・未来 [全文訳有]

Evolution of Small Cell from 4G to 6G: Past, Present, and Future ( http://arxiv.org/abs/2101.10451v1 )

ライセンス: CC BY 4.0
Vanlin Sathya(参考訳) 携帯電話システムの容量を増大させるため、4G LTEの小型セル(Femto Cells)を過去に展開し、同じ周波数帯を再利用し始めている。 しかし、これらの小さな細胞ライセンススペクトルは、拡張現実(AR)や仮想現実(VR)といった将来の応用を満たすには十分ではない。 そのため、携帯電話事業者はWi-Fi 5 GHz帯で、後にLTE Licensed Assisted Access (LAA) と命名された3GPPの周波数帯域を求める。 最近のLAAの展開(米国のような先進国)は、共存を深く理解する機会を提供する。 本稿では,私の過去,現在,将来の研究成果を,小細胞メリットの方向性について概説する。 6GHz、最新のWi-Fiバージョン802.11axは、最新の携帯電話技術である5G New Radio(NR)と無許可で共存する。

To boost the capacity of the cellular system, the operators have started to reuse the same licensed spectrum by deploying 4G LTE small cells (Femto Cells) in the past. But in time, these small cell licensed spectrum is not sufficient to satisfy future applications like augmented reality (AR)and virtual reality (VR). Hence, cellular operators look for alternate unlicensed spectrum in Wi-Fi 5 GHz band, later 3GPP named as LTE Licensed Assisted Access (LAA). The recent and current rollout of LAA deployments (in developed nations like the US) provides an opportunity to understand coexistence profound ground truth. This paper discusses a high-level overview of my past, present, and future research works in the direction of small cell benefits. In the future, we shift the focus onto the latest unlicensed band: 6 GHz, where the latest Wi-Fi version, 802.11ax, will coexist with the latest cellular technology, 5G New Radio(NR) in unlicensed
翻訳日:2021-04-19 00:19:20 公開日:2020-12-29
# (参考訳) ベイズ学習における最小過剰リスク

Minimum Excess Risk in Bayesian Learning ( http://arxiv.org/abs/2012.14868v1 )

ライセンス: CC BY 4.0
Aolin Xu, Maxim Raginsky(参考訳) 生成モデルにおけるベイズ学習の達成可能な最良性能を最小余剰リスク (MER) の定義と上界化により分析し,データから学習することで達成できる最小損失とモデルの実現が分かっていれば達成できる最小損失とのギャップを考察した。 MERの定義は、ベイズ学習における不確実性の異なる概念を定義するための原則化された方法を提供する。 MERの上界を導出する2つの方法を示す。 パラメトリック生成モデルを用いたベイズ学習に適した第1の方法は、モデルパラメータと観測データから予測される量との条件付き相互情報により、MERを上界に配置する。 これにより、より多くのデータが利用可能になるとmerがゼロに減衰する速度を定量化できます。 第2の方法は、特にパラメトリック予測モデルを用いたベイズ学習に適しており、MERは、真の予測モデルからの後方予測分布の偏差と、さらにデータからのモデルパラメータの最小推定誤差とを関連付ける。 モデルパラメータ推定の不確実性がMERや最終的な予測不確実性にどのように変換されるかを明確に示す。 また、MERの定義と分析を複数のパラメトリックモデルファミリの設定と非パラメトリックモデルの設定に拡張する。 議論の中で,ベイズ学習におけるmerと,頻繁学習における過剰リスクの比較を行った。

We analyze the best achievable performance of Bayesian learning under generative models by defining and upper-bounding the minimum excess risk (MER): the gap between the minimum expected loss attainable by learning from data and the minimum expected loss that could be achieved if the model realization were known. The definition of MER provides a principled way to define different notions of uncertainties in Bayesian learning, including the aleatoric uncertainty and the minimum epistemic uncertainty. Two methods for deriving upper bounds for the MER are presented. The first method, generally suitable for Bayesian learning with a parametric generative model, upper-bounds the MER by the conditional mutual information between the model parameters and the quantity being predicted given the observed data. It allows us to quantify the rate at which the MER decays to zero as more data becomes available. The second method, particularly suitable for Bayesian learning with a parametric predictive model, relates the MER to the deviation of the posterior predictive distribution from the true predictive model, and further to the minimum estimation error of the model parameters from data. It explicitly shows how the uncertainty in model parameter estimation translates to the MER and to the final prediction uncertainty. We also extend the definition and analysis of MER to the setting with multiple parametric model families and the setting with nonparametric models. Along the discussions we draw some comparisons between the MER in Bayesian learning and the excess risk in frequentist learning.
翻訳日:2021-04-18 23:53:35 公開日:2020-12-29
# (参考訳) ソフトルーティングと学習接続性に優れた深い森林の育成 [全文訳有]

Growing Deep Forests Efficiently with Soft Routing and Learned Connectivity ( http://arxiv.org/abs/2012.14878v1 )

ライセンス: CC BY 4.0
Jianghao Shen, Sicheng Wang, Zhangyang Wang(参考訳) ディープニューラルネットワーク(DNN)が最近普及したにも拘わらず、DNNと他の確立された機械学習モデルとのギャップの非解釈性の欠如や、高価な計算コストの増加など、その使用に対する懸念が高まっている。 多くの最近の研究 [1], [2], [3] は、バック伝搬を必要とせず、純粋にフィードフォワードの方法で決定木/ランダムな森林ブロックを逐次積み重ねる方法を探った。 決定木は固有の推論の透明性を享受するため、深い森林モデルもまた内部決定プロセスの理解を促進することができる。 本稿では,いくつかの重要な側面において,深い森林概念をさらに拡張する。 まず,ノードがハードバイナリ決定ではなく,あるいはソフトルーティングという,確率的ルーティング決定を行う確率的木を採用する。柔軟性の向上に加えて,各ツリーに対する非欲な最適化も可能にする。 第二に、リーのすべてのノードは、葉ノードとなる確率を示す新しい学習可能なハイパーパラメータを維持できる、革新的なトポロジー学習戦略を提案する。 このようにして、トレーニング中に、ツリーはパラメータとツリートポロジーの両方を共同で最適化する。 MNISTデータセットの実験により、我々の強化された深い森は[1],[3]よりも優れた、あるいは同等のパフォーマンスを達成でき、モデルの複雑さが劇的に減少することを示した。 例えば、15の木の1つの層しか持たないモデルでは、[3]のモデルと2000の木の2つの層で互換性を持って実行できる。

Despite the latest prevailing success of deep neural networks (DNNs), several concerns have been raised against their usage, including the lack of intepretability the gap between DNNs and other well-established machine learning models, and the growingly expensive computational costs. A number of recent works [1], [2], [3] explored the alternative to sequentially stacking decision tree/random forest building blocks in a purely feed-forward way, with no need of back propagation. Since decision trees enjoy inherent reasoning transparency, such deep forest models can also facilitate the understanding of the internaldecision making process. This paper further extends the deep forest idea in several important aspects. Firstly, we employ a probabilistic tree whose nodes make probabilistic routing decisions, a.k.a., soft routing, rather than hard binary decisions.Besides enhancing the flexibility, it also enables non-greedy optimization for each tree. Second, we propose an innovative topology learning strategy: every node in the ree now maintains a new learnable hyperparameter indicating the probability that it will be a leaf node. In that way, the tree will jointly optimize both its parameters and the tree topology during training. Experiments on the MNIST dataset demonstrate that our empowered deep forests can achieve better or comparable performance than [1],[3] , with dramatically reduced model complexity. For example,our model with only 1 layer of 15 trees can perform comparably with the model in [3] with 2 layers of 2000 trees each.
翻訳日:2021-04-18 23:52:27 公開日:2020-12-29
# (参考訳) マルチモーダルミームにおけるヘイトスピーチの検出 [全文訳有]

Detecting Hate Speech in Multi-modal Memes ( http://arxiv.org/abs/2012.14891v1 )

ライセンス: CC BY-SA 4.0
Abhishek Das, Japsimar Singh Wahi, Siyao Li(参考訳) 過去数年間、画像キャプションから視覚的な質問への回答に至るまで、マルチモーダル問題への関心が高まっている。 本稿では,ミームが興味深いマルチモーダル融合問題を引き起こすマルチモーダルミームにおけるヘイトスピーチ検出に着目した。 Facebook Meme Challenge \cite{kiela2020hateful}は、ミームが憎悪であるか否かを予測する二項分類問題の解決を目的としている。 この課題の重要な特徴は、ユニモーダル優先権を利用するモデルの可能性に対抗するために「良質な共同設立者」を含むことである。 課題は、最先端のモデルは人間に比べて性能が悪いことだ。 データセットの分析では、もともと嫌悪感のあるデータポイントの大部分は、ミームのイメージを記述するだけで良心的になることがわかった。 また、マルチモーダルベースラインの大多数は、ヘイトスピーチ(言語モダリティ)をより好んでいる。 これらの問題に対処するために,オブジェクト検出と画像キャプションモデルを用いて「実際のキャプション」を取得し,それをマルチモーダル表現と組み合わせ,バイナリ分類を行う。 このアプローチは、パフォーマンスを改善するためにデータセットに存在する良質なテキスト共同創設者に取り組む。 もうひとつの試みは、感情分析による予測を改善することです。 事前学習されたニューラルネットワークから得られるマルチモーダル表現を使用する代わりに、機能を強化するためのユニモーダル感情も含む。 上記の2つのアプローチを詳細に分析し、使用方法に好意的な理由を提示する。

In the past few years, there has been a surge of interest in multi-modal problems, from image captioning to visual question answering and beyond. In this paper, we focus on hate speech detection in multi-modal memes wherein memes pose an interesting multi-modal fusion problem. We aim to solve the Facebook Meme Challenge \cite{kiela2020hateful} which aims to solve a binary classification problem of predicting whether a meme is hateful or not. A crucial characteristic of the challenge is that it includes "benign confounders" to counter the possibility of models exploiting unimodal priors. The challenge states that the state-of-the-art models perform poorly compared to humans. During the analysis of the dataset, we realized that majority of the data points which are originally hateful are turned into benign just be describing the image of the meme. Also, majority of the multi-modal baselines give more preference to the hate speech (language modality). To tackle these problems, we explore the visual modality using object detection and image captioning models to fetch the "actual caption" and then combine it with the multi-modal representation to perform binary classification. This approach tackles the benign text confounders present in the dataset to improve the performance. Another approach we experiment with is to improve the prediction with sentiment analysis. Instead of only using multi-modal representations obtained from pre-trained neural networks, we also include the unimodal sentiment to enrich the features. We perform a detailed analysis of the above two approaches, providing compelling reasons in favor of the methodologies used.
翻訳日:2021-04-18 23:47:21 公開日:2020-12-29
# (参考訳) トランスフォーマーフィードフォワードレイヤーはキーバリュー記憶 [全文訳有]

Transformer Feed-Forward Layers Are Key-Value Memories ( http://arxiv.org/abs/2012.14913v1 )

ライセンス: CC0 1.0
Mor Geva, Roei Schuster, Jonathan Berant, Omer Levy(参考訳) フィードフォワード層はトランスフォーマーモデルのパラメータの3分の2を構成するが、ネットワークにおけるその役割は未調査のままである。 本稿では,トランスフォード言語モデルのフィードフォワード層がキー値記憶として機能し,各キーがトレーニング例のテキストパターンと相関し,各値が出力語彙上の分布を誘導することを示す。 実験では,学習したパターンは人間に解釈可能であり,下位層は浅いパターンを捉える傾向があり,上位層はよりセマンティックなパターンを学習する傾向を示した。 値がキーの入力パターンを補完するものとして、各パターン、特に上位層に現れると思われるトークンに確率質量を集中させる出力分布を誘導する。 最後に、フィードフォワード層の出力はそのメモリの合成であり、最終的な出力分布を生成するために残差接続を介してモデル層全体にわたって洗練されることを示す。

Feed-forward layers constitute two-thirds of a transformer model's parameters, yet their role in the network remains under-explored. We show that feed-forward layers in transformer-based language models operate as key-value memories, where each key correlates with textual patterns in the training examples, and each value induces a distribution over the output vocabulary. Our experiments show that the learned patterns are human-interpretable, and that lower layers tend to capture shallow patterns, while upper layers learn more semantic ones. The values complement the keys' input patterns by inducing output distributions that concentrate probability mass on tokens likely to appear immediately after each pattern, particularly in the upper layers. Finally, we demonstrate that the output of a feed-forward layer is a composition of its memories, which is subsequently refined throughout the model's layers via residual connections to produce the final output distribution.
翻訳日:2021-04-18 23:33:47 公開日:2020-12-29
# (参考訳) 多様なデータソースからウィキペディア記事セクションを生成する [全文訳有]

Generating Wikipedia Article Sections from Diverse Data Sources ( http://arxiv.org/abs/2012.14919v1 )

ライセンス: CC BY 4.0
Mingda Chen, Sam Wiseman, Kevin Gimpel(参考訳) データからテキストへの生成のためのデータセットは通常、マルチドメイン、シングルセンテンス生成、またはシングルドメイン、ロングフォーム生成に焦点が当てられる。 本研究では,wikipediaの項目と対応する表データと各種メタデータを組み合わせる大規模データセットwikitabletを作成した。 WikiTableTには数百万のインスタンスがあり、さまざまなトピックやさまざまなレベルの柔軟性を備えた生成タスクをカバーしている。 WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。 質的な分析から、最良のアプローチは、流動的で高品質なテキストを生成することができるが、時には一貫性に苦しむ。

Datasets for data-to-text generation typically focus either on multi-domain, single-sentence generation or on single-domain, long-form generation. In this work, we create a large-scale dataset, WikiTableT, that pairs Wikipedia sections with their corresponding tabular data and various metadata. WikiTableT contains millions of instances, covering a broad range of topics, as well as a variety of flavors of generation tasks with different levels of flexibility. We benchmark several training and decoding strategies on WikiTableT. Our qualitative analysis shows that the best approaches can generate fluent and high quality texts but they sometimes struggle with coherence.
翻訳日:2021-04-18 23:20:23 公開日:2020-12-29
# (参考訳) 1次元畳み込みニューラルネットワークによる低品質ホルター心電図のロバストRピーク検出 [全文訳有]

Robust R-Peak Detection in Low-Quality Holter ECGs using 1D Convolutional Neural Network ( http://arxiv.org/abs/2101.01666v1 )

ライセンス: CC BY 4.0
Muhammad Uzair Zahid, Serkan Kiranyaz, Turker Ince, Ozer Can Devecioglu, Muhammad E. H. Chowdhury, Amith Khandakar, Anas Tahir and Moncef Gabbouj(参考訳) ホルターやウェアラブルデバイスから取得したECG信号のノイズと低品質は、Rピーク検出アルゴリズムの精度と堅牢性を低下させる。 本稿では,ホルターECG信号におけるRピーク検出のための汎用的で堅牢なシステムを提案する。 多くの提案アルゴリズムは、ECG R-peak検出の問題をうまく解決しているが、これらの検出器の性能は、そのような低品質のECGレコード上での顕著な差がある。 そこで本研究では,1次元畳み込みニューラルネットワーク(CNN)の新たな実装を検証モデルに統合し,誤報数を削減する。 このCNNアーキテクチャは、入力ECG信号からRピークの1次元分割マップを構築するために、エンコーダブロックと対応するデコーダブロックと、サンプルワイズ分類層とから構成される。 提案されたモデルをトレーニングすれば、単一のチャネルecgデータストリーム内のrピークを迅速かつ正確に検出するだけでなく、軽量なポータブルデバイス上でのリアルタイム監視に利用することもできる。 このモデルは、100万回以上のビートを持つ中国生理信号挑戦データベース(CPSC-DB)と、一般的に使用されるMIT-BIH Arrhythmia Database(MIT-DB)の2つのオープンアクセスECGデータベースでテストされている。 実験の結果、提案手法は99.30%のF1スコア、99.69%のリコール、98.91%の精度でCPSC-DBが達成された。 競合する全ての手法と比較して、ホルター心電図信号の偽陽性と偽陰性はそれぞれ54%以上、偽陰性は82%以上減少する。 結果は、ほとんどのmit-dbの競合アルゴリズムと99.83%のf1-score、99.85%のリコール、99.82%の精度で同等または優れた性能を示している。

Noise and low quality of ECG signals acquired from Holter or wearable devices deteriorate the accuracy and robustness of R-peak detection algorithms. This paper presents a generic and robust system for R-peak detection in Holter ECG signals. While many proposed algorithms have successfully addressed the problem of ECG R-peak detection, there is still a notable gap in the performance of these detectors on such low-quality ECG records. Therefore, in this study, a novel implementation of the 1D Convolutional Neural Network (CNN) is used integrated with a verification model to reduce the number of false alarms. This CNN architecture consists of an encoder block and a corresponding decoder block followed by a sample-wise classification layer to construct the 1D segmentation map of R- peaks from the input ECG signal. Once the proposed model has been trained, it can solely be used to detect R-peaks possibly in a single channel ECG data stream quickly and accurately, or alternatively, such a solution can be conveniently employed for real-time monitoring on a lightweight portable device. The model is tested on two open-access ECG databases: The China Physiological Signal Challenge (2020) database (CPSC-DB) with more than one million beats, and the commonly used MIT-BIH Arrhythmia Database (MIT-DB). Experimental results demonstrate that the proposed systematic approach achieves 99.30% F1-score, 99.69% recall, and 98.91% precision in CPSC-DB, which is the best R-peak detection performance ever achieved. Compared to all competing methods, the proposed approach can reduce the false-positives and false-negatives in Holter ECG signals by more than 54% and 82%, respectively. Results also demonstrate similar or better performance than most competing algorithms on MIT-DB with 99.83% F1-score, 99.85% recall, and 99.82% precision.
翻訳日:2021-04-18 22:38:34 公開日:2020-12-29
# (参考訳) 潜在軌道の確率的観測から非定常ランゲヴィンダイナミクスを学習する [全文訳有]

Learning non-stationary Langevin dynamics from stochastic observations of latent trajectories ( http://arxiv.org/abs/2012.14944v1 )

ライセンス: CC BY 4.0
Mikhail Genkin, Owen Hughes, and Tatiana A. Engel(参考訳) 平衡から遠く離れた多くの複雑な系はランゲヴィン方程式によって記述できる確率力学を示す。 データからランゲヴィン方程式を推定すると、そのような系の過渡的力学がそれらの函数をいかに引き起こすかが明らかになる。 しかし、ダイナミクスは直接アクセスできないことが多く、確率的な観察過程を通してのみグリーニングできるため、推論は困難である。 本稿では,確率的観測過程と非定常潜在力学を明示的にモデル化したランジュバン方程式を推定する非パラメトリックな枠組みを提案する。 この枠組みは、観測されたシステムの非平衡の初期状態と最終状態、およびシステムの力学が観測期間を定義する可能性を説明する。 これらの非定常成分のいずれかを省略すると、誤った推測が起こり、非定常データ分布による誤った特徴がダイナミクスに現れる。 脳内の意思決定の基礎となる神経動力学のモデルを用いて、このフレームワークを説明します。

Many complex systems operating far from the equilibrium exhibit stochastic dynamics that can be described by a Langevin equation. Inferring Langevin equations from data can reveal how transient dynamics of such systems give rise to their function. However, dynamics are often inaccessible directly and can be only gleaned through a stochastic observation process, which makes the inference challenging. Here we present a non-parametric framework for inferring the Langevin equation, which explicitly models the stochastic observation process and non-stationary latent dynamics. The framework accounts for the non-equilibrium initial and final states of the observed system and for the possibility that the system's dynamics define the duration of observations. Omitting any of these non-stationary components results in incorrect inference, in which erroneous features arise in the dynamics due to non-stationary data distribution. We illustrate the framework using models of neural dynamics underlying decision making in the brain.
翻訳日:2021-04-18 22:20:23 公開日:2020-12-29
# (参考訳) 少数の名前付きエンティティ認識 - 包括的研究 [全文訳有]

Few-Shot Named Entity Recognition: A Comprehensive Study ( http://arxiv.org/abs/2012.14978v1 )

ライセンス: CC BY 4.0
Jiaxin Huang, Chunyuan Li, Krishan Subudhi, Damien Jose, Shobana Balakrishnan, Weizhu Chen, Baolin Peng, Jianfeng Gao, Jiawei Han(参考訳) 本稿では、少数のドメイン内ラベル付きデータがある場合に、名前付きエンティティ認識(ner)システムを効率的に構築するための包括的研究を行う。 近年の Transformer-based self-supervised pre-trained language model (PLMs) に基づいて,(1) 異なるエンティティタイプに対するプロトタイプ構築のためのメタラーニング,(2) ノイズの多いWebデータによる教師付き事前学習,(3) エンティティ関連ジェネリック表現の抽出,(3) 未ラベルのドメインデータを活用するための自己学習の3つの直交的手法を検討した。 これらのスキームの異なる組み合わせも考慮される。 ラベル付きデータの比率の異なる10の公開nerデータセットについて,広範な経験的比較を行い,今後の研究に有用な知見を示唆する。 実験により,提案するnerスキームは,小数点学習環境では,一般的に使用されるベースラインであるplmに基づく線形分類器を,ドメインラベルで微調整し,その性能を大幅に向上あるいは上回ることがわかった。 再現可能な研究のためのコードと事前訓練されたモデルをリリースします。

This paper presents a comprehensive study to efficiently build named entity recognition (NER) systems when a small number of in-domain labeled data is available. Based upon recent Transformer-based self-supervised pre-trained language models (PLMs), we investigate three orthogonal schemes to improve the model generalization ability for few-shot settings: (1) meta-learning to construct prototypes for different entity types, (2) supervised pre-training on noisy web data to extract entity-related generic representations and (3) self-training to leverage unlabeled in-domain data. Different combinations of these schemes are also considered. We perform extensive empirical comparisons on 10 public NER datasets with various proportions of labeled data, suggesting useful insights for future research. Our experiments show that (i) in the few-shot learning setting, the proposed NER schemes significantly improve or outperform the commonly used baseline, a PLM-based linear classifier fine-tuned on domain labels; (ii) We create new state-of-the-art results on both few-shot and training-free settings compared with existing methods. We will release our code and pre-trained models for reproducible research.
翻訳日:2021-04-18 21:19:28 公開日:2020-12-29
# 有限サム最適化のための高速増分期待最大化:漸近収束

Fast Incremental Expectation Maximization for finite-sum optimization: nonasymptotic convergence ( http://arxiv.org/abs/2012.14670v1 )

ライセンス: Link先を確認
Gersende Fort (IMT), P. Gach (IMT), E. Moulines (CMAP, XPOP)(参考訳) Fast Incremental expectation Maximization (FIEM)は、大規模なデータセットのためのEMフレームワークのバージョンである。 本稿では, EM フレームワーク内での確率近似において, FIEM などの漸進的 EM 型アルゴリズムを最初に再放送する。 すると、予想の収束に対する漸近的境界は、例数$n$と反復の最大数$\kmax$の関数として与えられる。 我々は,それぞれ$\kmax = o(n^{2/3}/\epsilon)$と$\kmax = o(\sqrt{n}/\epsilon^{3/2})$の2つの定常点を達成する戦略を提案する。 私たちの限界は文学にいくつかの改善をもたらす。 まず、$\kmax$が$\sqrt{n}$としてスケールすることを許可し、これはこれまでで最高のレートであった$n^{2/3}$よりも優れている。 第2に、$n^{2/3}$レートの場合、数値的な図解は、手元の最適化問題を特徴づける量の観点から、ステップサイズと境界の最適化された選択により、ステップサイズに対する保守的な選択が減り、期待値の収束の制御がより良くなることを示している。

Fast Incremental Expectation Maximization (FIEM) is a version of the EM framework for large datasets. In this paper, we first recast FIEM and other incremental EM type algorithms in the {\em Stochastic Approximation within EM} framework. Then, we provide nonasymptotic bounds for the convergence in expectation as a function of the number of examples $n$ and of the maximal number of iterations $\kmax$. We propose two strategies for achieving an $\epsilon$-approxima te stationary point, respectively with $\kmax = O(n^{2/3}/\epsilon)$ and $\kmax = O(\sqrt{n}/\epsilon^{3/2})$, both strategies relying on a random termination rule before $\kmax$ and on a constant step size in the Stochastic Approximation step. Our bounds provide some improvements on the literature. First, they allow $\kmax$ to scale as $\sqrt{n}$ which is better than $n^{2/3}$ which was the best rate obtained so far; it is at the cost of a larger dependence upon the tolerance $\epsilon$, thus making this control relevant for small to medium accuracy with respect to the number of examples $n$. Second, for the $n^{2/3}$-rate, the numerical illustrations show that thanks to an optimized choice of the step size and of the bounds in terms of quantities characterizing the optimization problem at hand, our results desig a less conservative choice of the step size and provide a better control of the convergence in expectation.
翻訳日:2021-04-18 20:50:06 公開日:2020-12-29
# かなり深い異常検出に向けて

Towards Fair Deep Anomaly Detection ( http://arxiv.org/abs/2012.14961v1 )

ライセンス: Link先を確認
Hongjing Zhang, Ian Davidson(参考訳) 異常検出は、異常と見なされ、データサイエンスの根本的な問題であるインスタンスを見つけることを目的としている。 近年,画像などの複雑なデータにおいて,深部異常検出法は優れた結果が得られた。 本研究は,通常のサンプルからのみマッピングを学習する異常検出のための深層一クラス分類に焦点をあてる。 しかし、ディープラーニングによって行われる非線形変換は、社会的バイアスに関連するパターンを見つける可能性がある。 深部異常検出に公平さを加えることの課題は、公平かつ正確な異常予測を同時に行うことである。 本稿では,fair anomaly detectionアプローチ(deep fair svdd)のための新しいアーキテクチャを提案する。 これは通常、正則化器や制約としてフェアネスが加えられる方法とは異なる。 さらに,2つの効果的な公平性尺度を提案し,既存の深部異常検出手法が不公平であることを示す。 提案手法は,異常検出性能の低下を最小限に抑えることで不公平を解消できることを示す。 最後に、パラメータ解析、特徴の可視化、ランタイム分析など、提案モデルの強みと限界を示すために、詳細な分析を行う。

Anomaly detection aims to find instances that are considered unusual and is a fundamental problem of data science. Recently, deep anomaly detection methods were shown to achieve superior results particularly in complex data such as images. Our work focuses on deep one-class classification for anomaly detection which learns a mapping only from the normal samples. However, the non-linear transformation performed by deep learning can potentially find patterns associated with social bias. The challenge with adding fairness to deep anomaly detection is to ensure both making fair and correct anomaly predictions simultaneously. In this paper, we propose a new architecture for the fair anomaly detection approach (Deep Fair SVDD) and train it using an adversarial network to de-correlate the relationships between the sensitive attributes and the learned representations. This differs from how fairness is typically added namely as a regularizer or a constraint. Further, we propose two effective fairness measures and empirically demonstrate that existing deep anomaly detection methods are unfair. We show that our proposed approach can remove the unfairness largely with minimal loss on the anomaly detection performance. Lastly, we conduct an in-depth analysis to show the strength and limitations of our proposed model, including parameter analysis, feature visualization, and run-time analysis.
翻訳日:2021-04-18 20:49:35 公開日:2020-12-29
# MGML:リモートセンシングシーン分類のための多層多層特徴アンサンブルネットワーク

MGML: Multi-Granularity Multi-Level Feature Ensemble Network for Remote Sensing Scene Classification ( http://arxiv.org/abs/2012.14569v1 )

ライセンス: Link先を確認
Qi Zhao, Shuchang Lyu, Yuewen Li, Yujing Ma, Lijiang Chen(参考訳) リモートセンシング(RS)シーン分類は、RS画像のシーンカテゴリを予測する上で難しい課題である。 rs画像には2つの主要文字がある: 大きな解像度のばらつきによるクラス内の大きなばらつきと、大きな地理的被覆領域からの混乱した情報。 上記2文字からの負の影響を緩和する。 本稿では,多言語多層特徴集合ネットワーク(MGML-FENet)を提案する。 具体的には、チャネル分離機能生成器(CS-FG)を用いて、異なるレベルのネットワークにおいて、多粒度特徴を抽出する多粒度多層機能融合ブランチ(MGML-FFB)を提案する。 混乱する情報からの干渉を避けるため,全チャネル特徴生成器(FC-FG)による多様な予測を提供する多言語多層特徴集合モジュール(MGML-FEM)を提案する。 従来の手法と比較して,提案するネットワークは構造情報や細かな特徴を豊富に活用できる。 さらに,本提案手法はアンサンブル学習により,より説得力のある最終予測が得られる。 複数のRSデータセット(AID, NWPU-RESISC45, UC-Merced, VGoogle)の大規模な分類実験により, 提案したネットワークは, 従来のSOTA(State-of-the-ar t)ネットワークよりも優れた性能を示すことが示された。 また,mgml-fenetの良好な解釈性を示す。

Remote sensing (RS) scene classification is a challenging task to predict scene categories of RS images. RS images have two main characters: large intra-class variance caused by large resolution variance and confusing information from large geographic covering area. To ease the negative influence from the above two characters. We propose a Multi-granularity Multi-Level Feature Ensemble Network (MGML-FENet) to efficiently tackle RS scene classification task in this paper. Specifically, we propose Multi-granularity Multi-Level Feature Fusion Branch (MGML-FFB) to extract multi-granularity features in different levels of network by channel-separate feature generator (CS-FG). To avoid the interference from confusing information, we propose Multi-granularity Multi-Level Feature Ensemble Module (MGML-FEM) which can provide diverse predictions by full-channel feature generator (FC-FG). Compared to previous methods, our proposed networks have ability to use structure information and abundant fine-grained features. Furthermore, through ensemble learning method, our proposed MGML-FENets can obtain more convincing final predictions. Extensive classification experiments on multiple RS datasets (AID, NWPU-RESISC45, UC-Merced and VGoogle) demonstrate that our proposed networks achieve better performance than previous state-of-the-art (SOTA) networks. The visualization analysis also shows the good interpretability of MGML-FENet.
翻訳日:2021-04-18 20:49:03 公開日:2020-12-29
# 対話機械読解のための対話グラフモデリング

Dialogue Graph Modeling for Conversational Machine Reading ( http://arxiv.org/abs/2012.14827v1 )

ライセンス: Link先を確認
Siru Ouyang, Zhuosheng Zhang, Hai Zhao(参考訳) Conversational Machine Reading (CMR)は、複雑な方法で質問に答えることを目的としている。 マシンは、所定のルール文書、ユーザシナリオ、対話履歴に基づいてユーザーとの対話を通じて質問に答え、必要なら質問をする必要がある。 本稿では,CMRタスクにおける機械の理解と推論能力を改善するための対話グラフモデリングフレームワークを提案する。 グラフには3つの種類がある。 特に、談話グラフは、ルールテキスト間の談話関係を明示的に学習し、シナリオの余分な知識だけでなく、ルールテキスト内の局所的および文脈的接続を理解するために使用される。 そして最後に,情報を融合してユーザに返信するグローバルグラフが ‘Yes/No/Irrelevant’ か,あるいはフォローアップ質問で明確になるようにしています。

Conversational Machine Reading (CMR) aims at answering questions in a complicated manner. Machine needs to answer questions through interactions with users based on given rule document, user scenario and dialogue history, and ask questions to clarify if necessary. In this paper, we propose a dialogue graph modeling framework to improve the understanding and reasoning ability of machine on CMR task. There are three types of graph in total. Specifically, Discourse Graph is designed to learn explicitly and extract the discourse relation among rule texts as well as the extra knowledge of scenario; Decoupling Graph is used for understanding local and contextualized connection within rule texts. And finally a global graph for fusing the information together and reply to the user with our final decision being either ``Yes/No/Irrelevant&qu ot; or to ask a follow-up question to clarify.
翻訳日:2021-04-18 20:48:38 公開日:2020-12-29
# MS-GWNN : 乳がん診断のためのマルチスケールグラフウェーブレットニューラルネットワーク

MS-GWNN:multi-scale graph wavelet neural network for breast cancer diagnosis ( http://arxiv.org/abs/2012.14619v1 )

ライセンス: Link先を確認
Mo Zhang, Quanzheng Li(参考訳) 乳がんは世界でも最も一般的ながんの1つであり、早期発見は乳がんの死亡率を著しく低下させる可能性がある。 乳がんの検出において,組織構造のマルチスケール情報を考慮に入れることが重要である。 そこで,癌組織におけるマルチスケールのコンテキスト特徴を捉えるために,正確なコンピュータ支援検出システム(CAD)を設計する鍵となる。 本研究では,乳癌の病理組織像分類のための新しいグラフ畳み込みニューラルネットワークを提案する。 この手法はマルチスケールグラフウェーブレットニューラルネットワーク(ms-gwnn)と呼ばれ、スペクトルグラフウェーブレットの局在性を利用してマルチスケール解析を行う。 異なるスケールの機能を集約することで、MS-GWNNは、病理スライド全体におけるマルチスケールのコンテキスト相互作用をエンコードできる。 2つの公開データセットの実験結果は,提案手法の優位性を示している。 さらに, アブレーション研究により, マルチスケール解析が癌診断の精度に有意な影響を及ぼすことが明らかとなった。

Breast cancer is one of the most common cancers in women worldwide, and early detection can significantly reduce the mortality rate of breast cancer. It is crucial to take multi-scale information of tissue structure into account in the detection of breast cancer. And thus, it is the key to design an accurate computer-aided detection (CAD) system to capture multi-scale contextual features in a cancerous tissue. In this work, we present a novel graph convolutional neural network for histopathological image classification of breast cancer. The new method, named multi-scale graph wavelet neural network (MS-GWNN), leverages the localization property of spectral graph wavelet to perform multi-scale analysis. By aggregating features at different scales, MS-GWNN can encode the multi-scale contextual interactions in the whole pathological slide. Experimental results on two public datasets demonstrate the superiority of the proposed method. Moreover, through ablation studies, we find that multi-scale analysis has a significant impact on the accuracy of cancer diagnosis.
翻訳日:2021-04-18 20:48:25 公開日:2020-12-29
# 高速R-CNNを用いたオブジェクトソート

Object sorting using faster R-CNN ( http://arxiv.org/abs/2012.14840v1 )

ライセンス: Link先を確認
Pengchang Chen and Vinayak Elangovan(参考訳) 工場生産ラインでは、異なる産業部品を迅速に差別化し、さらなるプロセスのために選別する必要がある。 部品は異なる色と形状を持つことができる。 人間がこれらの物体を適切なカテゴリーで区別して分類するのは面倒である。 このプロセスの自動化は、より多くの時間とコストを節約します。 自動化プロセスでは、特定の機能に基づいて異なるオブジェクトを検出し分類する適切なモデルを選択することがより難しい。 本稿では,3種類のニューラルネットワークモデルとオブジェクトソートシステムを比較した。 CNN、Fast R-CNN、Faster R-CNNである。 これらのモデルはテストされ、パフォーマンスが解析される。 さらに、オブジェクトソートシステムでは、Arduino制御の5 DoF(自由度)ロボットアームをプログラムして、対象ゾーンに対称オブジェクトをつかんでドロップする。 オブジェクトは、色、欠陥、非欠陥オブジェクトに基づいてクラスに分類される。

In a factory production line, different industry parts need to be quickly differentiated and sorted for further process. Parts can be of different colors and shapes. It is tedious for humans to differentiate and sort these objects in appropriate categories. Automating this process would save more time and cost. In the automation process, choosing an appropriate model to detect and classify different objects based on specific features is more challenging. In this paper, three different neural network models are compared to the object sorting system. They are namely CNN, Fast R-CNN, and Faster R-CNN. These models are tested, and their performance is analyzed. Moreover, for the object sorting system, an Arduino-controlled 5 DoF (degree of freedom) robot arm is programmed to grab and drop symmetrical objects to the targeted zone. Objects are categorized into classes based on color, defective and non-defective objects.
翻訳日:2021-04-18 20:48:11 公開日:2020-12-29
# 不均衡データストリームのためのドリフトアウェアマルチメモリモデル

Drift-Aware Multi-Memory Model for Imbalanced Data Streams ( http://arxiv.org/abs/2012.14791v1 )

ライセンス: Link先を確認
Amir Abolfazli and Eirini Ntoutsi(参考訳) オンラインクラス不均衡学習は、コンセプトドリフトとクラス不均衡の両方に影響されるデータストリームを扱う。 オンライン学習は、以前に学習した情報を活用し、新しい情報をモデルに組み込むトレードオフを見つけようとする。 これにより、モデルの漸進的な更新と、古い情報を解き放つ能力の両方が必要になる。 しかし、アンラーニングの不適切な使用は、新たに学習した情報が古い情報に干渉し、以前に学習した情報のリコールを妨げる現象である遡及的干渉問題を引き起こす可能性がある。 クラスが等しく表現されない場合、問題はより深刻になり、モデルからマイノリティ情報を排除することになる。 本研究では,メモリベースモデルにおけるオンライン学習におけるクラス不均衡問題に対処する,ドリフトアウェアマルチメモリモデル(dam3)を提案する。 dam3は、不均衡感応ドリフト検出器を内蔵し、モデル内のクラスのバランスのとれた表現を保持し、古い情報を忘れるのを防ぐワーキングメモリを用いて、遡及的干渉を解決することで、クラス不均衡を軽減する。 本研究では,実世界および合成データセットを用いた実験を通じて,提案手法がクラス不均衡を緩和し,最先端手法を上回ることを示した。

Online class imbalance learning deals with data streams that are affected by both concept drift and class imbalance. Online learning tries to find a trade-off between exploiting previously learned information and incorporating new information into the model. This requires both the incremental update of the model and the ability to unlearn outdated information. The improper use of unlearning, however, can lead to the retroactive interference problem, a phenomenon that occurs when newly learned information interferes with the old information and impedes the recall of previously learned information. The problem becomes more severe when the classes are not equally represented, resulting in the removal of minority information from the model. In this work, we propose the Drift-Aware Multi-Memory Model (DAM3), which addresses the class imbalance problem in online learning for memory-based models. DAM3 mitigates class imbalance by incorporating an imbalance-sensitive drift detector, preserving a balanced representation of classes in the model, and resolving retroactive interference using a working memory that prevents the forgetting of old information. We show through experiments on real-world and synthetic datasets that the proposed method mitigates class imbalance and outperforms the state-of-the-art methods.
翻訳日:2021-04-18 20:48:00 公開日:2020-12-29
# 繊維加工プロセス最適化のための深層強化学習に基づく多階層決定支援システム

A Deep Reinforcement Learning Based Multi-Criteria Decision Support System for Textile Manufacturing Process Optimization ( http://arxiv.org/abs/2012.14794v1 )

ライセンス: Link先を確認
Zhenglei He (GEMTEX), Kim Phuc Tran (GEMTEX), Sebastien Thomassey (GEMTEX), Xianyi Zeng (GEMTEX), Jie Xu, Chang Haiyi(参考訳) 繊維製造業は、近代技術の適用能力に乏しい相互接続プロセスにおいて、高い複雑さを伴う伝統的な産業である。 この領域での意思決定は、通常、複数の基準を考慮に入れ、より複雑さを引き起こす。 そこで本研究では,知能データに基づくランダム・フォレスト(RF)モデルと,繊維製造プロセスの目的と主観的要因に応じて,人間の知識に基づく解析的階層構造(AHP)を組み合わせた意思決定支援システムを提案する。 さらに重要なことに、繊維製造プロセスはマルコフ決定プロセス(MDP)パラダイムとして記述され、それを最適化するために深層強化学習スキームであるディープQネットワークス(DQN)が使用される。 本システムの有効性は, 織物のオゾン化過程を最適化するケーススタディで検証され, 繊維製造プロセスにおいて, 難しい意思決定タスクを習得できることを示した。

Textile manufacturing is a typical traditional industry involving high complexity in interconnected processes with limited capacity on the application of modern technologies. Decision-making in this domain generally takes multiple criteria into consideration, which usually arouses more complexity. To address this issue, the present paper proposes a decision support system that combines the intelligent data-based random forest (RF) models and a human knowledge based analytical hierarchical process (AHP) multi-criteria structure in accordance to the objective and the subjective factors of the textile manufacturing process. More importantly, the textile manufacturing process is described as the Markov decision process (MDP) paradigm, and a deep reinforcement learning scheme, the Deep Q-networks (DQN), is employed to optimize it. The effectiveness of this system has been validated in a case study of optimizing a textile ozonation process, showing that it can better master the challenging decision-making tasks in textile manufacturing processes.
翻訳日:2021-04-18 20:47:40 公開日:2020-12-29
# LISPR:強化学習による政策再利用のためのオプションフレームワーク

LISPR: An Options Framework for Policy Reuse with Reinforcement Learning ( http://arxiv.org/abs/2012.14942v1 )

ライセンス: Link先を確認
Daniel Graves, Jun Jin, Jun Luo(参考訳) 本稿では,既存のポリシを潜在的に未知のソースMDPからターゲットMDPに転送するフレームワークを提案する。 この枠組み(1)は、古典的コントローラ、ヒューリスティックポリシー、深層ニューラルネットワークに基づくポリシーを含む任意の種類のソースポリシーのターゲット領域における再利用を可能にし、(2)適切な理論条件下での最適性を達成し、(3)ターゲットmdpにおけるソースポリシーの改善を保証する。 これらは、ソースポリシーをターゲットのMDPにブラックボックスオプションとしてパッケージ化し、一般的な値関数を通じてオプションの開始セットを学習する理論的に基礎的な方法を提供することによって達成される。 提案手法は,(1)対象のMDP報酬をブラックボックスオプションの助けを借りて最大化し,(2)エージェントをブラックボックスオプションの学習開始セットの状態に戻すことによって,新たな政策の学習を容易にする。 この2つの変種は,ある条件下では同等の性能を示す。 シミュレーション環境における一連の実験を通じて、我々のフレームワークは、(準)最適ソースポリシーが与えられたスパース報酬問題において優れた性能を発揮し、連続学習やプログレッシブネットワークなどの転送手法における先行技術の改善を図っている。

We propose a framework for transferring any existing policy from a potentially unknown source MDP to a target MDP. This framework (1) enables reuse in the target domain of any form of source policy, including classical controllers, heuristic policies, or deep neural network-based policies, (2) attains optimality under suitable theoretical conditions, and (3) guarantees improvement over the source policy in the target MDP. These are achieved by packaging the source policy as a black-box option in the target MDP and providing a theoretically grounded way to learn the option's initiation set through general value functions. Our approach facilitates the learning of new policies by (1) maximizing the target MDP reward with the help of the black-box option, and (2) returning the agent to states in the learned initiation set of the black-box option where it is already optimal. We show that these two variants are equivalent in performance under some conditions. Through a series of experiments in simulated environments, we demonstrate that our framework performs excellently in sparse reward problems given (sub-)optimal source policies and improves upon prior art in transfer methods such as continual learning and progressive networks, which lack our framework's desirable theoretical properties.
翻訳日:2021-04-18 20:47:22 公開日:2020-12-29
# 教師なし特徴選択のための$l_{2,p}$-Norm正規化によるスパースPCA

Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature Selection ( http://arxiv.org/abs/2012.14595v1 )

ライセンス: Link先を確認
Zhengxin Li, Feiping Nie, Jintang Bian, Xuelong Li(参考訳) データマイニングの分野では、高次元データを扱う方法が避けられない問題である。 教師なしの機能選択はラベルに依存しないため、ますます注目を集めている。 スペクトルベースの教師なし手法の性能は、データ固有の構造を記述するために使用される構築された類似性行列の品質に依存する。 しかし、現実世界のデータには多くのノイズサンプルと特徴が含まれており、元のデータで構築された類似性行列は完全に信頼できない。 さらに悪いことに、サンプル数が増えるにつれて類似度行列のサイズが急速に拡大し、計算コストが大幅に増加する。 主成分分析に着想を得て, 再構成誤差を$l_{2,p}$-norm正規化と組み合わせ, 単純かつ効率的な特徴選択法を提案する。 特徴選択に用いられる投影行列は、スパース制約の下で再構成誤差を最小化することにより学習される。 そして,提案した教師なしモデルの解法と,アルゴリズムの収束と計算の複雑さを理論的に解析する効率的な最適化アルゴリズムを提案する。 最後に,実世界のデータセットに関する広範囲な実験を行い,提案手法の有効性を示す。

In the field of data mining, how to deal with high-dimensional data is an inevitable problem. Unsupervised feature selection has attracted more and more attention because it does not rely on labels. The performance of spectral-based unsupervised methods depends on the quality of constructed similarity matrix, which is used to depict the intrinsic structure of data. However, real-world data contain a large number of noise samples and features, making the similarity matrix constructed by original data cannot be completely reliable. Worse still, the size of similarity matrix expands rapidly as the number of samples increases, making the computational cost increase significantly. Inspired by principal component analysis, we propose a simple and efficient unsupervised feature selection method, by combining reconstruction error with $l_{2,p}$-norm regularization. The projection matrix, which is used for feature selection, is learned by minimizing the reconstruction error under the sparse constraint. Then, we present an efficient optimization algorithm to solve the proposed unsupervised model, and analyse the convergence and computational complexity of the algorithm theoretically. Finally, extensive experiments on real-world data sets demonstrate the effectiveness of our proposed method.
翻訳日:2021-04-18 20:46:59 公開日:2020-12-29
# MDPにおけるインクリメンタル自律探査のためのサンプル複雑さの改善

Improved Sample Complexity for Incremental Autonomous Exploration in MDPs ( http://arxiv.org/abs/2012.14755v1 )

ライセンス: Link先を確認
Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric(参考訳) 報酬関数が提供されない未知環境の探索について検討する。 lim と auer [1] によって導入されたインクリメンタルな探索設定に基づいて、参照状態 $s_0$ から$l$ ステップ以内に到達可能なすべての状態を達成するために、$\epsilon$-optimal goal-conditioned policies のセットを学習する目的を定義します。 本稿では、新しい状態の発見を$s_0$からインターリーブし、ゴール条件付きポリシーを計算して新たに発見された状態に到達させるモデル推定の精度を向上させる新しいモデルベースアプローチを提案する。 結果のアルゴリズムであるDisCoはサンプル複雑性のスケールを$\tilde{O}(L^5 S_{L+\epsilon} \Gamma_{L+\epsilon} A \epsilon^{-2})$, where $A$ is the number of action, $S_{L+\epsilon}$は $s_0$ in $L+\epsilon$ steps, $\Gamma_{L+\epsilon}$はそのような状態上の力学の分岐因子である。 これは$\epsilon$と$l$の両方で[1]で提案されているアルゴリズムよりも改善され、ほとんどの関心のある環境では小さい$\gamma_{l+\epsilon}$ factorのコストがかかる。 さらに、DisCo は$\epsilon/c_{\min}$-optimal policy を$L$-reachable state で最小コスト$c_{\min}$ で定義した任意のコスト感受性のショートパス問題に対して返すことができる最初のアルゴリズムである。 最後に,我々の理論的知見を裏付ける予備実験結果について報告する。

We investigate the exploration of an unknown environment when no reward function is provided. Building on the incremental exploration setting introduced by Lim and Auer [1], we define the objective of learning the set of $\epsilon$-optimal goal-conditioned policies attaining all states that are incrementally reachable within $L$ steps (in expectation) from a reference state $s_0$. In this paper, we introduce a novel model-based approach that interleaves discovering new states from $s_0$ and improving the accuracy of a model estimate that is used to compute goal-conditioned policies to reach newly discovered states. The resulting algorithm, DisCo, achieves a sample complexity scaling as $\tilde{O}(L^5 S_{L+\epsilon} \Gamma_{L+\epsilon} A \epsilon^{-2})$, where $A$ is the number of actions, $S_{L+\epsilon}$ is the number of states that are incrementally reachable from $s_0$ in $L+\epsilon$ steps, and $\Gamma_{L+\epsilon}$ is the branching factor of the dynamics over such states. This improves over the algorithm proposed in [1] in both $\epsilon$ and $L$ at the cost of an extra $\Gamma_{L+\epsilon}$ factor, which is small in most environments of interest. Furthermore, DisCo is the first algorithm that can return an $\epsilon/c_{\min}$-optimal policy for any cost-sensitive shortest-path problem defined on the $L$-reachable states with minimum cost $c_{\min}$. Finally, we report preliminary empirical results confirming our theoretical findings.
翻訳日:2021-04-18 20:46:41 公開日:2020-12-29
# ツインニューラルネットの回帰

Twin Neural Network Regression ( http://arxiv.org/abs/2012.14873v1 )

ライセンス: Link先を確認
Sebastian J. Wetzel, Kevin Ryczko, Roger G. Melko, Isaac Tamblyn(参考訳) ツインニューラルネットワーク(TNN)レグレッションを導入する。 本手法は,ターゲット自体ではなく,2つの異なるデータポイントの目標値の違いを予測する。 従来の回帰問題の解は、未知のデータポイントのターゲットと全てのトレーニングデータポイントの全ての予測された差のアンサンブルを平均化することによって得られる。 アンサンブルは通常コストがかかるが、TNN回帰は本質的に1つのニューラルネットワークのみをトレーニングしながら、トレーニングセットの2倍の大きさの予測のアンサンブルを生成する。 アンサンブルは単一モデルよりも正確であることが示されているので、この性質は自然にTNN回帰に遷移する。 TNNは、他の最先端手法と比較して、異なるデータセットに対してより正確な予測を行うことができることを示す。 さらに、TNN回帰は自己整合条件によって制約される。 これらの条件に違反すると予測の不確実性が推定される。

We introduce twin neural network (TNN) regression. This method predicts differences between the target values of two different data points rather than the targets themselves. The solution of a traditional regression problem is then obtained by averaging over an ensemble of all predicted differences between the targets of an unseen data point and all training data points. Whereas ensembles are normally costly to produce, TNN regression intrinsically creates an ensemble of predictions of twice the size of the training set while only training a single neural network. Since ensembles have been shown to be more accurate than single models this property naturally transfers to TNN regression. We show that TNNs are able to compete or yield more accurate predictions for different data sets, compared to other state-of-the-art methods. Furthermore, TNN regression is constrained by self-consistency conditions. We find that the violation of these conditions provides an estimate for the prediction uncertainty.
翻訳日:2021-04-18 20:45:59 公開日:2020-12-29
# F測度に関する統計公式

Statistical Formulas for F Measures ( http://arxiv.org/abs/2012.14894v1 )

ライセンス: Link先を確認
Wenxin Jiang(参考訳) 我々は,F測度に対する標準誤差と信頼区間に関する解析式を,大標本限界における漸近正規性の性質に基づいて提供する。 この公式は、これらのF測度を十分に正確に推定するために、サンプルサイズ計画に適用することができる。

We provide analytic formulas for the standard error and confidence intervals for the F measures, based on a property of asymptotic normality in the large sample limit. The formula can be applied for sample size planning in order to achieve accurate enough estimation of these F measures.
翻訳日:2021-04-18 20:45:46 公開日:2020-12-29
# amortized samplerとしての変分オートエンコーダを用いた学習エネルギーモデル

Learning Energy-Based Model with Variational Auto-Encoder as Amortized Sampler ( http://arxiv.org/abs/2012.14936v1 )

ライセンス: Link先を確認
Jianwen Xie, Zilong Zheng, Ping Li(参考訳) 難解な分割関数のため、トレーニングエネルギーベースモデル(EBM)を最大限に訓練するにはマルコフ連鎖モンテカルロ(MCMC)サンプリングが必要であり、データとモデル分布間のクルバック・リーブラの勾配を近似する必要がある。 しかしながら、モード間の混合が難しいため、ebmからサンプルを採取するのは自明ではない。 本稿では,エネルギ関数から導かれるランゲヴィンダイナミクスなどの有限ステップMCMCを初期化するための変分オートエンコーダ(VAE)を学習し,ESMの効率的なアモータイズサンプリングを提案する。 これらのアモールト化MCMCサンプルを用いて、EMMは「合成による分析」スキームに従って最大限に訓練することができるが、変分自動エンコーダは変分ベイズを介してこれらのMCMCサンプルから学習する。 我々はこの共同学習アルゴリズムを変分MCMC教育と呼び、VAEはEMMをデータ分布に向けて追従する。 我々は学習アルゴリズムを情報幾何学の文脈における動的交互投影と解釈する。 提案モデルでは,GANやEMMに匹敵するサンプルを生成することができる。 さらに,本モデルが教師付き条件付き学習実験に対する効果的な確率分布を学習できることを実証する。

Due to the intractable partition function, training energy-based models (EBMs) by maximum likelihood requires Markov chain Monte Carlo (MCMC) sampling to approximate the gradient of the Kullback-Leibler divergence between data and model distributions. However, it is non-trivial to sample from an EBM because of the difficulty of mixing between modes. In this paper, we propose to learn a variational auto-encoder (VAE) to initialize the finite-step MCMC, such as Langevin dynamics that is derived from the energy function, for efficient amortized sampling of the EBM. With these amortized MCMC samples, the EBM can be trained by maximum likelihood, which follows an "analysis by synthesis" scheme; while the variational auto-encoder learns from these MCMC samples via variational Bayes. We call this joint training algorithm the variational MCMC teaching, in which the VAE chases the EBM toward data distribution. We interpret the learning algorithm as a dynamic alternating projection in the context of information geometry. Our proposed models can generate samples comparable to GANs and EBMs. Additionally, we demonstrate that our models can learn effective probabilistic distribution toward supervised conditional learning experiments.
翻訳日:2021-04-18 20:45:42 公開日:2020-12-29
# 非対称二元分類のためのブリッジングコストセンシティブとニーマン・ピアソンパラダイム

Bridging Cost-sensitive and Neyman-Pearson Paradigms for Asymmetric Binary Classification ( http://arxiv.org/abs/2012.14951v1 )

ライセンス: Link先を確認
Wei Vivian Li, Xin Tong, Jingyi Jessica Li(参考訳) タイプIとIIのエラーが不等な重大性を持つ非対称二項分類問題は、実世界の応用においてユビキタスである。 このような非対称性に対処するために、研究者は、タイプiエラーのようなより厳格な分類エラーを制御するために分類器を訓練するためのコストに敏感でニーマン・ピアソンのパラダイムを開発した。 コストに敏感なパラダイムは広く使われており、サンプル分割を必要としない単純な実装を持っているが、I型とII型のエラーのコストを明確に指定する必要がある。 対照的に、Neyman-Pearsonパラダイムは分類器を訓練することで、集団I型エラーの高確率制御を実現することができるが、効果的なトレーニングサンプルサイズを減らすサンプル分割に依存している。 2つのパラダイムは相補的な強みを持つので、それらの強みを分類器の構成に組み合わせるのが妥当である。 本研究では,この2つのパラダイム間の方法論的接続を初めて研究し,この2つのパラダイムを集団i型エラーの制御の観点から橋渡しするための tube-cs アルゴリズムを開発した。

Asymmetric binary classification problems, in which the type I and II errors have unequal severity, are ubiquitous in real-world applications. To handle such asymmetry, researchers have developed the cost-sensitive and Neyman-Pearson paradigms for training classifiers to control the more severe type of classification error, say the type I error. The cost-sensitive paradigm is widely used and has straightforward implementations that do not require sample splitting; however, it demands an explicit specification of the costs of the type I and II errors, and an open question is what specification can guarantee a high-probability control on the population type I error. In contrast, the Neyman-Pearson paradigm can train classifiers to achieve a high-probability control of the population type I error, but it relies on sample splitting that reduces the effective training sample size. Since the two paradigms have complementary strengths, it is reasonable to combine their strengths for classifier construction. In this work, we for the first time study the methodological connections between the two paradigms, and we develop the TUBE-CS algorithm to bridge the two paradigms from the perspective of controlling the population type I error.
翻訳日:2021-04-18 20:45:21 公開日:2020-12-29
# ailearn:spoof指紋検出のための適応型インクリメンタル学習モデル

AILearn: An Adaptive Incremental Learning Model for Spoof Fingerprint Detection ( http://arxiv.org/abs/2012.14639v1 )

ライセンス: Link先を確認
Shivang Agarwal, Ajita Rattani, C. Ravindranath Chowdary(参考訳) 増分学習により、学習者は既存のモデルを再訓練することなく、新しい知識を学べる。 これは、新しいデータからの学習と、以前にアクセスされたデータから抽出された知識の保存を必要とする困難なタスクである。 この挑戦は安定性・塑性ジレンマとして知られている。 AILearnは、新しいデータに基づいて訓練されたベース分類器のアンサンブルを、データ全体を用いてスクラッチから学習することなく、注意深く統合することにより、安定性と塑性のジレンマを克服するインクリメンタル学習の汎用モデルである。 我々は,スプーフ指紋検出アプリケーションにおけるAILearnモデルの有効性を実証した。 spoof指紋検出に関する重要な課題の1つは、新しい製造材料で生成されたspoofsの性能低下である。 AILearnは、'live'と'`spoof'の指紋画像の特徴に適応し、新しいデータが利用可能になったとき、新しいスプーフ指紋だけでなく、既知のスプーフ指紋も効率的に認識する適応型インクリメンタル学習モデルである。 我々の知識を最大限に活用するために、AILearnは、様々な基本分類器を生成するデータの性質に適応するインクリメンタル学習アルゴリズムの最初の試みである。 標準高次元データセットLivDet 2011, LivDet 2013, LivDet 2015で行った実験から, 新しい偽材料の性能向上が著しく高いことを示す。 平均すると、連続学習フェーズ間の精度が49.57ドル%向上する。

Incremental learning enables the learner to accommodate new knowledge without retraining the existing model. It is a challenging task which requires learning from new data as well as preserving the knowledge extracted from the previously accessed data. This challenge is known as the stability-plasticity dilemma. We propose AILearn, a generic model for incremental learning which overcomes the stability-plasticity dilemma by carefully integrating the ensemble of base classifiers trained on new data with the current ensemble without retraining the model from scratch using entire data. We demonstrate the efficacy of the proposed AILearn model on spoof fingerprint detection application. One of the significant challenges associated with spoof fingerprint detection is the performance drop on spoofs generated using new fabrication materials. AILearn is an adaptive incremental learning model which adapts to the features of the ``live'' and ``spoof'' fingerprint images and efficiently recognizes the new spoof fingerprints as well as the known spoof fingerprints when the new data is available. To the best of our knowledge, AILearn is the first attempt in incremental learning algorithms that adapts to the properties of data for generating a diverse ensemble of base classifiers. From the experiments conducted on standard high-dimensional datasets LivDet 2011, LivDet 2013 and LivDet 2015, we show that the performance gain on new fake materials is significantly high. On an average, we achieve $49.57\%$ improvement in accuracy between the consecutive learning phases.
翻訳日:2021-04-18 20:44:31 公開日:2020-12-29
# マンモグラフィにおける乳房腫瘤診断のための造影診断ネットワーク

COIN: Contrastive Identifier Network for Breast Mass Diagnosis in Mammography ( http://arxiv.org/abs/2012.14690v1 )

ライセンス: Link先を確認
Heyi Li, Dongdong Chen, William H. Nailon, Mike E. Davies, and David Laurenson(参考訳) マンモグラフィーにおけるコンピュータ支援乳がん診断は, マンモグラフィーデータの不足とデータ絡み合いから生じる課題である。 特にデータの不足は、プライバシと高価なアノテーションによるものだ。 そして、データの絡み合いは良性塊と悪性塊の間の高い類似性によるもので、その内の多様体は非常に小さいマージンの低次元空間に存在する。 これら2つの課題に対処するために,逆数拡大と多様体に基づくコントラスト学習を統合したContrastive Identifier Network (\textsc{COIN}) というディープラーニングフレームワークを提案する。 まず、対人学習を用いて、ROIを含むオン・オフ・ディストリビューション・マスを創出する。 その後,サイン付きグラフを組み込んだ新しいコントラスト損失を提案する。 最後に、ニューラルネットワークは、拡張データセットにおける深層モデルの識別性を改善する目的で、対照的な学習方法で最適化される。 特に、COINを用いることで、同一カテゴリのデータサンプルを近づき、異なるラベルを持つデータはより深い潜伏空間でプッシュされる。 さらに、COINは、乳癌の診断問題を解決するための最先端のアルゴリズムをかなりのマージンで上回り、93.4\%の精度と95.0\%のAUCスコアを達成している。 コードは***でリリースされる。

Computer-aided breast cancer diagnosis in mammography is a challenging problem, stemming from mammographical data scarcity and data entanglement. In particular, data scarcity is attributed to the privacy and expensive annotation. And data entanglement is due to the high similarity between benign and malignant masses, of which manifolds reside in lower dimensional space with very small margin. To address these two challenges, we propose a deep learning framework, named Contrastive Identifier Network (\textsc{COIN}), which integrates adversarial augmentation and manifold-based contrastive learning. Firstly, we employ adversarial learning to create both on- and off-distribution mass contained ROIs. After that, we propose a novel contrastive loss with a built Signed graph. Finally, the neural network is optimized in a contrastive learning manner, with the purpose of improving the deep model's discriminativity on the extended dataset. In particular, by employing COIN, data samples from the same category are pulled close whereas those with different labels are pushed further in the deep latent space. Moreover, COIN outperforms the state-of-the-art related algorithms for solving breast cancer diagnosis problem by a considerable margin, achieving 93.4\% accuracy and 95.0\% AUC score. The code will release on ***.
翻訳日:2021-04-18 20:44:08 公開日:2020-12-29
# 安全なマルチモーダルバイオメトリックスのためのディープハッシュ

Deep Hashing for Secure Multimodal Biometrics ( http://arxiv.org/abs/2012.14758v1 )

ライセンス: Link先を確認
Veeru Talreja, Matthew Valenti, Nasser Nasrabadi(参考訳) 単調システムと比較して、マルチモーダルバイオメトリックシステムには、エラー率の低下、精度の向上、人口被覆の増大など、いくつかの利点がある。 しかし、マルチモーダルシステムは、各ユーザに関連する複数の生体特性を格納しなければならないため、整合性とプライバシーの要求が高まる。 本稿では,各ユーザの顔と虹彩バイオメトリックスからセキュアなマルチモーダルテンプレートを生成する機能レベル融合のためのディープラーニングフレームワークを提案する。 我々は,deep hashing (binarization) 手法を fusion アーキテクチャに統合し,堅牢なバイナリ・マルチモーダル共有潜在表現を生成する。 さらに,キャンセル可能なバイオメトリックスと安全なスケッチ技術を組み合わせてハイブリッドなセキュアなアーキテクチャを採用し,それを深層ハッシュフレームワークと組み合わせることで,認証をパスする複数のバイオメトリックスの組み合わせを計算的に禁止する。 提案手法の有効性は顔と虹彩のマルチモーダルデータベースを用いて示し, 複数バイオメトリックスの融合によりマッチング性能が向上することが観察された。 さらに,提案手法は,生体データのプライバシ向上とともに,テンプレートのキャンセル性とアンリンク性も提供する。 さらに,ベンチマークデータセットを用いて,画像検索アプリケーションに対して提案するハッシュ関数をテストした。 本研究の目的は,顔や虹彩などのモダリティから得られる構造データに着目し,マルチモーダルフュージョン,ディープハッシュ,バイオメトリックセキュリティを統合する手法を開発することである。 提案手法は,全ての生体指標に適用可能な一般バイオメトリック・セキュリティ・フレームワークであり,提案手法を他の非拘束バイオメトリック・モダリティに拡張するためには,さらなる研究が必要である。

When compared to unimodal systems, multimodal biometric systems have several advantages, including lower error rate, higher accuracy, and larger population coverage. However, multimodal systems have an increased demand for integrity and privacy because they must store multiple biometric traits associated with each user. In this paper, we present a deep learning framework for feature-level fusion that generates a secure multimodal template from each user's face and iris biometrics. We integrate a deep hashing (binarization) technique into the fusion architecture to generate a robust binary multimodal shared latent representation. Further, we employ a hybrid secure architecture by combining cancelable biometrics with secure sketch techniques and integrate it with a deep hashing framework, which makes it computationally prohibitive to forge a combination of multiple biometrics that pass the authentication. The efficacy of the proposed approach is shown using a multimodal database of face and iris and it is observed that the matching performance is improved due to the fusion of multiple biometrics. Furthermore, the proposed approach also provides cancelability and unlinkability of the templates along with improved privacy of the biometric data. Additionally, we also test the proposed hashing function for an image retrieval application using a benchmark dataset. The main goal of this paper is to develop a method for integrating multimodal fusion, deep hashing, and biometric security, with an emphasis on structural data from modalities like face and iris. The proposed approach is in no way a general biometric security framework that can be applied to all biometric modalities, as further research is needed to extend the proposed framework to other unconstrained biometric modalities.
翻訳日:2021-04-18 20:43:46 公開日:2020-12-29
# YASO: ターゲットの知覚分析のための新しいベンチマーク

YASO: A New Benchmark for Targeted Sentiment Analysis ( http://arxiv.org/abs/2012.14541v1 )

ライセンス: Link先を確認
Matan Orbach, Orith Toledo-Ronen, Artem Spector, Ranit Aharonov, Yoav Katz and Noam Slonim(参考訳) センチメント分析研究は、完全な文書や単一文の分析から、ターゲットセンチメント分析(TSA)のタスクによって、単一の単語やフレーズに対する感情を識別する細部まで、長年にわたって変化してきた。 この問題はアルゴリズム的な側面に焦点を当てた多くの研究を引き寄せているが、通常は少数のデータセットからの選択に基づいて評価される。 本稿では,ターゲットとその感情をラベル付けするための新しいアノテーションスキームを用いて収集した,クラウドソースtsa評価データセットであるyasoを提案する。 このデータセットには、映画、ビジネス、製品レビューからの2,215の英語文と、7,415の用語と、それらの文章に注釈が付けられた対応する感情が含まれている。 分析はアノテーションの信頼性を検証し,収集したデータの特徴について検討する。 最後に、現在の5つのTSAシステムを使用したベンチマーク結果が今後の作業の基礎となり、この挑戦的な新しいデータセットを改善する余地が十分にあることを示す。

Sentiment analysis research has shifted over the years from the analysis of full documents or single sentences to a finer-level of detail -- identifying the sentiment towards single words or phrases -- with the task of Targeted Sentiment Analysis (TSA). While this problem is attracting a plethora of works focusing on algorithmic aspects, they are typically evaluated on a selection from a handful of datasets, and little effort, if any, is dedicated to the expansion of the available evaluation data. In this work, we present YASO -- a new crowd-sourced TSA evaluation dataset, collected using a new annotation scheme for labeling targets and their sentiments. The dataset contains 2,215 English sentences from movie, business and product reviews, and 7,415 terms and their corresponding sentiments annotated within these sentences. Our analysis verifies the reliability of our annotations, and explores the characteristics of the collected data. Lastly, benchmark results using five contemporary TSA systems lay the foundation for future work, and show there is ample room for improvement on this challenging new dataset.
翻訳日:2021-04-18 20:43:19 公開日:2020-12-29
# クエリフリーリソースを用いた抽象的クエリ重視要約

Abstractive Query Focused Summarization with Query-Free Resources ( http://arxiv.org/abs/2012.14774v1 )

ライセンス: Link先を確認
Yumo Xu and Mirella Lapata(参考訳) 大規模なデータセットが利用可能になったことで、ニューラルネットワークのシーケンスからシーケンスへのモデルが開発され、前述したクエリに対応しない一般的なサマリー、すなわちサマリーを生成するようになった。 しかし、トレーニングデータがないため、クエリ集中要約(QFS)は主に抽出法を用いて研究されている。 本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。 本稿では,要約と問合せのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeと,回答エビデンス推定のための遠隔教師付きトレーニングタスクを提案する。 さらに、ジェネリックデータを生成に活用するために、トレーニングと推論の間に3つの属性が組み込まれ、最終要約の形状を制御する:証拠ランク、クエリガイダンス、要約長。 最小限の監視から学んだにもかかわらず、我々のシステムは、ドメインとクエリータイプをまたいだ遠隔監視設定において最先端の結果を達成する。

The availability of large-scale datasets has driven the development of neural sequence-to-sequence models to generate generic summaries, i.e., summaries which do not correspond to any pre-specified queries. However, due to the lack of training data, query focused summarization (QFS) has been studied mainly with extractive methods. In this work, we consider the problem of leveraging only generic summarization resources to build an abstractive QFS system. We propose Marge, a Masked ROUGE Regression framework composed of a novel unified representation for summaries and queries, and a distantly supervised training task for answer evidence estimation. To further utilize generic data for generation, three attributes are incorporated during training and inference to control the shape of the final summary: evidence rank, query guidance, and summary length. Despite learning from minimal supervision, our system achieves state-of-the-art results in the distantly supervised setting across domains and query types.
翻訳日:2021-04-18 20:43:01 公開日:2020-12-29
# ランダム植林:直接解釈可能な木のアンサンブル

Random Planted Forest: a directly interpretable tree ensemble ( http://arxiv.org/abs/2012.14563v1 )

ライセンス: Link先を確認
Munir Hiabu, Enno Mammen, Joseph T. Meyer(参考訳) 本稿では,古典的ランダム林の各木を同時に生育する植林木群に置き換えた回帰設定において,予測のための新しい解釈可能かつ木ベースアルゴリズムを提案する。 このアルゴリズムの動機は、各木がその分解内の関数に対応する関数 anova decomposition perspective から未知の回帰関数を推定することである。 したがって、植木は相互作用項の数に制限される。 ANOVA分解における近似の最大順序を指定または無制限にすることができる。 第一次近似が選択されると、結果は加法モデルとなる。 他の極端な場合、近似の順序が制限されない場合、結果として得られるモデルは回帰関数の形式に制限を与えない。 シミュレーション研究により,無作為植林手法の予測と可視化特性について検討した。 また,基盤となる付加物モデルの場合,ランダム植林の理想化版に対する理論を考案する。 加法の場合、理想化されたバージョンは、次数$n^{-2/5}$の対数係数漸近的に最適な1次元収束率に達する。

We introduce a novel interpretable and tree-based algorithm for prediction in a regression setting in which each tree in a classical random forest is replaced by a family of planted trees that grow simultaneously. The motivation for our algorithm is to estimate the unknown regression function from a functional ANOVA decomposition perspective, where each tree corresponds to a function within that decomposition. Therefore, planted trees are limited in the number of interaction terms. The maximal order of approximation in the ANOVA decomposition can be specified or left unlimited. If a first order approximation is chosen, the result is an additive model. In the other extreme case, if the order of approximation is not limited, the resulting model puts no restrictions on the form of the regression function. In a simulation study we find encouraging prediction and visualisation properties of our random planted forest method. We also develop theory for an idealised version of random planted forests in the case of an underlying additive model. We show that in the additive case, the idealised version achieves up to a logarithmic factor asymptotically optimal one-dimensional convergence rates of order $n^{-2/5}$.
翻訳日:2021-04-18 20:42:25 公開日:2020-12-29
# シーングラフ間の類似性学習による画像間検索

Image-to-Image Retrieval by Learning Similarity between Scene Graphs ( http://arxiv.org/abs/2012.14700v1 )

ライセンス: Link先を確認
Sangwoong Yoon, Woo Young Kang, Sungwook Jeon, SeongEun Lee, Changjin Han, Jonghun Park, Eun-Sol Kim(参考訳) シーングラフは、構造的かつ象徴的な方法で画像の高レベルコンテンツをコンパクトに要約するので、2つの画像のシーングラフ間の類似性はその内容の関連性を反映している。 そこで本研究では,グラフニューラルネットワークによるシーングラフ類似度を用いた画像画像検索手法を提案する。 本手法では,学習済み文類似度モデルを用いて,人間の注釈付キャプションから計算したプロキシ画像関連尺度を予測するために,グラフニューラルネットワークを訓練する。 人間のアノテータによって測定された画像関連性のためのデータセットを収集し,公開し,検索アルゴリズムを評価する。 収集したデータセットから,本手法は他の競争ベースラインに比べて画像類似性に対する人間の認識とよく一致していることが示された。

As a scene graph compactly summarizes the high-level content of an image in a structured and symbolic manner, the similarity between scene graphs of two images reflects the relevance of their contents. Based on this idea, we propose a novel approach for image-to-image retrieval using scene graph similarity measured by graph neural networks. In our approach, graph neural networks are trained to predict the proxy image relevance measure, computed from human-annotated captions using a pre-trained sentence similarity model. We collect and publish the dataset for image relevance measured by human annotators to evaluate retrieval algorithms. The collected dataset shows that our method agrees well with the human perception of image similarity than other competitive baselines.
翻訳日:2021-04-18 20:42:10 公開日:2020-12-29
# 低ランクテンソルの推論 - デバイアスは不要

Inference for Low-rank Tensors -- No Need to Debias ( http://arxiv.org/abs/2012.14844v1 )

ライセンス: Link先を確認
Dong Xia and Anru R. Zhang and Yuchen Zhou(参考訳) 本稿では,いくつかの低ランクテンソルモデルの統計的推論について考察する。 具体的には、タッカー低ランクテンソルPCAまたは回帰モデルにおいて、ある程度の誤差率を達成する推定値が与えられた場合、更新された推定値の漸近分布に基づいてパラメータテンソルの特異部分空間に対するデータ駆動信頼領域を開発する。 漸近分布は、信号対雑音比(PCAモデル)またはサンプルサイズ(回帰モデル)のいくつかの必須条件の下で確立される。 パラメータテンソルがさらに直交的に分解可能であれば、各特異ベクトルに対する推論法と理論を開発する。 ランク1テンソルPCAモデルでは、主成分の一般線形形式に対する漸近分布とパラメータテンソルの各エントリに対する信頼区間を確立する。 最後に,理論的な発見を補うために数値シミュレーションを行う。 これらのモデルすべてにおいて、既存の作業における行列/ベクトルの設定と異なり、推定の漸近分布の確立や低ランクテンソルの統計的推論にはデバイアスは不要である。 実際、低ランクテンソル推定のための広く観測された統計計算-gapのため、通常は計算可能な推定が達成可能であることを保証するために、統計(または情報理論)の限界よりも強い条件を必要とする。 驚くべきことに、このような条件 `incidentally" はデバイアスなしで低ランクテンソル推論を可能にする。

In this paper, we consider the statistical inference for several low-rank tensor models. Specifically, in the Tucker low-rank tensor PCA or regression model, provided with any estimates achieving some attainable error rate, we develop the data-driven confidence regions for the singular subspace of the parameter tensor based on the asymptotic distribution of an updated estimate by two-iteration alternating minimization. The asymptotic distributions are established under some essential conditions on the signal-to-noise ratio (in PCA model) or sample size (in regression model). If the parameter tensor is further orthogonally decomposable, we develop the methods and theory for inference on each individual singular vector. For the rank-one tensor PCA model, we establish the asymptotic distribution for general linear forms of principal components and confidence interval for each entry of the parameter tensor. Finally, numerical simulations are presented to corroborate our theoretical discoveries. In all these models, we observe that different from many matrix/vector settings in existing work, debiasing is not required to establish the asymptotic distribution of estimates or to make statistical inference on low-rank tensors. In fact, due to the widely observed statistical-computat ional-gap for low-rank tensor estimation, one usually requires stronger conditions than the statistical (or information-theoreti c) limit to ensure the computationally feasible estimation is achievable. Surprisingly, such conditions ``incidentally" render a feasible low-rank tensor inference without debiasing.
翻訳日:2021-04-18 20:41:58 公開日:2020-12-29
# 適応型動的プログラミングツールボックス

The Adaptive Dynamic Programming Toolbox ( http://arxiv.org/abs/2012.14654v1 )

ライセンス: Link先を確認
Xiaowei Xing, Dong Eui Chang(参考訳) 本稿では,連続時間非線形システムの最適制御問題を解く適応動的プログラミングツールボックス(ADPT)を開発した。 適応型動的プログラミング技術に基づいて、ADPTはモデルベースの作業モードにおけるシステムダイナミクスからの最適フィードバック制御や、システムモデルの知識を必要とせずにモデルフリー作業モードにおけるシステムの軌道の測定から計算する。 複数のオプションが用意されており、ADPTは様々なカスタマイズされた状況に対応できる。 最適制御のための他の一般的なソフトウェアツールボックスと比較して、ADPTは計算精度と速度を楽しみ、衛星姿勢制御問題への応用を図示している。

The paper develops the Adaptive Dynamic Programming Toolbox (ADPT), which solves optimal control problems for continuous-time nonlinear systems. Based on the adaptive dynamic programming technique, the ADPT computes optimal feedback controls from the system dynamics in the model-based working mode, or from measurements of trajectories of the system in the model-free working mode without the requirement of knowledge of the system model. Multiple options are provided such that the ADPT can accommodate various customized circumstances. Compared to other popular software toolboxes for optimal control, the ADPT enjoys its computational precision and speed, which is illustrated with its applications to a satellite attitude control problem.
翻訳日:2021-04-18 20:41:34 公開日:2020-12-29
# シーケンスタギングとしてのロバスト対話音声書き換え

Robust Dialogue Utterance Rewriting as Sequence Tagging ( http://arxiv.org/abs/2012.14535v1 )

ライセンス: Link先を確認
Jie Hao, Linfeng Song, Liwei Wang, Kun Xu, Zhaopeng Tu and Dong Yu(参考訳) 対話書き換えの課題は,対話コンテキストから欠落した内容をコピーし,最新の対話発話を再構築することにある。 これまで、このタスクの既存のモデルは堅牢性の問題、すなわち、異なるドメインでテストする場合のパフォーマンスは劇的に低下します。 この頑健性の問題に対処するために,新たなシーケンスタグベースモデルを提案することで,検索空間を大幅に削減するが,このタスクのコアはいまだに十分にカバーされている。 テキスト生成のためのほとんどのタグ付けモデルの一般的な問題として、モデルの出力は流動性に欠ける可能性がある。 この問題を軽減するため,REINFORCE フレームワークを用いてBLEU や GPT-2 から損失信号を注入する。 実験は、ドメイン転送に関する現在の最先端システムよりも、我々のモデルの大幅な改善を示しています。

The task of dialogue rewriting aims to reconstruct the latest dialogue utterance by copying the missing content from the dialogue context. Until now, the existing models for this task suffer from the robustness issue, i.e., performances drop dramatically when testing on a different domain. We address this robustness issue by proposing a novel sequence-tagging-bas ed model so that the search space is significantly reduced, yet the core of this task is still well covered. As a common issue of most tagging models for text generation, the model's outputs may lack fluency. To alleviate this issue, we inject the loss signal from BLEU or GPT-2 under a REINFORCE framework. Experiments show huge improvements of our model over the current state-of-the-art systems on domain transfer.
翻訳日:2021-04-18 20:40:32 公開日:2020-12-29
# ヒューマンスコアは要約評価の最良の基準か?

Is human scoring the best criteria for summary evaluation? ( http://arxiv.org/abs/2012.14602v1 )

ライセンス: Link先を確認
Oleg Vasilyev and John Bohannon(参考訳) 通常、要約品質尺度は人間の注釈による品質スコアと比較される。 人間のスコアと高い相関は、より良い指標の公正な指標であると考えられている。 この見解に疑問を呈する観測について論じる。 我々は代替指標の可能性を示す。 尺度の族として、人間のスコアとの相関に頼らない最良の尺度を選択する基準を検討する。 BLANCファミリーの測度に対する観察は、この基準が全く異なる要約のスタイルで普遍的であることを示唆している。

Normally, summary quality measures are compared with quality scores produced by human annotators. A higher correlation with human scores is considered to be a fair indicator of a better measure. We discuss observations that cast doubt on this view. We attempt to show a possibility of an alternative indicator. Given a family of measures, we explore a criterion of selecting the best measure not relying on correlations with human scores. Our observations for the BLANC family of measures suggest that the criterion is universal across very different styles of summaries.
翻訳日:2021-04-18 20:39:59 公開日:2020-12-29
# SIT3: 構造誘起変換器によるコード要約

SIT3: Code Summarization with Structure-Induced Transformer ( http://arxiv.org/abs/2012.14710v1 )

ライセンス: Link先を確認
Hongqiu Wu and Hai Zhao and Min Zhang(参考訳) コード要約(CS)は、ソースコードに対する意味のあるアノテーションを自動的に生成することを目的としており、プログラマ指向として知られている。 以前の研究は構造ベースのトラバーサル(sbt)やtree-lstmやgnnのような非系列モデルを適用して構造プログラムの意味学を学ぶことを試みた。 1) SBT を Transformer に組み込むのが効果的でないこと,2) グローバル情報を GNN で取得すること,3) 構造的意味論を Transformer でのみキャプチャすることを過小評価すること,などである。 本稿では, 逐次入力を高効率な構造モデルで符号化する, 構造誘起セルフアテンションに基づく新しいモデルを提案する。 広範な実験により,本モデルが人気のあるベンチマークで新たな最先端結果を得ることが示された。 私たちの知る限りでは、transformerを使って高効率で余分なパラメータのない構造情報をモデル化するコード要約に関する最初の作業です。 また、事前処理の方法についてのチュートリアルも提供します。

Code summarization (CS) is becoming a promising area in recent natural language understanding, which aims to generate sensible annotations automatically for source code and is known as programmer oriented. Previous works attempt to apply structure-based traversal (SBT) or non-sequential models like Tree-LSTM and GNN to learn structural program semantics. They both meet the following drawbacks: 1) it is shown ineffective to incorporate SBT into Transformer; 2) it is limited to capture global information through GNN; 3) it is underestimated to capture structural semantics only using Transformer. In this paper, we propose a novel model based on structure-induced self-attention, which encodes sequential inputs with highly-effective structure modeling. Extensive experiments show that our newly-proposed model achieves new state-of-the-art results on popular benchmarks. To our best knowledge, it is the first work on code summarization that uses Transformer to model structural information with high efficiency and no extra parameters. We also provide a tutorial on how we pre-process.
翻訳日:2021-04-18 20:39:15 公開日:2020-12-29
# LayoutLMv2:ビジュアルリッチ文書理解のためのマルチモーダル事前トレーニング

LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding ( http://arxiv.org/abs/2012.14740v1 )

ライセンス: Link先を確認
Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou(参考訳) テキストとレイアウトの事前トレーニングは、効果的なモデルアーキテクチャと大規模なラベルなしスキャン/デジタルネイティブドキュメントの利点により、視覚的にリッチな文書理解タスクで効果的であることが証明されている。 本稿では,新しいモデルアーキテクチャと事前学習タスクを活用するマルチモーダルフレームワークにおいて,テキスト,レイアウト,イメージを事前学習することで,textbf{LayoutLMv2}を提案する。 特に、LayoutLMv2は、既存のマスク付き視覚言語モデリングタスクだけでなく、新しいテキストイメージアライメントとテキストイメージマッチングタスクをトレーニング前の段階で使用しています。 また、トランスフォーマーアーキテクチャに空間認識型セルフアテンション機構を統合することで、異なるテキストブロック間の相対的な位置関係を完全に理解することができる。 実験の結果,LayoutLMv2 は,FUNSD (0.7895 -> 0.8420), CORD (0.9493 -> 0.9601), SROIE (0.9524 -> 0.9781), Kleister-NDA (0.834 -> 0.852), RVL-CDIP (0.9443 -> 0.9564), DocVQA (0.7295 -> 0.8672) など,さまざまな下流視覚に富む文書理解タスクにおいて,強力なベースラインを達成し,新たな最先端の文書理解タスクを実現することがわかった。

Pre-training of text and layout has proved effective in a variety of visually-rich document understanding tasks due to its effective model architecture and the advantage of large-scale unlabeled scanned/digital-born documents. In this paper, we present \textbf{LayoutLMv2} by pre-training text, layout and image in a multi-modal framework, where new model architectures and pre-training tasks are leveraged. Specifically, LayoutLMv2 not only uses the existing masked visual-language modeling task but also the new text-image alignment and text-image matching tasks in the pre-training stage, where cross-modality interaction is better learned. Meanwhile, it also integrates a spatial-aware self-attention mechanism into the Transformer architecture, so that the model can fully understand the relative positional relationship among different text blocks. Experiment results show that LayoutLMv2 outperforms strong baselines and achieves new state-of-the-art results on a wide variety of downstream visually-rich document understanding tasks, including FUNSD (0.7895 -> 0.8420), CORD (0.9493 -> 0.9601), SROIE (0.9524 -> 0.9781), Kleister-NDA (0.834 -> 0.852), RVL-CDIP (0.9443 -> 0.9564), and DocVQA (0.7295 -> 0.8672).
翻訳日:2021-04-18 20:38:56 公開日:2020-12-29
# 文節を用いた中国語テキストの逆例生成

Generating Adversarial Examples in Chinese Texts Using Sentence-Pieces ( http://arxiv.org/abs/2012.14769v1 )

ライセンス: Link先を確認
Linyang Li, Yunfan Shao, Demin Song, Xipeng Qiu, Xuanjing Huang(参考訳) テキストにおける敵対的攻撃は、多くの場合、成功した攻撃を達成するために、元のテキストにおける単語や文字を置き換える置換ベースの方法である。 最近の手法では、代用生成器として事前学習された言語モデルを使用している。 中国語ではそのような方法は適用できないが、中国語の単語はまず区切りを必要とする。 本稿では,中国語で副詞を作るために,文節を用いた代用詞生成器として事前学習言語モデルを提案する。 生成した対数例の置換は文字や単語ではなく、中国の読者にとって自然な「textit{'pieces'}」である。 実験の結果, 生成した逆行性サンプルは, 強いターゲットモデルに誤解を与え, 流動的かつ意味的に保存できることがわかった。

Adversarial attacks in texts are mostly substitution-based methods that replace words or characters in the original texts to achieve success attacks. Recent methods use pre-trained language models as the substitutes generator. While in Chinese, such methods are not applicable since words in Chinese require segmentations first. In this paper, we propose a pre-train language model as the substitutes generator using sentence-pieces to craft adversarial examples in Chinese. The substitutions in the generated adversarial examples are not characters or words but \textit{'pieces'}, which are more natural to Chinese readers. Experiments results show that the generated adversarial samples can mislead strong target models and remain fluent and semantically preserved.
翻訳日:2021-04-18 20:38:20 公開日:2020-12-29
# 話者モデルを用いた対話における感情認識のための階層変換器

A Hierarchical Transformer with Speaker Modeling for Emotion Recognition in Conversation ( http://arxiv.org/abs/2012.14781v1 )

ライセンス: Link先を確認
Jiangnan Li, Zheng Lin, Peng Fu, Qingyi Si, Weiping Wang(参考訳) 会話における感情認識(ERC)は、従来のテキスト感情認識よりも難しい課題である。 これは、テキストの意味情報だけでなく、話者の影響も考慮すべき、パーソナライズされた対話的な感情認識タスクと見なすことができる。 現在の方法は、各話者間の関係を構築することによって話者の相互作用をモデル化する。 しかし、このきめ細かい複雑なモデリングは計算コストが高く、拡張が難しく、局所的な文脈しか考慮できない。 この問題に対処するため、ターゲット話者に特有の話者を特定することなく、話者内および話者間依存関係という、複雑なモデリングをバイナリバージョンに単純化する。 長距離依存解消能力に優れたトランスフォーマにおける話者の簡易な対話モデルを実現するため,3種類のマスクを設計,それぞれ3つの独立したトランスフォーマブロックで活用した。 設計されたマスクはそれぞれ、従来のコンテキストモデリング、スピーカー内依存性、スピーカー間依存性をモデル化する。 さらに,トランスブロックによって抽出された異なる話者認識情報が予測に多種多様に寄与するので,注意機構を利用して自動重み付けを行う。 2つのERCデータセットの実験は、我々のモデルがより良いパフォーマンスを達成するのに有効であることを示している。

Emotion Recognition in Conversation (ERC) is a more challenging task than conventional text emotion recognition. It can be regarded as a personalized and interactive emotion recognition task, which is supposed to consider not only the semantic information of text but also the influences from speakers. The current method models speakers' interactions by building a relation between every two speakers. However, this fine-grained but complicated modeling is computationally expensive, hard to extend, and can only consider local context. To address this problem, we simplify the complicated modeling to a binary version: Intra-Speaker and Inter-Speaker dependencies, without identifying every unique speaker for the targeted speaker. To better achieve the simplified interaction modeling of speakers in Transformer, which shows excellent ability to settle long-distance dependency, we design three types of masks and respectively utilize them in three independent Transformer blocks. The designed masks respectively model the conventional context modeling, Intra-Speaker dependency, and Inter-Speaker dependency. Furthermore, different speaker-aware information extracted by Transformer blocks diversely contributes to the prediction, and therefore we utilize the attention mechanism to automatically weight them. Experiments on two ERC datasets indicate that our model is efficacious to achieve better performance.
翻訳日:2021-04-18 20:38:08 公開日:2020-12-29
# ハードラベルブラックボックス設定における自然言語攻撃の生成

Generating Natural Language Attacks in a Hard Label Black Box Setting ( http://arxiv.org/abs/2012.14956v1 )

ライセンス: Link先を確認
Rishabh Maheshwary, Saket Maheshwary and Vikram Pudi(参考訳) ハードラベルブラックボックス設定において,自然言語処理モデルを攻撃するための重要かつ困難な課題について検討する。 そこで本研究では,テキスト分類と包摂作業において,高品質な敵の例を提示する意思決定型攻撃戦略を提案する。 提案手法は,ターゲットモデルによって予測される最上位ラベルのみを観測することにより,有理かつ意味的に類似した敵例を作成するために,人口ベース最適化アルゴリズムを利用する。 各イテレーションにおいて、最適化手順は、原文と逆文の全体的な意味的類似性を最大化する単語置換を可能にする。 さらに,本手法は代替モデルや訓練データの利用には依存していない。 7つのベンチマークデータセットにまたがる5つの最先端ターゲットモデルに関する広範な実験とアブレーション実験を通じて,提案手法の有効性を実証する。 先行文献で提示された攻撃と比較して,単語摂動率の低さで高い成功率を,非常に制限された設定で達成することができる。

We study an important and challenging task of attacking natural language processing models in a hard label black box setting. We propose a decision-based attack strategy that crafts high quality adversarial examples on text classification and entailment tasks. Our proposed attack strategy leverages population-based optimization algorithm to craft plausible and semantically similar adversarial examples by observing only the top label predicted by the target model. At each iteration, the optimization procedure allow word replacements that maximizes the overall semantic similarity between the original and the adversarial text. Further, our approach does not rely on using substitute models or any kind of training data. We demonstrate the efficacy of our proposed approach through extensive experimentation and ablation studies on five state-of-the-art target models across seven benchmark datasets. In comparison to attacks proposed in prior literature, we are able to achieve a higher success rate with lower word perturbation percentage that too in a highly restricted setting.
翻訳日:2021-04-18 20:37:51 公開日:2020-12-29
# HyperTracプロジェクト:ハイパーグラフ分解の最近の進歩と今後の研究方向

The HyperTrac Project: Recent Progress and Future Research Directions on Hypergraph Decompositions ( http://arxiv.org/abs/2012.14762v1 )

ライセンス: Link先を確認
Georg Gottlob, Matthias Lanzinger, Davide Mario Longo, Cem Okulmus and Reinhard Pichler(参考訳) 制約満足度問題(CSP)は、人工知能とオペレーション研究における多くの応用において中心的な役割を果たす。 一般に、CSPの解法はNP完全である。 CSPの構造はハイパーグラフによって最もよく説明される。 そのため, CSPの抽出可能な断片を同定するために, 種々のハイパーグラフ分解法が文献で提案されている。 しかし、具体的な超グラフ分解の計算は、それ自体が難しい課題である。 本稿では,ハイパーグラフ分解研究の最近の進歩について報告し,今後の研究の方向性について概説する。

Constraint Satisfaction Problems (CSPs) play a central role in many applications in Artificial Intelligence and Operations Research. In general, solving CSPs is NP-complete. The structure of CSPs is best described by hypergraphs. Therefore, various forms of hypergraph decompositions have been proposed in the literature to identify tractable fragments of CSPs. However, also the computation of a concrete hypergraph decomposition is a challenging task in itself. In this paper, we report on recent progress in the study of hypergraph decompositions and we outline several directions for future research.
翻訳日:2021-04-18 20:37:35 公開日:2020-12-29
# ロバストモデルフィッティングのためのメッセージ伝搬による階層表現

Hierarchical Representation via Message Propagation for Robust Model Fitting ( http://arxiv.org/abs/2012.14597v1 )

ライセンス: Link先を確認
Shuyuan Lin, Xing Wang, Guobao Xiao, Yan Yan, Hanzi Wang(参考訳) 本稿では,ロバストなモデルフィッティングのためのメッセージ伝搬(hrmp)方式による階層表現を提案する。ロバストなモデルフィッティングのために,複数のモデルインスタンスのパラメータを,外れ値で破損したデータから推定するために,コンセンサス解析と選好解析の両方の利点を同時に活用する。 各データポイントまたは各モデル仮説の情報を独立して分析するのではなく、コンセンサス情報と選好情報を階層表現として定式化し、グロス外れ値に対する感度を緩和する。 具体的には,まずモデル仮説層とデータ点層からなる階層表現を構築する。 モデル仮説層は、重要でないモデル仮説を取り除くために使われ、データポイント層は、グロスアウトリアーを除去するために使用される。 次に,階層的表現に基づき,有効な階層的メッセージ伝達(hmp)アルゴリズムと改良された親和性伝達(iap)アルゴリズムを提案する。 提案するhrmpは,複数のモデルインスタンスの数とパラメータを正確に推定するだけでなく,多数の異常値で汚染されたマルチストラクショナルデータを処理できる。 合成データと実画像の両方による実験結果から,提案したHRMPは適合精度と速度の点で,いくつかの最先端モデル適合法よりも優れていた。

In this paper, we propose a novel hierarchical representation via message propagation (HRMP) method for robust model fitting, which simultaneously takes advantages of both the consensus analysis and the preference analysis to estimate the parameters of multiple model instances from data corrupted by outliers, for robust model fitting. Instead of analyzing the information of each data point or each model hypothesis independently, we formulate the consensus information and the preference information as a hierarchical representation to alleviate the sensitivity to gross outliers. Specifically, we firstly construct a hierarchical representation, which consists of a model hypothesis layer and a data point layer. The model hypothesis layer is used to remove insignificant model hypotheses and the data point layer is used to remove gross outliers. Then, based on the hierarchical representation, we propose an effective hierarchical message propagation (HMP) algorithm and an improved affinity propagation (IAP) algorithm to prune insignificant vertices and cluster the remaining data points, respectively. The proposed HRMP can not only accurately estimate the number and parameters of multiple model instances, but also handle multi-structural data contaminated with a large number of outliers. Experimental results on both synthetic data and real images show that the proposed HRMP significantly outperforms several state-of-the-art model fitting methods in terms of fitting accuracy and speed.
翻訳日:2021-04-18 20:37:00 公開日:2020-12-29
# TrustMAE: 信頼領域を持つメモリ拡張オートエンコーダを用いた耐雑音性欠陥分類フレームワーク

TrustMAE: A Noise-Resilient Defect Classification Framework using Memory-Augmented Auto-Encoders with Trust Regions ( http://arxiv.org/abs/2012.14629v1 )

ライセンス: Link先を確認
Daniel Stanley Tan, Yi-Chun Chen, Trista Pei-Chun Chen, Wei-Chao Chen(参考訳) 本稿では,製品欠陥分類の問題に対処するために,trustmae というフレームワークを提案する。 収集が難しくラベル付けに手間がかかる欠陥画像に頼る代わりに、私たちのフレームワークはラベルなしの画像でデータセットを受け付けることができます。 さらに,多くの異常検出手法とは異なり,学習データセットにおける雑音や欠陥画像に対して頑健な手法である。 提案手法では,自動エンコーダの過大な一般化を回避するため,スパースメモリアドレッシングスキームを備えたメモリ提供型オートエンコーダと,ノイズをメモリスロットから遠ざけるための新たな信頼領域メモリ更新スキームを用いる。 その結果、欠陥のない画像を再構成し、知覚距離ネットワークを用いて欠陥領域を識別できるフレームワークが得られた。 様々な最先端のベースラインと比較した場合,本手法はノイズフリーMVTecデータセットの下で競合的に動作する。 さらに重要なのは、ノイズレベルが40%まで向上する一方で、他のベースラインを著しく上回ることだ。

In this paper, we propose a framework called TrustMAE to address the problem of product defect classification. Instead of relying on defective images that are difficult to collect and laborious to label, our framework can accept datasets with unlabeled images. Moreover, unlike most anomaly detection methods, our approach is robust against noises, or defective images, in the training dataset. Our framework uses a memory-augmented auto-encoder with a sparse memory addressing scheme to avoid over-generalizing the auto-encoder, and a novel trust-region memory updating scheme to keep the noises away from the memory slots. The result is a framework that can reconstruct defect-free images and identify the defective regions using a perceptual distance network. When compared against various state-of-the-art baselines, our approach performs competitively under noise-free MVTec datasets. More importantly, it remains effective at a noise level up to 40% while significantly outperforming other baselines.
翻訳日:2021-04-18 20:36:36 公開日:2020-12-29
# プロトタイプ記憶を用いた単眼3次元ヒト再建における尾の追尾

Chasing the Tail in Monocular 3D Human Reconstruction with Prototype Memory ( http://arxiv.org/abs/2012.14739v1 )

ライセンス: Link先を確認
Yu Rong, Ziwei Liu, Chen Change Loy(参考訳) 深層ニューラルネットワークは、単像3次元人間の再構築において大きな進歩を遂げた。 しかし、既存の手法は稀なポーズを予測できない。 理由は、現在のモデルの多くが1つのプロトタイプに基づいて回帰を行うためであり、これはまれなポーズとは程遠い一般的なポーズに似ている。 本研究では,1)この学習障害を特定し解析し,2)稀なポーズの予測性能を効果的に向上するメモリ拡張ネットワークPM-Netを提案する。 私たちのフレームワークのコアは、共通のポーズまたはまれなポーズのローカル分布をキャプチャする3d人間のプロトタイプのセットを学習し、保存するメモリモジュールです。 この定式化によって回帰はより優れた初期化から始まり、収束が比較的容易になる。 いくつかの広く使われているデータセットに対する大規模な実験は、他の最先端の手法と比較して提案されたフレームワークの有効性を示している。 特に,本手法はレアポーズにおけるモデルの性能を大幅に向上させ,他のサンプルで同等の結果を得る。

Deep neural networks have achieved great progress in single-image 3D human reconstruction. However, existing methods still fall short in predicting rare poses. The reason is that most of the current models perform regression based on a single human prototype, which is similar to common poses while far from the rare poses. In this work, we 1) identify and analyze this learning obstacle and 2) propose a prototype memory-augmented network, PM-Net, that effectively improves performances of predicting rare poses. The core of our framework is a memory module that learns and stores a set of 3D human prototypes capturing local distributions for either common poses or rare poses. With this formulation, the regression starts from a better initialization, which is relatively easier to converge. Extensive experiments on several widely employed datasets demonstrate the proposed framework's effectiveness compared to other state-of-the-art methods. Notably, our approach significantly improves the models' performances on rare poses while generating comparable results on other samples.
翻訳日:2021-04-18 20:36:20 公開日:2020-12-29
# 視覚的外観のダイナミックマップの学習

Learning a Dynamic Map of Visual Appearance ( http://arxiv.org/abs/2012.14885v1 )

ライセンス: Link先を確認
Tawfiq Salem, Scott Workman, Nathan Jacobs(参考訳) 世界の外観は、場所によって大きく変化し、時間・時間・月によっても劇的に変化する。 毎日何十億もの画像がこの複雑な関係を捉えており、その多くが正確な時間と位置のメタデータに関連付けられている。 本稿では,これらの画像を用いて視覚的特徴のグローバルな動的マップを構築することを提案する。 そのような写像は、任意の地理的位置と時間における期待される外観のきめ細かい理解を可能にする。 提案手法は,多種多様な視覚特性をマッピング可能な一般的なフレームワークに,高密度なオーバーヘッド画像と位置情報と時間メタデータを統合する。 このアプローチの重要な特徴は、手動のデータアノテーションを必要としないことです。 本稿では、画像駆動マッピング、画像ジオローカライゼーション、メタデータ検証など、このアプローチが様々なアプリケーションをどのようにサポートするかを示す。

The appearance of the world varies dramatically not only from place to place but also from hour to hour and month to month. Every day billions of images capture this complex relationship, many of which are associated with precise time and location metadata. We propose to use these images to construct a global-scale, dynamic map of visual appearance attributes. Such a map enables fine-grained understanding of the expected appearance at any geographic location and time. Our approach integrates dense overhead imagery with location and time metadata into a general framework capable of mapping a wide variety of visual attributes. A key feature of our approach is that it requires no manual data annotation. We demonstrate how this approach can support various applications, including image-driven mapping, image geolocalization, and metadata verification.
翻訳日:2021-04-18 20:36:05 公開日:2020-12-29
# 2Dか2Dか? 効率的な映像認識のための適応型3次元畳み込み選択

2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition ( http://arxiv.org/abs/2012.14950v1 )

ライセンス: Link先を確認
Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis(参考訳) 3D畳み込みネットワークはビデオ認識に広く使われている。 標準ベンチマークで優れた認識性能を達成する一方で、3次元畳み込みを伴う一連のフレームで動作し、計算的に要求される。 Ada3Dは3Dネットワークで使用されるフレームと畳み込み層を決定するために、インスタンス固有の3D利用ポリシーを学習する条件計算フレームワークである。 これらのポリシーは、各入力ビデオクリップに条件付き2ヘッド軽量選択ネットワークによって導出される。 そして、選択ネットワークで選択されたフレームと畳み込みのみを3Dモデルで使用して予測を生成する。 選択ネットワークはポリシー勾配法で最適化され、限られた計算で正しい予測を行うことを促す報酬を最大化する。 3つのビデオ認識ベンチマークで実験を行い,本手法が最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%~50%削減できることを実証した。 また、学習したポリシーは転送可能であり、Ada3Dは異なるバックボーンや現代的なクリップ選択アプローチと互換性があることを示す。 定性的分析により,3次元の畳み込みとフレームを「静的」な入力に割り当てる手法は少ないが,動き集約的なクリップに多くを用いる。

3D convolutional networks are prevalent for video recognition. While achieving excellent recognition performance on standard benchmarks, they operate on a sequence of frames with 3D convolutions and thus are computationally demanding. Exploiting large variations among different videos, we introduce Ada3D, a conditional computation framework that learns instance-specific 3D usage policies to determine frames and convolution layers to be used in a 3D network. These policies are derived with a two-head lightweight selection network conditioned on each input video clip. Then, only frames and convolutions that are selected by the selection network are used in the 3D model to generate predictions. The selection network is optimized with policy gradient methods to maximize a reward that encourages making correct predictions with limited computation. We conduct experiments on three video recognition benchmarks and demonstrate that our method achieves similar accuracies to state-of-the-art 3D models while requiring 20%-50% less computation across different datasets. We also show that learned policies are transferable and Ada3D is compatible to different backbones and modern clip selection approaches. Our qualitative analysis indicates that our method allocates fewer 3D convolutions and frames for "static" inputs, yet uses more for motion-intensive clips.
翻訳日:2021-04-18 20:35:38 公開日:2020-12-29
# 進化的多目的最適化を用いた単眼深度推定に対するブラックボックス逆攻撃

Black-box Adversarial Attacks on Monocular Depth Estimation Using Evolutionary Multi-objective Optimization ( http://arxiv.org/abs/2101.10452v1 )

ライセンス: Link先を確認
Renya Daimo (1), Satoshi Ono (1), Takahiro Suzuki (1) ((1) Department of Information Science and Biomedical Engineering, Graduate School of Science and Engineering, Kagoshima University)(参考訳) 本稿では,単眼深度推定のためのディープニューラルネットワーク(DNN)に対する対角攻撃法,すなわち,画像から深度を推定する手法を提案する。 単一画像深度推定は近年,DNNの開発により大幅に改善されている。 しかし、画像分類のためのDNNの脆弱性は、敵対的な攻撃によって明らかにされており、単眼深度推定のためのDNNには、同様の脆弱性が含まれる可能性がある。 したがって、単眼深度推定のためのDNNの脆弱性の研究は急速に広まっているが、その多くは、DNNの内部情報が利用可能なホワイトボックス条件や、代替のDNNモデルとトレーニングデータセットを必要とする転送可能性に基づくブラックボックス攻撃を前提としている。 本稿では,進化的多目的最適化を用いて,出力深度マップのみ利用可能なブラックボックス条件下でのdnnの解析を行う。 さらに,提案手法では,対象のDNNに類似したアーキテクチャを持つ代替DNNや,対象モデルのトレーニングに使用するトレーニングデータに関する知識を必要としない。 実験の結果,提案手法は屋内シーンと屋外シーンでそれぞれ訓練した2つのDNNベースの手法を攻撃することに成功した。

This paper proposes an adversarial attack method to deep neural networks (DNNs) for monocular depth estimation, i.e., estimating the depth from a single image. Single image depth estimation has improved drastically in recent years due to the development of DNNs. However, vulnerabilities of DNNs for image classification have been revealed by adversarial attacks, and DNNs for monocular depth estimation could contain similar vulnerabilities. Therefore, research on vulnerabilities of DNNs for monocular depth estimation has spread rapidly, but many of them assume white-box conditions where inside information of DNNs is available, or are transferability-base d black-box attacks that require a substitute DNN model and a training dataset. Utilizing Evolutionary Multi-objective Optimization, the proposed method in this paper analyzes DNNs under the black-box condition where only output depth maps are available. In addition, the proposed method does not require a substitute DNN that has a similar architecture to the target DNN nor any knowledge about training data used to train the target model. Experimental results showed that the proposed method succeeded in attacking two DNN-based methods that were trained with indoor and outdoor scenes respectively.
翻訳日:2021-04-18 20:35:19 公開日:2020-12-29
# もっと社交的になれるか? タスク指向会話エージェントへのポリテネスと肯定性注入

Can You be More Social? Injecting Politeness and Positivity into Task-Oriented Conversational Agents ( http://arxiv.org/abs/2012.14653v1 )

ライセンス: Link先を確認
Yi-Chia Wang, Alexandros Papangelis, Runze Wang, Zhaleh Feizollahi, Gokhan Tur, Robert Kraut(参考訳) 目標指向の会話エージェントが日常生活で普及しています。 これらのシステムがユーザをエンゲージし、目標を達成するためには、適切な社会的行動を示すとともに、ユーザをタスクを通じて導く情報的応答を提供する必要がある。 本研究の第1のコンポーネントは,ユーザとカスタマサービスにおけるヒューマンエージェント間の会話を理解するために,統計的モデリング手法を適用している。 分析によると、人間のエージェントが使用する社会言語は、より大きなユーザの応答性とタスク完了と関連している。 研究の第2の構成要素は、コンテンツを保存しながら、エージェントの応答に社会言語を注入できる会話エージェントモデルの構築である。 このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。 人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。

Goal-oriented conversational agents are becoming prevalent in our daily lives. For these systems to engage users and achieve their goals, they need to exhibit appropriate social behavior as well as provide informative replies that guide users through tasks. The first component of the research in this paper applies statistical modeling techniques to understand conversations between users and human agents for customer service. Analyses show that social language used by human agents is associated with greater users' responsiveness and task completion. The second component of the research is the construction of a conversational agent model capable of injecting social language into an agent's responses while still preserving content. The model uses a sequence-to-sequence deep learning architecture, extended with a social language understanding element. Evaluation in terms of content preservation and social language level using both human judgment and automatic linguistic measures shows that the model can generate responses that enable agents to address users' issues in a more socially appropriate way.
翻訳日:2021-04-18 20:34:59 公開日:2020-12-29
# Contrastive Synthetic Supervision を用いたメタ適応型ニューラルランクリング

Meta Adaptive Neural Ranking with Contrastive Synthetic Supervision ( http://arxiv.org/abs/2012.14862v1 )

ライセンス: Link先を確認
Si Sun, Yingzhuo Qian, Zhenghao Liu, Chenyan Xiong, Kaitao Zhang, Jie Bao, Zhiyuan Liu, Paul Bennett(参考訳) Neural Information Retrieval (Neu-IR)モデルは、大規模な高品質なレバレッジラベルによるエンドツーエンドトレーニングの有効性を示し、成長している。 それにもかかわらず、そのような量の関連ラベルは、例えばバイオメディカルサーチにおいて、多くのランキングシナリオで高級で利用できない。 本稿では, ニューラルランサーのメタ適応訓練により, 数ショット探索シナリオにおけるNeu-IRの改良を行った。 まず、コントラストクエリ生成(ContrastQG)を利用して、ドメイン内の弱関連ラベルとしてより情報性の高いクエリを合成し、メタ適応学習でランク付けし(MetaLTR)、ターゲットの少数ショットドメインにニューラルネットワークローダをより一般化する。 Web、ニュース、バイオメディカルの3つの異なる検索領域の実験は、我々の弱い監視フレームワークを用いて、ニューラルネットワークローダのわずかな精度を大幅に改善したことを示している。 この論文のコードはオープンソース化される。

Neural Information Retrieval (Neu-IR) models have shown their effectiveness and thrive from end-to-end training with massive high-quality relevance labels. Nevertheless, relevance labels at such quantity are luxury and unavailable in many ranking scenarios, for example, in biomedical search. This paper improves Neu-IR in such few-shot search scenarios by meta-adaptively training neural rankers with synthetic weak supervision. We first leverage contrastive query generation (ContrastQG) to synthesize more informative queries as in-domain weak relevance labels, and then filter them with meta adaptive learning to rank (MetaLTR) to better generalize neural rankers to the target few-shot domain. Experiments on three different search domains: web, news, and biomedical, demonstrate significantly improved few-shot accuracy of neural rankers with our weak supervision framework. The code of this paper will be open-sourced.
翻訳日:2021-04-18 20:34:44 公開日:2020-12-29
# 不均一グラフ学習のためのハイブリッドマイクロマクロレベル畳み込み

Hybrid Micro/Macro Level Convolution for Heterogeneous Graph Learning ( http://arxiv.org/abs/2012.14722v1 )

ライセンス: Link先を確認
Le Yu, Leilei Sun, Bowen Du, Chuanren Liu, Weifeng Lv, Hui Xiong(参考訳) 不均一グラフは、各グラフが複数の種類のノードとエッジから構成される現実的なシナリオで広く普及する。 ヘテロジニアスグラフでの表現学習は、ノード属性と関係情報の両方を保存できる低次元のノード表現を得ることを目的としている。 しかし、既存のグラフ畳み込みアプローチのほとんどは同質グラフのために設計されており、したがって異質グラフを扱うことはできない。 ヘテロジニアスグラフ用に設計された最近の手法は、不均質性の利用不足、構造情報損失、解釈可能性の欠如など、いくつかの問題に直面している。 本稿では,HGConvを提案する。HGConvはヘテロジニアスグラフ上の包括的ノード表現を,マイクロ/マクロレベルのハイブリッドな畳み込み操作で学習するための新しいヘテロジニアスグラフ畳み込み手法である。 既存の方法とは異なり、hgconvはマイクロレベルとマクロレベルの両方で、ヘテロジニアスグラフの内部構造に関する畳み込みを行うことができる: 同じ関係内のノードの重要性を学ぶマイクロレベルの畳み込みと、異なる関係における微妙な違いを区別するマクロレベルの畳み込みである。 このハイブリッド戦略により、HGConvは適切な解釈可能性を持つ異種情報を完全に活用することができる。 さらに、重み付け残差接続は、焦点ノードの固有属性と隣接情報の両方を適応的に集約するように設計されている。 各種タスクに対する大規模な実験は,既存の手法よりもHGConvの方が優れているだけでなく,グラフ解析へのアプローチの直感的な解釈可能性も示している。

Heterogeneous graphs are pervasive in practical scenarios, where each graph consists of multiple types of nodes and edges. Representation learning on heterogeneous graphs aims to obtain low-dimensional node representations that could preserve both node attributes and relation information. However, most of the existing graph convolution approaches were designed for homogeneous graphs, and therefore cannot handle heterogeneous graphs. Some recent methods designed for heterogeneous graphs are also faced with several issues, including the insufficient utilization of heterogeneous properties, structural information loss, and lack of interpretability. In this paper, we propose HGConv, a novel Heterogeneous Graph Convolution approach, to learn comprehensive node representations on heterogeneous graphs with a hybrid micro/macro level convolutional operation. Different from existing methods, HGConv could perform convolutions on the intrinsic structure of heterogeneous graphs directly at both micro and macro levels: A micro-level convolution to learn the importance of nodes within the same relation, and a macro-level convolution to distinguish the subtle difference across different relations. The hybrid strategy enables HGConv to fully leverage heterogeneous information with proper interpretability. Moreover, a weighted residual connection is designed to aggregate both inherent attributes and neighbor information of the focal node adaptively. Extensive experiments on various tasks demonstrate not only the superiority of HGConv over existing methods, but also the intuitive interpretability of our approach for graph analysis.
翻訳日:2021-04-18 20:34:12 公開日:2020-12-29
# attre2vec: unsupervised attributed edge representation learning

AttrE2vec: Unsupervised Attributed Edge Representation Learning ( http://arxiv.org/abs/2012.14727v1 )

ライセンス: Link先を確認
Piotr Bielak, Tomasz Kajdanowicz, Nitesh V. Chawla(参考訳) 表現学習は、様々な下流学習タスクに適用可能な埋め込みをもたらすため、(教師なしの)特徴学習を通じて、しばしば困難で手動によるネットワークの成果化を克服してきた。 グラフにおける表現学習の焦点は主に浅い(ノード中心)または深い(グラフベース)学習アプローチに焦点を当てている。 マルチタイプノードとエッジを持つ同種ネットワークや異種ネットワークで作業するアプローチは存在するが、エッジ表現の学習にはギャップがある。 本稿では,属性ネットワークにおけるエッジの低次元ベクトル表現を学習する,AttrE2Vecと呼ばれる新しい教師なし帰納法を提案する。 トポロジカルな近接を体系的に捉え、属性親和性、エッジの類似性を特徴付ける。 エッジ埋め込み研究の進歩とは対照的に,提案手法はエッジの表現を提供し,グラフ属性を帰納的かつ教師なしな方法でキャプチャする手法の体系を拡張した。 実験の結果,現代の手法と比較して,エッジ分類やエッジクラスタリングなどの下流タスクにおいて,より高品質な尺度(auc,精度)が反映され,より強力なエッジベクトル表現を構築できることがわかった。 低次元埋め込み射影の解析によっても確認される。

Representation learning has overcome the often arduous and manual featurization of networks through (unsupervised) feature learning as it results in embeddings that can apply to a variety of downstream learning tasks. The focus of representation learning on graphs has focused mainly on shallow (node-centric) or deep (graph-based) learning approaches. While there have been approaches that work on homogeneous and heterogeneous networks with multi-typed nodes and edges, there is a gap in learning edge representations. This paper proposes a novel unsupervised inductive method called AttrE2Vec, which learns a low-dimensional vector representation for edges in attributed networks. It systematically captures the topological proximity, attributes affinity, and feature similarity of edges. Contrary to current advances in edge embedding research, our proposal extends the body of methods providing representations for edges, capturing graph attributes in an inductive and unsupervised manner. Experimental results show that, compared to contemporary approaches, our method builds more powerful edge vector representations, reflected by higher quality measures (AUC, accuracy) in downstream tasks as edge classification and edge clustering. It is also confirmed by analyzing low-dimensional embedding projections.
翻訳日:2021-04-18 20:33:46 公開日:2020-12-29
# multi-principal assistance games: definition and collegial mechanism

Multi-Principal Assistance Games: Definition and Collegial Mechanisms ( http://arxiv.org/abs/2012.14536v1 )

ライセンス: Link先を確認
Arnaud Fickinger, Simon Zhuang, Andrew Critch, Dylan Hadfield-Menell, Stuart Russell(参考訳) 本稿では,マルチプリンシパル・アシスト・ゲーム(MPAG)の概念を導入し,社会的選択論,ギバードの定理の障害を回避するために,十分な合理的選好推論機構を用いた。 MPAGでは、1つのエージェントが、広く異なる嗜好を持つ可能性のあるN人のヒトのプリンシパルを支援する。 mpagsは、協調逆強化学習ゲームとしても知られる援助ゲーム全般を一般化する。 本研究では,特に,人間による授業学習の一般化について分析し,まず,有効性を得るための作業を行い,好みを示すとともに,ロボットが人間の給与の合計をさらに最大化するために行動する。 この設定で、ゲームが十分に合理であれば、すなわち、そのゲームが十分に合理であることを示す。 人間が自分の行動を通じて 報酬の十分な部分を得る責任があるなら 彼らの好みは 彼らの仕事を通して 明らかになる この啓示機構は非独裁的であり、可能な結果を2つの選択肢に制限しない。

We introduce the concept of a multi-principal assistance game (MPAG), and circumvent an obstacle in social choice theory, Gibbard's theorem, by using a sufficiently collegial preference inference mechanism. In an MPAG, a single agent assists N human principals who may have widely different preferences. MPAGs generalize assistance games, also known as cooperative inverse reinforcement learning games. We analyze in particular a generalization of apprenticeship learning in which the humans first perform some work to obtain utility and demonstrate their preferences, and then the robot acts to further maximize the sum of human payoffs. We show in this setting that if the game is sufficiently collegial, i.e. if the humans are responsible for obtaining a sufficient fraction of the rewards through their own actions, then their preferences are straightforwardly revealed through their work. This revelation mechanism is non-dictatorial, does not limit the possible outcomes to two alternatives, and is dominant-strategy incentive-compatible .
翻訳日:2021-04-18 20:32:55 公開日:2020-12-29
# マルチエージェントシステムにおけるprosocial Norm Emergence

Prosocial Norm Emergence in Multiagent Systems ( http://arxiv.org/abs/2012.14581v1 )

ライセンス: Link先を確認
Mehdi Mashayekhi and Nirav Ajmeri and George F. List and Munindar P. Singh(参考訳) マルチエージェントシステムは、自律的なエンティティの開発システムの基礎を提供し、様々な領域で応用を見出す。 我々は,メンバエージェントが適応的であるだけでなく,マルチエージェントシステム自体が適応的であるような設定を考える。 特に、マルチエージェントシステムの社会構造は、メンバー間の社会的規範に反映することができる。 社会で生じる規範が必ずしもメンバーにとって有益であるとは限らないことはよく認識されている。 我々は,社会の肯定的な成果を達成し,他人の福祉を考慮に入れて行動するためのエージェントへの指導をしばしば提供する,社会規範に焦点をあてる。 具体的には,社会規範の出現のための枠組みであるChaを提案する。 従来の標準の出現アプローチとは異なり、Chaはシステムへの継続的な変更(エージェントは入退避しうる)とダイナミズム(環境が変わるとノームが変わる)をサポートする。 重要なことは、Chaエージェントは、反社会的であることに対する罪悪感を反映して、不平等逆転理論に基づく社会的意思決定を取り入れている。 このようにchaは、個人による意思決定とシステムレベルの成果の公平性という、2つの重要なテーマを親社会性においてまとめている。 我々はchaが社会全体の利益と成果の公平性を改善することをシミュレーションによって実証する。

Multiagent systems provide a basis of developing systems of autonomous entities and thus find application in a variety of domains. We consider a setting where not only the member agents are adaptive but also the multiagent system itself is adaptive. Specifically, the social structure of a multiagent system can be reflected in the social norms among its members. It is well recognized that the norms that arise in society are not always beneficial to its members. We focus on prosocial norms, which help achieve positive outcomes for society and often provide guidance to agents to act in a manner that takes into account the welfare of others. Specifically, we propose Cha, a framework for the emergence of prosocial norms. Unlike previous norm emergence approaches, Cha supports continual change to a system (agents may enter and leave), and dynamism (norms may change when the environment changes). Importantly, Cha agents incorporate prosocial decision making based on inequity aversion theory, reflecting an intuition of guilt from being antisocial. In this manner, Cha brings together two important themes in prosociality: decision making by individuals and fairness of system-level outcomes. We demonstrate via simulation that Cha can improve aggregate societal gains and fairness of outcomes.
翻訳日:2021-04-18 20:32:38 公開日:2020-12-29
# 発達ロボティクスのシミュレーション環境における赤ちゃんの社会的相互作用のモデル化

Modeling Social Interaction for Baby in Simulated Environment for Developmental Robotics ( http://arxiv.org/abs/2012.14842v1 )

ライセンス: Link先を確認
Md Ashaduzzaman Rubel Mondol, Aishwarya Pothula, Deokgun Park(参考訳) タスク固有のAIエージェントは、さまざまなドメインで顕著なパフォーマンスを示している。 しかし、人間の知能のような汎用AIエージェントをモデリングするには、現在のデータセット以上か、幼児が初期段階を通じて収集する経験を含まない報酬ベースの環境のみが必要である。 本稿では,開発ロボティクスのシミュレーション環境(SEDRo)について述べる。 出生前の胎児期から生後12ヶ月の間、人間の赤ちゃんが経験する赤ちゃんエージェントの環境をシミュレートする。 SEDRoには、エージェントとのソーシャルインタラクションを提供する母文字も含まれている。 エージェントの異なる発達マイルストーンを評価するために、SEDRoは発達心理学からいくつかの実験を取り入れている。

Task-specific AI agents are showing remarkable performance across different domains. But modeling generalized AI agents like human intelligence will require more than current datasets or only reward-based environments that don't include experiences that an infant gathers throughout its initial stages. In this paper, we present Simulated Environment for Developmental Robotics (SEDRo). It simulates the environments for a baby agent that a human baby experiences throughout the pre-born fetus stage to post-birth 12 months. SEDRo also includes a mother character to provide social interaction with the agent. To evaluate different developmental milestones of the agent, SEDRo incorporates some experiments from developmental psychology.
翻訳日:2021-04-18 20:32:18 公開日:2020-12-29
# 6G IoTにおける高効率通信のためのAIとインテリジェント反射面の活用

Leveraging AI and Intelligent Reflecting Surface for Energy-Efficient Communication in 6G IoT ( http://arxiv.org/abs/2012.14716v1 )

ライセンス: Link先を確認
Qianqian Pan, Jun Wu, Xi Zheng, Jianhua Li, Shenghong Li, Athanasios V. Vasilakos(参考訳) データトラフィックの増大、さまざまな遅延センシティブなサービス、エネルギー制限型のiot(internet of things)デバイスの大規模展開は、現在の通信ネットワークに大きな課題をもたらし、学界や業界が第6世代(6g)ネットワークに移行する動機となった。 データ転送と処理の強力な能力により、6Gは低レイテンシとエネルギーコストでIoT通信を実現する手段として考えられている。 本稿では,人工知能(AI)とインテリジェント反射面(IRS)による6G IoTのためのエネルギー効率通信システムを提案する。 まず、IRS支援データ伝送とAI駆動型ネットワークリソース管理機構を含む、スマートで効率的な通信アーキテクチャを設計する。 第2に、6G IoTシステムに対して所定の伝送遅延の下でエネルギー効率を最大化するモデルを定式化し、すべての通信参加者の設定を共同で最適化する。 iot伝送電力、irs反射位相シフト、およびbs検出マトリックス。 第3に、定式化最適化モデルを解決するために、ネットワークリソース制御とアロケーションスキームの強化学習(DRL)を提案する。 DRLは,ネットワークとチャネルの状態に基づいて,省エネ・低遅延通信を実現する。 最後に,提案する6g iot通信システムの有効性を実験的に検証した。

The ever-increasing data traffic, various delay-sensitive services, and the massive deployment of energy-limited Internet of Things (IoT) devices have brought huge challenges to the current communication networks, motivating academia and industry to move to the sixth-generation (6G) network. With the powerful capability of data transmission and processing, 6G is considered as an enabler for IoT communication with low latency and energy cost. In this paper, we propose an artificial intelligence (AI) and intelligent reflecting surface (IRS) empowered energy-efficiency communication system for 6G IoT. First, we design a smart and efficient communication architecture including the IRS-aided data transmission and the AI-driven network resource management mechanisms. Second, an energy efficiency-maximizin g model under given transmission latency for 6G IoT system is formulated, which jointly optimizes the settings of all communication participants, i.e. IoT transmission power, IRS-reflection phase shift, and BS detection matrix. Third, a deep reinforcement learning (DRL) empowered network resource control and allocation scheme is proposed to solve the formulated optimization model. Based on the network and channel status, the DRL-enabled scheme facilities the energy-efficiency and low-latency communication. Finally, experimental results verified the effectiveness of our proposed communication system for 6G IoT.
翻訳日:2021-04-18 20:32:08 公開日:2020-12-29
# 対話型ユーザフィードバックによる物体認識モデルの視覚的探索と補正

Visual Probing and Correction of Object Recognition Models with Interactive user feedback ( http://arxiv.org/abs/2012.14544v1 )

ライセンス: Link先を確認
Viny Saajan Victor, Pramod Vadiraja, Jan-Tobias Sohns, Heike Leitte(参考訳) 最先端の機械学習とディープラーニング技術の出現により、いくつかの業界がこの分野に向かっている。 このような技術の応用は自然言語処理からコンピュータビジョンまで多岐にわたる。 物体認識はコンピュータビジョン領域においてそのような領域である。 精度は高いが、そのようなモデルを改善することができる領域は依然として存在する。 これは、自動運転やがん検出のような現実世界のユースケースにおいて非常に重要であり、高感度で、そのような技術がほとんど不確実性を持たないことを期待している。 本稿では,オブジェクト認識モデルの不確実性を可視化し,ユーザフィードバックによる修正プロセスを提案する。 VAST 2020 Mini-Challenge 2.0のデータに対する我々のアプローチをさらに実証する。

With the advent of state-of-the-art machine learning and deep learning technologies, several industries are moving towards the field. Applications of such technologies are highly diverse ranging from natural language processing to computer vision. Object recognition is one such area in the computer vision domain. Although proven to perform with high accuracy, there are still areas where such models can be improved. This is in-fact highly important in real-world use cases like autonomous driving or cancer detection, that are highly sensitive and expect such technologies to have almost no uncertainties. In this paper, we attempt to visualise the uncertainties in object recognition models and propose a correction process via user feedback. We further demonstrate our approach on the data provided by the VAST 2020 Mini-Challenge 2.
翻訳日:2021-04-18 20:31:48 公開日:2020-12-29
# 遅延心筋mriを用いた心筋梗塞自動評価のためのカスケードフレームワーク

Cascaded Framework for Automatic Evaluation of Myocardial Infarction from Delayed-Enhancement Cardiac MRI ( http://arxiv.org/abs/2012.14556v1 )

ライセンス: Link先を確認
Jun Ma(参考訳) 心筋梗塞の定量的解析において, 心筋と病理の自動評価は重要な役割を担っている。 本稿では,遅延型心筋MRIにおける心筋梗塞セグメンテーションと分類のためのカスケード畳み込みニューラルネットワークフレームワークを提案する。 具体的には、まず2d u-netを用いて左心室と心筋を含む心臓全体を分割する。 次に、関心領域(ROI)として心臓全体を収穫します。 最後に、新しい2D U-Netを使用して、心ROI全体の屈折領域と非リフロー領域を分割する。 このセグメンテーション方法は、赤外線や非リフロー領域によるセグメンテーション結果が病理症例に分類される分類タスクに適用することができる。 本手法は,MICCAI 2020 EMIDECセグメンテーションタスクにおいて,Diceスコアが86.28%,62.24%,77.76% ,心筋,非血流領域が77.76%,精度92%で第1位であった。

Automatic evaluation of myocardium and pathology plays an important role in the quantitative analysis of patients suffering from myocardial infarction. In this paper, we present a cascaded convolutional neural network framework for myocardial infarction segmentation and classification in delayed-enhancement cardiac MRI. Specifically, we first use a 2D U-Net to segment the whole heart, including the left ventricle and the myocardium. Then, we crop the whole heart as a region of interest (ROI). Finally, a new 2D U-Net is used to segment the infraction and no-reflow areas in the whole heart ROI. The segmentation method can be applied to the classification task where the segmentation results with the infraction or no-reflow areas are classified as pathological cases. Our method took second place in the MICCAI 2020 EMIDEC segmentation task with Dice scores of 86.28%, 62.24%, and 77.76% for myocardium, infraction, and no-reflow areas, respectively, and first place in the classification task with an accuracy of 92%.
翻訳日:2021-04-18 20:31:37 公開日:2020-12-29
# 冠状動脈疾患診断における経時的MRI画像の心筋分画の検討

Myocardial Segmentation of Cardiac MRI Sequences with Temporal Consistency for Coronary Artery Disease Diagnosis ( http://arxiv.org/abs/2012.14564v1 )

ライセンス: Link先を確認
Yutian Chen, Xiaowei Xu, Dewen Zeng, Yiyu Shi, Haiyun Yuan, Jian Zhuang, Yuhao Dong, Qianjun Jia, Meiping Huang(参考訳) 冠状動脈疾患(CAD)は世界中で最も多い死因であり、診断は通常、MRI(MRI)による手動心筋セグメンテーションに基づいている。 手動セグメンテーションは退屈で時間がかかり、適用性が低いため、機械学習技術を用いた自動心筋セグメンテーションが近年広く研究されている。 しかし、既存のほとんどの手法は入力されたMRIシーケンスを独立に扱うため、例えば、時間に沿って心筋の形状や位置などのシーケンス間の時間情報の取得に失敗する。 本稿では,左室腔,右室腔,心筋の心筋mri(cmr)スキャン画像の塩基配列解析のための心筋セグメンテーションフレームワークを提案する。 具体的には,従来のネットワークとリカレントネットワークを組み合わせることで,シーケンス間の時間情報を取り込んで時間的一貫性を確保することを提案する。 我々は,acdc(automated heart diagnosis challenge)データセットの枠組みを評価した。 実験結果から,本フレームワークはDice係数の最大2%のセグメンテーション精度を向上できることが示された。

Coronary artery disease (CAD) is the most common cause of death globally, and its diagnosis is usually based on manual myocardial segmentation of Magnetic Resonance Imaging (MRI) sequences. As the manual segmentation is tedious, time-consuming and with low applicability, automatic myocardial segmentation using machine learning techniques has been widely explored recently. However, almost all the existing methods treat the input MRI sequences independently, which fails to capture the temporal information between sequences, e.g., the shape and location information of the myocardium in sequences along time. In this paper, we propose a myocardial segmentation framework for sequence of cardiac MRI (CMR) scanning images of left ventricular cavity, right ventricular cavity, and myocardium. Specifically, we propose to combine conventional networks and recurrent networks to incorporate temporal information between sequences to ensure temporal consistent. We evaluated our framework on the Automated Cardiac Diagnosis Challenge (ACDC) dataset. Experiment results demonstrate that our framework can improve the segmentation accuracy by up to 2% in Dice coefficient.
翻訳日:2021-04-18 20:31:17 公開日:2020-12-29
# 可視光画像を用いた舗装面き裂検出・識別のための深層学習手法の進歩

Advances in deep learning methods for pavement surface crack detection and identification with visible light visual images ( http://arxiv.org/abs/2012.14704v1 )

ライセンス: Link先を確認
Kailiang Lu(参考訳) 工学構造におけるひび割れのNDTおよび健康モニタリング法と比較して, 目視光画像に基づく表面き裂検出や識別は非接触であり, 高速, 低コスト, 高精度の利点がある。 まず, 典型的な舗装(コンクリートも含む)のひび割れ公共データセットを収集し, 環境, 騒音, 干渉等を含むランダムな変動要因とともに, サンプル画像の特性を要約した。 その後, 3つの主要なき裂識別手法(手作り特徴工学, 機械学習, ディープラーニング)の利点と欠点を比較した。 最後に、モデルアーキテクチャ、性能テスト、予測の有効性の観点から、組み込みプラットフォームに容易にデプロイ可能な自己構築型CNN、転送学習(TL)、エンコーダデコーダ(ED)など、典型的なディープラーニングモデルの開発と進歩について概説した。 1) 画像サンプルのひび割れ検出平均時間コストは100ms未満であり、ED法(FPCNet)またはInceptionV3に基づくTL法のいずれかを用いている。 tl メソッドは mobilenet (軽量バックボーンベースネットワーク) をベースとした tl メソッドで 10ms 未満に削減できる。 2) 精度の面では, ヒトの眼で容易に識別できるccicでは99.8%以上に達する。 SDNET2018では、いくつかのサンプルは特定が難しいが、FPCNetは97.5%、TL法は96.1%である。 本研究は,本研究で初めて,舗装ひび割れの公共データセットを包括的に要約し,組込みプラットフォームにおける表面き裂検出と深層学習手法の性能と有効性についてレビュー・評価した。

Compared to NDT and health monitoring method for cracks in engineering structures, surface crack detection or identification based on visible light images is non-contact, with the advantages of fast speed, low cost and high precision. Firstly, typical pavement (concrete also) crack public data sets were collected, and the characteristics of sample images as well as the random variable factors, including environmental, noise and interference etc., were summarized. Subsequently, the advantages and disadvantages of three main crack identification methods (i.e., hand-crafted feature engineering, machine learning, deep learning) were compared. Finally, from the aspects of model architecture, testing performance and predicting effectiveness, the development and progress of typical deep learning models, including self-built CNN, transfer learning(TL) and encoder-decoder(ED), which can be easily deployed on embedded platform, were reviewed. The benchmark test shows that: 1) It has been able to realize real-time pixel-level crack identification on embedded platform: the entire crack detection average time cost of an image sample is less than 100ms, either using the ED method (i.e., FPCNet) or the TL method based on InceptionV3. It can be reduced to less than 10ms with TL method based on MobileNet (a lightweight backbone base network). 2) In terms of accuracy, it can reach over 99.8% on CCIC which is easily identified by human eyes. On SDNET2018, some samples of which are difficult to be identified, FPCNet can reach 97.5%, while TL method is close to 96.1%. To the best of our knowledge, this paper for the first time comprehensively summarizes the pavement crack public data sets, and the performance and effectiveness of surface crack detection and identification deep learning methods for embedded platform, are reviewed and evaluated.
翻訳日:2021-04-18 20:30:48 公開日:2020-12-29
# 変化環境における視覚位置認識のためのグラフベース非線形最小二乗最適化

Graph-based non-linear least squares optimization for visual place recognition in changing environments ( http://arxiv.org/abs/2012.14766v1 )

ライセンス: Link先を確認
Stefan Schubert, Peer Neubert, Peter Protzel(参考訳) 視覚位置認識は、移動ロボットのローカライゼーションの重要な部分課題である。 画像検索の特別な場合であるため、基本的な情報源は画像記述子の対の類似性である。 しかし、このロボットタスクに画像検索問題を埋め込むことは、例えば、悪用できる追加の構造を提供する。 時空間一貫性。 シーケンス処理アプローチや環境変更のためのディスクリプタ標準化アプローチなど、この構造を利用するためのいくつかのアルゴリズムが存在する。 本稿では,異なるタイプの付加構造と情報を利用するグラフベースのフレームワークを提案する。 グラフィカルモデルは、標準ツールで最適化できる非線形最小二乗問題の定式化に使用される。 シーケンスと標準化以外にも,データベース内および/またはクエリ画像セットにおけるセット内類似性を追加情報として使用することを提案する。 利用可能であれば、データベースイメージのポーズに関する追加知識をシームレスに統合することも可能です。 本研究では,様々な標準位置認識データセット上でシステムを評価し,異なる情報源,異なる種類の制約,オンラインまたはオフラインの場所認識設定を含む多数の構成のパフォーマンス改善を示す。

Visual place recognition is an important subproblem of mobile robot localization. Since it is a special case of image retrieval, the basic source of information is the pairwise similarity of image descriptors. However, the embedding of the image retrieval problem in this robotic task provides additional structure that can be exploited, e.g. spatio-temporal consistency. Several algorithms exist to exploit this structure, e.g., sequence processing approaches or descriptor standardization approaches for changing environments. In this paper, we propose a graph-based framework to systematically exploit different types of additional structure and information. The graphical model is used to formulate a non-linear least squares problem that can be optimized with standard tools. Beyond sequences and standardization, we propose the usage of intra-set similarities within the database and/or the query image set as additional source of information. If available, our approach also allows to seamlessly integrate additional knowledge about poses of database images. We evaluate the system on a variety of standard place recognition datasets and demonstrate performance improvements for a large number of different configurations including different sources of information, different types of constraints, and online or offline place recognition setups.
翻訳日:2021-04-18 20:30:17 公開日:2020-12-29
# ラベル伝播とスタイル伝達による半教師付き心臓画像分割

Semi-supervised Cardiac Image Segmentation via Label Propagation and Style Transfer ( http://arxiv.org/abs/2012.14785v1 )

ライセンス: Link先を確認
Yao Zhang, Jiawei Yang, Feng Hou, Yang Liu, Yixin Wang, Jiang Tian, Cheng Zhong, Yang Zhang, and Zhiqiang He(参考訳) 心臓構造の正確なセグメンテーションは、医師が病気を診断するのを手助けし、治療計画の改善に役立てることができる。 しかし、アノテーションの不足と異なるベンダーや医療センター間のデータのばらつきにより、高度な深層学習手法の性能が制限される。 そこで本研究では,左室(lv)と右室(rv)の血流プールを含む心筋構造とmriの左室心筋(myo)を完全自動で区分する方法を提案する。 具体的には,ラベル伝搬によるmriシーケンス時間枠を利用した半教師付き学習法を考案する。 そして、よりロバストな心臓画像分割のために、異なるセンターやベンダー間のばらつきを減らすためにスタイル転送を利用する。 本手法をm&msチャレンジ7で評価し,14チーム中2位にランクした。

Accurate segmentation of cardiac structures can assist doctors to diagnose diseases, and to improve treatment planning, which is highly demanded in the clinical practice. However, the shortage of annotation and the variance of the data among different vendors and medical centers restrict the performance of advanced deep learning methods. In this work, we present a fully automatic method to segment cardiac structures including the left (LV) and right ventricle (RV) blood pools, as well as for the left ventricular myocardium (MYO) in MRI volumes. Specifically, we design a semi-supervised learning method to leverage unlabelled MRI sequence timeframes by label propagation. Then we exploit style transfer to reduce the variance among different centers and vendors for more robust cardiac image segmentation. We evaluate our method in the M&Ms challenge 7 , ranking 2nd place among 14 competitive teams.
翻訳日:2021-04-18 20:30:00 公開日:2020-12-29
# OpenHPS: オープンソースのハイブリッド位置決めシステム

OpenHPS: An Open Source Hybrid Positioning System ( http://arxiv.org/abs/2101.05198v1 )

ライセンス: Link先を確認
Maxim Van de Wynckel and Beat Signer(参考訳) 位置決めシステムとフレームワークは様々な技術を使って物体の位置を決定する。 既存のソリューションのいくつかは、位置決め時に異なる感覚データを組み合わせて、使用済みの個人位置決め技術によって導入された誤差を減らし、より正確な位置を計算する。 我々は,typescriptで実装された汎用的なハイブリッド測位システムであるopenhpsを提案する。異なるアルゴリズムに基づく異なる知覚データを用いて追跡中の誤差を低減できるだけでなく,システムの校正やトレーニング時に複合追跡技術も活用できる。 拡張性のあるオープンソースOpenHPSフレームワークのアーキテクチャ、機能、実装に関する詳細な議論に加えて、異なる位置決め技術を融合したデモレータアプリケーションにおける私たちのソリューションの使用について説明する。 OpenHPSは多くの位置決め技術を提供しているが、将来の拡張は新しい位置決め手法やアルゴリズムを統合し、シンボル位置を含む抽象的な追加レベルをサポートするかもしれない。

Positioning systems and frameworks use various techniques to determine the position of an object. Some of the existing solutions combine different sensory data at the time of positioning in order to compute more accurate positions by reducing the error introduced by the used individual positioning techniques. We present OpenHPS, a generic hybrid positioning system implemented in TypeScript, that can not only reduce the error during tracking by fusing different sensory data based on different algorithms, but also also make use of combined tracking techniques when calibrating or training the system. In addition to a detailed discussion of the architecture, features and implementation of the extensible open source OpenHPS framework, we illustrate the use of our solution in a demonstrator application fusing different positioning techniques. While OpenHPS offers a number of positioning techniques, future extensions might integrate new positioning methods or algorithms and support additional levels of abstraction including symbolic locations.
翻訳日:2021-04-18 20:29:46 公開日:2020-12-29
# 消失学習率漸近における線形L2ブースティングアルゴリズムの挙動

Behavior of linear L2-boosting algorithms in the vanishing learning rate asymptotic ( http://arxiv.org/abs/2012.14657v1 )

ライセンス: Link先を確認
Cl\'ement Dombry (UBFC, LMB), Youssef Esstafa (ENSAI)(参考訳) 学習速度が0に収束し、繰り返し回数が再スケールされるとき、勾配向上アルゴリズムの漸近挙動について検討する。 B{\"u}hlmann と Yu (2003) で研究された線形ベースラーナによる回帰に対する L2-boosting を主に検討し、各ステップでサブサンプリングが使用される確率的なモデルも解析する(Friedman 2002)。 無限次元関数空間における線形微分方程式の一意解として、消失学習率の漸近的極限を証明し、その極限を特徴付ける。 また、制限手順のトレーニングおよびテスト誤差を徹底的に解析する。 線形L2ボスティング作用素を滑らかな射影と解釈し、時間はその自由度数に関係しているという簡単な数値実験で、我々の結果を論じ、議論する。

We investigate the asymptotic behaviour of gradient boosting algorithms when the learning rate converges to zero and the number of iterations is rescaled accordingly. We mostly consider L2-boosting for regression with linear base learner as studied in B{\"u}hlmann and Yu (2003) and analyze also a stochastic version of the model where subsampling is used at each step (Friedman 2002). We prove a deterministic limit in the vanishing learning rate asymptotic and characterize the limit as the unique solution of a linear differential equation in an infinite dimensional function space. Besides, the training and test error of the limiting procedure are thoroughly analyzed. We finally illustrate and discuss our result on a simple numerical experiment where the linear L2-boosting operator is interpreted as a smoothed projection and time is related to its number of degrees of freedom.
翻訳日:2021-04-18 20:29:31 公開日:2020-12-29
# 指標付き二次最適化のための超モジュラリティと有効不等式

Supermodularity and valid inequalities for quadratic optimization with indicators ( http://arxiv.org/abs/2012.14633v1 )

ライセンス: Link先を確認
Alper Atamturk and Andres Gomez(参考訳) 階数 1 の二次化を指標付きで最小化し、連続変数を射影して得られる基底集合関数が超モジュラーであることを示す。 超モジュラル最小化は一般に難しいが、階数 1 の二次の特定の集合関数は線形時間で最小化できる。 二次のエピグラフの凸包は、変数の原空間の非線形不等式へ持ち上げることによって、基礎となる超モジュラー集合函数の不等式から得ることができる。 凸-ハル記述の明示的な形式は、変数の原空間と円錐二次表現可能不等式による拡張定式化の両方において、多項式分離アルゴリズムとともに与えられる。 計算実験により、円錐二次形式における昇降超モジュラー不等式は、2次最適化と指標との積分性ギャップを低減するのに非常に効果的であることが示されている。

We study the minimization of a rank-one quadratic with indicators and show that the underlying set function obtained by projecting out the continuous variables is supermodular. Although supermodular minimization is, in general, difficult, the specific set function for the rank-one quadratic can be minimized in linear time. We show that the convex hull of the epigraph of the quadratic can be obtaining from inequalities for the underlying supermodular set function by lifting them into nonlinear inequalities in the original space of variables. Explicit forms of the convex-hull description are given, both in the original space of variables and in an extended formulation via conic quadratic-representa ble inequalities, along with a polynomial separation algorithm. Computational experiments indicate that the lifted supermodular inequalities in conic quadratic form are quite effective in reducing the integrality gap for quadratic optimization with indicators.
翻訳日:2021-04-18 20:28:59 公開日:2020-12-29
# このような偽りの友人で、誰に自認できるのか。

With False Friends Like These, Who Can Have Self-Knowledge? ( http://arxiv.org/abs/2012.14738v1 )

ライセンス: Link先を確認
Lue Tao, Songcan Chen(参考訳) 敵対的な例はモデルの過度な感度から生じる。 一般的に研究されている敵の例は悪意のある入力であり、正しく分類された例から敵が作り、誤分類を引き起こす。 本稿では,過度に感度が高すぎることによる興味深く,かつ見過ごされている結果,すなわち,誤分類された例は容易に摂動でき,モデルが正しい出力を生成するのに役立つ。 このような混乱した例は無害に見えるが、実際には悪意のある友人によってモデルに自己満足させるために悪用されることがある。 したがって、これらを偽批判例と呼ぶ。 このような偽の友達があれば、パフォーマンスの悪いモデルは最先端のモデルのように振る舞うことができる。 デプロイ担当者がプレクリティカルなパフォーマンスを信頼し、現実世界のアプリケーションで"well-performed"モデルを使用すると、潜在的なセキュリティ上の懸念が良質な環境にさえ現れます。 本報告では, 初めて偽善リスクを定式化し, 自然リスクと偽善リスクの上限のトレードオフを最小化することにより, 偽善例に特化した防御手法を提案する。 さらに, 理論的解析により, 対立リスクと低臨界リスクの関係が明らかになった。 実験により,提案手法の理論的結果と有効性について検証した。

Adversarial examples arise from excessive sensitivity of a model. Commonly studied adversarial examples are malicious inputs, crafted by an adversary from correctly classified examples, to induce misclassification. This paper studies an intriguing, yet far overlooked consequence of the excessive sensitivity, that is, a misclassified example can be easily perturbed to help the model to produce correct output. Such perturbed examples look harmless, but actually can be maliciously utilized by a false friend to make the model self-satisfied. Thus we name them hypocritical examples. With false friends like these, a poorly performed model could behave like a state-of-the-art one. Once a deployer trusts the hypocritical performance and uses the "well-performed" model in real-world applications, potential security concerns appear even in benign environments. In this paper, we formalize the hypocritical risk for the first time and propose a defense method specialized for hypocritical examples by minimizing the tradeoff between natural risk and an upper bound of hypocritical risk. Moreover, our theoretical analysis reveals connections between adversarial risk and hypocritical risk. Extensive experiments verify the theoretical results and the effectiveness of our proposed methods.
翻訳日:2021-04-18 20:28:44 公開日:2020-12-29
# 深層ニューラルネットワークを用いたcovid-19検出の試み

Detecting COVID-19 from Breathing and Coughing Sounds using Deep Neural Networks ( http://arxiv.org/abs/2012.14553v1 )

ライセンス: Link先を確認
Bj\"orn W. Schuller and Harry Coppock and Alexander Gaskell(参考訳) 新型コロナウイルス(covid-19)のパンデミックは世界全体に不均一な影響を与えており、産業経済はウイルスの感染拡大を追跡するために必要な検査を作成でき、ほぼ完全なロックダウンを避けることができたが、発展途上国は検査能力に問題を抱えている。 本稿では,モバイル端末やweb経由での呼吸やせきの音声記録から新型コロナウイルスを検出できるユビキタスで低コストな事前テスト手法として,深層学習モデルの利用について検討する。 我々は、スピーカーがcovid-19に感染しているかどうかを分類するために、生呼吸と音声とスペクトログラムを使用する畳み込みニューラルネットワークのアンサンブルを適応させる。 異なるモデルは、ベイズ最適化とHyperBandを組み合わせた自動ハイパーパラメータチューニングによって得られる。 提案手法は従来のベースラインアプローチを大きなマージンで上回っている。 最終的に、厳密な対象の独立な方法で呼吸とせきを通しての最良のテストセットの結果を考慮することで、無加重平均リコール(uar)を74.9%、またはroc曲線(auc)下の領域を80.7%達成する。 隔離された状態では、呼吸音はせき音よりわずかに適しているように見える(76.1%対73.7%)。

The COVID-19 pandemic has affected the world unevenly; while industrial economies have been able to produce the tests necessary to track the spread of the virus and mostly avoided complete lockdowns, developing countries have faced issues with testing capacity. In this paper, we explore the usage of deep learning models as a ubiquitous, low-cost, pre-testing method for detecting COVID-19 from audio recordings of breathing or coughing taken with mobile devices or via the web. We adapt an ensemble of Convolutional Neural Networks that utilise raw breathing and coughing audio and spectrograms to classify if a speaker is infected with COVID-19 or not. The different models are obtained via automatic hyperparameter tuning using Bayesian Optimisation combined with HyperBand. The proposed method outperforms a traditional baseline approach by a large margin. Ultimately, it achieves an Unweighted Average Recall (UAR) of 74.9%, or an Area Under ROC Curve (AUC) of 80.7% by ensembling neural networks, considering the best test set result across breathing and coughing in a strictly subject independent manner. In isolation, breathing sounds thereby appear slightly better suited than coughing ones (76.1% vs 73.7% UAR).
翻訳日:2021-04-18 20:27:35 公開日:2020-12-29
# 製品配布をテストする - 詳しく見て

Testing Product Distributions: A Closer Look ( http://arxiv.org/abs/2012.14632v1 )

ライセンス: Link先を確認
Arnab Bhattacharyya, Sutanu Gayen, Saravanan Kandasamy, N. V. Vinodchandran(参考訳) 我々は,n$-dimensional 製品分布の同一性と密接性テストの問題点について検討する。 Canonne, Diakonikolas, Kane and Stewart (COLT 2017) と Daskalakis and Pan (COLT 2017) による以前の研究は、バイナリアルファベット上での非耐性テストのための厳密なサンプル複雑性境界を確立した: バイナリアルファベット上での2つの積分布$P$と$Q$が与えられた場合、$P = Q$と$d_{\mathrm{TV}}(P, Q) > \epsilon$。 この先行研究に基づいて、いくつかの自然距離測度および任意のアルファベット上での耐久試験を調査することにより、製品分布のテストの複雑さのより包括的なマップを提供する。 本研究は, 耐久試験における試料の複雑さが, 製品分布の距離測定値とどのように異なるか, 詳細に把握する。 さらに、製品分布の上限の1つを境界度ベイズネットに拡張します。

We study the problems of identity and closeness testing of $n$-dimensional product distributions. Prior works by Canonne, Diakonikolas, Kane and Stewart (COLT 2017) and Daskalakis and Pan (COLT 2017) have established tight sample complexity bounds for non-tolerant testing over a binary alphabet: given two product distributions $P$ and $Q$ over a binary alphabet, distinguish between the cases $P = Q$ and $d_{\mathrm{TV}}(P, Q) > \epsilon$. We build on this prior work to give a more comprehensive map of the complexity of testing of product distributions by investigating tolerant testing with respect to several natural distance measures and over an arbitrary alphabet. Our study gives a fine-grained understanding of how the sample complexity of tolerant testing varies with the distance measures for product distributions. In addition, we also extend one of our upper bounds on product distributions to bounded-degree Bayes nets.
翻訳日:2021-04-18 20:27:12 公開日:2020-12-29
# グラフニューラルネットワークによる分散制御

Decentralized Control with Graph Neural Networks ( http://arxiv.org/abs/2012.14906v1 )

ライセンス: Link先を確認
Fernando Gama, Qingbiao Li, Ekaterina Tolstaya, Amanda Prorok, Alejandro Ribeiro(参考訳) 自律エージェントからなる動的システムは、ローカル情報のみに依存するグローバルなタスクを達成しなければならないという課題に直面している。 集中型コントローラは容易に利用できるが、ネットワークのエージェントシステムによって課される分散情報構造を尊重しないため、スケーラビリティと実装の面での制限に直面している。 最適な分散化コントローラを見つけるのが困難であることを踏まえ,これらのコントローラを学習するためにグラフニューラルネットワーク(GNN)を用いた新しいフレームワークを提案する。 GNNは自然に分散したアーキテクチャであり、優れたスケーラビリティと転送性を持っているため、このタスクに適しています。 分散コントローラ学習におけるGNNの可能性を明らかにするために, フラッキングとマルチエージェントパス計画の問題点を考察した。

Dynamical systems consisting of a set of autonomous agents face the challenge of having to accomplish a global task, relying only on local information. While centralized controllers are readily available, they face limitations in terms of scalability and implementation, as they do not respect the distributed information structure imposed by the network system of agents. Given the difficulties in finding optimal decentralized controllers, we propose a novel framework using graph neural networks (GNNs) to learn these controllers. GNNs are well-suited for the task since they are naturally distributed architectures and exhibit good scalability and transferability properties. The problems of flocking and multi-agent path planning are explored to illustrate the potential of GNNs in learning decentralized controllers.
翻訳日:2021-04-18 20:26:35 公開日:2020-12-29