このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210403となっている論文です。

PDF登録状況(公開日: 20210403)

TitleAuthorsAbstract論文公表日・翻訳日
# パンオプティカルセグメンテーションのための完全畳み込みネットワーク

Fully Convolutional Networks for Panoptic Segmentation ( http://arxiv.org/abs/2012.00720v2 )

ライセンス: Link先を確認
Yanwei Li, Hengshuang Zhao, Xiaojuan Qi, Liwei Wang, Zeming Li, Jian Sun, Jiaya Jia(参考訳) 本稿では,Panoptic FCNという概念的,シンプルで,強力で,効率的な汎視セグメンテーションフレームワークを提案する。 我々のアプローチは、完全な畳み込みパイプラインで前景や背景を表現し、予測することを目的としています。 特に、Panoptic FCNは、提案したカーネルジェネレータで、各オブジェクトインスタンスまたは物カテゴリを特定のカーネル重みにエンコードし、高分解能機能を直接変換することによって予測を生成する。 このアプローチでは、インスタンス認識と、物や物のセマンティクス的に一貫した特性は、単純な生成-カーネル-セグメンテーションワークフローでそれぞれ満足できます。 ローカライゼーションやインスタンス分離のための追加のボックスがなければ、提案手法は、COCO、Cityscapes、Mapillary Vistasデータセットを単一スケールの入力で高効率で、従来のボックスベースおよびフリーモデルより優れている。 私たちのコードはhttps://github.com/J ia-Research-Lab/Pano pticFCN.comで公開されています。

In this paper, we present a conceptually simple, strong, and efficient framework for panoptic segmentation, called Panoptic FCN. Our approach aims to represent and predict foreground things and background stuff in a unified fully convolutional pipeline. In particular, Panoptic FCN encodes each object instance or stuff category into a specific kernel weight with the proposed kernel generator and produces the prediction by convolving the high-resolution feature directly. With this approach, instance-aware and semantically consistent properties for things and stuff can be respectively satisfied in a simple generate-kernel-then -segment workflow. Without extra boxes for localization or instance separation, the proposed approach outperforms previous box-based and -free models with high efficiency on COCO, Cityscapes, and Mapillary Vistas datasets with single scale input. Our code is made publicly available at https://github.com/J ia-Research-Lab/Pano pticFCN.
翻訳日:2021-05-30 19:45:20 公開日:2021-04-03
# 非地上ネットワークのための再構成可能なインテリジェントサーフェス

Reconfigurable Intelligent Surfaces in Action for Non-Terrestrial Networks ( http://arxiv.org/abs/2012.00968v2 )

ライセンス: Link先を確認
K\"ur\c{s}at Tekb{\i}y{\i}k, G\"une\c{s} Karabulut Kurt, Ali R{\i}za Ekti, Halim Yanikomeroglu(参考訳) 次世代の通信技術は、高高度プラットフォームステーションと低地球軌道衛星のメガコンステレーションを含む地上ネットワークと地球外ネットワーク(NTN)の協力によって実現される。 一方、人類は他の惑星に新しい生息地を確立するために長い道のりを歩み始めた。 これにより、NTNと深宇宙ネットワーク(DSN)の連携が求められる。 本稿では,空間の運用環境の大きさ,重量,電力制限に完全に適合していることから,この協調性を改善し,エスカレートするための再構成可能なインテリジェントサーフェス(ris)の利用を提案する。 RISが支援する地球外・惑星間通信の包括的枠組みは、課題の特定、ユースケース、オープンな課題によって提示される。 さらに,太陽シンチレーションや衛星ドラッグなどの環境影響下でのRIS支援NTNの性能をシミュレーションにより検討した。

Next-generation communication technology will be fueled on the cooperation of terrestrial networks with nonterrestrial networks (NTNs) that contain mega-constellations of high-altitude platform stations and low-Earth orbit satellites. On the other hand, humanity has embarked on a long road to establish new habitats on other planets. This deems the cooperation of NTNs with deep space networks (DSNs) necessary. In this regard, we propose the use of reconfigurable intelligent surfaces (RISs) to improve and escalate this collaboration owing to the fact that they perfectly match with the size, weight, and power restrictions of the operational environment of space. A comprehensive framework of RIS-assisted non-terrestrial and interplanetary communications is presented by pinpointing challenges, use cases, and open issues. Furthermore, the performance of RIS-assisted NTNs under environmental effects such as solar scintillation and satellite drag is discussed through simulation results.
翻訳日:2021-05-25 03:40:39 公開日:2021-04-03
# XCloud-MoDern:加速NMR分光のための人工知能クラウド

XCloud-MoDern: An Artificial Intelligence Cloud for Accelerated NMR Spectroscopy ( http://arxiv.org/abs/2012.14830v4 )

ライセンス: Link先を確認
Zi Wang, Di Guo, Zhangren Tu, Yihui Huang, Yirong Zhou, Jian Wang, Liubin Feng, Donghai Lin, Yongfu You, Tatiana Agback, Vladislav Orekhov, Xiaobo Qu(参考訳) 高速な多次元NMR分光法では、非一様サンプリングは強力なアプローチであるが、アンダーサンプルデータの再構成には洗練されたアルゴリズムが必要である。 そこで,我々はまず,高性能な深層学習フレームワーク (MoDern) を考案し,挑戦的な多次元NMRスペクトルの堅牢かつ高品質な再構成とメタボライト混合物の信頼性定量化に驚くべき性能を示した。 注目すべきなのは、MoDernのトレーニング可能なパラメータによって、ニューラルネットワークを単なる合成データでトレーニングし、さまざまなシナリオにおける実験的なアンダーサンプルデータにうまく一般化することができたことだ。 そこで我々は,高速NMRのための信頼性,広く利用可能な,超高速かつ使いやすい技術として,新しい人工知能クラウドコンピューティングプラットフォーム(XCloud-MoDern)を開発した。 これらの結果は,XCloud-MoDernがスペクトル分析のさらなる発展に寄与していることを示している。

For accelerated multi-dimensional NMR spectroscopy, non-uniform sampling is a powerful approach but requires sophisticated algorithms to reconstruct undersampled data. Here, we first devise a high-performance deep learning framework (MoDern), which shows astonishing performance in robust and high-quality reconstruction of challenging multi-dimensional protein NMR spectra and reliable quantitative measure of the metabolite mixture. Remarkably, the few trainable parameters of MoDern allowed the neural network to be trained on solely synthetic data while generalizing well to experimental undersampled data in various scenarios. Then, we develop a novel artificial intelligence cloud computing platform (XCloud-MoDern), as a reliable, widely-available, ultra-fast, and easy-to-use technique for highly accelerated NMR. All results demonstrate that XCloud-MoDern contributes a promising platform for further development of spectra analysis.
翻訳日:2021-04-18 20:26:52 公開日:2021-04-03
# (参考訳) 教師なしドメイン適応のためのインスタンスレベル親和性に基づく転送 [全文訳有]

Instance Level Affinity-Based Transfer for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2104.01286v1 )

ライセンス: CC BY 4.0
Astuti Sharma, Tarun Kalluri, Manmohan Chandraker(参考訳) ドメイン適応は、特定のソースドメインからの大規模ラベル付きデータを使用してトレーニングモデルを扱う。 多くの先行研究は、ソースドメインとターゲットドメインのより細かいクラス固有の構造を考慮していないグローバル分散アライメントの目的を用いて、この目的のためにドメインに依存しない特徴表現を学ぶ。 我々は,本研究でこの問題に対処し,適応中のソースからターゲットへの移動に対するインスタンス親和性に基づく基準であるira-daを提案する。 まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。 ila-daはクラス内クラスタリングとカテゴリ間のクラス間分離を同時に考慮し、ノイズの少ない分類器境界、転送性の向上、精度の向上を実現している。 ILA-DAの有効性は、様々なベンチマークデータセット上での一般的なドメイン適応手法よりも精度が一貫した改善を観察することで検証し、提案したアライメントアプローチに対する洞察を提供する。 コードはhttps://github.com/a stuti/ILA-DAで公開される。

Domain adaptation deals with training models using large scale labeled data from a specific source domain and then adapting the knowledge to certain target domains that have few or no labels. Many prior works learn domain agnostic feature representations for this purpose using a global distribution alignment objective which does not take into account the finer class specific structure in the source and target domains. We address this issue in our work and propose an instance affinity based criterion for source to target transfer during adaptation, called ILA-DA. We first propose a reliable and efficient method to extract similar and dissimilar samples across source and target, and utilize a multi-sample contrastive loss to drive the domain alignment process. ILA-DA simultaneously accounts for intra-class clustering as well as inter-class separation among the categories, resulting in less noisy classifier boundaries, improved transferability and increased accuracy. We verify the effectiveness of ILA-DA by observing consistent improvements in accuracy over popular domain adaptation approaches on a variety of benchmark datasets and provide insights into the proposed alignment approach. Code will be made publicly available at https://github.com/a stuti/ILA-DA.
翻訳日:2021-04-08 03:38:23 公開日:2021-04-03
# (参考訳) グラフニューラルネットワーク拡張のためのトポロジカル正則化 [全文訳有]

Topological Regularization for Graph Neural Networks Augmentation ( http://arxiv.org/abs/2104.02478v1 )

ライセンス: CC BY 4.0
Rui Song and Fausto Giunchiglia and Ke Zhao and Hao Xu(参考訳) グラフデータの複雑さと非ユークリッド構造は、コンピュータビジョンに類似したデータ拡張手法の開発を妨げる。 本稿では,位相構造情報をエンド・ツー・エンドモデルに導入するトポロジカル正則化に基づくグラフノードの特徴拡張手法を提案する。 具体的には,ランダムウォークに基づく教師なし表現学習手法により,ノードのトポロジー埋め込みを得る。 そして、追加特徴としてのトポロジカル埋め込みと、元のノード特徴を2つのグラフニューラルネットワークに入力して伝搬させ、2つの異なるノードの高次近傍表現を得る。 そこで本研究では,2つの異なるノード間の差異を橋渡しし,直接使用するグラフの位相的特徴による悪影響を排除し,性能を大幅に向上させる正則化手法を提案する。 我々は,モデルの有効性を証明するために,多数のデータセットについて広範な実験を行った。

The complexity and non-Euclidean structure of graph data hinder the development of data augmentation methods similar to those in computer vision. In this paper, we propose a feature augmentation method for graph nodes based on topological regularization, in which topological structure information is introduced into end-to-end model. Specifically, we first obtain topology embedding of nodes through unsupervised representation learning method based on random walk. Then, the topological embedding as additional features and the original node features are input into a dual graph neural network for propagation, and two different high-order neighborhood representations of nodes are obtained. On this basis, we propose a regularization technique to bridge the differences between the two different node representations, eliminate the adverse effects caused by the topological features of graphs directly used, and greatly improve the performance. We have carried out extensive experiments on a large number of datasets to prove the effectiveness of our model.
翻訳日:2021-04-08 03:21:42 公開日:2021-04-03
# (参考訳) 低資源音声対話システムのための意図認識と教師なしスロット識別 [全文訳有]

Intent Recognition and Unsupervised Slot Identification for Low Resourced Spoken Dialog Systems ( http://arxiv.org/abs/2104.01287v1 )

ライセンス: CC BY 4.0
Akshat Gupta, Sai Krishna Rallabandi, Alan W Black(参考訳) 音声認識とスロット識別は、音声言語理解(SLU)システムにおいて重要な要素である。 本稿では,低リソース言語と未記述言語の文脈において,これら2つのタスクに対する新しいアプローチを提案する。 音声認識システムを用いて音声を音素の書き起こしに変換する音響ベースのSLUシステムを提案する。 我々はこれらの音素転写から意図認識とスロット識別を行う単語自由自然言語理解モジュールを構築した。 提案するSLUシステムは,資源の豊富なシナリオに対して競合的に動作し,利用可能なデータ量が減少するにつれて既存の手法よりも大幅に優れる。 タミルではインテント分類が10%以上改善され,シンハラではインテント分類が5%以上向上した。 また,正規化アテンションスコアを用いた非教師なしスロット識別への新しいアプローチを提案する。 このアプローチは、教師なしスロットラベリング、データ拡張、ワンショット方式で1つの音声記録のみで新しいスロットのデータを生成するために使用することができる。

Intent Recognition and Slot Identification are crucial components in spoken language understanding (SLU) systems. In this paper, we present a novel approach towards both these tasks in the context of low resourced and unwritten languages. We present an acoustic based SLU system that converts speech to its phonetic transcription using a universal phone recognition system. We build a word-free natural language understanding module that does intent recognition and slot identification from these phonetic transcription. Our proposed SLU system performs competitively for resource rich scenarios and significantly outperforms existing approaches as the amount of available data reduces. We observe more than 10% improvement for intent classification in Tamil and more than 5% improvement for intent classification in Sinhala. We also present a novel approach towards unsupervised slot identification using normalized attention scores. This approach can be used for unsupervised slot labelling, data augmentation and to generate data for a new slot in a one-shot way with only one speech recording
翻訳日:2021-04-08 03:14:18 公開日:2021-04-03
# (参考訳) 新型コロナウイルスによる言語多様性の測定 [全文訳有]

Measuring Linguistic Diversity During COVID-19 ( http://arxiv.org/abs/2104.01290v1 )

ライセンス: CC BY 4.0
Jonathan Dunn and Tom Coupe and Benjamin Adams(参考訳) 言語多様性の計算指標は、デジタル言語データを用いて言語景観を理解するのに役立つ。 本論文は、新型コロナウイルスのパンデミックによる国際旅行制限を利用して、言語多様性の指標を校正することを目的とする。 これまでの研究は、ジオレファレンスなソーシャルメディアとWebデータを用いて言語分布をマッピングしてきた。 しかし、その目標は、根底にある個体群を推測するのではなく、これらのコーパス自身を説明することである。 本稿では,Herfindahl-Hirschma n Indexに基づく差分差分法により,非地域住民が導入するディジタルコーパスの偏りを同定できることを示す。 これらの手法は、重要な変化がどこで起きたか、それが多様性の増大または減少につながるかを示す。 これはソーシャルメディアのようなデジタルコーポラを、それらを生んだ現実世界の人口と結びつける上で重要なステップだ。

Computational measures of linguistic diversity help us understand the linguistic landscape using digital language data. The contribution of this paper is to calibrate measures of linguistic diversity using restrictions on international travel resulting from the COVID-19 pandemic. Previous work has mapped the distribution of languages using geo-referenced social media and web data. The goal, however, has been to describe these corpora themselves rather than to make inferences about underlying populations. This paper shows that a difference-in-differ ences method based on the Herfindahl-Hirschman Index can identify the bias in digital corpora that is introduced by non-local populations. These methods tell us where significant changes have taken place and whether this leads to increased or decreased diversity. This is an important step in aligning digital corpora like social media with the real-world populations that have produced them.
翻訳日:2021-04-08 03:05:49 公開日:2021-04-03
# (参考訳) 非定常時系列データにおける瞬時周波数と振幅の抽出 [全文訳有]

Extraction of instantaneous frequencies and amplitudes in nonstationary time-series data ( http://arxiv.org/abs/2104.01293v1 )

ライセンス: CC BY 4.0
Daniel E. Shea, Rajiv Giridharagopal, David S. Ginger, Steven L. Brunton, J. Nathan Kutz(参考訳) 時系列分析は科学と工学の多様な応用に不可欠である。 現代の勾配降下アルゴリズム,フーリエ変換,マルチレゾリューション解析,ベイズスペクトル解析の強みを活用することで,非定常信号の非連続性抽出を含む古典的手法の欠点の多くを回避できる,時間周波数解析へのデータ駆動アプローチを提案する。 提案手法は、非定常および非線形時間信号に対する非定常フーリエモード分解(NFMD)と等価であり、即時周波数とその振幅の正確な同定を可能にする。 ナノスケールでの帯電ダイナミクスの時間依存進化を定量化するために、カンチレバー型静電力顕微鏡のデータを含む時系列データの多様性を実証した。

Time-series analysis is critical for a diversity of applications in science and engineering. By leveraging the strengths of modern gradient descent algorithms, the Fourier transform, multi-resolution analysis, and Bayesian spectral analysis, we propose a data-driven approach to time-frequency analysis that circumvents many of the shortcomings of classic approaches, including the extraction of nonstationary signals with discontinuities in their behavior. The method introduced is equivalent to a {\em nonstationary Fourier mode decomposition} (NFMD) for nonstationary and nonlinear temporal signals, allowing for the accurate identification of instantaneous frequencies and their amplitudes. The method is demonstrated on a diversity of time-series data, including on data from cantilever-based electrostatic force microscopy to quantify the time-dependent evolution of charging dynamics at the nanoscale.
翻訳日:2021-04-08 02:55:55 公開日:2021-04-03
# (参考訳) コーパス類似度を考慮した言語品種の表現 [全文訳有]

Representations of Language Varieties Are Reliable Given Corpus Similarity Measures ( http://arxiv.org/abs/2104.01294v1 )

ライセンス: CC BY 4.0
Jonathan Dunn(参考訳) 本論文は,9言語にわたる84の言語品種間の類似度を測定した。 これらのコーパスは、デジタルソース(ウェブとツイート)から引き出され、そのような地理的参照コーパスが言語変化のモデリングに信頼できるかどうかを評価することができる。 基本的な考え方は、それぞれのソースが単一の言語を適切に表現しているならば、これらのソース間の類似性は、すべての言語と国で安定するべきであるということである。 本論文は、周波数ベースのコーパス類似度尺度を用いて、これらのソース間に一貫した合意が存在することを示す。 これは、デジタル地理参照コーパスが一貫して地方言語を表現していることのさらなる証拠となる。

This paper measures similarity both within and between 84 language varieties across nine languages. These corpora are drawn from digital sources (the web and tweets), allowing us to evaluate whether such geo-referenced corpora are reliable for modelling linguistic variation. The basic idea is that, if each source adequately represents a single underlying language variety, then the similarity between these sources should be stable across all languages and countries. The paper shows that there is a consistent agreement between these sources using frequency-based corpus similarity measures. This provides further evidence that digital geo-referenced corpora consistently represent local language varieties.
翻訳日:2021-04-08 02:41:34 公開日:2021-04-03
# (参考訳) 連想の多単位方向尺度--単語の対を超えて

Multi-Unit Directional Measures of Association: Moving Beyond Pairs of Words ( http://arxiv.org/abs/2104.01297v1 )

ライセンス: CC BY 4.0
Jonathan Dunn(参考訳) 本稿では,方向関係の一連の多単位測度を定式化・評価し,長さと表現のタイプが変化する列の関連を定量化できるペアワイズ・デルタ測度に基づいて評価する。 ペアワイズ測度の暗黙的長さ制約が放棄されると、アソシエーション測度はまた有意義なシーケンスの境界を識別しなければならない。 本稿では,18個の一意な尺度を用いて複数単位関係の異なる側面を記述することにより,セグメンテーション問題に対するベクトルベースアプローチを提案する。 これらの測度を8つの言語で調べると、それらは言語間で安定であり、それぞれが関連するシーケンスのユニークなランクを提供することを示している。 これらの測度は、様々な長さと表現のタイプにまたがって一般化することで、コーパスに基づく関連性へのアプローチを拡張する。

This paper formulates and evaluates a series of multi-unit measures of directional association, building on the pairwise {\Delta}P measure, that are able to quantify association in sequences of varying length and type of representation. Multi-unit measures face an additional segmentation problem: once the implicit length constraint of pairwise measures is abandoned, association measures must also identify the borders of meaningful sequences. This paper takes a vector-based approach to the segmentation problem by using 18 unique measures to describe different aspects of multi-unit association. An examination of these measures across eight languages shows that they are stable across languages and that each provides a unique rank of associated sequences. Taken together, these measures expand corpus-based approaches to association by generalizing across varying lengths and types of representation.
翻訳日:2021-04-08 02:31:30 公開日:2021-04-03
# (参考訳) 構造に基づく弁証法における変種探索--コーパスに基づく地域cxgsへのアプローチ

Finding Variants for Construction-Based Dialectometry: A Corpus-Based Approach to Regional CxGs ( http://arxiv.org/abs/2104.01299v1 )

ライセンス: CC BY 4.0
Jonathan Dunn(参考訳) 本稿では, 既知構造を同定し, 所定の構成が局所的変動の対象となる程度を計測できる構築型弁証法を開発した。 中心となる考え方は、構成文法帰納法を用いて構成文法(CxG)を学習し、これらの構成を弁証法の特徴として利用することである。 これにより, 局所的なCxG間の集合類似度を, 変動を受ける構成の集合を予め制限することなく測定することができる。 学習したCxGはホールドアウトテストコーパスをどの程度うまく記述するかを評価する一方、弁証法は地域英語の多様性をいかにモデル化できるかを評価する。 Themethodは2つの異なるデータセットを用いてテストされている: まず、国際英語コーパスは8つの外円の変種を表す。 その結果,(1) は, 単一コーパスのサブセットにまたがる安定な品質の文法を生成し, (2) 高度に精度の高い地域英語の変種を識別できるため, (3) 英語の変種間の類似性を推定するための弁証法, (4) それぞれの構成が地域的変動の対象となる度合いを計測する。 これは認知社会言語学にとって重要である。なぜなら、構造間の競合は機能レベルで組織化され、弁証法が利用可能な機能空間をできるだけ多く表現する必要がある、という考えを運用するからである。

This paper develops a construction-based dialectometry capable of identifying previously unknown constructions and measuring the degree to which a given construction is subject to regional variation. The central idea is to learn a grammar of constructions (a CxG) using construction grammar induction and then to use these constructions as features for dialectometry. This offers a method for measuring the aggregate similarity between regional CxGs without limiting in advance the set of constructions subject to variation. The learned CxG is evaluated on how well it describes held-out test corpora while dialectometry is evaluated on how well it can model regional varieties of English. Themethod is tested using two distinct datasets: First, the International Corpus of English representing eight outer circle varieties; Second, a web-crawled corpus representing five inner circle varieties. Results show that themethod (1) produces a grammar with stable quality across sub-sets of a single corpus that is (2) capable of distinguishing between regional varieties of Englishwith a high degree of accuracy, thus (3) supporting dialectometricmethod s formeasuring the similarity between varieties of English and (4) measuring the degree to which each construction is subject to regional variation. This is important for cognitive sociolinguistics because it operationalizes the idea that competition between constructions is organized at the functional level so that dialectometry needs to represent as much of the available functional space as possible.
翻訳日:2021-04-08 02:30:38 公開日:2021-04-03
# (参考訳) 7言語におけるグローバル・シンタクティックな変化--計算辞書を目指して

Global Syntactic Variation in Seven Languages: Towards a Computational Dialectology ( http://arxiv.org/abs/2104.01306v1 )

ライセンス: CC BY 4.0
Jonathan Dunn(参考訳) 本研究の目的は,グローバルスケールでの地域言語変化の完全な表現を提供することである。 そこで本研究では,これまで方言・方言学に限られていた3つの制約を取り除くことに焦点を当てた。 まず,固定的かつ不完全な変種集合を仮定する代わりに,計算構成文法を用いて,構文特徴の複製可能かつ偽造可能な集合を提供する。 第2に、特定の関心領域を仮定するのではなく、Webcrawledおよびソーシャルメディアデータセットに基づくグローバル言語マッピングを用いて、国産品種の選択を決定する。 第3に、一つの言語を単独で見るのではなく、アラビア語、英語、フランス語、ドイツ語、ポルトガル語、ロシア語、スペイン語の7つの主要言語を同じ手法でモデル化する。 その結果,各言語のモデルは,より単純な構文的特徴を用いることよりも,コンストラクション文法を用いて保留サンプルの領域を確実に予測できることがわかった。 これらのグローバルスケールの実験は、計算社会言語学の新しい手法は、言語の変化や大規模変化を理解するのに不可欠な、より一般化された地域的変動モデルを提供することができると主張している。

The goal of this paper is to provide a complete representation of regional linguistic variation on a global scale. To this end, the paper focuses on removing three constraints that have previously limited work within dialectology/dialect ometry. First, rather than assuming a fixed and incomplete set of variants, we use Computational Construction Grammar to provide a replicable and falsifiable set of syntactic features. Second, rather than assuming a specific area of interest, we use global language mapping based on web-crawled and social media datasets to determine the selection of national varieties. Third, rather than looking at a single language in isolation, we model seven major languages together using the same methods: Arabic, English, French, German, Portuguese, Russian, and Spanish. Results show that models for each language are able to robustly predict the region-of-origin of held-out samples better using Construction Grammars than using simpler syntactic features. These global-scale experiments are used to argue that new methods in computational sociolinguistics are able to provide more generalized models of regional variation that are essential for understanding language variation and change at scale.
翻訳日:2021-04-08 02:29:28 公開日:2021-04-03
# (参考訳) ニューラルタンジェントカーネルのランダム特性 [全文訳有]

Random Features for the Neural Tangent Kernel ( http://arxiv.org/abs/2104.01351v1 )

ライセンス: CC BY 4.0
Insu Han, Haim Avron, Neta Shoham, Chaewon Kim, Jinwoo Shin(参考訳) neural tangent kernel (ntk) は、最適化と一般化の洞察を持つディープニューラルネットワークとカーネルメソッドの間の接続を発見した。 これに触発された最近の研究報告では、NTKは小規模データセットでのニューラルネットワークのトレーニングよりもパフォーマンスが向上している。 しかし,カーネル手法の計算量制限により,大規模環境下での結果はほとんど研究されていない。 本研究では,完全接続型ReLUネットワークのNTKの効率的な特徴マップ構築を提案し,大規模データセットに適用する。 本研究では,arc-cosineカーネルのランダムな特徴と,データ点数と入力次元の両方について線形に動作可能なスケッチベースアルゴリズムを組み合わせる。 その結果得られた特徴の次元は他の基本機能マップ構成よりもはるかに小さく、理論と実践の両方において同等の誤差境界を達成することが示されている。 また、2層ニューラルネットワークのNTK行列に対する提案した特徴写像のスペクトル近似を保証するために、レバレッジスコアに基づくサンプリングを改良したアークコサインランダム特徴量に適用する。 提案手法の優位性を示すため,様々な機械学習タスクをベンチマークする。 特に,我々のアルゴリズムは,性能損失のない大規模設定において,正確なカーネル手法よりも数十倍高速に動作可能である。

The Neural Tangent Kernel (NTK) has discovered connections between deep neural networks and kernel methods with insights of optimization and generalization. Motivated by this, recent works report that NTK can achieve better performances compared to training neural networks on small-scale datasets. However, results under large-scale settings are hardly studied due to the computational limitation of kernel methods. In this work, we propose an efficient feature map construction of the NTK of fully-connected ReLU network which enables us to apply it to large-scale datasets. We combine random features of the arc-cosine kernels with a sketching-based algorithm which can run in linear with respect to both the number of data points and input dimension. We show that dimension of the resulting features is much smaller than other baseline feature map constructions to achieve comparable error bounds both in theory and practice. We additionally utilize the leverage score based sampling for improved bounds of arc-cosine random features and prove a spectral approximation guarantee of the proposed feature map to the NTK matrix of two-layer neural network. We benchmark a variety of machine learning tasks to demonstrate the superiority of the proposed scheme. In particular, our algorithm can run tens of magnitude faster than the exact kernel methods for large-scale settings without performance loss.
翻訳日:2021-04-08 02:28:30 公開日:2021-04-03
# (参考訳) n-gramからlindenmayerシステム内の木へ [全文訳有]

From n-grams to trees in Lindenmayer systems ( http://arxiv.org/abs/2104.01363v1 )

ライセンス: CC BY 4.0
Diego Gabriel Krivochen(参考訳) 本稿では,Lindenmayerシステムに対する2つのアプローチを提案する。ルールベース(もしくは生成的)アプローチは,Thue書き換えシステムとしてのLシステムに焦点をあて,制約ベース(またはモデル理論)アプローチは言語における許容表現よりも条件を優先してルールを放棄する(Pullum,2019)。 我々は、L-システムの少なくとも一部とそれらが生成する言語に対して、弦の許容条件(3つの法則)を局所木許容条件(cf)にマッピングすることは可能であると論じる。 ロジャース、1997年)。 これはこれらの言語のモデルを定義することと等価である。 我々は,表層的な表現制約のみを仮定した構造の構築方法について検討し,特定のl言語の表現が満足すべき制約の集合を定義する。 他の方法が区別するL-系が同じモデルを満たすことが分かる。

In this paper we present two approaches to Lindenmayer systems: the rule-based (or generative) approach, which focuses on L-systems as Thue rewriting systems and a constraint-based (or model-theoretic) approach, in which rules are abandoned in favour of conditions over allowable expressions in the language (Pullum, 2019). We will argue that it is possible, for at least a subset of L-systems and the languages they generate, to map string admissibility conditions (the 'Three Laws') to local tree admissibility conditions (cf. Rogers, 1997). This is equivalent to defining a model for those languages. We will work out how to construct structure assuming only superficial constraints on expressions, and define a set of constraints that well-formed expressions of specific L-languages must satisfy. We will see that L-systems that other methods distinguish turn out to satisfy the same model.
翻訳日:2021-04-08 01:40:55 公開日:2021-04-03
# (参考訳) ベイズフレームワークによるブラックボックスモデル最適化のためのニューラルプロセス [全文訳有]

Neural Process for Black-Box Model Optimization Under Bayesian Framework ( http://arxiv.org/abs/2104.02487v1 )

ライセンス: CC0 1.0
Zhongkai Shangguan and Lei Lin and Wencheng Wu and Beilei Xu(参考訳) 物理モデルには、モデルパラメータと出力の関係が未知あるいは追跡が難しい、多くの最適化問題が存在する。 これらのモデルは一般にブラックボックスモデルと名付けられ、内部動作の知識なしに入力や出力の観点でしか見ることができない。 ブラックボックスモデルのパラメータの最適化はますます高価になり、複雑になるにつれて時間がかかります。 そのため,効率的なブラックボックスモデル最適化アルゴリズムの開発が重要な課題となっている。 そのような問題を解決する強力なアルゴリズムの1つはベイズ最適化であり、最高の性能をもたらすモデルパラメータを効果的に推定し、ガウス過程(GP)はベイズ最適化において最も広く使われている代理モデルの一つである。 しかし、GPの時間的複雑さは観測されたモデル出力の数に対して立方的にスケールし、GPも大きなパラメータ次元でうまくスケールしない。 その結果、gpが多くの観測やパラメータをクエリする必要があるブラックボックスモデルを最適化することは困難である。 本研究では,GPの欠点を克服するため,NP(Neural Process for Bayesian Optimization)と呼ばれるブラックボックスモデル最適化を行うために,NP(Neural Process)をサロゲートモデルとして用いた一般ベイズ最適化アルゴリズムを提案する。 npboの利点を検証するために,電力系統パラメータ最適化問題と7つのベンチマークベイズ最適化問題に関して,npboを4つのベンチマーク手法と比較した。 その結果,提案するnpboは,電力系統パラメータ最適化問題や7つのベンチマーク問題において,他の4つのベンチマーク手法よりも優れた性能を示すことがわかった。

There are a large number of optimization problems in physical models where the relationships between model parameters and outputs are unknown or hard to track. These models are named as black-box models in general because they can only be viewed in terms of inputs and outputs, without knowledge of the internal workings. Optimizing the black-box model parameters has become increasingly expensive and time consuming as they have become more complex. Hence, developing effective and efficient black-box model optimization algorithms has become an important task. One powerful algorithm to solve such problem is Bayesian optimization, which can effectively estimates the model parameters that lead to the best performance, and Gaussian Process (GP) has been one of the most widely used surrogate model in Bayesian optimization. However, the time complexity of GP scales cubically with respect to the number of observed model outputs, and GP does not scale well with large parameter dimension either. Consequently, it has been challenging for GP to optimize black-box models that need to query many observations and/or have many parameters. To overcome the drawbacks of GP, in this study, we propose a general Bayesian optimization algorithm that employs a Neural Process (NP) as the surrogate model to perform black-box model optimization, namely, Neural Process for Bayesian Optimization (NPBO). In order to validate the benefits of NPBO, we compare NPBO with four benchmark approaches on a power system parameter optimization problem and a series of seven benchmark Bayesian optimization problems. The results show that the proposed NPBO performs better than the other four benchmark approaches on the power system parameter optimization problem and competitively on the seven benchmark problems.
翻訳日:2021-04-08 01:22:37 公開日:2021-04-03
# カモフラージュ物体検出のための相互グラフ学習

Mutual Graph Learning for Camouflaged Object Detection ( http://arxiv.org/abs/2104.02613v1 )

ライセンス: Link先を確認
Qiang Zhai, Xin Li, Fan Yang, Chenglizhao Chen, Hong Cheng, Deng-Ping Fan(参考訳) 現在のモデルでは、周囲とブレンドするオブジェクトを自動的に検出/segmentingするのは難しい。 主な課題は、これらの前景オブジェクトと背景環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。 この課題を克服するために、理想的なモデルは、与えられたシーンから価値ある余分な手がかりを探し出し、それらを共同学習フレームワークに組み込むことができるべきである。 この着想を得て、正規格子からグラフ領域への従来の相互学習のアイデアを一般化した、新しい相互グラフ学習(mgl)モデルを設計する。 具体的には、MGLはイメージを2つのタスク固有の特徴マップ(ターゲットを大まかに特定するマップと境界の詳細を正確に把握するマップ)に分離し、グラフを通じて高次関係を連続的に推論することで相互利益を完全に活用する。 重要なことは、すべてのタスク間相互作用をモデル化するために共有関数を使用するほとんどの相互学習アプローチとは対照的に、MGLは情報相互作用を最大化するために異なる補完関係を扱うための型付き関数を備えている。 CHAMELEON、CAMO、COD10Kといった挑戦的なデータセットの実験は、既存の最先端手法よりも優れたパフォーマンスでMGLの有効性を実証している。

Automatically detecting/segmenting object(s) that blend in with their surroundings is difficult for current models. A major challenge is that the intrinsic similarities between such foreground objects and background surroundings make the features extracted by deep model indistinguishable. To overcome this challenge, an ideal model should be able to seek valuable, extra clues from the given scene and incorporate them into a joint learning framework for representation co-enhancement. With this inspiration, we design a novel Mutual Graph Learning (MGL) model, which generalizes the idea of conventional mutual learning from regular grids to the graph domain. Specifically, MGL decouples an image into two task-specific feature maps -- one for roughly locating the target and the other for accurately capturing its boundary details -- and fully exploits the mutual benefits by recurrently reasoning their high-order relations through graphs. Importantly, in contrast to most mutual learning approaches that use a shared function to model all between-task interactions, MGL is equipped with typed functions for handling different complementary relations to maximize information interactions. Experiments on challenging datasets, including CHAMELEON, CAMO and COD10K, demonstrate the effectiveness of our MGL with superior performance to existing state-of-the-art methods.
翻訳日:2021-04-07 14:02:19 公開日:2021-04-03
# (参考訳) 世代差分法による画素ノイズと空間アーチファクトの除去 [全文訳有]

Removing Pixel Noises and Spatial Artifacts with Generative Diversity Denoising Methods ( http://arxiv.org/abs/2104.01374v1 )

ライセンス: CC BY 4.0
Mangal Prakash, Mauricio Delbracio, Peyman Milanfar, Florian Jug(参考訳) 画像のデノゲーションとアーティファクトの除去は多くの潜在的な解決策を認める複雑な逆問題である。 変分オートエンコーダ (VAEs) は、有効な解全体の分布を学習するために使用することができ、そこから効率的にサンプリングすることができる。 しかし、このような画像復元に対する生成的アプローチは、画素単位のノイズ除去(例えば)の文脈でのみ研究されている。 Poisson または Gaussian noise)。 重要ではあるが、多くのアプリケーションドメインは、関連づけられた方法でピクセルのグループを変更するアーティファクト(構造化ノイズ)のイメージングに苦しむ。 本研究は,GDD(Generative diversity denoising)アプローチが,教師なしの構造化ノイズの除去を学習できることを初めて示す。 この目的のために,既存の2つのgddアーキテクチャを調査し,階層的vaesに基づく新しい手法を導入し,その性能を構造的ノイズ(トモグラフィ再構成や顕微鏡的人工物など)の5つの音源における7つの最先端ベースライン法と比較する。 GDD法はすべての教師なしベースラインより優れており、多くの場合、監督された結果よりもはるかに遅れていない(時にはその代わりになることもある)。 構造的ノイズ除去に加えて,新しいGDD法により,画素ノイズ除去のための8つのベンチマークデータセットのうち7つに対して,新たなSOTA(State-of-the-ar t)結果が得られた。 最後に、GDD法が取り除くような構造的ノイズを、保持したい画像信号とどのように区別するかという、恐ろしい疑問について、洞察を提供する。

Image denoising and artefact removal are complex inverse problems admitting many potential solutions. Variational Autoencoders (VAEs) can be used to learn a whole distribution of sensible solutions, from which one can sample efficiently. However, such a generative approach to image restoration is only studied in the context of pixel-wise noise removal (e.g. Poisson or Gaussian noise). While important, a plethora of application domains suffer from imaging artefacts (structured noises) that alter groups of pixels in correlated ways. In this work we show, for the first time, that generative diversity denoising (GDD) approaches can learn to remove structured noises without supervision. To this end, we investigate two existing GDD architectures, introduce a new one based on hierarchical VAEs, and compare their performances against a total of seven state-of-the-art baseline methods on five sources of structured noise (including tomography reconstruction artefacts and microscopy artefacts). We find that GDD methods outperform all unsupervised baselines and in many cases not lagging far behind supervised results (in some occasions even superseding them). In addition to structured noise removal, we also show that our new GDD method produces new state-of-the-art (SOTA) results on seven out of eight benchmark datasets for pixel-noise removal. Finally, we offer insights into the daunting question of how GDD methods distinguish structured noise, which we like to see removed, from image signals, which we want to see retained.
翻訳日:2021-04-07 13:38:57 公開日:2021-04-03
# (参考訳) 遠隔センシングにおけるマルチラベルディープラーニング分類タスクのための説明可能な人工知能手法の評価

Evaluating Explainable Artificial Intelligence Methods for Multi-label Deep Learning Classification Tasks in Remote Sensing ( http://arxiv.org/abs/2104.01375v1 )

ライセンス: CC BY 4.0
Ioannis Kakogeorgiou and Konstantinos Karantzalos(参考訳) 深層ニューラルネットワークは、いくつかのリモートセンシングタスクにおいて最先端を保っているが、そのブラックボックス操作は、その決定の理解を妨げ、データセットやモデルパフォーマンスにおけるバイアスやその他の欠点を隠蔽する。 この目的のために,遠隔操作型多ラベル分類タスクに説明可能な人工知能(XAI)手法を適用し,人間の解釈可能な説明を作成し,透明性を向上させる。 特に、ベンチマークbigearthnetとsen12msデータセットで最先端のパフォーマンスを持つディープラーニングモデルを開発した。 モデル予測の理解と解釈に10のXAI手法が用いられ,その性能評価と比較のための定量的指標が得られた。 XAI手法の総合的な性能を評価するために,複数ラベルの競合,誤分類など,数多くの実験を行った。 以上より,Occlusion,Grad-CAM, Limeは最も理解し,信頼性の高いXAI法であった。 しかし、Grad-CAMとは別に、LimeとOcclusionはどちらも計算的に高価である。 また、XAIパフォーマンスのさまざまな側面を強調し、透明性を改善し、その振る舞いを理解し、データセットの特異性を明らかにするために、ブラックボックスの決定に関する洞察を精査しています。

Although deep neural networks hold the state-of-the-art in several remote sensing tasks, their black-box operation hinders the understanding of their decisions, concealing any bias and other shortcomings in datasets and model performance. To this end, we have applied explainable artificial intelligence (XAI) methods in remote sensing multi-label classification tasks towards producing human-interpretable explanations and improve transparency. In particular, we developed deep learning models with state-of-the-art performance in the benchmark BigEarthNet and SEN12MS datasets. Ten XAI methods were employed towards understanding and interpreting models' predictions, along with quantitative metrics to assess and compare their performance. Numerous experiments were performed to assess the overall performance of XAI methods for straightforward prediction cases, competing multiple labels, as well as misclassification cases. According to our findings, Occlusion, Grad-CAM and Lime were the most interpretable and reliable XAI methods. However, none delivers high-resolution outputs, while apart from Grad-CAM, both Lime and Occlusion are computationally expensive. We also highlight different aspects of XAI performance and elaborate with insights on black-box decisions in order to improve transparency, understand their behavior and reveal, as well, datasets' particularities.
翻訳日:2021-04-07 13:15:59 公開日:2021-04-03
# (参考訳) speechocean762: 発音評価のためのオープンソースの非ネイティブ音声コーパス [全文訳有]

speechocean762: An Open-Source Non-native English Speech Corpus For Pronunciation Assessment ( http://arxiv.org/abs/2104.01378v1 )

ライセンス: CC BY 4.0
Junbo Zhang, Zhiwen Zhang, Yongqing Wang, Zhiyong Yan, Qiong Song, Yukai Huang, Ke Li, Daniel Povey and Yujun Wang(参考訳) 本稿では, 話者の半数が子供である250人の非母語話者から5,000人の英語を話すことで, 発音評価のためのオープンソースの音声コーパス「speechocean762」を提案する。 5名の専門家が各発話を文レベル,単語レベル,音素レベルで注釈した。 ベースラインシステムはオープンソースでリリースされ、このコーパスの音素レベルの発音評価ワークフローを説明する。 このコーパスは、商業および非商業目的で自由に使用することができる。 OpenSLRから無料でダウンロードでき、対応するベースラインシステムはKaldi音声認識ツールキットで公開されている。

This paper introduces a new open-source speech corpus named "speechocean762" designed for pronunciation assessment use, consisting of 5000 English utterances from 250 non-native speakers, where half of the speakers are children. Five experts annotated each of the utterances at sentence-level, word-level and phoneme-level. A baseline system is released in open source to illustrate the phoneme-level pronunciation assessment workflow on this corpus. This corpus is allowed to be used freely for commercial and non-commercial purposes. It is available for free download from OpenSLR, and the corresponding baseline system is published in the Kaldi speech recognition toolkit.
翻訳日:2021-04-07 13:14:45 公開日:2021-04-03
# (参考訳) MMBERT:Multimodal BERT Pretraining for Improved Medical VQA [全文訳有]

MMBERT: Multimodal BERT Pretraining for Improved Medical VQA ( http://arxiv.org/abs/2104.01394v1 )

ライセンス: CC BY 4.0
Yash Khare, Viraj Bagal, Minesh Mathew, Adithi Devi, U Deva Priyakumar, CV Jawahar(参考訳) 医療領域の画像は、一般的なドメイン画像と根本的に異なる。 したがって、医学領域に一般ドメイン視覚質問応答(vqa)モデルを直接採用することは不可能である。 さらに、医用画像アノテーションはコストと時間を要するプロセスである。 これらの制約を克服するために,NLP,ビジョン,言語タスクのためのトランスフォーマースタイルアーキテクチャの自己教師型事前学習にヒントを得たソリューションを提案する。 本手法は,大規模医用画像+キャプチャデータセットのプリテキストタスクとして画像特徴を用いたマスク言語モデリング(mlm)を用いて,よりリッチな医用画像とテキスト意味表現を学習する。 提案されたソリューションは、放射線画像用の2つのVQAデータセット(VQA-Med 2019とVQA-RAD)に対して、最先端のパフォーマンスを新たに達成し、以前のベストソリューションのアンサンブルモデルよりも優れています。 さらに,本手法はモデル解釈の助けとなる注意マップを提供する。 コードはhttps://github.com/V irajBagal/MMBERTで入手できる。

Images in the medical domain are fundamentally different from the general domain images. Consequently, it is infeasible to directly employ general domain Visual Question Answering (VQA) models for the medical domain. Additionally, medical images annotation is a costly and time-consuming process. To overcome these limitations, we propose a solution inspired by self-supervised pretraining of Transformer-style architectures for NLP, Vision and Language tasks. Our method involves learning richer medical image and text semantic representations using Masked Language Modeling (MLM) with image features as the pretext task on a large medical image+caption dataset. The proposed solution achieves new state-of-the-art performance on two VQA datasets for radiology images -- VQA-Med 2019 and VQA-RAD, outperforming even the ensemble models of previous best solutions. Moreover, our solution provides attention maps which help in model interpretability. The code is available at https://github.com/V irajBagal/MMBERT
翻訳日:2021-04-07 13:06:23 公開日:2021-04-03
# (参考訳) 非ホモフィラスグラフの学習のための新しいベンチマーク [全文訳有]

New Benchmarks for Learning on Non-Homophilous Graphs ( http://arxiv.org/abs/2104.01404v1 )

ライセンス: CC BY 4.0
Derek Lim, Xiuyu Li, Felix Hohne, Ser-Nam Lim(参考訳) グラフ構造を持つ多くのデータはホモフィリーの原理を満たすため、連結ノードは特定の属性に関して類似する傾向がある。 このように、グラフ機械学習タスクのためのユビキタスデータセットは一般的に非常にホモフィル性が高く、帰納的バイアスとしてホモフィリーを利用する報奨方法である。 近年の研究では、新しい非ホモフィル性データセットが導入され、低ホモフィル環境に適したグラフ表現学習モデルが開発されている。 しかし、これらのデータセットは小さく、好ましくない設定で新しい手法の有効性を真にテストするのに不適である。 ホモフィリー原理を満たさないノードラベル関係を持つ改良されたグラフデータセットを多数提示する。 これに加えて, 異なる体制における既存の措置よりも適したホモフィリーの有無について, 新たな尺度を提案する。 提案するデータセットにまたがる単純な手法とグラフニューラルネットワークをベンチマークし、さらなる研究のための新たな洞察を導き出した。 データとコードはhttps://github.com/C UAI/Non-Homophily-Be nchmarksで見ることができる。

Much data with graph structures satisfy the principle of homophily, meaning that connected nodes tend to be similar with respect to a specific attribute. As such, ubiquitous datasets for graph machine learning tasks have generally been highly homophilous, rewarding methods that leverage homophily as an inductive bias. Recent work has pointed out this particular focus, as new non-homophilous datasets have been introduced and graph representation learning models better suited for low-homophily settings have been developed. However, these datasets are small and poorly suited to truly testing the effectiveness of new methods in non-homophilous settings. We present a series of improved graph datasets with node label relationships that do not satisfy the homophily principle. Along with this, we introduce a new measure of the presence or absence of homophily that is better suited than existing measures in different regimes. We benchmark a range of simple methods and graph neural networks across our proposed datasets, drawing new insights for further research. Data and codes can be found at https://github.com/C UAI/Non-Homophily-Be nchmarks.
翻訳日:2021-04-07 13:00:34 公開日:2021-04-03
# (参考訳) IDOL-Net:CT金属アーチファクト低減のための対話型デュアルドメイン並列ネットワーク [全文訳有]

IDOL-Net: An Interactive Dual-Domain Parallel Network for CT Metal Artifact Reduction ( http://arxiv.org/abs/2104.01405v1 )

ライセンス: CC BY 4.0
Tao Wang, Wenjun Xia, Zexin Lu, Huaiqiang Sun, Yan Liu, Hu Chen, Jiliu Zhou, Yi Zhang(参考訳) 金属インプラントの存在によりCT(Computerd tomography)の画質は著しく低下した。 ディープラーニングの急速な発展に伴い、金属人工物削減(MAR)のためのネットワークモデルがいくつか提案されている。 デュアルドメインのmar法はsinogramとimage domainの両方のハイブリッド情報を活用できるため、単一ドメインのメソッドに比べて性能が大幅に向上している。 しかし、現在の二重ドメインメソッドは通常、特定の順序で両方のドメイン上で動作し、MARに特定の優先順位を暗黙的に課し、両方のドメイン間の潜む情報相互作用を無視する。 そこで本稿では,この問題を解決するために,idolnetと呼ばれる,インタラクティブなct mar用デュアルドメイン並列ネットワークを提案する。 既存のデュアルドメインメソッドとは異なり、提案したIDOL-Netは2つのモジュールから構成される。 不等角化モジュールを用いて、補足入力として高品質の先行シンノグラム及び画像を生成する。 フォローアップリファインメントモジュールは、2つの並列およびインタラクティブなブランチで構成され、イメージドメインとシングラムドメインを同時に操作し、両方のドメイン間の潜在情報インタラクションを完全に活用する。 シミュレーションおよび臨床実験の結果,提案したIDOL-Netは質的,定量的両面においていくつかの最先端モデルを上回る性能を示した。

Due to the presence of metallic implants, the imaging quality of computed tomography (CT) would be heavily degraded. With the rapid development of deep learning, several network models have been proposed for metal artifact reduction (MAR). Since the dual-domain MAR methods can leverage the hybrid information from both sinogram and image domains, they have significantly improved the performance compared to single-domain methods. However,current dual-domain methods usually operate on both domains in a specific order, which implicitly imposes a certain priority prior into MAR and may ignore the latent information interaction between both domains. To address this problem, in this paper, we propose a novel interactive dualdomain parallel network for CT MAR, dubbed as IDOLNet. Different from existing dual-domain methods, the proposed IDOL-Net is composed of two modules. The disentanglement module is utilized to generate high-quality prior sinogram and image as the complementary inputs. The follow-up refinement module consists of two parallel and interactive branches that simultaneously operate on image and sinogram domain, fully exploiting the latent information interaction between both domains. The simulated and clinical results demonstrate that the proposed IDOL-Net outperforms several state-of-the-art models in both qualitative and quantitative aspects.
翻訳日:2021-04-07 12:45:50 公開日:2021-04-03
# (参考訳) Diff-TTS:テキストから音声への拡散モデル [全文訳有]

Diff-TTS: A Denoising Diffusion Model for Text-to-Speech ( http://arxiv.org/abs/2104.01409v1 )

ライセンス: CC BY 4.0
Myeonghun Jeong, Hyeongju Kim, Sung Jun Cheon, Byoung Jin Choi, and Nam Soo Kim(参考訳) ニューラルテキスト音声(TTS)モデルは、多くの注目を集め、人間のような音声を生成することに成功したが、その自然性とアーキテクチャ効率を改善する余地はまだ残っている。 本研究では,高自然かつ効率的な音声合成を実現する非自己回帰型TSモデルDiff-TTSを提案する。 テキストからDiff-TTSは、拡散時間ステップを介してノイズ信号をメルスペクトルに変換するために、ノイズ拡散フレームワークを利用する。 テキスト上で条件付きメル-スペクトログラム分布を学習するために,TSの確率に基づく最適化手法を提案する。 さらに, 推定速度を高めるために, diff-ttsが知覚品質を著しく低下させることなく, 生波形を高速に生成できる高速化サンプリング法を応用した。 実験により、Diff-TTSはNVIDIA 2080Ti GPUでリアルタイムよりも28倍高速に生成されることを確認した。

Although neural text-to-speech (TTS) models have attracted a lot of attention and succeeded in generating human-like speech, there is still room for improvements to its naturalness and architectural efficiency. In this work, we propose a novel non-autoregressive TTS model, namely Diff-TTS, which achieves highly natural and efficient speech synthesis. Given the text, Diff-TTS exploits a denoising diffusion framework to transform the noise signal into a mel-spectrogram via diffusion time steps. In order to learn the mel-spectrogram distribution conditioned on the text, we present a likelihood-based optimization method for TTS. Furthermore, to boost up the inference speed, we leverage the accelerated sampling method that allows Diff-TTS to generate raw waveforms much faster without significantly degrading perceptual quality. Through experiments, we verified that Diff-TTS generates 28 times faster than the real-time with a single NVIDIA 2080Ti GPU.
翻訳日:2021-04-07 12:34:23 公開日:2021-04-03
# (参考訳) 深部強化学習型IRS支援ダウンリンクNOMA [全文訳有]

Deep Reinforcement Learning Powered IRS-Assisted Downlink NOMA ( http://arxiv.org/abs/2104.01414v1 )

ライセンス: CC BY 4.0
Muhammad Shehab, Bekir S. Ciftler, Tamer Khattab, Mohamed Abdallah, and Daniele Trinchero(参考訳) 本研究では、ユーザの総和率を最大化するために、インテリジェント反射面(IRS)を利用したダウンリンク非直交多重アクセス(NOMA)シナリオを検討する。 IRSにおける最適化問題は、位相シフト反射行列のチューニングを必要とするため、非常に複雑で非凸である。 非凸最適化問題に対処可能な深部強化学習(DRL)技術の展開が増加する中で,我々はDRLを用いてIRS位相シフト行列の予測と最適調整を行う。 シミュレーションの結果,我々の利用したDRL方式に基づくIRS支援NOMAはOMA方式に比べて高い総和率を実現し,送信電力の増加に伴い,より多くのユーザに提供する能力が向上することがわかった。 さらに、不完全な逐次干渉キャンセル(SIC)がSICを行うユーザのデータレートに悪影響を及ぼすことを示す。 不完全性が10倍に増加すると、その率は10%以上減少する。

In this work, we examine an intelligent reflecting surface (IRS) assisted downlink non-orthogonal multiple access (NOMA) scenario with the aim of maximizing the sum rate of users. The optimization problem at the IRS is quite complicated, and non-convex, since it requires the tuning of the phase shift reflection matrix. Driven by the rising deployment of deep reinforcement learning (DRL) techniques that are capable of coping with solving non-convex optimization problems, we employ DRL to predict and optimally tune the IRS phase shift matrices. Simulation results reveal that IRS assisted NOMA based on our utilized DRL scheme achieves high sum rate compared to OMA based one, and as the transmit power increases, the capability of serving more users increases. Furthermore, results show that imperfect successive interference cancellation (SIC) has a deleterious impact on the data rate of users performing SIC. As the imperfection increases by ten times, the rate decreases by more than 10%.
翻訳日:2021-04-07 12:24:26 公開日:2021-04-03
# (参考訳) 教師なし外乱モデル選択に関する大規模研究:内部モデル評価戦略の評価 [全文訳有]

A Large-scale Study on Unsupervised Outlier Model Selection: Evaluating the Internal Model Evaluation Strategies ( http://arxiv.org/abs/2104.01422v1 )

ライセンス: CC BY 4.0
Martin Q. Ma, Yue Zhao, Xiaorong Zhang, Leman Akoglu(参考訳) 教師なしの外れ値検出タスクが与えられたら、どうやって検出アルゴリズムとハイパーパラメータ(共同でモデルと呼ぶ)を選択するべきか? 非教師なしモデル選択は、接地トラスラベルによるホールドアウト検証データがないことで悪名高い。 そのため、この問題は非常に未解決である。 本研究では,外乱検出のためのモデル選択のための内部モデル評価戦略の適用可能性について検討する。 これらのいわゆる内部戦略は、(ラベルなしで)入力データと候補モデルの出力(外部スコア)にのみ依存する。 39の検知タスクと8つの検出器と様々なハイパーパラメータ構成からなる297の候補モデルを備えた大規模なテストベッドをセットアップ(およびオープンソース化)する。 モデルw.r.tの識別能力に関する7つの異なる戦略を評価する。 ラベルを使わずに 性能を検出する 我々の研究は進歩の余地を明らかにします -- 彼らは(ランダムな構成で)最先端の検出器に匹敵するモデルを選択するので、実際は役に立ちません。

Given an unsupervised outlier detection task, how should one select a detection algorithm as well as its hyperparameters (jointly called a model)? Unsupervised model selection is notoriously difficult, in the absence of hold-out validation data with ground-truth labels. Therefore, the problem is vastly understudied. In this work, we study the feasibility of employing internal model evaluation strategies for selecting a model for outlier detection. These so-called internal strategies solely rely on the input data (without labels) and the output (outlier scores) of the candidate models. We setup (and open-source) a large testbed with 39 detection tasks and 297 candidate models comprised of 8 detectors and various hyperparameter configurations. We evaluate 7 different strategies on their ability to discriminate between models w.r.t. detection performance, without using any labels. Our study reveals room for progress -- we find that none would be practically useful, as they select models only comparable to a state-of-the-art detector (with random configuration).
翻訳日:2021-04-07 12:13:01 公開日:2021-04-03
# (参考訳) GANを用いたSDEのモンテカルロシミュレーション [全文訳有]

Monte Carlo Simulation of SDEs using GANs ( http://arxiv.org/abs/2104.01437v1 )

ライセンス: CC BY 4.0
Jorino van Rhijn, Cornelis W. Oosterlee, Lech A. Grzelak, Shuaiqiang Liu(参考訳) generative adversarial networks (gans) は偏微分方程式や金融時系列生成に適用すると有望な結果が得られる。 GANが一次元伊藤確率微分方程式(SDE)の近似にも使えるかどうかを検討する。 本研究では,SDEの経路的条件分布を大規模ステップで近似する手法を提案する。 標準GANは分布の過程を近似できるだけであり、SDEに弱い近似をもたらす。 強い近似を可能にする条件付きGANアーキテクチャを提案する。 生成元への事前入力と対応する出力サンプルのマップを用いて、このGANの判別器に通知する。 教師付き GAN を導入します。 入力出力マップを標準GANと比較し、標準GANがパスワイズ近似を得られないことを実験的に示す。 GANは、正確なシミュレーションで得られたデータセットに基づいて訓練される。 このアーキテクチャは幾何ブラウン運動 (gbm) と cox-ingersoll-ross (cir) プロセスでテストされた。 監督されたGANは、大きな時間ステップの離散化において、オイラーとミルスタインのスキームを強い誤差で上回った。 また、条件分布を近似する際の標準条件GANよりも優れていた。 また、標準GANが摂動に敏感な非同調な入力出力マップを生み出し、GANジェネレータの制約や正規化の必要性を動機付けていることを示す。

Generative adversarial networks (GANs) have shown promising results when applied on partial differential equations and financial time series generation. We investigate if GANs can also be used to approximate one-dimensional Ito stochastic differential equations (SDEs). We propose a scheme that approximates the path-wise conditional distribution of SDEs for large time steps. Standard GANs are only able to approximate processes in distribution, yielding a weak approximation to the SDE. A conditional GAN architecture is proposed that enables strong approximation. We inform the discriminator of this GAN with the map between the prior input to the generator and the corresponding output samples, i.e. we introduce a `supervised GAN'. We compare the input-output map obtained with the standard GAN and supervised GAN and show experimentally that the standard GAN may fail to provide a path-wise approximation. The GAN is trained on a dataset obtained with exact simulation. The architecture was tested on geometric Brownian motion (GBM) and the Cox-Ingersoll-Ross (CIR) process. The supervised GAN outperformed the Euler and Milstein schemes in strong error on a discretisation with large time steps. It also outperformed the standard conditional GAN when approximating the conditional distribution. We also demonstrate how standard GANs may give rise to non-parsimonious input-output maps that are sensitive to perturbations, which motivates the need for constraints and regularisation on GAN generators.
翻訳日:2021-04-07 11:49:25 公開日:2021-04-03
# (参考訳) 不均衡データを用いた二分分類における$f_\beta$スコアの最適化のためのサーロゲート損失関数 [全文訳有]

A surrogate loss function for optimization of $F_\beta$ score in binary classification with imbalanced data ( http://arxiv.org/abs/2104.01459v1 )

ライセンス: CC BY 4.0
Namgil Lee, Heejung Yang, Hojin Yoo(参考訳) f_\beta$スコアは、不均衡なデータセットを持つ分類タスクにおいて重要な役割を果たす分類性能の指標である。 しかし、F_\beta$スコアは、その非微分性のためにニューラルネットワークパラメータを最適化するための勾配に基づく学習アルゴリズムによる損失関数として使用することはできない。 一方、二項クロスエントロピー(BCE)損失のような一般的に用いられる損失関数は、$F_\beta$スコアのようなパフォーマンス指標に直接関連しないため、損失関数を用いて最適化されたニューラルネットワークは最適な性能測定を得られない。 本研究では,モデルパラメータに関する勾配の観点から,分類性能尺度と損失関数の関係について検討した。 次に,$f_\beta$スコアの最適化のための微分可能サーロゲート損失関数を提案する。 提案したサロゲートである$F_\beta$損失関数の勾配経路は,$F_\beta$スコアの大きなサンプル極限の勾配経路に近似することを示した。 ResNets とベンチマーク画像データセットを用いた数値実験により,提案したサロゲート $F_\beta$損失関数が,他の損失関数と比較した場合のクラス不均衡条件下でのF_\beta$損失関数の最適化に有効であることが実証された。

The $F_\beta$ score is a commonly used measure of classification performance, which plays crucial roles in classification tasks with imbalanced data sets. However, the $F_\beta$ score cannot be used as a loss function by gradient-based learning algorithms for optimizing neural network parameters due to its non-differentiabilit y. On the other hand, commonly used loss functions such as the binary cross-entropy (BCE) loss are not directly related to performance measures such as the $F_\beta$ score, so that neural networks optimized by using the loss functions may not yield optimal performance measures. In this study, we investigate a relationship between classification performance measures and loss functions in terms of the gradients with respect to the model parameters. Then, we propose a differentiable surrogate loss function for the optimization of the $F_\beta$ score. We show that the gradient paths of the proposed surrogate $F_\beta$ loss function approximate the gradient paths of the large sample limit of the $F_\beta$ score. Through numerical experiments using ResNets and benchmark image data sets, it is demonstrated that the proposed surrogate $F_\beta$ loss function is effective for optimizing $F_\beta$ scores under class imbalances in binary classification tasks compared with other loss functions.
翻訳日:2021-04-07 10:57:50 公開日:2021-04-03
# (参考訳) 効率的なグラフ畳み込みのための適応フィルタとアグリゲータ融合 [全文訳有]

Adaptive Filters and Aggregator Fusion for Efficient Graph Convolutions ( http://arxiv.org/abs/2104.01481v1 )

ライセンス: CC BY 4.0
Shyam A. Tailor, Felix L. Opolka, Pietro Li\`o, Nicholas D. Lane(参考訳) グラフニューラルネットワーク(GNN)のトレーニングとデプロイは、高いメモリ消費と推論遅延のため、依然として困難である。 そこで本研究では,メモリ消費とレイテンシを低減した最新性能を実現するGNNアーキテクチャと,アクセラレーション実装に適した特徴について述べる。 提案手法は,エッジ数に比例するメモリを必要とする競合する手法とは対照的に,グラフ内の頂点数に比例するメモリを使用する。 我々は,信号処理に触発された新しい適応フィルタリング手法を用いて,それぞれの頂点が独自の重み行列を持つことができるように解釈し,注意力とは無関係であることを示す。 ハードウェアの効率的な利用に追従して,GNNの表現力を大幅に向上させる手法であるアグリゲータ融合を提案し,標準スパース行列乗算よりも19%のレイテンシの増加しか得られなかった。 コードと事前トレーニングされたモデルは、このURLで見ることができる。

Training and deploying graph neural networks (GNNs) remains difficult due to their high memory consumption and inference latency. In this work we present a new type of GNN architecture that achieves state-of-the-art performance with lower memory consumption and latency, along with characteristics suited to accelerator implementation. Our proposal uses memory proportional to the number of vertices in the graph, in contrast to competing methods which require memory proportional to the number of edges; we find our efficient approach actually achieves higher accuracy than competing approaches across 5 large and varied datasets against strong baselines. We achieve our results by using a novel adaptive filtering approach inspired by signal processing; it can be interpreted as enabling each vertex to have its own weight matrix, and is not related to attention. Following our focus on efficient hardware usage, we propose aggregator fusion, a technique to enable GNNs to significantly boost their representational power, with only a small increase in latency of 19% over standard sparse matrix multiplication. Code and pretrained models can be found at this URL: https://github.com/s hyam196/egc.
翻訳日:2021-04-07 10:43:30 公開日:2021-04-03
# (参考訳) ラベル雑音下でのロバストトレーニングのための拡張勾配重み付け [全文訳有]

Exponentiated Gradient Reweighting for Robust Training Under Label Noise and Beyond ( http://arxiv.org/abs/2104.01493v1 )

ライセンス: CC BY 4.0
Negin Majidi, Ehsan Amid, Hossein Talebi, and Manfred K. Warmuth(参考訳) 機械学習における多くの学習タスクは、各トレーニングイテレーションにおけるサンプルのバッチの平均損失を最小化するための勾配ステップをとることができる。 データにノイズが広まると、この一様な例の処理は、損失値が大きいノイズの例に過度に適合し、一般化が不十分になる可能性がある。 オンライン学習のエキスパート設定に触発されて,ノイズの多い事例から学ぶための柔軟なアプローチを提案する。 具体的には、各トレーニング例を専門家として扱い、すべての例に分散を維持します。 我々は,勾配降下を用いたモデルのパラメータの更新と,指数勾配更新を用いたサンプル重みの更新を交互に行う。 他の関連する手法とは異なり、このアプローチは損失関数の一般的なクラスを扱い、幅広いノイズタイプやアプリケーションに適用できる。 提案手法は,複数の学習環境,すなわち騒音の主成分分析と様々な雑音分類問題に対して有効であることを示す。

Many learning tasks in machine learning can be viewed as taking a gradient step towards minimizing the average loss of a batch of examples in each training iteration. When noise is prevalent in the data, this uniform treatment of examples can lead to overfitting to noisy examples with larger loss values and result in poor generalization. Inspired by the expert setting in on-line learning, we present a flexible approach to learning from noisy examples. Specifically, we treat each training example as an expert and maintain a distribution over all examples. We alternate between updating the parameters of the model using gradient descent and updating the example weights using the exponentiated gradient update. Unlike other related methods, our approach handles a general class of loss functions and can be applied to a wide range of noise types and applications. We show the efficacy of our approach for multiple learning settings, namely noisy principal component analysis and a variety of noisy classification problems.
翻訳日:2021-04-07 10:25:24 公開日:2021-04-03
# 視覚物体検出におけるオープンセット誤り同定の不確かさ

Uncertainty for Identifying Open-Set Errors in Visual Object Detection ( http://arxiv.org/abs/2104.01328v1 )

ライセンス: Link先を確認
Dimity Miller, Niko S\"underhauf, Michael Milford and Feras Dayoub(参考訳) オープンワールドに展開されるオブジェクト検出器は、オープンセットエラーと呼ばれる偽陽性検出のタイプになりがちである。 本稿では,対象検出器からの認識の不確かさをリアルタイムに抽出し,オープンセットエラーを識別・拒否する手法であるgmm-detを提案する。 GMM-Detは検出器を訓練し、クラス固有のガウス混合モデルでモデル化された構造化ロジット空間を生成する。 テスト時に、オープンセットエラーは全てのガウス混合モデルの下でそれらの低いログ確率によって識別される。 r-cnnとretinanetという2つの一般的な検出器アーキテクチャを、ロボティクスとコンピュータビジョンにまたがる3つの異なるデータセットでテストした。 以上の結果から,GMM-Detは,特に安全クリティカルなアプリケーションに必要な低エラーレート動作点において,オープンセット検出の特定と拒否のための既存の不確実性技術よりも優れていた。 GMM-Detはオブジェクト検出性能を維持し、最小限の計算オーバーヘッドしか導入しない。 また、既存のオブジェクト検出データセットを特定のオープンセットデータセットに変換する手法を導入し、オブジェクト検出におけるオープンセット性能を一貫して評価する。 GMM-Detのコードとデータセットの方法論が公開されている。

Deployed into an open world, object detectors are prone to a type of false positive detection termed open-set errors. We propose GMM-Det, a real-time method for extracting epistemic uncertainty from object detectors to identify and reject open-set errors. GMM-Det trains the detector to produce a structured logit space that is modelled with class-specific Gaussian Mixture Models. At test time, open-set errors are identified by their low log-probability under all Gaussian Mixture Models. We test two common detector architectures, Faster R-CNN and RetinaNet, across three varied datasets spanning robotics and computer vision. Our results show that GMM-Det consistently outperforms existing uncertainty techniques for identifying and rejecting open-set detections, especially at the low-error-rate operating point required for safety-critical applications. GMM-Det maintains object detection performance, and introduces only minimal computational overhead. We also introduce a methodology for converting existing object detection datasets into specific open-set datasets to consistently evaluate open-set performance in object detection. Code for GMM-Det and the dataset methodology will be made publicly available.
翻訳日:2021-04-06 14:55:22 公開日:2021-04-03
# アメリカ手話における指節検出

Fingerspelling Detection in American Sign Language ( http://arxiv.org/abs/2104.01291v1 )

ライセンス: Link先を確認
Bowen Shi, Diane Brentari, Greg Shakhnarovich, Karen Livescu(参考訳) 単語が文字で署名される指音は、アメリカの手話の重要な要素である。 指先自動認識に関するこれまでのほとんどの研究は、署名ビデオにおける指先領域の境界が事前に知られていると仮定している。 本稿では,生手話ビデオにおける指先検出の課題について考察する。 これは、現実世界の指先認識システムを構築するための重要なステップである。 そこで本研究では,下流指先認識課題に対する検出の影響を反映したベンチマークと評価指標を提案する。 さらに,マルチタスク学習による指の指のスペル検出を学習し,ポーズ推定と指のスペル認識(書き起こし)を併用し,このモデルをいくつかの代替手法と比較するモデルを提案する。 モデルはすべてのメトリクスの代替アプローチを上回り、ベンチマークで最先端の技術を確立します。

Fingerspelling, in which words are signed letter by letter, is an important component of American Sign Language. Most previous work on automatic fingerspelling recognition has assumed that the boundaries of fingerspelling regions in signing videos are known beforehand. In this paper, we consider the task of fingerspelling detection in raw, untrimmed sign language videos. This is an important step towards building real-world fingerspelling recognition systems. We propose a benchmark and a suite of evaluation metrics, some of which reflect the effect of detection on the downstream fingerspelling recognition task. In addition, we propose a new model that learns to detect fingerspelling via multi-task training, incorporating pose estimation and fingerspelling recognition (transcription) along with detection, and compare this model to several alternatives. The model outperforms all alternative approaches across all metrics, establishing a state of the art on the benchmark.
翻訳日:2021-04-06 14:54:44 公開日:2021-04-03
# 視覚変換器と蒸留に基づくディープフェイク検出方式

Deepfake Detection Scheme Based on Vision Transformer and Distillation ( http://arxiv.org/abs/2104.01353v1 )

ライセンス: Link先を確認
Young-Jin Heo, Young-Ju Choi, Young-Woon Lee, Byung-Gyu Kim(参考訳) Deepfakeは、誰でも利用できるGAN(Generative Adversarial Networks)やAuto Encoderのような生成的なディープラーニング技術で作られた、操作されたビデオである。 近年、Deepfakeビデオの増加に伴い、フェイクビデオとディープフェイクデータセットを区別できる畳み込みニューラルネットワークからなる分類器が積極的に作成されている。 しかし、cnnの構造に基づく以前の研究は、過剰フィッティングだけでなく、偽のビデオを本物と誤認する問題も抱えていた。 本稿では,偽ビデオ検出のための蒸留手法を用いた視覚変換器モデルを提案する。 cnnの機能とパッチベースのポジショニングモデルがすべての位置と対話し、偽陰性問題を解決するアーティファクト領域を見つけることを学ぶように設計する。 ディープフェイク検出(dfdc)データセットの比較分析により,cnnの複合機能を用いて,入力としてパッチ埋め込み方式が最先端技術よりも優れていることを検証した。 アンサンブル技術がなければ,本モデルはAUCの0.978,f1の91.9,以前のSOTAモデルはAUCの0.972,f1の90.6を得る。

Deepfake is the manipulated video made with a generative deep learning technique such as Generative Adversarial Networks (GANs) or Auto Encoder that anyone can utilize. Recently, with the increase of Deepfake videos, some classifiers consisting of the convolutional neural network that can distinguish fake videos as well as deepfake datasets have been actively created. However, the previous studies based on the CNN structure have the problem of not only overfitting, but also considerable misjudging fake video as real ones. In this paper, we propose a Vision Transformer model with distillation methodology for detecting fake videos. We design that a CNN features and patch-based positioning model learns to interact with all positions to find the artifact region for solving false negative problem. Through comparative analysis on Deepfake Detection (DFDC) Dataset, we verify that the proposed scheme with patch embedding as input outperforms the state-of-the-art using the combined CNN features. Without ensemble technique, our model obtains 0.978 of AUC and 91.9 of f1 score, while previous SOTA model yields 0.972 of AUC and 90.6 of f1 score on the same condition.
翻訳日:2021-04-06 14:54:30 公開日:2021-04-03
# 限定ラベルデータシナリオにおけるグローバルおよびローカルグラフニューラルネットワークによる教師なしドメイン適応:災害管理への応用

Unsupervised Domain Adaptation with Global and Local Graph Neural Networks in Limited Labeled Data Scenario: Application to Disaster Management ( http://arxiv.org/abs/2104.01436v1 )

ライセンス: Link先を確認
Samujjwal Ghosh, Subhadeep Maji, Maunendra Sankar Desarkar(参考訳) 災害時に発生したソーシャルメディア投稿の同定と分類は,被災者の苦痛を軽減する上で重要である。 しかしながら、ラベル付きデータの欠如は、災害の効果的な分類システムを学ぶ上で重要なボトルネックである。 このことは、ラベル付きデータ(ソース)と現在の災害(ターゲット)との間の非教師なしドメイン適応(UDA)としてこの問題を研究する動機となっている。 しかし、利用可能なラベル付きデータの量が限られている場合、モデルの学習能力は制限される。 この課題に対処するために,限られたラベル付きデータと,情報源災害時に発生する豊富なラベル付きデータを用いて,新たな2部グラフニューラルネットワークを提案する。 第1部はドメイン間のトークンレベルグラフを構築し、第2部はローカルインスタンスレベルのセマンティクスを保存することで、ドメインに依存しないグローバル情報を抽出する。 本実験では,災害管理分野の2つの標準データセットにおいて,提案手法が平均2.74\%$重み付きf$_1$スコアで最先端技術を上回ることを示す。 また,災害領域における粒度対応可能な多ラベル分類データセットの実験結果を報告し,平均重量値F$_1$でBERTを3.00\%以上上回る結果を得た。 さらに,ラベル付きデータが非常に限定された場合に,本手法が性能を維持することを示す。

Identification and categorization of social media posts generated during disasters are crucial to reduce the sufferings of the affected people. However, lack of labeled data is a significant bottleneck in learning an effective categorization system for a disaster. This motivates us to study the problem as unsupervised domain adaptation (UDA) between a previous disaster with labeled data (source) and a current disaster (target). However, if the amount of labeled data available is limited, it restricts the learning capabilities of the model. To handle this challenge, we utilize limited labeled data along with abundantly available unlabeled data, generated during a source disaster to propose a novel two-part graph neural network. The first-part extracts domain-agnostic global information by constructing a token level graph across domains and the second-part preserves local instance-level semantics. In our experiments, we show that the proposed method outperforms state-of-the-art techniques by $2.74\%$ weighted F$_1$ score on average on two standard public dataset in the area of disaster management. We also report experimental results for granular actionable multi-label classification datasets in disaster domain for the first time, on which we outperform BERT by $3.00\%$ on average w.r.t weighted F$_1$. Additionally, we show that our approach can retain performance when very limited labeled data is available.
翻訳日:2021-04-06 14:53:49 公開日:2021-04-03
# プロパティ駆動トレーニング:あなた(N)が知りたかったことすべて

Property-driven Training: All You (N)Ever Wanted to Know About ( http://arxiv.org/abs/2104.01396v1 )

ライセンス: Link先を確認
Marco Casadio, Matthew Daggitt, Ekaterina Komendantskaya, Wen Kokke, Daniel Kienitz, Rob Stewart(参考訳) ニューラルネットワークは、ノイズデータ中の一般的なパターンを検出する能力で知られている。 これにより、複雑なAIシステムにおける知覚コンポーネントの一般的なツールとなる。 逆説的に、敵の攻撃に弱いことでも知られている。 これに対し, 対人訓練, データ強化, リプシッツ頑健性訓練など様々な手法が提案されている。 しかし,本稿では,それぞれ異なるロバスト性の定義を最適化する手法について検討する。 学習後,それらの関係,仮定,解釈可能性,検証可能性など,これらの定義を詳細に比較した。 制約駆動トレーニングは、任意の制約をエンコードするように設計された一般的なアプローチであり、これらすべての定義が直接エンコード可能ではないことを示している。 最後に,ネットワークがこれら異なる定義に従うことを保証するためのトレーニング手法の適用可能性と有効性を比較する実験を行う。 これらの結果は、ニューラルネットワークトレーニングにおける堅牢性などの単純な知識のエンコーディングでさえ、難しい選択と落とし穴に満ちていることを示している。

Neural networks are known for their ability to detect general patterns in noisy data. This makes them a popular tool for perception components in complex AI systems. Paradoxically, they are also known for being vulnerable to adversarial attacks. In response, various methods such as adversarial training, data-augmentation and Lipschitz robustness training have been proposed as means of improving their robustness. However, as this paper explores, these training methods each optimise for a different definition of robustness. We perform an in-depth comparison of these different definitions, including their relationship, assumptions, interpretability and verifiability after training. We also look at constraint-driven training, a general approach designed to encode arbitrary constraints, and show that not all of these definitions are directly encodable. Finally we perform experiments to compare the applicability and efficacy of the training methods at ensuring the network obeys these different definitions. These results highlight that even the encoding of such a simple piece of knowledge such as robustness in neural network training is fraught with difficult choices and pitfalls.
翻訳日:2021-04-06 14:52:58 公開日:2021-04-03
# 階層的データセットの連成幾何学的・トポロジカル解析

Joint Geometric and Topological Analysis of Hierarchical Datasets ( http://arxiv.org/abs/2104.01395v1 )

ライセンス: Link先を確認
Lior Aloni, Omer Bobrowski, Ronen Talmon(参考訳) 複雑な取得技術から生じる多様なデータに富む世界では、新たなデータ分析手法の必要性が高まっている。 本稿では,複数の階層的データセットに分類した高次元データに着目した。 各データセットは複雑なサンプルで構成されており、各サンプルはグラフによってモデル化された異なる不規則構造を持つと仮定する。 この研究の主な特徴は、トポロジカルデータ解析(TDA)と幾何多様体学習という、2つの補完的なデータ分析アプローチの組み合わせにある。 幾何学は主に局所的な情報を含むが、トポロジーは本質的にグローバルな記述子を提供する。 この組み合わせに基づいて,階層的データセットの情報表現を構築する手法を提案する。 より細かい(サンプル)レベルでは、定量的構造解析を容易にする多様体学習に基づくサンプル間の新しい計量を考案する。 粗い(データセット)レベルでは、データセットから定性的構造情報を抽出するためにTDAを使用します。 本研究では,シミュレーションデータとハイパースペクトル画像のコーパスに対して,提案手法の適用性と利点を示す。 ハイパースペクトル画像のアンサンブルは階層構造を呈し,考察した設定によく適合することを示す。 さらに,本手法は,最先端手法と比較して,より優れた分類結果をもたらすことを示す。

In a world abundant with diverse data arising from complex acquisition techniques, there is a growing need for new data analysis methods. In this paper we focus on high-dimensional data that are organized into several hierarchical datasets. We assume that each dataset consists of complex samples, and every sample has a distinct irregular structure modeled by a graph. The main novelty in this work lies in the combination of two complementing powerful data-analytic approaches: topological data analysis (TDA) and geometric manifold learning. Geometry primarily contains local information, while topology inherently provides global descriptors. Based on this combination, we present a method for building an informative representation of hierarchical datasets. At the finer (sample) level, we devise a new metric between samples based on manifold learning that facilitates quantitative structural analysis. At the coarser (dataset) level, we employ TDA to extract qualitative structural information from the datasets. We showcase the applicability and advantages of our method on simulated data and on a corpus of hyper-spectral images. We show that an ensemble of hyper-spectral images exhibits a hierarchical structure that fits well the considered setting. In addition, we show that our new method gives rise to superior classification results compared to state-of-the-art methods.
翻訳日:2021-04-06 14:51:32 公開日:2021-04-03
# cohortney: 不均一なイベントシーケンスに対する深いクラスタリング

COHORTNEY: Deep Clustering for Heterogeneous Event Sequences ( http://arxiv.org/abs/2104.01440v1 )

ライセンス: Link先を確認
Vladislav Zhuzhel, Rodrigo Rivera-Castro, Nina Kaploukhaya, Liliya Mironova, Alexey Zaytsev, Evgeny Burnaev(参考訳) イベントシーケンスを扱うことに注目が集まっている。 特に、イベントシーケンスのクラスタリングは、医療、マーケティング、金融といった分野に広く適用されています。 利用例としては、ウェブサイト、病院、銀行取引への訪問者の分析がある。 従来の時系列とは異なり、イベントシーケンスはスパースであり、時間的間隔が等しくない傾向がある。 その結果、それらは異なる性質を示し、最先端の手法を開発する際に考慮する必要がある。 コミュニティは異種イベントシーケンスの特異性にはほとんど注意を払っていない。 クラスタリングにおける既存の研究は主に古典的な時系列データに焦点を当てている。 文献中の提案手法がイベントシーケンスにうまく一般化するかどうかは明らかでない。 本稿では,異種事象列をクラスタリングするための新しい深層学習手法としてCOHORTNEYを提案する。 i) lstmとemアルゴリズムとコード実装の組み合わせを用いた新しい手法、(ii)時系列とイベントシーケンスクラスタリングに関する以前の研究との比較、(iii)金融業界からの新たなデータセットに対する異なるアプローチのパフォーマンスベンチマーク、および14の追加データセットを含む。 その結果,cohortneyは,イベントシーケンスをクラスタリングする最先端アルゴリズムの速度とクラスタ品質を大きく上回っていることがわかった。

There is emerging attention towards working with event sequences. In particular, clustering of event sequences is widely applicable in domains such as healthcare, marketing, and finance. Use cases include analysis of visitors to websites, hospitals, or bank transactions. Unlike traditional time series, event sequences tend to be sparse and not equally spaced in time. As a result, they exhibit different properties, which are essential to account for when developing state-of-the-art methods. The community has paid little attention to the specifics of heterogeneous event sequences. Existing research in clustering primarily focuses on classic times series data. It is unclear if proposed methods in the literature generalize well to event sequences. Here we propose COHORTNEY as a novel deep learning method for clustering heterogeneous event sequences. Our contributions include (i) a novel method using a combination of LSTM and the EM algorithm and code implementation; (ii) a comparison of this method to previous research on time series and event sequence clustering; (iii) a performance benchmark of different approaches on a new dataset from the finance industry and fourteen additional datasets. Our results show that COHORTNEY vastly outperforms in speed and cluster quality the state-of-the-art algorithm for clustering event sequences.
翻訳日:2021-04-06 14:51:16 公開日:2021-04-03
# 事前正規化を伴う不完全データシナリオにおける深い正規化フローモデルの訓練

Training Deep Normalizing Flow Models in Highly Incomplete Data Scenarios with Prior Regularization ( http://arxiv.org/abs/2104.01482v1 )

ライセンス: Link先を確認
Edgar A. Bernal(参考訳) GANや正規化フローモデルを含む深い生成フレームワークは、部分的に観察されたデータサンプルの欠落した値を、明示的にも暗黙的にも、複雑で高次元の統計分布を効果的に学習することで埋めることに成功した。 しかし、学習に利用可能なデータが部分的にのみ観測されるタスクでは、その性能はデータ不足率の関数として単調に低下する。 高機能なデータレート(60%以上)では、最先端のモデルが分解され、非現実的で意味的に不正確なデータを生成する傾向が観察されている。 本研究では,問題に対する従来のソリューションの定式化にインスパイアされた,高明度シナリオにおけるデータ分散の学習を容易にする新しいフレームワークを提案する。 提案手法は,学習対象モデルのパラメータと欠落したデータ値の同時最適化タスクとして,不完全データから学習するプロセスを構成することに由来する。 この手法は、深い正規化フローモデルのような明示的で牽引可能な深い生成フレームワークを訓練するために使用される目的とシームレスに統合する事前正規化項を強制する。 本稿では,提案フレームワークが競合する手法,特にデータポーシティがユニティに近づく速度を上回っていることを実験的検証により実証する。

Deep generative frameworks including GANs and normalizing flow models have proven successful at filling in missing values in partially observed data samples by effectively learning -- either explicitly or implicitly -- complex, high-dimensional statistical distributions. In tasks where the data available for learning is only partially observed, however, their performance decays monotonically as a function of the data missingness rate. In high missing data rate regimes (e.g., 60% and above), it has been observed that state-of-the-art models tend to break down and produce unrealistic and/or semantically inaccurate data. We propose a novel framework to facilitate the learning of data distributions in high paucity scenarios that is inspired by traditional formulations of solutions to ill-posed problems. The proposed framework naturally stems from posing the process of learning from incomplete data as a joint optimization task of the parameters of the model being learned and the missing data values. The method involves enforcing a prior regularization term that seamlessly integrates with objectives used to train explicit and tractable deep generative frameworks such as deep normalizing flow models. We demonstrate via extensive experimental validation that the proposed framework outperforms competing techniques, particularly as the rate of data paucity approaches unity.
翻訳日:2021-04-06 14:50:50 公開日:2021-04-03
# Denoising と Compression によるグラディエントベースの敵攻撃の軽減

Mitigating Gradient-based Adversarial Attacks via Denoising and Compression ( http://arxiv.org/abs/2104.01494v1 )

ライセンス: Link先を確認
Rehana Mahfuz, Rajeev Sahay, Aly El Gamal(参考訳) 深層ニューラルネットワークに対する勾配ベースの逆攻撃は、任意のネットワークのテストデータに知覚不能な摂動を追加してデプロイできるため、深刻な脅威となる。 デノイジング(denoising)と次元還元(dimensionality reduction)は、そのような攻撃と戦うために独立に研究された2つの方法である。 デノージングは防御を攻撃の特定の性質に合わせて調整する能力を提供するが、次元的縮小は、それまで認識されていなかった摂動を取り除き、防御されるネットワークのトレーニング時間を短縮するという利点をもたらす。 これら2つの防御機構の利点を組み合わせるための戦略を提案する。 まず, ディノワ化と次元減少を伴うカスケード防御を提案する。 性能の小さなトレードオフに対する防御の訓練時間を短縮するために,デノイジングオートエンコーダのエンコーダの出力をネットワークに供給する隠れ層防御を提案する。 さらに,これらの防御に対する適応攻撃が,代替防御が使用される場合や防御が使用されない場合において,著しく弱くなる可能性についても検討した。 そこで本研究では,防御の修正に対する適応攻撃の感度を測定する防衛評価のための新しい指標を提案する。 最後に、防衛の命令されたレパートリーを構築するためのガイドラインを提示する。 攻撃戦略の不確実性がある場合に限られた計算資源に適応する防衛インフラ。

Gradient-based adversarial attacks on deep neural networks pose a serious threat, since they can be deployed by adding imperceptible perturbations to the test data of any network, and the risk they introduce cannot be assessed through the network's original training performance. Denoising and dimensionality reduction are two distinct methods that have been independently investigated to combat such attacks. While denoising offers the ability to tailor the defense to the specific nature of the attack, dimensionality reduction offers the advantage of potentially removing previously unseen perturbations, along with reducing the training time of the network being defended. We propose strategies to combine the advantages of these two defense mechanisms. First, we propose the cascaded defense, which involves denoising followed by dimensionality reduction. To reduce the training time of the defense for a small trade-off in performance, we propose the hidden layer defense, which involves feeding the output of the encoder of a denoising autoencoder into the network. Further, we discuss how adaptive attacks against these defenses could become significantly weak when an alternative defense is used, or when no defense is used. In this light, we propose a new metric to evaluate a defense which measures the sensitivity of the adaptive attack to modifications in the defense. Finally, we present a guideline for building an ordered repertoire of defenses, a.k.a. a defense infrastructure, that adjusts to limited computational resources in presence of uncertainty about the attack strategy.
翻訳日:2021-04-06 14:49:16 公開日:2021-04-03
# ビジュアルオブジェクト追跡の高速化を目指したモバイルCNN特徴抽出学習

Learning Mobile CNN Feature Extraction Toward Fast Computation of Visual Object Tracking ( http://arxiv.org/abs/2104.01381v1 )

ライセンス: Link先を確認
Tsubasa Murate, Takashi Watanabe, Masaki Yamada(参考訳) 本稿では,訓練されたCNNを用いて,軽量で高精度で高速な物体追跡を行う。 訓練されたCNNを使った従来の方法は、強力な計算資源を必要とするVGG16ネットワークを使用する。 したがって、低計算資源環境では適用が難しいという問題がある。 この問題を解決するために,モバイル端末用CNNであるMobileNetV3を用い,特徴マップ選択追跡に基づいて,オブジェクト追跡に有効なMobileNetの特徴を抽出するアーキテクチャを提案する。 オンライン学習は必要ありませんが、オフライン学習のみです。 また、追跡対象以外の対象物の特徴を用いて、追跡対象物の特徴をより効率的に抽出する。 追従精度をVisual Tracker Benchmarkで測定し,提案手法が低計算資源環境においても高精度かつ高速に計算できることを確認する。

In this paper, we construct a lightweight, high-precision and high-speed object tracking using a trained CNN. Conventional methods with trained CNNs use VGG16 network which requires powerful computational resources. Therefore, there is a problem that it is difficult to apply in low computation resources environments. To solve this problem, we use MobileNetV3, which is a CNN for mobile terminals.Based on Feature Map Selection Tracking, we propose a new architecture that extracts effective features of MobileNet for object tracking. The architecture requires no online learning but only offline learning. In addition, by using features of objects other than tracking target, the features of tracking target are extracted more efficiently. We measure the tracking accuracy with Visual Tracker Benchmark and confirm that the proposed method can perform high-precision and high-speed calculation even in low computation resource environments.
翻訳日:2021-04-06 14:48:03 公開日:2021-04-03
# 自己適応型メトリクス学習を目指して

Towards Self-Adaptive Metric Learning On the Fly ( http://arxiv.org/abs/2104.01495v1 )

ライセンス: Link先を確認
Yang Gao, Yi-Fan Li, Swarup Chandra, Latifur Khan, Bhavani Thuraisingham(参考訳) 高品質な類似度メトリクスは、多くの大規模な実世界のアプリケーションのパフォーマンスを著しく向上させる。 既存の研究では、類似(異種)のペア間の距離を与えられた下限(上限)よりも小さい(大きい)ように制限するか、類似のインスタンスを与えられたマージンを持つ異種(異種)のインスタンスから切り離すかで、マハラノビスまたは双線型計量をオンライン的に学習する様々な方法が提案されている。 しかし、固定境界やマージンを利用して学んだこれらの線形メトリクスは、現実のアプリケーション、特にデータ分布が複雑である場合にはうまく機能しない。 適応メトリック関数をオンザフライで学習する上で,オンライン適応メトリック学習(OAML)のオープンな課題に対処することを目指している。 従来のオンラインメトリック学習法とは異なり、OAMLは学習されたメトリックが非線形であり、より多くのインスタンスが観察されるにつれてモデルが自己適応的である必要があるため、かなり難しい。 本稿では,制約の流れから適応的なモデル複雑性を持つANNベースのメトリクスを学習することで,課題に対処する新しいオンラインメトリック学習フレームワークを提案する。 特に,入力制約を効果的に活用するための新しいAdaptive-Bound Triplet Loss (ABTL) を提案し,モデルパラメータをオンライン更新するための新しいAdaptive Hedge Update (AHU) 手法を提案する。 実世界の画像分類,顔認証,画像検索など,様々なアプリケーションにおけるフレームワークの有効性と有効性を実証的に検証した。

Good quality similarity metrics can significantly facilitate the performance of many large-scale, real-world applications. Existing studies have proposed various solutions to learn a Mahalanobis or bilinear metric in an online fashion by either restricting distances between similar (dissimilar) pairs to be smaller (larger) than a given lower (upper) bound or requiring similar instances to be separated from dissimilar instances with a given margin. However, these linear metrics learned by leveraging fixed bounds or margins may not perform well in real-world applications, especially when data distributions are complex. We aim to address the open challenge of "Online Adaptive Metric Learning" (OAML) for learning adaptive metric functions on the fly. Unlike traditional online metric learning methods, OAML is significantly more challenging since the learned metric could be non-linear and the model has to be self-adaptive as more instances are observed. In this paper, we present a new online metric learning framework that attempts to tackle the challenge by learning an ANN-based metric with adaptive model complexity from a stream of constraints. In particular, we propose a novel Adaptive-Bound Triplet Loss (ABTL) to effectively utilize the input constraints and present a novel Adaptive Hedge Update (AHU) method for online updating the model parameters. We empirically validate the effectiveness and efficacy of our framework on various applications such as real-world image classification, facial verification, and image retrieval.
翻訳日:2021-04-06 14:47:50 公開日:2021-04-03
# Counts@IITK at SemEval-2021 Task 8: SciBERT based Entity and Semantic Relation extract for Scientific Data

Counts@IITK at SemEval-2021 Task 8: SciBERT Based Entity And Semantic Relation Extraction For Scientific Data ( http://arxiv.org/abs/2104.01364v1 )

ライセンス: Link先を確認
Akash Gangwar, Sabhay Jain, Shubham Sourav, Ashutosh Modi(参考訳) 本稿では,SemEval 2021 Task 8(MeasEval)を提案する。 MeasEvalは、量、それらの量の特徴、および関連する測定対象、特性、測定コンテキストを含む追加情報を見つけることに焦点を当てた、新しいスパン抽出、分類、関係抽出タスクである。 SciBERTには[CLS]トークンが埋め込まれ, CRF層が上部に配置されていた。 また、Quantity (tied) と Unit subtasks も第2位、 MeasuredEntity, Modifier and Qualify subtasks は第3位、Qualifier subtask も第3位に位置づけました。

This paper presents the system for SemEval 2021 Task 8 (MeasEval). MeasEval is a novel span extraction, classification, and relation extraction task focused on finding quantities, attributes of these quantities, and additional information, including the related measured entities, properties, and measurement contexts. Our submitted system, which placed fifth (team rank) on the leaderboard, consisted of SciBERT with [CLS] token embedding and CRF layer on top. We were also placed first in Quantity (tied) and Unit subtasks, second in MeasuredEntity, Modifier and Qualifies subtasks, and third in Qualifier subtask.
翻訳日:2021-04-06 14:45:24 公開日:2021-04-03
# 意見要約のための凸アグリゲーション

Convex Aggregation for Opinion Summarization ( http://arxiv.org/abs/2104.01371v1 )

ライセンス: Link先を確認
Hayate Iso, Xiaolan Wang, Yoshihiko Suhara, Stefanos Angelidis, Wang-Chiew Tan(参考訳) 非教師なしの意見要約に対する最近のアプローチは、主にレビューレコンストラクショントレーニングパラダイムを使用している。 エンコーダデコーダモデルは、単一レビューを再構築するために訓練され、潜在レビューエンコーディング空間を学ぶ。 要約時には、潜在レビューベクトルの未重み付き平均を要約に復号する。 本稿では,遅延ベクトル集合を単に平均化するという慣行に挑戦し,この単純化手法は入力レビューの品質やデコーダの慣用性の違いを考慮できないと主張している。 本稿では,意見要約のためのconvexベクトル集約フレームワークであるcoopを提案する。 coopはさらなる監督を必要とせず、単純な単語重なり目標を使用して、モデルが入力レビューと一貫性のある要約を生成するのを助ける。 実験結果によると、意見要約器をCoopで拡張すると最先端のパフォーマンスが向上し、YelpとAmazonのベンチマークデータセットではROUGE-1が3.7%と2.9%改善した。

Recent approaches for unsupervised opinion summarization have predominantly used the review reconstruction training paradigm. An encoder-decoder model is trained to reconstruct single reviews and learns a latent review encoding space. At summarization time, the unweighted average of latent review vectors is decoded into a summary. In this paper, we challenge the convention of simply averaging the latent vector set, and claim that this simplistic approach fails to consider variations in the quality of input reviews or the idiosyncrasies of the decoder. We propose Coop, a convex vector aggregation framework for opinion summarization, that searches for better combinations of input reviews. Coop requires no further supervision and uses a simple word overlap objective to help the model generate summaries that are more consistent with input reviews. Experimental results show that extending opinion summarizers with Coop results in state-of-the-art performance, with ROUGE-1 improvements of 3.7% and 2.9% on the Yelp and Amazon benchmark datasets, respectively.
翻訳日:2021-04-06 14:45:08 公開日:2021-04-03
# 感情識別性を改善した感情音声合成のための強化学習

Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability ( http://arxiv.org/abs/2104.01408v1 )

ライセンス: Link先を確認
Rui Liu, Berrak Sisman, Haizhou Li(参考訳) 感情的テキスト音声合成(ETTS)は近年大きく進歩している。 しかし、生成された音声は意図する感情カテゴリーによって知覚的に識別できないことが多い。 この問題に対処するために,音声感情認識(SER)モデルと対話することで,感情の識別性を直接的に改善するETTSの新しい対話型トレーニングパラダイムを提案する。 さらに,i-ETTS最適化の品質を確保するため,強化学習による反復的学習戦略を定式化する。 実験の結果,提案したi-ETTSは,より正確な感情スタイルで音声を描画することで,最先端のベースラインよりも優れていた。 私たちの知る限りでは、感情的テキスト音声合成における強化学習の最初の研究である。

Emotional text-to-speech synthesis (ETTS) has seen much progress in recent years. However, the generated voice is often not perceptually identifiable by its intended emotion category. To address this problem, we propose a new interactive training paradigm for ETTS, denoted as i-ETTS, which seeks to directly improve the emotion discriminability by interacting with a speech emotion recognition (SER) model. Moreover, we formulate an iterative training strategy with reinforcement learning to ensure the quality of i-ETTS optimization. Experimental results demonstrate that the proposed i-ETTS outperforms the state-of-the-art baselines by rendering speech with more accurate emotion style. To our best knowledge, this is the first study of reinforcement learning in emotional text-to-speech synthesis.
翻訳日:2021-04-06 14:44:50 公開日:2021-04-03
# 性差別検出:アラビア語/フランス語と英語でコードスイッチングを施したアルジェ方言における最初のコーパス

Sexism detection: The first corpus in Algerian dialect with a code-switching in Arabic/ French and English ( http://arxiv.org/abs/2104.01443v1 )

ライセンス: Link先を確認
Imane Guellil and Ahsan Adeel and Faical Azouaou and Mohamed Boubred and Yousra Houichi and Akram Abdelhaq Moumna(参考訳) 本稿では,ソーシャルメディア上でのアラビア語コミュニティの女性に対するヘイトスピーチ検出手法について述べる。 Youtube)が提案されている。 文学では、英語など他の言語にも同様の作品が提示されている。 しかし、我々の知る限り、アラビア語での作業はあまり行われていない。 3種類のアノテーションを用いて新しいヘイトスピーチコーパス(アラビア語\_fr\_en)を開発する。 コーパス検証には、深層畳み込みニューラルネットワーク(CNN)、長期記憶(LSTM)ネットワーク、双方向LSTM(Bi-directional LSTM)ネットワークを含む3つの異なる機械学習アルゴリズムが使用される。 シミュレーションの結果, LSTM や Bi-LSTM と比較してF1スコアを最大 86% まで達成した CNN モデルでは, 最高の性能を示した。

In this paper, an approach for hate speech detection against women in Arabic community on social media (e.g. Youtube) is proposed. In the literature, similar works have been presented for other languages such as English. However, to the best of our knowledge, not much work has been conducted in the Arabic language. A new hate speech corpus (Arabic\_fr\_en) is developed using three different annotators. For corpus validation, three different machine learning algorithms are used, including deep Convolutional Neural Network (CNN), long short-term memory (LSTM) network and Bi-directional LSTM (Bi-LSTM) network. Simulation results demonstrate the best performance of the CNN model, which achieved F1-score up to 86\% for the unbalanced corpus as compared to LSTM and Bi-LSTM.
翻訳日:2021-04-06 14:44:39 公開日:2021-04-03
# 説明文探索結果におけるBERTトークン表現の役割を探る

Exploring the Role of BERT Token Representations to Explain Sentence Probing Results ( http://arxiv.org/abs/2104.01477v1 )

ライセンス: Link先を確認
Hosein Mohebbi, Ali Modarressi, Mohammad Taher Pilehvar(参考訳) バートが捉えた言語的特徴を明らかにする研究がいくつか行われている。 これは通常、BERTの異なる層から得られた表現について診断分類器を訓練することで達成される。 その後の分類精度は、対応する言語特性を符号化するモデルの能力として解釈される。 洞察を提供するにもかかわらず、これらの研究はトークン表現の潜在的な役割を排除した。 本稿では,探索結果を説明するための特異かつ有意義な部分空間を求めて,bert の表現空間の解析を行う。 探索タスクのセットと帰属手法の助けを借りて、BERTは特定のトークン表現(標準分類設定では無視されることが多い)において意味のある知識を符号化し、モデルが構文的および意味的異常を検知し、文法的数とテンソル部分空間を区別する傾向があることを示す。

Several studies have been carried out on revealing linguistic features captured by BERT. This is usually achieved by training a diagnostic classifier on the representations obtained from different layers of BERT. The subsequent classification accuracy is then interpreted as the ability of the model in encoding the corresponding linguistic property. Despite providing insights, these studies have left out the potential role of token representations. In this paper, we provide an analysis on the representation space of BERT in search for distinct and meaningful subspaces that can explain probing results. Based on a set of probing tasks and with the help of attribution methods we show that BERT tends to encode meaningful knowledge in specific token representations (which are often ignored in standard classification setups), allowing the model to detect syntactic and semantic abnormalities, and to distinctively separate grammatical number and tense subspaces.
翻訳日:2021-04-06 14:44:25 公開日:2021-04-03
# 効率的なDETR:Dense Priorによるエンドツーエンドオブジェクト検出器の改善

Efficient DETR: Improving End-to-End Object Detector with Dense Prior ( http://arxiv.org/abs/2104.01318v1 )

ライセンス: Link先を確認
Zhuyu Yao, Jiangbo Ai, Boxun Li, Chi Zhang(参考訳) DETRやDeformable DETRのような最近提案されたエンドツーエンドのトランスフォーマー検出器は、6つのデコーダ層を積み重ねてオブジェクトクエリを反復的に更新するカスケード構造を持つ。 本稿では、オブジェクトクエリや参照ポイントを含むオブジェクトコンテナのランダム初期化が、主に複数のイテレーションの要求に対するものであることを示す。 そこで本研究では,エンドツーエンドオブジェクト検出のための簡易かつ効率的なパイプラインであるEfficient DETRを提案する。 密度検出とスパースセット検出の両方を利用することで、効率的なdetrはオブジェクトコンテナの初期化の前に密度を活用し、1デコーダ構造と6デコーダ構造のギャップをもたらす。 MS COCOで行った実験により,3つのエンコーダ層と1つのデコーダ層しか持たない手法が,最先端のオブジェクト検出手法と競合する性能を発揮することが示された。 効率的なDETRは、混雑したシーンでも堅牢である。 これは、CrowdHumanデータセット上の現代の検出器を大きなマージンで上回る。

The recently proposed end-to-end transformer detectors, such as DETR and Deformable DETR, have a cascade structure of stacking 6 decoder layers to update object queries iteratively, without which their performance degrades seriously. In this paper, we investigate that the random initialization of object containers, which include object queries and reference points, is mainly responsible for the requirement of multiple iterations. Based on our findings, we propose Efficient DETR, a simple and efficient pipeline for end-to-end object detection. By taking advantage of both dense detection and sparse set detection, Efficient DETR leverages dense prior to initialize the object containers and brings the gap of the 1-decoder structure and 6-decoder structure. Experiments conducted on MS COCO show that our method, with only 3 encoder layers and 1 decoder layer, achieves competitive performance with state-of-the-art object detection methods. Efficient DETR is also robust in crowded scenes. It outperforms modern detectors on CrowdHuman dataset by a large margin.
翻訳日:2021-04-06 14:40:23 公開日:2021-04-03
# darcnn: 生体画像における教師なしインスタンスセグメンテーションのための領域適応型畳み込みニューラルネットワーク

DARCNN: Domain Adaptive Region-based Convolutional Neural Network for Unsupervised Instance Segmentation in Biomedical Images ( http://arxiv.org/abs/2104.01325v1 )

ライセンス: Link先を確認
Joy Hsu, Wah Chiu, Serena Yeung(参考訳) 生物医学領域では、興味の対象が人間の知識の限界によって検出または制限されることが困難であるような、密度の高い複雑なデータが豊富に存在する。 教師付きタスクのためのラベル付きドメイン固有データセットは、しばしば取得に費用がかかり、さらに新しい異なるオブジェクトの発見は、偏りのない科学的発見に望ましいかもしれない。 そこで我々は,ベンチマークコンピュータビジョンデータセットの豊富なアノテーションを活用し,多様なバイオメディカルデータセットに対する教師なしインスタンスセグメンテーションを行う。 鍵となる障害は、一般的な画像から生物医学画像への大きな領域シフトを克服することである。 本研究では,大規模なラベル付きビジョンデータセットであるCOCOから複数のバイオメディカルデータセットへのオブジェクト定義の知識を適応させるドメイン適応型領域ベース畳み込みニューラルネットワーク(DARCNN)を提案する。 ドメイン分離モジュール,自己教師付き表現一貫性損失,darcnn内の拡張擬似ラベルステージを導入し,このような大きなドメインシフトに対して効果的にドメイン適応を行う。 多数のバイオメディカルデータセット上での教師なしインスタンスセグメンテーションにおけるDARCNNの性能を示す。

In the biomedical domain, there is an abundance of dense, complex data where objects of interest may be challenging to detect or constrained by limits of human knowledge. Labelled domain specific datasets for supervised tasks are often expensive to obtain, and furthermore discovery of novel distinct objects may be desirable for unbiased scientific discovery. Therefore, we propose leveraging the wealth of annotations in benchmark computer vision datasets to conduct unsupervised instance segmentation for diverse biomedical datasets. The key obstacle is thus overcoming the large domain shift from common to biomedical images. We propose a Domain Adaptive Region-based Convolutional Neural Network (DARCNN), that adapts knowledge of object definition from COCO, a large labelled vision dataset, to multiple biomedical datasets. We introduce a domain separation module, a self-supervised representation consistency loss, and an augmented pseudo-labelling stage within DARCNN to effectively perform domain adaptation across such large domain shifts. We showcase DARCNN's performance for unsupervised instance segmentation on numerous biomedical datasets.
翻訳日:2021-04-06 14:40:04 公開日:2021-04-03
# Recursly Refined R-CNN:Self-RoI Rebalancingによるインスタンスセグメンテーション

Recursively Refined R-CNN: Instance Segmentation with Self-RoI Rebalancing ( http://arxiv.org/abs/2104.01329v1 )

ライセンス: Link先を確認
Leonardo Rossi, Akbar Karimi, Andrea Prati(参考訳) インスタンスセグメンテーションの分野において、最先端のディープラーニングネットワークのほとんどは、現在カスケードアーキテクチャに依存しており、複数のオブジェクト検出器が順次トレーニングされ、各ステップで基底真理を再サンプリングしている。 これにより、指数関数的に正のサンプルを消滅する問題の解が得られる。 しかし、パラメータの数の観点からするとネットワークの複雑さも増大する。 この問題に対処するため,ループ機構を導入して重複を回避するRecursively Refined R-CNN(R^3$-CNN)を提案する。 同時に、再帰的再サンプリング技術を用いて、各再帰において特定のIoU品質を利用して、最終的に正のスペクトルを均等にカバーする品質向上を実現する。 実験では,重みのループ機構の特定のエンコーディングに注目し,推論時に使用する必要がある。 R^3$-CNNアーキテクチャは、最近提案されたHTCモデルを超えることができ、パラメータの数を著しく削減できる。 COCO Minival 2017データセットの実験では、使用済みベースラインモデルとは独立してパフォーマンスが向上した。 コードはhttps://github.com/i mplabunipr/mmdetecti on/tree/r3_cnnで入手できる。

Within the field of instance segmentation, most of the state-of-the-art deep learning networks rely nowadays on cascade architectures, where multiple object detectors are trained sequentially, re-sampling the ground truth at each step. This offers a solution to the problem of exponentially vanishing positive samples. However, it also translates into an increase in network complexity in terms of the number of parameters. To address this issue, we propose Recursively Refined R-CNN ($R^3$-CNN) which avoids duplicates by introducing a loop mechanism instead. At the same time, it achieves a quality boost using a recursive re-sampling technique, where a specific IoU quality is utilized in each recursion to eventually equally cover the positive spectrum. Our experiments highlight the specific encoding of the loop mechanism in the weights, requiring its usage at inference time. The $R^3$-CNN architecture is able to surpass the recently proposed HTC model, while reducing the number of parameters significantly. Experiments on COCO minival 2017 dataset show performance boost independently from the utilized baseline model. The code is available online at https://github.com/I MPLabUniPr/mmdetecti on/tree/r3_cnn.
翻訳日:2021-04-06 14:39:47 公開日:2021-04-03
# HOG特徴抽出が可能な勾配保存画像の生成

Generation of Gradient-Preserving Images allowing HOG Feature Extraction ( http://arxiv.org/abs/2104.01350v1 )

ライセンス: Link先を確認
Masaki Kitayama, Hitoshi Kiya(参考訳) 本稿では,勾配保存画像と呼ばれる視覚的に保護された画像を生成する手法を提案する。 保護された画像は、プライバシー保護機械学習のためのHistogram-of-Oriente d-Gradients(HOG)機能を直接抽出することができる。 実験では,勾配保存画像から抽出したHOG特徴を顔認識アルゴリズムに適用し,提案手法の有効性を実証した。

In this paper, we propose a method for generating visually protected images, referred to as gradient-preserving images. The protected images allow us to directly extract Histogram-of-Oriente d-Gradients (HOG) features for privacy-preserving machine learning. In an experiment, HOG features extracted from gradient-preserving images are applied to a face recognition algorithm to demonstrate the effectiveness of the proposed method.
翻訳日:2021-04-06 14:39:28 公開日:2021-04-03
# グラフコントラストクラスタリング

Graph Contrastive Clustering ( http://arxiv.org/abs/2104.01429v1 )

ライセンス: Link先を確認
Huasong Zhong, Jianlong Wu, Chong Chen, Jianqiang Huang, Minghua Deng, Liqiang Nie, Zhouchen Lin, Xian-Sheng Hua(参考訳) 近年,表現とクラスタリングの課題を同時に学習し,大幅な改善を達成するためのコントラスト学習手法が提案されている。 しかし、これらの手法はカテゴリ情報やクラスタリングの目的を考慮していないため、学習された表現はクラスタリングに最適ではなく、性能が制限される可能性がある。 そこで我々はまず,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,GCC(Graph Constrastive Clustering)法を提案する。 イメージと拡張のみを仮定した基本的なコントラストクラスタリングとは異なり、インスタンスレベルの一貫性をクラスタレベルの一貫性に引き上げ、ひとつのクラスタ内のサンプルとその拡張がすべて同じであるべきだと仮定します。 特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。 一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。 どちらも潜在カテゴリ情報を取り込んでクラスタ内分散を削減し、クラスタ間分散を増加させる。 6つの一般的なデータセットの実験は、最先端の手法よりも提案手法の方が優れていることを示す。

Recently, some contrastive learning methods have been proposed to simultaneously learn representations and clustering assignments, achieving significant improvements. However, these methods do not take the category information and clustering objective into consideration, thus the learned representations are not optimal for clustering and the performance might be limited. Towards this issue, we first propose a novel graph contrastive learning framework, which is then applied to the clustering task and we come up with the Graph Constrastive Clustering~(GCC) method. Different from basic contrastive clustering that only assumes an image and its augmentation should share similar representation and clustering assignments, we lift the instance-level consistency to the cluster-level consistency with the assumption that samples in one cluster and their augmentations should all be similar. Specifically, on the one hand, the graph Laplacian based contrastive loss is proposed to learn more discriminative and clustering-friendly features. On the other hand, a novel graph-based contrastive learning strategy is proposed to learn more compact clustering assignments. Both of them incorporate the latent category information to reduce the intra-cluster variance while increasing the inter-cluster variance. Experiments on six commonly used datasets demonstrate the superiority of our proposed approach over the state-of-the-art methods.
翻訳日:2021-04-06 14:39:19 公開日:2021-04-03
# 高分解能画像処理のための集合的文脈変換

Aggregated Contextual Transformations for High-Resolution Image Inpainting ( http://arxiv.org/abs/2104.01431v1 )

ライセンス: Link先を確認
Yanhong Zeng, Jianlong Fu, Hongyang Chao, Baining Guo(参考訳) 最先端のイメージインペインティングアプローチは、高解像度画像(例えば512x512)で歪んだ構造やぼやけたテクスチャの生成に苦しむ可能性がある。 課題は,(1)遠い文脈から推定した画像の内容から,(2)大きな欠損領域に対するきめ細かいテクスチャ合成へと導かれる。 これら2つの課題を克服するために,高解像度画像インペイントのためのAggregated Contextual-Transform ation GAN (AOT-GAN) と呼ばれる拡張GANモデルを提案する。 具体的には、コンテキスト推論を強化するために、提案するAOTブロックの複数のレイヤを積み重ねることで、AOT-GANのジェネレータを構築する。 AOTは、様々な受容領域からのコンテキスト変換をブロックし、情報的な遠方の画像コンテキストと、コンテキスト推論のための豊富な関心パターンの両方をキャプチャする。 テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。 このような訓練対象は、判別器に実際のパッチと合成パッチの詳細な外観を区別させ、その結果、生成元が透明なテクスチャを合成するのを促進させる。 最も難しい365の複雑なシーンの高解像度画像とのベンチマークであるPlaces2の大規模な比較では、我々のモデルは38.60%の相対的な改善によるFIDの差で最先端よりも優れていた。 30人以上の被験者を含むユーザスタディは、AOT-GANの優位性をさらに検証する。 さらに,提案するaot-ganを,ロゴ除去,顔編集,オブジェクト除去など,実用的な用途で評価する。 その結果,本モデルは実世界で有望な完成を達成できた。 コードとモデルをhttps://github.com/r esearchmm/AOT-GAN-fo r-Inpaintingでリリースします。

State-of-the-art image inpainting approaches can suffer from generating distorted structures and blurry textures in high-resolution images (e.g., 512x512). The challenges mainly drive from (1) image content reasoning from distant contexts, and (2) fine-grained texture synthesis for a large missing region. To overcome these two challenges, we propose an enhanced GAN-based model, named Aggregated COntextual-Transform ation GAN (AOT-GAN), for high-resolution image inpainting. Specifically, to enhance context reasoning, we construct the generator of AOT-GAN by stacking multiple layers of a proposed AOT block. The AOT blocks aggregate contextual transformations from various receptive fields, allowing to capture both informative distant image contexts and rich patterns of interest for context reasoning. For improving texture synthesis, we enhance the discriminator of AOT-GAN by training it with a tailored mask-prediction task. Such a training objective forces the discriminator to distinguish the detailed appearances of real and synthesized patches, and in turn, facilitates the generator to synthesize clear textures. Extensive comparisons on Places2, the most challenging benchmark with 1.8 million high-resolution images of 365 complex scenes, show that our model outperforms the state-of-the-art by a significant margin in terms of FID with 38.60% relative improvement. A user study including more than 30 subjects further validates the superiority of AOT-GAN. We further evaluate the proposed AOT-GAN in practical applications, e.g., logo removal, face editing, and object removal. Results show that our model achieves promising completions in the real world. We release code and models in https://github.com/r esearchmm/AOT-GAN-fo r-Inpainting.
翻訳日:2021-04-06 14:39:02 公開日:2021-04-03
# forget" the forget gate:自己完結型長期記憶ネットワークを用いたビデオの異常推定

"Forget" the Forget Gate: Estimating Anomalies in Videos using Self-contained Long Short-Term Memory Networks ( http://arxiv.org/abs/2104.01478v1 )

ライセンス: Link先を確認
Habtamu Fanta, Zhiwen Shao, Lizhuang Ma(参考訳) 異常事象検出は、外観と動きの複雑な特徴を効果的に扱うことを必要とする課題である。 本稿では,新しいlstmベース自己完結型ネットワークを正規密集光流で学習し,映像中の異常を検出する手法を提案する。 シグモイドの実装により、標準のLSTMのリザーブゲートは、異常検出のような長いシーケンスタスクにおいて関連コンテンツを見落とし、取り除くことができる。 忘れゲートは、電流入力を優先するセル状態の計算のために、以前の隠れ状態の参加を緩和する。 さらに、標準LSTMの双曲的タンジェントアクティベーションは、ネットワークが深まると性能を犠牲にする。 これら2つの制限に対処するため,両ゲート型軽量LSTM細胞をリザーブゲートを破棄し,シグモイド活性化を導入する。 具体的には、私たちが思いついたLSTMアーキテクチャは、以前の隠れ状態から完全に持続するコンテントを持ち、トレーニングされたモデルが堅牢で、評価中に文脈に依存しない決定をすることができる。 取り外しゲートを除去するとLSTMセルが簡素化され、性能効率と計算効率が向上する。 実証評価の結果,提案した二ゲートLSTMネットワークは,CUHK Avenue および UCSD データセットにおける異常検出および一般化タスクの有効性を検証するLSTMモデルよりも優れていた。

Abnormal event detection is a challenging task that requires effectively handling intricate features of appearance and motion. In this paper, we present an approach of detecting anomalies in videos by learning a novel LSTM based self-contained network on normal dense optical flow. Due to their sigmoid implementations, standard LSTM's forget gate is susceptible to overlooking and dismissing relevant content in long sequence tasks like abnormality detection. The forget gate mitigates participation of previous hidden state for computation of cell state prioritizing current input. In addition, the hyperbolic tangent activation of standard LSTMs sacrifices performance when a network gets deeper. To tackle these two limitations, we introduce a bi-gated, light LSTM cell by discarding the forget gate and introducing sigmoid activation. Specifically, the LSTM architecture we come up with fully sustains content from previous hidden state thereby enabling the trained model to be robust and make context-independent decision during evaluation. Removing the forget gate results in a simplified and undemanding LSTM cell with improved performance effectiveness and computational efficiency. Empirical evaluations show that the proposed bi-gated LSTM based network outperforms various LSTM based models verifying its effectiveness for abnormality detection and generalization tasks on CUHK Avenue and UCSD datasets.
翻訳日:2021-04-06 14:38:31 公開日:2021-04-03
# ExKaldi-RT:Kaldiのリアルタイム音声認識拡張ツールキット

ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit of Kaldi ( http://arxiv.org/abs/2104.01384v1 )

ライセンス: Link先を確認
Yu Wang, Chee Siang Leow, Akio Kobayashi, Takehito Utsuro, Hiromitsu Nishizaki(参考訳) オープンソースソフトウェアの可用性は、自動音声認識(ASR)において顕著な役割を担っている。 例えば、kaldiは最先端のオフラインおよびオンラインasrシステムの開発に広く使われている。 本稿では,Kaldi と Python 言語をベースとしたオンライン ASR ツールキット "ExKaldi-RT" について述べる。 ExKaldi-RTは、リアルタイムオーディオストリームパイプラインの提供、音響的特徴の抽出、リモート接続によるパケット送信、ニューラルネットワークによる音響確率の推定、オンラインデコーディングのためのツールを提供する。 同様の機能はkaldi上に構築されているが、exkaldi-rtの重要な機能はpython言語に完全に組み込まれている。これはオンラインasrシステム開発者が、例えばニューラルネットワークベースの信号処理とディープラーニングフレームワークでトレーニングされた音響モデルを適用することで、独自の研究を活用できるような、使いやすいインターフェイスを備えている。 We performed benchmark experiment on the minimum LibriSpeech corpus, and showed that ExKaldi-RT could achieved competitive ASR performance in real-time。

The availability of open-source software is playing a remarkable role in automatic speech recognition (ASR). Kaldi, for instance, is widely used to develop state-of-the-art offline and online ASR systems. This paper describes the "ExKaldi-RT," online ASR toolkit implemented based on Kaldi and Python language. ExKaldi-RT provides tools for providing a real-time audio stream pipeline, extracting acoustic features, transmitting packets with a remote connection, estimating acoustic probabilities with a neural network, and online decoding. While similar functions are available built on Kaldi, a key feature of ExKaldi-RT is completely working on Python language, which has an easy-to-use interface for online ASR system developers to exploit original research, for example, by applying neural network-based signal processing and acoustic model trained with deep learning frameworks. We performed benchmark experiments on the minimum LibriSpeech corpus, and showed that ExKaldi-RT could achieve competitive ASR performance in real-time.
翻訳日:2021-04-06 14:31:26 公開日:2021-04-03
# シーケンス対シーケンスASRのためのオンザフライアライメントデータ拡張

On-the-Fly Aligned Data Augmentation for Sequence-to-Sequence ASR ( http://arxiv.org/abs/2104.01393v1 )

ライセンス: Link先を確認
Tsz Kin Lam, Mayumi Ohta, Shigehiko Schamoni, Stefan Riezler(参考訳) 本稿では,アライメント情報を用いて効果的な学習サンプルを生成する自動音声認識(asr)のためのオンザフライデータ拡張手法を提案する。 ASRのためのアラインドデータ拡張(ADA)と呼ばれるこの手法は、書き起こされたトークンと音声表現を整列的に置き換えて、それまで目に見えないトレーニングペアを生成する。 音声表現は、トレーニングコーパスから抽出された音声辞書からサンプリングされ、トレーニング例に話者変動を注入する。 転写されたトークンは言語モデルによって予測され、拡張されたデータペアが元のデータに意味的に近いか、ランダムにサンプリングされる。 どちらの戦略も、asrトレーニングのロバスト性を改善するトレーニングペアをもたらす。 Seq-to-Seqアーキテクチャの実験により、ADAはSpecAugmentの上に適用でき、それぞれLibriSpeech 100h と LibriSpeech 960h のテストデータセット上で、SpecAugment よりも約 9-23% と 4-15% の改善が達成された。

We propose an on-the-fly data augmentation method for automatic speech recognition (ASR) that uses alignment information to generate effective training samples. Our method, called Aligned Data Augmentation (ADA) for ASR, replaces transcribed tokens and the speech representations in an aligned manner to generate previously unseen training pairs. The speech representations are sampled from an audio dictionary that has been extracted from the training corpus and inject speaker variations into the training examples. The transcribed tokens are either predicted by a language model such that the augmented data pairs are semantically close to the original data, or randomly sampled. Both strategies result in training pairs that improve robustness in ASR training. Our experiments on a Seq-to-Seq architecture show that ADA can be applied on top of SpecAugment, and achieves about 9-23% and 4-15% relative improvements in WER over SpecAugment alone on LibriSpeech 100h and LibriSpeech 960h test datasets, respectively.
翻訳日:2021-04-06 14:31:10 公開日:2021-04-03
# どんな言語でもキーワードスポッティング

Few-Shot Keyword Spotting in Any Language ( http://arxiv.org/abs/2104.01454v1 )

ライセンス: Link先を確認
Mark Mazumder, Colby Banbury, Josh Meyer, Pete Warden, Vijay Janapa Reddi(参考訳) 任意の言語でキーワードスポッティングを行うための,数発の転送学習手法を提案する。 オープン音声コーパスを9言語で活用し,大規模多言語キーワードバンクの抽出を自動化し,組込みモデルの学習に利用する。 5つのトレーニング例で,キーワードスポッティングの埋め込みモデルを微調整し,これら9つの言語における埋め込みモデルでは見当たらない180の新しいキーワードのキーワード分類において,平均0.75のf1スコアを達成する。 この埋め込みモデルは、新しい言語にも一般化する。 埋め込みモデルでは見つからない13の言語にまたがる260のキーワードに対する5ショットモデルの平均F1スコアは0.65である。 キーワードスポッティングとキーワード検索の2つの文脈で5ショットモデルのストリーミング精度を検討する。 22の言語で440のキーワードにまたがって、平均85.2%のストリーミングキーワードスポッティング精度と1.2%の誤受率を達成し、キーワード検索における有望な初期結果を観察した。

We introduce a few-shot transfer learning method for keyword spotting in any language. Leveraging open speech corpora in nine languages, we automate the extraction of a large multilingual keyword bank and use it to train an embedding model. With just five training examples, we fine-tune the embedding model for keyword spotting and achieve an average F1 score of 0.75 on keyword classification for 180 new keywords unseen by the embedding model in these nine languages. This embedding model also generalizes to new languages. We achieve an average F1 score of 0.65 on 5-shot models for 260 keywords sampled across 13 new languages unseen by the embedding model. We investigate streaming accuracy for our 5-shot models in two contexts: keyword spotting and keyword search. Across 440 keywords in 22 languages, we achieve an average streaming keyword spotting accuracy of 85.2% with a false acceptance rate of 1.2%, and observe promising initial results on keyword search.
翻訳日:2021-04-06 14:30:50 公開日:2021-04-03
# きつい圧縮:きめ細かい刈り取りと重量変化によるcnn圧縮による効率的な実装

Tight Compression: Compressing CNN Through Fine-Grained Pruning and Weight Permutation for Efficient Implementation ( http://arxiv.org/abs/2104.01303v1 )

ライセンス: Link先を確認
Xizi Chen, Jingyang Zhu, Jingbo Jiang, Chi-Ying Tsui(参考訳) プルーニング後の非構造化空間は、サイストリック配列のような既存の正規アーキテクチャにおけるディープラーニングモデルの効率的な実装に挑戦する。 一方,粗粒構造プルーニングは正規アーキテクチャの実装に適しているが,プルーニングモデルのサイズが同じである場合,非構造化プルーニングよりも精度が低下する傾向がある。 本研究では,ハードウェア設計における微粒化重み空間を完全に活用するために,新しい重み置換方式に基づくモデル圧縮手法を提案する。 置換により、重み行列の最適配置を求め、スパース重み行列をさらに小さく密度の高いフォーマットに圧縮し、ハードウェア資源をフル活用する。 刈り取った2つの粒状物が探索される。 また,非構造的な重みプルーニングに加えて,より細粒度のサブワードレベルのプルーニングを提案し,圧縮性能をさらに向上させる。 最新技術と比較すると、行列圧縮速度は5.88xから14.13xに大幅に改善されている。 その結果、スループットとエネルギー効率がそれぞれ2.75倍と1.86倍に向上する。

The unstructured sparsity after pruning poses a challenge to the efficient implementation of deep learning models in existing regular architectures like systolic arrays. On the other hand, coarse-grained structured pruning is suitable for implementation in regular architectures but tends to have higher accuracy loss than unstructured pruning when the pruned models are of the same size. In this work, we propose a model compression method based on a novel weight permutation scheme to fully exploit the fine-grained weight sparsity in the hardware design. Through permutation, the optimal arrangement of the weight matrix is obtained, and the sparse weight matrix is further compressed to a small and dense format to make full use of the hardware resources. Two pruning granularities are explored. In addition to the unstructured weight pruning, we also propose a more fine-grained subword-level pruning to further improve the compression performance. Compared to the state-of-the-art works, the matrix compression rate is significantly improved from 5.88x to 14.13x. As a result, the throughput and energy efficiency are improved by 2.75 and 1.86 times, respectively.
翻訳日:2021-04-06 14:29:24 公開日:2021-04-03
# グラフニューラルネットワークを用いた医療エンティティの曖昧化

Medical Entity Disambiguation Using Graph Neural Networks ( http://arxiv.org/abs/2104.01488v1 )

ライセンス: Link先を確認
Alina Vretinaris, Chuan Lei, Vasilis Efthymiou, Xiao Qin, Fatma \"Ozcan(参考訳) バイオメディカル文献や規制行動から抽出した医療知識ベース (KB) は, 臨床意思決定を容易にするための高品質な情報の提供が期待されている。 エンティティの曖昧さ(エンティティリンクとも呼ばれる)は、このような医療kbの富を解き放つ上で不可欠なタスクであると考えられている。 しかし、既存の医療機関の曖昧さ解消方法は、kbのエンティティとソース文書のテキストスニペットとの間の単語の相違のため、不十分である。 近年、グラフニューラルネットワーク(GNN)は非常に有効であることが証明され、グラフ構造化データを持つ多くの実世界のアプリケーションに最先端の結果を提供する。 本稿では,3つの代表的GNN(GraphSAGE, R-GCN, MAGNN)に基づくED-GNNを紹介する。 ED-GNNの改良と微調整のための2つの最適化手法を開発した。 まず,テキストスニペットに記述されたエンティティをクエリグラフとして表現するための新しい戦略を提案する。 第2に,モデルの曖昧さを解消するために,硬い負のサンプルを識別する効果的な負のサンプリング戦略を設計する。 最先端のソリューションと比較して、ED-GNNは5つの実世界のデータセットにおけるF1スコアの平均7.3%の改善を提供します。

Medical knowledge bases (KBs), distilled from biomedical literature and regulatory actions, are expected to provide high-quality information to facilitate clinical decision making. Entity disambiguation (also referred to as entity linking) is considered as an essential task in unlocking the wealth of such medical KBs. However, existing medical entity disambiguation methods are not adequate due to word discrepancies between the entities in the KB and the text snippets in the source documents. Recently, graph neural networks (GNNs) have proven to be very effective and provide state-of-the-art results for many real-world applications with graph-structured data. In this paper, we introduce ED-GNN based on three representative GNNs (GraphSAGE, R-GCN, and MAGNN) for medical entity disambiguation. We develop two optimization techniques to fine-tune and improve ED-GNN. First, we introduce a novel strategy to represent entities that are mentioned in text snippets as a query graph. Second, we design an effective negative sampling strategy that identifies hard negative samples to improve the model's disambiguation capability. Compared to the best performing state-of-the-art solutions, our ED-GNN offers an average improvement of 7.3% in terms of F1 score on five real-world datasets.
翻訳日:2021-04-06 14:27:14 公開日:2021-04-03
# マルチメディア技術の応用とアルゴリズム:調査

Multimedia Technology Applications and Algorithms: A Survey ( http://arxiv.org/abs/2104.01301v1 )

ライセンス: Link先を確認
Palak Tiwary and Sanjida Ahmed(参考訳) マルチメディア関連の研究と開発はここ数年で急速に進化し、ハードウェア、ソフトウェア、ネットワークインフラが進歩した。 その結果、マルチメディアは、ヘルスケアや医療、人間の顔の特徴抽出と追跡、ポーズ認識、不一致推定などの分野に統合された。 本調査では,先述の領域で開発されたマルチメディア技術とアルゴリズムについて概説する。

Multimedia related research and development has evolved rapidly in the last few years with advancements in hardware, software and network infrastructures. As a result, multimedia has been integrated into domains like Healthcare and Medicine, Human facial feature extraction and tracking, pose recognition, disparity estimation, etc. This survey gives an overview of the various multimedia technologies and algorithms developed in the domains mentioned.
翻訳日:2021-04-06 14:23:50 公開日:2021-04-03
# MR-Contrast-Aware Image-to-Image Translations with Generative Adversarial Networks

MR-Contrast-Aware Image-to-Image Translations with Generative Adversarial Networks ( http://arxiv.org/abs/2104.01449v1 )

ライセンス: Link先を確認
Jonas Denck, Jens Guehring, Andreas Maier, Eva Rothgang(参考訳) 目的 磁気共鳴画像検査(mri)は、画像のコントラストが異なる複数の配列から構成される。 各シーケンスは、画像コントラスト、信号対雑音比、取得時間、および/または解像度に影響を与える複数の取得パラメータによってパラメータ化される。 臨床所見によっては、放射線医が診断するために異なるコントラストが必要である。 MRシークエンス取得は時間を要するため、運動により取得した画像を劣化させる可能性があるため、調整可能なコントラスト特性を持つMR画像の合成方法が必要である。 そこで,mr取得パラメータの繰り返し時間とエコー時間に基づいて,画像対画像生成逆ネットワークを訓練した。 画像の「スタイル」は我々のネットワークが条件付けしているmr取得パラメータによって決定されるため、我々のアプローチはスタイル転送ネットワークに動機づけられているが、画像の「スタイル」は我々の場合明示的に与えられる。 画像のコントラストの調整が可能なMR画像の合成が可能となる。 提案手法は, 市販のmr膝画像の大規模セットであるfastmriデータセットのアプローチを評価し, 非脂肪飽和mr画像から脂肪飽和画像への変換において, pix2pixのベンチマーク手法よりも優れていることを示した。 提案手法はピーク信号対雑音比と24.48と0.66の構造的類似性を示し,ピクセルベンチマークモデルを大幅に上回っている。 結論 我々のモデルは、MRIにおけるAIトレーニングのためのデータ拡張技術として、欠けているMRコントラストを合成するために使用できる、微調整コントラスト合成を可能にする最初のモデルである。

Purpose A Magnetic Resonance Imaging (MRI) exam typically consists of several sequences that yield different image contrasts. Each sequence is parameterized through multiple acquisition parameters that influence image contrast, signal-to-noise ratio, acquisition time, and/or resolution. Depending on the clinical indication, different contrasts are required by the radiologist to make a diagnosis. As MR sequence acquisition is time consuming and acquired images may be corrupted due to motion, a method to synthesize MR images with adjustable contrast properties is required. Methods Therefore, we trained an image-to-image generative adversarial network conditioned on the MR acquisition parameters repetition time and echo time. Our approach is motivated by style transfer networks, whereas the "style" for an image is explicitly given in our case, as it is determined by the MR acquisition parameters our network is conditioned on. Results This enables us to synthesize MR images with adjustable image contrast. We evaluated our approach on the fastMRI dataset, a large set of publicly available MR knee images, and show that our method outperforms a benchmark pix2pix approach in the translation of non-fat-saturated MR images to fat-saturated images. Our approach yields a peak signal-to-noise ratio and structural similarity of 24.48 and 0.66, surpassing the pix2pix benchmark model significantly. Conclusion Our model is the first that enables fine-tuned contrast synthesis, which can be used to synthesize missing MR contrasts or as a data augmentation technique for AI training in MRI.
翻訳日:2021-04-06 14:23:45 公開日:2021-04-03
# マイクロ波動インダクタンス検出器(MKID)共振器同定とチューニングのためのエンドツーエンドディープラーニングパイプライン

End-to-end Deep Learning Pipeline for Microwave Kinetic Inductance Detector (MKID) Resonator Identification and Tuning ( http://arxiv.org/abs/2104.01282v1 )

ライセンス: Link先を確認
Neelay Fruitwala and Alex B Walter and John I Bailey III and Rupert Dodkins and Benjamin A Mazin(参考訳) 我々は、光/赤外線マイクロ波動インダクタンス検出器(MKID)アレイを読み取るのに使用される周波数コムの校正を完全に自動化する機械学習ベースのパイプラインを開発した。 このプロセスでは、各ピクセル(すなわち)の共振周波数と最適駆動力を決定する。 共振器) 配列は、通常手動で行われる。 DARKNESS (DARK-speckle Near-infrared Energy-resolving Superconducting Spectrometer) やMEC (MKID Exoplanet Camera) のような現代の光学/赤外線MKIDアレイは10-20,000ピクセルを含み、キャリブレーション処理には非常に時間がかかる。 本稿では、単一畳み込みニューラルネットワーク(CNN)を用いて共振器識別とチューニングを同時に行うパイプラインを提案する。 我々のパイプラインは手動のチューニングプロセスと同等の性能を持ち、フィードラインあたりの計算時間はわずか12分であることがわかった。

We present the development of a machine learning based pipeline to fully automate the calibration of the frequency comb used to read out optical/IR Microwave Kinetic Inductance Detector (MKID) arrays. This process involves determining the resonant frequency and optimal drive power of every pixel (i.e. resonator) in the array, which is typically done manually. Modern optical/IR MKID arrays, such as DARKNESS (DARK-speckle Near-infrared Energy-resolving Superconducting Spectrophotometer) and MEC (MKID Exoplanet Camera), contain 10-20,000 pixels, making the calibration process extremely time consuming; each 2000 pixel feedline requires 4-6 hours of manual tuning. Here we present a pipeline which uses a single convolutional neural network (CNN) to perform both resonator identification and tuning simultaneously. We find that our pipeline has performance equal to that of the manual tuning process, and requires just twelve minutes of computational time per feedline.
翻訳日:2021-04-06 14:21:24 公開日:2021-04-03
# 2値分類のためのスパース大学2次表面支援ベクトルマシンモデル

Sparse Universum Quadratic Surface Support Vector Machine Models for Binary Classification ( http://arxiv.org/abs/2104.01331v1 )

ライセンス: Link先を確認
Hossein Moosaei, Ahmad Mousavi, Milan Hlad\'ik, Zheming Gao(参考訳) バイナリ分類では、カーネルフリーな線形または二次サポートベクターマシンが提案されており、適切なカーネル関数の発見やハイパーパラメータのチューニングといった困難に対処する。 さらに、いかなるクラスにも属さないユニバースデータポイントを利用して、対応するモデルに事前知識を埋め込むことで、一般化性能を向上させることができる。 本稿では,新しいカーネルフリーな2次曲面支持ベクトルマシンモデルを設計する。 さらに,2次曲面のヘシアンにおける潜在空間パターンの検出と,データポイントが(ほぼ)線形分離可能である場合の標準線形モデルへの還元に有効であるL1正規正規化版を提案する。 提案したモデルは、標準数値解法を用いて解くことができる凸である。 それにもかかわらず、我々はl1ノルム正規化モデルの最小二乗形を定式化し、次に1つの線形系のみを解く効果的な調整アルゴリズムを設計する。 これらのモデルのいくつかの理論的性質も報告/証明される。 最終的に,提案モデルの有効性と有効性を示すために,人工ベンチマークデータセットと公開ベンチマークデータセットの数値実験を行った。

In binary classification, kernel-free linear or quadratic support vector machines are proposed to avoid dealing with difficulties such as finding appropriate kernel functions or tuning their hyper-parameters. Furthermore, Universum data points, which do not belong to any class, can be exploited to embed prior knowledge into the corresponding models so that the generalization performance is improved. In this paper, we design novel kernel-free Universum quadratic surface support vector machine models. Further, we propose the L1 norm regularized version that is beneficial for detecting potential sparsity patterns in the Hessian of the quadratic surface and reducing to the standard linear models if the data points are (almost) linearly separable. The proposed models are convex such that standard numerical solvers can be utilized for solving them. Nonetheless, we formulate a least squares version of the L1 norm regularized model and next, design an effective tailored algorithm that only requires solving one linear system. Several theoretical properties of these models are then reported/proved as well. We finally conduct numerical experiments on both artificial and public benchmark data sets to demonstrate the feasibility and effectiveness of the proposed models.
翻訳日:2021-04-06 14:21:04 公開日:2021-04-03
# インタラクション不要:neural odeを用いたロバストなモデルベース模倣学習

No Need for Interactions: Robust Model-Based Imitation Learning using Neural ODE ( http://arxiv.org/abs/2104.01390v1 )

ライセンス: Link先を確認
HaoChih Lin, Baopu Li, Xin Zhou, Jiankun Wang, Max Q.-H. Meng(参考訳) 現在の模倣学習(il)アルゴリズムのほとんどでは、トレーニング中の環境や専門家ポリシーとのインタラクションが必要である。 相互作用のないil問題に対して、典型的なアプローチはビヘイビアクローニング(bc)である。 しかし、BC様の手法は分布シフトの影響を受けやすい。 この問題を軽減するため、我々はモデルベース模倣学習(rmbil)フレームワークを考案し、模倣学習をエンドツーエンドの微分可能非線形閉ループ追跡問題としてキャストする。 RMBILは、非線形ダイナミクスインバージョン(NDI)アルゴリズムを用いて、正確なマルチステップダイナミクスと堅牢なトラッキングコントローラを学ぶためにNeural ODEを適用している。 学習したNDIコントローラは、専門家の行動を模倣するために、軌道生成器、条件付きVAEと結合される。 理論的導出は、ニューラルODEのトレーニング損失を最小限に抑えるために、コントローラネットワークがNDIを近似できることを示している。 Mujoco タスクの実験では、RMBIL は最先端の生成逆数法 (GAIL) と競合し、不均一表面における BC よりも少なくとも30%の性能向上を達成している。

Interactions with either environments or expert policies during training are needed for most of the current imitation learning (IL) algorithms. For IL problems with no interactions, a typical approach is Behavior Cloning (BC). However, BC-like methods tend to be affected by distribution shift. To mitigate this problem, we come up with a Robust Model-Based Imitation Learning (RMBIL) framework that casts imitation learning as an end-to-end differentiable nonlinear closed-loop tracking problem. RMBIL applies Neural ODE to learn a precise multi-step dynamics and a robust tracking controller via Nonlinear Dynamics Inversion (NDI) algorithm. Then, the learned NDI controller will be combined with a trajectory generator, a conditional VAE, to imitate an expert's behavior. Theoretical derivation shows that the controller network can approximate an NDI when minimizing the training loss of Neural ODE. Experiments on Mujoco tasks also demonstrate that RMBIL is competitive to the state-of-the-art generative adversarial method (GAIL) and achieves at least 30% performance gain over BC in uneven surfaces.
翻訳日:2021-04-06 14:15:19 公開日:2021-04-03
# 離散時間確率過程におけるstlロバスト性リスク

STL Robustness Risk over Discrete-Time Stochastic Processes ( http://arxiv.org/abs/2104.01503v1 )

ライセンス: Link先を確認
Lars Lindemann, Nikolai Matni, and George J. Pappas(参考訳) 本稿では,離散時間確率過程上の信号時相論理(stl)公式を誘導リスクの観点から解釈する枠組みを提案する。 確率過程のそれぞれの実現は、stl公式を満たすか、違反する。 実際、この実現がいかに強固にstl公式を満たすかを示す各実現にロバスト性値を割り当てることができる。 次に,STL式を頑健に満たさない確率過程のリスクを定義し,これを「STL頑健性リスク」と呼ぶ。 私たちの定義では、リスクアットリスクのようなリスク対策の一般的なクラスを許可します。 一般に計算は困難であるが,STLのロバスト性リスクの近似法を提案する。 この近似は、選択されたリスク尺度がモノトンである場合、STLロバスト性リスクの上限となることが望ましい性質を持つ。 データ駆動型アプローチに関心を抱き、高い確率で保持される値付きリスクに対する近似STLロバスト性リスクの上界を計算するサンプリングベース手法を提案する。 リスク価値の事例を考察する一方で,このようなサンプリングベースの手法は,他のリスク対策にも有効であることを強調する。

We present a framework to interpret signal temporal logic (STL) formulas over discrete-time stochastic processes in terms of the induced risk. Each realization of a stochastic process either satisfies or violates an STL formula. In fact, we can assign a robustness value to each realization that indicates how robustly this realization satisfies an STL formula. We then define the risk of a stochastic process not satisfying an STL formula robustly, referred to as the "STL robustness risk". In our definition, we permit general classes of risk measures such as, but not limited to, the value-at-risk. While in general hard to compute, we propose an approximation of the STL robustness risk. This approximation has the desirable property of being an upper bound of the STL robustness risk when the chosen risk measure is monotone, a property satisfied by most risk measures. Motivated by the interest in data-driven approaches, we present a sampling-based method for calculating an upper bound of the approximate STL robustness risk for the value-at-risk that holds with high probability. While we consider the case of the value-at-risk, we highlight that such sampling-based methods are viable for other risk measures.
翻訳日:2021-04-06 14:13:07 公開日:2021-04-03
# (参考訳) TransMOT:複数物体追跡のための空間時間グラフ変換器 [全文訳有]

TransMOT: Spatial-Temporal Graph Transformer for Multiple Object Tracking ( http://arxiv.org/abs/2104.00194v2 )

ライセンス: CC BY 4.0
Peng Chu, Jiang Wang, Quanzeng You, Haibin Ling, Zicheng Liu(参考訳) ビデオ内の複数のオブジェクトの追跡は、オブジェクトの空間的-時間的相互作用のモデル化に依存している。 本稿では,強力なグラフ変換器を用いてオブジェクト間の空間的・時間的相互作用を効率的にモデル化するTransMOTという手法を提案する。 transmotは、トラックされたオブジェクトの軌道を疎重み付きグラフの集合として配置し、空間グラフトランスフォーマエンコーダ層、時間的トランスフォーマエンコーダ層、およびそれらのグラフに基づいて空間グラフトランスフォーマデコーダ層を構築することにより、多数のオブジェクトの相互作用を効果的にモデル化する。 TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。 追跡速度と精度をさらに高めるために,トランスモートでモデル化する計算資源を必要とする低スコア検出と長期閉塞を扱うカスケードアソシエーションフレームワークを提案する。 提案手法は,MOT15,MOT16,MOT17,M OT20を含む複数のベンチマークデータセットを用いて評価し,すべてのデータセットに対して最先端のパフォーマンスを実現する。

Tracking multiple objects in videos relies on modeling the spatial-temporal interactions of the objects. In this paper, we propose a solution named TransMOT, which leverages powerful graph transformers to efficiently model the spatial and temporal interactions among the objects. TransMOT effectively models the interactions of a large number of objects by arranging the trajectories of the tracked objects as a set of sparse weighted graphs, and constructing a spatial graph transformer encoder layer, a temporal transformer encoder layer, and a spatial graph transformer decoder layer based on the graphs. TransMOT is not only more computationally efficient than the traditional Transformer, but it also achieves better tracking accuracy. To further improve the tracking speed and accuracy, we propose a cascade association framework to handle low-score detections and long-term occlusions that require large computational resources to model in TransMOT. The proposed method is evaluated on multiple benchmark datasets including MOT15, MOT16, MOT17, and MOT20, and it achieves state-of-the-art performance on all the datasets.
翻訳日:2021-04-06 12:52:00 公開日:2021-04-03
# Blur Kernel Spaceによる画像劣化の探索

Explore Image Deblurring via Blur Kernel Space ( http://arxiv.org/abs/2104.00317v2 )

ライセンス: Link先を確認
Phong Tran and Anh Tran and Quynh Phung and Minh Hoai(参考訳) 本稿では,鮮明な画像対の任意のデータセットのぼやけた演算子を,ぼやけたカーネル空間に符号化する手法を提案する。 In-the-wild blur operator にエンコードされたカーネル空間が十分近いと仮定し、ブラインド画像の劣化に対する交互最適化アルゴリズムを提案する。 符号化された空間内のカーネルによって見えないぼかし演算子を近似し、対応するシャープイメージを検索する。 最近のディープラーニングベースの手法と異なり、システムは目に見えないぼかしのカーネルを処理できるが、古典的な手法でよく見られるぼかし演算子の複雑な手作りの事前処理は回避できる。 この手法の設計のため、符号化されたカーネル空間は完全に微分可能であり、ディープニューラルネットワークモデルに容易に適用できる。 さらに、任意のデータセットから既存のぼかし演算子を新しいドメインに転送することで、ぼかし合成に使用できる。 最後に,提案手法の有効性を確認する実験結果を提供する。

This paper introduces a method to encode the blur operators of an arbitrary dataset of sharp-blur image pairs into a blur kernel space. Assuming the encoded kernel space is close enough to in-the-wild blur operators, we propose an alternating optimization algorithm for blind image deblurring. It approximates an unseen blur operator by a kernel in the encoded space and searches for the corresponding sharp image. Unlike recent deep-learning-based methods, our system can handle unseen blur kernel, while avoiding using complicated handcrafted priors on the blur operator often found in classical methods. Due to the method's design, the encoded kernel space is fully differentiable, thus can be easily adopted in deep neural network models. Moreover, our method can be used for blur synthesis by transferring existing blur operators from a given dataset into a new domain. Finally, we provide experimental results to confirm the effectiveness of the proposed method.
翻訳日:2021-04-06 12:09:24 公開日:2021-04-03
# 南アフリカ言語のための低リソースニューラルマシン翻訳

Low-Resource Neural Machine Translation for Southern African Languages ( http://arxiv.org/abs/2104.00366v2 )

ライセンス: Link先を確認
Evander Nyoni and Bruce A. Bassett(参考訳) 低リソースのアフリカの言語は、データ不足のため、ニューラルマシン翻訳の進歩から完全には恩恵を受けていない。 この課題に動機づけられて、3つのバントゥー語(shona、isixhosa、isizulu)と英語でゼロショット学習、転送学習、多言語学習を比較した。 私たちの主なターゲットは英語からイシズル語への翻訳で、たった3万文のペアで、私たちの他のコーパスの平均サイズの28%です。 BLEUスコアが5.2の英語-isi-Xhosaと英語-isi-Shona親モデルに基づく英-isi-Zulu変換学習における言語類似性の重要性を示す。 次に,多言語学習がデータ集合の転送学習とゼロショット学習の両方を上回っており,ベースラインである9.9,6.1,2.0に比べてbleuスコアが向上していることを示す。 我々の最良のモデルは、以前のSOTA BLEUスコアも10以上改善します。

Low-resource African languages have not fully benefited from the progress in neural machine translation because of a lack of data. Motivated by this challenge we compare zero-shot learning, transfer learning and multilingual learning on three Bantu languages (Shona, isiXhosa and isiZulu) and English. Our main target is English-to-isiZulu translation for which we have just 30,000 sentence pairs, 28% of the average size of our other corpora. We show the importance of language similarity on the performance of English-to-isiZulu transfer learning based on English-to-isiXhosa and English-to-Shona parent models whose BLEU scores differ by 5.2. We then demonstrate that multilingual learning surpasses both transfer learning and zero-shot learning on our dataset, with BLEU score improvements relative to the baseline English-to-isiZulu model of 9.9, 6.1 and 2.0 respectively. Our best model also improves the previous SOTA BLEU score by more than 10.
翻訳日:2021-04-06 12:09:10 公開日:2021-04-03
# LED2-Net:微分深度レンダリングによる単眼360度レイアウト推定

LED2-Net: Monocular 360 Layout Estimation via Differentiable Depth Rendering ( http://arxiv.org/abs/2104.00568v2 )

ライセンス: Link先を確認
Fu-En Wang, Yu-Hsuan Yeh, Min Sun, Wei-Chen Chiu, Yi-Hsuan Tsai(参考訳) 部屋配置推定では大きな進歩があったが、ほとんどの手法は3次元空間の部屋構造を利用するよりも2次元画素座標の損失を減らすことを目的としている。 部屋のレイアウトを3Dで再構築するために,パノラマの水平線の深さを予測する問題として,360度レイアウト推定のタスクを定式化する。 具体的には、レイアウトから深度予測への変換を微分可能とし、3次元の幾何情報を活用しながらエンド・ツー・エンドのトレーニングを可能にするための微分可能な深度レンダリング手法を提案する。 提案手法は,360 レイアウトのベンチマークデータセットで最先端のパフォーマンスを実現する。 さらに,本定式化により,深度データセットの事前学習が可能となり,レイアウト推定モデルの一般化性が向上する。

Although significant progress has been made in room layout estimation, most methods aim to reduce the loss in the 2D pixel coordinate rather than exploiting the room structure in the 3D space. Towards reconstructing the room layout in 3D, we formulate the task of 360 layout estimation as a problem of predicting depth on the horizon line of a panorama. Specifically, we propose the Differentiable Depth Rendering procedure to make the conversion from layout to depth prediction differentiable, thus making our proposed model end-to-end trainable while leveraging the 3D geometric information, without the need of providing the ground truth depth. Our method achieves state-of-the-art performance on numerous 360 layout benchmark datasets. Moreover, our formulation enables a pre-training step on the depth dataset, which further improves the generalizability of our layout estimation model.
翻訳日:2021-04-06 12:08:52 公開日:2021-04-03