このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201203となっている論文です。

PDF登録状況(公開日: 20201203)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 機械学習を用いた短期フローベース帯域予測 [全文訳有]

Short-Term Flow-Based Bandwidth Forecasting using Machine Learning ( http://arxiv.org/abs/2011.14421v2 )

ライセンス: CC BY 4.0
Maxime Labonne, Jorge L\'opez, Claude Poletti, Jean-Baptiste Munier(参考訳) 本稿では,トラヒックフローの帯域幅を事前に予測する新しい枠組みを提案する。 現代のネットワーク管理システムは共通の問題を共有しており、決定が下された瞬間と行動(計数)が適用された瞬間の間にネットワーク状況が進化する。 このフレームワークは、パケットを実際のトラフィックから関連する機能を含むフローに変換する。 Decision Tree、Random Forest、XGBoost、Deep Neural Networkといった機械学習モデルは、これらのデータに基づいてトレーニングされ、各フローの次回インスタンスの帯域幅を予測する。 予測は、より正確なネットワーク状態を決定するために、現在のフロー帯域ではなく、管理システムに送信することができる。 981,774流と15の異なる時間窓(0.03から4s)で実験を行った。 彼らはランダムフォレストが、現在の帯域幅(平均絶対誤差は+19.73%、根平均二乗誤差は+18.00%)よりも常に優れた予測性能を持つ、最高の性能と信頼性のあるモデルであることを示した。 実験の結果,このフレームワークは予測されたネットワーク状態を用いてネットワーク管理システムがより情報的な決定を下すのに役立つことが示唆された。

This paper proposes a novel framework to predict traffic flows' bandwidth ahead of time. Modern network management systems share a common issue: the network situation evolves between the moment the decision is made and the moment when actions (countermeasures) are applied. This framework converts packets from real-life traffic into flows containing relevant features. Machine learning models, including Decision Tree, Random Forest, XGBoost, and Deep Neural Network, are trained on these data to predict the bandwidth at the next time instance for every flow. Predictions can be fed to the management system instead of current flows bandwidth in order to take decisions on a more accurate network state. Experiments were performed on 981,774 flows and 15 different time windows (from 0.03s to 4s). They show that the Random Forest is the best performing and most reliable model, with a predictive performance consistently better than relying on the current bandwidth (+19.73% in mean absolute error and +18.00% in root mean square error). Experimental results indicate that this framework can help network management systems to take more informed decisions using a predicted network state.
翻訳日:2021-06-07 09:48:54 公開日:2020-12-03
# 動的量子化を用いたオンラインツリー回帰器の分割試行

Using dynamical quantization to perform split attempts in online tree regressors ( http://arxiv.org/abs/2012.00083v2 )

ライセンス: Link先を確認
Saulo Martiello Mastelini, Andre Carlos Ponce de Leon Ferreira de Carvalho(参考訳) オンライン決定ツリーソリューションの中心的な側面は、入ってくるデータを評価し、モデルの成長を可能にすることである。 そのため、ツリーはさまざまな種類の入力機能に対処し、データから学ぶために分割する。 数値的な特徴は例外ではなく、分割決定を行う最良のポイントを選択するための簡単な戦略がないため、他の種類の特徴と比較して、さらなる課題を引き起こす。 この問題は、機能とターゲットの両方が連続しているため、回帰タスクにおいてさらに難しい。 典型的なオンラインソリューションは、リアルタイムアプリケーションで生じる制約に反する分割試行で監視されるすべてのポイントを評価し、保存する。 本稿では,オンラインツリー回帰器の数値的特徴における分割点候補の監視と評価を行う,単純かつ効果的なハッシュベースアルゴリズムである量子化オブザーバ(QO)を提案する。 QOはHoeffding Treesのようなインクリメンタルな決定木に簡単に統合でき、インスタンス毎に$O(1)$の監視コストと、分割候補を評価するためのサブ線形コストがある。 以前のソリューションは挿入あたり$O(\log n)$コスト(最良の場合)と分割点を評価する線形コスト(英語版)を備えていた。 実験では,qoの有効性を強調するとともに,メモリ使用時間と処理時間を大幅に削減した。

A central aspect of online decision tree solutions is evaluating the incoming data and enabling model growth. For such, trees much deal with different kinds of input features and partition them to learn from the data. Numerical features are no exception, and they pose additional challenges compared to other kinds of features, as there is no trivial strategy to choose the best point to make a split decision. The problem is even more challenging in regression tasks because both the features and the target are continuous. Typical online solutions evaluate and store all the points monitored between split attempts, which goes against the constraints posed in real-time applications. In this paper, we introduce the Quantization Observer (QO), a simple yet effective hashing-based algorithm to monitor and evaluate split point candidates in numerical features for online tree regressors. QO can be easily integrated into incremental decision trees, such as Hoeffding Trees, and it has a monitoring cost of $O(1)$ per instance and sub-linear cost to evaluate split candidates. Previous solutions had a $O(\log n)$ cost per insertion (in the best case) and a linear cost to evaluate split points. Our extensive experimental setup highlights QO's effectiveness in providing accurate split point suggestions while spending much less memory and processing time than its competitors.
翻訳日:2021-06-06 14:39:47 公開日:2020-12-03
# 画像処理前処理変換器

Pre-Trained Image Processing Transformer ( http://arxiv.org/abs/2012.00364v2 )

ライセンス: Link先を確認
Hanting Chen, Yunhe Wang, Tianyu Guo, Chang Xu, Yiping Deng, Zhenhua Liu, Siwei Ma, Chunjing Xu, Chao Xu, Wen Gao(参考訳) 現代のハードウェアのコンピューティング能力が強まるにつれて、大規模なデータセットで学習された事前学習されたディープラーニングモデル(bert、gpt-3など)は、従来の方法よりも有効性を示している。 大きな進歩は、主にトランスフォーマーとその変種アーキテクチャの表現能力に寄与している。 本稿では,低レベルコンピュータビジョンタスク(例えば,デノイング,超解像,デライニング)について検討し,新たな事前学習モデルである画像処理変換器(IPT)を開発する。 変圧器の能力を最大限に掘り下げるために,imagenetベンチマークを用いて画像ペアを大量に生成する手法を提案する。 IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。 また、異なる画像処理タスクにうまく適応するために、コントラスト学習を導入する。 したがって、事前訓練されたモデルは、微調整後の所望のタスクに効率的に適用することができる。 事前訓練されたモデルが1つしかないため、ICTは様々な低レベルベンチマークで最先端の手法より優れている。

As the computing power of modern hardware is increasing strongly, pre-trained deep learning models (e.g., BERT, GPT-3) learned on large-scale datasets have shown their effectiveness over conventional methods. The big progress is mainly contributed to the representation ability of transformer and its variant architectures. In this paper, we study the low-level computer vision task (e.g., denoising, super-resolution and deraining) and develop a new pre-trained model, namely, image processing transformer (IPT). To maximally excavate the capability of transformer, we present to utilize the well-known ImageNet benchmark for generating a large amount of corrupted image pairs. The IPT model is trained on these images with multi-heads and multi-tails. In addition, the contrastive learning is introduced for well adapting to different image processing tasks. The pre-trained model can therefore efficiently employed on desired task after fine-tuning. With only one pre-trained model, IPT outperforms the current state-of-the-art methods on various low-level benchmarks.
翻訳日:2021-05-30 20:01:59 公開日:2020-12-03
# 構造知識による学習:MIMO-OFDM検出のためのニューラルネットワークによるアプローチ

Learning with Knowledge of Structure: A Neural Network-Based Approach for MIMO-OFDM Detection ( http://arxiv.org/abs/2012.00711v2 )

ライセンス: Link先を確認
Zhou Zhou, Shashank Jere, Lizhong Zheng, Lingjia Liu(参考訳) 本稿では,MIMO-OFDMシステムにおけるシンボル検出のためのニューラルネットワークに基づく戦略について検討する。 シンボル検出に対する貯水池計算(RC)に基づくアプローチに基づいて,MIMO-OFDMシステムに固有の構造知識を活用するために,対称二分決定ニューラルネットワークを導入する。 具体的には、星座の知識を利用した二分決定ニューラルネットワークを周波数領域に追加する。 提案する対称型ニューラルネットワークは,元の$m$-ary検出問題を一連のバイナリ分類タスクに分解し,ニューラルネットワーク検出器の複雑性を著しく低減すると同時に,トレーニングオーバーヘッドの少ない一般化性能を提供する。 数値評価により,導入したrc-binary decision detection frameworkは,不完全チャネル状態情報(csi)を用いた低snrレジームにおけるシンボル誤り率の観点から,最大ラピッドモデルに基づくシンボル検出手法に近い性能を示す。

In this paper, we explore neural network-based strategies for performing symbol detection in a MIMO-OFDM system. Building on a reservoir computing (RC)-based approach towards symbol detection, we introduce a symmetric and decomposed binary decision neural network to take advantage of the structure knowledge inherent in the MIMO-OFDM system. To be specific, the binary decision neural network is added in the frequency domain utilizing the knowledge of the constellation. We show that the introduced symmetric neural network can decompose the original $M$-ary detection problem into a series of binary classification tasks, thus significantly reducing the neural network detector complexity while offering good generalization performance with limited training overhead. Numerical evaluations demonstrate that the introduced hybrid RC-binary decision detection framework performs close to maximum likelihood model-based symbol detection methods in terms of symbol error rate in the low SNR regime with imperfect channel state information (CSI).
翻訳日:2021-05-30 19:28:55 公開日:2020-12-03
# NeurIPS 2019 Workshop on Artificial Intelligence for Humanitarian Assistance and Disaster Response に参加して

Proceedings of NeurIPS 2019 Workshop on Artificial Intelligence for Humanitarian Assistance and Disaster Response ( http://arxiv.org/abs/2012.01022v2 )

ライセンス: Link先を確認
Ritwik Gupta, Eric T. Heim(参考訳) これは、2019年12月13日にカナダのバンクーバーで開催された第1回AI + HADRワークショップの"成果"である。 これらは非アーキヴァルであり、ワークショップに受け入れられたすべての論文の照合としてのみ機能する。

These are the "proceedings" of the 1st AI + HADR workshop which was held in Vancouver, Canada on December 13, 2019 as part of the Neural Information Processing Systems conference. These are non-archival and serve solely as a collation of all the papers accepted to the workshop.
翻訳日:2021-05-25 03:49:55 公開日:2020-12-03
# (参考訳) アルゴリズムの実行時間とモデル非多項関数を決定するための分節微分可能二次関数の構成 [全文訳有]

Constructing Segmented Differentiable Quadratics to Determine Algorithmic Run Times and Model Non-Polynomial Functions ( http://arxiv.org/abs/2012.01420v1 )

ライセンス: CC BY 4.0
Ananth Goyal(参考訳) 提案手法は,未知の最大インデックスを持つデータ構造を扱う場合や,入力サイズ以外の複数の変数に依存するアルゴリズムを扱う場合,時間的複雑性の標準的な計算の代替として,アルゴリズム効率の連続的な進行を決定する手法である。 提案手法は,任意の指数$x$における実行時挙動$F$と,1つあるいは複数の引数のみの関数として,ラグランジアン多項式の原理とそれぞれのセカント線に基づいて,$\frac{n}{2}$2次セグメントを組み合わせることで,有効に決定できる。 提案手法は, 計算アルゴリズムの有効性を解析するために設計されているが, 関数の振る舞いをモデル化し, 自然パターンを再帰的に再帰させる, 分割微分可能な2次関数の系列として, $\log_2{n}$ や $\frac{n+1}{n-2}$ などの非ポリノミカル関数を構成する新しい方法として, 純粋数理場内で用いられる。 実験後,本手法は機能的類似度について平均99\%以上の精度を示した。

We propose an approach to determine the continual progression of algorithmic efficiency, as an alternative to standard calculations of time complexity, likely, but not exclusively, when dealing with data structures with unknown maximum indexes and with algorithms that are dependent on multiple variables apart from just input size. The proposed method can effectively determine the run time behavior $F$ at any given index $x$ , as well as $\frac{\partial F}{\partial x}$, as a function of only one or multiple arguments, by combining $\frac{n}{2}$ quadratic segments, based upon the principles of Lagrangian Polynomials and their respective secant lines. Although the approach used is designed for analyzing the efficacy of computational algorithms, the proposed method can be used within the pure mathematical field as a novel way to construct non-polynomial functions, such as $\log_2{n}$ or $\frac{n+1}{n-2}$, as a series of segmented differentiable quadratics to model functional behavior and reoccurring natural patterns. After testing, our method had an average accuracy of above of 99\% with regard to functional resemblance.
翻訳日:2021-05-24 05:01:18 公開日:2020-12-03
# (参考訳) ソフトウェアエンジニアリングのための説明可能なAI [全文訳有]

Explainable AI for Software Engineering ( http://arxiv.org/abs/2012.01614v1 )

ライセンス: CC BY 4.0
Chakkrit Tantithamthavorn, Jirayus Jiarpakdee, John Grundy(参考訳) 人工知能/機械学習技術は、ソフトウェア開発において開発者の生産性、ソフトウェアシステムの品質、意思決定を改善するために広く使われている。 しかし、ソフトウェアエンジニアリングのためのこのようなAI/MLモデルは、まだ実用的ではなく、説明不能であり、実行不可能である。 これらの懸念はしばしば、ソフトウェアエンジニアリングプラクティスにおけるAI/MLモデルの採用を妨げる。 この記事では、ソフトウェア工学における説明可能なAIの必要性を強調します。 次に、ソフトウェア欠陥予測モデルをより実用的、説明可能、かつ実行可能なものにすることで、上記の課題に対処するために、説明可能なai技術をどのように利用できるかに関する3つのケーススタディを要約する。

Artificial Intelligence/Machine Learning techniques have been widely used in software engineering to improve developer productivity, the quality of software systems, and decision-making. However, such AI/ML models for software engineering are still impractical, not explainable, and not actionable. These concerns often hinder the adoption of AI/ML models in software engineering practices. In this article, we first highlight the need for explainable AI in software engineering. Then, we summarize three successful case studies on how explainable AI techniques can be used to address the aforementioned challenges by making software defect prediction models more practical, explainable, and actionable.
翻訳日:2021-05-24 04:48:00 公開日:2020-12-03
# (参考訳) 円は楕円形か、楕円形は円形か? 静的および文脈的埋め込みの非対称性の測定とその表現学習への応用 [全文訳有]

Circles are like Ellipses, or Ellipses are like Circles? Measuring the Degree of Asymmetry of Static and Contextual Embeddings and the Implications to Representation Learning ( http://arxiv.org/abs/2012.01631v1 )

ライセンス: CC BY 4.0
Wei Zhang and Murray Campbell and Yang Yu and Sadhana Kumaravel(参考訳) 単語類似性の人間の判断は、単語埋め込みの品質を評価する一般的な方法である。 しかし、非対称性などの幾何学的性質を測定することができない。 例えば、"Ellipss are like Circles"は"Circles are like Ellipses"よりも、"Ellipss are like Circles"と言う方が自然である。 このような非対称性は、単語誘発実験と呼ばれる精神分析テストから観察され、ある単語が別の単語を思い出すのに使われる。 有用ではあるが, 埋込み品質の測定には, このような実験データが著しく検討されている。 本稿では,埋め込みの非対称性符号化に関する洞察を得るために,よく知られた3つの実行データセットを用いる。 BERTのような静的埋め込みとコンテキスト埋め込みの両方について検討する。 BERT の非対称性を評価することは、一般に埋め込みの動的な性質のために難しい。 そこで我々は,多くのウィキペディア文脈を用いて,BERTの条件付き確率(言語モデル)を探索し,理論的に正当化可能なベイズ非対称性スコアを導出する。 その結果, 文脈埋め込みは, 類似性判定に静的埋め込みよりもランダム性を示し, 非対称性判定によく対応し, テキスト分類などの「外部評価」に強く対応していることがわかった。 非対称性判断とベイズ的アプローチは、内在的評価に文脈埋め込みを組み込む新しい視点を与え、類似性評価との比較は、現在および表現学習の将来についての議論で、我々の研究を結論づける。

Human judgments of word similarity have been a popular method of evaluating the quality of word embedding. But it fails to measure the geometry properties such as asymmetry. For example, it is more natural to say "Ellipses are like Circles" than "Circles are like Ellipses". Such asymmetry has been observed from a psychoanalysis test called word evocation experiment, where one word is used to recall another. Although useful, such experimental data have been significantly understudied for measuring embedding quality. In this paper, we use three well-known evocation datasets to gain insights into asymmetry encoding of embedding. We study both static embedding as well as contextual embedding, such as BERT. Evaluating asymmetry for BERT is generally hard due to the dynamic nature of embedding. Thus, we probe BERT's conditional probabilities (as a language model) using a large number of Wikipedia contexts to derive a theoretically justifiable Bayesian asymmetry score. The result shows that contextual embedding shows randomness than static embedding on similarity judgments while performing well on asymmetry judgment, which aligns with its strong performance on "extrinsic evaluations" such as text classification. The asymmetry judgment and the Bayesian approach provides a new perspective to evaluate contextual embedding on intrinsic evaluation, and its comparison to similarity evaluation concludes our work with a discussion on the current state and the future of representation learning.
翻訳日:2021-05-24 04:41:29 公開日:2020-12-03
# (参考訳) スター先生って何なの? オンライン教育における教師のパフォーマンス評価のための階層型BERTモデル [全文訳有]

What Makes a Star Teacher? A Hierarchical BERT Model for Evaluating Teacher's Performance in Online Education ( http://arxiv.org/abs/2012.01633v1 )

ライセンス: CC BY 4.0
Wen Wang, Honglei Zhuang, Mi Zhou, Hanyu Liu, Beibei Li(参考訳) 教育は社会と個人の生活に大きな影響を与えている。 テクノロジーの発展に伴い、オンライン教育はこの10年間で急速に成長してきた。 学生行動分析、コースコンセプトマイニング、コースレコメンデーションに関するオンライン教育研究はいくつかある(Feng, Tang, Liu 2019; Pan et al)。 2017年) オンライン教育における教員のパフォーマンス評価についてはほとんど研究されていない。 本稿では,1,085のオンラインコースの字幕を用いて,教師の成績を理解し,効果的に予測する体系的な研究を行う。 モデルフリー分析の結果,教師の言語指導方法(質問戦略,感情的魅力,ヘッジなど)とコース構造設計は,教師のパフォーマンス評価と大きく相関していることがわかった。 これらの知見に基づいて,オンライン教育における教師のパフォーマンスを予測するための階層的なBERTモデルを提案する。 提案モデルでは,各コース内の階層構造と,コース内容から抽出した深い意味的特徴を捉えることができる。 実験の結果,提案手法は最先端手法に比べて有意な利得が得られた。 本研究は,教師の授業スタイルの改善と,より効果的なオンライン授業のための教材デザインの強化に,社会的に大きな影響を与える。

Education has a significant impact on both society and personal life. With the development of technology, online education has been growing rapidly over the past decade. While there are several online education studies on student behavior analysis, the course concept mining, and course recommendations (Feng, Tang, and Liu 2019; Pan et al. 2017), there is little research on evaluating teachers' performance in online education. In this paper, we conduct a systematic study to understand and effectively predict teachers' performance using the subtitles of 1,085 online courses. Our model-free analysis shows that teachers' verbal cues (e.g., question strategy, emotional appealing, and hedging) and their course structure design are both significantly correlated with teachers' performance evaluation. Based on these insights, we then propose a hierarchical course BERT model to predict teachers' performance in online education. Our proposed model can capture the hierarchical structure within each course as well as the deep semantic features extracted from the course content. Experiment results show that our proposed method achieves significant gain over several state-of-the-art methods. Our study provides a significant social impact in helping teachers improve their teaching style and enhance their instructional material design for more effective online teaching in the future.
翻訳日:2021-05-24 04:14:47 公開日:2020-12-03
# (参考訳) マルチシフト全荷車経路問題に対するハイブリッド価格とカット手法

A Hybrid Pricing and Cutting Approach for the Multi-Shift Full Truckload Vehicle Routing Problem ( http://arxiv.org/abs/2012.06538v1 )

ライセンス: CC BY 4.0
Ning Xue, Ruibin Bai, Rong Qu, Uwe Aickelin(参考訳) 貨物コンテナの形でのフルトラック積載輸送(FTL)は、国際貿易において最も重要な輸送手段の1つである。 ボリュームと規模が大きいため、FTLではデリバリ時間が重要ではなく、コストとサービス品質が重要になります。 したがって、大規模な多重シフトFTL問題を効率的に解くことがますます重要になり、さらなる研究が必要である。 先行研究の一つとして,マルチシフトFTL問題に対して,集合被覆モデルと3段階解法を開発した。 本稿では,提案手法をメタヒューリスティックス (可変近傍探索と遺伝的アルゴリズム) を用いた価格とカット戦略のハイブリッド化により, より効率的な手法を提案する。 メタヒューリスティックは価格によって導かれる有望な列(車両経路)を見つけるために採用され、非互換商品によって引き起こされる実行不能なフロー割り当てを排除するためにカットが動的に生成される。 実時間および人工ベンチマークFTL問題に対する計算実験では,従来のMIPベースの3段階法と2つのメタヒューリスティクスと比較して,計算時間と解法品質の両面で優れた性能を示した。 提案手法は,大規模実生活FTL問題を効率的に解決する。

Full truckload transportation (FTL) in the form of freight containers represents one of the most important transportation modes in international trade. Due to large volume and scale, in FTL, delivery time is often less critical but cost and service quality are crucial. Therefore, efficiently solving large scale multiple shift FTL problems is becoming more and more important and requires further research. In one of our earlier studies, a set covering model and a three-stage solution method were developed for a multi-shift FTL problem. This paper extends the previous work and presents a significantly more efficient approach by hybridising pricing and cutting strategies with metaheuristics (a variable neighbourhood search and a genetic algorithm). The metaheuristics were adopted to find promising columns (vehicle routes) guided by pricing and cuts are dynamically generated to eliminate infeasible flow assignments caused by incompatible commodities. Computational experiments on real-life and artificial benchmark FTL problems showed superior performance both in terms of computational time and solution quality, when compared with previous MIP based three-stage methods and two existing metaheuristics. The proposed cutting and heuristic pricing approach can efficiently solve large scale real-life FTL problems.
翻訳日:2021-05-24 03:24:15 公開日:2020-12-03
# (参考訳) 間隔値データを用いた集合ファジィ数のランク付け法 [全文訳有]

Methods of ranking for aggregated fuzzy numbers from interval-valued data ( http://arxiv.org/abs/2012.02194v1 )

ライセンス: CC BY 4.0
Justin Kane Gunn, Hadi Akbarzadeh Khorshidi, Uwe Aickelin(参考訳) 本論文は、主に、IAA(Interval Agreement Approach)を用いて、間隔から集約されたファジィ数をランク付けする2つの方法を示す。 本研究で提案された2つのランク付け手法は,前述した類似度尺度の組み合わせと適用,および区間値データから集計したファジィ数と異なる属性を含む。 提案手法の改善とともに, 先行手法の欠点は, 合成と実世界の応用の両方を用いて示される。 実世界のアプリケーションでは,従来の手法と新しく提案された手法の両方を含むように改良されたTOPSISアルゴリズムが検討されている。

This paper primarily presents two methods of ranking aggregated fuzzy numbers from intervals using the Interval Agreement Approach (IAA). The two proposed ranking methods within this study contain the combination and application of previously proposed similarity measures, along with attributes novel to that of aggregated fuzzy numbers from interval-valued data. The shortcomings of previous measures, along with the improvements of the proposed methods, are illustrated using both a synthetic and real-world application. The real-world application regards the Technique for Order of Preference by Similarity to Ideal Solution (TOPSIS) algorithm, modified to include both the previous and newly proposed methods.
翻訳日:2021-05-24 03:23:15 公開日:2020-12-03
# (参考訳) Lookahead Optimizationrは自然画像再構成のための畳み込みオートエンコーダの性能を改善する [全文訳有]

Lookahead optimizer improves the performance of Convolutional Autoencoders for reconstruction of natural images ( http://arxiv.org/abs/2012.05694v1 )

ライセンス: CC BY 4.0
Sayan Nag(参考訳) オートエンコーダ(autoencoder)は、近年多くの注目を集めているニューラルネットワークのクラスである。 オートエンコーダのエンコーダブロックを使用すると、入力画像は意味のある表現に圧縮される。 次にデコーダを用いて圧縮された表現を、入力画像のように見えるバージョンに再構成する。 データ圧縮やデノイジングの分野では、多くのアプリケーションがあります。 オートエンコーダ(AE)の別のバージョンは、変分AE(VAE)と呼ばれ、GANのような生成モデルとして機能する。 近年、AdamとSGDの性能を大幅に向上させるルックアヘッドオプティマイザと呼ばれるオプティマイザが導入されている。 本稿では,CAE(Convolutional Autoencoders)とCVAE(Convolutional Variational Autoencoders)をルックアヘッドオプティマイザ(Adam)に実装し,Adamオプティマイザ(Adamのみ)と比較する。 この目的のために、我々は、前者の自然画像と後者のCIFAR100からなる映画データセットを使用した。 我々は,自然画像の再構成のためのCAEの性能向上を図るために,ルックアヘッドオプティマイザ(Adam)を併用した。

Autoencoders are a class of artificial neural networks which have gained a lot of attention in the recent past. Using the encoder block of an autoencoder the input image can be compressed into a meaningful representation. Then a decoder is employed to reconstruct the compressed representation back to a version which looks like the input image. It has plenty of applications in the field of data compression and denoising. Another version of Autoencoders (AE) exist, called Variational AE (VAE) which acts as a generative model like GAN. Recently, an optimizer was introduced which is known as lookahead optimizer which significantly enhances the performances of Adam as well as SGD. In this paper, we implement Convolutional Autoencoders (CAE) and Convolutional Variational Autoencoders (CVAE) with lookahead optimizer (with Adam) and compare them with the Adam (only) optimizer counterparts. For this purpose, we have used a movie dataset comprising of natural images for the former case and CIFAR100 for the latter case. We show that lookahead optimizer (with Adam) improves the performance of CAEs for reconstruction of natural images.
翻訳日:2021-05-24 03:12:12 公開日:2020-12-03
# (参考訳) MelGlow: 位置可変畳み込みに基づく効率的な波形生成ネットワーク [全文訳有]

MelGlow: Efficient Waveform Generative Network Based on Location-Variable Convolution ( http://arxiv.org/abs/2012.01684v1 )

ライセンス: CC BY 4.0
Zhen Zeng, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) 最近のニューラルボコーダは、波形の長期的な依存性を捉えるためにウェーブネットのようなネットワークを使用するが、優れたモデリング能力を得るためには多数のパラメータが必要である。 本稿では,波形の依存性をモデル化するために,位置可変畳み込みと呼ばれる効率的なネットワークを提案する。 任意の波形の依存関係を捉えるためにWaveNetで統一された畳み込みカーネルを使用するのと異なり、位置可変畳み込みはカーネル予測器を使用してメルスペクトルに基づいて複数の畳み込みカーネルを生成し、各組の畳み込みカーネルは関連する波形間隔で畳み込み操作を行う。 WaveGlowと位置変化可能な畳み込みを組み合わせることで、MelGlowという名前の効率的なヴォコーダが設計されている。 LJSpeechデータセットの実験では、小さなモデルサイズで、MelGlowはWaveGlowよりも優れたパフォーマンスを実現しており、位置可変畳み込みの有効性と潜在的な最適化空間を検証する。

Recent neural vocoders usually use a WaveNet-like network to capture the long-term dependencies of the waveform, but a large number of parameters are required to obtain good modeling capabilities. In this paper, an efficient network, named location-variable convolution, is proposed to model the dependencies of waveforms. Different from the use of unified convolution kernels in WaveNet to capture the dependencies of arbitrary waveforms, location-variable convolutions utilizes a kernel predictor to generate multiple sets of convolution kernels based on the mel-spectrum, where each set of convolution kernels is used to perform convolution operations on the associated waveform intervals. Combining WaveGlow and location-variable convolutions, an efficient vocoder, named MelGlow, is designed. Experiments on the LJSpeech dataset show that MelGlow achieves better performance than WaveGlow at small model sizes, which verifies the effectiveness and potential optimization space of location-variable convolutions.
翻訳日:2021-05-24 03:08:26 公開日:2020-12-03
# (参考訳) 技能前提条件に対する関係学習 [全文訳有]

Relational Learning for Skill Preconditions ( http://arxiv.org/abs/2012.01693v1 )

ライセンス: CC BY 4.0
Mohit Sharma, Oliver Kroemer(参考訳) 任意の環境でスキルが実行可能かどうかを判断するには、ロボットはそのスキルの前提条件を学習する必要がある。 ロボットが動的で非構造的な環境で動き始めると、プリコンディションモデルは様々な形状と大きさのオブジェクトに一般化する必要がある。 本研究では,制約のない環境における操作スキルの事前条件モデルの学習に焦点をあてる。 我々の研究は、複数のオブジェクトを持つ複雑な操作タスクが、より複雑なペアワイドなオブジェクト関係に焦点を合わせることで、単純化できるという直感に動機付けられている。 対関係関係の連続表現を学習するオブジェクト関係モデルを提案する。 我々のオブジェクト関係モデルはシミュレーションで完全に訓練され、一度学習されると、実世界のタスクのスキル前提条件を予測するために別の前提条件モデルによって使用される。 私たちは、スイープ、カット、アンスタックという3ドルの異なる操作タスクで前提条件モデルを評価します。 提案手法は,異なる形状や大きさのオブジェクトに対して,3つのタスクの事前条件を予測する上で,大幅な改善をもたらすことを示す。

To determine if a skill can be executed in any given environment, a robot needs to learn the preconditions for the skill. As robots begin to operate in dynamic and unstructured environments, precondition models will need to generalize to variable number of objects with different shapes and sizes. In this work, we focus on learning precondition models for manipulation skills in unconstrained environments. Our work is motivated by the intuition that many complex manipulation tasks, with multiple objects, can be simplified by focusing on less complex pairwise object relations. We propose an object-relation model that learns continuous representations for these pairwise object relations. Our object-relation model is trained completely in simulation, and once learned, is used by a separate precondition model to predict skill preconditions for real world tasks. We evaluate our precondition model on $3$ different manipulation tasks: sweeping, cutting, and unstacking. We show that our approach leads to significant improvements in predicting preconditions for all 3 tasks, across objects of different shapes and sizes.
翻訳日:2021-05-24 02:55:08 公開日:2020-12-03
# (参考訳) 構成関数のニューラルネットワーク近似と力学系への応用

Neural Network Approximations of Compositional Functions With Applications to Dynamical Systems ( http://arxiv.org/abs/2012.01698v1 )

ライセンス: CC BY 4.0
Wei Kang and Qi Gong(参考訳) 実生活の多くの領域で示されているように、ニューラルネットワークは高次元データを扱う能力を持っている。 最適制御と力学系の分野において、同じ能力が近年公表された多くの結果において研究され検証された。 ニューラルネットワークが高次元の問題を解決することができる理由を明らかにすることを目的として,構成関数の代数的フレームワークと近似理論とそのニューラルネットワーク近似を開発した。 理論的な基礎は、入力-出力関係として関数の誤差解析をサポートするだけでなく、数値アルゴリズムとしても開発されている。 この能力は、微分方程式や最適制御のような解析解が利用できない問題に対する近似誤差の解析を可能にするため、重要である。 構成関数の重要な特徴の集合と,ニューラルネットワークの特徴と複雑性の関係を同定する。 関数近似に加えて、微分方程式、最適化、最適制御の解を近似するニューラルネットワークの誤差上限の式をいくつか証明する。

As demonstrated in many areas of real-life applications, neural networks have the capability of dealing with high dimensional data. In the fields of optimal control and dynamical systems, the same capability was studied and verified in many published results in recent years. Towards the goal of revealing the underlying reason why neural networks are capable of solving some high dimensional problems, we develop an algebraic framework and an approximation theory for compositional functions and their neural network approximations. The theoretical foundation is developed in a way so that it supports the error analysis for not only functions as input-output relations, but also numerical algorithms. This capability is critical because it enables the analysis of approximation errors for problems for which analytic solutions are not available, such as differential equations and optimal control. We identify a set of key features of compositional functions and the relationship between the features and the complexity of neural networks. In addition to function approximations, we prove several formulae of error upper bounds for neural networks that approximate the solutions to differential equations, optimization, and optimal control.
翻訳日:2021-05-24 02:12:17 公開日:2020-12-03
# (参考訳) ゼロショットインテント検出のための学習不連続インテント表現 [全文訳有]

Learning Disentangled Intent Representations for Zero-shot Intent Detection ( http://arxiv.org/abs/2012.01721v1 )

ライセンス: CC BY 4.0
Qingyi Si, Yuanxin Liu, Peng Fu, Jiangnan Li, Zheng Lin and Weiping Wang(参考訳) ゼロショットインテント検出(ZSID)は、注釈付きトレーニングデータなしで継続的に現れるインテントに対処することを目的としている。 しかし、既存のZSIDシステムには2つの制限がある: 1) ラベル名が生のフレーズや文の形で与えられる場合、目に見える意図と見えない意図の関係をモデル化するのが得意ではない。 2)一般化意図検出(GZSID)設定下では,見当たらない意図を効果的に認識することはできない。 これらの制限の背後にある重要な要因は、訓練段階では学べない、目に見えない意図の表現である。 この問題に対処するために,未確認のクラスラベルを用いてDIR(Disentangled Intent Representations)を学習するクラストランスダクティブフレームワークを提案する。 具体的には, 入力発話として対応するラベル名を用いて, 学習段階における無意識意図の予測を可能にする。 本枠組みでは,意図の区別をモデルが学習することを奨励するマルチタスク学習目標と,学習意図の表現に基づいて意図間の関係をより正確に推定する類似度スコアラを導入する。 DIRの目的は、より良い意図表現を提供することであり、既存のZSIDおよびGZSIDメソッドと容易に統合できる。 2つの実世界のデータセットの実験では、モデルアーキテクチャやゼロショット学習戦略に関わらず、提案されたフレームワークがベースラインシステムに一貫した改善をもたらすことが示されている。

Zero-shot intent detection (ZSID) aims to deal with the continuously emerging intents without annotated training data. However, existing ZSID systems suffer from two limitations: 1) They are not good at modeling the relationship between seen and unseen intents, when the label names are given in the form of raw phrases or sentences. 2) They cannot effectively recognize unseen intents under the generalized intent detection (GZSID) setting. A critical factor behind these limitations is the representations of unseen intents, which cannot be learned in the training stage. To address this problem, we propose a class-transductive framework that utilizes unseen class labels to learn Disentangled Intent Representations (DIR). Specifically, we allow the model to predict unseen intents in the training stage, with the corresponding label names serving as input utterances. Under this framework, we introduce a multi-task learning objective, which encourages the model to learn the distinctions among intents, and a similarity scorer, which estimates the connections among intents more accurately based on the learned intent representations. Since the purpose of DIR is to provide better intent representations, it can be easily integrated with existing ZSID and GZSID methods. Experiments on two real-world datasets show that the proposed framework brings consistent improvement to the baseline systems, regardless of the model architectures or zero-shot learning strategies.
翻訳日:2021-05-24 02:11:18 公開日:2020-12-03
# (参考訳) トリプルトエントロピー損失:短い音声言語識別システムの一般化の改善 [全文訳有]

Triplet Entropy Loss: Improving The Generalisation of Short Speech Language Identification Systems ( http://arxiv.org/abs/2012.03775v1 )

ライセンス: CC BY 4.0
Ruan van der Merwe(参考訳) 言語識別システム(LID)を新しい話者や新しいドメインに一般化するためのいくつかの手法を提案する。 これらの手法には、トレーニング中の周波数帯や時間帯にスペクトルを隠蔽するスペクトル拡張と、Imagenetデータセットで事前トレーニングされたCNNアーキテクチャが含まれる。 また,クロスエントロピーと三重項損失を用いてネットワークを訓練する新しい三重項エントロピー損失訓練法も紹介する。 その結果、3つの手法がいずれもモデルの一般化を改善した。 三重項エントロピー損失を用いて訓練されたモデルは、言語をよりよく理解し、高い精度を示したが、モデルは、言語の微妙なニュアンスを学ぶよりも、スペクトログラムに存在する単語パターンを記憶しているように見える。 この研究は、三重項エントロピー損失には大きな可能性があり、言語識別タスクだけでなく、分類タスクにおいても研究されるべきであることを示している。

We present several methods to improve the generalisation of language identification (LID) systems to new speakers and to new domains. These methods involve Spectral augmentation, where spectrograms are masked in the frequency or time bands during training and CNN architectures that are pre-trained on the Imagenet dataset. The paper also introduces the novel Triplet Entropy Loss training method, which involves training a network simultaneously using Cross Entropy and Triplet loss. It was found that all three methods improved the generalisation of the models, though not significantly. Even though the models trained using Triplet Entropy Loss showed a better understanding of the languages and higher accuracies, it appears as though the models still memorise word patterns present in the spectrograms rather than learning the finer nuances of a language. The research shows that Triplet Entropy Loss has great potential and should be investigated further, not only in language identification tasks but any classification task.
翻訳日:2021-05-24 01:54:55 公開日:2020-12-03
# (参考訳) 分散トンプソンサンプリング [全文訳有]

Distributed Thompson Sampling ( http://arxiv.org/abs/2012.01789v1 )

ライセンス: CC BY 4.0
Jing Dong, Tan Li, Shaolei Ren, Linqi Song(参考訳) 我々はMエージェントとKアームを用いた協調マルチエージェントマルチアームバンドの研究を行った。 エージェントの目標は、累積的後悔を最小限にすることである。 分布環境下で従来のトンプソンサンプリングalgoirthmを適応させる。 しかし,エージェントのコミュニケーション能力により,分散トンプソンサンプリング手法における後悔の上限がさらに小さくなる可能性があることに留意する。 分散トンプソンサンプリングの性能をさらに向上させるために,エージェントが協調的に学習できる分散除去型トンプソンサンプリングアルゴリズムを提案する。 ベルヌーイ報酬の下でアルゴリズムを分析し,累積的後悔の上限に依存する問題を導出した。

We study a cooperative multi-agent multi-armed bandits with M agents and K arms. The goal of the agents is to minimized the cumulative regret. We adapt a traditional Thompson Sampling algoirthm under the distributed setting. However, with agent's ability to communicate, we note that communication may further reduce the upper bound of the regret for a distributed Thompson Sampling approach. To further improve the performance of distributed Thompson Sampling, we propose a distributed Elimination based Thompson Sampling algorithm that allow the agents to learn collaboratively. We analyse the algorithm under Bernoulli reward and derived a problem dependent upper bound on the cumulative regret.
翻訳日:2021-05-24 01:32:16 公開日:2020-12-03
# (参考訳) FAT:Federated Adversarial Training [全文訳有]

FAT: Federated Adversarial Training ( http://arxiv.org/abs/2012.01791v1 )

ライセンス: CC BY 4.0
Giulio Zizzo, Ambrish Rawat, Mathieu Sinn, Beat Buesser(参考訳) フェデレートラーニング(FL)は、機械学習(ML)におけるプライバシとデータガバナンスの問題に対処する最も重要なパラダイムの1つである。 MLモデルにおける回避的脅威に対する最も有望なアプローチとして、敵のトレーニングがこれまで現れてきた。 本稿では,FAT(Federated Adversarial Training)とFAT(Federated Adversarial Training)の2つの手法を組み合わせて,トレーニング中のデータのプライバシを保護しながら,推論時の回避の脅威を軽減する。 我々は,MNIST,Fashion-MNIST ,CIFAR10を用いたフェデレーション設定のためのFATプロトコルの有効性について検討し,フェデレーション学習環境を特にエミュレートしたLEAFベンチマークデータセット上でのトレーニングの安定化に関する最初の知見を提供する。 我々は,この対向訓練の自然な拡張による課題を特定し,対向ロバスト性の実現と,モデル収束を損なうクライアントの存在下での理想化された設定について検討する。 トリミング平均法とブリャン防衛法は妥協可能であり,本モデルでは単純な攻撃修正に対する堅牢性の提供に失敗する一方で,明らかに「ロバスト」なモデルをディフェンダーに提示する新たな蒸留ベースの攻撃でクルムを倒すことができた。

Federated learning (FL) is one of the most important paradigms addressing privacy and data governance issues in machine learning (ML). Adversarial training has emerged, so far, as the most promising approach against evasion threats on ML models. In this paper, we take the first known steps towards federated adversarial training (FAT) combining both methods to reduce the threat of evasion during inference while preserving the data privacy during training. We investigate the effectiveness of the FAT protocol for idealised federated settings using MNIST, Fashion-MNIST, and CIFAR10, and provide first insights on stabilising the training on the LEAF benchmark dataset which specifically emulates a federated learning environment. We identify challenges with this natural extension of adversarial training with regards to achieved adversarial robustness and further examine the idealised settings in the presence of clients undermining model convergence. We find that Trimmed Mean and Bulyan defences can be compromised and we were able to subvert Krum with a novel distillation based attack which presents an apparently "robust" model to the defender while in fact the model fails to provide robustness against simple attack modifications.
翻訳日:2021-05-24 01:25:59 公開日:2020-12-03
# (参考訳) 解釈可能性と説明可能性: 機械学習のZoo Mini-Tour [全文訳有]

Interpretability and Explainability: A Machine Learning Zoo Mini-tour ( http://arxiv.org/abs/2012.01805v1 )

ライセンス: CC BY 4.0
Ri\v{c}ards Marcinkevi\v{c}s and Julia E. Vogt(参考訳) 本稿では,解釈可能かつ説明可能な機械学習モデルの設計問題について検討する。 解釈可能性と説明可能性は、医学、経済学、法学、自然科学における多くの機械学習および統計応用の中核にある。 解釈可能性と説明可能性は明らかに普遍的な定義を免れたが、これらの特性に動機づけられた多くの技術は、過去30年間で開発され、現在ディープラーニングの手法に焦点が移っている。 本稿では,解釈可能性と説明可能性の相違を強調し,これら2つの研究方向について,その具体例を示す。 このレビューは、ロジスティック回帰やランダムな森林変数の重要性を超えた解釈と説明の問題を探求することに関心を持つ一般機械学習の聴衆を対象としている。 この研究は、徹底した文献調査ではなく、著者が興味をそそる、あるいは有意義な研究に選択的に焦点を絞ったプライマーである。

In this review, we examine the problem of designing interpretable and explainable machine learning models. Interpretability and explainability lie at the core of many machine learning and statistical applications in medicine, economics, law, and natural sciences. Although interpretability and explainability have escaped a clear universal definition, many techniques motivated by these properties have been developed over the recent 30 years with the focus currently shifting towards deep learning methods. In this review, we emphasise the divide between interpretability and explainability and illustrate these two different research directions with concrete examples of the state-of-the-art. The review is intended for a general machine learning audience with interest in exploring the problems of interpretation and explanation beyond logistic regression or random forest variable importance. This work is not an exhaustive literature survey, but rather a primer focusing selectively on certain lines of research which the authors found interesting or informative.
翻訳日:2021-05-24 00:47:42 公開日:2020-12-03
# (参考訳) 多言語BERTを用いた移動学習によるベンガル語の知覚分析 [全文訳有]

Sentiment analysis in Bengali via transfer learning using multi-lingual BERT ( http://arxiv.org/abs/2012.07538v1 )

ライセンス: CC BY 4.0
Khondoker Ittehadul Islam, Md. Saiful Islam and Md Ruhul Amin(参考訳) ベンガル語における感情分析(sa)は、このインド・アーリア語の高度に屈折した性質が160以上の動詞の屈折形と36種類の名詞と24種類の代名詞を持つため、困難である。 ベンガル領域における標準ラベル付きデータセットの欠如は、SAのタスクをさらに難しくする。 本稿では,bengaliの2クラスおよび3クラスのsaデータセットを手作業でタグ付けする。 また、関連する拡張を伴う多言語BERTモデルは、これらの新しいデータセットよりも伝達学習のアプローチにより、感情分類タスクにおける最先端のパフォーマンスを向上させることができることを示した。 この深層学習モデルは,現在最先端の68%と比較して,2クラス感情分類の精度が71.%である。 また、3 クラスの手動タグ付きデータセットに対する最初の bengali sa 分類器を提示し,提案手法により 60\% の精度を実現する。 さらにこのモデルを用いて、オンライン日刊紙における公開コメントの感情を分析する。 我々の分析によると、人々は政治やスポーツのニュースに対して否定的なコメントを投稿することが多い。 データセットとコードはhttps://github.com/K hondokerIslam/Bengal i\_Sentimentで公開されている。

Sentiment analysis (SA) in Bengali is challenging due to this Indo-Aryan language's highly inflected properties with more than 160 different inflected forms for verbs and 36 different forms for noun and 24 different forms for pronouns. The lack of standard labeled datasets in the Bengali domain makes the task of SA even harder. In this paper, we present manually tagged 2-class and 3-class SA datasets in Bengali. We also demonstrate that the multi-lingual BERT model with relevant extensions can be trained via the approach of transfer learning over those novel datasets to improve the state-of-the-art performance in sentiment classification tasks. This deep learning model achieves an accuracy of 71\% for 2-class sentiment classification compared to the current state-of-the-art accuracy of 68\%. We also present the very first Bengali SA classifier for the 3-class manually tagged dataset, and our proposed model achieves an accuracy of 60\%. We further use this model to analyze the sentiment of public comments in the online daily newspaper. Our analysis shows that people post negative comments for political or sports news more often, while the religious article comments represent positive sentiment. The dataset and code is publicly available at https://github.com/K hondokerIslam/Bengal i\_Sentiment.
翻訳日:2021-05-24 00:12:02 公開日:2020-12-03
# (参考訳) SemMT: 機械翻訳システムのセマンティックなテスト手法 [全文訳有]

SemMT: A Semantic-based Testing Approach for Machine Translation Systems ( http://arxiv.org/abs/2012.01815v1 )

ライセンス: CC BY 4.0
Jialun Cao and Meiziniu Li and Yeting Li and Ming Wen and Shing-Chi Cheung(参考訳) 機械翻訳は日常生活に幅広い応用がある。 公式文書の翻訳のようなミッションクリティカルな応用では、誤った翻訳は不快あるいは破滅的な結果をもたらすことがある。 これは機械翻訳システムの試験方法に関する最近の研究を動機付けている。 既存の方法論は主に、翻訳結果の正確性を決定するために、テキストレベル(例えば、レベンシュテイン距離)または構文レベル(例えば文法構造間の距離)で設計された変成関係に依存する。 しかし、これらの変成関係は、原文と翻訳文が同じ意味(セマンティック類似性)を持つかどうかを考慮していない。 そこで本稿では,意味的類似性チェックに基づく機械翻訳システムのための自動テスト手法であるsemmtを提案する。 semmtは往復翻訳を行い、原文と翻訳文の意味的類似性を測定する。 我々の見識では、文中の論理と数値制約によって表現される意味論は、効率的な等価/類似性チェックアルゴリズムが利用できる正規表現(あるいは決定論的有限オートマトン)を用いて捉えることができる。 そこで本研究では,3つの意味的類似度指標を提案し,SemMTで実装する。 実験の結果,SemMTは最先端の作業に比べて高い有効性を実現でき,精度は21%,Fスコアは23%向上した。 また、メトリクスの適切な組み合わせを採用する際に達成できる潜在的な改善についても検討する。 最後に、この不審な旅行を往復翻訳で見つける方法について議論し、さらなる探索に光を放つ可能性がある。

Machine translation has wide applications in daily life. In mission-critical applications such as translating official documents, incorrect translation can have unpleasant or sometimes catastrophic consequences. This motivates recent research on testing methodologies for machine translation systems. Existing methodologies mostly rely on metamorphic relations designed at the textual level (e.g., Levenshtein distance) or syntactic level (e.g., the distance between grammar structures) to determine the correctness of translation results. However, these metamorphic relations do not consider whether the original and translated sentences have the same meaning (i.e., Semantic similarity). Therefore, in this paper, we propose SemMT, an automatic testing approach for machine translation systems based on semantic similarity checking. SemMT applies round-trip translation and measures the semantic similarity between the original and translated sentences. Our insight is that the semantics expressed by the logic and numeric constraint in sentences can be captured using regular expressions (or deterministic finite automata) where efficient equivalence/similari ty checking algorithms are available. Leveraging the insight, we propose three semantic similarity metrics and implement them in SemMT. The experiment result reveals SemMT can achieve higher effectiveness compared with state-of-the-art works, achieving an increase of 21% and 23% on accuracy and F-Score, respectively. We also explore potential improvements that can be achieved when proper combinations of metrics are adopted. Finally, we discuss a solution to locate the suspicious trip in round-trip translation, which may shed lights on further exploration.
翻訳日:2021-05-24 00:03:39 公開日:2020-12-03
# (参考訳) SMDS-Net:Hyperspectr al Image Denoisingのためのモデルガイドスペクトル空間ネットワーク [全文訳有]

SMDS-Net: Model Guided Spectral-Spatial Network for Hyperspectral Image Denoising ( http://arxiv.org/abs/2012.01829v1 )

ライセンス: CC BY 4.0
Fengchao Xiong, Jun Zhou, Jianfeng Lu, and Yuntao Qian(参考訳) ディープ・ラーニング (DL) に基づくハイパースペクトル画像 (HSI) 法は、観測されたノイズ画像と基礎となるクリーン画像との間の非線形マッピングを直接学習する。 彼らは通常、HSIの物理的特性を考慮しないので、その認知メカニズムを理解する上で鍵となる解釈可能性の欠如をもたらす。 そこで本研究では,hsiデノイジングのための新しいモデル誘導型解釈ネットワークを提案する。 具体的には、HSIの空間冗長性、スペクトル低ランク性、スペクトル空間特性を十分に考慮し、まず、部分空間に基づく多次元スパースモデルを構築する。 このモデルはまず観測されたHSIを低次元直交部分空間に射影し、それから多次元辞書で投影された画像を表現する。 その後、モデルはsmds-netと呼ばれるエンドツーエンドネットワークに展開され、基本モジュールはモデルのデノイジング手順と最適化とシームレスに接続される。 これによりSMDS-Netは明確な物理的意味、すなわちHSIの低ランク性と疎さを学ぶことができる。 最後に、辞書や閾値パラメータを含むすべてのキー変数は、エンドツーエンドのトレーニングによって取得される。 広汎な実験と包括的分析により,最先端HSI復調法に対する本法の有効性と解釈性が確認された。

Deep learning (DL) based hyperspectral images (HSIs) denoising approaches directly learn the nonlinear mapping between observed noisy images and underlying clean images. They normally do not consider the physical characteristics of HSIs, therefore making them lack of interpretability that is key to understand their denoising mechanism.. In order to tackle this problem, we introduce a novel model guided interpretable network for HSI denoising. Specifically, fully considering the spatial redundancy, spectral low-rankness and spectral-spatial properties of HSIs, we first establish a subspace based multi-dimensional sparse model. This model first projects the observed HSIs into a low-dimensional orthogonal subspace, and then represents the projected image with a multidimensional dictionary. After that, the model is unfolded into an end-to-end network named SMDS-Net whose fundamental modules are seamlessly connected with the denoising procedure and optimization of the model. This makes SMDS-Net convey clear physical meanings, i.e., learning the low-rankness and sparsity of HSIs. Finally, all key variables including dictionaries and thresholding parameters are obtained by the end-to-end training. Extensive experiments and comprehensive analysis confirm the denoising ability and interpretability of our method against the state-of-the-art HSI denoising methods.
翻訳日:2021-05-23 23:38:27 公開日:2020-12-03
# (参考訳) 周波数領域プリエントを用いた画像インペインティング [全文訳有]

Image inpainting using frequency domain priors ( http://arxiv.org/abs/2012.01832v1 )

ライセンス: CC BY 4.0
Hiya Roy, Subhajit Chaudhury, Toshihiko Yamasaki, Tatsuaki Hashimoto(参考訳) 本稿では,周波数領域情報を用いた新しい画像塗装手法を提案する。 予めは、空間領域情報のみを使用してニューラルネットワークをトレーニングすることで、欠落画素を予測するイメージインペインティングに取り組んでいる。 しかし、これらの手法は依然として実際の複雑なシーンの高周波のディテールを再構築するのに苦労しており、色、境界アーティファクト、歪んだパターン、ぼやけたテクスチャの相違を引き起こしている。 これらの問題を解決するために,空間領域情報とともに周波数領域情報(離散フーリエ変換)を用いてネットワークを訓練することにより,よりよい性能を得ることができるか検討する。 そこで本研究では,高周波成分を選択的に再構成しながら,ネットワークがグローバルコンテキストを学習できる周波数ベースのデコンボリューションモジュールを提案する。 提案手法は,CelebA,Paris Streetview,DTDテクスチャデータセットの公開データセット上で評価し,その手法が定性的かつ定量的に,現在の最先端画像塗装技術より優れていることを示す。

In this paper, we present a novel image inpainting technique using frequency domain information. Prior works on image inpainting predict the missing pixels by training neural networks using only the spatial domain information. However, these methods still struggle to reconstruct high-frequency details for real complex scenes, leading to a discrepancy in color, boundary artifacts, distorted patterns, and blurry textures. To alleviate these problems, we investigate if it is possible to obtain better performance by training the networks using frequency domain information (Discrete Fourier Transform) along with the spatial domain information. To this end, we propose a frequency-based deconvolution module that enables the network to learn the global context while selectively reconstructing the high-frequency components. We evaluate our proposed method on the publicly available datasets CelebA, Paris Streetview, and DTD texture dataset, and show that our method outperforms current state-of-the-art image inpainting techniques both qualitatively and quantitatively.
翻訳日:2021-05-23 23:17:29 公開日:2020-12-03
# (参考訳) 逆行訓練による多対多の歌声変換に基づく音韻後音素 [全文訳有]

Phonetic Posteriorgrams based Many-to-Many Singing Voice Conversion via Adversarial Training ( http://arxiv.org/abs/2012.01837v1 )

ライセンス: CC BY 4.0
Haohan Guo, Heng Lu, Na Hu, Chunlei Zhang, Shan Yang, Lei Xie, Dan Su, Dong Yu(参考訳) 本稿では,エンドツーエンドの歌唱音声変換(EA-SVC)手法について述べる。 内容を表すPPG、ピッチを表すF0、音色を表す話者埋め込みにより、任意の歌唱波形を直接生成することができる。 提案システムは3つのモジュールで構成されている: generator $g$, audio generation discriminator $d_{a}$, feature disentanglement discriminator $d_f$。 ジェネレータ$g$は特徴を並列にエンコードし、逆変換して対象波形に変換する。 音色変換をより安定かつ制御可能にするため、話者埋め込みは異なる音色クラスタを表す訓練可能なベクトル群の重み付け和にさらに分解される。 さらに、よりロバストで正確な歌声変換を実現するために、符号化ppgに残されているピッチおよび音色関連情報を除去するために、ディエンタングルメント判別器$d_f$を提案する。 最後に、安定して効果的な対向訓練プロセスを維持するために、2段階の訓練を行う。 主観評価の結果,提案手法の有効性が示された。 提案システムは、歌声品質と歌手の類似性の両方の観点から、従来のカスケードアプローチとWaveNetに基づくエンドツーエンドアプローチより優れている。 さらなる客観的な分析により、提案された2段階のトレーニング戦略で訓練されたモデルは、より滑らかで鋭いフォルマントを生成でき、高いオーディオ品質をもたらすことが判明した。

This paper describes an end-to-end adversarial singing voice conversion (EA-SVC) approach. It can directly generate arbitrary singing waveform by given phonetic posteriorgram (PPG) representing content, F0 representing pitch, and speaker embedding representing timbre, respectively. Proposed system is composed of three modules: generator $G$, the audio generation discriminator $D_{A}$, and the feature disentanglement discriminator $D_F$. The generator $G$ encodes the features in parallel and inversely transforms them into the target waveform. In order to make timbre conversion more stable and controllable, speaker embedding is further decomposed to the weighted sum of a group of trainable vectors representing different timbre clusters. Further, to realize more robust and accurate singing conversion, disentanglement discriminator $D_F$ is proposed to remove pitch and timbre related information that remains in the encoded PPG. Finally, a two-stage training is conducted to keep a stable and effective adversarial training process. Subjective evaluation results demonstrate the effectiveness of our proposed methods. Proposed system outperforms conventional cascade approach and the WaveNet based end-to-end approach in terms of both singing quality and singer similarity. Further objective analysis reveals that the model trained with the proposed two-stage training strategy can produce a smoother and sharper formant which leads to higher audio quality.
翻訳日:2021-05-23 23:00:27 公開日:2020-12-03
# (参考訳) アクティブドメイン適応のための確率的逆勾配埋め込み

Stochastic Adversarial Gradient Embedding for Active Domain Adaptation ( http://arxiv.org/abs/2012.01843v1 )

ライセンス: CC BY 4.0
Victor Bouvier, Philippe Very, Cl\'ement Chastagnol, Myriam Tami, C\'eline Hudelot(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用可能なソースドメインと、非ラベル付きデータでのみ表現されるターゲットドメインの間のギャップを埋めることを目的としている。 ドメイン不変表現がモデルの適応性を劇的に改善したならば、それらの優れた転送可能性を保証することは難しい問題である。 本稿では、アクティブラーニングを用いて目標データの小さな予算をアノテートすることでこの問題に対処する。 この設定は、ADA(Active Domain Adaptation)と呼ばれ、UDAの標準設定から逸脱するが、この状況には幅広い実用的な応用が直面している。 この目的のために、ADAに3つの貢献をするフレームワークであるtextit{Stochastic Adversarial Gradient Embedding} (SAGE)を紹介します。 まず, 伝達性損失勾配の変動前後の変動を計測することにより, 表現の伝達性が向上する可能性のあるアノテーション対象サンプルを選択した。 第2に、異なる勾配方向を推し進めることでサンプリングの多様性を高める。 第3に、不変表現を学習する際にターゲットサンプルを積極的に取り入れる新しい訓練手順を導入する。 SAGEは固体理論に基づいており、いくつかのベースラインに対して様々なUDAベンチマークで検証されている。 我々は,SAGEが不確実な<textit{vs} 多様性サンプリングを最大限に活用し,表現の伝達性を大幅に向上することを示す。

Unsupervised Domain Adaptation (UDA) aims to bridge the gap between a source domain, where labelled data are available, and a target domain only represented with unlabelled data. If domain invariant representations have dramatically improved the adaptability of models, to guarantee their good transferability remains a challenging problem. This paper addresses this problem by using active learning to annotate a small budget of target data. Although this setup, called Active Domain Adaptation (ADA), deviates from UDA's standard setup, a wide range of practical applications are faced with this situation. To this purpose, we introduce \textit{Stochastic Adversarial Gradient Embedding} (SAGE), a framework that makes a triple contribution to ADA. First, we select for annotation target samples that are likely to improve the representations' ; transferability by measuring the variation, before and after annotation, of the transferability loss gradient. Second, we increase sampling diversity by promoting different gradient directions. Third, we introduce a novel training procedure for actively incorporating target samples when learning invariant representations. SAGE is based on solid theoretical ground and validated on various UDA benchmarks against several baselines. Our empirical investigation demonstrates that SAGE takes the best of uncertainty \textit{vs} diversity samplings and improves representations transferability substantially.
翻訳日:2021-05-23 22:33:21 公開日:2020-12-03
# (参考訳) ワンショットビデオのオブジェクトセグメンテーションを効率良くする [全文訳有]

Make One-Shot Video Object Segmentation Efficient Again ( http://arxiv.org/abs/2012.01866v1 )

ライセンス: CC BY 4.0
Tim Meinhardt and Laura Leal-Taixe(参考訳) ビデオオブジェクトセグメンテーション(VOS)は、ビデオの各フレームにオブジェクトの集合をセグメンテーションするタスクを記述する。 半教師付き設定では、各オブジェクトの第1マスクがテスト時に提供される。 ワンショットの原則に従って、細調整のVOSメソッドは、それぞれのオブジェクトマスク上でセグメンテーションモデルを個別に訓練する。 しかし、最近、VOSコミュニティはこのようなテスト時間の最適化とテストランタイムへの影響を不可能とみなした。 従来の微調整手法の非効率性を軽減するため,効率の良いワンショットビデオオブジェクトセグメンテーション(e-OSVOS)を提案する。 多くのVOSアプローチとは対照的に、e-OSVOSはオブジェクト検出タスクを分離し、Mask R-CNNの修正版を適用してローカルセグメンテーションマスクのみを予測する。 ワンショットテストランタイムとパフォーマンスは、面倒で手作りのハイパーパラメータ検索なしで最適化される。 この目的のために、テスト時間最適化のためのモデル初期化と学習率をメタ学習する。 最適な学習行動を実現するために,ニューロンレベルで個々の学習率を予測する。 さらに、フレーム間バウンディングボックスの伝搬によって支持された以前のマスク予測に基づいてモデルを連続的に微調整することにより、シーケンス全体の共通性能劣化に対処するオンライン適応を適用する。 e-OSVOSはDAVIS 2016、DAVIS 2017、YouTube-VOSに対して、テストランタイムを大幅に削減しながらワンショットの微調整方法に関する最先端の結果を提供する。 コードはhttps://github.com/d vl-tum/e-osvosで入手できる。

Video object segmentation (VOS) describes the task of segmenting a set of objects in each frame of a video. In the semi-supervised setting, the first mask of each object is provided at test time. Following the one-shot principle, fine-tuning VOS methods train a segmentation model separately on each given object mask. However, recently the VOS community has deemed such a test time optimization and its impact on the test runtime as unfeasible. To mitigate the inefficiencies of previous fine-tuning approaches, we present efficient One-Shot Video Object Segmentation (e-OSVOS). In contrast to most VOS approaches, e-OSVOS decouples the object detection task and predicts only local segmentation masks by applying a modified version of Mask R-CNN. The one-shot test runtime and performance are optimized without a laborious and handcrafted hyperparameter search. To this end, we meta learn the model initialization and learning rates for the test time optimization. To achieve optimal learning behavior, we predict individual learning rates at a neuron level. Furthermore, we apply an online adaptation to address the common performance degradation throughout a sequence by continuously fine-tuning the model on previous mask predictions supported by a frame-to-frame bounding box propagation. e-OSVOS provides state-of-the-art results on DAVIS 2016, DAVIS 2017, and YouTube-VOS for one-shot fine-tuning methods while reducing the test runtime substantially. Code is available at https://github.com/d vl-tum/e-osvos.
翻訳日:2021-05-23 22:32:21 公開日:2020-12-03
# (参考訳) 仮想知識グラフのためのマッピングパターン [全文訳有]

Mapping Patterns for Virtual Knowledge Graphs ( http://arxiv.org/abs/2012.01917v1 )

ライセンス: CC BY 4.0
Diego Calvanese and Avigdor Gal and Davide Lanti and Marco Montali and Alessandro Mosca and Roee Shraga(参考訳) 仮想知識グラフ(VKG)は、レガシーデータソースの統合とアクセスのための最も有望なパラダイムの1つである。 統合プロセスにおける重要なボトルネックは、データソースをドメインオントロジーにリンクするマッピングの定義、検証、保守である。 ライフサイクル全体を通してマッピングの管理を支援するため,データベースとオントロジをリンクする場合に現れる高度なマッピングパターンの包括的カタログを提案する。 そのために私たちは、データ管理、データ分析、概念モデリングで研究されている確立された方法論とパターンに基づいています。 これらは、具体的なVKGベンチマークと実世界のユースケースを分析し、データソースとオントロジー間の固有のインピーダンスミスマッチを考慮して拡張され、洗練される。 検討したVKGシナリオに基づいて,私たちのカタログを検証し,そのパターンの大部分をカバーすることを示す。

Virtual Knowledge Graphs (VKG) constitute one of the most promising paradigms for integrating and accessing legacy data sources. A critical bottleneck in the integration process involves the definition, validation, and maintenance of mappings that link data sources to a domain ontology. To support the management of mappings throughout their entire lifecycle, we propose a comprehensive catalog of sophisticated mapping patterns that emerge when linking databases to ontologies. To do so, we build on well-established methodologies and patterns studied in data management, data analysis, and conceptual modeling. These are extended and refined through the analysis of concrete VKG benchmarks and real-world use cases, and considering the inherent impedance mismatch between data sources and ontologies. We validate our catalog on the considered VKG scenarios, showing that it covers the vast majority of patterns present therein.
翻訳日:2021-05-23 22:07:25 公開日:2020-12-03
# (参考訳) 薬物4コービッド:科学論文に基づく薬物駆動の知識爆発 [全文訳有]

Drugs4Covid: Drug-driven Knowledge Exploitation based on Scientific Publications ( http://arxiv.org/abs/2012.01953v1 )

ライセンス: CC BY 4.0
Carlos Badenes-Olmedo, David Chaves-Fraga, Mar\'Ia Poveda-Villal\'On, Ana Iglesias-Molina, Pablo Calleja, Socorro Bernardos, Patricia Mart\'In-Chozas, Alba Fern\'andez-Izquierdo, Elvira Amador-Dom\'inguez, Paola Espinoza-Arias, Luis Pozo, Edna Ruckhaus, Esteban Gonz\'alez-Guardia, Raquel Cedazo, Beatriz L\'opez-Centeno, and Oscar Corcho(参考訳) 需要の増加により十分な薬剤が不足しているため、廃薬が採用されているか、病院薬剤師が使用可能な薬の投与量を変更している。 代替薬の使用に関するいくつかの証拠は、そのような決定を補助する既存の科学文献に見ることができる。 しかし、大量の文書を効率的に利用することは容易ではない、なぜなら薬物はテキストに明示的に関連付けられておらず、異なるブランド名で言及される可能性があるからである。 drugs4covidは、単語埋め込み技術とセマンティックウェブ技術を組み合わせて、大規模な医学文献の薬物指向の探索を可能にする。 薬物と疾患は、それぞれATC分類とMeSH分類に基づいて識別される。 新型コロナウイルス(COVID-19)やSARS(SARS)などの関連コロナウイルスに関する情報とともに、CORD-19コーパスから60万件以上が処理された。 薬のオープンカタログが作成され、その結果はドラッグブラウザ、キーワード誘導テキストエクスプローラー、知識グラフを通じて公開されている。

In the absence of sufficient medication for COVID patients due to the increased demand, disused drugs have been employed or the doses of those available were modified by hospital pharmacists. Some evidences for the use of alternative drugs can be found in the existing scientific literature that could assist in such decisions. However, exploiting large corpus of documents in an efficient manner is not easy, since drugs may not appear explicitly related in the texts and could be mentioned under different brand names. Drugs4Covid combines word embedding techniques and semantic web technologies to enable a drug-oriented exploration of large medical literature. Drugs and diseases are identified according to the ATC classification and MeSH categories respectively. More than 60K articles and 2M paragraphs have been processed from the CORD-19 corpus with information of COVID-19, SARS, and other related coronaviruses. An open catalogue of drugs has been created and results are publicly available through a drug browser, a keyword-guided text explorer, and a knowledge graph.
翻訳日:2021-05-23 21:47:40 公開日:2020-12-03
# (参考訳) セグメンテーションアノテーションの変動に関する小注釈 [全文訳有]

A small note on variation in segmentation annotations ( http://arxiv.org/abs/2012.01975v1 )

ライセンス: CC BY-SA 4.0
Silas Nyboe {\O}rting(参考訳) 本報告は,2020年デンマークバイオイメージングネットワーク会議において,機械学習によるセグメント化に関するワークショップで実施された,少人数のクラウドソーシング実験の結果について報告する。 ワークショップでは、参加者に3つの2dパッチでミトコンドリアを手動で分割するように求めました。 この実験の目的は、手動のアノテーションは基礎的な真実ではなく、相当な変動の対象となる参照標準と見なすべきであることを示すことである。 本稿では, セグメンテーションにおいて観測した大きな変動を, 最悪のペアワイド一致でアノテータを除去することで低減できることを示す。 最低性能のアノテータを除去し、残りの分散は意味論的に意味があり、細胞境界と細胞内部のセグメンテーションを得るために利用することができることを示す。

We report on the results of a small crowdsourcing experiment conducted at a workshop on machine learning for segmentation held at the Danish Bio Imaging network meeting 2020. During the workshop we asked participants to manually segment mitochondria in three 2D patches. The aim of the experiment was to illustrate that manual annotations should not be seen as the ground truth, but as a reference standard that is subject to substantial variation. In this note we show how the large variation we observed in the segmentations can be reduced by removing the annotators with worst pair-wise agreement. Having removed the annotators with worst performance, we illustrate that the remaining variance is semantically meaningful and can be exploited to obtain segmentations of cell boundary and cell interior.
翻訳日:2021-05-23 21:36:23 公開日:2020-12-03
# (参考訳) 厚膜血腫におけるマラリア寄生虫と白血球の局在 [全文訳有]

Localization of Malaria Parasites and White Blood Cells in Thick Blood Smears ( http://arxiv.org/abs/2012.01994v1 )

ライセンス: CC BY 4.0
Rose Nakasi, Aminah Zawedde, Ernest Mwebaze, Jeremy Francis Tusubira, Gilbert Maiga(参考訳) マラリア寄生虫症を効果的に判定することは、臨床医が病気の重症度を正確に判定し、高品質な治療を提供するために重要な側面である。 厚いスミアの血液スミアに顕微鏡を適用することはマラリア寄生虫症判定の事実上の方法である。 しかし、寄生虫症の手作業による定量化は時間がかかり、手間がかかり、特に高度で資源の少ない地域では不十分な相当な専門知識を必要とする。 本研究は, マラリア原虫および白血球の局在と定量化のためのエンド・ツー・エンドアプローチであり, 血液中寄生虫の定量値, 寄生虫の定量化に有効であることを示す。 太い血液スメアの画像のスライスのデータセット上に,得られたデジタル画像を分析するモデルを構築した。 データセットのサイズ制限によるモデル性能向上のために,データ拡張を適用した。 予備的な結果から,我々の深層学習アプローチは,高い精度でマラリア原虫とWBCの数を確実に検出し,返却することを示した。 また,人間のエキスパートに対するシステムを評価し,我々のディープラーニングモデル数と手作業のエキスパート数(寄生虫p=0.998,wbcsp=0.987)との間に強い相関関係を示した。 このアプローチはマラリア寄生虫の診断、特に十分なマイクロスコピストを欠いた状況でのサポートに応用できる可能性がある。

Effectively determining malaria parasitemia is a critical aspect in assisting clinicians to accurately determine the severity of the disease and provide quality treatment. Microscopy applied to thick smear blood smears is the de facto method for malaria parasitemia determination. However, manual quantification of parasitemia is time consuming, laborious and requires considerable trained expertise which is particularly inadequate in highly endemic and low resourced areas. This study presents an end-to-end approach for localisation and count of malaria parasites and white blood cells (WBCs) which aid in the effective determination of parasitemia; the quantitative content of parasites in the blood. On a dataset of slices of images of thick blood smears, we build models to analyse the obtained digital images. To improve model performance due to the limited size of the dataset, data augmentation was applied. Our preliminary results show that our deep learning approach reliably detects and returns a count of malaria parasites and WBCs with a high precision and recall. We also evaluate our system against human experts and results indicate a strong correlation between our deep learning model counts and the manual expert counts (p=0.998 for parasites, p=0.987 for WBCs). This approach could potentially be applied to support malaria parasitemia determination especially in settings that lack sufficient Microscopists.
翻訳日:2021-05-23 21:33:33 公開日:2020-12-03
# (参考訳) 自動句読点挿入による終端ASRシステム [全文訳有]

End to End ASR System with Automatic Punctuation Insertion ( http://arxiv.org/abs/2012.02012v1 )

ライセンス: CC BY 4.0
Yushi Guan(参考訳) 最近の自動音声認識システムは、一緒に訓練できるエンドツーエンドシステムに向かっている。 CNNによる特徴抽出、コンテキストキャプチャとRNNによる音響特徴モデリング、Connectionist Temporal Classificationsを用いた入力シーケンスと出力シーケンスの自動アライメント、従来のn-gram言語モデルをRNN言語モデルに置き換えるなど、最近提案された多くのテクニックによってこの傾向が実現された。 歴史的に、テキストや音声からテキストへの自動句読点に多くの関心が寄せられている。 しかし、英語の音声コーパスの欠如や句読点の欠如などもあり、新たなニューラルネットワークに基づくエンドツーエンド音声認識システムに自動句読点を導入することにはほとんど関心がないようである。 本研究では,TED.com から入手可能な transcript を用いて TEDLium データセットの句読点書き起こしを生成する手法を提案する。 また,音声信号から単語と句を同時に出力するエンドツーエンドのASRシステムを提案する。 Damerau Levenshtein Distanceとスロットエラー率をDLev-SERに組み合わせることで、仮説テキストが参照と完全に一致していない場合の句読点誤り率の測定を可能にする。 従来の手法と比較して,スロットエラー率は0.497から0.341に減少する。

Recent Automatic Speech Recognition systems have been moving towards end-to-end systems that can be trained together. Numerous techniques that have been proposed recently enabled this trend, including feature extraction with CNNs, context capturing and acoustic feature modeling with RNNs, automatic alignment of input and output sequences using Connectionist Temporal Classifications, as well as replacing traditional n-gram language models with RNN Language Models. Historically, there has been a lot of interest in automatic punctuation in textual or speech to text context. However, there seems to be little interest in incorporating automatic punctuation into the emerging neural network based end-to-end speech recognition systems, partially due to the lack of English speech corpus with punctuated transcripts. In this study, we propose a method to generate punctuated transcript for the TEDLIUM dataset using transcripts available from ted.com. We also propose an end-to-end ASR system that outputs words and punctuations concurrently from speech signals. Combining Damerau Levenshtein Distance and slot error rate into DLev-SER, we enable measurement of punctuation error rate when the hypothesis text is not perfectly aligned with the reference. Compared with previous methods, our model reduces slot error rate from 0.497 to 0.341.
翻訳日:2021-05-23 21:13:45 公開日:2020-12-03
# (参考訳) 情報バイアス検出における文脈 [全文訳有]

Context in Informational Bias Detection ( http://arxiv.org/abs/2012.02015v1 )

ライセンス: CC BY 4.0
Esther van den Berg and Katja Markert(参考訳) 情報バイアス(英: Informational bias)とは、読者の意見を実体に向ける具体的な、投機的、背景的な情報を提供する文や節を通じて伝達されるバイアスである。 本質的には、情報バイアスは文脈依存であるが、情報バイアス検出に関する以前の研究は、文を超えて文脈の役割を探求していない。 本稿では,英語ニュース記事における情報バイアスの文脈について,近隣の文,全文,他のニュース発行者による同一イベントの記事,同一ドメインからの記事(潜在的に異なるイベント)の4種について検討する。 イベントコンテキストの統合は、非常に強力なベースライン上での分類性能を改善する。 また,このタスクにおいて,モデルの最初の誤差解析を行う。 もっとも優れた文脈包摂的モデルは、より長い文と政治的中心的な記事の文のベースラインを上回ります。

Informational bias is bias conveyed through sentences or clauses that provide tangential, speculative or background information that can sway readers' opinions towards entities. By nature, informational bias is context-dependent, but previous work on informational bias detection has not explored the role of context beyond the sentence. In this paper, we explore four kinds of context for informational bias in English news articles: neighboring sentences, the full article, articles on the same event from other news publishers, and articles from the same domain (but potentially different events). We find that integrating event context improves classification performance over a very strong baseline. In addition, we perform the first error analysis of models on this task. We find that the best-performing context-inclusive model outperforms the baseline on longer sentences, and sentences from politically centrist articles.
翻訳日:2021-05-23 21:04:12 公開日:2020-12-03
# (参考訳) 航空画像のピクセルレベルセグメンテーション [全文訳有]

Aerial Imagery Pixel-level Segmentation ( http://arxiv.org/abs/2012.02024v1 )

ライセンス: CC BY 4.0
Michael R. Heffels and Joaquin Vanschoren(参考訳) 航空画像は世界規模の重要な研究に利用することができる。 それでも、ニューラルネットワークアーキテクチャを使用したデータ分析は、PASCAL VOC、CityScapes、Camvidといった一般的なデータセットの最先端に遅れを取っている。 本稿では,これらの一般的なデータセットと航空画像データ間のパフォーマンスギャップを橋渡しする。 最先端のニューラルネットワークアーキテクチャを複数クラスに設定した,空中画像に関する作業はほとんど行われない。 データ拡張、正規化、画像サイズ、損失関数に関する実験は、航空画像セグメンテーションデータセットの高性能設定に関する洞察を与える。 最先端のdeeplabv3+xception65アーキテクチャを使用して、dronedeployバリデーションセットで平均70%のiouを達成しています。 その結果、現在公開されている最先端の検証セットmIOU(65%)のパフォーマンスを5%で上回りました。 さらに、私たちの知る限り、テストセットのmIOUベンチマークはありません。 そこで我々は,miouスコア52.5%のdeeplabv3+xception65アーキテクチャを用いて,dronedeployテストセットの新しいベンチマークを提案する。

Aerial imagery can be used for important work on a global scale. Nevertheless, the analysis of this data using neural network architectures lags behind the current state-of-the-art on popular datasets such as PASCAL VOC, CityScapes and Camvid. In this paper we bridge the performance-gap between these popular datasets and aerial imagery data. Little work is done on aerial imagery with state-of-the-art neural network architectures in a multi-class setting. Our experiments concerning data augmentation, normalisation, image size and loss functions give insight into a high performance setup for aerial imagery segmentation datasets. Our work, using the state-of-the-art DeepLabv3+ Xception65 architecture, achieves a mean IOU of 70% on the DroneDeploy validation set. With this result, we clearly outperform the current publicly available state-of-the-art validation set mIOU (65%) performance with 5%. Furthermore, to our knowledge, there is no mIOU benchmark for the test set. Hence, we also propose a new benchmark on the DroneDeploy test set using the best performing DeepLabv3+ Xception65 architecture, with a mIOU score of 52.5%.
翻訳日:2021-05-23 20:50:36 公開日:2020-12-03
# (参考訳) 人間グリッドオペレータのためのAIアシスタントを目指して [全文訳有]

Towards an AI assistant for human grid operators ( http://arxiv.org/abs/2012.02026v1 )

ライセンス: CC BY 4.0
Antoine Marot, Alexandre Rozier, Matthieu Dussartre, Laure Crochepierre, Benjamin Donnot(参考訳) 電力システムは、デジタル時代の運用がより複雑になっている。 その結果、人間のオペレータがより多くの情報、不確実性、より多くのアプリケーション、より多くの協調を扱わなければならないため、リアルタイムな意思決定はますます困難になっています。 監視は主に、過去数十年にわたって意思決定を支援するために使用されてきたが、もはや合理的なスケールアップには至っていない。 より統一的でインタラクティブなフレームワークの下で、ヒューマンマシンインターフェースを再考する必要がある。 人間と機械の相互作用と人工知能の最新の進歩を利用して、ハイパービジョンインターフェースとより広い双方向インタラクションに依存する新しいアシスタントフレームワークのビジョンを共有します。 我々は,現在提示している補助的設計と支援機能を駆動する意思決定の既知の原則について検討する。 最終的に、このようなアシスタントの開発に向けて進むためのガイドラインを共有します。

Power systems are becoming more complex to operate in the digital age. As a result, real-time decision-making is getting more challenging as the human operator has to deal with more information, more uncertainty, more applications and more coordination. While supervision has been primarily used to help them make decisions over the last decades, it cannot reasonably scale up anymore. There is a great need for rethinking the human-machine interface under more unified and interactive frameworks. Taking advantage of the latest developments in Human-machine Interactions and Artificial intelligence, we share the vision of a new assistant framework relying on an hypervision interface and greater bidirectional interactions. We review the known principles of decision-making that drives the assistant design and supporting assistance functions we present. We finally share some guidelines to make progress towards the development of such an assistant.
翻訳日:2021-05-23 20:27:45 公開日:2020-12-03
# (参考訳) traffic4cast 2020 -- graph ensemble netと交通予測のための特徴と損失関数設計の重要性 [全文訳有]

Traffic4cast 2020 -- Graph Ensemble Net and the Importance of Feature And Loss Function Design for Traffic Prediction ( http://arxiv.org/abs/2012.02115v1 )

ライセンス: CC BY 4.0
Qi Qi, Pak Hay Kwok(参考訳) 本稿では、traffic4cast 2020のソリューションについて詳述する。 traffic4cast 2019と同様に、traffic4cast 2020は、大都市の将来の交通状況を予測するアルゴリズムの開発に挑戦した。 私たちのチームはこの挑戦を2つの面で取り組んだ。 機能と損失関数の設計の重要性を調査し、昨年から最高のパフォーマンスのu-netソリューションに対して大きな改善を達成しました。 また、グラフニューラルネットワークの利用について検討し、昨年よりGNNソリューションよりも優れた新しいアンサンブルGNNアーキテクチャを導入した。 我々のGNNは改善されたが、それでもU-Netのパフォーマンスと一致せず、この欠点の潜在的な理由が議論された。 最後のソリューションであるU-NetとGNNのアンサンブルは、Traffic4cast 2020で4位になった。

This paper details our solution to Traffic4cast 2020. Similar to Traffic4cast 2019, Traffic4cast 2020 challenged its contestants to develop algorithms that can predict the future traffic states of big cities. Our team tackled this challenge on two fronts. We studied the importance of feature and loss function design, and achieved significant improvement to the best performing U-Net solution from last year. We also explored the use of Graph Neural Networks and introduced a novel ensemble GNN architecture which outperformed the GNN solution from last year. While our GNN was improved, it was still unable to match the performance of U-Nets and the potential reasons for this shortfall were discussed. Our final solution, an ensemble of our U-Net and GNN, achieved the 4th place solution in Traffic4cast 2020.
翻訳日:2021-05-23 20:00:33 公開日:2020-12-03
# (参考訳) 抽出要約には、トランスフォーマーにこれほど多くのパラメータが必要ですか? Discourse Can Help! [全文訳有]

Do We Really Need That Many Parameters In Transformer For Extractive Summarization? Discourse Can Help ! ( http://arxiv.org/abs/2012.02144v1 )

ライセンス: CC BY 4.0
Wen Xiao, Patrick Huber, Giuseppe Carenini(参考訳) 一般的なトランスモデルのマルチヘッド自己アテンションは自然言語処理(NLP)において広く使われており、抽出的要約のタスクも含んでいる。 パラメータ重自己注意機構の解析と解析を目的とし、パラメータ軽自己意識の代替案を提案する複数のアプローチが存在する。 本稿では,談話先行情報を用いたパラメータリーン自己認識機構を提案する。 我々の新しいツリー自己注意は文書レベルの談話情報に基づいており、最近提案された"シンセサイザー"フレームワークを別の軽量な代替手段で拡張している。 本研究は,本手法が抽出要約作業における競合的ROUGEスコアを達成できることを示す。 従来の単頭変圧器モデルと比較すると,注目成分のパラメータが著しく減少しているにもかかわらず,木注目アプローチはEDUと文レベルの両方で同様の性能に達する。 さらに、よりバランスの取れたハイパーパラメータ設定を適用する場合、文レベルで8ヘッドトランスフォーマーモデルを大きく上回り、桁違いなパラメータを必要とする。

The multi-head self-attention of popular transformer models is widely used within Natural Language Processing (NLP), including for the task of extractive summarization. With the goal of analyzing and pruning the parameter-heavy self-attention mechanism, there are multiple approaches proposing more parameter-light self-attention alternatives. In this paper, we present a novel parameter-lean self-attention mechanism using discourse priors. Our new tree self-attention is based on document-level discourse information, extending the recently proposed "Synthesizer" framework with another lightweight alternative. We show empirical results that our tree self-attention approach achieves competitive ROUGE-scores on the task of extractive summarization. When compared to the original single-head transformer model, the tree attention approach reaches similar performance on both, EDU and sentence level, despite the significant reduction of parameters in the attention component. We further significantly outperform the 8-head transformer model on sentence level when applying a more balanced hyper-parameter setting, requiring an order of magnitude less parameters.
翻訳日:2021-05-23 19:31:47 公開日:2020-12-03
# (参考訳) Dr-COVID:SARS-CoV-2ドラッグリサイクルのためのグラフニューラルネットワーク [全文訳有]

Dr-COVID: Graph Neural Networks for SARS-CoV-2 Drug Repurposing ( http://arxiv.org/abs/2012.02151v1 )

ライセンス: CC BY 4.0
Siddhant Doshi and Sundeep Prabhakar Chepuri(参考訳) 2019年の新型コロナウイルス(SARS-CoV-2)パンデミックは、世界中で100万人以上の死者、高い死亡率、経済的な苦悩をもたらした。 新型コロナウイルス(COVID-19)などの新規疾患を治療・予防する薬剤の特定が急務である。 医薬品の再利用は、新しい薬剤の設計や発見と比較して、コスト、安全性、迅速な結果に関していくつかの利点があるため、既存の承認薬の新しい医学的適応を見つける有望な戦略である。 本研究では,薬物再資源化のための計算データ駆動手法について検討し,薬物再資源化モデルであるDr-COVIDを提案する。 予測薬をcovid-19のために詳細に分析するが、このモデルは汎用的であり、あらゆる新しい疾患に使用できる。 薬物, 疾患, 遺伝子, 解剖学間の複雑な相互作用をモデル化するための4層ヘテロジニアスグラフを構築した。 リンク予測問題として薬物再導入を提案する。 具体的には,スケーラブルなインセプティブグラフニューラルネットワーク(sign)に基づくエンコーダを設計し,4層グラフ内のすべてのノードへの埋め込みを生成し,疾患の治療予測のためのデコーダとして二次ノルムスコアラを提案する。 我々は、Dr-COVID for COVID-19(例えば、コルチコステロイド、抗ウイルス薬、抗寄生虫薬)によって予測される150種類の薬物(デキサメタゾン、イヴェルメクチンなど)の詳細な分析を行う。 この150薬のうち46薬が現在臨床試験中である。 Dr-COVIDは、その予測性能と、既知の疾患の治療薬をできるだけ高くランク付けする能力で評価されている。 ほとんどの疾患では、Dr-COVIDは治療薬をトップ15にランク付けしている。

The 2019 novel coronavirus (SARS-CoV-2) pandemic has resulted in more than a million deaths, high morbidities, and economic distress worldwide. There is an urgent need to identify medications that would treat and prevent novel diseases like the 2019 coronavirus disease (COVID-19). Drug repurposing is a promising strategy to discover new medical indications of the existing approved drugs due to several advantages in terms of the costs, safety factors, and quick results compared to new drug design and discovery. In this work, we explore computational data-driven methods for drug repurposing and propose a dedicated graph neural network (GNN) based drug repurposing model, called Dr-COVID. Although we analyze the predicted drugs in detail for COVID-19, the model is generic and can be used for any novel diseases. We construct a four-layered heterogeneous graph to model the complex interactions between drugs, diseases, genes, and anatomies. We pose drug repurposing as a link prediction problem. Specifically, we design an encoder based on the scalable inceptive graph neural network (SIGN) to generate embeddings for all the nodes in the four-layered graph and propose a quadratic norm scorer as a decoder to predict treatment for a disease. We provide a detailed analysis of the 150 potential drugs (such as Dexamethasone, Ivermectin) predicted by Dr-COVID for COVID-19 from different pharmacological classes (e.g., corticosteroids, antivirals, antiparasitic). Out of these 150 drugs, 46 drugs are currently in clinical trials. Dr-COVID is evaluated in terms of its prediction performance and its ability to rank the known treatment drugs for diseases as high as possible. For a majority of the diseases, Dr-COVID ranks the actual treatment drug in the top 15.
翻訳日:2021-05-23 19:18:11 公開日:2020-12-03
# (参考訳) 帰属誘導因子化による自己監督型ニューラルネットワークの可視化

Visualization of Supervised and Self-Supervised Neural Networks via Attribution Guided Factorization ( http://arxiv.org/abs/2012.02166v1 )

ライセンス: CC BY 4.0
Shir Gur, Ameen Ali, Lior Wolf(参考訳) ニューラルネットワークの可視化技術は、ネットワークの分類に関連して、画像の位置をマークする。 既存の手法は、結果の分類に最も影響を及ぼす領域を強調するのに有効である。 しかし、これらの方法が示すように、代替分類のサポートを識別する能力は限定的であり、その効果は「サリエンシバイアス」仮説と命名される。 本研究では,グラデーションベース手法と属性ベース手法の2つの手法を統合し,クラスごとの説明可能性を提供するアルゴリズムを開発した。 アルゴリズムは、ピクセル当たりの局所的な影響を局所的な帰属によって導かれる方法でバックプロジェクションし、それ以外は説明のバイアスとなるような特徴を補正する。 大規模な実験では,予測されたラベルだけでなく,クラス固有の視覚化能力を示す。 注目すべきは、勾配に基づく手法に一般的に適用されるベンチマークや、主に帰属法を評価するために使用されるベンチマークにおいて、技術結果の状態を取得することである。 また,新しい教師なし手法を用いて,自己教師付き手法が意味情報を学ぶことを示す。

Neural network visualization techniques mark image locations by their relevancy to the network's classification. Existing methods are effective in highlighting the regions that affect the resulting classification the most. However, as we show, these methods are limited in their ability to identify the support for alternative classifications, an effect we name {\em the saliency bias} hypothesis. In this work, we integrate two lines of research: gradient-based methods and attribution-based methods, and develop an algorithm that provides per-class explainability. The algorithm back-projects the per pixel local influence, in a manner that is guided by the local attributions, while correcting for salient features that would otherwise bias the explanation. In an extensive battery of experiments, we demonstrate the ability of our methods to class-specific visualization, and not just the predicted label. Remarkably, the method obtains state of the art results in benchmarks that are commonly applied to gradient-based methods as well as in those that are employed mostly for evaluating attribution methods. Using a new unsupervised procedure, our method is also successful in demonstrating that self-supervised methods learn semantic information.
翻訳日:2021-05-23 19:00:24 公開日:2020-12-03
# (参考訳) DeepVideoMVS: Recurrent Spatio-Temporal Fusionによるビデオのマルチビューステレオ [全文訳有]

DeepVideoMVS: Multi-View Stereo on Video with Recurrent Spatio-Temporal Fusion ( http://arxiv.org/abs/2012.02177v1 )

ライセンス: CC BY 4.0
Arda D\"uz\c{c}eker, Silvano Galliani, Christoph Vogel, Pablo Speciale, Mihai Dusmanu, Marc Pollefeys(参考訳) 本研究では,前回の時間ステップで計算されたシーン形状情報を,現在時間ステップに効率的かつ幾何学的に妥当な方法で伝搬する,ポーズ付きビデオストリームに対するオンラインマルチビュー深度予測手法を提案する。 私たちのアプローチのバックボーンは、画像ペアから計算したコストボリュームに依存する、リアルタイムで、軽量なエンコーダ・デコーダです。 我々は、ConvLSTMセルをボトルネック層に配置することで拡張し、任意の量の過去の情報をその状態に圧縮する。 新規性は、時間ステップ間の視点変化を考慮し、細胞の隠れた状態を伝播することにある。 所定の時間ステップで、前回の深度予測を使用して、現在のカメラプレーンに以前の隠れ状態を警告します。 我々の拡張は計算時間とメモリ消費のオーバーヘッドを少なく抑えつつ、深さ予測を大幅に改善する。 その結果,既存のマルチビューステレオ手法よりも,実時間性能を維持しつつ,数百の屋内シーンで評価された指標のほとんどを上回ります。 コード提供: https://github.com/a rdaduz/deep-video-mv s

We propose an online multi-view depth prediction approach on posed video streams, where the scene geometry information computed in the previous time steps is propagated to the current time step in an efficient and geometrically plausible way. The backbone of our approach is a real-time capable, lightweight encoder-decoder that relies on cost volumes computed from pairs of images. We extend it by placing a ConvLSTM cell at the bottleneck layer, which compresses an arbitrary amount of past information in its states. The novelty lies in propagating the hidden state of the cell by accounting for the viewpoint changes between time steps. At a given time step, we warp the previous hidden state into the current camera plane using the previous depth prediction. Our extension brings only a small overhead of computation time and memory consumption, while improving the depth predictions significantly. As a result, we outperform the existing state-of-the-art multi-view stereo methods on most of the evaluated metrics in hundreds of indoor scenes while maintaining a real-time performance. Code available: https://github.com/a rdaduz/deep-video-mv s
翻訳日:2021-05-23 18:48:36 公開日:2020-12-03
# (参考訳) 非線形共役勾配型適応運動量を用いた確率勾配降下 [全文訳有]

Stochastic Gradient Descent with Nonlinear Conjugate Gradient-Style Adaptive Momentum ( http://arxiv.org/abs/2012.02188v1 )

ライセンス: CC0 1.0
Bao Wang, Qiang Ye(参考訳) Momentumは、ディープニューラルネットワーク(DNN)のトレーニングを加速または改善するための確率勾配に基づく最適化アルゴリズムにおいて重要な役割を果たす。 ディープラーニングの実践では、運動量はよく校正された定数によって重み付けされる。 しかし、運動量に対するハイパーパラメータのチューニングは重要な計算負荷となる。 本稿では、DNNのトレーニングを改善するための新しい「emph{adaptive momentum}」を提案する。この適応運動量は、運動量に関連するハイパーパラメータを必要としないが、非線形共役勾配(NCG)法によって動機付けられる。 新しい適応運動量による確率勾配降下(SGD)は運動量ハイパーパラメータ校正の必要性を排除し、学習率を大幅に向上させ、DNNトレーニングを加速し、訓練されたDNNの最終的な精度と堅牢性を向上させる。 例えば、この適応運動量を持つSGDは、CIFAR10とCIFAR100のResNet110のトレーニングの分類誤差を、それぞれ5.25\%$から4.64\%$、23.75\%$から20.03\%$に下げる。 さらに、新たな適応運動量を持つSGDは、訓練されたDNNの敵対的堅牢性を向上させる。

Momentum plays a crucial role in stochastic gradient-based optimization algorithms for accelerating or improving training deep neural networks (DNNs). In deep learning practice, the momentum is usually weighted by a well-calibrated constant. However, tuning hyperparameters for momentum can be a significant computational burden. In this paper, we propose a novel \emph{adaptive momentum} for improving DNNs training; this adaptive momentum, with no momentum related hyperparameter required, is motivated by the nonlinear conjugate gradient (NCG) method. Stochastic gradient descent (SGD) with this new adaptive momentum eliminates the need for the momentum hyperparameter calibration, allows a significantly larger learning rate, accelerates DNN training, and improves final accuracy and robustness of the trained DNNs. For instance, SGD with this adaptive momentum reduces classification errors for training ResNet110 for CIFAR10 and CIFAR100 from $5.25\%$ to $4.64\%$ and $23.75\%$ to $20.03\%$, respectively. Furthermore, SGD with the new adaptive momentum also benefits adversarial training and improves adversarial robustness of the trained DNNs.
翻訳日:2021-05-23 18:06:24 公開日:2020-12-03
# (参考訳) バングラデシュにおける車両ナンバープレート検出と認識による交通監視 [全文訳有]

Traffic Surveillance using Vehicle License Plate Detection and Recognition in Bangladesh ( http://arxiv.org/abs/2012.02218v1 )

ライセンス: CC BY 4.0
Md. Saif Hassan Onim, Muhaiminul Islam Akash, Mahmudul Haque, Raiyan Ibne Hafiz(参考訳) 深層学習(DL)技術と組み合わせたコンピュータビジョンは、交通制御、監視、法執行活動の分野で大きな可能性をもたらす。 本稿では,バングラデシュの車両のライセンスプレートを検出し,検出されたライセンスプレートからtesseractを用いて文字を認識するために,畳み込みニューラルネットワーク(cnn)を訓練し,チューニングしたyolov4オブジェクト検出モデルを提案する。 ここでは、ピソンパッケージであるTkinterをベースにしたグラフィカルユーザインタフェース(GUI)を紹介する。 ライセンスプレート検出モデルは平均平均精度(mAP)90.50%でトレーニングされ、リアルタイムビデオ映像で平均14フレーム/秒(fps)の単一のTESLA T4 GPUで実行される。

Computer vision coupled with Deep Learning (DL) techniques bring out a substantial prospect in the field of traffic control, monitoring and law enforcing activities. This paper presents a YOLOv4 object detection model in which the Convolutional Neural Network (CNN) is trained and tuned for detecting the license plate of the vehicles of Bangladesh and recognizing characters using tesseract from the detected license plates. Here we also present a Graphical User Interface (GUI) based on Tkinter, a python package. The license plate detection model is trained with mean average precision (mAP) of 90.50% and performed in a single TESLA T4 GPU with an average of 14 frames per second (fps) on real time video footage.
翻訳日:2021-05-23 17:28:36 公開日:2020-12-03
# (参考訳) COVID-CLNet: 深層学習による新型コロナ検出 [全文訳有]

COVID-CLNet: COVID-19 Detection with Compressive Deep Learning Approaches ( http://arxiv.org/abs/2012.02234v1 )

ライセンス: CC BY 4.0
Khalfalla Awedat and Almabrok Essa(参考訳) 世界保健機関の最も深刻な脅威は、新型コロナウイルスのパンデミックだ。 診断の改善と診断能力の向上を重視することは、その拡散を著しく阻止するのに役立つ。 そこで, 放射線技師や他の医療従事者が, 最短時間で新型コロナウイルスの症例を検出し, 特定するのを助けるために, CTスキャン画像を用いたコンピュータ支援検出システム(CADe)を提案する。 提案する強化深層学習ネットワーク(CLNet)は,圧縮学習(CL)の補完として,深層学習(DL)ネットワークの実装に基づいている。 我々は,畳み込みニューラルネットワークにアクセスする前に,データ特徴を新しい空間に表現するためにCLを用いた測定領域における開始特徴抽出技術を利用する。 オリジナルの特徴はすべて、センシング行列を用いて新しい空間に等しく寄与されている。 異なる圧縮法で行った実験は、新型コロナウイルスの検出に有望な結果を示している。 また,新しい重み付け法として,ブースト特徴を捉えた異なるセンシング行列を用いた場合,提案手法の性能が向上することを示す。

One of the most serious global health threat is COVID-19 pandemic. The emphasis on improving diagnosis and increasing the diagnostic capability helps stopping its spread significantly. Therefore, to assist the radiologist or other medical professional to detect and identify the COVID-19 cases in the shortest possible time, we propose a computer-aided detection (CADe) system that uses the computed tomography (CT) scan images. This proposed boosted deep learning network (CLNet) is based on the implementation of Deep Learning (DL) networks as a complementary to the Compressive Learning (CL). We utilize our inception feature extraction technique in the measurement domain using CL to represent the data features into a new space with less dimensionality before accessing the Convolutional Neural Network. All original features have been contributed equally in the new space using a sensing matrix. Experiments performed on different compressed methods show promising results for COVID-19 detection. In addition, our novel weighted method based on different sensing matrices that used to capture boosted features demonstrates an improvement in the performance of the proposed method.
翻訳日:2021-05-23 17:21:44 公開日:2020-12-03
# (参考訳) 因果属性を用いたトロイの木馬DNNの検出 [全文訳有]

Detecting Trojaned DNNs Using Counterfactual Attributions ( http://arxiv.org/abs/2012.02275v1 )

ライセンス: CC BY 4.0
Karan Sikka, Indranil Sur, Susmit Jha, Anirban Roy and Ajay Divakaran(参考訳) DNNにおけるトロイの木馬やバックドアの発見を目標としている。 このようなモデルは通常、典型的な入力で振る舞うが、トロイの木馬のトリガーで汚染された入力の特定の誤った予測を生成する。 我々のアプローチは、トリガー行動がトリガーパターンを活性化し、活性化時の間違った決定に対する異常な高い相対的帰属を示すいくつかのゴーストニューロンに依存するという新しい観察に基づいている。 さらに、これらのトリガーニューロンは標的クラスの正常な入力でも活動する。 そこで我々は,これらのゴーストニューロンをクリーンな入力から局所化し,それを漸進的に励起し,モデルの精度の変化を観察する。 我々はこの情報を、モデルクラスやアーキテクチャの数に不変なディープセットエンコーダを用いてトロイの木馬検出に利用する。 私たちのアプローチは、ディープラーニングにおける信頼性、レジリエンス、解釈可能性の課題間の相乗効果を活用するTrinityAIツールに実装されています。 モデルアーキテクチャやトリガなどにおいて、高い多様性を持つベンチマークに対するアプローチを評価します。 我々は、特定の敵攻撃に対するdnnの感受性に依存する最先端の手法に対して、一貫性のある利益(+10%)を示し、トロイの木馬攻撃の性質に強い仮定を必要とする。

We target the problem of detecting Trojans or backdoors in DNNs. Such models behave normally with typical inputs but produce specific incorrect predictions for inputs poisoned with a Trojan trigger. Our approach is based on a novel observation that the trigger behavior depends on a few ghost neurons that activate on trigger pattern and exhibit abnormally higher relative attribution for wrong decisions when activated. Further, these trigger neurons are also active on normal inputs of the target class. Thus, we use counterfactual attributions to localize these ghost neurons from clean inputs and then incrementally excite them to observe changes in the model's accuracy. We use this information for Trojan detection by using a deep set encoder that enables invariance to the number of model classes, architecture, etc. Our approach is implemented in the TrinityAI tool that exploits the synergies between trustworthiness, resilience, and interpretability challenges in deep learning. We evaluate our approach on benchmarks with high diversity in model architectures, triggers, etc. We show consistent gains (+10%) over state-of-the-art methods that rely on the susceptibility of the DNN to specific adversarial attacks, which in turn requires strong assumptions on the nature of the Trojan attack.
翻訳日:2021-05-23 16:56:16 公開日:2020-12-03
# (参考訳) 平均圧力周波数応答のモデル化のためのフィードフォワードニューラルネットワーク [全文訳有]

A feedforward neural network for modelling of average pressure frequency response ( http://arxiv.org/abs/2012.02276v1 )

ライセンス: CC BY 4.0
Klas Pettersson, Andrey Karzhou, and Irina Pettersson(参考訳) ヘルムホルツ方程式は調和負荷下での音圧場をモデル化するために用いられる。 ヘルムホルツ方程式の解法によって調和音圧場を計算することは、周波数の範囲で多くの異なるジオメトリを研究しようとすると、すぐに実現不可能になる。 本稿では,周波数範囲の平均音圧を計算するための機械学習手法,すなわちフィードフォワード高密度ニューラルネットワークを提案する。 データは、平均音圧の応答を、圧力の固有モード分解によって数値計算することにより、有限要素で生成される。 近似の精度を分析し、平均的な圧力応答の予測において一定の精度に達するために訓練データが必要かどうかを判定する。

The Helmholtz equation has been used for modelling the sound pressure field under a harmonic load. Computing harmonic sound pressure fields by means of solving Helmholtz equation can quickly become unfeasible if one wants to study many different geometries for ranges of frequencies. We propose a machine learning approach, namely a feedforward dense neural network, for computing the average sound pressure over a frequency range. The data is generated with finite elements, by numerically computing the response of the average sound pressure, by an eigenmode decomposition of the pressure. We analyze the accuracy of the approximation and determine how much training data is needed in order to reach a certain accuracy in the predictions of the average pressure response.
翻訳日:2021-05-23 16:37:29 公開日:2020-12-03
# 適応と適応:多言語音声認識のロングテール問題を克服する

Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual Speech Recognition ( http://arxiv.org/abs/2012.01687v1 )

ライセンス: Link先を確認
Genta Indra Winata, Guangsen Wang, Caiming Xiong, Steven Hoi(参考訳) 実世界の多言語音声認識における重要な課題の1つは、英語のようなリソース豊富な言語が豊富な訓練データを持っているが、低リソース言語の長い尾は限られた訓練データしか持たない長期分布問題である。 本稿では,エンドツーエンドの多言語音声認識のためのトランスフォーマーベースマルチタスク学習フレームワークAdapt-and-Adjust(A2) を提案する。 A2フレームワークは,(1) 訓練済み多言語言語モデル (mBERT) を利用して低リソース言語の性能を向上させる,(2) 言語固有の適応と言語に依存しない2つのアダプタを最小限の追加パラメータで提案する,(3) クラス不均衡を克服する,という3つの手法で解決する。 コモンボイスコーパスの広範な実験は、a2が従来のアプローチを大きく上回っていることを示している。

One crucial challenge of real-world multilingual speech recognition is the long-tailed distribution problem, where some resource-rich languages like English have abundant training data, but a long tail of low-resource languages have varying amounts of limited training data. To overcome the long-tail problem, in this paper, we propose Adapt-and-Adjust (A2), a transformer-based multi-task learning framework for end-to-end multilingual speech recognition. The A2 framework overcomes the long-tail problem via three techniques: (1) exploiting a pretrained multilingual language model (mBERT) to improve the performance of low-resource languages; (2) proposing dual adapters consisting of both language-specific and language-agnostic adaptation with minimal additional parameters; and (3) overcoming the class imbalance, either by imposing class priors in the loss during training or adjusting the logits of the softmax output during inference. Extensive experiments on the CommonVoice corpus show that A2 significantly outperforms conventional approaches.
翻訳日:2021-05-23 15:17:27 公開日:2020-12-03
# DialogBERT: 学習による発話認識応答生成による発話の検索とランク付け

DialogBERT: Discourse-Aware Response Generation via Learning to Recover and Rank Utterances ( http://arxiv.org/abs/2012.01775v1 )

ライセンス: Link先を確認
Xiaodong Gu, Kang Min Yoo, Jung-Woo Ha(参考訳) 事前学習言語モデルの最近の進歩は、神経応答生成を著しく改善した。 しかしながら、既存のメソッドは通常、対話コンテキストをトークンの線形シーケンスとみなし、トークンレベルの自己認識を通じて次の単語を生成することを学ぶ。 このようなトークンレベルの符号化は、発話間の談話レベルの一貫性の探索を妨げる。 本稿では,従来の PLM に基づく対話モデルを強化した対話応答生成モデルである DialogBERT を提案する。 DialogBERTは階層型トランスフォーマーアーキテクチャを採用している。 本研究では,発話間の発話レベルのコヒーレンスを効率的に把握するために,マスキング発話回帰と分散発話順序ランキングを含む2つの学習目標を提案する。 3つのマルチターン会話データセットの実験により,BARTやDialoGPTなどのベースラインの定量的評価において,我々のアプローチが著しく優れていることが示された。 人間の評価は、DialogBERTが有意なマージンを持つベースラインよりも、より一貫性があり、情報的で、人間的な反応を生成することを示唆している。

Recent advances in pre-trained language models have significantly improved neural response generation. However, existing methods usually view the dialogue context as a linear sequence of tokens and learn to generate the next word through token-level self-attention. Such token-level encoding hinders the exploration of discourse-level coherence among utterances. This paper presents DialogBERT, a novel conversational response generation model that enhances previous PLM-based dialogue models. DialogBERT employs a hierarchical Transformer architecture. To efficiently capture the discourse-level coherence among utterances, we propose two training objectives, including masked utterance regression and distributed utterance order ranking in analogy to the original BERT training. Experiments on three multi-turn conversation datasets show that our approach remarkably outperforms the baselines, such as BART and DialoGPT, in terms of quantitative evaluation. The human evaluation suggests that DialogBERT generates more coherent, informative, and human-like responses than the baselines with significant margins.
翻訳日:2021-05-23 15:17:07 公開日:2020-12-03
# FairBatch: モデルフェアネスのためのバッチ選択

FairBatch: Batch Selection for Model Fairness ( http://arxiv.org/abs/2012.01696v1 )

ライセンス: Link先を確認
Yuji Roh, Kangwook Lee, Steven Euijong Whang, Changho Suh(参考訳) 人口格差を防止するためには、公平な機械学習モデルのトレーニングが不可欠である。 モデルの公平性を改善する既存の技術では、データ前処理とモデルトレーニングの両方に広範な変更が必要であり、すでに複雑な機械学習システムでは採用が難しい。 我々はこの問題を双レベル最適化のレンズを通して解決する。 標準のトレーニングアルゴリズムをインナーオプティマイザとして保持しながら、内部問題にさらなる機能を持たせるために、外部オプティマイザを組み込んで、モデルフェア性を改善するために、ミニバッチサイズを適応的に選択する。 バッチ選択アルゴリズムはFairBatchと呼ばれ、この最適化を実装し、均等な機会、等化確率、人口統計等等の顕著な公正度対策をサポートします。 fairbatchには、データプリプロセッシングやモデルトレーニングの変更を必要としない、重要な実装上のメリットがある。 例えば、モデルトレーニングsufficeのバッチ選択部分をfairbatchに置き換えるためのpytorchコードの単一行の変更などだ。 私たちの実験は、合成データとベンチマーク実データの両方で実施し、fairbatchが最先端の芸術と同等(あるいはそれ以上)のパフォーマンスを達成しながら、このような機能を提供できることを示した。 さらに、FairBatchは、任意の事前訓練されたモデルの公正性を簡単に改善することができる。 また、より高速な収束など、異なる目的のために意図された既存のバッチ選択技術とも互換性がある。

Training a fair machine learning model is essential to prevent demographic disparity. Existing techniques for improving model fairness require broad changes in either data preprocessing or model training, rendering themselves difficult-to-adopt for potentially already complex machine learning systems. We address this problem via the lens of bilevel optimization. While keeping the standard training algorithm as an inner optimizer, we incorporate an outer optimizer so as to equip the inner problem with an additional functionality: Adaptively selecting minibatch sizes for the purpose of improving model fairness. Our batch selection algorithm, which we call FairBatch, implements this optimization and supports prominent fairness measures: equal opportunity, equalized odds, and demographic parity. FairBatch comes with a significant implementation benefit -- it does not require any modification to data preprocessing or model training. For instance, a single-line change of PyTorch code for replacing batch selection part of model training suffices to employ FairBatch. Our experiments conducted both on synthetic and benchmark real data demonstrate that FairBatch can provide such functionalities while achieving comparable (or even greater) performances against the state of the arts. Furthermore, FairBatch can readily improve fairness of any pre-trained model simply via fine-tuning. It is also compatible with existing batch selection techniques intended for different purposes, such as faster convergence, thus gracefully achieving multiple purposes.
翻訳日:2021-05-23 15:16:50 公開日:2020-12-03
# 再帰型マルチチェーンMDPの検証計画

Verifiable Planning in Expected Reward Multichain MDPs ( http://arxiv.org/abs/2012.02178v1 )

ライセンス: Link先を確認
George K. Atia, Andre Beckus, Ismail Alkhouri, Alvaro Velasquez(参考訳) 計画領域は意思決定政策の形式的な合成への関心が高まっている。 この形式合成は典型的には、線形時間論理(LTL)や計算木論理(CTL)など、明確に定義された論理の形で形式仕様を満たすポリシーを見つけることを必要とする。 このような論理は望ましいエージェントの振る舞いを捉える能力において非常に強力で表現力があるが、その価値は特定の種類の漸近的行動を満たす意思決定ポリシーを導出する場合に限られる。 特に,エージェントの定常的な動作に関する制約を特定することに関心を持ち,エージェントが環境と無期限に相互作用する際に各状態において費やす時間の割合をキャプチャする。 これはエージェントの平均行動や期待行動と呼ばれることもある。 本稿では,エージェントに対する意思決定方針を導出する定常的計画問題について考察し,その定常的行動に対する制約が満たされることを示す。 マルチチェーンマルコフ決定過程(MDPs)の一般事例に対する線形プログラミング解を提案し,提案プログラムの最適解が厳密な動作保証を伴う定常的ポリシーをもたらすことを証明した。

The planning domain has experienced increased interest in the formal synthesis of decision-making policies. This formal synthesis typically entails finding a policy which satisfies formal specifications in the form of some well-defined logic, such as Linear Temporal Logic (LTL) or Computation Tree Logic (CTL), among others. While such logics are very powerful and expressive in their capacity to capture desirable agent behavior, their value is limited when deriving decision-making policies which satisfy certain types of asymptotic behavior. In particular, we are interested in specifying constraints on the steady-state behavior of an agent, which captures the proportion of time an agent spends in each state as it interacts for an indefinite period of time with its environment. This is sometimes called the average or expected behavior of the agent. In this paper, we explore the steady-state planning problem of deriving a decision-making policy for an agent such that constraints on its steady-state behavior are satisfied. A linear programming solution for the general case of multichain Markov Decision Processes (MDPs) is proposed and we prove that optimal solutions to the proposed programs yield stationary policies with rigorous guarantees of behavior.
翻訳日:2021-05-23 15:16:28 公開日:2020-12-03
# ラベル保存型損失関数による信頼性モデル圧縮

Reliable Model Compression via Label-Preservation-A ware Loss Functions ( http://arxiv.org/abs/2012.01604v1 )

ライセンス: Link先を確認
Vinu Joseph, Shoaib Ahmed Siddiqui, Aditya Bhaskara, Ganesh Gopalakrishnan, Saurav Muralidharan, Michael Garland, Sheraz Ahmed, Andreas Dengel(参考訳) モデル圧縮は、パワーとレイテンシの制約のあるエッジデバイスに現代のディープラーニングのパワーをもたらす、ユビキタスなツールである。 モデル圧縮の目標は、大きな参照ニューラルネットワークを取り込み、その参照と機能的に等価な小型で安価な圧縮ネットワークを出力することである。 圧縮は通常、プルーニングと/または量子化を伴い、続いて参照精度を維持するために再トレーニングを行う。 しかし、圧縮は参照と圧縮モデルによって生成されるラベルにかなりのミスマッチをもたらし、バイアスと信頼性の低下をもたらすことが観察されている。 これに対抗するために,教師の学習パラダイムを用いてラベルをよりよく保存するフレームワークを提案する。 損失関数に対する追加項の役割を調査し,関連するパラメータを自動的にチューニングする方法を示す。 8種類の実世界のネットワークアーキテクチャを用いて,複数の圧縮スキームと精度回復アルゴリズムに対して定量的かつ定性的にアプローチの有効性を示す。 圧縮モデルと参照モデルとのミスマッチ数の最大4.1倍、参照モデルが正しい予測を行う場合の最大5.7倍の大幅な削減が得られる。

Model compression is a ubiquitous tool that brings the power of modern deep learning to edge devices with power and latency constraints. The goal of model compression is to take a large reference neural network and output a smaller and less expensive compressed network that is functionally equivalent to the reference. Compression typically involves pruning and/or quantization, followed by re-training to maintain the reference accuracy. However, it has been observed that compression can lead to a considerable mismatch in the labels produced by the reference and the compressed models, resulting in bias and unreliability. To combat this, we present a framework that uses a teacher-student learning paradigm to better preserve labels. We investigate the role of additional terms to the loss function and show how to automatically tune the associated parameters. We demonstrate the effectiveness of our approach both quantitatively and qualitatively on multiple compression schemes and accuracy recovery algorithms using a set of 8 different real-world network architectures. We obtain a significant reduction of up to 4.1X in the number of mismatches between the compressed and reference models, and up to 5.7X in cases where the reference model makes the correct prediction.
翻訳日:2021-05-23 15:16:09 公開日:2020-12-03
# NICER: ループの中の人間による美的イメージ強調

NICER: Aesthetic Image Enhancement with Humans in the Loop ( http://arxiv.org/abs/2012.01778v1 )

ライセンス: Link先を確認
Michael Fischer, Konstantin Kobs, Andreas Hotho(参考訳) 全自動または半自動画像強調ソフトウェアは、ユーザーが写真の視覚的魅力を高めるのに役立ち、手動画像編集の深い知識を必要としない。 しかし、完全に自動的なアプローチは、通常、画像をブラックボックス方式で強化するので、ユーザーは最適化プロセスを制御できなくなり、おそらく、主観的にユーザーにアピールしない編集された画像に繋がる可能性がある。 半自動的な手法は、ユーザーが創造性や明るさやコントラストなどの詳細な調整を行う能力に制限のある、事前定義された編集ステップを制御できる。 自動強調手法によってユーザの好みを取り入れることで、画像編集が簡単になり、ユーザに対する強調の焦点が増すことを論じる。 この研究は、対話的でユーザ中心の完全な半自動または完全な手動プロセスにおいて、ノン参照画像拡張に対するニューラルネットワークベースのアプローチである、Neural Image Correction & Enhancement Routine(NICER)を提案する。 NICERは画像のスタイルや内容に基づいて美的スコアを最大化するために、画像編集パラメータを反復的に調整する。 ユーザはこれらのパラメータをいつでも変更でき、最適化プロセスを望ましい方向に導くことができる。 このインタラクティブワークフローは、画像エンハンスメントタスクのためのヒューマンコンピュータインタラクションの分野における斬新さである。 ユーザスタディでは、NICERはユーザインタラクションなしで画像の美学を向上することができ、ユーザインタラクションを可能にすることによって、未編集画像よりも強く好まれる多様な改善結果が得られることを示す。 この方向のさらなる研究を促進するために、コードを公開しています。

Fully- or semi-automatic image enhancement software helps users to increase the visual appeal of photos and does not require in-depth knowledge of manual image editing. However, fully-automatic approaches usually enhance the image in a black-box manner that does not give the user any control over the optimization process, possibly leading to edited images that do not subjectively appeal to the user. Semi-automatic methods mostly allow for controlling which pre-defined editing step is taken, which restricts the users in their creativity and ability to make detailed adjustments, such as brightness or contrast. We argue that incorporating user preferences by guiding an automated enhancement method simplifies image editing and increases the enhancement's focus on the user. This work thus proposes the Neural Image Correction & Enhancement Routine (NICER), a neural network based approach to no-reference image enhancement in a fully-, semi-automatic or fully manual process that is interactive and user-centered. NICER iteratively adjusts image editing parameters in order to maximize an aesthetic score based on image style and content. Users can modify these parameters at any time and guide the optimization process towards a desired direction. This interactive workflow is a novelty in the field of human-computer interaction for image enhancement tasks. In a user study, we show that NICER can improve image aesthetics without user interaction and that allowing user interaction leads to diverse enhancement outcomes that are strongly preferred over the unedited image. We make our code publicly available to facilitate further research in this direction.
翻訳日:2021-05-23 15:15:52 公開日:2020-12-03
# sb-mtl:クロスドメイン・マイズショット学習のためのスコアベースメタトランスファー学習

SB-MTL: Score-based Meta Transfer-Learning for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2012.01784v1 )

ライセンス: Link先を確認
John Cai, Bill Cai, Sheng Mei Shen(参考訳) 多くのディープラーニング手法は、ドメイン適応と少数ショット学習の問題を個別に扱う上で大きな成功を収めてきたが、クロスドメインなFew-Shot Learning(CD-FSL)において、両方の問題に共同で取り組むことのできる方法は、はるかに少ない。 この問題は、一般的なコンピュータビジョンアプリケーションを典型化する鋭い領域シフトの下で悪化する。 本稿では,CD-FSL問題に対処する新しい,フレキシブルで効果的な手法を提案する。 我々の手法はScore-based Meta Transfer-Learning (SB-MTL) と呼ばれ、MAML最適化機能エンコーダとスコアベースグラフニューラルネットワークを用いてトランスファーラーニングとメタラーニングを組み合わせる。 まず、特定のレイヤを微調整するように設計された機能エンコーダがあります。 そこで我々は, 1次MAMLアルゴリズムを適用し, 優れた初期化を求める。 第二に、微調整後に直接分類スコアを取る代わりに、事前ソフトマックス分類スコアを計量空間にマッピングすることで、スコアを座標として解釈する。 その後、グラフニューラルネットワークを用いて、サポートセットからスコアベースのメトリック空間のクエリセットにラベル情報を伝達する。 我々は,miniimagenetソースドメインと非常に異なる異なるターゲットドメインを含む,クロスドメイン・マイズショット・ラーニング(bscd-fsl)ベンチマークの広範な研究に基づいて本モデルをテストする。 5,20,50ショット,および4つのターゲットドメインにおいて,精度の大幅な向上が観察された。 平均精度では,従来の移動学習手法を5.93%,従来のメタ学習手法を14.28%上回った。

While many deep learning methods have seen significant success in tackling the problem of domain adaptation and few-shot learning separately, far fewer methods are able to jointly tackle both problems in Cross-Domain Few-Shot Learning (CD-FSL). This problem is exacerbated under sharp domain shifts that typify common computer vision applications. In this paper, we present a novel, flexible and effective method to address the CD-FSL problem. Our method, called Score-based Meta Transfer-Learning (SB-MTL), combines transfer-learning and meta-learning by using a MAML-optimized feature encoder and a score-based Graph Neural Network. First, we have a feature encoder with specific layers designed to be fine-tuned. To do so, we apply a first-order MAML algorithm to find good initializations. Second, instead of directly taking the classification scores after fine-tuning, we interpret the scores as coordinates by mapping the pre-softmax classification scores onto a metric space. Subsequently, we apply a Graph Neural Network to propagate label information from the support set to the query set in our score-based metric space. We test our model on the Broader Study of Cross-Domain Few-Shot Learning (BSCD-FSL) benchmark, which includes a range of target domains with highly varying dissimilarity to the miniImagenet source domain. We observe significant improvements in accuracy across 5, 20 and 50 shot, and on the four target domains. In terms of average accuracy, our model outperforms previous transfer-learning methods by 5.93% and previous meta-learning methods by 14.28%.
翻訳日:2021-05-23 15:15:28 公開日:2020-12-03
# 抽象視覚推論のためのマルチラベルコントラスト学習

Multi-Label Contrastive Learning for Abstract Visual Reasoning ( http://arxiv.org/abs/2012.01944v1 )

ライセンス: Link先を確認
Miko{\l}aj Ma{\l}ki\'nski, Jacek Ma\'ndziuk(参考訳) 長い間、抽象的推論タスクを解く能力は人間の知能の目印の一つと考えられてきた。 ディープラーニング(DL)手法の適用の最近の進歩は、他の多くの領域と同様に、人間の抽象的推論性能、特に最も一般的なタイプの問題であるレイブンの進歩的行列(RPM)に勝るに至った。 DLシステムの有効性は確かに印象的だが、RPMにアプローチする方法は人間のものとは大きく異なる。 rpmを解決する最先端のシステムは、巨大なパターンベースのトレーニングに依存し、データセット内のバイアスを悪用することもあるが、人間はrpmの基盤となるルールや概念(あるいは一般的には視覚的な推論タスク)の特定に集中している。 この認知的差異によって動機づけられたこの研究は、DLと人間の方法でRPMを解き、両方の世界を最大限に活用することを目的としている。 具体的には、各RPMを多ラベルデータポイントと見なすマルチラベル分類フレームワークに、RPMの根底にある抽象ルールの集合によってラベルが決定される。 システムの効率的なトレーニングのために,マルチラベルサンプルの場合のノイズコントラスト推定アルゴリズムの一般化を提案する。 さらに,新たな学習アルゴリズムの他に,最先端の性能向上に寄与する鍵となる,rpmsのためのスパースルール符号化方式を提案する。 提案手法は,最も人気のある2つのベンチマークデータセット (balanced-raven と pgm) で評価され,いずれも現在の結果よりも優れていることを示す。 他の領域で報告される対照的な学習方法の応用とは対照的に、論文で報告されている最先端のパフォーマンスは、大きなバッチサイズや強いデータ拡張を必要としない。

For a long time the ability to solve abstract reasoning tasks was considered one of the hallmarks of human intelligence. Recent advances in application of deep learning (DL) methods led, as in many other domains, to surpassing human abstract reasoning performance, specifically in the most popular type of such problems - the Raven's Progressive Matrices (RPMs). While the efficacy of DL systems is indeed impressive, the way they approach the RPMs is very different from that of humans. State-of-the-art systems solving RPMs rely on massive pattern-based training and sometimes on exploiting biases in the dataset, whereas humans concentrate on identification of the rules / concepts underlying the RPM (or generally a visual reasoning task) to be solved. Motivated by this cognitive difference, this work aims at combining DL with human way of solving RPMs and getting the best of both worlds. Specifically, we cast the problem of solving RPMs into multi-label classification framework where each RPM is viewed as a multi-label data point, with labels determined by the set of abstract rules underlying the RPM. For efficient training of the system we introduce a generalisation of the Noise Contrastive Estimation algorithm to the case of multi-label samples. Furthermore, we propose a new sparse rule encoding scheme for RPMs which, besides the new training algorithm, is the key factor contributing to the state-of-the-art performance. The proposed approach is evaluated on two most popular benchmark datasets (Balanced-RAVEN and PGM) and on both of them demonstrates an advantage over the current state-of-the-art results. Contrary to applications of contrastive learning methods reported in other domains, the state-of-the-art performance reported in the paper is achieved with no need for large batch sizes or strong data augmentation.
翻訳日:2021-05-23 15:14:59 公開日:2020-12-03
# 新生児術後痛評価のためのマルチモーダル時空間深層学習アプローチ

Multimodal Spatio-Temporal Deep Learning Approach for Neonatal Postoperative Pain Assessment ( http://arxiv.org/abs/2012.02175v1 )

ライセンス: Link先を確認
Md Sirajus Salekin, Ghada Zamzmi, Dmitry Goldgof, Rangachar Kasturi, Thao Ho, Yu Sun(参考訳) 新生児術後の痛みを評価するための現在の実践は、ベッドサイド介護者に依存している。 この習慣は主観的で、一貫性がなく、遅く、不連続である。 信頼性の高い医学的解釈を開発するため、いくつかの自動化アプローチが提案されている。 これらのアプローチは単調であり、主に新生児手続き(acute)の痛みを評価することに焦点を当てている。 痛みはしばしば複数のモダリティを通して表されるマルチモーダル感情であるため、特に術後(急性長期)の痛みの場合、痛みのマルチモーダル評価が必要である。 さらに、時空間解析は時間とともに安定であり、誤分類誤りを最小化するのに非常に有効であることが証明されている。 本稿では,視覚と声の信号を統合し,新生児の術後痛の評価に利用するマルチモーダル時空間アプローチを提案する。 提案手法の有効性を検討するため,総合的な実験を行った。 マルチモーダルとユニモーダルの術後痛覚評価の性能を比較し,時間的情報統合の効果を測定した。 実世界のデータセットを用いた実験の結果、提案されたマルチモーダル時空間アプローチは、平均6.67%と6.33%の高いAUC(0.87)と精度(79%)を達成することが示された。 また, 時間的情報の統合は, 痛みのダイナミックな変化を捉えた非時間的アプローチと比較して, パフォーマンスを著しく改善することを示した。 以上の結果から,本手法は手作業による評価の代替として有用であり,臨床現場,ポイント・オブ・ケア・テスト,在宅における痛みモニタリングの完全自動化への道が開ける可能性が示唆された。

The current practice for assessing neonatal postoperative pain relies on bedside caregivers. This practice is subjective, inconsistent, slow, and discontinuous. To develop a reliable medical interpretation, several automated approaches have been proposed to enhance the current practice. These approaches are unimodal and focus mainly on assessing neonatal procedural (acute) pain. As pain is a multimodal emotion that is often expressed through multiple modalities, the multimodal assessment of pain is necessary especially in case of postoperative (acute prolonged) pain. Additionally, spatio-temporal analysis is more stable over time and has been proven to be highly effective at minimizing misclassification errors. In this paper, we present a novel multimodal spatio-temporal approach that integrates visual and vocal signals and uses them for assessing neonatal postoperative pain. We conduct comprehensive experiments to investigate the effectiveness of the proposed approach. We compare the performance of the multimodal and unimodal postoperative pain assessment, and measure the impact of temporal information integration. The experimental results, on a real-world dataset, show that the proposed multimodal spatio-temporal approach achieves the highest AUC (0.87) and accuracy (79%), which are on average 6.67% and 6.33% higher than unimodal approaches. The results also show that the integration of temporal information markedly improves the performance as compared to the non-temporal approach as it captures changes in the pain dynamic. These results demonstrate that the proposed approach can be used as a viable alternative to manual assessment, which would tread a path toward fully automated pain monitoring in clinical settings, point-of-care testing, and homes.
翻訳日:2021-05-23 15:14:16 公開日:2020-12-03
# 活性化解析による深部神経分類器の予測

Explaining Predictions of Deep Neural Classifier via Activation Analysis ( http://arxiv.org/abs/2012.02248v1 )

ライセンス: Link先を確認
Martin Stano, Wanda Benesova, Lukas Samuel Martak(参考訳) 多くの実用的な応用において、ディープニューラルネットワークはブラックボックス予測器として運用されるのが一般的である。 解釈可能性への高い取り組みとこれらのシステムの信頼性への高い要求にもかかわらず、彼らは通常、決定を検証し、予測不能な失敗と予期せぬコーナーケースを処理するために、ループに人間のアクターを含める必要がある。 これは特に、医療診断のような障害クリティカルなアプリケーションドメインに当てはまる。 本稿では,畳み込みニューラルネットワーク(CNN)に基づくディープラーニングシステムを実行する人間専門家に対して,意思決定プロセスの説明と支援を行う新しいアプローチを提案する。 ガウス混合モデル(GMM)を介して訓練されたCNNの層上でのアクティベーション統計をモデル化することにより、入力サンプルがどのようにCNNによって処理されるかを記述するバイナリベクトル空間における新しい知覚コードを開発する。 この知覚的符号化空間におけるサンプルのペア間距離を測定することで、任意の新しい入力サンプルに対して、ラベル付きサンプルの既存のアトラスから最も知覚的に類似した異種サンプルの集合を検索し、CNNモデルによる決定を支持し、明確化することができる。 このアプローチの考えられる用途には、例えば、磁気共鳴画像(mri)やctスキャンなどの医療画像データを扱うコンピュータ支援診断(cad)システムなどがある。 患者診断のための医用画像領域における本手法の有効性を, 類似した真理領域の例(例)を用いた意思決定方法として示す。 既存の診断アーカイブから)は、手術中の医療関係者によって解釈される。 以上の結果から,本手法は既存のアトラスから最も類似した予測を識別できる別個の予測戦略を検出することができることが示された。

In many practical applications, deep neural networks have been typically deployed to operate as a black box predictor. Despite the high amount of work on interpretability and high demand on the reliability of these systems, they typically still have to include a human actor in the loop, to validate the decisions and handle unpredictable failures and unexpected corner cases. This is true in particular for failure-critical application domains, such as medical diagnosis. We present a novel approach to explain and support an interpretation of the decision-making process to a human expert operating a deep learning system based on Convolutional Neural Network (CNN). By modeling activation statistics on selected layers of a trained CNN via Gaussian Mixture Models (GMM), we develop a novel perceptual code in binary vector space that describes how the input sample is processed by the CNN. By measuring distances between pairs of samples in this perceptual encoding space, for any new input sample, we can now retrieve a set of most perceptually similar and dissimilar samples from an existing atlas of labeled samples, to support and clarify the decision made by the CNN model. Possible uses of this approach include for example Computer-Aided Diagnosis (CAD) systems working with medical imaging data, such as Magnetic Resonance Imaging (MRI) or Computed Tomography (CT) scans. We demonstrate the viability of our method in the domain of medical imaging for patient condition diagnosis, as the proposed decision explanation method via similar ground truth domain examples (e.g. from existing diagnosis archives) will be interpretable by the operating medical personnel. Our results indicate that our method is capable of detecting distinct prediction strategies that enable us to identify the most similar predictions from an existing atlas.
翻訳日:2021-05-23 15:13:52 公開日:2020-12-03
# 意味解析とニューロシンボリック推論を用いた知識ベースからの質問応答

Question Answering over Knowledge Bases by Leveraging Semantic Parsing and Neuro-Symbolic Reasoning ( http://arxiv.org/abs/2012.01707v1 )

ライセンス: Link先を確認
Pavan Kapanipathi, Ibrahim Abdelaziz, Srinivas Ravishankar, Salim Roukos, Alexander Gray, Ramon Astudillo, Maria Chang, Cristina Cornelio, Saswati Dana, Achille Fokoue, Dinesh Garg, Alfio Gliozzo, Sairam Gurajada, Hima Karanam, Naweed Khan, Dinesh Khandelwal, Young-Suk Lee, Yunyao Li, Francois Luus, Ndivhuwo Makondo, Nandana Mihindukulasooriya, Tahira Naseem, Sumit Neelam, Lucian Popa, Revanth Reddy, Ryan Riegel, Gaetano Rossiello, Udit Sharma, G P Shrivatsa Bhargav, Mo Yu(参考訳) 知識ベース質問応答(KBQA)は自然言語処理において重要な課題である。 既存のアプローチは、複雑な質問理解、推論の必要性、大規模なトレーニングデータセットの欠如など、重要な課題に直面している。 In this work, we propose a semantic parsing and reasoning-based Neuro-Symbolic Question Answering(NSQA) system, that leverages (1) Abstract Meaning Representation (AMR) parses for task-independent question under-standing; (2) a novel path-based approach to transform AMR parses into candidate logical queries that are aligned to the KB; (3) a neuro-symbolic reasoner called Logical Neural Net-work (LNN) that executes logical queries and reasons over KB facts to provide an answer; (4) system of systems approach,which integrates multiple, reusable modules that are trained specifically for their individual tasks (e.g. セマンティック解析、エンティティリンク、リレーションシップリンク)は、エンドツーエンドのトレーニングデータを必要としない。 NSQAはQALD-9とLC-QuAD 1.0で最先端のパフォーマンスを実現する。 NSQAの新規性はモジュラー・ニューロシンボリック・アーキテクチャと自然言語の問題を解釈するためのタスク・ジェネリック・アプローチにある。

Knowledge base question answering (KBQA) is an important task in Natural Language Processing. Existing approaches face significant challenges including complex question understanding, necessity for reasoning, and lack of large training datasets. In this work, we propose a semantic parsing and reasoning-based Neuro-Symbolic Question Answering(NSQA) system, that leverages (1) Abstract Meaning Representation (AMR) parses for task-independent question under-standing; (2) a novel path-based approach to transform AMR parses into candidate logical queries that are aligned to the KB; (3) a neuro-symbolic reasoner called Logical Neural Net-work (LNN) that executes logical queries and reasons over KB facts to provide an answer; (4) system of systems approach,which integrates multiple, reusable modules that are trained specifically for their individual tasks (e.g. semantic parsing,entity linking, and relationship linking) and do not require end-to-end training data. NSQA achieves state-of-the-art performance on QALD-9 and LC-QuAD 1.0. NSQA's novelty lies in its modular neuro-symbolic architecture and its task-general approach to interpreting natural language questions.
翻訳日:2021-05-23 15:13:23 公開日:2020-12-03
# bengali abstractive news summarization(bans: a neural attention approach)

Bengali Abstractive News Summarization(BANS): A Neural Attention Approach ( http://arxiv.org/abs/2012.01747v1 )

ライセンス: Link先を確認
Prithwiraj Bhattacharjee, Avi Mallick, Md Saiful Islam, Marium-E-Jannat(参考訳) 抽象要約は、文脈を維持しつつ、原文文書から抽出された情報に基づいて、新規な文を生成する過程である。 抽象的要約の根底にある複雑さのため、過去の研究のほとんどは抽出的要約アプローチで行われている。 それでも、Sequence-to-Sequence (seq2seq)モデルの勝利により、抽象的な要約がより可能になる。 英語では抽象的な要約に基づく顕著な研究が数多く行われているが、ベンガルの抽象的なニュース要約(BANS)についての研究はいくつかしか行われていない。 本稿では,エンコーダデコーダに着目したSeq2seqベースのLong Short-Term Memory(LSTM)ネットワークモデルを提案する。 提案システムでは,原文の有意な情報と,明快で人文的な文を含む長い単語列を生成する,局所的注意に基づくモデルを構築した。 我々はまた、現在ベンガルのニュース文書要約の最も広範なデータセットであるbangla.bdnews24.com1 から収集された19k以上の記事とそれに対応する人文要約のデータセットを作成し、Kaggle2で公開しました。 モデルを質的・定量的に評価し,他の論文と比較した。 BANSに対する最先端アプローチによる人的評価スコアの大幅な改善が見られた。

Abstractive summarization is the process of generating novel sentences based on the information extracted from the original text document while retaining the context. Due to abstractive summarization's underlying complexities, most of the past research work has been done on the extractive summarization approach. Nevertheless, with the triumph of the sequence-to-sequence (seq2seq) model, abstractive summarization becomes more viable. Although a significant number of notable research has been done in the English language based on abstractive summarization, only a couple of works have been done on Bengali abstractive news summarization (BANS). In this article, we presented a seq2seq based Long Short-Term Memory (LSTM) network model with attention at encoder-decoder. Our proposed system deploys a local attention-based model that produces a long sequence of words with lucid and human-like generated sentences with noteworthy information of the original document. We also prepared a dataset of more than 19k articles and corresponding human-written summaries collected from bangla.bdnews24.com1 which is till now the most extensive dataset for Bengali news document summarization and publicly published in Kaggle2. We evaluated our model qualitatively and quantitatively and compared it with other published results. It showed significant improvement in terms of human evaluation scores with state-of-the-art approaches for BANS.
翻訳日:2021-05-23 15:13:04 公開日:2020-12-03
# BERT-hLSTMs:ビジュアルストーリーテリングのためのBERTと階層LSTMs

BERT-hLSTMs: BERT and Hierarchical LSTMs for Visual Storytelling ( http://arxiv.org/abs/2012.02128v1 )

ライセンス: Link先を確認
Jing Su, Qingyun Dai, Frank Guerin, Mian Zhou(参考訳) ビジュアルストーリーテリングは創造的で困難なタスクであり、一連の画像のストーリーのような記述を自動的に生成することを目的としている。 従来のビジュアルストーリーテリング手法による記述は、単語レベルのシーケンス生成手法を用いており、文レベルの依存性を適切に考慮していないため、コヒーレンスを欠いている。 そこで本研究では,文レベルと単語レベルのセマンティクスを別々にモデル化する階層的ビジュアルストーリーテリングフレームワークを提案する。 文や単語の埋め込みを得るためにトランスフォーマティブベースのbertを使用する。 次に,下位LSTMはBERTから文ベクトル表現を入力として受信し,画像に対応する文間の依存関係を学習し,上位LSTMは下位LSTMから入力を受けて対応する単語ベクトル表現を生成する。 実験結果から,我々のモデルはBLEUとCIDErの自動評価基準において,最も密接なベースラインよりも優れており,人的評価による手法の有効性も示された。

Visual storytelling is a creative and challenging task, aiming to automatically generate a story-like description for a sequence of images. The descriptions generated by previous visual storytelling approaches lack coherence because they use word-level sequence generation methods and do not adequately consider sentence-level dependencies. To tackle this problem, we propose a novel hierarchical visual storytelling framework which separately models sentence-level and word-level semantics. We use the transformer-based BERT to obtain embeddings for sentences and words. We then employ a hierarchical LSTM network: the bottom LSTM receives as input the sentence vector representation from BERT, to learn the dependencies between the sentences corresponding to images, and the top LSTM is responsible for generating the corresponding word vector representations, taking input from the bottom LSTM. Experimental results demonstrate that our model outperforms most closely related baselines under automatic evaluation metrics BLEU and CIDEr, and also show the effectiveness of our method with human evaluation.
翻訳日:2021-05-23 15:12:46 公開日:2020-12-03
# 3D-NVS: 次のビュー選択のための3Dスーパービジョンアプローチ

3D-NVS: A 3D Supervision Approach for Next View Selection ( http://arxiv.org/abs/2012.01743v1 )

ライセンス: Link先を確認
Kumar Ashutosh, Saurabh Kumar, Subhasis Chaudhuri(参考訳) そこで本研究では,次の最良視点選択のための分類に基づく手法を提案する。 提案手法はエンドツーエンドのトレーニングが可能で,受動的に取得した2次元ビューを用いて,最高の3次元再構成品質を実現することを目的としている。 提案モデルは2つの段階から構成される: 分類器と再構成器ネットワークは, 地中真理ボクセルからの間接的な3D監視を通して共同で訓練される。 テスト中,提案手法は,次のベストビューを選択するための基礎となる3次元形状の事前知識を前提としない。 合成画像と実画像の詳細な実験により,提案手法の有効性を実証し,既存の3D再構成技術や次の最良のビュー予測技術よりも優れた再現性を実現する方法を示す。

We present a classification based approach for the next best view selection and show how we can plausibly obtain a supervisory signal for this task. The proposed approach is end-to-end trainable and aims to get the best possible 3D reconstruction quality with a pair of passively acquired 2D views. The proposed model consists of two stages: a classifier and a reconstructor network trained jointly via the indirect 3D supervision from ground truth voxels. While testing, the proposed method assumes no prior knowledge of the underlying 3D shape for selecting the next best view. We demonstrate the proposed method's effectiveness via detailed experiments on synthetic and real images and show how it provides improved reconstruction quality than the existing state of the art 3D reconstruction and the next best view prediction techniques.
翻訳日:2021-05-23 15:12:04 公開日:2020-12-03
# マルチモーダル年代関連黄斑変性分類のための2ストリームCNN学習

Learning Two-Stream CNN for Multi-Modal Age-related Macular Degeneration Categorization ( http://arxiv.org/abs/2012.01879v1 )

ライセンス: Link先を確認
Weisen Wang, Xirong Li, Zhiyan Xu, Weihong Yu, Jianchun Zhao, Dayong Ding, Youxin Chen(参考訳) 本稿では50歳以上の男性に共通する黄斑疾患である老化関連黄斑変性症(AMD)の自動分類に取り組む。 これまでの研究は主に、単モード入力によるamdの分類に焦点を当てており、カラーベースイメージやoctイメージとしていた。 対照的に,多モード入力によるAMD分類は臨床的に有意だがほとんど探索されていない方向である。 従来の特徴抽出と協調最適化ができない分類器トレーニングを取り入れた手法とは対照的に,我々はエンドツーエンドのマルチモーダル畳み込みニューラルネットワーク(MM-CNN)を選択する。 MM-CNNは2ストリームCNNでインスタンス化され,空間的不変な融合により基礎とCTストリームからの情報を組み合わせる。 最終的な予測に対する個々のモダリティの寄与を視覚的に解釈するために,クラスアクティベーションマッピング(CAM)手法をマルチモーダルシナリオに拡張する。 MM-CNNの効果的な訓練のために,2つのデータ拡張手法を開発した。 ひとつは、高分解能画像から画像への変換 GAN の条件入力として CAM を用いた GAN-based fundus / OCT 画像合成である。 もう1つの方法はルースペアリング(Loose Pairing)であり、眼の身元ではなく、クラスに基づいて基礎画像とCT画像をペアリングする。 1,099個の異なる眼から得られた1,099色眼底画像と1,290 oct画像からなる臨床データセットを用いた実験により,マルチモーダルamd分類法の有効性が検証された。

This paper tackles automated categorization of Age-related Macular Degeneration (AMD), a common macular disease among people over 50. Previous research efforts mainly focus on AMD categorization with a single-modal input, let it be a color fundus image or an OCT image. By contrast, we consider AMD categorization given a multi-modal input, a direction that is clinically meaningful yet mostly unexplored. Contrary to the prior art that takes a traditional approach of feature extraction plus classifier training that cannot be jointly optimized, we opt for end-to-end multi-modal Convolutional Neural Networks (MM-CNN). Our MM-CNN is instantiated by a two-stream CNN, with spatially-invariant fusion to combine information from the fundus and OCT streams. In order to visually interpret the contribution of the individual modalities to the final prediction, we extend the class activation mapping (CAM) technique to the multi-modal scenario. For effective training of MM-CNN, we develop two data augmentation methods. One is GAN-based fundus / OCT image synthesis, with our novel use of CAMs as conditional input of a high-resolution image-to-image translation GAN. The other method is Loose Pairing, which pairs a fundus image and an OCT image on the basis of their classes instead of eye identities. Experiments on a clinical dataset consisting of 1,099 color fundus images and 1,290 OCT images acquired from 1,099 distinct eyes verify the effectiveness of the proposed solution for multi-modal AMD categorization.
翻訳日:2021-05-23 15:11:52 公開日:2020-12-03
# CUT:コントロール可能な教師なしテキストの簡略化

CUT: Controllable Unsupervised Text Simplification ( http://arxiv.org/abs/2012.01936v1 )

ライセンス: Link先を確認
Oleg Kariuk and Dima Karamshuk(参考訳) 本稿では,教師なしの設定で制御可能なテキスト簡易化を学ぶことの課題に焦点を当てる。 従来,教師なし学習アルゴリズムではこの問題が議論されてきたが,教師なし手法の類似性に関する文献は乏しい。 生成したテキストの出力複雑性を制御するための2つの教師なしメカニズム,すなわち,制御トークンを用いた逆変換(学習ベースアプローチ)と簡易ビームサーチ(復号ベースアプローチ)を提案する。 このアルゴリズムは,テキストのノイズ翻訳と比較して,テキストの相対的単純さを理解するために,バック翻訳アルゴリズムをヌードすることにより,所望の複雑さの出力を生成する。 SARIスコアは46.88%、FKGLは3.65%、Newselaデータセットは3.65%である。

In this paper, we focus on the challenge of learning controllable text simplifications in unsupervised settings. While this problem has been previously discussed for supervised learning algorithms, the literature on the analogies in unsupervised methods is scarse. We propose two unsupervised mechanisms for controlling the output complexity of the generated texts, namely, back translation with control tokens (a learning-based approach) and simplicity-aware beam search (decoding-based approach). We show that by nudging a back-translation algorithm to understand the relative simplicity of a text in comparison to its noisy translation, the algorithm self-supervises itself to produce the output of the desired complexity. This approach achieves competitive performance on well-established benchmarks: SARI score of 46.88% and FKGL of 3.65% on the Newsela dataset.
翻訳日:2021-05-23 15:11:24 公開日:2020-12-03
# GottBERT: 純粋なドイツ語モデル

GottBERT: a pure German Language Model ( http://arxiv.org/abs/2012.02110v1 )

ライセンス: Link先を確認
Raphael Scheible, Fabian Thomczyk, Patric Tippmann, Victor Jaravine, Martin Boeker(参考訳) 近年、訓練済みの言語モデルは自然言語処理(NLP)の分野で進歩している。 変換器用双方向エンコーダ(BERT)と最適化されたバージョンRoBERTaの導入は、事前訓練されたモデルの関連性を高めた。 まず、この分野の研究は英語データから始められ、その後多言語テキストコーパスで訓練されたモデルが続いた。 しかし、最近の研究では、多言語モデルは単言語モデルよりも劣っていることが示されている。 現在、ドイツの単一言語RoBERTaモデルはまだ公開されておらず、GottBERT(source)で紹介する。 OSCARデータセットのドイツ語部分はテキストコーパスとして使用された。 評価では、名前付きエンティティ認識(NER)タスクのConll 2003 と GermEval 2014 と、GermEval 2018 (微細で粗い) と GNAD のテキスト分類タスクと、既存のドイツの単一言語 BERT モデルと2つの多言語タスクのパフォーマンスを比較した。 GottBERTは、Fairseqを使用してオリジナルのRoBERTaモデルに関連して事前訓練された。 下流の全てのタスクは、ドイツのBERTのベンチマークから得られたハイパーパラメータプリセットを使用して訓練された。 実験は農場を利用して行われた。 パフォーマンスは$f_{1}$スコアで測定された。 GottBERTはRoBERTa BASEアーキテクチャを使って256コアのTPUポッドで事前訓練に成功した。 大規模なハイパーパラメータ最適化がなくても、すべてのNERと1つのテキスト分類タスクにおいて、GottBERTはテスト済みの他のドイツおよび多言語モデルよりも優れていた。 ドイツのNLP分野をサポートするため、我々はGottBERTをAGPLv3ライセンス下で公開する。

Lately, pre-trained language models advanced the field of natural language processing (NLP). The introduction of Bidirectional Encoders for Transformers (BERT) and its optimized version RoBERTa have had significant impact and increased the relevance of pre-trained models. First, research in this field mainly started on English data followed by models trained with multilingual text corpora. However, current research shows that multilingual models are inferior to monolingual models. Currently, no German single language RoBERTa model is yet published, which we introduce in this work (GottBERT). The German portion of the OSCAR data set was used as text corpus. In an evaluation we compare its performance on the two Named Entity Recognition (NER) tasks Conll 2003 and GermEval 2014 as well as on the text classification tasks GermEval 2018 (fine and coarse) and GNAD with existing German single language BERT models and two multilingual ones. GottBERT was pre-trained related to the original RoBERTa model using fairseq. All downstream tasks were trained using hyperparameter presets taken from the benchmark of German BERT. The experiments were setup utilizing FARM. Performance was measured by the $F_{1}$ score. GottBERT was successfully pre-trained on a 256 core TPU pod using the RoBERTa BASE architecture. Even without extensive hyper-parameter optimization, in all NER and one text classification task, GottBERT already outperformed all other tested German and multilingual models. In order to support the German NLP field, we publish GottBERT under the AGPLv3 license.
翻訳日:2021-05-23 15:11:07 公開日:2020-12-03
# 不完全なターゲットドメインによるドメイン適応

Domain Adaptation with Incomplete Target Domains ( http://arxiv.org/abs/2012.01606v1 )

ライセンス: Link先を確認
Zhenpeng Li, Jianan Jiang, Yuhong Guo, Tiantian Tang, Chengxiang Zhuo, Jieping Ye(参考訳) ドメイン適応は、既存のラベル付きデータを補助ソースドメインに活用することにより、対象ドメインのアノテーションコストを低減させるタスクとして、研究コミュニティで注目されている。 しかし、標準的なドメイン適応は両方のドメインで完全に観測されたデータを想定しているが、現実のアプリケーションでは欠落データの存在が一般的である。 本稿では、部分的に観測されたデータを持つ不完全なターゲットドメインを持つドメイン適応シナリオに挑戦する。 本稿では、この新たなドメイン適応問題に対処するために、不完全データインプットに基づく Adversarial Network (IDIAN) モデルを提案する。 提案するモデルでは,対象領域における部分的観測に基づいて欠落する特徴値を満たすためのデータインプテーションモジュールを設計し,その2つの領域を深い逆適応によって整合させる。 我々は、クロスドメインベンチマークタスクと、不完全なターゲットドメインを用いた実世界適応タスクの両方で実験を行う。 実験の結果,提案手法の有効性が示された。

Domain adaptation, as a task of reducing the annotation cost in a target domain by exploiting the existing labeled data in an auxiliary source domain, has received a lot of attention in the research community. However, the standard domain adaptation has assumed perfectly observed data in both domains, while in real world applications the existence of missing data can be prevalent. In this paper, we tackle a more challenging domain adaptation scenario where one has an incomplete target domain with partially observed data. We propose an Incomplete Data Imputation based Adversarial Network (IDIAN) model to address this new domain adaptation challenge. In the proposed model, we design a data imputation module to fill the missing feature values based on the partial observations in the target domain, while aligning the two domains via deep adversarial adaption. We conduct experiments on both cross-domain benchmark tasks and a real world adaptation task with imperfect target domains. The experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2021-05-23 15:10:43 公開日:2020-12-03
# DeepCrawl: ターンベースの戦略ゲームのための深層強化学習

DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games ( http://arxiv.org/abs/2012.01914v1 )

ライセンス: Link先を確認
Alessandro Sestini, Alexander Kuhnle and Andrew D. Bagdanov(参考訳) 本稿では,すべてのエージェントが,deep reinforcement learning(drl)を用いてトレーニングされたポリシネットワークによって制御される,iosおよびandroid用のフルプレイ可能なrogueライクなプロトタイプであるdeepcrawlを紹介する。 本研究の目的は、DRLの最近の進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効かどうかを理解することである。 まず,ゲーム開発に効果的に適用するために,このようなaiシステムが満足すべき要件を分析し,deepcrawlプロトタイプで使用されるdrlモデルの要素を同定する。 DeepCrawlの成功と限界は、最終ゲームで行われた一連のプレイ容易性テストを通じて文書化されている。 私たちが提案する技術は、ビデオゲームにおける非プレイヤーキャラクターの行動発達のための革新的な新しい道の洞察を与えてくれると信じている。

In this paper we introduce DeepCrawl, a fully-playable Roguelike prototype for iOS and Android in which all agents are controlled by policy networks trained using Deep Reinforcement Learning (DRL). Our aim is to understand whether recent advances in DRL can be used to develop convincing behavioral models for non-player characters in videogames. We begin with an analysis of requirements that such an AI system should satisfy in order to be practically applicable in video game development, and identify the elements of the DRL model used in the DeepCrawl prototype. The successes and limitations of DeepCrawl are documented through a series of playability tests performed on the final game. We believe that the techniques we propose offer insight into innovative new avenues for the development of behaviors for non-player characters in video games, as they offer the potential to overcome critical issues with
翻訳日:2021-05-23 15:10:15 公開日:2020-12-03
# 機械学習アルゴリズムの予測可能性を高める新しいインデックスベース多次元データ構成モデル

A Novel index-based multidimensional data organization model that enhances the predictability of the machine learning algorithms ( http://arxiv.org/abs/2012.02007v1 )

ライセンス: Link先を確認
Mahbubur Rahman(参考訳) 多次元データから学ぶことは、機械学習の分野で興味深い概念である。 しかし、そのような学習は、高価なデータ処理、次元数の増加に伴う操作のため、困難、複雑、高価である。 その結果、順序付きデータセットは順序なしデータよりも簡単かつ効率的なアクセスを提供するため、順序付きインデックスベースのデータ組織モデルを導入し、最終的には学習を改善することができる。 順序付けは、多次元データセットを縮小空間にマッピングし、学習に関連する情報を効率的に取り出すことができるようにする。 このような多次元データストレージは、教師なしと教師なしの両方の機械学習アルゴリズムの予測可能性を高めることができる。

Learning from the multidimensional data has been an interesting concept in the field of machine learning. However, such learning can be difficult, complex, expensive because of expensive data processing, manipulations as the number of dimension increases. As a result, we have introduced an ordered index-based data organization model as the ordered data set provides easy and efficient access than the unordered one and finally, such organization can improve the learning. The ordering maps the multidimensional dataset in the reduced space and ensures that the information associated with the learning can be retrieved back and forth efficiently. We have found that such multidimensional data storage can enhance the predictability for both the unsupervised and supervised machine learning algorithms.
翻訳日:2021-05-23 15:10:01 公開日:2020-12-03
# 深層学習の創造性:概念化と評価

Creativity of Deep Learning: Conceptualization and Assessment ( http://arxiv.org/abs/2012.02282v1 )

ライセンス: Link先を確認
Johannes Schneider and Marcus Basalla(参考訳) 簡単なタスクを自動化するためのディープラーニング(DL)の可能性はすでによく研究されているが、最近の研究は、完全な人工物作成と創造プロセスにおける人のサポートの両方のために、Deep Learningを用いた創造的デザインの研究を開始した。 本稿では,文献レビューで特定された創造的領域における生成的深層学習の現在の応用を概念化し,評価するために,計算的創造性からの洞察を用いる。 我々は、現在のシステムと人間の創造性の異なるモデルとそれらの欠点の類似点を強調している。 ディープラーニングは高品質画像などの高価値な結果をもたらすが、トレーニングデータや人間によって定義された概念空間に結びつくという複数の理由から、その新しさは一般的に制限される。 現在のDL法では、内部の問題表現の変更も許可されておらず、どちらも人間の創造性の主要な要因と見なされる、非常に異なるドメイン間の接続を識別する能力が欠如している。

While the potential of deep learning(DL) for automating simple tasks is already well explored, recent research started investigating the use of deep learning for creative design, both for complete artifact creation and supporting humans in the creation process. In this paper, we use insights from computational creativity to conceptualize and assess current applications of generative deep learning in creative domains identified in a literature review. We highlight parallels between current systems and different models of human creativity as well as their shortcomings. While deep learning yields results of high value, such as high quality images, their novelity is typically limited due to multiple reasons such a being tied to a conceptual space defined by training data and humans. Current DL methods also do not allow for changes in the internal problem representation and they lack the capability to identify connections across highly different domains, both of which are seen as major drivers of human creativity.
翻訳日:2021-05-23 15:09:48 公開日:2020-12-03
# 線形回帰モデルのためのオンライン忘れるプロセス

Online Forgetting Process for Linear Regression Models ( http://arxiv.org/abs/2012.01668v1 )

ライセンス: Link先を確認
Yuantong Li, Chi-hua Wang, Guang Cheng(参考訳) EUの“Right To Be Forgotten”規制により、ユーザのデータが限られた期間のみアクセス可能な統計的データ削除問題の研究を開始します。 この設定は、オンライン教師付き学習タスクとして \textit{constant memory limit} で定式化される。 低次元の場合、削除認識アルゴリズム \texttt{fifd-ols} を提案し、データ削除操作による壊滅的なランク振れ現象を目撃し、統計的に非効率となる。 本稿では,新しいオンライン正規化手法を用いて,削除の不確実性を効果的に相殺する「texttt{FIFD-Adaptive Ridge}」アルゴリズムを提案する。 理論的には、両オンライン忘れアルゴリズムの累積的後悔上限を提供する。 実験では, {\displaystyle \texttt{FIFD-Adaptive Ridge} が一定の正規化レベルでリッジ回帰アルゴリズムより優れており,より複雑な統計モデルに光を当てることが期待できる。

Motivated by the EU's "Right To Be Forgotten" regulation, we initiate a study of statistical data deletion problems where users' data are accessible only for a limited period of time. This setting is formulated as an online supervised learning task with \textit{constant memory limit}. We propose a deletion-aware algorithm \texttt{FIFD-OLS} for the low dimensional case, and witness a catastrophic rank swinging phenomenon due to the data deletion operation, which leads to statistical inefficiency. As a remedy, we propose the \texttt{FIFD-Adaptive Ridge} algorithm with a novel online regularization scheme, that effectively offsets the uncertainty from deletion. In theory, we provide the cumulative regret upper bound for both online forgetting algorithms. In the experiment, we showed \texttt{FIFD-Adaptive Ridge} outperforms the ridge regression algorithm with fixed regularization level, and hopefully sheds some light on more complex statistical models.
翻訳日:2021-05-23 15:09:33 公開日:2020-12-03
# dynamicsによるオンライン学習:minimaxパースペクティブ

Online learning with dynamics: A minimax perspective ( http://arxiv.org/abs/2012.01705v1 )

ライセンス: Link先を確認
Kush Bhatia, Karthik Sridharan(参考訳) 本研究では,複数ラウンドにわたって学習者がステートフルな環境と対話するダイナミクスを用いたオンライン学習の課題について検討する。 インタラクションの各ラウンドで、学習者は、選択されたポリシーと世界の現在の状態の両方に依存するコストを発生させるポリシーを選択します。 状態進化のダイナミクスとコストは、おそらく敵対的な方法で、時間変化が許される。 本稿では,政策後悔の最小化の問題について検討し,その問題に対するミニマックスレートの非建設的上限を与える。 本研究の主な成果は,オンライン学習能力に十分な条件を提供することである。 このレートは,1)状態変化のダイナミクスの下で,基礎となる政策クラスの表現性を捉える複雑性項と,2)ある対物的損失からの即時損失の偏差を測定する動的安定項とを特徴とする。 さらに、両方の複雑性項が本当に必要であることを示す、一致する下限を提供する。 提案手法は,メモリを用いたオンライン学習,線形二次規制のオンライン制御,オンラインマルコフ決定プロセス,敵対的目標の追跡など,よく研究されている問題に対する後悔を回復する一元的分析を提供する。 さらに,新たな問題(非線形ダイナミクスと非凸損失)に対する厳密な後悔の限界を得る上で,我々のツールがどのように役立つかを示す。

We study the problem of online learning with dynamics, where a learner interacts with a stateful environment over multiple rounds. In each round of the interaction, the learner selects a policy to deploy and incurs a cost that depends on both the chosen policy and current state of the world. The state-evolution dynamics and the costs are allowed to be time-varying, in a possibly adversarial way. In this setting, we study the problem of minimizing policy regret and provide non-constructive upper bounds on the minimax rate for the problem. Our main results provide sufficient conditions for online learnability for this setup with corresponding rates. The rates are characterized by 1) a complexity term capturing the expressiveness of the underlying policy class under the dynamics of state change, and 2) a dynamics stability term measuring the deviation of the instantaneous loss from a certain counterfactual loss. Further, we provide matching lower bounds which show that both the complexity terms are indeed necessary. Our approach provides a unifying analysis that recovers regret bounds for several well studied problems including online learning with memory, online control of linear quadratic regulators, online Markov decision processes, and tracking adversarial targets. In addition, we show how our tools help obtain tight regret bounds for a new problems (with non-linear dynamics and non-convex losses) for which such bounds were not known prior to our work.
翻訳日:2021-05-23 15:09:17 公開日:2020-12-03
# 深部表現と浅部探索によるニューラルコンテクスト帯域

Neural Contextual Bandits with Deep Representation and Shallow Exploration ( http://arxiv.org/abs/2012.01780v1 )

ライセンス: Link先を確認
Pan Xu and Zheng Wen and Handong Zhao and Quanquan Gu(参考訳) 本研究では,各コンテキスト・アクション・ペアが生の特徴ベクトルに関連付けられているが,報酬生成関数は未知である。 本稿では,deep reluニューラルネットワークの最後の隠れ層(deep representation learning)を用いて生特徴ベクトルを変換し,uper confidence bound(ucb)アプローチを用いて最後の線形層を探索する新しい学習アルゴリズムを提案する。 標準的な仮定の下では、提案アルゴリズムは学習時間の地平線として$\tilde{O}(\sqrt{T})$ finite-time regret(英語版)を達成する。 既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。

We study a general class of contextual bandits, where each context-action pair is associated with a raw feature vector, but the reward generating function is unknown. We propose a novel learning algorithm that transforms the raw feature vector using the last hidden layer of a deep ReLU neural network (deep representation learning), and uses an upper confidence bound (UCB) approach to explore in the last linear layer (shallow exploration). We prove that under standard assumptions, our proposed algorithm achieves $\tilde{O}(\sqrt{T})$ finite-time regret, where $T$ is the learning time horizon. Compared with existing neural contextual bandit algorithms, our approach is computationally much more efficient since it only needs to explore in the last layer of the deep neural network.
翻訳日:2021-05-23 15:08:30 公開日:2020-12-03
# 可積分非パラメトリック流れ

Integrable Nonparametric Flows ( http://arxiv.org/abs/2012.02035v1 )

ライセンス: Link先を確認
David Pfau, Danilo Rezende(参考訳) 無限小正規化フローを(多分非正規化の)確率分布への無限小変化のみによって再構成する方法を提案する。 これは、未知のターゲット分布からサンプルが与えられるのではなく、その分布を近似するフローを学ぶという従来のタスクを逆転させ、初期分布に摂動を与え、既知の摂動分布からサンプルを生成するフローを再構築することを目的としている。 これは未決定の問題であるが、積分可能ベクトル場としての流れを選択すると静電気と密接に関連する解が得られ、解はグリーン関数の方法によって計算できる。 従来の正規化フローとは異なり、このフローは完全に非パラメトリックな方法で表現できる。 この導出を低次元問題に適用し,量子モンテカルロ問題と機械学習の潜在的な応用について議論する。

We introduce a method for reconstructing an infinitesimal normalizing flow given only an infinitesimal change to a (possibly unnormalized) probability distribution. This reverses the conventional task of normalizing flows -- rather than being given samples from a unknown target distribution and learning a flow that approximates the distribution, we are given a perturbation to an initial distribution and aim to reconstruct a flow that would generate samples from the known perturbed distribution. While this is an underdetermined problem, we find that choosing the flow to be an integrable vector field yields a solution closely related to electrostatics, and a solution can be computed by the method of Green's functions. Unlike conventional normalizing flows, this flow can be represented in an entirely nonparametric manner. We validate this derivation on low-dimensional problems, and discuss potential applications to problems in quantum Monte Carlo and machine learning.
翻訳日:2021-05-23 15:08:14 公開日:2020-12-03
# 雑音ラベルを用いたロバスト連合学習

Robust Federated Learning with Noisy Labels ( http://arxiv.org/abs/2012.01700v1 )

ライセンス: Link先を確認
Seunghan Yang, Hyoungseob Park, Junyoung Byun, Changick Kim(参考訳) フェデレーション学習(federated learning)は、データ分散とプライベートを維持しながら、ローカルデバイスが共同でサーバモデルをトレーニングできるパラダイムである。 フェデレーション学習では、ローカルデータはクライアントによって収集されるため、データが正しくアノテートされることは保証されない。 これらのノイズデータに頑健なネットワークを集中的にトレーニングするために多くの研究が行われてきたが、これらのアルゴリズムはいまだに連合学習のノイズラベルに苦しんでいる。 集中的な設定と比較して、クライアントのデータはラベルシステムの変化やユーザのバックグラウンド知識によって異なるノイズ分布を持つことができる。 その結果、局所モデルは一貫性のない決定境界を形成し、それらの重みは互いに激しく分岐し、連合学習において深刻な問題となる。 これらの問題を解決するために,サーバがローカルモデルと協調して一貫した決定境界を維持するための,クラスワイドセントロイドの相互交換による新しいフェデレート学習手法を提案する。 これらのcentroidは、各デバイス上のローカルデータの中心的な機能であり、通信ラウンド毎にサーバにアライメントされる。 アライメントされたcentroidsでローカルモデルを更新することは、クライアントのデータ内のノイズ分布が互いに異なるにもかかわらず、ローカルモデル間で一貫した決定境界を形成するのに役立つ。 局所モデルの性能を向上させるために,ラベル付きモデル更新に使用される自信あるサンプルを選択する新しい手法を提案する。 さらに,グローバルモデルを活用し,信頼できないサンプルのラベルを更新できるグローバルガイド付き擬似ラベル法を提案する。 CIFAR-10データセットとClothing1Mデータセットによる実験結果から,本手法は雑音ラベルを用いたフェデレーション学習において顕著に有効であることが示された。

Federated learning is a paradigm that enables local devices to jointly train a server model while keeping the data decentralized and private. In federated learning, since local data are collected by clients, it is hardly guaranteed that the data are correctly annotated. Although a lot of studies have been conducted to train the networks robust to these noisy data in a centralized setting, these algorithms still suffer from noisy labels in federated learning. Compared to the centralized setting, clients' data can have different noise distributions due to variations in their labeling systems or background knowledge of users. As a result, local models form inconsistent decision boundaries and their weights severely diverge from each other, which are serious problems in federated learning. To solve these problems, we introduce a novel federated learning scheme that the server cooperates with local models to maintain consistent decision boundaries by interchanging class-wise centroids. These centroids are central features of local data on each device, which are aligned by the server every communication round. Updating local models with the aligned centroids helps to form consistent decision boundaries among local models, although the noise distributions in clients' data are different from each other. To improve local model performance, we introduce a novel approach to select confident samples that are used for updating the model with given labels. Furthermore, we propose a global-guided pseudo-labeling method to update labels of unconfident samples by exploiting the global model. Our experimental results on the noisy CIFAR-10 dataset and the Clothing1M dataset show that our approach is noticeably effective in federated learning with noisy labels.
翻訳日:2021-05-23 15:08:01 公開日:2020-12-03
# 潜在空間最適化を用いた3次元人行動における無印関節軌跡の復元

Recovering Trajectories of Unmarked Joints in 3D Human Actions Using Latent Space Optimization ( http://arxiv.org/abs/2012.02043v1 )

ライセンス: Link先を確認
Suhas Lohit, Rushil Anirudh, Pavan Turaga(参考訳) モーションキャプチャ(モキャップ)と飛行時間に基づく人間の行動の検知は、ロバストな活動分析を行うために人気が高まっている。 アプリケーションは、行動認識から健康アプリケーションにおける運動品質の定量化まで幅広い。 マーカーレスモーションキャプチャーは大きな進歩を遂げているが、医療などの重要な分野では、マーカーベースのシステム、特にアクティブマーカーはゴールドスタンダードとみなされている。 しかしながら、可視性、追跡エラー、単にマーカー設定を便利に維持する必要性など、両方のモダリティにはいくつかの実用的な課題がある。 これは、特定の関節位置がマークアップされないことを意味するため、全身運動の下流解析は困難である。 このギャップに対処するために,まず,符号なしのジョイントデータを不適切な線形逆問題として再構成する問題を提案する。 我々は、人間の行動の多様体に投影することで、与えられた行動に対して欠落した関節を復元し、深層オートエンコーダの潜伏空間表現を最適化することで達成する。 mocap と kinect のデータセットでの実験により、提案手法が関節の動作と動態のセマンティクスを回復するのに非常に有効であることが明確に示されている。 すべてのコードとモデルを公開します。

Motion capture (mocap) and time-of-flight based sensing of human actions are becoming increasingly popular modalities to perform robust activity analysis. Applications range from action recognition to quantifying movement quality for health applications. While marker-less motion capture has made great progress, in critical applications such as healthcare, marker-based systems, especially active markers, are still considered gold-standard. However, there are several practical challenges in both modalities such as visibility, tracking errors, and simply the need to keep marker setup convenient wherein movements are recorded with a reduced marker-set. This implies that certain joint locations will not even be marked-up, making downstream analysis of full body movement challenging. To address this gap, we first pose the problem of reconstructing the unmarked joint data as an ill-posed linear inverse problem. We recover missing joints for a given action by projecting it onto the manifold of human actions, this is achieved by optimizing the latent space representation of a deep autoencoder. Experiments on both mocap and Kinect datasets clearly demonstrate that the proposed method performs very well in recovering semantics of the actions and dynamics of missing joints. We will release all the code and models publicly.
翻訳日:2021-05-23 15:06:41 公開日:2020-12-03
# テキスト分類のためのキャラクタレベル畳み込みニューラルネットワークの進化

Evolving Character-level Convolutional Neural Networks for Text Classification ( http://arxiv.org/abs/2012.02223v1 )

ライセンス: Link先を確認
Trevor Londt, Xiaoying Gao, Bing Xue, Peter Andreae(参考訳) 文字レベルの畳み込みニューラルネットワーク(char-CNN)は、それらが分類する言語のセマンティック構造や構文構造に関する知識を必要としない。 この特性は実装を単純化するが、分類精度は低下する。 char-cnnアーキテクチャの深さを増加しても、ブレークスルー精度は向上しない。 テキスト分類作業に最適なChar-CNNアーキテクチャは確立されていない。 char-cnnの手動設計とトレーニングは、専門家のドメイン知識を必要とする反復的かつ時間のかかるプロセスである。 シュロゲートベースのバージョンを含む進化的ディープラーニング(EDL)技術は、画像解析タスクの高性能CNNアーキテクチャの自動検索に成功している。 研究者は、テキスト分類タスクのためにchar-CNNのアーキテクチャ空間を探索するためにEDL技術を適用していない。 本稿では,遺伝子プログラミングに基づく新しいEDLアルゴリズム,間接符号化モデル,サロゲートモデルを用いたシャル・CNNアーキテクチャの進化における最初の成果を紹介する。 このアルゴリズムは8つのテキスト分類データセットで評価され、5つの手動設計のCNNアーキテクチャと1つの長期記憶(LSTM)アーキテクチャに対してベンチマークされる。 実験結果から,LSTMを分類精度で上回るアーキテクチャと,分類精度とパラメータ数で手作業で設計したCNNアーキテクチャの5つを改良できることが示された。

Character-level convolutional neural networks (char-CNN) require no knowledge of the semantic or syntactic structure of the language they classify. This property simplifies its implementation but reduces its classification accuracy. Increasing the depth of char-CNN architectures does not result in breakthrough accuracy improvements. Research has not established which char-CNN architectures are optimal for text classification tasks. Manually designing and training char-CNNs is an iterative and time-consuming process that requires expert domain knowledge. Evolutionary deep learning (EDL) techniques, including surrogate-based versions, have demonstrated success in automatically searching for performant CNN architectures for image analysis tasks. Researchers have not applied EDL techniques to search the architecture space of char-CNNs for text classification tasks. This article demonstrates the first work in evolving char-CNN architectures using a novel EDL algorithm based on genetic programming, an indirect encoding and surrogate models, to search for performant char-CNN architectures automatically. The algorithm is evaluated on eight text classification datasets and benchmarked against five manually designed CNN architecture and one long short-term memory (LSTM) architecture. Experiment results indicate that the algorithm can evolve architectures that outperform the LSTM in terms of classification accuracy and five of the manually designed CNN architectures in terms of classification accuracy and parameter count.
翻訳日:2021-05-23 15:06:22 公開日:2020-12-03
# 遺伝的プログラミングを用いた文字レベルDenseNetアーキテクチャの進化

Evolving Character-Level DenseNet Architectures using Genetic Programming ( http://arxiv.org/abs/2012.02327v1 )

ライセンス: Link先を確認
Trevor Londt, Xiaoying Gao, Peter Andreae(参考訳) DenseNetアーキテクチャは画像分類タスクにおいて顕著な性能を示しているが、文字レベルのDenseNet(char-DenseN et)アーキテクチャをテキスト分類タスクに使用するための限定的な研究がなされている。 DenseNetアーキテクチャがテキスト分類タスクに最適であるかは不明だ。 char-DenseNetsの設計、トレーニング、テストの反復的なタスクは、専門家のドメイン知識を必要とするNP-Hard問題である。 進化的ディープラーニング(EDL)は、画像分類領域のCNNアーキテクチャを自動設計するために使われ、専門家のドメイン知識の必要性を軽減している。 本研究は, テキスト分類タスクにおいて, EDL を用いて char-DenseNet アーキテクチャを進化させる最初の試みを示す。 遺伝的プログラミングに基づく新しいアルゴリズム (GP-Dense) と間接エンコード方式を組み合わせることで、高性能なChar DenseNetアーキテクチャの進化を促進する。 このアルゴリズムは2つの一般的なテキストデータセットで評価され、最も進化したモデルは現在の4つのキャラクタレベルCNNとDenseNetモデルに対してベンチマークされる。 このアルゴリズムは、モデル精度で最先端モデルの2つ、パラメータサイズで最先端モデルの3つを上回り、両方のデータセットのパフォーマンスモデルを進化させることを示す。

DenseNet architectures have demonstrated impressive performance in image classification tasks, but limited research has been conducted on using character-level DenseNet (char-DenseNet) architectures for text classification tasks. It is not clear what DenseNet architectures are optimal for text classification tasks. The iterative task of designing, training and testing of char-DenseNets is an NP-Hard problem that requires expert domain knowledge. Evolutionary deep learning (EDL) has been used to automatically design CNN architectures for the image classification domain, thereby mitigating the need for expert domain knowledge. This study demonstrates the first work on using EDL to evolve char-DenseNet architectures for text classification tasks. A novel genetic programming-based algorithm (GP-Dense) coupled with an indirect-encoding scheme, facilitates the evolution of performant char DenseNet architectures. The algorithm is evaluated on two popular text datasets, and the best-evolved models are benchmarked against four current state-of-the-art character-level CNN and DenseNet models. Results indicate that the algorithm evolves performant models for both datasets that outperform two of the state-of-the-art models in terms of model accuracy and three of the state-of-the-art models in terms of parameter size.
翻訳日:2021-05-23 15:06:00 公開日:2020-12-03
# radar artifact labeling framework (ralf) データセットにおけるレーダ検出の可能性

Radar Artifact Labeling Framework (RALF): Method for Plausible Radar Detections in Datasets ( http://arxiv.org/abs/2012.01993v1 )

ライセンス: Link先を確認
Simon T. Isele, Marcel P. Schilling, Fabian E. Klein, Sascha Saralajew, J. Marius Zoellner(参考訳) 自動運転のローカライズと認識に関する研究は、主にカメラとlidarデータセットに焦点を当てている。 スパースレーダポイントクラウドの手動ラベリングは難しい。 データセット生成のためのクロスセンサであるRadar Artifact Labeling Framework (RALF)を提案する。 自動生成された自動車レーダーデータのラベルは、人工知能の応用のためのアーティファクトのようなレーダーの欠点の解決に役立つ。 RALFは、レーダー生検のための可視性ラベルを提供し、アーティファクトとターゲットを区別する。 光学評価バックボーンは、サラウンドビューカメラとLiDARスキャンの一般化された単眼深度画像推定からなる。 現代の車載センサーセットとLiDARは、画像に基づく相対深度情報を重なり合う感知領域でキャリブレーションすることができる。 K-Nearest Neighborsマッチングは、光知覚点雲と生のレーダー検出を関連付ける。 並行して、時間追跡評価部は、レーダ検出の過渡行動を考慮する。 センサとモデルの不確実性の両方を尊重する一致距離に基づいて,レーダ検出毎の可視性評価を提案する。 3.28\cdot10^6$点の半自動ラベル付き基底真理データセットの誤差メトリクスを評価することにより、結果を検証する。 実用的なレーダ検出に加えて、このフレームワークは認識と自動運転学習タスクの応用のために、さらにラベル付き低レベルレーダ信号データセットを可能にする。

Research on localization and perception for Autonomous Driving is mainly focused on camera and LiDAR datasets, rarely on radar data. Manually labeling sparse radar point clouds is challenging. For a dataset generation, we propose the cross sensor Radar Artifact Labeling Framework (RALF). Automatically generated labels for automotive radar data help to cure radar shortcomings like artifacts for the application of artificial intelligence. RALF provides plausibility labels for radar raw detections, distinguishing between artifacts and targets. The optical evaluation backbone consists of a generalized monocular depth image estimation of surround view cameras plus LiDAR scans. Modern car sensor sets of cameras and LiDAR allow to calibrate image-based relative depth information in overlapping sensing areas. K-Nearest Neighbors matching relates the optical perception point cloud with raw radar detections. In parallel, a temporal tracking evaluation part considers the radar detections' transient behavior. Based on the distance between matches, respecting both sensor and model uncertainties, we propose a plausibility rating of every radar detection. We validate the results by evaluating error metrics on semi-manually labeled ground truth dataset of $3.28\cdot10^6$ points. Besides generating plausible radar detections, the framework enables further labeled low-level radar signal datasets for applications of perception and Autonomous Driving learning tasks.
翻訳日:2021-05-23 15:04:44 公開日:2020-12-03
# 説明可能なAIによる信用スコアの解釈

Explainable AI for Interpretable Credit Scoring ( http://arxiv.org/abs/2012.03749v1 )

ライセンス: Link先を確認
Lara Marie Demajo, Vince Vella and Alexiei Dingli(参考訳) 人工知能(AI)の進歩と近年の金融技術(FinTech)への熱意の高まりにより、信用スコアなどの応用は学術的な関心を集めている。 信用スコアは、金融専門家がデフォルトの確率の高いローンが受け入れられないようなローン申請を受理するかどうかについてより良い判断を下すのに役立つ。 このような信用スコアリングモデルが直面する騒々しく非常に不均衡なデータ課題とは別に、GDPR(General Data Protection Regulation)やECOA(Equal Credit Opportunity Act)によって導入された「説明権」のような最近の規制は、アルゴリズム的な決定が理解可能で一貫性のあるものであることを保証するためのモデル解釈性の必要性を追加している。 最近導入された興味深い概念は、ブラックボックスモデルをより解釈しやすいものにすることに焦点を当てた説明可能なai(xai)である。 本研究では,正確かつ解釈可能な信用スコアリングモデルを提案する。 分類には, エクストリーム・グラディエント・ブースティング(XGBoost)モデルを用いて, HELOC(Hotel Equity Line of Credit)とLC(Lending Club)データセットの最先端性能を実現する。 モデルはさらに360度説明フレームワークによって拡張され、異なる説明(つまり)を提供する。 異なる状況の異なる人々によって要求されるグローバル、ローカル機能ベース、およびローカルインスタンスベース)。 機能的接地分析,応用接地分析,人間接地分析による評価は,提示された説明が単純であり,一貫性があり,かつ,正確性,有効性,理解の容易さ,詳細な満足度,信頼性の6つの所定の仮説を満たしていることを示している。

With the ever-growing achievements in Artificial Intelligence (AI) and the recent boosted enthusiasm in Financial Technology (FinTech), applications such as credit scoring have gained substantial academic interest. Credit scoring helps financial experts make better decisions regarding whether or not to accept a loan application, such that loans with a high probability of default are not accepted. Apart from the noisy and highly imbalanced data challenges faced by such credit scoring models, recent regulations such as the `right to explanation' introduced by the General Data Protection Regulation (GDPR) and the Equal Credit Opportunity Act (ECOA) have added the need for model interpretability to ensure that algorithmic decisions are understandable and coherent. An interesting concept that has been recently introduced is eXplainable AI (XAI), which focuses on making black-box models more interpretable. In this work, we present a credit scoring model that is both accurate and interpretable. For classification, state-of-the-art performance on the Home Equity Line of Credit (HELOC) and Lending Club (LC) Datasets is achieved using the Extreme Gradient Boosting (XGBoost) model. The model is then further enhanced with a 360-degree explanation framework, which provides different explanations (i.e. global, local feature-based and local instance-based) that are required by different people in different situations. Evaluation through the use of functionallygrounded , application-grounded and human-grounded analysis show that the explanations provided are simple, consistent as well as satisfy the six predetermined hypotheses testing for correctness, effectiveness, easy understanding, detail sufficiency and trustworthiness.
翻訳日:2021-05-23 15:04:01 公開日:2020-12-03
# 基本的特徴:ロバストコンテンツ対応画像前処理による対向的摂動の攻撃面の低減

Essential Features: Reducing the Attack Surface of Adversarial Perturbations with Robust Content-Aware Image Preprocessing ( http://arxiv.org/abs/2012.01699v1 )

ライセンス: Link先を確認
Ryan Feng, Wu-chi Feng, Atul Prakash(参考訳) 画像に摂動を加えることで、不正な機械学習モデルに誤った予測を加えることができる。 このような摂動から防御する一つのアプローチは、摂動の影響を取り除くために画像前処理関数を適用することである。 既存のアプローチは画像の内容と直交して設計されがちであり、適応攻撃によって打ち負かすことができる。 本稿では,画像の主成分を保存しつつ,摂動の影響を著しく低減するロバストな特徴空間へ変換する,本質的特徴量と呼ばれる新しい画像前処理手法を提案する。 具体的には、k平均色低減手法とともに、元のオブジェクトの主エッジ特徴を保存する適応的ぼかし戦略を用いて、画像を最も代表的な色に単純化する。 このアプローチは、元の画像の関連する特徴を保ちながら色を調整する能力を制限することにより、敵に対する攻撃面を著しく制限する。 さらに、いくつかのアダプティブアタックを設計し、我々のアプローチが以前のベースラインよりも堅牢であることを確認する。 CIFAR-10では64%の堅牢性と58.13%の堅牢性をRESISC45で達成し、適応的なホワイトボックスやブラックボックス攻撃に対する最先端の対人訓練技術に対して10%以上の堅牢性を向上した。 以上の結果から,コンテンツ適応処理による画像に不可欠な特徴を保ち続ける戦略は,敵対的入力に対する堅牢性を高めるための敵対的トレーニングの補完となる可能性が示唆された。

Adversaries are capable of adding perturbations to an image to fool machine learning models into incorrect predictions. One approach to defending against such perturbations is to apply image preprocessing functions to remove the effects of the perturbation. Existing approaches tend to be designed orthogonally to the content of the image and can be beaten by adaptive attacks. We propose a novel image preprocessing technique called Essential Features that transforms the image into a robust feature space that preserves the main content of the image while significantly reducing the effects of the perturbations. Specifically, an adaptive blurring strategy that preserves the main edge features of the original object along with a k-means color reduction approach is employed to simplify the image to its k most representative colors. This approach significantly limits the attack surface for adversaries by limiting the ability to adjust colors while preserving pertinent features of the original image. We additionally design several adaptive attacks and find that our approach remains more robust than previous baselines. On CIFAR-10 we achieve 64% robustness and 58.13% robustness on RESISC45, raising robustness by over 10% versus state-of-the-art adversarial training techniques against adaptive white-box and black-box attacks. The results suggest that strategies that retain essential features in images by adaptive processing of the content hold promise as a complement to adversarial training for boosting robustness against adversarial inputs.
翻訳日:2021-05-23 15:02:46 公開日:2020-12-03
# AutoInt: 高速なニューラルボリュームレンダリングのための自動統合

AutoInt: Automatic Integration for Fast Neural Volume Rendering ( http://arxiv.org/abs/2012.01714v1 )

ライセンス: Link先を確認
David B. Lindell, Julien N. P. Martel, Gordon Wetzstein(参考訳) 数値積分は科学計算における基礎技術であり、多くのコンピュータビジョンアプリケーションの中核である。 これらのアプリケーションの中で、暗黙的なニューラルボリュームレンダリングがビュー合成の新しいパラダイムとして提案され、フォトリアリスティックな画質を実現している。 しかし、これらの手法を実用化するための基本的な障害は、訓練と推論中にレンダリングされた線に沿って必要な体積積分によって生じる極端な計算とメモリ要求である。 モンテカルロサンプリングとの統合を近似するためには、数百の前方通過を必要とする数百万光線が必要になります。 本稿では,暗黙的ニューラルネットワークを用いて,効率的な閉形式解法を積分に学習するための新しいフレームワークであるautomatic integrationを提案する。 学習のために、暗黙の神経表現の導出に対応する計算グラフをインスタンス化する。 グラフは信号に合致して統合する。 最適化後、グラフを再組み立てして、抗誘導体を表すネットワークを得る。 計算の基本定理により、これはネットワークの2つの評価における任意の定積分の計算を可能にする。 このアプローチを用いて,計算要求の10倍以上の改善を実証し,高速なニューラルボリュームレンダリングを実現する。

Numerical integration is a foundational technique in scientific computing and is at the core of many computer vision applications. Among these applications, implicit neural volume rendering has recently been proposed as a new paradigm for view synthesis, achieving photorealistic image quality. However, a fundamental obstacle to making these methods practical is the extreme computational and memory requirements caused by the required volume integrations along the rendered rays during training and inference. Millions of rays, each requiring hundreds of forward passes through a neural network are needed to approximate those integrations with Monte Carlo sampling. Here, we propose automatic integration, a new framework for learning efficient, closed-form solutions to integrals using implicit neural representation networks. For training, we instantiate the computational graph corresponding to the derivative of the implicit neural representation. The graph is fitted to the signal to integrate. After optimization, we reassemble the graph to obtain a network that represents the antiderivative. By the fundamental theorem of calculus, this enables the calculation of any definite integral in two evaluations of the network. Using this approach, we demonstrate a greater than 10x improvement in computation requirements, enabling fast neural volume rendering.
翻訳日:2021-05-23 15:02:18 公開日:2020-12-03
# Scan2Cap: RGB-Dスキャンでコンテキスト対応のDense Captioning

Scan2Cap: Context-aware Dense Captioning in RGB-D Scans ( http://arxiv.org/abs/2012.02206v1 )

ライセンス: Link先を確認
Dave Zhenyu Chen, Ali Gholami, Matthias Nie{\ss}ner, Angel X. Chang(参考訳) 本稿では,コモディティRGB-Dセンサの3Dスキャンにおける高密度キャプションの課題を紹介する。 入力として、3Dシーンの点雲を仮定し、期待される出力は、基礎となるオブジェクトの記述とともに境界ボックスである。 3Dオブジェクトの検出と記述の問題に対処するために,入力シーン内のオブジェクトを検出し,それらを自然言語で記述する,エンドツーエンドの訓練手法であるScan2Capを提案する。 ローカルコンテキストにおける関連コンポーネントを参照しながら,記述トークンを生成するアテンション機構を用いる。 対象の関係(つまり)を反映する 生成されたキャプションの相対空間関係)では、メッセージパッシンググラフモジュールを使用して、オブジェクト関係の特徴を学習する。 提案手法は,ScanReferデータセットのシーンにおける3Dオブジェクトのローカライズと記述を効果的に行うことができ,2Dベースライン法を顕著なマージン(27.61% CiDEr@0.5IoUimprovem ent)で上回っている。

We introduce the task of dense captioning in 3D scans from commodity RGB-D sensors. As input, we assume a point cloud of a 3D scene; the expected output is the bounding boxes along with the descriptions for the underlying objects. To address the 3D object detection and description problems, we propose Scan2Cap, an end-to-end trained method, to detect objects in the input scene and describe them in natural language. We use an attention mechanism that generates descriptive tokens while referring to the related components in the local context. To reflect object relations (i.e. relative spatial relations) in the generated captions, we use a message passing graph module to facilitate learning object relation features. Our method can effectively localize and describe 3D objects in scenes from the ScanRefer dataset, outperforming 2D baseline methods by a significant margin (27.61% CiDEr@0.5IoUimprovem ent).
翻訳日:2021-05-23 15:02:04 公開日:2020-12-03
# EVRNet:エッジデバイス上での効率的なビデオ復元

EVRNet: Efficient Video Restoration on Edge Devices ( http://arxiv.org/abs/2012.02228v1 )

ライセンス: Link先を確認
Sachin Mehta and Amit Kumar and Fitsum Reda and Varun Nasery and Vikram Mulukutla and Rakesh Ranjan and Vikas Chandra(参考訳) ビデオ送信アプリケーション(例えば会議)は、特に世界的な健康のパンデミックの時期に勢いを増している。 ビデオ信号は損失の多いチャンネルで送信され、低品質の受信信号が得られる。 受信者エッジデバイス上の映像をリアルタイムに復元するために,効率的な映像復元ネットワークevrnetを導入する。 evrnetはアライメント、ディファレンシャル、フュージョンモジュールを使用してネットワーク内のパラメータを効率的に割り当てる。 ビデオ復元タスク(デブロッキング、デノイング、超解像)の広範な実験により、EVRNetは、パラメータやMACが大幅に少ない既存のメソッドに競合性能を提供することを示した。 例えば、EVRNetはパラメータの260倍、MACの958倍、変形可能な畳み込みベースのビデオ復元ネットワーク(EDVR)の4倍、SSIMスコアはEDVRの0.018倍である。 また,evrnetの性能を未取得データセットの複数の歪み下で評価し,カメラと物体の動きの両方で可変長シーケンスをモデル化する能力を示す。

Video transmission applications (e.g., conferencing) are gaining momentum, especially in times of global health pandemic. Video signals are transmitted over lossy channels, resulting in low-quality received signals. To restore videos on recipient edge devices in real-time, we introduce an efficient video restoration network, EVRNet. EVRNet efficiently allocates parameters inside the network using alignment, differential, and fusion modules. With extensive experiments on video restoration tasks (deblocking, denoising, and super-resolution), we demonstrate that EVRNet delivers competitive performance to existing methods with significantly fewer parameters and MACs. For example, EVRNet has 260 times fewer parameters and 958 times fewer MACs than enhanced deformable convolution-based video restoration network (EDVR) for 4 times video super-resolution while its SSIM score is 0.018 less than EDVR. We also evaluated the performance of EVRNet under multiple distortions on unseen dataset to demonstrate its ability in modeling variable-length sequences under both camera and object motion.
翻訳日:2021-05-23 15:01:46 公開日:2020-12-03
# 圧縮民営化:局所微分プライバシー下での分散分布推定

Compressive Privatization: Sparse Distribution Estimation under Locally Differentially Privacy ( http://arxiv.org/abs/2012.02081v1 )

ライセンス: Link先を確認
Zhongzheng Xiong, Zengfeng Huang, Xiaojun Mao, Jian Wang, Shan Ying(参考訳) 地域差分プライバシー下での離散分布推定の問題点を考察する。 分布推定は最も基本的な推定問題の1つであり、非プライベートとプライベートの両方で広く研究されている。 局所モデルでは、最適なサンプル複雑性を証明できるプライベートメカニズムが知られている。 サンプルの複雑さは宇宙全体のサイズに比例しており、実際には巨大なもの(例えば、全てのipアドレス)である。 対象の分布がスパースまたはほぼスパースである限り(例えば、高度スキュード)、必要なサンプルの数は大幅に削減できることを示した。 新しいメカニズムのサンプルの複雑さは、ターゲット分布のスパース性によって特徴づけられ、宇宙の大きさに弱いだけである。 我々のメカニズムは民営化と次元化を同時に行い、サンプルの複雑さは次元化の減少にのみ依存する。 元の分布は圧縮センシングのツールを使って回収される。 理論的結果を補完するため,本手法の利点を明確に示す実験を行い,理論的な結果を確認する。

We consider the problem of discrete distribution estimation under locally differential privacy. Distribution estimation is one of the most fundamental estimation problems, which is widely studied in both non-private and private settings. In the local model, private mechanisms with provably optimal sample complexity are known. However, they are optimal only in the worst-case sense; their sample complexity is proportional to the size of the entire universe, which could be huge in practice (e.g., all IP addresses). We show that as long as the target distribution is sparse or approximately sparse (e.g., highly skewed), the number of samples needed could be significantly reduced. The sample complexity of our new mechanism is characterized by the sparsity of the target distribution and only weakly depends on the size the universe. Our mechanism does privatization and dimensionality reduction simultaneously, and the sample complexity will only depend on the reduced dimensionality. The original distribution is then recovered using tools from compressive sensing. To complement our theoretical results, we conduct experimental studies, the results of which clearly demonstrate the advantages of our method and confirm our theoretical findings.
翻訳日:2021-05-23 15:01:17 公開日:2020-12-03
# ユーモア認識のための多角的選好による連合学習

Federated Learning with Diversified Preference for Humor Recognition ( http://arxiv.org/abs/2012.01675v1 )

ライセンス: Link先を確認
Xu Guo, Pengwei Xing, Siwei Feng, Boyang Li, Chunyan Miao(参考訳) ユーモアを理解することは創造的な言語モデリングにとって重要であり、人間とAIの相互作用に多くの応用がある。 しかし、観客の認知システムの違いにより、ユーモアの知覚は極めて主観的になる可能性がある。 したがって、ある節は異なる読者によって異なる程度に面白いと見なすことができる。 これにより、多様なユーモアの好みに適応できるユーモラステキスト認識モデルのトレーニングが極めて困難になる。 本稿では,フェデレートラーニング(FL)を通してユーモラステキストをパーソナライズされた方法で認識するためのFedHumorアプローチを提案する。 ユーモアスコアの全体分布と、与えられたテキストに対する個人によるユーモアラベルを共同で検討できる連合BERTモデルである。 幅広い実験は、9つの最先端のユーモア認識アプローチと比較して、多様なユーモア嗜好を持つ人々に対するユーモア内容の正確な認識において、FedHumorの顕著な利点を示している。

Understanding humor is critical to creative language modeling with many applications in human-AI interaction. However, due to differences in the cognitive systems of the audience, the perception of humor can be highly subjective. Thus, a given passage can be regarded as funny to different degrees by different readers. This makes training humorous text recognition models that can adapt to diverse humor preferences highly challenging. In this paper, we propose the FedHumor approach to recognize humorous text contents in a personalized manner through federated learning (FL). It is a federated BERT model capable of jointly considering the overall distribution of humor scores with humor labels by individuals for given texts. Extensive experiments demonstrate significant advantages of FedHumor in recognizing humor contents accurately for people with diverse humor preferences compared to 9 state-of-the-art humor recognition approaches.
翻訳日:2021-05-23 15:01:02 公開日:2020-12-03
# 多言語神経rst談話解析

Multilingual Neural RST Discourse Parsing ( http://arxiv.org/abs/2012.01704v1 )

ライセンス: Link先を確認
Zhengyuan Liu, Ke Shi, Nancy F. Chen(参考訳) 自然言語における情報の流れや議論的構造を理解する上で,文言解析は重要な役割を果たす。 RST(Rhetorical Structure Theory)の下でのこれまでの研究は、主にイギリスのツリーバンクのモデルの作成と評価に重点を置いてきた。 しかし、ドイツ語、オランダ語、ポルトガル語などの他の言語に対する構文解析タスクは、注釈付きデータの不足のため依然として困難である。 本研究では,(1)多言語ベクトル表現を活用すること,(2)ソースコンテンツのセグメントレベルの翻訳を採用することによる,ニューラルな言語間対話パーサを確立するための2つの手法について検討する。 実験結果から,両手法は訓練データに制限があっても有効であり,すべてのサブタスクにおいて,言語横断で文書レベルの言論解析を行う上で,最先端の性能を実現することができることがわかった。

Text discourse parsing plays an important role in understanding information flow and argumentative structure in natural language. Previous research under the Rhetorical Structure Theory (RST) has mostly focused on inducing and evaluating models from the English treebank. However, the parsing tasks for other languages such as German, Dutch, and Portuguese are still challenging due to the shortage of annotated data. In this work, we investigate two approaches to establish a neural, cross-lingual discourse parser via: (1) utilizing multilingual vector representations; and (2) adopting segment-level translation of the source content. Experiment results show that both methods are effective even with limited training data, and achieve state-of-the-art performance on cross-lingual, document-level discourse parsing on all sub-tasks.
翻訳日:2021-05-23 15:00:48 公開日:2020-12-03
# 不均一グラフ注意ネットワークを用いたラベル強化イベント検出

Label Enhanced Event Detection with Heterogeneous Graph Attention Networks ( http://arxiv.org/abs/2012.01878v1 )

ライセンス: Link先を確認
Shiyao Cui, Bowen Yu, Xin Cong, Tingwen Liu, Quangang Li and Jinqiao Shi(参考訳) Event Detection (ED)は、テキスト内の特定の種類のイベントトリガーのインスタンスを認識することを目的としている。 英語のEDと異なり、中国語のEDは、不確実な単語境界のため、単語・トリガーミスマッチの問題に悩まされている。 文字レベルのモデルに単語情報を注入する既存のアプローチは、この問題を軽減するために有望な進歩を遂げてきたが、2つの問題によって制限されている。 第一に、文字と語彙の相互作用は完全には利用されない。 次に、イベントラベルが提供する意味情報を無視する。 そこで我々はラベル拡張型グラフアテンションネットワーク(l-hgat)という新しいアーキテクチャを提案する。 具体的には、各文を、文字ノードと単語ノードが異なる種類のエッジに接続されたグラフに変換することにより、単語と文字の相互作用が完全に確保される。 異種グラフアテンションネットワークを導入し、リレーショナルメッセージを伝達し、情報相互作用を強化する。 さらに、各ラベルをトリガプロトタイプベースの埋め込みに変換し、マージン損失を設計することで、混乱したイベントラベルを区別する。 2つのベンチマークデータセットの実験により、我々のモデルは、競争力のあるベースライン手法よりも大幅に改善されていることが示された。

Event Detection (ED) aims to recognize instances of specified types of event triggers in text. Different from English ED, Chinese ED suffers from the problem of word-trigger mismatch due to the uncertain word boundaries. Existing approaches injecting word information into character-level models have achieved promising progress to alleviate this problem, but they are limited by two issues. First, the interaction between characters and lexicon words is not fully exploited. Second, they ignore the semantic information provided by event labels. We thus propose a novel architecture named Label enhanced Heterogeneous Graph Attention Networks (L-HGAT). Specifically, we transform each sentence into a graph, where character nodes and word nodes are connected with different types of edges, so that the interaction between words and characters is fully reserved. A heterogeneous graph attention networks is then introduced to propagate relational message and enrich information interaction. Furthermore, we convert each label into a trigger-prototype-ba sed embedding, and design a margin loss to guide the model distinguish confusing event labels. Experiments on two benchmark datasets show that our model achieves significant improvement over a range of competitive baseline methods.
翻訳日:2021-05-23 15:00:05 公開日:2020-12-03
# Rel3D:3次元における接地空間関係の最小コントラストベンチマーク

Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations in 3D ( http://arxiv.org/abs/2012.01634v1 )

ライセンス: Link先を確認
Ankit Goyal, Kaiyu Yang, Dawei Yang, Jia Deng(参考訳) 視覚入力における空間関係(例えば「テーブル上のラップトップ」)の理解は人間とロボットの両方にとって重要である。 既存のデータセットは、空間関係の学習に欠かせない大規模で高品質な3D基底真理情報を欠いているため、不十分である。 本稿では,空間関係を3dで接地する最初の大規模・人間注釈データセットrel3dを構築し,そのギャップを埋める。 rel3dは、大規模ヒトデータにおける空間関係の予測における3次元情報の有効性を定量化する。 さらに,データセットバイアスを低減する新たなクラウドソーシング手法として,最小限のコントラストデータ収集を提案する。 データセットの3Dシーンは、最小限の対照的なペアで構成されている。ペア内の2つのシーンはほぼ同じだが、空間的関係は1つに留まり、もう1つに失敗する。 我々は、最小限の対照的な例が、現在の関係検出モデルにおける問題を診断し、サンプル効率のトレーニングにつながることを実証的に検証する。 コードとデータはhttps://github.com/p rinceton-vl/rel3dで入手できる。

Understanding spatial relations (e.g., "laptop on table") in visual input is important for both humans and robots. Existing datasets are insufficient as they lack large-scale, high-quality 3D ground truth information, which is critical for learning spatial relations. In this paper, we fill this gap by constructing Rel3D: the first large-scale, human-annotated dataset for grounding spatial relations in 3D. Rel3D enables quantifying the effectiveness of 3D information in predicting spatial relations on large-scale human data. Moreover, we propose minimally contrastive data collection -- a novel crowdsourcing method for reducing dataset bias. The 3D scenes in our dataset come in minimally contrastive pairs: two scenes in a pair are almost identical, but a spatial relation holds in one and fails in the other. We empirically validate that minimally contrastive examples can diagnose issues with current relation detection models as well as lead to sample-efficient training. Code and data are available at https://github.com/p rinceton-vl/Rel3D.
翻訳日:2021-05-23 14:59:28 公開日:2020-12-03
# ファウショット分類のためのメタ生成深度測定

Meta-Generating Deep Attentive Metric for Few-shot Classification ( http://arxiv.org/abs/2012.01641v1 )

ライセンス: Link先を確認
Lei Zhang, Fei Zhou, Wei Wei and Yanning Zhang(参考訳) タスク認識ベース学習者を生成する学習は,FSL問題に対処するための有望な方向性を示す。 既存の手法は主に、固定されたメートル法(例えば、コサイン距離)で近似された埋め込みモデルを生成することに焦点を当てている。 しかし、そのような単純な計量や分類器の限定的な識別能力のため、これらの手法は問題のあるケースに適切に一般化できない。 この問題を軽減するために,タスク記述(例:いくつかのラベル付きサンプル)に基づいて,新しいFSLタスクの特定のメトリックを適応的に生成する,直交方向へ変換する新しいディープメトリックメタジェネレーション手法を提案する。 本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。 さらに,ネットワーク生成のためにラベル付きサンプルに条件付けされた一様重量分布を利用する既存の方法とは異なり,提案メタラーナーは,各クラス毎の特定のクラス間差分統計を別々に取得し,各クラス毎の統計を計量生成に組み込むことができるようにして,クロスクラスサンプル対に条件付けされた多モード重量分布を確立する。 これにより、生成したメトリックを新たなFSLタスクに適切に適合させ、一般化性能を満足させることができる。 これを示すために、提案手法を4つのベンチマークFSLデータセットで検証し、特に難易度の高い場合、特にミニイメージネットの20ウェイ1ショットタスクでは26.14%から46.69%に精度を向上し、FC100の5ウェイ1ショットタスクでは45.2%から68.72%に精度を向上した。 コードはhttps://github.com/n wpuzhoufei/dam。

Learning to generate a task-aware base learner proves a promising direction to deal with few-shot learning (FSL) problem. Existing methods mainly focus on generating an embedding model utilized with a fixed metric (eg, cosine distance) for nearest neighbour classification or directly generating a linear classier. However, due to the limited discriminative capacity of such a simple metric or classifier, these methods fail to generalize to challenging cases appropriately. To mitigate this problem, we present a novel deep metric meta-generation method that turns to an orthogonal direction, ie, learning to adaptively generate a specific metric for a new FSL task based on the task description (eg, a few labelled samples). In this study, we structure the metric using a three-layer deep attentive network that is flexible enough to produce a discriminative metric for each task. Moreover, different from existing methods that utilize an uni-modal weight distribution conditioned on labelled samples for network generation, the proposed meta-learner establishes a multi-modal weight distribution conditioned on cross-class sample pairs using a tailored variational autoencoder, which can separately capture the specific inter-class discrepancy statistics for each class and jointly embed the statistics for all classes into metric generation. By doing this, the generated metric can be appropriately adapted to a new FSL task with pleasing generalization performance. To demonstrate this, we test the proposed method on four benchmark FSL datasets and gain surprisingly obvious performance improvement over state-of-the-art competitors, especially in the challenging cases, eg, improve the accuracy from 26.14% to 46.69% in the 20-way 1-shot task on miniImageNet, while improve the accuracy from 45.2% to 68.72% in the 5-way 1-shot task on FC100. Code is available: https://github.com/N WPUZhoufei/DAM.
翻訳日:2021-05-23 14:59:11 公開日:2020-12-03
# ゲート型バッチ正規化による複数対向摂動の回避に向けて

Towards Defending Multiple Adversarial Perturbations via Gated Batch Normalization ( http://arxiv.org/abs/2012.01654v1 )

ライセンス: Link先を確認
Aishan Liu, Shiyu Tang, Xianglong Liu, Xinyun Chen, Lei Huang, Zhuozhuo Tu, Dawn Song, Dacheng Tao(参考訳) 現在、ディープニューラルネットワークが敵の例に弱いことを示し、敵の攻撃に対する防御の開発を動機付けている。 しかし、既存の敵対的防御は、個々の摂動タイプに対するモデルのロバスト性を改善する。 最近の手法では、複数の$\ell_p$球における敵攻撃に対するモデルロバスト性を改善するが、各摂動型に対するそれらの性能は、まだ十分ではない。 この現象をよりよく理解するために、異なる種類の逆摂動が異なる領域から引き起こされるという、 \emph{multi-domain}仮説を提案する。 マルチドメイン仮説を用いて,複数の摂動型に対するロバスト性を改善するディープニューラルネットワークのための新しいビルディングブロックである \emph{Gated Batch Normalization (GBN)} を提案する。 GBNは、ゲートサブネットワークとマルチブランチバッチ正規化(BN)層で構成され、ゲートサブネットワークは異なる摂動型を分離し、それぞれのBNブランチは単一の摂動型を扱い、入力変換のためのドメイン固有の統計学を学ぶ。 そして、異なるブランチのフィーチャは、続くレイヤのドメイン不変表現としてアラインされる。 我々は,MNIST,CIFAR-10,Tiny -ImageNetに対する我々のアプローチを広範囲に評価し,GBNが従来の複数の摂動型に対する防御提案,すなわち$\ell_1$,$\ell_2$,$\ ell_{\infty}$摂動を10~20\%で上回っていることを示す。

There is now extensive evidence demonstrating that deep neural networks are vulnerable to adversarial examples, motivating the development of defenses against adversarial attacks. However, existing adversarial defenses typically improve model robustness against individual specific perturbation types. Some recent methods improve model robustness against adversarial attacks in multiple $\ell_p$ balls, but their performance against each perturbation type is still far from satisfactory. To better understand this phenomenon, we propose the \emph{multi-domain} hypothesis, stating that different types of adversarial perturbations are drawn from different domains. Guided by the multi-domain hypothesis, we propose \emph{Gated Batch Normalization (GBN)}, a novel building block for deep neural networks that improves robustness against multiple perturbation types. GBN consists of a gated sub-network and a multi-branch batch normalization (BN) layer, where the gated sub-network separates different perturbation types, and each BN branch is in charge of a single perturbation type and learns domain-specific statistics for input transformation. Then, features from different branches are aligned as domain-invariant representations for the subsequent layers. We perform extensive evaluations of our approach on MNIST, CIFAR-10, and Tiny-ImageNet, and demonstrate that GBN outperforms previous defense proposals against multiple perturbation types, i.e, $\ell_1$, $\ell_2$, and $\ell_{\infty}$ perturbations, by large margins of 10-20\%.
翻訳日:2021-05-23 14:57:59 公開日:2020-12-03
# 単ショット物体検出のための並列残差二フュージョン特徴ピラミッドネットワーク

Parallel Residual Bi-Fusion Feature Pyramid Network for Accurate Single-Shot Object Detection ( http://arxiv.org/abs/2012.01724v1 )

ライセンス: Link先を確認
Ping-Yang Chen, Ming-Ching Chang, Jun-Wei Hsieh, Yong-Sheng Chen(参考訳) 高速かつ高精度な単発物体検出のための並列残差二フュージョン特徴ピラミッドネットワーク(PRB-FPN)を提案する。 特徴ピラミッド (FP) は近年の視覚的検出において広く用いられているが, FP のトップダウン経路はプールシフトによる正確な位置決めを保たない。 FPの利点は、より多くの層を持つ深いバックボーンを使用することによって弱まる。 この問題に対処するために,双方向(トップダウンおよびボトムアップ)融合と関連する改良を加えて,高精度なローカライゼーションを実現するための並列FP構造を提案する。 本手法は小型物体の検出に好適である。 1) ボトムアップ・フュージョン・モジュール (BFM) を用いた並列拡散FP構造を用いて, 小型・大型両方の物体を同時に高精度に検出する。 2) 結合再編成(core)モジュールは,機能融合のためのボトムアップ経路を提供し,低層特徴マップから失われた情報を復元する双方向融合fpを実現する。 (3) CORE 機能はよりリッチなコンテキスト情報を保持するためにさらに浄化される。 このような浄化は、トップダウンとボトムアップの両方の経路において、COREで数回繰り返し実行される。 (4) COREへの残留設計の追加は、広範囲(ディーパーまたは軽量)のバックボーンとのトレーニングと統合を容易にする新しいRe-COREモジュールにつながる。 提案ネットワークは,UAVDT17およびMS COCOデータセットの最先端性能を実現する。

We propose the Parallel Residual Bi-Fusion Feature Pyramid Network (PRB-FPN) for fast and accurate single-shot object detection. Feature Pyramid (FP) is widely used in recent visual detection, however the top-down pathway of FP cannot preserve accurate localization due to pooling shifting. The advantage of FP is weaken as deeper backbones with more layers are used. To address this issue, we propose a new parallel FP structure with bi-directional (top-down and bottom-up) fusion and associated improvements to retain high-quality features for accurate localization. Our method is particularly suitable for detecting small objects. We provide the following design improvements: (1) A parallel bifusion FP structure with a Bottom-up Fusion Module (BFM) to detect both small and large objects at once with high accuracy. (2) A COncatenation and RE-organization (CORE) module provides a bottom-up pathway for feature fusion, which leads to the bi-directional fusion FP that can recover lost information from lower-layer feature maps. (3) The CORE feature is further purified to retain richer contextual information. Such purification is performed with CORE in a few iterations in both top-down and bottom-up pathways. (4) The adding of a residual design to CORE leads to a new Re-CORE module that enables easy training and integration with a wide range of (deeper or lighter) backbones. The proposed network achieves state-of-the-art performance on UAVDT17 and MS COCO datasets.
翻訳日:2021-05-23 14:57:06 公開日:2020-12-03
# 文脈適応型トランスネットワークを用いた歩行者軌跡予測

Pedestrian Trajectory Prediction using Context-Augmented Transformer Networks ( http://arxiv.org/abs/2012.01757v1 )

ライセンス: Link先を確認
Khaled Saleh(参考訳) 共有都市交通環境における歩行者の軌道予測は、自動運転車(AV)の開発に直面する課題の1つと考えられている。 文献では、この問題はリカレントニューラルネットワーク(RNN)を用いて取り組まれることが多い。 歩行者の移動軌跡における時間的依存を捕捉するRNNの強力な能力にもかかわらず、より長いシーケンシャルなデータを扱う際には、それらが課題であると主張した。 そこで本研究では,近年,多くの逐次的タスクにおいてより効率的かつ高性能なrnnを実現するために,トランスフォーマーネットワークに基づくフレームワークを導入する。 我々は,歩行者の頑健な軌道予測を実現するため,過去の位置情報,エージェントインタラクション情報,シーン物理的意味情報の融合を枠組みへの入力として用いた。 共有都市交通環境における歩行者の2つの実生活データセットの枠組みを評価し,短期的および長期的予測の両面で比較ベースラインアプローチを上回った。

Forecasting the trajectory of pedestrians in shared urban traffic environments is still considered one of the challenging problems facing the development of autonomous vehicles (AVs). In the literature, this problem is often tackled using recurrent neural networks (RNNs). Despite the powerful capabilities of RNNs in capturing the temporal dependency in the pedestrians' motion trajectories, they were argued to be challenged when dealing with longer sequential data. Thus, in this work, we are introducing a framework based on the transformer networks that were shown recently to be more efficient and outperformed RNNs in many sequential-based tasks. We relied on a fusion of the past positional information, agent interactions information and scene physical semantics information as an input to our framework in order to provide a robust trajectory prediction of pedestrians. We have evaluated our framework on two real-life datasets of pedestrians in shared urban traffic environments and it has outperformed the compared baseline approaches in both short-term and long-term prediction horizons.
翻訳日:2021-05-23 14:56:19 公開日:2020-12-03
# 猫と犬を超えて:過剰クラスタリングによるファジィラベルの半教師付き分類

Beyond Cats and Dogs: Semi-supervised Classification of fuzzy labels with overclustering ( http://arxiv.org/abs/2012.01768v1 )

ライセンス: Link先を確認
Lars Schmarje and Johannes Br\"unger and Monty Santarossa and Simon-Martin Schr\"oder and Rainer Kiko and Reinhard Koch(参考訳) ディープラーニングの長年の課題は、大規模で一貫性のあるラベル付きデータセットの必要性だ。 半教師あり学習における現在の研究は、注釈付きデータの必要な量を10以上減らすことができるが、それでも猫や犬のような異なるクラスを使っている。 しかし、現実世界では、異なる専門家が異なる意見を持つ問題にしばしば遭遇し、ファジィなラベルを生み出します。 ファジィラベルの半教師付き分類を扱うための新しい枠組みを提案する。 本フレームワークは,これらのファジィラベルのサブ構造を検出するためのオーバークラスタリングの考え方に基づいている。 我々は,このフレームワークのオーバークラスタ機能を改善するための新たな損失を提案し,従来よりも高速かつ優れたオーバークラスタ性能を有する共通画像分類データセットstl-10を提示する。 実世界のプランクトンデータセットでは、ファジィラベルに対するオーバークラスタリングの利点を説明し、従来の最先端の半教師付き手法に勝っていることを示す。 さらに,下位構造のより一貫性のある予測を5~10%獲得する。

A long-standing issue with deep learning is the need for large and consistently labeled datasets. Although the current research in semi-supervised learning can decrease the required amount of annotated data by a factor of 10 or even more, this line of research still uses distinct classes like cats and dogs. However, in the real-world we often encounter problems where different experts have different opinions, thus producing fuzzy labels. We propose a novel framework for handling semi-supervised classifications of such fuzzy labels. Our framework is based on the idea of overclustering to detect substructures in these fuzzy labels. We propose a novel loss to improve the overclustering capability of our framework and show on the common image classification dataset STL-10 that it is faster and has better overclustering performance than previous work. On a real-world plankton dataset, we illustrate the benefit of overclustering for fuzzy labels and show that we beat previous state-of-the-art semisupervised methods. Moreover, we acquire 5 to 10% more consistent predictions of substructures.
翻訳日:2021-05-23 14:56:03 公開日:2020-12-03
# 生成的対立ネットワークによる顔生成の属性

Attributes Aware Face Generation with Generative Adversarial Networks ( http://arxiv.org/abs/2012.01782v1 )

ライセンス: Link先を確認
Zheng Yuan, Jie Zhang, Shiguang Shan, Xilin Chen(参考訳) 最近の研究では、顔画像の世代で顕著な成功を収めている。 しかし、既存の手法のほとんどはランダムノイズからのみ顔画像を生成し、特定の属性に従って顔画像を生成することはできない。 本稿では,属性に対応する特定の特徴を持つ顔を生成することを目的とした属性からの顔合成の問題に焦点をあてる。 そこで本研究では,AFGANと呼ばれる生成対向ネットワークを用いた新たな属性認識顔画像生成手法を提案する。 具体的には,まず,バイナリ属性ベクトルをリッチ属性に変換する2パス埋め込み層と自己アテンション機構を提案する。 3つのスタックジェネレータは属性機能を入力として、それぞれ64 \times 64$、128 \times 128$と256 \times 256$のフェイスイメージを生成する。 さらに、生成した画像と入力属性の相関性を高めるために、画像-属性マッチング損失を提案する。 CelebAに関する大規模な実験は、定性評価と定量的評価の両方の観点からAFGANの優位性を示している。

Recent studies have shown remarkable success in face image generations. However, most of the existing methods only generate face images from random noise, and cannot generate face images according to the specific attributes. In this paper, we focus on the problem of face synthesis from attributes, which aims at generating faces with specific characteristics corresponding to the given attributes. To this end, we propose a novel attributes aware face image generator method with generative adversarial networks called AFGAN. Specifically, we firstly propose a two-path embedding layer and self-attention mechanism to convert binary attribute vector to rich attribute features. Then three stacked generators generate $64 \times 64$, $128 \times 128$ and $256 \times 256$ resolution face images respectively by taking the attribute features as input. In addition, an image-attribute matching loss is proposed to enhance the correlation between the generated images and input attributes. Extensive experiments on CelebA demonstrate the superiority of our AFGAN in terms of both qualitative and quantitative evaluations.
翻訳日:2021-05-23 14:55:47 公開日:2020-12-03
# D-Unet:イメージスプライシングフォージェリ検出とローカライゼーションのためのデュアルエンコーダU-Net

D-Unet: A Dual-encoder U-Net for Image Splicing Forgery Detection and Localization ( http://arxiv.org/abs/2012.01821v1 )

ライセンス: Link先を確認
Xiuli Bi, Yanbin Liu, Bin Xiao, Weisheng Li, Chi-Man Pun, Guoyin Wang, and Xinbo Gao(参考訳) 近年,画像スプライシング偽造検出のための畳み込みニューラルネットワーク(cnns)に基づく検出手法が多数提案されている。 これらの検出手法のほとんどは、ローカルパッチやローカルオブジェクトにフォーカスする。 実際、画像スプライシング偽造検出は、画像指紋によって改ざんされた領域と非スタンプ領域を区別するグローバルバイナリ分類タスクである。 しかし、特定の画像内容はCNNベースの検出ネットワークではほとんど保持されないが、含めればネットワークの検出精度が向上する。 そこで本稿では,未固定エンコーダと固定エンコーダを用いた画像スプライシング偽造検出のための,デュアルエンコーダu-net (d-unet) と呼ばれる新しいネットワークを提案する。 非固定エンコーダは、改ざんされた領域と非タンパリング領域とを区別する画像指紋を自律的に学習するが、固定エンコーダは故意にネットワークの学習および検出を支援する方向情報を提供する。 このデュアルエンコーダは、より正確に改ざんされた領域と非改ざん領域を分類するためのD-Unetのグローバルな洞察を拡大する空間ピラミッドグローバルフィーチャー抽出モジュールが続く。 D-Unetと最先端の手法の実験的比較研究において、D-Unetは多数の偽画像の事前訓練や訓練を必要とせず、画像レベルおよび画素レベルの検出において他の手法よりも優れていた。 さらに、異なる攻撃に対して安定的に頑健であった。

Recently, many detection methods based on convolutional neural networks (CNNs) have been proposed for image splicing forgery detection. Most of these detection methods focus on the local patches or local objects. In fact, image splicing forgery detection is a global binary classification task that distinguishes the tampered and non-tampered regions by image fingerprints. However, some specific image contents are hardly retained by CNN-based detection networks, but if included, would improve the detection accuracy of the networks. To resolve these issues, we propose a novel network called dual-encoder U-Net (D-Unet) for image splicing forgery detection, which employs an unfixed encoder and a fixed encoder. The unfixed encoder autonomously learns the image fingerprints that differentiate between the tampered and non-tampered regions, whereas the fixed encoder intentionally provides the direction information that assists the learning and detection of the network. This dual-encoder is followed by a spatial pyramid global-feature extraction module that expands the global insight of D-Unet for classifying the tampered and non-tampered regions more accurately. In an experimental comparison study of D-Unet and state-of-the-art methods, D-Unet outperformed the other methods in image-level and pixel-level detection, without requiring pre-training or training on a large number of forgery images. Moreover, it was stably robust to different attacks.
翻訳日:2021-05-23 14:55:32 公開日:2020-12-03
# co-mining:sparsely annotated object detectionのための自己教師付き学習

Co-mining: Self-Supervised Learning for Sparsely Annotated Object Detection ( http://arxiv.org/abs/2012.01950v1 )

ライセンス: Link先を確認
Tiancai Wang, Tong Yang, Jiale Cao, Xiangyu Zhang(参考訳) オブジェクト検出器は通常、完全なインスタンスアノテーションの監督で有望な結果を達成する。 しかし、それらのパフォーマンスはスパースインスタンスアノテーションに満足できない。 sparsely annotated object detectionの既存の方法の多くは、ハードネガティブなサンプルの損失を再強調するか、ラベルなしのインスタンスを無視された領域に変換して偽陰性の干渉を減らすかのどちらかである。 これらの戦略は、アノテーションの欠如によるネガティブな影響をほとんど軽減できないため、不十分であると主張する。 本稿では,簡潔にアノテーションを付加したオブジェクト検出のための,Co-miningと呼ばれるシンプルで効果的な機構を提案する。 共同マイニングでは、シームズネットワークの2つのブランチが互いに擬似ラベルセットを予測する。 マルチビュー学習を強化し、ラベルなしのインスタンスをより良くマイニングするために、元の画像と対応する拡張画像がそれぞれ、シームズネットワークの2つのブランチの入力として使用される。 コマイニングは現代のほとんどの物体検出器に適用される一般的な訓練機構として機能する。 実験は、アンカーベース検出器RetinaNetとアンカーフリー検出器FCOSの2つの典型的なフレームワークを使用して、3つの異なるアノテートされた設定でMS COCOデータセット上で実施される。 実験結果から、RetinaNetとのコマイニングは、異なるベースラインと比較して1.4%~2.1%の改善を実現し、同じ簡潔なアノテート条件下で既存のメソッドを上回ります。

Object detectors usually achieve promising results with the supervision of complete instance annotations. However, their performance is far from satisfactory with sparse instance annotations. Most existing methods for sparsely annotated object detection either re-weight the loss of hard negative samples or convert the unlabeled instances into ignored regions to reduce the interference of false negatives. We argue that these strategies are insufficient since they can at most alleviate the negative effect caused by missing annotations. In this paper, we propose a simple but effective mechanism, called Co-mining, for sparsely annotated object detection. In our Co-mining, two branches of a Siamese network predict the pseudo-label sets for each other. To enhance multi-view learning and better mine unlabeled instances, the original image and corresponding augmented image are used as the inputs of two branches of the Siamese network, respectively. Co-mining can serve as a general training mechanism applied to most of modern object detectors. Experiments are performed on MS COCO dataset with three different sparsely annotated settings using two typical frameworks: anchor-based detector RetinaNet and anchor-free detector FCOS. Experimental results show that our Co-mining with RetinaNet achieves 1.4%~2.1% improvements compared with different baselines and surpasses existing methods under the same sparsely annotated setting.
翻訳日:2021-05-23 14:54:25 公開日:2020-12-03
# 脳腫瘍検出・分節のためのマルチタスク型アトラス残像ネットワーク

A Multi-task Contextual Atrous Residual Network for Brain Tumor Detection & Segmentation ( http://arxiv.org/abs/2012.02073v1 )

ライセンス: Link先を確認
Ngan Le, Kashu Yamazaki, Dat Truong, Kha Gia Quach, Marios Savvides(参考訳) 近年、深層ニューラルネットワークは、脳腫瘍のセグメンテーションを含む医療画像における様々な認識とセグメンテーションタスクにおいて最先端のパフォーマンスを達成している。 背景クラス(非腫瘍画素)に属する画素数(非腫瘍画素)が前景クラス(腫瘍画素)に属する画素数よりはるかに大きい不均衡データ問題に脳腫瘍のセグメント化が直面している。 この問題に対処するために,カスケード構造として形成されるマルチタスクネットワークを提案する。 本モデルは,脳腫瘍領域を効果的に識別し,脳腫瘍マスクを推定する2つのターゲットから構成される。 第1の目的は,脳腫瘍検出ネットワークとして注目ゲートの役割を担い,腫瘍との相関が低い遠方の背景を無視しながら,脳腫瘍周辺の領域に焦点をあてることである。 第2の目的は、大小のオブジェクト(脳腫瘍)を効果的に分割するために、3次元のアラス残留ネットワークとエンコード・デコードネットワークに基づいて構築される。 我々の3Dアラス残差ネットワークは、深い層からの勾配を浅い層に直接伝播させるためにスキップ接続で設計されており、異なる深さの特徴を保存し、互いに精製するために使用される。 ボリュームMRIデータからより大きなコンテキスト情報を組み込むため,我々のネットワークでは,様々なカーネルサイズを持つ3次元アトラス畳み込みを利用してフィルタの受容場を拡大する。 提案するネットワークは,BRATS2015,BRATS2017 ,BRATS2018の各データセットを検証セットとテストセットで評価した。 私たちのパフォーマンスは、地域ベースのメトリクスと表面ベースのメトリクスの両方でベンチマークされています。 また,最先端手法との比較を行った。

In recent years, deep neural networks have achieved state-of-the-art performance in a variety of recognition and segmentation tasks in medical imaging including brain tumor segmentation. We investigate that segmenting a brain tumor is facing to the imbalanced data problem where the number of pixels belonging to the background class (non tumor pixel) is much larger than the number of pixels belonging to the foreground class (tumor pixel). To address this problem, we propose a multi-task network which is formed as a cascaded structure. Our model consists of two targets, i.e., (i) effectively differentiate the brain tumor regions and (ii) estimate the brain tumor mask. The first objective is performed by our proposed contextual brain tumor detection network, which plays a role of an attention gate and focuses on the region around brain tumor only while ignoring the far neighbor background which is less correlated to the tumor. The second objective is built upon a 3D atrous residual network and under an encode-decode network in order to effectively segment both large and small objects (brain tumor). Our 3D atrous residual network is designed with a skip connection to enables the gradient from the deep layers to be directly propagated to shallow layers, thus, features of different depths are preserved and used for refining each other. In order to incorporate larger contextual information from volume MRI data, our network utilizes the 3D atrous convolution with various kernel sizes, which enlarges the receptive field of filters. Our proposed network has been evaluated on various datasets including BRATS2015, BRATS2017 and BRATS2018 datasets with both validation set and testing set. Our performance has been benchmarked by both region-based metrics and surface-based metrics. We also have conducted comparisons against state-of-the-art approaches.
翻訳日:2021-05-23 14:53:34 公開日:2020-12-03
# RGB-D スキャンのパートベース理解に向けて

Towards Part-Based Understanding of RGB-D Scans ( http://arxiv.org/abs/2012.02094v1 )

ライセンス: Link先を確認
Alexey Bokhovkin, Vladislav Ishimtsev, Emil Bogomolov, Denis Zorin, Alexey Artemov, Evgeny Burnaev, Angela Dai(参考訳) 近年の3次元セマンティック・シーン理解の進歩は、3次元のインスタンス・セグメンテーションの顕著な進歩を示し、3次元のシーンに関するオブジェクトレベルの推論を可能にしている。 そこで我々は,シーンのRGB-Dスキャンからオブジェクトを検出し,各オブジェクトが幾何学的な部分マスクに分解することを予測し,観察対象の完全な形状を合成する,実世界の3D環境をパートベースで理解するタスクを提案する。 我々は、中間部分グラフ表現を活用して、ロバストな補完と、最終的な部分マスク予測を構築するために使用する部分事前の構築を可能にする。 実験により,パートグラフから事前予測への部分理解が,意味的部分補完のタスクに対する代替アプローチを大幅に上回ることを示した。

Recent advances in 3D semantic scene understanding have shown impressive progress in 3D instance segmentation, enabling object-level reasoning about 3D scenes; however, a finer-grained understanding is required to enable interactions with objects and their functional understanding. Thus, we propose the task of part-based scene understanding of real-world 3D environments: from an RGB-D scan of a scene, we detect objects, and for each object predict its decomposition into geometric part masks, which composed together form the complete geometry of the observed object. We leverage an intermediary part graph representation to enable robust completion as well as building of part priors, which we use to construct the final part mask predictions. Our experiments demonstrate that guiding part understanding through part graph to part prior-based predictions significantly outperforms alternative approaches to the task of semantic part completion.
翻訳日:2021-05-23 14:53:07 公開日:2020-12-03
# MakeupBag: メイクアップの抽出と応用

MakeupBag: Disentangling Makeup Extraction and Application ( http://arxiv.org/abs/2012.02157v1 )

ライセンス: Link先を確認
Dokhyam Hoshen(参考訳) 本稿では,自動メイクスタイル転送方式であるMakeupBagを紹介する。 提案手法は,新しいメイクスタイルを基準顔画像からこれまで見られなかった別の顔写真に転送することができる。 2つのタスクを絡める他の深い方法とは対照的に,化粧の絡み合いや顔のメイクアップを分離可能な目的として解決する。 MakeupBagは、現在の方法では不可能な、抽出したメイクスタイルのカスタマイズとピクセル固有の修正を可能にするため、我々のアプローチにとって大きな利点である。 本手法により得られた画像の品質と精度を,定性的かつ数値的に検証した。 さらに、他のほとんどの方法とは対照的に、MakeupBagは古典的、極端な化粧品の移り変わりに対処している。 比較分析では、MakeupBagは現在の最先端のアプローチより優れていることが示されている。

This paper introduces MakeupBag, a novel method for automatic makeup style transfer. Our proposed technique can transfer a new makeup style from a reference face image to another previously unseen facial photograph. We solve makeup disentanglement and facial makeup application as separable objectives, in contrast to other current deep methods that entangle the two tasks. MakeupBag presents a significant advantage for our approach as it allows customization and pixel specific modification of the extracted makeup style, which is not possible using current methods. Extensive experiments, both qualitative and numerical, are conducted demonstrating the high quality and accuracy of the images produced by our method. Furthermore, in contrast to most other current methods, MakeupBag tackles both classical and extreme and costume makeup transfer. In a comparative analysis, MakeupBag is shown to outperform current state-of-the-art approaches.
翻訳日:2021-05-23 14:52:08 公開日:2020-12-03
# セルフラベル条件付きgan

Self-labeled Conditional GANs ( http://arxiv.org/abs/2012.02162v1 )

ライセンス: Link先を確認
Mehdi Noroozi(参考訳) 本稿では,データからラベルを自動取得する条件付きgan学習のための新しい教師なしフレームワークを提案する。 我々は、クラスタリングネットワークを標準的な条件付きGANフレームワークに組み込み、差別化と対戦する。 ジェネレータは、偽のラベルと偽のイメージを関連付けるための共有構造化マッピングを見つけることを目的としている。 当社のジェネレータは、ImageNetやLSUNといった大規模データセットに対して、大きなマージンを持つFIDの観点から非条件GANよりも優れています。 また、cifar10とcifar100の人間のラベルでトレーニングされたクラス条件付きganよりも優れており、細かいアノテーションやクラスごとの大量のサンプルは利用できない。 さらに、クラスタリングネットワークは、CIFAR100クラスタリングの最先端を超えています。

This paper introduces a novel and fully unsupervised framework for conditional GAN training in which labels are automatically obtained from data. We incorporate a clustering network into the standard conditional GAN framework that plays against the discriminator. With the generator, it aims to find a shared structured mapping for associating pseudo-labels with the real and fake images. Our generator outperforms unconditional GANs in terms of FID with significant margins on large scale datasets like ImageNet and LSUN. It also outperforms class conditional GANs trained on human labels on CIFAR10 and CIFAR100 where fine-grained annotations or a large number of samples per class are not available. Additionally, our clustering network exceeds the state-of-the-art on CIFAR100 clustering.
翻訳日:2021-05-23 14:51:54 公開日:2020-12-03
# BoxInst: Boxアノテーションによる高性能インスタンスセグメンテーション

BoxInst: High-Performance Instance Segmentation with Box Annotations ( http://arxiv.org/abs/2012.02310v1 )

ライセンス: Link先を確認
Zhi Tian, Chunhua Shen, Xinlong Wang, Hao Chen(参考訳) トレーニング用バウンディングボックスアノテーションのみを用いて,マスクレベルのインスタンスセグメンテーションを実現する高性能な手法を提案する。 この設定は文献で研究されているが、単純な設計(例えば、前回報告されたマスクapの21.1%をhsu等で劇的に改善するなど)で大幅に性能が向上している。 (2019) - COCOデータセットで31.6%。 私たちの核となるアイデアは、セグメンテーションネットワーク自体を変更することなく、インスタンスセグメンテーションにおける学習マスクの損失を再設計することです。 新しいロス機能は、マスクアノテーションに頼ることなく、マスクトレーニングを監視できる。 これにより、2つの損失項、すなわち1)接地箱の投影と予測マスクとの差を最小限に抑えるサロゲート項、2)類似色を持つ近位画素が同じカテゴリラベルを持つ可能性が非常に高いという先行を生かすことができる対方向の損失という2つの損失項が実現される。 再設計されたマスクの損失は、ボックスアノテーションだけで驚くほど高品質なインスタンスマスクを生み出すことができる。 例えば、マスクアノテーションを一切使わずに、ResNet-101のバックボーンと3xのトレーニングスケジュールを持ち、COCOテストデブ分割(vs.39.1%)で33.2%のマスクAPを達成する。 COCO と Pascal VOC の優れた実験結果から,本手法は弱小と完全教師付きインスタンスセグメンテーション間の性能ギャップを劇的に狭めることが示唆された。 コードは、https://git.io/Adela iDet.comで入手できる。

We present a high-performance method that can achieve mask-level instance segmentation with only bounding-box annotations for training. While this setting has been studied in the literature, here we show significantly stronger performance with a simple design (e.g., dramatically improving previous best reported mask AP of 21.1% in Hsu et al. (2019) to 31.6% on the COCO dataset). Our core idea is to redesign the loss of learning masks in instance segmentation, with no modification to the segmentation network itself. The new loss functions can supervise the mask training without relying on mask annotations. This is made possible with two loss terms, namely, 1) a surrogate term that minimizes the discrepancy between the projections of the ground-truth box and the predicted mask; 2) a pairwise loss that can exploit the prior that proximal pixels with similar colors are very likely to have the same category label. Experiments demonstrate that the redesigned mask loss can yield surprisingly high-quality instance masks with only box annotations. For example, without using any mask annotations, with a ResNet-101 backbone and 3x training schedule, we achieve 33.2% mask AP on COCO test-dev split (vs. 39.1% of the fully supervised counterpart). Our excellent experiment results on COCO and Pascal VOC indicate that our method dramatically narrows the performance gap between weakly and fully supervised instance segmentation. Code is available at: https://git.io/Adela iDet
翻訳日:2021-05-23 14:51:28 公開日:2020-12-03
# 畳み込み共有によるエッジでの協調映像センシングの実現

Enabling Collaborative Video Sensing at the Edge through Convolutional Sharing ( http://arxiv.org/abs/2012.08643v1 )

ライセンス: Link先を確認
Kasthuri Jayarajah, Dhanuja Wanniarachchige, Archan Misra(参考訳) Deep Neural Network(DNN)モデルは、マシンビジョン機能に顕著な進歩をもたらしたが、その高い計算複雑性とモデルサイズは、AIoTベースのセンシングアプリケーションにデプロイする上で、重大な障害となる。 本稿では,ネットワーク内のピアノードが協調して,人物検出における精度を向上させる新しいパラダイムを提案する。 提案手法は,DNNの再学習を必要とせず,かつ,協調者からシーン要約を抽出し,参照カメラのDNNにオンザフライで注入することにより,最小の処理遅延を発生させる。 初期の結果は、ベンチマークデータセット上で、単一のコラボレータで最大10%のリコールの改善を約束している。

While Deep Neural Network (DNN) models have provided remarkable advances in machine vision capabilities, their high computational complexity and model sizes present a formidable roadblock to deployment in AIoT-based sensing applications. In this paper, we propose a novel paradigm by which peer nodes in a network can collaborate to improve their accuracy on person detection, an exemplar machine vision task. The proposed methodology requires no re-training of the DNNs and incurs minimal processing latency as it extracts scene summaries from the collaborators and injects back into DNNs of the reference cameras, on-the-fly. Early results show promise with improvements in recall as high as 10% with a single collaborator, on benchmark datasets.
翻訳日:2021-05-23 14:50:42 公開日:2020-12-03
# レーザー誘起破壊分光のためのディープスペクトルCNN

Deep Spectral CNN for Laser Induced Breakdown Spectroscopy ( http://arxiv.org/abs/2012.01653v1 )

ライセンス: Link先を確認
Juan Castorena, Diane Oyen, Ann Ollila, Carey Legget and Nina Lanza(参考訳) 本研究は,レーザー誘起分解スペクトル(libs)信号に作用するスペクトル畳み込みニューラルネットワーク(cnn)を提案し,(1)センサの不確かさの源(すなわち,前処理)からスペクトル信号を不連続化すること,(2)スペクトル信号(すなわちカリブレート)が与えられた試料の化学成分の質的・定量的測定を行うことを学習する。 スペクトルcnnがトレーニングされると、単一のフィードフォワードパスを通じて、リアルタイムのメリットとダーク電流、システム応答、温度、ターゲット範囲などの追加のサイド情報要求なしで、どちらのタスクも達成できる。 提案手法は,火星探査機「キュリオシティ(curiosity)」によるリモートセンシング観測の前処理とキャリブレーションに使用される既存の手法を上回っている。

This work proposes a spectral convolutional neural network (CNN) operating on laser induced breakdown spectroscopy (LIBS) signals to learn to (1) disentangle spectral signals from the sources of sensor uncertainty (i.e., pre-process) and (2) get qualitative and quantitative measures of chemical content of a sample given a spectral signal (i.e., calibrate). Once the spectral CNN is trained, it can accomplish either task through a single feed-forward pass, with real-time benefits and without any additional side information requirements including dark current, system response, temperature and detector-to-target range. Our experiments demonstrate that the proposed method outperforms the existing approaches used by the Mars Science Lab for pre-processing and calibration for remote sensing observations from the Mars rover, 'Curiosity'.
翻訳日:2021-05-23 14:50:30 公開日:2020-12-03
# クロスロス影響関数を用いたディープネットワーク表現の解説

Using Cross-Loss Influence Functions to Explain Deep Network Representations ( http://arxiv.org/abs/2012.01685v1 )

ライセンス: Link先を確認
Andrew Silva, Rohit Chopra, and Matthew Gombolay(参考訳) 機械学習が現実世界にますます導入されるにつれて、トレーニングするモデルの意思決定基準を理解することがますます重要になります。 近年、深層ニューラルネットワークの分類精度に対するトレーニングサンプルの効果を近似するために、サンプルインパクトの統計的尺度である影響関数が拡張される可能性が示されている。 しかしながら、事前の作業は、トレーニングとテストが目的関数を共有する教師付き学習設定にのみ適用される。 教師なし学習、自己教師型学習、モデル事前学習の増加にもかかわらず、現在、トレーニングやテストを行わないディープネットワークの影響を推定するための適切な技術は存在しない。 この制限を克服するために、我々は、影響関数がミスマッチしたトレーニングとテストの設定を扱うように拡張できる、最初の理論的および実証的な実証を提供する。 その結果, 教師なし, 自己監督型トレーニング例の影響を, 教師付きテスト対象に対して計算できることがわかった。 この手法を合成データセットと2つのSkip-gram言語モデルで実証し、クラスタメンバシップと不要なバイアス源について検討する。

As machine learning is increasingly deployed in the real world, it is ever more vital that we understand the decision-criteria of the models we train. Recently, researchers have shown that influence functions, a statistical measure of sample impact, may be extended to approximate the effects of training samples on classification accuracy for deep neural networks. However, prior work only applies to supervised learning setups where training and testing share an objective function. Despite the rise in unsupervised learning, self-supervised learning, and model pre-training, there are currently no suitable technologies for estimating influence of deep networks that do not train and test on the same objective. To overcome this limitation, we provide the first theoretical and empirical demonstration that influence functions can be extended to handle mismatched training and testing settings. Our result enables us to compute the influence of unsupervised and self-supervised training examples with respect to a supervised test objective. We demonstrate this technique on a synthetic dataset as well as two Skip-gram language model examples to examine cluster membership and sources of unwanted bias.
翻訳日:2021-05-23 14:50:13 公開日:2020-12-03
# 自己回帰学習と非自己回帰学習に関する研究

A Study on the Autoregressive and non-Autoregressive Multi-label Learning ( http://arxiv.org/abs/2012.01711v1 )

ライセンス: Link先を確認
Elham J. Barezi, Iacer Calixto, Kyunghyun Cho, Pascale Fung(参考訳) 極端分類タスクは、非常に多くのラベル(タグ)を持つマルチラベルタスクである。 これらのタスクは、ラベル空間は通常(i)非常に大きいので難しい。 何千、何百万というラベル(ii)は非常にまばらです。 非常に少数のラベルが各入力文書に適用され、(iii)高い相関関係があり、1つのラベルの存在が他のすべてのラベルを予測する可能性を変化させます。 本研究では,ラベルとラベルの依存関係を共同で抽出し,与えられた入力に対してラベルを予測するために,自己アテンションに基づく変分エンコーダモデルを提案する。 より詳しくは、非自己回帰潜在変数モデルを提案し、前述した全てのラベルに基づいてラベルを予測する強力な自己回帰ベースラインと比較する。 そこで本モデルでは,ラベルラベルとラベル機能の両方の依存性を潜伏変数を通じて含みながら,すべてのラベルを並列に予測することができる。 我々は,4つの標準極端分類自然言語データセットと,セマンティック概念の語彙からラベルの自動検出のためのニュースビデオデータセットに適用した。 実験結果から,チェーン順ラベルの予測にラベルの所定の順序を使用する自己回帰モデルは,小規模ラベルや高ランクラベルの予測に優れるが,我々の非自己回帰モデルは,より多くのラベルを予測する必要がある場合,約2%から6%の精度でラベルを上回り,データセットはより多くのラベルを持つことがわかった。

Extreme classification tasks are multi-label tasks with an extremely large number of labels (tags). These tasks are hard because the label space is usually (i) very large, e.g. thousands or millions of labels, (ii) very sparse, i.e. very few labels apply to each input document, and (iii) highly correlated, meaning that the existence of one label changes the likelihood of predicting all other labels. In this work, we propose a self-attention based variational encoder-model to extract the label-label and label-feature dependencies jointly and to predict labels for a given input. In more detail, we propose a non-autoregressive latent variable model and compare it to a strong autoregressive baseline that predicts a label based on all previously generated labels. Our model can therefore be used to predict all labels in parallel while still including both label-label and label-feature dependencies through latent variables, and compares favourably to the autoregressive baseline. We apply our models to four standard extreme classification natural language data sets, and one news videos dataset for automated label detection from a lexicon of semantic concepts. Experimental results show that although the autoregressive models, where use a given order of the labels for chain-order label prediction, work great for the small scale labels or the prediction of the highly ranked label, but our non-autoregressive model surpasses them by around 2% to 6% when we need to predict more labels, or the dataset has a larger number of the labels.
翻訳日:2021-05-23 14:49:57 公開日:2020-12-03
# ニューラルアーキテクチャサーチを用いた自動ランタビリティ予測器の開発

Automatic Routability Predictor Development Using Neural Architecture Search ( http://arxiv.org/abs/2012.01737v1 )

ライセンス: Link先を確認
Jingyu Pan, Chen-Chia Chang, Tunhou Zhang, Zhiyao Xie, Jiang Hu, Weiyi Qi, Chung-Wei Lin, Rongjian Liang, Joydeep Mitra, Elias Fallon and Yiran Chen(参考訳) 機械学習技術の台頭は、電子設計自動化(EDA)におけるその応用のブームを呼び起こし、チップ設計における自動化の度合いを向上させる。 しかしながら、手作業による機械学習モデルは、広範な人間的専門知識と膨大なエンジニアリング努力を必要とする。 本研究では,ニューラルネットワーク探索(NAS)を活用して,セル配置をルータブルな解へ誘導するルタビリティ予測のための高品質なニューラルアーキテクチャを自動開発する。 実験結果は、自動生成されたニューラルネットワークが手動のソリューションを明らかに上回っていることを示している。 手動設計モデルの平均ケースと比較して、NAS生成モデルは、DRCホットスポット検出において、DRC違反のネット数を予測する際に、Kendallの$\tau$5.6\%、ROC曲線(ROC-AUC)より大きい領域を1.95\%に達する。

The rise of machine learning technology inspires a boom of its applications in electronic design automation (EDA) and helps improve the degree of automation in chip designs. However, manually crafted machine learning models require extensive human expertise and tremendous engineering efforts. In this work, we leverage neural architecture search (NAS) to automatically develop high-quality neural architectures for routability prediction, which guides cell placement toward routable solutions. Experimental results demonstrate that the automatically generated neural architectures clearly outperform the manual solutions. Compared to the average case of manually designed models, NAS-generated models achieve $5.6\%$ higher Kendall's $\tau$ in predicting the number of nets with DRC violations and $1.95\%$ larger area under ROC curve (ROC-AUC) in DRC hotspots detection.
翻訳日:2021-05-23 14:49:33 公開日:2020-12-03
# ディープニューラルネットワークにおけるブラックボックス攻撃に対する導出自由最適化アルゴリズムの実証的研究

An Empirical Study of Derivative-Free-Opti mization Algorithms for Targeted Black-Box Attacks in Deep Neural Networks ( http://arxiv.org/abs/2012.01901v1 )

ライセンス: Link先を確認
Giuseppe Ughi, Vinayak Abrol, Jared Tanner(参考訳) 本稿では,Deep Neural Network (DNN) 分類器に対するターゲットブラックボックス攻撃に対する微分自由最適化(DFO)アルゴリズムの性能について,摂動エネルギーが$\ell_\infty$制約で制限され,ネットワークへのクエリ数が制限されていることを前提として総合的に検討する。 本稿では,モデルベースDFO法であるBOBYQAに基づく新しいアルゴリズムの導入とともに,既存のDFOベースの4つのアルゴリズムについて考察する。 我々はこれらのアルゴリズムを、DNNに最大数のクエリを付与した画像を誤分類した数に応じて、様々な設定で比較する。 BOBYQAをベースとしたアルゴリズムは、特に小さな摂動エネルギーに対して有効であるのに対して、$\ell^\infty$制約の頂点に対する逆例の探索を制限するアルゴリズムは、特に構造的な防御なしにうまく機能する。 この性能のばらつきは、様々な設定における最先端のアルゴリズムと比較される新しいアルゴリズムの重要性と、可能な限り幅広いアルゴリズムを用いてテストされる敵防衛の有効性を強調している。

We perform a comprehensive study on the performance of derivative free optimization (DFO) algorithms for the generation of targeted black-box adversarial attacks on Deep Neural Network (DNN) classifiers assuming the perturbation energy is bounded by an $\ell_\infty$ constraint and the number of queries to the network is limited. This paper considers four pre-existing state-of-the-art DFO-based algorithms along with the introduction of a new algorithm built on BOBYQA, a model-based DFO method. We compare these algorithms in a variety of settings according to the fraction of images that they successfully misclassify given a maximum number of queries to the DNN. The experiments disclose how the likelihood of finding an adversarial example depends on both the algorithm used and the setting of the attack; algorithms limiting the search of adversarial example to the vertices of the $\ell^\infty$ constraint work particularly well without structural defenses, while the presented BOBYQA based algorithm works better for especially small perturbation energies. This variance in performance highlights the importance of new algorithms being compared to the state-of-the-art in a variety of settings, and the effectiveness of adversarial defenses being tested using as wide a range of algorithms as possible.
翻訳日:2021-05-23 14:49:15 公開日:2020-12-03
# 知的ディジタルツインの実現手段としてのトランスファーラーニング

Transfer Learning as an Enabler of the Intelligent Digital Twin ( http://arxiv.org/abs/2012.01913v1 )

ライセンス: Link先を確認
Benjamin Maschler, Dominik Braun, Nasser Jazdi, Michael Weyrich(参考訳) デジタル双子は、仮想コミッション、障害予測、再構成計画など、多くの分野で有益であると説明されている。 人工知能機能を備えたDigital Twinsの買収は、これらの有益なアプリケーションを大きく拡大したり、全く新しい分野のアプリケーションを開くことができる。 機械学習の文脈では、トランスファーラーニングは、以前に獲得した知識に基づいて新しいタスクを学習するための一連のアプローチである。 ここでは、機械学習アルゴリズムのトレーニングに必要なデータや時間を減らすために、知識をライフサイクルフェーズから別のフェーズに転送する。 インテリジェントなデジタルツインを使用すると、学習アルゴリズムは物理システムが存在する前に設計フェーズで設計、構成、テストされ、実際のデータが収集できます。 実際のデータが利用可能になったら、アルゴリズムは単に微調整されなければならず、コミッショニングが大幅にスピードアップし、コストのかかる修正の可能性が低下する。 さらに、Digital Twinのシミュレーション機能を使用することで、アルゴリズムの応答をトレーニングしたり、強化学習を使用するために、稀な障害を事実上注入する。 ロボットを教えることで 現実的に実現できます 本稿では,知的デジタルツインを用いた多段階産業移行学習のユースケースについて述べる。 ロボットアームを備えた自動溶接機と自動誘導車両とからなる実際のサイバー物理生産システムを用いて、それぞれの利点を説明する。

Digital Twins have been described as beneficial in many areas, such as virtual commissioning, fault prediction or reconfiguration planning. Equipping Digital Twins with artificial intelligence functionalities can greatly expand those beneficial applications or open up altogether new areas of application, among them cross-phase industrial transfer learning. In the context of machine learning, transfer learning represents a set of approaches that enhance learning new tasks based upon previously acquired knowledge. Here, knowledge is transferred from one lifecycle phase to another in order to reduce the amount of data or time needed to train a machine learning algorithm. Looking at common challenges in developing and deploying industrial machinery with deep learning functionalities, embracing this concept would offer several advantages: Using an intelligent Digital Twin, learning algorithms can be designed, configured and tested in the design phase before the physical system exists and real data can be collected. Once real data becomes available, the algorithms must merely be fine-tuned, significantly speeding up commissioning and reducing the probability of costly modifications. Furthermore, using the Digital Twin's simulation capabilities virtually injecting rare faults in order to train an algorithm's response or using reinforcement learning, e.g. to teach a robot, become practically feasible. This article presents several cross-phase industrial transfer learning use cases utilizing intelligent Digital Twins. A real cyber physical production system consisting of an automated welding machine and an automated guided vehicle equipped with a robot arm is used to illustrate the respective benefits.
翻訳日:2021-05-23 14:48:54 公開日:2020-12-03
# バイオメディカルデータのための近似kNN分類

Approximate kNN Classification for Biomedical Data ( http://arxiv.org/abs/2012.02149v1 )

ライセンス: Link先を確認
Panagiotis Anagnostou, Petros T. Barmbas, Aristidis G. Vrahatis and Sotiris K. Tasoulis(参考訳) ビッグデータ分析が様々なバイオメディカル現象の解釈方法を変えた時代であり、生成されたデータが増えるにつれて、この進化を扱うための新しい機械学習手法の必要性が高まっています。 例えば、単一細胞RNA-seq (scRNA-seq) は、期待できる能力を持つが、大規模に生成されたデータによる計算上の大きな課題を持つ新しいDNAシークエンシング技術である。 scrna-seqデータの分類プロセスについては、その単純性、最小パラメータ化、モデルフリーな性質から、通常大規模予測タスクに使用されるため、k近傍 (knn) 分類法が適当である。 しかし、scRNA-seqを特徴付ける超高次元性は計算ボトルネックを課し、予測力は「次元の曲線」の影響を受けうる。 本研究では,cRNA-seqデータにおけるkNN分類のタスクに近接した近傍探索アルゴリズムを用いて,高次元データに適した特定の手法を提案する。 緩和された近似解でさえ予測性能に大きな影響を与えない。 実験結果は, 広く適用可能な可能性を提供することにより, 当初の仮定を確認した。

We are in the era where the Big Data analytics has changed the way of interpreting the various biomedical phenomena, and as the generated data increase, the need for new machine learning methods to handle this evolution grows. An indicative example is the single-cell RNA-seq (scRNA-seq), an emerging DNA sequencing technology with promising capabilities but significant computational challenges due to the large-scaled generated data. Regarding the classification process for scRNA-seq data, an appropriate method is the k Nearest Neighbor (kNN) classifier since it is usually utilized for large-scale prediction tasks due to its simplicity, minimal parameterization, and model-free nature. However, the ultra-high dimensionality that characterizes scRNA-seq impose a computational bottleneck, while prediction power can be affected by the "Curse of Dimensionality". In this work, we proposed the utilization of approximate nearest neighbor search algorithms for the task of kNN classification in scRNA-seq data focusing on a particular methodology tailored for high dimensional data. We argue that even relaxed approximate solutions will not affect the prediction performance significantly. The experimental results confirm the original assumption by offering the potential for broader applicability.
翻訳日:2021-05-23 14:48:32 公開日:2020-12-03
# 最適政策ツリー

Optimal Policy Trees ( http://arxiv.org/abs/2012.02279v1 )

ライセンス: Link先を確認
Maxime Amram, Jack Dunn, Ying Daisy Zhuo(参考訳) 本研究では,データから直接木ベース処方ポリシーを学習する手法を提案し,因果推論文献からの反事実推定法とグローバル最適決定木訓練の最近の進歩を組み合わせた。 得られたメソッドであるOptimal Policy Treesは解釈可能な処方薬ポリシーを出力し、高度にスケーラブルで、離散的および連続的な処理を処理します。 合成と実世界の両方のデータセットについて広範な実験を行い、これらの木が様々な問題に対して最高の性能を提供することを示した。

We propose an approach for learning optimal tree-based prescription policies directly from data, combining methods for counterfactual estimation from the causal inference literature with recent advances in training globally-optimal decision trees. The resulting method, Optimal Policy Trees, yields interpretable prescription policies, is highly scalable, and handles both discrete and continuous treatments. We conduct extensive experiments on both synthetic and real-world datasets and demonstrate that these trees offer best-in-class performance across a wide variety of problems.
翻訳日:2021-05-23 14:48:14 公開日:2020-12-03
# ReMix: ディープラーニングにおけるクラス不均衡のための校正リサンプリング

ReMix: Calibrated Resampling for Class Imbalance in Deep learning ( http://arxiv.org/abs/2012.02312v1 )

ライセンス: Link先を確認
Colin Bellinger, Roberto Corizzo, Nathalie Japkowicz(参考訳) 授業不均衡は、健康、医療、交通、金融といった重要な分野において、訓練されたモデルが意思決定支援や自動決定に活用される、応用深層学習において重要な問題である。 不均衡なトレーニングデータから深層モデルを学ぶという課題は依然として高く、最先端のソリューションは一般的にデータに依存し、主に画像データに焦点を当てている。 しかし、実世界の不均衡な分類問題はより多様であり、表、画像、テキストデータに適用できる一般的な解を必要とする。 本稿では,不均衡学習のためのロバストな深層モデルの導入を可能にするために,バッチ再サンプリング,インスタンス混合,ソフトラベルを活用したトレーニング手法であるremixを提案する。 以上の結果から,ReMixでトレーニングした高密度ネットとCNNは,g平均値より優れ,バランスの取れたBrierスコアより校正性がよいことがわかった。

Class imbalance is a problem of significant importance in applied deep learning where trained models are exploited for decision support and automated decisions in critical areas such as health and medicine, transportation, and finance. The challenge of learning deep models from imbalanced training data remains high, and the state-of-the-art solutions are typically data dependent and primarily focused on image data. Real-world imbalanced classification problems, however, are much more diverse thus necessitating a general solution that can be applied to tabular, image and text data. In this paper, we propose ReMix, a training technique that leverages batch resampling, instance mixing and soft-labels to enable the induction of robust deep models for imbalanced learning. Our results show that dense nets and CNNs trained with ReMix generally outperform the alternatives according to the g-mean and are better calibrated according to the balanced Brier score.
翻訳日:2021-05-23 14:48:05 公開日:2020-12-03
# TRACE : Transformer-Enhanced Feature Embedding による慢性腎臓病の早期診断

TRACE: Early Detection of Chronic Kidney Disease Onset with Transformer-Enhanced Feature Embedding ( http://arxiv.org/abs/2012.03729v1 )

ライセンス: Link先を確認
Yu Wang, Ziqiao Guan, Wei Hou, Fusheng Wang(参考訳) 慢性腎疾患(CKD)は、過剰な危険因子とそれに関連する合併症により予後不良である。 CKDの早期発見は、陽性患者の医療史と複雑な危険因子の不足に直面する。 本稿では,患者の医療履歴データを用いたエンドツーエンド予測モデルであるTRACE(Transformer-RN N Autoencoder-enhanced CKD Detector)フレームワークを提案する。 TRACEは、新しいキーコンポーネントであるTransformer-RNNオートエンコーダを備えた包括的医療史表現を提供する。 オートエンコーダは、病院訪問毎にトランスフォーマーによる医療概念の埋め込みと、全訪問にわたる患者の医療歴を要約した潜在表現を共同で学習する。 実世界の医療記録から得られたデータセットにおけるトレースと最先端の複数の手法を比較した。 提案手法は0.5708 auprcを達成し,2.31%の相対的改善が得られた。 また,可視化や症例スタディを通じて,学習した埋め込みの臨床的意義を検証し,一般的な疾患予測モデルとしてのTRACEの可能性を示した。

Chronic kidney disease (CKD) has a poor prognosis due to excessive risk factors and comorbidities associated with it. The early detection of CKD faces challenges of insufficient medical histories of positive patients and complicated risk factors. In this paper, we propose the TRACE (Transformer-RNN Autoencoder-enhanced CKD Detector) framework, an end-to-end prediction model using patients' medical history data, to deal with these challenges. TRACE presents a comprehensive medical history representation with a novel key component: a Transformer-RNN autoencoder. The autoencoder jointly learns a medical concept embedding via Transformer for each hospital visit, and a latent representation which summarizes a patient's medical history across all the visits. We compared TRACE with multiple state-of-the-art methods on a dataset derived from real-world medical records. Our model has achieved 0.5708 AUPRC with a 2.31% relative improvement over the best-performing method. We also validated the clinical meaning of the learned embeddings through visualizations and a case study, showing the potential of TRACE to serve as a general disease prediction model.
翻訳日:2021-05-23 14:47:49 公開日:2020-12-03
# 建設・工学分野における物理・金融サプライチェーン統合へのブロックチェーン型暗号通貨資産の適用

The Application of Blockchain-Based Crypto Assets for Integrating the Physical and Financial Supply Chains in the Construction & Engineering Industry ( http://arxiv.org/abs/2012.02147v1 )

ライセンス: Link先を確認
Hesam Hamledari and Martin Fischer(参考訳) サプライチェーンの統合は、建設とエンジニアリング産業にとって大きな目標である。 フラグメンテーションの高度化と、サードパーティの金融機関への依存が、物理的なサプライチェーンと金融サプライチェーンを解体させた。 この論文は、ブロックチェーンベースの暗号通貨資産(暗号化通貨と暗号化トークン)が、製品のフローに基づいた資金の流れの条件付けに使用される場合、この制限にどのように対処できるかを示す。 この論文は、金融通貨と暗号資産に依存するサプライチェーンにおける現金と製品フローの統合を対照的にしている。 さらに2つの暗号資産対応統合、原子性、粒度が導入された。 この論文は建設進捗の支払いの文脈で検証されている。 無人航空機と地上車両が収集したas構築データは、暗号通貨と暗号通貨トークンを決済決済に利用する自律型スマートコントラクトベースの手法に渡され、その結果得られた支払いデータセットはethereumブロックチェーンに書き込まれ、製品とキャッシュフローの統合の観点から分析された。 研究は、業界への発見とその影響に関する議論で締めくくられている。

Supply chain integration remains an elusive goal for the construction and engineering industry. The high degree of fragmentation and the reliance on third-party financial institutions has pushed the physical and financial supply chains apart. The paper demonstrates how blockchain-based crypto assets (crypto currencies and crypto tokens) can address this limitation when used for conditioning the flow of funds based on the flow of products. The paper contrasts the integration between cash and product flows in supply chains that rely on fiat currencies and crypto assets for their payment settlement. Two facets of crypto asset-enabled integration, atomicity and granularity, are further introduced. The thesis is validated in the context of construction progress payments. The as-built data captured by unmanned aerial and ground vehicles was passed to an autonomous smart contract-based method that utilizes crypto-currencies and crypto tokens for payment settlement; the resulting payment datasets, written to the Ethereum blockchain, were analyzed in terms of their integration of product and cash flow. The work is concluded with a discussion of findings and their implications for the industry.
翻訳日:2021-05-23 14:46:55 公開日:2020-12-03
# 教師なし音響単語埋め込みのための対応変分オートエンコーダ

A Correspondence Variational Autoencoder for Unsupervised Acoustic Word Embeddings ( http://arxiv.org/abs/2012.02221v1 )

ライセンス: Link先を確認
Puyuan Peng, Herman Kamper, Karen Livescu(参考訳) 本稿では,可変デュレーション音声セグメントを定次元表現にマッピングする新しい教師なしモデルを提案する。 結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語の検索、発見、インデックスシステムの基礎を形成することができる。 我々のモデルは、最大サンプリング対応変分オートエンコーダ(MCVAE)と呼ばれ、同じ単語の異なるインスタンスの埋め込み間の整合性を促進する新しい自己教師付き対応損失をトレーニングしたリカレントニューラルネットワーク(RNN)である。 提案手法は, 近似後部分布から得られた複数のサンプルの利用と比較により, 従来の対応訓練手法の改良を行う。 ゼロリソース設定では、MCVAEは、教師なし項発見システムを介して発見された単語のようなセグメントを使用することで、基幹語対なしで教師なしの方法で訓練することができる。 この設定と半教師付き低リソース設定(接頭辞対の限られたセット)の両方において、MCVAEはシームズ、CAE、VAEベースのRNNといった従来の最先端モデルよりも優れている。

We propose a new unsupervised model for mapping a variable-duration speech segment to a fixed-dimensional representation. The resulting acoustic word embeddings can form the basis of search, discovery, and indexing systems for low- and zero-resource languages. Our model, which we refer to as a maximal sampling correspondence variational autoencoder (MCVAE), is a recurrent neural network (RNN) trained with a novel self-supervised correspondence loss that encourages consistency between embeddings of different instances of the same word. Our training scheme improves on previous correspondence training approaches through the use and comparison of multiple samples from the approximate posterior distribution. In the zero-resource setting, the MCVAE can be trained in an unsupervised way, without any ground-truth word pairs, by using the word-like segments discovered via an unsupervised term discovery system. In both this setting and a semi-supervised low-resource setting (with a limited set of ground-truth word pairs), the MCVAE outperforms previous state-of-the-art models, such as Siamese-, CAE- and VAE-based RNNs.
翻訳日:2021-05-23 14:46:37 公開日:2020-12-03
# GraphPB:音声合成における韻律境界のグラフ表現

GraphPB: Graphical Representations of Prosody Boundary in Speech Synthesis ( http://arxiv.org/abs/2012.02626v1 )

ライセンス: Link先を確認
Aolan Sun, Jianzong Wang, Ning Cheng, Huayi Peng, Zhen Zeng, Lingwei Kong, Jing Xiao(参考訳) 本稿では,中国語音声合成作業における韻律境界(GraphPB)のグラフィカルな表現手法を提案する。 グラフ埋め込みのノードは韻律語で形成され、エッジは他の韻律境界、すなわち韻律句境界(PPH)とイントネーション句境界(IPH)によって形成される。 Ged Graph Neural Network (GGNN) や Graph Long Short-Term Memory (G-LSTM) のようなグラフニューラルネットワーク(GNN) はグラフエンコーダとして使われ、グラフィカルな韻律境界情報を利用する。 グラフ列モデルを提案し,グラフエンコーダと注意デコーダによって構成する。 逐次情報をgraph-to-sequence text-to-speechモデルに埋め込むための2つの手法を提案する。 実験の結果,提案手法は発話の音韻リズムと韻律リズムを符号化できることがわかった。 これらのGNNモデルの平均世論スコア(MOS)は、韻律的側面においてより優れた性能を有する最先端のシーケンス・ツー・シーケンスモデルと比較結果を示す。 これは、エンドツーエンド音声合成における韻律モデリングの代替アプローチを提供する。

This paper introduces a graphical representation approach of prosody boundary (GraphPB) in the task of Chinese speech synthesis, intending to parse the semantic and syntactic relationship of input sequences in a graphical domain for improving the prosody performance. The nodes of the graph embedding are formed by prosodic words, and the edges are formed by the other prosodic boundaries, namely prosodic phrase boundary (PPH) and intonation phrase boundary (IPH). Different Graph Neural Networks (GNN) like Gated Graph Neural Network (GGNN) and Graph Long Short-term Memory (G-LSTM) are utilised as graph encoders to exploit the graphical prosody boundary information. Graph-to-sequence model is proposed and formed by a graph encoder and an attentional decoder. Two techniques are proposed to embed sequential information into the graph-to-sequence text-to-speech model. The experimental results show that this proposed approach can encode the phonetic and prosody rhythm of an utterance. The mean opinion score (MOS) of these GNN models shows comparative results with the state-of-the-art sequence-to-sequence models with better performance in the aspect of prosody. This provides an alternative approach for prosody modelling in end-to-end speech synthesis.
翻訳日:2021-05-23 14:46:18 公開日:2020-12-03
# 回帰学習を伴わない混合戦略の収束不可能性について

On the Impossibility of Convergence of Mixed Strategies with No Regret Learning ( http://arxiv.org/abs/2012.02125v1 )

ライセンス: Link先を確認
Vidya Muthukumar, Soham Phade, Anant Sahai(参考訳) ステージゲームが2対2の競争ゲーム(すなわち2対2の競争ゲーム)の繰り返しゲーム設定において、最適無後悔学習戦略の一般的なクラスから生じる混合戦略の収束性について検討する。 ゲームのすべてのナッシュ平衡(ne)が完全に混合されるゲーム。 我々は,各ステップに設定された情報を,平均ベース戦略と呼ぶ対戦相手の達成したプレイ(およびステップ番号)の経験平均とする戦略の類型を考える。 まず,各ステップでナッシュ平衡混合戦略を行う相手に対して,その混合戦略が(確率的に)収束する結果となるプレイヤー1に対して,最適無後悔,平均ベース戦略が存在しないことを示す。 次に、プレイヤー2が最小のランダム性特性を持つ任意の適応戦略を使用する場合、この最後の反復的発散が必然的に起こることを示す。 この性質は例えば、NEに収束するプレイヤー2の混合戦略の任意の固定列によって満たされる。 この性質は、双方のプレイヤーが互いに最適な無後悔学習戦略を使うときに成り立ち、混合戦略が正の確率で分岐することにつながると推測する。 最後に,決定論的min max最適化における最後の反復収束を導いた,連続バイアスを用いた平均ベース戦略の変種が,この反復的分岐に繋がることを示す。 これは、相手のミキシングと、戦略を更新するために実現することの間の結果に重大な違いを示す。

We study convergence properties of the mixed strategies that result from a general class of optimal no regret learning strategies in a repeated game setting where the stage game is any 2 by 2 competitive game (i.e. game for which all the Nash equilibria (NE) of the game are completely mixed). We consider the class of strategies whose information set at each step is the empirical average of the opponent's realized play (and the step number), that we call mean based strategies. We first show that there does not exist any optimal no regret, mean based strategy for player 1 that would result in the convergence of her mixed strategies (in probability) against an opponent that plays his Nash equilibrium mixed strategy at each step. Next, we show that this last iterate divergence necessarily occurs if player 2 uses any adaptive strategy with a minimal randomness property. This property is satisfied, for example, by any fixed sequence of mixed strategies for player 2 that converges to NE. We conjecture that this property holds when both players use optimal no regret learning strategies against each other, leading to the divergence of the mixed strategies with a positive probability. Finally, we show that variants of mean based strategies using recency bias, which have yielded last iterate convergence in deterministic min max optimization, continue to lead to this last iterate divergence. This demonstrates a crucial difference in outcomes between using the opponent's mixtures and realizations to make strategy updates.
翻訳日:2021-05-23 14:45:59 公開日:2020-12-03
# 階層における書き換えの可逆性と構成

Reversibility and Composition of Rewriting in Hierarchies ( http://arxiv.org/abs/2012.01661v1 )

ライセンス: Link先を確認
Russ Harmer (Univ Lyon, EnsL, UCBL, CNRS, LIP, France), Eugenia Oshurko (Univ Lyon, EnsL, UCBL, CNRS, LIP, France)(参考訳) 本稿では,Sesqui-pushoutリライトに基づくグラフ変換の逆変換と,書き直しの構成について検討する。 このような可逆性と構成を,個々のグラフとグラフ階層の監査証跡システムの設計に利用できることを示す。 これにより、複数のバージョンを含むオブジェクトの更新履歴を維持するためのコンパクトな方法が提供されます。 設計フレームワークの主なアプリケーションは、グラフの階層によって表される知識への更新の監査証跡である。 そこで本研究では,階層構造全体の変換を表わすルール階層の概念を導入し,ルール階層を階層構造に適用し,この適用が可逆である条件を分析する。 次に,階層構造を連続的に書き換える理論を提案する。 ReGraph Pythonライブラリの一部として,属性付き単純なグラフ階層の変換を行うためのプロトタイプ監査証跡システムを実装した。

In this paper, we study how graph transformations based on sesqui-pushout rewriting can be reversed and how the composition of rewrites can be constructed. We illustrate how such reversibility and composition can be used to design an audit trail system for individual graphs and graph hierarchies. This provides us with a compact way to maintain the history of updates of an object, including its multiple versions. The main application of the designed framework is an audit trail of updates to knowledge represented by hierarchies of graphs. Therefore, we introduce the notion of rule hierarchy that represents a transformation of the entire hierarchy, study how rule hierarchies can be applied to hierarchies and analyse the conditions under which this application is reversible. We then present a theory for constructing the composition of consecutive hierarchy rewrites. The prototype audit trail system for transformations in hierarchies of simple graphs with attributes is implemented as part of the ReGraph Python library.
翻訳日:2021-05-23 14:45:34 公開日:2020-12-03
# サイバー物理生産システムにおけるCAAIの認知能力

Cognitive Capabilities for the CAAI in Cyber-Physical Production Systems ( http://arxiv.org/abs/2012.01823v1 )

ライセンス: Link先を確認
Jan Strohschein, Andreas Fischbach, Andreas Bunte, Heide Faeskorn-Woyke, Natalia Moriz, Thomas Bartz-Beielstein(参考訳) 本稿では,サイバー物理生産システム(CPPS)における人工知能(CAAI)の認知モジュールについて述べる。 このアーキテクチャの目的は、CPPSにおける人工知能(AI)アルゴリズムの実装労力を減らすことである。 宣言的なユーザ目標とアルゴリズム知識ベースによって、動的パイプラインのオーケストレーションと設定が可能になる。 ビッグデータプラットフォーム(BDP)はパイプラインをインスタンス化し、CPPSパフォーマンスを監視し、認知モジュールを通じてさらなる評価を行う。 このように、cognitive moduleは、さまざまなユースケースにおいて、プロセスパイプラインの実行可能でロバストな構成を選択できる。 さらに、モデルの品質とリソース消費に基づいて、モデルとアルゴリズムを自動的に適応する。 認知モジュールはまた、異なるクラスからアルゴリズムをテストするための追加パイプラインをインスタンス化する。 CAAIは、モジュールの追加と実装の労力を減らすために、明確に定義されたインターフェイスに依存しています。 最後に、個々のモジュールの仮想化とオーケストレーションのためのDocker、Kubernetes、Kafkaをベースとした実装と、モジュール通信のためのメッセージングテクノロジを使用して、実際のユースケースを評価する。

This paper presents the cognitive module of the cognitive architecture for artificial intelligence (CAAI) in cyber-physical production systems (CPPS). The goal of this architecture is to reduce the implementation effort of artificial intelligence (AI) algorithms in CPPS. Declarative user goals and the provided algorithm-knowledge base allow the dynamic pipeline orchestration and configuration. A big data platform (BDP) instantiates the pipelines and monitors the CPPS performance for further evaluation through the cognitive module. Thus, the cognitive module is able to select feasible and robust configurations for process pipelines in varying use cases. Furthermore, it automatically adapts the models and algorithms based on model quality and resource consumption. The cognitive module also instantiates additional pipelines to test algorithms from different classes. CAAI relies on well-defined interfaces to enable the integration of additional modules and reduce implementation effort. Finally, an implementation based on Docker, Kubernetes, and Kafka for the virtualization and orchestration of the individual modules and as messaging-technology for module communication is used to evaluate a real-world use case.
翻訳日:2021-05-23 14:45:22 公開日:2020-12-03
# ブラインドハイパースペクトル画像の超解像に対する教師なし交互最適化

Unsupervised Alternating Optimization for Blind Hyperspectral Imagery Super-resolution ( http://arxiv.org/abs/2012.01745v1 )

ライセンス: Link先を確認
Jiangtao Nie, Lei Zhang, Wei Wei, Zhiqiang Lang, Yanning Zhang(参考訳) シミュレーションデータに対するハイパースペクトル画像(HSI)超解像(SR)のディープモデルの成功にもかかわらず、そのほとんどは実データに適用した場合、特に教師なしHSI SR法では不満足に機能する。 主な理由の1つは、事前定義された退化モデル(例)が原因である。 空間領域のぼやけ) ほとんどのHSI SR法で利用される手法は、しばしば実データと大きな相違点が存在し、結果としてこれらの深いモデルが過度に適合し、最終的に実データ上での性能が低下する。 このような問題をうまく緩和するために、教師なしブラインドHSI SR法について検討する。 具体的には,空間領域とスペクトル領域の縮退モデルをそれぞれ効果的に得る方法について検討し,融合型sr再構成モデルとの適合性を高める。 そこで本研究では,まず,デジェネレーションモデル推定とhsi再構成が相互に促進できる,デジェネレーションモデルの推定と潜在画像の再構成のための,交互最適化に基づく深層フレームワークを提案する。 さらに,ネットワークを事前学習するためにメタラーニングに基づく機構が提案され,複雑な変性に適応する速度と一般化能力が効果的に向上する。 3つのベンチマークhsi srデータセットにおける実験では,提案手法が他の競合手法よりもブラインドhsi融合問題に優れていることが報告されている。

Despite the great success of deep model on Hyperspectral imagery (HSI) super-resolution(SR) for simulated data, most of them function unsatisfactory when applied to the real data, especially for unsupervised HSI SR methods. One of the main reason comes from the fact that the predefined degeneration models (e.g. blur in spatial domain) utilized by most HSI SR methods often exist great discrepancy with the real one, which results in these deep models overfit and ultimately degrade their performance on real data. To well mitigate such a problem, we explore the unsupervised blind HSI SR method. Specifically, we investigate how to effectively obtain the degeneration models in spatial and spectral domain, respectively, and makes them can well compatible with the fusion based SR reconstruction model. To this end, we first propose an alternating optimization based deep framework to estimate the degeneration models and reconstruct the latent image, with which the degeneration models estimation and HSI reconstruction can mutually promotes each other. Then, a meta-learning based mechanism is further proposed to pre-train the network, which can effectively improve the speed and generalization ability adapting to different complex degeneration. Experiments on three benchmark HSI SR datasets report an excellent superiority of the proposed method on handling blind HSI fusion problem over other competing methods.
翻訳日:2021-05-23 14:45:08 公開日:2020-12-03
# マルチコントラストMRI画像変換のためのフローベース変形誘導法

Flow-based Deformation Guidance for Unpaired Multi-Contrast MRI Image-to-Image Translation ( http://arxiv.org/abs/2012.01777v1 )

ライセンス: Link先を確認
Toan Duc Bui, Manh Nguyen, Ngan Le, Khoa Luu(参考訳) 画像合成は、多くの神経疾患で利用可能な診断情報の多様性を高める。 近年,画像と画像の翻訳は,GAN(Generative Adversarial Network)の成功から,複数の領域に拡張された循環的制約の導入に至るまで,医学研究において大きな関心を集めている。 しかし、現在のアプローチでは、2つのイメージドメイン間のマッピングが一意であるか一対一かは保証されていない。 本稿では,非可逆的アーキテクチャに基づく画像から画像への翻訳手法を提案する。 フローベースアーキテクチャの可逆性は、余分な損失関数なしで画像間変換のサイクル整合性を保証する。 連続したスライス間の時間的情報を利用して,非ペア容積医療画像において,ある領域から別の領域への変換の最適化により多くの制約を与える。 医用画像の時間的構造を捉えるために,連続スライス間の変位を変形場を用いて検討する。 本手法では, 変形場は, 翻訳されたスライドをリアルに保ち, 翻訳全体で一貫性を保つためのガイダンスとして用いられる。 実験の結果,提案手法を用いて合成した画像は,従来の3つの標準データセットの深層学習法と比較して,平均二乗誤差,ピーク信号-雑音比,構造的類似度指数で競合性能をアーカイブできることがわかった。 HCP、MRBrainS13、Brats2019。

Image synthesis from corrupted contrasts increases the diversity of diagnostic information available for many neurological diseases. Recently the image-to-image translation has experienced significant levels of interest within medical research, beginning with the successful use of the Generative Adversarial Network (GAN) to the introduction of cyclic constraint extended to multiple domains. However, in current approaches, there is no guarantee that the mapping between the two image domains would be unique or one-to-one. In this paper, we introduce a novel approach to unpaired image-to-image translation based on the invertible architecture. The invertible property of the flow-based architecture assures a cycle-consistency of image-to-image translation without additional loss functions. We utilize the temporal information between consecutive slices to provide more constraints to the optimization for transforming one domain to another in unpaired volumetric medical images. To capture temporal structures in the medical images, we explore the displacement between the consecutive slices using a deformation field. In our approach, the deformation field is used as a guidance to keep the translated slides realistic and consistent across the translation. The experimental results have shown that the synthesized images using our proposed approach are able to archive a competitive performance in terms of mean squared error, peak signal-to-noise ratio, and structural similarity index when compared with the existing deep learning-based methods on three standard datasets, i.e. HCP, MRBrainS13, and Brats2019.
翻訳日:2021-05-23 14:44:44 公開日:2020-12-03
# 自動走行のための魚眼カメラの汎用物体検出:データセット,表現,ベースライン

Generalized Object Detection on Fisheye Cameras for Autonomous Driving: Dataset, Representations and Baseline ( http://arxiv.org/abs/2012.02124v1 )

ライセンス: Link先を確認
Hazem Rashed, Eslam Mohamed, Ganesh Sistu, Varun Ravi Kumar, Ciaran Eising, Ahmad El-Sallab and Senthil Yogamani(参考訳) 物体検出は自動運転において包括的に研究されている問題である。 しかし、魚眼カメラについては、比較的研究が進んでいない。 標準のバウンディングボックスは魚眼カメラでは、特に画像の周囲において強い放射歪のために故障する。 本研究では,魚眼画像における物体検出のための配向境界ボックス,楕円,ジェネリックポリゴンなどの表現について検討する。 我々は、IoU計量を用いて、これらの表現を正確なインスタンス分割基底真理を用いて比較する。 魚眼歪モデルに最適な特性を有する新しい曲面境界ボックスモデルを設計する。 また,多角形頂点を得るための曲率適応ペリメータサンプリング法を設計し,一様サンプリングに比べて相対的なmAPスコアが4.9%向上した。 全体として、提案されたポリゴンモデルはmIoU相対精度を40.3%向上させる。 これは、我々の知る限り、自律走行シナリオのための魚眼カメラによる物体検出に関する初めての詳細な研究である。 1万枚の画像とすべてのオブジェクト表現の基盤となる真実からなるデータセットは、さらなる研究を促進するために公開される予定だ。 われわれの研究成果は、https://youtu.be/iLk OzvJpL-Aで質的な結果を得た短いビデオで要約する。

Object detection is a comprehensively studied problem in autonomous driving. However, it has been relatively less explored in the case of fisheye cameras. The standard bounding box fails in fisheye cameras due to the strong radial distortion, particularly in the image's periphery. We explore better representations like oriented bounding box, ellipse, and generic polygon for object detection in fisheye images in this work. We use the IoU metric to compare these representations using accurate instance segmentation ground truth. We design a novel curved bounding box model that has optimal properties for fisheye distortion models. We also design a curvature adaptive perimeter sampling method for obtaining polygon vertices, improving relative mAP score by 4.9% compared to uniform sampling. Overall, the proposed polygon model improves mIoU relative accuracy by 40.3%. It is the first detailed study on object detection on fisheye cameras for autonomous driving scenarios to the best of our knowledge. The dataset comprising of 10,000 images along with all the object representations ground truth will be made public to encourage further research. We summarize our work in a short video with qualitative results at https://youtu.be/iLk OzvJpL-A.
翻訳日:2021-05-23 14:44:00 公開日:2020-12-03
# 局所表現学習と大域表現学習を併用したデュエット推薦アルゴリズム

A Duet Recommendation Algorithm Based on Jointly Local and Global Representation Learning ( http://arxiv.org/abs/2012.01635v1 )

ライセンス: Link先を確認
Xiaoming Liu, Shaocong Wu, Zhaohan Zhang, Zhanwei Zhang, Yu Lan, Chao Shen(参考訳) 知識グラフ(KG)は,推薦システムにおいて,項目/ユーザの意味表現を学習するために広く利用されている。 従来のレコメンデーションアルゴリズムは、通常、ユーザとイテムのインタラクションにのみ依存するが、アプリケーションの性能を大幅に改善するために知識グラフ埋め込み(KGE)法で定式化されるアイテム/ユーザを記述する固有のWeb情報を無視している。 本論文では,異種情報から局所的およびグローバルな表現学習を捉えるための知識認識に基づく推薦アルゴリズムを提案する。 具体的には、ローカルモデルとグローバルモデルにより、コンテンツに基づく異種情報の内部パターンとユーザとアイテム間のインタラクティブな振る舞いを自然に表現することができる。 注意機構を有するグラフ畳み込みネットワークで局所表現と大域表現を併用して学習する手法に基づき、完全連結ニューラルネットワークにより最終推奨確率を算出する。 提案したアルゴリズムの検証を検証するために、2つの実世界のデータセットで大規模な実験を行う。 評価結果から,提案アルゴリズムは,MAE,RMSE,AUC,F1スコアの各測定値において,それぞれ10.0 %$,5.1 %$,2.5 %$,1.8 %$を超えていることがわかった。 重要な改善は、ユーザ/イテムを効果的に推奨する提案の能力を示しています。

Knowledge graph (KG), as the side information, is widely utilized to learn the semantic representations of item/user for recommendation system. The traditional recommendation algorithms usually just depend on user-item interactions, but ignore the inherent web information describing the item/user, which could be formulated by the knowledge graph embedding (KGE) methods to significantly improve applications' performance. In this paper, we propose a knowledge-aware-base d recommendation algorithm to capture the local and global representation learning from heterogeneous information. Specifically, the local model and global model can naturally depict the inner patterns in the content-based heterogeneous information and interactive behaviors among the users and items. Based on the method that local and global representations are learned jointly by graph convolutional networks with attention mechanism, the final recommendation probability is calculated by a fully-connected neural network. Extensive experiments are conducted on two real-world datasets to verify the proposed algorithm's validation. The evaluation results indicate that the proposed algorithm surpasses state-of-arts by $10.0\%$, $5.1\%$, $2.5\%$ and $1.8\%$ in metrics of MAE, RMSE, AUC and F1-score at least, respectively. The significant improvements reveal the capacity of our proposal to recommend user/item effectively.
翻訳日:2021-05-23 14:43:27 公開日:2020-12-03
# ResPerfNet:ディープニューラルネットワークの回帰性能モデリングのための深層残留学習

ResPerfNet: Deep Residual Learning for Regressional Performance Modeling of Deep Neural Networks ( http://arxiv.org/abs/2012.01671v1 )

ライセンス: Link先を確認
Chuan-Chi Wang, Ying-Chiao Liao, Chia-Heng Tu, Ming-Chang Kao, Wen-Yew Liang, Shih-Hao Hung(参考訳) コンピューティング技術の急速な進歩は、多様なディープラーニングアプリケーションの開発を促進する。 残念ながら、並列コンピューティングインフラストラクチャの効率は、ニューラルネットワークモデルによって大きく異なり、特定のアプリケーションのための特定のコンピューティングプラットフォーム上で高性能なニューラルネットワークアーキテクチャを見つけるための設計スペースの探索を妨げる。 そこで本研究では,ニューラルネットワークの性能を予測するために,目的とするプラットフォーム上で得られた代表データセットを用いて,残留ニューラルネットワークを訓練する深層学習に基づく手法であるresperfnetを提案する。 実験の結果、resperfnetは様々なプラットフォーム上で個々のニューラルネットワーク層とフルネットワークモデルの実行時間を正確に予測できることがわかった。 特にResPerfNetは、NVIDIA GTX 1080Ti上で、LeNet、AlexNet、VGG16の平均絶対パーセンテージエラーの8.4%を達成した。

The rapid advancements of computing technology facilitate the development of diverse deep learning applications. Unfortunately, the efficiency of parallel computing infrastructures varies widely with neural network models, which hinders the exploration of the design space to find high-performance neural network architectures on specific computing platforms for a given application. To address such a challenge, we propose a deep learning-based method, ResPerfNet, which trains a residual neural network with representative datasets obtained on the target platform to predict the performance for a deep neural network. Our experimental results show that ResPerfNet can accurately predict the execution time of individual neural network layers and full network models on a variety of platforms. In particular, ResPerfNet achieves 8.4% of mean absolute percentage error for LeNet, AlexNet and VGG16 on the NVIDIA GTX 1080Ti, which is substantially lower than the previously published works.
翻訳日:2021-05-23 14:43:01 公開日:2020-12-03
# FenceBox: データ拡張技術で敵の例を定義するプラットフォーム

FenceBox: A Platform for Defeating Adversarial Examples with Data Augmentation Techniques ( http://arxiv.org/abs/2012.01701v1 )

ライセンス: Link先を確認
Han Qiu, Yi Zeng, Tianwei Zhang, Yong Jiang, and Meikang Qiu(参考訳) Deep Neural Networks (DNNs) がAdversarial Examples (AEs) に弱いことが広く研究されている。 より高度な対向攻撃法が開発され、それに対応する多くの防御ソリューションがdnnモデルの堅牢性を高めるために設計された。 逆摂動を取り除くために推論する前に入力サンプルの前処理にデータ拡張技術を活用することが人気になっている。 DNNモデルの勾配を曖昧にすることで、これらのアプローチは、かなり多くの従来の攻撃を破ることができる。 残念ながら、これらの前処理効果を無効にする高度な勾配に基づく攻撃技術(bpdaやeotなど)が導入された。 本稿では,様々な敵攻撃を克服する包括的フレームワークであるFenceBoxを提案する。 FenceBoxには、3つのカテゴリから15のデータ拡張方法がある。 我々は,これらの手法が様々な敵攻撃を効果的に軽減できることを包括的に評価した。 任意のプリプロセッシングメソッドを選択するか、高度な敵攻撃下であっても、より堅牢性を保証する関数の組み合わせを選択することができる。 われわれはFenceBoxをオープンソースとして公開し、敵の攻撃や防御の研究を容易にするための標準ツールキットとして利用できると期待している。

It is extensively studied that Deep Neural Networks (DNNs) are vulnerable to Adversarial Examples (AEs). With more and more advanced adversarial attack methods have been developed, a quantity of corresponding defense solutions were designed to enhance the robustness of DNN models. It has become a popularity to leverage data augmentation techniques to preprocess input samples before inference to remove adversarial perturbations. By obfuscating the gradients of DNN models, these approaches can defeat a considerable number of conventional attacks. Unfortunately, advanced gradient-based attack techniques (e.g., BPDA and EOT) were introduced to invalidate these preprocessing effects. In this paper, we present FenceBox, a comprehensive framework to defeat various kinds of adversarial attacks. FenceBox is equipped with 15 data augmentation methods from three different categories. We comprehensively evaluated that these methods can effectively mitigate various adversarial attacks. FenceBox also provides APIs for users to easily deploy the defense over their models in different modes: they can either select an arbitrary preprocessing method, or a combination of functions for a better robustness guarantee, even under advanced adversarial attacks. We open-source FenceBox, and expect it can be used as a standard toolkit to facilitate the research of adversarial attacks and defenses.
翻訳日:2021-05-23 14:42:46 公開日:2020-12-03
# 強化学習による新型コロナウイルス治療の展望

Designing a Prospective COVID-19 Therapeutic with Reinforcement Learning ( http://arxiv.org/abs/2012.01736v1 )

ライセンス: Link先を確認
Marcin J. Skwark, Nicol\'as L\'opez Carranza, Thomas Pierrot, Joe Phillips, Slim Said, Alexandre Laterre, Amine Kerkeni, U\u{g}ur \c{S}ahin, Karim Beguir(参考訳) SARS-CoV-2パンデミックは、治療のための世界的なレースを生み出した。 1つのアプローチは、SARS-CoV-2スパイクタンパク質により強く結合し、ヒト細胞から分離するヒトアンジオテンシン変換酵素2(ACE2)の新規な変異体を設計することに焦点を当てている。 ここでは強化学習問題として新しいタンパク質設計枠組みを定式化する。 高速で生物学的な報酬関数とシーケンシャルな行動空間の定式化を組み合わせて,新しいデザインを効率的に生成する。 ポリシーグラディエントの使用により、一貫した高品質な設計に到達するために必要な計算予算を、標準手法に比べて少なくとも桁違いに削減できる。 この方法で設計された錯体は分子動力学シミュレーションによって検証され、安定性が増すことが確認された。 これは、主要なタンパク質設計法と現代の深層強化学習を組み合わせることは、新型コロナウイルスの治療法の発見に有効な経路であり、他の疾患に対するペプチドベースの治療法の設計を加速する可能性があることを示唆している。

The SARS-CoV-2 pandemic has created a global race for a cure. One approach focuses on designing a novel variant of the human angiotensin-converti ng enzyme 2 (ACE2) that binds more tightly to the SARS-CoV-2 spike protein and diverts it from human cells. Here we formulate a novel protein design framework as a reinforcement learning problem. We generate new designs efficiently through the combination of a fast, biologically-grounde d reward function and sequential action-space formulation. The use of Policy Gradients reduces the compute budget needed to reach consistent, high-quality designs by at least an order of magnitude compared to standard methods. Complexes designed by this method have been validated by molecular dynamics simulations, confirming their increased stability. This suggests that combining leading protein design methods with modern deep reinforcement learning is a viable path for discovering a Covid-19 cure and may accelerate design of peptide-based therapeutics for other diseases.
翻訳日:2021-05-23 14:42:29 公開日:2020-12-03
# 制約学習によるサービス指向車両ネットワークの動的RANスライシング

Dynamic RAN Slicing for Service-Oriented Vehicular Networks via Constrained Learning ( http://arxiv.org/abs/2012.01991v1 )

ライセンス: Link先を確認
Wen Wu, Nan Chen, Conghao Zhou, Mushu Li, Xuemin Shen, Weihua Zhuang, Xu Li(参考訳) 本稿では,QoS(Quality of Service)要件の異なる車両用インターネット(IoV)サービスにおけるLANスライシング問題について検討し,複数の論理的に分離されたスライスを共通の道路側ネットワーク基盤上に構築する。 動的RANスライシングフレームワークは、無線スペクトルと計算資源を動的に割り当て、スライスのための計算ワークロードを分散する。 車両交通密度の時空間動態を調節する最適なRANスライシングポリシを得るために,まず,長期システムコストを最小限に抑えるために,制約付きRANスライシング問題を定式化する。 この問題は、決定間の複雑な結合制約のため、従来の強化学習(RL)アルゴリズムでは直接解決できない。 そこで我々は,この問題をリソース割り当て部分問題とワークロード分散部分問題に分離し,リソース割り当てとワークロード分散(raws)という2層制約付きrlアルゴリズムを提案する。 具体的には、まず外部層がRLアルゴリズムを介してリソース割り当て決定を行い、次いで内部層が最適化サブルーチンを介してワークロード分布決定を行う。 広範なトレース駆動シミュレーションは、ベンチマークと比較してqos要件を高い確率で満たしながら、rawがシステムコストを効果的に削減することを示している。

In this paper, we investigate a radio access network (RAN) slicing problem for Internet of vehicles (IoV) services with different quality of service (QoS) requirements, in which multiple logically-isolated slices are constructed on a common roadside network infrastructure. A dynamic RAN slicing framework is presented to dynamically allocate radio spectrum and computing resource, and distribute computation workloads for the slices. To obtain an optimal RAN slicing policy for accommodating the spatial-temporal dynamics of vehicle traffic density, we first formulate a constrained RAN slicing problem with the objective to minimize long-term system cost. This problem cannot be directly solved by traditional reinforcement learning (RL) algorithms due to complicated coupled constraints among decisions. Therefore, we decouple the problem into a resource allocation subproblem and a workload distribution subproblem, and propose a two-layer constrained RL algorithm, named Resource Allocation and Workload diStribution (RAWS) to solve them. Specifically, an outer layer first makes the resource allocation decision via an RL algorithm, and then an inner layer makes the workload distribution decision via an optimization subroutine. Extensive trace-driven simulations show that the RAWS effectively reduces the system cost while satisfying QoS requirements with a high probability, as compared with benchmarks.
翻訳日:2021-05-23 14:41:26 公開日:2020-12-03
# sim2実効転写のための介入設計

Intervention Design for Effective Sim2Real Transfer ( http://arxiv.org/abs/2012.02055v1 )

ライセンス: Link先を確認
Melissa Mozifian, Amy Zhang, Joelle Pineau, and David Meger(参考訳) この研究の目標は、最近のsim2real設定におけるドメインのランダム化とデータ拡張の成功に対処することである。 因果推論や位置決めドメインのランダム化,データ拡張などを通じて,無関係な特徴の分散を促進する環境への介入として,この成功を説明する。 このような介入には、報酬やダイナミクスに影響を与えない視覚摂動が含まれる。 これにより、学習アルゴリズムはこの種のバリエーションに対して堅牢であり、タスクを解決するための真の因果的メカニズムへの参加を学ぶことができる。 この関係は,(1) 環境への摂動は現実的である必要はないが, 実世界でも異なる次元に沿った変化を示すだけであり, (2) 明示的な不変性誘導目的を用いることで, 単にデータ拡張やドメインランダム化のみに対するsim2simおよびsim2real転送設定の一般化が向上する。 画素観察から学習した7DoF Jacoアーム上でロボットアームの到達タスクをゼロショット転送することで,本手法の有効性を示す。

The goal of this work is to address the recent success of domain randomization and data augmentation for the sim2real setting. We explain this success through the lens of causal inference, positioning domain randomization and data augmentation as interventions on the environment which encourage invariance to irrelevant features. Such interventions include visual perturbations that have no effect on reward and dynamics. This encourages the learning algorithm to be robust to these types of variations and learn to attend to the true causal mechanisms for solving the task. This connection leads to two key findings: (1) perturbations to the environment do not have to be realistic, but merely show variation along dimensions that also vary in the real world, and (2) use of an explicit invariance-inducing objective improves generalization in sim2sim and sim2real transfer settings over just data augmentation or domain randomization alone. We demonstrate the capability of our method by performing zero-shot transfer of a robot arm reach task on a 7DoF Jaco arm learning from pixel observations.
翻訳日:2021-05-23 14:41:05 公開日:2020-12-03
# 高次元ロボットの高速反応性確率的運動計画

Fast-reactive probabilistic motion planning for high-dimensional robots ( http://arxiv.org/abs/2012.02118v1 )

ライセンス: Link先を確認
Siyu Dai, Andreas Hofmann and Brian C. Williams(参考訳) 高次元ヒューマノイドロボットを含む現実のロボット操作の多くは、衝突リスクに対する障害計画や確率的保証のために高速反応を必要とするが、自動車のようなロボット向けに開発された確率論的運動計画アプローチは、高次元ロボットに直接適用することはできない。 本稿では,プロセスノイズや観測ノイズに苦しむ高次元ロボットに対して,安全性を保証できる高速応答型モーションプランニングシステムであるchekov (p-chekov)を提案する。 p-Chekovは, 複雑な環境下での高次元ロボット運動計画タスクにおいて, 衝突回避能力と計画速度の観点から, トラジェクトリ最適化をスパース・ロードマップ・フレームワークに統合する決定論的運動計画法を応用し, その優位性を実証した。 本稿では, p-Chekov がロボット操作作業における衝突リスクに対するユーザ指定確率制約を効果的に満たすことを示す。

Many real-world robotic operations that involve high-dimensional humanoid robots require fast-reaction to plan disturbances and probabilistic guarantees over collision risks, whereas most probabilistic motion planning approaches developed for car-like robots can not be directly applied to high-dimensional robots. In this paper, we present probabilistic Chekov (p-Chekov), a fast-reactive motion planning system that can provide safety guarantees for high-dimensional robots suffering from process noises and observation noises. Leveraging recent advances in machine learning as well as our previous work in deterministic motion planning that integrated trajectory optimization into a sparse roadmap framework, p-Chekov demonstrates its superiority in terms of collision avoidance ability and planning speed in high-dimensional robotic motion planning tasks in complex environments without the convexification of obstacles. Comprehensive theoretical and empirical analysis provided in this paper shows that p-Chekov can effectively satisfy user-specified chance constraints over collision risk in practical robotic manipulation tasks.
翻訳日:2021-05-23 14:40:30 公開日:2020-12-03
# ディープニューラルネットワークを用いた光量子状態の分類と再構成

Classification and reconstruction of optical quantum states with deep neural networks ( http://arxiv.org/abs/2012.02185v1 )

ライセンス: Link先を確認
Shahnawaz Ahmed, Carlos S\'anchez Mu\~noz, Franco Nori, Anton Frisk Kockum(参考訳) 量子状態の分類と再構成にディープニューラルネットワークに基づく手法を適用する。 ノイズの存在下でも,データ量が少なく,高い分類精度と再構成能力を示す。 光学量子状態を例として、まず畳み込みニューラルネットワーク(CNN)が、加法的ガウスノイズや光子損失などによって歪んだ複数の状態の分類に成功していることを示す。 さらに,ノイズのある入力を訓練したcnnは,データ中の最も重要な領域を識別することを学び,適応的データ収集を導くことで,トモグラフィのコストを低減できることを示した。 次に,量子物理知識を組み込んだニューラルネットワークを用いて,量子状態密度行列の再構成を示す。 この知識は、標準フィードフォワードニューラルネットワークからの出力を量子状態の有効な記述に変換するカスタムニューラルネットワーク層として実装されている。 任意の標準フィードフォワードニューラルネットワークアーキテクチャを量子状態トモグラフィ(qst)に適用することができる。 本稿では,条件付き生成対向ネットワーク(QST-CGAN)を用いた [arXiv:2008.03240] QST手法のさらなる実演を行う。 学習可能な損失関数の選択は,QST-CGANが,標準的な損失関数で訓練された生成ネットワークにおいて,様々なシナリオにおいて,より優れた性能を発揮することを実証することによって動機づける。 加法的あるいは畳み込み的なガウス雑音を持つ純粋な状態の場合、QST-CGANはノイズに適応し、基礎となる状態を再構築することができる。 QST-CGANは、標準イテレーティブ最大可能性 (iMLE) 法よりも最大で2桁少ない反復ステップを用いて状態を再構成する。 さらに、QST−CGANは、iMLEよりも桁違いに選択された2つのデータポイントから純粋な状態と混合状態の両方を再構成することができる。

We apply deep-neural-network- based techniques to quantum state classification and reconstruction. We demonstrate high classification accuracies and reconstruction fidelities, even in the presence of noise and with little data. Using optical quantum states as examples, we first demonstrate how convolutional neural networks (CNNs) can successfully classify several types of states distorted by, e.g., additive Gaussian noise or photon loss. We further show that a CNN trained on noisy inputs can learn to identify the most important regions in the data, which potentially can reduce the cost of tomography by guiding adaptive data collection. Secondly, we demonstrate reconstruction of quantum-state density matrices using neural networks that incorporate quantum-physics knowledge. The knowledge is implemented as custom neural-network layers that convert outputs from standard feedforward neural networks to valid descriptions of quantum states. Any standard feed-forward neural-network architecture can be adapted for quantum state tomography (QST) with our method. We present further demonstrations of our proposed [arXiv:2008.03240] QST technique with conditional generative adversarial networks (QST-CGAN). We motivate our choice of a learnable loss function within an adversarial framework by demonstrating that the QST-CGAN outperforms, across a range of scenarios, generative networks trained with standard loss functions. For pure states with additive or convolutional Gaussian noise, the QST-CGAN is able to adapt to the noise and reconstruct the underlying state. The QST-CGAN reconstructs states using up to two orders of magnitude fewer iterative steps than a standard iterative maximum likelihood (iMLE) method. Further, the QST-CGAN can reconstruct both pure and mixed states from two orders of magnitude fewer randomly chosen data points than iMLE.
翻訳日:2021-05-23 14:40:12 公開日:2020-12-03
# 体力予測のためのグラフ畳み込みニューラルネットワーク

Graph Convolutional Neural Networks for Body Force Prediction ( http://arxiv.org/abs/2012.02232v1 )

ライセンス: Link先を確認
Francis Ogoke, Kazem Meidani, Amirreza Hashemi, Amir Barati Farimani(参考訳) 多くの科学的および工学的プロセスは、空間的に非構造化データを生成する。 しかしながら、ほとんどのデータ駆動モデルは、各サンプルのセット番号と機能の順序の両方を強制する機能マトリックスを必要とします。 したがって、非構造化データセットのために簡単に構築することはできない。 したがって、グラフ畳み込みニューラルネットワーク(GCNN)を用いて、非構造化メッシュ上で定義されたフィールドの推論を行うグラフベースのデータ駆動モデルを示す。 空間的不規則な測定から高精度にグローバルな特性を予測できる能力は,飛散速度測定から翼まわりの層流に付随する抗力を予測することで実証された。 ネットワークは異なる解像度でフィールドサンプルから推測することができ、各サンプル内の測定値が提示される順序に不変である。 GCNN法は、帰納的畳み込み層と適応プーリングを用いて、空間構造に依存することなく、0.98以上のR^{2}$と0.01以下の正規化平均二乗誤差でこの量を予測することができる。

Many scientific and engineering processes produce spatially unstructured data. However, most data-driven models require a feature matrix that enforces both a set number and order of features for each sample. They thus cannot be easily constructed for an unstructured dataset. Therefore, a graph based data-driven model to perform inference on fields defined on an unstructured mesh, using a Graph Convolutional Neural Network (GCNN) is presented. The ability of the method to predict global properties from spatially irregular measurements with high accuracy is demonstrated by predicting the drag force associated with laminar flow around airfoils from scattered velocity measurements. The network can infer from field samples at different resolutions, and is invariant to the order in which the measurements within each sample are presented. The GCNN method, using inductive convolutional layers and adaptive pooling, is able to predict this quantity with a validation $R^{2}$ above 0.98, and a Normalized Mean Squared Error below 0.01, without relying on spatial structure.
翻訳日:2021-05-23 14:39:46 公開日:2020-12-03
# あらゆる企業が画像を所有している:畳み込みニューラルネットワークによる信用格付け

Every Corporation Owns Its Image: Corporate Credit Ratings via Convolutional Neural Networks ( http://arxiv.org/abs/2012.03744v1 )

ライセンス: Link先を確認
Bojing Feng, Wenfang Xue, Bindang Xue, Zeyu Liu(参考訳) 信用格付けは、投資におけるリスクと信頼性のレベルを反映した、企業に関連する信用リスクの分析である。 企業信用格付けを扱うための機械学習技術を実装する多くの研究が生まれている。 しかし、これらのモデルの能力は財務報告の膨大なデータによって制限されている。 本研究では、従来の機械学習モデルの性能を分析し、企業の信用格付けを予測する。 本稿では,強力な畳み込みニューラルネットワークと巨大な財務データを活用するために,畳み込みニューラルネットワークを用いた新たなエンドツーエンド手法であるCCR-CNNを提案する。 提案したモデルでは、各企業がイメージに変換される。 この画像に基づいて、CNNはデータの複雑な特徴的相互作用をキャプチャすることができる。 CCR-CNNは、私たちが構築した企業評価データセットで実施された大規模な実験によって、最先端の手法を一貫して上回っていることが証明された。

Credit rating is an analysis of the credit risks associated with a corporation, which reflect the level of the riskiness and reliability in investing. There have emerged many studies that implement machine learning techniques to deal with corporate credit rating. However, the ability of these models is limited by enormous amounts of data from financial statement reports. In this work, we analyze the performance of traditional machine learning models in predicting corporate credit rating. For utilizing the powerful convolutional neural networks and enormous financial data, we propose a novel end-to-end method, Corporate Credit Ratings via Convolutional Neural Networks, CCR-CNN for brevity. In the proposed model, each corporation is transformed into an image. Based on this image, CNN can capture complex feature interactions of data, which are difficult to be revealed by previous machine learning models. Extensive experiments conducted on the Chinese public-listed corporate rating dataset which we build, prove that CCR-CNN outperforms the state-of-the-art methods consistently.
翻訳日:2021-05-23 14:39:12 公開日:2020-12-03
# 累積デカップリング学習:層間モデル並列化における勾配定常性の緩和

Accumulated Decoupled Learning: Mitigating Gradient Staleness in Inter-Layer Model Parallelization ( http://arxiv.org/abs/2012.03747v1 )

ライセンス: Link先を確認
Huiping Zhuang, Zhiping Lin, Kar-Ann Toh(参考訳) 分離学習(英: Decoupled learning)とは、複数のモジュールに分割することで、ネットワークのトレーニングを並列化するモデル並列化の一分野である。 分離学習のテクニックは、通常、非同期実装のため、安定した勾配効果をもたらすため、パフォーマンスが低下する。 本稿では, 定常勾配効果を緩和するために, 勾配累積手法を取り入れた累積非結合学習(ADL)を提案する。 グラデーション・ステイレネスの低減方法に関する理論的および実証的な証拠を提示する。 提案手法は, 非同期性にもかかわらず, 臨界点, すなわち勾配が0に収束することを示す。 実験的な検証は、深層畳み込みニューラルネットワークをトレーニングして、CIFAR-10とImageNetデータセットの分類タスクを実行することによって提供される。 ADLは分類タスクにおいていくつかの最先端技術よりも優れており、比較手法の中では最速である。

Decoupled learning is a branch of model parallelism which parallelizes the training of a network by splitting it depth-wise into multiple modules. Techniques from decoupled learning usually lead to stale gradient effect because of their asynchronous implementation, thereby causing performance degradation. In this paper, we propose an accumulated decoupled learning (ADL) which incorporates the gradient accumulation technique to mitigate the stale gradient effect. We give both theoretical and empirical evidences regarding how the gradient staleness can be reduced. We prove that the proposed method can converge to critical points, i.e., the gradients converge to 0, in spite of its asynchronous nature. Empirical validation is provided by training deep convolutional neural networks to perform classification tasks on CIFAR-10 and ImageNet datasets. The ADL is shown to outperform several state-of-the-arts in the classification tasks, and is the fastest among the compared methods.
翻訳日:2021-05-23 14:38:57 公開日:2020-12-03
# IMAGO:20世紀の社会史分析のための家族写真アルバムデータセット

IMAGO: A family photo album dataset for a socio-historical analysis of the twentieth century ( http://arxiv.org/abs/2012.01955v1 )

ライセンス: Link先を確認
Lorenzo Stacchio, Alessia Angeli, Giuseppe Lisanti, Daniela Calanca, Gustavo Marfia(参考訳) 19世紀の終わりから最も人気のある写真技術の一つであったが、家族の写真アルバムに対する学術的な関心の高まりは1980年代初期までさかのぼる。 このような写真集は、特定の文化や時代に関する社会学的、歴史的洞察を明らかにする可能性がある。 しかし、たいていの場合、個人家庭に散在し、紙や写真フィルムでしか利用できないため、歴史学者、社会文化人類学者、文化理論家などの学者による分析は非常に面倒である。 本稿では,2004年以降,ボローニャ大学のリミニキャンパスで収集された家族アルバムの写真を含むIMAGOデータセットを分析した。 深層学習に基づくアプローチに続いて、IMAGOデータセットは、1845年から2009年の間に撮影された写真を、他の情報源を使わずに、画像の日付と社会史的文脈を評価することを目的として実験する機会を提供している。 当初,このような分析は,本研究で採用されるアプローチの性能だけでなく,社会史研究の利益に期待できる意味や利用の観点からも,その意義を明らかにしている。 私たちの知る限りでは、これは文学におけるこの道を歩む最初の作品です。

Although one of the most popular practices in photography since the end of the 19th century, an increase in scholarly interest in family photo albums dates back to the early 1980s. Such collections of photos may reveal sociological and historical insights regarding specific cultures and times. They are, however, in most cases scattered among private homes and only available on paper or photographic film, thus making their analysis by academics such as historians, social-cultural anthropologists and cultural theorists very cumbersome. In this paper, we analyze the IMAGO dataset including photos belonging to family albums assembled at the University of Bologna's Rimini campus since 2004. Following a deep learning-based approach, the IMAGO dataset has offered the opportunity of experimenting with photos taken between year 1845 and year 2009, with the goals of assessing the dates and the socio-historical contexts of the images, without use of any other sources of information. Exceeding our initial expectations, such analysis has revealed its merit not only in terms of the performance of the approach adopted in this work, but also in terms of the foreseeable implications and use for the benefit of socio-historical research. To the best of our knowledge, this is the first work that moves along this path in literature.
翻訳日:2021-05-23 14:38:25 公開日:2020-12-03
# 画像誘導インターベンションのための拡張現実登録手法のマルチセンター評価

Multicenter Assessment of Augmented Reality Registration Methods for Image-guided Interventions ( http://arxiv.org/abs/2012.02319v1 )

ライセンス: Link先を確認
Ningcheng Li, Jonathan Wakim, Yilun Koethe, Timothy Huber, Terence Gade, Stephen Hunt, Brian Park(参考訳) 目的: ホログラフィック3次元(3D)モデルを実環境にアライメントする際に, 手動および自動登録時間と拡張現実による精度を評価すること。 方法: HoloLens 2拡張現実ヘッドセットを3回連続して3次元CTファントムモデルをCTグリッドに登録した。 登録期間と精度は, 異なる登録方法(ハンドジェスチャー, xboxコントローラ, 自動登録), 臨床経験レベル, 連続試行で比較した。 登録期間もhololens 1のデータと比較された。 結果: 片手ジェスチャ, 両手ジェスチャ, xboxコントローラでは, 平均マニュアル登録時間は27.7秒, 24.3秒, 72.8秒であり, 自動登録時間は5.3秒であった(anova p<0.0001)。 参加者,住民,フェロー,医学生の間では,登録期間に有意な差は認められなかった (p>0.05)。 ハンドジェスチャを用いた連続的試みにおいて,登録時間の大幅な改善が認められた(p<0.01。 前回報告されたhololens 1の体験と比較して、ハンドジェスチャの登録時間は81.7%速く(p<0.05)。 登録精度は手動の登録方法によって大きく異なり、片手ジェスチャー、片手ジェスチャー、Xboxコントローラー(p>0.05)で5.9、9.5、8.6mmであった。 結論: 手動の登録時間はHoloLens 2とHoloLens 1で更新された手動操作によって大幅に減少した。 これらの結果は、手続き医療におけるHoloLens 2の広範な臨床統合を促進する。

Purpose: To evaluate manual and automatic registration times as well as accuracy with augmented reality during alignment of a holographic 3-dimensional (3D) model onto the real-world environment. Method: 18 participants in various stages of clinical training across two academic centers registered a 3D CT phantom model onto a CT grid using the HoloLens 2 augmented reality headset 3 consecutive times. Registration times and accuracy were compared among different registration methods (hand gesture, Xbox controller, and automatic registration), levels of clinical experience, and consecutive attempts. Registration times were also compared with prior HoloLens 1 data. Results: Mean aggregate manual registration times were 27.7, 24.3, and 72.8 seconds for one-handed gesture, two-handed gesture, and Xbox controller, respectively; mean automatic registration time was 5.3s (ANOVA p<0.0001). No significant difference in registration times was found among attendings, residents and fellows, and medical students (p>0.05). Significant improvements in registration times were detected across consecutive attempts using hand gestures (p<0.01). Compared with previously reported HoloLens 1 experience, hand gesture registration times were 81.7% faster (p<0.05). Registration accuracies were not significantly different across manual registration methods, measuring at 5.9, 9.5, and 8.6 mm with one-handed gesture, two-handed gesture, and Xbox controller, respectively (p>0.05). Conclusions: Manual registration times decreased significantly with updated hand gesture maneuvers on HoloLens 2 versus HoloLens 1, approaching the registration times of automatic registration and outperforming Xbox controller mediated registration. These results will encourage wider clinical integration of HoloLens 2 in procedural medical care.
翻訳日:2021-05-23 14:38:06 公開日:2020-12-03
# Mapperグラフのホットスポット同定

Hotspot identification for Mapper graphs ( http://arxiv.org/abs/2012.01868v1 )

ライセンス: Link先を確認
Ciara Frances Loughrey, Nick Orr, Anna Jurek-Loughrey, and Pawe{\l} D{\l}otko(参考訳) Mapperアルゴリズムは、ループ、フレア、クラスタなどの構造的に興味深い特徴をキャプチャする高次元データのグラフベースの表現を構築するために使用できる。 グラフはさらに、特別な興味のある領域の位置を指定できるように、頂点のさらなる色付けで注釈を付けることができる。 例えば、精密医療などの多くのアプリケーションにおいて、Mapperグラフはデータセット内の未知のコンパクトな局所化部分領域を識別するために使われてきた。 このタスクは研究者がこれまで行ってきたもので、ホットスポット分析を使って自動化することができる。 本研究では,マッパーグラフ中のホットスポットを検出する新しいアルゴリズムを提案する。 ホットスポット検出プロセスの自動化を可能にする。 本稿では,人工および実世界のデータセット上でのアルゴリズムの性能を示す。 さらに、我々のアルゴリズムがMapperレンズ関数の自動選択にどのように使えるかを示す。

Mapper algorithm can be used to build graph-based representations of high-dimensional data capturing structurally interesting features such as loops, flares or clusters. The graph can be further annotated with additional colouring of vertices allowing location of regions of special interest. For instance, in many applications, such as precision medicine, Mapper graph has been used to identify unknown compactly localized subareas within the dataset demonstrating unique or unusual behaviours. This task, performed so far by a researcher, can be automatized using hotspot analysis. In this work we propose a new algorithm for detecting hotspots in Mapper graphs. It allows automatizing of the hotspot detection process. We demonstrate the performance of the algorithm on a number of artificial and real world datasets. We further demonstrate how our algorithm can be used for the automatic selection of the Mapper lens functions.
翻訳日:2021-05-23 14:37:38 公開日:2020-12-03
# オーバー・ザ・カウンタ信用デフォルトスワップ市場の競争分析

Competition analysis on the over-the-counter credit default swap market ( http://arxiv.org/abs/2012.01883v1 )

ライセンス: Link先を確認
Louis Abraham(参考訳) 我々は、EMIR規制の一部として収集されたデータを用いて、OCC CDS市場における競合に関する2つの質問を調査した。 まず,両立要件による中央対立の競合について検討する。 初期マージン要件をうまく見積もるモデルを提案する。 しかし,OCC市場における候補によるCCP選択の予測モデルへの入力として使用するには,我々の推定精度は十分ではない。 第2に,新たな半教師付き予測タスクを用いて,インターディーラー市場での対向選択をモデル化する。 本手法は,条件エントロピーをモデル非依存アプローチを通じてデータから知識を導き出す指標として用いる前に,モデル解釈可能性に関する文献の一部として提示する。 特に、実世界のデータセットの条件付きエントロピーを測定するためにディープニューラルネットワークの使用を正当化する。 我々はアルゴリズム情報理論の枠組みを用いて$\textit{Razor entropy}$を作成し、半教師付きトレーニング目標と同一の明示的な公式を導出する。 最後に、ゲーム理論から概念を借りて$\textit{top-k Shapley value}$を定義する。 この新たなペイオフ分布法は、シャプリー値の性質の大部分を満足し、値関数が単調部分モジュラーであるときに特に興味深い。 古典的なシェープリー値とは異なり、トップkシェープリー値は指数関数ではなく2次時間で計算できる。 方法論を実装し、選択した特定のタスクについて結果を報告する。 最後に、例えばインターメディエーションのさらなる研究に使用できる$\textit{node2vec}$アルゴリズムの改善を示す。 バイアスドウォークの生成に使用される隣接サンプリングは, スケールが良くない現在の実装とは異なり, 準線形時間前計算を用いて対数時間で実行可能であることを示す。

We study two questions related to competition on the OTC CDS market using data collected as part of the EMIR regulation. First, we study the competition between central counterparties through collateral requirements. We present models that successfully estimate the initial margin requirements. However, our estimations are not precise enough to use them as input to a predictive model for CCP choice by counterparties in the OTC market. Second, we model counterpart choice on the interdealer market using a novel semi-supervised predictive task. We present our methodology as part of the literature on model interpretability before arguing for the use of conditional entropy as the metric of interest to derive knowledge from data through a model-agnostic approach. In particular, we justify the use of deep neural networks to measure conditional entropy on real-world datasets. We create the $\textit{Razor entropy}$ using the framework of algorithmic information theory and derive an explicit formula that is identical to our semi-supervised training objective. Finally, we borrow concepts from game theory to define $\textit{top-k Shapley values}$. This novel method of payoff distribution satisfies most of the properties of Shapley values, and is of particular interest when the value function is monotone submodular. Unlike classical Shapley values, top-k Shapley values can be computed in quadratic time of the number of features instead of exponential. We implement our methodology and report the results on our particular task of counterpart choice. Finally, we present an improvement to the $\textit{node2vec}$ algorithm that could for example be used to further study intermediation. We show that the neighbor sampling used in the generation of biased walks can be performed in logarithmic time with a quasilinear time pre-computation, unlike the current implementations that do not scale well.
翻訳日:2021-05-23 14:37:28 公開日:2020-12-03
# 量子学習アルゴリズムは下限を巡回する

Quantum learning algorithms imply circuit lower bounds ( http://arxiv.org/abs/2012.01920v1 )

ライセンス: Link先を確認
Srinivasan Arunachalam, Alex B. Grilo, Tom Gur, Igor C. Oliveira, Aarthi Sundaram(参考訳) 量子アルゴリズムの設計と回路下界との間の最初の一般的な接続を確立する。 具体的には、$\mathfrak{C}$ を多項式サイズの概念のクラスとし、$\mathfrak{C}$ を誤差 $1/2 - \gamma$ の均一分布の下でメンバシップクエリで PAC を学習できると仮定する。 もし$\gamma^2 \cdot t \ll 2^n/n$なら、$\mathsf{bqe} \nsubseteq \mathfrak{c}$、ただし$\mathsf{bqe} = \mathsf{bqtime}[2^{o(n)}]$は$\mathsf{bqp}$の指数時間類似である。 この結果は、クラス$\mathfrak{C}$を(古典的な)時間$T = 2^n$(誤りのない)あるいは量子時間$T = \mathsf{poly}(n)$を最大1/2 - \Omega(2^{-n/2})$でフーリエサンプリングすることによって学習することが難しいため、$\gamma$と$T$の両方で最適である。 言い換えれば、これらの一般的な学習アルゴリズムに対する限界的な改善でさえ、複雑性理論において大きな結果をもたらすだろう。 本証明は,学習理論,擬似ランダム性,計算複雑性に関するいくつかの研究と,oliveira と santhanam (ccc 2017) によって確立された非自明な古典的学習アルゴリズムと回路下限との関係を基礎としている。 量子学習アルゴリズムへのアプローチを拡張することで、大きな課題が生まれる。 そこで本研究では, 擬似乱数生成器が汎用的な方法で学習・下界接続を示唆し, 均一な量子計算に対して確保された最初の条件付き擬似乱数生成器を構築し, 微妙な解析によりImpagliazzo, Jaiswal, Kabanets, Wigderson (SICOMP 2010) の局所的リスト復号アルゴリズムを拡張した。 これらの貢献は独立した関心事であり、他の応用を見出すかもしれないと信じています。

We establish the first general connection between the design of quantum algorithms and circuit lower bounds. Specifically, let $\mathfrak{C}$ be a class of polynomial-size concepts, and suppose that $\mathfrak{C}$ can be PAC-learned with membership queries under the uniform distribution with error $1/2 - \gamma$ by a time $T$ quantum algorithm. We prove that if $\gamma^2 \cdot T \ll 2^n/n$, then $\mathsf{BQE} \nsubseteq \mathfrak{C}$, where $\mathsf{BQE} = \mathsf{BQTIME}[2^{O(n)}]$ is an exponential-time analogue of $\mathsf{BQP}$. This result is optimal in both $\gamma$ and $T$, since it is not hard to learn any class $\mathfrak{C}$ of functions in (classical) time $T = 2^n$ (with no error), or in quantum time $T = \mathsf{poly}(n)$ with error at most $1/2 - \Omega(2^{-n/2})$ via Fourier sampling. In other words, even a marginal improvement on these generic learning algorithms would lead to major consequences in complexity theory. Our proof builds on several works in learning theory, pseudorandomness, and computational complexity, and crucially, on a connection between non-trivial classical learning algorithms and circuit lower bounds established by Oliveira and Santhanam (CCC 2017). Extending their approach to quantum learning algorithms turns out to create significant challenges. To achieve that, we show among other results how pseudorandom generators imply learning-to-lower-bo und connections in a generic fashion, construct the first conditional pseudorandom generator secure against uniform quantum computations, and extend the local list-decoding algorithm of Impagliazzo, Jaiswal, Kabanets and Wigderson (SICOMP 2010) to quantum circuits via a delicate analysis. We believe that these contributions are of independent interest and might find other applications.
翻訳日:2021-05-23 14:36:59 公開日:2020-12-03