このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210322となっている論文です。

PDF登録状況(公開日: 20210322)

TitleAuthorsAbstract論文公表日・翻訳日
# 方程式発見のための確率文法

Probabilistic Grammars for Equation Discovery ( http://arxiv.org/abs/2012.00428v2 )

ライセンス: Link先を確認
Jure Brence and Ljup\v{c}o Todorovski and Sa\v{s}o D\v{z}eroski(参考訳) 方程式発見(英: equation discovery)または記号回帰(英: symbolic regression)は、観測されたデータと専門家の知識から、方程式の形で表される科学的法則を発見する自動モデリングの一種である。 文脈自由文法のような決定論的文法は方程式発見における探索空間を制限し、どの方程式を考慮すべきで、どれがそうではないかを指定する厳しい制約を与えるために用いられてきた。 本稿では,確率論的文脈自由文法を方程式探索に用いることを提案する。 このような文法はソフト制約を符号化し、可能な方程式の空間上の事前確率分布を指定する。 確率的文法は、文法の規則に付随する確率を通じて、より単純な方程式を好むパルシモニー原理をエレガントかつ柔軟に定式化することができる。 本研究では,モンテカルロ法を用いて確率論的手法を用いることにより,より効率的な方程式発見が可能となることを示す。 最後に、方程式空間上の事前確率分布を指定することにより、方程式発見に対するベイズ的アプローチの基礎が与えられる。

Equation discovery, also known as symbolic regression, is a type of automated modeling that discovers scientific laws, expressed in the form of equations, from observed data and expert knowledge. Deterministic grammars, such as context-free grammars, have been used to limit the search spaces in equation discovery by providing hard constraints that specify which equations to consider and which not. In this paper, we propose the use of probabilistic context-free grammars in equation discovery. Such grammars encode soft constraints, specifying a prior probability distribution on the space of possible equations. We show that probabilistic grammars can be used to elegantly and flexibly formulate the parsimony principle, that favors simpler equations, through probabilities attached to the rules in the grammars. We demonstrate that the use of probabilistic, rather than deterministic grammars, in the context of a Monte-Carlo algorithm for grammar-based equation discovery, leads to more efficient equation discovery. Finally, by specifying prior probability distributions over equation spaces, the foundations are laid for Bayesian approaches to equation discovery.
翻訳日:2021-05-30 19:57:11 公開日:2021-03-22
# 聴覚障害者のためのテキスト音声合成

Text-to-speech for the hearing impaired ( http://arxiv.org/abs/2012.02174v2 )

ライセンス: Link先を確認
Josef Schlittenlacher, Thomas Baer(参考訳) Text-to-Speech (TTS) システムは、受信端で補正するのではなく、ソースで聴覚障害を補う機会を提供する。 これにより、補聴器内の音を増幅し、高い音声品質につながるアルゴリズムの時間制約などの制限が取り除かれる。 本研究では,時間,周波数,レベルの高分解能で音質を正常に復元するアルゴリズムを提案し,それをTacotron2とWaveGlowを用いて個別に増幅した音声を生成するTSシステムに組み込む。 音声品質の主観的評価により,提案手法は,原音声や線形増幅音声に類似した音質を持つ高音質音声に導かれるが,雑音の明瞭性は極めて高いことがわかった。 トランスファー学習は,生成したスペクトルを原音声から個々に増幅した音声に迅速に適応させ,高い音声品質と理解性を実現し,個々のttsシステムを効率的に学習する手段を得ることができた。

Text-to-speech (TTS) systems offer the opportunity to compensate for a hearing loss at the source rather than correcting for it at the receiving end. This removes limitations such as time constraints for algorithms that amplify a sound in a hearing aid and can lead to higher speech quality. We propose an algorithm that restores loudness to normal perception at a high resolution in time, frequency and level, and embed it in a TTS system that uses Tacotron2 and WaveGlow to produce individually amplified speech. Subjective evaluations of speech quality showed that the proposed algorithm led to high-quality audio with sound quality similar to original or linearly amplified speech but considerably higher speech intelligibility in noise. Transfer learning led to a quick adaptation of the produced spectra from original speech to individually amplified speech, resulted in high speech quality and intelligibility, and thus gives us a way to train an individual TTS system efficiently.
翻訳日:2021-05-23 14:35:38 公開日:2021-03-22
# (参考訳) クラウドローカライゼーションのための独立インスタンスマップの学習 [全文訳有]

Learning Independent Instance Maps for Crowd Localization ( http://arxiv.org/abs/2012.04164v2 )

ライセンス: CC BY 4.0
Junyu Gao, Tao Han, Yuan Yuan, Qi Wang(参考訳) 群衆分析の分野では、群衆シーンにおける各頭部の位置を正確に特定することが重要な課題である。 しかし、従来の密度に基づく手法は粗い予測のみを予測し、セグメント化/検出に基づく手法は、非常に密集したシーンや大規模変動群を扱えない。 そこで我々は,Independent Instance Map segmentation (IIM) という,クラウドローカライゼーションのためのエンドツーエンドかつ簡単なフレームワークを提案する。 密度写像やボックス回帰とは異なり、IIMの各インスタンスはオーバーラップされない。 群集を独立した連結成分に分割することにより、その位置と群集数(それぞれ中心数と成分数)を求める。 さらに,異なる密度領域のセグメンテーション品質を向上させるため,構造化されたインスタンスマップを出力するために,BM (di differentiable Binarization Module) を提案する。 BMはローカライズモデルに2つの利点をもたらす: 1) 異なる画像のしきい値マップを適応的に学習し、各インスタンスをより正確に検出する; 2) バイナリ予測とラベルの損失を使ってモデルを直接訓練する。 提案手法が有効であることが検証され,5つの一般的な群集データセット上での最先端手法よりも優れていた。 重要なことに、IIM は NWPU-Crowd Localization タスクにおいて F1 対策を 10.4 % 改善している。 ソースコードと事前トレーニングされたモデルは \url{https://github.com/t aohan10200/iim} でリリースされる。

Accurately locating each head's position in the crowd scenes is a crucial task in the field of crowd analysis. However, traditional density-based methods only predict coarse prediction, and segmentation/detecti on-based methods cannot handle extremely dense scenes and large-range scale-variations crowds. To this end, we propose an end-to-end and straightforward framework for crowd localization, named Independent Instance Map segmentation (IIM). Different from density maps and boxes regression, each instance in IIM is non-overlapped. By segmenting crowds into independent connected components, the positions and the crowd counts (the centers and the number of components, respectively) are obtained. Furthermore, to improve the segmentation quality for different density regions, we present a differentiable Binarization Module (BM) to output structured instance maps. BM brings two advantages into localization models: 1) adaptively learn a threshold map for different images to detect each instance more accurately; 2) directly train the model using loss on binary predictions and labels. Extensive experiments verify the proposed method is effective and outperforms the-state-of-the-art methods on the five popular crowd datasets. Significantly, IIM improves F1-measure by 10.4\% on the NWPU-Crowd Localization task. The source code and pre-trained models will be released at \url{https://github.com/t aohan10200/IIM}.
翻訳日:2021-05-17 12:27:58 公開日:2021-03-22
# sscnav: ビジュアル意味ナビゲーションのための信頼度対応意味シーン補完

SSCNav: Confidence-Aware Semantic Scene Completion for Visual Semantic Navigation ( http://arxiv.org/abs/2012.04512v2 )

ライセンス: Link先を確認
Yiqing Liang, Boyuan Chen, Shuran Song(参考訳) 本稿では、未知環境において、アクティブエージェントが特定の対象オブジェクトカテゴリにナビゲートするためのアクションを生成するタスクである視覚意味ナビゲーションに焦点を当てる。 このタスクを完了するには、アルゴリズムはカテゴリのインスタンスを同時に見つけてナビゲートする必要がある。 従来のポイントゴールナビゲーションと比較して、このタスクはエージェントが屋内環境に先立ってより強いコンテキストを持つ必要がある。 SSCNavは、自信を意識したセマンティックシーン補完モジュールを用いて、シーンの完了とエージェントのナビゲーション計画の導出を明示的にモデル化するアルゴリズムである。 環境を部分的に観察すると、SSCNavはまず、観測されていないシーンのセマンティックラベルで完全なシーン表現と、自身の予測に関連付けられた信頼マップを推測する。 そして、ポリシーネットワークは、シーン完了結果と信頼度マップからアクションを推測する。 実験により,提案したシーン補完モジュールは,下流ナビゲーションポリシーの効率を向上することを示した。 ビデオ、コード、データ: https://sscnav.cs.co lumbia.edu/

This paper focuses on visual semantic navigation, the task of producing actions for an active agent to navigate to a specified target object category in an unknown environment. To complete this task, the algorithm should simultaneously locate and navigate to an instance of the category. In comparison to the traditional point goal navigation, this task requires the agent to have a stronger contextual prior to indoor environments. We introduce SSCNav, an algorithm that explicitly models scene priors using a confidence-aware semantic scene completion module to complete the scene and guide the agent's navigation planning. Given a partial observation of the environment, SSCNav first infers a complete scene representation with semantic labels for the unobserved scene together with a confidence map associated with its own prediction. Then, a policy network infers the action from the scene completion result and confidence map. Our experiments demonstrate that the proposed scene completion module improves the efficiency of the downstream navigation policies. Video, code, and data: https://sscnav.cs.co lumbia.edu/
翻訳日:2021-05-16 20:58:48 公開日:2021-03-22
# 深層クラスタリングによる新しいインテントの発見

Discovering New Intents with Deep Aligned Clustering ( http://arxiv.org/abs/2012.08987v7 )

ライセンス: Link先を確認
Hanlei Zhang, Hua Xu, Ting-En Lin, Rui Lyu(参考訳) 対話システムでは,新たな意図の発見が重要な課題である。 既存のメソッドの多くは、既知のインテントから新しいインテントへの事前知識の転送に制限がある。 また、ラベルなしインテントをグループ化するためのクラスタリングフレンドリーな特徴を学ぶための高品質な教師付き信号を提供することも困難である。 本研究では,限定された意図データを用いて新たな意図を発見するための効果的な手法であるDeep Aligned Clusteringを提案する。 まず、モデルを事前訓練するために、ラベル付き既知のインテントサンプルを事前知識として活用する。 次に、k-meansを実行し、疑似ラベルとしてクラスタ割り当てを生成する。 さらに,クラスタ割り当て時のラベル不整合問題に対処するためのアライメント戦略を提案する。 最後に,アライメントされた擬似ラベルの監督下で意図表現を学習する。 未知の新たな意図によって、低信頼な意図的クラスタを排除し、意図的カテゴリの数を予測する。 2つのベンチマークデータセットの大規模な実験により、我々の手法はより堅牢であり、最先端の手法よりも大幅に改善されていることが示された。 コードはhttps://github.com/t huiar/deepaligned-cl usteringでリリースされる。

Discovering new intents is a crucial task in dialogue systems. Most existing methods are limited in transferring the prior knowledge from known intents to new intents. They also have difficulties in providing high-quality supervised signals to learn clustering-friendly features for grouping unlabeled intents. In this work, we propose an effective method, Deep Aligned Clustering, to discover new intents with the aid of the limited known intent data. Firstly, we leverage a few labeled known intent samples as prior knowledge to pre-train the model. Then, we perform k-means to produce cluster assignments as pseudo-labels. Moreover, we propose an alignment strategy to tackle the label inconsistency problem during clustering assignments. Finally, we learn the intent representations under the supervision of the aligned pseudo-labels. With an unknown number of new intents, we predict the number of intent categories by eliminating low-confidence intent-wise clusters. Extensive experiments on two benchmark datasets show that our method is more robust and achieves substantial improvements over the state-of-the-art methods. The codes are released at https://github.com/t huiar/DeepAligned-Cl ustering.
翻訳日:2021-05-03 03:11:58 公開日:2021-03-22
# 時系列予測のためのグローバルモデル:シミュレーション研究

Global Models for Time Series Forecasting: A Simulation Study ( http://arxiv.org/abs/2012.12485v3 )

ライセンス: Link先を確認
Hansika Hewamalage, Christoph Bergmeir, Kasun Bandara(参考訳) ビッグデータの現在の文脈では、多くの予測問題の性質は、孤立した時系列の予測から、類似したソースからの多くの時系列の予測へと変化している。 これにより、多くの時系列から同時に学習する競争力のあるグローバル予測モデルを開発する機会が開かれた。 しかし、大域的な予測モデルが単変量ベンチマークよりも優れているのか、特に系列の均一性/均一性の次元、系列のパターンの複雑さ、予測モデルの複雑さ、系列の長さ/数で、まだ不明である。 本研究は, 時系列特性を制御可能な複数のデータセットをシミュレートすることにより, これらの要因の影響を調査し, この問題に対処することを試みる。 具体的には、自動回帰(AR)や季節ARのような単純なデータ生成プロセス(DGP)からカオスロジスティックマップ、自己興奮閾値自動回帰、マッキーグラス方程式といった複雑なDGPまで、時系列をシミュレートする。 データの不均一性は、複数のDGPから生成された時系列を1つのデータセットに混合することによって実現される。 データセットの長さとシリーズの数は、異なるシナリオで異なる。 我々は,これらのデータセットに対して,Recurrent Neural Networks (RNN), Feed-Forward Neural Networks, Pooled Regression (PR) Model, Light Gradient Boosting Models (LGBM)などのグローバルな予測モデルを用いて実験を行い,その性能を標準的な統計的一変量予測手法と比較した。 本実験では,グローバル予測モデルとして訓練された場合,複雑な非線形モデリング能力を持つrnnsやlgbmsといった手法は,時系列長の短い系列,不均一な系列を持つデータセット,シリーズのパターンに関する事前知識の最小化といった予測シナリオにおいて,一般的に競争的手法であることを示す。

In the current context of Big Data, the nature of many forecasting problems has changed from predicting isolated time series to predicting many time series from similar sources. This has opened up the opportunity to develop competitive global forecasting models that simultaneously learn from many time series. But, it still remains unclear when global forecasting models can outperform the univariate benchmarks, especially along the dimensions of the homogeneity/heteroge neity of series, the complexity of patterns in the series, the complexity of forecasting models, and the lengths/number of series. Our study attempts to address this problem through investigating the effect from these factors, by simulating a number of datasets that have controllable time series characteristics. Specifically, we simulate time series from simple data generating processes (DGP), such as Auto Regressive (AR) and Seasonal AR, to complex DGPs, such as Chaotic Logistic Map, Self-Exciting Threshold Auto-Regressive, and Mackey-Glass Equations. The data heterogeneity is introduced by mixing time series generated from several DGPs into a single dataset. The lengths and the number of series in the dataset are varied in different scenarios. We perform experiments on these datasets using global forecasting models including Recurrent Neural Networks (RNN), Feed-Forward Neural Networks, Pooled Regression (PR) models and Light Gradient Boosting Models (LGBM), and compare their performance against standard statistical univariate forecasting techniques. Our experiments demonstrate that when trained as global forecasting models, techniques such as RNNs and LGBMs, which have complex non-linear modelling capabilities, are competitive methods in general under challenging forecasting scenarios such as series having short lengths, datasets with heterogeneous series and having minimal prior knowledge of the patterns of the series.
翻訳日:2021-04-25 18:19:48 公開日:2021-03-22
# テキスト生成における繰り返し問題に関する理論的解析

A Theoretical Analysis of the Repetition Problem in Text Generation ( http://arxiv.org/abs/2012.14660v4 )

ライセンス: Link先を確認
Zihao Fu, Wai Lam, Anthony Man-Cho So, Bei Shi(参考訳) 翻訳、要約、言語モデルなどを含むテキスト生成タスク。 近年急速に成長しています 顕著な成果にもかかわらず、ほぼ全てのテキスト生成モデルで繰り返し問題が観測され、世代性能を損なうことになった。 繰り返し問題を解くために、多くの方法が提案されているが、なぜこの問題が起きたのか、どのように解決されたのかを示す理論的解析は存在しない。 本稿では,繰り返し問題に対する理論解析のための新しい枠組みを提案する。 まず,繰り返し問題を定量的に特徴付けるために,平均反復確率(ARP)を定義した。 次に,マルコフ生成モデルの広範囲な解析を行い,直観的な理解により平均反復確率のいくつかの上限を導出する。 既存の手法のほとんどは、上界を明示的にあるいは暗黙的に最小化している。 我々の理論に基づいて、反復問題は残念ながら、言語そのものの特徴によって引き起こされることを示している。 一つの大きな理由として、次の単語と同じ単語を高い確率で予測する単語が多すぎることが挙げられる。 したがって、その単語に戻り、繰り返しを形成することは容易であり、高い流入問題としてそれを掘り下げる。 さらに、一般生成モデルにおける平均反復確率の濃度境界を導出する。 最後に,理論上の上限に基づいて,高流入問題を軽減するための新しい再平衡符号化手法を提案する。 実験結果から,我々の理論フレームワークは一般モデルに適用可能であることが示され,提案手法は繰り返し問題を大幅に緩和する。 本論文のソースコードはhttps://github.com/f uzihaofzh/repetition -problem-nlgから取得できる。

Text generation tasks, including translation, summarization, language models, and etc. see rapid growth during recent years. Despite the remarkable achievements, the repetition problem has been observed in nearly all text generation models undermining the generation performance extensively. To solve the repetition problem, many methods have been proposed, but there is no existing theoretical analysis to show why this problem happens and how it is resolved. In this paper, we propose a new framework for theoretical analysis for the repetition problem. We first define the Average Repetition Probability (ARP) to characterize the repetition problem quantitatively. Then, we conduct an extensive analysis of the Markov generation model and derive several upper bounds of the average repetition probability with intuitive understanding. We show that most of the existing methods are essentially minimizing the upper bounds explicitly or implicitly. Grounded on our theory, we show that the repetition problem is, unfortunately, caused by the traits of our language itself. One major reason is attributed to the fact that there exist too many words predicting the same word as the subsequent word with high probability. Consequently, it is easy to go back to that word and form repetitions and we dub it as the high inflow problem. Furthermore, we derive a concentration bound of the average repetition probability for a general generation model. Finally, based on the theoretical upper bounds, we propose a novel rebalanced encoding approach to alleviate the high inflow problem. The experimental results show that our theoretical framework is applicable in general generation models and our proposed rebalanced encoding approach alleviates the repetition problem significantly. The source code of this paper can be obtained from https://github.com/f uzihaofzh/repetition -problem-nlg.
翻訳日:2021-04-18 20:39:37 公開日:2021-03-22
# 高次元楕円方程式の解法におけるディープリッツ法の事前一般化解析

A Priori Generalization Analysis of the Deep Ritz Method for Solving High Dimensional Elliptic Equations ( http://arxiv.org/abs/2101.01708v2 )

ライセンス: Link先を確認
Jianfeng Lu, Yulong Lu, Min Wang(参考訳) 本稿では,高次元偏微分方程式を解くニューラルネットワークベースの手法として,Deep Ritz Method (DRM) [W. E and B. Yu, 2017] の事前一般化解析について述べる。 我々は,drmの枠組みにおける2層ニューラルネットワークの一般化誤差境界を導出し,poisson方程式と静的schr\"odinger方程式の2つのプロトタイプ楕円型pdesをd$-dimensional unit hypercube上で解く。 具体的には、pdes の厳密解がスペクトルバロン空間と呼ばれる適切な低複素空間にあるという事前仮定の下で、一般化誤差の収束率は次元 $d$ から独立であることが証明される。 さらに、解がスペクトルバロン関数であることを保証する強制項とポテンシャル関数について十分条件を与える。 我々は、スペクトルバロン空間上のPDEに対する新しい解論を開発し、PDEに対する古典的なソボレフ正則理論の類似と見なすことができる。

This paper concerns the a priori generalization analysis of the Deep Ritz Method (DRM) [W. E and B. Yu, 2017], a popular neural-network-based method for solving high dimensional partial differential equations. We derive the generalization error bounds of two-layer neural networks in the framework of the DRM for solving two prototype elliptic PDEs: Poisson equation and static Schr\"odinger equation on the $d$-dimensional unit hypercube. Specifically, we prove that the convergence rates of generalization errors are independent of the dimension $d$, under the a priori assumption that the exact solutions of the PDEs lie in a suitable low-complexity space called spectral Barron space. Moreover, we give sufficient conditions on the forcing term and the potential function which guarantee that the solutions are spectral Barron functions. We achieve this by developing a new solution theory for the PDEs on the spectral Barron space, which can be viewed as an analog of the classical Sobolev regularity theory for PDEs.
翻訳日:2021-04-11 11:39:00 公開日:2021-03-22
# 共通利益のためのゲーム化と自己適応的応用: 今後の研究課題

Gamified and Self-Adaptive Applications for the Common Good: Research Challenges Ahead ( http://arxiv.org/abs/2103.15559v1 )

ライセンス: Link先を確認
Antonio Bucchiarone, Antonio Cicchetti, Nelly Bencomo, Enrica Loria, Annapaola Marconi(参考訳) モチベーションのあるデジタルシステムは、共通の目標に向かって行動的変化を育むためにエンドユーザーと関わり、モチベーションを与える能力を提供します。 一般に、これらのシステムはゲーム以外の文脈でゲーミフィケーションの原則を用いる。 長年にわたり、ゲーミフィケーションは研究者や実践者の間で、行動の変化を促進するという究極の目標を掲げ、ユーザーが適切な利益を提供することができるが、不利で退屈であると見なされる活動を行うよう、人々を動機付けるツールとして合意を得てきた。 ゲーミフィケーションのメリットを享受できる共通の利益を達成するための、異種アプリケーションシナリオが数多く存在する。 しかし、オープンな問題は、複数のモチベーションキャンペーンを効果的に組み合わせて、システムを非生産的行動に晒すことなく参加の度合いを最大化する方法である。 自己適応はシステム全体の特徴であり、個々のエージェントは、他のエージェントのリソース、機能、能力を利用してタスクをより効率的に実行するために自己適応する可能性がある。 結果として、複数のキャンペーンを実行し、共通の目的に適応することができる。 同時にエージェントはマイクロコミュニティにグループ化され、エージェントは自身のソーシャルキャピタルに貢献し、他人の能力を活用して弱点のバランスをとる。 本稿では,自律型システムとマルチエージェントシステムの基盤にある原則を活用し,スマートコミュニティを共通の目標へと導くマルチチャレンジモチベーションシステムを設計するためのビジョンを提案する。 我々は,mape-kループに基づく汎用フレームワークの初期バージョンと,我々のビジョンの実現に向けた研究ロードマップを特徴付ける一連の研究課題を提案する。

Motivational digital systems offer capabilities to engage and motivate end-users to foster behavioral changes towards a common goal. In general these systems use gamification principles in non-games contexts. Over the years, gamification has gained consensus among researchers and practitioners as a tool to motivate people to perform activities with the ultimate goal of promoting behavioural change, or engaging the users to perform activities that can offer relevant benefits but which can be seen as unrewarding and even tedious. There exists a plethora of heterogeneous application scenarios towards reaching the common good that can benefit from gamification. However, an open problem is how to effectively combine multiple motivational campaigns to maximise the degree of participation without exposing the system to counterproductive behaviours. We conceive motivational digital systems as multi-agent systems: self-adaptation is a feature of the overall system, while individual agents may self-adapt in order to leverage other agents' resources, functionalities and capabilities to perform tasks more efficiently and effectively. Consequently, multiple campaigns can be run and adapted to reach common good. At the same time, agents are grouped into micro-communities in which agents contribute with their own social capital and leverage others' capabilities to balance their weaknesses. In this paper we propose our vision on how the principles at the base of the autonomous and multi-agent systems can be exploited to design multi-challenge motivational systems to engage smart communities towards common goals. We present an initial version of a general framework based on the MAPE-K loop and a set of research challenges that characterise our research roadmap for the implementation of our vision.
翻訳日:2021-04-05 01:08:39 公開日:2021-03-22
# 金融時系列予測のためのドメイン固有概念ドリフト検出器

Domain Specific Concept Drift Detectors for Predicting Financial Time Series ( http://arxiv.org/abs/2103.14079v1 )

ライセンス: Link先を確認
Filippo Neri(参考訳) 概念ドリフト検出器は、学習システムが静止しないデータストリームの精度を維持することができる。 金融時系列(Financial time series)は、世界の投資決定に影響を及ぼす上で、概念の漂流(市場フェーズ)が極めて重要である非定常データストリームの例である。 本稿では,金融時系列に適用した場合のドリフト検出器の挙動について考察する。 a) 概念ドリフト検出器は通常、連続学習よりも実行時間を改善するb) 計算コストは通常、基礎学習者の学習と予測のステップのごく一部であり、c) 概念ドリフト検出器をそれらが操作する学習システムと組み合わせて研究することが重要であり、d) 概念ドリフト検出器は、モデルの正確性だけでなく、生の財務データの時系列に直接適用することができる。 さらに、金融時系列に合わせた3つの簡単なコンセプトドリフト検出器を導入し、これらのうち2つは金融時系列に適用した場合の最先端技術に匹敵する効果があることを示した。

Concept drift detectors allow learning systems to maintain good accuracy on non-stationary data streams. Financial time series are an instance of non-stationary data streams whose concept drifts (market phases) are so important to affect investment decisions worldwide. This paper studies how concept drift detectors behave when applied to financial time series. General results are: a) concept drift detectors usually improve the runtime over continuous learning, b) their computational cost is usually a fraction of the learning and prediction steps of even basic learners, c) it is important to study concept drift detectors in combination with the learning systems they will operate with, and d) concept drift detectors can be directly applied to the time series of raw financial data and not only to the model's accuracy one. Moreover, the study introduces three simple concept drift detectors, tailored to financial time series, and shows that two of them can be at least as effective as the most sophisticated ones from the state of the art when applied to financial time series.
翻訳日:2021-04-05 01:08:12 公開日:2021-03-22
# (参考訳) グラフニューラルネットワークにおけるメンバシップ推論攻撃 [全文訳有]

Membership Inference Attack on Graph Neural Networks ( http://arxiv.org/abs/2101.06570v2 )

ライセンス: CC BY 4.0
Iyiola E. Olatunji, Wolfgang Nejdl and Megha Khosla(参考訳) 従来のディープニューラルネットワークやグラフデータを一般化するグラフニューラルネットワーク(GNN)は、ノード分類、リンク予測、グラフ分類など、いくつかのグラフ分析タスクで最先端のパフォーマンスを達成した。 我々は、トレーニングされたGNNモデルがトレーニングされた\emph{member}ノードに関する情報を漏洩させる方法について焦点を当てた。 GNNに対してMI攻撃を行うための2つの現実的な帰納的設定を導入する。 トレーニングモデルの後部モデルを用いた最も単純な攻撃モデルを選択する一方で、MI攻撃に対するロバスト性の違いを規定するGNNの特性を徹底的に分析する。 意外で心配な事実は、ターゲットモデルがうまく一般化しても攻撃が成功することである。 従来の機械学習モデルでは、オーバーフィッティングが漏洩の主な原因と考えられているが、gnnでは構造情報の追加が大きな要因であることを示している。 4つの代表的GNNモデルに対する広範な実験により,本研究の成果を裏付ける。 ポジティブな点として、MI攻撃に対して他のモデルよりも脆弱なモデルの特徴を特定する。

Graph Neural Networks (GNNs), which generalize traditional deep neural networks or graph data, have achieved state-of-the-art performance on several graph analytical tasks like node classification, link prediction, or graph classification. We focus on how trained GNN models could leak information about the \emph{member} nodes that they were trained on. We introduce two realistic inductive settings for carrying out a membership inference (MI) attack on GNNs. While choosing the simplest possible attack model that utilizes the posteriors of the trained model, we thoroughly analyze the properties of GNNs which dictate the differences in their robustness towards MI attack. The surprising and worrying fact is that the attack is successful even if the target model generalizes well. While in traditional machine learning models, overfitting is considered the main cause of such leakage, we show that in GNNs the additional structural information is the major contributing factor. We support our findings by extensive experiments on four representative GNN models. On a positive note, we identify properties of certain models which make them less vulnerable to MI attacks than others.
翻訳日:2021-03-28 02:55:58 公開日:2021-03-22
# (参考訳) ロバスト深層ニューラルネットワークの高速近似スペクトル正規化 [全文訳有]

Fast Approximate Spectral Normalization for Robust Deep Neural Networks ( http://arxiv.org/abs/2103.13815v1 )

ライセンス: CC0 1.0
Zhixin Pan and Prabhat Mishra(参考訳) ディープニューラルネットワーク(DNN)は、他の選択肢と比較して優れたパフォーマンスのため、機械学習において重要な役割を果たす。 しかし、DNNは、よく製作された敵の例によって容易に騙されるので、安全クリティカルなアプリケーションには適さない。 敵対的攻撃に対抗する有望な戦略の一つは、スペクトル正規化(spectral normalization)を利用することで、トレーニングされたモデルが入力サンプルの乱れに対する感度が低いことを保証する。 残念ながら、この戦略にはスペクトルノルムの正確な計算が必要であり、これは大規模ネットワークでは計算集約的で実用的ではない。 本稿では,フーリエ変換と層分離に基づくスペクトル正規化の近似アルゴリズムを提案する。 我々の研究の主な貢献は、重み行列の空間性と畳み込み層の分解性を効果的に組み合わせることである。 広範な実験評価により,現在のスペクトル正規化と比較して,時間効率 (最大60\%) とモデルロバスト性 (平均61\%) の両方を著しく改善できることを示した。

Deep neural networks (DNNs) play an important role in machine learning due to its outstanding performance compared to other alternatives. However, DNNs are not suitable for safety-critical applications since DNNs can be easily fooled by well-crafted adversarial examples. One promising strategy to counter adversarial attacks is to utilize spectral normalization, which ensures that the trained model has low sensitivity towards the disturbance of input samples. Unfortunately, this strategy requires exact computation of spectral norm, which is computation intensive and impractical for large-scale networks. In this paper, we introduce an approximate algorithm for spectral normalization based on Fourier transform and layer separation. The primary contribution of our work is to effectively combine the sparsity of weight matrix and decomposability of convolution layers. Extensive experimental evaluation demonstrates that our framework is able to significantly improve both time efficiency (up to 60\%) and model robustness (61\% on average) compared with the state-of-the-art spectral normalization.
翻訳日:2021-03-27 04:48:18 公開日:2021-03-22
# (参考訳) 企業におけるAIモデルのクラウドソーシングのための新しい手法 [全文訳有]

A Novel Methodology For Crowdsourcing AI Models in an Enterprise ( http://arxiv.org/abs/2103.14033v1 )

ライセンス: CC BY 4.0
Parthasarathy Suryanarayanan, Sundar Saranathan, Shilpa Mahatma, Divya Pathak(参考訳) AIの進化は急速に進み、業界とコミュニティのコラボレーションの課題と機会を生み出している。 本稿では,AIモデルのクラウドソーシングを通じて,このコラボレーションを促進する新しい手法を提案する。 具体的には、どんな組織でも簡単にAIコンペティションを主催できるシステムとプロセスを実装しました。 このシステムは、提出されたモデルを社内のプロプライエタリなデータに対して自動的に収集し、評価し、それらを製品に再利用可能なサービスとして組み込むことができる。

The evolution of AI is advancing rapidly, creating both challenges and opportunities for industry-community collaboration. In this work, we present a novel methodology aiming to facilitate this collaboration through crowdsourcing of AI models. Concretely, we have implemented a system and a process that any organization can easily adopt to host AI competitions. The system allows them to automatically harvest and evaluate the submitted models against in-house proprietary data and also to incorporate them as reusable services in a product.
翻訳日:2021-03-27 04:40:09 公開日:2021-03-22
# (参考訳) supervised contrastive replay: online class-incremental continual learningにおけるクラス平均分類器の再検討 [全文訳有]

Supervised Contrastive Replay: Revisiting the Nearest Class Mean Classifier in Online Class-Incremental Continual Learning ( http://arxiv.org/abs/2103.13885v1 )

ライセンス: CC BY 4.0
Zheda Mai, Ruiwen Li, Hyunwoo Kim, Scott Sanner(参考訳) online class-incremental continual learning (cl)は、オンラインの非定常データストリームから新しいクラスを継続的に学習する問題を研究し、壊滅的な忘れを緩和しながら新しいデータに適応することを意図している。 メモリリプレイは有望な結果を示しているが、一般的に使用されるsoftmax分類器によるオンライン学習の正規バイアスは未解決の課題である。 CLコミュニティにおいてNearest-Class-Mean(N CM)分類器は著しく過小評価されているが、Softmax分類器の単純な代替手段であることを示す。 遅延バイアスに対処し、新しいクラスの完全接続層の構造変化を避ける。 さらに,いくつかの最先端リプレイ法に対して,ソフトマックス分類器をNCM分類器に置き換える際に,かなりの性能向上が見られた。 NCM分類器をより効果的に活用するには、同一クラスに属するデータ埋め込みをクラスタ化し、異なるクラスラベルを持つものと明確に分離する必要がある。 この目的のために、私たちはSupervised Contrastive Replay (SCR)にコントリビュートし、同じクラスのサンプルを埋め込みスペースに密集させながら、異なるクラスのサンプルをリプレイベースのトレーニング中にさらに分離させます。 全体として,提案したSCRは,様々なデータセットにおいて,破滅的な忘れ込みを著しく低減し,最先端のCL法よりも優れる。

Online class-incremental continual learning (CL) studies the problem of learning new classes continually from an online non-stationary data stream, intending to adapt to new data while mitigating catastrophic forgetting. While memory replay has shown promising results, the recency bias in online learning caused by the commonly used Softmax classifier remains an unsolved challenge. Although the Nearest-Class-Mean (NCM) classifier is significantly undervalued in the CL community, we demonstrate that it is a simple yet effective substitute for the Softmax classifier. It addresses the recency bias and avoids structural changes in the fully-connected layer for new classes. Moreover, we observe considerable and consistent performance gains when replacing the Softmax classifier with the NCM classifier for several state-of-the-art replay methods. To leverage the NCM classifier more effectively, data embeddings belonging to the same class should be clustered and well-separated from those with a different class label. To this end, we contribute Supervised Contrastive Replay (SCR), which explicitly encourages samples from the same class to cluster tightly in embedding space while pushing those of different classes further apart during replay-based training. Overall, we observe that our proposed SCR substantially reduces catastrophic forgetting and outperforms state-of-the-art CL methods by a significant margin on a variety of datasets.
翻訳日:2021-03-27 04:37:17 公開日:2021-03-22
# RA-BNN: 逆ビットフリップ攻撃の同時防止と精度向上のためのロバスト・高精度バイナリニューラルネットワークの構築

RA-BNN: Constructing Robust & Accurate Binary Neural Network to Simultaneously Defend Adversarial Bit-Flip Attack and Improve Accuracy ( http://arxiv.org/abs/2103.13813v1 )

ライセンス: Link先を確認
Adnan Siraj Rakin, Li Yang, Jingtao Li, Fan Yao, Chaitali Chakrabarti, Yu Cao, Jae-sun Seo, and Deliang Fan(参考訳) 最近開発された対向重量攻撃(a.k.a.)。 bit-flip attack (BFA)は、非常に少量のモデルパラメータ摂動でディープニューラルネットワーク(DNN)のパフォーマンスを向上することに成功した。 この脅威から守るため,我々は,完全なバイナリ(重みとアクティベーションの両方)を用いたra-bnnを提案する。ニューラルネットワーク(bnn)により,dnnモデルのロバスト性が大幅に向上する(精度を無作為な推測と同じくらい低くするために必要なビットフリップ数として定義される)。 しかし、そのような攻撃的な低ビット幅モデルは、クリーンな推論精度(すなわち攻撃なし)に苦しむ。 そこで本研究では,新規かつ効率的な2段階ネットワーク成長手法であるアーリーグロースを提案する。 Gumbel-Sigmoid関数でトレーニングしたチャネルワイドのバイナリマスクに基づいて,各BNN層のチャネルサイズを選択的に拡大する。 推測精度の回復は別として,成長後のRA-BNNはBFAに対する耐性が有意に高かった。 CIFAR-10データセットを評価したところ,提案したRA-BNNはベースラインBNNと比較して約2~8 %の精度向上が可能であり,BFAに対する耐性は125倍以上向上することがわかった。 さらにimagenetでは、ビットフリップ量が十分に大きい(例えば5,000)場合、ベースラインbnnの精度は51.9%から4.3%に低下し、ra-bnnの精度は60.9%から37.1%に低下する(9%クリーン精度改善)。

Recently developed adversarial weight attack, a.k.a. bit-flip attack (BFA), has shown enormous success in compromising Deep Neural Network (DNN) performance with an extremely small amount of model parameter perturbation. To defend against this threat, we propose RA-BNN that adopts a complete binary (i.e., for both weights and activation) neural network (BNN) to significantly improve DNN model robustness (defined as the number of bit-flips required to degrade the accuracy to as low as a random guess). However, such an aggressive low bit-width model suffers from poor clean (i.e., no attack) inference accuracy. To counter this, we propose a novel and efficient two-stage network growing method, named Early-Growth. It selectively grows the channel size of each BNN layer based on channel-wise binary masks training with Gumbel-Sigmoid function. Apart from recovering the inference accuracy, our RA-BNN after growing also shows significantly higher resistance to BFA. Our evaluation of the CIFAR-10 dataset shows that the proposed RA-BNN can improve the clean model accuracy by ~2-8 %, compared with a baseline BNN, while simultaneously improving the resistance to BFA by more than 125 x. Moreover, on ImageNet, with a sufficiently large (e.g., 5,000) amount of bit-flips, the baseline BNN accuracy drops to 4.3 % from 51.9 %, while our RA-BNN accuracy only drops to 37.1 % from 60.9 % (9 % clean accuracy improvement).
翻訳日:2021-03-26 13:45:04 公開日:2021-03-22
# 教師なしドメイン適応のための動的重み付き学習

Dynamic Weighted Learning for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2103.13814v1 )

ライセンス: Link先を確認
Ni Xiao and Lei Zhang(参考訳) unsupervised domain adaptation (uda) は、完全なラベル付きソースドメインからの情報を活用し、ラベルなしのターゲットドメインの分類性能を向上させることを目的としている。 最近のアプローチでは、この課題に取り組むために、ドメイン不変およびクラス判別表現を探求している。 しかし、これらの手法はドメインアライメント学習とクラス識別学習の相互作用を無視している。 その結果、ドメインアライメントとクラス識別の間の欠如または不適切なトレードオフは、負の転送の問題に直結する。 本稿では,過度なアライメント学習による識別可能性消失問題や過度な判別学習によるドメインミスアライメント問題を回避するために,動的重み付け学習(dwl)を提案する。 技術的には、DWLはアライメントと差別性の程度を導入することによって、アライメントと差別性の学習損失を動的に重み付けする。 また,本研究では,ドメイン間のサンプル不均衡の問題をまず検討し,各ドメイン間の情報バランスを確保するために,サンプルを重み付けして解決する。 大規模な実験により、DWLはいくつかのベンチマークデータセットで優れた性能を示した。

Unsupervised domain adaptation (UDA) aims to improve the classification performance on an unlabeled target domain by leveraging information from a fully labeled source domain. Recent approaches explore domain-invariant and class-discriminant representations to tackle this task. These methods, however, ignore the interaction between domain alignment learning and class discrimination learning. As a result, the missing or inadequate tradeoff between domain alignment and class discrimination are prone to the problem of negative transfer. In this paper, we propose Dynamic Weighted Learning (DWL) to avoid the discriminability vanishing problem caused by excessive alignment learning and domain misalignment problem caused by excessive discriminant learning. Technically, DWL dynamically weights the learning losses of alignment and discriminability by introducing the degree of alignment and discriminability. Besides, the problem of sample imbalance across domains is first considered in our work, and we solve the problem by weighing the samples to guarantee information balance across domains. Extensive experiments demonstrate that DWL has an excellent performance in several benchmark datasets.
翻訳日:2021-03-26 13:32:01 公開日:2021-03-22
# 効率的なデータセンター計画と計算管理のための電力モデリング

Power Modeling for Effective Datacenter Planning and Compute Management ( http://arxiv.org/abs/2103.13308v1 )

ライセンス: Link先を確認
Ana Radovanovic, Bokan Chen, Saurav Talukdar, Binz Roy, Alexandre Duarte, and Mahya Shahbazi(参考訳) データセンターの電力需要は継続的に増加しており、そのコストの鍵となっている。 計算資源(cpu、ramなど)の正確なマッピング ハードウェアタイプ(サーバ、アクセラレータなど)も必要です。 電力消費は、主要なWebおよびクラウドサービスプロバイダにとって重要な要件として現れています。 データセンターの容量と関連する消費電力のグローバルな増加に伴い、そのようなモデルはデータセンターの設計と運用に関する重要な決定に不可欠である。 本稿では,Google の超大規模データセンターにまたがるハードウェア構成やワークロードに対して,正確で,シンプルで,解釈可能な2種類の統計パワーモデルについて論じる。 私たちの知る限りでは、これはこの種の大規模な電力モデリング研究としては最大のもので、多様なデータセンター計画とリアルタイム管理ユースケースの範囲だけでなく、モデリングと検証に使用されるさまざまなハードウェア構成とワークロードタイプの両方においてです。 提案手法は, 単純かつスケーラブルであるが, 5%以下では絶対誤差 (mape) を予測でき, 95%以上の多様な電力分配ユニット (2000以上) では4つの機能しか利用できないことを示した。 この性能は、以前の最先端手法の報告された正確さと一致し、より少ない機能を使用し、幅広いユースケースをカバーする。

Datacenter power demand has been continuously growing and is the key driver of its cost. An accurate mapping of compute resources (CPU, RAM, etc.) and hardware types (servers, accelerators, etc.) to power consumption has emerged as a critical requirement for major Web and cloud service providers. With the global growth in datacenter capacity and associated power consumption, such models are essential for important decisions around datacenter design and operation. In this paper, we discuss two classes of statistical power models designed and validated to be accurate, simple, interpretable and applicable to all hardware configurations and workloads across hyperscale datacenters of Google fleet. To the best of our knowledge, this is the largest scale power modeling study of this kind, in both the scope of diverse datacenter planning and real-time management use cases, as well as the variety of hardware configurations and workload types used for modeling and validation. We demonstrate that the proposed statistical modeling techniques, while simple and scalable, predict power with less than 5% Mean Absolute Percent Error (MAPE) for more than 95% diverse Power Distribution Units (more than 2000) using only 4 features. This performance matches the reported accuracy of the previous started-of-the-art methods, while using significantly less features and covering a wider range of use cases.
翻訳日:2021-03-25 13:48:14 公開日:2021-03-22
# (参考訳) エキゾチックなオプションの評価とモデルリスクの推定 [全文訳有]

Valuing Exotic Options and Estimating Model Risk ( http://arxiv.org/abs/2103.12551v1 )

ライセンス: CC BY 4.0
Jay Cao, Jacky Chen, John Hull, Zissis Poulos(参考訳) エキゾチックな選択肢を評価するための一般的なアプローチは、モデルを選択し、そのパラメータをできるだけ正確に変動面に合わせることである。 これをモデルキャリブレーションアプローチ(MCA)と呼ぶ。 本稿では,ボラティリティ面上の点をニューラルネットワークに入力する特徴点とする代替手法を検討する。 これをボラティリティ機能アプローチ(VFA)と呼ぶ。 我々は,実際に発生する変動面に対して,VFAがMCAを上回ることが期待できる実験を行った。 ニューラルネットワークの開発に前もって計算時間を投資すれば、VFAを使ったエキゾチックなオプションの評価は非常に高速になる。 VFAはモデルリスクの推定に有用なツールです。 2001年から2019年までのs&p 500データを用いてこれを示す。

A common approach to valuing exotic options involves choosing a model and then determining its parameters to fit the volatility surface as closely as possible. We refer to this as the model calibration approach (MCA). This paper considers an alternative approach where the points on the volatility surface are features input to a neural network. We refer to this as the volatility feature approach (VFA). We conduct experiments showing that VFA can be expected to outperform MCA for the volatility surfaces encountered in practice. Once the upfront computational time has been invested in developing the neural network, the valuation of exotic options using VFA is very fast. VFA is a useful tool for the estimation of model risk. We illustrate this using S&P 500 data for the 2001 to 2019 period.
翻訳日:2021-03-25 05:49:22 公開日:2021-03-22
# (参考訳) 私はこの身体活動に適していますか。 慣性センサからの物理的コンディショニングの神経内埋め込み [全文訳有]

Am I fit for this physical activity? Neural embedding of physical conditioning from inertial sensors ( http://arxiv.org/abs/2103.12095v1 )

ライセンス: CC BY 4.0
Davi Pedrosa de Aguiar and Ot\'avio Augusto Silva and Fabricio Murai(参考訳) Inertial Measurement Unit(IMU)センサーは、スマートフォンやフィットネスウォッチなどの日常的なデバイスでますます普及している。 その結果、このデータを利用する健康関連アプリケーション群は増え続けており、ヒューマンアクティビティ認識(har)のようなタスクの正確な予測モデルの設計の重要性も高まっている。 しかし、あまり注目されていない重要な課題は、IMUデータを用いて身体活動を行う際の個人の心拍数の予測である。 これは例えば、実際に実行させることなく、人にとって安全であるアクティビティを決定するために使うことができる。 本稿では,このタスクを畳み込み層とlstm層で構成されたニューラルアーキテクチャを提案する。 しかし、我々のモデルは、以前実行された活動からセンサデータに基づいて、LSTMの初期隠れ状態として使用する個人の物理的条件埋め込み(PCE)を抽出する畳み込みネットワークを含んでいる。 公開データセット (pamap2, ppg-dalia) で利用可能な imu センサーデータから, 様々な身体活動を行う23名の被験者の心拍数を予測する際に, 提案モデルである pce-lstm を評価する。 比較のために,本課題に特化して提案される唯一のモデルとして,HARに適応した最先端モデルとして使用する。 PCE-LSTMは平均絶対誤差を10%以上下げる。 我々は,この誤りの低減がpceの利用によるものであることを実証的に示す。 最後に,2つのデータセット(ppg-dalia,wesad)を用いて,photoplethysmograph y(ppg)センサが動作による心拍数測定誤差を正し,最先端のディープラーニングベースラインを30%以上上回る場合に,pce-lstmが有効であることを示す。

Inertial Measurement Unit (IMU) sensors are becoming increasingly ubiquitous in everyday devices such as smartphones, fitness watches, etc. As a result, the array of health-related applications that tap onto this data has been growing, as well as the importance of designing accurate prediction models for tasks such as human activity recognition (HAR). However, one important task that has received little attention is the prediction of an individual's heart rate when undergoing a physical activity using IMU data. This could be used, for example, to determine which activities are safe for a person without having him/her actually perform them. We propose a neural architecture for this task composed of convolutional and LSTM layers, similarly to the state-of-the-art techniques for the closely related task of HAR. However, our model includes a convolutional network that extracts, based on sensor data from a previously executed activity, a physical conditioning embedding (PCE) of the individual to be used as the LSTM's initial hidden state. We evaluate the proposed model, dubbed PCE-LSTM, when predicting the heart rate of 23 subjects performing a variety of physical activities from IMU-sensor data available in public datasets (PAMAP2, PPG-DaLiA). For comparison, we use as baselines the only model specifically proposed for this task, and an adapted state-of-the-art model for HAR. PCE-LSTM yields over 10% lower mean absolute error. We demonstrate empirically that this error reduction is in part due to the use of the PCE. Last, we use the two datasets (PPG-DaLiA, WESAD) to show that PCE-LSTM can also be successfully applied when photoplethysmography (PPG) sensors are available to rectify heart rate measurement errors caused by movement, outperforming the state-of-the-art deep learning baselines by more than 30%.
翻訳日:2021-03-25 05:31:40 公開日:2021-03-22
# (参考訳) 銀河系外過渡現象のアクティブ異常検出のための深層学習法 [全文訳有]

A Deep Learning Approach for Active Anomaly Detection of Extragalactic Transients ( http://arxiv.org/abs/2103.12102v1 )

ライセンス: CC BY 4.0
V. Ashley Villar, Miles Cranmer, Edo Berger, Gabriella Contardo, Shirley Ho, Griffin Hosseinzadeh, Joshua Yao-Yu Lin(参考訳) ヴェラ・c・ルービン天文台のような広視野の光学観測で発見された一過性の天体物理学的な事象の数を考えると、マルチ波長と分光のフォローアップ能力が不足している。 潜在的な科学目標の干し草から、天文学者は針の選別をリアルタイムで研究するために希少な資源を割り当てなければならない。 本稿では、PLAsTiCCデータセットの1%を用いて、シミュレートされたルビン天文台の銀河外トランジェント事象を符号化し、オートエンコーダを訓練する変動型リカレントオートエンコーダニューラルネットワークを提案する。 教師なし手法はラベルなし,リアルタイム,多変量,非周期データで一意に動作する。 1,129,184のイベントを,孤立林を用いて推定した異常スコアに基づいてランク付けした。 私たちのパイプラインは、過渡現象のレアクラスをより異常に分類することに成功しています。 異常値と不確かさの単純なカットを用いて、超光およびペア不安定超新星を含む珍しい過渡現象(ia型、ii型、ibc型超新星以外の過渡現象)の純粋な(約95%純粋な)サンプルを同定する。 最後に,本アルゴリズムは,これらの過渡現象をピーク前に異常であると同定することが可能であり,ルービン天文台時代における実時間追従研究を可能にした。

There is a shortage of multi-wavelength and spectroscopic followup capabilities given the number of transient and variable astrophysical events discovered through wide-field, optical surveys such as the upcoming Vera C. Rubin Observatory. From the haystack of potential science targets, astronomers must allocate scarce resources to study a selection of needles in real time. Here we present a variational recurrent autoencoder neural network to encode simulated Rubin Observatory extragalactic transient events using 1% of the PLAsTiCC dataset to train the autoencoder. Our unsupervised method uniquely works with unlabeled, real time, multivariate and aperiodic data. We rank 1,129,184 events based on an anomaly score estimated using an isolation forest. We find that our pipeline successfully ranks rarer classes of transients as more anomalous. Using simple cuts in anomaly score and uncertainty, we identify a pure (~95% pure) sample of rare transients (i.e., transients other than Type Ia, Type II and Type Ibc supernovae) including superluminous and pair-instability supernovae. Finally, our algorithm is able to identify these transients as anomalous well before peak, enabling real-time follow up studies in the era of the Rubin Observatory.
翻訳日:2021-03-25 05:17:18 公開日:2021-03-22
# (参考訳) ニューラルネットワーク推定器の性能境界:故障検出への応用 [全文訳有]

Performance Bounds for Neural Network Estimators: Applications in Fault Detection ( http://arxiv.org/abs/2103.12141v1 )

ライセンス: CC BY 4.0
Navid Hashemi, Mahyar Fazlyab, Justin Ruths(参考訳) 本研究では,データ駆動型推定器モデルが自己回帰型ニューラルネットワークによって提供されるモデルに基づく異常検出器を構築・調整するために,ニューラルネットワークのロバスト性を定量化する最近の結果を活用する。 チューニングでは,通常動作で想定される誤報発生率の上限を具体的に提示する。 これを実現するために,ニューラルネットワークによる複数の信頼楕円体の伝播を可能にする理論拡張を提案する。 入力変動の下でニューラルネットワークの出力を束縛する楕円体は、検出器の感度、すなわちしきい値調整を知らせる。 この手法を線形および非線形力学系上で実証する。

We exploit recent results in quantifying the robustness of neural networks to input variations to construct and tune a model-based anomaly detector, where the data-driven estimator model is provided by an autoregressive neural network. In tuning, we specifically provide upper bounds on the rate of false alarms expected under normal operation. To accomplish this, we provide a theory extension to allow for the propagation of multiple confidence ellipsoids through a neural network. The ellipsoid that bounds the output of the neural network under the input variation informs the sensitivity - and thus the threshold tuning - of the detector. We demonstrate this approach on a linear and nonlinear dynamical system.
翻訳日:2021-03-25 04:56:00 公開日:2021-03-22
# (参考訳) エッジ環境音分類のためのTiny Transformer [全文訳有]

Tiny Transformers for Environmental Sound Classification at the Edge ( http://arxiv.org/abs/2103.12157v1 )

ライセンス: CC BY 4.0
David Elliott, Carlos E. Otero, Steven Wyatt, Evan Martino(参考訳) モノのインターネットの成長とビッグデータの台頭により、データ処理と機械学習アプリケーションは、しばしば携帯電話、組み込みシステム、マイクロコントローラの形で、エッジにある安価で低サイズ、重量、電力(SWaP)デバイスに移行している。 サイバーフィジカル測定と署名インテリジェンス(masint)の分野は、これらのデバイスを使用してデータを他の方法では不可能に分析し活用し、データ品質の向上、セキュリティの強化、帯域幅の削減に繋がる。 しかし、エッジでモデルをトレーニングしデプロイする方法は限られており、十分な精度のモデルはエッジデバイスには大きすぎることが多い。 したがって、エッジで効率的なAI/MLを作成するためのテクニックが明らかに必要である。 本研究は,エッジ環境音分類分野における音響モデルの訓練手法を提案する。 具体的には、オフィス音を音声クリップで分類するためにトランスフォーマーを設計し、訓練する。 その結果、BERTベースのトランスフォーマーはメルスペクトログラムで訓練され、99.85%のパラメータでCNNより優れていた。 この結果を達成するため,我々はesc-50を用いてトランスフォーマー用に設計した音響特徴抽出手法を,様々な拡張とともにテストした。 最終的なモデルは、mfccベースのcnn on the office soundsデータセットを上回っており、わずか6,000以上のパラメーターを使って、マイクロコントローラで実行できます。

With the growth of the Internet of Things and the rise of Big Data, data processing and machine learning applications are being moved to cheap and low size, weight, and power (SWaP) devices at the edge, often in the form of mobile phones, embedded systems, or microcontrollers. The field of Cyber-Physical Measurements and Signature Intelligence (MASINT) makes use of these devices to analyze and exploit data in ways not otherwise possible, which results in increased data quality, increased security, and decreased bandwidth. However, methods to train and deploy models at the edge are limited, and models with sufficient accuracy are often too large for the edge device. Therefore, there is a clear need for techniques to create efficient AI/ML at the edge. This work presents training techniques for audio models in the field of environmental sound classification at the edge. Specifically, we design and train Transformers to classify office sounds in audio clips. Results show that a BERT-based Transformer, trained on Mel spectrograms, can outperform a CNN using 99.85% fewer parameters. To achieve this result, we first tested several audio feature extraction techniques designed for Transformers, using ESC-50 for evaluation, along with various augmentations. Our final model outperforms the state-of-the-art MFCC-based CNN on the office sounds dataset, using just over 6,000 parameters -- small enough to run on a microcontroller.
翻訳日:2021-03-25 04:41:35 公開日:2021-03-22
# (参考訳) 電子・走査型プローブ顕微鏡における自動・自律実験

Automated and Autonomous Experiment in Electron and Scanning Probe Microscopy ( http://arxiv.org/abs/2103.12165v1 )

ライセンス: CC BY 4.0
Sergei V. Kalinin, Maxim A. Ziatdinov, Jacob Hinkle, Stephen Jesse, Ayana Ghosh, Kyle P. Kelley, Andrew R. Lupini, Bobby G. Sumpter, Rama K. Vasudevan(参考訳) 機械学習と人工知能(ML/AI)は、理論や材料予測から高スループットデータ分析に至るまで、物理学研究において急速に不可欠になっている。 並行して、ロボット工学から自動運転車、有機合成、無機合成へのML/AI手法の適用の成功は、これらの技術の可能性に対する熱意を生み出し、画像の自動および自律的な実験(AE)を可能にしている。 本稿では,走査型プローブ顕微鏡 (SPM) と (走査型) 透過型電子顕微鏡 (STEM) に焦点をあて, 逐次的な画像形成機構を持つ撮像法において, AE に対する主要な経路を解析することを目的とする。 自動実験は一般分野の知識のより広い文脈で議論されるべきであり、実験の結果、双方が実験を通知し、増大させる。 したがって、この分析は、実験の前後における人間とml/aiの役割を探索し、意思決定プロセスの遅延、バイアス、知識を考慮すべきである。 同様に、そのような議論には、固有のレイテンシ、非理想性、および修正可能なコンポーネントと確率的なコンポーネントの両方からなるドリフトを含む既存のイメージングシステムの制限を含めるべきである。 さらに、顕微鏡におけるAEの役割は、人間の操作者(自律運転の場合のように)の排除ではなく、顕微鏡チューニングなどのルーチン操作の自動化であり、画像取得から人レベルの高次実験計画までの時間スケールでの低遅延意思決定プロセスの変換であることを示す。

Machine learning and artificial intelligence (ML/AI) are rapidly becoming an indispensable part of physics research, with domain applications ranging from theory and materials prediction to high-throughput data analysis. In parallel, the recent successes in applying ML/AI methods for autonomous systems from robotics through self-driving cars to organic and inorganic synthesis are generating enthusiasm for the potential of these techniques to enable automated and autonomous experiment (AE) in imaging. Here, we aim to analyze the major pathways towards AE in imaging methods with sequential image formation mechanisms, focusing on scanning probe microscopy (SPM) and (scanning) transmission electron microscopy ((S)TEM). We argue that automated experiments should necessarily be discussed in a broader context of the general domain knowledge that both informs the experiment and is increased as the result of the experiment. As such, this analysis should explore the human and ML/AI roles prior to and during the experiment, and consider the latencies, biases, and knowledge priors of the decision-making process. Similarly, such discussion should include the limitations of the existing imaging systems, including intrinsic latencies, non-idealities and drifts comprising both correctable and stochastic components. We further pose that the role of the AE in microscopy is not the exclusion of human operators (as is the case for autonomous driving), but rather automation of routine operations such as microscope tuning, etc., prior to the experiment, and conversion of low latency decision making processes on the time scale spanning from image acquisition to human-level high-order experiment planning.
翻訳日:2021-03-25 04:15:06 公開日:2021-03-22
# (参考訳) Banditアルゴリズムによるデータの統計的解析の課題:適応ランダム化実験への応用における実証的探索

Challenges in Statistical Analysis of Data Collected by a Bandit Algorithm: An Empirical Exploration in Applications to Adaptively Randomized Experiments ( http://arxiv.org/abs/2103.12198v1 )

ライセンス: CC BY 4.0
Joseph Jay Williams, Jacob Nogas, Nina Deliu, Hammad Shaikh, Sofia Villar, Audrey Durand, Anna Rafferty(参考訳) マルチアームバンディットアルゴリズムは適応ランダム化実験に有用であるとして、数十年にわたって議論されてきた。 このような実験では、アルゴリズムはどの腕(例えば腕)を変える。 学生が学ぶための代替的な介入)は参加者に割り当てられ、できるだけ多くの参加者に上位の腕を割り当てることを目的としている。 バンディットアルゴリズムThompson Sampling (TS) を用いて, 3つの大学で適応実験を行った。 インストラクタは、データを使って実験の学生により良い武器(例)を与えるのに大きな価値を見出した。 概念のより優れた説明)。 しかし、我々の展開は、科学者や実践者がこのような適応的な実験を使うための大きな障壁を示していた: 特定の現実世界の実験の統計的分析がどれほど影響するかについての定量的な知見が不足している(Pallmann et al, 2018; FDA, 2019)。 そこで本研究では,ユビキタスな二腕二腕報酬設定のケーススタディを用いて,一様ランダム代入ではなくトンプソンサンプリングが与える影響を実証的に検討する。 この設定では、一般的な統計的仮説テストを用いて、TSを用いたデータ収集は偽陽性率(FPR:False Positive Rate)と偽陰性率(FNR:False Negative Rate)の2倍の差を報告できないことを示す。

Multi-armed bandit algorithms have been argued for decades as useful for adaptively randomized experiments. In such experiments, an algorithm varies which arms (e.g. alternative interventions to help students learn) are assigned to participants, with the goal of assigning higher-reward arms to as many participants as possible. We applied the bandit algorithm Thompson Sampling (TS) to run adaptive experiments in three university classes. Instructors saw great value in trying to rapidly use data to give their students in the experiments better arms (e.g. better explanations of a concept). Our deployment, however, illustrated a major barrier for scientists and practitioners to use such adaptive experiments: a lack of quantifiable insight into how much statistical analysis of specific real-world experiments is impacted (Pallmann et al, 2018; FDA, 2019), compared to traditional uniform random assignment. We therefore use our case study of the ubiquitous two-arm binary reward setting to empirically investigate the impact of using Thompson Sampling instead of uniform random assignment. In this setting, using common statistical hypothesis tests, we show that collecting data with TS can as much as double the False Positive Rate (FPR; incorrectly reporting differences when none exist) and the False Negative Rate (FNR; failing to report differences when they exist)...
翻訳日:2021-03-25 04:13:57 公開日:2021-03-22
# (参考訳) 画像分解による顔提示攻撃の検出の改善 [全文訳有]

Improved Detection of Face Presentation Attacks Using Image Decomposition ( http://arxiv.org/abs/2103.12201v1 )

ライセンス: CC0 1.0
Shlok Kumar Mishra and Kuntal Sengupta and Max Horowitz-Gelb and Wen-Sheng Chu and Sofien Bouaziz and David Jacobs(参考訳) プレゼンテーション攻撃検出(PAD)は、セキュアな顔認証において重要な要素である。 本研究では,被写体の写真から生成された顔のスプーフを識別するPADアルゴリズムを提案する。 本手法では,画像分解ネットワークを用いてアルベドとノーマルを抽出する。 実顔画像とspoof顔画像の領域ギャップは、特に回収されたアルベド地図の間で、容易に識別できる差をもたらす。 本研究では,教師付きコントラスト損失を用いた既存手法の再訓練により,この領域間隙を増大させる。 コントラスト効果と照明効果がパッドにおいて重要な役割を果たすことを実証する実証的・理論的解析を行い,特にアルベドに現れる。 最後に,これらすべての手法を組み合わせることで,celeba-spoof,oulu,c asia-surfなどのデータセット上で最先端の結果が得られることを示す。

Presentation attack detection (PAD) is a critical component in secure face authentication. We present a PAD algorithm to distinguish face spoofs generated by a photograph of a subject from live images. Our method uses an image decomposition network to extract albedo and normal. The domain gap between the real and spoof face images leads to easily identifiable differences, especially between the recovered albedo maps. We enhance this domain gap by retraining existing methods using supervised contrastive loss. We present empirical and theoretical analysis that demonstrates that the contrast and lighting effects can play a significant role in PAD; these show up particularly in the recovered albedo. Finally, we demonstrate that by combining all of these methods we achieve state-of-the-art results on datasets such as CelebA-Spoof, OULU and CASIA-SURF.
翻訳日:2021-03-25 03:53:07 公開日:2021-03-22
# (参考訳) ディープラーニングと画像処理に基づく効率的な手話認識システムおよびデータセット作成方法 [全文訳有]

Efficient sign language recognition system and dataset creation method based on deep learning and image processing ( http://arxiv.org/abs/2103.12233v1 )

ライセンス: CC BY 4.0
Alvaro Leandro Cavalcante Carneiro, Lucas de Brito Silva, Denis Henrique Pinheiro Salvedeo(参考訳) 新しいディープラーニングアーキテクチャは毎年作成され、画像認識の最先端の成果を達成し、数年のうちに手話翻訳のような複雑なタスクが大幅に簡単になり、聴覚障害者コミュニティのコミュニケーションツールとして機能する、という信念につながります。 一方で、これらのアルゴリズムは、トレーニングに必要な多くのデータを必要とし、データセット作成プロセスは高価で、時間がかかり、遅くなります。 そこで本研究では,手話データセットを効果的に作成するためのデジタル画像処理と機械学習の手法を検討することを目的とする。 我々は、畳み込みニューラルネットワークとオブジェクト検出を用いて、ビデオ、バックグラウンドタイプ、前処理、データ拡張をキャプチャまたはサブサンプリングするための秒単位のフレームなどのデータ取得について論じ、画像分類器を作成し、統計的テストに基づいて結果を比較する。 仮説をテストするために異なるデータセットが作成され、毎日14の単語が使われ、rgbカラーシステムで異なるスマートフォンによって記録された。 テストセットで96.38%,より困難な条件を含む検証セットで81.36%の精度を達成し,30fpsが分類器を訓練する最良フレームレートサブサンプルであり,幾何学的変換は強度変換よりもうまく動作し,人工的背景生成は一般化のモデル化には有効ではないことを示した。 これらのトレードオフは、データセットを作成してサイン認識モデルのトレーニングを行う際の計算コストと精度ゲインの間のコスト便益ガイドラインとして、今後の作業で考慮すべきである。

New deep-learning architectures are created every year, achieving state-of-the-art results in image recognition and leading to the belief that, in a few years, complex tasks such as sign language translation will be considerably easier, serving as a communication tool for the hearing-impaired community. On the other hand, these algorithms still need a lot of data to be trained and the dataset creation process is expensive, time-consuming, and slow. Thereby, this work aims to investigate techniques of digital image processing and machine learning that can be used to create a sign language dataset effectively. We argue about data acquisition, such as the frames per second rate to capture or subsample the videos, the background type, preprocessing, and data augmentation, using convolutional neural networks and object detection to create an image classifier and comparing the results based on statistical tests. Different datasets were created to test the hypotheses, containing 14 words used daily and recorded by different smartphones in the RGB color system. We achieved an accuracy of 96.38% on the test set and 81.36% on the validation set containing more challenging conditions, showing that 30 FPS is the best frame rate subsample to train the classifier, geometric transformations work better than intensity transformations, and artificial background creation is not effective to model generalization. These trade-offs should be considered in future work as a cost-benefit guideline between computational cost and accuracy gain when creating a dataset and training a sign recognition model.
翻訳日:2021-03-25 03:38:21 公開日:2021-03-22
# (参考訳) 検索辺縁化を伴うマルチドキュメント質問応答における偽陰性文脈の緩和 [全文訳有]

Mitigating False-Negative Contexts in Multi-document QuestionAnswering with Retrieval Marginalization ( http://arxiv.org/abs/2103.12235v1 )

ライセンス: CC BY-SA 4.0
Ansong Ni, Matt Gardner, Pradeep Dasigi(参考訳) 複数の文書から情報を必要とする質問応答(qa)タスクは、推論モデルが回答を導出できる関連情報を特定するために、検索モデルに依存することが多い。 検索モデルは一般にラベル付き支持証拠の可能性を最大化するために訓練される。 しかし、ウィキペディアのような大きなテキストコーパスから検索すると、正しい答えは複数の証拠候補から得られることが多く、これら全てが肯定的なものではないため、訓練信号は弱くうるさい。 モデルは答えを裏付ける証拠にマッピングするために語彙の重なりに依存することができないため、質問が解くことができない場合、問題は悪化する。 そこで本研究では, 解答のない問合せを適切に処理する集合値検索の新しいパラメータ化手法を開発し, 学習中にこの集合を辺縁化することで, アノテートされた支持証拠の偽陰性を軽減できることを示す。 提案手法を,IIRCとHotpotQAの2つのマルチドキュメントQAデータセットを用いて検証した。 IIRCでは,代替文脈の余分化による連成モデリングによりモデル性能が5.5F1ポイント向上し,50.6F1の新たな最先端性能が得られることを示す。 また,HotpotQAを0.9~1.6QA F1に改善した。

Question Answering (QA) tasks requiring information from multiple documents often rely on a retrieval model to identify relevant information from which the reasoning model can derive an answer. The retrieval model is typically trained to maximize the likelihood of the labeled supporting evidence. However, when retrieving from large text corpora such as Wikipedia, the correct answer can often be obtained from multiple evidence candidates, not all of them labeled as positive, thus rendering the training signal weak and noisy. The problem is exacerbated when the questions are unanswerable or the answers are boolean, since the models cannot rely on lexical overlap to map answers to supporting evidences. We develop a new parameterization of set-valued retrieval that properly handles unanswerable queries, and we show that marginalizing over this set during training allows a model to mitigate false negatives in annotated supporting evidences. We test our method with two multi-document QA datasets, IIRC and HotpotQA. On IIRC, we show that joint modeling with marginalization on alternative contexts improves model performance by 5.5 F1 points and achieves a new state-of-the-art performance of 50.6 F1. We also show that marginalization results in 0.9 to 1.6 QA F1 improvement on HotpotQA in various settings.
翻訳日:2021-03-25 03:29:54 公開日:2021-03-22
# (参考訳) 転位変換器を用いたインスタンスレベル画像検索 [全文訳有]

Instance-level Image Retrieval using Reranking Transformers ( http://arxiv.org/abs/2103.12236v1 )

ライセンス: CC BY 4.0
Fuwen Tan, Jiangbo Yuan, Vicente Ordonez(参考訳) インスタンスレベルの画像検索は、クエリイメージ内のオブジェクトにマッチする画像の大規模なデータベースで検索するタスクである。 この課題に対処するために、システムは通常、グローバルイメージ記述子を使用する検索ステップと、局所的な特徴に基づく幾何検証のような操作を利用して、ドメイン固有の改良や再ランキングを実行するステップに依存する。 本研究では,RRTを局所的特徴とグローバル的特徴を組み込んだ一般モデルとして提案し,マッチング画像を教師付き方式で再現し,比較的高価な幾何検証プロセスを置き換えることを提案する。 RRTは軽量であり、一組のトップマッチング結果の再ランク付けを単一のフォワードパスで行えるように容易に並列化できる。 我々は、Revisited OxfordとParisのデータセットとGoogle Landmark v2のデータセットに関する広範な実験を行い、RTRがより少ないローカル記述子を使用しながら、以前のリグレードアプローチより優れていることを示した。 さらに,既存手法と異なり,RTRは特徴抽出器と共同で最適化され,下流タスクに適した特徴表現とさらなる精度の向上が期待できることを示した。 トレーニングコードと事前訓練されたモデルは公開されます。

Instance-level image retrieval is the task of searching in a large database for images that match an object in a query image. To address this task, systems usually rely on a retrieval step that uses global image descriptors, and a subsequent step that performs domain-specific refinements or reranking by leveraging operations such as geometric verification based on local features. In this work, we propose Reranking Transformers (RRTs) as a general model to incorporate both local and global features to rerank the matching images in a supervised fashion and thus replace the relatively expensive process of geometric verification. RRTs are lightweight and can be easily parallelized so that reranking a set of top matching results can be performed in a single forward-pass. We perform extensive experiments on the Revisited Oxford and Paris datasets, and the Google Landmark v2 dataset, showing that RRTs outperform previous reranking approaches while using much fewer local descriptors. Moreover, we demonstrate that, unlike existing approaches, RRTs can be optimized jointly with the feature extractor, which can lead to feature representations tailored to downstream tasks and further accuracy improvements. Training code and pretrained models will be made public.
翻訳日:2021-03-25 03:15:34 公開日:2021-03-22
# 動詞固有の意味的役割を持つ人様制御可能な画像キャプション

Human-like Controllable Image Captioning with Verb-specific Semantic Roles ( http://arxiv.org/abs/2103.12204v1 )

ライセンス: Link先を確認
Long Chen, Zhihong Jiang, Jun Xiao, Wei Liu(参考訳) 制御可能な画像キャプチャ(CIC) -- 指定された制御信号に従って画像記述を生成する -- は、ここ数年で前例のない注目を集めている。 現在のCIC研究は、キャプション生成を制御する人間の能力をエミュレートするため、興味のある内容や記述パターンなどの客観的特性に関する制御信号のみに焦点を当てている。 しかし,既存の制御信号のほとんどすべてが,理想的な制御信号の2つの不必要な特性を見落としていると論じている。 2) サンプル適合性: 制御信号は特定の画像サンプルに適合すべきである。 そこで我々は,CICの新しい制御信号であるVerb-specific Semantic Roles (VSR)を提案する。 VSRは動詞といくつかの意味的役割から構成されており、これは目的とする活動と、この活動に関わるエンティティの役割を表す。 指定されたVSRが与えられた場合、まず、各ロールのすべてのエンティティを識別およびグラウンド化するために、グラウンドドセマンティックロールラベル(GSRL)モデルを訓練する。 次に,人間のような記述的意味構造を学ぶための意味構造プランナー(ssp)を提案する。 最後に,ロールシフトキャプションモデルを用いてキャプションを生成する。 広範な実験とアブレーションにより,2つのcicベンチマークにおいて,複数の強力なベースラインよりも優れた制御性が得られた。 さらに、多レベル多様なキャプションを簡単に生成できる。 コードはhttps://github.com/m ad-red/vsr-guided-ci c。

Controllable Image Captioning (CIC) -- generating image descriptions following designated control signals -- has received unprecedented attention over the last few years. To emulate the human ability in controlling caption generation, current CIC studies focus exclusively on control signals concerning objective properties, such as contents of interest or descriptive patterns. However, we argue that almost all existing objective control signals have overlooked two indispensable characteristics of an ideal control signal: 1) Event-compatible: all visual contents referred to in a single sentence should be compatible with the described activity. 2) Sample-suitable: the control signals should be suitable for a specific image sample. To this end, we propose a new control signal for CIC: Verb-specific Semantic Roles (VSR). VSR consists of a verb and some semantic roles, which represents a targeted activity and the roles of entities involved in this activity. Given a designated VSR, we first train a grounded semantic role labeling (GSRL) model to identify and ground all entities for each role. Then, we propose a semantic structure planner (SSP) to learn human-like descriptive semantic structures. Lastly, we use a role-shift captioning model to generate the captions. Extensive experiments and ablations demonstrate that our framework can achieve better controllability than several strong baselines on two challenging CIC benchmarks. Besides, we can generate multi-level diverse captions easily. The code is available at: https://github.com/m ad-red/VSR-guided-CI C.
翻訳日:2021-03-24 14:14:47 公開日:2021-03-22
# クラスアクティベーションとサリエンシマップの可視化による前訓練CNNモデルを用いた肺・大腸癌の組織像解析による予測

Prediction of lung and colon cancer through analysis of histopathological images by utilizing Pre-trained CNN models with visualization of class activation and saliency maps ( http://arxiv.org/abs/2103.12155v1 )

ライセンス: Link先を確認
Satvik Garg and Somya Garg(参考訳) 大腸がんと肺がんは、個人が世界中で持続している最も危険な疾患の1つであり、一般的な医療問題となっている。 死亡リスクを減らすためには、特に正当かつ早期発見が必要である。 いずれにせよ、病理学者の経験に依存する、本当に厄介な作業である。 病理学者が準備不足の場合、患者の生命を危険にさらすこともある。 近年では, 深層学習がエネルギーを取り込み, 医用画像解析に重きを置いている。 本稿では,現在トレーニング中のCNNモデルを用いて,病理組織像を用いて肺癌と大腸癌を同定し,改良することを目的とする。 本稿では,LC25000データセット上で,VGG16,NASNetMobile, InceptionV3,Inceptio nResNetV2,ResNet50,X ception,MobileNet,De nseNet169の8種類のCNNモデルを訓練する。 モデル性能は、精度、リコール、f1score、精度、aurocスコアで評価される。 その結果、8モデルすべてが96%から100%の精度で注目に値する結果を得た。 その後、GradCAMとSmoothGradは、悪性と良性の画像の分類を行う事前訓練CNNモデルの注意画像の撮影にも使用される。

Colon and Lung cancer is one of the most perilous and dangerous ailments that individuals are enduring worldwide and has become a general medical problem. To lessen the risk of death, a legitimate and early finding is particularly required. In any case, it is a truly troublesome task that depends on the experience of histopathologists. If a histologist is under-prepared it may even hazard the life of a patient. As of late, deep learning has picked up energy, and it is being valued in the analysis of Medical Imaging. This paper intends to utilize and alter the current pre-trained CNN-based model to identify lung and colon cancer utilizing histopathological images with better augmentation techniques. In this paper, eight distinctive Pre-trained CNN models, VGG16, NASNetMobile, InceptionV3, InceptionResNetV2, ResNet50, Xception, MobileNet, and DenseNet169 are trained on LC25000 dataset. The model performances are assessed on precision, recall, f1score, accuracy, and auroc score. The results exhibit that all eight models accomplished noteworthy results ranging from 96% to 100% accuracy. Subsequently, GradCAM and SmoothGrad are also used to picture the attention images of Pre-trained CNN models classifying malignant and benign images.
翻訳日:2021-03-24 14:13:50 公開日:2021-03-22
# 視覚認知のための相反的特徴増強と正規化

Adversarial Feature Augmentation and Normalization for Visual Recognition ( http://arxiv.org/abs/2103.12171v1 )

ライセンス: Link先を確認
Tianlong Chen, Yu Cheng, Zhe Gan, Jianfeng Wang, Lijuan Wang, Zhangyang Wang, Jingjing Liu(参考訳) 最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。 ここでは, 画素レベルの摂動に頼らず, 中間的特徴埋め込みに対する対角的拡張を効果的かつ効果的に提案する。 本稿では,まず,摂動強度のフレキシブルスケールを統合した視覚認識モデルを拡張し,次にバッチ正規化から逆特徴統計を抽出し,特徴正規化により清潔な特徴に再インジェクトする,逆特徴拡張・正規化(a-fan)を提案する。 本稿では,ResNetsとEfficientNetsの分類,Faster-RCNNの検出,Deeplab V3+のセグメンテーションなど,代表的バックボーンネットワークを用いた多様な視覚認識タスクに対するアプローチを検証する。 大規模な実験により、A-FANはCIFAR-10、CIFAR-100、ImageNet、Pascal VOC2007、Pascal VOC2012、COCO2017、Cityspacesといった様々なデータセットの分類、検出、セグメンテーションタスクに対して、強いベースラインに対して一貫した一般化の改善をもたらすことが示された。 包括的アブレーション研究と詳細な分析により、特定のモジュールと分類/検出/セグメンテーションバックボーンの層に摂動を加えることが最適な性能をもたらすことが示されている。 コードと事前訓練されたモデルは、https://github.com/V ITA-Group/CV_A-FANで利用可能になる。

Recent advances in computer vision take advantage of adversarial data augmentation to ameliorate the generalization ability of classification models. Here, we present an effective and efficient alternative that advocates adversarial augmentation on intermediate feature embeddings, instead of relying on computationally-expe nsive pixel-level perturbations. We propose Adversarial Feature Augmentation and Normalization (A-FAN), which (i) first augments visual recognition models with adversarial features that integrate flexible scales of perturbation strengths, (ii) then extracts adversarial feature statistics from batch normalization, and re-injects them into clean features through feature normalization. We validate the proposed approach across diverse visual recognition tasks with representative backbone networks, including ResNets and EfficientNets for classification, Faster-RCNN for detection, and Deeplab V3+ for segmentation. Extensive experiments show that A-FAN yields consistent generalization improvement over strong baselines across various datasets for classification, detection and segmentation tasks, such as CIFAR-10, CIFAR-100, ImageNet, Pascal VOC2007, Pascal VOC2012, COCO2017, and Cityspaces. Comprehensive ablation studies and detailed analyses also demonstrate that adding perturbations to specific modules and layers of classification/detec tion/segmentation backbones yields optimal performance. Codes and pre-trained models will be made available at: https://github.com/V ITA-Group/CV_A-FAN.
翻訳日:2021-03-24 14:13:27 公開日:2021-03-22
# Exemplars can Reciprocate principal Components

Exemplars can Reciprocate Principal Components ( http://arxiv.org/abs/2103.12069v1 )

ライセンス: Link先を確認
Kieran Greer(参考訳) 本稿では,カテゴリツリーアルゴリズムの拡張であるクラスタリングアルゴリズムを提案する。 Category Treesは、カテゴリタイプに分岐して機能しないツリー構造を生成するクラスタリングメソッドである。 本稿では、データ行が属するカテゴリではなく、単一の分類器を表す木が最終的にクラスタ化される二次的なクラスタリングについて考察する。 各ツリーは他のカテゴリのサブセットを保存するために分岐しますが、それらのサブセットの行も関連します。 そこで本稿では,他のカテゴリのサブセット間の第2レベルのクラスタリングに注目し,その上に一貫性があるかどうかを判断する。 主成分は関連的かつ相互的な構造の型でありうると論じられ、一般論として、他成分と主成分の関係についてさらに大きな疑問がある。 この理論はポルトガル森林火災データセットをケーススタディとして用いたものである。 そのデータセットの分散的な性質は、人工的にツリーカテゴリを作成でき、出力基準は、自動的かつ任意の方法で決定でき、柔軟性とダイナミックなクラスタリングメカニズムに繋がる。

This paper presents a clustering algorithm that is an extension of the Category Trees algorithm. Category Trees is a clustering method that creates tree structures that branch on category type and not feature. The development in this paper is to consider a secondary order of clustering that is not the category to which the data row belongs, but the tree, representing a single classifier, that it is eventually clustered with. Each tree branches to store subsets of other categories, but the rows in those subsets may also be related. This paper is therefore concerned with looking at that second level of clustering between the other category subsets, to try to determine if there is any consistency over it. It is argued that Principal Components may be a related and reciprocal type of structure, and there is an even bigger question about the relation between exemplars and principal components, in general. The theory is demonstrated using the Portugal Forest Fires dataset as a case study. The distributed nature of that dataset can artificially create the tree categories and the output criterion can also be determined in an automatic and arbitrary way, leading to a flexible and dynamic clustering mechanism.
翻訳日:2021-03-24 14:09:36 公開日:2021-03-22
# 複数音源からの逆情報の組み合わせ

Combining Reward Information from Multiple Sources ( http://arxiv.org/abs/2103.12142v1 )

ライセンス: Link先を確認
Dmitrii Krasheninnikov, Rohin Shah, Herke van Hoof(参考訳) 潜在変数に関する2つの証拠源が与えられると、それぞれの証拠の可能性を乗じることで、両方の情報から情報を組み合わせることができる。 しかし、観測モデルの一方または両方が不特定である場合、分布は矛盾する。 異なる情報源から学習した2つの相反する報酬関数を用いて,この問題を考察する。 このような状況下では、誤特定の影響を緩和するため、報奨機能に関する幅広い分布に後退させたいと思っています。 エージェントは、この報酬関数の分布から期待される報酬を最大化し、この設定のデシラタを4つ特定すると仮定する。 本稿では,新しいアルゴリズムであるMultitask Inverse Reward Design (MIRD)を提案する。 すべての方法が保守主義と情報主義の間を行き来しなければならないが、おもちゃの環境における理論と経験的な結果の組み合わせにより、MIRDとその変種MIRD-IFは両者のバランスが良いことが分かる。

Given two sources of evidence about a latent variable, one can combine the information from both by multiplying the likelihoods of each piece of evidence. However, when one or both of the observation models are misspecified, the distributions will conflict. We study this problem in the setting with two conflicting reward functions learned from different sources. In such a setting, we would like to retreat to a broader distribution over reward functions, in order to mitigate the effects of misspecification. We assume that an agent will maximize expected reward given this distribution over reward functions, and identify four desiderata for this setting. We propose a novel algorithm, Multitask Inverse Reward Design (MIRD), and compare it to a range of simple baselines. While all methods must trade off between conservatism and informativeness, through a combination of theory and empirical results on a toy environment, we find that MIRD and its variant MIRD-IF strike a good balance between the two.
翻訳日:2021-03-24 14:09:19 公開日:2021-03-22
# ベイズネットワーク構造の分割ハイブリッド学習

Partitioned hybrid learning of Bayesian network structures ( http://arxiv.org/abs/2103.12188v1 )

ライセンス: Link先を確認
Jireh Huang and Qing Zhou(参考訳) We develop a novel hybrid method for Bayesian network structure learning called partitioned hybrid greedy search (pHGS), composed of three distinct yet compatible new algorithms: Partitioned PC (pPC) accelerates skeleton learning via a divide-and-conquer strategy, $p$-value adjacency thresholding (PATH) effectively accomplishes parameter tuning with a single execution, and hybrid greedy initialization (HGI) maximally utilizes constraint-based information to obtain a high-scoring and well-performing initial graph for greedy search. アルゴリズムの構造学習の一貫性を大規模サンプル限界で確立し,広範囲な数値比較により個別的および集団的に検証した。 pPC と PATH の組合せは,PC アルゴリズムと比較して,推定された構造の精度を犠牲にすることなく,計算量の大幅な削減を実現している。 実験結果は,多くの最先端構造学習アルゴリズムに対して,phgの優れた経験的性能を示す。

We develop a novel hybrid method for Bayesian network structure learning called partitioned hybrid greedy search (pHGS), composed of three distinct yet compatible new algorithms: Partitioned PC (pPC) accelerates skeleton learning via a divide-and-conquer strategy, $p$-value adjacency thresholding (PATH) effectively accomplishes parameter tuning with a single execution, and hybrid greedy initialization (HGI) maximally utilizes constraint-based information to obtain a high-scoring and well-performing initial graph for greedy search. We establish structure learning consistency of our algorithms in the large-sample limit, and empirically validate our methods individually and collectively through extensive numerical comparisons. The combined merits of pPC and PATH achieve significant computational reductions compared to the PC algorithm without sacrificing the accuracy of estimated structures, and our generally applicable HGI strategy reliably improves the estimation structural accuracy of popular hybrid algorithms with negligible additional computational expense. Our empirical results demonstrate the superior empirical performance of pHGS against many state-of-the-art structure learning algorithms.
翻訳日:2021-03-24 14:07:24 公開日:2021-03-22
# 不均衡データセットにおける皮膚癌分類のための深層ニューラルネットワークを用いた移動学習

Transfer Learning with Ensembles of Deep Neural Networks for Skin Cancer Classification in Imbalanced Data Sets ( http://arxiv.org/abs/2103.12068v1 )

ライセンス: Link先を確認
Aqsa Saeed Qureshi and Teemu Roos(参考訳) 早期診断は皮膚がんの予防と治療において重要な役割を担っており、医療画像から正確に皮膚がんを分類するための機械学習技術が報告されている。 これらの技術の多くは事前訓練された畳み込みニューラルネットワークに基づいており、限られたトレーニングデータに基づいてモデルをトレーニングすることができる。 本稿では,複数のcnnモデルが事前学習され,一部は手元のデータでのみトレーニングされる,新しいアンサンブルベースのcnnアーキテクチャを提案する。 提案手法は,不足した不均衡なデータを扱うモデルの能力を向上させる。 提案手法の利点として,2000症例の33126個の皮膚内視鏡画像を用いたデータセットを用いて,提案手法の性能を,F1測定値,ROC曲線下面積,PR曲線下面積(AUC-PR)で評価し,最近のCNNに基づく2つの手法を含む7種類のベンチマーク手法と比較した。 提案手法は,すべての評価指標(F1-measure $0.5283$, AUC-PR $0.5770$, AUC-ROC $0.9708$)において優れた性能を実現する。

Early diagnosis plays a key role in prevention and treatment of skin cancer.Several machine learning techniques for accurate classification of skin cancer from medical images have been reported. Many of these techniques are based on pre trained convolutional neural networks, which enable training the models based on limited amounts of training data. We propose a novel ensemble-based CNN architecture where multiple CNN models, some of which are pre-trained and some are trained only on the data at hand, are combined using a meta-learner. The proposed approach improves the model's ability to handle scarce, imbalanced data. We demonstrate the benefits of the proposed technique using a dataset with 33126 dermoscopic images from 2000 patients.We evaluate the performance of the proposed technique in terms of the F1-measure, area under the ROC curve (AUC-ROC), and area under the PR curve (AUC-PR), and compare it with that of seven different benchmark methods, including two recent CNN-based techniques. The proposed technique achieves superior performance in terms of all the evaluation metrics (F1-measure $0.5283$, AUC-PR $0.5770$, AUC-ROC $0.9708$)
翻訳日:2021-03-24 14:06:33 公開日:2021-03-22
# キャリブレーション非ランバート測光ステレオにおける空間的・測光的コンテキストの活用

Leveraging Spatial and Photometric Context for Calibrated Non-Lambertian Photometric Stereo ( http://arxiv.org/abs/2103.12106v1 )

ライセンス: Link先を確認
David Honz\'atko, Engin T\"uretken, Pascal Fua, L. Andrea Dunbar(参考訳) 観察された反射特性から表面形状を推定する問題は、コンピュータビジョンにおいて依然として難しい課題である。 インターリフレクションやキャストシャドウのような地球規模の照明効果の存在は、非凸の現実世界の表面では特に難しい。 コンボリューションニューラルネットワーク(convolutional neural network, cnns)は、隣接するピクセル間の空間的コンテキストと、隣接する方向からサンプルを照らして形成される測光ステレオのいずれかを捉えることを目的としている。 本稿では,これら2つの目的を橋渡し,空間的・測光的文脈を同時に活用できる効率的な完全畳み込みアーキテクチャを提案する。 通常の2次元CNNと直接表面正規に回帰する既存のアプローチとは対照的に、分離可能な4次元畳み込みと2次元ガウス熱マップへの回帰はネットワークのサイズを大幅に削減し、推論をより効率的にする。 実世界の測光ステレオベンチマーク実験の結果,提案手法は効率と精度の両方で既存手法よりも優れていることがわかった。

The problem of estimating a surface shape from its observed reflectance properties still remains a challenging task in computer vision. The presence of global illumination effects such as inter-reflections or cast shadows makes the task particularly difficult for non-convex real-world surfaces. State-of-the-art methods for calibrated photometric stereo address these issues using convolutional neural networks (CNNs) that primarily aim to capture either the spatial context among adjacent pixels or the photometric one formed by illuminating a sample from adjacent directions. In this paper, we bridge these two objectives and introduce an efficient fully-convolutional architecture that can leverage both spatial and photometric context simultaneously. In contrast to existing approaches that rely on standard 2D CNNs and regress directly to surface normals, we argue that using separable 4D convolutions and regressing to 2D Gaussian heat-maps severely reduces the size of the network and makes inference more efficient. Our experimental results on a real-world photometric stereo benchmark show that the proposed approach outperforms the existing methods both in efficiency and accuracy.
翻訳日:2021-03-24 14:06:11 公開日:2021-03-22
# 高速走行シナリオにおける双方向車線利用のロバストな交渉

Learning to Robustly Negotiate Bi-Directional Lane Usage in High-Conflict Driving Scenarios ( http://arxiv.org/abs/2103.12070v1 )

ライセンス: Link先を確認
Christoph Killing, Adam Villaflor, John M. Dolan(参考訳) 近年、自律運転は交差点ナビゲーションや車線変更など、最も一般的な交通シナリオに対処する上で大きな進歩を遂げている。 しかし、これらの成功の大部分は、明確に定義された交通規則のシナリオに限定されており、他の車両との最小限の交渉を必要とする。 本稿では,同権と優先権を持つエージェントの交渉を必要とする,これまでは思いもよらなかったが日常的な,ハイコンフリクトな運転シナリオを紹介する。 中央集権的な制御構造はなく、通信を許可しません。 そのため、他のドライバーが協力する意思があるのか、どの程度かは不明である。 我々は,マルチエージェント強化学習(marl)を用いて,観測不能な協調性を有する車両とのロバストな交渉を指導する。 我々は,分散実行による集中型トレーニングを可能にする最大エントロピーオフポリシーmarlアルゴリズムである離散的非対称ソフトアクタ-クリティック(dasac)を提案する。 DASACを使用することで、99%以上と想定されるシナリオの交渉とトラバースに成功できることが示されています。 我々のエージェントは、相手の判断の未知のタイミング、相手の車両の協調性の観察不能な程度、および以前には計り知れなかった政策にロバストである。 さらに、防御運転、ソリューションオプションの予測、他のエージェントの振る舞いの解釈などの人間的な行動を示すことを学ぶ。

Recently, autonomous driving has made substantial progress in addressing the most common traffic scenarios like intersection navigation and lane changing. However, most of these successes have been limited to scenarios with well-defined traffic rules and require minimal negotiation with other vehicles. In this paper, we introduce a previously unconsidered, yet everyday, high-conflict driving scenario requiring negotiations between agents of equal rights and priorities. There exists no centralized control structure and we do not allow communications. Therefore, it is unknown if other drivers are willing to cooperate, and if so to what extent. We train policies to robustly negotiate with opposing vehicles of an unobservable degree of cooperativeness using multi-agent reinforcement learning (MARL). We propose Discrete Asymmetric Soft Actor-Critic (DASAC), a maximum-entropy off-policy MARL algorithm allowing for centralized training with decentralized execution. We show that using DASAC we are able to successfully negotiate and traverse the scenario considered over 99% of the time. Our agents are robust to an unknown timing of opponent decisions, an unobservable degree of cooperativeness of the opposing vehicle, and previously unencountered policies. Furthermore, they learn to exhibit human-like behaviors such as defensive driving, anticipating solution options and interpreting the behavior of other agents.
翻訳日:2021-03-24 14:04:36 公開日:2021-03-22
# IoTベースのヘルスケアシステムを強化するエッジインテリジェンス

Edge Intelligence for Empowering IoT-based Healthcare Systems ( http://arxiv.org/abs/2103.12144v1 )

ライセンス: Link先を確認
Vahideh Hayyolalam, Moayad Aloqaily, Oznur Ozkasap, Mohsen Guizani(参考訳) リアルタイム、安価、効率的なスマートヘルスケアサービスの需要は、テクノロジー革命と人口の急増によって指数関数的に増加している。 この重要なインフラに対する需要の増加に対応するため、この分野の既存の障害に対処するためのインテリジェントな手法が必要である。 この点において、エッジコンピューティング技術は、従来の集中型クラウドやiotベースの医療システムと比較して、プロセスをデータソースに近づけることで、レイテンシとエネルギー消費量を削減できる。 さらに、スマートヘルスケアシステムに自動化された洞察を導入することで、人工知能(AI)は、事前にリスクの高い疾患を検出し予測し、患者の医療コストを低減し、効率的な治療を提供することができる。 本稿の目的は、スマートヘルスケアシステムにおけるAIとともに、エッジインテリジェントテクノロジーの採用によるメリットを強調することである。 さらに、スマートヘルスケアシステムにおけるAIとエッジ技術の利用を促進するために、新しいスマートヘルスケアモデルが提案されている。 さらに,これらの技術を統合する際に生じる課題と研究の方向性について論じる。

The demand for real-time, affordable, and efficient smart healthcare services is increasing exponentially due to the technological revolution and burst of population. To meet the increasing demands on this critical infrastructure, there is a need for intelligent methods to cope with the existing obstacles in this area. In this regard, edge computing technology can reduce latency and energy consumption by moving processes closer to the data sources in comparison to the traditional centralized cloud and IoT-based healthcare systems. In addition, by bringing automated insights into the smart healthcare systems, artificial intelligence (AI) provides the possibility of detecting and predicting high-risk diseases in advance, decreasing medical costs for patients, and offering efficient treatments. The objective of this article is to highlight the benefits of the adoption of edge intelligent technology, along with AI in smart healthcare systems. Moreover, a novel smart healthcare model is proposed to boost the utilization of AI and edge technology in smart healthcare systems. Additionally, the paper discusses issues and research directions arising when integrating these different technologies together.
翻訳日:2021-03-24 14:04:15 公開日:2021-03-22
# 階層的模倣学習のためのオンラインbaum-welchアルゴリズム

Online Baum-Welch algorithm for Hierarchical Imitation Learning ( http://arxiv.org/abs/2103.12197v1 )

ライセンス: Link先を確認
Vittorio Giammarino and Ioannis Ch. Paschalidis(参考訳) 近年,階層型強化学習の選択肢フレームワークが人気を博し,強化学習におけるスケーラビリティ問題に対処する上で改良が加えられている。 しかし、最近の成功の大部分は、適切なオプションの初期化や発見に関連している。 専門家が利用できる場合、専門家のデモンストレーションから直接オプションタイプの階層ポリシーを学ぶことで、オプション発見の問題に対処することができる。 この問題は階層的模倣学習と呼ばれ、期待最大化型アルゴリズムによって行われる隠れマルコフモデルにおける推論問題として扱うことができる。 本稿では,optionsフレームワークにおいて階層的模倣学習を行うための新しいオンラインアルゴリズムを提案する。 さらに,このようなアルゴリズムの利点を考察し,古典的強化学習ベンチマークにおいて,そのバッチ版と比較する。 このアプローチは離散環境と連続環境の両方でうまく機能し、ある条件下ではバッチバージョンよりも優れています。

The options framework for hierarchical reinforcement learning has increased its popularity in recent years and has made improvements in tackling the scalability problem in reinforcement learning. Yet, most of these recent successes are linked with a proper options initialization or discovery. When an expert is available, the options discovery problem can be addressed by learning an options-type hierarchical policy directly from expert demonstrations. This problem is referred to as hierarchical imitation learning and can be handled as an inference problem in a Hidden Markov Model, which is done via an Expectation-Maximiza tion type algorithm. In this work, we propose a novel online algorithm to perform hierarchical imitation learning in the options framework. Further, we discuss the benefits of such an algorithm and compare it with its batch version in classical reinforcement learning benchmarks. We show that this approach works well in both discrete and continuous environments and, under certain conditions, it outperforms the batch version.
翻訳日:2021-03-24 14:03:04 公開日:2021-03-22
# 変圧器は単眼深度予測のための限定受容場を解く

Transformers Solve the Limited Receptive Field for Monocular Depth Prediction ( http://arxiv.org/abs/2103.12091v1 )

ライセンス: Link先を確認
Guanglei Yang, Hao Tang, Mingli Ding, Nicu Sebe, Elisa Ricci(参考訳) 畳み込みニューラルネットワークは様々なコンピュータビジョンタスクに多大な影響を与えてきたが、畳み込み操作の固有の局所性に起因する長距離依存を明示的にモデル化する際の制限を一般的に示している。 自然言語処理タスク用に設計されたトランスフォーマーは、長距離依存関係をキャプチャする、自然にグローバルな自己認識機構を備えた代替アーキテクチャとして登場した。 本稿では,畳み込みニューラルネットワークとトランスフォーマーの両方の利点を生かしたアーキテクチャであるTransDepthを提案する。 変圧器の採用によりネットワークが局所的な詳細を捉える能力を緩めるのを避けるために,ゲートに基づく注意機構を利用した新しい復号器を提案する。 特に、連続ラベルを含む画素単位の予測問題(すなわち単眼深度予測と表面正規推定)にトランスフォーマーを適用する最初の論文である。 大規模な実験により、提案したTransDepthは3つの挑戦的なデータセットで最先端のパフォーマンスを実現する。 ソースコードとトレーニングされたモデルはhttps://github.com/y gjwd12345/transdepth で入手できる。

While convolutional neural networks have shown a tremendous impact on various computer vision tasks, they generally demonstrate limitations in explicitly modeling long-range dependencies due to the intrinsic locality of the convolution operation. Transformers, initially designed for natural language processing tasks, have emerged as alternative architectures with innate global self-attention mechanisms to capture long-range dependencies. In this paper, we propose TransDepth, an architecture which benefits from both convolutional neural networks and transformers. To avoid the network to loose its ability to capture local-level details due to the adoption of transformers, we propose a novel decoder which employs on attention mechanisms based on gates. Notably, this is the first paper which applies transformers into pixel-wise prediction problems involving continuous labels (i.e., monocular depth prediction and surface normal estimation). Extensive experiments demonstrate that the proposed TransDepth achieves state-of-the-art performance on three challenging datasets. The source code and trained models are available at https://github.com/y gjwd12345/TransDepth .
翻訳日:2021-03-24 13:58:32 公開日:2021-03-22
# トランスフォーマーを用いたエンドツーエンドトレーニング可能なマルチインスタンスポーズ推定

End-to-End Trainable Multi-Instance Pose Estimation with Transformers ( http://arxiv.org/abs/2103.12115v1 )

ライセンス: Link先を確認
Lucas Stoffl and Maxime Vidal and Alexander Mathis(参考訳) 本稿では,畳み込みニューラルネットワークと変圧器を組み合わせたマルチスタンスポーズ推定手法を提案する。 画像から多入力ポーズ推定を直接セット予測問題として提案する。 変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。 提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。 検出された人間とフルイメージコンテキストの関係に関するPOETの理由から、ポーズを直接パラレルに予測する。 課題であるCOCOキーポイント検出タスクにおいて,POETが高精度であることを示す。 我々の知る限り、このモデルは最初のエンドツーエンドのトレーニング可能なマルチインスタンス・ヒューマンポーズ推定手法である。

We propose a new end-to-end trainable approach for multi-instance pose estimation by combining a convolutional neural network with a transformer. We cast multi-instance pose estimation from images as a direct set prediction problem. Inspired by recent work on end-to-end trainable object detection with transformers, we use a transformer encoder-decoder architecture together with a bipartite matching scheme to directly regress the pose of all individuals in a given image. Our model, called POse Estimation Transformer (POET), is trained using a novel set-based global loss that consists of a keypoint loss, a keypoint visibility loss, a center loss and a class loss. POET reasons about the relations between detected humans and the full image context to directly predict the poses in parallel. We show that POET can achieve high accuracy on the challenging COCO keypoint detection task. To the best of our knowledge, this model is the first end-to-end trainable multi-instance human pose estimation method.
翻訳日:2021-03-24 13:58:16 公開日:2021-03-22
# 放射線治療における患者位置決めのための消費者向けRGB-Dセンサとフィデューシャルプラナーマーカーによる3次元再構成とアライメント

3D Reconstruction and Alignment by Consumer RGB-D Sensors and Fiducial Planar Markers for Patient Positioning in Radiation Therapy ( http://arxiv.org/abs/2103.12162v1 )

ライセンス: Link先を確認
Hamid Sarmadi, Rafael Mu\~noz-Salinas, M.\'Alvaro Berb\'is, Antonio Luna, Rafael Medina-Carnicer(参考訳) BACKGROUND and OBJECTIVE: 患者の位置決めは放射線治療において重要なステップであり、光学的3D画像を用いた表面再構成に基づく非侵襲的手法が開発されている。 しかし、ほとんどのソリューションは高価な専用ハードウェアと、時間とともに繰り返される慎重な校正手順を必要としており、安価で安価なRGB-Dセンサーに基づく患者位置決め手法を提案する。 方法: 提案手法は手持ちのRGB-Dセンサから記録された実時間, 人工的, 自然的なランドマークを融合する3次元再構成手法に依存する。 ビデオシーケンスは、既知のポーズを持つ一連のキーフレームに変換され、後に患者の現実的な3d再構成を得るために洗練される。 人工ランドマークを用いることで,線形加速器座標系に対してシステムの校正を必要とせずに,復元を基準に自動調整することが可能となる。 結果: 本手法は, 翻訳誤差の中央値が1cmであり, 基準姿勢に対して1度回転誤差が得られた。 さらに,提案手法では,視覚的出力のオーバーレイされたポーズ(参照シーンと現在のシーン)と,患者の現在のポーズを補正して参照ポーズと一致させることができるエラーマップを示す。 ConCLUSIONS: 高価なハードウェアや専用グラフィックカードを必要とせず, 患者の位置決めのための3次元身体再構築手法を提案する。 この方法は、患者の現在のポーズを、放射線治療の関連ステップであるプレビューポーズにリアルタイムで合わせるために使用することができる。

BACKGROUND AND OBJECTIVE: Patient positioning is a crucial step in radiation therapy, for which non-invasive methods have been developed based on surface reconstruction using optical 3D imaging. However, most solutions need expensive specialized hardware and a careful calibration procedure that must be repeated over time.This paper proposes a fast and cheap patient positioning method based on inexpensive consumer level RGB-D sensors. METHODS: The proposed method relies on a 3D reconstruction approach that fuses, in real-time, artificial and natural visual landmarks recorded from a hand-held RGB-D sensor. The video sequence is transformed into a set of keyframes with known poses, that are later refined to obtain a realistic 3D reconstruction of the patient. The use of artificial landmarks allows our method to automatically align the reconstruction to a reference one, without the need of calibrating the system with respect to the linear accelerator coordinate system. RESULTS:The experiments conducted show that our method obtains a median of 1 cm in translational error, and 1 degree of rotational error with respect to reference pose. Additionally, the proposed method shows as visual output overlayed poses (from the reference and the current scene) and an error map that can be used to correct the patient's current pose to match the reference pose. CONCLUSIONS: A novel approach to obtain 3D body reconstructions for patient positioning without requiring expensive hardware or dedicated graphic cards is proposed. The method can be used to align in real time the patient's current pose to a preview pose, which is a relevant step in radiation therapy.
翻訳日:2021-03-24 13:58:00 公開日:2021-03-22
# 仮想世界監督と実世界sfm自己監視による単眼深度推定

Monocular Depth Estimation through Virtual-world Supervision and Real-world SfM Self-Supervision ( http://arxiv.org/abs/2103.12209v1 )

ライセンス: Link先を確認
Akhil Gurram, Ahmet Faruk Tuna, Fengyi Shen, Onay Urfalioglu, and Antonio M. L\'opez(参考訳) 深度情報は、自動運転と運転支援における車載認識に不可欠である。 単眼深度推定(mde)は、さらなるキャリブレーションを必要とせず、直角対応での外観と深さを許容するので、非常に魅力的である。 最良のmdeモデルは畳み込みニューラルネットワーク(convolutional neural networks:cnns)に基づいて、教師ありの方法でトレーニングされる。 通常、このGTは校正されたマルチモーダルセンサーによって訓練時に取得される。 しかし、トレーニング時に単眼システムのみを使用することは安価でスケーラブルである。 これは、自己超越を生成するために構造移動(SfM)の原則に頼ることで実現される。 しかし, カモフラージュされた物体の問題, 視認性の変化, 静止カメラ間隔, 無テクスチャ領域, スケールあいまいさなどにより, 自己超越の有用性は低下する。 本稿では,仮想世界監視(MonoDEVS)と実世界SfM自己監督による単眼深度推定を行う。 本研究は,仮想世界画像の正確な意味的,奥行きの監督と仮想から実への領域間ギャップの解消により,sfmの自己スーパービジョン制約を補償する。 われわれのMonoDEVSNetは、モノクレオシークエンスやステレオシークエンスで訓練された以前のMDE CNNより優れている。

Depth information is essential for on-board perception in autonomous driving and driver assistance. Monocular depth estimation (MDE) is very appealing since it allows for appearance and depth being on direct pixelwise correspondence without further calibration. Best MDE models are based on Convolutional Neural Networks (CNNs) trained in a supervised manner, i.e., assuming pixelwise ground truth (GT). Usually, this GT is acquired at training time through a calibrated multi-modal suite of sensors. However, also using only a monocular system at training time is cheaper and more scalable. This is possible by relying on structure-from-motio n (SfM) principles to generate self-supervision. Nevertheless, problems of camouflaged objects, visibility changes, static-camera intervals, textureless areas, and scale ambiguity, diminish the usefulness of such self-supervision. In this paper, we perform monocular depth estimation by virtual-world supervision (MonoDEVS) and real-world SfM self-supervision. We compensate the SfM self-supervision limitations by leveraging virtual-world images with accurate semantic and depth supervision and addressing the virtual-to-real domain gap. Our MonoDEVSNet outperforms previous MDE CNNs trained on monocular and even stereo sequences.
翻訳日:2021-03-24 13:57:33 公開日:2021-03-22
# CFPNet:リアルタイムセマンティックセグメンテーションのためのチャネルワイズ機能ピラミッド

CFPNet: Channel-wise Feature Pyramid for Real-Time Semantic Segmentation ( http://arxiv.org/abs/2103.12212v1 )

ライセンス: Link先を確認
Ange Lou, Murray Loew(参考訳) モバイルデバイスや自動運転の需要が高まっているため、リアルタイムセマンティックセグメンテーションはコンピュータビジョンにおいてより重要な役割を担っている。 したがって、パフォーマンス、モデルサイズ、推論速度の間の良いトレードオフを達成することが非常に重要です。 本稿では,これらの要因のバランスをとるために,チャネルワイド特徴ピラミッド (CFP) モジュールを提案する。 CFPモジュールをベースとして,実時間セマンティックセグメンテーションのためのCFPNetを構築した。 CityscapesとCamVidデータセットの実験では、提案したCFPNetがこれらの要因を効果的に組み合わせることが示されている。 Cityscapesのテストデータセットでは、CFPNetは0.55万のパラメータと2.5MBのメモリしか持たない70.1%のクラスワイドmIoUを達成した。 推論速度は、単一のrtx 2080ti gpuで1024x2048ピクセルの画像で30fpsに達する。

Real-time semantic segmentation is playing a more important role in computer vision, due to the growing demand for mobile devices and autonomous driving. Therefore, it is very important to achieve a good trade-off among performance, model size and inference speed. In this paper, we propose a Channel-wise Feature Pyramid (CFP) module to balance those factors. Based on the CFP module, we built CFPNet for real-time semantic segmentation which applied a series of dilated convolution channels to extract effective features. Experiments on Cityscapes and CamVid datasets show that the proposed CFPNet achieves an effective combination of those factors. For the Cityscapes test dataset, CFPNet achieves 70.1% class-wise mIoU with only 0.55 million parameters and 2.5 MB memory. The inference speed can reach 30 FPS on a single RTX 2080Ti GPU with a 1024x2048-pixel image.
翻訳日:2021-03-24 13:57:12 公開日:2021-03-22
# CNNに基づく物体検出のための時間的特徴ネットワーク

Temporal Feature Networks for CNN based Object Detection ( http://arxiv.org/abs/2103.12213v1 )

ライセンス: Link先を確認
Michael Weber, Tassilo Wald, J. Marius Z\"ollner(参考訳) 信頼性の高い環境認識には,時間的情報の利用が不可欠である。 特に物体検出では、時間的情報を通して適切な視点でのみ状況を理解することができる。 現在、画像ベースのオブジェクト検出器はCNNアーキテクチャのみに基づいているため、時間的特徴による特徴抽出の拡張が期待できる。 本研究では,CNNに基づく時間情報抽出のための異なるアーキテクチャ要素について検討する。 本稿では,建築調査から得られた知見に基づく時間的特徴ネットワークを提案する。 このネットワークは、これらのイメージに時間情報がないため、ImageNet情報に基づく事前トレーニングなしで、ゼロからトレーニングされる。 このネットワークに基づく対象検出器は、非時間的対象をベースラインとして評価し、KITTIオブジェクト検出データセットの評価において競合結果を得る。

For reliable environment perception, the use of temporal information is essential in some situations. Especially for object detection, sometimes a situation can only be understood in the right perspective through temporal information. Since image-based object detectors are currently based almost exclusively on CNN architectures, an extension of their feature extraction with temporal features seems promising. Within this work we investigate different architectural components for a CNN-based temporal information extraction. We present a Temporal Feature Network which is based on the insights gained from our architectural investigations. This network is trained from scratch without any ImageNet information based pre-training as these images are not available with temporal information. The object detector based on this network is evaluated against the non-temporal counterpart as baseline and achieves competitive results in an evaluation on the KITTI object detection dataset.
翻訳日:2021-03-24 13:56:57 公開日:2021-03-22
# ZS-IL:ゼロショットインクリメンタル学習の学習経験を振り返る

ZS-IL: Looking Back on Learned ExperiencesFor Zero-Shot Incremental Learning ( http://arxiv.org/abs/2103.12216v1 )

ライセンス: Link先を確認
Mozhgan PourKeshavarz, Mohammad Sabokrou(参考訳) 古典的なディープニューラルネットワークは、トレーニングデータの新たなストリームから学ぶ能力に制限がある。 新しいタスクや進化するタスクを逐次トレーニングすると、パフォーマンスが急激に低下し、現実のユースケースでは不適切になる。 既存のメソッドでは、古いデータサンプルを格納するか、パラメータセットのdnnだけを更新するかのいずれかで対処しているが、これは大きなメモリ予算を必要とするか、増分されたクラス分布を学ぶためのモデルの柔軟性を損なう。 本稿では,データストリームに新しいクラスが出現するたびに過去の体験を提供するために,オンコール転送セットに光を当てる。 特に,ゼロショットインクリメンタル学習は,モデルが学習した過去の経験を再現するだけでなく,ゼロショットでこれを行うためのものである。 この目的に向けて,新しいタスク(クラス)が出現するたびに,過去の例を合成するためにネットワークに問い合わせるメモリリカバリパラダイムを導入した。 したがって、本手法ではメモリサイズの固定化を必要とせず、過去のメモリ回復パラダイムを呼び出し、過去のクラスを壊滅的に忘れないよう転送セットを命名する。 さらに,最近提案された手法とは対照的に,提案手法は学習者ネットワークにのみ依存するため,並列アーキテクチャを望まない。 過去のデータサンプルをバッファリングしない最先端のデータテクニックと比較して、ZS-ILは、タスク-ILとクラス-ILの両方の設定でよく知られたデータセット(CIFAR-10、Tiny-ImageNet)において、はるかに優れたパフォーマンスを示している。

Classical deep neural networks are limited in their ability to learn from emerging streams of training data. When trained sequentially on new or evolving tasks, their performance degrades sharply, making them inappropriate in real-world use cases. Existing methods tackle it by either storing old data samples or only updating a parameter set of DNNs, which, however, demands a large memory budget or spoils the flexibility of models to learn the incremented class distribution. In this paper, we shed light on an on-call transfer set to provide past experiences whenever a new class arises in the data stream. In particular, we propose a Zero-Shot Incremental Learning not only to replay past experiences the model has learned but also to perform this in a zero-shot manner. Towards this end, we introduced a memory recovery paradigm in which we query the network to synthesize past exemplars whenever a new task (class) emerges. Thus, our method needs no fixed-sized memory, besides calls the proposed memory recovery paradigm to provide past exemplars, named a transfer set in order to mitigate catastrophically forgetting the former classes. Moreover, in contrast with recently proposed methods, the suggested paradigm does not desire a parallel architecture since it only relies on the learner network. Compared to the state-of-the-art data techniques without buffering past data samples, ZS-IL demonstrates significantly better performance on the well-known datasets (CIFAR-10, Tiny-ImageNet) in both Task-IL and Class-IL settings.
翻訳日:2021-03-24 13:56:46 公開日:2021-03-22
# Channel Scaling: 伝達学習のためのスケール・アンド・セレクションアプローチ

Channel Scaling: A Scale-and-Select Approach for Transfer Learning ( http://arxiv.org/abs/2103.12228v1 )

ライセンス: Link先を確認
Ken C. L. Wong, Satyananda Kashyap, Mehdi Moradi(参考訳) 予め訓練されたニューラルネットワークを用いた転送学習は、医学画像解析における分類器の訓練のための一般的な戦略である。 適切なチャネル選択がなければ、デプロイメントや説明可能性を妨げる必要のない大規模なモデルが発生することが少なくない。 本稿では,チャネルスケーリング層を導入することで,小型で高性能なネットワークを効率的に構築する新しい手法を提案する。 各凍結畳み込み層にはチャネルスケーリング層が取り付けられ、トレーニング可能なスケーリングウェイトは対応する特徴チャネルの重要性を推定する。 微調整のアプローチとは異なり、元のチャネルの重みを維持し、大きなデータセットは不要です。 このフレームワークは、L1正規化とスケーリングウェイトに対するしきい値の閾値を付与することにより、事前訓練されたモデルから不要な特徴チャネルを反復的に除去する。 ImageNetで事前訓練したVGG16モデルを用いて,胸部X線画像から不透明度を分類する手法を提案する。 その結果,優れた性能を実現しつつ,パラメータ数を95%削減できることがわかった。

Transfer learning with pre-trained neural networks is a common strategy for training classifiers in medical image analysis. Without proper channel selections, this often results in unnecessarily large models that hinder deployment and explainability. In this paper, we propose a novel approach to efficiently build small and well performing networks by introducing the channel-scaling layers. A channel-scaling layer is attached to each frozen convolutional layer, with the trainable scaling weights inferring the importance of the corresponding feature channels. Unlike the fine-tuning approaches, we maintain the weights of the original channels and large datasets are not required. By imposing L1 regularization and thresholding on the scaling weights, this framework iteratively removes unnecessary feature channels from a pre-trained model. Using an ImageNet pre-trained VGG16 model, we demonstrate the capabilities of the proposed framework on classifying opacity from chest X-ray images. The results show that we can reduce the number of parameters by 95% while delivering a superior performance.
翻訳日:2021-03-24 13:56:19 公開日:2021-03-22
# 変分オートエンコーダを用いたエネルギー分散

Energy Disaggregation using Variational Autoencoders ( http://arxiv.org/abs/2103.12177v1 )

ライセンス: Link先を確認
Antoine Langevin, Marc-Andr\'e Carbonneau, Mohamed Cheriet, Ghyslain Gagnon(参考訳) 非侵入負荷モニタリング(non-intrusive load monitoring, nilm)は、単一のセンサを使用して建物の総消費電力を測定する技術である。 エネルギーデアグリゲーション法を用いて, 集合測定値から個々の家電の消費を推定できる。 近年, NILMシステムの性能は大幅に向上した。 しかし、これらの手法の様々な住宅への一般化能力と多状態家電の解体は依然として大きな課題である。 本稿では,これらの問題に対処し,変分オートエンコーダ(VAE)フレームワークに基づくエネルギー分散手法を提案する。 確率エンコーダは、対象の家電消費の再構成に関連する情報を符号化する効率的なモデルである。 特に,提案モデルはより複雑な負荷プロファイルを正確に生成し,マルチステートアプライアンスの電力信号再構成を改善する。 さらに、規則化された潜在空間は、異なる住宅をまたいだモデルの一般化能力を向上する。 提案モデルは、UK-DALEデータセット上の最先端のNILMアプローチと比較され、競合する結果が得られる。 絶対誤差の平均は、最先端と比較して、すべての家電で平均18%減少する。 F1スコアは11%以上増加し, 集合測定における目標機器の検出精度が向上した。

Non-intrusive load monitoring (NILM) is a technique that uses a single sensor to measure the total power consumption of a building. Using an energy disaggregation method, the consumption of individual appliances can be estimated from the aggregate measurement. Recent disaggregation algorithms have significantly improved the performance of NILM systems. However, the generalization capability of these methods to different houses as well as the disaggregation of multi-state appliances are still major challenges. In this paper we address these issues and propose an energy disaggregation approach based on the variational autoencoders (VAE) framework. The probabilistic encoder makes this approach an efficient model for encoding information relevant to the reconstruction of the target appliance consumption. In particular, the proposed model accurately generates more complex load profiles, thus improving the power signal reconstruction of multi-state appliances. Moreover, its regularized latent space improves the generalization capabilities of the model across different houses. The proposed model is compared to state-of-the-art NILM approaches on the UK-DALE dataset, and yields competitive results. The mean absolute error reduces by 18% on average across all appliances compared to the state-of-the-art. The F1-Score increases by more than 11%, showing improvements for the detection of the target appliance in the aggregate measurement.
翻訳日:2021-03-24 13:48:48 公開日:2021-03-22
# 最適輸送理論に基づく教師なし協調学習

Unsupervised collaborative learning based on Optimal Transport theory ( http://arxiv.org/abs/2103.12071v1 )

ライセンス: Link先を確認
Fatima Ezzahraa Ben Bouazza, Youn\`es Bennani(参考訳) 協調学習は近年,非常に大きな成果を上げている。 しかし、交換しなければならない情報の種類、停止の基準、適切な協力者を選ぶ方法など、いくつかの問題に苦しんでいる。 本稿では, 最適輸送理論に触発された新しいアプローチにより, コラボレーションの質の向上と課題の解決を目指す。 より具体的には、情報交換の目的関数はワッサーシュタイン距離に基づいており、共同作業者間で情報の双方向輸送を行う。 この定式化は停止基準を学習し、最高の協力者を選ぶための基準を与える。 提案手法を評価するために,複数のデータセット上で広範な実験を行った。

Collaborative learning has recently achieved very significant results. It still suffers, however, from several issues, including the type of information that needs to be exchanged, the criteria for stopping and how to choose the right collaborators. We aim in this paper to improve the quality of the collaboration and to resolve these issues via a novel approach inspired by Optimal Transport theory. More specifically, the objective function for the exchange of information is based on the Wasserstein distance, with a bidirectional transport of information between collaborators. This formulation allows to learns a stopping criterion and provide a criterion to choose the best collaborators. Extensive experiments are conducted on multiple data-sets to evaluate the proposed approach.
翻訳日:2021-03-24 13:43:58 公開日:2021-03-22
# POMDPにおける有限メモリQ-Learningの収束性とフィルタ安定性を考慮した学習ポリシーの最適性

Convergence of Finite Memory Q-Learning for POMDPs and Near Optimality of Learned Policies under Filter Stability ( http://arxiv.org/abs/2103.12158v1 )

ライセンス: Link先を確認
Ali Devran Kara and Serdar Yuksel(参考訳) 本稿では,pomdpsに対して,過去の観測と制御動作の有限履歴を用いた制御ポリシーのためのq学習アルゴリズムの収束について述べる。 有限履歴ウィンドウの長さに対する近似誤差に関する明示的な誤差境界を示す。 探索段階における状態過程の軽度エルゴード性仮定の下で,このようなq-learningイテレーションの収束性を確立する。 さらに、極限不動点方程式が近似的信念-MDPの最適解を与えることを示す。 次に, 限界q値を用いて得られたポリシーの性能をpomdpの最適ポリシーの性能と比較し, 制御されたpomdpにおけるフィルタ安定性に関する最近の結果を用いて, 明示的な条件を提示する。 多くの実験結果があるが、(i)このような有限記憶q-ラーニングアルゴリズムの厳密な漸近収束(近似mdp値関数への)、(ii)明示的な収束率(メモリサイズにおける)のほぼ最適性は、文献にとって、我々の知識にとって新しい結果である。

In this paper, for POMDPs, we provide the convergence of a Q learning algorithm for control policies using a finite history of past observations and control actions, and, consequentially, we establish near optimality of such limit Q functions under explicit filter stability conditions. We present explicit error bounds relating the approximation error to the length of the finite history window. We establish the convergence of such Q-learning iterations under mild ergodicity assumptions on the state process during the exploration phase. We further show that the limit fixed point equation gives an optimal solution for an approximate belief-MDP. We then provide bounds on the performance of the policy obtained using the limit Q values compared to the performance of the optimal policy for the POMDP, where we also present explicit conditions using recent results on filter stability in controlled POMDPs. While there exist many experimental results, (i) the rigorous asymptotic convergence (to an approximate MDP value function) for such finite-memory Q-learning algorithms, and (ii) the near optimality with an explicit rate of convergence (in the memory size) are results that are new to the literature, to our knowledge.
翻訳日:2021-03-24 13:41:36 公開日:2021-03-22
# 説明可能性:動的深層学習アルゴリズムによる化学プロセスにおける故障検出と診断

Explainability: Relevance based Dynamic Deep Learning Algorithm for Fault Detection and Diagnosis in Chemical Processes ( http://arxiv.org/abs/2103.12222v1 )

ライセンス: Link先を確認
Piyush Agarwal, Melih Tamer and Hector Budman(参考訳) 本研究の焦点は、利用可能な測定値に基づく製造プロセスの統計的プロセス制御(SPC)である。 産業環境におけるSPCの2つの重要な応用は、故障検出と診断(FDD)である。 本研究では,FDDに対して深層学習(DL)に基づく方法論を提案する。 本研究では,比較的少ないサンプル数のデータセットを用いた深層ニューラルネットワークモデルのfdd精度向上のための説明可能性概念の適用について検討する。 この説明性は、レイヤワイド・レバレンス・プロパゲーション(LRP)アルゴリズムから計算された入力変数の新たな関連尺度によって定量化される。 その結果,冗長な入力特徴ベクトル/変数を反復的に捨てることで,ノイズデータの過剰フィッティングが減少し,出力クラス間の識別性が向上し,fddテスト精度が向上した。 提案手法の有効性をテネシー・イーストマン・プロセスのベンチマークで示す。

The focus of this work is on Statistical Process Control (SPC) of a manufacturing process based on available measurements. Two important applications of SPC in industrial settings are fault detection and diagnosis (FDD). In this work a deep learning (DL) based methodology is proposed for FDD. We investigate the application of an explainability concept to enhance the FDD accuracy of a deep neural network model trained with a data set of relatively small number of samples. The explainability is quantified by a novel relevance measure of input variables that is calculated from a Layerwise Relevance Propagation (LRP) algorithm. It is shown that the relevances can be used to discard redundant input feature vectors/ variables iteratively thus resulting in reduced over-fitting of noisy data, increasing distinguishability between output classes and superior FDD test accuracy. The efficacy of the proposed method is demonstrated on the benchmark Tennessee Eastman Process.
翻訳日:2021-03-24 13:41:15 公開日:2021-03-22
# (参考訳) サンプルと計算効率の良いVQAモデルの設計法 [全文訳有]

How to Design Sample and Computationally Efficient VQA Models ( http://arxiv.org/abs/2103.11537v1 )

ライセンス: CC BY 4.0
Karan Samel, Zelin Zhao, Binghong Chen, Kuan Wang, Robin Luo, Le Song(参考訳) 視覚的質問応答(VQA)のようなマルチモーダル推論タスクでは、多くのモデリングおよび訓練パラダイムがテストされている。 従来のモデルではビジョンと言語タスクの異なる手法を提案しているが、サンプルと計算効率の面ではどちらが最適か? 実験の結果、テキストを確率的プログラムとして表現し、画像をオブジェクトレベルのシーングラフとして表現することで、これらのデシデラタを満足できることがわかった。 既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。 実験の結果,このプログラム実行者は,サンプル化と計算効率を両立しながら最先端の精度を維持することができることがわかった。

In multi-modal reasoning tasks, such as visual question answering (VQA), there have been many modeling and training paradigms tested. Previous models propose different methods for the vision and language tasks, but which ones perform the best while being sample and computationally efficient? Based on our experiments, we find that representing the text as probabilistic programs and images as object-level scene graphs best satisfy these desiderata. We extend existing models to leverage these soft programs and scene graphs to train on question answer pairs in an end-to-end manner. Empirical results demonstrate that this differentiable end-to-end program executor is able to maintain state-of-the-art accuracy while being sample and computationally efficient.
翻訳日:2021-03-24 07:26:21 公開日:2021-03-22
# (参考訳) ISTA-Net++:圧縮センシングのための柔軟な深層展開ネットワーク [全文訳有]

ISTA-Net++: Flexible Deep Unfolding Network for Compressive Sensing ( http://arxiv.org/abs/2103.11554v1 )

ライセンス: CC BY 4.0
Di You, Jingfen Xie, Jian Zhang(参考訳) 深層ニューラルネットワークは画像圧縮センシング(cs)で目覚ましい成功を収めているが、そのほとんどは、実用上、マルチ比タスクやマルチシーンイメージを扱う際の柔軟性を欠いている。 これらの課題に対処するために,ISTA-Net++と呼ばれる,エンドツーエンドの柔軟なISTAアンフォールディングディープネットワークを提案する。 具体的には、動的展開戦略を開発することにより、一つのモデルを通して異なる比でCS問題を扱うことの適応性を享受する。 クロスブロック戦略はさらに、ブロッキングアーティファクトの削減とcsリカバリ品質の向上に利用される。 さらに,複数のシーンの画像を再構成する際の堅牢性を高めるために,バランスの取れたデータセットをトレーニングに適用する。 4つのデータセットに対する大規模な実験により、ISTA-Net++は定量的メトリクスと視覚的品質の両方の観点から、最先端の結果を達成することが示された。 その柔軟性、有効性、実践性を考慮すると、われわれのモデルは将来のCS研究において適切なベースラインとして機能することが期待される。 ソースコードはhttps://github.com/j ianzhangcs/ISTA-Netp p.comで入手できる。

While deep neural networks have achieved impressive success in image compressive sensing (CS), most of them lack flexibility when dealing with multi-ratio tasks and multi-scene images in practical applications. To tackle these challenges, we propose a novel end-to-end flexible ISTA-unfolding deep network, dubbed ISTA-Net++, with superior performance and strong flexibility. Specifically, by developing a dynamic unfolding strategy, our model enjoys the adaptability of handling CS problems with different ratios, i.e., multi-ratio tasks, through a single model. A cross-block strategy is further utilized to reduce blocking artifacts and enhance the CS recovery quality. Furthermore, we adopt a balanced dataset for training, which brings more robustness when reconstructing images of multiple scenes. Extensive experiments on four datasets show that ISTA-Net++ achieves state-of-the-art results in terms of both quantitative metrics and visual quality. Considering its flexibility, effectiveness and practicability, our model is expected to serve as a suitable baseline in future CS research. The source code is available on https://github.com/j ianzhangcs/ISTA-Netp p.
翻訳日:2021-03-24 06:59:39 公開日:2021-03-22
# (参考訳) 重み付き神経接核:ネットワーク誘導核の一般化と改良 [全文訳有]

Weighted Neural Tangent Kernel: A Generalized and Improved Network-Induced Kernel ( http://arxiv.org/abs/2103.11558v1 )

ライセンス: CC BY 4.0
Lei Tan, Shutong Wu, Xiaolin Huang(参考訳) ニューラル・タンジェント・カーネル(NTK)は、勾配降下によって訓練された過パラメータニューラルネットワーク(NN)の進化について記述し、近年激しい研究を惹きつけている。 しかし現在では、勾配降下がNNの最適化に必ずしも適していないことが知られており、NTK回帰推定器の不満足な実用性能を部分的に説明できる。 本稿では,多パラメータNNのトレーニングダイナミクスを異なるオプティマイザの下でキャプチャ可能な,一般化および改良されたツールであるWeighted Neural Tangent Kernel(WNTK)を紹介する。 理論的には, 無限幅極限において, i) 初期化および訓練中の wntk の安定性, ii) wntk回帰推定器と対応する nn 推定器の等価性, 異なるパラメータで学習率が異なることを証明する。 提案する重み更新アルゴリズムでは,実験値と解析値の両方が,数値実験において対応するntkを上回っている。

The Neural Tangent Kernel (NTK) has recently attracted intense study, as it describes the evolution of an over-parameterized Neural Network (NN) trained by gradient descent. However, it is now well-known that gradient descent is not always a good optimizer for NNs, which can partially explain the unsatisfactory practical performance of the NTK regression estimator. In this paper, we introduce the Weighted Neural Tangent Kernel (WNTK), a generalized and improved tool, which can capture an over-parameterized NN's training dynamics under different optimizers. Theoretically, in the infinite-width limit, we prove: i) the stability of the WNTK at initialization and during training, and ii) the equivalence between the WNTK regression estimator and the corresponding NN estimator with different learning rates on different parameters. With the proposed weight update algorithm, both empirical and analytical WNTKs outperform the corresponding NTKs in numerical experiments.
翻訳日:2021-03-24 06:45:01 公開日:2021-03-22
# (参考訳) SparseGAN:テキスト生成のためのスパース生成対応ネットワーク [全文訳有]

SparseGAN: Sparse Generative Adversarial Network for Text Generation ( http://arxiv.org/abs/2103.11578v1 )

ライセンス: CC BY 4.0
Liping Yuan, Jiehang Zeng, Xiaoqing Zheng(参考訳) 学習過程全体が微分可能ではないため,gans(generative adversarial networks)の枠組みの下でニューラルネットワーク生成モデルを学ぶことは依然として難しい課題である。 既存のトレーニング戦略は信頼できない勾配推定や不正確な文表現に悩まされる。 スパース符号化の原理に着想を得て,識別器への入力として意味解釈可能な文表現を生成するスパースGANを提案する。 重要なアイデアは、埋め込み行列を超完全辞書として扱い、選択された単語埋め込みの線形結合を使用して、各時間ステップでジェネレータの出力特徴表現を近似するというものだ。 このような意味豊かな表現により、効率の良い対人訓練のための不要なノイズを低減できるだけでなく、学習過程全体を完全に差別化できる。 複数のテキスト生成データセットの実験は、特にBLEUのようなシーケンスレベルのメトリクスにおいて、パフォーマンスの改善をもたらす。

It is still a challenging task to learn a neural text generation model under the framework of generative adversarial networks (GANs) since the entire training process is not differentiable. The existing training strategies either suffer from unreliable gradient estimations or imprecise sentence representations. Inspired by the principle of sparse coding, we propose a SparseGAN that generates semantic-interpretab le, but sparse sentence representations as inputs to the discriminator. The key idea is that we treat an embedding matrix as an over-complete dictionary, and use a linear combination of very few selected word embeddings to approximate the output feature representation of the generator at each time step. With such semantic-rich representations, we not only reduce unnecessary noises for efficient adversarial training, but also make the entire training process fully differentiable. Experiments on multiple text generation datasets yield performance improvements, especially in sequence-level metrics, such as BLEU.
翻訳日:2021-03-24 06:08:00 公開日:2021-03-22
# (参考訳) カングリ低資源言語のための単言語および並列コーパス [全文訳有]

Monolingual and Parallel Corpora for Kangri Low Resource Language ( http://arxiv.org/abs/2103.11596v1 )

ライセンス: CC0 1.0
Shweta Chauhan, Shefali Saxena, Philemon Daniel(参考訳) 本稿では,国連教育科学文化機関(ユネスコ)に登録されている,ヒマラリ低資源絶滅危惧言語Kangri(ISO 639-3xnr)のデータセットについて述べる。 kangriコーパスのコンパイルは、デジタル化リソースが利用できないため、難しい課題となっている。 コーパスには1,81,552の単言語と27,362のヒンディー・カングリ並列コーパスが含まれる。 トレーニング済みのkangri単語の埋め込みを共有しました。 また,bilingual evaluation understudy (bleu) とmetrics for evaluation of translation with explicit order (meteor) score of statistical machine translation (smt) と neural machine translation (nmt) について報告した。 コーパスは非商業的利用と研究のために無料で利用できる。 私たちの知る限りでは、これがヒマカリ初の低リソース絶滅危惧言語コーパスです。 リソースはhttps://github.com/c hauhanshweta/Kangri_ corpus)。

In this paper we present the dataset of Himachali low resource endangered language, Kangri (ISO 639-3xnr) listed in the United Nations Educational, Scientific and Cultural Organization (UNESCO). The compilation of kangri corpus has been a challenging task due to the non-availability of the digitalized resources. The corpus contains 1,81,552 Monolingual and 27,362 Hindi-Kangri Parallel corpora. We shared pre-trained kangri word embeddings. We also reported the Bilingual Evaluation Understudy (BLEU) score and Metric for Evaluation of Translation with Explicit ORdering (METEOR) score of Statistical Machine Translation (SMT) and Neural Machine Translation (NMT) results for the corpus. The corpus is freely available for non-commercial usages and research. To the best of our knowledge, this is the first Himachali low resource endangered language corpus. The resources are available at (https://github.com/ chauhanshweta/Kangri _corpus)
翻訳日:2021-03-24 05:52:11 公開日:2021-03-22
# (参考訳) リカレントニューラルネットワークを用いたシーケンス予測における露光バイアスの軽減 [全文訳有]

Alleviate Exposure Bias in Sequence Prediction \\ with Recurrent Neural Networks ( http://arxiv.org/abs/2103.11603v1 )

ライセンス: CC BY 4.0
Liping Yuan, Jiangtao Feng, Xiaoqing Zheng, Xuanjing Huang(参考訳) 教師強制'として知られるリカレントニューラルネットワーク(recurrent neural networks, rnns)をトレーニングする一般的な戦略は、基底真理を各時間ステップの入力として取り、後続の予測を部分的にこれらの入力で条件付けする。 このようなトレーニング戦略は、選択された入力がすべての前の状態にエンドツーエンドで逆伝播する勾配を妨げるため、シーケンス全体にわたって豊富な分布を学習する能力を損なう。 本稿では,RNNに対して,シーケンス全体の確率を回復することにより,長期的依存関係をよりよく捉えるための,完全微分可能なトレーニングアルゴリズムを提案する。 鍵となる考え方は、各ステップにおいて、ネットワークは単一の根拠真理ではなく、前のステップで予測される類似の単語の'`bundle''を入力として取ることである。 これらの類似した単語の表現は凸殻を形成し、入力に対する正規化の一種とみなすことができる。 このように入力を滑らかにすることで、プロセス全体がトレーニング可能で微分可能になります。 この設計により、モデルはより実現可能な組み合わせ(おそらく見えないシーケンス)を探索することができ、ビーム探索に対する計算効率の良い近似として解釈することができる。 複数のシーケンス生成タスクの実験は、特にBLUEやROUGE-2のようなシーケンスレベルのメトリクスのパフォーマンス改善をもたらす。

A popular strategy to train recurrent neural networks (RNNs), known as ``teacher forcing'' takes the ground truth as input at each time step and makes the later predictions partly conditioned on those inputs. Such training strategy impairs their ability to learn rich distributions over entire sequences because the chosen inputs hinders the gradients back-propagating to all previous states in an end-to-end manner. We propose a fully differentiable training algorithm for RNNs to better capture long-term dependencies by recovering the probability of the whole sequence. The key idea is that at each time step, the network takes as input a ``bundle'' of similar words predicted at the previous step instead of a single ground truth. The representations of these similar words forms a convex hull, which can be taken as a kind of regularization to the input. Smoothing the inputs by this way makes the whole process trainable and differentiable. This design makes it possible for the model to explore more feasible combinations (possibly unseen sequences), and can be interpreted as a computationally efficient approximation to the beam search. Experiments on multiple sequence generation tasks yield performance improvements, especially in sequence-level metrics, such as BLUE or ROUGE-2.
翻訳日:2021-03-24 05:46:38 公開日:2021-03-22
# (参考訳) ダブルQ-ラーニングによる変分量子コンパイル [全文訳有]

Variational quantum compiling with double Q-learning ( http://arxiv.org/abs/2103.11611v1 )

ライセンス: CC BY 4.0
Zhimin He, Lvzhou Li, Shenggen Zheng, Yongyao Li, Haozhen Situ(参考訳) 量子コンパイルは、ネイティブゲートアルファベットから引き出された量子ゲートによって量子回路Vを構築することを目的としており、これはターゲットユニタリUと機能的に等価である。 これは、ノイズの多い中間スケール量子(NISQ)デバイス上で量子アルゴリズムを実行するための重要な段階である。 しかし、量子回路の構造探索の空間は巨大であり、人間の専門知識、数百の実験、または既存の量子回路からの修正が要求される。 本稿では,人間の介入なしにVQC用量子回路の構造を自動設計するために,強化学習(RL)に基づく変分量子コンパイル(VQC)アルゴリズムを提案する。 エージェントは、ネイティブゲートアルファベットとそれらが実行する量子ビットから連続的に量子ゲートを選択するように訓練され、double Q-learning with \epsilon-greedy exploration strategy and experience replay。 エージェントは最初、異なる構造を持つ多数の量子回路をランダムに探索し、学習タスクで高い性能を持つ構造を反復的に発見する。 シミュレーションの結果,従来のvqcアルゴリズムと比較して,量子ゲートの少ない正確なコンパイルが可能であった。 nisqデバイスのデコヒーレンス過程とゲートノイズによる量子アルゴリズムの誤差を低減し、特に複雑なアルゴリズムをコヒーレンス時間内に実行するための量子アルゴリズムを可能にする。

Quantum compiling aims to construct a quantum circuit V by quantum gates drawn from a native gate alphabet, which is functionally equivalent to the target unitary U. It is a crucial stage for the running of quantum algorithms on noisy intermediate-scale quantum (NISQ) devices. However, the space for structure exploration of quantum circuit is enormous, resulting in the requirement of human expertise, hundreds of experimentations or modifications from existing quantum circuits. In this paper, we propose a variational quantum compiling (VQC) algorithm based on reinforcement learning (RL), in order to automatically design the structure of quantum circuit for VQC with no human intervention. An agent is trained to sequentially select quantum gates from the native gate alphabet and the qubits they act on by double Q-learning with \epsilon-greedy exploration strategy and experience replay. At first, the agent randomly explores a number of quantum circuits with different structures, and then iteratively discovers structures with higher performance on the learning task. Simulation results show that the proposed method can make exact compilations with less quantum gates compared to previous VQC algorithms. It can reduce the errors of quantum algorithms due to decoherence process and gate noise in NISQ devices, and enable quantum algorithms especially for complex algorithms to be executed within coherence time.
翻訳日:2021-03-24 05:30:31 公開日:2021-03-22
# (参考訳) 画像美的評価のための手作り・深層学習手法の検討 [全文訳有]

A Survey of Hand Crafted and Deep Learning Methods for Image Aesthetic Assessment ( http://arxiv.org/abs/2103.11616v1 )

ライセンス: CC BY 4.0
Saira Kanwal, Muhammad Uzair, Habib Ullah(参考訳) 自動画像美学評価は、画像の異なる審美レベルへの分類を扱うコンピュータビジョン問題である。 分類は通常、入力画像を分析し、画像が写真の重要な原則(バランス、リズム、調和、コントラスト、ユニティ、ルック、フィール、トーン、テクスチャ)に準拠する程度を計算することによって行われる。 近年,多くの分野における多様な応用により,自動画像美学評価が注目されている。 本稿では,最近の自動画像美学評価技術について文献的考察を行う。 従来の手作りとディープラーニングに基づくアプローチを数多くレビューしている。 主な問題は、なぜ機能やモデルが他のものよりも優れているのか、その制限は何か、などである。 最後に、異なる方法の定量的結果の比較も提供される。

Automatic image aesthetics assessment is a computer vision problem that deals with the categorization of images into different aesthetic levels. The categorization is usually done by analyzing an input image and computing some measure of the degree to which the image adhere to the key principles of photography (balance, rhythm, harmony, contrast, unity, look, feel, tone and texture). Owing to its diverse applications in many areas, automatic image aesthetic assessment has gained significant research attention in recent years. This paper presents a literature review of the recent techniques of automatic image aesthetics assessment. A large number of traditional hand crafted and deep learning based approaches are reviewed. Key problem aspects are discussed such as why some features or models perform better than others and what are the limitations. A comparison of the quantitative results of different methods is also provided at the end.
翻訳日:2021-03-24 05:01:20 公開日:2021-03-22
# (参考訳) フェデレーション学習のためのサーバ平均化 [全文訳有]

Server Averaging for Federated Learning ( http://arxiv.org/abs/2103.11619v1 )

ライセンス: CC BY 4.0
George Pu, Yanlin Zhou, Dapeng Wu, Xiaolin Li(参考訳) フェデレートされた学習により、分散デバイスは、中央サーバでローカルデータセットを共有したり公開したりすることなく、モデルを集合的にトレーニングすることができる。 グローバルモデルは、すべてのローカル参加者のモデルパラメータのトレーニングと平均化によって最適化される。 しかし、フェデレート学習のプライバシー向上は、高い計算と通信コストを含む課題ももたらしている。 特に、連合学習は集中トレーニングよりも遅く収束する。 本稿では,サーバ平均化アルゴリズムを提案する。 sever averagingは、以前のグローバルモデルの集合を定期的に平均することにより、共有グローバルモデルを構築する。 実験の結果,サーバ平均化は,フェデレート平均化(FedAvg)よりも高速に収束するだけでなく,エポック崩壊によるクライアントレベルの計算コストを低減できることがわかった。

Federated learning allows distributed devices to collectively train a model without sharing or disclosing the local dataset with a central server. The global model is optimized by training and averaging the model parameters of all local participants. However, the improved privacy of federated learning also introduces challenges including higher computation and communication costs. In particular, federated learning converges slower than centralized training. We propose the server averaging algorithm to accelerate convergence. Sever averaging constructs the shared global model by periodically averaging a set of previous global models. Our experiments indicate that server averaging not only converges faster, to a target accuracy, than federated averaging (FedAvg), but also reduces the computation costs on the client-level through epoch decay.
翻訳日:2021-03-24 04:32:58 公開日:2021-03-22
# (参考訳) 領域適応のためのバッチ正規化分類器 [全文訳有]

A Batch Normalization Classifier for Domain Adaptation ( http://arxiv.org/abs/2103.11642v1 )

ライセンス: CC BY 4.0
Matthew R. Behrend and Sean M. Robinson(参考訳) トレーニングセット外の予期せぬデータにモデルを適応させることは、新しいアプローチを動機づけ続ける一般的な問題である。 本研究では,ソフトマックスアクティベーション前の出力層におけるバッチ正規化の適用により,改良されたResNetモデルにおける視覚データ領域間の一般化が向上することを示す。 このアプローチでは計算の複雑さは無視できるが、データドメインの整列を明示的に学習する多くのドメイン適応メソッドを上回っている。 この手法をOffice-Homeデータセット上でベンチマークし、バッチ正規化は他の主要な手法と競合することを示す。 本手法は適応中の震源データの存在に敏感ではないことを示し,さらに訓練されたテンソル分布への影響を空間的に示す。 コードはhttps://github.com/m atthewbehrend/BNCで入手できる。

Adapting a model to perform well on unforeseen data outside its training set is a common problem that continues to motivate new approaches. We demonstrate that application of batch normalization in the output layer, prior to softmax activation, results in improved generalization across visual data domains in a refined ResNet model. The approach adds negligible computational complexity yet outperforms many domain adaptation methods that explicitly learn to align data domains. We benchmark this technique on the Office-Home dataset and show that batch normalization is competitive with other leading methods. We show that this method is not sensitive to presence of source data during adaptation and further present the impact on trained tensor distributions tends toward sparsity. Code is available at https://github.com/m atthewbehrend/BNC
翻訳日:2021-03-24 04:27:23 公開日:2021-03-22
# (参考訳) オープンドメイン質問応答における補完的証拠同定 [全文訳有]

Complementary Evidence Identification in Open-Domain Question Answering ( http://arxiv.org/abs/2103.11643v1 )

ライセンス: CC BY 4.0
Xiangyang Mou, Mo Yu, Shiyu Chang, Yufei Feng, Li Zhang and Hui Su(参考訳) 本稿では,オープンドメイン質問応答(qa)に対する補完的証拠同定の新たな問題を提案する。 この問題は、複雑な問題に答えるために、複数の側面から完全な証拠を網羅する小節を効率的に見つけることを目的としている。 そこで本研究では,選択された集合のベクトル表現を学習し,選択された集合内の十分性と多様性をモデル化する手法を提案する。 実験により,本手法は支持するエビデンス内の依存性を考慮し,qa領域における補完的証拠選択の精度を著しく向上することを示した。

This paper proposes a new problem of complementary evidence identification for open-domain question answering (QA). The problem aims to efficiently find a small set of passages that covers full evidence from multiple aspects as to answer a complex question. To this end, we proposes a method that learns vector representations of passages and models the sufficiency and diversity within the selected set, in addition to the relevance between the question and passages. Our experiments demonstrate that our method considers the dependence within the supporting evidence and significantly improves the accuracy of complementary evidence selection in QA domain.
翻訳日:2021-03-24 04:21:27 公開日:2021-03-22
# (参考訳) AET-EFN:静的および動的イベントベースビジョンのためのバーサタイル設計 [全文訳有]

AET-EFN: A Versatile Design for Static and Dynamic Event-Based Vision ( http://arxiv.org/abs/2103.11645v1 )

ライセンス: CC BY 4.0
Chang Liu, Xiaojuan Qi, Edmund Lam, Ngai Wong(参考訳) 映像の光学的変化を捉えたニューロモーフィックなイベントカメラは、その高速かつ低消費電力のために注目を集めている。 しかし、イベントデータは、非常に高時間分解能の空間時間領域におけるノイズ、スパース、不均一であり、イベントベースのビジョンのためのバックエンドアルゴリズムを設計することは困難である。 既存の方法では、イベントをポイントクラウドベースまたはボクセルベースの表現にエンコードするが、ノイズや情報損失に悩まされる。 さらに、イベントベースのビジョンのための1つの普遍的な設計で静的および動的シーンの扱い方を体系的に研究する研究はほとんどない。 本稿では、新しいイベントデータ表現としてアライメントイベントテンソル(aet)と、静的および動的シーンにおけるイベントベースの視覚モデルを可能にするイベントフレームネット(efn)と呼ばれる巧妙なフレームワークを提案する。 AETとEFNは様々なデータセットで評価され、既存の最先端手法を大きなマージンで上回っていることが証明された。 また,提案手法は高速かつ高速な推論速度を実現する。

The neuromorphic event cameras, which capture the optical changes of a scene, have drawn increasing attention due to their high speed and low power consumption. However, the event data are noisy, sparse, and nonuniform in the spatial-temporal domain with an extremely high temporal resolution, making it challenging to design backend algorithms for event-based vision. Existing methods encode events into point-cloud-based or voxel-based representations, but suffer from noise and/or information loss. Additionally, there is little research that systematically studies how to handle static and dynamic scenes with one universal design for event-based vision. This work proposes the Aligned Event Tensor (AET) as a novel event data representation, and a neat framework called Event Frame Net (EFN), which enables our model for event-based vision under static and dynamic scenes. The proposed AET and EFN are evaluated on various datasets, and proved to surpass existing state-of-the-art methods by large margins. Our method is also efficient and achieves the fastest inference speed among others.
翻訳日:2021-03-24 04:09:16 公開日:2021-03-22
# (参考訳) 逆領域適応のためのサンプルリラベルを用いた再エネルギードメイン判別器 [全文訳有]

Re-energizing Domain Discriminator with Sample Relabeling for Adversarial Domain Adaptation ( http://arxiv.org/abs/2103.11661v1 )

ライセンス: CC0 1.0
Xin Jin, Cuiling Lan, Wenjun Zeng, Zhibo Chen(参考訳) 多くの教師なしドメイン適応(uda:unsupervised domain adaptation)メソッドは、機能間のギャップを減らすために機能を調整するためにドメイン敵のトレーニングを利用する。 ドメイン分類器w.r.tの識別能力は、トレーニングが進むにつれて整列する特徴分布が悪化し、特徴抽出器の訓練を効果的に進めることはできない。 本研究では,動的領域ラベルを用いて,訓練中に領域識別器を再エネルギ化することを目的とした,re-enforceable adversarial domain adaptation(rada)という効率的な最適化戦略を提案する。 特に、よく整列したターゲットドメインのサンプルをソースドメインのサンプルとしてオンザフライでリラベルします。 このようなrelabelingは分離性の低い分布をより分離しやすくし、より強力なドメイン分類器w.r.tにつながる。 新たなデータ分布は 機能アライメントをさらに加速させます 複数のUDAベンチマークに対する大規模な実験は、我々のRADの有効性と優位性を示している。

Many unsupervised domain adaptation (UDA) methods exploit domain adversarial training to align the features to reduce domain gap, where a feature extractor is trained to fool a domain discriminator in order to have aligned feature distributions. The discrimination capability of the domain classifier w.r.t the increasingly aligned feature distributions deteriorates as training goes on, thus cannot effectively further drive the training of feature extractor. In this work, we propose an efficient optimization strategy named Re-enforceable Adversarial Domain Adaptation (RADA) which aims to re-energize the domain discriminator during the training by using dynamic domain labels. Particularly, we relabel the well aligned target domain samples as source domain samples on the fly. Such relabeling makes the less separable distributions more separable, and thus leads to a more powerful domain classifier w.r.t. the new data distributions, which in turn further drives feature alignment. Extensive experiments on multiple UDA benchmarks demonstrate the effectiveness and superiority of our RADA.
翻訳日:2021-03-24 03:53:59 公開日:2021-03-22
# (参考訳) 3次元畳み込みニューラルネットワークを用いた生T1強調磁気共鳴画像データからの脳年齢予測 [全文訳有]

Predicting brain-age from raw T 1 -weighted Magnetic Resonance Imaging data using 3D Convolutional Neural Networks ( http://arxiv.org/abs/2103.11695v1 )

ライセンス: CC BY 4.0
Lukas Fisch, Jan Ernsting, Nils R. Winter, Vincent Holstein, Ramona Leenings, Marie Beisemann, Kelvin Sarink, Daniel Emden, Nils Opel, Ronny Redlich, Jonathan Repple, Dominik Grotegerd, Susanne Meinert, Niklas Wulms, Heike Minnerup, Jochen G. Hirsch, Thoralf Niendorf, Beate Endemann, Fabian Bamberg, Thomas Kr\"oncke, Annette Peters, Robin B\"ulow, Henry V\"olzke, Oyunbileg von Stackelberg, Ramona Felizitas Sowade, Lale Umutlu, B\"orge Schmidt, Svenja Caspers, German National Cohort Study Center Consortium, Harald Kugel, Bernhard T. Baune, Tilo Kircher, Benjamin Risse, Udo Dannlowski, Klaus Berger, Tim Hahn(参考訳) 脳の磁気共鳴イメージング(MRI)データに基づく年齢予測は、脳疾患や老化の進行を定量化するバイオマーカーである。 現在のアプローチは、voxelを標準化された脳アトラスに登録するなど、複数の前処理ステップでデータを準備することに依存している。 本稿では,ResNetアーキテクチャをベースとした3次元畳み込みニューラルネットワーク(CNN)を,ドイツ国立コーホートから得られたN=10,691サンプルの生,非登録T1強調MRIデータに基づいて学習し,さらに3つの独立した研究から得られたN=2,173サンプルにも適用・検証する。 比較のために、前処理された神経画像データを用いた最先端のモデルが同じサンプル上で訓練され検証される。 生の神経画像データを用いた3D CNNは、平均偏差平均2.84年で年齢を予測する。 我々のアプローチは前処理ソフトウェアやパラメータの選択に不変であるため、より速く、より堅牢で、より正確な脳年齢モデリングを可能にします。

Age prediction based on Magnetic Resonance Imaging (MRI) data of the brain is a biomarker to quantify the progress of brain diseases and aging. Current approaches rely on preparing the data with multiple preprocessing steps, such as registering voxels to a standardized brain atlas, which yields a significant computational overhead, hampers widespread usage and results in the predicted brain-age to be sensitive to preprocessing parameters. Here we describe a 3D Convolutional Neural Network (CNN) based on the ResNet architecture being trained on raw, non-registered T 1 -weighted MRI data of N=10,691 samples from the German National Cohort and additionally applied and validated in N=2,173 samples from three independent studies using transfer learning. For comparison, state-of-the-art models using preprocessed neuroimaging data are trained and validated on the same samples. The 3D CNN using raw neuroimaging data predicts age with a mean average deviation of 2.84 years, outperforming the state-of-the-art brain-age models using preprocessed data. Since our approach is invariant to preprocessing software and parameter choices, it enables faster, more robust and more accurate brain-age modeling.
翻訳日:2021-03-24 03:31:01 公開日:2021-03-22
# (参考訳) より良いバウンディングボックス回帰のための制御距離IoUと制御距離IoU損失関数 [全文訳有]

Control Distance IoU and Control Distance IoU Loss Function for Better Bounding Box Regression ( http://arxiv.org/abs/2103.11696v1 )

ライセンス: CC BY 4.0
Dong Chen and Duoqian Miao(参考訳) フィードバック機構の多くの改善がオブジェクト検出の大きな進歩に寄与している。 本稿ではまず,評価システムとフィードバック機構から構成される評価フィードバックモジュールを提案する。 次に、従来の評価フィードバックモジュールの欠点と改善を分析し、要約する。 最後に,評価システムとフィードバック機構の両方に注目し,モデルにおけるパラメータやフラップを増加させることなく,制御距離iouと制御距離iou損失関数(略してcdiouとcdiou損失)を提案する。 いくつかの実験と比較試験により、協調評価フィードバックモジュールはモデル性能を効果的に改善できることが示された。 CDIoUとCDIoUの損失は、Faster R-CNN、YOLOv4、RetinaNet、ATSSなどいくつかのモデルで異なる優れた性能を持つ。 ms cocoデータセットでは、従来の評価-フィードバックモジュールと比較して最大apが1.9%、平均apが0.8%改善されている。

Numerous improvements for feedback mechanisms have contributed to the great progress in object detection. In this paper, we first present an evaluation-feedback module, which is proposed to consist of evaluation system and feedback mechanism. Then we analyze and summarize the disadvantages and improvements of traditional evaluation-feedback module. Finally, we focus on both the evaluation system and the feedback mechanism, and propose Control Distance IoU and Control Distance IoU loss function (or CDIoU and CDIoU loss for short) without increasing parameters or FLOPs in models, which show different significant enhancements on several classical and emerging models. Some experiments and comparative tests show that coordinated evaluation-feedback module can effectively improve model performance. CDIoU and CDIoU loss have different excellent performances in several models such as Faster R-CNN, YOLOv4, RetinaNet and ATSS. There is a maximum AP improvement of 1.9% and an average AP of 0.8% improvement on MS COCO dataset, compared to traditional evaluation-feedback modules.
翻訳日:2021-03-24 03:11:41 公開日:2021-03-22
# (参考訳) 空間依存型U-Net:医療画像セグメンテーションのための高精度アーキテクチャ [全文訳有]

Spatially Dependent U-Nets: Highly Accurate Architectures for Medical Imaging Segmentation ( http://arxiv.org/abs/2103.11713v1 )

ライセンス: CC BY 4.0
Jo\~ao B. S. Carvalho, Jo\~ao A. Santinha, {\DJ}or{\dj}e Miladinovi\'c, Joachim M. Buhmann(参考訳) 臨床実践では、正確な画像セグメンテーションのプロセスを通じて、医用画像に対する関心領域を特定する必要があることが多い。 この画像分割ステップの質は、患者状態のその後の臨床評価に重大な影響を及ぼす。 高精度で自動的な画像分割を実現するため,解剖学的構造固有の空間コヒーレンスを利用して,セグメント化された画素/ボクセル空間における長距離空間依存性を捉えることができる新しいディープニューラルネットワークアーキテクチャを導入する。 畳み込み層に基づく最先端の解とは対照的に,近年導入された非有界受容場を持つ空間依存層を活用し,空間コヒーレンスの帰納的バイアスを明示的にモデル化する。 Dice と Jaccardscore の改良した U-Net および U-Net++ アーキテクチャに対して,顕微鏡画像の核分割,大腸内視鏡ビデオのポリープ分割,腹部CT スキャンの肝分画の3つの異なるタスクで有効である。

In clinical practice, regions of interest in medical imaging often need to be identified through a process of precise image segmentation. The quality of this image segmentation step critically affects the subsequent clinical assessment of the patient status. To enable high accuracy, automatic image segmentation, we introduce a novel deep neural network architecture that exploits the inherent spatial coherence of anatomical structures and is well equipped to capture long-range spatial dependencies in the segmented pixel/voxel space. In contrast to the state-of-the-art solutions based on convolutional layers, our approach leverages on recently introduced spatial dependency layers that have an unbounded receptive field and explicitly model the inductive bias of spatial coherence. Our method performs favourably to commonly used U-Net and U-Net++ architectures as demonstrated by improved Dice and Jaccardscore in three different medical segmentation tasks: nuclei segmentation in microscopy images, polyp segmentation in colonoscopy videos, and liver segmentation in abdominal CT scans.
翻訳日:2021-03-24 02:50:52 公開日:2021-03-22
# (参考訳) 動的画像符号化のための網膜インスパイアフィルタ [全文訳有]

Retinal-inspired Filtering for Dynamic Image Coding ( http://arxiv.org/abs/2103.11716v1 )

ライセンス: CC BY-SA 4.0
Effrosyni Doutsi, Lionel Fillatre, Marc Antonini, Julien Gaulmin(参考訳) 本稿では,静止画像の時空間分解を可能にする非分離性sPAtioteMporalフィルタ(non-SPAM)を提案する。 このフィルターの構成は、選択的に情報を脳に伝達できる網膜のモデルにインスパイアされている。 非SPAMフィルタは網膜経路を模倣し、ダイナミックエンコーディング/復号システムに必要な情報を抽出する。 長時間点滅した静止画像に非SPAMフィルタを適用した。 非SPAMフィルタは、フレームを形成するガウスの時間差の集合上で静止画像を分解することを示す。 このフレームに基づく解析・合成システムについてシミュレーションする。 このシステムは入力画像のプログレッシブな再構成を実現する。 理論的および数値的な結果から,再建の質は時間とともに向上することが示された。

This paper introduces a novel non-Separable sPAtioteMporal filter (non-SPAM) which enables the spatiotemporal decomposition of a still-image. The construction of this filter is inspired by the model of the retina which is able to selectively transmit information to the brain. The non-SPAM filter mimics the retinal-way to extract necessary information for a dynamic encoding/decoding system. We applied the non-SPAM filter on a still image which is flashed for a long time. We prove that the non-SPAM filter decomposes the still image over a set of time-varying difference of Gaussians, which form a frame. We simulate the analysis and synthesis system based on this frame. This system results in a progressive reconstruction of the input image. Both the theoretical and numerical results show that the quality of the reconstruction improves while the time increases.
翻訳日:2021-03-24 02:39:16 公開日:2021-03-22
# (参考訳) 新しい効率的な数付けシステム : 数生成と視覚マーカー設計への応用 [全文訳有]

A New Efficient Numbering System : Application to Numbers Generation and Visual Markers Design ( http://arxiv.org/abs/2103.11727v1 )

ライセンス: CC BY 4.0
Messaoud Mostefai1, Salah Khodja and Youssef Chahir(参考訳) 本稿では,最近特許を取得したラインベース番号システムを紹介する。 最後に、十進数字の値と最高の一致を可能にし、古典的な十進数字体系では不可能な新しい機会を開く。 提案されたOILU記号は、多面数分割プロセスに基づく新しい種類の数列を生成することができる。 一方、この新しいシンボルは、拡張現実やUAVのナビゲーションアプリケーションで非常に必要とされる新しい視覚マーカーの開発に使用される。

This short paper introduces a recently patented line based numbering system. The last allows a best concordance with decimal digits values, and open up new opportunities, which are not possible with the classical decimal numeration system. Proposed OILU symbolic allows generating a new type of number series, based on multi facets numbers splitting process. On the other hand, this new symbolic is used in the development of new visual markers, highly required in augmented reality and UAV's navigation applications.
翻訳日:2021-03-24 02:32:05 公開日:2021-03-22
# (参考訳) Meta-DETR:Unified Image-Level Meta-LearningによるFew-Shotオブジェクト検出 [全文訳有]

Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning ( http://arxiv.org/abs/2103.11731v1 )

ライセンス: CC BY-SA 4.0
Gongjie Zhang, Zhipeng Luo, Kaiwen Cui, Shijian Lu(参考訳) 少数の注釈付き例でのみ、新規な物体を検出することを目的としている。 従来の研究は、メタラーニングが有望な解決策であることを証明しており、そのほとんどは、分類と位置の微調整のために、地域にわたってメタラーニングによる検出に対処している。 しかし、これらの手法は、初期よく配置された地域の提案に実質的に依存しており、これは通常、少数の設定では入手が困難である。 本稿では,領域的予測を排除し,画像レベルでのメタ学習オブジェクトの局所化と分類を統一的かつ補完的に行うメタ検出フレームワークMeta-DETRを提案する。 具体的には、まずサポートとクエリの両方をカテゴリ固有の機能にエンコードし、次にカテゴリに依存しないデコーダに入力して、特定のカテゴリの予測を直接生成する。 ディープネットワークを用いたメタ学習を容易にするために,高レベルかつ低レベルの特徴意味論を整合させ,メタ学習表現の一般化を改善する,単純かつ効果的な意味的アライメント機構(sam)を設計した。 複数の数ショットのオブジェクト検出ベンチマーク実験により、Meta-DETRは最先端の手法よりも大きなマージンで優れていることが示された。

Few-shot object detection aims at detecting novel objects with only a few annotated examples. Prior works have proved meta-learning a promising solution, and most of them essentially address detection by meta-learning over regions for their classification and location fine-tuning. However, these methods substantially rely on initially well-located region proposals, which are usually hard to obtain under the few-shot settings. This paper presents a novel meta-detector framework, namely Meta-DETR, which eliminates region-wise prediction and instead meta-learns object localization and classification at image level in a unified and complementary manner. Specifically, it first encodes both support and query images into category-specific features and then feeds them into a category-agnostic decoder to directly generate predictions for specific categories. To facilitate meta-learning with deep networks, we design a simple but effective Semantic Alignment Mechanism (SAM), which aligns high-level and low-level feature semantics to improve the generalization of meta-learned representations. Experiments over multiple few-shot object detection benchmarks show that Meta-DETR outperforms state-of-the-art methods by large margins.
翻訳日:2021-03-24 02:27:09 公開日:2021-03-22
# (参考訳) Scratchからの継続的オプティマイザの進化

Evolving Continuous Optimisers from Scratch ( http://arxiv.org/abs/2103.11746v1 )

ライセンス: CC BY 4.0
Michael A. Lones(参考訳) この研究は遺伝的プログラミングを用いて連続的な最適化の空間を探索し、最適化を行う新しい方法を発見することを目的としている。 検索空間を広くするために、オプティマイザはチューリング完全で汎用的な言語であるPushを使ってゼロから進化する。 結果のオプティマイザは多様であることが判明し、様々な興味深い、時には珍しい戦略を用いて最適化された風景を探索する。 重要なことに、訓練中に見られなかった問題に適用すると、進化したオプティマイザの多くはよく一般化し、しばしば既存のオプティマイザよりも優れている。 これは、新しい効果的な最適化形式が自動化された方法で発見できるという考えを支持する。 また,進化したオプティマイザのプールをハイブリダイズすることで,より汎用性を高め,様々な問題タイプやサイズに対して堅牢なオプティマイザを実現することを示す。

This work uses genetic programming to explore the space of continuous optimisers, with the goal of discovering novel ways of doing optimisation. In order to keep the search space broad, the optimisers are evolved from scratch using Push, a Turing-complete, general-purpose, language. The resulting optimisers are found to be diverse, and explore their optimisation landscapes using a variety of interesting, and sometimes unusual, strategies. Significantly, when applied to problems that were not seen during training, many of the evolved optimisers generalise well, and often outperform existing optimisers. This supports the idea that novel and effective forms of optimisation can be discovered in an automated manner. This paper also shows that pools of evolved optimisers can be hybridised to further increase their generality, leading to optimisers that perform robustly over a broad variety of problem types and sizes.
翻訳日:2021-03-24 02:07:14 公開日:2021-03-22
# (参考訳) RNNに基づく予測更新サイクルによる異常観測の処理 [全文訳有]

Handling Missing Observations with an RNN-based Prediction-Update Cycle ( http://arxiv.org/abs/2103.11747v1 )

ライセンス: CC BY 4.0
Stefan Becker, Ronny Hug, Wolfgang H\"ubner, Michael Arens, and Brendan T. Morris(参考訳) 追跡などのタスクでは、時系列データは必然的に観察を欠いている。 従来のトラッキングアプローチでは観察不足を処理できるが、リカレントニューラルネットワーク(RNN)は各ステップで入力データを受け取るように設計されている。 さらに、現在のRNNのソリューションは、欠落したデータやデータ計算を省略するなど、結果として生じる不確実性を考慮するには不十分である。 本稿では,動き状態推定のための完全な時間的フィルタリングサイクルを提供するrnnベースの手法を提案する。 Kalmanフィルタにインスパイアされたアプローチは、欠落した観測と外れ値を扱うことができる。 完全な時間的フィルタリングサイクルを提供するために、基本的なRNNを拡張して、その正確性に関する観測と関連する信念を現在の状態を更新する。 予測状態を取得するためにパラメータ化された分布を生成するRNN予測モデルと、予測モデル出力と現在の観測に依存するRNN更新モデルを組み合わせる。 モデルにマスキング情報、バイナリエンコードされた欠落イベントを提供することで、モデルは欠落した入力値を扱うための標準テクニックの制限を克服することができる。 モデル能力は、原型歩行者追跡シナリオを反映した合成データ上で実証される。

In tasks such as tracking, time-series data inevitably carry missing observations. While traditional tracking approaches can handle missing observations, recurrent neural networks (RNNs) are designed to receive input data in every step. Furthermore, current solutions for RNNs, like omitting the missing data or data imputation, are not sufficient to account for the resulting increased uncertainty. Towards this end, this paper introduces an RNN-based approach that provides a full temporal filtering cycle for motion state estimation. The Kalman filter inspired approach, enables to deal with missing observations and outliers. For providing a full temporal filtering cycle, a basic RNN is extended to take observations and the associated belief about its accuracy into account for updating the current state. An RNN prediction model, which generates a parametrized distribution to capture the predicted states, is combined with an RNN update model, which relies on the prediction model output and the current observation. By providing the model with masking information, binary-encoded missing events, the model can overcome limitations of standard techniques for dealing with missing input values. The model abilities are demonstrated on synthetic data reflecting prototypical pedestrian tracking scenarios.
翻訳日:2021-03-24 02:05:54 公開日:2021-03-22
# (参考訳) ベイジアンと頻繁な低ランク行列補完の数値比較:推定精度と不確実性定量化 [全文訳有]

Numerical comparisons between Bayesian and frequentist low-rank matrix completion: estimation accuracy and uncertainty quantification ( http://arxiv.org/abs/2103.11749v1 )

ライセンス: CC BY 4.0
The Tien Mai(参考訳) 本稿では,低ランク行列の完備化問題に対する多数の数値的研究を行う。 bayesainのアプローチと最近導入された非バイアス推定器を比較して,信頼区間を構築するための有用な方法を提案する。 理論的な見地から、非バイアス推定器は推定誤差の極小極小率で得られ、ベイズ的手法はさらなる対数係数でこの値に達する。 シミュレーションの結果、偏りのない推定器はbayesainの推定器と同じくらい優れていることがわかりました。 さらに、ベイズアプローチはより安定であり、小さなサンプルの場合、偏りのない推定値よりも優れる。 しかし,入力に対する非バイアス推定器によって明らかにされる信頼区間の長さは,信頼区間の長さよりも絶対的に短いことがわかった。 これらのことから、ベイズ法に対する推定誤差と濃度は、現在までかなり限られているため、さらなる理論的研究が示唆されている。

In this paper we perform a numerious numerical studies for the problem of low-rank matrix completion. We compare the Bayesain approaches and a recently introduced de-biased estimator which provides a useful way to build confidence intervals of interest. From a theoretical viewpoint, the de-biased estimator comes with a sharp minimax-optinmal rate of estimation error whereas the Bayesian approach reaches this rate with an additional logarithmic factor. Our simulation studies show originally interesting results that the de-biased estimator is just as good as the Bayesain estimators. Moreover, Bayesian approaches are much more stable and can outperform the de-biased estimator in the case of small samples. However, we also find that the length of the confidence intervals revealed by the de-biased estimator for an entry is absolutely shorter than the length of the considered credible interval. These suggest further theoretical studies on the estimation error and the concentration for Bayesian methods as they are being quite limited up to present.
翻訳日:2021-03-24 01:41:40 公開日:2021-03-22
# (参考訳) 失敗する修正: 機械学習システムの自己欠陥改善 [全文訳有]

Fixes That Fail: Self-Defeating Improvements in Machine-Learning Systems ( http://arxiv.org/abs/2103.11766v1 )

ライセンス: CC BY 4.0
Ruihan Wu, Chuan Guo, Awni Hannun, Laurens van der Maaten(参考訳) 自動運転車やバーチャルアシスタントなどの機械学習システムは、画像の内容、音声の書き起こし、自然言語の分析、好みの推測、ランクオプションなど、多数の機械学習モデルで構成されている。 これらの系は、各頂点がモデルである有向非巡回グラフとして表すことができ、モデルはエッジ上で互いに情報を供給している。 しばしば、モデルは独立して開発され、訓練されるので、明らかな懸念を生じさせる。 機械学習モデルの改善は、システム全体を悪化させるだろうか? 本稿では, 下流モデルの再訓練後であっても, モデルの改善が下流モデルの性能を低下させる可能性があることを示すことにより, 肯定的な回答を得る。 このような自己破壊的な改善は、モデル間の絡み合いの結果である。 異なるタイプの絡み合いを識別し、簡単な実験を通して自己退行改善を実現する方法を示す。 また,現実的なステレオベース物体検出システムにおいて自己退避改善が現れることを示す。

Machine-learning systems such as self-driving cars or virtual assistants are composed of a large number of machine-learning models that recognize image content, transcribe speech, analyze natural language, infer preferences, rank options, etc. These systems can be represented as directed acyclic graphs in which each vertex is a model, and models feed each other information over the edges. Oftentimes, the models are developed and trained independently, which raises an obvious concern: Can improving a machine-learning model make the overall system worse? We answer this question affirmatively by showing that improving a model can deteriorate the performance of downstream models, even after those downstream models are retrained. Such self-defeating improvements are the result of entanglement between the models. We identify different types of entanglement and demonstrate via simple experiments how they can produce self-defeating improvements. We also show that self-defeating improvements emerge in a realistic stereo-based object detection system.
翻訳日:2021-03-24 01:30:00 公開日:2021-03-22
# (参考訳) 森林火災のクラスタリング:森林火災のダイナミクスに触発されたクラスター指向ラベル伝播クラスタリングとモンテカルロ検証 [全文訳有]

Forest Fire Clustering: Cluster-oriented Label Propagation Clustering and Monte Carlo Verification Inspired by Forest Fire Dynamics ( http://arxiv.org/abs/2103.11802v1 )

ライセンス: CC BY 4.0
Zhanlin Chen, Philip Tuckman, Jing Zhang, Mark Gerstein(参考訳) クラスタリングメソッドはデータポイントをグループ化し、グループレベルのラベルを割り当てる。 しかし,クラスタリング結果の信頼性を評価することは困難であった。 本稿では,ロバストなクラスタを見つけるだけでなく,各データポイントのラベルに対する信頼度スコアを提供する手法を提案する。 具体的には,森林火災後のモデルにラベル伝播クラスタリングを再構成した。 この方法は1つのパラメータしか持たず、1つのラベルが1つのノードから次のノードへいかに簡単に伝播するかを記述する火温度用語である。 グラフを通してラベルの伝播を反復的に開始することで、最小の事前仮定でデータセット内のクラスタ数を発見できる。 さらに, モンテカルロシミュレーションを用いて, 我々の予測を検証し, ラベルの後方確率分布を明らかにする。 最後に,本手法は帰納的であり,新データの到着時に再学習する必要はない。 本稿では,本手法が一般的なクラスタリングベンチマークに対してどのように機能するかを概説する。

Clustering methods group data points together and assign them group-level labels. However, it has been difficult to evaluate the confidence of the clustering results. Here, we introduce a novel method that could not only find robust clusters but also provide a confidence score for the labels of each data point. Specifically, we reformulated label-propagation clustering to model after forest fire dynamics. The method has only one parameter - a fire temperature term describing how easily one label propagates from one node to the next. Through iteratively starting label propagations through a graph, we can discover the number of clusters in a dataset with minimum prior assumptions. Further, we can validate our predictions and uncover the posterior probability distribution of the labels using Monte Carlo simulations. Lastly, our iterative method is inductive and does not need to be retrained with the arrival of new data. Here, we describe the method and provide a summary of how the method performs against common clustering benchmarks.
翻訳日:2021-03-24 01:05:24 公開日:2021-03-22
# (参考訳) ウェブ検索エンジンによるcovid-19偽ニュースの検出 [全文訳有]

Detection of fake news on CoViD-19 on Web Search Engines ( http://arxiv.org/abs/2103.11804v1 )

ライセンス: CC BY 4.0
V. Mazzeo, A. Rapisarda and G. Giuffrida(参考訳) 2020年1月上旬、中国が武漢市で新型ウイルス(SARS-CoV-2)の初感染を報告して以来、完全に正確でない情報がウイルス自体よりも早く拡散し始めた。 このパンデミックに加えて、人々は平行したインフォデミック、すなわち過度な情報(一部は誤解を招くか有害である)を経験し、世界中に広まっている。 ソーシャルメディアは情報ソースとしてますます使われているが、GoogleやYahoo!のようなWeb検索エンジンは、Web上の情報を見つけるための強力で信頼できるリソースである。 これは、最大量の情報をキャプチャし、ユーザーが検索クエリの最も重要で有用な、必ずしも最も信頼性の高い検索結果を素早く特定できる能力のためである。 本研究は,検索エンジンを経由するテキスト情報を取り込んで解析することにより,誤用や偽コンテンツの検出を目標としている。 最近のCoViD-19パンデミックに関連する実世界のデータセットを使用することで、まずクラス不均衡に対する再サンプリング技術を適用し、信頼できないニュースの分類に既存の機械学習アルゴリズムを使用します。 ニュース記事に対する一様資源ロケータ(URL)の語彙的およびホスト的特徴を抽出することにより、フィッシングや悪意のあるURL検出に共通する提案手法は、分類器の効率と性能を向上させることができることを示す。 これらの結果から,テキスト機能とurl機能の両方を用いることで偽ニュース検出の有効性が向上すると考えられる。

In early January 2020, after China reported the first cases of the new coronavirus (SARS-CoV-2) in the city of Wuhan, unreliable and not fully accurate information has started spreading faster than the virus itself. Alongside this pandemic, people have experienced a parallel infodemic, i.e., an overabundance of information, some of which misleading or even harmful, that has widely spread around the globe. Although Social Media are increasingly being used as information source, Web Search Engines, like Google or Yahoo!, still represent a powerful and trustworthy resource for finding information on the Web. This is due to their capability to capture the largest amount of information, helping users quickly identify the most relevant, useful, although not always the most reliable, results for their search queries. This study aims to detect potential misleading and fake contents by capturing and analysing textual information, which flow through Search Engines. By using a real-world dataset associated with recent CoViD-19 pandemic, we first apply re-sampling techniques for class imbalance, then we use existing Machine Learning algorithms for classification of not reliable news. By extracting lexical and host-based features of associated Uniform Resource Locators (URLs) for news articles, we show that the proposed methods, so common in phishing and malicious URLs detection, can improve the efficiency and performance of classifiers. Based on these findings, we think that usage of both textual and URLs features can improve the effectiveness of fake news detection methods.
翻訳日:2021-03-24 00:51:54 公開日:2021-03-22
# (参考訳) 影響関数のストレージ効率近似による深層ニューラルネットワークのデータクリーニング [全文訳有]

Data Cleansing for Deep Neural Networks with Storage-efficient Approximation of Influence Functions ( http://arxiv.org/abs/2103.11807v1 )

ライセンス: CC BY 4.0
Kenji Suzuki, Yoshiyuki Kobayashi, Takuya Narihira(参考訳) データクリーニングにおけるトレーニングデータの影響を特定することで、ディープラーニングの精度を向上させることができる。 SGD-インフルエンスと呼ばれる確率勾配降下(SGD)を用いた影響評価手法を提案するが,計算コストは高い。 推論フェーズのトレーニングフェーズにおいて,モデルのパラメータを時間的に保存し,影響度を算出する必要がある。 従来の手法と密接な関係で,パラメータをトレーニングフェーズに格納するキャッシュファイルを削減し,推論スコアを計算する手法を提案する。 影響関数の計算には最終段階のパラメータのみを採用する。 分類実験では,MNISTデータセットを用いたトレーニングのキャッシュサイズは1.236MBである。 一方,前回のキャッシュサイズは前回の1.932gbであった。 キャッシュサイズが1/1,563に縮小されたことを意味する。 また,従来手法と同様に負の影響のあるデータを除去し,データのクレンジングによる精度の向上も確認した。 さらに,ニューラルネットワークコンソールを使わずに自動MLツール上で,インフルエンススコアを計算するための単純で汎用的な手法を提案する。 ソースコードも公開されている。

Identifying the influence of training data for data cleansing can improve the accuracy of deep learning. An approach with stochastic gradient descent (SGD) called SGD-influence to calculate the influence scores was proposed, but, the calculation costs are expensive. It is necessary to temporally store the parameters of the model during training phase for inference phase to calculate influence sores. In close connection with the previous method, we propose a method to reduce cache files to store the parameters in training phase for calculating inference score. We only adopt the final parameters in last epoch for influence functions calculation. In our experiments on classification, the cache size of training using MNIST dataset with our approach is 1.236 MB. On the other hand, the previous method used cache size of 1.932 GB in last epoch. It means that cache size has been reduced to 1/1,563. We also observed the accuracy improvement by data cleansing with removal of negatively influential data using our approach as well as the previous method. Moreover, our simple and general proposed method to calculate influence scores is available on our auto ML tool without programing, Neural Network Console. The source code is also available.
翻訳日:2021-03-24 00:36:18 公開日:2021-03-22
# (参考訳) MasakhaNER: アフリカの言語におけるエンティティ認識 [全文訳有]

MasakhaNER: Named Entity Recognition for African Languages ( http://arxiv.org/abs/2103.11811v1 )

ライセンス: CC BY 4.0
David Ifeoluwa Adelani, Jade Abbott, Graham Neubig, Daniel D'souza, Julia Kreutzer, Constantine Lignos, Chester Palen-Michel, Happy Buzaaba, Shruti Rijhwani, Sebastian Ruder, Stephen Mayhew, Israel Abebe Azime, Shamsuddeen Muhammad, Chris Chinenye Emezue, Joyce Nakatumba-Nabende, Perez Ogayo, Anuoluwapo Aremu, Catherine Gitau, Derguene Mbaye, Jesujoba Alabi, Seid Muhie Yimam, Tajuddeen Gwadabe, Ignatius Ezeani, Rubungo Andre Niyongabo, Jonathan Mukiibi, Verrah Otiende, Iroro Orife, Davis David, Samba Ngom, Tosin Adewumi, Paul Rayson, Mofetoluwa Adeyemi, Gerald Muriuki, Emmanuel Anebi, Chiamaka Chukwuneke, Nkiruka Odu, Eric Peter Wairagala, Samuel Oyerinde, Clemencia Siro, Tobius Saul Bateesa, Temilola Oloyede, Yvonne Wambui, Victor Akinode, Deborah Nabagereka, Maurice Katusiime, Ayodele Awokoya, Mouhamadane MBOUP, Dibora Gebreyohannes, Henok Tilaye, Kelechi Nwaike, Degaga Wolde, Abdoulaye Faye, Blessing Sibanda, Orevaoghene Ahia, Bonaventure F. P. Dossou, Kelechi Ogueji, Thierno Ibrahima DIOP, Abdoulaye Diallo, Adewale Akinfaderin, Tendai Marengereke, and Salomey Osei(参考訳) NLP研究において、アフリカ大陸の過小評価に対処するための一歩を踏み出し、10のアフリカ言語で名前付きエンティティ認識(NER)のための、最初の大規模な公開可能な高品質データセットを作成し、様々な利害関係者を集めた。 我々は,これらの言語がNERにもたらす課題を理解するために,言語の特徴を詳述する。 我々はデータセットを分析し,教師付き学習と転送学習の両方において,最先端の手法を広範囲に経験的に評価する。 アフリカNLPに関する将来の研究を刺激するために、データ、コード、モデルをリリースします。

We take a step towards addressing the under-representation of the African continent in NLP research by creating the first large publicly available high-quality dataset for named entity recognition (NER) in ten African languages, bringing together a variety of stakeholders. We detail characteristics of the languages to help researchers understand the challenges that these languages pose for NER. We analyze our datasets and conduct an extensive empirical evaluation of state-of-the-art methods across both supervised and transfer learning settings. We release the data, code, and models in order to inspire future research on African NLP.
翻訳日:2021-03-24 00:30:42 公開日:2021-03-22
# (参考訳) 深層学習による酵母顕微鏡画像の生成とシミュレーション

Generation and Simulation of Yeast Microscopy Imagery with Deep Learning ( http://arxiv.org/abs/2103.11834v1 )

ライセンス: CC BY-SA 4.0
Christoph Reich(参考訳) 時間経過蛍光顕微鏡(tlfm)は、合成生物学研究において重要かつ強力なツールである。 実データに基づくtlfm実験のモデリングにより、研究者はわずかな労力で実験を繰り返すことができる。 この論文は、画像レベルでのTLFM実験の深層学習に基づくモデリングに関する研究である。 TLFM実験のモデル化は、酵母細胞を捕獲した例によって、2つのタスクに分けられる。 最初の課題は、実画像データに基づいて合成画像データを生成することである。 この問題を解決するために,条件付きおよび無条件画像生成のための新しい生成型逆ネットワークを提案する。 第2の課題は、複数の離散時間ステップにおけるブライトフィールド顕微鏡画像のシミュレーションである。 このシミュレーションタスクに取り組むために、高度な将来のフレーム予測モデルが導入される。 提案したモデルは、この論文で提示された新しいデータセットでトレーニングされ、テストされる。 その結果,深層学習によるtlfm実験のモデル化は適切なアプローチであるが,実世界の実験を効果的にモデル化するには今後の研究が必要であることがわかった。

Time-lapse fluorescence microscopy (TLFM) is an important and powerful tool in synthetic biological research. Modeling TLFM experiments based on real data may enable researchers to repeat certain experiments with minor effort. This thesis is a study towards deep learning-based modeling of TLFM experiments on the image level. The modeling of TLFM experiments, by way of the example of trapped yeast cells, is split into two tasks. The first task is to generate synthetic image data based on real image data. To approach this problem, a novel generative adversarial network, for conditionalized and unconditionalized image generation, is proposed. The second task is the simulation of brightfield microscopy images over multiple discrete time-steps. To tackle this simulation task an advanced future frame prediction model is introduced. The proposed models are trained and tested on a novel dataset that is presented in this thesis. The obtained results showed that the modeling of TLFM experiments, with deep learning, is a proper approach, but requires future research to effectively model real-world experiments.
翻訳日:2021-03-24 00:00:47 公開日:2021-03-22
# (参考訳) 医療用ソーシャルメディアからのCOVID-19のトリアージと診断 [全文訳有]

Triage and diagnosis of COVID-19 from medical social media ( http://arxiv.org/abs/2103.11850v1 )

ライセンス: CC BY 4.0
Abul Hasan, Mark Levene, David Weston, Renate Fromson, Nicolas Koslover, and Tamara Levene(参考訳) 目的:本研究は,患者のソーシャルメディア投稿から新型コロナウイルスのトリアージと診断のためのエンドツーエンド自然言語処理パイプラインを開発することを目的とする。 資料と方法:テキスト処理パイプラインはまず、条件付きランダムフィールドを使用して、患者のポストから新型コロナウイルスの症状や重症度、持続時間、否定、身体の一部を抽出する。 教師なしのルールベースのアルゴリズムは、パイプラインの次のステップで概念間の関係を確立するために適用される。 抽出された概念と関係は、各ポストの2つの異なるベクトル表現を構築するために使われる。 これらのベクターは、患者を3つのカテゴリに分けて新型コロナウイルスと診断するためのサポートベクター機械学習モデルを構築するために別々に適用される。 結果: マクロ平均値f_1とマイクロ平均値f_1はそれぞれ71-96%, 61-87%の範囲で, 基礎的真理ラベルデータに基づいてモデルが訓練された場合の新型コロナウイルスのトリアージと診断において, それぞれスコアが71-96%, 61-87%であった。 実験結果から,モデルが概念抽出とルールベース分類器から予測されたラベルを用いて訓練された場合,同様の性能が得られることが示唆された。 議論: 診断機械学習モデルで明らかになった重要な特徴を強調し、他のCOVID-19データセットで明らかになった最も頻繁な症状と比較する。 特に、最も重要な機能は必ずしも最も頻繁なものではないことが分かりました。 結論: 本研究の予備結果は, 機械学習パイプラインを用いて, 自然言語物語からcovid-19患者を自動的にトリアージし, 診断することが可能であることを示している。

Objective: This study aims to develop an end-to-end natural language processing pipeline for triage and diagnosis of COVID-19 from patient-authored social media posts. Materials and Methods: The text processing pipeline first extracts COVID-19 symptoms and related concepts such as severity, duration, negations, and body parts from patients posts using conditional random fields. An unsupervised rule-based algorithm is then applied to establish relations between concepts in the next step of the pipeline. The extracted concepts and relations are subsequently used to construct two different vector representations of each post. These vectors are applied separately to build support vector machine learning models to triage patients into three categories and diagnose them for COVID-19. Results: We report that Macro- and Micro-averaged F_1 scores in the range of 71-96% and 61-87%, respectively, for the triage and diagnosis of COVID-19, when the models are trained on ground truth labelled data. Our experimental results indicate that similar performance can be achieved when the models are trained using predicted labels from concept extraction and rule-based classifiers, thus yielding end-to-end machine learning. Discussion: We highlight important features uncovered by our diagnostic machine learning models and compare them with the most frequent symptoms revealed in another COVID-19 dataset. In particular, we found that the most important features are not always the most frequent ones. Conclusions: Our preliminary results show that it is possible to automatically triage and diagnose patients for COVID-19 from natural language narratives using a machine learning pipeline.
翻訳日:2021-03-23 23:58:15 公開日:2021-03-22
# (参考訳) ベップス語とカレリア語の形態辞書に基づく未知語に対する音声・文法タグ付けアルゴリズムの一部 [全文訳有]

Part of speech and gramset tagging algorithms for unknown words based on morphological dictionaries of the Veps and Karelian languages ( http://arxiv.org/abs/2103.11859v1 )

ライセンス: CC0 1.0
Andrew Krizhanovsky, Natalia Krizhanovsky and Irina Novak(参考訳) この研究は低資源のヴェプス語とカレリア語に向けられた。 本論文では、音声タグの一部を単語に割り当てるアルゴリズムと、単語に文法的性質を示す。 これらのアルゴリズムは形態的辞書を用いており、各単語形式には補題、音声の一部、文法的特徴(グラム)が知られている。 このアルゴリズムは、同じ接尾辞を持つ単語が同じ屈折モデルを持ち、スピーチとグラムセットの同じ部分を持つ可能性が高いという類似仮説に基づいている。 これらのアルゴリズムの精度を評価し,比較した。 313万のヴェプシアン語と66万のカレリア語を用いて、これらのアルゴリズムの精度を検証した。 特殊関数は、開発したアルゴリズムの結果の質を評価するために設計された。 vepsian の92.4%、karelian の86.8%は、開発されたアルゴリズムによって正しい音声の部分を割り当てられた。 ベプス語の95.3%、カレリア語の90.7%は、アルゴリズムによって正しい文法が割り当てられた。 本論文では, コーパスプロセスに密接に関連し, 分離不能なテキストの形態的, 意味的タグ付けについて述べる。

This research devoted to the low-resource Veps and Karelian languages. Algorithms for assigning part of speech tags to words and grammatical properties to words are presented in the article. These algorithms use our morphological dictionaries, where the lemma, part of speech and a set of grammatical features (gramset) are known for each word form. The algorithms are based on the analogy hypothesis that words with the same suffixes are likely to have the same inflectional models, the same part of speech and gramset. The accuracy of these algorithms were evaluated and compared. 313 thousand Vepsian and 66 thousand Karelian words were used to verify the accuracy of these algorithms. The special functions were designed to assess the quality of results of the developed algorithms. 92.4% of Vepsian words and 86.8% of Karelian words were assigned a correct part of speech by the developed algorithm. 95.3% of Vepsian words and 90.7% of Karelian words were assigned a correct gramset by our algorithm. Morphological and semantic tagging of texts, which are closely related and inseparable in our corpus processes, are described in the paper.
翻訳日:2021-03-23 23:42:15 公開日:2021-03-22
# (参考訳) 一方向辺縁からの合同確率分布の回復:低ランクテンソルとランダム射影 [全文訳有]

Recovery of Joint Probability Distribution from one-way marginals: Low rank Tensors and Random Projections ( http://arxiv.org/abs/2103.11864v1 )

ライセンス: CC BY 4.0
Jian Vora, Karthik S. Gurumoorthy, Ajit Rajwade(参考訳) 統合確率質量関数(PMF)推定は基本的な機械学習問題である。 自由パラメータの数は、確率変数の数に関して指数関数的にスケールする。 したがって、非パラメトリックpmf推定に関するほとんどの作業は、確率的グラフィカルモデルで採用されたクランク分解、結合確率テンソルへの低ランクの付与、および3方向または2方向の辺縁からの再構成など、いくつかの構造的仮定に基づいている。 本研究では,データのランダムな投影と,トモグラフィからのアイデアを用いたpmf推定問題とをリンクする。 このアイデアを低ランクテンソル分解のアイデアと統合し、変換空間内の片方向の辺縁だけから結合密度を推定できることを示す。 本研究では,一方の辺縁からテンソルの因子を復元するアルゴリズムを提案し,それを様々な合成および実世界のデータセットで検証するとともに,推定された分類モデル上でMAP推論を行う。

Joint probability mass function (PMF) estimation is a fundamental machine learning problem. The number of free parameters scales exponentially with respect to the number of random variables. Hence, most work on nonparametric PMF estimation is based on some structural assumptions such as clique factorization adopted by probabilistic graphical models, imposition of low rank on the joint probability tensor and reconstruction from 3-way or 2-way marginals, etc. In the present work, we link random projections of data to the problem of PMF estimation using ideas from tomography. We integrate this idea with the idea of low-rank tensor decomposition to show that we can estimate the joint density from just one-way marginals in a transformed space. We provide a novel algorithm for recovering factors of the tensor from one-way marginals, test it across a variety of synthetic and real-world datasets, and also perform MAP inference on the estimated model for classification.
翻訳日:2021-03-23 23:28:26 公開日:2021-03-22
# (参考訳) #laculturanonsiferma : report on use and diffusion of #hashtags from the italian cultural institutions during the covid-19 outbreak [全文訳有]

#LaCulturaNonsiFerma : Report on Use and Diffusion of #Hashtags from the Italian Cultural Institutions during the COVID-19 outbreak ( http://arxiv.org/abs/2103.11865v1 )

ライセンス: CC BY 4.0
Carola Carlino, Gennaro Nolano, Maria Pia di Buono, Johanna Monti(参考訳) 本報告では, イタリア文化遺産機関が, イタリアにおける新型コロナウイルスロックダウン期間中に, 文化コンテンツの普及・伝達に使用する#ハッシュタグの分析を行った。 ソーシャルメディアを利用したユーザ支援とエンゲージメントのための活動がいくつか提案されている。 これらのアクティビティには1つ以上の#hashtagsがあり、コンテンツを集約し、特定のトピックに関するコミュニティを作るのに役立ちます。 その結果,一方のイタリア機関はパンデミックのシナリオに適応する上で非常に積極的であり,他方のユーザの反応は,提案した活動への参加を非常に肯定的に増加させた。

This report presents an analysis of #hashtags used by Italian Cultural Heritage institutions to promote and communicate cultural content during the COVID-19 lock-down period in Italy. Several activities to support and engage users' have been proposed using social media. Most of these activities present one or more #hashtags which help to aggregate content and create a community on specific topics. Results show that on one side Italian institutions have been very proactive in adapting to the pandemic scenario and on the other side users' reacted very positively increasing their participation in the proposed activities.
翻訳日:2021-03-23 23:17:39 公開日:2021-03-22
# (参考訳) BlonD: ドキュメントレベルの機械翻訳のための自動評価基準 [全文訳有]

BlonD: An Automatic Evaluation Metric for Document-level MachineTranslation ( http://arxiv.org/abs/2103.11878v1 )

ライセンス: CC BY 4.0
Yuchen Jiang, Shuming Ma, Dongdong Zhang, Jian Yang, Haoyang Huang and Ming Zhou(参考訳) 標準自動メトリクス(BLEUなど)は文書レベルのMT評価に問題がある。 文書レベルの翻訳品質の改善を文レベルのものと区別することも、翻訳エラーを引き起こした特定の談話現象を識別することもできない。 これらの問題に対処するために、文書レベルの機械翻訳評価のための自動メトリクスBlonDを提案する。 BlonDは、チェックポイントフレーズとタグのリコールと距離を計算することで、談話コヒーレンスを考慮に入れ、さらにn-gramと組み合わせて総合的な評価スコアを提供する。 ブロンドと既存の評価指標の広範な比較を行い、それらの重要な区別を説明する。 実験の結果,BlonDは従来の測定値よりもドキュメントレベルの感度が高いことがわかった。 また,BlonDスコアと手動品質判定のPearson R相関値も高い値を示した。

Standard automatic metrics (such as BLEU) are problematic for document-level MT evaluation. They can neither distinguish document-level improvements in translation quality from sentence-level ones nor can they identify the specific discourse phenomena that caused the translation errors. To address these problems, we propose an automatic metric BlonD for document-level machine translation evaluation. BlonD takes discourse coherence into consideration by calculating the recall and distance of check-pointing phrases and tags, and further provides comprehensive evaluation scores by combining with n-gram. Extensive comparisons between BlonD and existing evaluation metrics are conducted to illustrate their critical distinctions. Experimental results show that BlonD has a much higher document-level sensitivity with respect to previous metrics. The human evaluation also reveals high Pearson R correlation values between BlonD scores and manual quality judgments.
翻訳日:2021-03-23 23:10:04 公開日:2021-03-22
# (参考訳) リアルタイムエンドツーエンドのフェデレーション学習:自動車ケーススタディ [全文訳有]

Real-time End-to-End Federated Learning: An Automotive Case Study ( http://arxiv.org/abs/2103.11879v1 )

ライセンス: CC BY 4.0
Hongyi Zhang, Jan Bosch, Helena Holmstr\"om Olsson(参考訳) ML/DL分野の発展と関心の高まりにより、企業はサービス品質とユーザエクスペリエンスを向上させるためにこれらの手法を積極的に活用している。 Federated Learningは、効率的なモデルトレーニングアプローチとして導入され、時間を要するモデルのトレーニングを分散し、スピードアップし、ユーザのデータプライバシを保存する。 しかし、一般的な連合学習法は、モデルアグリゲーションを実行するために同期プロトコルを適用するが、これは柔軟性がなく、急速に進化する環境や実世界のシステムにおける異種ハードウェアの設定に適応できない。 本稿では,新しい非同期モデル集約プロトコルとリアルタイムエンドツーエンドフェデレーション学習のアプローチを提案する。 我々は,自動運転におけるハンドル角度予測に着目した自動車分野の産業利用事例におけるアプローチを検証する。 その結果,非同期フェデレーション学習は,局所エッジモデルの予測性能を大幅に向上させ,集中型機械学習法と同じ精度に到達できることがわかった。 さらに,ML/DLコンポーネントを異種実世界の組み込みシステムにデプロイする際の高効率性を示すスライディングトレーニングウィンドウを利用することで,通信オーバーヘッドを低減し,モデルトレーニング速度を高速化し,リアルタイムストリーミングデータを消費することができる。

With the development and the increasing interests in ML/DL fields, companies are eager to utilize these methods to improve their service quality and user experience. Federated Learning has been introduced as an efficient model training approach to distribute and speed up time-consuming model training and preserve user data privacy. However, common Federated Learning methods apply a synchronized protocol to perform model aggregation, which turns out to be inflexible and unable to adapt to rapidly evolving environments and heterogeneous hardware settings in real-world systems. In this paper, we introduce an approach to real-time end-to-end Federated Learning combined with a novel asynchronous model aggregation protocol. We validate our approach in an industrial use case in the automotive domain focusing on steering wheel angle prediction for autonomous driving. Our results show that asynchronous Federated Learning can significantly improve the prediction performance of local edge models and reach the same accuracy level as the centralized machine learning method. Moreover, the approach can reduce the communication overhead, accelerate model training speed and consume real-time streaming data by utilizing a sliding training window, which proves high efficiency when deploying ML/DL components to heterogeneous real-world embedded systems.
翻訳日:2021-03-23 22:50:22 公開日:2021-03-22
# (参考訳) introspective Visuomotor Control:Deep Visuomotor Controlにおける不確かさの爆発 [全文訳有]

Introspective Visuomotor Control: Exploiting Uncertainty in Deep Visuomotor Control for Failure Recovery ( http://arxiv.org/abs/2103.11881v1 )

ライセンス: CC BY-SA 4.0
Chia-Man Hung, Li Sun, Yizhe Wu, Ioannis Havoutis, Ingmar Posner(参考訳) ロボット操作タスクのための魅力的なソリューションとして、エンドツーエンドの視覚運動制御が登場している。 しかし、模倣学習に基づくヴィスモータ制御アプローチは、エラーの複合化による分散状態から回復する能力に欠ける、共通の制限に苦しむ傾向がある。 本稿では,触覚フィードバックや視覚による障害を明示的に検出する代わりに,政策ニューラルネットワークの不確実性を用いて検討する。 我々は,障害事例の検出と復旧のための新しい不確実性に基づく手法を提案する。 我々の仮説は、政策の不確実性は、自覚的制御タスクの潜在的な失敗を暗黙的に示し、最小の不確実性を持つロボット状態がタスクの成功につながる可能性が高いというものである。 高い不確実性から回復するため、ロボットは軌道に沿って不確実性を監視し、より特定の状態に到達するための状態動作空間における可能な動作を探索する。 この仮説を検証し,12%のプッシュ,15%のピック・アンド・リーチ,22%のピック・アンド・プレイスでタスク成功率を大幅に改善した。

End-to-end visuomotor control is emerging as a compelling solution for robot manipulation tasks. However, imitation learning-based visuomotor control approaches tend to suffer from a common limitation, lacking the ability to recover from an out-of-distribution state caused by compounding errors. In this paper, instead of using tactile feedback or explicitly detecting the failure through vision, we investigate using the uncertainty of a policy neural network. We propose a novel uncertainty-based approach to detect and recover from failure cases. Our hypothesis is that policy uncertainties can implicitly indicate the potential failures in the visuomotor control task and that robot states with minimum uncertainty are more likely to lead to task success. To recover from high uncertainty cases, the robot monitors its uncertainty along a trajectory and explores possible actions in the state-action space to bring itself to a more certain state. Our experiments verify this hypothesis and show a significant improvement on task success rate: 12% in pushing, 15% in pick-and-reach and 22% in pick-and-place.
翻訳日:2021-03-23 22:34:58 公開日:2021-03-22
# (参考訳) 節間規則化による意味属性抽出 [全文訳有]

Intersection Regularization for Extracting Semantic Attributes ( http://arxiv.org/abs/2103.11888v1 )

ライセンス: CC BY 4.0
Ameen Ali, Tomer Galanti, Evgeniy Zheltonozhskiy, Chaim Baskin, Lior Wolf(参考訳) ネットワークが抽出する特徴が、追加の監督なしに、目に見えないセマンティック属性の集合と一致するような、教師付き分類の問題を考える。 例えば、鳥類のイメージを種に分類することを学ぶとき、動物学者が鳥類を分類するために使用する特徴の出現を観察したい。 本稿では,複数層パーセプトロン (MLP) と並列決定木を用いた,離散的なトップレベルアクティベーションを用いたニューラルネットワークのトレーニングを提案する。 本稿では,2つの仮説クラスを交互に学習するための理論解析と実践的手法を提案する。 実世界の特徴はしばしばスパースであるため、ランダム化された空間正規化も適用される。 複数のベンチマークの結果から,不明瞭な属性の集合と高い相関関係を持つ特徴の集合を抽出する能力が改善された。

We consider the problem of supervised classification, such that the features that the network extracts match an unseen set of semantic attributes, without any additional supervision. For example, when learning to classify images of birds into species, we would like to observe the emergence of features that zoologists use to classify birds. We propose training a neural network with discrete top-level activations, which is followed by a multi-layered perceptron (MLP) and a parallel decision tree. We present a theoretical analysis as well as a practical method for learning in the intersection of two hypothesis classes. Since real-world features are often sparse, a randomized sparsity regularization is also applied. Our results on multiple benchmarks show an improved ability to extract a set of features that are highly correlated with the set of unseen attributes.
翻訳日:2021-03-23 22:18:06 公開日:2021-03-22
# (参考訳) 機械パラフレーズプラジャリズムの同定 [全文訳有]

Identifying Machine-Paraphrased Plagiarism ( http://arxiv.org/abs/2103.11909v1 )

ライセンス: CC BY-SA 4.0
Jan Philip Wahle, Terry Ruas, Tom\'a\v{s} Folt\'ynek, Norman Meuschke, Bela Gipp(参考訳) 複写されたテキストを隠すためにパラフレージングツールを使うことは、学術的完全性に対する深刻な脅威である。 本研究では,機械学習の分類器と最先端のニューラルネットワークモデルを組み合わせた5つの単語埋め込みモデルの有効性を評価する。 研究論文,卒業論文,wikipedia記事のプレプリントを分析し,spinbotとspinnerchiefの異なる構成を用いてパラフローを行った。 最高のパフォーマンス技術であるLongformerは平均F1スコアを80.99%(Spinner ChiefのF1=99.68%、Spinner ChiefのF1=71.64%、Spinner ChiefのF1=78.4%、Spinner ChiefのF1=65.6%)とした。 自動分類は,TurnitinやPlagScanなど,広く使われているテキストマッチングシステムの欠点を軽減する。 将来の研究を促進するために、私たちの貢献を示すすべてのデータ、コード、および2つのwebアプリケーションがオープンに利用可能です。

Employing paraphrasing tools to conceal plagiarized text is a severe threat to academic integrity. To enable the detection of machine-paraphrased text, we evaluate the effectiveness of five pre-trained word embedding models combined with machine learning classifiers and state-of-the-art neural language models. We analyze preprints of research papers, graduation theses, and Wikipedia articles, which we paraphrased using different configurations of the tools SpinBot and SpinnerChief. The best performing technique, Longformer, achieved an average F1 score of 80.99% (F1=99.68% for SpinBot and F1=71.64% for SpinnerChief cases), while human evaluators achieved F1=78.4% for SpinBot and F1=65.6% for SpinnerChief cases. We show that the automated classification alleviates shortcomings of widely-used text-matching systems, such as Turnitin and PlagScan. To facilitate future research, all data, code, and two web applications showcasing our contributions are openly available.
翻訳日:2021-03-23 21:32:51 公開日:2021-03-22
# (参考訳) 局所感性ハッシュを用いたGANの訓練後圧縮評価

Evaluating Post-Training Compression in GANs using Locality-Sensitive Hashing ( http://arxiv.org/abs/2103.11912v1 )

ライセンス: CC BY 4.0
Gon\c{c}alo Mordido, Haojin Yang, Christoph Meinel(参考訳) 訓練後のgenerative adversarial network(gans)における圧縮効果の解析 微調整なしでは、その計算とメモリ要件の傾向が増大する中で、まだ研究されていない重要なトピックである。 既存の作業ではgansの圧縮の難しさを議論し,gans訓練の不安定性を念頭に置いて設計された新しい方法が必要となる一方で,既存の圧縮手法(クリップングと量子化)がgansのトレーニング後の圧縮に直接適用され得ることを示した。 高圧縮レベルは生成したセットを歪ませる可能性があり、既存のk-nearest neighbor(KNN)ベースのメトリクスの全体的な評価に悪影響を及ぼす可能性がある。 局所性に敏感なハッシュ(LSH)に基づく2つの新しい精度とリコール指標を提案する。この手法により,LSHを適用すれば,評価サンプルを$O(n)$から$O(\log(n))$,$O(1)$まで,評価サンプルを$O(n)$から$O(\log(n))$に評価する複雑性が低減される。 複数のデータセット上で事前学習されたganの低ビット圧縮は精度とリコールのトレードオフを引き起こし、サンプルの多様性を犠牲にしてサンプル品質を維持する。

The analysis of the compression effects in generative adversarial networks (GANs) after training, i.e. without any fine-tuning, remains an unstudied, albeit important, topic with the increasing trend of their computation and memory requirements. While existing works discuss the difficulty of compressing GANs during training, requiring novel methods designed with the instability of GANs training in mind, we show that existing compression methods (namely clipping and quantization) may be directly applied to compress GANs post-training, without any additional changes. High compression levels may distort the generated set, likely leading to an increase of outliers that may negatively affect the overall assessment of existing k-nearest neighbor (KNN) based metrics. We propose two new precision and recall metrics based on locality-sensitive hashing (LSH), which, on top of increasing the outlier robustness, decrease the complexity of assessing an evaluation sample against $n$ reference samples from $O(n)$ to $O(\log(n))$, if using LSH and KNN, and to $O(1)$, if only applying LSH. We show that low-bit compression of several pre-trained GANs on multiple datasets induces a trade-off between precision and recall, retaining sample quality while sacrificing sample diversity.
翻訳日:2021-03-23 21:11:28 公開日:2021-03-22
# (参考訳) 3次元雲放射効果の機械学習エミュレーション [全文訳有]

Machine Learning Emulation of 3D Cloud Radiative Effects ( http://arxiv.org/abs/2103.11919v1 )

ライセンス: CC BY 4.0
David Meyer, Robin J. Hogan, Peter D. Dueben, Shannon L. Mason(参考訳) 数値気象予測や気候モデルで使われる放射線計画における雲の構造の処理は、計算的に手頃な価格にするために、しばしば大幅に単純化される。 本稿では,欧州中距離気象予報センターの運用予測に用いる放射線計画ecradを,計算量的に安価なニューラルネットワークを用いて3dクラウド効果に対して補正することを提案する。 3Dクラウドエフェクトは、これらを無視したecRadの高速なTriplecloudsソルバと、それらを含むが、全放射能スキームのコストを約5倍に高めるため、運用には高すぎるという、CloUd Sides (SPARTACUS)ソルバによる放射性TrAnsferのためのSPeedy Algorithmとの違いとして学習される。 3d 信号の20 % と 30 % の順序でバルク平均絶対誤差を伴い,計算コストが 1 % 未満の長波フラックスと短波フラックスの両方の精度を向上させるためにエミュレータが使用できることがわかった。 ニューラルネットワークを用いて、高速放射線スキーム全体のエミュレートではなく、高速放射線スキームの雲関連の誤差を補正することにより、特に成層圏や成層圏における雲のない部分における高速スキームの正確な性能を活用する。

The treatment of cloud structure in radiation schemes used in operational numerical weather prediction and climate models is often greatly simplified to make them computationally affordable. Here, we propose to correct the radiation scheme ecRad -- as used for operational predictions at the European Centre for Medium-Range Weather Forecasts -- for 3D cloud effects using computationally cheap neural networks. 3D cloud effects are learned as the difference between ecRad's fast Tripleclouds solver that neglects them, and its SPeedy Algorithm for Radiative TrAnsfer through CloUd Sides (SPARTACUS) solver that includes them but increases the cost of the entire radiation scheme by around five times so is too expensive for operational use. We find that the emulator can be used to increase the accuracy of both longwave and shortwave fluxes of Tripleclouds, with a bulk mean absolute error on the order of 20 and 30 % the 3D signal, for less than 1 % increase in computational cost. By using the neural network to correct the cloud-related errors in a fast radiation scheme, rather than trying to emulate the entire radiation scheme, we take advantage of the fast scheme's accurate performance in cloud-free parts of the atmosphere, particularly in the stratosphere and mesosphere.
翻訳日:2021-03-23 21:06:22 公開日:2021-03-22
# (参考訳) テンソル処理ユニットを用いた説明可能な機械学習のハードウェアアクセラレーション [全文訳有]

Hardware Acceleration of Explainable Machine Learning using Tensor Processing Units ( http://arxiv.org/abs/2103.11927v1 )

ライセンス: CC0 1.0
Zhixin Pan and Prabhat Mishra(参考訳) 機械学習(ML)は、様々な分野で人間レベルのパフォーマンスを達成するのに成功している。 しかし、ブラックボックスの性質から結果を説明する能力が欠けている。 既存の説明可能なMLは有望であるが、これらの手法のほとんどは最適化問題として解釈可能性の形式化に焦点を当てている。 このようなマッピングは、時間を要する複雑な計算を何度も繰り返し、リアルタイムアプリケーションに適用性を制限する。 本稿では、テンソル処理ユニット(TPU)を用いた説明可能なMLの高速化のための新しいフレームワークを提案する。 提案フレームワークは,行列畳み込みとフーリエ変換の相乗効果を利用して,行列計算の高速化にTPUの自然な能力をフル活用する。 特に,本稿では3つの重要な貢献を行う。 1)我々の知る限り,提案手法はTPUを用いた説明可能なMLのハードウェアアクセラレーションを実現するための最初の試みである。 2)提案手法は多種多様なMLアルゴリズムに適用可能であり,TPUベースの高速化を効果的に活用することでリアルタイムな結果の解釈が可能となる。 3) 広範な実験結果から,提案手法は分類時間 (平均25倍) と解釈時間 (平均13倍) の両方において,最先端技術と比較して桁違いに高速化できることがわかった。

Machine learning (ML) is successful in achieving human-level performance in various fields. However, it lacks the ability to explain an outcome due to its black-box nature. While existing explainable ML is promising, almost all of these methods focus on formatting interpretability as an optimization problem. Such a mapping leads to numerous iterations of time-consuming complex computations, which limits their applicability in real-time applications. In this paper, we propose a novel framework for accelerating explainable ML using Tensor Processing Units (TPUs). The proposed framework exploits the synergy between matrix convolution and Fourier transform, and takes full advantage of TPU's natural ability in accelerating matrix computations. Specifically, this paper makes three important contributions. (1) To the best of our knowledge, our proposed work is the first attempt in enabling hardware acceleration of explainable ML using TPUs. (2) Our proposed approach is applicable across a wide variety of ML algorithms, and effective utilization of TPU-based acceleration can lead to real-time outcome interpretation. (3) Extensive experimental results demonstrate that our proposed approach can provide an order-of-magnitude speedup in both classification time (25x on average) and interpretation time (13x on average) compared to state-of-the-art techniques.
翻訳日:2021-03-23 20:47:31 公開日:2021-03-22
# (参考訳) 拡張SBERTとKNNを用いた特許分類のハイブリッドモデル [全文訳有]

Hybrid Model for Patent Classification using Augmented SBERT and KNN ( http://arxiv.org/abs/2103.11933v1 )

ライセンス: CC BY 4.0
Hamid Bekamiri, Daniel S. Hain, Roman Jurowetzki(参考訳) 目的: 本研究は, SBERT(Sentence-BERT) とK Nearest Neighbours(KNN)を併用した特許クレーム分類のためのハイブリッドアプローチを提供することを目的としている。 特許分類(英: patent classification)は、サブクラスレベルで640以上のラベルを分類できるマルチラベル分類タスクである。 提案フレームワークは,トップkのセマンティック類似性特許の検索に基づいて,個々の入力特許クラスとサブクラスを予測する。 Design/Methodology/A pproach: この研究はAugmented SBERTとRoBERTaに基づくトランスフォーマーモデルを使用します。 我々は、KNNアルゴリズムを用いて、特許クラスまたはサブクラスを予測することにより、特許分類の予測に異なるアプローチを用いる。 また,本研究では,特許請求にのみ焦点をあて,今後の研究では,特許文書の他の適切な部分を追加する。 結果: テキストデータに基づくマルチラベル分類予測におけるハイブリッドモデルの有用性が示唆された。 そこで本研究では,KNNにおける距離関数としてTransformerモデルを用い,拡張SBERTに基づくKNNの新バージョンを提案する。 実用的意味: 提示されたフレームワークは、特許分類の実用的なモデルを提供する。 本研究では,セマンティッククレームの類似性に基づいて,特許のクラスとサブクラスを予測する。 結果のエンドユーザー解釈性は、モデルの本質的な正の点の1つである。 originality/value: この研究の主な貢献は、1) ドメイン内特許クレームデータによるsbertの微調整のための拡張アプローチの使用である。 2)特許分類のためのハイブリッドモデルに基づく結果の改善。 サブクラスレベルでのf1-score の最良の結果は 69%) であり,結果の解釈性が高い実用モデルを提案した。

Purpose: This study aims to provide a hybrid approach for patent claim classification with Sentence-BERT (SBERT) and K Nearest Neighbours (KNN) and explicitly focuses on the patent claims. Patent classification is a multi-label classification task in which the number of labels can be greater than 640 at the subclass level. The proposed framework predicts individual input patent class and subclass based on finding top k semantic similarity patents. Design/Methodology/A pproach: The study uses transformer models based on Augmented SBERT and RoBERTa. We use a different approach to predict patent classification by finding top k similar patent claims and using the KNN algorithm to predict patent class or subclass. Besides, in this study, we just focus on patent claims, and in the future study, we add other appropriate parts of patent documents. Findings: The findings suggest the relevance of hybrid models to predict multi-label classification based on text data. In this approach, we used the Transformer model as the distance function in KNN, and proposed a new version of KNN based on Augmented SBERT. Practical Implications: The presented framework provides a practical model for patent classification. In this study, we predict the class and subclass of the patent based on semantic claims similarity. The end-user interpretability of the results is one of the essential positive points of the model. Originality/Value: The main contribution of the study included: 1) Using the Augmented approach for fine-tuning SBERT by in-domain supervised patent claims data. 2) Improving results based on a hybrid model for patent classification. The best result of F1-score at the subclass level was > 69%) Proposing the practical model with high interpretability of results.
翻訳日:2021-03-23 20:37:22 公開日:2021-03-22
# (参考訳) 最適輸送によるインクリメンタル半教師付き学習 [全文訳有]

Incremental Semi-Supervised Learning Through Optimal Transport ( http://arxiv.org/abs/2103.11937v1 )

ライセンス: CC BY 4.0
Mourad El Hamri, Youn\`es Bennani(参考訳) 半教師付き学習は、ラベルのないデータを利用してモデルの性能を改善する効果的なパラダイムを提供する。 提案された多くの戦略の中で、グラフベースの手法は優れた性質を示しており、特にVapnikの原理に従って直接帰納的タスクを解くことができ、帰納的タスクに対して効率的に拡張することができる。 本稿では,完全二部エッジ重み付きグラフを用いた半教師付き学習のための新しい手法を提案する。 提案手法は,ラベル付きデータポイントと非ラベル付きデータポイントで定義された経験的測度間の規則化された最適輸送を用いて,最適輸送計画から親和性行列を得る。 この行列はさらに、シャノンのエントロピーに基づく確実性スコアを組み込むことで予測の確実性を保証するインクリメンタルなプロセスにおいて、グラフの頂点を通じてラベルを伝搬するために用いられる。 また、我々のアプローチの収束を分析し、サンプル外データのために効率的に拡張する方法を導き出す。 12のベンチマークデータセットにおいて,提案手法を他のラベル伝搬アルゴリズムと比較するために実験解析を行った。 コードをリリースします。

Semi-supervised learning provides an effective paradigm for leveraging unlabeled data to improve a model\s performance. Among the many strategies proposed, graph-based methods have shown excellent properties, in particular since they allow to solve directly the transductive tasks according to Vapnik\s principle and they can be extended efficiently for inductive tasks. In this paper, we propose a novel approach for the transductive semi-supervised learning, using a complete bipartite edge-weighted graph. The proposed approach uses the regularized optimal transport between empirical measures defined on labelled and unlabelled data points in order to obtain an affinity matrix from the optimal transport plan. This matrix is further used to propagate labels through the vertices of the graph in an incremental process ensuring the certainty of the predictions by incorporating a certainty score based on Shannon\s entropy. We also analyze the convergence of our approach and we derive an efficient way to extend it for out-of-sample data. Experimental analysis was used to compare the proposed approach with other label propagation algorithms on 12 benchmark datasets, for which we surpass state-of-the-art results. We release our code.
翻訳日:2021-03-23 20:30:47 公開日:2021-03-22
# (参考訳) 人口動態を考慮した電子カルテの確率的医療知識グラフ埋め込み [全文訳有]

Demographic Aware Probabilistic Medical Knowledge Graph Embeddings of Electronic Medical Records ( http://arxiv.org/abs/2103.11951v1 )

ライセンス: CC BY 4.0
Aynur Guluzade, Endri Kacupaj, Maria Maleshkova(参考訳) 電子医療記録(EMR)から構築された医療知識グラフ(KG)には、患者や医療機関に関する豊富な情報が含まれている。 これらのデータに対するKG埋め込みモデルの利用は、異なる医療タスクに対して効率的であることが証明されている。 しかし、既存のモデルは患者の人口統計を適切に取り入れておらず、そのほとんどはKGの確率的特徴を無視している。 本稿では,患者層を対応する超平面と関連付けることで,医療分野における人口動態を明示的に組み込む,人口動態認識型医療kg埋め込みフレームワークであるdarling (demographic aware probabilistic medical knowledge embedded)を提案する。 本フレームワークは, 医療機関における確率的特徴を, 人口統計学的指導による表現の学習に活用する。 EMRデータから構築した医用KGを用いた治療薬のリンク予測によるDARlingの評価を行い,既存のKG埋め込みモデルと比較して優れた性能を示した。

Medical knowledge graphs (KGs) constructed from Electronic Medical Records (EMR) contain abundant information about patients and medical entities. The utilization of KG embedding models on these data has proven to be efficient for different medical tasks. However, existing models do not properly incorporate patient demographics and most of them ignore the probabilistic features of the medical KG. In this paper, we propose DARLING (Demographic Aware pRobabiListic medIcal kNowledge embeddinG), a demographic-aware medical KG embedding framework that explicitly incorporates demographics in the medical entities space by associating patient demographics with a corresponding hyperplane. Our framework leverages the probabilistic features within the medical entities for learning their representations through demographic guidance. We evaluate DARLING through link prediction for treatments and medicines, on a medical KG constructed from EMR data, and illustrate its superior performance compared to existing KG embedding models.
翻訳日:2021-03-23 20:04:06 公開日:2021-03-22
# (参考訳) 確率論的コントラスト法を用いたブラックボックスアルゴリズムの解説 [全文訳有]

Explaining Black-Box Algorithms Using Probabilistic Contrastive Counterfactuals ( http://arxiv.org/abs/2103.11972v1 )

ライセンス: CC BY 4.0
Sainyam Galhotra, Romila Pradhan, Babak Salimi(参考訳) 近年、AIベースの意思決定システムの不透明さを減らすことを目的とした、説明可能な人工知能(XAI)への関心が復活している。 この文脈での先行研究は、アルゴリズムの決定に対する責任の帰属に焦点をあてており、そこでは通常、責任は純粋に関連づけられた概念として扱われる。 本稿では,xaiにおける既存手法の限界に対処するブラックボックス意思決定システムを説明するための原則付き因果関係に基づくアプローチを提案する。 私たちのフレームワークの核心は、確率論的対照的な反事実論であり、人間がどのように説明を生成し、選択するかに関する理論の哲学的、認知的、社会的基盤に遡ることができる。 本稿では,アルゴリズムによる決定に対する変数の直接的・間接的影響の定量化と,アルゴリズムの判断に負の影響を受ける個人に対して行動可能な会話を提供する。 従来のシステムとは違って,(1)局所的,グローバル的,文脈的なレベルで,有効な説明と会話を計算可能であり,(2)基礎となる因果関係モデルの背景知識の異なるユーザと協調し,(3)入力出力データ以外のアルゴリズムシステムの内部について仮定することができないように設計されている。 実世界の3つのデータセット上でLEWISを実証的に評価し、LIMEやSHAPなど、XAIの最先端のアプローチを改善する人間の理解可能な説明を生成することを示す。 合成データに関する実験は、LEWISの説明の正しさとリコースアルゴリズムのスケーラビリティをさらに証明している。

There has been a recent resurgence of interest in explainable artificial intelligence (XAI) that aims to reduce the opaqueness of AI-based decision-making systems, allowing humans to scrutinize and trust them. Prior work in this context has focused on the attribution of responsibility for an algorithm's decisions to its inputs wherein responsibility is typically approached as a purely associational concept. In this paper, we propose a principled causality-based approach for explaining black-box decision-making systems that addresses limitations of existing methods in XAI. At the core of our framework lies probabilistic contrastive counterfactuals, a concept that can be traced back to philosophical, cognitive, and social foundations of theories on how humans generate and select explanations. We show how such counterfactuals can quantify the direct and indirect influences of a variable on decisions made by an algorithm, and provide actionable recourse for individuals negatively affected by the algorithm's decision. Unlike prior work, our system, LEWIS: (1)can compute provably effective explanations and recourse at local, global and contextual levels (2)is designed to work with users with varying levels of background knowledge of the underlying causal model and (3)makes no assumptions about the internals of an algorithmic system except for the availability of its input-output data. We empirically evaluate LEWIS on three real-world datasets and show that it generates human-understandable explanations that improve upon state-of-the-art approaches in XAI, including the popular LIME and SHAP. Experiments on synthetic data further demonstrate the correctness of LEWIS's explanations and the scalability of its recourse algorithm.
翻訳日:2021-03-23 19:50:20 公開日:2021-03-22
# (参考訳) 雑音ラベルを用いたモンテカルロドロップアウトのロバスト性について [全文訳有]

On the Robustness of Monte Carlo Dropout Trained with Noisy Labels ( http://arxiv.org/abs/2103.12002v1 )

ライセンス: CC BY 4.0
Purvi Goel and Li Chen(参考訳) ディープラーニングの記憶効果は、ノイズラベルで学習する際のテストセットを効果的に一般化することを妨げる。 従来の研究では、不確実性評価のないニューラルネットワークと比較して、ノイズラベルでトレーニングすると、てんかん不確実性技術が堅牢であることがわかった。 暗記効果が持続し,ノイズラベルの敵対的設定下での一般化性能が向上した。 ノイズラベル下での他の選択された認識不確実性手法よりも優れた性能を示すため,モンテカルロドロップアウト(mcdropout)に着目し,ノイズラベルを用いたトレーニングにおいて頑健である理由を検討する。 Through empirical studies on datasets MNIST, CIFAR-10, Animal-10n, we deep dive into three aspects of MCDropout under noisy label setting: 1. efficacy: understanding the learning behavior and test accuracy of MCDropout when training set contains artificially generated or naturally embedded label noise; 2. representation volatility: studying the responsiveness of neurons by examining the mean and standard deviation on each neuron's activation; 3. network sparsity: investigating the network support of MCDropout in comparison with deterministic neural networks. 以上の結果から, MCDropoutは決定論的ニューラルネットワークをさらに分散し, 規則化し, ノイズラベルに対する堅牢性を高めることが示唆された。

The memorization effect of deep learning hinders its performance to effectively generalize on test set when learning with noisy labels. Prior study has discovered that epistemic uncertainty techniques are robust when trained with noisy labels compared with neural networks without uncertainty estimation. They obtain prolonged memorization effect and better generalization performance under the adversarial setting of noisy labels. Due to its superior performance amongst other selected epistemic uncertainty methods under noisy labels, we focus on Monte Carlo Dropout (MCDropout) and investigate why it is robust when trained with noisy labels. Through empirical studies on datasets MNIST, CIFAR-10, Animal-10n, we deep dive into three aspects of MCDropout under noisy label setting: 1. efficacy: understanding the learning behavior and test accuracy of MCDropout when training set contains artificially generated or naturally embedded label noise; 2. representation volatility: studying the responsiveness of neurons by examining the mean and standard deviation on each neuron's activation; 3. network sparsity: investigating the network support of MCDropout in comparison with deterministic neural networks. Our findings suggest that MCDropout further sparsifies and regularizes the deterministic neural networks and thus provides higher robustness against noisy labels.
翻訳日:2021-03-23 18:59:45 公開日:2021-03-22
# (参考訳) アルゴリズム決定の公正な知覚:実証文学の体系的レビュー

Fairness Perceptions of Algorithmic Decision-Making: A Systematic Review of the Empirical Literature ( http://arxiv.org/abs/2103.12016v1 )

ライセンス: CC BY 4.0
Christopher Starke, Janine Baleis, Birte Keller, Frank Marcinkowski(参考訳) アルゴリズムによる意思決定(ADM)は、人々の日常生活をますます形作る。 このような自律システムは個人や社会グループに深刻な被害を与える可能性があるため、公正な懸念が生まれている。 学者や政策立案者によって要求される人間中心のアプローチは、admの設計と実装において人々の公正感を考慮に入れなければならない。我々は、複数の領域と科学分野にわたる39の実証研究から、既存のアルゴリズム的公正感に関する経験的洞察を合成した包括的かつ体系的な文献レビューを提供する。 a) アルゴリズム予測器,(b) 人間の予測器,(c) 比較効果(人間による意思決定とアルゴリズムによる意思決定) および(d) ADMの結果である。 アルゴリズムの公正性に関する理論的概念と実証的な測定に関する多くの異質性を見いだす一方で、その洞察はほとんど西洋-民主主義の文脈から来ている。 コミュニティ・イン・ザ・ループの枠組みを取り入れたより学際的な研究を提唱することで、我々の研究がより公平で責任あるADMに貢献することを願っている。

Algorithmic decision-making (ADM) increasingly shapes people's daily lives. Given that such autonomous systems can cause severe harm to individuals and social groups, fairness concerns have arisen. A human-centric approach demanded by scholars and policymakers requires taking people's fairness perceptions into account when designing and implementing ADM. We provide a comprehensive, systematic literature review synthesizing the existing empirical insights on perceptions of algorithmic fairness from 39 empirical studies spanning multiple domains and scientific disciplines. Through thorough coding, we systemize the current empirical literature along four dimensions: (a) algorithmic predictors, (b) human predictors, (c) comparative effects (human decision-making vs. algorithmic decision-making), and (d) consequences of ADM. While we identify much heterogeneity around the theoretical concepts and empirical measurements of algorithmic fairness, the insights come almost exclusively from Western-democratic contexts. By advocating for more interdisciplinary research adopting a society-in-the-loop framework, we hope our work will contribute to fairer and more responsible ADM.
翻訳日:2021-03-23 18:46:32 公開日:2021-03-22
# (参考訳) ハミルトン政策によるアクター・クリティカル強化学習の改善 [全文訳有]

Improving Actor-Critic Reinforcement Learning via Hamiltonian Policy ( http://arxiv.org/abs/2103.12020v1 )

ライセンス: CC BY 4.0
Duo Xu, Faramarz Fekri(参考訳) 強化学習(rl)における最適政策の近似は、多くの現実世界のシナリオにおいてしばしば必要となる。 変動推論(VI)の観点から強化学習を見ることにより、最適性基準が与えられた行動の近似後部を求めるようにポリシーネットワークを訓練する。 しかし、実際には、政策最適化は、償却ギャップと探検不足のため、最適でない政策推定に繋がる可能性がある。 本研究は,ハミルトニアン・モンテカルロ (HMC) を VI で使用したことに触発されて,政策最適化を HMC と統合することを提案する。 したがって、HMCに従って基本方針から進化する行動を選択する。 第一に、HMCは政策分布を改善して後部をよりよく近似し、したがって償却ギャップを減らすことができる。 第二に、HMCはより高い行動値を持つ地域への探索を誘導し、探索効率を高めることができる。 RL に直接 HMC を適用する代わりに、ハミルトン力学をシミュレートする新しい跳躍作用素を提案する。 また,MuJoCo,PyBullet Roboschool,DeepMind Control Suiteなどの連続制御ベースラインに関する総合的な実証実験により,提案手法はデータ効率が高く,従来のポリシー最適化手法よりも実装が容易であることを示す。 また,提案手法は画像に基づく高次元観測空間を有するDeepMind Control Suiteの従来手法よりも優れている。

Approximating optimal policies in reinforcement learning (RL) is often necessary in many real-world scenarios, which is termed as policy optimization. By viewing the reinforcement learning from the perspective of variational inference (VI), the policy network is trained to obtain the approximate posterior of actions given the optimality criteria. However, in practice, the policy optimization may lead to suboptimal policy estimates due to the amortization gap and insufficient exploration. In this work, inspired by the previous use of Hamiltonian Monte Carlo (HMC) in VI, we propose to integrate policy optimization with HMC. As such we choose evolving actions from the base policy according to HMC. First, HMC can improve the policy distribution to better approximate the posterior and hence reduces the amortization gap. Second, HMC can also guide the exploration more to the regions with higher action values, enhancing the exploration efficiency. Instead of directly applying HMC into RL, we propose a new leapfrog operator to simulate the Hamiltonian dynamics. With comprehensive empirical experiments on continuous control baselines, including MuJoCo, PyBullet Roboschool and DeepMind Control Suite, we show that the proposed approach is a data-efficient, and an easy-to-implement improvement over previous policy optimization methods. Besides, the proposed approach can also outperform previous methods on DeepMind Control Suite, which has image-based high-dimensional observation space.
翻訳日:2021-03-23 18:45:25 公開日:2021-03-22
# (参考訳) 収束率$O(1/n)$の安定性と最適リスク境界 [全文訳有]

Stability and Deviation Optimal Risk Bounds with Convergence Rate $O(1/n)$ ( http://arxiv.org/abs/2103.12024v1 )

ライセンス: CC BY 4.0
Yegor Klochkov and Nikita Zhivotovskiy(参考訳) 一様に安定なアルゴリズム(feldman, vondr\'{a}k, 2018, 2019), (bousquet, klochkov, zhivotovskiy, 2020) に対する最もシャープな高確率一般化境界は、一般的に避けられないサンプリングエラー項$\theta(1/\sqrt{n})$を含む。 過大なリスク境界に適用すると、結果としていくつかの標準確率凸最適化問題が発生する。 いわゆるバーンスタイン条件が満たされれば、$\Theta(1/\sqrt{n})$ という用語は避けられ、O(1/n)$ までの順序の高確率超過リスク境界は均一安定性によって可能であることを示す。 この結果を用いて,強い凸とリプシッツの損失に対して o(\log n/n)$ の確率に縛られた高い確率過大なリスクが \emph{any} 実験的リスク最小化法で有効であることを示した。 これはShalev-Shwartz、Shamir、Srebro、Sridharan (2009) の問題を解決する。 我々は, 通常の平滑性仮定を伴わない強凸およびリプシッツ損失の場合, 予測された勾配降下に対して, $o(\log n/n)$ high probability extra risk bounds がいかに可能であるかを考察する。

The sharpest known high probability generalization bounds for uniformly stable algorithms (Feldman, Vondr\'{a}k, 2018, 2019), (Bousquet, Klochkov, Zhivotovskiy, 2020) contain a generally inevitable sampling error term of order $\Theta(1/\sqrt{n})$. When applied to excess risk bounds, this leads to suboptimal results in several standard stochastic convex optimization problems. We show that if the so-called Bernstein condition is satisfied, the term $\Theta(1/\sqrt{n})$ can be avoided, and high probability excess risk bounds of order up to $O(1/n)$ are possible via uniform stability. Using this result, we show a high probability excess risk bound with the rate $O(\log n/n)$ for strongly convex and Lipschitz losses valid for \emph{any} empirical risk minimization method. This resolves a question of Shalev-Shwartz, Shamir, Srebro, and Sridharan (2009). We discuss how $O(\log n/n)$ high probability excess risk bounds are possible for projected gradient descent in the case of strongly convex and Lipschitz losses without the usual smoothness assumption.
翻訳日:2021-03-23 18:08:12 公開日:2021-03-22
# (参考訳) 一目で見る品質 - webクローラーによる多言語データセットの監査

Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets ( http://arxiv.org/abs/2103.12028v1 )

ライセンス: CC BY 4.0
Isaac Caswell, Julia Kreutzer, Lisa Wang, Ahsan Wahab, Daan van Esch, Nasanbayar Ulzii-Orshikh, Allahsera Tapo, Nishant Subramani, Artem Sokolov, Claytone Sikasote, Monang Setyawan, Supheakmungkol Sarin, Sokhar Samb, Beno\^it Sagot, Clara Rivera, Annette Rios, Isabel Papadimitriou, Salomey Osei, Pedro Javier Ortiz Su\'arez, Iroro Orife, Kelechi Ogueji, Rubungo Andre Niyongabo, Toan Q. Nguyen, Mathias M\"uller, Andr\'e M\"uller, Shamsuddeen Hassan Muhammad, Nanda Muhammad, Ayanda Mnyakeni, Jamshidbek Mirzakhalov, Tapiwanashe Matangira, Colin Leong, Nze Lawson, Sneha Kudugunta, Yacine Jernite, Mathias Jenny, Orhan Firat, Bonaventure F. P. Dossou, Sakhile Dlamini, Nisansa de Silva, Sakine \c{C}abuk Ball{\i}, Stella Biderman, Alessia Battisti, Ahmed Baruwa, Ankur Bapna, Pallavi Baljekar, Israel Abebe Azime, Ayodele Awokoya, Duygu Ataman, Orevaoghene Ahia, Oghenefego Ahia, Sweta Agrawal, Mofetoluwa Adeyemi(参考訳) 自然言語処理(NLP)における大規模事前学習と多言語モデリングの成功により、近年は数百の言語をカバーする大規模なWebマイニングテキストデータセットが急増している。 しかし、これまでこれらの公開データセットの品質や、データセットが実際に表現しようとしている言語にコンテンツを格納しているかどうかの体系的な分析は行われていない。 本研究では,5つの主要な公開データセット(CCAligned, ParaCrawl, WikiMatrix, OSCAR, mC4)でリリースした205の言語固有のコーパスの品質を手動で監査し,第6の(JW300)言語コードの正確性を評価する。 少なくとも15のコーパスは完全に誤ったものであり、かなりの割合は許容される品質の50%以下の文を含んでいる。 同様に、82のコーパスがあり、非標準/曖昧な言語コードを使用する。 これらの問題は,対象言語の非話者でも容易に検出でき,自動解析による人間の判断を補うことができる。 分析に触発されて,多言語コーパスの評価と改善を行う手法を推奨し,低品質データリリースに伴うリスクについて議論する。

With the success of large-scale pre-training and multilingual modeling in Natural Language Processing (NLP), recent years have seen a proliferation of large, web-mined text datasets covering hundreds of languages. However, to date there has been no systematic analysis of the quality of these publicly available datasets, or whether the datasets actually contain content in the languages they claim to represent. In this work, we manually audit the quality of 205 language-specific corpora released with five major public datasets (CCAligned, ParaCrawl, WikiMatrix, OSCAR, mC4), and audit the correctness of language codes in a sixth (JW300). We find that lower-resource corpora have systematic issues: at least 15 corpora are completely erroneous, and a significant fraction contains less than 50% sentences of acceptable quality. Similarly, we find 82 corpora that are mislabeled or use nonstandard/ambiguou s language codes. We demonstrate that these issues are easy to detect even for non-speakers of the languages in question, and supplement the human judgements with automatic analyses. Inspired by our analysis, we recommend techniques to evaluate and improve multilingual corpora and discuss the risks that come with low-quality data releases.
翻訳日:2021-03-23 17:47:43 公開日:2021-03-22
# (参考訳) 長い数学の問題から未知を抽出する [全文訳有]

Extracting the Unknown from Long Math Problems ( http://arxiv.org/abs/2103.12048v1 )

ライセンス: CC BY 4.0
Ndapa Nakashole(参考訳) 問題解決において、解決しようとする問題を理解することは重要な初期ステップである。 本稿では,長い数学問題の仕様における未知の認識作業を通じて問題理解を容易にする計算手法を提案する。 我々は確率の話題に焦点を当てる。 実験の結果,学習モデルがタスクに対して強い結果をもたらすことが示され,長い数学問題を理解するための人間の解釈可能でモジュール的なアプローチへの第一歩として期待できる。

In problem solving, understanding the problem that one seeks to solve is an essential initial step. In this paper, we propose computational methods for facilitating problem understanding through the task of recognizing the unknown in specifications of long Math problems. We focus on the topic of Probability. Our experimental results show that learning models yield strong results on the task, a promising first step towards human interpretable, modular approaches to understanding long Math problems.
翻訳日:2021-03-23 17:16:59 公開日:2021-03-22
# (参考訳) SSD: 自己監視型アウトリア検出のための統一フレームワーク [全文訳有]

SSD: A Unified Framework for Self-Supervised Outlier Detection ( http://arxiv.org/abs/2103.12051v1 )

ライセンス: CC BY 4.0
Vikash Sehwag, Mung Chiang, Prateek Mittal(参考訳) トレーニング分布から遠く離れたサンプルを検出する、効果的なアウトリー/アウト・オブ・ディストリビューション(OOD)検出器の設計には、どのようなトレーニング情報が必要か? ラベルなしデータは多くのアプリケーションで簡単に利用できるため、最も説得力のあるアプローチはラベルなしの分布データのみに基づいて検出器を開発することである。 しかし、ラベルのないデータに基づく既存の検出器の多くは、ランダムな予測と同等であることが多い。 対照的に、既存の最先端のOOD検出器は優れた性能を発揮するが、教師あり訓練のためにはきめ細かいデータラベルにアクセスする必要がある。 本研究では,ラベルなしの分布データのみに基づく異常検出装置であるssdを提案する。 自己教師付き表現学習と,特徴空間におけるマハラノビス距離に基づく検出を用いる。 SSDは、ラベルのないデータに基づいて既存の検出器よりも大きなマージンで優れていることを示す。 さらにSSDは、教師付きトレーニングベースの検出器で同等、時にはそれ以上のパフォーマンスを実現している。 最後に、検出フレームワークを2つの主要な拡張で拡張します。 まず、数発のOOD検出を定式化し、対象のOODデータセットの各クラスから1〜5個のサンプルしか検出できないようにする。 第二に、利用可能であればトレーニングデータラベルを組み込むためのフレームワークを拡張します。 SSDに基づく新しい検出フレームワークは,これらの拡張により性能が向上し,最先端の性能を実現する。 私たちのコードはhttps://github.com/i nspire-group/SSDで公開されています。

We ask the following question: what training information is required to design an effective outlier/out-of-distr ibution (OOD) detector, i.e., detecting samples that lie far away from the training distribution? Since unlabeled data is easily accessible for many applications, the most compelling approach is to develop detectors based on only unlabeled in-distribution data. However, we observe that most existing detectors based on unlabeled data perform poorly, often equivalent to a random prediction. In contrast, existing state-of-the-art OOD detectors achieve impressive performance but require access to fine-grained data labels for supervised training. We propose SSD, an outlier detector based on only unlabeled in-distribution data. We use self-supervised representation learning followed by a Mahalanobis distance based detection in the feature space. We demonstrate that SSD outperforms most existing detectors based on unlabeled data by a large margin. Additionally, SSD even achieves performance on par, and sometimes even better, with supervised training based detectors. Finally, we expand our detection framework with two key extensions. First, we formulate few-shot OOD detection, in which the detector has access to only one to five samples from each class of the targeted OOD dataset. Second, we extend our framework to incorporate training data labels, if available. We find that our novel detection framework based on SSD displays enhanced performance with these extensions, and achieves state-of-the-art performance. Our code is publicly available at https://github.com/i nspire-group/SSD.
翻訳日:2021-03-23 17:06:23 公開日:2021-03-22
# (参考訳) 時系列予測のためのディープラーニングアーキテクチャの実験的検討 [全文訳有]

An Experimental Review on Deep Learning Architectures for Time Series Forecasting ( http://arxiv.org/abs/2103.12057v1 )

ライセンス: CC BY 4.0
Pedro Lara-Ben\'itez, Manuel Carranza-Garc\'ia and Jos\'e C. Riquelme(参考訳) 近年、ディープラーニング技術は多くの機械学習タスクにおいて従来のモデルよりも優れています。 ディープニューラルネットワークは、時系列予測問題にうまく適用され、データマイニングにおいて非常に重要なトピックとなっている。 時系列に存在する時間的依存関係を自動的に学習する能力から、それらは効果的なソリューションであることが分かっています。 しかし、最も便利なディープニューラルネットワークの選択とそのパラメトリゼーションは、かなりの専門知識を必要とする複雑なタスクである。 したがって、予測タスクの異なる既存アーキテクチャの適合性についてより深く研究する必要がある。 本研究では,時系列予測にディープラーニングを用いた最新の作品の総合的なレビューと,最もポピュラーなアーキテクチャの性能比較実験という,2つの課題に直面している。 この比較には、精度と効率の点で、7種類のディープラーニングモデルの徹底的な分析が含まれる。 提案したモデルで得られた結果のランキングと分布を,多くの異なるアーキテクチャ構成で評価し,ハイパーパラメータを訓練する。 データセットは、50000以上の時系列を12の予測問題に分割する。 これらのデータに基づいて38000以上のモデルをトレーニングすることにより、時系列予測のための最も広範なディープラーニング研究を提供する。 その結果,長期記憶(LSTM)と畳み込みネットワーク(CNN)が最適選択肢であり,LSTMが最も正確な予測値が得られることがわかった。 CNNは、パラメータ設定の異なる結果のばらつきが少なく、効率も良く、同等のパフォーマンスを実現している。

In recent years, deep learning techniques have outperformed traditional models in many machine learning tasks. Deep neural networks have successfully been applied to address time series forecasting problems, which is a very important topic in data mining. They have proved to be an effective solution given their capacity to automatically learn the temporal dependencies present in time series. However, selecting the most convenient type of deep neural network and its parametrization is a complex task that requires considerable expertise. Therefore, there is a need for deeper studies on the suitability of all existing architectures for different forecasting tasks. In this work, we face two main challenges: a comprehensive review of the latest works using deep learning for time series forecasting; and an experimental study comparing the performance of the most popular architectures. The comparison involves a thorough analysis of seven types of deep learning models in terms of accuracy and efficiency. We evaluate the rankings and distribution of results obtained with the proposed models under many different architecture configurations and training hyperparameters. The datasets used comprise more than 50000 time series divided into 12 different forecasting problems. By training more than 38000 models on these data, we provide the most extensive deep learning study for time series forecasting. Among all studied models, the results show that long short-term memory (LSTM) and convolutional networks (CNN) are the best alternatives, with LSTMs obtaining the most accurate forecasts. CNNs achieve comparable performance with less variability of results under different parameter configurations, while also being more efficient.
翻訳日:2021-03-23 16:38:15 公開日:2021-03-22
# (参考訳) BERT:自然言語処理と理解における応用のレビュー [全文訳有]

BERT: A Review of Applications in Natural Language Processing and Understanding ( http://arxiv.org/abs/2103.11943v1 )

ライセンス: CC BY-SA 4.0
M. V. Koroteev(参考訳) 本稿では,最も人気のあるディープラーニングベースの言語モデルであるBERTの応用について述べる。 本論文は,このモデルの動作機構,テキスト解析における主な応用分野,各タスクにおける類似モデルとの比較,およびいくつかのプロプライエタリモデルの記述について述べる。 このレビューの準備において、科学界で最も注目を集めた過去数年間に出版された数十の科学論文のデータを体系化した。 この調査は、自然言語テキスト分析の分野における最新の進歩を知りたがっているすべての学生や研究者にとって有用である。

In this review, we describe the application of one of the most popular deep learning-based language models - BERT. The paper describes the mechanism of operation of this model, the main areas of its application to the tasks of text analytics, comparisons with similar models in each task, as well as a description of some proprietary models. In preparing this review, the data of several dozen original scientific articles published over the past few years, which attracted the most attention in the scientific community, were systematized. This survey will be useful to all students and researchers who want to get acquainted with the latest advances in the field of natural language text analysis.
翻訳日:2021-03-23 15:35:04 公開日:2021-03-22
# グレイボックス攻撃とセンチメント分類のための防御

Grey-box Adversarial Attack And Defence For Sentiment Classification ( http://arxiv.org/abs/2103.11576v1 )

ライセンス: Link先を確認
Ying Xu, Xu Zhong, Antonio Jimeno Yepes, Jey Han Lau(参考訳) 感情分類のためのグレイボックス攻撃・防衛フレームワークを提案する。 敵攻撃と防御のための識別性, ラベル保存, 入力再構成の課題を, 1つの統合された枠組みで解決する。 以上の結果から,攻撃モデルでは,最先端の攻撃手法よりも高い精度(一桁の時間差)で高い精度の敵例を生成できることがわかった。 これらの例は、人間の評価に従って元の感情を保存します。 さらに,本フレームワークは,複数対逆攻撃手法の防御に頑健な改良型分類器を生成する。 https://github.com/i bm-aur-nlp/adv-def-t ext-dist。

We introduce a grey-box adversarial attack and defence framework for sentiment classification. We address the issues of differentiability, label preservation and input reconstruction for adversarial attack and defence in one unified framework. Our results show that once trained, the attacking model is capable of generating high-quality adversarial examples substantially faster (one order of magnitude less in time) than state-of-the-art attacking methods. These examples also preserve the original sentiment according to human evaluation. Additionally, our framework produces an improved classifier that is robust in defending against multiple adversarial attacking methods. Code is available at: https://github.com/i bm-aur-nlp/adv-def-t ext-dist.
翻訳日:2021-03-23 15:05:48 公開日:2021-03-22
# パターンエクスプロイトトレーニングの改善と簡易化

Improving and Simplifying Pattern Exploiting Training ( http://arxiv.org/abs/2103.11955v1 )

ライセンス: Link先を確認
Derek Tam, Rakesh R Menon, Mohit Bansal, Shashank Srivastava, Colin Raffel(参考訳) 近年,SuperGLUEのような複雑なベンチマークを微調整することで,事前学習型言語モデル(LM)の性能が向上している。 しかし、微調整用のラベル付き例がほとんどない場合にはパフォーマンスが損なわれる可能性がある。 Pattern Exploiting Training (PET)は、数発の学習にパターンを活用する最近のアプローチである。 しかしPETはタスク固有の未ラベルデータを使用する。 本稿では,未ラベルデータのないショットラーニングに焦点をあて,微調整時により厳密な監視を提供するPETの目的を改良したADAPETを導入する。 その結果、ADAPETはタスク固有の未ラベルデータなしで、SuperGLUE上でPETより優れている。 私たちのコードはhttps://github.com/r rmenon10/ADAPETで参照できます。

Recently, pre-trained language models (LMs) have achieved strong performance when fine-tuned on difficult benchmarks like SuperGLUE. However, performance can suffer when there are very few labeled examples available for fine-tuning. Pattern Exploiting Training (PET) is a recent approach that leverages patterns for few-shot learning. However, PET uses task-specific unlabeled data. In this paper, we focus on few shot learning without any unlabeled data and introduce ADAPET, which modifies PET's objective to provide denser supervision during fine-tuning. As a result, ADAPET outperforms PET on SuperGLUE without any task-specific unlabeled data. Our code can be found at https://github.com/r rmenon10/ADAPET.
翻訳日:2021-03-23 15:05:40 公開日:2021-03-22
# オフライン強化学習と模倣学習の橋渡し--悲観主義の物語

Bridging Offline Reinforcement Learning and Imitation Learning: A Tale of Pessimism ( http://arxiv.org/abs/2103.12021v1 )

ライセンス: Link先を確認
Paria Rashidinejad, Banghua Zhu, Cong Ma, Jiantao Jiao, Stuart Russell(参考訳) オフライン(あるいはバッチ)強化学習(RL)アルゴリズムは、アクティブなデータ収集なしに、固定データセットから最適なポリシーを学習しようとする。 オフラインデータセットの構成に基づいて、専門家データセットに適した模倣学習と、均一なカバレッジデータセットを必要とするバニラオフラインRLの2つの主要なカテゴリが使用される。 現実的な見地からすると、データセットはこれらの2つの極端から逸脱することが多く、正確なデータ構成は通常は未知である。 このギャップを埋めるために、データ合成の2つの極端をスムーズに補間し、模倣学習とバニラオフラインRLを統一する新しいオフラインRLフレームワークを提案する。 新しいフレームワークは、行動ポリシーから専門家ポリシーへの逸脱を測定する集中力係数の弱いバージョンを中心に構成されている。 この新たな枠組みの下では、アルゴリズム設計に関する問題をさらに調査する: 極小の最適レートを達成し、未知のデータ合成に適応するアルゴリズムを開発できるか? この問題に対処するために、オフラインRLにおける不確実性に直面した悲観主義に基づく低信頼境界(LCB)アルゴリズムを検討する。 lcbの有限サンプル特性と多腕バンディット,コンテクストバンディット,マルコフ決定過程(mdps)の情報理論的限界について検討した。 我々の分析は最適率に関する驚くべき事実を明らかにしている。 特に3つの設定すべてにおいて、lcbは、バッチデータセットのサンプル数が$n$であるオフラインrlの1/\sqrt{n}$よりも、ほぼ専門的なデータセットに対して1/n$の速いレートを実現している。 少なくとも2つの文脈を持つ文脈的帯域幅の場合、LCBはデータ合成範囲全体に対して適応的に最適であり、模倣学習からオフラインRLへのスムーズな移行を実現する。 さらに, LCB は MDP においてほぼ適応的に最適であることを示す。

Offline (or batch) reinforcement learning (RL) algorithms seek to learn an optimal policy from a fixed dataset without active data collection. Based on the composition of the offline dataset, two main categories of methods are used: imitation learning which is suitable for expert datasets and vanilla offline RL which often requires uniform coverage datasets. From a practical standpoint, datasets often deviate from these two extremes and the exact data composition is usually unknown a priori. To bridge this gap, we present a new offline RL framework that smoothly interpolates between the two extremes of data composition, hence unifying imitation learning and vanilla offline RL. The new framework is centered around a weak version of the concentrability coefficient that measures the deviation from the behavior policy to the expert policy alone. Under this new framework, we further investigate the question on algorithm design: can one develop an algorithm that achieves a minimax optimal rate and also adapts to unknown data composition? To address this question, we consider a lower confidence bound (LCB) algorithm developed based on pessimism in the face of uncertainty in offline RL. We study finite-sample properties of LCB as well as information-theoreti c limits in multi-armed bandits, contextual bandits, and Markov decision processes (MDPs). Our analysis reveals surprising facts about optimality rates. In particular, in all three settings, LCB achieves a faster rate of $1/N$ for nearly-expert datasets compared to the usual rate of $1/\sqrt{N}$ in offline RL, where $N$ is the number of samples in the batch dataset. In the case of contextual bandits with at least two contexts, we prove that LCB is adaptively optimal for the entire data composition range, achieving a smooth transition from imitation learning to offline RL. We further show that LCB is almost adaptively optimal in MDPs.
翻訳日:2021-03-23 15:02:14 公開日:2021-03-22
# 関係抽出のためのプロトタイプ表現学習

Prototypical Representation Learning for Relation Extraction ( http://arxiv.org/abs/2103.11647v1 )

ライセンス: Link先を確認
Ning Ding, Xiaobin Wang, Yao Fu, Guangwei Xu, Rui Wang, Pengjun Xie, Ying Shen, Fei Huang, Hai-Tao Zheng, Rui Zhang(参考訳) 実体間の関係を認識することは関係学習の重要な課題である。 遠方ラベル付きデータセットからの関係表現の学習は、豊富なラベルノイズと人間の言語における複雑な表現のために困難である。 本稿では,教師付き,遠隔教師付き,少数ショット学習など,異なる設定で有効な遠隔ラベルデータから予測,解釈可能,堅牢な関係表現を学習することを目的とした。 雑音ラベルの監視のみに頼るのではなく、文脈情報から各関係のプロトタイプを学習し、関係の本質的意味を最善に探求することを提案する。 プロトタイプは、文内のエンティティ間の関係の本質的な意味論を抽象化する機能空間の表現である。 そこで,プロトタイプは単位球内に一様分散された単位ベクトルであり,文埋め込みはボールの表面上の対応するプロトタイプベクトルの終端に集中する,明確な幾何学的解釈に基づくプロトタイプを学習する。 このアプローチにより、最終分類のための意味のある解釈可能なプロトタイプを学ぶことができる。 いくつかの関係学習タスクの結果,本モデルが先行する最先端モデルを大きく上回っていることがわかった。 さらに,エンコーダのロバスト性やプロトタイプの解釈性を広範囲な実験により実証する。

Recognizing relations between entities is a pivotal task of relational learning. Learning relation representations from distantly-labeled datasets is difficult because of the abundant label noise and complicated expressions in human language. This paper aims to learn predictive, interpretable, and robust relation representations from distantly-labeled data that are effective in different settings, including supervised, distantly supervised, and few-shot learning. Instead of solely relying on the supervision from noisy labels, we propose to learn prototypes for each relation from contextual information to best explore the intrinsic semantics of relations. Prototypes are representations in the feature space abstracting the essential semantics of relations between entities in sentences. We learn prototypes based on objectives with clear geometric interpretation, where the prototypes are unit vectors uniformly dispersed in a unit ball, and statement embeddings are centered at the end of their corresponding prototype vectors on the surface of the ball. This approach allows us to learn meaningful, interpretable prototypes for the final classification. Results on several relation learning tasks show that our model significantly outperforms the previous state-of-the-art models. We further demonstrate the robustness of the encoder and the interpretability of prototypes with extensive experiments.
翻訳日:2021-03-23 15:01:05 公開日:2021-03-22
# 高速, 再帰的スマート検索: 協調的, 共同的アプローチによるクロスモーダル検索の改善

Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for Improved Cross-Modal Retrieval ( http://arxiv.org/abs/2103.11920v1 )

ライセンス: Link先を確認
Gregor Geigle, Jonas Pfeiffer, Nils Reimers, Ivan Vuli\'c, Iryna Gurevych(参考訳) 画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。 1) はスクラッチから事前学習されているため、スケーラビリティが低く、2) 巨大な検索遅延と非効率な問題に苦しむため、現実のアプリケーションでは実用的でない。 改良と効率的なクロスモーダル検索へのこれらの重要なギャップに対処するために,事前学習されたテキスト画像マルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。 本フレームワークは,1) コーパスの全項目を個別にエンコードし,効率的な初期検索を可能にするツインネットワークと,2) 検索した小項目のよりニュアンスな(すなわち,よりスマートな)ランク付けのためのクロスエンコーダコンポーネントとを組み合わせた,協調的検索・参照アプローチに基づく。 また,両成分を共有重み付きで微調整し,よりパラメータ効率の良いモデルを提案する。 モノリンガル,マルチリンガル,ゼロショットの一連の標準クロスモーダル検索ベンチマーク実験により,最先端のクロスエンコーダよりも精度が向上し,高い効率性を示す。

Current state-of-the-art approaches to cross-modal retrieval process text and visual input jointly, relying on Transformer-based architectures with cross-attention mechanisms that attend over all words and objects in an image. While offering unmatched retrieval performance, such models: 1) are typically pretrained from scratch and thus less scalable, 2) suffer from huge retrieval latency and inefficiency issues, which makes them impractical in realistic applications. To address these crucial gaps towards both improved and efficient cross-modal retrieval, we propose a novel fine-tuning framework which turns any pretrained text-image multi-modal model into an efficient retrieval model. The framework is based on a cooperative retrieve-and-rerank approach which combines: 1) twin networks to separately encode all items of a corpus, enabling efficient initial retrieval, and 2) a cross-encoder component for a more nuanced (i.e., smarter) ranking of the retrieved small set of items. We also propose to jointly fine-tune the two components with shared weights, yielding a more parameter-efficient model. Our experiments on a series of standard cross-modal retrieval benchmarks in monolingual, multilingual, and zero-shot setups, demonstrate improved accuracy and huge efficiency benefits over the state-of-the-art cross-encoders.
翻訳日:2021-03-23 15:00:20 公開日:2021-03-22
# 積層トランスを用いたマルチモーダル動作予測

Multimodal Motion Prediction with Stacked Transformers ( http://arxiv.org/abs/2103.11624v1 )

ライセンス: Link先を確認
Yicheng Liu, Jinghuai Zhang, Liangji Fang, Qinhong Jiang, Bolei Zhou(参考訳) 自動走行の安全性には、近隣の車両の複数の将来的な軌道を予測することが不可欠である。 最近の動き予測手法は、特徴を暗黙的に正規化したり、複数の候補提案を明示的に生成することで、そのようなマルチモーダルな動き予測を実現する。 しかしながら,提案手法は提案手法の生成と選択に先立つ知識に大きく依存するのに対して,遅延機能はデータの最も頻繁なモードに集中する可能性があるため,依然として困難である。 本研究では,mmTransformerと呼ばれるマルチモーダル動作予測のためのトランスフォーマフレームワークを提案する。 スタックドトランスフォーマーに基づく新しいネットワークアーキテクチャは、固定された独立した提案のセットで機能レベルでマルチモダリティをモデル化するように設計されている。 次に、地域ベースのトレーニング戦略を開発し、生成された提案のマルチモーダリティを誘導する。 Argoverseデータセットの実験から,提案モデルが動作予測における最先端性能を実現し,予測された軌道の多様性と精度を大幅に向上させることが示された。 デモビデオとコードはhttps://decisionforc e.github.io/mmtransf ormerで入手できる。

Predicting multiple plausible future trajectories of the nearby vehicles is crucial for the safety of autonomous driving. Recent motion prediction approaches attempt to achieve such multimodal motion prediction by implicitly regularizing the feature or explicitly generating multiple candidate proposals. However, it remains challenging since the latent features may concentrate on the most frequent mode of the data while the proposal-based methods depend largely on the prior knowledge to generate and select the proposals. In this work, we propose a novel transformer framework for multimodal motion prediction, termed as mmTransformer. A novel network architecture based on stacked transformers is designed to model the multimodality at feature level with a set of fixed independent proposals. A region-based training strategy is then developed to induce the multimodality of the generated proposals. Experiments on Argoverse dataset show that the proposed model achieves the state-of-the-art performance on motion prediction, substantially improving the diversity and the accuracy of the predicted trajectories. Demo video and code are available at https://decisionforc e.github.io/mmTransf ormer.
翻訳日:2021-03-23 14:58:57 公開日:2021-03-22
# 教師なし人物再同定のためのインターカメラ内類似性

Intra-Inter Camera Similarity for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2103.11658v1 )

ライセンス: Link先を確認
Shiyu Xuan, Shiliang Zhang(参考訳) 監視されていない人物の再同定(Re-ID)作業の多くは、カメラ間の分布差を考慮せずに特徴の類似度を測定して擬似ラベルを生成する。 本論文は、擬似ラベル生成のための新しいイントラカメラの類似性を研究することで、この問題に対処することを目的とする。 サンプル類似性計算は,それぞれ,カメラ内計算とカメラ間計算の2段階に分解する。 カメラ内計算は、各カメラ内の類似性計算にCNN機能を直接活用する。 異なるカメラで生成された擬似ラベルは、マルチブランチネットワークでre-idモデルを訓練する。 第2段階は、異なるカメラ上の各サンプルの分類スコアを新しい特徴ベクトルとして考える。 この新機能は、カメラ間の分散不一致を効果的に軽減し、より信頼性の高い擬似ラベルを生成する。 そこで我々は、カメラ内とカメラ間擬似ラベルの2段階でre-idモデルを訓練した。 この単純なinter-inter cameraの類似性は、market1501データセットで89.5%のrank-1精度を達成するなど、複数のデータセットで驚くほど優れたパフォーマンスを実現している。

Most of unsupervised person Re-Identification (Re-ID) works produce pseudo-labels by measuring the feature similarity without considering the distribution discrepancy among cameras, leading to degraded accuracy in label computation across cameras. This paper targets to address this challenge by studying a novel intra-inter camera similarity for pseudo-label generation. We decompose the sample similarity computation into two stage, i.e., the intra-camera and inter-camera computations, respectively. The intra-camera computation directly leverages the CNN features for similarity computation within each camera. Pseudo-labels generated on different cameras train the re-id model in a multi-branch network. The second stage considers the classification scores of each sample on different cameras as a new feature vector. This new feature effectively alleviates the distribution discrepancy among cameras and generates more reliable pseudo-labels. We hence train our re-id model in two stages with intra-camera and inter-camera pseudo-labels, respectively. This simple intra-inter camera similarity produces surprisingly good performance on multiple datasets, e.g., achieves rank-1 accuracy of 89.5% on the Market1501 dataset, outperforming the recent unsupervised works by 9+%, and is comparable with the latest transfer learning works that leverage extra annotations.
翻訳日:2021-03-23 14:58:37 公開日:2021-03-22
# Dual SubnetとMulti-Stage Communicated Upsamplingを用いた大動画像超解像

Large Motion Video Super-Resolution with Dual Subnet and Multi-Stage Communicated Upsampling ( http://arxiv.org/abs/2103.11744v1 )

ライセンス: Link先を確認
Hongying Liu, Peng Zhao, Zhubo Ruan, Fanhua Shang, and Yuanyuan Liu(参考訳) video super- resolution (vsr) は低解像度 (lr) のビデオの復元と高解像度 (hr) への改善を目的としている。 ビデオタスクの特徴から,vsrアルゴリズムにおいて,フレーム間の動作情報を十分に考慮し,要約し,指導するために活用することが重要である。 特に、動画が大きな動きを含む場合、従来の手法は、一貫性のない結果やアーティファクトを容易にもたらします。 本稿では,2重サブネットと多段通信アップサンプリング(dsmc)を用いた,大規模動画の超高解像度化のための深層ニューラルネットワークを提案する。 我々は,3次元畳み込み (U3D-RDN) を用いたU字状高密度ネットワークを設計し, 暗黙的な動き推定と動き補償 (MEMC) と粗い空間特徴抽出を行う。 そして、vsrを誘導するアップサンプリングの中間結果をフル活用するために、新しいマルチステージ通信アップサンプリング(mscu)モジュールを提案する。 さらに、DSMCのトレーニングを支援するために、新たな双対サブネットが考案され、二重損失は解空間の低減と一般化能力の向上に寄与する。 実験結果から,本手法は最先端の手法と比較して大きな動作の動画に対して優れた性能を達成できることを確認した。

Video super-resolution (VSR) aims at restoring a video in low-resolution (LR) and improving it to higher-resolution (HR). Due to the characteristics of video tasks, it is very important that motion information among frames should be well concerned, summarized and utilized for guidance in a VSR algorithm. Especially, when a video contains large motion, conventional methods easily bring incoherent results or artifacts. In this paper, we propose a novel deep neural network with Dual Subnet and Multi-stage Communicated Upsampling (DSMC) for super-resolution of videos with large motion. We design a new module named U-shaped residual dense network with 3D convolution (U3D-RDN) for fine implicit motion estimation and motion compensation (MEMC) as well as coarse spatial feature extraction. And we present a new Multi-Stage Communicated Upsampling (MSCU) module to make full use of the intermediate results of upsampling for guiding the VSR. Moreover, a novel dual subnet is devised to aid the training of our DSMC, whose dual loss helps to reduce the solution space as well as enhance the generalization ability. Our experimental results confirm that our method achieves superior performance on videos with large motion compared to state-of-the-art methods.
翻訳日:2021-03-23 14:58:17 公開日:2021-03-22
# デコンボリューション・アンド・コンボリューションネットワーク

Deconvolution-and-co nvolution Networks ( http://arxiv.org/abs/2103.11887v1 )

ライセンス: Link先を確認
Yimin Yang, Wandong Zhang, Jonathan Wu, Will Zhao, Ao Chen(参考訳) 2D畳み込みニューラルネットワーク(CNN)は間違いなくコンピュータビジョンタスクのデファクトスタンダードになっている。 しかし、最近の発見は、CNNが1Dパターン認識の最良の選択肢ではないことを示唆している。特に1M以上のトレーニングサンプルを持つデータセットの場合、例えば、既存のCNNベースの1D信号の方法は、人間の前処理に非常に依存している。 一般的な手法として、離散フーリエ変換(DFT)を用いて1D信号を2D配列に再構成する。 既存の知識に加えて, 深層デコンボリューション畳み込みネットワークを学習し, 1次元ビッグデータ解析のための新しい1次元データ処理アルゴリズムを提案する。 人間の技術に頼るのではなく、1D信号を2Dデータに変換するためにデコンボリューション層を用いた。 デコンボリューションモデルの上に、データは2D CNNによって識別された。 既存の1D信号処理アルゴリズムと比較して、DCNetはより少ない人為的推論と高い一般化性能の利点を誇っている。 分類と回帰から得られた様々なトレーニングパターン(50Kから11M)による実験結果は,新しいアプローチの望ましさを示すものである。

2D Convolutional neural network (CNN) has arguably become the de facto standard for computer vision tasks. Recent findings, however, suggest that CNN may not be the best option for 1D pattern recognition, especially for datasets with over 1 M training samples, e.g., existing CNN-based methods for 1D signals are highly reliant on human pre-processing. Common practices include utilizing discrete Fourier transform (DFT) to reconstruct 1D signal into 2D array. To add to extant knowledge, in this paper, a novel 1D data processing algorithm is proposed for 1D big data analysis through learning a deep deconvolutional-conv olutional network. Rather than resorting to human-based techniques, we employed deconvolution layers to convert 1 D signals into 2D data. On top of the deconvolution model, the data was identified by a 2D CNN. Compared with the existing 1D signal processing algorithms, DCNet boasts the advantages of less human-made inference and higher generalization performance. Our experimental results from a varying number of training patterns (50 K to 11 M) from classification and regression demonstrate the desirability of our new approach.
翻訳日:2021-03-23 14:57:55 公開日:2021-03-22
# ディープグラフネットワークにおける破滅的予測:グラフ分類入門ベンチマーク

Catastrophic Forgetting in Deep Graph Networks: an Introductory Benchmark for Graph Classification ( http://arxiv.org/abs/2103.11750v1 )

ライセンス: Link先を確認
Antonio Carta, Andrea Cossu, Federico Errica, Davide Bacciu(参考訳) 本研究では,グラフ表現学習シナリオにおける破滅的忘れの現象について検討する。 解析の主目的は,フラットデータとシーケンシャルデータに対する古典的連続学習手法が,グラフデータに適用した場合のパフォーマンスに有意な影響を及ぼすか否かを理解することである。 そこで我々は,3つの異なるデータセット上でロバストで制御された環境において,構造非依存モデルとディープグラフネットワークを実験する。 このベンチマークは、構造保存正則化技術が破滅的忘れに及ぼす影響に関する調査によって補完される。 これまでのところ、リプレイは最も効果的な戦略であり、レギュライゼーションの利用から最大限の恩恵を受けています。 本研究は,連続およびグラフ表現学習分野の交点における興味深い今後の研究を示唆する。 最後に、結果を再現し、さらなる実験を行うための柔軟なソフトウェアフレームワークを研究者に提供する。

In this work, we study the phenomenon of catastrophic forgetting in the graph representation learning scenario. The primary objective of the analysis is to understand whether classical continual learning techniques for flat and sequential data have a tangible impact on performances when applied to graph data. To do so, we experiment with a structure-agnostic model and a deep graph network in a robust and controlled environment on three different datasets. The benchmark is complemented by an investigation on the effect of structure-preserving regularization techniques on catastrophic forgetting. We find that replay is the most effective strategy in so far, which also benefits the most from the use of regularization. Our findings suggest interesting future research at the intersection of the continual and graph representation learning fields. Finally, we provide researchers with a flexible software framework to reproduce our results and carry out further experiments.
翻訳日:2021-03-23 14:55:44 公開日:2021-03-22
# スパース軌道データに基づくシミュレーションの学習

Learning to Simulate on Sparse Trajectory Data ( http://arxiv.org/abs/2103.11845v1 )

ライセンス: Link先を確認
Hua Wei, Chacha Chen, Chang Liu, Guanjie Zheng, Zhenhui Li(参考訳) 現実の交通のシミュレーションは、交通政策の検証に役立てることができる。 良いシミュレーターは、シミュレーションされたトラフィックが現実世界の交通に似ており、しばしば現実世界の動的状況をカバーするために密度の高い交通軌跡(サンプリングレートが高い)を必要とすることを意味する。 しかし、ほとんどの場合、現実世界の軌道はスパースであり、シミュレーションは困難である。 本稿では,実世界のスパースデータから運転行動をシミュレートする学習問題に対処するための新しいフレームワーク imingail を提案する。 提案アーキテクチャでは,データ補間と模倣学習の行動学習プロセスが組み込まれている。 私たちの知る限りでは、行動学習問題に対するデータ疎結合問題に最初に取り組みます。 本手法は,運転車両の総合的および実世界の軌道データセットの枠組みを調査し,様々なベースラインや最先端の手法に勝ることを示す。

Simulation of the real-world traffic can be used to help validate the transportation policies. A good simulator means the simulated traffic is similar to real-world traffic, which often requires dense traffic trajectories (i.e., with a high sampling rate) to cover dynamic situations in the real world. However, in most cases, the real-world trajectories are sparse, which makes simulation challenging. In this paper, we present a novel framework ImInGAIL to address the problem of learning to simulate the driving behavior from sparse real-world data. The proposed architecture incorporates data interpolation with the behavior learning process of imitation learning. To the best of our knowledge, we are the first to tackle the data sparsity issue for behavior learning problems. We investigate our framework on both synthetic and real-world trajectory datasets of driving vehicles, showing that our method outperforms various baselines and state-of-the-art methods.
翻訳日:2021-03-23 14:55:33 公開日:2021-03-22
# 潜在ガウス過程によるラヴェンの進行行列の完備化

Raven's Progressive Matrices Completion with Latent Gaussian Process Priors ( http://arxiv.org/abs/2103.12045v1 )

ライセンス: Link先を確認
Fan Shi, Bin Li, Xiangyang Xue(参考訳) 抽象推論能力は人間の知性の基本である。 抽象概念間の関係を解明し、その関係から暗黙の規則を導出することができる。 抽象的な視覚的推論タスクとして、Raven's Progressive Matrices (RPM) はヒトIQテストで広く使われている。 マシンインテリジェンスを用いたrpmソルバに関する広範な研究が行われているが、モデルが暗黙のルールを実際に理解したかどうかを検証できる、より挑戦的な回答ペイント(生成)問題への標準回答選択(分類)問題をさらに進めることを検討している研究は少ない。 本稿では,複数のガウス過程を潜在変数の先行として用い,rpmから基礎となる抽象概念を別々に学習する,深い潜在変数モデルを提案することで,後者を解こうとする。 潜在ガウス過程はまた、学習された概念変化規則に基づく解答絵の効果的な外挿方法も提供する。 連続的に変化する複数の視覚概念を持つRPM型データセット上で提案モデルを評価する。 実験の結果,質の高い回答を描画し,新しいrpmパネルを生成し,概念固有の潜在変数による解釈性を実現するために,トレーニングサンプルは少ないことが判明した。

Abstract reasoning ability is fundamental to human intelligence. It enables humans to uncover relations among abstract concepts and further deduce implicit rules from the relations. As a well-known abstract visual reasoning task, Raven's Progressive Matrices (RPM) are widely used in human IQ tests. Although extensive research has been conducted on RPM solvers with machine intelligence, few studies have considered further advancing the standard answer-selection (classification) problem to a more challenging answer-painting (generating) problem, which can verify whether the model has indeed understood the implicit rules. In this paper we aim to solve the latter one by proposing a deep latent variable model, in which multiple Gaussian processes are employed as priors of latent variables to separately learn underlying abstract concepts from RPMs; thus the proposed model is interpretable in terms of concept-specific latent variables. The latent Gaussian process also provides an effective way of extrapolation for answer painting based on the learned concept-changing rules. We evaluate the proposed model on RPM-like datasets with multiple continuously-changin g visual concepts. Experimental results demonstrate that our model requires only few training samples to paint high-quality answers, generate novel RPM panels, and achieve interpretability through concept-specific latent variables.
翻訳日:2021-03-23 14:55:19 公開日:2021-03-22
# 非線形政策による最適化と探索の明確化

Provably Correct Optimization and Exploration with Non-linear Policies ( http://arxiv.org/abs/2103.11559v1 )

ライセンス: Link先を確認
Fei Feng, Wotao Yin, Alekh Agarwal, Lin F. Yang(参考訳) 政策最適化手法は経験的強化学習(RL)において強力な仕事場であり、複雑で連続的な状態や行動空間を容易に推論できる神経政策に重点を置いている。 しかし、非線形関数近似を用いた政策に基づく手法の戦略的探索に関する理論的理解はほとんど欠落している。 本稿では,批判者に対して非線形関数近似を可能にするアクタ批判手法であるENIACを設計することにより,この問題に対処する。 例えば、批評家クラスに対して有界なeluder次元が$d$であるような仮定の下で、学習者は$o(\poly(d))$の探索ラウンドで最適に近い方針を見つける。 この手法は不特定性をモデル化し、線形関数近似に関する既存の研究を厳密に拡張する。 また,既存の深部RLツールを用いた実験的な適応構築により,統計的保証がわずかに劣る手法の計算最適化も行った。 我々は,この適応を実験的に評価し,非線形関数近似の下でのエージェントの不確かさを正しく推論することで,線形手法にインスパイアされた先行ヒューリスティックスよりも優れていることを示す。

Policy optimization methods remain a powerful workhorse in empirical Reinforcement Learning (RL), with a focus on neural policies that can easily reason over complex and continuous state and/or action spaces. Theoretical understanding of strategic exploration in policy-based methods with non-linear function approximation, however, is largely missing. In this paper, we address this question by designing ENIAC, an actor-critic method that allows non-linear function approximation in the critic. We show that under certain assumptions, e.g., a bounded eluder dimension $d$ for the critic class, the learner finds a near-optimal policy in $O(\poly(d))$ exploration rounds. The method is robust to model misspecification and strictly extends existing works on linear function approximation. We also develop some computational optimizations of our approach with slightly worse statistical guarantees and an empirical adaptation building on existing deep RL tools. We empirically evaluate this adaptation and show that it outperforms prior heuristics inspired by linear methods, establishing the value via correctly reasoning about the agent's uncertainty under non-linear function approximation.
翻訳日:2021-03-23 14:52:38 公開日:2021-03-22
# ディープスパースオートエンコーダを用いた不均衡データの特徴選択

Feature Selection for Imbalanced Data with Deep Sparse Autoencoders Ensemble ( http://arxiv.org/abs/2103.11678v1 )

ライセンス: Link先を確認
Michela C. Massi, Francesca Ieva, Francesca Gasperoni and Anna Maria Paganoni(参考訳) クラス不均衡は、学習アルゴリズムの多くの分野における一般的な問題である。 しばしば、同じ領域において、マイノリティ階級の観察を正しく分類し、プロファイルすることがより関係している。 このニーズに対処するにはFeature Selection (FS) があり、計算コストの削減や推論や解釈可能性の向上など、いくつかの利点がある。 しかし、従来のFS技術は、強い不均衡なデータが存在する場合、準最適になる可能性がある。 そこで本稿では,Deep Sparse AutoEncoders Ensemble (DSAEE) の再構成誤差に基づいて,FSアルゴリズムのランク付け機能の重要性をフィルタする手法を提案する。 各dsaeは多数クラスのみをトレーニングし、両方のクラスを再構築します。 集約された再構成誤差の分析から,少数クラスが値w.r.tの異なる分布を示す特徴を決定する。 過度に表現された特徴は2つの特徴を区別する最も関連する特徴を識別する。 サンプルサイズの異なる高次元データセットを用いた実験において,本アルゴリズムの有効性を実証的に実証し,重要かつ一般化可能な特徴を選択してマイノリティクラスをプロファイルし分類し,他のベンチマークFS法より優れていることを示す。 また,放射線ゲノミクスの応用事例として,その方法論を応用した。

Class imbalance is a common issue in many domain applications of learning algorithms. Oftentimes, in the same domains it is much more relevant to correctly classify and profile minority class observations. This need can be addressed by Feature Selection (FS), that offers several further advantages, s.a. decreasing computational costs, aiding inference and interpretability. However, traditional FS techniques may become sub-optimal in the presence of strongly imbalanced data. To achieve FS advantages in this setting, we propose a filtering FS algorithm ranking feature importance on the basis of the Reconstruction Error of a Deep Sparse AutoEncoders Ensemble (DSAEE). We use each DSAE trained only on majority class to reconstruct both classes. From the analysis of the aggregated Reconstruction Error, we determine the features where the minority class presents a different distribution of values w.r.t. the overrepresented one, thus identifying the most relevant features to discriminate between the two. We empirically demonstrate the efficacy of our algorithm in several experiments on high-dimensional datasets of varying sample size, showcasing its capability to select relevant and generalizable features to profile and classify minority class, outperforming other benchmark FS methods. We also briefly present a real application in radiogenomics, where the methodology was applied successfully.
翻訳日:2021-03-23 14:52:18 公開日:2021-03-22
# 新型コロナウイルス感染予測のための時空間ニューラルネットワーク

Spatio-Temporal Neural Network for Fitting and Forecasting COVID-19 ( http://arxiv.org/abs/2103.11860v1 )

ライセンス: Link先を確認
Yi-Shuai Niu, Wentao Ding, Junpeng Hu, Wenxu Xu and Stephane Canu(参考訳) 我々は、2020年の世界的な新型コロナウイルス感染拡大を予測するため、時空間ニューラルネットワーク(STNN)を構築した。 STNNの基本構造は、時間的データだけでなく空間的特徴も取り入れたリカレントニューラルネットワーク(RNN)に似ている。 2つの改良されたSTNNアーキテクチャであるSTNN with Augmented Space States (STNN-A)とSTNN with Input Gate (STNN-I)を提案する。 STNNとその変種は、Stochastic Gradient Descent (SGD)アルゴリズムと改良された変種(例えばAdam、AdaGrad、RMSProp)を使って訓練することができる。 我々のSTNNモデルは、完全連結ニューラルネットワーク(BPNN)やリカレントニューラルネットワーク(RNN)、古典曲線適合モデル、SEIR力学系モデルなど、いくつかの古典的流行予測モデルと比較される。 数値シミュレーションにより、STNNモデルはより正確なフィッティングと予測を提供し、空間データと時間データの両方を扱うことにより、他の多くのモデルよりも優れていることが示された。

We established a Spatio-Temporal Neural Network, namely STNN, to forecast the spread of the coronavirus COVID-19 outbreak worldwide in 2020. The basic structure of STNN is similar to the Recurrent Neural Network (RNN) incorporating with not only temporal data but also spatial features. Two improved STNN architectures, namely the STNN with Augmented Spatial States (STNN-A) and the STNN with Input Gate (STNN-I), are proposed, which ensure more predictability and flexibility. STNN and its variants can be trained using Stochastic Gradient Descent (SGD) algorithm and its improved variants (e.g., Adam, AdaGrad and RMSProp). Our STNN models are compared with several classical epidemic prediction models, including the fully-connected neural network (BPNN), and the recurrent neural network (RNN), the classical curve fitting models, as well as the SEIR dynamical system model. Numerical simulations demonstrate that STNN models outperform many others by providing more accurate fitting and prediction, and by handling both spatial and temporal data.
翻訳日:2021-03-23 14:51:57 公開日:2021-03-22
# ロバスト分類のための逆最適化混合

Adversarially Optimized Mixup for Robust Classification ( http://arxiv.org/abs/2103.11589v1 )

ライセンス: Link先を確認
Jason Bunk, Srinjoy Chattopadhyay, B. S. Manjunath, Shivkumar Chandrasekaran(参考訳) Mixupは、データポイント間でスムーズな補間予測を行うようにネットワークを訓練するデータ拡張の手順である。 adversarial trainingはデータ拡張の強力な形式であり、各データポイント周辺のコンパクトスペースで最悪の予測を最適化し、ニューラルネットワークによってより堅牢な予測が可能になる。 本稿では,データポイント間の空間を逆探索し,投影勾配降下(PGD)を用いてこれらのアイデアをまとめる。 この研究における基本的なアプローチは、トレーニング中のミックスアップ補間を通じてバックプロパゲーションを活用し、ネットワークが不穏で不一致な予測を行う場所を最適化することである。 さらに、ミックスアップ比の最適化や幾何ラベル割り当てなど、いくつかの修正やニュアンスについても検討し、ネットワークの堅牢性向上への影響について論じる。 CIFAR-10とCIFAR-100の実験では、最近の強力なアンサンブル攻撃であるAutoAttackを含む強力な敵に対する精度が一貫した改善を示した。 私たちのソースコードは再現性のためにリリースされます。

Mixup is a procedure for data augmentation that trains networks to make smoothly interpolated predictions between datapoints. Adversarial training is a strong form of data augmentation that optimizes for worst-case predictions in a compact space around each data-point, resulting in neural networks that make much more robust predictions. In this paper, we bring these ideas together by adversarially probing the space between datapoints, using projected gradient descent (PGD). The fundamental approach in this work is to leverage backpropagation through the mixup interpolation during training to optimize for places where the network makes unsmooth and incongruous predictions. Additionally, we also explore several modifications and nuances, like optimization of the mixup ratio and geometrical label assignment, and discuss their impact on enhancing network robustness. Through these ideas, we have been able to train networks that robustly generalize better; experiments on CIFAR-10 and CIFAR-100 demonstrate consistent improvements in accuracy against strong adversaries, including the recent strong ensemble attack AutoAttack. Our source code would be released for reproducibility.
翻訳日:2021-03-23 14:51:08 公開日:2021-03-22
# PriorityCut: Warp-based Image AnimationのためのOcclusion-guided Regularization

PriorityCut: Occlusion-guided Regularization for Warp-based Image Animation ( http://arxiv.org/abs/2103.11600v1 )

ライセンス: Link先を確認
Wai Ting Cheung, Gyeongsu Chae(参考訳) 画像アニメーションは、駆動映像の動作に従って、ソース画像のビデオを生成する。 State-of-the-the-the -the-art self-supervised image animation approach the source image with the Motion of the driving video and recovery the warping artifacts by inpainting。 これらのアプローチは主に塗布にバニラ畳み込みを使用し、バニラ畳み込みは有効画素と無効画素を区別しない。 その結果、ビジュアルアーティファクトは塗りつぶした後にも目に見えるようになる。 CutMixは、画像のパッチをカット・ミックスする最先端の正規化戦略であり、様々なコンピュータビジョンタスクで広く研究されている。 残りのコンピュータビジョンタスクのうち、ワープベースの画像アニメーションは、カットミックスの効果が未だ研究されていない分野の1つである。 本稿では,ワープ画像のアニメーションに対するCutMixの効果について予備的検討を行う。 我々は,CutMixが画素値だけを改善するのに役立つが,画素間の空間的関係を乱すことを観察した。 そこで本研究では,前景の最大kパーセントのオクルード画素を用いてワープベースの画像アニメーションを規則化する新しい拡張手法であるprioritycutを提案する。 warpベースの画像アニメーションのドメイン知識を活用することで、優先度カットは、さまざまなデータセット上の最先端のwarpベースの画像アニメーションモデルにおけるワーピングアーティファクトを大幅に削減する。

Image animation generates a video of a source image following the motion of a driving video. State-of-the-art self-supervised image animation approaches warp the source image according to the motion of the driving video and recover the warping artifacts by inpainting. These approaches mostly use vanilla convolution for inpainting, and vanilla convolution does not distinguish between valid and invalid pixels. As a result, visual artifacts are still noticeable after inpainting. CutMix is a state-of-the-art regularization strategy that cuts and mixes patches of images and is widely studied in different computer vision tasks. Among the remaining computer vision tasks, warp-based image animation is one of the fields that the effects of CutMix have yet to be studied. This paper first presents a preliminary study on the effects of CutMix on warp-based image animation. We observed in our study that CutMix helps improve only pixel values, but disturbs the spatial relationships between pixels. Based on such observation, we propose PriorityCut, a novel augmentation approach that uses the top-k percent occluded pixels of the foreground to regularize warp-based image animation. By leveraging the domain knowledge in warp-based image animation, PriorityCut significantly reduces the warping artifacts in state-of-the-art warp-based image animation models on diverse datasets.
翻訳日:2021-03-23 14:50:49 公開日:2021-03-22
# セルラーネットワークのための深層強化学習に基づくスマートスケジューリング

Smart Scheduling based on Deep Reinforcement Learning for Cellular Networks ( http://arxiv.org/abs/2103.11542v1 )

ライセンス: Link先を確認
Jian Wang and Chen Xu and Rong Li and Yiqun Ge and Jun Wang(参考訳) シャノン限界に対するシステム性能を改善するため、高度無線リソース管理機構が基本的役割を果たす。 特に、チャネル条件やQoS要件の観点から、異なるユーザ間で無線リソースを割り当てているため、スケジューリングには多くの注意が必要である。 スケジューリングアルゴリズムの難しさは、スループット、公平性、パケット損失率といった複数の目的の間でトレードオフを行う必要があることである。 本稿では,深層強化学習(DRL)に基づくスマートスケジューリング手法を提案する。 パフォーマンス向上の確認だけでなく,エージェントのためのスケーラブルなニューラルネットワーク設計や,仮想環境トレーニングフレームワークなど,実装フレンドリーな設計も提供しています。 スケーラブルなニューラルネットワーク設計により、DRLエージェントは、DRLエージェントの再設計と再トレーニングを必要とせずに、アクティブユーザ数が時間変化している場合に容易に対応できる。 仮想環境においてDRLエージェントをオフラインでトレーニングし、実際に使用する初期バージョンとして使用すると、時間を要するトレーニングによるシステムの性能と堅牢性低下が防止される。 シミュレーションとフィールドテストの両方を通して、DRLベースのスマートスケジューリングが従来のスケジューリング方法より優れており、実用的なシステムで適用可能であることを示す。

To improve the system performance towards the Shannon limit, advanced radio resource management mechanisms play a fundamental role. In particular, scheduling should receive much attention, because it allocates radio resources among different users in terms of their channel conditions and QoS requirements. The difficulties of scheduling algorithms are the tradeoffs need to be made among multiple objectives, such as throughput, fairness and packet drop rate. We propose a smart scheduling scheme based on deep reinforcement learning (DRL). We not only verify the performance gain achieved, but also provide implementation-frien d designs, i.e., a scalable neural network design for the agent and a virtual environment training framework. With the scalable neural network design, the DRL agent can easily handle the cases when the number of active users is time-varying without the need to redesign and retrain the DRL agent. Training the DRL agent in a virtual environment offline first and using it as the initial version in the practical usage helps to prevent the system from suffering from performance and robustness degradation due to the time-consuming training. Through both simulations and field tests, we show that the DRL-based smart scheduling outperforms the conventional scheduling method and can be adopted in practical systems.
翻訳日:2021-03-23 14:49:00 公開日:2021-03-22
# DeLeNoXによる探査創造性変換

Transforming Exploratory Creativity with DeLeNoX ( http://arxiv.org/abs/2103.11715v1 )

ライセンス: Link先を確認
Antonios Liapis, Hector P. Martinez, Julian Togelius and Georgios N. Yannakakis(参考訳) delenox (deep learning novelty explorer) は,その進化する興味深い性質基準に従って,制約された空間で自動的にアーティファクトを生成するシステムである。 DeLeNoXは探索と変換の交互に進行する。 探索段階では、与えられた距離関数を用いて、最大多種多様なアーティファクトの探索を制約処理したノベルティサーチが強化される。 変換フェーズでは、ディープラーニングオートエンコーダが、見つかったアーティファクト間のばらつきを低次元空間に圧縮することを学ぶ。 次に、新たに訓練されたエンコーダを新しい距離関数の基礎として使用し、次の探査フェーズの基準を変換する。 本稿では,2次元アーケード型コンピュータゲームに適した宇宙船の開発にdelenoxを適用した。 また,DeLeNoXは探索的創造性と変換的創造性との区別と,圧縮の進展を推し進めることで,Schmidhuberの創造性理論に関連している。

We introduce DeLeNoX (Deep Learning Novelty Explorer), a system that autonomously creates artifacts in constrained spaces according to its own evolving interestingness criterion. DeLeNoX proceeds in alternating phases of exploration and transformation. In the exploration phases, a version of novelty search augmented with constraint handling searches for maximally diverse artifacts using a given distance function. In the transformation phases, a deep learning autoencoder learns to compress the variation between the found artifacts into a lower-dimensional space. The newly trained encoder is then used as the basis for a new distance function, transforming the criteria for the next exploration phase. In the current paper, we apply DeLeNoX to the creation of spaceships suitable for use in two-dimensional arcade-style computer games, a representative problem in procedural content generation in games. We also situate DeLeNoX in relation to the distinction between exploratory and transformational creativity, and in relation to Schmidhuber's theory of creativity through the drive for compression progress.
翻訳日:2021-03-23 14:48:41 公開日:2021-03-22
# SuSketch:デザインアシスタントとしてのゲームプレイのサロゲートモデル

SuSketch: Surrogate Models of Gameplay as a Design Assistant ( http://arxiv.org/abs/2103.11726v1 )

ライセンス: Link先を確認
Panagiotis Migkotzidis and Antonios Liapis(参考訳) 本稿では、ファーストパーソンシューティングレベルの設計ツールであるSuSketchを紹介する。 SuSketchは、特定のキャラクタークラスの2人のプレイヤーに対してゲームプレイ予測を提供する。 このインターフェースにより、デザイナーは、人工的な知的クリエーターと並行して働き、パス情報、完全なプレイスルーでのプレイヤー間の予測バランス、プレイヤーの死の場所の予測ヒートマップなどの様々なフィードバックを受け取ることができる。 システムはまた、レベルとクラスペアリングの代替案を積極的に設計し、ゲーム予測バランスを改善する提案としてデザイナーに提示する。 SuSketchは、人工プレイトラスの大規模なコーパスでトレーニングされた人間の遊びの代理として、機械学習を混合開始性のある共同創造ツールに統合する新しい方法を提供する。 16人のゲーム開発者によるユーザ調査では、ツールの使用が容易であるだけでなく、susketchをより使いやすく説明しやすいものにする必要性も示された。

This paper introduces SuSketch, a design tool for first person shooter levels. SuSketch provides the designer with gameplay predictions for two competing players of specific character classes. The interface allows the designer to work side-by-side with an artificially intelligent creator and to receive varied types of feedback such as path information, predicted balance between players in a complete playthrough, or a predicted heatmap of the locations of player deaths. The system also proactively designs alternatives to the level and class pairing, and presents them to the designer as suggestions that improve the predicted balance of the game. SuSketch offers a new way of integrating machine learning into mixed-initiative co-creation tools, as a surrogate of human play trained on a large corpus of artificial playtraces. A user study with 16 game developers indicated that the tool was easy to use, but also highlighted a need to make SuSketch more accessible and more explainable.
翻訳日:2021-03-23 14:48:22 公開日:2021-03-22
# DeepOPF-V: AC-OPF問題を効果的に解く

DeepOPF-V: Solving AC-OPF Problems Efficiently ( http://arxiv.org/abs/2103.11793v1 )

ライセンス: Link先を確認
Wanjun Huang, Xiang Pan, Minghua Chen, and Steven H. Low(参考訳) AC最適電力流(AC-OPF)問題は、安定かつ経済的な運用を維持するために、将来的にはより頻繁に解決する必要がある。 この課題に取り組むために,ディープニューラルネットワークを用いた電圧制約方式 (deepopf-v) を提案し,高い計算効率で実現可能な解を求める。 全てのバスの電圧を予測し、残りの全ての変数を取得する。 生成制約を強制する高速後処理法を開発した。 DeepOPF-Vの有効性は、IEEEテストシステムのケーススタディによって検証されている。 既存の手法と比較して、DeepOPF-Vは最先端の計算速度を最大3桁まで向上させ、ソリューションの実現可能性を維持する上で優れた性能を発揮する。

AC optimal power flow (AC-OPF) problems need to be solved more frequently in the future to maintain stable and economic operation. To tackle this challenge, a deep neural network-based voltage-constrained approach (DeepOPF-V) is proposed to find feasible solutions with high computational efficiency. It predicts voltages of all buses and then uses them to obtain all remaining variables. A fast post-processing method is developed to enforce generation constraints. The effectiveness of DeepOPF-V is validated by case studies of several IEEE test systems. Compared with existing approaches, DeepOPF-V achieves a state-of-art computation speedup up to three orders of magnitude and has better performance in preserving the feasibility of the solution.
翻訳日:2021-03-23 14:48:07 公開日:2021-03-22
# ワイヤファイドレーザー添加物製造におけるCNNを用いた包括的プロセスモルテンプール関係モデリング

Comprehensive process-molten pool relations modeling using CNN for wire-feed laser additive manufacturing ( http://arxiv.org/abs/2103.11588v1 )

ライセンス: Link先を確認
Noopur Jamnikar, Sen Liu, Craig Brice, and Xiaoli Zhang(参考訳) wlam(wire-feed laser additive manufacturing)は、高レベルの自動化、高い沈着率、印刷部品の品質により、広く関心を集めている。 材料の品質の不確実性を減少させるプロセス内監視とフィードバックコントロールは、開発の初期段階にある。 機械学習は、プロセス設定入力と材料品質結果との間のプロセス構造と適切な接続をすることで、添加物製造における新しいプロセスとプロパティ設計の採用を加速する能力を提供する。 溶融プール次元情報と温度は、ビルドの高品質化のための指標であり、処理パラメータによって直接制御することができる。 現場品質管理のため, プロセスパラメータは, プロセス, 特に溶融プールから得た情報に基づいて, リアルタイムに制御する必要がある。 したがって, 溶融プール過程の関係は予備的に重要である。 本稿では,wlamシステム内の一連の制御過程パラメータの下,溶融プールから収集したin situセンシングデータを解析する。 溶融プールの定常状態および過渡状態の変化は, 独立したプロセスパラメータの変化について述べる。 計測可能な溶融プールセンサデータから直接制御パラメータを予測し,所望の幾何学的および微構造的特性を達成するために,多モード畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 オーバーフィッティングの問題を避けるため、CNNアーキテクチャにドロップアウトと正規化が適用される。 その結果,画像データから抽出した特徴に対する外部特徴として温度プロファイルを受信するマルチモーダルCNNは,画像に基づく一様CNNアプローチと比較して予測性能が向上したことがわかった。

Wire-feed laser additive manufacturing (WLAM) is gaining wide interest due to its high level of automation, high deposition rates, and good quality of printed parts. In-process monitoring and feedback controls that would reduce the uncertainty in the quality of the material are in the early stages of development. Machine learning promises the ability to accelerate the adoption of new processes and property design in additive manufacturing by making process-structure-pr operty connections between process setting inputs and material quality outcomes. The molten pool dimensional information and temperature are the indicators for achieving the high quality of the build, which can be directly controlled by processing parameters. For the purpose of in situ quality control, the process parameters should be controlled in real-time based on sensed information from the process, in particular the molten pool. Thus, the molten pool-process relations are of preliminary importance. This paper analyzes experimentally collected in situ sensing data from the molten pool under a set of controlled process parameters in a WLAM system. The variations in the steady-state and transient state of the molten pool are presented with respect to the change of independent process parameters. A multi-modality convolutional neural network (CNN) architecture is proposed for predicting the control parameter directly from the measurable molten pool sensor data for achieving desired geometric and microstructural properties. Dropout and regularization are applied to the CNN architecture to avoid the problem of overfitting. The results highlighted that the multi-modal CNN, which receives temperature profile as an external feature to the features extracted from the image data, has improved prediction performance compared to the image-based uni-modality CNN approach.
翻訳日:2021-03-23 14:46:34 公開日:2021-03-22
# 深層学習駆動軌道を用いた適応的劣化過程

Adaptive Degradation Process with Deep Learning-Driven Trajectory ( http://arxiv.org/abs/2103.11598v1 )

ライセンス: Link先を確認
Li Yang(参考訳) RUL(Remaining useful Life)推定は、インテリジェントな予測保守と健康管理の実装において重要な要素である。 ディープニューラルネットワーク(DNN)アプローチは、高次元非線形劣化特徴を扱う能力のため、RUL推定に有効であることが証明されている。 しかし、実際にDNNの応用は2つの課題に直面している: (a) 生涯情報のオンライン更新は利用できないことが多く、(b) 予測値の不確実性は分析的に定量化されない。 本稿では, 適応ドリフトを用いてWienerに基づく劣化モデルを強化し, システム劣化を特徴付けるハイブリッドDNNによる予測手法を提案する。 LSTM-CNNエンコーダデコーダを開発し、ノイズ係数とドリフト係数を併用して将来の劣化軌道を予測し、ベイズ推論により適応ドリフトを更新する。 RUL分布の計算には計算効率のよいアルゴリズムを提案する。 ターボファンエンジン劣化データを用いて数値実験を行い,提案手法のRUL予測の精度を検証した。

Remaining useful life (RUL) estimation is a crucial component in the implementation of intelligent predictive maintenance and health management. Deep neural network (DNN) approaches have been proven effective in RUL estimation due to their capacity in handling high-dimensional non-linear degradation features. However, the applications of DNN in practice face two challenges: (a) online update of lifetime information is often unavailable, and (b) uncertainties in predicted values may not be analytically quantified. This paper addresses these issues by developing a hybrid DNN-based prognostic approach, where a Wiener-based-degrada tion model is enhanced with adaptive drift to characterize the system degradation. An LSTM-CNN encoder-decoder is developed to predict future degradation trajectories by jointly learning noise coefficients as well as drift coefficients, and adaptive drift is updated via Bayesian inference. A computationally efficient algorithm is proposed for the calculation of RUL distributions. Numerical experiments are presented using turbofan engines degradation data to demonstrate the superior accuracy of RUL prediction of our proposed approach.
翻訳日:2021-03-23 14:46:10 公開日:2021-03-22
# d3p -- 異なるプロバビリズムプログラミングのためのPythonパッケージ

d3p -- A Python Package for Differentially-Priva te Probabilistic Programming ( http://arxiv.org/abs/2103.11648v1 )

ライセンス: Link先を確認
Lukas Prediger, Niki Loppi, Samuel Kaski, Antti Honkela(参考訳) 差分プライバシ保証の下で,ランタイムを効率よく適用可能なベイズ推論のフィールド化を支援するソフトウェアパッケージd3pを提案する。 d3pは、微分プライベートな変分推論アルゴリズムを実装することにより、幅広い確率モデル問題に適用可能であり、任意のパラメトリック確率モデルを微分密度関数に適合させることができる。 d3pは、ユーザが柔軟にそのようなモデルを定義する強力な方法として確率的プログラミングパラダイムを採用する。 我々は,階層的ロジスティック回帰の例を用いて,モデリング手法の表現力とパラメータ推定の容易さを示すソフトウェアの使用例を示す。 また、複雑なモデル上でプライベート推論のランタイムを実証的に評価し、TensorFlow Privacyを使った実装と比較して、$\sim$10倍のスピードアップを見出す。

We present d3p, a software package designed to help fielding runtime efficient widely-applicable Bayesian inference under differential privacy guarantees. d3p achieves general applicability to a wide range of probabilistic modelling problems by implementing the differentially private variational inference algorithm, allowing users to fit any parametric probabilistic model with a differentiable density function. d3p adopts the probabilistic programming paradigm as a powerful way for the user to flexibly define such models. We demonstrate the use of our software on a hierarchical logistic regression example, showing the expressiveness of the modelling approach as well as the ease of running the parameter inference. We also perform an empirical evaluation of the runtime of the private inference on a complex model and find an $\sim$10 fold speed-up compared to an implementation using TensorFlow Privacy.
翻訳日:2021-03-23 14:45:50 公開日:2021-03-22
# 分位子条件づけによる限界帰属を伴う深層学習モデルの解釈

Interpreting Deep Learning Models with Marginal Attribution by Conditioning on Quantiles ( http://arxiv.org/abs/2103.11706v1 )

ライセンス: Link先を確認
M. Merz, R. Richman, T. Tsanakas, M.V. W\"uthrich(参考訳) ディープラーニングモデルの説明に関する文献が大幅に増えている。 本稿では,大域的勾配に基づくモデル非依存手法を導入し,量子論の条件付けによるMarginal Attribution(MACQ)と呼ぶ。 我々のアプローチは、個々の特徴(入力)に対する予測(出力)の限界帰属を分析することに基づいている。 具体的には,各領域における特徴の差分が,各領域の差分にどのように寄与するかを,(グローバル)出力レベルを混合することにより,変数の重要性を考察する。 したがって、MACQは、入力を摂動することで出力の感度を研究する蓄積局所効果(ALE)のようなアプローチに匹敵する限界属性と見なすことができる。 さらに、MACQは、個々の特徴の限界属性と相互作用効果を分離し、限界属性、出力レベル、特徴値の3方向の関係を視覚的に表す。

A vastly growing literature on explaining deep learning models has emerged. This paper contributes to that literature by introducing a global gradient-based model-agnostic method, which we call Marginal Attribution by Conditioning on Quantiles (MACQ). Our approach is based on analyzing the marginal attribution of predictions (outputs) to individual features (inputs). Specificalllly, we consider variable importance by mixing (global) output levels and, thus, explain how features marginally contribute across different regions of the prediction space. Hence, MACQ can be seen as a marginal attribution counterpart to approaches such as accumulated local effects (ALE), which study the sensitivities of outputs by perturbing inputs. Furthermore, MACQ allows us to separate marginal attribution of individual features from interaction effect, and visually illustrate the 3-way relationship between marginal attribution, output level, and feature value.
翻訳日:2021-03-23 14:45:36 公開日:2021-03-22
# 治療効果のための高次直交因果学習

Higher-Order Orthogonal Causal Learning for Treatment Effect ( http://arxiv.org/abs/2103.11869v1 )

ライセンス: Link先を確認
Yiyan Huang, Cheuk Hang Leung, Xing Yan, Qi Wu(参考訳) 直交直交スコア関数から回復した因果パラメータ推定に着目した2次/脱バイアス機械学習手法に関する研究がほとんどである。 本稿では,平均治療効果(ate)を推定するための$k^{\mathrm{th}}$-order orthogonal score関数を構築し,スコア関数から回復した偏差推定値を得るアルゴリズムを提案する。 このような高次直交推定器は、一階の値よりも相対性スコアの誤特定に対して強い。 さらに、Lasso、Random Forests、Neural Netsなど、多くの機械学習方法論にも適用可能なメリットがある。 また、シミュレーションデータセットと実データセットの両方を用いてスコア関数から構築した推定器のパワーをテストするための総合実験も実施する。

Most existing studies on the double/debiased machine learning method concentrate on the causal parameter estimation recovering from the first-order orthogonal score function. In this paper, we will construct the $k^{\mathrm{th}}$-order orthogonal score function for estimating the average treatment effect (ATE) and present an algorithm that enables us to obtain the debiased estimator recovered from the score function. Such a higher-order orthogonal estimator is more robust to the misspecification of the propensity score than the first-order one does. Besides, it has the merit of being applicable with many machine learning methodologies such as Lasso, Random Forests, Neural Nets, etc. We also undergo comprehensive experiments to test the power of the estimator we construct from the score function using both the simulated datasets and the real datasets.
翻訳日:2021-03-23 14:45:20 公開日:2021-03-22
# 音声・音声分類のための自己ペースアンサンブル学習

Self-paced ensemble learning for speech and audio classification ( http://arxiv.org/abs/2103.11988v1 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Radu Tudor Ionescu(参考訳) 複数の機械学習モデルをアンサンブルに組み合わせることで、アンサンブルを構成する個々のコンポーネントよりも優れたパフォーマンスレベルを提供できることが知られている。 これは、モデルがより良い決定を下す際に相互に補完できるためです。 モデルを単に組み合わせるのではなく、数回の反復でモデル同士から学習する自己組織化学習方式を提案する。 擬似ラベルに基づく自己評価学習プロセスでは,個々のモデルの改善に加えて,対象ドメインに関する知識も得られる。 本研究では,SPEL方式の汎用性を示すために,3つの音声タスクについて実験を行った。 実験の結果,SPELはベースラインアンサンブルモデルよりも有意に優れていた。 また,各モデルに自己ペース学習を適用することは効果が低く,アンサンブル内のモデルが互いに学習するという考えを示す。

Combining multiple machine learning models into an ensemble is known to provide superior performance levels compared to the individual components forming the ensemble. This is because models can complement each other in taking better decisions. Instead of just combining the models, we propose a self-paced ensemble learning scheme in which models learn from each other over several iterations. During the self-paced learning process based on pseudo-labeling, in addition to improving the individual models, our ensemble also gains knowledge about the target domain. To demonstrate the generality of our self-paced ensemble learning (SPEL) scheme, we conduct experiments on three audio tasks. Our empirical results indicate that SPEL significantly outperforms the baseline ensemble models. We also show that applying self-paced learning on individual models is less effective, illustrating the idea that models in the ensemble actually learn from each other.
翻訳日:2021-03-23 14:45:08 公開日:2021-03-22
# 空間ホットスポットマッピングのための統計的ロバストクラスタリング手法:サーベイ

Statistically-Robust Clustering Techniques for Mapping Spatial Hotspots: A Survey ( http://arxiv.org/abs/2103.12019v1 )

ライセンス: Link先を確認
Yiqun Xie, Shashi Shekhar, Yan Li(参考訳) 公共衛生、公共安全、交通、農業、環境科学など、様々な社会分野において、空間ホットスポットのマッピング、すなわち、特定の事象を発生させる確率密度が著しく高い地域(例えば、病気や犯罪)は重要な課題である。 これらのドメインに必要なクラスタリング技術は、スプリアス結果(例えば犯罪クラスターの誤報)の経済的・社会的コストが高いため、従来のクラスタリング方法とは異なる。 その結果,突発的な検出率を制御するためには,統計的厳密性が必要である。 この課題に対処するために、統計ロバストクラスタリングの技術はデータマイニングと統計コミュニティによって広く研究されてきた。 本調査では,本分野で開発されたモデルとアルゴリズムについて,最新かつ詳細なレビューを行う。 まず,データと統計モデリング,領域列挙と最大化,重要度テスト,データ更新の重要なステップを網羅した,統計厳密なクラスタリングプロセスの一般的な分類法を提案する。 さらに,各ステップにおいて異なるパラダイムとメソッドについて論じる。 最後に、この成長する分野における新しいアイデアと思考を生み出すための足掛かりとなるかもしれない研究のギャップと将来的な方向性を強調します。

Mapping of spatial hotspots, i.e., regions with significantly higher rates or probability density of generating certain events (e.g., disease or crime cases), is a important task in diverse societal domains, including public health, public safety, transportation, agriculture, environmental science, etc. Clustering techniques required by these domains differ from traditional clustering methods due to the high economic and social costs of spurious results (e.g., false alarms of crime clusters). As a result, statistical rigor is needed explicitly to control the rate of spurious detections. To address this challenge, techniques for statistically-robust clustering have been extensively studied by the data mining and statistics communities. In this survey we present an up-to-date and detailed review of the models and algorithms developed by this field. We first present a general taxonomy of the clustering process with statistical rigor, covering key steps of data and statistical modeling, region enumeration and maximization, significance testing, and data update. We further discuss different paradigms and methods within each of key steps. Finally, we highlight research gaps and potential future directions, which may serve as a stepping stone in generating new ideas and thoughts in this growing field and beyond.
翻訳日:2021-03-23 14:44:54 公開日:2021-03-22
# 前向きランキング問題としてのグリオーマ成長予測の評価

Evaluating glioma growth predictions as a forward ranking problem ( http://arxiv.org/abs/2103.11651v1 )

ライセンス: Link先を確認
Karin A. van Garderen, Sebastian R. van der Voort, Maarten M.J. Wijnenga, Fatih Incekara, Georgios Kapsas, Renske Gahrmann, Ahmad Alafandi, Marion Smits, Stefan Klein(参考訳) 腫瘍増殖予測の問題は難しいが, モデル駆動法と統計的手法の両方で有望な結果が得られた。 本稿では,空間的浸透パターンに着目した成長予測の評価,特に今後の成長予測を評価するための枠組みを提案する。 我々は,この問題をセグメンテーション問題ではなくランキング問題として捉えることを提案する。 平均精度を指標として,全時空間予測を用いてセグメンテーションによる結果評価を行うことができる。 さらに,将来の予測性能からモデル適合性を分離することにより,モデルパラメータの適合性の向上が予測能力の向上を保証するものではないことを示す。

The problem of tumor growth prediction is challenging, but promising results have been achieved with both model-driven and statistical methods. In this work, we present a framework for the evaluation of growth predictions that focuses on the spatial infiltration patterns, and specifically evaluating a prediction of future growth. We propose to frame the problem as a ranking problem rather than a segmentation problem. Using the average precision as a metric, we can evaluate the results with segmentations while using the full spatiotemporal prediction. Furthermore, by separating the model goodness-of-fit from future predictive performance, we show that in some cases, a better fit of model parameters does not guarantee a better the predictive power.
翻訳日:2021-03-23 14:44:19 公開日:2021-03-22
# 胸部CT画像におけるマルチタスク分類ネットワークとトポロジー再構成に基づく肺動脈・静脈分離自動アルゴリズム

Automatic Pulmonary Artery and Vein Separation Algorithm Based on Multitask Classification Network and Topology Reconstruction in Chest CT Images ( http://arxiv.org/abs/2103.11736v1 )

ライセンス: Link先を確認
Lin Pan, Yaoyong Zheng, Liqin Huang, Liuqing Chen, Zhen Zhang, Rongda Fu, Bin Zheng, Shaohua Zheng(参考訳) 医療用コンピュータ支援診断システムの開発により,術前肺癌手術計画において,肺動脈vein(a/v)再建が重要な役割を担っている。 しかし,胸部CT像では,動脈と静脈の類似性や複雑な構造のため,動脈と静脈灌流の区別が困難である。 胸部CT像から肺動脈と静脈を自動的に分離する新しい方法を提案する。 方法は3つの部分からなる。 まず,グローバル接続情報と局所特徴情報を用いて完全なトポロジカルツリーを構築し,船体復元の継続性を確保する。 第2に,提案するマルチタスク分類ネットワークは,動脈と静脈の差異を異なるスケールで自動的に学習し,終末血管特性の変化による分類誤差を低減できる。 最後に、トポロジオプティマイザは、A/V灌流の誤分類を避けるために、空間的整合性を維持するために、インターブランチとイントラブランチのトポロジ的関係を考察する。 胸部CT画像における本法の有効性を検証した。 手動分類と比較すると,非コントラスト胸部ctでは平均96.2%の精度が得られた。 さらに、他の装置および他のモードからのCTスキャンにおいて、93.8%と94.8%の精度がそれぞれ良い一般化があることが証明されている。 本法により得られた肺動脈・静脈再建術の結果は,術前の肺癌手術計画に有効である。

With the development of medical computer-aided diagnostic systems, pulmonary artery-vein(A/V) reconstruction plays a crucial role in assisting doctors in preoperative planning for lung cancer surgery. However, distinguishing arterial from venous irrigation in chest CT images remains a challenge due to the similarity and complex structure of the arteries and veins. We propose a novel method for automatic separation of pulmonary arteries and veins from chest CT images. The method consists of three parts. First, global connection information and local feature information are used to construct a complete topological tree and ensure the continuity of vessel reconstruction. Second, the multitask classification network proposed can automatically learn the differences between arteries and veins at different scales to reduce classification errors caused by changes in terminal vessel characteristics. Finally, the topology optimizer considers interbranch and intrabranch topological relationships to maintain spatial consistency to avoid the misclassification of A/V irrigations. We validate the performance of the method on chest CT images. Compared with manual classification, the proposed method achieves an average accuracy of 96.2% on noncontrast chest CT. In addition, the method has been proven to have good generalization, that is, the accuracies of 93.8% and 94.8% are obtained for CT scans from other devices and other modes, respectively. The result of pulmonary artery-vein reconstruction obtained by the proposed method can provide better assistance for preoperative planning of lung cancer surgery.
翻訳日:2021-03-23 14:44:08 公開日:2021-03-22
# 機械学習によるモータシステムの計測とモデル化

Measuring and modeling the motor system with machine learning ( http://arxiv.org/abs/2103.11775v1 )

ライセンス: Link先を確認
S\'ebastien B. Hausmann and Alessandro Marin Vargas and Alexander Mathis and Mackenzie W. Mathis(参考訳) モーターシステムの理解における機械学習の有用性は、データの収集、測定、分析の方法に革命をもたらすことを約束している。 運動科学の分野は、すでに理論と工学の原則をエレガントに取り入れて実験作業を導いており、本論では、ポーズ推定、運動解析、次元減少、閉ループフィードバックなど、機械学習の増大を論じ、ニューラルネットワークの相関関係や無拘束な感覚運動系を理解するための利用について論じる。 また, マーカーレスモーションキャプチャと生体力学的モデリング, ニューラルネットワークを組み合わせることで, 仮説駆動型研究の新たなプラットフォームとなる可能性についても考察した。

The utility of machine learning in understanding the motor system is promising a revolution in how to collect, measure, and analyze data. The field of movement science already elegantly incorporates theory and engineering principles to guide experimental work, and in this review we discuss the growing use of machine learning: from pose estimation, kinematic analyses, dimensionality reduction, and closed-loop feedback, to its use in understanding neural correlates and untangling sensorimotor systems. We also give our perspective on new avenues where markerless motion capture combined with biomechanical modeling and neural networks could be a new platform for hypothesis-driven research.
翻訳日:2021-03-23 14:43:44 公開日:2021-03-22
# フェデレーション量子機械学習

Federated Quantum Machine Learning ( http://arxiv.org/abs/2103.12010v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen, Shinjae Yoo(参考訳) 複数の量子コンピュータにまたがる分散トレーニングは、トレーニング時間を大幅に改善し、データではなく学習モデルを共有できれば、データの位置でトレーニングが行われるため、データのプライバシが向上する可能性があります。 しかしながら、私たちの知る限りでは、フェデレーション設定における量子機械学習(QML)の研究はまだ行われていない。 本稿では,ハイブリッド量子古典的機械学習モデルの連合学習について述べるが,その枠組みは純粋量子機械学習モデルに一般化できる。 具体的には、量子ニューラルネットワーク(QNN)と古典的事前学習畳み込みモデルについて考察する。 分散フェデレーション学習方式では,トレーニングモデルの精度がほぼ同じであり,分散トレーニングも大幅に向上した。 これは、スケーリングとプライバシーに関する将来的な研究の方向性を示すものだ。

Distributed training across several quantum computers could significantly improve the training time and if we could share the learned model, not the data, it could potentially improve the data privacy as the training would happen where the data is located. However, to the best of our knowledge, no work has been done in quantum machine learning (QML) in federation setting yet. In this work, we present the federated training on hybrid quantum-classical machine learning models although our framework could be generalized to pure quantum machine learning model. Specifically, we consider the quantum neural network (QNN) coupled with classical pre-trained convolutional model. Our distributed federated learning scheme demonstrated almost the same level of trained model accuracies and yet significantly faster distributed training. It demonstrates a promising future research direction for scaling and privacy aspects.
翻訳日:2021-03-23 14:43:17 公開日:2021-03-22
# ベトナムのソーシャルメディアテキストにおけるヘイトスピーチ検出のための大規模データセット

A Large-scale Dataset for Hate Speech Detection on Vietnamese Social Media Texts ( http://arxiv.org/abs/2103.11528v1 )

ライセンス: Link先を確認
Son T. Luu, Kiet Van Nguyen and Ngan Luu-Thuy Nguyen(参考訳) 近年、ベトナムはFacebook、Youtube、Instagram、Tiktokなど、さまざまなソーシャルプラットフォーム上でのソーシャルネットワークユーザーの大量開発を目撃している。 ソーシャルメディアでは、ヘイトスピーチがソーシャルネットワークユーザーにとって重要な問題となっている。 この問題を解決するために、ソーシャルネットワーク上でヘイトスピーチを自動的に検出する人間のアノテーション付きデータセットViHSDを導入する。 このデータセットには30,000以上のコメントが含まれており、データセットの各コメントにはCLEAN、OFENSIVE、HATEの3つのラベルの1つが含まれている。 さらに,データセットの品質をアノテートし,評価するためのデータ生成プロセスについても紹介する。 最後に,ディープラーニングモデルとトランスフォーマーモデルによるデータセットの評価を行った。

In recent years, Vietnam witnesses the mass development of social network users on different social platforms such as Facebook, Youtube, Instagram, and Tiktok. On social medias, hate speech has become a critical problem for social network users. To solve this problem, we introduce the ViHSD - a human-annotated dataset for automatically detecting hate speech on the social network. This dataset contains over 30,000 comments, each comment in the dataset has one of three labels: CLEAN, OFFENSIVE, or HATE. Besides, we introduce the data creation process for annotating and evaluating the quality of the dataset. Finally, we evaluated the dataset by deep learning models and transformer models.
翻訳日:2021-03-23 14:40:39 公開日:2021-03-22
# ソーシャルメディア支援危機管理のための教師付き分類と教師なしトピックモデリングのギャップを埋める

Bridging the gap between supervised classification and unsupervised topic modelling for social-media assisted crisis management ( http://arxiv.org/abs/2103.11835v1 )

ライセンス: Link先を確認
Mikael Brunila, Rosie Zhao, Andrei Mircea, Sam Lumley, Renee Sieber(参考訳) Twitterのようなソーシャルメディアは、災害時の危機管理者や被災者に貴重な情報を提供している。 機械学習は、危機時に共有される大量のメッセージから情報を構造化し抽出するのに役立つが、危機の絶え間なく進化する性質によって、効果的なドメイン適応が不可欠となる。 教師付き分類は、新しいイベントとは関係のない変更不能なクラスラベルと、事前知識不足による教師なしトピックモデリングによって制限される。 本稿では,危機関連ツイート分類を微調整したBERT埋め込みが,新たな危機に適応し,教師付きトレーニングから関連クラスを保ちながら新たなトピックを発見できることを示すとともに,トピックキーワードの抽出に双方向自己認識を活用する。 スノーストームからツイートのデータセットを作成し、新しい危機への移管可能性を評価し、危機マネージャのニーズに基づく自動的、人的評価の両方において、従来のトピックモデルよりも優れています。 より広義には、潜在クラスが未知であるが、他のドメインからの既知のクラスと重複するテキストドメイン適応に、本手法を用いることができる。

Social media such as Twitter provide valuable information to crisis managers and affected people during natural disasters. Machine learning can help structure and extract information from the large volume of messages shared during a crisis; however, the constantly evolving nature of crises makes effective domain adaptation essential. Supervised classification is limited by unchangeable class labels that may not be relevant to new events, and unsupervised topic modelling by insufficient prior knowledge. In this paper, we bridge the gap between the two and show that BERT embeddings finetuned on crisis-related tweet classification can effectively be used to adapt to a new crisis, discovering novel topics while preserving relevant classes from supervised training, and leveraging bidirectional self-attention to extract topic keywords. We create a dataset of tweets from a snowstorm to evaluate our method's transferability to new crises, and find that it outperforms traditional topic models in both automatic, and human evaluations grounded in the needs of crisis managers. More broadly, our method can be used for textual domain adaptation where the latent classes are unknown but overlap with known classes from other domains.
翻訳日:2021-03-23 14:40:29 公開日:2021-03-22
# 栄養胞:セグメント構成による健康研究の要約

Nutri-bullets: Summarizing Health Studies by Composing Segments ( http://arxiv.org/abs/2103.11921v1 )

ライセンス: Link先を確認
Darsh J Shah, Lili Yu, Tao Lei and Regina Barzilay(参考訳) 健康と栄養に関するマルチドキュメント要約タスクである \emph{nutri-bullets} を紹介する。 まず、複数の科学的研究から、食品と健康に関する2つのデータセットを提示する。 さらに,制限された並列データのレジームにおける問題を解くために,新しい \emph{extract-compose}モデルを提案する。 ポリシーネットワークを用いて、いくつかの抽象概念からキースパンを明示的に選択し、次に選択したスパンを作成し、タスク固有の言語モデルを通して要約を提示する。 最先端の手法と比較して、このアプローチはより忠実で関連性があり、多種多様な要約をもたらします。 例えば、BreastCancerデータセットでは、私たちのアプローチは、関連性と忠実性に関して50%以上改善されています。

We introduce \emph{Nutri-bullets}, a multi-document summarization task for health and nutrition. First, we present two datasets of food and health summaries from multiple scientific studies. Furthermore, we propose a novel \emph{extract-compose} model to solve the problem in the regime of limited parallel data. We explicitly select key spans from several abstracts using a policy network, followed by composing the selected spans to present a summary via a task specific language model. Compared to state-of-the-art methods, our approach leads to more faithful, relevant and diverse summarization -- properties imperative to this application. For instance, on the BreastCancer dataset our approach gets a more than 50\% improvement on relevance and faithfulness.\footno te{Our code and data is available at \url{https://github.com/d arsh10/Nutribullets. }}
翻訳日:2021-03-23 14:40:08 公開日:2021-03-22
# Dense Retrievalによるテーブル上のオープンドメイン質問応答

Open Domain Question Answering over Tables via Dense Retrieval ( http://arxiv.org/abs/2103.12011v1 )

ライセンス: Link先を確認
Jonathan Herzig, Thomas M\"uller, Syrine Krichene, Julian Martin Eisenschlos(参考訳) オープンドメインQAの最近の進歩は、高密度検索に基づく強力なモデルをもたらすが、テキストパスの検索のみに焦点を当てている。 本研究では,テーブル上のオープンドメインQAに初めて取り組み,表のコンテキストを扱うように設計された検索器によって検索を改善することを示す。 本稿では,検索者に対して有効な事前学習手法を提案し,マイニングされたハードネガティブを用いて検索品質を向上させる。 関連するデータセットが欠落しているため、自然質問(Kwiatkowskiら、2019年)のサブセットをテーブルQAデータセットに抽出します。 結果が72.0から81.1 リコール@10に改善され,エンドツーエンドのqa結果が33.8から37.7に向上した。

Recent advances in open-domain QA have led to strong models based on dense retrieval, but only focused on retrieving textual passages. In this work, we tackle open-domain QA over tables for the first time, and show that retrieval can be improved by a retriever designed to handle tabular context. We present an effective pre-training procedure for our retriever and improve retrieval quality with mined hard negatives. As relevant datasets are missing, we extract a subset of Natural Questions (Kwiatkowski et al., 2019) into a Table QA dataset. We find that our retriever improves retrieval results from 72.0 to 81.1 recall@10 and end-to-end QA results from 33.8 to 37.7 exact match, over a BERT based retriever.
翻訳日:2021-03-23 14:39:49 公開日:2021-03-22
# 完全可観測非決定性ドメインモデルにおけるltlf/pltlf目標の認識

Recognizing LTLf/PLTLf Goals in Fully Observable Non-Deterministic Domain Models ( http://arxiv.org/abs/2103.11692v1 )

ライセンス: Link先を確認
Ramon Fraga Pereira, Francesco Fuggitti, and Giuseppe De Giacomo(参考訳) 目標認識 (Goal Recognition) とは、エージェントが目標のセット、ドメインモデル、そして環境の中で実行されている計画のサンプルとして一連の観測を与えられた上で達成しようとする意図された目標を識別するタスクである。 既存のアプローチでは、可能なゴールは決定論的設定で結合として形式化されていると仮定している。 本稿では,線形時間論理 (LTLf) と (Pure) 過去の線形時間論理 (PLTLf) で表される有限トレースの目標に着目し,完全可観測非決定論的(FOND)計画領域モデルにおける時間的拡張目標を認識可能な新しいアプローチを開発する。 我々は6つの共通FOND計画領域モデルに対して異なるLTLfとPLTLfの目標を用いて目標認識アプローチを実証的に評価し、その手法が観測可能性の異なる時間的拡張目標を認識可能であることを示す。

Goal Recognition is the task of discerning the correct intended goal that an agent aims to achieve, given a set of possible goals, a domain model, and a sequence of observations as a sample of the plan being executed in the environment. Existing approaches assume that the possible goals are formalized as a conjunction in deterministic settings. In this paper, we develop a novel approach that is capable of recognizing temporally extended goals in Fully Observable Non-Deterministic (FOND) planning domain models, focusing on goals on finite traces expressed in Linear Temporal Logic (LTLf) and (Pure) Past Linear Temporal Logic (PLTLf). We empirically evaluate our goal recognition approach using different LTLf and PLTLf goals over six common FOND planning domain models, and show that our approach is accurate to recognize temporally extended goals at several levels of observability.
翻訳日:2021-03-23 14:39:19 公開日:2021-03-22
# 時間文接地のための文脈認識型バイファイン位置決めネットワーク

Context-aware Biaffine Localizing Network for Temporal Sentence Grounding ( http://arxiv.org/abs/2103.11555v1 )

ライセンス: Link先を確認
Daizong Liu, Xiaoye Qu, Jianfeng Dong, Pan Zhou, Yu Cheng, Wei Wei, Zichuan Xu, Yulai Xie(参考訳) 本稿では,未編集ビデオから特定のセグメントの時間的境界を文問合せによって識別することを目的とした,時間的文接地(TSG)の問題に対処する。 以前の作業では、事前に定義された候補セグメントをクエリと比較し、ランク付けによって最適なセグメントを選択するか、あるいはターゲットセグメントの境界タイムスタンプを直接回帰する。 本稿では,ビデオ内の開始と終了のすべての指標を,バイファイン機構と同時にスコアする,新しいローカライゼーションフレームワークを提案する。 特に,ローカルとグローバルの両方のコンテキストを,バイアフィンベースのローカライズのための各開始/終了位置の特徴に組み込むコンテキストアウェアバイアフィンローカライズネットワーク(cbln)を提案する。 隣接するフレームからの局所的なコンテキストは視覚的に類似した外観を区別するのに役立ち、ビデオ全体からの全体的コンテキストは時間的関係の推論に寄与する。 さらに,このバイアフィン戦略に対して,詳細なクエリ誘導ビデオ表現を提供するマルチモーダルセルフアテンションモジュールも開発した。 大規模な実験により、我々のCBLNは3つの公開データセット(ActivityNet Captions、TACoS、Charades-STA)の最先端を著しく上回り、提案したローカライゼーションフレームワークの有効性を示した。

This paper addresses the problem of temporal sentence grounding (TSG), which aims to identify the temporal boundary of a specific segment from an untrimmed video by a sentence query. Previous works either compare pre-defined candidate segments with the query and select the best one by ranking, or directly regress the boundary timestamps of the target segment. In this paper, we propose a novel localization framework that scores all pairs of start and end indices within the video simultaneously with a biaffine mechanism. In particular, we present a Context-aware Biaffine Localizing Network (CBLN) which incorporates both local and global contexts into features of each start/end position for biaffine-based localization. The local contexts from the adjacent frames help distinguish the visually similar appearance, and the global contexts from the entire video contribute to reasoning the temporal relation. Besides, we also develop a multi-modal self-attention module to provide fine-grained query-guided video representation for this biaffine strategy. Extensive experiments show that our CBLN significantly outperforms state-of-the-arts on three public datasets (ActivityNet Captions, TACoS, and Charades-STA), demonstrating the effectiveness of the proposed localization framework.
翻訳日:2021-03-23 14:32:10 公開日:2021-03-22
# 教師なし人物再同定のためのクラスタコントラスト

Cluster Contrast for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2103.11568v1 )

ライセンス: Link先を確認
Zuozhuo Dai, Guangyuan Wang, Siyu Zhu, Weihao Yuan, Ping Tan(参考訳) 非監督的人物再識別(re-ID)は産業における実践的応用により注目が集まる。 最先端の教師なしre-ID手法は、メモリベースの非パラメトリックソフトマックス損失を用いてニューラルネットワークを訓練する。 彼らは事前に計算済みのインスタンス特徴ベクトルをメモリ内に格納し、us-ingクラスタリングアルゴリズムに擬似ラベルを割り当て、コントラスト損失の形式でクエリインスタンスをクラスタと比較する。 トレーニング中、インスタンス機能ベクトルが更新される。 いずれにせよ、クラスタサイズが異なるため、各クラスタの更新進捗は不整合である。 この問題を解決するために,特徴ベクトルを格納し,クラスタレベルでのコントラスト損失を計算したクラスタコントラストを示す。 We demonstratethat the inconsistency problem for cluster feature represen-tation can be solved by the cluster-level memory dictionary.By straightforwardly applying Cluster Contrast to a stan-dard unsupervised re-ID pipeline, it achieves considerableimprovem ents of 9.5%, 7.5%, 6.6% compared to state-of-the-art purely unsupervised re-ID methods and 5.1%, 4.0%,6.5% mAP compared to the state-of-the-art unsuperviseddomain adaptation re-ID methods on the Market, Duke, andMSMT17 datasets.Our source code is available at https://github.com/w angguangyuan/Cluster Contrast.git.

Unsupervised person re-identification (re-ID) attractsincreasing attention due to its practical applications in in-dustry. State-of-the-art unsupervised re-ID methods trainthe neural networks using a memory-based non-parametricsoftma x loss. They store the pre-computed instance featurevectors inside the memory, assign pseudo labels to them us-ing clustering algorithm, and compare the query instancesto the cluster using a form of contrastive loss. Duringtraining, the instance feature vectors are updated. How-ever, due to the varying cluster size, the updating progressfor each cluster is inconsistent. To solve this problem, wepresent Cluster Contrast which stores feature vectors andcomputes contrast loss in the cluster level. We demonstratethat the inconsistency problem for cluster feature represen-tation can be solved by the cluster-level memory dictionary.By straightforwardly applying Cluster Contrast to a stan-dard unsupervised re-ID pipeline, it achieves considerableimprovem ents of 9.5%, 7.5%, 6.6% compared to state-of-the-art purely unsupervised re-ID methods and 5.1%, 4.0%,6.5% mAP compared to the state-of-the-art unsuperviseddomain adaptation re-ID methods on the Market, Duke, andMSMT17 datasets.Our source code is available at https://github.com/w angguangyuan/Cluster Contrast.git.
翻訳日:2021-03-23 14:31:45 公開日:2021-03-22
# 分散伝送と正規化:平均勾配のシフトがネットワークの崩壊を引き起こす

Delving into Variance Transmission and Normalization: Shift of Average Gradient Makes the Network Collapse ( http://arxiv.org/abs/2103.11590v1 )

ライセンス: Link先を確認
Yuxiang Liu, Jidong Ge, Chuanyi Li, and Jie Gui(参考訳) 正規化操作は最先端のニューラルネットワークにとって不可欠であり、大きな学習率(LR)でネットワークをゼロからトレーニングすることができる。 本稿では, BN と重み正規化 (WN) の関係について検討し, 分散伝達の観点からのバッチ正規化 (BN) の実効性を説明する。 本研究では,平均勾配のシフトの問題は,すべての畳み込み(conv)層の分散を増幅することを示す。 本稿では,コンブフィルタの高速かつ堅牢なミニバッチサイズモジュールであるPWS(Parametric Weights Standardization)を提案する。 PWS は BN の高速化を提供することができる。 さらに、計算量が減り、conv層の出力が変更されない。 PWSは、出力を正規化せずにネットワークを高速に収束させることができる。 この結果は平均勾配のシフトの説得性を高め、BNが分散伝達の観点から機能する理由を説明する。 コードと付録はhttps://github.com/l yxzzz/PWSConv.comで入手できる。

Normalization operations are essential for state-of-the-art neural networks and enable us to train a network from scratch with a large learning rate (LR). We attempt to explain the real effect of Batch Normalization (BN) from the perspective of variance transmission by investigating the relationship between BN and Weights Normalization (WN). In this work, we demonstrate that the problem of the shift of the average gradient will amplify the variance of every convolutional (conv) layer. We propose Parametric Weights Standardization (PWS), a fast and robust to mini-batch size module used for conv filters, to solve the shift of the average gradient. PWS can provide the speed-up of BN. Besides, it has less computation and does not change the output of a conv layer. PWS enables the network to converge fast without normalizing the outputs. This result enhances the persuasiveness of the shift of the average gradient and explains why BN works from the perspective of variance transmission. The code and appendix will be made available on https://github.com/l yxzzz/PWSConv.
翻訳日:2021-03-23 14:31:26 公開日:2021-03-22
# 深部ニューラルネットワークによる蛍光顕微鏡画像へのメタ構造学習

Deep Neural Networks Learn Meta-Structures to Segment Fluorescence Microscopy Images ( http://arxiv.org/abs/2103.11594v1 )

ライセンス: Link先を確認
Yaoru Luo, Guole Liu, Wenjing Li, Yuanhao Guo and Ge Yang(参考訳) 蛍光顕微鏡画像は生命科学における生体医学過程の空間的・時空間的情報を捉える重要な役割を担っている。 これらの単純な構造と意味は、ディープニューラルネットワーク(DNN)の学習行動を解明する上で、ユニークな利点をもたらす。 正確な画像分割のためのdnnの訓練には、正確な画像アノテーションが必要であると一般的に仮定される。 しかし本研究では,2値ラベルのほぼ半分 (49%) がランダムに反転したラベル画像で訓練されたdnnが,ほぼ同じセグメンテーション性能をもたらすことがわかった。 これはdnnが蛍光顕微鏡像を分割するためにピクセルレベルラベルではなくハイレベル構造を学ぶことを示唆している。 これらの構造をメタ構造と呼ぶ。 メタ構造の存在を支持するために、DNNが徐々に少ないメタ構造情報を持つ一連のラベル画像によって訓練されると、そのセグメンテーション性能は徐々に劣化する。 ランダムラベルで学習したdnnの学習行動とメタ構造の特徴に動機づけられ,教師なしセグメンテーションモデルを提案する。 実験により, 教師付きセグメンテーションモデルと比較して, 極めて高い競争性能を示した。

Fluorescence microscopy images play the critical role of capturing spatial or spatiotemporal information of biomedical processes in life sciences. Their simple structures and semantics provide unique advantages in elucidating learning behavior of deep neural networks (DNNs). It is generally assumed that accurate image annotation is required to train DNNs for accurate image segmentation. In this study, however, we find that DNNs trained by label images in which nearly half (49%) of the binary pixel labels are randomly flipped provide largely the same segmentation performance. This suggests that DNNs learn high-level structures rather than pixel-level labels per se to segment fluorescence microscopy images. We refer to these structures as meta-structures. In support of the existence of the meta-structures, when DNNs are trained by a series of label images with progressively less meta-structure information, we find progressive degradation in their segmentation performance. Motivated by the learning behavior of DNNs trained by random labels and the characteristics of meta-structures, we propose an unsupervised segmentation model. Experiments show that it achieves remarkably competitive performance in comparison to supervised segmentation models.
翻訳日:2021-03-23 14:31:11 公開日:2021-03-22
# 人間の排他性:人間の目に見えない知覚と回復

Human De-occlusion: Invisible Perception and Recovery for Humans ( http://arxiv.org/abs/2103.11597v1 )

ライセンス: Link先を確認
Qiang Zhou, Shiyin Wang, Yitong Wang, Zilong Huang, Xinggang Wang(参考訳) 本稿では,隠蔽されたセグメンテーションマスクと見えない人間の外見内容が原因で,人間の排除の問題に取り組む。 特に,見えない部分を推定し,内部を復元するための2段階フレームワークが提案されている。 マスク完了の段階では、一般的な例分割モデルから不正確なマスクを洗練し、統合マスクを同時に予測するネットワーク構造が考案される。 さらに、人間のパーシングや典型的なポーズマスクからのガイダンスを利用して、事前情報を提供する。 コンテンツリカバリの段階では、新しいパーシングガイド付注目モジュールを用いて、身体部分の分離と複数のスケールにわたるコンテキスト情報のキャプチャを行う。 さらに、人間の排除の課題を解決するために、AHP(Amodal Human Perception dataset)が収集される。 AHPは現実世界のシーンからアノテーションを提供する利点があり、人間の数は他のアモーダル認識データセットよりも比較的大きい。 このデータセットに基づいて,本手法はマスク補完とコンテンツ回復の両タスクにおいて,最先端技術上で動作することが実証された。 ahp データセットは \url{https://sydney0zq.gi thub.io/ahp/} で利用可能です。

In this paper, we tackle the problem of human de-occlusion which reasons about occluded segmentation masks and invisible appearance content of humans. In particular, a two-stage framework is proposed to estimate the invisible portions and recover the content inside. For the stage of mask completion, a stacked network structure is devised to refine inaccurate masks from a general instance segmentation model and predict integrated masks simultaneously. Additionally, the guidance from human parsing and typical pose masks are leveraged to bring prior information. For the stage of content recovery, a novel parsing guided attention module is applied to isolate body parts and capture context information across multiple scales. Besides, an Amodal Human Perception dataset (AHP) is collected to settle the task of human de-occlusion. AHP has advantages of providing annotations from real-world scenes and the number of humans is comparatively larger than other amodal perception datasets. Based on this dataset, experiments demonstrate that our method performs over the state-of-the-art techniques in both tasks of mask completion and content recovery. Our AHP dataset is available at \url{https://sydney0zq.gi thub.io/ahp/}.
翻訳日:2021-03-23 14:30:52 公開日:2021-03-22
# アンカーフリーの人物探索

Anchor-Free Person Search ( http://arxiv.org/abs/2103.11617v1 )

ライセンス: Link先を確認
Yichao Yan, Jingpeng Li, Jie Qin, Song Bai, Shengcai Liao, Li Liu, Fan Zhu, and Ling Shao(参考訳) 人物探索は,歩行者検出と人物再識別(re-id)の統一的なタスクとみなすことができる,現実的な非クローン画像からクエリ対象を同時にローカライズし,識別することを目的としている。 既存の作品の多くはfaster-rcnnのような2段検出器を採用しており、精度は高いが計算オーバーヘッドは高い。 本研究では,この課題を効果的に解決する最初のアンカーフリーフレームワークであるFeature-Aligned Person Search Network (AlignPS)を提案する。 AlignPSは、このタスクのためにアンカーフリー検出器を収容する際、異なるレベル(スケール、領域、タスク)での不整合問題として要約する主な課題に明示的に対処する。 より具体的には、より識別的でロバストな機能埋め込みを生成するために、"re-id first"の原則に従ってアライメント機能アグリゲーションモジュールを提案する。 このような単純な設計はCUHK-SYSUのベースラインアンカーフリーモデルをmAPで20%以上改善する。 さらに、AlignPSは最先端の2段階法よりも高速で性能が高い。 コードはhttps://github.com/d aodaofr/AlignPSで入手できる。

Person search aims to simultaneously localize and identify a query person from realistic, uncropped images, which can be regarded as the unified task of pedestrian detection and person re-identification (re-id). Most existing works employ two-stage detectors like Faster-RCNN, yielding encouraging accuracy but with high computational overhead. In this work, we present the Feature-Aligned Person Search Network (AlignPS), the first anchor-free framework to efficiently tackle this challenging task. AlignPS explicitly addresses the major challenges, which we summarize as the misalignment issues in different levels (i.e., scale, region, and task), when accommodating an anchor-free detector for this task. More specifically, we propose an aligned feature aggregation module to generate more discriminative and robust feature embeddings by following a "re-id first" principle. Such a simple design directly improves the baseline anchor-free model on CUHK-SYSU by more than 20% in mAP. Moreover, AlignPS outperforms state-of-the-art two-stage methods, with a higher speed. Code is available at https://github.com/d aodaofr/AlignPS
翻訳日:2021-03-23 14:30:35 公開日:2021-03-22
# 人物画像生成のためのプログレッシブ・アライメントポッドアテンション転送

Progressive and Aligned Pose Attention Transfer for Person Image Generation ( http://arxiv.org/abs/2103.11622v1 )

ライセンス: Link先を確認
Zhen Zhu, Tengteng Huang, Mengde Xu, Baoguang Shi, Wenqing Cheng, Xiang Bai(参考訳) 本稿では,ある人物のポーズを対象のポーズに移す,新たなポーズ移動のための生成的広告ネットワークを提案する。 我々は転送ブロックのシーケンスからなるプログレッシブジェネレータを設計する。 各ブロックは、状態とターゲット間の関係をアテンション機構でモデル化して中間転送ステップを実行する。 Pose-Attentional Transfer Block (PATB)とAligned Pose-Attentional Transfer Bloc ~ (APATB)の2種類のブロックが導入された。 従来のモデルと比較すると,入力画像に比べて外観の整合性や形状の整合性が向上した人物画像がより多く生成される。 定量的および質的尺度を用いて,マーケット1501およびディープファッションデータセットにおけるモデルの有効性を検証する。 また,本手法は,データ不足の問題を軽減するため,人物再識別タスクのためのデータ拡張に使用できることを示す。 コードと事前トレーニングされたモデルはhttps://github.com/t engteng95/pose-trans fer.gitで入手できる。

This paper proposes a new generative adversarial network for pose transfer, i.e., transferring the pose of a given person to a target pose. We design a progressive generator which comprises a sequence of transfer blocks. Each block performs an intermediate transfer step by modeling the relationship between the condition and the target poses with attention mechanism. Two types of blocks are introduced, namely Pose-Attentional Transfer Block (PATB) and Aligned Pose-Attentional Transfer Bloc ~(APATB). Compared with previous works, our model generates more photorealistic person images that retain better appearance consistency and shape consistency compared with input images. We verify the efficacy of the model on the Market-1501 and DeepFashion datasets, using quantitative and qualitative measures. Furthermore, we show that our method can be used for data augmentation for the person re-identification task, alleviating the issue of data insufficiency. Code and pretrained models are available at https://github.com/t engteng95/Pose-Trans fer.git.
翻訳日:2021-03-23 14:30:16 公開日:2021-03-22
# 表現不変損失による指向性物体検出の最適化

Optimization for Oriented Object Detection via Representation Invariance Loss ( http://arxiv.org/abs/2103.11636v1 )

ライセンス: Link先を確認
Qi Ming, Zhiqiang Zhou, Lingjuan Miao, Xue Yang, Yunpeng Dong(参考訳) 任意の向きのオブジェクトは自然のシーンに広く存在し、指向のオブジェクト検出は近年広く注目を集めている。 主回転検出器は、回転物体を表すために、向き付けられた有界箱(OBB)または四角形の有界箱(QBB)を使用する。 しかし、これらの手法はオブジェクト指向オブジェクト定義の表現の曖昧さに悩まされ、最適下回帰最適化と損失計量と予測の局所化精度の不整合をもたらす。 本稿では,回転物体のバウンディングボックス回帰を最適化するRepresentation Invariance Loss (RIL)を提案する。 具体的には、RILはオブジェクト指向対象の複数の表現を多重同値な局所ミニマとして扱い、従って境界ボックス回帰をこれらの局所ミニマとの適応マッチングプロセスに変換する。 そして、最適な回帰戦略を得るためにハンガリーマッチングアルゴリズムを採用する。 また,OBB表現における変数間の弱相関と不均衡損失寄与を軽減するために,正規化回転損失を提案する。 リモートセンシングデータセットとシーンテキストデータセットの大規模な実験により,本手法が一貫した,実質的な改善を実現することが示された。 ソースコードとトレーニングされたモデルはhttps://github.com/m ing71/RIDet.comで入手できる。

Arbitrary-oriented objects exist widely in natural scenes, and thus the oriented object detection has received extensive attention in recent years. The mainstream rotation detectors use oriented bounding boxes (OBB) or quadrilateral bounding boxes (QBB) to represent the rotating objects. However, these methods suffer from the representation ambiguity for oriented object definition, which leads to suboptimal regression optimization and the inconsistency between the loss metric and the localization accuracy of the predictions. In this paper, we propose a Representation Invariance Loss (RIL) to optimize the bounding box regression for the rotating objects. Specifically, RIL treats multiple representations of an oriented object as multiple equivalent local minima, and hence transforms bounding box regression into an adaptive matching process with these local minima. Then, the Hungarian matching algorithm is adopted to obtain the optimal regression strategy. We also propose a normalized rotation loss to alleviate the weak correlation between different variables and their unbalanced loss contribution in OBB representation. Extensive experiments on remote sensing datasets and scene text datasets show that our method achieves consistent and substantial improvement. The source code and trained models are available at https://github.com/m ing71/RIDet.
翻訳日:2021-03-23 14:30:00 公開日:2021-03-22
# 偏光誘導鏡面反射分離

Polarization Guided Specular Reflection Separation ( http://arxiv.org/abs/2103.11652v1 )

ライセンス: Link先を確認
Sijia Wen, Yingqiang Zheng, Feng Lu(参考訳) スペクトル反射は、しばしば実際の撮像画像の中に存在し、記録された色と固有の色とのずれを引き起こすため、一貫した物体表面の外観を必要とする複数のアプリケーションに利点をもたらす。 しかし、物体の色は照明の色に大きく影響されるため、既存の研究は依然としてほぼ重複した課題に悩まされており、照明色が表面色に近いと分離が不安定になる。 本稿では,偏光情報を設計した反復最適化分離戦略に組み込むための偏光誘導モデルを導出し,鏡面反射を分離する。 偏光解析に基づいて,照明の多様性などの複雑なシナリオにおいて,入力画像の幾何学的プロファイルを明らかにすることのできる偏光色度画像を生成する偏光誘導モデルを提案する。 偏光色度画像は、同じ拡散色で正確に画素をクラスタリングすることができる。 さらに、これらのクラスタのスペクトル分離を暗黙的に使用して、拡散成分が仕様成分として誤って分離されないようにする。 偏光誘導モデルを用いて、鏡映反射分離をadmm戦略によって解決可能な統一最適化関数に再構成する。 分光反射はRGBと偏光線情報によって検出・分離される。 定性的かつ定量的な実験結果から,本手法は特に難解なシナリオにおいて,スペクトル反射を忠実に分離できることが示された。

Since specular reflection often exists in the real captured images and causes deviation between the recorded color and intrinsic color, specular reflection separation can bring advantages to multiple applications that require consistent object surface appearance. However, due to the color of an object is significantly influenced by the color of the illumination, the existing researches still suffer from the near-duplicate challenge, that is, the separation becomes unstable when the illumination color is close to the surface color. In this paper, we derive a polarization guided model to incorporate the polarization information into a designed iteration optimization separation strategy to separate the specular reflection. Based on the analysis of polarization, we propose a polarization guided model to generate a polarization chromaticity image, which is able to reveal the geometrical profile of the input image in complex scenarios, such as diversity of illumination. The polarization chromaticity image can accurately cluster the pixels with similar diffuse color. We further use the specular separation of all these clusters as an implicit prior to ensure that the diffuse components will not be mistakenly separated as the specular components. With the polarization guided model, we reformulate the specular reflection separation into a unified optimization function which can be solved by the ADMM strategy. The specular reflection will be detected and separated jointly by RGB and polarimetric information. Both qualitative and quantitative experimental results have shown that our method can faithfully separate the specular reflection, especially in some challenging scenarios.
翻訳日:2021-03-23 14:29:40 公開日:2021-03-22
# 教師なし二段異常検出

Unsupervised Two-Stage Anomaly Detection ( http://arxiv.org/abs/2103.11671v1 )

ライセンス: Link先を確認
Yunfei Liu, Chaoqun Zhuang, Feng Lu(参考訳) 単一の画像からの異常検出は、常に稀であり、予測不能な型を持つ可能性があるため、難しい。 異常のないデータしか利用できないため、既存の手法ではオートエンコーダを訓練して入力画像を再構成し、入力と出力の差を見つけ、異常領域を特定する。 しかし、そのような手法は潜在的な問題に直面し、粗い再構成は余分な画像の違いを発生させる一方、高忠実度は異常に引き起こす可能性がある。 本稿では, この矛盾を解決するために, 2段階のアプローチを提案する。 我々のunsupervised Two-stage Anomaly Detection (UTAD)は、Impression Extractor (IE-Net)とExpert-Netという2つの技術コンポーネントに依存している。 ie-netとexpert-netは、2段階の異常のない画像再構成タスクを実行し、直感的な中間結果を生成する。 大規模実験により,実世界の物体やテクスチャの異なる4種類の異常検出データセットにおいて,本手法が最先端を上回っていることが示された。

Anomaly detection from a single image is challenging since anomaly data is always rare and can be with highly unpredictable types. With only anomaly-free data available, most existing methods train an AutoEncoder to reconstruct the input image and find the difference between the input and output to identify the anomalous region. However, such methods face a potential problem - a coarse reconstruction generates extra image differences while a high-fidelity one may draw in the anomaly. In this paper, we solve this contradiction by proposing a two-stage approach, which generates high-fidelity yet anomaly-free reconstructions. Our Unsupervised Two-stage Anomaly Detection (UTAD) relies on two technical components, namely the Impression Extractor (IE-Net) and the Expert-Net. The IE-Net and Expert-Net accomplish the two-stage anomaly-free image reconstruction task while they also generate intuitive intermediate results, making the whole UTAD interpretable. Extensive experiments show that our method outperforms state-of-the-arts on four anomaly detection datasets with different types of real-world objects and textures.
翻訳日:2021-03-23 14:29:19 公開日:2021-03-22
# transformer meets tracker: 時間的コンテキストを堅牢なビジュアルトラッキングに活用する

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking ( http://arxiv.org/abs/2103.11681v1 )

ライセンス: Link先を確認
Ning Wang and Wengang Zhou and Jie Wang and Houqaing Li(参考訳) ビデオオブジェクトトラッキングでは、逐次的なフレーム間に豊富な時間的コンテキストが存在し、既存のトラッカーではほとんど見落とされている。 本研究では,個々の映像フレームを橋渡しし,ロバストな物体追跡のためのトランスフォーマーアーキテクチャを用いて時間的文脈を探索する。 自然言語処理タスクにおけるトランスフォーマーの古典的な使用とは異なり、エンコーダとデコーダを2つの並列ブランチに分離し、シームズのような追跡パイプライン内で慎重に設計する。 トランスエンコーダは、注目に基づく特徴強化を通じてターゲットテンプレートを促進し、高品質なトラッキングモデル生成に有効である。 トランスデコーダは、トラッキングキューを以前のテンプレートから現在のフレームに伝播させ、オブジェクト検索プロセスを容易にする。 我々のトランスフォーマー支援トラッキングフレームワークは、エンドツーエンドできちんとトレーニングされています。 提案したトランスでは、単純なシームズマッチングアプローチが現在のトップパフォーマンストラッカーより優れている。 我々のトランスフォーマーと最近の識別追跡パイプラインを組み合わせることで,本手法では,先行追跡ベンチマークにおいて新たな最新記録を複数設定した。

In video object tracking, there exist rich temporal contexts among successive frames, which have been largely overlooked in existing trackers. In this work, we bridge the individual video frames and explore the temporal contexts across them via a transformer architecture for robust object tracking. Different from classic usage of the transformer in natural language processing tasks, we separate its encoder and decoder into two parallel branches and carefully design them within the Siamese-like tracking pipelines. The transformer encoder promotes the target templates via attention-based feature reinforcement, which benefits the high-quality tracking model generation. The transformer decoder propagates the tracking cues from previous templates to the current frame, which facilitates the object searching process. Our transformer-assisted tracking framework is neat and trained in an end-to-end manner. With the proposed transformer, a simple Siamese matching approach is able to outperform the current top-performing trackers. By combining our transformer with the recent discriminative tracking pipeline, our method sets several new state-of-the-art records on prevalent tracking benchmarks.
翻訳日:2021-03-23 14:28:59 公開日:2021-03-22
# 自己監督学習によるモデルベース3Dハンド再構成

Model-based 3D Hand Reconstruction via Self-Supervised Learning ( http://arxiv.org/abs/2103.11703v1 )

ライセンス: Link先を確認
Yujin Chen, Zhigang Tu, Di Kang, Linchao Bao, Ying Zhang, Xuefei Zhe, Ruizhi Chen, Junsong Yuan(参考訳) シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。 3dハンドを単眼画像から確実に再構築できるようにするため、ほとんどの最新手法は訓練段階では3dアノテーションを重用するが、3dアノテーションの取得は高価である。 ラベル付きトレーニングデータへの依存を軽減するために,ポーズ,形状,テクスチャ,カメラ視点を共同で推定できる,自己監督型3Dハンド再構成ネットワークであるS2HANDを提案する。 具体的には、2次元検出されたキーポイントから入力画像から幾何学的手がかりを得る。 これらのノイズから正確なハンドリコンストラクションモデルを学ぶために,2次元表現と3次元表現の一貫性を活用し,ニューラルネットワークの出力を合理化する新たな損失セットを提案する。 手動アノテーションを使わずに正確な3次元ハンドリコンストラクションネットワークをトレーニングできることを初めて実証した。 提案手法は,近年の完全教師付き手法と同等の性能を示しながら,より少ない監督データを用いた。

Reconstructing a 3D hand from a single-view RGB image is challenging due to various hand configurations and depth ambiguity. To reliably reconstruct a 3D hand from a monocular image, most state-of-the-art methods heavily rely on 3D annotations at the training stage, but obtaining 3D annotations is expensive. To alleviate reliance on labeled training data, we propose S2HAND, a self-supervised 3D hand reconstruction network that can jointly estimate pose, shape, texture, and the camera viewpoint. Specifically, we obtain geometric cues from the input image through easily accessible 2D detected keypoints. To learn an accurate hand reconstruction model from these noisy geometric cues, we utilize the consistency between 2D and 3D representations and propose a set of novel losses to rationalize outputs of the neural network. For the first time, we demonstrate the feasibility of training an accurate 3D hand reconstruction network without relying on manual annotations. Our experiments show that the proposed method achieves comparable performance with recent fully-supervised methods while using fewer supervision data.
翻訳日:2021-03-23 14:28:42 公開日:2021-03-22
# n-hot: 2つのニューラルネットワーク量子化のための効率的なビットレベル間隔

n-hot: Efficient bit-level sparsity for powers-of-two neural network quantization ( http://arxiv.org/abs/2103.11704v1 )

ライセンス: Link先を確認
Yuiko Sakuma, Hiroshi Sumihiro, Jun Nishikawa, Toshiki Nakamura and Ryoji Ikegaya(参考訳) パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。 しかし、PoT量子化は表現能力に限界があるため、深刻な精度低下を引き起こす。 DNNモデルは比較的複雑なタスク(例えば、大規模なデータセットの分類とオブジェクト検出)に応用されているため、PoT量子化法の精度の向上が必要である。 以前の研究では、PoT量子化の精度向上を試みていたが、メモリ効率のよい方法で精度と計算コストのバランスをとる作業は存在しない。 この問題に対処するために,効率的なPoT量子化方式を提案する。 ビットレベルのスパーシティが導入され、重み(またはアクティベーション)は乗算時のnシフト演算によって計算できる値に丸められる。 また,加算だけでなく,各演算の減算も可能とした。 さらに,2段階の微調整アルゴリズムを用いて,ビットレベル間隔の導入によって引き起こされる精度低下を再現する。 cocoデータセット上のオブジェクト検出モデル(centernet,mobilenet -v2 backbone)の実験結果から,提案手法は,演算数を約75%,モデルサイズを一様法と比較して11.5%削減しつつ,精度を最大0.3%低下させる。

Powers-of-two (PoT) quantization reduces the number of bit operations of deep neural networks on resource-constrained hardware. However, PoT quantization triggers a severe accuracy drop because of its limited representation ability. Since DNN models have been applied for relatively complex tasks (e.g., classification for large datasets and object detection), improvement in accuracy for the PoT quantization method is required. Although some previous works attempt to improve the accuracy of PoT quantization, there is no work that balances accuracy and computation costs in a memory-efficient way. To address this problem, we propose an efficient PoT quantization scheme. Bit-level sparsity is introduced; weights (or activations) are rounded to values that can be calculated by n shift operations in multiplication. We also allow not only addition but also subtraction as each operation. Moreover, we use a two-stage fine-tuning algorithm to recover the accuracy drop that is triggered by introducing the bit-level sparsity. The experimental results on an object detection model (CenterNet, MobileNet-v2 backbone) on the COCO dataset show that our proposed method suppresses the accuracy drop by 0.3% at most while reducing the number of operations by about 75% and model size by 11.5% compared to the uniform method.
翻訳日:2021-03-23 14:28:22 公開日:2021-03-22
# TICaM: 飛行中の車載キャビンモニタリングデータセット

TICaM: A Time-of-flight In-car Cabin Monitoring Dataset ( http://arxiv.org/abs/2103.11719v1 )

ライセンス: Link先を確認
Jigyasa Singh Katrolia, Bruno Mirbach, Ahmed El-Sherif, Hartmut Feld, Jason Rambach, Didier Stricker(参考訳) 広角深度カメラを用いた車両内監視のための飛行時間内キャビン監視データセットであるTICaMを提案する。 当社のデータセットは,ラベル付きクラスや記録されたシナリオ,アノテーションなど,現在利用可能な車内データセットの不足に対処しています。 運転中の動作の徹底したリストを記録し,マルチモーダルラベル付き画像(深度,rgb,ir)に対して,2dおよび3dオブジェクト検出,インスタンスおよび意味セグメンテーション,rgbフレームのアクティビティアノテーションの完全なアノテーションを提供する。 実写に加えて,同種の画像とアノテーションを用いた車室内画像の合成データセットも提供し,車室内監視システムを効果的に訓練し,ドメイン適応アプローチを評価するために,合成データと実データを組み合わせたユニークな,極めて有益な組み合わせを提供する。 データセットはhttps://vizta-tof.kl .dfki.de/で入手できる。

We present TICaM, a Time-of-flight In-car Cabin Monitoring dataset for vehicle interior monitoring using a single wide-angle depth camera. Our dataset addresses the deficiencies of currently available in-car cabin datasets in terms of the ambit of labeled classes, recorded scenarios and provided annotations; all at the same time. We record an exhaustive list of actions performed while driving and provide for them multi-modal labeled images (depth, RGB and IR), with complete annotations for 2D and 3D object detection, instance and semantic segmentation as well as activity annotations for RGB frames. Additional to real recordings, we provide a synthetic dataset of in-car cabin images with same multi-modality of images and annotations, providing a unique and extremely beneficial combination of synthetic and real data for effectively training cabin monitoring systems and evaluating domain adaptation approaches. The dataset is available at https://vizta-tof.kl .dfki.de/.
翻訳日:2021-03-23 14:28:04 公開日:2021-03-22
# adasgn:効率の良いスケルトンベース行動認識のための関節数とモデルサイズ適応

AdaSGN: Adapting Joint Number and Model Size for Efficient Skeleton-Based Action Recognition ( http://arxiv.org/abs/2103.11770v1 )

ライセンス: Link先を確認
Lei Shi, Yifan Zhang, Jian Cheng, Hanqing Lu(参考訳) 既存の骨格に基づく行動認識法は主に認識精度の向上に重点を置いているが,モデルの効率性はほとんど考慮されていない。 近年,軽量モジュールの設計によるスケルトンモデリングの高速化が試みられている。 しかしながら、モデルサイズに加えて、計算に関わるデータ量も、特に関節のほとんどが冗長であるか、特定の骨格を特定するのに不適当であるスケルトンデータにとって、実行速度にとって重要な要素である。 さらに、以前の作品では、認識の難しさに関わらず、すべてのサンプルに対して1つの固定サイズのモデルを採用しており、簡単なサンプルの計算を浪費している。 これらの制約に対処するため,本論文では,骨の接合部の入力数をオンザフライで適応的に制御することにより,推論プロセスの計算コストを低減できる新しい手法であるadasgnを提案する。 さらに、各サンプルの最適なモデルサイズを適応的に選択することで、精度と効率のトレードオフをより良くすることができる。 我々は,NTU-60,NTU-120,SHRE Cの3つの挑戦的データセットに対する広範な実験を行い,提案手法の優位性を検証する。

Existing methods for skeleton-based action recognition mainly focus on improving the recognition accuracy, whereas the efficiency of the model is rarely considered. Recently, there are some works trying to speed up the skeleton modeling by designing light-weight modules. However, in addition to the model size, the amount of the data involved in the calculation is also an important factor for the running speed, especially for the skeleton data where most of the joints are redundant or non-informative to identify a specific skeleton. Besides, previous works usually employ one fix-sized model for all the samples regardless of the difficulty of recognition, which wastes computations for easy samples. To address these limitations, a novel approach, called AdaSGN, is proposed in this paper, which can reduce the computational cost of the inference process by adaptively controlling the input number of the joints of the skeleton on-the-fly. Moreover, it can also adaptively select the optimal model size for each sample to achieve a better trade-off between accuracy and efficiency. We conduct extensive experiments on three challenging datasets, namely, NTU-60, NTU-120 and SHREC, to verify the superiority of the proposed approach, where AdaSGN achieves comparable or even higher performance with much lower GFLOPs compared with the baseline method.
翻訳日:2021-03-23 14:27:48 公開日:2021-03-22
# 動的メトリック学習 - 複数のセマンティックスケールを収容するスケーラブルなメトリックスペースを目指して

Dynamic Metric Learning: Towards a Scalable Metric Space to Accommodate Multiple Semantic Scales ( http://arxiv.org/abs/2103.11781v1 )

ライセンス: Link先を確認
Yifan Sun, Yuke Zhu, Yuhan Zhang, Pengkun Zheng, Xi Qiu, Chi Zhang, Yichen Wei(参考訳) 本稿では,実世界の計測ツールから深部視覚認識まで,新たな基本的な特徴である,ダイナミックレンジである \ie について述べる。 気象学において、ダイナミックレンジは計量ツールの基本品質であり、様々なスケールに対応する柔軟性を示している。 ダイナミックレンジが大きくなると柔軟性が向上する。 視覚認識においては、多重スケール問題も存在する。 異なる視覚概念は、異なる意味スケールを持つ。 例えば、 ``Animal'' と ``Plants'' は大きな意味尺度を持ち、 ``Elk'' はずっと小さい意味尺度である。 小さな意味のスケールでは、2つの異なるelkは互いにかなり \emph{different} に見える。 しかし、大きな意味的尺度(例えば動物と植物)では、これらの2つのelkは \emph{ similar} と測定されるべきである。 %) 異なる視覚概念が実際に異なる意味尺度に対応していることから, 深層学習においてもこのような柔軟性が重要であると論じる。 深度メートル法学習へのダイナミックレンジの導入により,新しいコンピュータビジョンタスク \ie, Dynamic Metric Learning が実現した。 複数のセマンティックスケールにわたる視覚的概念に対応するために、スケーラブルなメトリックスペースを学ぶことを目指している。 3種類の画像に基づいて、emph{i.e。 車両、動物、オンラインの製品では、動的なメトリック学習のための3つのデータセットを構築します。 これらのデータセットを一般的な深度学習手法でベンチマークし、動的メトリック学習が非常に難しいと判断する。 小さいスケールでの判別能力は、通常、大きなスケールの下での識別能力を損なうものであり、その逆である。 軽微な貢献として,このような対立を軽減するために,クロススケールラーニング(CSL)を提案する。 CSLは3つのデータセットのベースラインを一貫して改善する。 データセットとコードはhttps://github.com/S upetZYK/DynamicMetri cLearning.comで公開される。

This paper introduces a new fundamental characteristic, \ie, the dynamic range, from real-world metric tools to deep visual recognition. In metrology, the dynamic range is a basic quality of a metric tool, indicating its flexibility to accommodate various scales. Larger dynamic range offers higher flexibility. In visual recognition, the multiple scale problem also exist. Different visual concepts may have different semantic scales. For example, ``Animal'' and ``Plants'' have a large semantic scale while ``Elk'' has a much smaller one. Under a small semantic scale, two different elks may look quite \emph{different} to each other . However, under a large semantic scale (\eg, animals and plants), these two elks should be measured as being \emph{similar}. %We argue that such flexibility is also important for deep metric learning, because different visual concepts indeed correspond to different semantic scales. Introducing the dynamic range to deep metric learning, we get a novel computer vision task, \ie, the Dynamic Metric Learning. It aims to learn a scalable metric space to accommodate visual concepts across multiple semantic scales. Based on three types of images, \emph{i.e.}, vehicle, animal and online products, we construct three datasets for Dynamic Metric Learning. We benchmark these datasets with popular deep metric learning methods and find Dynamic Metric Learning to be very challenging. The major difficulty lies in a conflict between different scales: the discriminative ability under a small scale usually compromises the discriminative ability under a large one, and vice versa. As a minor contribution, we propose Cross-Scale Learning (CSL) to alleviate such conflict. We show that CSL consistently improves the baseline on all the three datasets. The datasets and the code will be publicly available at https://github.com/S upetZYK/DynamicMetri cLearning.
翻訳日:2021-03-23 14:27:25 公開日:2021-03-22
# 畳み込み設計を視覚トランスフォーマーに組み込む

Incorporating Convolution Designs into Visual Transformers ( http://arxiv.org/abs/2103.11816v1 )

ライセンス: Link先を確認
Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou, Fengwei Yu and Wei Wu(参考訳) 自然言語処理(NLP)タスクにおけるTransformerの成功により、Transformerを視覚領域に適用するためのいくつかの試み(ViTやDeiTなど)が発生する。 しかし、純粋なTransformerアーキテクチャは畳み込みニューラルネットワーク(CNN)と同等のパフォーマンスを得るために、大量のトレーニングデータや余分な監視を必要とすることが多い。 これらの制限を克服するために,NLPからTransformerアーキテクチャを直接借用する場合の潜在的な欠点を分析する。 次に,低レベル特徴抽出におけるcnnのアドバンテージ,局所性の強化,長距離依存性の確立におけるトランスフォーマーのアドバンテージを組み合わせた,新しい\textbf{convolution-enhanced image transformer (ceit)"を提案する。 Three modifications are made to the original Transformer: \textbf{1)} instead of the straightforward tokenization from raw input images, we design an \textbf{Image-to-Tokens (I2T)} module that extracts patches from generated low-level features; \textbf{2)} the feed-froward network in each encoder block is replaced with a \textbf{Locally-enhanced Feed-Forward (LeFF)} layer that promotes the correlation among neighboring tokens in the spatial dimension; \textbf{3)} a \textbf{Layer-wise Class token Attention (LCA)} is attached at the top of the Transformer that utilizes the multi-level representations. ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。 さらにceitモデルでは,3ドルのトレーニングイテレーションを少なくしてコンバージェンスも改善されているため,トレーニングコストを大幅に削減することが可能だ。 }.

Motivated by the success of Transformers in natural language processing (NLP) tasks, there emerge some attempts (e.g., ViT and DeiT) to apply Transformers to the vision domain. However, pure Transformer architectures often require a large amount of training data or extra supervision to obtain comparable performance with convolutional neural networks (CNNs). To overcome these limitations, we analyze the potential drawbacks when directly borrowing Transformer architectures from NLP. Then we propose a new \textbf{Convolution-enhanced image Transformer (CeiT)} which combines the advantages of CNNs in extracting low-level features, strengthening locality, and the advantages of Transformers in establishing long-range dependencies. Three modifications are made to the original Transformer: \textbf{1)} instead of the straightforward tokenization from raw input images, we design an \textbf{Image-to-Tokens (I2T)} module that extracts patches from generated low-level features; \textbf{2)} the feed-froward network in each encoder block is replaced with a \textbf{Locally-enhanced Feed-Forward (LeFF)} layer that promotes the correlation among neighboring tokens in the spatial dimension; \textbf{3)} a \textbf{Layer-wise Class token Attention (LCA)} is attached at the top of the Transformer that utilizes the multi-level representations. Experimental results on ImageNet and seven downstream tasks show the effectiveness and generalization ability of CeiT compared with previous Transformers and state-of-the-art CNNs, without requiring a large amount of training data and extra CNN teachers. Besides, CeiT models also demonstrate better convergence with $3\times$ fewer training iterations, which can reduce the training cost significantly\footno te{Code and models will be released upon acceptance.}.
翻訳日:2021-03-23 14:26:59 公開日:2021-03-22
# 深部感性注意と自動多モード融合による深部RGB-D濃度検出

Deep RGB-D Saliency Detection with Depth-Sensitive Attention and Automatic Multi-Modal Fusion ( http://arxiv.org/abs/2103.11832v1 )

ライセンス: Link先を確認
Peng Sun, Wenhu Zhang, Huanyu Wang, Songyuan Li, Xi Li(参考訳) RGB-D Salient Object Detection (SOD) は通常、2つのモード、すなわちRGBと深さの分類や回帰の問題として定式化される。 したがって、効果的なRGBD特徴モデリングとマルチモーダル特徴融合は、RGB-D SODにおいて重要な役割を果たす。 本稿では,salient objects の深度方向幾何前処理を用いた深さ感受性 rgb 特徴モデリング手法を提案する。 原理として, この特徴モデリング手法は, 深度感応性アテンションモジュールで実施され, RGB特徴の強化と, 事前の深度幾何を捉えることで背景歪みの低減につながる。 さらに,効率的なマルチモーダル機能融合を実現するために,RGB-D SODの自動アーキテクチャ探索手法を提案する。 7つの標準ベンチマークに関する広範な実験は、最先端技術に対する提案手法の有効性を示している。

RGB-D salient object detection (SOD) is usually formulated as a problem of classification or regression over two modalities, i.e., RGB and depth. Hence, effective RGBD feature modeling and multi-modal feature fusion both play a vital role in RGB-D SOD. In this paper, we propose a depth-sensitive RGB feature modeling scheme using the depth-wise geometric prior of salient objects. In principle, the feature modeling scheme is carried out in a depth-sensitive attention module, which leads to the RGB feature enhancement as well as the background distraction reduction by capturing the depth geometry prior. Moreover, to perform effective multi-modal feature fusion, we further present an automatic architecture search approach for RGB-D SOD, which does well in finding out a feasible architecture from our specially designed multi-modal multi-scale search space. Extensive experiments on seven standard benchmarks demonstrate the effectiveness of the proposed approach against the state-of-the-art.
翻訳日:2021-03-23 14:26:24 公開日:2021-03-22
# AutoSpace: 人間の干渉が少ないニューラルアーキテクチャ検索

AutoSpace: Neural Architecture Search with Less Human Interference ( http://arxiv.org/abs/2103.11833v1 )

ライセンス: Link先を確認
Daquan Zhou, Xiaojie Jin, Xiaochen Lian, Linjie Yang, Yujing Xue, Qibin Hou, Jiashi Feng(参考訳) 現在のニューラルネットワークサーチ(NAS)アルゴリズムは、ネットワーク構築のための検索空間を設計する専門家の知識と努力を必要とする。 本稿では,人間の干渉を最小限に抑えるために,探索空間設計の自動化を検討するが,探索空間の爆発的複雑さと,探索空間の品質を評価するための高価な計算コストの2つの課題に直面する。 そこで本研究では,探索空間を最適に進化させる新しい進化フレームワークであるAutoSpaceを提案する。このフレームワークは,細胞の性能を効率よく評価し,進化過程を高速化し,準最適解に陥ることを避けるための,微分可能な適合度スコアリング機能と参照アーキテクチャである。 このフレームワークは汎用的で、追加の計算制約と互換性があり、異なる計算予算に適合する特別な探索空間を学習することができる。 学習した検索空間では、最近のNASアルゴリズムの性能は以前手作業で設計した空間に比べて大幅に向上できる。 注目すべきは、新しい検索空間から生成されたモデルは、モバイル環境でのImageNetで77.8%の精度(MAdds < 500M)を達成し、以前のSOTA効率の良いNet-B0を0.7%上回ったことである。 すべてのコードは公開されます。

Current neural architecture search (NAS) algorithms still require expert knowledge and effort to design a search space for network construction. In this paper, we consider automating the search space design to minimize human interference, which however faces two challenges: the explosive complexity of the exploration space and the expensive computation cost to evaluate the quality of different search spaces. To solve them, we propose a novel differentiable evolutionary framework named AutoSpace, which evolves the search space to an optimal one with following novel techniques: a differentiable fitness scoring function to efficiently evaluate the performance of cells and a reference architecture to speedup the evolution procedure and avoid falling into sub-optimal solutions. The framework is generic and compatible with additional computational constraints, making it feasible to learn specialized search spaces that fit different computational budgets. With the learned search space, the performance of recent NAS algorithms can be improved significantly compared with using previously manually designed spaces. Remarkably, the models generated from the new search space achieve 77.8% top-1 accuracy on ImageNet under the mobile setting (MAdds < 500M), out-performing previous SOTA EfficientNet-B0 by 0.7%. All codes will be made public.
翻訳日:2021-03-23 14:26:11 公開日:2021-03-22
# DeepViT:より深いビジョントランスを目指して

DeepViT: Towards Deeper Vision Transformer ( http://arxiv.org/abs/2103.11886v1 )

ライセンス: Link先を確認
Daquan Zhou, Bingyi Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian, Qibin Hou, Jiashi Feng(参考訳) 近年,視覚変換器 (ViT) が画像分類タスクに応用されている。 本稿では、より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深くスケールすると急速に飽和することを示す。 より具体的には、このようなスケーリングの難しさは注意の崩壊の問題によって引き起こされていると経験的に観察する。 言い換えれば、機能マップは深いViTモデルの上位層で同一である傾向がある。 この事実は、ViTの深い層では、自己認識メカニズムが表現学習の効果的な概念を学習できず、期待されるパフォーマンス向上を妨げていることを示している。 上記の観察に基づいて,注意マップを再生成し,異なる層におけるその多様性を無視できる計算量とメモリコストで高めるための,単純かつ効果的な手法であるre-attentionを提案する。 提案手法により、既存のViTモデルに小さな修正を加えることで、より深いViTモデルを一貫した性能で訓練することが可能となる。 特に、32個のトランスブロックを持つ深部ViTモデルのトレーニングでは、ImageNet上でTop-1の分類精度が1.6%向上する。 コードは公開されます

Vision transformers (ViTs) have been successfully applied in image classification tasks recently. In this paper, we show that, unlike convolution neural networks (CNNs)that can be improved by stacking more convolutional layers, the performance of ViTs saturate fast when scaled to be deeper. More specifically, we empirically observe that such scaling difficulty is caused by the attention collapse issue: as the transformer goes deeper, the attention maps gradually become similar and even much the same after certain layers. In other words, the feature maps tend to be identical in the top layers of deep ViT models. This fact demonstrates that in deeper layers of ViTs, the self-attention mechanism fails to learn effective concepts for representation learning and hinders the model from getting expected performance gain. Based on above observation, we propose a simple yet effective method, named Re-attention, to re-generate the attention maps to increase their diversity at different layers with negligible computation and memory cost. The pro-posed method makes it feasible to train deeper ViT models with consistent performance improvements via minor modification to existing ViT models. Notably, when training a deep ViT model with 32 transformer blocks, the Top-1 classification accuracy can be improved by 1.6% on ImageNet. Code will be made publicly available
翻訳日:2021-03-23 14:25:48 公開日:2021-03-22
# 拡張オブジェクト出現による画像生成のためのコンテキスト認識レイアウト

Context-Aware Layout to Image Generation with Enhanced Object Appearance ( http://arxiv.org/abs/2103.11897v1 )

ライセンス: Link先を確認
Sen He, Wentong Liao, Michael Ying Yang, Yongxin Yang, Yi-Zhe Song, Bodo Rosenhahn, Tao Xiang(参考訳) レイアウト・トゥ・イメージ(L2I)生成モデルは、所定のレイアウトに条件付けされた自然の背景に対して複数のオブジェクト(モノ)を含む複雑な画像を生成することを目的としている。 GAN(Generative Adversarial Network)の最近の進歩に基づき、既存のL2Iモデルは大きな進歩を遂げた。 しかし、生成された画像の綿密な検査では、(1)対象物と目的物の関係が壊れることが多く、(2)オブジェクトの外観が通常、オブジェクトクラスに関連する重要な定義特性を欠いているという2つの大きな制限が示される。 これらの要因は, 環境に配慮したオブジェクトの欠如や, ジェネレータのコード化や, 識別器の位置情報に敏感な外観表現が原因である。 これらの制限に対処するため、2つの新しいモジュールが提案されている。 まず、ジェネレータにコンテキストアウェアな機能変換モジュールを導入し、生成されたオブジェクトまたは物の機能エンコーディングがシーン内の他の共存するオブジェクト/スタフを認識していることを保証する。 第二に、識別器に位置感性画像の特徴を与える代わりに、生成した物体画像の特徴マップから計算したグラム行列を用いて位置感性情報を保存することにより、オブジェクトの外観が大幅に向上する。 提案手法がcoco-thing-stuffベンチマークおよび視覚ゲノムベンチマークで最先端のパフォーマンスを実現することを示す。

A layout to image (L2I) generation model aims to generate a complicated image containing multiple objects (things) against natural background (stuff), conditioned on a given layout. Built upon the recent advances in generative adversarial networks (GANs), existing L2I models have made great progress. However, a close inspection of their generated images reveals two major limitations: (1) the object-to-object as well as object-to-stuff relations are often broken and (2) each object's appearance is typically distorted lacking the key defining characteristics associated with the object class. We argue that these are caused by the lack of context-aware object and stuff feature encoding in their generators, and location-sensitive appearance representation in their discriminators. To address these limitations, two new modules are proposed in this work. First, a context-aware feature transformation module is introduced in the generator to ensure that the generated feature encoding of either object or stuff is aware of other co-existing objects/stuff in the scene. Second, instead of feeding location-insensitive image features to the discriminator, we use the Gram matrix computed from the feature maps of the generated object images to preserve location-sensitive information, resulting in much enhanced object appearance. Extensive experiments show that the proposed method achieves state-of-the-art performance on the COCO-Thing-Stuff and Visual Genome benchmarks.
翻訳日:2021-03-23 14:25:26 公開日:2021-03-22
# モンテカルロ木探索による優先順位付けアーキテクチャサンプリング

Prioritized Architecture Sampling with Monto-Carlo Tree Search ( http://arxiv.org/abs/2103.11922v1 )

ライセンス: Link先を確認
Xiu Su, Tao Huang, Yanxi Li, Shan You, Fei Wang, Chen Qian, Changshui Zhang, Chang Xu(参考訳) one-shot neural architecture search (nas)メソッドは、検索空間全体を1つのネットワークとして考慮することで、検索コストを大幅に削減する。 しかし、現在の手法では、各操作を従来のレイヤを考慮せずに独立に選択する。 また、膨大な計算コストで得られた歴史的情報は、通常一度だけ使われ、捨てられる。 本稿では,モンテカルロ木探索 (mcts) に基づくサンプリング戦略をモンテカルロ木 (mct) としてモデル化した探索空間を用いて紹介する。 さらに、将来の決定とより良い探査・探査バランスのために中間結果をCTに格納する。 具体的には、MCTをアーキテクチャ性能の報奨としてトレーニング損失を用いて更新し、多数のノードを正確に評価するために、トレーニング段階と検索段階におけるノード通信と階層ノード選択手法を提案し、演算報酬と階層情報をよりよく活用する。 さらに、異なるNAS法を公平に比較するために、CIFAR-10、すなわちNAS-Bench-Macroで評価されたマクロ検索空間のオープンソースNASベンチマークを構築する。 nas-bench-macro と imagenet の広範な実験により,検索効率と性能が大幅に向上した。 例えば、20ドルのアーキテクチャのみを検索することで、取得したアーキテクチャは、ImageNetで442MのFLOPで、78.0\%のtop-1精度を達成した。 コード (benchmark) は \url{https://github.com/x iusu/nas-bench-macro } で利用可能である。

One-shot neural architecture search (NAS) methods significantly reduce the search cost by considering the whole search space as one network, which only needs to be trained once. However, current methods select each operation independently without considering previous layers. Besides, the historical information obtained with huge computation cost is usually used only once and then discarded. In this paper, we introduce a sampling strategy based on Monte Carlo tree search (MCTS) with the search space modeled as a Monte Carlo tree (MCT), which captures the dependency among layers. Furthermore, intermediate results are stored in the MCT for the future decision and a better exploration-exploita tion balance. Concretely, MCT is updated using the training loss as a reward to the architecture performance; for accurately evaluating the numerous nodes, we propose node communication and hierarchical node selection methods in the training and search stages, respectively, which make better uses of the operation rewards and hierarchical information. Moreover, for a fair comparison of different NAS methods, we construct an open-source NAS benchmark of a macro search space evaluated on CIFAR-10, namely NAS-Bench-Macro. Extensive experiments on NAS-Bench-Macro and ImageNet demonstrate that our method significantly improves search efficiency and performance. For example, by only searching $20$ architectures, our obtained architecture achieves $78.0\%$ top-1 accuracy with 442M FLOPs on ImageNet. Code (Benchmark) is available at: \url{https://github.com/x iusu/NAS-Bench-Macro }.
翻訳日:2021-03-23 14:25:03 公開日:2021-03-22
# 3次元変換群に対するタンジェント空間バックプロパゲーション

Tangent Space Backpropogation for 3D Transformation Groups ( http://arxiv.org/abs/2103.12032v1 )

ライセンス: Link先を確認
Zachary Teed and Jia Deng(参考訳) 3次元変換群 $so(3)$, $se(3)$, $sim(3)$ を含む計算グラフに対してバックプロパゲーションを行う問題に対処する。 3d変換群は3dビジョンやロボティクスで広く使われているが、ベクトル空間を形成しず滑らかな多様体の上に横たわっている。 ユークリッド空間に3d変換を組み込む標準的なバックプロパゲーションアプローチは、数値的な困難に苦しむ。 本研究では, 3次元変換の群構造を利用し, 多様体の接空間におけるバックプロパゲーションを行う新しい手法を提案する。 我々のアプローチは数値的に安定しており、実装が容易であり、様々なタスクに有益であることを示している。 私たちのPyTorchライブラリはhttps://github.com/p rinceton-vl/lietorch .comで利用可能です。

We address the problem of performing backpropagation for computation graphs involving 3D transformation groups $SO(3)$, $SE(3)$, and $Sim(3)$. 3D transformation groups are widely used in 3D vision and robotics, but they do not form vector spaces and instead lie on smooth manifolds. The standard backpropagation approach, which embeds 3D transformations in Euclidean spaces, suffers from numerical difficulties. We introduce a new approach, which exploits the group structure of 3D transformations and performs backpropagation in the tangent spaces of manifolds. We show that our approach is numerically more stable, easier to implement, and beneficial to a diverse set of tasks. Our plug-and-play PyTorch library is available at https://github.com/p rinceton-vl/lietorch .
翻訳日:2021-03-23 14:24:40 公開日:2021-03-22
# ExAD: 説明に基づく逆検出のためのアンサンブルアプローチ

ExAD: An Ensemble Approach for Explanation-based Adversarial Detection ( http://arxiv.org/abs/2103.11526v1 )

ライセンス: Link先を確認
Raj Vardhan, Ninghao Liu, Phakpoom Chinprutthiwong, Weijie Fu, Zhenyu Hu, Xia Ben Hu, Guofei Gu(参考訳) 近年の研究では、Deep Neural Networks(DNN)が、モデルの望ましい誤分類を引き起こす敵の例に弱いことが示されている。 このようなリスクは、セキュリティに敏感なドメインにおける機械学習の適用を妨げる。 テスト時に逆行例を検出したり、機械学習モデルをより堅牢にするために、逆行攻撃に対するいくつかの防御方法が提案されている。 しかし、既存の手法は、攻撃者が防御を意識していないブラックボックス脅威モデルでは極めて効果的であるが、攻撃者は防御について十分な知識を持っているホワイトボックス脅威モデルでは比較的効果が低い。 本稿では,説明手法のアンサンブルを用いた逆例検出のためのフレームワークであるexadを提案する。 exadの各説明手法は、モデルの分類に対する入力変数の関連性を識別する説明マップを生成する。 データセットの各クラスに対して、システムは、通常の説明図と異常説明図を区別するように訓練された各説明技法に対応する検出器ネットワークを含む。 テスト時には、分類されたクラスの任意の検出モデルによって入力の説明マップが異常であると検出された場合、入力を逆の例と考える。 3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。 提案手法は, 偽陽性が限定されたブラックボックス脅威モデルにおいて, これらの攻撃を効果的に検出できることを示す。 さらに,本手法はホワイトボックス攻撃の成功率を制限し,有望な結果が得られることを見出した。

Recent research has shown Deep Neural Networks (DNNs) to be vulnerable to adversarial examples that induce desired misclassifications in the models. Such risks impede the application of machine learning in security-sensitive domains. Several defense methods have been proposed against adversarial attacks to detect adversarial examples at test time or to make machine learning models more robust. However, while existing methods are quite effective under blackbox threat model, where the attacker is not aware of the defense, they are relatively ineffective under whitebox threat model, where the attacker has full knowledge of the defense. In this paper, we propose ExAD, a framework to detect adversarial examples using an ensemble of explanation techniques. Each explanation technique in ExAD produces an explanation map identifying the relevance of input variables for the model's classification. For every class in a dataset, the system includes a detector network, corresponding to each explanation technique, which is trained to distinguish between normal and abnormal explanation maps. At test time, if the explanation map of an input is detected as abnormal by any detector model of the classified class, then we consider the input to be an adversarial example. We evaluate our approach using six state-of-the-art adversarial attacks on three image datasets. Our extensive evaluation shows that our mechanism can effectively detect these attacks under blackbox threat model with limited false-positives. Furthermore, we find that our approach achieves promising results in limiting the success rate of whitebox attacks.
翻訳日:2021-03-23 14:23:39 公開日:2021-03-22
# smart gridにおける連合学習フレームワーク:協調学習におけるパワートレースの確保

A Federated Learning Framework in Smart Grid: Securing Power Traces in Collaborative Learning ( http://arxiv.org/abs/2103.11870v1 )

ライセンス: Link先を確認
Haizhou Liu, Xuan Zhang, Hongbin Sun(参考訳) スマートセンサーの配備と通信技術の進歩により、ビッグデータ分析はスマートグリッド分野で広く普及し、利害関係者に最適な電力利用戦略を知らせている。 しかし、これらのパワー関連データは一般的に異なるパーティに分散している。 直接的なデータ共有は、党の利益、個人のプライバシー、さらには国家安全保障を損なう可能性がある。 本稿では,Google AIのフェデレーション学習方式にヒントを得て,個々の電力トレースをリークすることなく,消費電力パターンの協調機械学習を可能にする,スマートグリッドにおけるフェデレーション学習フレームワークを提案する。 水平フェデレーション学習は、データがサンプル空間に散在するときに用いられ、一方、垂直フェデレーション学習は、特徴空間に散在するデータのために設計される。 ケーススタディは、paillierのような適切な暗号化スキームによって、提案されたフレームワークから構築された機械学習モデルは、損失がなく、プライバシーを保護し、効果的であることを示している。

With the deployment of smart sensors and advancements in communication technologies, big data analytics have become vastly popular in the smart grid domain, which inform stakeholders of the best power utilization strategy. However, these power-related data are typically scattered among different parties. Direct data sharing might compromise party benefits, individual privacy and even national security. Inspired by the federated learning scheme of Google AI, we hereby propose a federated learning framework in smart grid, which enables collaborative machine learning of power consumption patterns without leaking individual power traces. Horizontal federated learning is employed when data are scattered in the sample space; vertical federated learning, on the other hand, is designed for data scattered in the feature space. Case studies show that, with proper encryption schemes such as Paillier, the machine learning models constructed from the proposed framework are lossless, privacy-preserving and effective.
翻訳日:2021-03-23 14:23:16 公開日:2021-03-22
# 協調ロバストフレームワークによる主成分分析の高度化

Enhanced Principal Component Analysis under A Collaborative-Robust Framework ( http://arxiv.org/abs/2103.11931v1 )

ライセンス: Link先を確認
Rui Zhang, Hongyuan Zhang, Xuelong Li(参考訳) 主成分分析(PCA)は外れ値の乱れにしばしば悩まされるため、頑健な拡張とPCAの変動のスペクトルが発達している。 しかし、PCAの既存の拡張は、大きなノイズを持つものでさえ、全てのサンプルを等しく扱う。 本稿では,まず,重み学習とロバストな損失を非自明な方法で組み合わせる,一般的な協調ロバスト重み学習フレームワークを提案する。 より重要なことに、提案されたフレームワークの下では、トレーニング中により重要になることを示す、適合のよいサンプルの一部のみがアクティベートされ、エラーが大きい他のサンプルは無視されない。 特に、不活性化試料の負の効果はロバスト損失関数によって軽減される。 さらに,L_2,1-ノルムと2乗フロベニウス-ノルムの間を補間し,かつ回転不変性を保った点次シグマロス関数を用いた拡張PCAを開発した。 再構成されたエラーとクラスタリング精度という2つの側面から、occludedデータセットに関する広範な実験が行われた。 実験の結果,本モデルの有効性が証明された。

Principal component analysis (PCA) frequently suffers from the disturbance of outliers and thus a spectrum of robust extensions and variations of PCA have been developed. However, existing extensions of PCA treat all samples equally even those with large noise. In this paper, we first introduce a general collaborative-robust weight learning framework that combines weight learning and robust loss in a non-trivial way. More significantly, under the proposed framework, only a part of well-fitting samples are activated which indicates more importance during training, and others, whose errors are large, will not be ignored. In particular, the negative effects of inactivated samples are alleviated by the robust loss function. Then we furthermore develop an enhanced PCA which adopts a point-wise sigma-loss function that interpolates between L_2,1-norm and squared Frobenius-norm and meanwhile retains the rotational invariance property. Extensive experiments are conducted on occluded datasets from two aspects including reconstructed errors and clustering accuracy. The experimental results prove the superiority and effectiveness of our model.
翻訳日:2021-03-23 14:23:01 公開日:2021-03-22
# メタインダクションにおけるノーランチ理論の意義

The Implications of the No-Free-Lunch Theorems for Meta-induction ( http://arxiv.org/abs/2103.11956v1 )

ライセンス: Link先を確認
David H. Wolpert(参考訳) G. Schurz による最近の重要な本は、無自由ランチ定理 (NFL) が(メタ)帰納問題に大きな影響を及ぼすと評価している。 ここでは、nflの定理を見直し、一様事前がある場合だけでなく、任意の帰納的アルゴリズム$a$がいくつかの帰納的アルゴリズムを逆数としてb$で一般化する`'as many priors' (loosely speak) が存在することを証明していると強調する。 しかし、NFLの定理に加えて、多くの「textit{free lunch} theorems」が存在する。 特に、nflの定理は、誘導アルゴリズム $a$ の \textit{marginal} 期待性能と誘導アルゴリズム $b$ の限界期待性能を比較するためにのみ用いられる。 その代わりに、誘導アルゴリズムの一般化誤差間の統計的相関を懸念する、豊富な無料ランチがある。 私が説明したように、シュルツが「ヒューム問題の解法」と提唱するメタ推論アルゴリズムは、帰納的アルゴリズムの一般化誤差間の相関に基づくそのような自由ランチの例にすぎない。 シュルツが提唱する先行は、ビットパターンよりもビット周波数に一様であり、統計物理学における数千の実験と、帰納的推論における最大エントロピー手順の大きな成功によって矛盾していることを指摘した。

The important recent book by G. Schurz appreciates that the no-free-lunch theorems (NFL) have major implications for the problem of (meta) induction. Here I review the NFL theorems, emphasizing that they do not only concern the case where there is a uniform prior -- they prove that there are ``as many priors'' (loosely speaking) for which any induction algorithm $A$ out-generalizes some induction algorithm $B$ as vice-versa. Importantly though, in addition to the NFL theorems, there are many \textit{free lunch} theorems. In particular, the NFL theorems can only be used to compare the \textit{marginal} expected performance of an induction algorithm $A$ with the marginal expected performance of an induction algorithm $B$. There is a rich set of free lunches which instead concern the statistical correlations among the generalization errors of induction algorithms. As I describe, the meta-induction algorithms that Schurz advocate as a ``solution to Hume's problem'' are just an example of such a free lunch based on correlations among the generalization errors of induction algorithms. I end by pointing out that the prior that Schurz advocates, which is uniform over bit frequencies rather than bit patterns, is contradicted by thousands of experiments in statistical physics and by the great success of the maximum entropy procedure in inductive inference.
翻訳日:2021-03-23 14:22:43 公開日:2021-03-22
# RadarLoc: FMCW Radarで再ローカライズを学ぶ

RadarLoc: Learning to Relocalize in FMCW Radar ( http://arxiv.org/abs/2103.11562v1 )

ライセンス: Link先を確認
Wei Wang, Pedro P. B. de Gusmo, Bo Yang, Andrew Markham, and Niki Trigoni(参考訳) 再局在化はロボット工学とコンピュータビジョンの分野における基本的な課題である。 ディープカメラの再ローカライズの分野では、生の画像から直接ポーズを推定する作業がかなり行われている。 しかし,レーダーセンサデータには学習に基づく手法は適用されていない。 本研究では,FMCW(Emerging Frequency-Modulated Continuous Wave)レーダースキャンを用いて,ディープラーニングを利用してグローバルなポーズを予測する方法について検討する。 具体的には、6-DoFグローバルポーズを直接推定できる自己注意型ニューラルネットワークRadarLocを提案する。 また,レーダスキャン間の幾何的制約を利用して局所化性能を向上させることを提案する。 我々は最近リリースされた屋外データセットOxford Radar RobotCarに対するアプローチを検証する。 包括的実験により,提案手法はレーダーによる位置推定とディープカメラ再位置推定を著しく上回ることを示した。

Relocalization is a fundamental task in the field of robotics and computer vision. There is considerable work in the field of deep camera relocalization, which directly estimates poses from raw images. However, learning-based methods have not yet been applied to the radar sensory data. In this work, we investigate how to exploit deep learning to predict global poses from Emerging Frequency-Modulated Continuous Wave (FMCW) radar scans. Specifically, we propose a novel end-to-end neural network with self-attention, termed RadarLoc, which is able to estimate 6-DoF global poses directly. We also propose to improve the localization performance by utilizing geometric constraints between radar scans. We validate our approach on the recently released challenging outdoor dataset Oxford Radar RobotCar. Comprehensive experiments demonstrate that the proposed method outperforms radar-based localization and deep camera relocalization methods by a significant margin.
翻訳日:2021-03-23 14:21:31 公開日:2021-03-22
# DRLを用いたマップレスナビゲーションにおける一般化性能の向上とスピードアップトレーニング

Enhancing the Generalization Performance and Speed Up Training for DRL-based Mapless Navigation ( http://arxiv.org/abs/2103.11686v1 )

ライセンス: Link先を確認
Wei Zhang, Yunfeng Zhang and Ning Liu(参考訳) DRLでナビゲートするためのエージェントのトレーニングはデータハングリーであり、数百万のトレーニングステップが必要になる。 さらに、DRLエージェントはトレーニングシナリオでうまく動作し、目に見えない現実のシナリオではうまく動作しない。 本稿では,DRLエージェントがこのような未知のシナリオでフェールする理由を論じ,LiDAR読み出しの表現がエージェントの性能劣化の鍵となる要因であることを示す。 さらに,訓練を加速し,DRLエージェントの性能を高めるための,容易かつ効率的な入力前処理(IP)手法を提案する。 提案するip関数は、レーザスキャンの重要な短距離値を強調し、重要でない長距離値の範囲を圧縮することができる。 大規模な比較実験を行い,提案手法の高性能化を実証した。

Training an agent to navigate with DRL is data-hungry, which requires millions of training steps. Besides, the DRL agents performing well in training scenarios are found to perform poorly in some unseen real-world scenarios. In this paper, we discuss why the DRL agent fails in such unseen scenarios and find the representation of LiDAR readings is the key factor behind the agent's performance degradation. Moreover, we propose an easy, but efficient input pre-processing (IP) approach to accelerate training and enhance the performance of the DRL agent in such scenarios. The proposed IP functions can highlight the important short-distance values of laser scans and compress the range of less-important long-distance values. Extensive comparative experiments are carried out, and the experimental results demonstrate the high performance of the proposed IP approaches.
翻訳日:2021-03-23 14:21:16 公開日:2021-03-22
# 動的システムに基づく経路計画手法を用いた未知地形のオンライン探索

Online search of unknown terrains using a dynamical system-based path planning approach ( http://arxiv.org/abs/2103.11863v1 )

ライセンス: Link先を確認
Karan Sridharan, Zahra Nili Ahmadabadi, Jeffrey Hudack(参考訳) 大きな環境の監視と探索は面倒な作業である。 環境条件が限られている空間では、ロボットが簡単な設計で環境を網羅することを可能にするため、ランダムな検索が効果的であるように見える。 ランダムなスキャニングを生成する1つの方法は、非線形力学システムを使用してロボットのコントローラにカオスを与えることである。 これにより予測不可能だが決定論的軌跡が生成され、設計者はシステムを制御でき、高いスキャニングカバレッジを達成できる。 しかし、予測不可能さはカバレッジ時間の増加とスケーラビリティの欠如によるものであり、どちらも最先端のカオスパスプランナーによって無視されている。 本研究では,ロボットが障害物を回避し,短時間で空間全体をカバーできる,新たなスケーラブルな手法を提案する。 このテクニックは、2つのカオスシステムを結合して操作することで、カバー時間を最小化し、異なる特性を持つ未知の環境のスキャンを可能にする。 この手法を用いた場合、ロボットの性能は最先端のプランナーと比較して平均49%向上した。 経路の予測不能を保証する一方で、カオスプランナーの全体的な性能は最適システムに匹敵するままであった。

Surveillance and exploration of large environments is a tedious task. In spaces with limited environmental cues, random-like search appears to be an effective approach as it allows the robot to perform online coverage of environments using a simple design. One way to generate random-like scanning is to use nonlinear dynamical systems to impart chaos into the robot's controller. This will result in generation of unpredictable but at the same time deterministic trajectories, allowing the designer to control the system and achieve a high scanning coverage. However, the unpredictability comes at the cost of increased coverage time and lack of scalability, both of which have been ignored by the state-of-the-art chaotic path planners. This study introduces a new scalable technique that helps a robot to steer away from the obstacles and cover the entire space in a short period of time. The technique involves coupling and manipulating two chaotic systems to minimize the coverage time and enable scanning of unknown environments with different properties online. Using this technique resulted in 49% boost, on average, in the robot's performance compared to the state-of-the-art planners. While ensuring unpredictability in the paths, the overall performance of the chaotic planner remained comparable to optimal systems.
翻訳日:2021-03-23 14:21:02 公開日:2021-03-22
# 自動プロセス発見とディープラーニングによるイベントログからの正確なビジネスプロセスシミュレーションモデルの学習

Learning Accurate Business Process Simulation Models from Event Logs via Automated Process Discovery and Deep Learning ( http://arxiv.org/abs/2103.11944v1 )

ライセンス: Link先を確認
Manuel Camargo, Marlon Dumas, Oscar Gonz\'alez-Rojas(参考訳) ビジネスプロセスシミュレーション(business process simulation)は、プロセスに対する変更の影響を時間とコストの尺度(what-if process analysis)で見積もる、よく知られた手法です。 このような推定の有用性は、基礎となるシミュレーションモデルの精度にかかっている。 データ駆動シミュレーション(DDS)手法は、自動プロセス発見と拡張技術を組み合わせて、イベントログからプロセスシミュレーションモデルを学ぶ。 実証的な研究により、DDSモデルは観測された活動のシーケンスとその周波数を適切に捉えるが、実際のプロセスの時間的ダイナミクスを捉えることができないことが示されている。 対照的に、並列的な研究は、生成的ディープラーニング(DL)モデルがそのような時間的ダイナミクスを正確に捉えることができることを示した。 後者のモデルの欠点は、ユーザーはブラックボックスの性質のため、何の分析のために変更できないことである。 本稿では、自動プロセス発見・拡張技術を用いてログから(確率的な)プロセスモデルを抽出したイベントログからプロセスシミュレーションモデルを学習するためのハイブリッドアプローチを提案し、そのモデルをDLモデルと組み合わせて、タイムスタンプ付きイベントシーケンス(トレース)を生成する。 実験により, 得られたハイブリッドシミュレーションモデルが純粋なDLモデルの時間的精度と一致し, DDS手法の質的解析能力を維持した。

Business process simulation is a well-known approach to estimate the impact of changes to a process with respect to time and cost measures -- a practice known as what-if process analysis. The usefulness of such estimations hinges on the accuracy of the underlying simulation model. Data-Driven Simulation (DDS) methods combine automated process discovery and enhancement techniques to learn process simulation models from event logs. Empirical studies have shown that, while DDS models adequately capture the observed sequences of activities and their frequencies, they fail to capture the temporal dynamics of real-life processes. In contrast, parallel work has shown that generative Deep Learning (DL) models are able to accurately capture such temporal dynamics. The drawback of these latter models is that users cannot alter them for what-if analysis due to their black-box nature. This paper presents a hybrid approach to learn process simulation models from event logs wherein a (stochastic) process model is extracted from a log using automated process discovery and enhancement techniques, and this model is then combined with a DL model to generate timestamped event sequences (traces). An experimental evaluation shows that the resulting hybrid simulation models match the temporal accuracy of pure DL models, while retaining the what-if analysis capability of DDS approaches.
翻訳日:2021-03-23 14:20:44 公開日:2021-03-22
# ニューラルルミグラフのレンダリング

Neural Lumigraph Rendering ( http://arxiv.org/abs/2103.11571v1 )

ライセンス: Link先を確認
Petr Kellnhofer, Lars Jebe, Andrew Jones, Ryan Spicer, Kari Pulli and Gordon Wetzstein(参考訳) 新たなビュー合成は困難かつ不適切な逆レンダリング問題である。 ニューラルレンダリング技術は近年,この課題に対して光リアルな画質を実現している。 しかし、最新技術(SOTA)のニューラルボリュームレンダリングアプローチは、訓練が遅く、高解像度の画像に数分の推論時間を必要とする。 本研究では,2次元画像のみを監督するシーンの暗示面と放射場を協調的に最適化するために,周期的活性化を伴う高容量なニューラルシーン表現を採用する。 我々のニューラルレンダリングパイプラインは、SOTAニューラルボリュームレンダリングを約2桁加速し、暗黙のサーフェス表現は、ビュー依存テクスチャ情報によるメッシュのエクスポートを可能にするユニークなものです。 したがって、他の暗黙的な表面表現と同様に、従来のグラフィックスパイプラインと互換性があり、他のサーフェス法と比較して前例のない画質を実現している。 既存のデータセットと、カスタムマルチカメラリグでキャプチャした高品質な3D顔データを用いて、アプローチの品質を評価する。

Novel view synthesis is a challenging and ill-posed inverse rendering problem. Neural rendering techniques have recently achieved photorealistic image quality for this task. State-of-the-art (SOTA) neural volume rendering approaches, however, are slow to train and require minutes of inference (i.e., rendering) time for high image resolutions. We adopt high-capacity neural scene representations with periodic activations for jointly optimizing an implicit surface and a radiance field of a scene supervised exclusively with posed 2D images. Our neural rendering pipeline accelerates SOTA neural volume rendering by about two orders of magnitude and our implicit surface representation is unique in allowing us to export a mesh with view-dependent texture information. Thus, like other implicit surface representations, ours is compatible with traditional graphics pipelines, enabling real-time rendering rates, while achieving unprecedented image quality compared to other surface methods. We assess the quality of our approach using existing datasets as well as high-quality 3D face data captured with a custom multi-camera rig.
翻訳日:2021-03-23 14:19:26 公開日:2021-03-22
# Learn-to-Race: 自律走行のためのマルチモーダル制御環境

Learn-to-Race: A Multimodal Control Environment for Autonomous Racing ( http://arxiv.org/abs/2103.11575v1 )

ライセンス: Link先を確認
James Herman, Jonathan Francis, Siddha Ganju, Bingqing Chen, Anirudh Koul, Abhinav Gupta, Alexey Skabelkin, Ivan Zhukov, Max Kumskoy, Eric Nyberg(参考訳) 既存の自動運転研究は主に都市走行に焦点を当てており、高速レースの基礎となる複雑な運転行動を特徴付けるには不十分である。 同時に、既存のレースシミュレーションフレームワークは、視覚のレンダリング、車両のダイナミクス、タスクの目的に関して現実主義を捉えるのに苦労し、学習エージェントを現実世界のコンテキストに移すのを妨げている。 本稿では,仮想カメラから総合的な慣性計測センサへのマルチモーダル情報を用いたシミュレーションフォーミュラe方式レースにおいて,エージェントが学習・レース(l2r)を行う新しい環境を提案する。 シミュレーターと対面トレーニングフレームワークを含む我々の環境は、車両のダイナミックスとレース条件を正確にモデル化する。 本稿では,自律走行のための到着シミュレータをリリースする。 次に,学習からドライブへの挑戦,フォーミュラeレース,および自動運転のためのマルチモーダル軌道予測に着想を得たl2rタスクを提案する。 さらに、L2Rフレームワークスイートを提供し、有名なスルークストン・サーキットやラスベガス・モーター・スピードウェイのような、現実世界のトラックの高精度なモデルでのシミュレーションレースを容易にする。 最後に、専門家によるデモンストレーションの公式なL2Rタスクデータセットと、一連のベースライン実験とリファレンス実装を提供する。 私たちはコードを公開します。

Existing research on autonomous driving primarily focuses on urban driving, which is insufficient for characterising the complex driving behaviour underlying high-speed racing. At the same time, existing racing simulation frameworks struggle in capturing realism, with respect to visual rendering, vehicular dynamics, and task objectives, inhibiting the transfer of learning agents to real-world contexts. We introduce a new environment, where agents Learn-to-Race (L2R) in simulated Formula-E style racing, using multimodal information--from virtual cameras to a comprehensive array of inertial measurement sensors. Our environment, which includes a simulator and an interfacing training framework, accurately models vehicle dynamics and racing conditions. In this paper, we release the Arrival simulator for autonomous racing. Next, we propose the L2R task with challenging metrics, inspired by learning-to-drive challenges, Formula-E racing, and multimodal trajectory prediction for autonomous driving. Additionally, we provide the L2R framework suite, facilitating simulated racing on high-precision models of real-world tracks, such as the famed Thruxton Circuit and the Las Vegas Motor Speedway. Finally, we provide an official L2R task dataset of expert demonstrations, as well as a series of baseline experiments and reference implementations. We will make our code publicly available.
翻訳日:2021-03-23 14:19:10 公開日:2021-03-22
# 教師なし多変量標準CSC$\ell_4$Netを用いた脳画像合成

Brain Image Synthesis with Unsupervised Multivariate Canonical CSC$\ell_4$Net ( http://arxiv.org/abs/2103.11587v1 )

ライセンス: Link先を確認
Yawen Huang, Feng Zheng, Danyang Wang, Weilin Huang, Matthew R. Scott, Ling Shao(参考訳) 近年の神経科学の進歩は、ある病態を調査し、人間の認知を理解するためのマルチモーダル医療データの有効性を強調している。 しかし, 長期取得時間, 高精査コスト, アーティファクト抑制など, 様々な要因により, 異なるモダリティの完全な集合を得るには限界がある。 さらに、ニューロイメージングデータの複雑さ、高次元性、不均一性は、しばしば異なるマシンで測定されるため、既存のランダム化スキャンを効果的に活用する上で重要な課題である。 従来のイメージング依存プロセスを超えて、ソース入力から解剖学的に特異的なターゲットモダリティデータを合成する必要があることは明らかです。 本稿では,新しいCSC$\ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。 CSC$\ell_4$Netは、特徴写像におけるモーダル内データの初期統一と多変量標準適応により、特徴レベルの相互変換を促進する。 正の定値リーマン多様体加法データ忠実性項により、csc$\ell_4$net は変換された特徴に従って欠測を再構成することができる。 最後に、最大化 $\ell_4$-norm は計算効率のよい最適化問題に帰着する。 複数のデータセットの最先端手法と比較して、CSC$\ell_4$Netの能力と堅牢性を検証する。

Recent advances in neuroscience have highlighted the effectiveness of multi-modal medical data for investigating certain pathologies and understanding human cognition. However, obtaining full sets of different modalities is limited by various factors, such as long acquisition times, high examination costs and artifact suppression. In addition, the complexity, high dimensionality and heterogeneity of neuroimaging data remains another key challenge in leveraging existing randomized scans effectively, as data of the same modality is often measured differently by different machines. There is a clear need to go beyond the traditional imaging-dependent process and synthesize anatomically specific target-modality data from a source input. In this paper, we propose to learn dedicated features that cross both intre- and intra-modal variations using a novel CSC$\ell_4$Net. Through an initial unification of intra-modal data in the feature maps and multivariate canonical adaptation, CSC$\ell_4$Net facilitates feature-level mutual transformation. The positive definite Riemannian manifold-penalized data fidelity term further enables CSC$\ell_4$Net to reconstruct missing measurements according to transformed features. Finally, the maximization $\ell_4$-norm boils down to a computationally efficient optimization problem. Extensive experiments validate the ability and robustness of our CSC$\ell_4$Net compared to the state-of-the-art methods on multiple datasets.
翻訳日:2021-03-23 14:18:47 公開日:2021-03-22
# サムネイルインスタンス正規化による超解像ニューラルスタイル伝達に向けて

Towards Ultra-Resolution Neural Style Transfer via Thumbnail Instance Normalization ( http://arxiv.org/abs/2103.11784v1 )

ライセンス: Link先を確認
Zhe Chen, Wenhai Wang, Enze Xie, Tong Lu, Ping Luo(参考訳) 本稿では,任意の高解像度画像(例えば 10000x10000 ピクセル)を初めて柔軟に処理するための超簡易な超解像方式転送フレームワーク urst を提案する。 既存の最先端手法のほとんどは、超高解像度画像を処理する際のメモリコストとストロークサイズが小さいため、不足する。 URST は,1) 画像を小さなパッチに分割し,2) 新規なThumbnail Instance Normalization (TIN) を用いてパッチワイド転送を行うことにより,超高解像度画像によるメモリ問題を完全に回避する。 具体的には、TINはサムネイルの正規化統計を抽出し、それを小さなパッチに適用し、異なるパッチ間のスタイル整合性を保証する。 全体的なURSTフレームワークは、先行技術と比較して3つのメリットがある。 1) 入力画像を小さなパッチに分割し、TINを採用し、任意の高解像度で画像スタイルの転送に成功した。 2) 提案した脳卒中知覚損失が脳卒中サイズの増大に有効であることから, URSTは既存のSOTA法を超高分解能画像上で超越していることが示された。 3) URSTは既存のほとんどのスタイル転送手法に簡単に接続でき, トレーニングなしで直接性能を向上させることができる。 コードはhttps://github.com/c zczup/URST.comで入手できる。

We present an extremely simple Ultra-Resolution Style Transfer framework, termed URST, to flexibly process arbitrary high-resolution images (e.g., 10000x10000 pixels) style transfer for the first time. Most of the existing state-of-the-art methods would fall short due to massive memory cost and small stroke size when processing ultra-high resolution images. URST completely avoids the memory problem caused by ultra-high resolution images by 1) dividing the image into small patches and 2) performing patch-wise style transfer with a novel Thumbnail Instance Normalization (TIN). Specifically, TIN can extract thumbnail's normalization statistics and apply them to small patches, ensuring the style consistency among different patches. Overall, the URST framework has three merits compared to prior arts. 1) We divide input image into small patches and adopt TIN, successfully transferring image style with arbitrary high-resolution. 2) Experiments show that our URST surpasses existing SOTA methods on ultra-high resolution images benefiting from the effectiveness of the proposed stroke perceptual loss in enlarging the stroke size. 3) Our URST can be easily plugged into most existing style transfer methods and directly improve their performance even without training. Code is available at https://github.com/c zczup/URST.
翻訳日:2021-03-23 14:18:22 公開日:2021-03-22
# 視板以外の緑内障検出 : 説明可能な深層学習による乳頭領域の重要性

Glaucoma detection beyond the optic disc: The importance of the peripapillary region using explainable deep learning ( http://arxiv.org/abs/2103.11895v1 )

ライセンス: Link先を確認
Ruben Hemelings, Bart Elen, Jo\~ao Barbosa Breda, Matthew B. Blaschko, Patrick De Boever, Ingeborg Stalmans(参考訳) 現在、多くの緑内障の症例が発見されておらず、不可逆の盲目状態となっている。 コスト効率のよいスクリーニングを追求するために,色眼底画像から緑内障を検出する深層学習法が評価されている。 前例のない感度と特異性値が報告されているが、近年の緑内障検出深層学習モデルは、決定透明性に欠けている。 本稿では,緑内障検出と鉛直カップディスク比(vcdr)の分野における説明可能な深層学習を,重要なリスク因子として発展させる手法を提案する。 我々は,ある収穫政策を行う根底画像を用いて,64種類のディープラーニングモデルを訓練し,評価した。 視神経頭 (onh) を中心として, 輪作半径を画像サイズの割合として定義し, 10%~60% (onhクロップ政策) に等間隔に設定した。 また, 養殖マスクの逆数を用いて, ONH情報のみに基づいて訓練したモデルの性能を定量化した(周辺作物政策)。 原画像で評価したモデルの性能は、緑内障検出のための曲線(AUC)が0.94[95% CI: 0.92-0.96]、VCDR推定のための決定係数(R^2)が77%(95% CI: 0.77-0.79)となった。 ONHを欠いた画像に基づいてトレーニングされたモデルは、グラウコーマ検出のための0.88 [95% CI: 0.85-0.90] AUCとVCDR推定のための37% [95% CI: 0.35-0.40] R^2スコアを60% ONHの最も極端なセットアップで得ることができる。 我々は,最近の公開データセット(REFUGE)に異なるカメラで撮影した画像を含む緑内障検出モデルの有効性を検証し,60%の画像サイズでOnHの収穫方針を適用した場合,AUCが0.80[95% CI: 0.76-0.84]であることを確認した。 深層学習がONH外の眼底画像領域から緑内障を検出できることを示す最初の証拠となる。

Today, a large number of glaucoma cases remain undetected, resulting in irreversible blindness. In a quest for cost-effective screening, deep learning-based methods are being evaluated to detect glaucoma from color fundus images. Although unprecedented sensitivity and specificity values are reported, recent glaucoma detection deep learning models lack in decision transparency. Here, we propose a methodology that advances explainable deep learning in the field of glaucoma detection and vertical cup-disc ratio (VCDR), an important risk factor. We trained and evaluated a total of 64 deep learning models using fundus images that undergo a certain cropping policy. We defined the circular crop radius as a percentage of image size, centered on the optic nerve head (ONH), with an equidistant spaced range from 10%-60% (ONH crop policy). The inverse of the cropping mask was also applied to quantify the performance of models trained on ONH information exclusively (periphery crop policy). The performance of the models evaluated on original images resulted in an area under the curve (AUC) of 0.94 [95% CI: 0.92-0.96] for glaucoma detection, and a coefficient of determination (R^2) equal to 77% [95% CI: 0.77-0.79] for VCDR estimation. Models that were trained on images with absence of the ONH are still able to obtain significant performance (0.88 [95% CI: 0.85-0.90] AUC for glaucoma detection and 37% [95% CI: 0.35-0.40] R^2 score for VCDR estimation in the most extreme setup of 60% ONH crop). We validated our glaucoma detection models on a recent public data set (REFUGE) that contains images captured with a different camera, still achieving an AUC of 0.80 [95% CI: 0.76-0.84] when ONH crop policy of 60% image size was applied. Our findings provide the first irrefutable evidence that deep learning can detect glaucoma from fundus image regions outside the ONH.
翻訳日:2021-03-23 14:18:01 公開日:2021-03-22
# LaneAF:アフィニティフィールドを用いたロバストマルチレーン検出

LaneAF: Robust Multi-Lane Detection with Affinity Fields ( http://arxiv.org/abs/2103.12040v1 )

ライセンス: Link先を確認
Hala Abualsaud, Sean Liu, David Lu, Kenny Situ, Akshay Rangesh and Mohan M. Trivedi(参考訳) 本研究では,2値セグメンテーションマスクと画素間親和性フィールドの予測を含むレーン検出手法を提案する。 これらの親和性フィールドとバイナリマスクは、後処理のステップにおいて、レーンピクセルを水平および垂直に、対応するレーンインスタンスにクラスタリングすることができる。 このクラスタリングは、単純な行ごとのデコードプロセスで実現され、オーバーヘッドがほとんどないため、LaneAFは固定数や最大数の車線を仮定することなく、可変数の車線を検出することができる。 さらに、このようなクラスタリングの形式は、従来の視覚的クラスタリングアプローチよりも解釈可能であり、エラーの原因を特定し、修正することができる。 一般的な車線検出データセットで得られた定性的かつ定量的な結果は、モデルが車線を効果的かつ堅牢に検出およびクラスタリングする能力を示している。 提案手法は,tusimpleベンチマークの最先端の手法と同等に動作し,挑戦するculaneデータセットに新たな最先端の手法を設定する。

This study presents an approach to lane detection involving the prediction of binary segmentation masks and per-pixel affinity fields. These affinity fields, along with the binary masks, can then be used to cluster lane pixels horizontally and vertically into corresponding lane instances in a post-processing step. This clustering is achieved through a simple row-by-row decoding process with little overhead; such an approach allows LaneAF to detect a variable number of lanes without assuming a fixed or maximum number of lanes. Moreover, this form of clustering is more interpretable in comparison to previous visual clustering approaches, and can be analyzed to identify and correct sources of error. Qualitative and quantitative results obtained on popular lane detection datasets demonstrate the model's ability to detect and cluster lanes effectively and robustly. Our proposed approach performs on par with state-of-the-art approaches on the limited TuSimple benchmark, and sets a new state-of-the-art on the challenging CULane dataset.
翻訳日:2021-03-23 14:17:21 公開日:2021-03-22
# サブルーチンのソースコード要約のためのプロジェクトレベル符号化

Project-Level Encoding for Neural Source Code Summarization of Subroutines ( http://arxiv.org/abs/2103.11599v1 )

ライセンス: Link先を確認
Aakash Bansal, Sakib Haque, Collin McMillan(参考訳) サブルーチンのソースコード要約は、そのサブルーチンの短い自然言語記述を書くタスクである。 記述は通常、短いフレーズ(例えば)でさえもプログラマを対象としたドキュメントに役立ちます。 "データをzipファイルに圧縮する") は、サブルーチンがコード自体を読むことに頼ることなく、すばやく理解するのに役立ちます。 ニューラルネットワーク(特にエンコーダ-デコーダモデル設計)に基づく技術は最先端技術として確立された。 しかし、これらのモデルで広く認識されている問題は、要約されるコードの中に要約を作成するのに必要な情報が存在していると仮定することである。 したがって、現在の研究フロンティアは、ソースコードコンテキストを要約のニューラルモデルに符号化する問題にある。 本稿では,コード要約モデルを改善するためのプロジェクトレベルエンコーダを提案する。 プロジェクトレベルでは、ソフトウェアプロジェクトで選択されたコードファイルのベクトル化表現を作成し、その表現を使用して最先端のニューラルネットワーク要約技術のエンコーダを拡張する。 我々は,エンコーダが既存のモデルをどのように改善するかを示し,モデルサイズの時間と資源コストを制御しながら改善を最大化するためのガイドラインを提供する。

Source code summarization of a subroutine is the task of writing a short, natural language description of that subroutine. The description usually serves in documentation aimed at programmers, where even brief phrase (e.g. "compresses data to a zip file") can help readers rapidly comprehend what a subroutine does without resorting to reading the code itself. Techniques based on neural networks (and encoder-decoder model designs in particular) have established themselves as the state-of-the-art. Yet a problem widely recognized with these models is that they assume the information needed to create a summary is present within the code being summarized itself - an assumption which is at odds with program comprehension literature. Thus a current research frontier lies in the question of encoding source code context into neural models of summarization. In this paper, we present a project-level encoder to improve models of code summarization. By project-level, we mean that we create a vectorized representation of selected code files in a software project, and use that representation to augment the encoder of state-of-the-art neural code summarization techniques. We demonstrate how our encoder improves several existing models, and provide guidelines for maximizing improvement while controlling time and resource costs in model size.
翻訳日:2021-03-23 14:12:56 公開日:2021-03-22
# 陪審員選択における顔面バイアスの検出

Detecting Racial Bias in Jury Selection ( http://arxiv.org/abs/2103.11852v1 )

ライセンス: Link先を確認
Jack Dunn and Ying Daisy Zhuo(参考訳) 2019年の連邦最高裁判所事件「Flowers v. Mississippi」を支持するために、APM Reportsは歴史的裁判所の記録を照合し、州が潜在的な陪審員に人種的偏見を見せているかどうかを評価した。 この分析では、後方段階的なロジスティック回帰を用いて、競合が重要な要因であると結論づけるが、関連する特徴を選択するこの方法はヒューリスティックであり、特徴間の相互作用を考慮できない。 最適特徴選択(Optimal Feature Selection)を用いて、世界の特徴の最適サブセットを特定し、ストライキ決定に人種的偏見があることを示す。 また, 最適分類木を用いて, 同様の特徴と打たれ確率を持つ陪審員集団を区分し, これら3つの分類群がストライク率に有意な人種差を示し, データセット内の特定のバイアス領域を特定できることを見いだした。

To support the 2019 U.S. Supreme Court case "Flowers v. Mississippi", APM Reports collated historical court records to assess whether the State exhibited a racial bias in striking potential jurors. This analysis used backward stepwise logistic regression to conclude that race was a significant factor, however this method for selecting relevant features is only a heuristic, and additionally cannot consider interactions between features. We apply Optimal Feature Selection to identify the globally-optimal subset of features and affirm that there is significant evidence of racial bias in the strike decisions. We also use Optimal Classification Trees to segment the juror population subgroups with similar characteristics and probability of being struck, and find that three of these subgroups exhibit significant racial disparity in strike rate, pinpointing specific areas of bias in the dataset.
翻訳日:2021-03-23 14:12:39 公開日:2021-03-22
# 正則化によるsoftmax:マルチエージェント強化学習における値推定の改善

Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2103.11883v1 )

ライセンス: Link先を確認
Ling Pan, Tabish Rashid, Bei Peng, Longbo Huang, Shimon Whiteson(参考訳) q$-learningの過大評価は、シングルエージェント強化学習で広く研究されてきた重要な問題であるが、マルチエージェント環境では比較的注目されていない。 本研究では、協調型マルチエージェント強化学習(MARL)のためのQMIXアルゴリズムが、既存のアプローチでは緩和されない、特に過大評価の問題に悩まされていることを実証的に示す。 我々は,ベースラインから逸脱する大規模共同動作値のペナライズを行う新しい正規化ベースの更新スキームを設計し,その学習の安定化効果を示す。 さらに,マルチエージェント設定で効率的に近似するソフトマックス演算子を用いることにより,潜在的な推定バイアスを更に低減することを提案する。 QMIXに適用したSoftmax with Regularization (SR)法は,過度な過大評価を回避するという目標を達成し,様々な協調型マルチエージェントタスクの性能を著しく向上させることを実証する。 本手法の汎用性を示すために,他の$q$学習に基づくmarlアルゴリズムに適用し,同様の性能向上を実現する。 最後に,本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。

Overestimation in $Q$-learning is an important problem that has been extensively studied in single-agent reinforcement learning, but has received comparatively little attention in the multi-agent setting. In this work, we empirically demonstrate that QMIX, a popular $Q$-learning algorithm for cooperative multi-agent reinforcement learning (MARL), suffers from a particularly severe overestimation problem which is not mitigated by existing approaches. We rectify this by designing a novel regularization-based update scheme that penalizes large joint action-values deviating from a baseline and demonstrate its effectiveness in stabilizing learning. We additionally propose to employ a softmax operator, which we efficiently approximate in the multi-agent setting, to further reduce the potential overestimation bias. We demonstrate that our Softmax with Regularization (SR) method, when applied to QMIX, accomplishes its goal of avoiding severe overestimation and significantly improves performance in a variety of cooperative multi-agent tasks. To demonstrate the versatility of our method, we apply it to other $Q$-learning based MARL algorithms and achieve similar performance gains. Finally, we show that our method provides a consistent performance improvement on a set of challenging StarCraft II micromanagement tasks.
翻訳日:2021-03-23 14:12:22 公開日:2021-03-22
# Deep Hedging: リスクニュートラルによるボラティリティダイナミクスの学習

Deep Hedging: Learning Risk-Neutral Implied Volatility Dynamics ( http://arxiv.org/abs/2103.11948v1 )

ライセンス: Link先を確認
Hans Buehler, Phillip Murray, Mikko S. Pakkanen, Ben Wood(参考訳) 本研究では, コンベックス取引コストと凸取引制約下での有限地平線まで, 模擬スポットとオプション価格の経路に対するリスク中立度を数値的に効率よく学習する手法を提案する。 このアプローチは、次の2ステップで確率的含意ボラティリティモデルを実装するのに使うことができる。 最近議論したように、オプション価格の市場シミュレータをトレーニングする。 リスク・ニュートラル密度、特に極小エントロピー・マーティンゲール測度を見つける。 結果として得られるモデルは、リスク中立的な価格設定や、トランザクションコストやトレーディング制約の場合にDeep Hedgingに使用できる。 提案手法を動機付けるために,市場ダイナミクスがリスク中立的手法に従う場合に限り,取引コストの欠如による「統計的仲裁」を免れることを示した。 さらに、凸取引コストや取引制約が存在する場合のより一般的な特徴も提供します。 これらの結果は、取引摩擦下での統計的仲裁のための資産価格の基本的な定理の類似と見なされ、独立した関心を持つ。

We present a numerically efficient approach for learning a risk-neutral measure for paths of simulated spot and option prices up to a finite horizon under convex transaction costs and convex trading constraints. This approach can then be used to implement a stochastic implied volatility model in the following two steps: 1. Train a market simulator for option prices, as discussed for example in our recent; 2. Find a risk-neutral density, specifically the minimal entropy martingale measure. The resulting model can be used for risk-neutral pricing, or for Deep Hedging in the case of transaction costs or trading constraints. To motivate the proposed approach, we also show that market dynamics are free from "statistical arbitrage" in the absence of transaction costs if and only if they follow a risk-neutral measure. We additionally provide a more general characterization in the presence of convex transaction costs and trading constraints. These results can be seen as an analogue of the fundamental theorem of asset pricing for statistical arbitrage under trading frictions and are of independent interest.
翻訳日:2021-03-23 14:12:00 公開日:2021-03-22
# リチウムイオン電池の電気化学モデリングと機械学習の統合

Integrating Electrochemical Modeling with Machine Learning for Lithium-Ion Batteries ( http://arxiv.org/abs/2103.11580v1 )

ライセンス: Link先を確認
Hao Tu, Scott Moura, Huazhen Fang(参考訳) リチウムイオン電池(LiBs)の数学的モデリングは、高度な電池管理において重要な課題である。 本稿では,LiBの高精度モデリングを実現するために,物理モデルと機械学習を統合する新しい手法を提案する。 このアプローチは、物理モデルの動的状態を機械学習モデルに通知することを提案し、物理と機械学習の深い統合を可能にする。 本稿では,1粒子モデルと熱力学(SPMT)をフィードフォワードニューラルネットワーク(FNN)とを混合して,LiBの動的挙動の物理インフォームド学習を行うアプローチに基づく2つのハイブリッド物理機械学習モデルを提案する。 提案したモデルは構造的に比較的類似しており、広範囲なシミュレーションで示されるように、高いCレートでもかなりの予測精度が得られる。

Mathematical modeling of lithium-ion batteries (LiBs) is a central challenge in advanced battery management. This paper presents a new approach to integrate a physics-based model with machine learning to achieve high-precision modeling for LiBs. This approach uniquely proposes to inform the machine learning model of the dynamic state of the physical model, enabling a deep integration between physics and machine learning. We propose two hybrid physics-machine learning models based on the approach, which blend a single particle model with thermal dynamics (SPMT) with a feedforward neural network (FNN) to perform physics-informed learning of a LiB's dynamic behavior. The proposed models are relatively parsimonious in structure and can provide considerable predictive accuracy even at high C-rates, as shown by extensive simulations.
翻訳日:2021-03-23 14:08:28 公開日:2021-03-22
# ast2vec: Pythonプログラムの再帰的ニューラルエンコーディングを活用する

ast2vec: Utilizing Recursive Neural Encodings of Python Programs ( http://arxiv.org/abs/2103.11614v1 )

ライセンス: Link先を確認
Benjamin Paa{\ss}en and Jessica McBroom and Bryn Jeffries and Irena Koprinska and Kalina Yacef(参考訳) 教育データマイニングは、学生活動にデータマイニング技術を適用することを含む。 しかし、コンピュータプログラミングの文脈では、多くのデータマイニング技術はベクトル型入力を期待しているため適用できないが、コンピュータプログラムは構文木の形態を持っている。 本稿では,pythonの構文木をベクトルやバックにマッピングするニューラルネットワークであるast2vecについて述べる。 ast2vecは、初心者プログラマの約50万のプログラムでトレーニングされており、再トレーニングなしで学習タスクに適用されるように設計されている。 まず、教室サイズのデータセット上でast2vecを用いて、可視化、学生の動き分析、クラスタリング、外乱検出を含む例分析を行い、2つの新しい分析、すなわち、進行分散投影と動的システム解析を行う。 第2に,ast2vecがトレーニングデータ上のベクトル表現と,さらに2つの大規模プログラミングデータセットから元の構文木を復元する能力を検討する。 最後に,ast2vec上の単純な線形回帰の予測性能を評価し,構文木に直接作用する手法と同様の結果を得た。 ast2vecは、コンピュータプログラムの分析をより簡単に、よりリッチで、より効率的にすることで、教育用データマイニングツールベルトを強化できることを願っている。

Educational datamining involves the application of datamining techniques to student activity. However, in the context of computer programming, many datamining techniques can not be applied because they expect vector-shaped input whereas computer programs have the form of syntax trees. In this paper, we present ast2vec, a neural network that maps Python syntax trees to vectors and back, thereby facilitating datamining on computer programs as well as the interpretation of datamining results. Ast2vec has been trained on almost half a million programs of novice programmers and is designed to be applied across learning tasks without re-training, meaning that users can apply it without any need for (additional) deep learning. We demonstrate the generality of ast2vec in three settings: First, we provide example analyses using ast2vec on a classroom-sized dataset, involving visualization, student motion analysis, clustering, and outlier detection, including two novel analyses, namely a progress-variance-pr ojection and a dynamical systems analysis. Second, we consider the ability of ast2vec to recover the original syntax tree from its vector representation on the training data and two further large-scale programming datasets. Finally, we evaluate the predictive capability of a simple linear regression on top of ast2vec, obtaining similar results to techniques that work directly on syntax trees. We hope ast2vec can augment the educational datamining toolbelt by making analyses of computer programs easier, richer, and more efficient.
翻訳日:2021-03-23 14:08:14 公開日:2021-03-22
# グラフニューラルネットワークを用いた異常ランダム歩行の物理特性の学習

Learning physical properties of anomalous random walks using graph neural networks ( http://arxiv.org/abs/2103.11738v1 )

ライセンス: Link先を確認
Hippolyte Verdier (UP), Maxime Duval, Fran\c{c}ois Laurent, Alhassan Cass\'e, Christian Vestergaard, Jean-Baptiste Masson(参考訳) 単一粒子追跡により、生体分子が自然環境と物理的にどのように相互作用するかを探索することができる。 記録された単一粒子軌道の分析における根本的な課題は、基礎となるランダムウォークの物理モデルやモデルのクラスを推論する逆問題である。 信頼性の高い推論は、単粒子運動の固有確率的性質、実験ノイズ、およびほとんどの実験軌道の短い期間によって困難にされる。 モデル同定は、ランダムウォークモデルの主要な物理的性質が漸近的にのみ定義されているという事実によりさらに複雑である。 本稿では,グラフニューラルネットワーク(GNN)に基づくランダムウォーク特性を推定するための,新しい高速なアプローチを提案する。 提案手法は,各観測位置に特徴ベクトルを関連づけることと,各観測軌道にスパースグラフ構造を関連づけることである。 この構成物上でシミュレーションに基づく教師付き学習を行うことで,ランダムウォークとその異常指数のモデルを確実に学習できることを示す。 この方法は任意の長さの軌跡に自然に適用できる。 本研究は,AnDi Challenge [2]で提案された生体関連性の異常なランダムウォークの解析における効率性を示す。 我々は,GNNで情報がどのように符号化されているかを探索し,ランダムウォークの物理的特徴を学習していることを示す。 さらに、トレーニング中に見えない種類の軌跡を一般化する能力を評価し、GNNは少ないパラメータでも高い精度を維持していることを示す。 実験データの解析にこれらのネットワークを活用する可能性について論じる。

Single particle tracking allows probing how biomolecules interact physically with their natural environments. A fundamental challenge when analysing recorded single particle trajectories is the inverse problem of inferring the physical model or class of models of the underlying random walks. Reliable inference is made difficult by the inherent stochastic nature of single particle motion, by experimental noise, and by the short duration of most experimental trajectories. Model identification is further complicated by the fact that main physical properties of random walk models are only defined asymptotically, and are thus degenerate for short trajectories. Here, we introduce a new, fast approach to inferring random walk properties based on graph neural networks (GNNs). Our approach consists in associating a vector of features with each observed position, and a sparse graph structure with each observed trajectory. By performing simulation-based supervised learning on this construct [1], we show that we can reliably learn models of random walks and their anomalous exponents. The method can naturally be applied to trajectories of any length. We show its efficiency in analysing various anomalous random walks of biological relevance that were proposed in the AnDi challenge [2]. We explore how information is encoded in the GNN, and we show that it learns relevant physical features of the random walks. We furthermore evaluate its ability to generalize to types of trajectories not seen during training, and we show that the GNN retains high accuracy even with few parameters. We finally discuss the possibility to leverage these networks to analyse experimental data.
翻訳日:2021-03-23 14:07:52 公開日:2021-03-22
# オンラインヘイト自動検出におけるRacial Biasの対応:幾何学的深層学習による有害オンラインユーザの公平かつ正確な分類を目指して

Tackling Racial Bias in Automated Online Hate Detection: Towards Fair and Accurate Classification of Hateful Online Users Using Geometric Deep Learning ( http://arxiv.org/abs/2103.11806v1 )

ライセンス: Link先を確認
Zo Ahmed, Bertie Vidgen, and Scott A. Hale(参考訳) オンラインの憎しみは多くのソーシャルメディアプラットフォームや他のサイトに対する関心が高まっている。 これに対抗するため、テクノロジー企業はヘイトフルなコンテンツを単にモデレートするのではなく、”ヘイトフルユーザ”を識別し、認可するようになっている。 しかし、オンラインヘイト検出のほとんどの研究は、ヘイトフルコンテンツに焦点を当てている。 本稿では,幾何学的深層学習を通したソーシャルネットワーク情報の導入により,より公平でより正確なヘイトフルユーザ検出システムを開発する方法について検討する。 幾何学的ディープラーニングは、情報豊富なネットワーク表現を動的に学習し、未知のノードに一般化することができる。 これは、スケーラビリティが欠如し、情報スパースなネットワーク表現を生成する、手作業によるネットワーク機能を超えるために必要不可欠である。 本稿では,ネットワーク情報を取り除いたり,手動機能工学( node2vec など)によって組み込んだりした幾何学的深層学習の精度を比較した。 また、「予測平等」基準を用いて、これらの手法の公正性を評価し、他の4836人のアフリカ系アメリカ人ユーザーの136人のサブセットにおける偽陽性率を比較した。 幾何学的深層学習が最も正確で公平な分類器を生成し、AUCのスコアはデータセット全体で90.8\%、アフリカ系アメリカ人のサブセットの中では偽陽性率は0である。 これは、ヘイトフルな自動ユーザー検出にソーシャルネットワーク機能を効果的に組み込むことの利点を強調している。 このようなアプローチは、効率的でスケーラブルな設計であるため、実世界のコンテンツモデレーションでも容易に運用できる。

Online hate is a growing concern on many social media platforms and other sites. To combat it, technology companies are increasingly identifying and sanctioning `hateful users' rather than simply moderating hateful content. Yet, most research in online hate detection to date has focused on hateful content. This paper examines how fairer and more accurate hateful user detection systems can be developed by incorporating social network information through geometric deep learning. Geometric deep learning dynamically learns information-rich network representations and can generalise to unseen nodes. This is essential for moving beyond manually engineered network features, which lack scalability and produce information-sparse network representations. This paper compares the accuracy of geometric deep learning with other techniques which either exclude network information or incorporate it through manual feature engineering (e.g., node2vec). It also evaluates the fairness of these techniques using the `predictive equality' criteria, comparing the false positive rates on a subset of 136 African-American users with 4836 other users. Geometric deep learning produces the most accurate and fairest classifier, with an AUC score of 90.8\% on the entire dataset and a false positive rate of zero among the African-American subset for the best performing model. This highlights the benefits of more effectively incorporating social network features in automated hateful user detection. Such an approach is also easily operationalized for real-world content moderation as it has an efficient and scalable design.
翻訳日:2021-03-23 14:07:28 公開日:2021-03-22
# 符号化理論とクロスバリデーションの関連とその応用

A Link between Coding Theory and Cross-Validation with Applications ( http://arxiv.org/abs/2103.11856v1 )

ライセンス: Link先を確認
Tapio Pahikkala, Parisa Movahedi, Ileana Montoya, Havu Miikonen, Ivan Jambor, Antti Airola, Laszlo Major(参考訳) 二元クラスラベルは交換可能であり、固定されたクラスの割合で2つのクラスにランダムに割り当てられるというヌル仮説の下で、クロスバリデーションに基づくauc推定の組合せを研究した。 特に, 学習アルゴリズムやデータの事前の仮定なしに, 学習セットから異なるクラスラベルを持つ全ての可能なデータのペアを一度に保持し, ヌルの下で振る舞うLPOCV(Left-pair-out cross-validation)に基づく推定器について検討する。 学習アルゴリズムがゼロのLPOCV誤差を達成できるデータのサンプルに対する異なる固定比例ラベル割り当ての最大数は、サンプルサイズである一定の重み誤差補正符号の最大サイズであり、重みは1でラベル付けされたデータの数であり、符号語間のハミング距離は4であることを示す。 次に、軽量な重み付き符号の概念を導入し、非ゼロのLPOCV誤差に対して同様の結果を示す。 また, 共役重み符号の古典的結果に類似した光定数重み符号の最大サイズについて, 上界と下界の両方を証明した。 これらの結果は,従来のWilcoxon-Mann-Whitne y Uテストと類似する2つのクラスを互いに区別する学習アルゴリズムのための,新しいLPOCVベースの統計的テストの設計への道を開いた。 学習アルゴリズムとデータの代表的な例の振る舞いを,実験ケーススタディでシミュレートした。

We study the combinatorics of cross-validation based AUC estimation under the null hypothesis that the binary class labels are exchangeable, that is, the data are randomly assigned into two classes given a fixed class proportion. In particular, we study how the estimators based on leave-pair-out cross-validation (LPOCV), in which every possible pair of data with different class labels is held out from the training set at a time, behave under the null without any prior assumptions of the learning algorithm or the data. It is shown that the maximal number of different fixed proportion label assignments on a sample of data, for which a learning algorithm can achieve zero LPOCV error, is the maximal size of a constant weight error correcting code, whose length is the sample size, weight is the number of data labeled with one, and the Hamming distance between code words is four. We then introduce the concept of a light constant weight code and show similar results for nonzero LPOCV errors. We also prove both upper and lower bounds on the maximal sizes of the light constant weight codes that are similar to the classical results for contant weight codes. These results pave the way towards the design of new LPOCV based statistical tests for the learning algorithms ability of distinguishing two classes from each other that are analogous to the classical Wilcoxon-Mann-Whitne y U test for fixed functions. Behavior of some representative examples of learning algorithms and data are simulated in an experimental case study.
翻訳日:2021-03-23 14:07:05 公開日:2021-03-22
# (参考訳) 深部強化学習を用いた医用CTデータ拡張のための画像合成 [全文訳有]

Image Synthesis for Data Augmentation in Medical CT using Deep Reinforcement Learning ( http://arxiv.org/abs/2103.10493v2 )

ライセンス: CC BY 4.0
Arjun Krishna, Kedar Bartake, Chuang Niu, Ge Wang, Youfang Lai, Xun Jia, Klaus Mueller(参考訳) ディープラーニングは、特に低線量イメージングと統合診断を可能にするために、ct画像再構成に非常に有望である。 しかし、これらのメリットは、これらのニューラルネットワークのトレーニングに必要な多様な画像データの可用性の低さと非常に相反する。 我々は,このボトルネックを,DRLが解剖学的形状を生成し,STがテクスチャの詳細を合成するスタイル・トランスファー(ST)手法と統合した深層強化学習(DRL)アプローチにより克服することを提案する。 本手法は, 新規かつ解剖学的に高精度な高解像度CT画像の大量かつ多種多様な生成に有効であることを示す。 私たちのアプローチは、多くの研究者が利用できる画像データが少ないことを考えると、小さな画像データセットでも動作するように設計されています。

Deep learning has shown great promise for CT image reconstruction, in particular to enable low dose imaging and integrated diagnostics. These merits, however, stand at great odds with the low availability of diverse image data which are needed to train these neural networks. We propose to overcome this bottleneck via a deep reinforcement learning (DRL) approach that is integrated with a style-transfer (ST) methodology, where the DRL generates the anatomical shapes and the ST synthesizes the texture detail. We show that our method bears high promise for generating novel and anatomically accurate high resolution CT images at large and diverse quantities. Our approach is specifically designed to work with even small image datasets which is desirable given the often low amount of image data many researchers have available to them.
翻訳日:2021-03-23 12:59:00 公開日:2021-03-22
# (参考訳) 金融サービスにおける公正な機械学習のための隠れた技術的負債 [全文訳有]

Hidden Technical Debts for Fair Machine Learning in Financial Services ( http://arxiv.org/abs/2103.10510v2 )

ライセンス: CC BY 4.0
Chong Huang, Arash Nourian, Kevin Griest(参考訳) 機械学習(ML)の最近の進歩は、短時間で複雑な予測システムを構築するための強力なソリューションを提供する可能性を示している。 しかし、金融技術(フィンテック)などの高度に規制された業界では、特定の保護されたグループや個人に対して差別するMLシステムのリスクが懸念されている。 これらの懸念に対処するため、研究者は様々な数学的公正度とバイアス軽減アルゴリズムを導入した。 本稿では,フィンテック生産環境における隠れた技術的負債と公正なmlシステム構築の課題について述べる。 MLシステムの開発と展開ライフサイクルの公平性に注意を要するさまざまな段階について検討する。 Fintechの公正なMLシステム構築に存在する隠された技術的負債を特定するために、私たちは、データ準備、モデル開発、システム監視、本番環境での統合など、重要なパイプラインステージに注目します。 分析の結果,Fintechにおける実運用対応MLシステムの公正性向上には,MLシステムのライフサイクルの異なる段階において,特定のエンジニアリングのコミットメントが必要であることがわかった。 また,本番環境に公平なmlシステムをデプロイするための技術的負債を軽減するために,いくつかの初期出発点を提案する。

The recent advancements in machine learning (ML) have demonstrated the potential for providing a powerful solution to build complex prediction systems in a short time. However, in highly regulated industries, such as the financial technology (Fintech), people have raised concerns about the risk of ML systems discriminating against specific protected groups or individuals. To address these concerns, researchers have introduced various mathematical fairness metrics and bias mitigation algorithms. This paper discusses hidden technical debts and challenges of building fair ML systems in a production environment for Fintech. We explore various stages that require attention for fairness in the ML system development and deployment life cycle. To identify hidden technical debts that exist in building fair ML system for Fintech, we focus on key pipeline stages including data preparation, model development, system monitoring and integration in production. Our analysis shows that enforcing fairness for production-ready ML systems in Fintech requires specific engineering commitments at different stages of ML system life cycle. We also propose several initial starting points to mitigate these technical debts for deploying fair ML systems in production.
翻訳日:2021-03-23 12:53:12 公開日:2021-03-22
# (参考訳) Hopper:時空間共振用マルチホップトランス

Hopper: Multi-hop Transformer for Spatiotemporal Reasoning ( http://arxiv.org/abs/2103.10574v2 )

ライセンス: CC BY 4.0
Honglu Zhou, Asim Kadav, Farley Lai, Alexandru Niculescu-Mizil, Martin Renqiang Min, Mubbasir Kapadia, Hans Peter Graf(参考訳) 本稿では,ビデオにおける時空間的対象中心推論の問題について考察する。 我々のアプローチの中心は、物体の永続性、すなわち、他の物体に閉じ込められたり、閉じ込められたり、運ばれたりしながら、ビデオ中を移動する物体の位置を推論する能力である。 既存のディープラーニングベースのアプローチは、ビデオ推論問題に適用すると時空間バイアスを被ることが多い。 ビデオ中のオブジェクトの永続性を推論するためにマルチホップ変換器を用いるホッパーを提案する。 ビデオとローカライゼーションクエリが与えられた場合、Hopperは画像やオブジェクトのトラックに対して、重要なフレームを反復的に自動的にホップして、対象物の最終位置を予測する。 時空間バイアスを低減するために, コントラスト損失を用いることの有効性を示す。 キャリーブデータセット上で評価した結果、ホッパーは1fpsで73.2%のtop-1精度を達成できた。 また,関心のあるオブジェクトを適切にローカライズするために,複数ステップの推論を必要とするcater-hデータセットを構築することで,hopperが長期的推論を行うことを実証する。

This paper considers the problem of spatiotemporal object-centric reasoning in videos. Central to our approach is the notion of object permanence, i.e., the ability to reason about the location of objects as they move through the video while being occluded, contained or carried by other objects. Existing deep learning based approaches often suffer from spatiotemporal biases when applied to video reasoning problems. We propose Hopper, which uses a Multi-hop Transformer for reasoning object permanence in videos. Given a video and a localization query, Hopper reasons over image and object tracks to automatically hop over critical frames in an iterative fashion to predict the final position of the object of interest. We demonstrate the effectiveness of using a contrastive loss to reduce spatiotemporal biases. We evaluate over CATER dataset and find that Hopper achieves 73.2% Top-1 accuracy using just 1 FPS by hopping through just a few critical frames. We also demonstrate Hopper can perform long-term reasoning by building a CATER-h dataset that requires multi-step reasoning to localize objects of interest correctly.
翻訳日:2021-03-23 12:42:13 公開日:2021-03-22
# (参考訳) 前景テクスチャ置換に基づくカートンデータセット合成 [全文訳有]

Carton dataset synthesis based on foreground texture replacement ( http://arxiv.org/abs/2103.10738v2 )

ライセンス: CC BY 4.0
Lijun Gou, Shengkai Wu, Jinrong Yang, Hangcheng Yu, Linchen Xi, Xiaoping Li, Chao Deng(参考訳) 産業アプリケーションのためのオブジェクト検出モデルを迅速にデプロイする際の大きな障害のひとつは、大きな注釈付きデータセットがないことである。 現在、電子商取引業界には、包括的医薬品物流会社(CPLC)、eコマース物流会社(ECLC)、果物市場(FM)といった3つのシナリオからカルトン画像を含むSacked Carton Dataset(SCD)が存在する。 しかし、ドメインシフトのため、SCDの3つのシナリオのうちの1つからカートンデータセットでトレーニングされたモデルは、残りのシナリオに適用した場合の一般化能力に乏しい。 この問題を解決するために, ソースデータセットの前景テクスチャを対象データセットの前景インスタンステクスチャに置き換える, 新たな画像合成法を提案する。 この方法はターゲットデータセットを大幅に拡張し、モデルの性能を向上させる。 まず,カートンインスタンスの異なる曲面を識別するサーフェスセグメンテーションアルゴリズムを提案する。 次に, カートンインスタンスの閉塞, 脱落, 不完全輪郭の問題を解決するために, 輪郭再構成アルゴリズムを提案する。 最後に、gaussian fusionアルゴリズムを使用して、ソースデータセットから背景を、ターゲットデータセットから前景と融合する。 実験では、新しい画像合成法により、少なくとも4.3\%\sim6.5\%がRetinaNetで、3.4\%\sim6.8\%がターゲットドメインで高速なR-CNNでAPを大きく向上させることができる。 ソースドメインでは、RetinaNetで1.7\%\sim2\%、高速R-CNNで0.9\%\sim1.5\%でパフォーマンスAPを改善することができる。 コードは href{https://github.com/h ustgetlijun/RCAN}{here} で入手できる。

One major impediment in rapidly deploying object detection models for industrial applications is the lack of large annotated datasets. Currently, in the e-commerce logistics industry, there is a Sacked Carton Dataset(SCD) that contains carton images from three scenarios such as comprehensive pharmaceutical logistics company(CPLC), e-commerce logistics company(ECLC), fruit market(FM). However, due to domain shift, the model trained with carton datasets from one of the three scenarios in SCD has poor generalization ability when applied to the rest scenarios. To solve this problem, a novel image synthesis method is proposed to replace the foreground texture of the source datasets with the foreground instance texture of the target datasets. This method can greatly augment the target datasets and improve the model's performance. We firstly propose a surfaces segmentation algorithm to identify the different surfaces of the carton instance. Secondly, a contour reconstruction algorithm is proposed to solve the problem of occlusion, truncation, and incomplete contour of carton instances. Finally, we use the Gaussian fusion algorithm to fuse the background from the source datasets with the foreground from the target datasets. In the experiments, our novel image synthesis method can largely boost AP by at least $4.3\%\sim6.5\%$ on RetinaNet and $3.4\%\sim6.8\%$ on Faster R-CNN for the target domain. And on the source domain, the performance AP can be improved by $1.7\%\sim2\%$ on RetinaNet and $0.9\%\sim1.5\%$ on Faster R-CNN. Code is available \href{https://github.com/h ustgetlijun/RCAN}{here}.
翻訳日:2021-03-23 12:40:24 公開日:2021-03-22
# (参考訳) 時系列相関予測のためのグラフ注意リカレントニューラルネットワーク -- フルバージョン [全文訳有]

Graph Attention Recurrent Neural Networks for Correlated Time Series Forecasting -- Full version ( http://arxiv.org/abs/2103.10760v2 )

ライセンス: CC BY 4.0
Razvan-Gabriel Cirstea, Chenjuan Guo and Bin Yang(参考訳) 我々は、複数のエンティティが時間とともに相互に相互作用し、そのエンティティの状態が複数の相関時系列として表されるような設定を考える。 例えば、速度センサは道路ネットワーク内の異なる場所に配置され、時間を通して特定の位置の速度が対応するセンサによって時系列としてキャプチャされ、その結果、異なる場所からの複数の速度時系列が相関することが多い。 相関時系列の正確な予測を可能にするために,まず,空間的近接を考慮したグラフ注意再帰ニューラルネットワークを提案する。まず,グラフの適応重み行列を導出するマルチヘッドアテンション機構を用いて,異なるタイムスタンプにおける頂点間の相関関係(例えば,異なる位置での速度)を捉える。 第2に、時系列間の相関を考慮した適応重み行列を考慮しつつ、時間依存性を考慮した繰り返しニューラルネットワークを用い、提案手法の有効性を実証し、ほとんどの設定において最先端の手法よりも優れていることを示す。 この写本はワークショップ用紙[1]の完全なバージョンを提供する。

We consider a setting where multiple entities inter-act with each other over time and the time-varying statuses of the entities are represented as multiple correlated time series. For example, speed sensors are deployed in different locations in a road network, where the speed of a specific location across time is captured by the corresponding sensor as a time series, resulting in multiple speed time series from different locations, which are often correlated. To enable accurate forecasting on correlated time series, we proposes graph attention recurrent neural networks.First, we build a graph among different entities by taking into account spatial proximity and employ a multi-head attention mechanism to derive adaptive weight matrices for the graph to capture the correlations among vertices (e.g., speeds at different locations) at different timestamps. Second, we employ recurrent neural networks to take into account temporal dependency while taking into account the adaptive weight matrices learned from the first step to consider the correlations among time series.Experiments on a large real-world speed time series data set suggest that the proposed method is effective and outperforms the state-of-the-art in most settings. This manuscript provides a full version of a workshop paper [1].
翻訳日:2021-03-23 12:15:08 公開日:2021-03-22
# (参考訳) LSDAT: 意思決定に基づく敵攻撃のための低ランク・スパース分解 [全文訳有]

LSDAT: Low-Rank and Sparse Decomposition for Decision-based Adversarial Attack ( http://arxiv.org/abs/2103.10787v2 )

ライセンス: CC BY 4.0
Ashkan Esmaeili, Marzieh Edraki, Nazanin Rahnavard, Mubarak Shah, Ajmal Mian(参考訳) 低ランク・スパース分解(LSD)を利用してクエリの数を劇的に減らし、与えられた許容範囲制約の下での最先端の意思決定ベース手法と比較して、優れた不正率を達成する画像認識型意思決定ベースブラックボックスアタックであるLSDATを提案する。 LSDATは、入力サンプルのスパース成分と逆サンプルとで形成された低次元部分空間の摂動を利用して、クエリ効率を得る。 特定の興味の摂動は、入力と逆方向のスパース成分の間の経路をトラバースすることで得られる。 提案するスパース摂動 (sparse perturbation) は, 入力サンプルから決定境界までの最短経路(最短経路の最もスパース近似であり, モデルを騙す可能性が高い)に対して最も短い経路を持つスパース摂動 (sparse perturbation) である。 LSDATの機能を正当化するために理論的解析が提供される。 クエリ効率を改善することを目的とした他の次元還元に基づく技術(例えばFFTに基づくもの)とは異なり、LSDは画像ピクセル領域で直接機能し、スパーシティのような非$\ell_2$制約が満たされることを保証する。 lsdはクエリ数をよりよく制御し、全てのクエリを生成するために一度だけ入力画像と逆画像のスパース分解を実行するため、計算効率を提供する。 lsdat による$\ell_0$,$\ell_2$,$\ ell_\infty$ の限定攻撃を lsdat で実演し,実験で概説されているような,さまざまな低照会予算シナリオにおける基準決定に基づく攻撃と比較した。

We propose LSDAT, an image-agnostic decision-based black-box attack that exploits low-rank and sparse decomposition (LSD) to dramatically reduce the number of queries and achieve superior fooling rates compared to the state-of-the-art decision-based methods under given imperceptibility constraints. LSDAT crafts perturbations in the low-dimensional subspace formed by the sparse component of the input sample and that of an adversarial sample to obtain query-efficiency. The specific perturbation of interest is obtained by traversing the path between the input and adversarial sparse components. It is set forth that the proposed sparse perturbation is the most aligned sparse perturbation with the shortest path from the input sample to the decision boundary for some initial adversarial sample (the best sparse approximation of shortest path, likely to fool the model). Theoretical analyses are provided to justify the functionality of LSDAT. Unlike other dimensionality reduction based techniques aimed at improving query efficiency (e.g, ones based on FFT), LSD works directly in the image pixel domain to guarantee that non-$\ell_2$ constraints, such as sparsity, are satisfied. LSD offers better control over the number of queries and provides computational efficiency as it performs sparse decomposition of the input and adversarial images only once to generate all queries. We demonstrate $\ell_0$, $\ell_2$ and $\ell_\infty$ bounded attacks with LSDAT to evince its efficiency compared to baseline decision-based attacks in diverse low-query budget scenarios as outlined in the experiments.
翻訳日:2021-03-23 12:02:55 公開日:2021-03-22
# オンラインライフロング一般化ゼロショット学習

Online Lifelong Generalized Zero-Shot Learning ( http://arxiv.org/abs/2103.10741v2 )

ライセンス: Link先を確認
Chandan Gautam, Sethupathy Parameswaran, Ashish Mishra, Suresh Sundaram(参考訳) ゼロショット学習(ZSL)の文献で提案される手法は、通常オフライン学習に適しており、連続的なストリーミングデータから継続的に学習することはできない。 シーケンシャルデータは、トレーニング中のタスクの形式で提供される。 近年,この問題に対処し,連続ZSL(CZSL)法を開発する試みがいくつか行われている。 しかし、これらのCZSL法は、訓練中にタスク間の明確なタスク境界情報を必要とする。 本稿では,連続学習中にタスク情報を必要としないタスクフリー(タスク非依存)CZSL手法を提案する。 タスクフリーなCZSL法では,ZSLの実行に可変オートエンコーダ(VAE)を用いる。 CZSL法を開発するために,経験リプレイの概念と知識蒸留と正規化を組み合わせた。 ここで、トレーニングサンプルの暗黒知識を用いて知識蒸留を行い、これは本質的に壊滅的な忘れる問題を克服するのに役立つ。 さらに、短期記憶を用いたタスクフリー学習が可能となる。 最後に、VAEの潜伏空間で生成された合成特徴に基づいて分類器を訓練する。 さらに、実験は困難で実用的なZSL、すなわち一般化ZSL(GZSL)で実施される。 これらの実験は、2種類の単頭連続学習環境で実施される: (i) 軽度な設定-: タスク境界は訓練中のみに知られ、テスト中は知られていない; (ii) 厳格な設定-: タスク境界は訓練中だけでなくテスト中にも知られていない。 5つのベンチマークデータセットの実験結果は、CZSLのアプローチの有効性を示している。

Methods proposed in the literature for zero-shot learning (ZSL) are typically suitable for offline learning and cannot continually learn from sequential streaming data. The sequential data comes in the form of tasks during training. Recently, a few attempts have been made to handle this issue and develop continual ZSL (CZSL) methods. However, these CZSL methods require clear task-boundary information between the tasks during training, which is not practically possible. This paper proposes a task-free (i.e., task-agnostic) CZSL method, which does not require any task information during continual learning. The proposed task-free CZSL method employs a variational autoencoder (VAE) for performing ZSL. To develop the CZSL method, we combine the concept of experience replay with knowledge distillation and regularization. Here, knowledge distillation is performed using the training sample's dark knowledge, which essentially helps overcome the catastrophic forgetting issue. Further, it is enabled for task-free learning using short-term memory. Finally, a classifier is trained on the synthetic features generated at the latent space of the VAE. Moreover, the experiments are conducted in a challenging and practical ZSL setup, i.e., generalized ZSL (GZSL). These experiments are conducted for two kinds of single-head continual learning settings: (i) mild setting-: task-boundary is known only during training but not during testing; (ii) strict setting-: task-boundary is not known at training, as well as testing. Experimental results on five benchmark datasets exhibit the validity of the approach for CZSL.
翻訳日:2021-03-23 11:39:39 公開日:2021-03-22
# 人工知能システム開発に必要なエンジニアリング課題

Requirement Engineering Challenges for AI-intense Systems Development ( http://arxiv.org/abs/2103.10270v2 )

ライセンス: Link先を確認
Hans-Martin Heyn, Eric Knauss, Amna Pir Muhammad, Olof Eriksson, Jennifer Linder, Padmini Subbiah, Shameer Kumar Pradhan, Sagar Tungal(参考訳) 強力な計算と通信技術の可用性と人工知能の進歩は、新しい世代の複雑なAIインセンスシステムとアプリケーションを可能にする。 このようなシステムとアプリケーションは、社会レベルでエキサイティングな改善を約束しますが、開発に新たな課題も伴います。 本稿では,このようなシステムやアプリケーションの動作や品質特性の定義と保証に関する課題について論じる。 具体的には、複雑なAIシステムと、産業、交通、ホームオートメーションに関連するアプリケーションに関するユースケースから、(i)コンテキスト定義と要件の理解、決定、特定、(ii)データ属性と要件、(iii)パフォーマンス定義と監視、(iv)システムの受け入れと成功に対する人間的要因の影響の4つの課題領域を抽出する。 これらの課題を解決することは、複雑なAIインテリジェンスシステムやアプリケーションの開発アプローチに新しい要求エンジニアリング手法を統合するプロセスサポートを暗示する。 これらの課題を詳述し,研究ロードマップを提案する。

Availability of powerful computation and communication technology as well as advances in artificial intelligence enable a new generation of complex, AI-intense systems and applications. Such systems and applications promise exciting improvements on a societal level, yet they also bring with them new challenges for their development. In this paper we argue that significant challenges relate to defining and ensuring behaviour and quality attributes of such systems and applications. We specifically derive four challenge areas from relevant use cases of complex, AI-intense systems and applications related to industry, transportation, and home automation: understanding, determining, and specifying (i) contextual definitions and requirements, (ii) data attributes and requirements, (iii) performance definition and monitoring, and (iv) the impact of human factors on system acceptance and success. Solving these challenges will imply process support that integrates new requirements engineering methods into development approaches for complex, AI-intense systems and applications. We present these challenges in detail and propose a research roadmap.
翻訳日:2021-03-23 11:39:17 公開日:2021-03-22
# Stack Overflowにおける意図に基づく質問関連性予測モデル

Attention-based model for predicting question relatedness on Stack Overflow ( http://arxiv.org/abs/2103.10763v2 )

ライセンス: Link先を確認
Jiayan Pei, Yimin wu, Zishan Qin, Yao Cong, Jingtao Guan(参考訳) Stack Overflowは、近年ますます多くのユーザを惹きつけている、最も人気のあるプログラミングコミュニティベースの質問回答(PCQA)サイトの1つである。 Stack Overflowでユーザが疑問を提起したり、質問したりすると、関連する質問が問題の解決に役立つ。 質問間の関連性を自動的に予測できるディープラーニングに基づくアプローチは数多く存在するが,2つの質問間のインタラクション情報が失われる可能性があるため,これらのアプローチは限定されている。 本稿では,この深層学習手法を採用し,スタックオーバーフロー上の質問間の関連性を自動予測する意図に基づく文対相互作用モデル(ASIM)を提案する。 質問間の意味的相互作用情報をキャプチャするために,注意機構を採用する。 さらに、このタスクのために、ソフトウェアエンジニアリングドメインに特有の単語の埋め込みを事前訓練し、リリースしました。 実験の結果、ASIMは精度、リコール、マイクロF1評価基準のベースラインアプローチよりも大幅に改善し、このタスクで最先端のパフォーマンスを実現した。 我々のモデルは、AskUbuntuの重複問題検出タスクでもうまく機能し、類似しているが異なるタスクであり、その一般化と堅牢性を証明する。

Stack Overflow is one of the most popular Programming Community-based Question Answering (PCQA) websites that has attracted more and more users in recent years. When users raise or inquire questions in Stack Overflow, providing related questions can help them solve problems. Although there are many approaches based on deep learning that can automatically predict the relatedness between questions, those approaches are limited since interaction information between two questions may be lost. In this paper, we adopt the deep learning technique, propose an Attention-based Sentence pair Interaction Model (ASIM) to predict the relatedness between questions on Stack Overflow automatically. We adopt the attention mechanism to capture the semantic interaction information between the questions. Besides, we have pre-trained and released word embeddings specific to the software engineering domain for this task, which may also help other related tasks. The experiment results demonstrate that ASIM has made significant improvement over the baseline approaches in Precision, Recall, and Micro-F1 evaluation metrics, achieving state-of-the-art performance in this task. Our model also performs well in the duplicate question detection task of AskUbuntu, which is a similar but different task, proving its generalization and robustness.
翻訳日:2021-03-23 11:38:59 公開日:2021-03-22
# デグレードはアップグレード:低光度画像強調のための学習劣化

Degrade is Upgrade: Learning Degradation for Low-light Image Enhancement ( http://arxiv.org/abs/2103.10621v2 )

ライセンス: Link先を確認
Kui Jiang, Zhongyuan Wang, Zheng Wang, Peng Yi, Xiao Wang, Yansheng Qiu, Chen Chen, Chia-Wen Lin(参考訳) 低照度画像強調は、視覚的自然性を維持しながら、画像の可視性を改善することを目的としている。 強調作業が直接実施される傾向にある既存の方法と異なり,細部と色を2ステップで精細化しつつ,内在的な劣化と低照度画像の照度について検討する。 カラー画像定式化(拡散照明色+環境照明色)にインスパイアされ、まず、低照度入力からの劣化を推定し、環境照明色の歪みをシミュレートし、その内容を改善し、拡散照明色の損失を回復する。 そこで本研究では,新しい劣化・減弱生成ネットワーク(DRGN)を提案する。 その特徴は1)劣化学習とコンテンツの洗練のための新しい二段階生成ネットワークである。 1段階の手法に勝るだけでなく、モデルトレーニングのために十分なペア化サンプルを合成することができる; 2) 複雑な未混合問題に対処する上でより効果的な、多段階的な目的情報(劣化や内容)を多段階的に表現する多段階融合ネットワーク。 拡張タスクと共同検出タスクの併用による大規模な実験により,提案手法の有効性と効率が検証され,PSNRではSOTAが0.95dB,ExDarkでは3.18\%を上回った。 我々のコードは \url{https://github.com/k uijiang0802/DRGN} で入手できる。

Low-light image enhancement aims to improve an image's visibility while keeping its visual naturalness. Different from existing methods, which tend to accomplish the enhancement task directly, we investigate the intrinsic degradation and relight the low-light image while refining the details and color in two steps. Inspired by the color image formulation (diffuse illumination color plus environment illumination color), we first estimate the degradation from low-light inputs to simulate the distortion of environment illumination color, and then refine the content to recover the loss of diffuse illumination color. To this end, we propose a novel Degradation-to-Refin ement Generation Network (DRGN). Its distinctive features can be summarized as 1) A novel two-step generation network for degradation learning and content refinement. It is not only superior to one-step methods, but also is capable of synthesizing sufficient paired samples to benefit the model training; 2) A multi-resolution fusion network to represent the target information (degradation or contents) in a multi-scale cooperative manner, which is more effective to address the complex unmixing problems. Extensive experiments on both the enhancement task and the joint detection task have verified the effectiveness and efficiency of our proposed method, surpassing the SOTA by 0.95dB in PSNR on LOL1000 dataset and 3.18\% in mAP on ExDark dataset. Our code is available at \url{https://github.com/k uijiang0802/DRGN}
翻訳日:2021-03-23 11:38:17 公開日:2021-03-22
# デンマークのfungi 2020 - 単なる画像認識データセットではない

Danish Fungi 2020 -- Not Just Another Image Recognition Dataset ( http://arxiv.org/abs/2103.10107v3 )

ライセンス: Link先を確認
Luk\'a\v{s} Picek, Milan \v{S}ulc, Ji\v{r}\'i Matas, Jacob Heilmann-Clausen, Thomas S. Jeppesen, Thomas L{\ae}ss{\o}e, Tobias Fr{\o}slev(参考訳) 我々は,新しい細粒度データセットとベンチマークであるdanish fungi 2020 (df20) を紹介する。 このデータセットはデンマークの菌類アトラスに提出された観測から構築され、その分類学的精度の高いクラスラベル、少数のエラー、高度に不均衡な長い尾を持つクラス分布、豊富な観察メタデータ、そして明確に定義されたクラス階層に特有である。 df20はimagenetと重複しないため、imagenetの公開チェックポイントから微調整されたモデルの偏りのない比較が可能になる。 提案した評価プロトコルはメタデータを使って分類を改善することができる。 正確な地理的位置、生息地、および基板は、分類器の校正テストを促進し、最終的にデバイス設定が分類性能に与える影響を研究することができる。 畳み込みニューラルネットワーク(CNN)と最近のビジョントランスフォーマー(ViT)を用いた実験は、DF20が難しい課題であることを示している。 興味深いことに、ViTは81.25%の精度でCNNベースラインよりも優れており、CNNエラーを13%削減している。 決定プロセスにメタデータを含めるベースライン手順は、分類精度を3.5ポイント以上向上させ、エラー率を20%削減する。 すべてのメソッドと実験のソースコードは、https://sites.google .com/view/danish-fun gi-datasetで入手できる。

We introduce a novel fine-grained dataset and benchmark, the Danish Fungi 2020 (DF20). The dataset, constructed from observations submitted to the Danish Fungal Atlas, is unique in its taxonomy-accurate class labels, small number of errors, highly unbalanced long-tailed class distribution, rich observation metadata, and well-defined class hierarchy. DF20 has zero overlap with ImageNet, allowing unbiased comparison of models fine-tuned from publicly available ImageNet checkpoints. The proposed evaluation protocol enables testing the ability to improve classification using metadata -- e.g. precise geographic location, habitat, and substrate, facilitates classifier calibration testing, and finally allows to study the impact of the device settings on the classification performance. Experiments using Convolutional Neural Networks (CNN) and the recent Vision Transformers (ViT) show that DF20 presents a challenging task. Interestingly, ViT achieves results superior to CNN baselines with 81.25% accuracy, reducing the CNN error by 13%. A baseline procedure for including metadata into the decision process improves the classification accuracy by more than 3.5 percentage points, reducing the error rate by 20%. The source code for all methods and experiments is available at https://sites.google .com/view/danish-fun gi-dataset.
翻訳日:2021-03-23 11:37:52 公開日:2021-03-22