このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201224となっている論文です。

PDF登録状況(公開日: 20201224)

TitleAuthorsAbstract論文公表日・翻訳日
# データ拡張を用いたカーネル畳み込み深層ニューラルネットワーク

Kernel-convoluted Deep Neural Networks with Data Augmentation ( http://arxiv.org/abs/2012.02521v2 )

ライセンス: Link先を確認
Minjin Kim, Young-geun Kim, Dongha Kim, Yongdai Kim, Myunghee Cho Paik(参考訳) ミックスアップ法(zhang et al.) 線形補間データを利用する2018年は、一般化性能と敵の例に対する堅牢性を改善する効果的なデータ拡張ツールとして登場した。 モチベーションは、暗黙のモデル制約によって望ましくない振動を緩和し、観測されたデータポイント内において線形に振舞い、滑らかさを促進することである。 本研究では,この前提を形式的に検討し,滑らかさの制約を明示的に課し,暗黙のモデル制約を取り入れるように拡張する方法を提案する。 まず,カーネル変換モデル (KCM) を基本関数をカーネル関数で局所的に平均化することにより,スムーズ性制約を直接課す新しい関数クラスを導出する。 次に,KCMにMixup法を組み込んで滑らかさの領域を拡張することを提案する。 KCMとKCMをMixupに適合させた場合、カーネルのいくつかの条件下でそれぞれリスク分析を行う。 過大なリスクの上限は、元の関数クラスのそれよりも遅くないことを示す。 kcmとミックスアップの上限は、ミックスアップの摂動が \(o(n^{-1/2})\) より早く消滅すると、kcmのそれによって支配される(ただし、\(n\) はサンプルサイズである)。 CIFAR-10 と CIFAR-100 のデータセットを用いて,Mixup を用いた KCM がMixup 法より汎用性や頑健性に優れることを示した。

The Mixup method (Zhang et al. 2018), which uses linearly interpolated data, has emerged as an effective data augmentation tool to improve generalization performance and the robustness to adversarial examples. The motivation is to curtail undesirable oscillations by its implicit model constraint to behave linearly at in-between observed data points and promote smoothness. In this work, we formally investigate this premise, propose a way to explicitly impose smoothness constraints, and extend it to incorporate with implicit model constraints. First, we derive a new function class composed of kernel-convoluted models (KCM) where the smoothness constraint is directly imposed by locally averaging the original functions with a kernel function. Second, we propose to incorporate the Mixup method into KCM to expand the domains of smoothness. In both cases of KCM and the KCM adapted with the Mixup, we provide risk analysis, respectively, under some conditions for kernels. We show that the upper bound of the excess risk is not slower than that of the original function class. The upper bound of the KCM with the Mixup remains dominated by that of the KCM if the perturbation of the Mixup vanishes faster than \(O(n^{-1/2})\) where \(n\) is a sample size. Using CIFAR-10 and CIFAR-100 datasets, our experiments demonstrate that the KCM with the Mixup outperforms the Mixup method in terms of generalization and robustness to adversarial examples.
翻訳日:2021-05-22 20:37:43 公開日:2020-12-24
# Connectivity Queries を用いたネットワーク状態のマッピング

Mapping Network States Using Connectivity Queries ( http://arxiv.org/abs/2012.03413v3 )

ライセンス: Link先を確認
Alexander Rodr\'iguez, Bijaya Adhikari, Andr\'es D. Gonz\'alez, Charles Nicholson, Anil Vullikanti, B. Aditya Prakash(参考訳) 供給ノードから到達可能なノードのサンプルがあれば、インフラストラクチャネットワークのすべての障害コンポーネントを推測できますか? 自然災害後の破壊後の最も重要なプロセスの1つは、重要なインフラストラクチャーコンポーネントの損傷や故障状態を素早く決定することである。 しかしこれは、破壊的なイベントの後、アクセス可能なコンポーネントや観測可能なコンポーネントはごく一部しかないことを考えると、簡単ではない。 過去の研究は、与えられた点プローブ、すなわち、故障したコンポーネントの推測に取り組んできた。 失敗したコンポーネントの 直接のサンプルで それとは対照的に、いくつかの'サービス可能な'到達可能なノードと小さな点プローブのサンプルの部分的な情報が与えられた場合、故障したコンポーネントを推測する難しい問題を研究し、しばしばより実用的になる。 この問題を最小記述長(mdl)原理を用いて定式化し、mdlコストを効果的に最小化する欲望アルゴリズムを提案する。 本アルゴリズムは,地震後の実ネットワークのドメインエキスパートシミュレーションにより評価する。 提案アルゴリズムは,故障したコンポーネント,特にシステム全体の性能に影響を及ぼす重要なコンポーネントの同定に成功した。

Can we infer all the failed components of an infrastructure network, given a sample of reachable nodes from supply nodes? One of the most critical post-disruption processes after a natural disaster is to quickly determine the damage or failure states of critical infrastructure components. However, this is non-trivial, considering that often only a fraction of components may be accessible or observable after a disruptive event. Past work has looked into inferring failed components given point probes, i.e. with a direct sample of failed components. In contrast, we study the harder problem of inferring failed components given partial information of some `serviceable' reachable nodes and a small sample of point probes, being the first often more practical to obtain. We formulate this novel problem using the Minimum Description Length (MDL) principle, and then present a greedy algorithm that minimizes MDL cost effectively. We evaluate our algorithm on domain-expert simulations of real networks in the aftermath of an earthquake. Our algorithm successfully identify failed components, especially the critical ones affecting the overall system performance.
翻訳日:2021-05-16 21:50:21 公開日:2020-12-24
# 乳癌における病理組織学的機能を有する核多形スペクトルの自動スコアリング

Automated Scoring of Nuclear Pleomorphism Spectrum with Pathologist-level Performance in Breast Cancer ( http://arxiv.org/abs/2012.04974v2 )

ライセンス: Link先を確認
Caner Mercan, Maschenka Balkenhol, Roberto Salgado, Mark Sherman, Philippe Vielh, Willem Vreuls, Antonio Polonia, Hugo M. Horlings, Wilko Weichert, Jodi M. Carter, Peter Bult, Matthias Christgen, Carsten Denkert, Koen van de Vijver, Jeroen van der Laak, Francesco Ciompi(参考訳) 腫瘍核の全体的な出現における異常の程度として定義されている核多型は、3段階の乳がんグレーディングの構成要素の1つである。 核多型が連続的な変化のスペクトルを反映していることを考えると,従来の3カテゴリ分類に制約を加えることなく,複数の病理医の集団的知識から,様々な腫瘍領域の深部ニューラルネットワークを訓練した。 また,病理医が腫瘍の核多型を判定し,正常な乳腺上皮を比較対象とする定期的な臨床経験から,正常な上皮のメリットをベースラインとして議論する新たなアプローチも提案する。 複数の実験において, 完全自動アプローチは, 興味のある地域やスライド画像全体において, それぞれ10例と4例と比較して, 最上位の病理医レベルのパフォーマンスを達成することができた。

Nuclear pleomorphism, defined herein as the extent of abnormalities in the overall appearance of tumor nuclei, is one of the components of the three-tiered breast cancer grading. Given that nuclear pleomorphism reflects a continuous spectrum of variation, we trained a deep neural network on a large variety of tumor regions from the collective knowledge of several pathologists, without constraining the network to the traditional three-category classification. We also motivate an additional approach in which we discuss the additional benefit of normal epithelium as baseline, following the routine clinical practice where pathologists are trained to score nuclear pleomorphism in tumor, having the normal breast epithelium for comparison. In multiple experiments, our fully-automated approach could achieve top pathologist-level performance in select regions of interest as well as at whole slide images, compared to ten and four pathologists, respectively.
翻訳日:2021-05-16 01:54:25 公開日:2020-12-24
# あらゆる因果発見のための反復的なステップ

A Single Iterative Step for Anytime Causal Discovery ( http://arxiv.org/abs/2012.07513v2 )

ライセンス: Link先を確認
Raanan Y. Rohekar, Yaniv Gurwicz, Shami Nisimov, Gal Novik(参考訳) そこで本研究では,非干渉データからの因果グラフを潜在共同設立者と選択バイアスが存在する可能性から回収する,健全かつ完全なアルゴリズムを提案する。 我々は因果マルコフと忠実性の仮定に頼り、観測変数間の一連の条件独立(CI)テストを実行することにより、基礎となる因果グラフの同値クラスを復元する。 結果グラフに含まれる独立性と因果関係は,任意の反復の後に正し,反復によってより有益になるように,反復的に適用される1つのステップを提案する。 本質的には、ci条件セットのサイズを、結果グラフ上のテストされたノードからの距離に結びつける。 各イテレーションは、前回のイテレーションよりも大きい条件セットを持つCIテストを実行することで、スケルトンと向きを洗練します。 繰り返し、CIテストの条件セットは特定の探索距離内にあるノードから構築され、これらの条件セットのサイズはこの探索距離と等しい。 このアルゴリズムは、条件セットのサイズとともに探索距離を反復的に増加させる。 したがって、各イテレーションは、より小さな条件セットを持つ以前のイテレーションによって復元されたグラフを洗練します。 提案アルゴリズムでは,FCIアルゴリズムと比較して,CIテストと条件セットの大幅な削減が要求される。 これは、完全なCIオラクルを使用して真の基盤グラフを復元し、限られた観測データを用いてグラフを正確に推定することの両方で明らかである。

We present a sound and complete algorithm for recovering causal graphs from observed, non-interventional data, in the possible presence of latent confounders and selection bias. We rely on the causal Markov and faithfulness assumptions and recover the equivalence class of the underlying causal graph by performing a series of conditional independence (CI) tests between observed variables. We propose a single step that is applied iteratively, such that the independence and causal relations entailed from the resulting graph, after any iteration, is correct and becomes more informative with successive iteration. Essentially, we tie the size of the CI condition set to its distance from the tested nodes on the resulting graph. Each iteration refines the skeleton and orientation by performing CI tests having condition sets that are larger than in the preceding iteration. In an iteration, condition sets of CI tests are constructed from nodes that are within a specified search distance, and the sizes of these condition sets is equal to this search distance. The algorithm then iteratively increases the search distance along with the condition set sizes. Thus, each iteration refines a graph, that was recovered by previous iterations having smaller condition sets -- having a higher statistical power. We demonstrate that our algorithm requires significantly fewer CI tests and smaller condition sets compared to the FCI algorithm. This is evident for both recovering the true underlying graph using a perfect CI oracle, and accurately estimating the graph using limited observed data.
翻訳日:2021-05-08 14:45:04 公開日:2020-12-24
# 人工知能と神経科学へのDeutschの優れた説明を応用する -- 最初の調査

Applying Deutsch's concept of good explanations to artificial intelligence and neuroscience -- an initial exploration ( http://arxiv.org/abs/2012.09318v2 )

ライセンス: Link先を確認
Daniel C. Elton(参考訳) 人工知能はディープラーニング革命以来、大きな進歩を遂げてきたが、AIシステムはトレーニングデータの外部への露出と新しい状況への適応に苦戦している。 科学者は、これまで観測されたことのない現象の存在を外挿し、時には予測する驚くべき能力を示す理論を開発できた。 デビッド・ドイッチュ(David Deutsch)によれば、この種の外挿は「リーチ」と呼ばれ、科学的理論が変化しにくいためである。 本研究では,Deutschの難易度原理と,バイアス分散トレードオフやOccam's razorといった深層学習におけるより形式化された原則との関連について検討する。 我々は、モデル/理論が内部的にどの程度変化しても、同じ予測を得られるか、外部変数と区別し、新しい非分布データを正確に予測するために、モデルがどの程度変化する必要があるかを示す。 本稿では,ラショモン集合の大きさを用いた内部変動量の測定方法とコルモゴロフ複雑性を用いた外部変動量の測定方法について述べる。 人間の脳を見て、脳内の2つの学習システムを区別することで、知性において困難な説明が果たす役割を探求する。 第1のシステムはディープラーニングと似ていて、知覚と運動制御のほとんどを基盤としており、第2のシステムはより創造的なシステムであり、世界の難しい説明を生成できる。 我々は、この第2のシステムがいかに多変量説明を生成することができるかを理解することは、人工知能を実現するために解決すべき重要な課題であると主張している。 帰納を拒絶するポペル認識論の枠組みに接触し、知識の生成は予想と反論を通じて進行する進化過程であると主張する。

Artificial intelligence has made great strides since the deep learning revolution, but AI systems still struggle to extrapolate outside of their training data and adapt to new situations. For inspiration we look to the domain of science, where scientists have been able to develop theories which show remarkable ability to extrapolate and sometimes predict the existence of phenomena which have never been observed before. According to David Deutsch, this type of extrapolation, which he calls "reach", is due to scientific theories being hard to vary. In this work we investigate Deutsch's hard-to-vary principle and how it relates to more formalized principles in deep learning such as the bias-variance trade-off and Occam's razor. We distinguish internal variability, how much a model/theory can be varied internally while still yielding the same predictions, with external variability, which is how much a model must be varied to accurately predict new, out-of-distribution data. We discuss how to measure internal variability using the size of the Rashomon set and how to measure external variability using Kolmogorov complexity. We explore what role hard-to-vary explanations play in intelligence by looking at the human brain and distinguish two learning systems in the brain. The first system operates similar to deep learning and likely underlies most of perception and motor control while the second is a more creative system capable of generating hard-to-vary explanations of the world. We argue that figuring out how replicate this second system, which is capable of generating hard-to-vary explanations, is a key challenge which needs to be solved in order to realize artificial general intelligence. We make contact with the framework of Popperian epistemology which rejects induction and asserts that knowledge generation is an evolutionary process which proceeds through conjecture and refutation.
翻訳日:2021-05-03 03:04:38 公開日:2020-12-24
# (参考訳) MOBAゲームにおけるイベント予測:データセット、属性、評価 [全文訳有]

Predicting Events in MOBA Games: Dataset, Attribution, and Evaluation ( http://arxiv.org/abs/2012.09424v3 )

ライセンス: CC BY 4.0
Zelong Yang, Yan Wang, Piji Li, Shaobin Lin, Shuming Shi, Shao-Lun Huang(参考訳) マルチプレイヤーオンラインバトルアリーナ(moba)ゲームは近年ますます人気が高まっている。 その結果、ゲーム前またはゲーム内予測の提供に多くの努力が注がれている。 しかし,これらの研究は,1)ゲーム内特徴の不足,2)予測結果における解釈可能性の欠如,の2つの側面で制限されている。 この2つの制限は、現在の作品の実用的性能と工業的応用を著しく制限した。 本研究では,MOBAゲーム『Honor of Kings』のゲーム内機能を含む大規模データセットを収集,リリースする。 次に,2つのグラデーションに基づく帰属法を用いて,入力特徴に予測を帰属させることにより,解釈可能な方法で4種類の重要な事象を予測することを提案する。 異なるモデルの説明力と帰属方法を評価するために, 忠実度に基づく評価指標を提案する。 最後に,mobaゲームにおけるイベントの予測精度を評価するため,収集したデータセットにおける複数の競合手法の精度と信頼性を評価した。

The multiplayer online battle arena (MOBA) games have become increasingly popular in recent years. Consequently, many efforts have been devoted to providing pre-game or in-game predictions for them. However, these works are limited in the following two aspects: 1) the lack of sufficient in-game features; 2) the absence of interpretability in the prediction results. These two limitations greatly restrict the practical performance and industrial application of the current works. In this work, we collect and release a large-scale dataset containing rich in-game features for the popular MOBA game Honor of Kings. We then propose to predict four types of important events in an interpretable way by attributing the predictions to the input features using two gradient-based attribution methods: Integrated Gradients and SmoothGrad. To evaluate the explanatory power of different models and attribution methods, a fidelity-based evaluation metric is further proposed. Finally, we evaluate the accuracy and Fidelity of several competitive methods on the collected dataset to assess how well machines predict events in MOBA games.
翻訳日:2021-05-02 20:42:04 公開日:2020-12-24
# パーキンソン病度評価のためのエンドツーエンドネットワークにおける動作境界探索

Exploring Motion Boundaries in an End-to-End Network for Vision-based Parkinson's Severity Assessment ( http://arxiv.org/abs/2012.09890v2 )

ライセンス: Link先を確認
Amirhossein Dadashzadeh, Alan Whone, Michal Rolinski, Majid Mirmehdi(参考訳) パーキンソン病(PD)のような神経疾患を評価することは、運動機能や非運動機能の評価を必要とする課題である。 本稿では、UPDRS(Unified Parkinson's Disease Rating Scale)において、手の動きと歩行の2つの重要な要素におけるPD重症度を測定するためのエンドツーエンドディープラーニングフレームワークを提案する。 本手法は,テンポラルセグメンテーションフレームワークで訓練された膨らんだ3次元cnnを用いて,映像データの時間構造と時間構造を学習する。 また、モデルの性能を高めるための時間的注意機構も展開します。 さらに、モーション境界は、より優れた動き評価のためにカメラの動きの影響を隠蔽する追加の入力モダリティとして検討される。 提案するネットワークの精度に異なるデータモダリティが与える影響を補正し、他の一般的なアーキテクチャと比較する。 提案手法は,25名のpd患者を対象に72.3%,77.1%のtop-1精度を得た。

Evaluating neurological disorders such as Parkinson's disease (PD) is a challenging task that requires the assessment of several motor and non-motor functions. In this paper, we present an end-to-end deep learning framework to measure PD severity in two important components, hand movement and gait, of the Unified Parkinson's Disease Rating Scale (UPDRS). Our method leverages on an Inflated 3D CNN trained by a temporal segment framework to learn spatial and long temporal structure in video data. We also deploy a temporal attention mechanism to boost the performance of our model. Further, motion boundaries are explored as an extra input modality to assist in obfuscating the effects of camera motion for better movement assessment. We ablate the effects of different data modalities on the accuracy of the proposed network and compare with other popular architectures. We evaluate our proposed method on a dataset of 25 PD patients, obtaining 72.3% and 77.1% top-1 accuracy on hand movement and gait tasks respectively.
翻訳日:2021-05-02 07:22:09 公開日:2020-12-24
# 突発的物体検出のための集中型情報インタラクション

Centralized Information Interaction for Salient Object Detection ( http://arxiv.org/abs/2012.11294v2 )

ライセンス: Link先を確認
Jiang-Jiang Liu, Zhi-Ang Liu, Ming-Ming Cheng(参考訳) U字形構造は、多スケール特徴を効率よく組み合わせるための有能な物体検出の利点を示している。 しかし、既存のu-shapeベースの手法の多くはボトムアップとトップダウンの経路の改善に重点を置いており、両者の接続を無視している。 本稿は,これらの接続を集中化することにより,相互に情報交換を行うことができ,セマンティックに強く,位置的により正確な特徴を得ることができることを示す。 提案手法の可能性を刺激するために,空間的補間を伴わずにマルチスケール入力を同時に処理できる相対的グローバルキャリブレーションモジュールを更に設計する。 上記の戦略とモジュールの利点を生かして、提案手法は、いくつかの追加パラメータを導入しながら、より効率的に機能を集約することができる。 本手法は, ボトムアップ経路とトップダウン経路の接続を置換することにより, 既存のU字型サルエント物体検出手法と協調することができる。 実験の結果,提案手法は,計算複雑性の低い5つのベンチマークにおいて,従来の最先端のベンチマークに対して良好に動作することが示された。 ソースコードは公開される予定だ。

The U-shape structure has shown its advantage in salient object detection for efficiently combining multi-scale features. However, most existing U-shape based methods focused on improving the bottom-up and top-down pathways while ignoring the connections between them. This paper shows that by centralizing these connections, we can achieve the cross-scale information interaction among them, hence obtaining semantically stronger and positionally more precise features. To inspire the potential of the newly proposed strategy, we further design a relative global calibration module that can simultaneously process multi-scale inputs without spatial interpolation. Benefiting from the above strategy and module, our proposed approach can aggregate features more effectively while introducing only a few additional parameters. Our approach can cooperate with various existing U-shape-based salient object detection methods by substituting the connections between the bottom-up and top-down pathways. Experimental results demonstrate that our proposed approach performs favorably against the previous state-of-the-arts on five widely used benchmarks with less computational complexity. The source code will be publicly available.
翻訳日:2021-04-27 06:32:35 公開日:2020-12-24
# (参考訳) 変圧器時代におけるバイオメディカルワード埋め込みの改善 [全文訳有]

Improved Biomedical Word Embeddings in the Transformer Era ( http://arxiv.org/abs/2012.11808v2 )

ライセンス: CC BY 4.0
Jiho Noh, Ramakanth Kavuluru(参考訳) バイオメディカルワードの埋め込みは通常、局所的およびグローバルな分布特性を捉える神経的手法で、自由テキストコーパスで事前訓練される。 それらは、これらの埋め込みをさらにチューニングするタスク固有の目的を最適化するために設計された、さまざまなニューラルアーキテクチャを使用して、下流タスクで活用される。 しかし、2018年以降、静的な埋め込みから言語モデル(例えばELMo、BERTやUMMFiTのようなトランスフォーマー)に動機づけられたコンテキスト埋め込みへの顕著なシフトがある。 これらの動的埋め込みは、文脈によって同義語や頭字語を区別できるという付加的な利点を持つ。 しかし、静的な埋め込みは依然として低リソース設定(スマートデバイス、IoT要素など)と、計算言語学の観点から語彙意味論の研究に関係している。 本稿では,まずスキップグラム法を用いて単語と概念の埋め込みを共同で学習し,さらにバイオメディカル引用における医用ヘッド(MeSH)の概念に現れる相関情報を微調整する。 この微調整は、メッシュペアの共起をキャプチャする分類目標を持つ2素入力モードのbertトランスフォーマーアーキテクチャによって達成される。 本質的には,動的埋め込みを生成するために使用されるトランスアーキテクチャを再利用して,概念相関を用いた静的埋め込みを改善する。 先行研究により開発された単語関連性について,複数のデータセットを用いた調律された静的組込みの評価を行う。 概念と用語を選択的にカリングすることなく(以前の取り組みによって追求されたように)、静的な埋め込みをこれまでで最も徹底的に評価し、ボード全体のパフォーマンス改善を図っていると信じています。 私たちは、ダウンストリームアプリケーションとリサーチの取り組みのために、コードと埋め込みを提供しています。

Biomedical word embeddings are usually pre-trained on free text corpora with neural methods that capture local and global distributional properties. They are leveraged in downstream tasks using various neural architectures that are designed to optimize task-specific objectives that might further tune such embeddings. Since 2018, however, there is a marked shift from these static embeddings to contextual embeddings motivated by language models (e.g., ELMo, transformers such as BERT, and ULMFiT). These dynamic embeddings have the added benefit of being able to distinguish homonyms and acronyms given their context. However, static embeddings are still relevant in low resource settings (e.g., smart devices, IoT elements) and to study lexical semantics from a computational linguistics perspective. In this paper, we jointly learn word and concept embeddings by first using the skip-gram method and further fine-tuning them with correlational information manifesting in co-occurring Medical Subject Heading (MeSH) concepts in biomedical citations. This fine-tuning is accomplished with the BERT transformer architecture in the two-sentence input mode with a classification objective that captures MeSH pair co-occurrence. In essence, we repurpose a transformer architecture (typically used to generate dynamic embeddings) to improve static embeddings using concept correlations. We conduct evaluations of these tuned static embeddings using multiple datasets for word relatedness developed by previous efforts. Without selectively culling concepts and terms (as was pursued by previous efforts), we believe we offer the most exhaustive evaluation of static embeddings to date with clear performance improvements across the board. We provide our code and embeddings for public use for downstream applications and research endeavors: https://github.com/b ionlproc/BERT-CRel-E mbeddings
翻訳日:2021-04-27 02:03:03 公開日:2020-12-24
# (参考訳) 分子ct:異なるスケールの分子の幾何学と表現学習の統合 [全文訳有]

Molecular CT: Unifying Geometry and Representation Learning for Molecules at Different Scales ( http://arxiv.org/abs/2012.11816v2 )

ライセンス: CC BY 4.0
Jun Zhang, Yaqiang Zhou, Yao-Kun Lei, Yi Isaac Yang and Yi Qin Gao(参考訳) 深層学習は分子物理学の多くの領域を変えており、分子モデリング問題に挑戦する新しい解決策を提供する大きな可能性を示している。 この傾向とともに、分子システムと互換性のある表現的かつ汎用的なニューラルネットワークアーキテクチャの需要が高まっている。 この目的のために、新しいディープニューラルネットワークアーキテクチャである分子構成変換器(Molecular CT)が導入された。 分子CTは、関係対応エンコーダモジュールと計算学的に普遍的な幾何学学習ユニットから構成されており、異なる粒子数と不変 w.r.t に対して、粒子間の関係制約を考慮できる。 トランスローテーション変換。 計算効率と普遍性は、分子CTを様々な分子学習シナリオに多用し、特に異なる分子系をまたいだ伝達可能な表現学習に有益である。 例えば、分子ctは異なるスケールで分子システムの表現学習を可能にし、基準モデルと比較してより軽量な構造を用いて、共通のベンチマークで同等または改善された結果が得られることを示す。

Deep learning is changing many areas in molecular physics, and it has shown great potential to deliver new solutions to challenging molecular modeling problems. Along with this trend arises the increasing demand of expressive and versatile neural network architectures which are compatible with molecular systems. A new deep neural network architecture, Molecular Configuration Transformer (Molecular CT), is introduced for this purpose. Molecular CT is composed of a relation-aware encoder module and a computationally universal geometry learning unit, thus able to account for the relational constraints between particles meanwhile scalable to different particle numbers and invariant w.r.t. the trans-rotational transforms. The computational efficiency and universality make Molecular CT versatile for a variety of molecular learning scenarios and especially appealing for transferable representation learning across different molecular systems. As examples, we show that Molecular CT enables representational learning for molecular systems at different scales, and achieves comparable or improved results on common benchmarks using a more light-weighted structure compared to baseline models.
翻訳日:2021-04-27 01:39:18 公開日:2020-12-24
# (参考訳) 会話における感情の認識 [全文訳有]

Recognizing Emotion Cause in Conversations ( http://arxiv.org/abs/2012.11820v2 )

ライセンス: CC BY-SA 4.0
Soujanya Poria, Navonil Majumder, Devamanyu Hazarika, Deepanway Ghosal, Rishabh Bhardwaj, Samson Yu Bai Jian, Romila Ghosh, Niyati Chhaya, Alexander Gelbukh, Rada Mihalcea(参考訳) テキストにおける感情の原因を認識することは、NLPにおける基本的な研究領域である。 この領域の進歩は、影響に基づくモデルの解釈可能性と性能を向上させる可能性を秘めている。 会話における発話レベルでの感情の特定は、対話者間の相互作用のダイナミックさのために特に困難である。 そこで本研究では,会話中の感情をrecconというデータセットで認識するタスクを提案する。 さらに,原因の出所に基づいて異なる原因タイプを定義し,強いトランスフォーマベースのベースラインを構築し,因果スパン抽出と因果感情の2つのサブタスクに対応する。 データセットはhttps://github.com/d eclare-lab/recconで入手できる。

Recognizing the cause behind emotions in text is a fundamental yet under-explored area of research in NLP. Advances in this area hold the potential to improve interpretability and performance in affect-based models. Identifying emotion causes at the utterance level in conversations is particularly challenging due to the intermingling dynamic among the interlocutors. To this end, we introduce the task of recognizing emotion cause in conversations with an accompanying dataset named RECCON. Furthermore, we define different cause types based on the source of the causes and establish strong transformer-based baselines to address two different sub-tasks of RECCON: 1) Causal Span Extraction and 2) Causal Emotion Entailment. The dataset is available at https://github.com/d eclare-lab/RECCON.
翻訳日:2021-04-27 01:15:33 公開日:2020-12-24
# Unbiased Subdata Selection for Fair Classification: a Unified Framework and Scalable Algorithms

Unbiased Subdata Selection for Fair Classification: A Unified Framework and Scalable Algorithms ( http://arxiv.org/abs/2012.12356v2 )

ライセンス: Link先を確認
Qing Ye and Weijun Xie(参考訳) 現代のデータ分析における重要な問題として、分類は異なるドメインの様々なアプリケーションを見てきた。 従来の分類アプローチとは異なり、公正な分類は、敏感な特徴(例えば性別、人種)に対する意図しない偏見の問題に関係している。 公平度尺度の非凸性が高いため、既存の手法では正確な公平度をモデル化できない場合が多く、公平度分類の結果が劣ることがある。 本稿では,精度と公平性を共同で最適化する新しい統一フレームワークの開発により,そのギャップを埋める。 提案手法は多種多様であり,文献に精通した様々な公正度尺度を組み込むことが可能であり,深い分類モデルを含む多くの分類器にも適用可能である。 具体的には、提案したフレームワークのフィッシャー整合性を最初に証明する。 次に,本フレームワーク内の多くの分類モデルが混合整数凸プログラムとして再キャスト可能であり,インスタンスサイズが中程度であればオフ・ザ・シェルソルバによって効果的に解くことができ,近似アルゴリズムの効率を比較するベンチマークとして使用できることを示す。 提案手法では, 分類結果が分かっている場合, 「偏りのない部分データ選択」 と呼ばれる結果問題は非常に多項式解決可能であり, より代表的データポイントの選択による分類公平性の向上に利用できることを示す。 これにより、大規模インスタンスを解決するために反復精錬戦略(IRS)を開発する動機となり、分類精度を改善し、非バイアスのサブデータ選択を交互に行う。 我々は、IRSの収束特性を研究し、近似境界を導出する。 より広範に、このフレームワークはF1スコアを考慮して不均衡なデータによる分類モデルを改善するために利用することができる。

As an important problem in modern data analytics, classification has witnessed varieties of applications from different domains. Different from conventional classification approaches, fair classification concerns the issues of unintentional biases against the sensitive features (e.g., gender, race). Due to high nonconvexity of fairness measures, existing methods are often unable to model exact fairness, which can cause inferior fair classification outcomes. This paper fills the gap by developing a novel unified framework to jointly optimize accuracy and fairness. The proposed framework is versatile and can incorporate different fairness measures studied in literature precisely as well as can be applicable to many classifiers including deep classification models. Specifically, in this paper, we first prove Fisher consistency of the proposed framework. We then show that many classification models within this framework can be recast as mixed-integer convex programs, which can be solved effectively by off-the-shelf solvers when the instance sizes are moderate and can be used as benchmarks to compare the efficiency of approximation algorithms. We prove that in the proposed framework, when the classification outcomes are known, the resulting problem, termed "unbiased subdata selection," is strongly polynomial-solvable and can be used to enhance the classification fairness by selecting more representative data points. This motivates us to develop an iterative refining strategy (IRS) to solve the large-scale instances, where we improve the classification accuracy and conduct the unbiased subdata selection in an alternating fashion. We study the convergence property of IRS and derive its approximation bound. More broadly, this framework can be leveraged to improve classification models with unbalanced data by taking F1 score into consideration.
翻訳日:2021-04-26 07:41:16 公開日:2020-12-24
# (参考訳) 視覚関係検出における偽陽性の克服に向けて [全文訳有]

Towards Overcoming False Positives in Visual Relationship Detection ( http://arxiv.org/abs/2012.12510v2 )

ライセンス: CC BY 4.0
Daisheng Jin, Xiao Ma, Chongzhi Zhang, Yizhuo Zhou, Jiashu Tao, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, Zhoujun Li, Xianglong Liu, Hongsheng Li(参考訳) 本稿では,視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。 否定的な関係提案の多くは、例えば、不正確なオブジェクト検出によって、低周波の難しい提案が不適合になるような、識別が容易である。 本稿では,偽陽性の影響を緩和するロバストなvrdフレームワークであるsabra(spatially-awar e balanced negative proposal sampling)を提案する。 不均衡分布下でモデルを効果的に最適化するために、サブラはミニバッチサンプリングに balanced negative proposal sampling (bnps) 戦略を採用する。 BNPSは提案を5つの明確に定義されたサブクラスに分割し、逆周波数に応じてバランスの取れたトレーニング分布を生成する。 BNPSはより簡単な最適化環境を提供し、偽陽性の数を著しく削減する。 さらに,空間的曖昧度の高い低周波挑戦的偽陽性提案をさらに解決するために,オブジェクトの空間的相互作用をモデル化する単純で効率的な多頭異種グラフアテンションネットワーク(mh-gat)と,局所空間構成を学ぶ空間マスクデコーダの2つの側面において,sabraの空間モデリング能力を向上させる。 SABRAは2つの人間と物体の相互作用(HOI)データセットと1つの一般的なVRDデータセットに対して、SOTA手法を大きなマージンで上回る。

In this paper, we investigate the cause of the high false positive rate in Visual Relationship Detection (VRD). We observe that during training, the relationship proposal distribution is highly imbalanced: most of the negative relationship proposals are easy to identify, e.g., the inaccurate object detection, which leads to the under-fitting of low-frequency difficult proposals. This paper presents Spatially-Aware Balanced negative pRoposal sAmpling (SABRA), a robust VRD framework that alleviates the influence of false positives. To effectively optimize the model under imbalanced distribution, SABRA adopts Balanced Negative Proposal Sampling (BNPS) strategy for mini-batch sampling. BNPS divides proposals into 5 well defined sub-classes and generates a balanced training distribution according to the inverse frequency. BNPS gives an easier optimization landscape and significantly reduces the number of false positives. To further resolve the low-frequency challenging false positive proposals with high spatial ambiguity, we improve the spatial modeling ability of SABRA on two aspects: a simple and efficient multi-head heterogeneous graph attention network (MH-GAT) that models the global spatial interactions of objects, and a spatial mask decoder that learns the local spatial configuration. SABRA outperforms SOTA methods by a large margin on two human-object interaction (HOI) datasets and one general VRD dataset.
翻訳日:2021-04-26 04:15:14 公開日:2020-12-24
# (参考訳) 単言語学習データを用いたコードスイッチング言語モデル [全文訳有]

Code Switching Language Model Using Monolingual Training Data ( http://arxiv.org/abs/2012.12543v2 )

ライセンス: CC BY 4.0
Asad Ullah, Tauseef Ahmed(参考訳) 単言語データのみを使用したコードスイッチング(cs)言語モデルのトレーニングはまだ研究中である。 本稿では,単言語学習データのみを用いてCS言語モデルを訓練する。 リカレントニューラルネットワーク(RNN)モデルは、シーケンシャルデータの予測に最も適している。 本研究では,単言語英語とスペイン語データのみからの代替バッチを用いて,rnn言語モデルを訓練し,言語モデルのパープレキシティを算出する。 その結果, CS言語モデルの難易度は, 学習におけるモノリンガルデータのバッチの交互利用により低下した。 RNN言語モデルの出力埋め込みにおいて平均二乗誤差(MSE)を用いて連続的に改善した。 両方の方法を組み合わせて、パープレキシティを299.63から80.38に減らす。 提案手法は言語モデルとコードスイッチトレーニングデータとの微調整に匹敵するものであった。

Training a code-switching (CS) language model using only monolingual data is still an ongoing research problem. In this paper, a CS language model is trained using only monolingual training data. As recurrent neural network (RNN) models are best suited for predicting sequential data. In this work, an RNN language model is trained using alternate batches from only monolingual English and Spanish data and the perplexity of the language model is computed. From the results, it is concluded that using alternate batches of monolingual data in training reduced the perplexity of a CS language model. The results were consistently improved using mean square error (MSE) in the output embeddings of RNN based language model. By combining both methods, perplexity is reduced from 299.63 to 80.38. The proposed methods were comparable to the language model fine tune with code-switch training data.
翻訳日:2021-04-26 02:35:55 公開日:2020-12-24
# ヘイトフルミーム検出のためのマルチモーダルフレームワーク

A Multimodal Framework for the Detection of Hateful Memes ( http://arxiv.org/abs/2012.12871v2 )

ライセンス: Link先を確認
Phillip Lippe, Nithin Holla, Shantanu Chandra, Santhosh Rajamanickam, Georgios Antoniou, Ekaterina Shutova, Helen Yannakoudakis(参考訳) オンラインヘイトスピーチの一般的な表現は、本質的にマルチモーダルであり、ミームの形で現れる。 ヘイトフルコンテンツを自動的に検出するシステムの設計は、社会全体に望ましくない影響を和らげる上で、最重要課題である。 ミームは、画像とテキストの両方を使ってメッセージを伝達し、それゆえ、マルチモーダル推論と共同視覚と言語理解を必要とする。 本研究では,この一連の研究を進め,憎悪のあるミームの検出のためのマルチモーダルフレームワークの開発を目指す。 我々は,単純な微調整以上の既存マルチモーダルアプローチの性能を向上させるとともに,マルチモーダルとアンサンブル学習を奨励し,ロバスト性を向上させるために比較例のアップサンプリングの有効性を示す。 さらに,モデルの誤分類を分析し,様々な仮説に基づく拡張とその性能への影響を考察し,この分野における今後の研究に重要な意味を示している。 我々の最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、AUROCスコア80.53を達成し、Facebookが主催する2020 Hateful Memes Challengeの第2フェーズに私たちを配置する。

An increasingly common expression of online hate speech is multimodal in nature and comes in the form of memes. Designing systems to automatically detect hateful content is of paramount importance if we are to mitigate its undesirable effects on the society at large. The detection of multimodal hate speech is an intrinsically difficult and open problem: memes convey a message using both images and text and, hence, require multimodal reasoning and joint visual and language understanding. In this work, we seek to advance this line of research and develop a multimodal framework for the detection of hateful memes. We improve the performance of existing multimodal approaches beyond simple fine-tuning and, among others, show the effectiveness of upsampling of contrastive examples to encourage multimodality and ensemble learning based on cross-validation to improve robustness. We furthermore analyze model misclassifications and discuss a number of hypothesis-driven augmentations and their effects on performance, presenting important implications for future research in the field. Our best approach comprises an ensemble of UNITER-based models and achieves an AUROC score of 80.53, placing us 4th on phase 2 of the 2020 Hateful Memes Challenge organized by Facebook.
翻訳日:2021-04-25 18:23:25 公開日:2020-12-24
# RAP-Net:単一解剖学的前駆体を用いた多臓器分離

RAP-Net: Coarse-to-Fine Multi-Organ Segmentation with Single Random Anatomical Prior ( http://arxiv.org/abs/2012.12425v2 )

ライセンス: Link先を確認
Ho Hin Lee, Yucheng Tang, Shunxing Bao, Richard G. Abramson, Yuankai Huo, Bennett A. Landman(参考訳) 広義の腹腔内マルチオルガンセグメンテーションの実行は,空間的文脈情報の損失を最小化する高分解能セグメンテーションの抽出を容易にする。 しかし、現在の粗分別アプローチは、抽出された臓器の関心領域(ROI)に対応する単一の臓器精製セグメンテーションを実行するために、かなりの数のモデルを必要とする。 低分解能の粗いネットワークを用いて3dボリュームから多臓器の大域的先行コンテキストを抽出することから始まり、さらに1つの洗練されたモデルを用いて複数の臓器に対応するモデルに代えてすべての腹部臓器を区分する微細なフェーズを提案する。 解剖学的先行とそれに対応するパッチを組み合わせて解剖学的位置と境界情報を保存し,全臓器の高分解能セグメンテーションを単一モデルで行う。 本方法の訓練と評価には,13臓器を注記した100症例を対象とした臨床研究コホートを用いた。 4倍のクロスバリデーションでアルゴリズムをテストし,13臓器のセグメンテーション性能を評価するためにdiceスコアを計算した。 提案手法は,13モデルにおいて,平均diceスコアが84.58%に対して81.69% (p<0.0001。

Performing coarse-to-fine abdominal multi-organ segmentation facilitates to extract high-resolution segmentation minimizing the lost of spatial contextual information. However, current coarse-to-refine approaches require a significant number of models to perform single organ refine segmentation corresponding to the extracted organ region of interest (ROI). We propose a coarse-to-fine pipeline, which starts from the extraction of the global prior context of multiple organs from 3D volumes using a low-resolution coarse network, followed by a fine phase that uses a single refined model to segment all abdominal organs instead of multiple organ corresponding models. We combine the anatomical prior with corresponding extracted patches to preserve the anatomical locations and boundary information for performing high-resolution segmentation across all organs in a single model. To train and evaluate our method, a clinical research cohort consisting of 100 patient volumes with 13 organs well-annotated is used. We tested our algorithms with 4-fold cross-validation and computed the Dice score for evaluating the segmentation performance of the 13 organs. Our proposed method using single auto-context outperforms the state-of-the-art on 13 models with an average Dice score 84.58% versus 81.69% (p<0.0001).
翻訳日:2021-04-25 18:02:41 公開日:2020-12-24
# マルチコントラストCTによる健康キドニーアトラスの診断

Multi-Contrast Computed Tomography Healthy Kidney Atlas ( http://arxiv.org/abs/2012.12432v2 )

ライセンス: Link先を確認
Ho Hin Lee, Yucheng Tang, Kaiwen Xu, Shunxing Bao, Agnes B. Fogo, Raymond Harris, Mark P. de Caestecker, Mattias Heinrich, Jeffrey M. Spraggins, Yuankai Huo, Bennett A. Landman(参考訳) 3次元のマルチモーダル組織マップの構築は、情報統合を通じて、時間的および空間的スケールにわたる学際的なイノベーションを促進する機会を提供する。 作業の優先順位が細胞レベルに割り当てられ、細胞相互作用や組織の変化を探索する一方で、臓器やシステム内での発見の文脈化は、スケールにわたる高解像度リンクの可視化と解釈に不可欠である。 腹部CT(腹部CT)では,腎形態,体の大きさ,性別,画像プロトコルの経時的変化が著しい。 スケール間のばらつきを統合および可視化するために、ボリュームアトラスフレームワークが必要である。 しかし,多発造影CTには腹腔・後腹膜臓器のアラス・フレームワークは存在しない。 そこで我々は,非造影CT,早期動脈,後期動脈,静脈,遅延造影CTを対象とし,腎に特異的に最適化された高分解能CT後腹膜腺腫を提案した。 そこで本研究では,高分解能CTアトラステンプレートに腹部容積を登録するために,深層学習に基づく興味抽出法と2段階階層自動登録パイプラインを導入する。 アトラスを生成・評価するために,500名(腎疾患歴なし,年齢15~50歳,男性250名,女性250名)のコントラストctスキャンを行った。 本研究は,本テンプレートの安定な一般化性を示し,小から大までの腎臓の変動を,人口動態の多様性に富むコントラストや個体群にまたがって統合した。 アトラスと人口動態の関連は、個体群間の腎臓解剖の変動をよりよく理解した。

The construction of three-dimensional multi-modal tissue maps provides an opportunity to spur interdisciplinary innovations across temporal and spatial scales through information integration. While the preponderance of effort is allocated to the cellular level and explore the changes in cell interactions and organizations, contextualizing findings within organs and systems is essential to visualize and interpret higher resolution linkage across scales. There is a substantial normal variation of kidney morphometry and appearance across body size, sex, and imaging protocols in abdominal computed tomography (CT). A volumetric atlas framework is needed to integrate and visualize the variability across scales. However, there is no abdominal and retroperitoneal organs atlas framework for multi-contrast CT. Hence, we proposed a high-resolution CT retroperitoneal atlas specifically optimized for the kidney across non-contrast CT and early arterial, late arterial, venous and delayed contrast enhanced CT. Briefly, we introduce a deep learning-based volume of interest extraction method and an automated two-stage hierarchal registration pipeline to register abdominal volumes to a high-resolution CT atlas template. To generate and evaluate the atlas, multi-contrast modality CT scans of 500 subjects (without reported history of renal disease, age: 15-50 years, 250 males & 250 females) were processed. We demonstrate a stable generalizability of the atlas template for integrating the normal kidney variation from small to large, across contrast modalities and populations with great variability of demographics. The linkage of atlas and demographics provided a better understanding of the variation of kidney anatomy across populations.
翻訳日:2021-04-25 18:02:19 公開日:2020-12-24
# (参考訳) タスク適応型負クラスによるオープンセット認識 [全文訳有]

Task-Adaptive Negative Class Envision for Few-Shot Open-Set Recognition ( http://arxiv.org/abs/2012.13073v1 )

ライセンス: CC BY 4.0
Shiyuan Huang, Jiawei Ma, Guangxing Han, Shih-Fu Chang(参考訳) 最近の研究は、オープンワールドを扱う能力を備えた認識システムの実現を目指している。 ショット学習は限られた例から新しいクラスを素早く学ぶことを目的としているが、オープンセット認識は未知の負のクラスをオープンワールドから考える。 本稿では,新しい情報源からの問い合わせに頑健な認識システムを学習し,実例と未知のオープンソースから学習するオープンセット認識(fsor)の問題点について検討する。 そこで我々は,従来の知識から新たな概念を想定する人間の能力を模倣し,オープンワールドをモデル化するタスク適応型ネガティブクラス構想手法(TANE)を提案する。 本質的には、外部メモリを使用して負のクラス表現を推定します。 さらに,学習プロセスを強化する新しい共役エピソードトレーニング戦略を導入する。 4つの公開ベンチマークの大規模な実験により、我々のアプローチは、数発のオープンセット認識における最先端の性能を著しく改善することが示された。 さらに,本手法を一般化したオープンセット認識(GFSOR)に拡張し,MiniImageNetの性能向上を実現した。

Recent works seek to endow recognition systems with the ability to handle the open world. Few shot learning aims for fast learning of new classes from limited examples, while open-set recognition considers unknown negative class from the open world. In this paper, we study the problem of few-shot open-set recognition (FSOR), which learns a recognition system robust to queries from new sources with few examples and from unknown open sources. To achieve that, we mimic human capability of envisioning new concepts from prior knowledge, and propose a novel task-adaptive negative class envision method (TANE) to model the open world. Essentially we use an external memory to estimate a negative class representation. Moreover, we introduce a novel conjugate episode training strategy that strengthens the learning process. Extensive experiments on four public benchmarks show that our approach significantly improves the state-of-the-art performance on few-shot open-set recognition. Besides, we extend our method to generalized few-shot open-set recognition (GFSOR), where we also achieve performance gains on MiniImageNet.
翻訳日:2021-04-25 17:03:50 公開日:2020-12-24
# (参考訳) 車輪レール界面条件推定(W-RICE) [全文訳有]

Wheel-Rail Interface Condition Estimation (W-RICE) ( http://arxiv.org/abs/2012.13096v1 )

ライセンス: CC BY 4.0
Sundar Shrestha, Anand Koirala, Maksym Spiryagin, Qing Wu(参考訳) 車輪とレールの間の表面粗さは、ローリングノイズレベルに大きな影響を及ぼす。 車輪レール界面におけるフロストやグリースなどの第3体の存在は, 付着係数の変化に寄与し, 様々なレベルの騒音が発生する。 そのため,車輪-レール間相互作用から生じる騒音パターンの解析から車輪-レール間の付着条件を推定することが可能である。 本研究では, 転がり音を入力として接着条件を推定する新しい手法を提案する。

The surface roughness between the wheel and rail has a huge influence on rolling noise level. The presence of the third body such as frost or grease at wheel-rail interface contributes towards change in adhesion coefficient resulting in the generation of noise at various levels. Therefore, it is possible to estimate adhesion conditions between the wheel and rail from the analysis of noise patterns originating from wheel-rail interaction. In this study, a new approach to estimate adhesion condition is proposed which takes rolling noise as input.
翻訳日:2021-04-25 16:49:13 公開日:2020-12-24
# (参考訳) 振り返って学ぶ [全文訳有]

Learning with Retrospection ( http://arxiv.org/abs/2012.13098v1 )

ライセンス: CC BY 4.0
Xiang Deng, Zhongfei Zhang(参考訳) ディープニューラルネットワークは、コンピュータビジョンや自然言語処理など、人工知能のさまざまな領域でうまく展開されている。 DNNを訓練するための現在の標準手順は、現在の学習重量を除いて、過去の時代の学習情報を全て捨てている。 この破棄された情報は本当に役に立たないのか? 廃棄された情報はその後の訓練に役立てることができると我々は主張する。 本稿では,過去の学習情報を利用してその後の学習を指導する振り返り学習(LWR)を提案する。 LWRは、追加のネットワークパラメータや推論コストを導入することなく、DNNの精度、キャリブレーション、堅牢性を改善するための、シンプルで効果的なトレーニングフレームワークである。 いくつかのベンチマークデータセットに対する大規模な実験は、DNNのトレーニングにおけるLWRの優位性を示している。

Deep neural networks have been successfully deployed in various domains of artificial intelligence, including computer vision and natural language processing. We observe that the current standard procedure for training DNNs discards all the learned information in the past epochs except the current learned weights. An interesting question is: is this discarded information indeed useless? We argue that the discarded information can benefit the subsequent training. In this paper, we propose learning with retrospection (LWR) which makes use of the learned information in the past epochs to guide the subsequent training. LWR is a simple yet effective training framework to improve accuracies, calibration, and robustness of DNNs without introducing any additional network parameters or inference cost, only with a negligible training overhead. Extensive experiments on several benchmark datasets demonstrate the superiority of LWR for training DNNs.
翻訳日:2021-04-25 16:43:11 公開日:2020-12-24
# (参考訳) 事前学習された異種観測表現を用いた協調政策学習 [全文訳有]

Cooperative Policy Learning with Pre-trained Heterogeneous Observation Representations ( http://arxiv.org/abs/2012.13099v1 )

ライセンス: CC BY 4.0
Wenlei Shi, Xinran Wei, Jia Zhang, Xiaoyuan Ni, Arthur Jiang, Jiang Bian, Tie-Yan Liu(参考訳) 多エージェント強化学習(MARL)は、一定のグローバル報酬を最大化するための協調政策を学ぶために、ますます研究されている。 既存の多くの研究は、MARLのグラフニューラルネットワーク(GNN)を利用して、相互接続エージェント上に構築された相互作用グラフ上で重要な協調情報を伝達している。 しかしながら、バニラGNNアプローチは、一般的なメッセージパッシング機構が異質な頂点間で有効でなく、単純なメッセージアグリゲーション関数が複数の隣人からの組合せの相互作用を正確にモデル化できないため、複雑な実世界のシナリオを扱う上で重大な欠陥をもたらす。 より情報的なメッセージパッシングとアグリゲーション機構を備えた複雑なGNNモデルを採用することは、明らかに異種頂点表現と協調的政策学習の恩恵をもたらすが、一方で、MARLの訓練困難を増大させ、元のグローバル報酬と比較してより強く直接的な報酬信号を要求する可能性がある。 これらの課題に対処するために、あらかじめ訓練された異種観測表現を用いた新しい協調学習フレームワークを提案する。 特に、エンコーダ-デコーダに基づくグラフアテンションを用いて、MARLによりより容易に活用できる複雑な相互作用と異種表現を学習する。 さらに,協調政策学習の難しさを和らげるため,局所的アクター・クリティック・アルゴリズムを用いた事前学習をデザインする。 実世界のシナリオに対する大規模な実験は、我々の新しいアプローチが既存のMARLベースラインと、業界で広く使われている運用研究ソリューションを大きく上回っていることを示している。

Multi-agent reinforcement learning (MARL) has been increasingly explored to learn the cooperative policy towards maximizing a certain global reward. Many existing studies take advantage of graph neural networks (GNN) in MARL to propagate critical collaborative information over the interaction graph, built upon inter-connected agents. Nevertheless, the vanilla GNN approach yields substantial defects in dealing with complex real-world scenarios since the generic message passing mechanism is ineffective between heterogeneous vertices and, moreover, simple message aggregation functions are incapable of accurately modeling the combinational interactions from multiple neighbors. While adopting complex GNN models with more informative message passing and aggregation mechanisms can obviously benefit heterogeneous vertex representations and cooperative policy learning, it could, on the other hand, increase the training difficulty of MARL and demand more intense and direct reward signals compared to the original global reward. To address these challenges, we propose a new cooperative learning framework with pre-trained heterogeneous observation representations. Particularly, we employ an encoder-decoder based graph attention to learn the intricate interactions and heterogeneous representations that can be more easily leveraged by MARL. Moreover, we design a pre-training with local actor-critic algorithm to ease the difficulty in cooperative policy learning. Extensive experiments over real-world scenarios demonstrate that our new approach can significantly outperform existing MARL baselines as well as operational research solutions that are widely-used in industry.
翻訳日:2021-04-25 16:28:37 公開日:2020-12-24
# (参考訳) 大規模画像検索のための非交互グラフハッシュアルゴリズム [全文訳有]

A non-alternating graph hashing algorithm for large scale image search ( http://arxiv.org/abs/2012.13138v1 )

ライセンス: CC BY 4.0
Sobhan Hemati, Mohammad Hadi Mehdizavareh, Shojaeddin Chenouri, Hamid R Tizhoosh(参考訳) ビッグデータの時代には、メモリと計算効率を改善する手法が技術展開の成功に不可欠になっている。 ハッシュは、ビッグデータに付随する計算制限に対処する最も効果的なアプローチの1つである。 この問題を解く自然な方法の一つは、バイナリコードの学習に親和性を直接組み込むスペクトルハッシュである。 しかし、バイナリ制約のため、最適化は難解になる。 この課題を緩和するために、バイナリコードを取得する計算負荷を削減し、良い解を得るための様々な緩和アプローチが提案されている。 既存の緩和手法の問題は、1つ以上の補助変数を使って、問題を緩和しながら高品質なバイナリコードを実現することである。 補助変数の存在は、計算複雑性を増大させる座標降下アプローチにつながる。 これらの変数の導入は不要であると主張する。 そこで本研究では,問題に追加変数を付加しないスペクトルハッシュのための新しい緩和定式法を提案する。 さらに、変数の数とデータポイントが等しい元の空間で問題を解く代わりに、より小さな空間で問題を解き、この解からバイナリコードを取得する。 このトリックは、メモリと計算の複雑さを同時に軽減します。 この解を得るために, 2つの最適化手法,すなわち射影勾配と多様体の最適化を適用する。 提案手法は,4つの公開データセットを対象とした包括的実験を用いて,高効率スペクトルハッシュ(esh)アルゴリズムにより,低複雑性の領域に比べて高い検索性能が得られることを示す。

In the era of big data, methods for improving memory and computational efficiency have become crucial for successful deployment of technologies. Hashing is one of the most effective approaches to deal with computational limitations that come with big data. One natural way for formulating this problem is spectral hashing that directly incorporates affinity to learn binary codes. However, due to binary constraints, the optimization becomes intractable. To mitigate this challenge, different relaxation approaches have been proposed to reduce the computational load of obtaining binary codes and still attain a good solution. The problem with all existing relaxation methods is resorting to one or more additional auxiliary variables to attain high quality binary codes while relaxing the problem. The existence of auxiliary variables leads to coordinate descent approach which increases the computational complexity. We argue that introducing these variables is unnecessary. To this end, we propose a novel relaxed formulation for spectral hashing that adds no additional variables to the problem. Furthermore, instead of solving the problem in original space where number of variables is equal to the data points, we solve the problem in a much smaller space and retrieve the binary codes from this solution. This trick reduces both the memory and computational complexity at the same time. We apply two optimization techniques, namely projected gradient and optimization on manifold, to obtain the solution. Using comprehensive experiments on four public datasets, we show that the proposed efficient spectral hashing (ESH) algorithm achieves highly competitive retrieval performance compared with state of the art at low complexity.
翻訳日:2021-04-25 16:09:05 公開日:2020-12-24
# (参考訳) 支配に基づくラフセットアプローチによる初等的品質予測 [全文訳有]

Predicting Seminal Quality with the Dominance-Based Rough Sets Approach ( http://arxiv.org/abs/2012.13204v1 )

ライセンス: CC BY 4.0
Nassim Dehouche(参考訳) この論文は、以前に発表された研究の臨床的データに依存している。 我々は、その作品の2つの非常に疑わしい仮定、すなわち、証拠の欠如と欠如の曖昧な証拠を特定し、属性のドメインの順序性を無視した。 そこで,DRSA(Dominance-base d rough set approach)のような適切な順序付け手法を用いることで,エキスパートシステムの予測精度が大幅に向上し,100インスタンスのデータセットに対してほぼ完全な精度が得られることを示す。 診断問題の解決におけるDRSAの性能以外にも、これらの結果は基礎となるデータセットの不十分さと自明さを示唆している。 本論文では,uci機械学習リポジトリからのオープンデータへのリンクを提供し,請求項の検証・再検証を容易にする。

The paper relies on the clinical data of a previously published study. We identify two very questionable assumptions of said work, namely confusing evidence of absence and absence of evidence, and neglecting the ordinal nature of attributes' domains. We then show that using an adequate ordinal methodology such as the dominance-based rough sets approach (DRSA) can significantly improve the predictive accuracy of the expert system, resulting in almost complete accuracy for a dataset of 100 instances. Beyond the performance of DRSA in solving the diagnosis problem at hand, these results suggest the inadequacy and triviality of the underlying dataset. We provide links to open data from the UCI machine learning repository to allow for an easy verification/refutat ion of the claims made in this paper.
翻訳日:2021-04-25 15:18:39 公開日:2020-12-24
# (参考訳) ビジネスプロセスの一部コンプライアンスのための形式的枠組みを目指して [全文訳有]

Towards a Formal Framework for Partial Compliance of Business Processes ( http://arxiv.org/abs/2012.13219v1 )

ライセンス: CC BY 4.0
Ho-Pun Lam and Mustafa Hashmi and Akhil Kumar(参考訳) プロセスコンプライアンスというバイナリな"YES-NO"の概念は、多くのケースが部分的コンプライアンスのグレーな領域に該当するため、会社の運用パフォーマンスを評価するマネージャにとってあまり役に立たない。 したがって、メトリクスの観点から部分的コンプライアンスを定量化し、それらにコンプライアンスの数値を割り当てることで実際のケースを分類する手段を持つことが必要である。 本稿では,さまざまな抽象化レベル(タスク,トレース,プロセスレベルなど)および各タスクの複数の次元(時間的,金銭的,役割的,データ的,品質的)にわたるビジネスプロセスのコンプライアンスレベルを定量化するための評価枠組みを定式化し,管理者の業務に関するより有用な情報を提供し,意思決定プロセスの改善を支援する。 このアプローチは、地方、州、連邦政府が提供する社会サービスをより柔軟にし、市民の生活を改善することで、社会的価値を高めることもできる。

Binary "YES-NO" notions of process compliance are not very helpful to managers for assessing the operational performance of their company because a large number of cases fall in the grey area of partial compliance. Hence, it is necessary to have ways to quantify partial compliance in terms of metrics and be able to classify actual cases by assigning a numeric value of compliance to them. In this paper, we formulate an evaluation framework to quantify the level of compliance of business processes across different levels of abstraction (such as task,trace and process level) and across multiple dimensions of each task (such as temporal, monetary, role-, data-, and quality-related) to provide managers more useful information about their operations and to help them improve their decision making processes. Our approach can also add social value by making social services provided by local, state and federal governments more flexible and improving the lives of citizens.
翻訳日:2021-04-25 14:47:43 公開日:2020-12-24
# (参考訳) ガウス型混合格子を用いた非一様格子上の補間点 [全文訳有]

Interpolating Points on a Non-Uniform Grid using a Mixture of Gaussians ( http://arxiv.org/abs/2012.13257v1 )

ライセンス: CC BY 4.0
Ivan Skorokhodov(参考訳) 本研究では,ガウス混合モデルに基づく一様でない画像補間を行う手法を提案する。 近接近傍、双線型、ハミング、ランチョスなどの従来の画像補間法。 補間したい座標が 均一な格子上に 配置されていると仮定する しかし、実際には必ずしもそうではないため、任意に位置付けられた画素値から画像を生成できる補間法を開発する。 我々は、既知の各画素を2次元正規分布として表現し、各出力画像画素を既知の各画素の混合したサンプルとして考慮する。 任意に配置されたピクセル群から画像を再構成する機能とは別に、これはまた、下流アプリケーションに役立つ補間手順を通して区別することもできます。 最適化されたCUDAカーネルとベンチマークを再現するソースコードはhttps://github.com/u niversome/non-unifor m-interpolationにあります。

In this work, we propose an approach to perform non-uniform image interpolation based on a Gaussian Mixture Model. Traditional image interpolation methods, like nearest neighbor, bilinear, Hamming, Lanczos, etc. assume that the coordinates you want to interpolate from, are positioned on a uniform grid. However, it is not always the case in practice and we develop an interpolation method that is able to generate an image from arbitrarily positioned pixel values. We do this by representing each known pixel as a 2D normal distribution and considering each output image pixel as a sample from the mixture of all the known ones. Apart from the ability to reconstruct an image from arbitrarily positioned set of pixels, this also allows us to differentiate through the interpolation procedure, which might be helpful for downstream applications. Our optimized CUDA kernel and the source code to reproduce the benchmarks is located at https://github.com/u niversome/non-unifor m-interpolation.
翻訳日:2021-04-25 14:27:19 公開日:2020-12-24
# (参考訳) ドメインランダム化と伝達学習を用いたニューラルネットワーク上のシードフェノタイピング [全文訳有]

Seed Phenotyping on Neural Networks using Domain Randomization and Transfer Learning ( http://arxiv.org/abs/2012.13259v1 )

ライセンス: CC BY 4.0
Venkat Margapuri and Mitchell Neilsen(参考訳) 種子表現型は、種子の形態的特性を分析して、様々な環境条件下での種子の発生、耐性および収量の観点から種子の挙動を予測するという考え方である。 この研究の焦点は、Tensorflowを用いたシード表現のための最先端のオブジェクト検出とローカライズニューラルネットワーク、Mask R-CNNとYOLO(You Only Look Once)の応用と実現可能性分析である。 このような取り組みにおける大きなボトルネックの1つは、大量のトレーニングデータを必要とすることだ。 多数のシード画像のキャプチャは厄介だが、画像は画像上の種子の境界を示し、ニューラルネットワークが消費できるデータフォーマットに変換するために注釈付けされる必要がある。 手動でアノテーションのタスクを実行するツールは無料で利用できるが、必要な時間は非常に大きい。 そのようなシナリオに取り組むために、ドメインランダム化という考え方がある。 シミュレーション対象を含む画像に学習したモデルを実世界オブジェクトに適用する手法を考察する。 また、転帰学習(transfer learning)も行う。 問題を解く際に得られる知識を別の問題に適用するという考え方が用いられる。 ネットワークは、人気のあるImageNetとCOCOデータセットからトレーニング済み重量に基づいてトレーニングされる。 研究の一環として, キャノラ, 粗米, ソルガム, 大豆, 小麦の5種類の種に対して, 異なるパラメータを用いた実験を行った。

Seed phenotyping is the idea of analyzing the morphometric characteristics of a seed to predict the behavior of the seed in terms of development, tolerance and yield in various environmental conditions. The focus of the work is the application and feasibility analysis of the state-of-the-art object detection and localization neural networks, Mask R-CNN and YOLO (You Only Look Once), for seed phenotyping using Tensorflow. One of the major bottlenecks of such an endeavor is the need for large amounts of training data. While the capture of a multitude of seed images is taunting, the images are also required to be annotated to indicate the boundaries of the seeds on the image and converted to data formats that the neural networks are able to consume. Although tools to manually perform the task of annotation are available for free, the amount of time required is enormous. In order to tackle such a scenario, the idea of domain randomization i.e. the technique of applying models trained on images containing simulated objects to real-world objects, is considered. In addition, transfer learning i.e. the idea of applying the knowledge obtained while solving a problem to a different problem, is used. The networks are trained on pre-trained weights from the popular ImageNet and COCO data sets. As part of the work, experiments with different parameters are conducted on five different seed types namely, canola, rough rice, sorghum, soy, and wheat.
翻訳日:2021-04-25 14:22:45 公開日:2020-12-24
# (参考訳) ポリシー最適化による車両経路問題の学習 [全文訳有]

Learning Vehicle Routing Problems using Policy Optimisation ( http://arxiv.org/abs/2012.13269v1 )

ライセンス: CC BY-SA 4.0
Nasrin Sultana, Jeffrey Chan, A. K. Qin, Tabinda Sarwar(参考訳) 深部強化学習(DRL)は、ポリシーネットワークを介して複雑な組合せ最適化問題を解くための効果的なヒューリスティックスを学ぶために用いられ、有望な性能を示した。 既存の作業では、非自明さと困難さのバランスがよいため、ルーティング問題の解決(車両)に注力しています。 最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。 これらのアプローチは、あるケースでは優れた性能を示しているが、大きな探索空間の典型的な組合せ/ルーティング問題を考えると、それらはあまりに早く貧弱なポリシーに収束する可能性がある。 そこで本稿では,より確率的なポリシを提供することにより,探索を支援するアプローチ名 Entropy regularized reinforcement learning (ERRL) を提案する。 経験的に、低分散ERRLはRLトレーニングを高速かつ安定に行う。 また、テスト期間中にローカル検索演算子の組み合わせを導入し、解法を大幅に改善し、ERRLを補完する。 車両ルーティング問題に対して,高エントロピーのポリシーは,最適化環境を円滑にすることで,最適化が容易になることを示す。 定量的評価の結果,モデルの性能は最先端の変種に匹敵することがわかった。 本評価では, キャパシタント車両ルーティング問題 (CVRP) , 固定フリート問題 (MRPFF) , トラベリングセールスマン問題 (Travelling Salesman problem) などの車両ルーティング問題に対して, モデルが最先端の性能を示すことを実験的に示す。

Deep reinforcement learning (DRL) has been used to learn effective heuristics for solving complex combinatorial optimisation problem via policy networks and have demonstrated promising performance. Existing works have focused on solving (vehicle) routing problems as they have a nice balance between non-triviality and difficulty. State-of-the-art approaches learn a policy using reinforcement learning, and the learnt policy acts as a pseudo solver. These approaches have demonstrated good performance in some cases, but given the large search space typical combinatorial/routin g problem, they can converge too quickly to poor policy. To prevent this, in this paper, we propose an approach name entropy regularised reinforcement learning (ERRL) that supports exploration by providing more stochastic policies, which tends to improve optimisation. Empirically, the low variance ERRL offers RL training fast and stable. We also introduce a combination of local search operators during test time, which significantly improves solution and complement ERRL. We qualitatively demonstrate that for vehicle routing problems, a policy with higher entropy can make the optimisation landscape smooth which makes it easier to optimise. The quantitative evaluation shows that the performance of the model is comparable with the state-of-the-art variants. In our evaluation, we experimentally illustrate that the model produces state-of-the-art performance on variants of Vehicle Routing problems such as Capacitated Vehicle Routing Problem (CVRP), Multiple Routing with Fixed Fleet Problems (MRPFF) and Travelling Salesman problem.
翻訳日:2021-04-25 14:12:53 公開日:2020-12-24
# (参考訳) ディープラーニングによる生体認証テンプレートの保護が不十分なファジィコミットメント [全文訳有]

Fuzzy Commitments Offer Insufficient Protection to Biometric Templates Produced by Deep Learning ( http://arxiv.org/abs/2012.13293v1 )

ライセンス: CC BY 4.0
Danny Keller, Margarita Osadchy, and Orr Dunkelman(参考訳) 本研究では,顔画像に適用した場合のファジィコミットメントが与える保護について,最先端のディープラーニング顔認識システムを用いて検討する。 これらのシステムは高い精度を生み出すことができるが、エントロピーが少なすぎるテンプレートを生成する。 その結果,保護テンプレートを用いて顔画像の再構成を行う再構成攻撃が提案された。 再建された顔画像は、オリジナルのものと非常によく似ている。 最も単純な攻撃シナリオでは、再構築されたテンプレートの78%以上がアカウントのアンロックに成功した(システムが0.1% FARに設定されている場合)。 最も難しい」設定(あるシステムから再構成された画像を別のシステムで使用し、異なる特徴抽出プロセスで使用する)であっても、再構成された画像は、システム全体の50倍から120倍の成功率を提供する。

In this work, we study the protection that fuzzy commitments offer when they are applied to facial images, processed by the state of the art deep learning facial recognition systems. We show that while these systems are capable of producing great accuracy, they produce templates of too little entropy. As a result, we present a reconstruction attack that takes a protected template, and reconstructs a facial image. The reconstructed facial images greatly resemble the original ones. In the simplest attack scenario, more than 78% of these reconstructed templates succeed in unlocking an account (when the system is configured to 0.1% FAR). Even in the "hardest" settings (in which we take a reconstructed image from one system and use it in a different system, with different feature extraction process) the reconstructed image offers 50 to 120 times higher success rates than the system's FAR.
翻訳日:2021-04-25 13:54:06 公開日:2020-12-24
# (参考訳) LEUGAN:unsupervised Generative Attentional Networksによる低照度画像強調 [全文訳有]

LEUGAN:Low-Light Image Enhancement by Unsupervised Generative Attentional Networks ( http://arxiv.org/abs/2012.13322v1 )

ライセンス: CC BY 4.0
Yangyang Qu, Chao liu, Yongsheng Ou(参考訳) 低照度データからの画像復元は難しい課題である。 既存のディープネットワークベースのアルゴリズムのほとんどは、ペアワイズイメージでトレーニングされるように設計されている。 実世界のデータセットが欠如しているため、通常は画像エッジとカラー情報の損失という観点で、実際に一般化した場合に性能が低下する。 本稿では、低照度画像強調タスクを処理するための注意誘導型教師なし生成ネットワークを提案する。 具体的には,よりシャープなエッジを復元するエッジ補助モジュールと,よりリアルなカラーを復元するアテンション誘導モジュールの2つを含む。 さらに,生成した画像のエッジをより鮮明にするために,新たな損失関数を提案する。 実験により,提案アルゴリズムが最先端の手法,特に実世界の画像に対して,画像の明瞭性とノイズ制御の面で好適に動作することを確認した。

Restoring images from low-light data is a challenging problem. Most existing deep-network based algorithms are designed to be trained with pairwise images. Due to the lack of real-world datasets, they usually perform poorly when generalized in practice in terms of loss of image edge and color information. In this paper, we propose an unsupervised generation network with attention-guidance to handle the low-light image enhancement task. Specifically, our network contains two parts: an edge auxiliary module that restores sharper edges and an attention guidance module that recovers more realistic colors. Moreover, we propose a novel loss function to make the edges of the generated images more visible. Experiments validate that our proposed algorithm performs favorably against state-of-the-art methods, especially for real-world images in terms of image clarity and noise control.
翻訳日:2021-04-25 13:23:18 公開日:2020-12-24
# (参考訳) ベクトル出力reluニューラルネットワーク問題は共陽性プログラムである:2層ネットワークの凸解析と多項式時間アルゴリズム [全文訳有]

Vector-output ReLU Neural Network Problems are Copositive Programs: Convex Analysis of Two Layer Networks and Polynomial-time Algorithms ( http://arxiv.org/abs/2012.13329v1 )

ライセンス: CC BY 4.0
Arda Sahiner, Tolga Ergen, John Pauly and Mert Pilanci(参考訳) 本稿では2層ベクトル出力ReLUニューラルネットワークトレーニング問題の凸半無限双対について述べる。 この半無限双対は有限次元表現を許すが、その支持は特徴付けが難しい凸集合上のものである。 特に,非凸ニューラルネットワークトレーニング問題は,有限次元凸コ陽性プログラムと等価であることを示す。 私たちの研究は、ニューラルネットワークのグローバルな最適化と、共陽性プログラムの強いつながりを初めて特定しました。 そこで本研究では,ニューラルネットワークが半負の行列因子分解によって共負のプログラムを暗黙的に解こうとしていることを示す。 本稿では,ベクトル出力ニューラルネットワークトレーニング問題の最小値を求めるアルゴリズムについて述べる。これは固定データランクのサンプル数に多項式であるが,次元は指数関数的である。 しかし、畳み込みアーキテクチャの場合、計算複雑性は他の全てのパラメータのフィルタサイズと多項式のみにおいて指数関数的である。 本稿では,このニューラルネットワーク学習問題のグローバル最適化をソフトスレッショルドsvdを用いて正確に把握し,ある種の問題に対して正確であることが保証され,実際に確率的勾配降下の解に対応する共負緩和を提供する。

We describe the convex semi-infinite dual of the two-layer vector-output ReLU neural network training problem. This semi-infinite dual admits a finite dimensional representation, but its support is over a convex set which is difficult to characterize. In particular, we demonstrate that the non-convex neural network training problem is equivalent to a finite-dimensional convex copositive program. Our work is the first to identify this strong connection between the global optima of neural networks and those of copositive programs. We thus demonstrate how neural networks implicitly attempt to solve copositive programs via semi-nonnegative matrix factorization, and draw key insights from this formulation. We describe the first algorithms for provably finding the global minimum of the vector output neural network training problem, which are polynomial in the number of samples for a fixed data rank, yet exponential in the dimension. However, in the case of convolutional architectures, the computational complexity is exponential in only the filter size and polynomial in all other parameters. We describe the circumstances in which we can find the global optimum of this neural network training problem exactly with soft-thresholded SVD, and provide a copositive relaxation which is guaranteed to be exact for certain classes of problems, and which corresponds with the solution of Stochastic Gradient Descent in practice.
翻訳日:2021-04-25 12:51:08 公開日:2020-12-24
# (参考訳) 内部欠陥を有するリンゴの並列ビームX線CTデータセットと機械学習のためのラベルバランス [全文訳有]

Parallel-beam X-ray CT datasets of apples with internal defects and label balancing for machine learning ( http://arxiv.org/abs/2012.13346v1 )

ライセンス: CC BY 4.0
Sophia Bethany Coban and Vladyslav Andriiashen and Poulami Somanya Ganguly and Maureen van Eijnatten and Kees Joost Batenburg(参考訳) 内部欠陥のある94個のリンゴの3つの並列ビームトモグラフィーデータセットと欠陥ラベルファイルを示す。 データセットは、データ駆動で学習に基づく画像再構成、セグメンテーション、後処理方法の開発とテストのために準備されている。 3つのバージョンは無ノイズシミュレーションであり、ガウスノイズの追加と散乱ノイズによるシミュレーションである。 データセットは、実際の3次元X線CTデータとその後のボリューム再構成に基づいている。 ボリューム再構成に基づく地上の真理像もこのプロジェクトを通じて利用可能である。 Appleには様々な欠陥があり、当然ラベルバイアスが生じる。 我々は、バイアスを最適化問題として定式化することでこれに取り組む。 さらに,この問題を単純なヒューリスティックアルゴリズムと混合整数二次計画という2つの手法で解くことを実証する。 これにより、データセットをテスト、トレーニング、検証サブセットに分割し、ラベルバイアスを排除できる。 したがって、データセットは、画像再構成、セグメンテーション、自動欠陥検出、機械学習におけるラベルバイアスの影響(削除のための新しい手法の適用)のテストに使用できる。

We present three parallel-beam tomographic datasets of 94 apples with internal defects along with defect label files. The datasets are prepared for development and testing of data-driven, learning-based image reconstruction, segmentation and post-processing methods. The three versions are a noiseless simulation; simulation with added Gaussian noise, and with scattering noise. The datasets are based on real 3D X-ray CT data and their subsequent volume reconstructions. The ground truth images, based on the volume reconstructions, are also available through this project. Apples contain various defects, which naturally introduce a label bias. We tackle this by formulating the bias as an optimization problem. In addition, we demonstrate solving this problem with two methods: a simple heuristic algorithm and through mixed integer quadratic programming. This ensures the datasets can be split into test, training or validation subsets with the label bias eliminated. Therefore the datasets can be used for image reconstruction, segmentation, automatic defect detection, and testing the effects of (as well as applying new methodologies for removing) label bias in machine learning.
翻訳日:2021-04-25 12:24:29 公開日:2020-12-24
# (参考訳) モデル行動の人間の説明は、実際のモデル行動とどの程度一致しているか? [全文訳有]

To what extent do human explanations of model behavior align with actual model behavior? ( http://arxiv.org/abs/2012.13354v1 )

ライセンス: CC BY 4.0
Grusha Prasad and Yixin Nie and Mohit Bansal and Robin Jia and Douwe Kiela and Adina Williams(参考訳) 生活の中でNLPモデルが果たす役割がますます顕著になっていることを考えると、モデルがどのように振る舞うかという人間の期待に沿ったモデルを評価することが重要です。 自然言語推論(NLI)をケーススタディとして,モデルの推論決定に関する人間による説明が,モデルが実際に意思決定を行う方法とどのように一致しているかを検討した。 より具体的には、自然言語による人間の説明が入力語に対するモデルの感度にどのように適合するかを、統合勾配によって測定する2つのアライメントメトリクスを定義した。 そして、6種類の変圧器モデル(BERT, RoBERTa, ELECTRAのベースおよび大版)を評価し、BERTベースモデルが、両者のアライメント指標に対して、人為的な説明と最高の整合性を持つことを発見した。 さらに,調査したモデルの基本バージョンは,従来のモデルよりも人間の生成した説明との整合度が高い傾向にあり,モデルパラメータの増加が人間の説明との整合を悪化させる可能性が示唆された。 最後に,nli上のモデルの精度からモデルのアライメントが予測されないことを見出し,精度とアライメントが直交し,両者がモデルを評価する上で重要な方法であることを示す。

Given the increasingly prominent role NLP models (will) play in our lives, it is important to evaluate models on their alignment with human expectations of how models behave. Using Natural Language Inference (NLI) as a case study, we investigated the extent to which human-generated explanations of models' inference decisions align with how models actually make these decisions. More specifically, we defined two alignment metrics that quantify how well natural language human explanations align with model sensitivity to input words, as measured by integrated gradients. Then, we evaluated six different transformer models (the base and large versions of BERT, RoBERTa and ELECTRA), and found that the BERT-base model has the highest alignment with human-generated explanations, for both alignment metrics. Additionally, the base versions of the models we surveyed tended to have higher alignment with human-generated explanations than their larger counterparts, suggesting that increasing the number model parameters could result in worse alignment with human explanations. Finally, we find that a model's alignment with human explanations is not predicted by the model's accuracy on NLI, suggesting that accuracy and alignment are orthogonal, and both are important ways to evaluate models.
翻訳日:2021-04-25 12:06:16 公開日:2020-12-24
# (参考訳) 心臓MRI左室定量化のための時空間多タスク学習 [全文訳有]

Spatio-temporal Multi-task Learning for Cardiac MRI Left Ventricle Quantification ( http://arxiv.org/abs/2012.13364v1 )

ライセンス: CC BY 4.0
Sulaiman Vesal, Mingxuan Gu, Andreas Maier, Nishant Ravikumar(参考訳) 左心室形態の定量的評価は,心機能評価と心血管疾患の診断の改善に不可欠である。 現在の臨床実践では、LV定量化は心筋形状指標の測定に依存しており、通常は心内膜と心内膜を手動で測定することで達成される。 しかし、このプロセスは、サーバ間およびサーバ内変数に従属し、時間がかかり、面倒な作業である。 本稿では, 心臓のLV形態, 局所壁厚 (RWT) を定量化し, さらに, 所定の3次元Cine-magnetic resonance (MR) 画像系列に対する心期周期 (systole, diastole) を検出するための時空間多タスク学習手法を提案する。 まず、エンコーダデコーダネットワークを用いて心臓のLVを分割し、その後11のLV指標を回帰するマルチタスクフレームワークを導入し、モデル最適化時の並列タスクとして心臓の位相を分類する。 提案する深層学習モデルは,mr画像から空間的および時間的特徴を抽出する3次元時空間畳み込みに基づく。 145名のcine-mrシークエンスを用いた提案手法の有効性を実証し,他の最先端定量法との比較を行った。 提案手法は平均絶対誤差(MAE)が129 $mm^2$, 1.23 $mm$, 1.76 $mm$, Pearson correlation coefficient(PCC)が96.4%, 87.2%, 97.5%, LVと心筋(Myo)空洞領域が6RWT, 3LV次元が9.0\%, 位相分類が9.0\%であった。 実験の結果, 心臓のmr配列における心形態, 画像の出現, コントラストの低さに拘わらず, 提案手法のロバスト性が強調された。

Quantitative assessment of cardiac left ventricle (LV) morphology is essential to assess cardiac function and improve the diagnosis of different cardiovascular diseases. In current clinical practice, LV quantification depends on the measurement of myocardial shape indices, which is usually achieved by manual contouring of the endo- and epicardial. However, this process subjected to inter and intra-observer variability, and it is a time-consuming and tedious task. In this paper, we propose a spatio-temporal multi-task learning approach to obtain a complete set of measurements quantifying cardiac LV morphology, regional-wall thickness (RWT), and additionally detecting the cardiac phase cycle (systole and diastole) for a given 3D Cine-magnetic resonance (MR) image sequence. We first segment cardiac LVs using an encoder-decoder network and then introduce a multitask framework to regress 11 LV indices and classify the cardiac phase, as parallel tasks during model optimization. The proposed deep learning model is based on the 3D spatio-temporal convolutions, which extract spatial and temporal features from MR images. We demonstrate the efficacy of the proposed method using cine-MR sequences of 145 subjects and comparing the performance with other state-of-the-art quantification methods. The proposed method obtained high prediction accuracy, with an average mean absolute error (MAE) of 129 $mm^2$, 1.23 $mm$, 1.76 $mm$, Pearson correlation coefficient (PCC) of 96.4%, 87.2%, and 97.5% for LV and myocardium (Myo) cavity regions, 6 RWTs, 3 LV dimensions, and an error rate of 9.0\% for phase classification. The experimental results highlight the robustness of the proposed method, despite varying degrees of cardiac morphology, image appearance, and low contrast in the cardiac MR sequences.
翻訳日:2021-04-25 11:51:29 公開日:2020-12-24
# (参考訳) 時空間・時空間予測法に関する調査 [全文訳有]

A Survey on Spatial and Spatiotemporal Prediction Methods ( http://arxiv.org/abs/2012.13384v1 )

ライセンス: CC BY 4.0
Zhe Jiang(参考訳) GPSやリモートセンシング技術の進歩により、様々な領域から大量の地理空間的・時空間的データが収集され、効率的かつ効率的な予測方法の必要性が高まっている。 説明的特徴と対象とする応答(カテゴリー的あるいは連続的)が一組の場所で与えられた空間データサンプルから,説明的特徴に基づいて応答変数を予測できるモデルを学習することを目的とする。 この問題は、地球科学、都市情報学、ジオソーシャルメディア分析、公衆衛生における幅広い応用において重要であるが、空間的・時間的自己相関、空間的不均質性、時間的非定常性、限られた地上的真理、複数のスケールと解像度など、時空間的データのユニークな特徴のために困難である。 本稿では,空間的および時空間的予測の原理と手法を体系的に検討する。 我々は、それらが対処する主要な課題によって分類された方法の分類を提供する。 それぞれの方法について、基礎となる仮定、理論的基礎を導入し、その利点と欠点について議論する。 我々のゴールは、学際的なドメイン科学者が問題を解決する技術を選ぶのを助けることであり、さらに重要なことは、データマイニング研究者が空間的および時空間予測における主要な原則や方法を理解し、将来の研究機会を特定するのを助けることである。

With the advancement of GPS and remote sensing technologies, large amounts of geospatial and spatiotemporal data are being collected from various domains, driving the need for effective and efficient prediction methods. Given spatial data samples with explanatory features and targeted responses (categorical or continuous) at a set of locations, the problem aims to learn a model that can predict the response variable based on explanatory features. The problem is important with broad applications in earth science, urban informatics, geosocial media analytics and public health, but is challenging due to the unique characteristics of spatiotemporal data, including spatial and temporal autocorrelation, spatial heterogeneity, temporal non-stationarity, limited ground truth, and multiple scales and resolutions. This paper provides a systematic review on principles and methods in spatial and spatiotemporal prediction. We provide a taxonomy of methods categorized by the key challenge they address. For each method, we introduce its underlying assumption, theoretical foundation, and discuss its advantages and disadvantages. Our goal is to help interdisciplinary domain scientists choose techniques to solve their problems, and more importantly, to help data mining researchers to understand the main principles and methods in spatial and spatiotemporal prediction and identify future research opportunities.
翻訳日:2021-04-25 10:59:37 公開日:2020-12-24
# (参考訳) adaptive summaries: ユーザのフィードバックから学習するパーソナライズされた概念に基づく要約アプローチ [全文訳有]

Adaptive Summaries: A Personalized Concept-based Summarization Approach by Learning from Users' Feedback ( http://arxiv.org/abs/2012.13387v1 )

ライセンス: CC BY 4.0
Samira Ghodratnama and Mehrdad Zakershahrak and Fariborz Sobhanmanesh(参考訳) 複雑な質問に答えることと同様に、決定を効率的に行うために膨大な量のデータを探索することは、多くの現実世界のアプリケーションシナリオにおいて困難である。 この文脈では、自動要約はビッグデータ分析の基礎を提供するため、非常に重要である。 従来の要約アプローチは、要約の主観的側面を考慮しないすべてのユーザ、すなわち異なるユーザにとって価値のあるもの、に適合する短い静的要約を生成するためにシステムを最適化する。 本稿では,適応要約(adaptive summaries)と呼ばれる対話型概念に基づく要約モデルを提案する。 本システムは,反復ループでフィードバックを与えることで,ユーザの提供した情報から徐々に学習する。 ユーザは、サマリに含まれる概念を、ユーザの視点とフィードバックの信頼レベルから、その概念の重要性とともに選択するためのアクションを拒否するか、受け入れるかを選択できる。 提案手法は,対話的な処理速度を保証し,ユーザの関与を維持する。 さらに、要約タスクでは難しい問題である参照要約の必要性を排除している。 アダプティブ・サマリー(Adaptive Summaries)は、ユーザが望むコンテンツを最大化し、好みに基づいて高品質なサマリーを作成するのに役立つ。

Exploring the tremendous amount of data efficiently to make a decision, similar to answering a complicated question, is challenging with many real-world application scenarios. In this context, automatic summarization has substantial importance as it will provide the foundation for big data analytic. Traditional summarization approaches optimize the system to produce a short static summary that fits all users that do not consider the subjectivity aspect of summarization, i.e., what is deemed valuable for different users, making these approaches impractical in real-world use cases. This paper proposes an interactive concept-based summarization model, called Adaptive Summaries, that helps users make their desired summary instead of producing a single inflexible summary. The system learns from users' provided information gradually while interacting with the system by giving feedback in an iterative loop. Users can choose either reject or accept action for selecting a concept being included in the summary with the importance of that concept from users' perspectives and confidence level of their feedback. The proposed approach can guarantee interactive speed to keep the user engaged in the process. Furthermore, it eliminates the need for reference summaries, which is a challenging issue for summarization tasks. Evaluations show that Adaptive Summaries helps users make high-quality summaries based on their preferences by maximizing the user-desired content in the generated summaries.
翻訳日:2021-04-25 10:11:49 公開日:2020-12-24
# (参考訳) 深層ネットワークにおけるミックス・プロビティ・フォーミング [全文訳有]

Mixed-Privacy Forgetting in Deep Networks ( http://arxiv.org/abs/2012.13431v1 )

ライセンス: CC BY 4.0
Aditya Golatkar, Alessandro Achille, Avinash Ravichandran, Marzia Polito, Stefano Soatto(参考訳) 大規模な画像分類タスクでトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を - あるいは「忘れられる」 - 除去できることを示し, 忘れた後の残余情報量に強い計算可能な境界を与える。 実世界のテクニックを忘れることの応用に触発されて、我々は混合プライバシー設定で忘れることという新しい概念を導入し、トレーニングサンプルの「中核」サブセットを忘れる必要がないことを認識した。 この問題の相違は概念的には単純であるが,この環境での作業は視覚分類タスクに適用される手法を忘れることの精度と保証を大幅に向上させることを示す。 さらに,性能の低下を最小限に抑えつつ,重みのサブセットをゼロにするだけで,非コアデータに含まれるすべての情報を効率的に削除することができる。 これらの結果は、標準ディープネットワークを適切な線形近似に置き換えることで得られる。 ネットワークアーキテクチャとトレーニング手順の変更により、そのような線形近似は元のネットワークに匹敵する性能を達成し、忘れる問題は2次化し、大規模モデルでも効率的に解けることを示す。 従来のディープネットワークの忘れ方とは異なり、大規模ビジョンタスクでは最先端の精度に近づけることができます。 特に,本手法では,モデル精度をトレードオフすることなく忘れることができることを示す。

We show that the influence of a subset of the training samples can be removed -- or "forgotten" -- from the weights of a network trained on large-scale image classification tasks, and we provide strong computable bounds on the amount of remaining information after forgetting. Inspired by real-world applications of forgetting techniques, we introduce a novel notion of forgetting in mixed-privacy setting, where we know that a "core" subset of the training samples does not need to be forgotten. While this variation of the problem is conceptually simple, we show that working in this setting significantly improves the accuracy and guarantees of forgetting methods applied to vision classification tasks. Moreover, our method allows efficient removal of all information contained in non-core data by simply setting to zero a subset of the weights with minimal loss in performance. We achieve these results by replacing a standard deep network with a suitable linear approximation. With opportune changes to the network architecture and training procedure, we show that such linear approximation achieves comparable performance to the original network and that the forgetting problem becomes quadratic and can be solved efficiently even for large models. Unlike previous forgetting methods on deep networks, ours can achieve close to the state-of-the-art accuracy on large scale vision tasks. In particular, we show that our method allows forgetting without having to trade off the model accuracy.
翻訳日:2021-04-25 10:01:48 公開日:2020-12-24
# (参考訳) ThamizhiUDp: Tamilの依存性パーザ [全文訳有]

ThamizhiUDp: A Dependency Parser for Tamil ( http://arxiv.org/abs/2012.13436v1 )

ライセンス: CC BY-SA 4.0
Kengatharaiyer Sarveswaran and Gihan Dias(参考訳) 本稿では,汎用依存形式を用いたタミル語テキストの係り受け解析のための完全なパイプラインを提供する,ニューラルベースの係り受けパーサであるtamizhiudpを開発した方法について述べる。 我々は、依存関係解析パイプラインのフェーズを検討し、これらのフェーズごとにツールやリソースを特定し、精度を改善し、データの不足に取り組む。 thamizhiudp は stanza をトークン化と補題化に、thamizhipost と thamizhimorph を音声の一部と形態的アノテーションに、uuparser を依存性解析のために多言語訓練に使っている。 ThamizhiPOStは、Amrita POSタグ付きコーパスでトレーニングされたStanzaをベースにしたPOSタグである。 現在のタミルPOSタグのF1スコアは93.27である。 形態学的アナライザであるtamizhimorphはルールベースのシステムで,タミルを非常によくカバーしています。 依存関係解析のThamizhiUDpは多言語データを用いて訓練した。 Labelled Assigned Score (LAS) は62.39で、現在のタミル依存解析で達成されている最高値よりも4ポイント高い。 したがって、既存のツールやリソースに対応するために依存性解析パイプラインを分割することは、低リソース言語にとって実行可能なアプローチであることを示す。

This paper describes how we developed a neural-based dependency parser, namely ThamizhiUDp, which provides a complete pipeline for the dependency parsing of the Tamil language text using Universal Dependency formalism. We have considered the phases of the dependency parsing pipeline and identified tools and resources in each of these phases to improve the accuracy and to tackle data scarcity. ThamizhiUDp uses Stanza for tokenisation and lemmatisation, ThamizhiPOSt and ThamizhiMorph for generating Part of Speech (POS) and Morphological annotations, and uuparser with multilingual training for dependency parsing. ThamizhiPOSt is our POS tagger, which is based on the Stanza, trained with Amrita POS-tagged corpus. It is the current state-of-the-art in Tamil POS tagging with an F1 score of 93.27. Our morphological analyzer, ThamizhiMorph is a rule-based system with a very good coverage of Tamil. Our dependency parser ThamizhiUDp was trained using multilingual data. It shows a Labelled Assigned Score (LAS) of 62.39, 4 points higher than the current best achieved for Tamil dependency parsing. Therefore, we show that breaking up the dependency parsing pipeline to accommodate existing tools and resources is a viable approach for low-resource languages.
翻訳日:2021-04-25 09:20:04 公開日:2020-12-24
# (参考訳) 畳み込みニューラルネットワークとホログラフィーを用いたリアルタイム表情絵文字マスキング [全文訳有]

Real-Time Facial Expression Emoji Masking with Convolutional Neural Networks and Homography ( http://arxiv.org/abs/2012.13447v1 )

ライセンス: CC BY 4.0
Qinchen Wang and Sixuan Wu and Tingfeng Xia(参考訳) ニューラルネットワークに基づくアルゴリズムは多くのアプリケーションで成功している。 画像処理において、畳み込みニューラルネットワーク(CNN)は人間の顔の画像の表情を分類するために訓練することができる。 本研究では,学生の顔に感情の絵文字を付けてマスクするシステムを構築する。 本システムには3つのビルディングブロックがある: グラデーションのヒストグラムを用いた顔検出(hog)とサポートベクターマシン(svm)、fer2013データセットでトレーニングされたcnnによる表情分類、そして最後に、ホモグラフィ推定によって各絵文字を学生の顔に戻す。 (Demo: https://youtu.be/GCj tXw1y8Pw) このパイプラインはリアルタイムでデプロイ可能で、教育的な設定で使用できます。

Neural network based algorithms has shown success in many applications. In image processing, Convolutional Neural Networks (CNN) can be trained to categorize facial expressions of images of human faces. In this work, we create a system that masks a student's face with a emoji of the respective emotion. Our system consists of three building blocks: face detection using Histogram of Gradients (HoG) and Support Vector Machine (SVM), facial expression categorization using CNN trained on FER2013 dataset, and finally masking the respective emoji back onto the student's face via homography estimation. (Demo: https://youtu.be/GCj tXw1y8Pw) Our results show that this pipeline is deploy-able in real-time, and is usable in educational settings.
翻訳日:2021-04-25 09:06:44 公開日:2020-12-24
# (参考訳) ニューラルネットワークの翻訳が空の出力を好む理由 [全文訳有]

Why Neural Machine Translation Prefers Empty Outputs ( http://arxiv.org/abs/2012.13454v1 )

ライセンス: CC BY 4.0
Xing Shi, Yijun Xiao, Kevin Knight(参考訳) ニューラルネットワーク翻訳(NMT)システムがなぜ空の翻訳に高い確率を割り当てるのかを考察する。 説明は2つあります まず、ラベルの平滑化により、正しい長さの翻訳の信頼性が低下し、空の翻訳が最終的にそれらを上回りやすくする。 第二に、NMTシステムは、長さに関係なく、同じ高周波EoSワードを使用して全てのターゲット文を終了する。 これにより暗黙の平滑化が生じ、ゼロ長の翻訳が増加する。 異なる長さのターゲット文で異なるEoS型を使用することで、この暗黙の平滑化を排除できる。

We investigate why neural machine translation (NMT) systems assign high probability to empty translations. We find two explanations. First, label smoothing makes correct-length translations less confident, making it easier for the empty translation to finally outscore them. Second, NMT systems use the same, high-frequency EoS word to end all target sentences, regardless of length. This creates an implicit smoothing that increases zero-length translations. Using different EoS types in target sentences of different lengths exposes and eliminates this implicit smoothing.
翻訳日:2021-04-25 08:57:23 公開日:2020-12-24
# (参考訳) 珍しいのか? 隠れた異常を識別するためのインテリジェント要約手法 [全文訳有]

Am I Rare? An Intelligent Summarization Approach for Identifying Hidden Anomalies ( http://arxiv.org/abs/2012.15755v1 )

ライセンス: CC BY 4.0
Samira Ghodratnama and Mehrdad Zakershahrak and Fariborz Sobhanmanesh(参考訳) ネットワークトラフィックデータを監視して、隠れた異常パターンを検出することは、高いコンピューティングリソースを必要とする困難で時間のかかるタスクである。 この目的のためには、元のデータに代わるものとして、適切な要約技術が非常に重要である。 しかし、要約されたデータは異常を取り除く脅威にさらされている。 したがって、元のデータと同じパターンを反映できる要約を作成することが不可欠である。 そこで本研究では,隠れ異常を識別するための知能要約手法であるINSIDENTを提案する。 提案手法は,元データ分布を要約データに保持することを保証する。 提案手法は,各クラスタの特徴を局所重み付けすることにより,特徴空間を特徴空間に動的にマッピングするクラスタリングに基づくアルゴリズムである。 したがって、新しい特徴空間では、類似のサンプルが近くなり、その結果、外れ値がより検出できる。 また、クラスタサイズに基づく代表者の選択は、集計データ内の元のデータと同じ分布を保持する。 INSIDENTは、異常検出アルゴリズムと異常検出アルゴリズムを実行する前に、前処理アプローチとして使用できる。 ベンチマークデータセットの実験結果は、データの要約が異常検出タスクにおける元のデータの代わりになることを示す。

Monitoring network traffic data to detect any hidden patterns of anomalies is a challenging and time-consuming task that requires high computing resources. To this end, an appropriate summarization technique is of great importance, where it can be a substitute for the original data. However, the summarized data is under the threat of removing anomalies. Therefore, it is vital to create a summary that can reflect the same pattern as the original data. Therefore, in this paper, we propose an INtelligent Summarization approach for IDENTifying hidden anomalies, called INSIDENT. The proposed approach guarantees to keep the original data distribution in summarized data. Our approach is a clustering-based algorithm that dynamically maps original feature space to a new feature space by locally weighting features in each cluster. Therefore, in new feature space, similar samples are closer, and consequently, outliers are more detectable. Besides, selecting representatives based on cluster size keeps the same distribution as the original data in summarized data. INSIDENT can be used both as the preprocess approach before performing anomaly detection algorithms and anomaly detection algorithm. The experimental results on benchmark datasets prove a summary of the data can be a substitute for original data in the anomaly detection task.
翻訳日:2021-04-25 08:49:32 公開日:2020-12-24
# SubICap:Subword-info rmed Image Captioningを目指して

SubICap: Towards Subword-informed Image Captioning ( http://arxiv.org/abs/2012.13122v1 )

ライセンス: Link先を確認
Naeha Sharif, Mohammed Bennamoun, Wei Liu, Syed Afaq Ali Shah(参考訳) 既存の画像キャプション(IC)システムは、単語をキャプション内の原子単位としてモデル化し、単語の構造情報を活用できない。 これにより、希少な単語の表現は非常に難しく、語彙外語は不可能になる。 さらに、計算複雑性を回避するため、既存のICモデルは、稀な単語の同一性が失われるように、頻繁な単語の控えめな大きさの語彙で動作する。 本研究は,コーパスにおけるレアワード処理におけるICシステムの共通的制限に対処する。 単語をより小さな構成単位「サブワード」に分解し、字幕を単語の代わりにサブワードの列として表現する。 これはコーパス内のすべての単語を、かなり低いサブワード語彙で表現し、パラメータ学習を改善するのに役立つ。 サブワードの言語モデルを用いて, 学習語彙サイズがベースラインおよび最先端の単語レベルモデルよりも約90%小さくなり, 様々な指標スコアが向上した。 定量的・定性的な結果と分析は,提案手法の有効性を示す。

Existing Image Captioning (IC) systems model words as atomic units in captions and are unable to exploit the structural information in the words. This makes representation of rare words very difficult and out-of-vocabulary words impossible. Moreover, to avoid computational complexity, existing IC models operate over a modest sized vocabulary of frequent words, such that the identity of rare words is lost. In this work we address this common limitation of IC systems in dealing with rare words in the corpora. We decompose words into smaller constituent units 'subwords' and represent captions as a sequence of subwords instead of words. This helps represent all words in the corpora using a significantly lower subword vocabulary, leading to better parameter learning. Using subword language modeling, our captioning system improves various metric scores, with a training vocabulary size approximately 90% less than the baseline and various state-of-the-art word-level models. Our quantitative and qualitative results and analysis signify the efficacy of our proposed approach.
翻訳日:2021-04-25 08:29:06 公開日:2020-12-24
# WEmbSim:イメージキャプションのためのシンプルで効果的なメトリック

WEmbSim: A Simple yet Effective Metric for Image Captioning ( http://arxiv.org/abs/2012.13137v1 )

ライセンス: Link先を確認
Naeha Sharif, Lyndon White, Mohammed Bennamoun, Wei Liu, Syed Afaq Ali Shah(参考訳) 自動キャプション評価の分野は、適切性や流動性要件を満たすキャプション生成の必要性に対処するため、依然として集中的な研究が続けられている。 従来の高度学習ベースメトリクスの開発の試みから,字幕の単語埋め込み(MOWE)を用いた簡易なコサイン類似度尺度が,教師なし字幕評価において驚くほど高い性能を達成できることが判明した。 これにより,SPICE,CIDEr,WMDなどの複雑な尺度を人的判断とシステムレベルの相関で打ち負かす有効な尺度WEmbSimが提案された。 さらに、一般的に使われている教師なし手法に対して、キャプションペアのヒトのコンセンサススコアを一致させるのに最適な精度を達成する。 したがって、WEmbSim は任意の複素計量を正当化するための新しい基底線を設定する。

The area of automatic image caption evaluation is still undergoing intensive research to address the needs of generating captions which can meet adequacy and fluency requirements. Based on our past attempts at developing highly sophisticated learning-based metrics, we have discovered that a simple cosine similarity measure using the Mean of Word Embeddings(MOWE) of captions can actually achieve a surprisingly high performance on unsupervised caption evaluation. This inspires our proposed work on an effective metric WEmbSim, which beats complex measures such as SPICE, CIDEr and WMD at system-level correlation with human judgments. Moreover, it also achieves the best accuracy at matching human consensus scores for caption pairs, against commonly used unsupervised methods. Therefore, we believe that WEmbSim sets a new baseline for any complex metric to be justified.
翻訳日:2021-04-25 08:28:51 公開日:2020-12-24
# マルチモーダルディープ・アンサンブルによる有害ミームの検出

Detecting Hateful Memes Using a Multimodal Deep Ensemble ( http://arxiv.org/abs/2012.13235v1 )

ライセンス: Link先を確認
Vlad Sandulescu(参考訳) ヘイトスピーチの検出には機械学習アルゴリズムが使用されているが、人間の精度に近づくために重要な技術的課題はまだ解決されていない。 直近の視覚言語トランスフォーマーアーキテクチャのいくつかを調査し,その性能向上のための改善を提案する。 提案したモデルは,3100名以上の参加者のうち,リーダボード上の5$^{th}$に対して,ベースラインを大きなマージンで上回る。

While significant progress has been made using machine learning algorithms to detect hate speech, important technical challenges still remain to be solved in order to bring their performance closer to human accuracy. We investigate several of the most recent visual-linguistic Transformer architectures and propose improvements to increase their performance for this task. The proposed model outperforms the baselines by a large margin and ranks 5$^{th}$ on the leaderboard out of 3,100+ participants.
翻訳日:2021-04-25 08:28:16 公開日:2020-12-24
# バンディットとrlにおけるモデル選択のための後悔境界バランスと除去

Regret Bound Balancing and Elimination for Model Selection in Bandits and RL ( http://arxiv.org/abs/2012.13045v1 )

ライセンス: Link先を確認
Aldo Pacchiano, Christoph Dann, Claudio Gentile, Peter Bartlett(参考訳) 本稿では,確率的バンディットと強化学習問題のアルゴリズムに対する簡単なモデル選択手法を提案する。 単純に)最適後悔の知識を仮定する以前の研究とは対照的に、各基本アルゴリズムは全てのラウンドで保持されるかもしれないし、持たないかもしれない、候補の後悔境界を持つ必要がある。 各ラウンドにおいて、我々の手法は、残されている全ての基本アルゴリズムの残差の残差を保ち、その候補境界に違反するアルゴリズムを排除するために、基本アルゴリズムを実行する。 このアプローチの完全な後悔は、最も有効な候補の後悔の時間と乗法的要因によって境界づけられていることを証明する。 この因子は、ネスト関数クラスを持つ線形包帯やMDP、未知の不特定な線形包帯、異なる信頼パラメータを持つ線形包帯に適用されるLinUCBなど、いくつかの応用において合理的に小さい。 さらに、適切なギャップ推定の下では、この因子は基本アルゴリズムの数でしかスケールせず、ラウンド数が十分に大きい場合の複雑さも示さない。 最後に、線形確率的包帯のモデル選択における最近の取り組みとは異なり、我々のアプローチは、確率的ではなく対向的な環境によって文脈情報が生成されるケースをカバーできる。

We propose a simple model selection approach for algorithms in stochastic bandit and reinforcement learning problems. As opposed to prior work that (implicitly) assumes knowledge of the optimal regret, we only require that each base algorithm comes with a candidate regret bound that may or may not hold during all rounds. In each round, our approach plays a base algorithm to keep the candidate regret bounds of all remaining base algorithms balanced, and eliminates algorithms that violate their candidate bound. We prove that the total regret of this approach is bounded by the best valid candidate regret bound times a multiplicative factor. This factor is reasonably small in several applications, including linear bandits and MDPs with nested function classes, linear bandits with unknown misspecification, and LinUCB applied to linear bandits with different confidence parameters. We further show that, under a suitable gap-assumption, this factor only scales with the number of base algorithms and not their complexity when the number of rounds is large enough. Finally, unlike recent efforts in model selection for linear stochastic bandits, our approach is versatile enough to also cover cases where the context information is generated by an adversarial environment, rather than a stochastic one.
翻訳日:2021-04-25 08:28:08 公開日:2020-12-24
# ProofWriter: 自然言語に対する含意、証明、帰納的文の生成

ProofWriter: Generating Implications, Proofs, and Abductive Statements over Natural Language ( http://arxiv.org/abs/2012.13048v1 )

ライセンス: Link先を確認
Oyvind Tafjord, Bhavana Dalvi Mishra, Peter Clark(参考訳) トランスフォーマーは自然言語理論(自然言語で表現される論理規則)上の論理的推論をエミュレートし、真/偽のラベルを候補に確実に割り当てることが示されている。 しかし、理論の含意を生成する能力はまだ実証されておらず、答えの証明を再構築する方法は不十分である。 本研究では、証明子と呼ばれる生成モデルが、理論の含意とそれらをサポートする自然言語証明の両方を確実に生成できることを示す。 特に、1段階の含意生成を繰り返すと、信頼性が高く、(ポストホックな合理化ではなく)実際のモデル決定を表す証明が得られる。 RuleTakerデータセットでは、ProofWriterの証明の精度が以前のメソッドを+9%以上上回り、トレーニングやドメイン外の問題では見えない深さの証明を一般化する。 理論と証明不可能な結論が与えられた場合、証明とともに結論を証明できる欠落した事実を特定する。 これらの結果は、自然言語を体系的に推論するためのニューラルメソッドの実行可能性を大幅に向上させた。

Transformers have been shown to emulate logical deduction over natural language theories (logical rules expressed in natural language), reliably assigning true/false labels to candidate implications. However, their ability to generate implications of a theory has not yet been demonstrated, and methods for reconstructing proofs of answers are imperfect. In this work we show that a generative model, called ProofWriter, can reliably generate both implications of a theory and the natural language proof(s) that support them. In particular, iterating a 1-step implication generator results in proofs that are highly reliable, and represent actual model decisions (rather than post-hoc rationalizations). On the RuleTaker dataset, the accuracy of ProofWriter's proofs exceed previous methods by +9% absolute, and in a way that generalizes to proof depths unseen in training and on out-of-domain problems. We also show that generative techniques can perform a type of abduction with high precision: Given a theory and an unprovable conclusion, identify a missing fact that allows the conclusion to be proved, along with a proof. These results significantly improve the viability of neural methods for systematically reasoning over natural language.
翻訳日:2021-04-25 08:26:45 公開日:2020-12-24
# フェアネス制約付き非定常多関節帯域に対するレグレトバウンド

A Regret bound for Non-stationary Multi-Armed Bandits with Fairness Constraints ( http://arxiv.org/abs/2012.13380v1 )

ライセンス: Link先を確認
Shaarad A. R and Ambedkar Dukkipati(参考訳) マルチアームバンディットのフレームワークは、シーケンシャルな意思決定問題の戦略を研究するための最も一般的なプラットフォームである。 近年、公平性の概念が機械学習コミュニティで注目を集めている。 任意の時点で、たとえ学習段階であっても、成績の悪い候補者がより良い候補者よりも好まれるべきでないという公平な条件を課すことができる。 この公正性制約は最も厳密な1つとして知られており、後悔の限界が確立された定常的な環境で確率的マルチアームバンドの枠組みで研究されている。 本論文の主な目的は,非定常環境でこの問題を研究することである。 本稿では,緩やかに変化する確率的k$-armed bandit問題を解くための探索的fair-ucbeアルゴリズムと結びついた,fair upper confidenceと呼ばれる新しいアルゴリズムを提案する。 i)fair-ucbeは、上記のフェアネス条件を実際に満たしており、(ii)$t$が時平線であるいくつかの適切な$\alpha \in (0, 1)$に対して、$o\left(k^{\frac{3}{2}} t^{1 - \frac{\alpha}{2}} \sqrt{\log t}\right)$となる。 これは私たちの知識を最大限に活用するために、非定常帯域幅に適用できるサブ線形後悔を持つ最初の公正アルゴリズムである。 非定常の場合におけるアルゴリズムの性能は,環境の変動がゼロになるにつれて定常値に近い値に近づくことが示された。

The multi-armed bandits' framework is the most common platform to study strategies for sequential decision-making problems. Recently, the notion of fairness has attracted a lot of attention in the machine learning community. One can impose the fairness condition that at any given point of time, even during the learning phase, a poorly performing candidate should not be preferred over a better candidate. This fairness constraint is known to be one of the most stringent and has been studied in the stochastic multi-armed bandits' framework in a stationary setting for which regret bounds have been established. The main aim of this paper is to study this problem in a non-stationary setting. We present a new algorithm called Fair Upper Confidence Bound with Exploration Fair-UCBe algorithm for solving a slowly varying stochastic $k$-armed bandit problem. With this we present two results: (i) Fair-UCBe indeed satisfies the above mentioned fairness condition, and (ii) it achieves a regret bound of $O\left(k^{\frac{3}{2}} T^{1 - \frac{\alpha}{2}} \sqrt{\log T}\right)$, for some suitable $\alpha \in (0, 1)$, where $T$ is the time horizon. This is the first fair algorithm with a sublinear regret bound applicable to non-stationary bandits to the best of our knowledge. We show that the performance of our algorithm in the non-stationary case approaches that of its stationary counterpart as the variation in the environment tends to zero.
翻訳日:2021-04-25 08:25:07 公開日:2020-12-24
# ソーシャルメディアにおける国家支援プロパガンダのマルチモーダル同定

Multi-modal Identification of State-Sponsored Propaganda on Social Media ( http://arxiv.org/abs/2012.13042v1 )

ライセンス: Link先を確認
Xiaobo Guo, Soroush Vosoughi(参考訳) 近年,インターネットにおける国家支援型プロパガンダの普及が懸念されている。 国家が支援するインターネット・プロパガンダを特定するために多くの努力がなされているが、プロパガンダのあいまいな定義が信頼できないデータラベリングにつながり、膨大な量の潜在的な予測機能によってモデルが説明不能になってしまうため、この問題は解決されるには程遠い。 本稿では、このタスクのためのバランスのとれたデータセットを構築する最初の試みである。 データセットは、2つの期間にわたる3つの異なる組織によるプロパガンダで構成されている。 同一期間(F1=0.869)と異なる期間(過去、未来、テスト)の両方において、同一期間(F1=0.697)の3団体によるプロパガンダ検出に有望な性能を達成できる、視覚的・テキスト的内容のみに基づくプロパガンダメッセージ検出のためのマルチモデルフレームワークを提案する(F1=0.697)。 偽陽性予測の影響を低減するため,偽陽性率と真陽性率の関係をテストするために閾値を変更し,フレームワークの解釈性を高めるために可視化ツールを用いてモデルによる予測について説明を行う。 我々の新しいデータセットと一般的なフレームワークは、国家が支援するインターネットプロパガンダを識別するタスクの強力なベンチマークを提供し、このタスクの今後の取り組みの道筋を指摘する。

The prevalence of state-sponsored propaganda on the Internet has become a cause for concern in the recent years. While much effort has been made to identify state-sponsored Internet propaganda, the problem remains far from being solved because the ambiguous definition of propaganda leads to unreliable data labelling, and the huge amount of potential predictive features causes the models to be inexplicable. This paper is the first attempt to build a balanced dataset for this task. The dataset is comprised of propaganda by three different organizations across two time periods. A multi-model framework for detecting propaganda messages solely based on the visual and textual content is proposed which achieves a promising performance on detecting propaganda by the three organizations both for the same time period (training and testing on data from the same time period) (F1=0.869) and for different time periods (training on past, testing on future) (F1=0.697). To reduce the influence of false positive predictions, we change the threshold to test the relationship between the false positive and true positive rates and provide explanations for the predictions made by our models with visualization tools to enhance the interpretability of our framework. Our new dataset and general framework provide a strong benchmark for the task of identifying state-sponsored Internet propaganda and point out a potential path for future work on this task.
翻訳日:2021-04-25 08:24:38 公開日:2020-12-24
# 木構造付加モデルによる高次元ベイズ最適化

High-Dimensional Bayesian Optimization via Tree-Structured Additive Models ( http://arxiv.org/abs/2012.13088v1 )

ライセンス: Link先を確認
Eric Han, Ishank Arora, Jonathan Scarlett(参考訳) ベイズ最適化(BO)は高価な低次元ブラックボックス最適化問題に取り組む上で大きな成功を収めている。 関心のある多くの最適化問題は高次元であり、そのような設定へのboのスケーリングは依然として重要な課題である。 本稿では,変数の重複部分集合を持つ低次元関数を高次元対象関数をモデル化するために構成する一般化加法モデルを考える。 我々のゴールは、既存の手法のサンプル効率を維持しつつ、モデルの複雑さを減らし、計算資源の削減とモデル学習の高速化である。 具体的には,構造学習と獲得関数の最適化の両方を容易にするため,木構造への依存グラフの制約を行う。 前者に対しては,ギブスサンプリングと突然変異に基づくハイブリッドグラフ学習アルゴリズムを提案する。 さらに,連続ドメインの場合,一般化された加法モデルをより効率的に活用することのできる,ズームに基づく新しいアルゴリズムを提案する。 我々は,合成関数と実世界のデータセットに関する実験を通じて,我々のアプローチの有効性を実証し,議論する。

Bayesian Optimization (BO) has shown significant success in tackling expensive low-dimensional black-box optimization problems. Many optimization problems of interest are high-dimensional, and scaling BO to such settings remains an important challenge. In this paper, we consider generalized additive models in which low-dimensional functions with overlapping subsets of variables are composed to model a high-dimensional target function. Our goal is to lower the computational resources required and facilitate faster model learning by reducing the model complexity while retaining the sample-efficiency of existing methods. Specifically, we constrain the underlying dependency graphs to tree structures in order to facilitate both the structure learning and optimization of the acquisition function. For the former, we propose a hybrid graph learning algorithm based on Gibbs sampling and mutation. In addition, we propose a novel zooming-based algorithm that permits generalized additive models to be employed more efficiently in the case of continuous domains. We demonstrate and discuss the efficacy of our approach via a range of experiments on synthetic functions and real-world datasets.
翻訳日:2021-04-25 08:24:11 公開日:2020-12-24
# 確率帯域結合のための上部信頼境界

Upper Confidence Bounds for Combining Stochastic Bandits ( http://arxiv.org/abs/2012.13115v1 )

ライセンス: Link先を確認
Ashok Cutkosky, Abhimanyu Das, Manish Purohit(参考訳) 確率的バンディットアルゴリズムを結合する簡単な手法を提案する。 提案手法は,従来の UCB アルゴリズムの変種を用いて解く高レベルな$N$のバンドイット問題において,各$N$の個別バンドイットアルゴリズムをアームとして扱う "meta-UCB" 手法に基づいている。 私たちの最後の後悔は、基本アルゴリズムの後悔にのみ依存します。 このアプローチは、CORRALが基本アルゴリズムに課す安定性条件を必要とせず、CORRALアルゴリズムの逆の帯域幅に対する簡単かつ直感的な代替戦略を提供する。 本研究の結果は,いくつかの設定で下位境界値と一致し,不特定線形帯域問題とモデル選択問題に対するアルゴリズムの実証検証を行う。

We provide a simple method to combine stochastic bandit algorithms. Our approach is based on a "meta-UCB" procedure that treats each of $N$ individual bandit algorithms as arms in a higher-level $N$-armed bandit problem that we solve with a variant of the classic UCB algorithm. Our final regret depends only on the regret of the base algorithm with the best regret in hindsight. This approach provides an easy and intuitive alternative strategy to the CORRAL algorithm for adversarial bandits, without requiring the stability conditions imposed by CORRAL on the base algorithms. Our results match lower bounds in several settings, and we provide empirical validation of our algorithm on misspecified linear bandit and model selection problems.
翻訳日:2021-04-25 08:23:56 公開日:2020-12-24
# 近似ベイズ推論のためのバッチ正規化について

On Batch Normalisation for Approximate Bayesian Inference ( http://arxiv.org/abs/2012.13220v1 )

ライセンス: Link先を確認
Jishnu Mukhoti, Puneet K. Dokania, Philip H.S. Torr, Yarin Gal(参考訳) 本研究では,平均場やMCDropoutなどのベイズニューラルネットワークにおける変分推論手法の文脈におけるバッチ正規化について検討した。 バッチ正規化はエビデンス下限 (elbo) の最適値には影響を与えないことを示す。 さらにモンテカルロバッチ正規化 (mcbn) アルゴリズムをmcドロップアウトと平行な近似推定手法として提案し, バッチサイズが大きい場合には, mcbnが認識の不確かさを捉えることができないことを示した。 最後に、この障害を修正するために何が必要なのか、すなわち、ミニバッチサイズをMCBNの変動パラメータとして見る必要がある。 この変動パラメータに対するELBOの漸近性についてコメントし、データセットのサイズが無限大に向かって増加するにつれて、バッチサイズは無限大に向けて増加し、MCBNが妥当な近似推論手法であることを示す。

We study batch normalisation in the context of variational inference methods in Bayesian neural networks, such as mean-field or MC Dropout. We show that batch-normalisation does not affect the optimum of the evidence lower bound (ELBO). Furthermore, we study the Monte Carlo Batch Normalisation (MCBN) algorithm, proposed as an approximate inference technique parallel to MC Dropout, and show that for larger batch sizes, MCBN fails to capture epistemic uncertainty. Finally, we provide insights into what is required to fix this failure, namely having to view the mini-batch size as a variational parameter in MCBN. We comment on the asymptotics of the ELBO with respect to this variational parameter, showing that as dataset size increases towards infinity, the batch-size must increase towards infinity as well for MCBN to be a valid approximate inference technique.
翻訳日:2021-04-25 08:23:43 公開日:2020-12-24
# 雑音ラベルデータを用いた学習停止点の同定

Identifying Training Stop Point with Noisy Labeled Data ( http://arxiv.org/abs/2012.13435v1 )

ライセンス: Link先を確認
Sree Ram Kamabattula, Venkat Devarajan, Babak Namazi, Ganesh Sankaranarayanan(参考訳) ノイズラベルによるディープニューラルネットワーク(DNN)のトレーニングは、過パラメータ化による難しい問題である。 dnnは、初期段階においてクリーンなサンプルに本質的に適合する傾向にあり、後に比較的低い速度でノイズの多いサンプルに適合する。 したがって、ノイズの多いデータセットでは、テストの精度が最初に上がり、後期に低下する。 近年の研究では, 有効性試験精度(MOTA)の早期停止点を見つけるために, i) クリーンな検証セットが利用可能か, i) ノイズ比が知られているか, 両方を仮定している。 しかし、しばしばクリーンな検証セットは利用できず、ノイズ推定は不正確である。 これらの問題を克服するために,我々は,これらの条件を伴わない新しいトレーニングソリューションを提供する。 異なる条件下での異なる騒音比に対する訓練精度の変化率を分析し,訓練停止領域を同定する。 さらに,MOTA付近のトレーニング停止点(TSP)を見つけるために,小規模学習仮定に基づくヒューリスティックアルゴリズムを開発した。 我々の知る限りでは、我々の手法は、トレーニングセット全体を活用しながら、最初に \textit{training behavior} にのみ依存し、自動的に TSP を見つける。 我々は,CIFAR-10,CIFAR-100, およびノイズ比,ノイズタイプ,アーキテクチャの異なる実環境雑音データを用いて,アルゴリズム(AutoTSP)のロバスト性を検証した。

Training deep neural networks (DNNs) with noisy labels is a challenging problem due to over-parameterizatio n. DNNs tend to essentially fit on clean samples at a higher rate in the initial stages, and later fit on the noisy samples at a relatively lower rate. Thus, with a noisy dataset, the test accuracy increases initially and drops in the later stages. To find an early stopping point at the maximum obtainable test accuracy (MOTA), recent studies assume either that i) a clean validation set is available or ii) the noise ratio is known, or, both. However, often a clean validation set is unavailable, and the noise estimation can be inaccurate. To overcome these issues, we provide a novel training solution, free of these conditions. We analyze the rate of change of the training accuracy for different noise ratios under different conditions to identify a training stop region. We further develop a heuristic algorithm based on a small-learning assumption to find a training stop point (TSP) at or close to MOTA. To the best of our knowledge, our method is the first to rely solely on the \textit{training behavior}, while utilizing the entire training set, to automatically find a TSP. We validated the robustness of our algorithm (AutoTSP) through several experiments on CIFAR-10, CIFAR-100, and a real-world noisy dataset for different noise ratios, noise types and architectures.
翻訳日:2021-04-25 08:23:25 公開日:2020-12-24
# 音声言語識別のための最適トランスポートに基づく教師なしニューラル適応モデル

Unsupervised neural adaptation model based on optimal transport for spoken language identification ( http://arxiv.org/abs/2012.13152v1 )

ライセンス: Link先を確認
Xugang Lu, Peng Shen, Yu Tsao, Hisashi Kawai(参考訳) トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。 本稿では,sidの分布ミスマッチ問題に対処するための教師なしニューラルネットワーク適応モデルを提案する。 本モデルでは,データセットの学習と試験のための特徴量と分類器の分布差を低減するために適応を明示的に定式化する。 さらに、分布差を測定するための最適輸送(OT)の強い力にインスパイアされ、ワッサーシュタイン距離メートル法が適応損失として設計される。 トレーニングデータとテストデータの両方における適応損失を伴うトレーニングデータセットの分類損失を最小化することにより、トレーニング領域とテスト領域の統計分布差を低減させる。 学習データとテストデータセットを異なる条件で収集したオリエンタル言語認識(OLR)チャレンジデータコーパスについてSLID実験を行った。 その結果,クロスドメインテストタスクにおいて大幅な改善が得られた。

Due to the mismatch of statistical distributions of acoustic speech between training and testing sets, the performance of spoken language identification (SLID) could be drastically degraded. In this paper, we propose an unsupervised neural adaptation model to deal with the distribution mismatch problem for SLID. In our model, we explicitly formulate the adaptation as to reduce the distribution discrepancy on both feature and classifier for training and testing data sets. Moreover, inspired by the strong power of the optimal transport (OT) to measure distribution discrepancy, a Wasserstein distance metric is designed in the adaptation loss. By minimizing the classification loss on the training data set with the adaptation loss on both training and testing data sets, the statistical distribution difference between training and testing domains is reduced. We carried out SLID experiments on the oriental language recognition (OLR) challenge data corpus where the training and testing data sets were collected from different conditions. Our results showed that significant improvements were achieved on the cross domain test tasks.
翻訳日:2021-04-25 08:23:02 公開日:2020-12-24
# attentionddi:siamese attention-based deep learning method for drug-drug interaction predictions

AttentionDDI: Siamese Attention-based Deep Learning method for drug-drug interaction predictions ( http://arxiv.org/abs/2012.13248v1 )

ライセンス: Link先を確認
Kyriakos Schwarz, Ahmed Allam, Nicolas Andres Perez Gonzalez, Michael Krauthammer(参考訳) 背景: 薬物と薬物の相互作用(DDIs)は、薬物が単独で投与されたときに観察されるもの以上の副作用を引き起こす2つ以上の薬物の投与によって引き起こされる過程を指す。 大量の薬物対が存在するため、すべての組み合わせを実験的にテストし、以前は観測されていなかった副作用を発見することはほとんど不可能である。 したがって、この問題に対処するために機械学習ベースの手法が使われている。 方法: 薬物標的, 経路, 遺伝子発現プロファイルなどの薬物特性の比較から得られた複数の薬物類似性対策を統合した, DDI予測のためのシームズ自己注意型マルチモーダルニューラルネットワークを提案する。 結果:提案したDDI予測モデルは,複数のステップから構成されるモデルの制約を克服し,訓練されたエンドツーエンドで克服し,2)有意な入力特徴を特定するための注意機構を通じてモデル説明性を提供し,3)類似またはより良い予測性能(AUPRスコアは0.77から0.92)を,さまざまなベンチマークデータセットでテストした場合の最先端DDIモデルと比較した。 新たなDDI予測は、独立したデータリソースを使用してさらに検証される。 結論: シームズマルチモーダルニューラルネットワークはDDIを正確に予測することができ、自然言語処理ドメインで一般的に使用されるアテンションメカニズムがDDIモデル説明容易性を支援するために有効に適用できることがわかった。

Background: Drug-drug interactions (DDIs) refer to processes triggered by the administration of two or more drugs leading to side effects beyond those observed when drugs are administered by themselves. Due to the massive number of possible drug pairs, it is nearly impossible to experimentally test all combinations and discover previously unobserved side effects. Therefore, machine learning based methods are being used to address this issue. Methods: We propose a Siamese self-attention multi-modal neural network for DDI prediction that integrates multiple drug similarity measures that have been derived from a comparison of drug characteristics including drug targets, pathways and gene expression profiles. Results: Our proposed DDI prediction model provides multiple advantages: 1) It is trained end-to-end, overcoming limitations of models composed of multiple separate steps, 2) it offers model explainability via an Attention mechanism for identifying salient input features and 3) it achieves similar or better prediction performance (AUPR scores ranging from 0.77 to 0.92) compared to state-of-the-art DDI models when tested on various benchmark datasets. Novel DDI predictions are further validated using independent data resources. Conclusions: We find that a Siamese multi-modal neural network is able to accurately predict DDIs and that an Attention mechanism, typically used in the Natural Language Processing domain, can be beneficially applied to aid in DDI model explainability.
翻訳日:2021-04-25 08:22:46 公開日:2020-12-24
# 混乱のモデル化による群衆からの学習

Learning from Crowds by Modeling Common Confusions ( http://arxiv.org/abs/2012.13052v1 )

ライセンス: Link先を確認
Zhendong Chu, Jing Ma, Hongning Wang(参考訳) クラウドソーシングは、大量のラベル付きデータを低コストで取得する実用的な方法を提供する。 しかしアノテータのアノテーションの品質は大きく異なり、クラウドソースアノテーションから高品質なモデルを学ぶ上で新たな課題がもたらされる。 本稿では,アノテーションノイズを共通の雑音と個々の雑音に分解し,インスタンスの難易度とアノテーションの専門知識に基づいて混乱の原因を区別する新しい視点を提案する。 この新たなクラウドソーシングモデルは,2種類のノイズ適応層を持つエンドツーエンド学習ソリューションによって実現される。1つは,一般的な混同をキャプチャするためにアノテータ間で共有され,もう1つは個々の混同を実現するためにアノテータに関連するものである。 各アノテーションのノイズ発生源を認識するために,補助ネットワークを用いて2つの雑音適応層をインスタンスと注釈子の両方に対して選択する。 合成および実世界のベンチマークによる大規模な実験により,提案手法の有効性が示された。

Crowdsourcing provides a practical way to obtain large amounts of labeled data at a low cost. However, the annotation quality of annotators varies considerably, which imposes new challenges in learning a high-quality model from the crowdsourced annotations. In this work, we provide a new perspective to decompose annotation noise into common noise and individual noise and differentiate the source of confusion based on instance difficulty and annotator expertise on a per-instance-annotat or basis. We realize this new crowdsourcing model by an end-to-end learning solution with two types of noise adaptation layers: one is shared across annotators to capture their commonly shared confusions, and the other one is pertaining to each annotator to realize individual confusion. To recognize the source of noise in each annotation, we use an auxiliary network to choose the two noise adaptation layers with respect to both instances and annotators. Extensive experiments on both synthesized and real-world benchmarks demonstrate the effectiveness of our proposed common noise adaptation solution.
翻訳日:2021-04-25 08:22:17 公開日:2020-12-24
# white matter hyperintensities volume and cognition:アルツハイマー病の神経画像化イニシアチブにおける深層学習に基づく病変検出と定量化アルゴリズムの評価

White matter hyperintensities volume and cognition: Assessment of a deep learning based lesion detection and quantification algorithm on the Alzheimers Disease Neuroimaging Initiative ( http://arxiv.org/abs/2012.13059v1 )

ライセンス: Link先を確認
Lavanya Umapathy, Gloria Guzman Perez-Carillo, Blair Winegar, Srinivasan Vedantham, Maria Altbach, and Ali Bilgin(参考訳) 認知と白質ハイパーインテンシティ(WMH)のボリュームの関係は、しばしば使用する病変分割アルゴリズムの精度に依存する。 したがって、WMHの正確な検出と定量化は非常に興味深い。 本稿では,深層学習に基づくWMHセグメンテーションアルゴリズムStackGen-Netを用いて,ADNIから3次元FLAIRボリューム上でWMHを検出し定量化する。 被験者のサブセット(n=20)と経験者神経放射線科医による手動WMHセグメンテーションを用いて,アルゴリズムの精度を実証した。 対象者のより大きなコホート(n=290)では, より大きなWMHボリュームが, 実行機能(P=.004), メモリ(P=.01), 言語(P=.005)の悪化と相関していることがわかった。

The relationship between cognition and white matter hyperintensities (WMH) volumes often depends on the accuracy of the lesion segmentation algorithm used. As such, accurate detection and quantification of WMH is of great interest. Here, we use a deep learning-based WMH segmentation algorithm, StackGen-Net, to detect and quantify WMH on 3D FLAIR volumes from ADNI. We used a subset of subjects (n=20) and obtained manual WMH segmentations by an experienced neuro-radiologist to demonstrate the accuracy of our algorithm. On a larger cohort of subjects (n=290), we observed that larger WMH volumes correlated with worse performance on executive function (P=.004), memory (P=.01), and language (P=.005).
翻訳日:2021-04-25 08:22:00 公開日:2020-12-24
# オンライン写真共有のリアルタイム効果

Unveiling Real-Life Effects of Online Photo Sharing ( http://arxiv.org/abs/2012.13180v1 )

ライセンス: Link先を確認
Van-Khoa Nguyen, Adrian Popescu, Jerome Deshayes-Chossart(参考訳) ソーシャルネットワークは、ユーザーのデータを利用する権利と引き換えに、サービスへの無料アクセスを提供する。 データ共有は、ユーザが選択した最初のコンテキストで実行される。 しかし、データはソーシャルネットワークやサードパーティーによって異なる文脈で使われ、しばしば透明性がない。 本稿では,影響のある実環境におけるデータ共有の効果を明らかにする新しい手法を提案する。 オンラインユーザープロフィールの形成に強い影響があるため、ビジュアルコンテンツに焦点が当てられている。 このアプローチは,(1)クラウドソーシングによって得られた状況影響評価に関連する概念のセット,(2)ユーザの写真を分析するために使用される対象検出器のセット,(3)状況毎に手動で評価される500のビジュアルユーザプロファイルからなる基底真理データセットの3つのコンポーネントに依存している。 これらのコンポーネントは、各状況における視覚的ユーザプロファイルを評価する方法を学習するLERVUPに組み合わされている。 LERVUPは新しいイメージ記述子を利用して、ユーザレベルで概念評価とオブジェクト検出を集約する。 また、注目メカニズムを使用して、高い評価のコンセプトの検出を強化し、低い評価のコンセプトに圧倒されるのを防ぐ。 プロファイルレーティングの自動ランキングと手動の地上真実との相関を測定することにより、状況ごとに性能を評価する。 その結果、LERVUPは2つのランキングの相関が強いため有効であることが示唆された。 この結果は、データ共有の効果に関する有意義な自動的状況関連フィードバックを提供することが可能であることを示している。

Social networks give free access to their services in exchange for the right to exploit their users' data. Data sharing is done in an initial context which is chosen by the users. However, data are used by social networks and third parties in different contexts which are often not transparent. We propose a new approach which unveils potential effects of data sharing in impactful real-life situations. Focus is put on visual content because of its strong influence in shaping online user profiles. The approach relies on three components: (1) a set of concepts with associated situation impact ratings obtained by crowdsourcing, (2) a corresponding set of object detectors used to analyze users' photos and (3) a ground truth dataset made of 500 visual user profiles which are manually rated for each situation. These components are combined in LERVUP, a method which learns to rate visual user profiles in each situation. LERVUP exploits a new image descriptor which aggregates concept ratings and object detections at user level. It also uses an attention mechanism to boost the detections of highly-rated concepts to prevent them from being overwhelmed by low-rated ones. Performance is evaluated per situation by measuring the correlation between the automatic ranking of profile ratings and a manual ground truth. Results indicate that LERVUP is effective since a strong correlation of the two rankings is obtained. This finding indicates that providing meaningful automatic situation-related feedback about the effects of data sharing is feasible.
翻訳日:2021-04-25 08:21:39 公開日:2020-12-24
# モデル関数に基づくBregman近位最小化アルゴリズムの大域的収束

Global Convergence of Model Function Based Bregman Proximal Minimization Algorithms ( http://arxiv.org/abs/2012.13161v1 )

ライセンス: Link先を確認
Mahesh Chandra Mukkamala, Jalal Fadili, Peter Ochs(参考訳) 連続微分可能関数の勾配写像のリプシッツ連続性は、様々な最適化アルゴリズムの設計において重要な役割を果たす。 しかし、低階行列因数分解やディープニューラルネットワーク問題のような実践的な応用で生じる多くの関数は、リプシッツ連続勾配を持たない。 これは、ブレグマン距離と呼ばれる一般化された近接測度に基づく、$l$-smadプロパティとして知られる一般化概念の開発につながった。 しかし、$L$-smadプロパティは、例えば$\abs{x^4-1}$のような単純な非滑らか関数を扱えない。 これは$l$-smadプロパティを一般化し、非凸な非滑らかな複合問題の大きなクラスにも有効である。 提案するマップ特性に基づいて,複数の既存アルゴリズムを統一したモデル bpg という大域収束アルゴリズムを提案する。 収束解析は新しいリアプノフ関数に基づいている。 また,一般の非凸非滑らかな最適化問題に対して有効なアート最適化手法の状態と比較して,標準位相探索問題,ロバスト位相探索問題,ポアソン線形逆問題に対するモデルBPGの優れた性能を数値的に説明する。

Lipschitz continuity of the gradient mapping of a continuously differentiable function plays a crucial role in designing various optimization algorithms. However, many functions arising in practical applications such as low rank matrix factorization or deep neural network problems do not have a Lipschitz continuous gradient. This led to the development of a generalized notion known as the $L$-smad property, which is based on generalized proximity measures called Bregman distances. However, the $L$-smad property cannot handle nonsmooth functions, for example, simple nonsmooth functions like $\abs{x^4-1}$ and also many practical composite problems are out of scope. We fix this issue by proposing the MAP property, which generalizes the $L$-smad property and is also valid for a large class of nonconvex nonsmooth composite problems. Based on the proposed MAP property, we propose a globally convergent algorithm called Model BPG, that unifies several existing algorithms. The convergence analysis is based on a new Lyapunov function. We also numerically illustrate the superior performance of Model BPG on standard phase retrieval problems, robust phase retrieval problems, and Poisson linear inverse problems, when compared to a state of the art optimization method that is valid for generic nonconvex nonsmooth optimization problems.
翻訳日:2021-04-25 08:21:16 公開日:2020-12-24
# ドメイン適応としての言語間依存パーシング

Cross-lingual Dependency Parsing as Domain Adaptation ( http://arxiv.org/abs/2012.13163v1 )

ライセンス: Link先を確認
Kailai Sun, Zuchao Li, Hai Zhao(参考訳) 自然言語処理(NLP)では、低リソース言語のための注釈付きリソースが利用できないため、言語間変換学習はドメイン内学習と同じくらい不可欠である。 本稿では,教師なしの普遍的な特徴を抽出する事前学習タスクの能力を利用する。 マルチタスクとして依存性解析に2つの事前学習タスクを追加し、ドメイン内および言語間両方の面でモデルの性能を向上させる。 さらに,クロスドメイン学習における自己学習の有用性に着想を得て,従来の自己学習と2つの事前学習を組み合わせる。 このように、トレーニングコーパスだけでなく、追加の無注釈データにおいても、普遍的な特徴を継続的に抽出し、さらなる改善を得ることができる。

In natural language processing (NLP), cross-lingual transfer learning is as essential as in-domain learning due to the unavailability of annotated resources for low-resource languages. In this paper, we use the ability of a pre-training task that extracts universal features without supervision. We add two pre-training tasks as the auxiliary task into dependency parsing as multi-tasking, which improves the performance of the model in both in-domain and cross-lingual aspects. Moreover, inspired by the usefulness of self-training in cross-domain learning, we combine the traditional self-training and the two pre-training tasks. In this way, we can continuously extract universal features not only in training corpus but also in extra unannotated data and gain further improvement.
翻訳日:2021-04-25 08:20:55 公開日:2020-12-24
# 多言語ニューラルマシン翻訳におけるジェンダーバイアス:アーキテクチャの問題

Gender Bias in Multilingual Neural Machine Translation: The Architecture Matters ( http://arxiv.org/abs/2012.13176v1 )

ライセンス: Link先を確認
Marta R. Costa-juss\`a, Carlos Escolano, Christine Basta, Javier Ferrando, Roser Batlle and Ksenia Kharitonova(参考訳) 多言語ニューラルマシン翻訳アーキテクチャは、主に言語間のモジュールやパラメータの共有量が異なる。 本稿では、アルゴリズムの観点から、選択したアーキテクチャが同じデータで訓練された場合、性別バイアスの精度に影響を与えるかどうかを考察する。 4つの言語対の実験により、言語固有のエンコーダ-デコーダは共有エンコーダ-デコーダアーキテクチャよりもバイアスが少ないことが示されている。 情報源埋め込みと注意のさらなる解釈可能性分析は、言語特化の場合、埋め込みはより多くの性別情報をエンコードし、その注意はより分散していることを示している。 両方の行動は男女のバイアスを軽減するのに役立つ。

Multilingual Neural Machine Translation architectures mainly differ in the amount of sharing modules and parameters among languages. In this paper, and from an algorithmic perspective, we explore if the chosen architecture, when trained with the same data, influences the gender bias accuracy. Experiments in four language pairs show that Language-Specific encoders-decoders exhibit less bias than the Shared encoder-decoder architecture. Further interpretability analysis of source embeddings and the attention shows that, in the Language-Specific case, the embeddings encode more gender information, and its attention is more diverted. Both behaviors help in mitigating gender bias.
翻訳日:2021-04-25 08:20:44 公開日:2020-12-24
# co-gat:ジョイントダイアログアクティベーション認識と感情分類のための対話型グラフ注意ネットワーク

Co-GAT: A Co-Interactive Graph Attention Network for Joint Dialog Act Recognition and Sentiment Classification ( http://arxiv.org/abs/2012.13260v1 )

ライセンス: Link先を確認
Libo Qin, Zhouyang Li, Wanxiang Che, Minheng Ni, Ting Liu(参考訳) 対話システムでは、対話行為認識と感情分類は話者意図を捉えるための2つの相関的なタスクであり、対話行為と感情は明示的意図と暗黙的意図を別々に示すことができる。 対話コンテキスト情報(コンテキスト情報)と相互相互作用情報は、この2つの関連するタスクに寄与する2つの重要な要素である。 残念ながら、既存のどのアプローチも2つの重要な情報ソースを同時に考慮していない。 本稿では,2つのタスクを協調実行するためのコ・インターアクティブグラフ注意ネットワーク(Co-GAT)を提案する。 コアモジュールは、クロス発話接続とクロスタスク接続が構築され、相互に更新され、2つの種類の情報を同時に考慮する共対話グラフインタラクション層である。 2つの公開データセットによる実験結果から,我々のモデルは2つの情報源の取得に成功し,最先端の性能を達成できた。 さらに,文脈的および相互的相互作用情報からの貢献は,文脈的表現(bert,roberta,xlnet) と完全に重複しないことがわかった。

In a dialog system, dialog act recognition and sentiment classification are two correlative tasks to capture speakers intentions, where dialog act and sentiment can indicate the explicit and the implicit intentions separately. The dialog context information (contextual information) and the mutual interaction information are two key factors that contribute to the two related tasks. Unfortunately, none of the existing approaches consider the two important sources of information simultaneously. In this paper, we propose a Co-Interactive Graph Attention Network (Co-GAT) to jointly perform the two tasks. The core module is a proposed co-interactive graph interaction layer where a cross-utterances connection and a cross-tasks connection are constructed and iteratively updated with each other, achieving to consider the two types of information simultaneously. Experimental results on two public datasets show that our model successfully captures the two sources of information and achieve the state-of-the-art performance. In addition, we find that the contributions from the contextual and mutual interaction information do not fully overlap with contextualized word representations (BERT, Roberta, XLNet).
翻訳日:2021-04-25 08:20:32 公開日:2020-12-24
# 自然言語攻撃生成のための文脈対応アプローチ

A Context Aware Approach for Generating Natural Language Attacks ( http://arxiv.org/abs/2012.13339v1 )

ライセンス: Link先を確認
Rishabh Maheshwary, Saket Maheshwary, Vikram Pudi(参考訳) ブラックボックス設定で自然言語処理モデルを攻撃する重要な課題について検討する。 本稿では,テキスト分類と包含タスクにおいて,意味的に類似した逆例を作成する攻撃戦略を提案する。 提案攻撃は,元の単語とその周囲の文脈の両方の情報を考慮し,候補語を見つける。 マスク付き言語モデリングとコンテキスト理解のための次の文予測を併用する。 従来の文献で提案された攻撃と比較して, 成功率と単語摂動率の両面において, 高い品質の敵対例を生成することができる。

We study an important task of attacking natural language processing models in a black box setting. We propose an attack strategy that crafts semantically similar adversarial examples on text classification and entailment tasks. Our proposed attack finds candidate words by considering the information of both the original word and its surrounding context. It jointly leverages masked language modelling and next sentence prediction for context understanding. In comparison to attacks proposed in prior literature, we are able to generate high quality adversarial examples that do significantly better both in terms of success rate and word perturbation percentage.
翻訳日:2021-04-25 08:20:14 公開日:2020-12-24
# SPOTTER:目標強化学習によるシンボリックプランニングオペレータの拡張

SPOTTER: Extending Symbolic Planning Operators through Targeted Reinforcement Learning ( http://arxiv.org/abs/2012.13037v1 )

ライセンス: Link先を確認
Vasanth Sarathy, Daniel Kasenberg, Shivam Goel, Jivko Sinapov, Matthias Scheutz(参考訳) シンボリックプランニングモデルは、決定エージェントが任意の方法でアクションをシーケンスし、動的ドメインの様々な目標を達成することを可能にする。 しかし、通常は手作りであり、人間の誤りに対して堅牢でない正確な定式化を必要とする傾向がある。 強化学習(RL)アプローチはそのようなモデルを必要としない。 しかしながら、RLアプローチは数百万回の経験を必要とし、しばしば他のタスクに簡単に転送できないポリシーを学ぶ。 本稿では、これらのアプローチを統合するためのオープンな問題の1つに対処する: 意思決定エージェントは、目標達成を試みながら、象徴的計画モデルにおける不一致をどうやって解決できるのか? エージェントに到達不可能な目標を達成するために,エージェントが必要とする新たな演算子を探索し,RLを用いて計画エージェントを増強し,サポートするSPOTTERという統合フレームワークを提案する。 SPOTTERは純粋なRLアプローチよりも優れており、トランスファー可能なシンボリック知識を発見し、監督や計画トレース、あるいは行方不明の計画オペレータに関する事前知識を必要としない。

Symbolic planning models allow decision-making agents to sequence actions in arbitrary ways to achieve a variety of goals in dynamic domains. However, they are typically handcrafted and tend to require precise formulations that are not robust to human error. Reinforcement learning (RL) approaches do not require such models, and instead learn domain dynamics by exploring the environment and collecting rewards. However, RL approaches tend to require millions of episodes of experience and often learn policies that are not easily transferable to other tasks. In this paper, we address one aspect of the open problem of integrating these approaches: how can decision-making agents resolve discrepancies in their symbolic planning models while attempting to accomplish goals? We propose an integrated framework named SPOTTER that uses RL to augment and support ("spot") a planning agent by discovering new operators needed by the agent to accomplish goals that are initially unreachable for the agent. SPOTTER outperforms pure-RL approaches while also discovering transferable symbolic knowledge and does not require supervision, successful plan traces or any a priori knowledge about the missing planning operator.
翻訳日:2021-04-25 08:20:03 公開日:2020-12-24
# LCEval: カプセル評価のための複合メトリックの学習

LCEval: Learned Composite Metric for Caption Evaluation ( http://arxiv.org/abs/2012.13136v1 )

ライセンス: Link先を確認
Naeha Sharif and Lyndon White and Mohammed Bennamoun and Wei Liu and Syed Afaq Ali Shah(参考訳) 自動評価指標は字幕システムの開発と細部解析において重要な意味を持つ。 現在の評価基準は、システムレベルでの人間の判断と許容できる相関性を達成する傾向にあるが、キャプションレベルでは達成できない。 本研究では,キャプションレベルのキャプション評価を改善するために,ニューラルネットワークを用いた学習指標を提案する。 本稿では,学習指標のパフォーマンスに影響を与えるパラメータについて,異なる言語的特徴と学習指標のキャプションレベル相関との関係について検討する。 また、異なるトレーニング例でトレーニングされたメトリクスを比較して、評価のバリエーションを測定します。 さらに,様々な文の摂動に対する学習指標と手作り指標の感度を強調するロバスト性解析を行う。 実験分析の結果,提案指標はキャプションレベルの相関から既存の指標よりも優れているだけでなく,人的評価に対するシステムレベルの相関も強いことがわかった。

Automatic evaluation metrics hold a fundamental importance in the development and fine-grained analysis of captioning systems. While current evaluation metrics tend to achieve an acceptable correlation with human judgements at the system level, they fail to do so at the caption level. In this work, we propose a neural network-based learned metric to improve the caption-level caption evaluation. To get a deeper insight into the parameters which impact a learned metrics performance, this paper investigates the relationship between different linguistic features and the caption-level correlation of the learned metrics. We also compare metrics trained with different training examples to measure the variations in their evaluation. Moreover, we perform a robustness analysis, which highlights the sensitivity of learned and handcrafted metrics to various sentence perturbations. Our empirical analysis shows that our proposed metric not only outperforms the existing metrics in terms of caption-level correlation but it also shows a strong system-level correlation against human assessments.
翻訳日:2021-04-25 08:19:43 公開日:2020-12-24
# ポートフォリオに基づくアルゴリズム選択における一般化

Generalization in portfolio-based algorithm selection ( http://arxiv.org/abs/2012.13315v1 )

ライセンス: Link先を確認
Maria-Florina Balcan, Tuomas Sandholm, and Ellen Vitercik(参考訳) ポートフォリオベースのアルゴリズム選択は、過去20年で大きな成功を収めてきた。 このアルゴリズム構成手順は、まず多様なアルゴリズムパラメータ設定のポートフォリオを選択し、次に与えられた問題インスタンス上でアルゴリズムセレクタを使用して、強い予測性能を持つポートフォリオからパラメータ設定を選択する。 多くの場合、ポートフォリオとアルゴリズムセレクタは、手元のアプリケーションドメインの典型的な問題インスタンスのトレーニングセットを使用して選択される。 本稿では,ポートフォリオに基づくアルゴリズム選択に対する証明可能な最初の保証を提供する。 トレーニングセットがどの程度大きいかを分析し、結果のアルゴリズムセレクタの平均的なパフォーマンスが将来の(予測された)パフォーマンスに近いことを確認します。 1)アルゴリズムセレクタの学習-理論的な複雑さ、2)ポートフォリオのサイズ、3)アルゴリズムのパフォーマンスをパラメータの関数として学習-理論的な複雑さである。 本稿では,ポートフォリオ構築とアルゴリズム選択のエンドツーエンド学習理論分析を紹介する。 ポートフォリオが大きければ、非常に単純なアルゴリズムセレクタであっても、過剰適合は避けられないことを証明します。 ポートフォリオのサイズが大きくなるにつれて、可能なすべての問題インスタンスに適切なパラメータ設定を組み込むことが期待できますが、過度な適合を避けることは不可能になります。

Portfolio-based algorithm selection has seen tremendous practical success over the past two decades. This algorithm configuration procedure works by first selecting a portfolio of diverse algorithm parameter settings, and then, on a given problem instance, using an algorithm selector to choose a parameter setting from the portfolio with strong predicted performance. Oftentimes, both the portfolio and the algorithm selector are chosen using a training set of typical problem instances from the application domain at hand. In this paper, we provide the first provable guarantees for portfolio-based algorithm selection. We analyze how large the training set should be to ensure that the resulting algorithm selector's average performance over the training set is close to its future (expected) performance. This involves analyzing three key reasons why these two quantities may diverge: 1) the learning-theoretic complexity of the algorithm selector, 2) the size of the portfolio, and 3) the learning-theoretic complexity of the algorithm's performance as a function of its parameters. We introduce an end-to-end learning-theoretic analysis of the portfolio construction and algorithm selection together. We prove that if the portfolio is large, overfitting is inevitable, even with an extremely simple algorithm selector. With experiments, we illustrate a tradeoff exposed by our theoretical analysis: as we increase the portfolio size, we can hope to include a well-suited parameter setting for every possible problem instance, but it becomes impossible to avoid overfitting.
翻訳日:2021-04-25 08:19:13 公開日:2020-12-24
# gpt-2を用いたadversarial trainingによる限定ラベルデータによるスパムレビューの分類

Leveraging GPT-2 for Classifying Spam Reviews with Limited Labeled Data via Adversarial Training ( http://arxiv.org/abs/2012.13400v1 )

ライセンス: Link先を確認
Athirai A. Irissappane, Hanfei Yu, Yankun Shen, Anubha Agrawal, Gray Stanton(参考訳) オンラインレビューは、サービスや製品を購入する際に重要な情報源である。 オピニオンスパマーはこれらのレビューを操作し、サービス全体の認識を意図的に変える。 オンラインレビューのコーパスは存在するが、スパムやノンスパムとラベル付けされているものはほとんどなく、スパム検出モデルのトレーニングが難しい。 本稿では,限定ラベルデータと大量のラベル付きデータで意見スパムを分類するための生成前訓練2(gpt-2)の能力を活用した,敵対的訓練機構を提案する。 TripAdvisorとYelpZipデータセットの実験では、ラベル付きデータが制限された場合の精度で、提案されたモデルは最先端技術よりも少なくとも7%優れていた。 提案モデルでは,適切なパープレキシティを有する合成スパム/非スパムレビューも生成でき,トレーニング中に付加ラベルデータを提供できる。

Online reviews are a vital source of information when purchasing a service or a product. Opinion spammers manipulate these reviews, deliberately altering the overall perception of the service. Though there exists a corpus of online reviews, only a few have been labeled as spam or non-spam, making it difficult to train spam detection models. We propose an adversarial training mechanism leveraging the capabilities of Generative Pre-Training 2 (GPT-2) for classifying opinion spam with limited labeled data and a large set of unlabeled data. Experiments on TripAdvisor and YelpZip datasets show that the proposed model outperforms state-of-the-art techniques by at least 7% in terms of accuracy when labeled data is limited. The proposed model can also generate synthetic spam/non-spam reviews with reasonable perplexity, thereby, providing additional labeled data during training.
翻訳日:2021-04-25 08:18:55 公開日:2020-12-24
# Union-net: 小さなデータセットに適応したディープニューラルネットワークモデル

Union-net: A deep neural network model adapted to small data sets ( http://arxiv.org/abs/2012.13044v1 )

ライセンス: Link先を確認
Qingfang He, Guang Cheng and Zhiying Lin(参考訳) 実際の応用では、一般に小さなデータセットが得られる。 現在、機械学習の実用的応用のほとんどは、ビッグデータに基づく古典的なモデルを使用して、小さなデータセットの問題を解決する。 しかし、ディープニューラルネットワークモデルは複雑な構造を持ち、巨大なモデルパラメータを持ち、トレーニングはより高度な機器を必要とするため、アプリケーションにある種の困難をもたらす。 そこで本稿では,結合畳み込みの概念を提案し,浅いネットワーク構造を持つ軽量深層ネットワークモデルユニオンネットを設計し,小さなデータセットに対応する。 このモデルは、畳み込みネットワークユニットと、同じ入力の異なる組み合わせを組み合わせてユニオンモジュールを形成する。 各結合加群は畳み込み層と同値である。 3つのモジュール間のシリアル入力と出力は「3層」ニューラルネットワークを構成する。 各ユニオンモジュールの出力は、最後の畳み込み層の入力として融合付加され、4層ネットワーク構造を有する複雑なネットワークを形成する。 ディープ・ネットワーク・モデル・ネットワークは深く、伝送経路が長すぎるため、基礎となる情報伝達が失われてしまうという問題を解決する。 モデルはモデルパラメータが少なく、チャネルも少ないため、小さなデータセットへの適応性が向上する。 これは、深層ネットワークモデルが小さなデータセットのトレーニングにおいて過剰に適合しやすいという問題を解決する。 公開データセット cifar10 と 17flowers を使用して、多重分類実験を行う。 実験により、Union-netモデルは大きなデータセットと小さなデータセットの分類においてうまく機能することが示された。 日々のアプリケーションシナリオにおいて高い実用的価値があります。 モデルはhttps://github.com/y easo/union-netで公開される。

In real applications, generally small data sets can be obtained. At present, most of the practical applications of machine learning use classic models based on big data to solve the problem of small data sets. However, the deep neural network model has complex structure, huge model parameters, and training requires more advanced equipment, which brings certain difficulties to the application. Therefore, this paper proposes the concept of union convolution, designing a light deep network model union-net with a shallow network structure and adapting to small data sets. This model combines convolutional network units with different combinations of the same input to form a union module. Each union module is equivalent to a convolutional layer. The serial input and output between the 3 modules constitute a "3-layer" neural network. The output of each union module is fused and added as the input of the last convolutional layer to form a complex network with a 4-layer network structure. It solves the problem that the deep network model network is too deep and the transmission path is too long, which causes the loss of the underlying information transmission. Because the model has fewer model parameters and fewer channels, it can better adapt to small data sets. It solves the problem that the deep network model is prone to overfitting in training small data sets. Use the public data sets cifar10 and 17flowers to conduct multi-classification experiments. Experiments show that the Union-net model can perform well in classification of large data sets and small data sets. It has high practical value in daily application scenarios. The model code is published at https://github.com/y easo/union-net
翻訳日:2021-04-25 08:18:42 公開日:2020-12-24
# 追従のための回転同変シームズネットワーク

Rotation Equivariant Siamese Networks for Tracking ( http://arxiv.org/abs/2012.13078v1 )

ライセンス: Link先を確認
Deepak K. Gupta, Devanshu Arya and Efstratios Gavves(参考訳) 回転は、視覚的オブジェクト追跡において、長く普及しているが未解決であり、困難な課題である。 既存のディープラーニングベースのトラッキングアルゴリズムは、本質的に翻訳同変であるがローテーションに取り組むように設計されていない通常のCNNを使用している。 本稿では,ビデオ中のローテーションインスタンスの存在下では,既存のトラッカーの性能が著しく影響を受けることを最初に示す。 回転の悪影響を回避するため, ステアブルフィルタからなる群等価畳み込み層を用いて構築した回転等価シムズネットワーク(RE-SiamNets)を提案する。 SiamNetsは、オブジェクトの向きの変化を教師なしの方法で推定できるため、相対的な2Dポーズ推定にも使用することができる。 さらに,この方向変化は,連続する2フレーム間の方向変化の制限を課すことで,シャムの追従に付加的な動き制約を課すことができることを示した。 ベンチマークでは、ローテーションインスタンスを含むビデオの集合からなるデータセットであるローテーショントラッキングベンチマーク(rtb)を提案する。 2つの有名なシームズアーキテクチャの実験を通して、RE-SiamNetが回転の問題をうまく処理し、通常のアーキテクチャよりも優れていたことを示す。 さらに、再シアムネットは、基準フレームに対して目標が保持した面内回転を教師なしの方法で、目標の姿勢の相対的変化を正確に推定することができる。

Rotation is among the long prevailing, yet still unresolved, hard challenges encountered in visual object tracking. The existing deep learning-based tracking algorithms use regular CNNs that are inherently translation equivariant, but not designed to tackle rotations. In this paper, we first demonstrate that in the presence of rotation instances in videos, the performance of existing trackers is severely affected. To circumvent the adverse effect of rotations, we present rotation-equivariant Siamese networks (RE-SiamNets), built through the use of group-equivariant convolutional layers comprising steerable filters. SiamNets allow estimating the change in orientation of the object in an unsupervised manner, thereby facilitating its use in relative 2D pose estimation as well. We further show that this change in orientation can be used to impose an additional motion constraint in Siamese tracking through imposing restriction on the change in orientation between two consecutive frames. For benchmarking, we present Rotation Tracking Benchmark (RTB), a dataset comprising a set of videos with rotation instances. Through experiments on two popular Siamese architectures, we show that RE-SiamNets handle the problem of rotation very well and out-perform their regular counterparts. Further, RE-SiamNets can accurately estimate the relative change in pose of the target in an unsupervised fashion, namely the in-plane rotation the target has sustained with respect to the reference frame.
翻訳日:2021-04-25 08:18:19 公開日:2020-12-24
# P4コントラスト:RGB-Dシーン理解のための点線対向学習

P4Contrast: Contrastive Learning with Pairs of Point-Pixel Pairs for RGB-D Scene Understanding ( http://arxiv.org/abs/2012.13089v1 )

ライセンス: Link先を確認
Yunze Liu, Li Yi, Shanghang Zhang, Qingnan Fan, Thomas Funkhouser, Hao Dong(参考訳) 自己教師付き表現学習はコンピュータビジョンにおいて重要な問題であり、下流タスクのより効率的で効果的なトレーニングの初期化として使用できる、大きなラベルのないデータセットで特徴抽出器を事前訓練する手段を提供する。 有望なアプローチは、対照的な学習を使って、類似したデータサンプルに近づき、異種データには遠く離れている潜在空間を学習することだ。 このアプローチは、画像と点雲の特徴抽出器の両方を事前訓練する上で大きな成功を収めてきたが、特に高レベルシーン理解の促進を目的としたマルチモーダルRGB-Dスキャンでは、ほとんど研究されていない。 そこで本研究では, 正の対にrgb-d点が対応し, 負の対に2つの相同性が乱れ, または2つのrgb-d点が対応しない対を含む「点-画素対のペア」を提案する。 これにより、ハードネガティブ化の柔軟性が増し、ネットワークが両方のモダリティから機能を学ぶのに役立ちます。 実験により,提案手法は従来の事前学習手法よりも3つの大規模RGB-Dシーン理解ベンチマーク(ScanNet, SUN RGB-D, 3RScan)の方が優れた性能を示した。

Self-supervised representation learning is a critical problem in computer vision, as it provides a way to pretrain feature extractors on large unlabeled datasets that can be used as an initialization for more efficient and effective training on downstream tasks. A promising approach is to use contrastive learning to learn a latent space where features are close for similar data samples and far apart for dissimilar ones. This approach has demonstrated tremendous success for pretraining both image and point cloud feature extractors, but it has been barely investigated for multi-modal RGB-D scans, especially with the goal of facilitating high-level scene understanding. To solve this problem, we propose contrasting "pairs of point-pixel pairs", where positives include pairs of RGB-D points in correspondence, and negatives include pairs where one of the two modalities has been disturbed and/or the two RGB-D points are not in correspondence. This provides extra flexibility in making hard negatives and helps networks to learn features from both modalities, not just the more discriminating one of the two. Experiments show that this proposed approach yields better performance on three large-scale RGB-D scene understanding benchmarks (ScanNet, SUN RGB-D, and 3RScan) than previous pretraining approaches.
翻訳日:2021-04-25 08:17:55 公開日:2020-12-24
# EDN:極端にバラバラなネットワークによる有能な物体検出

EDN: Salient Object Detection via Extremely-Downsample d Network ( http://arxiv.org/abs/2012.13093v1 )

ライセンス: Link先を確認
Yu-Huan Wu, Yun Liu, Le Zhang, Ming-Ming Cheng(参考訳) 近年のサルエント物体検出(SOD)の進歩は主にマルチスケール学習の恩恵を受けており、高レベルの特徴と低レベルの特徴がそれぞれサルエント物体の探索と詳細発見に協力して機能している。 しかしながら、ほとんどの努力は、マルチスケール特徴の融合や境界表現の強化によって、低レベルの特徴学習に費やされている。 本稿では,sodにおいても高レベル機能学習の改善が不可欠であることを示す。 そこで本研究では,画像全体のグローバルビューを効果的に学習するために,極端にダウンサンプリング技術を用いた極端にダウンサンプリングされたネットワーク(edn)を導入する。 SCPC(Scale-Correlate d Pyramid Convolution)は、上述の極端なダウンサンプリングからオブジェクトの詳細を復元するエレガントなデコーダを構築するように設計されている。 大規模な実験により、EDNはリアルタイムの速度で \sArt のパフォーマンスを達成することが示された。 そのため、この研究はSODに新たな思考を巻き起こすことが期待されている。 コードはリリースされます。

Recent progress on salient object detection (SOD) mainly benefits from multi-scale learning, where the high-level and low-level features work collaboratively in locating salient objects and discovering fine details, respectively. However, most efforts are devoted to low-level feature learning by fusing multi-scale features or enhancing boundary representations. In this paper, we show another direction that improving high-level feature learning is essential for SOD as well. To verify this, we introduce an Extremely-Downsample d Network (EDN), which employs an extreme downsampling technique to effectively learn a global view of the whole image, leading to accurate salient object localization. A novel Scale-Correlated Pyramid Convolution (SCPC) is also designed to build an elegant decoder for recovering object details from the above extreme downsampling. Extensive experiments demonstrate that EDN achieves \sArt performance with real-time speed. Hence, this work is expected to spark some new thinking in SOD. The code will be released.
翻訳日:2021-04-25 08:17:31 公開日:2020-12-24
# MobileSal: 極めて効率的なRGB-Dサルエントオブジェクト検出

MobileSal: Extremely Efficient RGB-D Salient Object Detection ( http://arxiv.org/abs/2012.13095v1 )

ライセンス: Link先を確認
Yu-Huan Wu, Yun Liu, Jun Xu, Jia-Wang Bian, Yuchao Gu, Ming-Ming Cheng(参考訳) ニューラルネットワークの計算コストが高いため、最近のRGB-D salient Object Detection (SOD)の成功は現実のアプリケーションに利益をもたらす。 そこで,本稿では,モバイルネットワークによる深層特徴抽出による効率的なRGB-D SODに着目した新しいネットワーク,‘methodname’を提案する。 問題は、モバイルネットワークが、面倒なネットワークよりも機能表現の力が少ないことだ。 この目的のために,カラー画像の深度情報を適切に活用すれば,SODに関連する特徴表現を強化することができる。 そこで本研究では,RGB-D SODのためのモバイルネットワークの特徴表現能力を強化するために,暗黙の深度復元(IDR)手法を提案する。 IDRはトレーニング段階でのみ採用され、テスト中に省略されるため、計算自由である。 さらに,高効率な多レベル特徴集約のための小型ピラミッド改良(CPR)を提案し,明確な境界を持つ健全な物体を導出する。 idr と cpr を組み込んだ場合、 \methodname~perform は高速 (450fps) でパラメータ (6.5m) の少ない 7 つの挑戦的な rgb-d sod データセットの \sart メソッドに対して好適である。 コードはリリースされます。

The high computational cost of neural networks has prevented recent successes in RGB-D salient object detection (SOD) from benefiting real-world applications. Hence, this paper introduces a novel network, \methodname, which focuses on efficient RGB-D SOD by using mobile networks for deep feature extraction. The problem is that mobile networks are less powerful in feature representation than cumbersome networks. To this end, we observe that the depth information of color images can strengthen the feature representation related to SOD if leveraged properly. Therefore, we propose an implicit depth restoration (IDR) technique to strengthen the feature representation capability of mobile networks for RGB-D SOD. IDR is only adopted in the training phase and is omitted during testing, so it is computationally free. Besides, we propose compact pyramid refinement (CPR) for efficient multi-level feature aggregation so that we can derive salient objects with clear boundaries. With IDR and CPR incorporated, \methodname~performs favorably against \sArt methods on seven challenging RGB-D SOD datasets with much faster speed (450fps) and fewer parameters (6.5M). The code will be released.
翻訳日:2021-04-25 08:17:13 公開日:2020-12-24
# フラクトレイン:効率の良いdnnトレーニングのための時間的および空間的なビット節約

FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training ( http://arxiv.org/abs/2012.13113v1 )

ライセンス: Link先を確認
Yonggan Fu, Haoran You, Yang Zhao, Yue Wang, Chaojian Li, Kailash Gopalakrishnan, Zhangyang Wang, Yingyan Lin(参考訳) 近年のディープニューラルネットワーク(DNN)のブレークスルーは、オンサイトラーニングを特徴とするインテリジェントエッジデバイスに対する大きな需要を押し上げている一方で、エッジで利用可能な限られたリソースと、最先端(SOTA)DNNに必要な膨大なトレーニングコストのために、そのようなシステムの実践的実現は依然として課題である。 精度の低下はトレーニング時間/エネルギー効率を高めるための最も効果的なノブの1つであり、低精度DNNトレーニングへの関心が高まっている。 本稿では,最も冗長なビットレベルから,トレーニング軌道に沿って段階的に,入力毎に動的に,より少ないトレーニングコストの削減方法を,直交方向から検討する。 具体的には、(i)somaの静的量子化dnnトレーニングの精度に到達しないアクティベーション、ウエイト、勾配の精度を最終訓練段階まで徐々に向上させるプログレッシブ分数量子化と、(ii)各レイヤのアクティベーションとグラデーションの両方に、入力順応的な方法で精度を割り当てる動的分数量子化とを統合したフラクトレムを提案する。 大規模なシミュレーションとアブレーション研究(6つのモデル、4つのデータセット、標準、適応、微調整を含む3つのトレーニング設定)は、FracTrainの有効性を検証し、計算コストとDNNトレーニングのハードウェア量子化エネルギー/遅延を低減し、同等以上の精度(-0.12%~+1.87%)を達成する。 例えば、CIFAR-10上でResNet-74をトレーニングする場合、FracTrainは最高のSOTAベースラインと比較して、それぞれ77.6%と53.5%の計算コストとトレーニング遅延の削減を達成した。 私たちのコードは、https://github.com/R ICE-EIC/FracTrain.co mで利用可能です。

Recent breakthroughs in deep neural networks (DNNs) have fueled a tremendous demand for intelligent edge devices featuring on-site learning, while the practical realization of such systems remains a challenge due to the limited resources available at the edge and the required massive training costs for state-of-the-art (SOTA) DNNs. As reducing precision is one of the most effective knobs for boosting training time/energy efficiency, there has been a growing interest in low-precision DNN training. In this paper, we explore from an orthogonal direction: how to fractionally squeeze out more training cost savings from the most redundant bit level, progressively along the training trajectory and dynamically per input. Specifically, we propose FracTrain that integrates (i) progressive fractional quantization which gradually increases the precision of activations, weights, and gradients that will not reach the precision of SOTA static quantized DNN training until the final training stage, and (ii) dynamic fractional quantization which assigns precisions to both the activations and gradients of each layer in an input-adaptive manner, for only "fractionally" updating layer parameters. Extensive simulations and ablation studies (six models, four datasets, and three training settings including standard, adaptation, and fine-tuning) validate the effectiveness of FracTrain in reducing computational cost and hardware-quantified energy/latency of DNN training while achieving a comparable or better (-0.12%~+1.87%) accuracy. For example, when training ResNet-74 on CIFAR-10, FracTrain achieves 77.6% and 53.5% computational cost and training latency savings, respectively, compared with the best SOTA baseline, while achieving a comparable (-0.07%) accuracy. Our codes are available at: https://github.com/R ICE-EIC/FracTrain.
翻訳日:2021-04-25 08:16:48 公開日:2020-12-24
# ハウスドルフ点畳み込みと幾何学的事前性

Hausdorff Point Convolution with Geometric Priors ( http://arxiv.org/abs/2012.13118v1 )

ライセンス: Link先を確認
Pengdi Huang, Liqiang Lin, Fuyou Xue, Kai Xu, Danny Cohen-Or, Hui Huang(参考訳) 形状認識応答がなければ、コンパクトなカーネルセットで点雲の3次元幾何学を効率的に特徴づけることは困難である。 本稿では,点畳み込み応答を計算するための形状認識距離尺度としてハウスドルフ距離を用いることを提唱する。 私たちが提示したHPC(Hausdorff Point Convolution)は形状認識技術である。 hpcは4種類の幾何学的前駆を核として持つ比較的コンパクトな集合を持つ強力な点特徴学習を構成する。 さらに,HPCに基づくディープニューラルネットワーク(HPC-DNN)を開発した。 タスク固有の学習は、入力とカーネルポイントセット間の最短距離を結合するためにネットワーク重みを調整することで実現できる。 また,マルチカーネルHPCを設計し,階層的な特徴学習を実現している。 HPC-DNNは強い点の畳み込みベースライン(例えばKPConv)より優れており、S3DISでは2.8% mIoU、セマンティックKITTIでは1.5%向上している。

Without a shape-aware response, it is hard to characterize the 3D geometry of a point cloud efficiently with a compact set of kernels. In this paper, we advocate the use of Hausdorff distance as a shape-aware distance measure for calculating point convolutional responses. The technique we present, coined Hausdorff Point Convolution (HPC), is shape-aware. We show that HPC constitutes a powerful point feature learning with a rather compact set of only four types of geometric priors as kernels. We further develop a HPC-based deep neural network (HPC-DNN). Task-specific learning can be achieved by tuning the network weights for combining the shortest distances between input and kernel point sets. We also realize hierarchical feature learning by designing a multi-kernel HPC for multi-scale feature encoding. Extensive experiments demonstrate that HPC-DNN outperforms strong point convolution baselines (e.g., KPConv), achieving 2.8% mIoU performance boost on S3DIS and 1.5% on SemanticKITTI for semantic segmentation task.
翻訳日:2021-04-25 08:16:07 公開日:2020-12-24
# MRDet:空中画像の高精度オブジェクト指向物体検出のためのマルチヘッドネットワーク

MRDet: A Multi-Head Network for Accurate Oriented Object Detection in Aerial Images ( http://arxiv.org/abs/2012.13135v1 )

ライセンス: Link先を確認
Ran Qin and Qingjie Liu and Guangshuai Gao and Di Huang and Yunhong Wang(参考訳) 空中画像の物体は通常任意の向きを持ち、地上に密集しているため、検出は非常に困難である。 最近開発された多くの手法は、余分な配向パラメータを推定し、密度の高いアンカーを配置することでこれらの問題を解こうとしている。 本稿では、水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。 AO-RPNは非常に効率的で、元のRPNよりも少数のパラメータしか増加しない。 さらに,検出タスクを複数のサブタスクに分離し,その処理を行うマルチヘッドネットワークを提案する。 各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。 MRDet (Multi-head Rotated Object Detector) と略記する。 提案したMDDetをDOTAとHRSC2016という2つの挑戦的なベンチマークでテストし、最先端の手法と比較した。 提案手法は,その有効性を示す非常に有望な結果が得られる。

Objects in aerial images usually have arbitrary orientations and are densely located over the ground, making them extremely challenge to be detected. Many recently developed methods attempt to solve these issues by estimating an extra orientation parameter and placing dense anchors, which will result in high model complexity and computational costs. In this paper, we propose an arbitrary-oriented region proposal network (AO-RPN) to generate oriented proposals transformed from horizontal anchors. The AO-RPN is very efficient with only a few amounts of parameters increase than the original RPN. Furthermore, to obtain accurate bounding boxes, we decouple the detection task into multiple subtasks and propose a multi-head network to accomplish them. Each head is specially designed to learn the features optimal for the corresponding task, which allows our network to detect objects accurately. We name it MRDet short for Multi-head Rotated object Detector for convenience. We test the proposed MRDet on two challenging benchmarks, i.e., DOTA and HRSC2016, and compare it with several state-of-the-art methods. Our method achieves very promising results which clearly demonstrate its effectiveness.
翻訳日:2021-04-25 08:15:46 公開日:2020-12-24
# 生成逆ネットワークを用いた外観不変6-DoF視覚像定位

Appearance-Invariant 6-DoF Visual Localization using Generative Adversarial Networks ( http://arxiv.org/abs/2012.13191v1 )

ライセンス: Link先を確認
Yimin Lin, Jianfeng Huang, Shiguo Lian(参考訳) 異なる照明, 天気, 季節などの外部環境が変化した場合に, 新たな視覚定位ネットワークを提案する。 視覚的ローカライゼーションネットワークは、特徴抽出ネットワークとポーズ回帰ネットワークとから構成される。 特徴抽出ネットワークは、生成的な逆ネットワークであるcycleganに基づくエンコーダネットワークで構成されており、異なる天候や季節の非ペアサンプルから固有の外観不変特徴マップをキャプチャすることができる。 このような不変な特徴により,6自由度姿勢回帰ネットワークを用いて,屋外照明,天候,季節変化の存在下での長期視覚定位に取り組む。 位置認識とローカライゼーションのための様々な挑戦的データセットを用いて視覚的ローカライゼーションネットワークを証明し、その結果、様々な環境変化のあるシナリオにおいて、我々の手法が最先端の手法より優れていることを示す。

We propose a novel visual localization network when outside environment has changed such as different illumination, weather and season. The visual localization network is composed of a feature extraction network and pose regression network. The feature extraction network is made up of an encoder network based on the Generative Adversarial Network CycleGAN, which can capture intrinsic appearance-invariant feature maps from unpaired samples of different weathers and seasons. With such an invariant feature, we use a 6-DoF pose regression network to tackle long-term visual localization in the presence of outdoor illumination, weather and season changes. A variety of challenging datasets for place recognition and localization are used to prove our visual localization network, and the results show that our method outperforms state-of-the-art methods in the scenarios with various environment changes.
翻訳日:2021-04-25 08:14:49 公開日:2020-12-24
# オプティカルフロー再構成による部分咬合下の動的顔表情認識

Dynamic Facial Expression Recognition under Partial Occlusion with Optical Flow Reconstruction ( http://arxiv.org/abs/2012.13217v1 )

ライセンス: Link先を確認
Delphine Poux, Benjamin Allaert, Nacim Ihaddadene, Ioan Marius Bilasco, Chaabane Djeraba and Mohammed Bennamoun(参考訳) ビデオ表情認識は多くのアプリケーションで有用であり、近年多くの関心を集めている。 制御された環境において(咬合なしで)本当に良い結果を与えるソリューションもあるが、部分的な顔面の咬合の存在に対する認識は依然として困難な課題である。 咬合に対処するため,顔の閉塞部分の再構成に基づく解法が提案されている。 これらの解は主に顔のテクスチャや幾何学に基づいている。 しかし、同じ表現をしている異なる人物の顔の動きの類似性は、再建の真の資産であると考えられる。 本稿では、この資産を利用して、光学フロー領域における顔の隠蔽部分を再構築するスキップ接続を有するオートエンコーダに基づく新しいソリューションを提案する。 私たちの知る限りでは、これは表情認識のための動きを直接再構築する最初の提案です。 我々は,異なるオクルージョンが生成される制御データセットCK+のアプローチを検証した。 提案手法は,オクルード状態と非オクルード状態の間における認識精度の差を著しく低減することを示す。 また、我々のアプローチを既存の最先端のソリューションと比較する。 今後,再現可能で公平な比較の基礎を築くために,咬合生成と再構成評価を含む新しい実験プロトコルを提案する。

Video facial expression recognition is useful for many applications and received much interest lately. Although some solutions give really good results in a controlled environment (no occlusion), recognition in the presence of partial facial occlusion remains a challenging task. To handle occlusions, solutions based on the reconstruction of the occluded part of the face have been proposed. These solutions are mainly based on the texture or the geometry of the face. However, the similarity of the face movement between different persons doing the same expression seems to be a real asset for the reconstruction. In this paper we exploit this asset and propose a new solution based on an auto-encoder with skip connections to reconstruct the occluded part of the face in the optical flow domain. To the best of our knowledge, this is the first proposition to directly reconstruct the movement for facial expression recognition. We validated our approach in the controlled dataset CK+ on which different occlusions were generated. Our experiments show that the proposed method reduce significantly the gap, in terms of recognition accuracy, between occluded and non-occluded situations. We also compare our approach with existing state-of-the-art solutions. In order to lay the basis of a reproducible and fair comparison in the future, we also propose a new experimental protocol that includes occlusion generation and reconstruction evaluation.
翻訳日:2021-04-25 08:14:31 公開日:2020-12-24
# 深層学習ネットワークを用いた人物再同定 : 体系的考察

Person Re-Identification using Deep Learning Networks: A Systematic Review ( http://arxiv.org/abs/2012.13318v1 )

ライセンス: Link先を確認
Ankit Yadav, Dinesh Kumar Vishwakarma(参考訳) 近年,人物の身元確認は研究コミュニティから多くの注目を集めている。 セキュリティベースのアプリケーションにおいて重要な役割を担っているため、個人の再識別は、強盗の追跡、テロ攻撃やその他のセキュリティー上の重要な出来事の防止に関連する研究の中心にある。 過去10年間、再帰的なアプローチは大きな成長を遂げてきたが、この進歩を理解・要約するレビュー文献はほとんど存在しない。 このレビューでは、人を再識別するための最新のディープラーニングアプローチを取り上げている。 既存のre-idレビューでは、特定の側面からre-idテクニックを分析しているが、このレビューでは、ディープアーキテクチャタイプ、共通Re-Idチャレンジ(ポーズ、雷、ビュー、スケール、部分的または完全閉塞、バックグラウンドクラッタ)、マルチモーダルRe-Id、クロスドメインRe-Idチャレンジ、メトリックラーニングアプローチ、ビデオRe-Idコントリビューションなど、複数のディープラーニング側面からの多くのre-idテクニックを評価する。 このレビューには、何年もかけて収集されたいくつかのre-idベンチマークも含まれている。 最新のDeep Re-idの作業が組み込まれているため、これはre-id文学に大きな貢献をする。 最後に、結論と今後の方向性を含める。

Person re-identification has received a lot of attention from the research community in recent times. Due to its vital role in security based applications, person re-identification lies at the heart of research relevant to tracking robberies, preventing terrorist attacks and other security critical events. While the last decade has seen tremendous growth in re-id approaches, very little review literature exists to comprehend and summarize this progress. This review deals with the latest state-of-the-art deep learning based approaches for person re-identification. While the few existing re-id review works have analysed re-id techniques from a singular aspect, this review evaluates numerous re-id techniques from multiple deep learning aspects such as deep architecture types, common Re-Id challenges (variation in pose, lightning, view, scale, partial or complete occlusion, background clutter), multi-modal Re-Id, cross-domain Re-Id challenges, metric learning approaches and video Re-Id contributions. This review also includes several re-id benchmarks collected over the years, describing their characteristics, specifications and top re-id results obtained on them. The inclusion of the latest deep re-id works makes this a significant contribution to the re-id literature. Lastly, the conclusion and future directions are included.
翻訳日:2021-04-25 08:14:13 公開日:2020-12-24
# グローバルコンテキストネットワーク

Global Context Networks ( http://arxiv.org/abs/2012.13375v1 )

ライセンス: Link先を確認
Yue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei, Han Hu(参考訳) Non-Local Network (NLNet)は、クエリ固有のグローバルコンテキストを各クエリ位置に集約することで、画像内の長距離依存関係をキャプチャするための先駆的なアプローチを提供する。 しかし、厳密な実証分析によって、非ローカルネットワークによってモデル化されたグローバルコンテキストは、異なるクエリ位置でほぼ同じであることがわかった。 本稿では,NLNetの精度を保ちながら計算量を大幅に削減する,クエリ非依存の定式化に基づく単純化されたネットワーク構築手法を提案する。 さらに,非局所ブロックの一層変換関数を2層ボトルネックに置き換えることで,パラメータ数が大幅に減少する。 結果として得られたネットワーク要素はglobal context(gc)ブロックと呼ばれ、軽量な方法でグローバルコンテキストを効果的にモデル化し、バックボーンネットワークの複数のレイヤに適用してglobal context network(gcnet)を形成する。 実験の結果、GCNetは様々な認識タスクのベンチマークで一般的にNLNetを上回っていることがわかった。 コードとネットワークの構成はhttps://github.com/x vjiarui/GCNetで確認できる。

The Non-Local Network (NLNet) presents a pioneering approach for capturing long-range dependencies within an image, via aggregating query-specific global context to each query position. However, through a rigorous empirical analysis, we have found that the global contexts modeled by the non-local network are almost the same for different query positions. In this paper, we take advantage of this finding to create a simplified network based on a query-independent formulation, which maintains the accuracy of NLNet but with significantly less computation. We further replace the one-layer transformation function of the non-local block by a two-layer bottleneck, which further reduces the parameter number considerably. The resulting network element, called the global context (GC) block, effectively models global context in a lightweight manner, allowing it to be applied at multiple layers of a backbone network to form a global context network (GCNet). Experiments show that GCNet generally outperforms NLNet on major benchmarks for various recognition tasks. The code and network configurations are available at https://github.com/x vjiarui/GCNet.
翻訳日:2021-04-25 08:13:47 公開日:2020-12-24
# GraNet: ALSポイントクラウド分類のためのグローバルな関係認識型注意ネットワーク

GraNet: Global Relation-aware Attentional Network for ALS Point Cloud Classification ( http://arxiv.org/abs/2012.13466v1 )

ライセンス: Link先を確認
Rong Huang, Yusheng Xu, Uwe Stilla(参考訳) 本研究では,als点雲の意味的ラベル付けに焦点をあてた新しいニューラルネットワークを提案し,空間的・チャネル的長期関係の重要性について検討し,グローバル・リレーションシップ・アウェア・アウェア・アテンション・ネットワーク(granet)と呼ぶ。 GraNetはまず,局所的空間的不一致注意畳み込みモジュール(LoSDA)を用いて局所的幾何学的記述と局所的依存関係を学習する。 ロスダでは、複数の局所空間幾何学習モジュールを積み重ねることで、方位情報、空間分布、標高差を完全に考慮し、注意プーリングモジュールを用いて局所依存関係を埋め込む。 次に、空間的関係認識注意モジュール(SRA)とチャネル的関係認識注意モジュール(CRA)からなるグローバルな関係認識注意モジュール(GRA)を調査し、空間的位置と特徴ベクトルとの間のグローバルな空間的・チャネル的関係をさらに学習する。 上記の2つの重要なモジュールは、大都市のスケール変化をさらに考慮するために、マルチスケールネットワークアーキテクチャに組み込まれている。 2つのALSポイントクラウドデータセットの総合的な実験を行い、提案フレームワークの性能評価を行った。 以上の結果から,本手法は他の先進的分類法と比較して高い分類精度が得られた。 ISPRSベンチマークデータセットにおける我々の手法の全体的な精度(OA)は、平均的なF1測度(AvgF1)が73.5%である9つの意味クラスを分類するために84.5%に改善することができる。 電力線:66.3%、低植生:82.8%、不活性表面:91.8%、車:80.7%、フェンス:51.2%、屋根:94.6%、ファサード:62.1%、低木:49.9%、木:82.1%。 さらに、高密度都市部をカバーする新しいALS点雲データセットを用いて実験を行った。

In this work, we propose a novel neural network focusing on semantic labeling of ALS point clouds, which investigates the importance of long-range spatial and channel-wise relations and is termed as global relation-aware attentional network (GraNet). GraNet first learns local geometric description and local dependencies using a local spatial discrepancy attention convolution module (LoSDA). In LoSDA, the orientation information, spatial distribution, and elevation differences are fully considered by stacking several local spatial geometric learning modules and the local dependencies are embedded by using an attention pooling module. Then, a global relation-aware attention module (GRA), consisting of a spatial relation-aware attention module (SRA) and a channel relation aware attention module (CRA), are investigated to further learn the global spatial and channel-wise relationship between any spatial positions and feature vectors. The aforementioned two important modules are embedded in the multi-scale network architecture to further consider scale changes in large urban areas. We conducted comprehensive experiments on two ALS point cloud datasets to evaluate the performance of our proposed framework. The results show that our method can achieve higher classification accuracy compared with other commonly used advanced classification methods. The overall accuracy (OA) of our method on the ISPRS benchmark dataset can be improved to 84.5% to classify nine semantic classes, with an average F1 measure (AvgF1) of 73.5%. In detail, we have following F1 values for each object class: powerlines: 66.3%, low vegetation: 82.8%, impervious surface: 91.8%, car: 80.7%, fence: 51.2%, roof: 94.6%, facades: 62.1%, shrub: 49.9%, trees: 82.1%. Besides, experiments were conducted using a new ALS point cloud dataset covering highly dense urban areas.
翻訳日:2021-04-25 08:13:29 公開日:2020-12-24
# 産業用ポイントクラウドデータのインスタンスセグメンテーション

Instance Segmentation of Industrial Point Cloud Data ( http://arxiv.org/abs/2012.14253v1 )

ライセンス: Link先を確認
Eva Agapaki, Ioannis Brilakis(参考訳) 本論文の課題は、産業施設のオブジェクト指向幾何学的デジタル双極子(gDT)を自動生成するコストと手作業を効率的に最小化する方法であり、これらのモデルを作成するための初期投資と比べてさらに価値を提供する。 これまでの研究は,(Agapaki と Brilakis 2020) で示されたように,現在の最先端クラスセグメンテーション性能(CLOIデータセットクラスの平均75%精度と平均AUC 90%)を達成し,レーザー走査工業データから最も重要なモデルオブジェクト(CLOIクラス)のラベル付きポイントクラスタを直接生成した。 CLOIはC-shapes、L-shapes、O-shapes、I-shapesとそれらの組み合わせを表す。 しかし、幾何学的な形状に適合するために使用できる個々のインスタンスの自動セグメント化の問題はまだ解決されていない。 我々は,インスタンスセグメンテーションアルゴリズムの使用は,gDTの生成に必要な出力を提供する理論的可能性を持っていると論じる。 本稿では、(a)CLOI-Instanceグラフ接続アルゴリズムを用いて、オブジェクトクラスのポイントクラスタをインスタンスに分割し、(b)ステップ(a)を改善するポイントの境界セグメンテーションにより、この論文のインスタンスセグメンテーションを解決する。 この方法はcloiベンチマークデータセット(agapaki et al.)でテストされた。 2019年)とセグメンテーションされたインスタンスは、76.25%の平均精度を持ち、すべてのクラスでポイント当たり平均リコールが70%である。 これは、分類点ラベル以外の知識のない産業用点雲を自動分割するのは初めてであり、散在する産業用点雲における効率的なgDT生成のための基盤岩であることが証明された。

The challenge that this paper addresses is how to efficiently minimize the cost and manual labour for automatically generating object oriented geometric Digital Twins (gDTs) of industrial facilities, so that the benefits provide even more value compared to the initial investment to generate these models. Our previous work achieved the current state-of-the-art class segmentation performance (75% average accuracy per point and average AUC 90% in the CLOI dataset classes) as presented in (Agapaki and Brilakis 2020) and directly produces labelled point clusters of the most important to model objects (CLOI classes) from laser scanned industrial data. CLOI stands for C-shapes, L-shapes, O-shapes, I-shapes and their combinations. However, the problem of automated segmentation of individual instances that can then be used to fit geometric shapes remains unsolved. We argue that the use of instance segmentation algorithms has the theoretical potential to provide the output needed for the generation of gDTs. We solve instance segmentation in this paper through (a) using a CLOI-Instance graph connectivity algorithm that segments the point clusters of an object class into instances and (b) boundary segmentation of points that improves step (a). Our method was tested on the CLOI benchmark dataset (Agapaki et al. 2019) and segmented instances with 76.25% average precision and 70% average recall per point among all classes. This proved that it is the first to automatically segment industrial point cloud shapes with no prior knowledge other than the class point label and is the bedrock for efficient gDT generation in cluttered industrial point clouds.
翻訳日:2021-04-25 08:12:51 公開日:2020-12-24
# SCC:StarCraft IIのゲームを習得する効率的な深層強化学習エージェント

SCC: an efficient deep reinforcement learning agent mastering the game of StarCraft II ( http://arxiv.org/abs/2012.13169v1 )

ライセンス: Link先を確認
Xiangjun Wang, Junxiao Song, Penghui Qi, Peng Peng, Zhenkun Tang, Wei Zhang, Weimin Li, Xiongjun Pi, Jujie He, Chao Gao, Haitao Long, Quan Yuan(参考訳) AlphaStarは、StarCraft IIのグランドマスターレベルに達したAIで、複雑なリアルタイム戦略(RTS)ゲームにおいて、深層強化学習が何を達成できるかを示す驚くべきマイルストーンだ。 しかし、ゲーム、アルゴリズム、システムの複雑さ、特に膨大な量の計算は、コミュニティにとってこの方向にさらなる研究を行う大きな障害である。 我々は,深層強化学習エージェントであるstarcraft commander (scc)を提案する。 計算量が桁違いに減ると、人間のパフォーマンスがテストマッチでグランドマスタープレーヤーを破って、ライブイベントではトッププロプレイヤーを破る。 さらに、様々な人間の戦略に対して強い堅牢性を示し、人間の遊びから見えない新しい戦略を発見する。 本稿では,StarCraft IIのフルゲームにおいて,効率的な模倣学習と強化学習に関する重要な洞察と最適化を共有する。

AlphaStar, the AI that reaches GrandMaster level in StarCraft II, is a remarkable milestone demonstrating what deep reinforcement learning can achieve in complex Real-Time Strategy (RTS) games. However, the complexities of the game, algorithms and systems, and especially the tremendous amount of computation needed are big obstacles for the community to conduct further research in this direction. We propose a deep reinforcement learning agent, StarCraft Commander (SCC). With order of magnitude less computation, it demonstrates top human performance defeating GrandMaster players in test matches and top professional players in a live event. Moreover, it shows strong robustness to various human strategies and discovers novel strategies unseen from human plays. In this paper, we will share the key insights and optimizations on efficient imitation learning and reinforcement learning for StarCraft II full game.
翻訳日:2021-04-25 08:11:14 公開日:2020-12-24
# 疫学予測におけるエキスパートガイダンスの導入

Incorporating Expert Guidance in Epidemic Forecasting ( http://arxiv.org/abs/2101.10247v1 )

ライセンス: Link先を確認
Alexander Rodr\'iguez, Bijaya Adhikari, Naren Ramakrishnan, B. Aditya Prakash(参考訳) インフルエンザ様疾患(ILI)の予知は、近年、技術から科学まで、多くのデータ駆動手法で急速に進展している。 これらの手法は成功したが、専門家のフィードバックやガイダンスを予測フレームワークに体系的に組み込むことができないため、適用性は限られている。 本稿では,ai安全性からセルドニアン最適化フレームワークを活用する新しいアプローチを提案し,流行予測にどのように適用できるかを示す。 我々は,誤りの円滑性と局所的一貫性について検討し,その導入が成功すれば,好ましくない行動の確率を制限できるだけでなく,テストデータのrmseを最大17%低減できることを示した。

Forecasting influenza like illnesses (ILI) has rapidly progressed in recent years from an art to a science with a plethora of data-driven methods. While these methods have achieved qualified success, their applicability is limited due to their inability to incorporate expert feedback and guidance systematically into the forecasting framework. We propose a new approach leveraging the Seldonian optimization framework from AI safety and demonstrate how it can be adapted to epidemic forecasting. We study two types of guidance: smoothness and regional consistency of errors, where we show that by its successful incorporation, we are able to not only bound the probability of undesirable behavior to happen, but also to reduce RMSE on test data by up to 17%.
翻訳日:2021-04-25 08:10:29 公開日:2020-12-24
# thuir@coliee-2020: 判例検索と補足のための意味理解と正確なマッチングの活用

THUIR@COLIEE-2020: Leveraging Semantic Understanding and Exact Matching for Legal Case Retrieval and Entailment ( http://arxiv.org/abs/2012.13102v1 )

ライセンス: Link先を確認
Yunqiu Shao, Bulou Liu, Jiaxin Mao, Yiqun Liu, Min Zhang, Shaoping Ma(参考訳) 本稿では,法律情報抽出・包括競争における訴訟検索・包括の課題に取り組むための方法論について述べる(coliee-2020)。 我々は,2つの事例検索業務,すなわち,訴訟検索業務と訴訟関連業務に参画した。 タスク1(検索タスク)は、新規ケースが与えられたケース法コーパスから支援ケースを自動的に識別すること、タスク2(附タスク)は、関連ケースにおいて、新規ケースの決定を伴う特定段落を識別することを目的とする。 いずれのタスクにおいても,セマンティック理解のためのニューラルモデルと,正確なマッチングのための従来の検索モデルを採用しました。 その結果、私たちのチーム(TLIR)は、タスク1のチームの中で2位、タスク2のチームでは3位にランクインしました。 実験の結果, 意味理解と厳密なマッチングの融合モデルは, 法的事例検索タスクに有用であり, 法的事例検索タスクは意味理解に強く依存していることが示唆された。

In this paper, we present our methodologies for tackling the challenges of legal case retrieval and entailment in the Competition on Legal Information Extraction / Entailment 2020 (COLIEE-2020). We participated in the two case law tasks, i.e., the legal case retrieval task and the legal case entailment task. Task 1 (the retrieval task) aims to automatically identify supporting cases from the case law corpus given a new case, and Task 2 (the entailment task) to identify specific paragraphs that entail the decision of a new case in a relevant case. In both tasks, we employed the neural models for semantic understanding and the traditional retrieval models for exact matching. As a result, our team (TLIR) ranked 2nd among all of the teams in Task 1 and 3rd among teams in Task 2. Experimental results suggest that combing models of semantic understanding and exact matching benefits the legal case retrieval task while the legal case entailment task relies more on semantic understanding.
翻訳日:2021-04-25 08:09:57 公開日:2020-12-24
# 重み付き有色グラフにおける大域的最適経路を求める一般化a*アルゴリズム

A Generalized A* Algorithm for Finding Globally Optimal Paths in Weighted Colored Graphs ( http://arxiv.org/abs/2012.13057v1 )

ライセンス: Link先を確認
Jaein Lim and Panagiotis Tsiotras(参考訳) 探索空間の幾何学的情報と意味的情報の両方が良い計画に不可欠である。 それらの特性を重み付き色グラフ(エッジ重みと頂点色で意味情報を表す幾何学的情報)にエンコードし、低ランク色エッジを最小に含む経路群の中で最短経路を求める一般化されたA*を提案する。 このクラス順序付きA*(COA*)アルゴリズムの完全性と最適性は、ここで定義された最適性の概念に対して証明する。 coa*の実用性は、2d移動ロボットや3dロボットアーム、センサー能力に乏しい5dロボットアームの場合には、実現可能で実現不可能で未知の頂点と縁を持つ3次グラフで数値的に検証される。 我々はCOA*の結果を通常のA*アルゴリズムと比較し、後者は不確実性に関係なく最短経路を見つけ、COA*がA*解を支配していることを示す。

Both geometric and semantic information of the search space is imperative for a good plan. We encode those properties in a weighted colored graph (geometric information in terms of edge weight and semantic information in terms of edge and vertex color), and propose a generalized A* to find the shortest path among the set of paths with minimal inclusion of low-ranked color edges. We prove the completeness and optimality of this Class-Ordered A* (COA*) algorithm with respect to the hereto defined notion of optimality. The utility of COA* is numerically validated in a ternary graph with feasible, infeasible, and unknown vertices and edges for the cases of a 2D mobile robot, a 3D robotic arm, and a 5D robotic arm with limited sensing capabilities. We compare the results of COA* to that of the regular A* algorithm, the latter of which finds the shortest path regardless of uncertainty, and we show that the COA* dominates the A* solution in terms of finding less uncertain paths.
翻訳日:2021-04-25 08:09:32 公開日:2020-12-24
# 教師なしリアルタイム映像強調のための高能率リカレント・アドバイザラル・フレームワーク

An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time Video Enhancement ( http://arxiv.org/abs/2012.13033v1 )

ライセンス: Link先を確認
Dario Fuoli, Zhiwu Huang, Danda Pani Paudel, Luc Van Gool, Radu Timofte(参考訳) ビデオ強調は、主に計算コストが高く、データ量が大きく、時空間における一貫性の達成が困難であるため、スティルよりも難しい問題である。 実際には、これらの課題は、教師付き学習戦略の適用を阻害するサンプルペアの欠如としばしば結合される。 これらの課題に対処するために,不用意なビデオ例から直接学習する効率的な対角ビデオ強調フレームワークを提案する。 特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。 提案する設計では,フレーム間の時空間情報を効率的に伝達でき,複雑なネットワークの必要性を低減できる。 提案手法では,提案する再帰単位を全てのアーキテクチャで採用することで,非ペア映像からの学習を循環的に行うことができる。 効率的なトレーニングは、ソースとターゲットドメインの合同分布を同時に学習する単一の識別器を導入することで達成される。 その結果,提案する映像エンハンサーは,視覚品質,定量的指標,推論速度の面で,最先端手法よりも明らかに優れていることがわかった。 特に、我々のビデオエンハンサーは、フルhdビデオ(1080x1920)を毎秒35フレーム以上増やすことができる。

Video enhancement is a challenging problem, more than that of stills, mainly due to high computational cost, larger data volumes and the difficulty of achieving consistency in the spatio-temporal domain. In practice, these challenges are often coupled with the lack of example pairs, which inhibits the application of supervised learning strategies. To address these challenges, we propose an efficient adversarial video enhancement framework that learns directly from unpaired video examples. In particular, our framework introduces new recurrent cells that consist of interleaved local and global modules for implicit integration of spatial and temporal information. The proposed design allows our recurrent cells to efficiently propagate spatio-temporal information across frames and reduces the need for high complexity networks. Our setting enables learning from unpaired videos in a cyclic adversarial manner, where the proposed recurrent units are employed in all architectures. Efficient training is accomplished by introducing one single discriminator that learns the joint distribution of source and target domain simultaneously. The enhancement results demonstrate clear superiority of the proposed video enhancer over the state-of-the-art methods, in all terms of visual quality, quantitative metrics, and inference speed. Notably, our video enhancer is capable of enhancing over 35 frames per second of FullHD video (1080x1920).
翻訳日:2021-04-25 08:09:13 公開日:2020-12-24
# モーション画像におけるハンドジェスチャ認識を用いたコンピュータポインターの制御

Control of computer pointer using hand gesture recognition in motion pictures ( http://arxiv.org/abs/2012.13188v1 )

ライセンス: Link先を確認
Yalda Foroutan, Ahmad Kalhor, Saeid Mohammadi Nejati, Samad Sheikhaei(参考訳) ユーザインタフェースは、手動検出とジェスチャーの分類によってコンピュータカーソルを制御するように設計されている。 6720の画像サンプルを持つハンドデータセットを収集し、拳、掌、左向け、右向きの4つのクラスを含む。 画像は、単純な背景と異なる視点と光条件で15人の人物から撮影されます。 CNNネットワークは、このデータセットに基づいてトレーニングされ、キャプチャされた各画像のラベルを予測し、それらの類似度を測定する。 最後に、コマンドはクリック、右クリック、カーソルの移動と定義される。 このアルゴリズムは91.88%の精度を持ち、異なるバックグラウンドで使用できる。

A user interface is designed to control the computer cursor by hand detection and classification of its gesture. A hand dataset with 6720 image samples is collected, including four classes: fist, palm, pointing to the left, and pointing to the right. The images are captured from 15 persons in simple backgrounds and different perspectives and light conditions. A CNN network is trained on this dataset to predict a label for each captured image and measure the similarity of them. Finally, commands are defined to click, right-click and move the cursor. The algorithm has 91.88% accuracy and can be used in different backgrounds.
翻訳日:2021-04-25 08:08:50 公開日:2020-12-24
# 産業環境におけるCNNの3DFポーズ推定とグラッピングへの応用

Effective Deployment of CNNs for 3DoF Pose Estimation and Grasping in Industrial Settings ( http://arxiv.org/abs/2012.13210v1 )

ライセンス: Link先を確認
Daniele De Gregorio, Riccardo Zanella, Gianluca Palli, Luigi Di Stefano(参考訳) 本稿では,ロボット把持アプリケーションなど,実用的な産業環境でディープラーニングを効果的に展開する方法について検討する。 ディープラーニングベースのソリューションが提案された場合、通常、トレーニングデータを生成するための単純な方法が欠如する。 自動化が主な目標である産業では、このギャップを埋めないことが、ディープラーニングが学術的な世界ほど普及していない主な理由の1つである。 そこで本研究では,畳み込みニューラルネットワーク(CNN)に基づく3DoF Pose Estimatorによるシステムを構築し,人間の介入を最小限に抑えながら,現場で大量のトレーニング画像を集める効果的な手法を開発した。 また,ラベル付け段階の自動化により,生産レベルの使用に適した極めて堅牢なシステムも得られる。 実験評価に使用するデータセットとともに,このソリューションのオープンソース実装が提供されている。

In this paper we investigate how to effectively deploy deep learning in practical industrial settings, such as robotic grasping applications. When a deep-learning based solution is proposed, usually lacks of any simple method to generate the training data. In the industrial field, where automation is the main goal, not bridging this gap is one of the main reasons why deep learning is not as widespread as it is in the academic world. For this reason, in this work we developed a system composed by a 3-DoF Pose Estimator based on Convolutional Neural Networks (CNNs) and an effective procedure to gather massive amounts of training images in the field with minimal human intervention. By automating the labeling stage, we also obtain very robust systems suitable for production-level usage. An open source implementation of our solution is provided, alongside with the dataset used for the experimental evaluation.
翻訳日:2021-04-25 08:08:41 公開日:2020-12-24
# 臨床MRI検査における1mm等方性MP-RAGEボリュームの超解像と合成 : 向き,解像度,コントラストの異なるスキャンを用いて

Joint super-resolution and synthesis of 1 mm isotropic MP-RAGE volumes from clinical MRI exams with scans of different orientation, resolution and contrast ( http://arxiv.org/abs/2012.13340v1 )

ライセンス: Link先を確認
Juan Eugenio Iglesias, Benjamin Billot, Yael Balbastre, Azadeh Tabari, John Conklin, Daniel C. Alexander, Polina Golland, Brian L. Edlow, Bruce Fischl(参考訳) 人間の脳MRIスキャンの自動3次元形態計測のためのアルゴリズムは、約1mmの解像度でほぼ等方的なボクセルを持つデータのために設計されており、T1スキャンを必要とする(MP-RAGEなど)。 この制限は、臨床環境では、毎年数百万のMRIスキャンが、大きなスライス間隔("thick slice")で取得されるのを防ぐ。 これらのスキャンを定量的に分析できないことは、医療における定量的なニューロイメージングの導入を妨げ、巨大なサンプルサイズを達成し、人間の脳に対する理解を大幅に改善する研究を妨げている。 CNNの最近の進歩はMRIの超解像およびコントラスト合成において顕著な結果をもたらしている。 しかしながら、これらのアプローチは入力画像のコントラスト、解像度、配向に非常に敏感であり、したがってサイト内においても多様な臨床的取得プロトコルに一般化されない。 コントラスト,解像度,方向の異なる1つ以上の厚めスライススキャンを受信し,標準コントラスト(典型的には1mmMP-RAGE)の等方性スキャンを生成するCNNの訓練方法であるSynthSRを提案する。 提案手法では, 頭蓋骨切断やバイアスフィールド補正などの前処理は不要である。 重要なことは、SynthSRは3Dセグメンテーションから生成された合成入力画像に基づいて訓練し、高解像度のトレーニングデータなしでコントラスト、解像度、方向の組み合わせをCNNに訓練することができる。 また,synthsrを用いて生成した画像から,皮質下セグメンテーションやボリュームトリー,画像登録(テンソル型モーフォメトリーなど),画像品質要件が満たされた場合には皮質厚みモーフォメトリーまで確実に使用できることを示す。 ソースコードはgithub.com/BBillot/S ynthSRで公開されている。

Most existing algorithms for automatic 3D morphometry of human brain MRI scans are designed for data with near-isotropic voxels at approximately 1 mm resolution, and frequently have contrast constraints as well - typically requiring T1 scans (e.g., MP-RAGE). This limitation prevents the analysis of millions of MRI scans acquired with large inter-slice spacing ("thick slice") in clinical settings every year. The inability to quantitatively analyze these scans hinders the adoption of quantitative neuroimaging in healthcare, and precludes research studies that could attain huge sample sizes and hence greatly improve our understanding of the human brain. Recent advances in CNNs are producing outstanding results in super-resolution and contrast synthesis of MRI. However, these approaches are very sensitive to the contrast, resolution and orientation of the input images, and thus do not generalize to diverse clinical acquisition protocols - even within sites. Here we present SynthSR, a method to train a CNN that receives one or more thick-slice scans with different contrast, resolution and orientation, and produces an isotropic scan of canonical contrast (typically a 1 mm MP-RAGE). The presented method does not require any preprocessing, e.g., skull stripping or bias field correction. Crucially, SynthSR trains on synthetic input images generated from 3D segmentations, and can thus be used to train CNNs for any combination of contrasts, resolutions and orientations without high-resolution training data. We test the images generated with SynthSR in an array of common downstream analyses, and show that they can be reliably used for subcortical segmentation and volumetry, image registration (e.g., for tensor-based morphometry), and, if some image quality requirements are met, even cortical thickness morphometry. The source code is publicly available at github.com/BBillot/S ynthSR.
翻訳日:2021-04-25 08:08:27 公開日:2020-12-24
# ベイズ予測型共変量調整

Bayesian prognostic covariate adjustment ( http://arxiv.org/abs/2012.13112v1 )

ライセンス: Link先を確認
David Walsh, Alejandro Schuler, Diana Hall, Jon Walsh, Charles Fisher(参考訳) 疾患の結果に関する歴史的データは、様々な方法で臨床試験の分析に組み込むことができる。 予測モデルから予測スコアを用いた既存の文献をもとに,コ変量調整による治療効果推定の効率を向上させる。 ここでは,予測的共変量調整と経験的事前分布を組み合わせたベイズ的枠組みを,過去の治験における予測モデルの予測性能から学習した。 ベイズ的アプローチは、前者が拡散した場合の厳密なI型エラー制御による確率的共変量調整と、前者が急激なピーク時の単腕トライアルとを補間する。 この方法は理論上、統計的パワーを著しく増加させつつ、合理的な条件下でI型誤差率を制限することが示されている。 我々は,過去のアルツハイマー病臨床治験のシミュレーションおよび解析において本手法の有用性を実証した。

Historical data about disease outcomes can be integrated into the analysis of clinical trials in many ways. We build on existing literature that uses prognostic scores from a predictive model to increase the efficiency of treatment effect estimates via covariate adjustment. Here we go further, utilizing a Bayesian framework that combines prognostic covariate adjustment with an empirical prior distribution learned from the predictive performances of the prognostic model on past trials. The Bayesian approach interpolates between prognostic covariate adjustment with strict type I error control when the prior is diffuse, and a single-arm trial when the prior is sharply peaked. This method is shown theoretically to offer a substantial increase in statistical power, while limiting the type I error rate under reasonable conditions. We demonstrate the utility of our method in simulations and with an analysis of a past Alzheimer's disease clinical trial.
翻訳日:2021-04-25 08:07:52 公開日:2020-12-24
# 相互知識伝達による分散連合学習

Decentralized Federated Learning via Mutual Knowledge Transfer ( http://arxiv.org/abs/2012.13063v1 )

ライセンス: Link先を確認
Chengxi Li, Gang Li, Pramod K. Varshney(参考訳) 本稿では,iot(internet of things)システムにおける分散連合学習(decentralized federated learning, dfl)の問題について検討する。 既存のDFLスキームのほとんどは、2つの交互ステップ、すなわち勾配更新とモデル平均化で構成されている。 しかしながら、ローカルクライアントで異なるモデルを融合させるためにモデルパラメータを直接平均化することは、特にトレーニングデータが異なるクライアント間で異種である場合、ローカルアップデートにおけるクライアントドリフトに悩まされる。 これにより、収束が遅くなり、学習性能が低下する。 そこで本研究では,学習した知識を相互に伝達することによってモデルを融合させる相互知識伝達アルゴリズム(Def-KT)を提案する。 mnist,fashion-mnist, cifar10データセットを用いた実験により,提案するdef-ktアルゴリズムが,モデル平均化によるベースラインdfl法,すなわちcomboおよびfullavg法,特にトレーニングデータが独立で,異なるクライアント間で同一に分散(非iid)された場合において有意に優れていることが明らかになった。

In this paper, we investigate the problem of decentralized federated learning (DFL) in Internet of things (IoT) systems, where a number of IoT clients train models collectively for a common task without sharing their private training data in the absence of a central server. Most of the existing DFL schemes are composed of two alternating steps, i.e., gradient update and model averaging. However, averaging of model parameters directly to fuse different models at the local clients suffers from client-drift in the local updates especially when the training data are heterogeneous across different clients. This leads to slow convergence and degraded learning performance. As a possible solution, we propose the decentralized federated learning via mutual knowledge transfer (Def-KT) algorithm where local clients fuse models by transferring their learnt knowledge to each other. Our experiments on the MNIST, Fashion-MNIST, and CIFAR10 datasets reveal that the proposed Def-KT algorithm significantly outperforms the baseline DFL methods with model averaging, i.e., Combo and FullAvg, especially when the training data are not independent and identically distributed (non-IID) across different clients.
翻訳日:2021-04-25 08:07:39 公開日:2020-12-24
# 可逆ニューラルネットワークによる逆例探索

Exploring Adversarial Examples via Invertible Neural Networks ( http://arxiv.org/abs/2012.13111v1 )

ライセンス: Link先を確認
Ruqi Bai and Saurabh Bagchi and David I. Inouye(参考訳) 逆の例(AEs)は、原画像にわずかな摂動を導入することによって、ディープニューラルネットワーク(DNN)分類器を誤解させることのできるイメージである。 このセキュリティ脆弱性は、ニューラルネットワークに依存するシステムに現実世界の脅威をもたらす可能性があるため、近年、大きな研究につながった。 しかし、敵の例の特徴の深い理解はいまだ解明されていない。 本稿では,リプシッツ連続写像関数を用いたインバータブルニューラルモデル(invertible neural model)の入力から出力への新たな理解方法を提案する。 任意の潜在表現を対応する入力画像に反転させる能力により、より深いレベルで敵の例を調査し、敵の潜在表現を乱すことができる。 このような新たな視点から,高速な空間対向例生成手法を提案し,対向訓練を高速化する。 さらに、この新しい視点は、逆のサンプル検出の新しい方法に貢献するかもしれない。

Adversarial examples (AEs) are images that can mislead deep neural network (DNN) classifiers via introducing slight perturbations into original images. This security vulnerability has led to vast research in recent years because it can introduce real-world threats into systems that rely on neural networks. Yet, a deep understanding of the characteristics of adversarial examples has remained elusive. We propose a new way of achieving such understanding through a recent development, namely, invertible neural models with Lipschitz continuous mapping functions from the input to the output. With the ability to invert any latent representation back to its corresponding input image, we can investigate adversarial examples at a deeper level and disentangle the adversarial example's latent representation. Given this new perspective, we propose a fast latent space adversarial example generation method that could accelerate adversarial training. Moreover, this new perspective could contribute to new ways of adversarial example detection.
翻訳日:2021-04-25 08:07:12 公開日:2020-12-24
# 感度 -- カオス性や勾配を制御するための局所指標

Sensitivity -- Local Index to Control Chaoticity or Gradient Globally ( http://arxiv.org/abs/2012.13134v1 )

ライセンス: Link先を確認
Katsunari Shibata, Takuya Ejima, Yuki Tokumaru, Toshitaka Matsuki(参考訳) 本稿では、ニューラルネットワーク(NN)のカオス性や勾配を世界規模で制御するために、各ニューロンに「感度」という完全に局所的な指標を提案し、さらに「感度調整学習(SAL)」という学習方法を提案する。 インデックスは、その入力に対する出力の勾配の大きさである。 1.0前後に調整することで、ニューロン内の情報伝達は、前方および後方の両方の計算を縮小または拡張することなく中程度に変化し、重みと入力がランダムな場合にも、ニューロン層を通しての情報伝達も中程度に変化する。 したがって、この手法は、リカレントNN(RNN)において、そのグローバルネットワークのカオス性を制御するために使用することができ、また、ディープフィードフォワードNN(DFNN)や長期依存のRNNにおいて、エラーバック伝搬(BP)学習における消滅する勾配問題を解決するためにも使用できる。 我々は、SALを小さなランダムウェイトを持つRNNに適用した場合、対数感度の和は、ネットワークアーキテクチャに関係なく0.0に達するまで、最大リャプノフ指数とほぼ同値であることを示した。 また,SAL は BP や BPTT と連携して,300 層DFNN や RNN において,最初の入力と出力の間に300 段階の遅延が生じる問題を回避する。 学習前の重み行列のスペクトル半径の微調整と比較すると,salの連続的非線形学習特性により学習性能が改善し,感度の低下が抑制された。

In this paper, we propose a fully local index named "sensitivity" for each neuron to control chaoticity or gradient globally in a neural network (NN), and also propose a learning method to adjust it named "sensitivity adjustment learning (SAL)". The index is the gradient magnitude of its output with respect to its inputs. By adjusting it around 1.0, information transmission in the neuron changes to moderate without shrinking or expanding for both forward and backward computations, and the information transmission through a layer of neurons also moderate when the weights and inputs are random. Therefore, it can be used in a recurrent NN (RNN) to control chaoticity of its global network dynamics, and also can be used to solve the vanishing gradient problem in error back propagation (BP) learning in a deep feedforward NN (DFNN) or an RNN with long-term dependency. We demonstrated that when SAL is applied to an RNN with small random weights, the sum of log-sensitivities is almost equivalent to the maximum Lyapunov exponent until it reaches 0.0 regardless of the network architecture. We also show that SAL works with BP or BPTT to avoid the vanishing gradient problem in a 300-layer DFNN or an RNN solving a problem with 300-step lag between the first input and the output. Compared with the fine manual tuning of the spectral radius of weight matrix before learning, the learning performance was quite better due to the continuous nonlinear learning nature of SAL, which prevented the loss of sensitivity.
翻訳日:2021-04-25 08:06:40 公開日:2020-12-24
# 多様な勧告のためのハイブリッドバンドフレームワーク

A Hybrid Bandit Framework for Diversified Recommendation ( http://arxiv.org/abs/2012.13245v1 )

ライセンス: Link先を確認
Qinxu Ding, Yong Liu, Chunyan Miao, Fei Cheng, Haihong Tang(参考訳) 対話型レコメンダシステムでは,ユーザの適切なフィードバックを受けてレコメンデーションポリシを更新することで,レコメンデーション手順にユーザを参加させる。 したがって、実際のアプリケーションシナリオで広く使われている。 これまでのインタラクティブレコメンデーション手法は、主にアイテムセットの関連性に関するユーザのパーソナライズされた好みの学習に焦点を当てている。 しかしながら、アイテムセットの多様性特性に対するユーザのパーソナライズされた好みの調査は通常無視される。 この問題を解決するために,モジュール関数と分散関数の組み合わせを最適化するためのオンライン学習環境であるLinear Modular Dispersion Bandit (LMDB) フレームワークを提案する。 具体的には、lmdbはモジュラー関数を使って各アイテムの関連性をモデル化し、分散関数はアイテム集合の多様性特性を記述する。 さらに,LMDH(Linear Modular Dispersion Hybrid)と呼ばれる学習アルゴリズムも開発し,LMDB問題を解くとともに,そのnステップの後悔に基づいてギャップのない境界を導出する。 推薦精度と多様性のバランスをとるためのlmdbフレームワークの有効性を実証するために,実データセットに関する広範な実験を行った。

The interactive recommender systems involve users in the recommendation procedure by receiving timely user feedback to update the recommendation policy. Therefore, they are widely used in real application scenarios. Previous interactive recommendation methods primarily focus on learning users' personalized preferences on the relevance properties of an item set. However, the investigation of users' personalized preferences on the diversity properties of an item set is usually ignored. To overcome this problem, we propose the Linear Modular Dispersion Bandit (LMDB) framework, which is an online learning setting for optimizing a combination of modular functions and dispersion functions. Specifically, LMDB employs modular functions to model the relevance properties of each item, and dispersion functions to describe the diversity properties of an item set. Moreover, we also develop a learning algorithm, called Linear Modular Dispersion Hybrid (LMDH) to solve the LMDB problem and derive a gap-free bound on its n-step regret. Extensive experiments on real datasets are performed to demonstrate the effectiveness of the proposed LMDB framework in balancing the recommendation accuracy and diversity.
翻訳日:2021-04-25 08:06:12 公開日:2020-12-24
# 軽度認知障害とアルツハイマー病におけるデジタル双生児の病態進展のモデル化

Modeling Disease Progression in Mild Cognitive Impairment and Alzheimer's Disease with Digital Twins ( http://arxiv.org/abs/2012.13455v1 )

ライセンス: Link先を確認
Daniele Bertolini, Anton D. Loukianov, Aaron M. Smith, David Li-Bland, Yannick Pouliot, Jonathan R. Walsh, Charles K. Fisher(参考訳) アルツハイマー病(英語: Alzheimer's Disease, AD)は、神経変性疾患であり、様々な重症度に影響を及ぼし、複数の認知機能機器を用いて臨床試験で評価される。 ADの臨床試験は、病気の早期、特に軽度認知障害(MCI)に重点を置いているため、疾患スペクトラム全体にわたる被験者の結果をモデル化する能力は非常に重要である。 我々は、条件制限ボルツマンマシン(CRBM)と呼ばれる教師なし機械学習モデルを用いて、AD被験者のデジタルツインを作成する。 デジタル双生児(英: digital twins)は、実際の被験者とベースラインデータを共有し、標準治療下での結果を包括的にモデル化する臨床記録である。 CRBMは、観察研究の被験者から得た大量の記録と、ADスペクトル全体にわたる臨床試験のプラセボアームに基づいて訓練されている。 これらのデータは、データセット内の被験者間で測定および欠落した観察の、挑戦的だが一般的なパッチワークを示し、それから効果的に学習する新しいモデルアーキテクチャを提案する。 本研究は,Digital Twinsが,MCIや軽度・軽度ADを含む多彩な疾患重症度で臨床治験において,複数の重要なエンドポイントの進行を同時に捉える方法を示す。

Alzheimer's Disease (AD) is a neurodegenerative disease that affects subjects in a broad range of severity and is assessed in clinical trials with multiple cognitive and functional instruments. As clinical trials in AD increasingly focus on earlier stages of the disease, especially Mild Cognitive Impairment (MCI), the ability to model subject outcomes across the disease spectrum is extremely important. We use unsupervised machine learning models called Conditional Restricted Boltzmann Machines (CRBMs) to create Digital Twins of AD subjects. Digital Twins are simulated clinical records that share baseline data with actual subjects and comprehensively model their outcomes under standard-of-care. The CRBMs are trained on a large set of records from subjects in observational studies and the placebo arms of clinical trials across the AD spectrum. These data exhibit a challenging, but common, patchwork of measured and missing observations across subjects in the dataset, and we present a novel model architecture designed to learn effectively from it. We evaluate performance against a held-out test dataset and show how Digital Twins simultaneously capture the progression of a number of key endpoints in clinical trials across a broad spectrum of disease severity, including MCI and mild-to-moderate AD.
翻訳日:2021-04-25 08:05:52 公開日:2020-12-24
# 保証RL:ほぼ確実に制約のある強化学習

Assured RL: Reinforcement Learning with Almost Sure Constraints ( http://arxiv.org/abs/2012.13036v1 )

ライセンス: Link先を確認
Agustin Castellano and Juan Bazerque and Enrique Mallada(参考訳) 我々は、状態遷移とアクション三重項に対するほぼ確実に制約のあるマルコフ決定過程の最適方針を求める問題を考える。 我々は、報酬プロセスとは独立に実行可能なポリシーを識別できるバリアベースの分解を満たす値とアクション値関数を定義する。 条件 {\pi} が与えられた場合、ある状態-作用対が実現不可能な遷移を行う確率を求める補助的な問題を解くのと同値であることを示す。 この解釈を用いて,Q-Learningに基づくバリア学習アルゴリズムを開発し,そのような安全でない状態-動作ペアを同定する。 我々の分析は、モデルレス制約によるRL問題の解法を可能とし、実現可能性情報を提供するここでのダメージ関数と呼ばれる、追加の信号で強化学習(RL)フレームワークを強化する必要性を動機付けている。 さらに、障壁学習アルゴリズムは、q-learningやsarsaといった既存のrlアルゴリズムを包み込み、ほぼ確実に制約された問題を解決することができる。

We consider the problem of finding optimal policies for a Markov Decision Process with almost sure constraints on state transitions and action triplets. We define value and action-value functions that satisfy a barrier-based decomposition which allows for the identification of feasible policies independently of the reward process. We prove that, given a policy {\pi}, certifying whether certain state-action pairs lead to feasible trajectories under {\pi} is equivalent to solving an auxiliary problem aimed at finding the probability of performing an unfeasible transition. Using this interpretation,we develop a Barrier-learning algorithm, based on Q-Learning, that identifies such unsafe state-action pairs. Our analysis motivates the need to enhance the Reinforcement Learning (RL) framework with an additional signal, besides rewards, called here damage function that provides feasibility information and enables the solution of RL problems with model-free constraints. Moreover, our Barrier-learning algorithm wraps around existing RL algorithms, such as Q-Learning and SARSA, giving them the ability to solve almost-surely constrained problems.
翻訳日:2021-04-25 08:05:01 公開日:2020-12-24
# 学習における統計的効率について

On Statistical Efficiency in Learning ( http://arxiv.org/abs/2012.13307v1 )

ライセンス: Link先を確認
Jie Ding, Enmao Diao, Jiawei Zhou, Vahid Tarokh(参考訳) 多くの統計的学習問題の中心的な問題は、候補モデルから適切なモデルを選択することである。 大きなモデルは分散(あるいは過剰適合)を増大させる傾向があり、小さなモデルは与えられた固定データセットに対するバイアス(または不適合)を引き起こす傾向にある。 本研究では,モデルフィッティングとモデル複雑性のバランスを保ち,信頼性の高い予測力を得るためのモデル選択という重要な課題に対処する。 統計的学習の理論的限界にアプローチするタスクを考えると、選択されたモデルは、潜在的に不特定な候補モデルのクラスが与えられたときの最良のモデルと同じくらいの予測性能を持つ。 本研究では,竹内情報基準の一般化概念を提案し,合理的な仮定の下で最適なアウトサンプル予測損失を漸近的に達成できることを実証する。 これは、竹内の情報基準が我々の最善の知識に対して漸近的であることを示す最初の証拠である。 我々の証明は、様々な非線形モデル、損失関数、高次元性(モデルの複雑さがサンプルサイズで増大するという意味で)に適用できる。 提案手法は, 計算効率のよいクロスバリデーションのためのサロゲートとして使用できる。 さらに,ストリーミングデータのモデル化のために,モデル複雑性を逐次拡大して選択安定性を高め,計算コストを低減するオンラインアルゴリズムを提案する。 実験により,提案手法は予測能力が望ましいこと,計算コストが一般的な手法に比べて著しく低いことがわかった。

A central issue of many statistical learning problems is to select an appropriate model from a set of candidate models. Large models tend to inflate the variance (or overfitting), while small models tend to cause biases (or underfitting) for a given fixed dataset. In this work, we address the critical challenge of model selection to strike a balance between model fitting and model complexity, thus gaining reliable predictive power. We consider the task of approaching the theoretical limit of statistical learning, meaning that the selected model has the predictive performance that is as good as the best possible model given a class of potentially misspecified candidate models. We propose a generalized notion of Takeuchi's information criterion and prove that the proposed method can asymptotically achieve the optimal out-sample prediction loss under reasonable assumptions. It is the first proof of the asymptotic property of Takeuchi's information criterion to our best knowledge. Our proof applies to a wide variety of nonlinear models, loss functions, and high dimensionality (in the sense that the models' complexity can grow with sample size). The proposed method can be used as a computationally efficient surrogate for leave-one-out cross-validation. Moreover, for modeling streaming data, we propose an online algorithm that sequentially expands the model complexity to enhance selection stability and reduce computation cost. Experimental studies show that the proposed method has desirable predictive power and significantly less computational cost than some popular methods.
翻訳日:2021-04-25 08:04:43 公開日:2020-12-24