このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210217となっている論文です。

PDF登録状況(公開日: 20210217)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 高次認知の深層学習のための誘導バイアス

Inductive Biases for Deep Learning of Higher-Level Cognition ( http://arxiv.org/abs/2011.15091v3 )

ライセンス: CC BY 4.0
Anirudh Goyal, Yoshua Bengio(参考訳) 興味深い仮説は、人間と動物の知性は(ヒューリスティックスの百科事典リストではなく)いくつかの原則によって説明できるということである。 もしその仮説が正しければ、私たち自身の知性を理解し、インテリジェントマシンを構築するのがより簡単になります。 物理学と同様に、原理そのものは脳のような複雑なシステムの振る舞いを予測するのに十分ではなく、人間のような知能をシミュレートするには相当な計算が必要かもしれない。 この仮説は、人間や動物が利用する誘導バイアスの研究が、これらの原則を明確にし、AI研究や神経科学理論にインスピレーションを与えるのに役立つことを示唆している。 ディープラーニングはすでに、いくつかの重要な帰納的バイアスを利用しており、この研究はより大きなリストを考察し、主に高レベルかつ逐次的な意識的処理に関するものに焦点を当てている。 これらの特定の原則を明確にする目的は、柔軟な分散と体系的一般化という観点から、人間の能力の恩恵を受けるaiシステムを構築するのに役立つ可能性があることである。

A fascinating hypothesis is that human and animal intelligence could be explained by a few principles (rather than an encyclopedic list of heuristics). If that hypothesis was correct, we could more easily both understand our own intelligence and build intelligent machines. Just like in physics, the principles themselves would not be sufficient to predict the behavior of complex systems like brains, and substantial computation might be needed to simulate human-like intelligence. This hypothesis would suggest that studying the kind of inductive biases that humans and animals exploit could help both clarify these principles and provide inspiration for AI research and neuroscience theories. Deep learning already exploits several key inductive biases, and this work considers a larger list, focusing on those which concern mostly higher-level and sequential conscious processing. The objective of clarifying these particular principles is that they could potentially help us build AI systems benefiting from humans' abilities in terms of flexible out-of-distribution and systematic generalization, which is currently an area where a large gap exists between state-of-the-art machine learning and human intelligence.
翻訳日:2021-06-06 23:04:11 公開日:2021-02-17
# グラフ構造側観察による逆線形コンテキスト帯域

Adversarial Linear Contextual Bandits with Graph-Structured Side Observations ( http://arxiv.org/abs/2012.05756v3 )

ライセンス: Link先を確認
Lingda Wang, Bingcong Li, Huozhi Zhou, Georgios B. Giannakis, Lav R. Varshney, Zhizhen Zhao(参考訳) 本稿では,最も一般的な側面情報である \emph{contexts} と \emph{side observed} の2つのカテゴリを利用する,対角的多腕包帯の変種である,対角的背景包帯について検討する。 この設定において、学習エージェントは、$d$-dimensionalコンテキストベクトルで提示された後、一連の$k$アクションから繰り返し選択する。 エージェントは選択されたアクションの損失を発生させ、観察するだけでなく、一連のフィードバックグラフとして符号化された観測構造における隣り合うアクションの損失も観察する。 この設定は、コンテキストとグラフ構造化された側観察の両方が利用できるソーシャルネットワークの様々なアプリケーションをモデル化する。 2つの効率的なアルゴリズムが \texttt{EXP3} に基づいて開発された。 軽度条件下では、無方向性フィードバックグラフに対して、最初のアルゴリズムである \texttt{EXP3-LGC-U} が次数$\mathcal{O}(\sqrt{(K+\alpha(G)d)T\log{K}})$オーバーザタイム水平線$T$, ここで、$\alpha(G)$はフィードバックグラフの平均 \emph{independence number} となる。 有向グラフの設定についても、もう少し弱い結果が示されます。 第2のアルゴリズムである \textt{exp3-lgc-ix} は特別な問題のクラスのために開発され、後悔は有向および無向フィードバックグラフに対して$\mathcal{o}(\sqrt{\alpha(g)dt\log{k}\log(kt)})$となる。 数値実験は提案アルゴリズムの効率を相関させる。

This paper studies the adversarial graphical contextual bandits, a variant of adversarial multi-armed bandits that leverage two categories of the most common side information: \emph{contexts} and \emph{side observations}. In this setting, a learning agent repeatedly chooses from a set of $K$ actions after being presented with a $d$-dimensional context vector. The agent not only incurs and observes the loss of the chosen action, but also observes the losses of its neighboring actions in the observation structures, which are encoded as a series of feedback graphs. This setting models a variety of applications in social networks, where both contexts and graph-structured side observations are available. Two efficient algorithms are developed based on \texttt{EXP3}. Under mild conditions, our analysis shows that for undirected feedback graphs the first algorithm, \texttt{EXP3-LGC-U}, achieves the regret of order $\mathcal{O}(\sqrt{(K+\alpha(G)d)T\log{K}})$ over the time horizon $T$, where $\alpha(G)$ is the average \emph{independence number} of the feedback graphs. A slightly weaker result is presented for the directed graph setting as well. The second algorithm, \texttt{EXP3-LGC-IX}, is developed for a special class of problems, for which the regret is reduced to $\mathcal{O}(\sqrt{\alpha(G)dT\log{K}\log(KT)})$ for both directed as well as undirected feedback graphs. Numerical tests corroborate the efficiency of proposed algorithms.
翻訳日:2021-05-15 06:17:05 公開日:2021-02-17
# (参考訳) 自己教師付き表現のための情報保存コントラスト学習 [全文訳有]

Information-Preservi ng Contrastive Learning for Self-Supervised Representations ( http://arxiv.org/abs/2012.09962v2 )

ライセンス: CC BY 4.0
Tianhong Li, Lijie Fan, Yuan Yuan, Hao He, Yonglong Tian, Dina Katabi(参考訳) 対照的な学習は、監督なしで有用な表現を学ぶのに非常に効果的である。 しかし、対照的な学習には限界がある。 下流タスクとは無関係なショートカットを学習し、関連する情報を破棄する。 過去の研究は、ショートカットをなくすカスタムデータ拡張によって、この制限に対処してきた。 しかし、このソリューションは、例えば、無線信号など、人間が解釈できないデータモダリティでは機能しない。 このようなモダリティに対して、信号にどのショートカットが存在するか、どのように排除できるかを人間が推測することは困難である。 解釈可能なデータであっても、時々ショートカットを削除するのは望ましくない。 ショートカットはダウンストリームタスクとは無関係かもしれないが、他のタスクにとって重要である。 この場合、ショートカット情報と他のダウンストリームタスクに関連する情報の両方をキャプチャする表現を学習することが望ましい。 本稿では,情報保存コントラスト学習(IPCL)について述べる。 実験により,IPCLが学習した表現は,異なるモダリティと複数の下流タスクをサポートする上で,比較学習よりも優れることを示した。

Contrastive learning is very effective at learning useful representations without supervision. Yet contrastive learning has its limitations. It may learn a shortcut that is irrelevant to the downstream task, and discard relevant information. Past work has addressed this limitation via custom data augmentations that eliminate the shortcut. This solution however does not work for data modalities that are not interpretable by humans, e.g., radio signals. For such modalities, it is hard for a human to guess which shortcuts may exist in the signal, or how they can be eliminated. Even for interpretable data, sometimes eliminating the shortcut may be undesirable. The shortcut may be irrelevant to one downstream task but important to another. In this case, it is desirable to learn a representation that captures both the shortcut information and the information relevant to the other downstream task. This paper presents information-preservi ng contrastive learning (IPCL), a new framework for unsupervised representation learning that preserves relevant information even in the presence of shortcuts. We empirically show that the representations learned by IPCL outperforms contrastive learning in supporting different modalities and multiple diverse downstream tasks.
翻訳日:2021-05-02 09:37:01 公開日:2021-02-17
# (参考訳) CIZSL++: 創造性に触発されたゼロショット学習 [全文訳有]

CIZSL++: Creativity Inspired Generative Zero-Shot Learning ( http://arxiv.org/abs/2101.00173v2 )

ライセンス: CC BY 4.0
Mohamed Elhoseiny, Kai Yi, Mohamed Elfeki(参考訳) ゼロショット学習(ZSL)は、クラスレベルの記述からトレーニング例のない未確認カテゴリを理解することを目的としている。 zslの識別能力を向上させるために,人間の創造性心理学から着想を得て,目立たないカテゴリの視覚学習プロセスをモデル化し,新しい芸術を創造する。 まず,CIZSL-v1を創造的ZSLモデルとして提案する。 ZSLと人間の創造性は、ZSLが目に見えないものを認識することであり、創造性は目に見えないものを創造することである。 創造性に触発された学習信号を導入し,視覚的特徴世代を視覚的特徴世代から視覚的特徴世代へ慎重に逸脱させながら,見知らぬクラスへの知識伝達を可能にした。 第二に、CIZSL-v2はゼロショット学習のためのCIZSL-v1の改良版として提案されている。 CIZSL-v2は、目に見えないクラスに対する追加の帰納的損失と、セマンティックガイド付き判別器による研究からなる。 CUBおよびNABirdsデータセット上のノイズの多いテキストから一般化ZSLの課題において、CIZSLの損失が生成ZSLモデルを改善することを実証的に示す。 また、AwA2、aPY、SUNデータセット上でのAttributeベースのZSLに対するアプローチの利点を示す。 また,CIZSL-v2はCIZSL-v1と比較して性能が向上した。

Zero-shot learning (ZSL) aims at understanding unseen categories with no training examples from class-level descriptions. To improve the discriminative power of ZSL, we model the visual learning process of unseen categories with inspiration from the psychology of human creativity for producing novel art. First, we propose CIZSL-v1 as a creativity inspired model for generative ZSL. We relate ZSL to human creativity by observing that ZSL is about recognizing the unseen, and creativity is about creating a likable unseen. We introduce a learning signal inspired by creativity literature that explores the unseen space with hallucinated class-descriptions and encourages careful deviation of their visual feature generations from seen classes while allowing knowledge transfer from seen to unseen classes. Second, CIZSL-v2 is proposed as an improved version of CIZSL-v1 for generative zero-shot learning. CIZSL-v2 consists of an investigation of additional inductive losses for unseen classes along with a semantic guided discriminator. Empirically, we show consistently that CIZSL losses can improve generative ZSL models on the challenging task of generalized ZSL from a noisy text on CUB and NABirds datasets. We also show the advantage of our approach to Attribute-based ZSL on AwA2, aPY, and SUN datasets. We also show that CIZSL-v2 has improved performance compared to CIZSL-v1.
翻訳日:2021-04-17 13:05:53 公開日:2021-02-17
# スーパービジョンのない小さな事例から一般政策を学ぶ

Learning General Policies from Small Examples Without Supervision ( http://arxiv.org/abs/2101.00692v2 )

ライセンス: Link先を確認
Guillem Franc\`es, Blai Bonet, Hector Geffner(参考訳) 汎用計画とは、計画ドメインの複数のインスタンスを一度に解決する一般的なポリシーの計算に関するものである。 まず, 定性的数値計画問題 (QNP) の形で適切な抽象化をサンプル計画から学習し, 一般政策はプランナーを用いて学習したQNPから得られる。 本稿では,サンプルプランやqnpプランナーを必要とせず,より表現力のある汎用ポリシーを計算するための代替手法を提案する。 新しい定式化は非常に単純で、機械学習でより標準的な言葉でキャスティングできる: 一般的な文法を用いて、計画例の述語から大きくて有限な特徴のプールが定義され、"良い"と"悪い"状態遷移とゴールを非ゴールから分離するために、機能の小さなサブセットが求められている。 このような「分離面」を「良い」あるいは「悪い」とラベル付けしながら発見する問題は、重み付き最大SAT問題として表される単一の組合せ最適化問題として共同で解決される。 与えられた例(おそらくは最適でない)を解決するような与えられた特徴空間において最も単純なポリシーを探す利点は、多くの領域が最適である一般的でコンパクトなポリシーを持たないことである。 このアプローチは多くのベンチマークドメインに対して一般的なポリシーをもたらす。

Generalized planning is concerned with the computation of general policies that solve multiple instances of a planning domain all at once. It has been recently shown that these policies can be computed in two steps: first, a suitable abstraction in the form of a qualitative numerical planning problem (QNP) is learned from sample plans, then the general policies are obtained from the learned QNP using a planner. In this work, we introduce an alternative approach for computing more expressive general policies which does not require sample plans or a QNP planner. The new formulation is very simple and can be cast in terms that are more standard in machine learning: a large but finite pool of features is defined from the predicates in the planning examples using a general grammar, and a small subset of features is sought for separating "good" from "bad" state transitions, and goals from non-goals. The problems of finding such a "separating surface" while labeling the transitions as "good" or "bad" are jointly addressed as a single combinatorial optimization problem expressed as a Weighted Max-SAT problem. The advantage of looking for the simplest policy in the given feature space that solves the given examples, possibly non-optimally, is that many domains have no general, compact policies that are optimal. The approach yields general policies for a number of benchmark domains.
翻訳日:2021-04-12 11:38:38 公開日:2021-02-17
# clear:回帰タスクのための適応型連続学習フレームワーク

CLeaR: An Adaptive Continual Learning Framework for Regression Tasks ( http://arxiv.org/abs/2101.00926v2 )

ライセンス: Link先を確認
Yujiang He, Bernhard Sick(参考訳) 破滅的な忘れは、トレーニングされたニューラルネットワークモデルが、新しいタスクで再トレーニングされたときに、これまで学んだタスクを徐々に忘れることを意味する。 忘れられる問題を克服することは、機械学習の大きな問題である。 多くの連続学習アルゴリズムは、ラベル付きサンプルが頻繁に現れる分類タスクの漸進的な学習において非常に成功している。 しかし、現在我々が知る限り、回帰タスクにおける破滅的な忘れる問題に対処する研究は存在しない。 この問題は、再生可能エネルギー予測のようないくつかの応用において主要な制約の1つとして浮上している。 本稿では,問題関連定義を明確にし,目標を予測し,継続的な学習によって自らを更新できる新しい方法論フレームワークを提案する。 このフレームワークはニューラルネットワークとバッファを予測し、アプリケーション内の非定常データストリームから新たに収集されたデータを格納する。 フレームワークが特定したデータストリームの確率分布の変化は、順次学習される。 このフレームワークはclear(continual learning for regression tasks)と呼ばれ、特定のアプリケーションシナリオのためにコンポーネントを柔軟にカスタマイズすることができる。 我々は,CLeaRフレームワークの適合誤差(トレーニング),予測誤差(テスト),忘れ率の2つの実験セットを設計した。 1つ目は、超パラメータがCLeaRフレームワークにどのように影響するかを研究するための人工時系列に基づいている。 2つ目は、実際のアプリケーションでCLeaRフレームワークのパフォーマンスを評価するために、ヨーロッパの風力発電所から収集されたデータで設計されている。 実験の結果,CLeaRフレームワークはデータストリームの知識を継続的に取得し,予測精度を向上させることができることがわかった。 この記事は、フレームワークを拡張する要件から生じるさらなる研究課題を締めくくっている。

Catastrophic forgetting means that a trained neural network model gradually forgets the previously learned tasks when being retrained on new tasks. Overcoming the forgetting problem is a major problem in machine learning. Numerous continual learning algorithms are very successful in incremental learning of classification tasks, where new samples with their labels appear frequently. However, there is currently no research that addresses the catastrophic forgetting problem in regression tasks as far as we know. This problem has emerged as one of the primary constraints in some applications, such as renewable energy forecasts. This article clarifies problem-related definitions and proposes a new methodological framework that can forecast targets and update itself by means of continual learning. The framework consists of forecasting neural networks and buffers, which store newly collected data from a non-stationary data stream in an application. The changed probability distribution of the data stream, which the framework has identified, will be learned sequentially. The framework is called CLeaR (Continual Learning for Regression Tasks), where components can be flexibly customized for a specific application scenario. We design two sets of experiments to evaluate the CLeaR framework concerning fitting error (training), prediction error (test), and forgetting ratio. The first one is based on an artificial time series to explore how hyperparameters affect the CLeaR framework. The second one is designed with data collected from European wind farms to evaluate the CLeaR framework's performance in a real-world application. The experimental results demonstrate that the CLeaR framework can continually acquire knowledge in the data stream and improve the prediction accuracy. The article concludes with further research issues arising from requirements to extend the framework.
翻訳日:2021-04-11 22:54:19 公開日:2021-02-17
# エネルギーベースのモデルをトレーニングする方法

How to Train Your Energy-Based Models ( http://arxiv.org/abs/2101.03288v2 )

ライセンス: Link先を確認
Yang Song and Diederik P. Kingma(参考訳) 非正規化確率モデルとしても知られるエネルギーベースモデル(EBMs)は、未知の正規化定数まで確率密度や質量関数を指定する。 他の多くの確率モデルとは異なり、ESMは正規化定数のトラクタビリティに制限を課さないため、パラメータ化がより柔軟であり、確率分布のより表現力のある族をモデル化することができる。 しかし、ESMの未知の正規化定数は特に訓練を困難にしている。 私たちの目標は、ebmトレーニングの現代的なアプローチをフレンドリーに紹介することにあります。 まず,マルコフ連鎖モンテカルロ(MCMC)による最大可能性トレーニングについて解説し,スコアマッチング(SM)やノイズコンストラシティブ推定(NCE)などのMCMCフリーアプローチについて詳しく述べる。 我々は,これら3つのアプローチの理論的関連に注目し,現在も活発に研究されている代替訓練方法に関する簡単な調査を行った。 本チュートリアルは,ESMの適用や研究プロジェクト開始を希望する生成モデルの基本的理解者を対象としている。

Energy-Based Models (EBMs), also known as non-normalized probabilistic models, specify probability density or mass functions up to an unknown normalizing constant. Unlike most other probabilistic models, EBMs do not place a restriction on the tractability of the normalizing constant, thus are more flexible to parameterize and can model a more expressive family of probability distributions. However, the unknown normalizing constant of EBMs makes training particularly difficult. Our goal is to provide a friendly introduction to modern approaches for EBM training. We start by explaining maximum likelihood training with Markov chain Monte Carlo (MCMC), and proceed to elaborate on MCMC-free approaches, including Score Matching (SM) and Noise Constrastive Estimation (NCE). We highlight theoretical connections among these three approaches, and end with a brief survey on alternative training methods, which are still under active research. Our tutorial is targeted at an audience with basic understanding of generative models who want to apply EBMs or start a research project in this direction.
翻訳日:2021-04-09 07:26:54 公開日:2021-02-17
# (参考訳) 臨床的実体の学習と文脈言語モデルと明示的文脈との関係 [全文訳有]

Jointly Learning Clinical Entities and Relations with Contextual Language Models and Explicit Context ( http://arxiv.org/abs/2102.11031v1 )

ライセンス: CC BY 4.0
Paul Barry, Sam Henry, Meliha Yetisgen, Bridget McInnes, Ozlem Uzuner(参考訳) 我々は,コンテキスト情報の多タスク学習フレームワークへの明示的な統合が,名前付きエンティティ認識 (NER) と関係抽出 (RE) の併用学習における性能向上のための文脈の重要性を強調することを仮定する。 我々の研究は、エンティティを周囲のコンテキストから分割し、それぞれの独立したセグメントを使用してコンテキスト表現を構築することによって、この仮説を証明する。 この関係表現により、NERとREの両方のタスクにおいて、ほぼ最先端(SOTA)のパフォーマンスを達成し、49.07 F1でエンドツーエンドのNER & REでSOTA REシステムに打ち勝つことができる。

We hypothesize that explicit integration of contextual information into an Multi-task Learning framework would emphasize the significance of context for boosting performance in jointly learning Named Entity Recognition (NER) and Relation Extraction (RE). Our work proves this hypothesis by segmenting entities from their surrounding context and by building contextual representations using each independent segment. This relation representation allows for a joint NER/RE system that achieves near state-of-the-art (SOTA) performance on both NER and RE tasks while beating the SOTA RE system at end-to-end NER & RE with a 49.07 F1.
翻訳日:2021-04-06 03:52:37 公開日:2021-02-17
# (参考訳) 異なる音符種別の自動識別性能 [全文訳有]

Performance of Automatic De-identification Across Different Note Types ( http://arxiv.org/abs/2102.11032v1 )

ライセンス: CC BY 4.0
Nicholas Dobbins, David Wayne, Kahyun Lee, \"Ozlem Uzuner, Meliha Yetisgen(参考訳) フリーテキスト臨床ノートは、患者のケアのあらゆる側面を詳述し、品質改善と保証イニシアチブの促進と、臨床研究の進展を促進する大きな可能性を秘めている。 しかし、患者のプライバシと機密性に関する懸念は、研究のための臨床ノートの使用を制限する。 結果として、これらのノートに記録された情報は、ほとんどの研究者にとって利用できないままである。 脱識別(de-id)、すなわち、個人が特定した保護された健康情報(PHI)の特定と削除は、臨床物語へのアクセスを改善する方法の1つである。 しかし、異なるデータソースと医療専門分野にまたがるphiを一貫して検出できる、市販の非識別システムは限られている。 本稿では,米国ワシントン大学 (UW) が, 外部機関 (Partners Healthcare) と同一機関 (UW) のデータに基づいて, モデルが訓練された場合の, さまざまなノートにNeuroNER1と呼ばれる最先端のde-idシステムの性能を示す。 PHIのレベルとノートのタイプで結果を示す。

Free-text clinical notes detail all aspects of patient care and have great potential to facilitate quality improvement and assurance initiatives as well as advance clinical research. However, concerns about patient privacy and confidentiality limit the use of clinical notes for research. As a result, the information documented in these notes remains unavailable for most researchers. De-identification (de-id), i.e., locating and removing personally identifying protected health information (PHI), is one way of improving access to clinical narratives. However, there are limited off-the-shelf de-identification systems able to consistently detect PHI across different data sources and medical specialties. In this abstract, we present the performance of a state-of-the art de-id system called NeuroNER1 on a diverse set of notes from University of Washington (UW) when the models are trained on data from an external institution (Partners Healthcare) vs. from the same institution (UW). We present results at the level of PHI and note types.
翻訳日:2021-04-06 03:47:03 公開日:2021-02-17
# (参考訳) IFoodCloud:中国の食品安全に関する世論のリアルタイムセンチメント分析プラットフォーム [全文訳有]

IFoodCloud: A Platform for Real-time Sentiment Analysis of Public Opinion about Food Safety in China ( http://arxiv.org/abs/2102.11033v1 )

ライセンス: CC BY 4.0
Dachuan Zhang, Haoyang Zhang, Zhisheng Wei, Yan Li, Zhiheng Mao, Chunmeng He, Haorui Ma, Xin Zeng, Xiaoling Xie, Xingran Kou and Bingwen Zhang(参考訳) インターネットには、食品汚染、食品病、農業汚染、不規則な食品の流通、食品生産の問題など、食品の安全性に関する多くの世論が含まれている。 食品安全に関する世論を体系的に収集し分析するために,中国における食品安全に関する世論のリアルタイム感情分析プラットフォームであるifoodcloudを開発した。 食品安全事件の世論の傾向、世論の感情、地域的関心の相違を調査するのに使用できる3100以上の公的情報源からデータを収集する。 同時に、IFoodCloudと統合された複数の辞書ベースおよびディープラーニングベースのアルゴリズムを用いた感情分類モデルを構築し、特定の食品安全インシデントに対する大衆の感情を理解する前例のない素早い手段を提供した。 ベストモデルのF1スコアは0.9737。 さらに,実例を3つ提示して,適用性と堅牢性を示す。 ifoodcloudは、食品安全監督とリスクコミュニケーションのサイエンタイズを促進する貴重なツールと考えられる。

The Internet contains a wealth of public opinion on food safety, including views on food adulteration, food-borne diseases, agricultural pollution, irregular food distribution, and food production issues. In order to systematically collect and analyse public opinion on food safety, we developed IFoodCloud, a platform for the real-time sentiment analysis of public opinion on food safety in China. It collects data from more than 3,100 public sources that can be used to explore public opinion trends, public sentiment, and regional attention differences of food safety incidents. At the same time, we constructed a sentiment classification model using multiple lexicon-based and deep learning-based algorithms integrated with IFoodCloud that provide an unprecedented rapid means of understanding the public sentiment toward specific food safety incidents. Our best model's F1-score achieved 0.9737. Further, three real-world cases are presented to demonstrate the application and robustness. IFoodCloud could be considered a valuable tool for promote scientisation of food safety supervision and risk communication.
翻訳日:2021-04-06 03:44:10 公開日:2021-02-17
# Pairwise Markov Chainsを用いた高速テキストセグメンテーション

Highly Fast Text Segmentation With Pairwise Markov Chains ( http://arxiv.org/abs/2102.11037v1 )

ライセンス: Link先を確認
Elie Azeraf, Emmanuel Monfrini, Emmanuel Vignon, Wojciech Pieczynski(参考訳) 自然言語処理(NLP)モデルの現在のトレンドは、可能な限り最高のモデルを構築するために、より多くのデータを使用しています。 これは、より高価な計算コストとトレーニング時間、展開の困難、そしてこれらのモデルの炭素フットプリントに対する懸念が将来重要な問題であることを示している。 この傾向に対して、我々の目標は、余分なデータを必要としないNLPモデルを開発し、トレーニング時間を最小化することです。 そこで本稿では,NLPセグメンテーションタスクのためのマルコフ連鎖モデルであるHidden Markov Chain(HMC)とPairwise Markov Chain(PMC)について検討する。 これらのモデルをPOSタグ、名前付きエンティティ認識、チャンキングの3つの古典的アプリケーションに適用する。 テキストセグメンテーションの特定の課題にこれらのモデルを適応させる独自の手法を開発し、非常に短いトレーニングと実行時間で関連するパフォーマンスを得る。 PMCは、条件付きランダムフィールド(CRF)によって得られたものと同等の結果を得る。 さらに, PMC のトレーニング時間は CRF の30倍も短く, 本モデルの有効性を検証した。

Natural Language Processing (NLP) models' current trend consists of using increasingly more extra-data to build the best models as possible. It implies more expensive computational costs and training time, difficulties for deployment, and worries about these models' carbon footprint reveal a critical problem in the future. Against this trend, our goal is to develop NLP models requiring no extra-data and minimizing training time. To do so, in this paper, we explore Markov chain models, Hidden Markov Chain (HMC) and Pairwise Markov Chain (PMC), for NLP segmentation tasks. We apply these models for three classic applications: POS Tagging, Named-Entity-Recogni tion, and Chunking. We develop an original method to adapt these models for text segmentation's specific challenges to obtain relevant performances with very short training and execution times. PMC achieves equivalent results to those obtained by Conditional Random Fields (CRF), one of the most applied models for these tasks when no extra-data are used. Moreover, PMC has training times 30 times shorter than the CRF ones, which validates this model given our objectives.
翻訳日:2021-04-05 00:42:22 公開日:2021-02-17
# Hidden Neural Markov Chainフレームワークの紹介

Introducing the Hidden Neural Markov Chain framework ( http://arxiv.org/abs/2102.11038v1 )

ライセンス: Link先を確認
Elie Azeraf, Emmanuel Monfrini, Emmanuel Vignon, Wojciech Pieczynski(参考訳) 今日では、ニューラルネットワークモデルはコンピュータビジョンや音声処理など、多くの分野で最先端の結果を達成する。 特に自然言語処理(NLP)タスク、リカレントニューラルネットワーク(RNN)とその拡張のために、Long Short Term Memory(LSTM)ネットワークとGated Recurrent Unit(GRU)が最もよく使われているモデルであり、「長期」シーケンス処理を備えている。 しかしながら、多くの研究がRNNの拡張と改善を作成している場合、ニューラルネットワークによるシーケンシャルなデータ処理を“長期的”な方法で開発することに重点を置いているものはほとんどない。 本稿では,ニューラルモデルの新しいファミリーであるHNMC(Hidden Neural Markov Chain)フレームワークを提案する。 それらはRNNではなく、確率的グラフィカルモデルであるHidden Markov Model (HMM)に基づいている。 この神経拡張は、最近のHMM復元のためのエントロピックフォワードバックワードアルゴリズムのおかげで可能である。 我々は,古典的HNMC,HNMC2,HNMC-CNの3つのモデルを提案する。 モデル全体の構成を説明した後、Chunking、Part-Of-Speech Tagging、Named Entity Recognitionといったシーケンスラベリングタスクの古典的なRNNとBidirectional RNN(BiRNN)モデルと比較した。 どの実験でも、アーキテクチャや組み込みメソッドが何であれ、提案するモデルの1つが最良の結果を得ます。 これはこの新しいニューラルネットワークシーケンシャルフレームワークの可能性を示し、新しいモデルへの道を開くことができ、最終的には一般的なBiLSTMやBiGRUと競合する可能性がある。

Nowadays, neural network models achieve state-of-the-art results in many areas as computer vision or speech processing. For sequential data, especially for Natural Language Processing (NLP) tasks, Recurrent Neural Networks (RNNs) and their extensions, the Long Short Term Memory (LSTM) network and the Gated Recurrent Unit (GRU), are among the most used models, having a "term-to-term" sequence processing. However, if many works create extensions and improvements of the RNN, few have focused on developing other ways for sequential data processing with neural networks in a "term-to-term" way. This paper proposes the original Hidden Neural Markov Chain (HNMC) framework, a new family of sequential neural models. They are not based on the RNN but on the Hidden Markov Model (HMM), a probabilistic graphical model. This neural extension is possible thanks to the recent Entropic Forward-Backward algorithm for HMM restoration. We propose three different models: the classic HNMC, the HNMC2, and the HNMC-CN. After describing our models' whole construction, we compare them with classic RNN and Bidirectional RNN (BiRNN) models for some sequence labeling tasks: Chunking, Part-Of-Speech Tagging, and Named Entity Recognition. For every experiment, whatever the architecture or the embedding method used, one of our proposed models has the best results. It shows this new neural sequential framework's potential, which can open the way to new models, and might eventually compete with the prevalent BiLSTM and BiGRU.
翻訳日:2021-04-05 00:42:03 公開日:2021-02-17
# 線形時間における木の最小射影線型化

Minimum projective linearizations of trees in linear time ( http://arxiv.org/abs/2102.03277v2 )

ライセンス: Link先を確認
Llu\'is Alemany-Puig, Juan Luis Esteban, Ramon Ferrer-i-Cancho(参考訳) 最小線形配置問題(MLA)は、グラフの頂点から整数への写像 $\pi$ を求め、$\sum_{uv\in E}|\pi(u) - \pi(v)|$ を最小化する。 木の場合、多項式時間で問題を解くための様々なアルゴリズムが利用可能であり、最もよく知られた実行時間は$n=|V|$である。 MLA の変種には、アレンジメントがある種の射影性のクラスに制約されるものがある。 Iordanskii と後に Hochberg と Stallmann (HS) が提案した$O(n)$-time アルゴリズムは、アレンジが平面であるように制約されたときに問題を解決する。 また、射影に制約のあるルート木の線形配置についても検討する。 Gildea と Temperley (GT) は、プロジェクティビティ制約のアルゴリズムをスケッチした。 対照的に、パークとレヴィは、gt のアルゴリズムは $o(n \log d_{max})$ で実行され、ここで $d_{max}$ は最大次数であるが十分な詳細は示されていないと主張した。 ここでは、平面ケースに対するHSのアルゴリズムの誤差を補正し、射影ケースとの関係を示し、$O(n)$-timeで必然的に実行される射影ケースに対するアルゴリズムを導出する。

The minimum linear arrangement problem (MLA) consists of finding a mapping $\pi$ from vertices of a graph to integers that minimizes $\sum_{uv\in E}|\pi(u) - \pi(v)|$. For trees, various algorithms are available to solve the problem in polynomial time; the best known runs in subquadratic time in $n=|V|$. There exist variants of the MLA in which the arrangements are constrained to certain classes of projectivity. Iordanskii, and later Hochberg and Stallmann (HS), put forward $O(n)$-time algorithms that solve the problem when arrangements are constrained to be planar. We also consider linear arrangements of rooted trees that are constrained to be projective. Gildea and Temperley (GT) sketched an algorithm for the projectivity constraint which, as they claimed, runs in $O(n)$ but did not provide any justification of its cost. In contrast, Park and Levy claimed that GT's algorithm runs in $O(n \log d_{max})$ where $d_{max}$ is the maximum degree but did not provide sufficient detail. Here we correct an error in HS's algorithm for the planar case, show its relationship with the projective case, and derive an algorithm for the projective case that runs undoubtlessly in $O(n)$-time.
翻訳日:2021-04-05 00:31:18 公開日:2021-02-17
# 双曲型ディープニューラルネットワーク:調査

Hyperbolic Deep Neural Networks: A Survey ( http://arxiv.org/abs/2101.04562v3 )

ライセンス: Link先を確認
Wei Peng, Tuomas Varanka, Abdelrahman Mostafa, Henglin Shi, Guoying Zhao(参考訳) 近年,知識グラフや同義語階層などのデータモデリング能力が高く,階層構造を持つため,双曲空間における深層表現学習の勢いが高まっている。 本稿では,このモデルを双曲型深層ニューラルネットワークと呼ぶ。 このような双曲型ニューラルアーキテクチャは、ユークリッド空間のそれと同等の物理的解釈可能性を持つ劇的にコンパクトなモデルをもたらす可能性がある。 本稿では,双曲型ディープ・ニューラルネット構築における神経成分に関する文献と,双曲型ディープ・ニューラルネット構築における主要なディープ・アプローチの一般化を包括的かつ包括的に検討する。 また、いくつかの公開データセット上でのさまざまな機械学習タスクに関する現在のアプリケーションや、洞察に富んだ観察、オープンクエストの特定、将来有望な方向性も提示する。

Recently, there has been a rising surge of momentum for deep representation learning in hyperbolic spaces due to theirhigh capacity of modeling data like knowledge graphs or synonym hierarchies, possessing hierarchical structure. We refer to the model as hyperbolic deep neural network in this paper. Such a hyperbolic neural architecture potentially leads to drastically compact model withmuch more physical interpretability than its counterpart in Euclidean space. To stimulate future research, this paper presents acoherent and comprehensive review of the literature around the neural components in the construction of hyperbolic deep neuralnetworks, as well as the generalization of the leading deep approaches to the Hyperbolic space. It also presents current applicationsaround various machine learning tasks on several publicly available datasets, together with insightful observations and identifying openquestions and promising future directions.
翻訳日:2021-04-04 01:50:51 公開日:2021-02-17
# Intact-VAE:未観察埋没時の治療効果の推定

Intact-VAE: Estimating Treatment Effects under Unobserved Confounding ( http://arxiv.org/abs/2101.06662v2 )

ライセンス: Link先を確認
Pengzhou Wu and Kenji Fukumizu(参考訳) 因果推論の重要な問題として,治療効果の同定と推定について検討した。 共同創設者を潜在変数として表現し,治療効果の同定に十分な予後スコアに動機づけられた変異型オートエンコーダ(vae)の新たな変種であるalt-vaeを提案する。 理論的には、ある条件下では、治療効果はモデルによって同定され、さらに、我々のモデル(表現の決定性)の識別性に基づいて、我々のvaeは治療群に対してバランスの取れた一貫した推定子であることが示されている。 半)合成データセットの実験は、様々な設定で最先端のパフォーマンスを示す。

As an important problem of causal inference, we discuss the identification and estimation of treatment effects under unobserved confounding. Representing the confounder as a latent variable, we propose Intact-VAE, a new variant of variational autoencoder (VAE), motivated by the prognostic score that is sufficient for identifying treatment effects. We theoretically show that, under certain settings, treatment effects are identified by our model, and further, based on the identifiability of our model (i.e., determinacy of representation), our VAE is a consistent estimator with representation balanced for treatment groups. Experiments on (semi-)synthetic datasets show state-of-the-art performance under diverse settings.
翻訳日:2021-03-27 20:19:59 公開日:2021-02-17
# (参考訳) ジョイントエンティティと関係抽出のためのトリガー・センスメモリフローフレームワーク [全文訳有]

A Trigger-Sense Memory Flow Framework for Joint Entity and Relation Extraction ( http://arxiv.org/abs/2101.10213v2 )

ライセンス: CC BY 4.0
Yongliang Shen, Xinyin Ma, Yechun Tang, Weiming Lu(参考訳) 統合エンティティと関係抽出フレームワークは、エンティティ認識と関係抽出を同時に行う統一モデルを構築し、これら2つのタスク間の依存関係を利用してパイプラインモデルが抱えるエラー伝搬問題を緩和する。 共同エンティティと関係抽出に関する現在の取り組みは、パラメータ共有、共同復号化、その他のアドホックなトリック(例えば、半マルコフ決定プロセスとしてモデル化され、マルチラウンド読解タスクとしてキャストされる)を通じて、エンティティ認識と関係抽出の相互作用を強化することに焦点を当てている。 しかし、テーブル上にはまだ2つの問題があります。 第一に、ほとんどのメソッドが利用する相互作用は、まだ弱く一方向であり、2つのタスク間の相互依存性をモデル化できない。 第二に、関係トリガーはほとんどの方法によって無視され、人間が文内の関係を抽出する理由を説明するのに役立つ。 関係抽出には不可欠ですが 見過ごされています そこで本研究では,結合エンティティと関係抽出のためのトリガー・センスメモリフローフレームワーク(trimf)を提案する。 エンティティ認識と関係抽出タスクで学習したカテゴリ表現を記憶するためのメモリモジュールを構築する。 そこで我々は,エンティティ認識と関係抽出の双方向相互作用を強化するため,マルチレベルメモリフローアテンション機構を設計する。 さらに,人間のアノテーションを使わずに,トリガセンサモジュールを通じて文中の関係性トリガ情報を高めることで,モデル性能の向上とより優れた解釈によるモデル予測を実現する。 実験の結果,SciERCではF1から52.44%(+3.2%),ACE05では66.49%(+4.9%),CoNLL04では72.35%(+0.6%),ADEでは80.66%(+2.3%)であった。

Joint entity and relation extraction framework constructs a unified model to perform entity recognition and relation extraction simultaneously, which can exploit the dependency between the two tasks to mitigate the error propagation problem suffered by the pipeline model. Current efforts on joint entity and relation extraction focus on enhancing the interaction between entity recognition and relation extraction through parameter sharing, joint decoding, or other ad-hoc tricks (e.g., modeled as a semi-Markov decision process, cast as a multi-round reading comprehension task). However, there are still two issues on the table. First, the interaction utilized by most methods is still weak and uni-directional, which is unable to model the mutual dependency between the two tasks. Second, relation triggers are ignored by most methods, which can help explain why humans would extract a relation in the sentence. They're essential for relation extraction but overlooked. To this end, we present a Trigger-Sense Memory Flow Framework (TriMF) for joint entity and relation extraction. We build a memory module to remember category representations learned in entity recognition and relation extraction tasks. And based on it, we design a multi-level memory flow attention mechanism to enhance the bi-directional interaction between entity recognition and relation extraction. Moreover, without any human annotations, our model can enhance relation trigger information in a sentence through a trigger sensor module, which improves the model performance and makes model predictions with better interpretation. Experiment results show that our proposed framework achieves state-of-the-art results by improves the relation F1 to 52.44% (+3.2%) on SciERC, 66.49% (+4.9%) on ACE05, 72.35% (+0.6%) on CoNLL04 and 80.66% (+2.3%) on ADE.
翻訳日:2021-03-15 03:30:36 公開日:2021-02-17
# エンドツーエンドの音声認識モデルはコンテキストを気にするだろうか?

Do End-to-End Speech Recognition Models Care About Context? ( http://arxiv.org/abs/2102.09928v1 )

ライセンス: Link先を確認
Lasse Borgholt, Jakob Drachmann Havtorn, \v{Z}eljko Agi\'c, Anders S{\o}gaard, Lars Maal{\o}e, Christian Igel(参考訳) エンドツーエンド音声認識の最も一般的なパラダイムは、コネクショニスト時間分類(CTC)とアテンションベースのエンコーダデコーダ(AED)モデルである。 後者は暗黙の言語モデルを学ぶのに適していると論じられている。 この仮説を時間的コンテキスト感度の測定によって検証し、オーディオ入力におけるコンテキスト情報の量を制限する際にモデルがどのように機能するかを評価します。 AEDモデルの方がコンテキストに敏感であることは明らかだが,CTCモデルに自己注意を加えることで,そのギャップを埋めることができる。 さらに、文脈情報が制約された場合にも同様に2つのモデルが機能する。 最後に, 従来の研究とは対照的に, CTCモデルは外部言語モデルの助けなしに, WSJ や LibriSpeech に対して高い競争力を持つことを示す。

The two most common paradigms for end-to-end speech recognition are connectionist temporal classification (CTC) and attention-based encoder-decoder (AED) models. It has been argued that the latter is better suited for learning an implicit language model. We test this hypothesis by measuring temporal context sensitivity and evaluate how the models perform when we constrain the amount of contextual information in the audio input. We find that the AED model is indeed more context sensitive, but that the gap can be closed by adding self-attention to the CTC model. Furthermore, the two models perform similarly when contextual information is constrained. Finally, in contrast to previous research, our results show that the CTC model is highly competitive on WSJ and LibriSpeech without the help of an external language model.
翻訳日:2021-02-22 13:33:26 公開日:2021-02-17
# (参考訳) マルチモーダル自然言語処理のための脳波脳活動のデコード [全文訳有]

Decoding EEG Brain Activity for Multi-Modal Natural Language Processing ( http://arxiv.org/abs/2102.08655v1 )

ライセンス: CC BY 4.0
Nora Hollenstein, Cedric Renggli, Benjamin Glaus, Maria Barrett, Marius Troendle, Nicolas Langer, Ce Zhang(参考訳) 最近まで、読書からの人間の行動データは、主に人間の認知を理解する研究者にとって関心のあるものだった。 しかし、これらの人間の言語処理信号は、機械学習に基づく自然言語処理タスクにも有用である。 この目的のために脳波の脳活動を使用することは、まだほとんど未解明です。 本稿では,脳波脳活動データによる自然言語処理タスク改善の可能性を体系的に解析する最初の大規模研究を行い,信号の特徴が最も有益であることを示す。 テキスト入力とEEG機能から共同で学習するマルチモーダル機械学習アーキテクチャを提案する。 脳波信号を周波数帯域にフィルタリングすることはブロードバンド信号よりも有益であることがわかった。 さらに、さまざまな単語埋め込みタイプでは、EEGデータは二項および三項の感情分類を改善し、複数のベースラインを上回ります。 関係検出などの複雑なタスクには、さらなる研究が必要である。 最後に、EEGデータは、限られたトレーニングデータが利用できる場合に特に有望であることを示している。

Until recently, human behavioral data from reading has mainly been of interest to researchers to understand human cognition. However, these human language processing signals can also be beneficial in machine learning-based natural language processing tasks. Using EEG brain activity to this purpose is largely unexplored as of yet. In this paper, we present the first large-scale study of systematically analyzing the potential of EEG brain activity data for improving natural language processing tasks, with a special focus on which features of the signal are most beneficial. We present a multi-modal machine learning architecture that learns jointly from textual input as well as from EEG features. We find that filtering the EEG signals into frequency bands is more beneficial than using the broadband signal. Moreover, for a range of word embedding types, EEG data improves binary and ternary sentiment classification and outperforms multiple baselines. For more complex tasks such as relation detection, further research is needed. Finally, EEG data shows to be particularly promising when limited training data is available.
翻訳日:2021-02-21 12:59:46 公開日:2021-02-17
# (参考訳) コンセプト12M: Webスケールの画像テキストプリトレーニングをプッシュして、ロングテールのビジュアルコンセプトを認識する [全文訳有]

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts ( http://arxiv.org/abs/2102.08981v1 )

ライセンス: CC BY 4.0
Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut(参考訳) 大規模画像キャプションと視覚的質問応答データセットの可用性は、視覚と言語による事前学習の成功に大きく貢献している。 しかし、これらのデータセットはしばしば、元のターゲットタスク(例えば、イメージキャプション生成)から継承される制限的な要件で収集され、結果として生じるデータセットのスケールと多様性が制限される。 我々は,概念キャプション3M (CC3M) [Sharma et al.]で使用されるデータ収集パイプラインを緩和することにより,視覚と言語による事前学習データの限界を推し進める。 概念的12M(Conceptual 12M, CC12M)は、画像とテキストのペアが1200万あり、視覚と言語の事前学習に使用される。 このデータセットを解析し、複数の下流タスクにおけるCC3Mに対する有効性を、長い尾の視覚的認識に重点を置いて評価する。 定量的および定性的な結果は、nocapsとConceptual Captionsベンチマークの両方で最新の結果が示すように、ビジョンおよび言語タスクの事前トレーニングデータをスケールアップするメリットを明確に示しています。

The availability of large-scale image captioning and visual question answering datasets has contributed significantly to recent successes in vision-and-language pre-training. However, these datasets are often collected with overrestrictive requirements, inherited from their original target tasks (e.g., image caption generation), which limit the resulting dataset scale and diversity. We take a step further in pushing the limits of vision-and-language pre-training data by relaxing the data collection pipeline used in Conceptual Captions 3M (CC3M) [Sharma et al. 2018] and introduce the Conceptual 12M (CC12M), a dataset with 12 million image-text pairs specifically meant to be used for vision-and-language pre-training. We perform an analysis of this dataset, as well as benchmark its effectiveness against CC3M on multiple downstream tasks with an emphasis on long-tail visual recognition. The quantitative and qualitative results clearly illustrate the benefit of scaling up pre-training data for vision-and-language tasks, as indicated by the new state-of-the-art results on both the nocaps and Conceptual Captions benchmarks.
翻訳日:2021-02-20 05:55:14 公開日:2021-02-17
# (参考訳) 衛星画像とステーションベース土壌パラメータを用いたイチゴ収量・価格予測のための深層学習手法 [全文訳有]

Deep Learning Approaches for Forecasting Strawberry Yields and Prices Using Satellite Images and Station-Based Soil Parameters ( http://arxiv.org/abs/2102.09024v1 )

ライセンス: CC BY 4.0
Mohita Chaudhary, Mohamed Sadok Gastli, Lobna Nassar, Fakhri Karray(参考訳) 新鮮な農産物の収量と価格を予測する計算ツールは、伝統的な機械学習アプローチや時系列モデリングに基づいている。 本稿では,カリフォルニア州サンタバーバラ郡のイチゴ収量と価格を予測するためのディープラーニングアルゴリズムに基づく代替手法を提案する。 提案した予測モデルの構築には,まず,その複合深層学習成分を用いた局面型アンサンブルモデル(ATT-CNN-LSTM-Series Net_Ens)と,その入力としてサンタバーバラの局面型土壌温度および湿度データを用いて学習し,出力として対応するイチゴ収量または価格を用いた畳み込みニューラルネットワークLSTM(Att-CNN-LSTM)の3段階からなる。 第二に、Convolutional NeuralNetwork LSTM(CNN-LSTM)モデルのアンサンブルモデルであるリモートセンシングアンサンブルモデル(SIM_CNN-LSTM_Ens)は、出力と同じ歩留まりと価格にマップされた入力と同じ郡の衛星画像を使用して訓練およびテストされます。 これら2つのアンサンブルは、イチゴの収量や価格を予測し、予測誤差を最小限に抑え、モデル相関の最高値を5週間先延ばしして予測し、最後に、投票アンサンブルを導入することで、利回りと価格の最終的な予測値を得る。 集計されたパフォーマンス測定(AGM)に基づいて、この投票アンサンブルは、最高のパフォーマンスコンポーネントモデルと比較して予測性能を5%向上させるだけでなく、文献で見つかったディープラーニング(DL)アンサンブルモデルよりも33%高く、予測利回りは21%高いことが判明しました。

Computational tools for forecasting yields and prices for fresh produce have been based on traditional machine learning approaches or time series modelling. We propose here an alternate approach based on deep learning algorithms for forecasting strawberry yields and prices in Santa Barbara county, California. Building the proposed forecasting model comprises three stages: first, the station-based ensemble model (ATT-CNN-LSTM-Series Net_Ens) with its compound deep learning components, SeriesNet with Gated Recurrent Unit (GRU) and Convolutional Neural Network LSTM with Attention layer (Att-CNN-LSTM), are trained and tested using the station-based soil temperature and moisture data of SantaBarbara as input and the corresponding strawberry yields or prices as output. Secondly, the remote sensing ensemble model (SIM_CNN-LSTM_Ens), which is an ensemble model of Convolutional NeuralNetwork LSTM (CNN-LSTM) models, is trained and tested using satellite images of the same county as input mapped to the same yields and prices as output. These two ensembles forecast strawberry yields and prices with minimal forecasting errors and highest model correlation for five weeks ahead forecasts.Finally, the forecasts of these two models are ensembled to have a final forecasted value for yields and prices by introducing a voting ensemble. Based on an aggregated performance measure (AGM), it is found that this voting ensemble not only enhances the forecasting performance by 5% compared to its best performing component model but also outperforms the Deep Learning (DL) ensemble model found in literature by 33% for forecasting yields and 21% for forecasting prices
翻訳日:2021-02-20 05:25:38 公開日:2021-02-17
# (参考訳) BORE:密度比推定によるベイズ最適化 [全文訳有]

BORE: Bayesian Optimization by Density-Ratio Estimation ( http://arxiv.org/abs/2102.09009v1 )

ライセンス: CC BY 4.0
Louis C. Tiao, Aaron Klein, Matthias Seeger, Edwin V. Bonilla, Cedric Archambeau, Fabio Ramos(参考訳) ベイズ最適化(BO)は最も効果的で広く使われているブラックボックス最適化手法の一つである。 BOは、獲得関数にエンコードされた探索・探索トレードオフ基準に従ってソリューションを提案し、その多くは確率的代理モデルの後方予測から計算される。 主なものは、期待される改善(EI)機能である。 予測の分析的扱いやすさを確保する必要性は、しばしばboの効率と適用性を阻害する限界をもたらす。 本稿では,クラス確率推定と密度比推定の関係と,密度比とEIとのあまり知られていない関係を基盤として,EIの計算を二元分類問題として投げかける。 トラクタビリティの制約を回避することによって、この改革は表現力、汎用性、スケーラビリティの点で、特に多くの利点を提供します。

Bayesian optimization (BO) is among the most effective and widely-used blackbox optimization methods. BO proposes solutions according to an explore-exploit trade-off criterion encoded in an acquisition function, many of which are computed from the posterior predictive of a probabilistic surrogate model. Prevalent among these is the expected improvement (EI) function. The need to ensure analytical tractability of the predictive often poses limitations that can hinder the efficiency and applicability of BO. In this paper, we cast the computation of EI as a binary classification problem, building on the link between class-probability estimation and density-ratio estimation, and the lesser-known link between density-ratios and EI. By circumventing the tractability constraints, this reformulation provides numerous advantages, not least in terms of expressiveness, versatility, and scalability.
翻訳日:2021-02-20 04:11:18 公開日:2021-02-17
# (参考訳) Differential Private Hogwild! 分散ローカルデータセットを乗り越える [全文訳有]

Differential Private Hogwild! over Distributed Local Data Sets ( http://arxiv.org/abs/2102.09030v1 )

ライセンス: CC BY 4.0
Marten van Dijk, Nhuong V. Nguyen, Toan N. Nguyen, Lam M. Nguyen and Phuong Ha Nguyen(参考訳) 私たちはHogwildを検討します! クライアントがガウシアンベースの差分プライバシー(DP)を使用してローカルSGDイテレーションを使用する設定は、(1)グローバルモデル(ローカルSGD更新をグローバルモデルに集約する集中型サーバーと一丸となって対話することによって)に共同で収束し、(2)各ローカルデータセットを外部世界(クライアントとサーバーのインタラクションを監視できる他のすべてのクライアントを含む)に対して差分プライベートに保つことを目的としています。 局所データセットが$(\epsilon,\delta)$- dp であるようなサンプルサイズシーケンスの広いクラス(各ラウンドの局所 sgd イテレーションの数を定義する)に対して、中央サーバとのラウンドインタラクション毎に付加されたガウスノイズの標準偏差 $\sigma$ が少なくとも $\sqrt{2(\epsilon+ \ln(1/\delta))/\epsi lon}$ であることを示す。

We consider the Hogwild! setting where clients use local SGD iterations with Gaussian based Differential Privacy (DP) for their own local data sets with the aim of (1) jointly converging to a global model (by interacting at a round to round basis with a centralized server that aggregates local SGD updates into a global model) while (2) keeping each local data set differentially private with respect to the outside world (this includes all other clients who can monitor client-server interactions). We show for a broad class of sample size sequences (this defines the number of local SGD iterations for each round) that a local data set is $(\epsilon,\delta)$- DP if the standard deviation $\sigma$ of the added Gaussian noise per round interaction with the centralized server is at least $\sqrt{2(\epsilon+ \ln(1/\delta))/\epsi lon}$.
翻訳日:2021-02-20 01:34:08 公開日:2021-02-17
# (参考訳) 推定・サンプリングのための深度極値コプラー [全文訳有]

Deep Extreme Value Copulas for Estimation and Sampling ( http://arxiv.org/abs/2102.09042v1 )

ライセンス: CC BY 4.0
Ali Hasan, Khalil Elkhalil, Joao M. Pereira, Sina Farsiu, Jose H. Blanchet, Vahid Tarokh(参考訳) 本稿では,高次元極値分布の分布関数をモデル化する新しい手法を提案する。 ピカンズ依存関数は尾の共変量間の関係をモデル化し、その必要特性を満たすように設計されたニューラルネットワークを用いてこの関数を学習する。 さらに,極端分布のスペクトル表現を復元する新しい手法を提案し,極端コプラからのサンプリングのための生成モデルを提案する。 提案手法の有効性と将来性を示す数値的な例を示す。

We propose a new method for modeling the distribution function of high dimensional extreme value distributions. The Pickands dependence function models the relationship between the covariates in the tails, and we learn this function using a neural network that is designed to satisfy its required properties. Moreover, we present new methods for recovering the spectral representation of extreme distributions and propose a generative model for sampling from extreme copulas. Numerical examples are provided demonstrating the efficacy and promise of our proposed methods.
翻訳日:2021-02-20 01:04:08 公開日:2021-02-17
# (参考訳) Contrast-Aware Generative Adversarial Networks を用いた高機能磁気共鳴画像合成 [全文訳有]

Enhanced Magnetic Resonance Image Synthesis with Contrast-Aware Generative Adversarial Networks ( http://arxiv.org/abs/2102.09386v1 )

ライセンス: CC BY 4.0
Jonas Denck, Jens Guehring, Andreas Maier, Eva Rothgang(参考訳) 磁気共鳴イメージング(MRI)試験は通常、信頼性の高い診断に必要な複数のMRパルスシーケンスの取得で構成されています。 各シーケンスはmr画像のコントラスト、信号対雑音比、解像度、スキャン時間に影響する複数の取得パラメータを通じてパラメータ化することができる。 生成的ディープラーニングモデルの台頭に伴い、MR画像合成のためのアプローチが開発され、追加のMRコントラストを合成したり、合成データを生成したり、AIトレーニングのための既存のデータを拡張することができる。 しかし, MR画像合成における現在の生成的アプローチは, 特定の取得パラメータ値のセットを持つ画像に対してのみ訓練されており, 様々な取得パラメータ設定のセットとして, それらの手法の臨床的価値を制限している。 そこで我々はGAN(Generative Adversarial Network)を訓練し,様々な獲得パラメータ(反復時間,エコー時間,画像方向)に基づいて合成MR膝画像を生成する。 このアプローチにより、調整可能な画像コントラストでMR画像を合成できます。 ビジュアルチューリングテストでは、2人の専門家が実際のMR画像と合成画像の40.5%を誤ってラベル付けし、生成された合成画像と実際のMR画像の画質が同等であることを示した。 この研究は、得られたMRコントラストをプレビューすることで、MRシーケンスのパラメータ化の間、放射線学者や技術者を支援することができ、放射線学トレーニングの貴重なツールとなり、AIトレーニングをサポートするためにカスタマイズされたデータ生成に使用できる。

A Magnetic Resonance Imaging (MRI) exam typically consists of the acquisition of multiple MR pulse sequences, which are required for a reliable diagnosis. Each sequence can be parameterized through multiple acquisition parameters affecting MR image contrast, signal-to-noise ratio, resolution, or scan time. With the rise of generative deep learning models, approaches for the synthesis of MR images are developed to either synthesize additional MR contrasts, generate synthetic data, or augment existing data for AI training. However, current generative approaches for the synthesis of MR images are only trained on images with a specific set of acquisition parameter values, limiting the clinical value of these methods as various sets of acquisition parameter settings are used in clinical practice. Therefore, we trained a generative adversarial network (GAN) to generate synthetic MR knee images conditioned on various acquisition parameters (repetition time, echo time, image orientation). This approach enables us to synthesize MR images with adjustable image contrast. In a visual Turing test, two experts mislabeled 40.5% of real and synthetic MR images, demonstrating that the image quality of the generated synthetic and real MR images is comparable. This work can support radiologists and technologists during the parameterization of MR sequences by previewing the yielded MR contrast, can serve as a valuable tool for radiology training, and can be used for customized data generation to support AI training.
翻訳日:2021-02-19 23:48:13 公開日:2021-02-17
# (参考訳) 動きに基づく視覚物体認識のためのグリッドセルパス統合 [全文訳有]

Grid Cell Path Integration For Movement-Based Visual Object Recognition ( http://arxiv.org/abs/2102.09076v1 )

ライセンス: CC BY 4.0
Niels Leadholm (1 and 2), Marcus Lewis (1), Subutai Ahmad (1) ((1) Numenta, (2) The University of Oxford)(参考訳) 格子細胞は、脳が世界の物理空間をモデル化し、経路統合を通して効果的にナビゲートし、自己移動の情報を用いて自己位置を更新することを可能にする。 最近の提案では、脳は視覚を含む多様な感覚のモードにおける物体の構造を理解するのに同様のメカニズムを使用することが示唆されている。 マシンビジョンでは、サケードなどの画像の知覚サンプルのシーケンスを与えられたオブジェクト認識は、シーケンスが一貫性のある固定されたパターンに従わない場合の困難な問題です。 我々は、任意の入力列が与えられたオブジェクトの信頼性認識を支援するために、格子セルによる皮質ネットワークへの経路統合について検討する。 我々のネットワーク(GridCellNet)は、グリッドセル計算を用いて視覚情報を統合し、動きに基づいて予測を行う。 ローカルなHebbian可塑性ルールを使用して、いくつかの例(ショットラーニング)から迅速に学習し、画像機能パッチのシーケンスだけを与えられたMNIST桁を認識するタスクを検討します。 我々はGridCellNetとk-Nearest Neighbour(k-NN)分類器、およびリカレントニューラルネットワーク(RNN)を比較した。 我々はGridCellNetが確実に分類を行い、未確認例と全く新しいシーケンストラジェクトリの両方に一般化できることを示す。 さらに,入力空間のごく一部をサンプリングして推論が成功し,わずかな動きで画像の残りの部分を予測可能なグリッドセルネットで再構築できることを示した。 アクティブセンサを用いた動的移動エージェントは,ナビゲーションだけでなく,視覚物体の効率的な認識や特徴予測にもグリッドセル表現を利用することができる。

Grid cells enable the brain to model the physical space of the world and navigate effectively via path integration, updating self-position using information from self-movement. Recent proposals suggest that the brain might use similar mechanisms to understand the structure of objects in diverse sensory modalities, including vision. In machine vision, object recognition given a sequence of sensory samples of an image, such as saccades, is a challenging problem when the sequence does not follow a consistent, fixed pattern - yet this is something humans do naturally and effortlessly. We explore how grid cell-based path integration in a cortical network can support reliable recognition of objects given an arbitrary sequence of inputs. Our network (GridCellNet) uses grid cell computations to integrate visual information and make predictions based on movements. We use local Hebbian plasticity rules to learn rapidly from a handful of examples (few-shot learning), and consider the task of recognizing MNIST digits given only a sequence of image feature patches. We compare GridCellNet to k-Nearest Neighbour (k-NN) classifiers as well as recurrent neural networks (RNNs), both of which lack explicit mechanisms for handling arbitrary sequences of input samples. We show that GridCellNet can reliably perform classification, generalizing to both unseen examples and completely novel sequence trajectories. We further show that inference is often successful after sampling a fraction of the input space, enabling the predictive GridCellNet to reconstruct the rest of the image given just a few movements. We propose that dynamically moving agents with active sensors can use grid cell representations not only for navigation, but also for efficient recognition and feature prediction of seen objects.
翻訳日:2021-02-19 22:39:33 公開日:2021-02-17
# (参考訳) 新しい補助療法へのワンショットアクション認識 [全文訳有]

One-shot action recognition towards novel assistive therapies ( http://arxiv.org/abs/2102.08997v1 )

ライセンス: CC BY-SA 4.0
Alberto Sabater, Laura Santos, Jose Santos-Victor, Alexandre Bernardino, Luis Montesano, Ana C. Murillo(参考訳) ワンショットのアクション認識は、特にターゲットビデオがターゲットアクションの1つまたは1つ以上の繰り返しを含むことができる場合、難しい問題である。 この問題に対するソリューションは、アクティビティビデオの自動処理を必要とする多くの現実世界のアプリケーションで使用できる。 特に、この研究は、アクション模倣ゲームを含む医療療法の自動分析によって動機づけられます。 提案手法では,不均質な動作データ条件を標準化し,最終1ショット(あるいは少数ショット)動作認識のための時間畳み込みネットワークを用いた記述的動作表現を生成する前処理ステップが組み込まれている。 この手法は、NTU-120のワンショットアクション認識の課題に関する最新の結果を達成します。 また,自閉症者に対する治療支援のための映像自動解析の活用事例について評価した。 有望な結果は、この種の野生での応用に適合性を示し、患者の評価とモニタリングに必須の量的および質的措置を提供する。

One-shot action recognition is a challenging problem, especially when the target video can contain one, more or none repetitions of the target action. Solutions to this problem can be used in many real world applications that require automated processing of activity videos. In particular, this work is motivated by the automated analysis of medical therapies that involve action imitation games. The presented approach incorporates a pre-processing step that standardizes heterogeneous motion data conditions and generates descriptive movement representations with a Temporal Convolutional Network for a final one-shot (or few-shot) action recognition. Our method achieves state-of-the-art results on the public NTU-120 one-shot action recognition challenge. Besides, we evaluate the approach on a real use-case of automated video analysis for therapy support with autistic people. The promising results prove its suitability for this kind of application in the wild, providing both quantitative and qualitative measures, essential for the patient evaluation and monitoring.
翻訳日:2021-02-19 22:11:57 公開日:2021-02-17
# (参考訳) 深部ニューラルネットワークの階層的対角ロバスト性向上 [全文訳有]

Improving Hierarchical Adversarial Robustness of Deep Neural Networks ( http://arxiv.org/abs/2102.09012v1 )

ライセンス: CC BY 4.0
Avery Ma, Aladin Virmaux, Kevin Scaman, Juwei Lu(参考訳) すべての逆例は同じ結果をもたらしますか? 歩行者を車として分類する自動運転システムは、例えばバスよりもはるかに危険で致命的な行動を引き起こす可能性がある。 この重要な問題に対処するために、階層的対角的堅牢性の概念を導入する。 クラスを粗いレベルラベルにグループ化できるデータセットが与えられると、階層的な逆行例を粗いレベルでの誤分類につながるものとして定義する。 階層的攻撃に対するニューラルネットワークの抵抗性を向上させるために,1つの分類タスクを1つの粗く複数の細かい分類タスクに分解する階層的可逆的ロバスト(har)ネットワーク設計を導入する。 エンドツーエンドの学習アプローチの代替として、HAR が CIFAR-10 および CIFAR-100 データセットに対する $\ell_2$ および $\ell_{\infty}$ 境界付き階層攻撃に対するネットワークの堅牢性を大幅に改善することを示します。

Do all adversarial examples have the same consequences? An autonomous driving system misclassifying a pedestrian as a car may induce a far more dangerous -- and even potentially lethal -- behavior than, for instance, a car as a bus. In order to better tackle this important problematic, we introduce the concept of hierarchical adversarial robustness. Given a dataset whose classes can be grouped into coarse-level labels, we define hierarchical adversarial examples as the ones leading to a misclassification at the coarse level. To improve the resistance of neural networks to hierarchical attacks, we introduce a hierarchical adversarially robust (HAR) network design that decomposes a single classification task into one coarse and multiple fine classification tasks, before being specifically trained by adversarial defense techniques. As an alternative to an end-to-end learning approach, we show that HAR significantly improves the robustness of the network against $\ell_2$ and $\ell_{\infty}$ bounded hierarchical attacks on the CIFAR-10 and CIFAR-100 dataset.
翻訳日:2021-02-19 19:55:02 公開日:2021-02-17
# (参考訳) 自動学習アルゴリズムによる大規模ハイパーパラメータの最適化 [全文訳有]

Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm ( http://arxiv.org/abs/2102.09026v1 )

ライセンス: CC0 1.0
Bin Gu, Guodong Liu, Yanfu Zhang, Xiang Geng, Heng Huang(参考訳) 現代の機械学習アルゴリズムは、モデル一般化可能性の観点から重要な役割を果たす複数の(1から数千)ハイパーパラメータをチューニングする。 ブラックボックス最適化とグラデーションベースのアルゴリズムは、ハイパーパラメータ最適化に対する2つの優勢なアプローチである。 両方のアプローチからのすべての利点を継承する新しいハイパーパラメータ最適化技術を設計する方法は、まだオープンな問題です。 本稿では,この問題に対処するため,ゼロ次超勾配(hozog)を用いた新しいハイパーパラメータ最適化手法を提案する。 具体的には、aがブラックボックス最適化アルゴリズム(ディープニューラルネットワークなど)であるaに基づく制約付き最適化問題としてハイパーパラメータ最適化を正確に定式化する。 次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。 HOZOGを用いたハイパーパラメータ最適化の実現可能性解析を提供します。 最後に,3つの代表的ハイパーパラメータ(サイズは1~1250)に対する実験結果から,HOZOGの利点を,最先端のハイパーパラメータ最適化手法と比較して,シンプルさ,スケーラビリティ,柔軟性,有効性,効率性を示す。

Modern machine learning algorithms usually involve tuning multiple (from one to thousands) hyperparameters which play a pivotal role in terms of model generalizability. Black-box optimization and gradient-based algorithms are two dominant approaches to hyperparameter optimization while they have totally distinct advantages. How to design a new hyperparameter optimization technique inheriting all benefits from both approaches is still an open problem. To address this challenging problem, in this paper, we propose a new hyperparameter optimization method with zeroth-order hyper-gradients (HOZOG). Specifically, we first exactly formulate hyperparameter optimization as an A-based constrained optimization problem, where A is a black-box optimization algorithm (such as deep neural network). Then, we use the average zeroth-order hyper-gradients to update hyperparameters. We provide the feasibility analysis of using HOZOG to achieve hyperparameter optimization. Finally, the experimental results on three representative hyperparameter (the size is from 1 to 1250) optimization tasks demonstrate the benefits of HOZOG in terms of simplicity, scalability, flexibility, effectiveness and efficiency compared with the state-of-the-art hyperparameter optimization methods.
翻訳日:2021-02-19 19:36:40 公開日:2021-02-17
# (参考訳) 変動量子分類器のための局所最適化器の性能評価 [全文訳有]

Evaluating the Performance of Some Local Optimizers for Variational Quantum Classifiers ( http://arxiv.org/abs/2102.08949v1 )

ライセンス: CC BY 4.0
Nisheeth Joshi, Pragya Katyayan, Syed Afroz Ahmed(参考訳) 本稿では,量子変分回路における局所最適化器の性能と役割について検討する。 2つの最も人気のあるオプティマイザの性能について検討し、それらの結果をいくつかの古典的機械学習アルゴリズムと比較した。 私たちが研究で使用した古典的なアルゴリズムは、サポートベクターマシン(SVM)、グラデーションブースト(GB)、ランダムフォレスト(RF)です。 これらは2つの局所最適化器viz aqgdとcobylaを用いた変分量子分類器(vqc)と比較された。 VQC、IBM Quantum Experience、IBM Qiskitの実験には、古典的な機械学習モデルでは、sci-kitの学習が使用された。 その結果、ノイズの多い即時スケール量子マシン上の機械学習は、古典的なマシンと同様の結果を生成できることが示された。 実験では,人気のあるレストラン感情分析データセットを用いた。 このデータセットから抽出した特徴をPCAを適用した後、特徴セットを5つの特徴に減らした。 量子MLモデルは、EfficientSU2変分回路を用いて100エポックと150エポックを用いて訓練された。 全体としては4つのQuantum MLモデルがトレーニングされ、3つのクラシックMLモデルがトレーニングされた。 標準評価尺度viz,精度,精度,リコール,f-scoreを用いて,トレーニングモデルの性能評価を行った。 AQGDオプティマイザをベースとした100Epochのモデルは他のモデルよりも優れた性能を示した。 精度は77%、f-score 0.785であり、すべての訓練されたモデルで最高であった。

In this paper, we have studied the performance and role of local optimizers in quantum variational circuits. We studied the performance of the two most popular optimizers and compared their results with some popular classical machine learning algorithms. The classical algorithms we used in our study are support vector machine (SVM), gradient boosting (GB), and random forest (RF). These were compared with a variational quantum classifier (VQC) using two sets of local optimizers viz AQGD and COBYLA. For experimenting with VQC, IBM Quantum Experience and IBM Qiskit was used while for classical machine learning models, sci-kit learn was used. The results show that machine learning on noisy immediate scale quantum machines can produce comparable results as on classical machines. For our experiments, we have used a popular restaurant sentiment analysis dataset. The extracted features from this dataset and then after applying PCA reduced the feature set into 5 features. Quantum ML models were trained using 100 epochs and 150 epochs on using EfficientSU2 variational circuit. Overall, four Quantum ML models were trained and three Classical ML models were trained. The performance of the trained models was evaluated using standard evaluation measures viz, Accuracy, Precision, Recall, F-Score. In all the cases AQGD optimizer-based model with 100 Epochs performed better than all other models. It produced an accuracy of 77% and an F-Score of 0.785 which were highest across all the trained models.
翻訳日:2021-02-19 15:42:46 公開日:2021-02-17
# BEDS:Baging ensemble Deep segmentation for nucleus segmentation with test stage stain augmentation

BEDS: Bagging ensemble deep segmentation for nucleus segmentation with testing stage stain augmentation ( http://arxiv.org/abs/2102.08990v1 )

ライセンス: Link先を確認
Xing Li, Haichun Yang, Jiaxin He, Aadarsh Jha, Agnes B. Fogo, Lee E. Wheless, Shilin Zhao, Yuankai Huo(参考訳) 結果のばらつきを減らすことは、深層学習に基づく医療画像分析に不可欠な課題です。 ブートストラップ集約(Bootstrap aggregating)は、弱い学習者が強力な学習者になるための標準アンサンブルアルゴリズムである。 ランダムフォレストは、ディープラーニング時代以前の最も強力な機械学習アルゴリズムの1つであり、その優れたパフォーマンスは、袋詰めされた決定木(弱い学習者)によって駆動されます。 ランダムフォレスト手法に触発されて,複数のu-netを訓練データで訓練し,密度の高い核を病理画像に分割する簡易なバグングアンサンブル深層セグメンテーション (beds) 法を提案する。 本研究の貢献は,(1)核セグメンテーションのための自己センブル学習フレームワークの開発,(2)自己センブル学習によるテストステージ強化の集約,(3)自己センブルとテストステージ染色強化が優れたセグメンテーション性能のための補完的戦略であるという考えの解明,の3つである。 実装の詳細: https://github.com/x ingli1102/BEDs。

Reducing outcome variance is an essential task in deep learning based medical image analysis. Bootstrap aggregating, also known as bagging, is a canonical ensemble algorithm for aggregating weak learners to become a strong learner. Random forest is one of the most powerful machine learning algorithms before deep learning era, whose superior performance is driven by fitting bagged decision trees (weak learners). Inspired by the random forest technique, we propose a simple bagging ensemble deep segmentation (BEDs) method to train multiple U-Nets with partial training data to segment dense nuclei on pathological images. The contributions of this study are three-fold: (1) developing a self-ensemble learning framework for nucleus segmentation; (2) aggregating testing stage augmentation with self-ensemble learning; and (3) elucidating the idea that self-ensemble and testing stage stain augmentation are complementary strategies for a superior segmentation performance. Implementation Detail: https://github.com/x ingli1102/BEDs.
翻訳日:2021-02-19 14:35:11 公開日:2021-02-17
# ドメイン印象: ソースデータフリーなドメイン適応方法

Domain Impression: A Source Data Free Domain Adaptation Method ( http://arxiv.org/abs/2102.09003v1 )

ライセンス: Link先を確認
Vinod K Kurmi and Venkatesh K Subramanian and Vinay P Namboodiri(参考訳) 教師なしドメイン適応メソッドは、ソースデータセットがすべてのラベルで利用可能であると仮定して、ラベルなしターゲットセットの適応問題を解決する。 しかし,実例では実際のサンプルの入手が必ずしも可能であるとは限らない。 メモリの制約、プライバシの懸念、データ共有の課題などによる可能性がある。 この実用的なシナリオはドメイン適応問題にボトルネックをもたらします。 本稿では、ソースデータを必要としないドメイン適応手法を提案することで、この困難なシナリオに対処する。 ソースデータの代わりに、ソースデータに基づいてトレーニングされた分類器のみを提供しています。 提案手法は、ソースクラスからサンプルを生成するためにトレーニングされた分類器を使用する生成フレームワークに基づいている。 学習した分類器のエネルギーベースモデリングを用いて,データの共有分布を学習する。 同時に、ターゲットドメインに対して新しい分類器も適応される。 異なる実験環境下で様々なアブレーション解析を行い,提案手法が極めて新しいシナリオにおいて,ベースラインモデルよりも優れた結果が得られることを示す。

Unsupervised Domain adaptation methods solve the adaptation problem for an unlabeled target set, assuming that the source dataset is available with all labels. However, the availability of actual source samples is not always possible in practical cases. It could be due to memory constraints, privacy concerns, and challenges in sharing data. This practical scenario creates a bottleneck in the domain adaptation problem. This paper addresses this challenging scenario by proposing a domain adaptation technique that does not need any source data. Instead of the source data, we are only provided with a classifier that is trained on the source data. Our proposed approach is based on a generative framework, where the trained classifier is used for generating samples from the source classes. We learn the joint distribution of data by using the energy-based modeling of the trained classifier. At the same time, a new classifier is also adapted for the target domain. We perform various ablation analysis under different experimental setups and demonstrate that the proposed approach achieves better results than the baseline models in this extremely novel scenario.
翻訳日:2021-02-19 14:32:52 公開日:2021-02-17
# 距離相関を用いたベイズ最適化

Using Distance Correlation for Efficient Bayesian Optimization ( http://arxiv.org/abs/2102.08993v1 )

ライセンス: Link先を確認
Takuya Kanazawa(参考訳) 本稿では,ガウス過程と距離相関を組み合わせたベイズ最適化($\textsf{GP-DC}$)を提案する。 探索と搾取を自動的にバランスさせ、手動のパラメータチューニングを必要としない。 複数のベンチマーク関数で$\textsf{GP-DC}$を評価し、$\textsf{GP-UCB}$やmax-valueエントロピー探索のような最先端のメソッドよりも優れていることを観察します。 また、$\textsf{GP-DC}$を適用し、逐次積分観測を可変積分範囲で最適化し、合成と実世界の両方のデータセットに対する経験的効率を検証する。

We propose a novel approach for Bayesian optimization, called $\textsf{GP-DC}$, which combines Gaussian processes with distance correlation. It balances exploration and exploitation automatically, and requires no manual parameter tuning. We evaluate $\textsf{GP-DC}$ on a number of benchmark functions and observe that it outperforms state-of-the-art methods such as $\textsf{GP-UCB}$ and max-value entropy search, as well as the classical expected improvement heuristic. We also apply $\textsf{GP-DC}$ to optimize sequential integral observations with a variable integration range and verify its empirical efficiency on both synthetic and real-world datasets.
翻訳日:2021-02-19 14:31:19 公開日:2021-02-17
# 量子機械学習における一般化:量子情報の観点から

Generalization in Quantum Machine Learning: a Quantum Information Perspective ( http://arxiv.org/abs/2102.08991v1 )

ライセンス: Link先を確認
Leonardo Banchi, Jason Pereira, Stefano Pirandola(参考訳) 量子演算が古典データか量子チャネルのいずれかを分類するために使用されるとき、一般化の機械学習の問題を研究し、両方の場合において、特定のクラス$c$を量子状態上の測定値$\rho(x)$を介して入力に$x$を割り当てる方法を学ぶ。 訓練された量子モデルは、以前に見えないデータの正しいクラスを予測できるときに一般化します。 量子分類器の精度と一般化能力は、量子埋め込み$Q$と古典的な入力空間$X$またはクラス空間$C$の間の(R\'enyi)相互情報$I(C{:}Q)$と$I_2(X{:}Q)$に依存することを示す。 上記の特徴に基づいて, ヒルベルト空間の次元, ノイズ量, 無視された情報量, 例えば, プール層などといった分類精度と一般化に, $q$ の異なる性質がどのように影響するかを示す。 さらに、精度と一般化の間のさまざまなトレードオフを調べることができる情報ボトルネック原理の量子バージョンを紹介します。

We study the machine learning problem of generalization when quantum operations are used to classify either classical data or quantum channels, where in both cases the task is to learn from data how to assign a certain class $c$ to inputs $x$ via measurements on a quantum state $\rho(x)$. A trained quantum model generalizes when it is able to predict the correct class for previously unseen data. We show that the accuracy and generalization capability of quantum classifiers depend on the (R\'enyi) mutual informations $I(C{:}Q)$ and $I_2(X{:}Q)$ between the quantum embedding $Q$ and the classical input space $X$ or class space $C$. Based on the above characterization, we then show how different properties of $Q$ affect classification accuracy and generalization, such as the dimension of the Hilbert space, the amount of noise, and the amount of neglected information via, e.g., pooling layers. Moreover, we introduce a quantum version of the Information Bottleneck principle that allows us to explore the various tradeoffs between accuracy and generalization.
翻訳日:2021-02-19 14:26:44 公開日:2021-02-17
# NFCNN:画像認識のためのノイズ融合畳み込みニューラルネットワークを目指して

NFCNN: Toward a Noise Fusion Convolutional Neural Network for Image Denoising ( http://arxiv.org/abs/2102.09376v1 )

ライセンス: Link先を確認
Maoyuan Xu and Xiaoping Xie(参考訳) 深層学習に基づく手法は、画像認知における最先端のパフォーマンスを実現している。 本稿では,畳み込みニューラルネットワークにおいて,深層学習に基づく解法を提案し,核融合ブロックと呼ばれるモジュールを導入する。 このいわゆるNoise Fusion Convolutional Neural Network(NFCNN)には、そのマルチステージアーキテクチャに2つのブランチがあります。 1つの枝は潜在的なきれいなイメージを予測し、もう1つの枝は残りのイメージを予測します。 予測されたクリーン画像と予測された残留画像とを入力の一部として2段階毎に融合ブロックを包含し、融合結果を次の段階に出力する。 NFCNNは融合ブロックのために魅力的なテクスチャ保存能力を持っています。 nfcnnの訓練には, 消失する勾配や爆発する勾配問題を回避するための段階的教師付き訓練戦略が採用されている。 実験結果は、NFCNNがいくつかの最先端のアルゴリズムと比較して競合的な消音結果を実行できることを示しています。

Deep learning based methods have achieved the state-of-the-art performance in image denoising. In this paper, a deep learning based denoising method is proposed and a module called fusion block is introduced in the convolutional neural network. For this so-called Noise Fusion Convolutional Neural Network (NFCNN), there are two branches in its multi-stage architecture. One branch aims to predict the latent clean image, while the other one predicts the residual image. A fusion block is contained between every two stages by taking the predicted clean image and the predicted residual image as a part of inputs, and it outputs a fused result to the next stage. NFCNN has an attractive texture preserving ability because of the fusion block. To train NFCNN, a stage-wise supervised training strategy is adopted to avoid the vanishing gradient and exploding gradient problems. Experimental results show that NFCNN is able to perform competitive denoising results when compared with some state-of-the-art algorithms.
翻訳日:2021-02-19 14:23:44 公開日:2021-02-17
# 等変球面デコンボリューション:球面データから学習の分離配向分布関数

Equivariant Spherical Deconvolution: Learning Sparse Orientation Distribution Functions from Spherical Data ( http://arxiv.org/abs/2102.09462v1 )

ライセンス: Link先を確認
Axel Elaldi, Neel Dey, Heejong Kim, Guido Gerig(参考訳) 本稿では,単位球面上で定義される非負スカラー場のスパースデコンボリューションのための回転等価非監視学習フレームワークを提案する。 複数のピークを持つ球状信号はDiffusion MRI(dMRI)で自然発生し、それぞれのボクセルは白色物質のような異方性組織構造に対応する1つ以上の信号源から構成される。 空間的およびスペクトル的な部分的揮発のために、臨床的に実現可能なdMRIは、クロスファイバーホワイトマター構成を解決するのに苦労し、基礎となるファイバー方向を回復する球状脱コンボリューション方法論の広範な発展をもたらす。 しかし、これらの方法は典型的には線形であり、小さな交叉角と部分体積分数の推定に苦しむ。 本研究では,非監視球面畳み込みネットワークを用いて非線形に繊維構造を推定し,球面回転と等価性を保証した現在の手法を改善する。 実験により,本提案は,一般的なベースラインに対する競合性能を実証する広範なシングルシェルおよびマルチシェル合成ベンチマークを用いて検証した。 次に、トラクトメーターベンチマークデータセットを用いて、繊維トラクトグラフィー測定における下流性能の改善を示す。 最後に,人体のマルチシェルデータセットを用いたトラクトグラフィーと部分体積推定による下流改善について述べる。

We present a rotation-equivariant unsupervised learning framework for the sparse deconvolution of non-negative scalar fields defined on the unit sphere. Spherical signals with multiple peaks naturally arise in Diffusion MRI (dMRI), where each voxel consists of one or more signal sources corresponding to anisotropic tissue structure such as white matter. Due to spatial and spectral partial voluming, clinically-feasible dMRI struggles to resolve crossing-fiber white matter configurations, leading to extensive development in spherical deconvolution methodology to recover underlying fiber directions. However, these methods are typically linear and struggle with small crossing-angles and partial volume fraction estimation. In this work, we improve on current methodologies by nonlinearly estimating fiber structures via unsupervised spherical convolutional networks with guaranteed equivariance to spherical rotation. Experimentally, we first validate our proposition via extensive single and multi-shell synthetic benchmarks demonstrating competitive performance against common baselines. We then show improved downstream performance on fiber tractography measures on the Tractometer benchmark dataset. Finally, we show downstream improvements in terms of tractography and partial volume estimation on a multi-shell dataset of human subjects.
翻訳日:2021-02-19 14:22:58 公開日:2021-02-17
# 不整合制約集合の効率的な診断アルゴリズム

An Efficient Diagnosis Algorithm for Inconsistent Constraint Sets ( http://arxiv.org/abs/2102.09005v1 )

ライセンス: Link先を確認
Alexander Felfernig and Monika Schubert and Christoph Zehentner(参考訳) 制約集合は異なる文脈で矛盾することがある。 例えば、設定セッションでは、顧客の要求のセットが構成知識ベースと矛盾する可能性があります。 別の例は、基本的な制約が一連のテストケースと矛盾する可能性がある構成知識ベースのエンジニアリングフェーズです。 このような状況では、一貫性を回復するために削除しなければならない最小限の欠陥制約セットの識別をサポートする技術が求められています。 本論文では,過度制約問題における障害制約の最小セットを同定する分割・整列型診断アルゴリズム(FastDiag)を提案する。 このアルゴリズムは、リード(推奨)診断の効率的な識別が重要であるシナリオに特に適用されます。 FastDiagのパフォーマンスとヒットセットの競合方向の計算を比較し、私たちのアプローチの利点を示す詳細なパフォーマンス分析を提示します。

Constraint sets can become inconsistent in different contexts. For example, during a configuration session the set of customer requirements can become inconsistent with the configuration knowledge base. Another example is the engineering phase of a configuration knowledge base where the underlying constraints can become inconsistent with a set of test cases. In such situations we are in the need of techniques that support the identification of minimal sets of faulty constraints that have to be deleted in order to restore consistency. In this paper we introduce a divide-and-conquer based diagnosis algorithm (FastDiag) which identifies minimal sets of faulty constraints in an over-constrained problem. This algorithm is specifically applicable in scenarios where the efficient identification of leading (preferred) diagnoses is crucial. We compare the performance of FastDiag with the conflict-directed calculation of hitting sets and present an in-depth performance analysis that shows the advantages of our approach.
翻訳日:2021-02-19 14:21:19 公開日:2021-02-17
# Equine Facial Action Unitの自動検出

Automated Detection of Equine Facial Action Units ( http://arxiv.org/abs/2102.08983v1 )

ライセンス: Link先を確認
Zhenghong Li, Sofia Broom\'e, Pia Haubro Andersen, Hedvig Kjellstr\"om(参考訳) 最近開発されたEquine Facial Action Coding System (EquiFACS)は、馬の顔のアクションユニットを正確にかつ徹底的に手動でラベル付けする方法を提供する。 このプロセスの一部を自動化するために,画像からEquiFACS単位を自動的に検出するDeep Learning-based法を提案する。 まず、複数のオブジェクト検出器を訓練して、事前定義された関心領域(roi)を検出し、関連する各領域のアクションユニットにバイナリ分類器を適用する。 我々は、通常のcnnと、人間の顔行動単位認識から転送されるよりカスタマイズされたモデルの両方を実験する。 目および下面領域の9つのアクションユニットで、適切な初期結果が示されます。

The recently developed Equine Facial Action Coding System (EquiFACS) provides a precise and exhaustive, but laborious, manual labelling method of facial action units of the horse. To automate parts of this process, we propose a Deep Learning-based method to detect EquiFACS units automatically from images. We use a cascade framework; we firstly train several object detectors to detect the predefined Region-of-Interest (ROI), and secondly apply binary classifiers for each action unit in related regions. We experiment with both regular CNNs and a more tailored model transferred from human facial action unit recognition. Promising initial results are presented for nine action units in the eye and lower face regions.
翻訳日:2021-02-19 14:21:06 公開日:2021-02-17
# Spacewalker:軽量マークアップ拡張と集団遺伝的プログラミングによるUI設計の迅速な探索

Spacewalker: Rapid UI Design Exploration Using Lightweight Markup Enhancement and Crowd Genetic Programming ( http://arxiv.org/abs/2102.09039v1 )

ライセンス: Link先を確認
Mingyuan Zhong, Gang Li, Yang Li(参考訳) ユーザーインターフェース設計は、幅広いオプションを検討するデザイナーが関与する複雑なタスクです。 統合サポートを備えた最適なWeb UIのために、設計者が大きなデザインスペースを迅速に検索できるツールであるSpacewalkerを紹介します。 デザイナーはまず、私たちが設計したシンプルなマークアップ拡張を使用して、典型的なHTMLページで探索したい属性をアノテートします。 Spacewalkerはアノテーション付きHTML仕様を解析し、Web UIのさまざまな構成をインテリジェントに生成し、評価のためにクラウドワーカーに配布する。 信頼性の高いフィードバックを得るためには,ui設計をペアで比較することで,群集労働者の反応に対応する遺伝的アルゴリズムを強化した。 私たちの実験に基づいて、spacewalkerはデザイナーが慣れ親しんだ言語を使って、uiの大きなデザインスペースを効果的に検索し、最小限のコストで設計を迅速に改善できます。

User interface design is a complex task that involves designers examining a wide range of options. We present Spacewalker, a tool that allows designers to rapidly search a large design space for an optimal web UI with integrated support. Designers first annotate each attribute they want to explore in a typical HTML page, using a simple markup extension we designed. Spacewalker then parses the annotated HTML specification, and intelligently generates and distributes various configurations of the web UI to crowd workers for evaluation. We enhanced a genetic algorithm to accommodate crowd worker responses from pairwise comparison of UI designs, which is crucial for obtaining reliable feedback. Based on our experiments, Spacewalker allows designers to effectively search a large design space of a UI, using the language they are familiar with, and improve their design rapidly at a minimal cost.
翻訳日:2021-02-19 14:15:46 公開日:2021-02-17
# FIXME:クラウドでのハイブリッドアプローチによるソフトウェア信頼性の向上

FIXME: Enhance Software Reliability with Hybrid Approaches in Cloud ( http://arxiv.org/abs/2102.09336v1 )

ライセンス: Link先を確認
Jinho Hwang, Larisa Shwartz, Qing Wang, Raghav Batta, Harshit Kumar, Michael Nidd(参考訳) クラウドでの信頼性の約束により、より多くの企業がクラウドに移行する。 クラウドにおける継続的インテグレーション/デプロイ(CICD)のプロセスは、アプリケーションを確実に管理する必要があるサイト信頼性エンジニア(SRE)と、より速く、より透過的に価値を提供する必要がある開発者をつなぐ。 SREは開発者に開発問題をフィードバックし、開発者は修正をコミットしてCICDを再デプロイする。 リリースサイクルはこれまで以上に継続的であるため、本番環境へのコードはより高速で自動化されます。 この高いレベルのアジリティを提供するために、クラウドプラットフォームは、仮想化のより深い層で柔軟性に直面してより複雑になります。 しかし、これらすべての複雑さで信頼性は無料ではありません。 ソフトウェアエンジニアとSREは仮想化レイヤから幅広い情報スペクトルを扱う必要があります。 したがって、SREのパフォーマンス指標である平均回復時間(MTTR)を減らすために、真の正の証拠と相関した情報を提供することは、問題の根本原因を迅速に特定することが重要である。 類似性、知識、統計に基づくアプローチは有効であるが、データ量や型の増加に伴い、個々のアプローチは異なるデータソースのセマンティック関係の相関に限られている。 本稿では,企業におけるハイブリッド診断手法によるソフトウェア信頼性向上のためのFIXMEを提案する。 以上の結果から,ハイブリッド診断手法は精度が約17%向上した。 この結果は,高ダイナミックなクラウド環境においてハイブリッド診断を開発する実践者および研究者の双方にとって有用である。

With the promise of reliability in cloud, more enterprises are migrating to cloud. The process of continuous integration/deployme nt (CICD) in cloud connects developers who need to deliver value faster and more transparently with site reliability engineers (SREs) who need to manage applications reliably. SREs feed back development issues to developers, and developers commit fixes and trigger CICD to redeploy. The release cycle is more continuous than ever, thus the code to production is faster and more automated. To provide this higher level agility, the cloud platforms become more complex in the face of flexibility with deeper layers of virtualization. However, reliability does not come for free with all these complexities. Software engineers and SREs need to deal with wider information spectrum from virtualized layers. Therefore, providing correlated information with true positive evidences is critical to identify the root cause of issues quickly in order to reduce mean time to recover (MTTR), performance metrics for SREs. Similarity, knowledge, or statistics driven approaches have been effective, but with increasing data volume and types, an individual approach is limited to correlate semantic relations of different data sources. In this paper, we introduce FIXME to enhance software reliability with hybrid diagnosis approaches for enterprises. Our evaluation results show using hybrid diagnosis approach is about 17% better in precision. The results are helpful for both practitioners and researchers to develop hybrid diagnosis in the highly dynamic cloud environment.
翻訳日:2021-02-19 14:15:30 公開日:2021-02-17
# モバイル・コンピューティング・フォトグラフィー:ツアー

Mobile Computational Photography: A Tour ( http://arxiv.org/abs/2102.09000v1 )

ライセンス: Link先を確認
Mauricio Delbracio, Damien Kelly, Michael S. Brown, Peyman Milanfar(参考訳) 最初の携帯電話はたった20年前に販売されたばかりで、携帯電話で写真を撮るのは奇妙で、オンラインで写真をシェアするのは聞いたことがない。 今日、スマートフォンは電話よりもカメラが多い。 どうしてこんなことが起きたの? この変換は、小さなフォームファクター、モバイルカメラから素晴らしい画像を作る科学と工学の進歩によって実現された。 機械学習を含む現代のアルゴリズムとコンピューティングの進歩は、写真撮影のルールを変更し、キャプチャ、後処理、ストレージ、共有の新しいモードをもたらしました。 本稿では,モバイル・コンピューティング・フォトグラフィーの簡単な歴史を述べるとともに,バースト・フォトグラフィー,ノイズ低減,超解像といった重要な技術要素について述べる。 それぞれのステップで、人間の視覚システムとナイーブな平行線を描くことができる。

The first mobile camera phone was sold only 20 years ago, when taking pictures with one's phone was an oddity, and sharing pictures online was unheard of. Today, the smartphone is more camera than phone. How did this happen? This transformation was enabled by advances in computational photography -the science and engineering of making great images from small form factor, mobile cameras. Modern algorithmic and computing advances, including machine learning, have changed the rules of photography, bringing to it new modes of capture, post-processing, storage, and sharing. In this paper, we give a brief history of mobile computational photography and describe some of the key technological components, including burst photography, noise reduction, and super-resolution. At each step, we may draw naive parallels to the human visual system.
翻訳日:2021-02-19 14:14:14 公開日:2021-02-17
# 電力グリッドにおける偽データインジェクション攻撃検出のための敵対的レジリエント深層ニューラルネットワーク

Towards Adversarial-Resilien t Deep Neural Networks for False Data Injection Attack Detection in Power Grids ( http://arxiv.org/abs/2102.09057v1 )

ライセンス: Link先を確認
Jiangnan Li, Yingyuan Yang, Jinyuan Stella Sun, Kevin Tomsovic, Hairong Qi(参考訳) 偽データ注入攻撃(FDIA)は、電力システムの状態推定において重要なセキュリティ問題です。 近年、機械学習(ML)技術、特にディープニューラルネットワーク(DNN)がFDIA検出のための文献で提案されている。 しかし、彼らは、異なるMLアプリケーションにおけるDNNの信頼性を脅かすことが示された敵対的攻撃のリスクを考慮していない。 本稿では,敵攻撃によるFDIA検出に用いるDNNの脆弱性を評価し,防御的アプローチについて検討する。 いくつかの代表的な防御機構を分析し,fdia検出に固有の限界があることを実証した。 次に,学習と推論の両方にランダム入力パディングを導入することで,fdiaの逆回復性dnn検出フレームワークを設計する。 IEEE標準パワーシステムに基づく広範なシミュレーションは、DNNの検出性能にほとんど影響を及ぼさずに、我々のフレームワークが敵対攻撃の有効性を大幅に低下させることを示しています。

False data injection attack (FDIA) is a critical security issue in power system state estimation. In recent years, machine learning (ML) techniques, especially deep neural networks (DNNs), have been proposed in the literature for FDIA detection. However, they have not considered the risk of adversarial attacks, which were shown to be threatening to DNN's reliability in different ML applications. In this paper, we evaluate the vulnerability of DNNs used for FDIA detection through adversarial attacks and study the defensive approaches. We analyze several representative adversarial defense mechanisms and demonstrate that they have intrinsic limitations in FDIA detection. We then design an adversarial-resilien t DNN detection framework for FDIA by introducing random input padding in both the training and inference phases. Extensive simulations based on an IEEE standard power system show that our framework greatly reduces the effectiveness of adversarial attacks while having little impact on the detection performance of the DNNs.
翻訳日:2021-02-19 14:13:39 公開日:2021-02-17
# TCN: Web テーブル解釈のためのテーブル畳み込みネットワーク

TCN: Table Convolutional Network for Web Table Interpretation ( http://arxiv.org/abs/2102.09460v1 )

ライセンス: Link先を確認
Daheng Wang, Prashant Shiralkar, Colin Lockard, Binxuan Huang, Xin Luna Dong, Meng Jiang(参考訳) 半構造化Webページからの情報抽出は、知識グラフの強化に有用なロングテールな事実を提供する。 リレーショナルWebテーブルは、豊富で多様な知識の追加のエンティティと属性を含む重要なコンポーネントです。 しかし,文脈情報が少ないため,関係表から知識を抽出することは困難である。 既存の作業はテーブルセルを線形化し、同じテーブルで関連するセル情報のみをキャプチャするBERTのような深い言語モデルの修正に大きく依存します。 本研究では,表内情報と表間情報の両方を考慮した新しい関係表表現学習手法を提案する。 一方,提案するテーブル畳み込みネットワークモデルでは,アテンション機構を用いて,同じ行や列の最も情報性の高いテーブル内セルに適応的に焦点を合わせ,その一方で,異なるテーブルをまたがるセル間の様々なタイプの暗黙的接続から,テーブル間のコンテキスト情報を集約する。 具体的には, (i) と同じ値のセル, (ii) 同一のスキーマ位置のセル, (iii) 同一ページのトピックにリンクされたセルに対して, 3つの新しいアグリゲーションモジュールを提案する。 さらに,コラムタイプとペアワイズコラム関係を共同で予測するための教師付きマルチタスクトレーニング目標と,プレトレーニングのためのテーブルセルリカバリ目標を考案する。 実Webテーブルデータセットを用いた実験では,F1の+4.8%,F1の+4.1%,ペアワイズカラム関係予測の+4.1%で競合ベースラインを上回った。

Information extraction from semi-structured webpages provides valuable long-tailed facts for augmenting knowledge graph. Relational Web tables are a critical component containing additional entities and attributes of rich and diverse knowledge. However, extracting knowledge from relational tables is challenging because of sparse contextual information. Existing work linearize table cells and heavily rely on modifying deep language models such as BERT which only captures related cells information in the same table. In this work, we propose a novel relational table representation learning approach considering both the intra- and inter-table contextual information. On one hand, the proposed Table Convolutional Network model employs the attention mechanism to adaptively focus on the most informative intra-table cells of the same row or column; and, on the other hand, it aggregates inter-table contextual information from various types of implicit connections between cells across different tables. Specifically, we propose three novel aggregation modules for (i) cells of the same value, (ii) cells of the same schema position, and (iii) cells linked to the same page topic. We further devise a supervised multi-task training objective for jointly predicting column type and pairwise column relation, as well as a table cell recovery objective for pre-training. Experiments on real Web table datasets demonstrate our method can outperform competitive baselines by +4.8% of F1 for column type prediction and by +4.1% of F1 for pairwise column relation prediction.
翻訳日:2021-02-19 14:11:43 公開日:2021-02-17
# 平均ロギング確率の収束下における平均結果の反事実推論

Counterfactual Inference of the Mean Outcome under a Convergence of Average Logging Probability ( http://arxiv.org/abs/2102.08975v1 )

ライセンス: Link先を確認
Masahiro Kato(参考訳) 効率的な平均治療効果推定や多腕バンディットアルゴリズムを含む適応実験は、社会実験、臨床試験、オンライン広告最適化など様々な応用で注目を集めている。 本稿では,適応実験で得られたサンプルから,アクションの平均結果を推定する。 因果推論において、行動の平均的な結果には重要な役割があり、その推定は重要なタスクであり、平均的な治療効果の推定とオフポリシー値推定はその変種である。 適応実験では、過去の観測に基づいて、アクション(ログング確率)を選択する確率を順次更新することができる。 このロギングの確率は過去の観測に依存するため、サンプルはしばしば独立ではなく、同じ分布(すなわちd)である。 漸近的に正常な推定器の開発は困難である。 この問題の典型的なアプローチは、ロギング確率が時間不変関数に収束すると仮定することである。 しかし、この仮定は、ロギング確率が変動したり、ある期間にゼロになったりするなど、様々なアプリケーションで制限される。 この制限を緩和するために、平均ロギング確率が時間不変関数に収束する別の仮定を提案し、二重ロバスト(dr)推定子の漸近正規性を示す。 この仮定の下では、ロギング確率自体が変動したり、ある作用に対してゼロとなることがある。 また,シミュレーションにより経験的特性を示す。

Adaptive experiments, including efficient average treatment effect estimation and multi-armed bandit algorithms, have garnered attention in various applications, such as social experiments, clinical trials, and online advertisement optimization. This paper considers estimating the mean outcome of an action from samples obtained in adaptive experiments. In causal inference, the mean outcome of an action has a crucial role, and the estimation is an essential task, where the average treatment effect estimation and off-policy value estimation are its variants. In adaptive experiments, the probability of choosing an action (logging probability) is allowed to be sequentially updated based on past observations. Due to this logging probability depending on the past observations, the samples are often not independent and identically distributed (i.i.d.), making developing an asymptotically normal estimator difficult. A typical approach for this problem is to assume that the logging probability converges in a time-invariant function. However, this assumption is restrictive in various applications, such as when the logging probability fluctuates or becomes zero at some periods. To mitigate this limitation, we propose another assumption that the average logging probability converges to a time-invariant function and show the doubly robust (DR) estimator's asymptotic normality. Under the assumption, the logging probability itself can fluctuate or be zero for some actions. We also show the empirical properties by simulations.
翻訳日:2021-02-19 14:10:22 公開日:2021-02-17
# 不変表現学習ネットワークを用いたアクティブ触覚探索における脳波ベーステクスチャ粗さ分類

EEG-based Texture Roughness Classification in Active Tactile Exploration with Invariant Representation Learning Networks ( http://arxiv.org/abs/2102.08976v1 )

ライセンス: Link先を確認
Ozan Ozdenizci, Safaa Eldeeb, Andac Demir, Deniz Erdogmus, Murat Akcakaya(参考訳) 日常の活動中、人間は手を使って周囲の物体を把握し、知覚や運動の目的にも使われる感覚情報を知覚する。 複数の皮質脳領域は、知覚処理中の知覚認識、知覚および運動実行に関与することが知られている。 様々な研究が人間の感覚運動制御の領域に特に焦点を当てているが、運動実行と感覚処理の関係と処理は未だ完全には理解されていない。 本研究の主な目的は, 運動運動パターンの違いを最小限に抑えつつ, 同時に記録された脳波データを用いて, 触覚探索中に粗さレベルが異なるテクスチャ面を識別することである。 本研究では,8人の健常者を対象に,手指の先端を触りながら,粗さの異なる3種類のテクスチャ面を擦ったり叩いたりする実験を行った。 異なるテクスチャ面の脳波に基づく分類を行い、同時に運動運動条件(例えば、ルーブやタップ)の判別性を最小化する、敵対的不変表現学習ニューラルネットワークアーキテクチャを用いる。 提案手法は,学習表現からの移動関連変動を抑えつつ,最大70%の精度で3つの異なるテクスチャ面を識別できることが示唆された。

During daily activities, humans use their hands to grasp surrounding objects and perceive sensory information which are also employed for perceptual and motor goals. Multiple cortical brain regions are known to be responsible for sensory recognition, perception and motor execution during sensorimotor processing. While various research studies particularly focus on the domain of human sensorimotor control, the relation and processing between motor execution and sensory processing is not yet fully understood. Main goal of our work is to discriminate textured surfaces varying in their roughness levels during active tactile exploration using simultaneously recorded electroencephalogram (EEG) data, while minimizing the variance of distinct motor exploration movement patterns. We perform an experimental study with eight healthy participants who were instructed to use the tip of their dominant hand index finger while rubbing or tapping three different textured surfaces with varying levels of roughness. We use an adversarial invariant representation learning neural network architecture that performs EEG-based classification of different textured surfaces, while simultaneously minimizing the discriminability of motor movement conditions (i.e., rub or tap). Results show that the proposed approach can discriminate between three different textured surfaces with accuracies up to 70%, while suppressing movement related variability from learned representations.
翻訳日:2021-02-19 14:10:02 公開日:2021-02-17
# 物理インフォームドグラフィカル学習法による三相分布線パラメータの推定

Estimate Three-Phase Distribution Line Parameters With Physics-Informed Graphical Learning Method ( http://arxiv.org/abs/2102.09023v1 )

ライセンス: Link先を確認
Wenyu Wang, Nanpeng Yu(参考訳) ネットワークパラメータの正確な推定は、電力流通システムのモデリング、監視、制御に不可欠である。 本稿では,三相配電系統のネットワークパラメータを推定する物理式グラフィカル学習アルゴリズムを開発した。 提案アルゴリズムは, 利用可能なスマートメータデータのみを用いて, 一次分布線セグメントの3相直列抵抗と反応性を推定する。 まず,従来のグラフィカルニューラルネットワーク(GNN)におけるブラックボックス深層ニューラルネットワークを置き換えるパラメトリック物理モデルを開発した。 次に,ネットワークパラメータに対する損失関数の勾配を導出し,確率的勾配降下(sgd)を用いて物理パラメータを推定する。 ネットワークパラメータの事前知識は、推定の精度をさらに向上させると考えられる。 その結果,提案アルゴリズムは精度が高く,既存の手法よりも優れていることがわかった。

Accurate estimates of network parameters are essential for modeling, monitoring, and control in power distribution systems. In this paper, we develop a physics-informed graphical learning algorithm to estimate network parameters of three-phase power distribution systems. Our proposed algorithm uses only readily available smart meter data to estimate the three-phase series resistance and reactance of the primary distribution line segments. We first develop a parametric physics-based model to replace the black-box deep neural networks in the conventional graphical neural network (GNN). Then we derive the gradient of the loss function with respect to the network parameters and use stochastic gradient descent (SGD) to estimate the physical parameters. Prior knowledge of network parameters is also considered to further improve the accuracy of estimation. Comprehensive numerical study results show that our proposed algorithm yields high accuracy and outperforms existing methods.
翻訳日:2021-02-19 14:09:40 公開日:2021-02-17
# 部分モジュラリティによる連成連続・離散モデル選択

Joint Continuous and Discrete Model Selection via Submodularity ( http://arxiv.org/abs/2102.09029v1 )

ライセンス: Link先を確認
Jonathan Bunton and Paulo Tabuada(参考訳) 機械学習のモデル選択問題では、意味のある構造を持つ優れたモデルに対する欲求は、典型的には正規化された最適化問題によって表される。 しかし、多くのシナリオでは、意味のある構造はいくつかの離散空間で指定され、難しい非凸最適化問題を引き起こす。 本稿では、構造促進正規化器によるモデル選択問題と、連続的および離散的な引数で定義されるサブモジュラ関数最小化を関連づける。 特に、部分モジュラリティ理論を利用して、離散的および連続的な最適化ルーチンの非依存的な組み合わせで正確に効率的に解けるこれらの問題のクラスを同定する。 我々は、ロバスト最適化によって動機づけられた特定の問題クラスに対して、単純な連続的あるいは離散的な制約をいかに扱うかを示す。 最後に,いくつかの概念実証例を用いて理論結果を数値的に検証し,最先端アルゴリズムと比較した。

In model selection problems for machine learning, the desire for a well-performing model with meaningful structure is typically expressed through a regularized optimization problem. In many scenarios, however, the meaningful structure is specified in some discrete space, leading to difficult nonconvex optimization problems. In this paper, we relate the model selection problem with structure-promoting regularizers to submodular function minimization defined with continuous and discrete arguments. In particular, we leverage submodularity theory to identify a class of these problems that can be solved exactly and efficiently with an agnostic combination of discrete and continuous optimization routines. We show how simple continuous or discrete constraints can also be handled for certain problem classes, motivated by robust optimization. Finally, we numerically validate our theoretical results with several proof-of-concept examples, comparing against state-of-the-art algorithms.
翻訳日:2021-02-19 14:09:26 公開日:2021-02-17
# SRDTI:拡散テンソルMRIのためのディープラーニングによる超解像

SRDTI: Deep learning-based super-resolution for diffusion tensor MRI ( http://arxiv.org/abs/2102.09069v1 )

ライセンス: Link先を確認
Qiyuan Tian, Ziyu Li, Qiuyun Fan, Chanon Ngamsombat, Yuxin Hu, Congyu Liao, Fuyixue Wang, Kawin Setsompop, Jonathan R. Polimeni, Berkin Bilgic, Susie Y. Huang(参考訳) 高分解能拡散テンソルイメージング(DTI)は、微細神経解剖学的構造における組織微細構造の探索に有用であるが、長い走査時間と信号-雑音比は、サブミリ波分解能でDTIを取得する上で重要な障壁となる。 そこで本研究では,低解像度DWIから高分解能拡散強調画像(DWI)を合成する深層学習型超解像法「SRDTI」を提案する。 SRDTIは、深層畳み込みニューラルネットワーク(CNN)、残留学習およびマルチコントラストイメージングを採用し、トリリナーおよび立方スプライン補間よりも高解像度の地上真実に近い豊富なテキストの詳細と微細な情報で高品質の結果を生成します。

High-resolution diffusion tensor imaging (DTI) is beneficial for probing tissue microstructure in fine neuroanatomical structures, but long scan times and limited signal-to-noise ratio pose significant barriers to acquiring DTI at sub-millimeter resolution. To address this challenge, we propose a deep learning-based super-resolution method entitled "SRDTI" to synthesize high-resolution diffusion-weighted images (DWIs) from low-resolution DWIs. SRDTI employs a deep convolutional neural network (CNN), residual learning and multi-contrast imaging, and generates high-quality results with rich textural details and microstructural information, which are more similar to high-resolution ground truth than those from trilinear and cubic spline interpolation.
翻訳日:2021-02-19 14:09:12 公開日:2021-02-17
# (参考訳) エラストグラフィーとBモード乳房超音波画像のエンサンブル転送学習 [全文訳有]

Ensemble Transfer Learning of Elastography and B-mode Breast Ultrasound Images ( http://arxiv.org/abs/2102.08567v1 )

ライセンス: CC BY 4.0
Sampa Misra, Seungwan Jeon, Ravi Managuli, Seiyon Lee, Gyuwon Kim, Seungchul Lee, Richard G Barr, and Chulhong Kim(参考訳) 良性および悪性の乳腺病変のコンピュータ支援検出(cad)は,乳房超音波画像診断においてますます必要となる。 CADシステムは、医療専門家によって認識された画像の特徴に頼っているが、ディープラーニング(DL)手法はデータから自動的に特徴を抽出する。 DLの課題は、DLモデルを訓練するために利用可能な胸部米国の画像の不足です。 本稿では、Bモード乳房US(B-US)および歪みエラストグラフィー乳房US(SE-US)画像を用いて良性および悪性乳癌を分類するアンサンブル転送学習モデルを提案する。 このモデルは、AlexNetとResNetモデルのセマンティック機能を組み合わせ、悪性腫瘍から良性を分類します。 B-US画像とSE-US画像の両方を用いて腫瘍を訓練し分類する。 生検にて42例, 悪性腫瘍43例を対象とし, 85例のデータを回顧的に収集した。 各患者は複数のB-US画像と対応するSE-US画像を有し,総データセットは261B-US画像と261SE-US画像を含んでいた。 実験結果から, このアンサンブルモデルでは感度88.89%, 特異性91.10%が得られた。 提案手法のこれらの診断性能は手動識別と同等かそれ以上である。 そこで,本提案手法は早期乳癌の発見を容易にし,患者のケアを確実に改善する。

Computer-aided detection (CAD) of benign and malignant breast lesions becomes increasingly essential in breast ultrasound (US) imaging. The CAD systems rely on imaging features identified by the medical experts for their performance, whereas deep learning (DL) methods automatically extract features from the data. The challenge of the DL is the insufficiency of breast US images available to train the DL models. Here, we present an ensemble transfer learning model to classify benign and malignant breast tumors using B-mode breast US (B-US) and strain elastography breast US (SE-US) images. This model combines semantic features from AlexNet & ResNet models to classify benign from malignant tumors. We use both B-US and SE-US images to train the model and classify the tumors. We retrospectively gathered 85 patients' data, with 42 benign and 43 malignant cases confirmed with the biopsy. Each patient had multiple B-US and their corresponding SE-US images, and the total dataset contained 261 B-US images and 261 SE-US images. Experimental results show that our ensemble model achieves a sensitivity of 88.89% and specificity of 91.10%. These diagnostic performances of the proposed method are equivalent to or better than manual identification. Thus, our proposed ensemble learning method would facilitate detecting early breast cancer, reliably improving patient care.
翻訳日:2021-02-19 07:56:55 公開日:2021-02-17
# (参考訳) ニューラルネットワークを用いた非識別システムの転送性 [全文訳有]

Transferability of Neural Network-based De-identification Systems ( http://arxiv.org/abs/2102.08517v1 )

ライセンス: CC BY 4.0
Kahyun Lee, Nicholas J. Dobbins, Bridget McInnes, Meliha Yetisgen, \"Ozlem Uzuner(参考訳) 方法と材料:領域一般化の有無にかかわらず、ニューラルネットワークに基づく非同定システム-テムの転送可能性を検討した。 本論文で開発した新しいJDL(Joint-Domain Learning)アプローチと、文献からの最新のドメイン一般化アプローチCommon-Specific Decomposition(CSD)アプローチの2つのドメイン一般化アプローチを使用した。 まず、1つの外部ソースからトランスフェラビリティを測定した。 第2に,2つの外部ソースを用いて,同一機関の異なる音符タイプを再現するドメイン間の非識別モデルの転送性を改善することができるか評価した。 第3に、ドメイン内トレーニングデータを持つ2つの外部ソースを用いて、ドメイン内トレーニングデータが十分な場合であっても、外部ソースデータが有用かどうかを検討した。 最後に, 施設間における非識別モジュールの転送可能性について検討した。 結果と結論: 単一の外部ソースからの転送性が一貫性のない再スルトを与えました。 追加の外部ソースを使用することで、F1スコアは約80%を得ることができたが、ドメインの一般化は転送可能性を改善するのに必ずしも役に立たなかった。 また、必要なトレーニングデータの量を減らしたり、パフォーマンスを向上させることで、インドメイントレーニングデータが利用可能であった場合でも、外部ソースが有用であることが分かりました。 機関間での転送性はノートタイプとアノテーションラベルによって異なっていた。 別の機関の外部の情報源も、さらなる性能向上に役立った。

Methods and Materials: We investigated transferability of neural network-based de-identification sys-tems with and without domain generalization. We used two domain generalization approaches: a novel approach Joint-Domain Learning (JDL) as developed in this paper, and a state-of-the-art domain general-ization approach Common-Specific Decomposition (CSD) from the literature. First, we measured trans-ferability from a single external source. Second, we used two external sources and evaluated whether domain generalization can improve transferability of de-identification models across domains which rep-resent different note types from the same institution. Third, using two external sources with in-domain training data, we studied whether external source data are useful even in cases where sufficient in-domain training data are available. Finally, we investigated transferability of the de-identification mod-els across institutions. Results and Conclusions: We found transferability from a single external source gave inconsistent re-sults. Using additional external sources consistently yielded an F1-score of approximately 80%, but domain generalization was not always helpful to improve transferability. We also found that external sources were useful even in cases where in-domain training data were available by reducing the amount of needed in-domain training data or by improving performance. Transferability across institutions was differed by note type and annotation label. External sources from a different institution were also useful to further improve performance.
翻訳日:2021-02-19 07:36:14 公開日:2021-02-17
# (参考訳) 深いボルツマン機械のモード支援継手訓練 [全文訳有]

Mode-Assisted Joint Training of Deep Boltzmann Machines ( http://arxiv.org/abs/2102.08562v1 )

ライセンス: CC BY 4.0
Haik Manukian and Massimiliano Di Ventra(参考訳) 制限ボルツマンマシン(RBM)の深い拡張は、深ボルツマンマシン(DBM)として知られている、複雑な確率分布のコンパクトな表現として役立つことができる機械学習モデルの表現力のあるファミリです。 しかし、教師なし設定でdbmsを共同訓練することは大変な作業であることが証明されている。 近年提案手法であるmode-assisted trainingはrbmsの教師なしトレーニングの改善に大きな成功を収めている。 ここでは、モードアシストトレーニングのパフォーマンス向上が、DBMにとってさらに劇的であることを示す。 実際、モードアシストアルゴリズムと共同で訓練されたDBMは、最先端のトレーニング手順と比較して桁違いに低い総パラメータ数で同じデータセットを表現でき、また、RBMについてもファンインネットワークトポロジが導入された。 このパラメータの大幅な節約は、このトレーニングメソッドをハードウェア実装にも非常に魅力的にします。

The deep extension of the restricted Boltzmann machine (RBM), known as the deep Boltzmann machine (DBM), is an expressive family of machine learning models which can serve as compact representations of complex probability distributions. However, jointly training DBMs in the unsupervised setting has proven to be a formidable task. A recent technique we have proposed, called mode-assisted training, has shown great success in improving the unsupervised training of RBMs. Here, we show that the performance gains of the mode-assisted training are even more dramatic for DBMs. In fact, DBMs jointly trained with the mode-assisted algorithm can represent the same data set with orders of magnitude lower number of total parameters compared to state-of-the-art training procedures and even with respect to RBMs, provided a fan-in network topology is also introduced. This substantial saving in number of parameters makes this training method very appealing also for hardware implementations.
翻訳日:2021-02-19 07:22:02 公開日:2021-02-17
# (参考訳) StatEcoNet: 種分布モデルのための統計生態ニューラルネットワーク [全文訳有]

StatEcoNet: Statistical Ecology Neural Networks for Species Distribution Modeling ( http://arxiv.org/abs/2102.08534v1 )

ライセンス: CC BY 4.0
Eugene Seo, Rebecca A. Hutchinson, Xiao Fu, Chelsea Li, Tyler A. Hallman, John Kilbride, W. Douglas Robinson(参考訳) 本稿では、計算持続可能性と統計生態学のコアタスクである種分布モデリング(SDM)に焦点を当てる。 SDMでは、景観上の種の発生パターンは、一連の場所における観察に基づいて環境特性によって予測される。 最初は、SDMはバイナリ分類の問題であるように見え、それに取り組むために古典的なツール(例えば、ロジスティック回帰、サポートベクターマシン、ニューラルネットワーク)を採用する傾向があります。 しかし、野生動物調査は、種の観察に構造化ノイズ(特にアンダーカウント)を導入します。 これらの観測誤差はSDMを体系的にバイアスする。 本稿では,SDMのユニークな課題を解決するため,StatEcoNetというフレームワークを提案する。 具体的には、統計生態学におけるグラフィカルな生成モデルを用いて、提案した計算フレームワークの骨格として機能し、ニューラルネットワークを慎重に統合する。 関連するアプローチに対するstateconetの利点は、鳥種データと同様にシミュレーションデータセット上で実証されている。 SDMは生態学と天然資源管理にとって重要なツールであるため、StatEcoNetは、脅威のある種の研究と保全など、社会的に重大な影響を与える幅広いアプリケーションに、計算および分析能力の増強を提供する可能性がある。

This paper focuses on a core task in computational sustainability and statistical ecology: species distribution modeling (SDM). In SDM, the occurrence pattern of a species on a landscape is predicted by environmental features based on observations at a set of locations. At first, SDM may appear to be a binary classification problem, and one might be inclined to employ classic tools (e.g., logistic regression, support vector machines, neural networks) to tackle it. However, wildlife surveys introduce structured noise (especially under-counting) in the species observations. If unaccounted for, these observation errors systematically bias SDMs. To address the unique challenges of SDM, this paper proposes a framework called StatEcoNet. Specifically, this work employs a graphical generative model in statistical ecology to serve as the skeleton of the proposed computational framework and carefully integrates neural networks under the framework. The advantages of StatEcoNet over related approaches are demonstrated on simulated datasets as well as bird species data. Since SDMs are critical tools for ecological science and natural resource management, StatEcoNet may offer boosted computational and analytical powers to a wide range of applications that have significant social impacts, e.g., the study and conservation of threatened species.
翻訳日:2021-02-19 07:12:13 公開日:2021-02-17
# (参考訳) 2人プレイのゼロサムマルコフゲームにおける効率的なポリシーグラデーション手法

Provably Efficient Policy Gradient Methods for Two-Player Zero-Sum Markov Games ( http://arxiv.org/abs/2102.08903v1 )

ライセンス: CC BY 4.0
Yulai Zhao, Yuandong Tian, Jason D. Lee, Simon S. Du(参考訳) ポリシーグラデーション法は、実際には超人的なパフォーマンスを達成するために2プレイヤーゼロサムゲームの解決に広く使用されています。 しかし、ほぼ最適のソリューションと、必要なサンプルとイテレーションの数を明らかに見つけることができるとき、それはわかりにくいままです。 本論文では,関数近似を状態全体の一般化に用いる2プレイヤーゼロサムゲームを解くための自然政策グラディエントアルゴリズムの自然拡張について研究する。 我々は,サンプル数,反復数,集中係数,近似誤差の観点から,アルゴリズムの性能を徹底的に評価する。 我々の知る限り、これは2プレイヤゼロサムマルコフゲームに対する関数近似を用いたポリシー勾配法の最初の定量的解析である。

Policy gradient methods are widely used in solving two-player zero-sum games to achieve superhuman performance in practice. However, it remains elusive when they can provably find a near-optimal solution and how many samples and iterations are needed. The current paper studies natural extensions of Natural Policy Gradient algorithm for solving two-player zero-sum games where function approximation is used for generalization across states. We thoroughly characterize the algorithms' performance in terms of the number of samples, number of iterations, concentrability coefficients, and approximation error. To our knowledge, this is the first quantitative analysis of policy gradient methods with function approximation for two-player zero-sum Markov games.
翻訳日:2021-02-19 06:54:50 公開日:2021-02-17
# (参考訳) 文脈強化型識別システム [全文訳有]

A Context-Enhanced De-identification System ( http://arxiv.org/abs/2102.08513v1 )

ライセンス: CC BY 4.0
Kahyun Lee, Mehmet Kayaalp, Sam Henry, \"Ozlem Uzuner(参考訳) 現在の最先端の非識別システムを含む、現代のエンティティ認識システムは、条件付きランダムフィールド(CRF)シーケンスオプティマイザによって強化された双方向長短期メモリ(biLSTM)ユニットに基づいている。 これらのシステムは入力文を文単位で処理する。 このアプローチは,システムによる文境界への依存性の捕捉を防止し,正確な文境界検出を前提とした。 文境界の検出は特に臨床報告において問題となる可能性があるため、文境界をまたいだ依存性と共参照が豊富である。 本研究では,これらの制約を克服するために,現在最先端の非識別システムであるNeuroNERの枠組みに基づく新しいシステムを構築した。 この新システムは、文境界を使わずに、前後n-gramの文脈埋め込みを組み込む。 本システムでは,文境界上の依存関係を捕捉し,文境界検出問題を完全に回避する。 このシステムは、深い接着特性と入力の関連する部分をキャプチャするための注意メカニズムで強化しました。 CEDIシステムは、2006 i2b2 de-identificationデータセット、2014 i2b2 shared task de-identificationデータセット、2016 CEGS N-GRID de-identificationデータセット(p<0.01)でNuroNERを上回っている。 全てのデータセットは、英語の物語的臨床報告から構成されるが、吐出サマリーから精神医学的なノートまで様々に異なるノートタイプを含んでいる。 深い付着の特徴および注意のメカニズムとのCEDIを更に高めることは性能を高めます。

Many modern entity recognition systems, including the current state-of-the-art de-identification systems, are based on bidirectional long short-term memory (biLSTM) units augmented by a conditional random field (CRF) sequence optimizer. These systems process the input sentence by sentence. This approach prevents the systems from capturing dependencies over sentence boundaries and makes accurate sentence boundary detection a prerequisite. Since sentence boundary detection can be problematic especially in clinical reports, where dependencies and co-references across sentence boundaries are abundant, these systems have clear limitations. In this study, we built a new system on the framework of one of the current state-of-the-art de-identification systems, NeuroNER, to overcome these limitations. This new system incorporates context embeddings through forward and backward n-grams without using sentence boundaries. Our context-enhanced de-identification (CEDI) system captures dependencies over sentence boundaries and bypasses the sentence boundary detection problem altogether. We enhanced this system with deep affix features and an attention mechanism to capture the pertinent parts of the input. The CEDI system outperforms NeuroNER on the 2006 i2b2 de-identification challenge dataset, the 2014 i2b2 shared task de-identification dataset, and the 2016 CEGS N-GRID de-identification dataset (p<0.01). All datasets comprise narrative clinical reports in English but contain different note types varying from discharge summaries to psychiatric notes. Enhancing CEDI with deep affix features and the attention mechanism further increased performance.
翻訳日:2021-02-19 06:53:52 公開日:2021-02-17
# (参考訳) scidr at sdu-2020: ideas -- identifying and disambiguating daily acronyms for scientific domain [全文訳有]

SciDr at SDU-2020: IDEAS -- Identifying and Disambiguating Everyday Acronyms for Scientific Domain ( http://arxiv.org/abs/2102.08818v1 )

ライセンス: CC BY 4.0
Aadarsh Singh and Priyanshu Kumar(参考訳) SDUワークショップで実施された頭字語識別(AI)と頭字語曖昧化(AD)の共有タスクのために提出されたシステムを紹介します。 私たちは主にBERTとSciBERTで実験します。 また、AIにおけるアンサンブル能力とともに「BIOless」タグ付けとブレンドの有効性を評価します。 ADでは、問題をスパン予測タスクとして定式化し、さまざまなトレーニングテクニックを実験し、外部データの使用を活用します。 当社のシステムはAIとADのタスクでそれぞれ11位と3位にランクされます。

We present our systems submitted for the shared tasks of Acronym Identification (AI) and Acronym Disambiguation (AD) held under Workshop on SDU. We mainly experiment with BERT and SciBERT. In addition, we assess the effectiveness of "BIOless" tagging and blending along with the prowess of ensembling in AI. For AD, we formulate the problem as a span prediction task, experiment with different training techniques and also leverage the use of external data. Our systems rank 11th and 3rd in AI and AD tasks respectively.
翻訳日:2021-02-19 06:16:45 公開日:2021-02-17
# (参考訳) 遺伝学的に最適化された余命の予測 [全文訳有]

Genetically Optimized Prediction of Remaining Useful Life ( http://arxiv.org/abs/2102.08845v1 )

ライセンス: CC BY 4.0
Shaashwat Agrawal, Sagnik Sarkar, Gautam Srivastava, Praveen Kumar Reddy Maddikunta, Thippa Reddy Gadekallu(参考訳) 有効寿命予測(RUL)の適用は、エネルギー最適化、費用対効果、リスク軽減の観点から非常に重要である。 既存のRUL予測アルゴリズムは、主にディープラーニングフレームワークを構成する。 本稿では、LSTMとGRUモデルを実装し、得られた結果と、提案された遺伝子訓練ニューラルネットワークを比較します。 現在のモデルは最適化と学習のためにAdamとSGDにのみ依存している。 モデルはこれらのオプティマイザとうまく機能しているが、予後予測の不確実性でさえも大きな損失をもたらす可能性がある。 遺伝的アルゴリズムを用いた他の最適化層を追加することによって,予測の整合性の向上を期待する。 ハイパーパラメータ - 学習率とバッチサイズは手動容量を超えて最適化されます。 これらのモデルと提案されたアーキテクチャは、nasaのターボファンジェットエンジンデータセットでテストされている。 最適化されたアーキテクチャは、与えられたハイパーパラメータを自律的に予測し、優れた結果を提供する。

The application of remaining useful life (RUL) prediction has taken great importance in terms of energy optimization, cost-effectiveness, and risk mitigation. The existing RUL prediction algorithms mostly constitute deep learning frameworks. In this paper, we implement LSTM and GRU models and compare the obtained results with a proposed genetically trained neural network. The current models solely depend on Adam and SGD for optimization and learning. Although the models have worked well with these optimizers, even little uncertainties in prognostics prediction can result in huge losses. We hope to improve the consistency of the predictions by adding another layer of optimization using Genetic Algorithms. The hyper-parameters - learning rate and batch size are optimized beyond manual capacity. These models and the proposed architecture are tested on the NASA Turbofan Jet Engine dataset. The optimized architecture can predict the given hyper-parameters autonomously and provide superior results.
翻訳日:2021-02-19 05:16:31 公開日:2021-02-17
# (参考訳) 画像時系列からのクロップマッピング:マルチスケールラベル階層を用いた深層学習

Crop mapping from image time series: deep learning with multi-scale label hierarchies ( http://arxiv.org/abs/2102.08820v1 )

ライセンス: CC BY 4.0
Mehmet Ozgur Turkoglu, Stefano D'Aronco, Gregor Perich, Frank Liebisch, Constantin Streit, Konrad Schindler, Jan Dirk Wegner(参考訳) 本研究の目的は,衛星画像時系列の分類による農業作物の地図作成である。 農業分野の専門家は、果樹園のような粗いクラス(果樹園)をより細かいもの(リンゴ、洋ナシ、ブドウなど)に分類する階層的な木構造で組織された作物型ラベルを扱っている。 本研究では,この知識を活かした作物分類手法を開発し,希少作物のマッピングを大幅に改善する。 3レベルのラベル階層は畳み込みニューラルネットワーク(convRNN)にエンコードされ、各ピクセルに対してモデルは異なるレベルの粒度で3つのラベルを予測する。 このエンドツーエンドのトレーニング可能な階層的ネットワークアーキテクチャにより、モデルは粗いレベル(例えば果樹園)でレアクラス(例えばリンゴ、ナシ)の共同特徴表現を学ぶことができ、細粒度の分類性能を高めることができる。 さらに、異なる粒度でのラベル付けは、分類スコアに応じて出力を調整することも可能であり、高い信頼度を持つ粗いラベルは、細粒度であるが不確定なラベルよりも農業実践に有用である。 我々は,提案手法を新たに公開する大規模データセット上で検証する。 zuericrop はスイスのチューリッヒ州とトゥールガウ州で50 km x 48 km の面積をカバーしており、48の作物のクラスにまたがる116'000の個別の畑と、センチネル-2からの28,000のイメージパッチがある。 提案する階層型convrnnモデルと,不均衡クラス分散のための手法を含む複数のベースラインを比較した。 階層的アプローチは、F1スコアの少なくとも9.9ポイントよりも優れている。

The aim of this paper is to map agricultural crops by classifying satellite image time series. Domain experts in agriculture work with crop type labels that are organised in a hierarchical tree structure, where coarse classes (like orchards) are subdivided into finer ones (like apples, pears, vines, etc.). We develop a crop classification method that exploits this expert knowledge and significantly improves the mapping of rare crop types. The three-level label hierarchy is encoded in a convolutional, recurrent neural network (convRNN), such that for each pixel the model predicts three labels at different level of granularity. This end-to-end trainable, hierarchical network architecture allows the model to learn joint feature representations of rare classes (e.g., apples, pears) at a coarser level (e.g., orchard), thereby boosting classification performance at the fine-grained level. Additionally, labelling at different granularity also makes it possible to adjust the output according to the classification scores; as coarser labels with high confidence are sometimes more useful for agricultural practice than fine-grained but very uncertain labels. We validate the proposed method on a new, large dataset that we make public. ZueriCrop covers an area of 50 km x 48 km in the Swiss cantons of Zurich and Thurgau with a total of 116'000 individual fields spanning 48 crop classes, and 28,000 (multi-temporal) image patches from Sentinel-2. We compare our proposed hierarchical convRNN model with several baselines, including methods designed for imbalanced class distributions. The hierarchical approach performs superior by at least 9.9 percentage points in F1-score.
翻訳日:2021-02-19 04:22:46 公開日:2021-02-17
# (参考訳) THEaiTRE 1.0:演劇脚本のインタラクティブな生成 [全文訳有]

THEaiTRE 1.0: Interactive generation of theatre play scripts ( http://arxiv.org/abs/2102.08892v1 )

ライセンス: CC BY 4.0
Rudolf Rosa and Tom\'a\v{s} Musil and Ond\v{r}ej Du\v{s}ek and Dominik Jurko and Patr\'icia Schmidtov\'a and David Mare\v{c}ek and Ond\v{r}ej Bojar and Tom Kocmi and Daniel Hrbek and David Ko\v{s}\v{t}\'ak and Martina Kinsk\'a and Marie Nov\'akov\'a and Josef Dole\v{z}al and Kl\'ara Voseck\'a and Tom\'a\v{s} Studen\'ik and Petr \v{Z}abka(参考訳) 演劇脚本をインタラクティブに生成するためのシステムの最初のバージョンを紹介します。 このシステムは、いくつかの調整を施したバニラGPT-2モデルに基づいており、実際に遭遇した特定の問題をターゲットにしている。 また、遭遇した他の問題をリストアップしますが、システムの将来のバージョンでのみ解決する予定です。 提示されたシステムは、2021年2月に初演予定の演劇脚本の作成に使用された。

We present the first version of a system for interactive generation of theatre play scripts. The system is based on a vanilla GPT-2 model with several adjustments, targeting specific issues we encountered in practice. We also list other issues we encountered but plan to only solve in a future version of the system. The presented system was used to generate a theatre play script planned for premiere in February 2021.
翻訳日:2021-02-19 04:21:30 公開日:2021-02-17
# (参考訳) NODE-SELECT : 選択的伝播法に基づくグラフニューラルネットワーク [全文訳有]

NODE-SELECT: A Graph Neural Network Based On A Selective Propagation Technique ( http://arxiv.org/abs/2102.08588v1 )

ライセンス: CC BY-SA 4.0
Steph-Yves Louis, Alireza Nasiri, Fatima J. Rolland, Cameron Mitro, and Jianjun Hu(参考訳) ノード分類のための多種多様なグラフニューラルネットワーク(GNN)が存在するが、メッセージパッシング手順中に効果的にノイズ伝搬をターゲットするメカニズムを採用するのは少数のみである。 さらに、グラフニューラルネットワークに大きく影響する非常に重要な課題は、アプリケーションをより大きなグラフに制限するスケーラビリティの問題である。 本論文では,最適な共有フィットノードのみが情報を伝播できるサブセット層を用いた効率的なグラフニューラルネットワークであるNODE-SELECTを提案する。 提案手法であるNODE-SELECTは,各層に並列に積み重ねる選択機構を持つことで,拡散するノイズを低減し,実世界グラフに見られる制限共有の概念を適応させることができる。 当社のNODE-SELECTは、ノイズ実験における既存のGNNフレームワークを大幅に上回り、異なるベンチマークデータセット上のノイズのない実験における最先端の結果と一致しました。

While there exists a wide variety of graph neural networks (GNN) for node classification, only a minority of them adopt mechanisms that effectively target noise propagation during the message-passing procedure. Additionally, a very important challenge that significantly affects graph neural networks is the issue of scalability which limits their application to larger graphs. In this paper we propose our method named NODE-SELECT: an efficient graph neural network that uses subsetting layers which only allow the best sharing-fitting nodes to propagate their information. By having a selection mechanism within each layer which we stack in parallel, our proposed method NODE-SELECT is able to both reduce the amount noise propagated and adapt the restrictive sharing concept observed in real world graphs. Our NODE-SELECT significantly outperformed existing GNN frameworks in noise experiments and matched state-of-the art results in experiments without noise over different benchmark datasets.
翻訳日:2021-02-19 04:14:30 公開日:2021-02-17
# (参考訳) 食選択に影響を及ぼすソーシャルティーの形成 : キャンパスワイド縦断的研究 [全文訳有]

Formation of Social Ties Influences Food Choice: A Campus-Wide Longitudinal Study ( http://arxiv.org/abs/2102.08755v1 )

ライセンス: CC BY 4.0
Kristina Gligori\'c, Ryen W. White, Emre K{\i}c{\i}man, Eric Horvitz, Arnaud Chiolero, Robert West(参考訳) 栄養は長期的な健康の重要な決定要因であり、社会的影響は長い間栄養の重要な決定要因であると理論化されてきた。 調査などの伝統的な方法を用いた栄養学における社会的影響の仮定的役割の定量化は、通常、小規模で研究期間の短いため困難である。 Ecole Polytechnique Federale de Lausanne(EPFL)大学のキャンパスで8年間に生産された食品購入3800万件のログを、クラウド上での購入に使用されるスマートカードを通じて匿名化された個人に関連付けている。 食事選択が健康な人との食事選択が、健康な人と不健康な人との食事選択にどのような影響があるのか? To estimate causal effects from the passively observed log data, we control confounds in a matched quasi-experimental design: we identify focal users who at first do not have any regular eating partners but then start eating with a fixed partner regularly, and we match focal users into comparison pairs such that paired users are nearly identical with respect to covariates measured before acquiring the partner, where the two focal users' new eating partners diverge in the healthiness of their respective food choice. 健康な食事のパートナーを取得する焦点のユーザは、健康な食事のパートナーを取得する焦点のユーザよりも、健康的な食べ物に対する習慣を大きく変えます。 さらに, 食品選択の健康度によって, 購入頻度が大きく影響を受ける食品を同定した。 研究では、主な成果に加えて、受動的に感知された食品購入ログの有用性を実証し、公衆衛生介入と食品の提供の設計を知らせる可能性がある。

Nutrition is a key determinant of long-term health, and social influence has long been theorized to be a key determinant of nutrition. It has been difficult to quantify the postulated role of social influence on nutrition using traditional methods such as surveys, due to the typically small scale and short duration of studies. To overcome these limitations, we leverage a novel source of data: logs of 38 million food purchases made over an 8-year period on the Ecole Polytechnique Federale de Lausanne (EPFL) university campus, linked to anonymized individuals via the smartcards used to make on-campus purchases. In a longitudinal observational study, we ask: How is a person's food choice affected by eating with someone else whose own food choice is healthy vs. unhealthy? To estimate causal effects from the passively observed log data, we control confounds in a matched quasi-experimental design: we identify focal users who at first do not have any regular eating partners but then start eating with a fixed partner regularly, and we match focal users into comparison pairs such that paired users are nearly identical with respect to covariates measured before acquiring the partner, where the two focal users' new eating partners diverge in the healthiness of their respective food choice. A difference-in-differ ences analysis of the paired data yields clear evidence of social influence: focal users acquiring a healthy-eating partner change their habits significantly more toward healthy foods than focal users acquiring an unhealthy-eating partner. We further identify foods whose purchase frequency is impacted significantly by the eating partner's healthiness of food choice. Beyond the main results, the work demonstrates the utility of passively sensed food purchase logs for deriving insights, with the potential of informing the design of public health interventions and food offerings.
翻訳日:2021-02-19 03:58:46 公開日:2021-02-17
# (参考訳) ロボットナビゲーションにおける快適性をモデル化するグラフニューラルネットワーク [全文訳有]

A Graph Neural Network to Model User Comfort in Robot Navigation ( http://arxiv.org/abs/2102.08863v1 )

ライセンス: CC BY-SA 4.0
Pilar Bachiller and Daniel Rodriguez-Criado and Ronit R. Jorvekar and Pablo Bustos and Diego R. Faria and Luis J. Manso(参考訳) 自律ナビゲーションは、アシストロボットやサービスロボットにとって重要なスキルだ。 成功するためには、ロボットは移動中の人間の破壊を最小限に抑える必要がある。 これは人々がどのように行動し、社会的慣例に従うかを予測することを意味する。 個人の空間を乱すのを避けるため、人々の道や交流はこれらの社会的慣習の例である。 本稿では,人やロボットの動きを考慮し,グラフニューラルネットワークを用いてロボットの破壊をモデル化し,経路計画アルゴリズムを用いてモデルを構築する。 本稿では,ロボットと人間の移動を考慮したデータセットsocnav1の進化と,異なるグラフニューラルネットワークブロックを用いてテストした新たなシナリオからグラフへの変換について述べる。 トレーニングされたモデルは、データセットで人間に近いパフォーマンスを達成する。 その正確性に加えて、アプローチの主な利点は、手作りモデルと比較して考慮することができる社会的要因の数の観点から、そのスケーラビリティである。

Autonomous navigation is a key skill for assistive and service robots. To be successful, robots have to minimise the disruption caused to humans while moving. This implies predicting how people will move and complying with social conventions. Avoiding disrupting personal spaces, people's paths and interactions are examples of these social conventions. This paper leverages Graph Neural Networks to model robot disruption considering the movement of the humans and the robot so that the model built can be used by path planning algorithms. Along with the model, this paper presents an evolution of the dataset SocNav1 which considers the movement of the robot and the humans, and an updated scenario-to-graph transformation which is tested using different Graph Neural Network blocks. The model trained achieves close-to-human performance in the dataset. In addition to its accuracy, the main advantage of the approach is its scalability in terms of the number of social factors that can be considered in comparison with handcrafted models.
翻訳日:2021-02-19 03:28:46 公開日:2021-02-17
# (参考訳) 分布の射影族を表現するための確率論的論理プログラミングの漸近解析 [全文訳有]

An asymptotic analysis of probabilistic logic programming with implications for expressing projective families of distributions ( http://arxiv.org/abs/2102.08777v1 )

ライセンス: CC BY 4.0
Felix Weitk\"amper(参考訳) 近年, 領域の大きさに比例した統計的関係表現のスケーリング挙動や, ドメインサイズ依存と昇降推論の関係についての研究が増えている。 特に、統計関係表現の漸近的挙動は精査され、射影性はドメインサイズ独立の最も強い形態として分離された。 この貢献により、分布意味論に基づくすべての確率論理プログラムは、確率的事実に対する範囲制限項のみからなる確率的論理プログラムと同等であることが示された。 有限モデル理論からの古典的結果の適用を容易にするために,確率的事実に対する任意の論理理論として定義される抽象分布意味論を導入し,確率的論理プログラミングの基礎となる分布意味論にギャップを橋渡しする。 この表現において、範囲制限論理プログラムは、量子化子のない理論に対応し、漸近量化子の結果を使用不能にする。 射影的分布群を誘導する確率論的論理プログラムは、実際にはこのクラスによって捕捉され、確率論的論理プログラムの表現性、および確率論的規則の無症状行動に対する興味深い結果を推測することができる。

Over the last years, there has been increasing research on the scaling behaviour of statistical relational representations with the size of the domain, and on the connections between domain size dependence and lifted inference. In particular, the asymptotic behaviour of statistical relational representations has come under scrutiny, and projectivity was isolated as the strongest form of domain size independence. In this contribution we show that every probabilistic logic program under the distribution semantics is asymptotically equivalent to a probabilistic logic program consisting only of range-restricted clauses over probabilistic facts. To facilitate the application of classical results from finite model theory, we introduce the abstract distribution semantics, defined as an arbitrary logical theory over probabilistic facts to bridge the gap to the distribution semantics underlying probabilistic logic programming. In this representation, range-restricted logic programs correspond to quantifier-free theories, making asymptotic quantifier results avilable for use. We can conclude that every probabilistic logic program inducing a projective family of distributions is in fact captured by this class, and we can infer interesting consequences for the expressivity of probabilistic logic programs as well as for the asymptotic behaviour of probabilistic rules.
翻訳日:2021-02-19 03:12:24 公開日:2021-02-17
# (参考訳) IoTDevID:IoTにおけるデバイス識別のための振る舞いに基づくフィンガープリント手法 [全文訳有]

IoTDevID: A Behaviour-Based Fingerprinting Method for Device Identification in the IoT ( http://arxiv.org/abs/2102.08866v1 )

ライセンス: CC BY 4.0
Kahraman Kostas, Mike Just, Michael A. Lones(参考訳) デバイス識別はIoTデバイスのネットワークを保護する1つの方法であり、疑わしいと識別されたデバイスがネットワークから隔離される。 ネットワークパケットに基づくIoTデバイスの動作をモデル化する機械学習を用いたデバイス識別のための,新たなフィンガープリント手法であるIoTDevIDを提案する。 提案手法では,従来からある機能の組み合わせを改良し,データ拡張による不均衡なデバイスデータ処理のアプローチを含む。 さらに,グループデータアグリゲーションによるデバイス識別の強化方法を示す。 本研究では,100デバイス以上のデータを含む3つのパブリックIoTデータセットを用いて,最近の2つの識別方法との比較評価を行う。 評価の結果,f1-scoreが99%以上向上し,データアグリゲーションによる改善がみられた。

Device identification is one way to secure a network of IoT devices, whereby devices identified as suspicious can subsequently be isolated from a network. We introduce a novel fingerprinting method, IoTDevID, for device identification that uses machine learning to model the behaviour of IoT devices based on network packets. Our method uses an enhanced combination of features from previous work and includes an approach for dealing with unbalanced device data via data augmentation. We further demonstrate how to enhance device identification via a group-wise data aggregation. We provide a comparative evaluation of our method against two recent identification methods using three public IoT datasets which together contain data from over 100 devices. Through our evaluation we demonstrate improved performance over previous results with F1-scores above 99%, with considerable improvement gained from data aggregation.
翻訳日:2021-02-19 02:56:03 公開日:2021-02-17
# (参考訳) 薄血スミア画像におけるマラリアライフサイクル分類のためのデータセットとベンチマーク [全文訳有]

A Dataset and Benchmark for Malaria Life-Cycle Classification in Thin Blood Smear Images ( http://arxiv.org/abs/2102.08708v1 )

ライセンス: CC BY 4.0
Qazi Ammar Arshad, Mohsen Ali, Saeed-ul Hassan, Chen Chen, Ayisha Imran, Ghulam Rasul, Waqas Sultani(参考訳) マラリア顕微鏡、寄生虫Plasmodiumを検出するステンド血液スライドの顕微鏡検査は、生命を脅かす病気のマラリアを検出するための金標準であると考えられています。 プラスミジウム寄生虫の検出には熟練した検査官が必要で、スライド全体を完全に通過するのに最大10分から15分かかる。 未発達または資源不足の地域では熟練した医療専門家が不足しているため、多くの患者は誤診され、避けられない合併症や不適切な薬が生じる。 染色フィルム写真中のプラスモジウム寄生虫を自動的に検出(局在化)する深層学習法を考案し,医療従事者を補完することを提案する。 データセットのアンバランスな性質を扱うために、2段階のアプローチを採用しています。 最初の段階は、血液細胞を検出し、健康的または感染しただけに分類するように訓練されています。 第2段階は、検出された各細胞をさらにライフサイクルステージに分類するように訓練される。 機械学習に基づくマラリア顕微鏡の研究を容易にするために,新しい大規模顕微鏡画像マラリアデータセットを提案する。 血液サンプルの異なるGiemsa染色スライドの345の顕微鏡画像から30万細胞がタグ付けされています。 大規模な実験は、データセット上でVGG、DenseNet、ResNetなど、さまざまなCNNバックボーンを使用して行われる。 実験と分析の結果,2段階のアプローチはマラリア検出の1段階のアプローチよりも有効であることが判明した。 このアプローチのユーザビリティを確保するために,我々は,地域病院が調査や教育目的で利用するモバイルアプリも開発した。 データセット、そのアノテーション、実装コードは、論文の発行時にリリースされる予定だ。

Malaria microscopy, microscopic examination of stained blood slides to detect parasite Plasmodium, is considered to be a gold-standard for detecting life-threatening disease malaria. Detecting the plasmodium parasite requires a skilled examiner and may take up to 10 to 15 minutes to completely go through the whole slide. Due to a lack of skilled medical professionals in the underdeveloped or resource deficient regions, many cases go misdiagnosed; resulting in unavoidable complications and/or undue medication. We propose to complement the medical professionals by creating a deep learning-based method to automatically detect (localize) the plasmodium parasites in the photograph of stained film. To handle the unbalanced nature of the dataset, we adopt a two-stage approach. Where the first stage is trained to detect blood cells and classify them into just healthy or infected. The second stage is trained to classify each detected cell further into the life-cycle stage. To facilitate the research in machine learning-based malaria microscopy, we introduce a new large scale microscopic image malaria dataset. Thirty-eight thousand cells are tagged from the 345 microscopic images of different Giemsa-stained slides of blood samples. Extensive experimentation is performed using different CNN backbones including VGG, DenseNet, and ResNet on this dataset. Our experiments and analysis reveal that the two-stage approach works better than the one-stage approach for malaria detection. To ensure the usability of our approach, we have also developed a mobile app that will be used by local hospitals for investigation and educational purposes. The dataset, its annotations, and implementation codes will be released upon publication of the paper.
翻訳日:2021-02-19 02:41:22 公開日:2021-02-17
# (参考訳) ニューラルアーキテクチャとハードウェアアクセラレータの共設計再考 [全文訳有]

Rethinking Co-design of Neural Architectures and Hardware Accelerators ( http://arxiv.org/abs/2102.08619v1 )

ライセンス: CC BY 4.0
Yanqi Zhou, Xuanyi Dong, Berkin Akin, Mingxing Tan, Daiyi Peng, Tianjian Meng, Amir Yazdanbakhsh, Da Huang, Ravi Narayanaswami, James Laudon(参考訳) ニューラルアーキテクチャとハードウェアアクセラレーターは、ディープラーニングの進歩の推進力として2つある。 以前は、固定モデルアーキテクチャや固定ハードウェアのモデルアーキテクチャが与えられた場合、ハードウェアを最適化しようとしていた。 そして、この先行研究で探索されたハードウェアアーキテクチャはFPGAである。 本研究は,業界標準エッジアクセラレータ上でのハードウェアおよびソフトウェア構成の最適化を目標とする。 我々は,ニューラルアーキテクチャとハードウェアアクセラレータの協調設計の重要性と戦略を体系的に研究する。 1) 対象とするハードウェアアーキテクチャをフル活用するためにソフトウェア検索空間をカスタマイズしなければならないこと,2) モデルアーキテクチャとハードウェアアーキテクチャの検索を,両世界のベストを達成するために共同で行うこと,3) 異なるユースケースが,非常に異なる検索結果をもたらすこと,の3つの観察を行う。 提案手法は,従来のプラットフォーム認識型ニューラルネットワーク検索,手作業によるモデル,およびimagenet top-1精度の約1%の遅延目標に対する最先端の効率性に一貫して優れることを示す。 本手法は,モデルアーキテクチャとハードウェアアクセラレータ構成を併用することで,エッジアクセラレータのエネルギー消費を,同じ精度制約下で最大2倍削減することができる。

Neural architectures and hardware accelerators have been two driving forces for the progress in deep learning. Previous works typically attempt to optimize hardware given a fixed model architecture or model architecture given fixed hardware. And the dominant hardware architecture explored in this prior work is FPGAs. In our work, we target the optimization of hardware and software configurations on an industry-standard edge accelerator. We systematically study the importance and strategies of co-designing neural architectures and hardware accelerators. We make three observations: 1) the software search space has to be customized to fully leverage the targeted hardware architecture, 2) the search for the model architecture and hardware architecture should be done jointly to achieve the best of both worlds, and 3) different use cases lead to very different search outcomes. Our experiments show that the joint search method consistently outperforms previous platform-aware neural architecture search, manually crafted models, and the state-of-the-art EfficientNet on all latency targets by around 1% on ImageNet top-1 accuracy. Our method can reduce energy consumption of an edge accelerator by up to 2x under the same accuracy constraint, when co-adapting the model architecture and hardware accelerator configurations.
翻訳日:2021-02-19 01:30:29 公開日:2021-02-17
# (参考訳) ランダムウォーク上の1次元畳み込みによるグラフ学習 [全文訳有]

Graph Learning with 1D Convolutions on Random Walks ( http://arxiv.org/abs/2102.08786v1 )

ライセンス: CC BY 4.0
Jan Toenshoff, Martin Ritzert, Hinrikus Wolf, Martin Grohe(参考訳) 我々は,グラフ学習のためのニューラルネットワークアーキテクチャであるCRaWl (CNNs for Random Walks)を提案する。 通常の1次元CNNを用いたランダムウォークによって誘導される小さなサブグラフの処理シーケンスに基づいている。 したがって、CRaWlは典型的なメッセージパッシンググラフニューラルネットワークアーキテクチャと根本的に異なる。 グラフレットカーネルやモチーフカウントなどの小さなサブグラフをカウントする技術にインスパイアされ、高度に効率的でスケーラブルなニューラルネットワークアーキテクチャでランダムウォークベースのテクニックと組み合わせられる。 我々は、CRaWlがグラフ学習のためのベンチマークデータセットを多用し、最先端のGNNアーキテクチャに適合または優れることを示す。

We propose CRaWl (CNNs for Random Walks), a novel neural network architecture for graph learning. It is based on processing sequences of small subgraphs induced by random walks with standard 1D CNNs. Thus, CRaWl is fundamentally different from typical message passing graph neural network architectures. It is inspired by techniques counting small subgraphs, such as the graphlet kernel and motif counting, and combines them with random walk based techniques in a highly efficient and scalable neural architecture. We demonstrate empirically that CRaWl matches or outperforms state-of-the-art GNN architectures across a multitude of benchmark datasets for graph learning.
翻訳日:2021-02-19 01:11:14 公開日:2021-02-17
# (参考訳) ppAUC: セキュアな3部計算による曲線下のプライバシー保護エリア [全文訳有]

ppAUC: Privacy Preserving Area Under the Curve with Secure 3-Party Computation ( http://arxiv.org/abs/2102.08788v1 )

ライセンス: CC BY 4.0
Ali Burak \"Unal, Nico Pfeifer, Mete Akg\"un(参考訳) さまざまな機械学習モデルの品質を比較するためのパフォーマンス指標としてのAUCの計算は多くの研究プロジェクトの最終段階の1つである。 これらのメソッドの多くはプライバシに敏感なデータに基づいてトレーニングされており、$\epsilon$-different ial privacy、federated machine learning、暗号化アプローチに基づくメソッドなど、データセットが一箇所で共有または評価できない場合、いくつかの異なるアプローチがある。 この設定では、ラベルにはプライバシーに敏感な情報も含まれているため、グローバルなAUCを計算することも問題となる。 この問題に対処するためには$\epsilon$-different ial privacyに基づくアプローチがありましたが、私たちの知る限り、正確なプライバシー保護ソリューションは導入されていません。 本稿では,2つの秘密共有値の比較,2つの秘密共有値の選択,モジュラスとディビジョンの変換,プール元のテストサンプルで得られる正確なaucの計算を行うための新しい手法であるprivacy preservation auc(ppauc)というmpcベースのフレームワークを提案する。 我々は,精度・リコール曲線の下での正確な面積の計算に ppAUC を用い,予測信頼度値間の関係においても受信特性曲線を演算する。 ppaucの正確性を証明するために,急性骨髄性白血病治療反応予測訓練モデルの評価に適用し,合成データを用いた実験によりその拡張性を評価する。 実験により, 平文領域のプールテストサンプルから得られるような, 両方の評価指標を, プライバシ保護方式で, 全く同じAUCを効率的に計算できることが確認された。 当社のソリューションは、安全な計算を実行するサーバーの少なくとも1つに対して、半正直な破損に対するセキュリティを提供します。

Computing an AUC as a performance measure to compare the quality of different machine learning models is one of the final steps of many research projects. Many of these methods are trained on privacy-sensitive data and there are several different approaches like $\epsilon$-different ial privacy, federated machine learning and methods based on cryptographic approaches if the datasets cannot be shared or evaluated jointly at one place. In this setting, it can also be a problem to compute the global AUC, since the labels might also contain privacy-sensitive information. There have been approaches based on $\epsilon$-different ial privacy to deal with this problem, but to the best of our knowledge, no exact privacy preserving solution has been introduced. In this paper, we propose an MPC-based framework, called privacy preserving AUC (ppAUC), with novel methods for comparing two secret-shared values, selecting between two secret-shared values, converting the modulus and performing division to compute the exact AUC as one could obtain on the pooled original test samples. We employ ppAUC in the computation of the exact area under precision-recall curve and receiver operating characteristic curve even for ties between prediction confidence values. To prove the correctness of ppAUC, we apply it to evaluate a model trained to predict acute myeloid leukemia therapy response and we also assess its scalability via experiments on synthetic data. The experiments show that we efficiently compute exactly the same AUC with both evaluation metrics in a privacy preserving manner as one can obtain on the pooled test samples in the plaintext domain. Our solution provides security against semi-honest corruption of at most one of the servers performing the secure computation.
翻訳日:2021-02-19 00:45:27 公開日:2021-02-17
# (参考訳) 独自の最適解による高速グラフ学習 [全文訳有]

Fast Graph Learning with Unique Optimal Solutions ( http://arxiv.org/abs/2102.08530v1 )

ライセンス: CC BY 4.0
Sami Abu-El-Haija, Valentino Crespi, Greg Ver Steeg, Aram Galstyan(参考訳) グラフ表現学習(GRL)は前例のない速度で進んでいます。 しかし、多くの結果はアーキテクチャや目的、トレーニングスキームの設計とチューニングに頼っている。 既知のクローズドフォームソリューションで対流目標を最適化する効率的なGLL法を提案します。 グローバル最適リリースへのコンバーゼンス保証 ハイパーパラメータとアーキテクチャチューニングによる実践者。 しかし,提案手法は,GRLタスクにおける競合性や最先端性を実現し,桁違いの高速化を実現している。 私たちの目的の設計行列($\mathbf{M}$)は計算するのに高価ですが、$\mathbf{M}$の明示的な計算を避けながら、ランダム行列理論から線形時間の近似解への結果を利用します。 コードはオンラインです: http://github.com/sa mihaija/tf-fsvd

Graph Representation Learning (GRL) has been advancing at an unprecedented rate. However, many results rely on careful design and tuning of architectures, objectives, and training schemes. We propose efficient GRL methods that optimize convexified objectives with known closed form solutions. Guaranteed convergence to a global optimum releases practitioners from hyper-parameter and architecture tuning. Nevertheless, our proposed method achieves competitive or state-of-the-art performance on popular GRL tasks while providing orders of magnitude speedup. Although the design matrix ($\mathbf{M}$) of our objective is expensive to compute, we exploit results from random matrix theory to approximate solutions in linear time while avoiding an explicit calculation of $\mathbf{M}$. Our code is online: http://github.com/sa mihaija/tf-fsvd
翻訳日:2021-02-18 22:25:32 公開日:2021-02-17
# (参考訳) 公衆顔画像を用いたゲノムデータセットの個人再同定 [全文訳有]

Re-identification of Individuals in Genomic Datasets Using Public Face Images ( http://arxiv.org/abs/2102.08557v1 )

ライセンス: CC BY 4.0
Rajagopal Venkatesaramani, Bradley A. Malin, Yevgeniy Vorobeychik(参考訳) DNAシークエンシングは、医療と消費者への直接的な設定の両方で、ますます一般的になっています。 発見を促進するために、収集されたゲノムデータはしばしば非識別化され、OpenSNPなどの公開リポジトリまたはアクセス制御リポジトリを介して研究者と共有される。 しかし、近年の研究では、ゲノムデータは高解像度の3次元顔画像と効果的にマッチングできることが示唆されており、ますます普及する公衆顔画像が共有ゲノムデータにリンクされ、それによってゲノムデータ内の個人を再同定することが懸念されている。 これらの調査はそのような攻撃の可能性を示しているが、彼らはリンクを行う者は極めて正確なデータにアクセスできると仮定している。 これは実際にはそうではないことを考えると、それは攻撃の実用的な性質に疑問を投げかけます。 そこで,本研究では,この再識別リスクを,実顔画像を用いた場合のリンク攻撃がいかに成功するか,そして,その関連した再識別リスクを個人によりよく制御させる方法について検討する。 再同定の真のリスクは、以前の文献が示唆するよりも、ほとんどの個人にとってかなり小さいと考えられる。 さらに、少量の注意深く作られたノイズを画像に追加することで、再識別の成功と共有画像の品質のトレードオフを制御できることを実証します。

DNA sequencing is becoming increasingly commonplace, both in medical and direct-to-consumer settings. To promote discovery, collected genomic data is often de-identified and shared, either in public repositories, such as OpenSNP, or with researchers through access-controlled repositories. However, recent studies have suggested that genomic data can be effectively matched to high-resolution three-dimensional face images, which raises a concern that the increasingly ubiquitous public face images can be linked to shared genomic data, thereby re-identifying individuals in the genomic data. While these investigations illustrate the possibility of such an attack, they assume that those performing the linkage have access to extremely well-curated data. Given that this is unlikely to be the case in practice, it calls into question the pragmatic nature of the attack. As such, we systematically study this re-identification risk from two perspectives: first, we investigate how successful such linkage attacks can be when real face images are used, and second, we consider how we can empower individuals to have better control over the associated re-identification risk. We observe that the true risk of re-identification is likely substantially smaller for most individuals than prior literature suggests. In addition, we demonstrate that the addition of a small amount of carefully crafted noise to images can enable a controlled trade-off between re-identification success and the quality of shared images, with risk typically significantly lowered even with noise that is imperceptible to humans.
翻訳日:2021-02-18 22:03:07 公開日:2021-02-17
# (参考訳) DESED-FLとURBAN-FL:音のイベント検出のためのフェデレーション学習データセット [全文訳有]

DESED-FL and URBAN-FL: Federated Learning Datasets for Sound Event Detection ( http://arxiv.org/abs/2102.08833v1 )

ライセンス: CC BY-SA 4.0
David S. Johnson, Wolfgang Lorenz, Michael Taenzer, Stylianos Mimilakis, Sascha Grollmisch, Jakob Abe{\ss}er, Hanna Lukashevich(参考訳) 近年,環境環境における音イベント検出(sed)の研究が注目されている。 大量の(プライベート)国内または都市のオーディオデータは、重要なロジスティクスおよびプライバシーの懸念を引き起こします。 これらのタスクの本質的に分散された性質により、フェデレーションラーニング(FL)は、プライバシー問題を緩和しながら大規模なデータを活用するための有望なアプローチとなります。 FLも最近注目されているが、私たちの知る限り、SEDのためのFLについての研究はない。 このギャップに対処し、この分野のさらなる研究を促進するために、国内および都市環境でSED用の新しいFLデータセットを作成および公開します。 さらに,3つのディープニューラルネットワークアーキテクチャに対して,FLコンテキストにおけるデータセットのベースライン結果を提供する。 その結果、FLはSEDにとって有望なアプローチであるが、分散クライアントエッジデバイス固有の分散データ分散の課題に直面していることがわかった。

Research on sound event detection (SED) in environmental settings has seen increased attention in recent years. Large amounts of (private) domestic or urban audio data raise significant logistical and privacy concerns. The inherently distributed nature of these tasks, make federated learning (FL) a promising approach to take advantage of large-scale data while mitigating privacy issues. While FL has also seen increased attention recently, to the best of our knowledge there is no research towards FL for SED. To address this gap and foster further research in this field, we create and publish novel FL datasets for SED in domestic and urban environments. Furthermore, we provide baseline results on the datasets in a FL context for three deep neural network architectures. The results indicate that FL is a promising approach for SED, but faces challenges with divergent data distributions inherent to distributed client edge devices.
翻訳日:2021-02-18 21:41:16 公開日:2021-02-17
# (参考訳) 異なるプライベート相関クラスタリング [全文訳有]

Differentially Private Correlation Clustering ( http://arxiv.org/abs/2102.08885v1 )

ライセンス: CC BY 4.0
Mark Bun, Marek Eli\'a\v{s}, Janardhan Kulkarni(参考訳) 相関クラスタリングは教師なし機械学習で広く使われている手法である。 個人のプライバシーが懸念されるアプリケーションに動機づけられて、微分プライベート相関クラスタリングの研究を開始します。 本論文では, 最適コストと比較し, 二次加算誤差を実現するアルゴリズムを提案する。 対照的に、既存の非プライベートアルゴリズムの簡単な適応は、すべて自明な二次誤差につながる。 最後に、相関クラスタリングのための任意の純粋微分プライベートアルゴリズムが$\Omega(n)$の加算誤差を必要とすることを示す下界を与える。

Correlation clustering is a widely used technique in unsupervised machine learning. Motivated by applications where individual privacy is a concern, we initiate the study of differentially private correlation clustering. We propose an algorithm that achieves subquadratic additive error compared to the optimal cost. In contrast, straightforward adaptations of existing non-private algorithms all lead to a trivial quadratic error. Finally, we give a lower bound showing that any pure differentially private algorithm for correlation clustering requires additive error of $\Omega(n)$.
翻訳日:2021-02-18 21:28:00 公開日:2021-02-17
# (参考訳) 補助タスクによるFew-shot Conformal Prediction [全文訳有]

Few-shot Conformal Prediction with Auxiliary Tasks ( http://arxiv.org/abs/2102.08898v1 )

ライセンス: CC BY 4.0
Adam Fisch, Tal Schuster, Tommi Jaakkola, Regina Barzilay(参考訳) 対象タスクがトレーニングに利用可能なデータに制限がある場合に,コンフォメーション予測を行うための新しい手法を開発した。 共形予測は、1つの予測の代わりに少数の有望な出力候補を識別し、そのセットが高い確率で正しい答えを含むことを保証する。 しかし、トレーニングデータに制限がある場合、予測セットは容易に使用不能になる。 本研究では,補助タスクの交換可能なコレクションに対するメタラーニングパラダイムとして,共形予測をキャストすることで,望ましい限界保証を維持しつつ,より厳密な予測セットを得る。 当社のコンフォーマリゼーションアルゴリズムは、基礎となるモデル、学習アルゴリズム、またはデータセットの選択に、シンプルで高速で非依存です。 本手法は,自然言語処理,コンピュータビジョン,薬物発見のための計算化学において,数発の分類と回帰タスクにまたがる効果を示す。

We develop a novel approach to conformal prediction when the target task has limited data available for training. Conformal prediction identifies a small set of promising output candidates in place of a single prediction, with guarantees that the set contains the correct answer with high probability. When training data is limited, however, the predicted set can easily become unusably large. In this work, we obtain substantially tighter prediction sets while maintaining desirable marginal guarantees by casting conformal prediction as a meta-learning paradigm over exchangeable collections of auxiliary tasks. Our conformalization algorithm is simple, fast, and agnostic to the choice of underlying model, learning algorithm, or dataset. We demonstrate the effectiveness of this approach across a number of few-shot classification and regression tasks in natural language processing, computer vision, and computational chemistry for drug discovery.
翻訳日:2021-02-18 21:08:52 公開日:2021-02-17
# (参考訳) ビデオセマンティックセグメンテーションのための時間記憶注意 [全文訳有]

Temporal Memory Attention for Video Semantic Segmentation ( http://arxiv.org/abs/2102.08643v1 )

ライセンス: CC BY 4.0
Hao Wang, Weining Wang, Jing Liu(参考訳) ビデオセマンティックセグメンテーションは、ビデオシーケンスのフレーム間の複雑な時間的関係を利用する必要がある。 以前の作品は通常、計算コストのかかる時間的関係を利用するために正確な光の流れを利用する。 本論文では,完全光フロー予測を必要とせず,自己保持機構に基づいて,ビデオシーケンス上の長期時間関係を適応的に統合するための時間記憶アテンションネットワーク(TMANet)を提案する。 特に,現在のフレームの時間情報を記憶するために,過去の複数のフレームを用いたメモリを構築する。 次に,現在のフレームとメモリの関係を捉え,現在のフレームの表現を高めるための時間的メモリ注意モジュールを提案する。 本手法は、都市景観における80.3% mIoUと、ResNet-50を用いたCamVidにおける76.5% mIoUの2つの挑戦的なビデオセマンティックセグメンテーションデータセットにおいて、最新のパフォーマンスを実現する。

Video semantic segmentation requires to utilize the complex temporal relations between frames of the video sequence. Previous works usually exploit accurate optical flow to leverage the temporal relations, which suffer much from heavy computational cost. In this paper, we propose a Temporal Memory Attention Network (TMANet) to adaptively integrate the long-range temporal relations over the video sequence based on the self-attention mechanism without exhaustive optical flow prediction. Specially, we construct a memory using several past frames to store the temporal information of the current frame. We then propose a temporal memory attention module to capture the relation between the current frame and the memory to enhance the representation of the current frame. Our method achieves new state-of-the-art performances on two challenging video semantic segmentation datasets, particularly 80.3% mIoU on Cityscapes and 76.5% mIoU on CamVid with ResNet-50.
翻訳日:2021-02-18 20:43:43 公開日:2021-02-17
# (参考訳) この製品を欲しがるが、異なる : 合成クエリ拡張によるマルチモーダル検索 [全文訳有]

I Want This Product but Different : Multimodal Retrieval with Synthetic Query Expansion ( http://arxiv.org/abs/2102.08871v1 )

ライセンス: CC BY 4.0
Ivona Tautkute and Tomasz Trzcinski(参考訳) 本稿では,マルチモーダルクエリ(視覚入力と自然言語フィードバックの付加的な意味情報を組み合わせたクエリ)を用いたメディア検索の問題に対処する。 画像入力とテキスト入力の両方から意味情報をキャプチャする合成画像を用いてマルチモーダルクエリを拡張することで,この課題を解決するSynthTriplet GANフレームワークを提案する。 本稿では,合成画像をアンカーとして使用し,生成画像と対象画像の埋め込み距離を直接最適化する新しいトリプルトマイニング手法を提案する。 本手法は,カスタマイズとユーザフィードバックに着目した合成画像を用いた検索イラストの付加価値を別にして,他のマルチモーダル生成手法を大きく超え,マルチモーダル検索タスクにおける成果の状態を実現できることを示す。 また,他の検索手法とは対照的に,本手法は説明可能な埋め込みを提供する。

This paper addresses the problem of media retrieval using a multimodal query (a query which combines visual input with additional semantic information in natural language feedback). We propose a SynthTriplet GAN framework which resolves this task by expanding the multimodal query with a synthetically generated image that captures semantic information from both image and text input. We introduce a novel triplet mining method that uses a synthetic image as an anchor to directly optimize for embedding distances of generated and target images. We demonstrate that apart from the added value of retrieval illustration with synthetic image with the focus on customization and user feedback, the proposed method greatly surpasses other multimodal generation methods and achieves state of the art results in the multimodal retrieval task. We also show that in contrast to other retrieval methods, our method provides explainable embeddings.
翻訳日:2021-02-18 20:35:57 公開日:2021-02-17
# (参考訳) Cross-SEAN:COVID-19フェイクニュース検出のためのクロススタイル半スーパービジョンニューラルアテンションモデル

Cross-SEAN: A Cross-Stitch Semi-Supervised Neural Attention Model for COVID-19 Fake News Detection ( http://arxiv.org/abs/2102.08924v1 )

ライセンス: CC BY 4.0
William Scott Paka, Rachit Bansal, Abhay Kaushik, Shubhashis Sengupta, Tanmoy Chakraborty(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中に広がる中、偽ニュースやソーシャルメディアの誤報が相次いだ。 公衆衛生と安全に信頼できる情報が不可欠である現在、新型コロナウイルス関連の偽ニュースは事実よりも急速に広まっている。 新型コロナウイルスのパンデミックなどの間、フェイクニュースは知的混乱を引き起こすだけでなく、人々の命を危険にさらす可能性があります。 これにより、ソーシャルメディア上での誤報の拡散を即時に取り込む必要がある。 偽ツイートと偽ツイートをラベル付けした最初のcovid-19twitterフェイクニュースデータセットであるctfを紹介します。 また、多量の不整合データを活用したクロスステッチベースのセミスーパーバイザーエンドツーエンドの神経注意モデルCross-SEANを提案する。 cross-seanは、外部の知識から学ぶフェイクニュースを部分的に一般化する。 クロスセブンと偽ニュース検出手法を比較検討した。 我々は、CTFで0.95$ F1スコアを達成し、最高のベースラインを$ 9\%$で上回ることを観察する。 また,偽ツイートをリアルタイムに検出するクロスseanベースのchromeエクステンションであるchrome-seanも開発した。

As the COVID-19 pandemic sweeps across the world, it has been accompanied by a tsunami of fake news and misinformation on social media. At the time when reliable information is vital for public health and safety, COVID-19 related fake news has been spreading even faster than the facts. During times such as the COVID-19 pandemic, fake news can not only cause intellectual confusion but can also place lives of people at risk. This calls for an immediate need to contain the spread of such misinformation on social media. We introduce CTF, the first COVID-19 Twitter fake news dataset with labeled genuine and fake tweets. Additionally, we propose Cross-SEAN, a cross-stitch based semi-supervised end-to-end neural attention model, which leverages the large amount of unlabelled data. Cross-SEAN partially generalises to emerging fake news as it learns from relevant external knowledge. We compare Cross-SEAN with seven state-of-the-art fake news detection methods. We observe that it achieves $0.95$ F1 Score on CTF, outperforming the best baseline by $9\%$. We also develop Chrome-SEAN, a Cross-SEAN based chrome extension for real-time detection of fake tweets.
翻訳日:2021-02-18 20:21:41 公開日:2021-02-17
# (参考訳) ビジョンに基づく深層強化学習におけるデータ拡張の時間的問題 [全文訳有]

Time Matters in Using Data Augmentation for Vision-based Deep Reinforcement Learning ( http://arxiv.org/abs/2102.08581v1 )

ライセンス: CC BY 4.0
Byungchan Ko and Jungseul Ok(参考訳) コンピュータビジョンからのデータ拡張技術は、視覚に基づく強化学習におけるデータ効率と一般化性能を改善するための正規化手法として広く考えられている。 私たちは、トレーニングやテストで解決すべきタスクによって、拡張を使用するタイミングを変動させます。 Open AI Procgen Benchmarkの実験によると、拡張によって課される正規化がテストのみに有効であれば、サンプルと計算の複雑さの観点からトレーニング中に使用するよりも、トレーニング後の拡張を促進すべきである。 このような強化がトレーニングプロセスに支障をきたす可能性があることに留意する。 逆に、一般化だけでなく、データ効率の観点からも、トレーニング期間全体を通じて、トレーニングに有用な正規化を提供する拡張は、そのメリットを完全に活用する必要がある。 これらの現象は、強化学習におけるデータ増強の有用なタイミング制御を示唆している。

Data augmentation technique from computer vision has been widely considered as a regularization method to improve data efficiency and generalization performance in vision-based reinforcement learning. We variate the timing of using augmentation, which is, in turn, critical depending on tasks to be solved in training and testing. According to our experiments on Open AI Procgen Benchmark, if the regularization imposed by augmentation is helpful only in testing, it is better to procrastinate the augmentation after training than to use it during training in terms of sample and computation complexity. We note that some of such augmentations can disturb the training process. Conversely, an augmentation providing regularization useful in training needs to be used during the whole training period to fully utilize its benefit in terms of not only generalization but also data efficiency. These phenomena suggest a useful timing control of data augmentation in reinforcement learning.
翻訳日:2021-02-18 20:20:41 公開日:2021-02-17
# (参考訳) 完全なオンライン模造学習 [全文訳有]

Fully General Online Imitation Learning ( http://arxiv.org/abs/2102.08686v1 )

ライセンス: CC BY 4.0
Michael K. Cohen, Marcus Hutter, Neel Nanda(参考訳) 模倣学習では、模倣者とデモ者は、環境との過去の相互作用が与えられた行動を選択するためのポリシーです。 もし我々が模倣者を実行するなら、デモ参加者がずっと行動していた場合と同様の方法でイベントが展開されることを望んでいるでしょう。 既存の作業では、これを実現するための正式なガイダンスは提供されておらず、代わりに再起動する環境にフォーカスを限定し、異常に簡単に学習でき、ミスの重要性を便利に制限します。 私たちは、(確率的)環境とデモレーターが決してリセットされず、トレーニングの目的でさえ、完全に一般的な設定に対処します。 我々の新しい保守的ベイズ模倣学習者は、利用可能な各アクションの確率を過小評価し、残りの確率でより多くのデータを求める。 主な結果:もしデモ参加者がずっと行動していたら、イベントがありそうになかったら、そのイベントの確率は、代わりに(当初は全く無知な)イミテータを実行するときに、上から境界づけられる。 一方、デモレータへのクエリは、急速に周波数が低下する。

In imitation learning, imitators and demonstrators are policies for picking actions given past interactions with the environment. If we run an imitator, we probably want events to unfold similarly to the way they would have if the demonstrator had been acting the whole time. No existing work provides formal guidance in how this might be accomplished, instead restricting focus to environments that restart, making learning unusually easy, and conveniently limiting the significance of any mistake. We address a fully general setting, in which the (stochastic) environment and demonstrator never reset, not even for training purposes. Our new conservative Bayesian imitation learner underestimates the probabilities of each available action, and queries for more data with the remaining probability. Our main result: if an event would have been unlikely had the demonstrator acted the whole time, that event's likelihood can be bounded above when running the (initially totally ignorant) imitator instead. Meanwhile, queries to the demonstrator rapidly diminish in frequency.
翻訳日:2021-02-18 19:51:46 公開日:2021-02-17
# (参考訳) 木構造マルコフ確率場のロバスト推定

Robust Estimation of Tree Structured Markov Random Fields ( http://arxiv.org/abs/2102.08554v1 )

ライセンス: CC BY 4.0
Ashish Katiyar, Soumya Basu, Vatsal Shah, Constantine Caramanis(参考訳) 木構造マルコフ確率場(MRF)を未知の雑音で観測した場合に共通の支持を持つ離散確率変数で学習する問題について検討する。 観測におけるノイズの存在が本来の木構造を難解にするため、ノイズ観測時の木構造mcfの回復可能性の程度に疑問が持たれる。 一般的なノイズモデルでは、基礎となる木の構造は、葉のノードのそれぞれが親や兄弟と区別できない同値クラスまでしか回復できず、葉のクラスターを形成することが示されています。 コントリブドノイズモデルによる識別不能性が生じると、各ノードの値が不平等で未知の確率を持つ支持部で一様値に変化する自然k-ary対称チャネルノイズモデルが研究される。 ここで、答えはもっと微妙なものになる。 2 の支持サイズと二進対称チャネル雑音モデルにより,葉のクラスターは識別不能であることを示す。 支持サイズ3以上から、葉クラスタの回復可能性は、その中のノードのジョイント確率質量関数によって決定される。 葉クラスタの回復性に必要かつ十分な条件を導出することにより、回収可能性の正確な評価を行う。 この条件が満たされると木を回復するアルゴリズムを提供し、この条件に失敗した葉のクラスタまで木を回復する。

We study the problem of learning tree-structured Markov random fields (MRF) on discrete random variables with common support when the observations are corrupted by unknown noise. As the presence of noise in the observations obfuscates the original tree structure, the extent of recoverability of the tree-structured MRFs under noisy observations is brought into question. We show that in a general noise model, the underlying tree structure can be recovered only up to an equivalence class where each of the leaf nodes is indistinguishable from its parent and siblings, forming a leaf cluster. As the indistinguishability arises due to contrived noise models, we study the natural k-ary symmetric channel noise model where the value of each node is changed to a uniform value in the support with an unequal and unknown probability. Here, the answer becomes much more nuanced. We show that with a support size of 2, and the binary symmetric channel noise model, the leaf clusters remain indistinguishable. From support size 3 and up, the recoverability of a leaf cluster is dictated by the joint probability mass function of the nodes within it. We provide a precise characterization of recoverability by deriving a necessary and sufficient condition for the recoverability of a leaf cluster. We provide an algorithm that recovers the tree if this condition is satisfied, and recovers the tree up to the leaf clusters failing this condition.
翻訳日:2021-02-18 18:03:36 公開日:2021-02-17
# (参考訳) 分散誘導政策勾配法の収束性とサンプル効率について

On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method ( http://arxiv.org/abs/2102.08607v1 )

ライセンス: CC BY 4.0
Junyu Zhang, Chengzhuo Ni, Zheng Yu, Csaba Szepesvari, Mengdi Wang(参考訳) 政策勾配は、例えばREINFORCEのようなリッチな強化学習(RL)手法をもたらす。 しかし、最も知られているサンプル複雑性の結果、$\epsilon$-optimalポリシーを見つけるための方法は$\mathcal{O}(\epsilon^{-3})$であり、これは準最適である。 本稿では, 1次ポリシー最適化法の基本収束特性とサンプル効率について検討する。 我々は、報酬の累積合計だけでなく、政策の長期訪問分布上の一般的なユーティリティ関数を最大化することができる政策勾配法の一般化変形に焦点を当てています。 この問題の隠蔽凸の性質を生かし, 構成最適化から手法を活用することにより, グローバル最適解に適切に収束する政策の系列を改善し, $\tilde{\mathcal{O}}(\epsilon^{-2})$サンプルを用いて$\epsilon$-optimal Policyを求める, 確率的増分誘導ポリシー勾配(SIVR-PG)アプローチを提案する。

Policy gradient gives rise to a rich class of reinforcement learning (RL) methods, for example the REINFORCE. Yet the best known sample complexity result for such methods to find an $\epsilon$-optimal policy is $\mathcal{O}(\epsilon^{-3})$, which is suboptimal. In this paper, we study the fundamental convergence properties and sample efficiency of first-order policy optimization method. We focus on a generalized variant of policy gradient method, which is able to maximize not only a cumulative sum of rewards but also a general utility function over a policy's long-term visiting distribution. By exploiting the problem's hidden convex nature and leveraging techniques from composition optimization, we propose a Stochastic Incremental Variance-Reduced Policy Gradient (SIVR-PG) approach that improves a sequence of policies to provably converge to the global optimal solution and finds an $\epsilon$-optimal policy using $\tilde{\mathcal{O}}(\epsilon^{-2})$ samples.
翻訳日:2021-02-18 18:02:38 公開日:2021-02-17
# (参考訳) Sinkhorn Label Allocation:Annealed Self-Trainingによる半監督型分類 [全文訳有]

Sinkhorn Label Allocation: Semi-Supervised Classification via Annealed Self-Training ( http://arxiv.org/abs/2102.08622v1 )

ライセンス: CC BY-SA 4.0
Kai Sheng Tai, Peter Bailis, Gregory Valiant(参考訳) セルフトレーニングは、学習者がラベルのないデータに関する予測をトレーニング中の監督として使用する半教師付き学習の標準的なアプローチです。 本稿では,このラベル割り当てプロセスを,実例とクラス間の最適な移動問題として再解釈し,クラスにサンプルを割り当てるコストは,分類器の現在の予測によって媒介される。 この定式化はラベル割り当ての実用的なアニーリング戦略を促進し、フレキシブルな上限制約によってクラス比率に事前知識を含めることができる。 これらの代入問題の解は、シンクホーン反復を用いて効率的に近似することができ、標準確率最適化アルゴリズムの内部ループで使うことができる。 我々は,CIFAR-10,CIFAR-100, SVHNデータセットに対するアルゴリズムの有効性を,最先端の自己学習アルゴリズムであるFixMatchと比較した。 さらに,提案アルゴリズムと既存の信頼度しきい値付き自己学習手法の相互関係を,最適化におけるホモトピー手法の文脈で解明する。 コードはhttps://github.com/s tanford-futuredata/s inkhorn-label-alloca tionで入手できます。

Self-training is a standard approach to semi-supervised learning where the learner's own predictions on unlabeled data are used as supervision during training. In this paper, we reinterpret this label assignment process as an optimal transportation problem between examples and classes, wherein the cost of assigning an example to a class is mediated by the current predictions of the classifier. This formulation facilitates a practical annealing strategy for label assignment and allows for the inclusion of prior knowledge on class proportions via flexible upper bound constraints. The solutions to these assignment problems can be efficiently approximated using Sinkhorn iteration, thus enabling their use in the inner loop of standard stochastic optimization algorithms. We demonstrate the effectiveness of our algorithm on the CIFAR-10, CIFAR-100, and SVHN datasets in comparison with FixMatch, a state-of-the-art self-training algorithm. Additionally, we elucidate connections between our proposed algorithm and existing confidence thresholded self-training approaches in the context of homotopy methods in optimization. Our code is available at https://github.com/s tanford-futuredata/s inkhorn-label-alloca tion.
翻訳日:2021-02-18 18:01:27 公開日:2021-02-17
# (参考訳) クラス認識アライメントを用いたロバストドメインフリードメイン一般化 [全文訳有]

Robust Domain-Free Domain Generalization with Class-aware Alignment ( http://arxiv.org/abs/2102.08897v1 )

ライセンス: CC BY 4.0
Wenyu Zhang, Mohamed Ragab, Ramon Sagarna(参考訳) ディープニューラルネットワークは、さまざまな学習タスクで最先端のパフォーマンスを示していますが、それらのパフォーマンスは、トレーニングとテストの分布が同じであるという仮定に依存しています。 ドメインの一般化は、データ分散のシフトの対象となる対象ドメインを一般化できる堅牢なモデルを構築するために複数のソースドメインを使用することで、この問題に対処します。 本論文では, ソースドメインラベルを必要とせずに, 未確認テストドメインの一般化性能を向上させるためのモデルに依存しない手法であるDomain-Free Domain Generalization (DFDG)を提案する。 DFDGは新しい戦略を用いてドメイン不変なクラス差別的特徴を学習する。 サンプルのクラス関係をクラス条件ソフトラベルで調整し、画像分類ネットワークのポストホック解析のために伝統的に開発された塩分マップを使用して、トレーニング入力から表面観察を取り除く。 DFDGは時系列センサーおよびイメージ分類の公共データセットの競争性能を得ます。

While deep neural networks demonstrate state-of-the-art performance on a variety of learning tasks, their performance relies on the assumption that train and test distributions are the same, which may not hold in real-world applications. Domain generalization addresses this issue by employing multiple source domains to build robust models that can generalize to unseen target domains subject to shifts in data distribution. In this paper, we propose Domain-Free Domain Generalization (DFDG), a model-agnostic method to achieve better generalization performance on the unseen test domain without the need for source domain labels. DFDG uses novel strategies to learn domain-invariant class-discriminative features. It aligns class relationships of samples through class-conditional soft labels, and uses saliency maps, traditionally developed for post-hoc analysis of image classification networks, to remove superficial observations from training inputs. DFDG obtains competitive performance on both time series sensor and image classification public datasets.
翻訳日:2021-02-18 17:43:53 公開日:2021-02-17
# (参考訳) POLA: 適応学習率によるオンライン時系列予測 [全文訳有]

POLA: Online Time Series Prediction by Adaptive Learning Rates ( http://arxiv.org/abs/2102.08907v1 )

ライセンス: CC BY 4.0
Wenyu Zhang(参考訳) ストリーミング時系列データのオンライン予測は、下流の決定が将来の正確な予測に依存する多くの現実世界のアプリケーションに実用的です。 動的環境でのデプロイでは、モデルがオーバーフィットすることなく、データ分布の変化に迅速に適応する必要があります。 繰り返しニューラルネットワークモデルの学習速度を自動的に調整し、時系列パターンの変化に適応するPOLA(Predicting Online by Learning Rate Adaptation)を提案する。 pola meta-learns the learning rate of the stochastic gradient descent (sgd) algorithm by assimilating the prequential or interleaved-test-the n-train evaluation scheme for online prediction (英語) よく使われる3つのニューラルネットワークモデルにまたがる2つの実世界のデータセット上でPOLAを評価する。 POLAは、他のオンライン予測方法よりも総合的に、あるいは優れた予測性能を示す。

Online prediction for streaming time series data has practical use for many real-world applications where downstream decisions depend on accurate forecasts for the future. Deployment in dynamic environments requires models to adapt quickly to changing data distributions without overfitting. We propose POLA (Predicting Online by Learning rate Adaptation) to automatically regulate the learning rate of recurrent neural network models to adapt to changing time series patterns across time. POLA meta-learns the learning rate of the stochastic gradient descent (SGD) algorithm by assimilating the prequential or interleaved-test-the n-train evaluation scheme for online prediction. We evaluate POLA on two real-world datasets across three commonly-used recurrent neural network models. POLA demonstrates overall comparable or better predictive performance over other online prediction methods.
翻訳日:2021-02-18 17:32:54 公開日:2021-02-17
# (参考訳) エゴスフィア空間記憶の終端 [全文訳有]

End-to-End Egospheric Spatial Memory ( http://arxiv.org/abs/2102.07764v2 )

ライセンス: CC BY 4.0
Daniel Lenton, Stephen James, Ronald Clark, Andrew J. Davison(参考訳) 空間記憶、または特定の場所やオブジェクトを記憶し、記憶する能力は、実際の環境でタスクを実行する自律エージェントの能力の中心です。 しかし、既存のほとんどの人工記憶モジュールは空間情報の保存にあまり適していない。 Egospheric Spatial Memory (ESM) は、エージェントの周りの自我圏内のメモリをエンコードし、表現力のある3D表現を可能にする。 esmは、模倣または強化学習によってエンドツーエンドでトレーニングすることができ、ドローンおよびマニピュレータのバイスモータ制御タスクの他のメモリベースラインに対するトレーニング効率と最終的なパフォーマンスの両方を改善する。 明示的なエゴセントリックジオメトリにより、学習したコントローラとローカル障害物回避のような他の学習されていないモダリティをシームレスに組み合わせることができます。 さらに、ESMが画像レベルとマップレベルの推論モダリティを自然に組み合わせたScanNetデータセット上のセマンティックセグメンテーションへの適用を示す。 実験により,ESMは空間的推論を具体化するための一般的な計算グラフを提供し,モジュールはリアルタイムマッピングシステムと微分可能なメモリアーキテクチャのブリッジを形成することを示した。 https://github.com/i vy-dl/Memory

Spatial memory, or the ability to remember and recall specific locations and objects, is central to autonomous agents' ability to carry out tasks in real environments. However, most existing artificial memory modules are not very adept at storing spatial information. We propose a parameter-free module, Egospheric Spatial Memory (ESM), which encodes the memory in an ego-sphere around the agent, enabling expressive 3D representations. ESM can be trained end-to-end via either imitation or reinforcement learning, and improves both training efficiency and final performance against other memory baselines on both drone and manipulator visuomotor control tasks. The explicit egocentric geometry also enables us to seamlessly combine the learned controller with other non-learned modalities, such as local obstacle avoidance. We further show applications to semantic segmentation on the ScanNet dataset, where ESM naturally combines image-level and map-level inference modalities. Through our broad set of experiments, we show that ESM provides a general computation graph for embodied spatial reasoning, and the module forms a bridge between real-time mapping systems and differentiable memory architectures. Implementation at: https://github.com/i vy-dl/memory.
翻訳日:2021-02-18 17:20:45 公開日:2021-02-17
# (参考訳) RMIX: 協調強化学習エージェントの学習リスク感知政策 [全文訳有]

RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement Learning Agents ( http://arxiv.org/abs/2102.08159v2 )

ライセンス: CC BY 4.0
Wei Qiu, Xinrun Wang, Runsheng Yu, Xu He, Rundong Wang, Bo An, Svetlana Obraztsova, Zinovi Rabinovich(参考訳) 現在の価値に基づくマルチエージェント強化学習手法は,分散実行(ctde)による集中型トレーニングを通じて個人の行動を指導するために,個別のq値を最適化する。 しかし、このような予想、すなわちリスクニュートラルなQ値は、報酬のランダム性や環境の不確実性のためにCTDEでも十分ではないため、複雑な環境での調整エージェントの訓練にこれらの方法の失敗を引き起こします。 そこで本研究では, 学習したQ値の分布について, CVaR(Conditional Value at Risk)を指標とした新たな協調的MARL法RMIXを提案する。 具体的には、まず個人の戻り分布を学習し、分散実行のためのCVaRを解析的に計算する。 そこで,実行時の確率的結果の時間的性質を扱うために,リスクレベルチューニングのための動的リスクレベル予測器を提案する。 最後に,集中トレーニング中のTD誤差のターゲット推定にCVaR値を用いてCVaRポリシを最適化し,CVaR値を補助的局所報酬として,量子回帰損失による局所分布の更新を行う。 実験により,本手法はStarCraft IIタスクの課題に対して,最先端の手法よりも優れ,協調性の向上とサンプル効率の向上を実証した。

Current value-based multi-agent reinforcement learning methods optimize individual Q values to guide individuals' behaviours via centralized training with decentralized execution (CTDE). However, such expected, i.e., risk-neutral, Q value is not sufficient even with CTDE due to the randomness of rewards and the uncertainty in environments, which causes the failure of these methods to train coordinating agents in complex environments. To address these issues, we propose RMIX, a novel cooperative MARL method with the Conditional Value at Risk (CVaR) measure over the learned distributions of individuals' Q values. Specifically, we first learn the return distributions of individuals to analytically calculate CVaR for decentralized execution. Then, to handle the temporal nature of the stochastic outcomes during executions, we propose a dynamic risk level predictor for risk level tuning. Finally, we optimize the CVaR policies with CVaR values used to estimate the target in TD error during centralized training and the CVaR values are used as auxiliary local rewards to update the local distribution via Quantile Regression loss. Empirically, we show that our method significantly outperforms state-of-the-art methods on challenging StarCraft II tasks, demonstrating enhanced coordination and improved sample efficiency.
翻訳日:2021-02-18 16:48:13 公開日:2021-02-17
# (参考訳) 深層学習による暗号通貨価格分類における技術取引とソーシャルメディア指標について

On Technical Trading and Social Media Indicators in Cryptocurrencies 7; Price Classification Through Deep Learning ( http://arxiv.org/abs/2102.08189v2 )

ライセンス: CC BY 4.0
Marco Ortu, Nicola Uras, Claudio Conversano, Giuseppe Destefanis, Silvia Bartolucci(参考訳) 深層学習アルゴリズムを用いて、2017年1月から2021年1月までの時間別および日次データの暗号通貨価格変動の予測可能性を分析することを目的としている。 実験では,技術指標のみの制限モデルと,技術指標,トレーディング指標,ソーシャルメディア指標の非制限モデルを考慮して,技術指標,トレーディング指標,ソーシャルメディア指標の3つの機能を用いた。 取引・ソーシャルメディア指標の考慮が、古典的な技術的変数(価格のリターンなど)とともに、暗号通貨価格の変化の予測に顕著な改善をもたらすかどうかを検証した。 我々は、bitcoinとethereumの2つの暗号通貨の量と価値(この研究の時点で)について調査を行った。 時系列分類問題によく用いられる4つの機械学習アルゴリズムを実装した。マルチレイヤパーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、Long Short Term Memory(LSTM)、Attention Long Short Term Memory(ALSTM)である。 テスト試料の分散問題を検討するために, 高度なブートストラップ法を用いて実験を考案し, より信頼性の高いモデルの性能評価を可能にした。 さらに,実装アルゴリズムごとに最適なハイパーパラメータを求めるためにグリッド探索法が用いられた。 この研究は、時間ごとの結果に基づいて、制限のないモデルが制限されたモデルを上回ることを示している。 古典的な技術指標への取引指標の追加は、制限モデルのための51-55%の範囲から、制限なしモデルのための67-84%まで、ビットコインとイーサリアム価格の変更予測の精度を向上させます。

This work aims to analyse the predictability of price movements of cryptocurrencies on both hourly and daily data observed from January 2017 to January 2021, using deep learning algorithms. For our experiments, we used three sets of features: technical, trading and social media indicators, considering a restricted model of only technical indicators and an unrestricted model with technical, trading and social media indicators. We verified whether the consideration of trading and social media indicators, along with the classic technical variables (such as price's returns), leads to a significative improvement in the prediction of cryptocurrencies price's changes. We conducted the study on the two highest cryptocurrencies in volume and value (at the time of the study): Bitcoin and Ethereum. We implemented four different machine learning algorithms typically used in time-series classification problems: Multi Layers Perceptron (MLP), Convolutional Neural Network (CNN), Long Short Term Memory (LSTM) neural network and Attention Long Short Term Memory (ALSTM). We devised the experiments using the advanced bootstrap technique to consider the variance problem on test samples, which allowed us to evaluate a more reliable estimate of the model's performance. Furthermore, the Grid Search technique was used to find the best hyperparameters values for each implemented algorithm. The study shows that, based on the hourly frequency results, the unrestricted model outperforms the restricted one. The addition of the trading indicators to the classic technical indicators improves the accuracy of Bitcoin and Ethereum price's changes prediction, with an increase of accuracy from a range of 51-55% for the restricted model, to 67-84% for the unrestricted model.
翻訳日:2021-02-18 16:08:13 公開日:2021-02-17
# (参考訳) ルーティングゲームにおけるカオスへのフォロー・ザ・レギュラライズド・リーダールート [全文訳有]

Follow-the-Regulariz ed-Leader Routes to Chaos in Routing Games ( http://arxiv.org/abs/2102.07974v2 )

ライセンス: CC BY 4.0
Jakub Bielawski, Thiparat Chotibut, Fryderyk Falniowski, Grzegorz Kosiorowski, Micha{\l} Misiurewicz, Georgios Piliouras(参考訳) ゲームにおけるフォロー・ザ・レギュラライズ・リーダー(FoReL)ダイナミクスのカオス行動の出現について検討する。 我々は、混雑ゲームにおける人口増加やコストスケールの影響に焦点を当て、乗算重み更新ダイナミクスにおける不安定でカオスな挙動に関する最近の結果を、はるかに大きなクラスのFoReLダイナミクスに一般化する。 我々は、2つの並列リンクと任意の固定学習率を持つ単純な線形非原子混雑ゲームであっても、ゲームが完全に対称でない限り、人口サイズやコストの規模が増加し、学習ダイナミクスが不安定になり、最終的にカオスになり、Li-Yorkeと正の位相エントロピーの意味で。 さらに,同ゲームにおける安定なナッシュ平衡とカオスの共存など,新しい非標準現象の存在を示す。 また、別のカオスアクタが破壊されるにつれて、カオスアクタの同時作成も観察する。 最後に、FoReLダイナミクスは奇妙で非平衡であるが、時間平均はまだ学習率の選択とコストのスケールの正確な平衡に収束していることを証明している。

We study the emergence of chaotic behavior of Follow-the-Regulariz ed Leader (FoReL) dynamics in games. We focus on the effects of increasing the population size or the scale of costs in congestion games, and generalize recent results on unstable, chaotic behaviors in the Multiplicative Weights Update dynamics to a much larger class of FoReL dynamics. We establish that, even in simple linear non-atomic congestion games with two parallel links and any fixed learning rate, unless the game is fully symmetric, increasing the population size or the scale of costs causes learning dynamics to become unstable and eventually chaotic, in the sense of Li-Yorke and positive topological entropy. Furthermore, we show the existence of novel non-standard phenomena such as the coexistence of stable Nash equilibria and chaos in the same game. We also observe the simultaneous creation of a chaotic attractor as another chaotic attractor gets destroyed. Lastly, although FoReL dynamics can be strange and non-equilibrating, we prove that the time average still converges to an exact equilibrium for any choice of learning rate and any scale of costs.
翻訳日:2021-02-18 16:07:00 公開日:2021-02-17
# 四元数をもつ完全連結層を超えて:1/n$パラメータを持つ超複素乗算のパラメータ化

Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with $1/n$ Parameters ( http://arxiv.org/abs/2102.08597v1 )

ライセンス: Link先を確認
Aston Zhang, Yi Tay, Shuai Zhang, Alvin Chan, Anh Tuan Luu, Siu Cheung Hui, Jie Fu(参考訳) 最近の研究は、超複素空間における表現学習の合理的な成功を示している。 具体的には、フルコネクテッド層における実値行列乗算をクォータニオンのハミルトン積に置き換える「クォータニオン付きフルコネクテッド層」(4次元超複素数)は、1/4の学習可能なパラメータでパラメータを節約し、さまざまなアプリケーションで匹敵するパフォーマンスを実現します。 しかし、一つの重要な点は、超複素空間が定義済みの次元(4d、8d、16d)でしか存在しないことである。 これにより、超複素乗算を利用するモデルの柔軟性が制限される。 そこで本論文では,超複素乗算のパラメータ化を提案し,モデルが事前に定義されているかどうかに関わらず,データから乗算ルールを学習できるようにする。 その結果,hamilton 製品を利用するだけでなく,任意の nd hypercomplex 空間での操作を学習し,完全連結層に比べて任意に 1/n$ の学習可能なパラメータを用いたアーキテクチャの柔軟性が向上した。 自然言語推論, 機械翻訳, テキストスタイル変換, および対象動詞合意に対するLSTMおよびTransformerモデルの適用実験は, 提案手法のアーキテクチャ的柔軟性と有効性を示すものである。

Recent works have demonstrated reasonable success of representation learning in hypercomplex space. Specifically, "fully-connected layers with Quaternions" (4D hypercomplex numbers), which replace real-valued matrix multiplications in fully-connected layers with Hamilton products of Quaternions, both enjoy parameter savings with only 1/4 learnable parameters and achieve comparable performance in various applications. However, one key caveat is that hypercomplex space only exists at very few predefined dimensions (4D, 8D, and 16D). This restricts the flexibility of models that leverage hypercomplex multiplications. To this end, we propose parameterizing hypercomplex multiplications, allowing models to learn multiplication rules from data regardless of whether such rules are predefined. As a result, our method not only subsumes the Hamilton product, but also learns to operate on any arbitrary nD hypercomplex space, providing more architectural flexibility using arbitrarily $1/n$ learnable parameters compared with the fully-connected layer counterpart. Experiments of applications to the LSTM and Transformer models on natural language inference, machine translation, text style transfer, and subject verb agreement demonstrate architectural flexibility and effectiveness of the proposed approach.
翻訳日:2021-02-18 14:53:18 公開日:2021-02-17
# ConTraKG:知識グラフを用いた視覚物体認識のためのコントラストベース変換学習

ConTraKG: Contrastive-based Transfer Learning for Visual Object Recognition using Knowledge Graphs ( http://arxiv.org/abs/2102.08747v1 )

ライセンス: Link先を確認
Sebastian Monka, Lavdim Halilaj, Stefan Schmid, Achim Rettinger(参考訳) ディープラーニング技術はコンピュータビジョンタスクにおいて高い精度を達成する。 しかし、それらの精度は、ドメインの変更に直面した場合、すなわち、トレーニングドメインとは異なるドメインで使用されるとすぐに著しく低下します。 例えば、ドイツで道路標識を認識するように訓練された道路標識認識モデルは、中国のような道路標識標準の異なる国では性能が悪い。 ドメインやコンテキストに関する事前の知識に基づいて、クロスドメイン転送学習を可能にするニューロシンボリックアプローチであるConTraKGを提案する。 知識グラフは、そのような事前知識を符号化する媒体として機能し、埋め込み手法によって密度の高いベクトル表現に変換される。 5相のトレーニングパイプラインを使用して,ディープニューラルネットワークを訓練し,その視覚埋め込み空間を,コントラスト損失関数に基づいて知識グラフの領域不変埋め込み空間に応じて調整する。 これにより、ニューラルネットワークは、知識グラフにすでに表現されている異なるターゲットドメインからのトレーニングデータを組み込むことができる。 我々は、アプローチの正確性を決定するために、一連の経験的評価を行います。 その結果,ConTraKGは従来のドメイン変更処理手法よりもはるかに精度が高いことがわかった。 ネットワークが両方のドメインでトレーニングされる転送学習セットアップでは、contrakgはソースドメインでテストした場合で21%、ターゲットドメインでテストした場合15%、標準アプローチと比較して精度が21%向上する。 さらに、トレーニング対象データのわずか10%で、完全なターゲットデータで訓練されたクロスエントロピーベースのモデルと同じ精度を実現します。

Deep learning techniques achieve high accuracy in computer vision tasks. However, their accuracy suffers considerably when they face a domain change, i.e., as soon as they are used in a domain that differs from their training domain. For example, a road sign recognition model trained to recognize road signs in Germany performs poorly in countries with different road sign standards like China. We propose ConTraKG, a neuro-symbolic approach that enables cross-domain transfer learning based on prior knowledge about the domain or context. A knowledge graph serves as a medium for encoding such prior knowledge, which is then transformed into a dense vector representation via embedding methods. Using a five-phase training pipeline, we train the deep neural network to adjust its visual embedding space according to the domain-invariant embedding space of the knowledge graph based on a contrastive loss function. This allows the neural network to incorporate training data from different target domains that are already represented in the knowledge graph. We conduct a series of empirical evaluations to determine the accuracy of our approach. The results show that ConTraKG is significantly more accurate than the conventional approach for dealing with domain changes. In a transfer learning setup, where the network is trained on both domains, ConTraKG achieves 21% higher accuracy when tested on the source domain and 15% when tested on the target domain compared to the standard approach. Moreover, with only 10% of the target data for training, it achieves the same accuracy as the cross-entropy-based model trained on the full target data.
翻訳日:2021-02-18 14:52:50 公開日:2021-02-17
# オープン検索会話マシン読み取り

Open-Retrieval Conversational Machine Reading ( http://arxiv.org/abs/2102.08633v1 )

ライセンス: Link先を確認
Yifan Gao, Jingjing Li, Michael R. Lyu, Irwin King(参考訳) 対話型機械読取では、システムは自然言語規則を解釈し、「私はVAの医療給付を受ける資格がありますか? 「そして、元の質問に答えるために答えが必要なフォローアップの明確化の質問を尋ねる。 しかし、既存の作品では、各質問に対してルールテキストが提供されると仮定し、実際のシナリオにおいて必須の検索ステップを無視します。 本研究では,対話型機械読解のオープンリトリーバル設定を提案し,検討する。 オープン検索設定では、関連するルールテキストが不明であるため、システムはルールテキストのコレクションから質問に関連する証拠を取得し、複数の検索されたルールテキストに従ってユーザーのハイレベルな質問に答える必要があります。 本稿では,ルールテキスト中の条件を談話セグメンテーションを通じて抽出し,ユーザ質問に直接回答するためにマルチパッセージ推論を行うマルチパッセージ談話対応推論ネットワークであるmudernを提案する。 OR-ShARCデータセットで、MUDERNは最先端のパフォーマンスを達成し、既存のシングルパス対話機械読み取りモデルだけでなく、新しいマルチパス対話機械読み取りベースラインを大きくマージンで上回ります。 さらに、この新しい環境と私たちのモデルに関する新しい洞察を提供するために、詳細な分析を行います。

In conversational machine reading, systems need to interpret natural language rules, answer high-level questions such as "May I qualify for VA health care benefits?", and ask follow-up clarification questions whose answer is necessary to answer the original question. However, existing works assume the rule text is provided for each user question, which neglects the essential retrieval step in real scenarios. In this work, we propose and investigate an open-retrieval setting of conversational machine reading. In the open-retrieval setting, the relevant rule texts are unknown so that a system needs to retrieve question-relevant evidence from a collection of rule texts, and answer users' high-level questions according to multiple retrieved rule texts in a conversational manner. We propose MUDERN, a Multi-passage Discourse-aware Entailment Reasoning Network which extracts conditions in the rule texts through discourse segmentation, conducts multi-passage entailment reasoning to answer user questions directly, or asks clarification follow-up questions to inquiry more information. On our created OR-ShARC dataset, MUDERN achieves the state-of-the-art performance, outperforming existing single-passage conversational machine reading models as well as a new multi-passage conversational machine reading baseline by a large margin. In addition, we conduct in-depth analyses to provide new insights into this new setting and our model.
翻訳日:2021-02-18 14:52:27 公開日:2021-02-17
# 正規化のためのマッドリングラベル : 一般化への新しいアプローチ

Muddling Labels for Regularization, a novel approach to generalization ( http://arxiv.org/abs/2102.08769v1 )

ライセンス: Link先を確認
Karim Lounici, Katia Meziani and Benjamin Riu(参考訳) 一般化は機械学習の中心的な問題である。 実際、ほとんどの予測方法は、一般化を達成するために通常保留の \textit{validation}データセット上で実行されるハイパーパラメータの注意深いキャリブレーションを必要とする。 本論文の主な目標は、データ分割なしに一般化を実現する新しいアプローチを導入することである。これは、モデルがオーバーフィットする傾向を直接定量化する新しいリスク尺度に基づいている。 この新しいアプローチの直観と利点を十分に理解するために、これを新しい基準を開発する単純な線形回帰モデル(Y=X\beta+\xi$)で説明する。 この基準が真の一般化リスクのよいプロキシであることを強調します。 次に、複数の構造(相関、疎度など)を同時に取り組むさまざまな手順を導き出します。 特に、これらの手順 \textbf{concomitantly} はモデルを訓練し、ハイパーパラメータをキャリブレーションする。 さらに、基準が微分可能なw.r.tである場合、これらの手順は古典的な勾配降下法を介して実施することができる。 ハイパーパラメータです 数値実験により,我々の手法は計算可能であり,一般の手法(Ridge,LASSO,Elastic -Netとグリッドサーチクロスバリデーションを併用)と比較できることがわかった。 さらに2つの追加タスクでベースラインを上回り、$\beta$のリカバリとサポートをサポートする。 さらに、私たちの手順は、実験したすべてのデータセットで同じままの初期パラメータの校正に関する専門知識を必要としません。

Generalization is a central problem in Machine Learning. Indeed most prediction methods require careful calibration of hyperparameters usually carried out on a hold-out \textit{validation} dataset to achieve generalization. The main goal of this paper is to introduce a novel approach to achieve generalization without any data splitting, which is based on a new risk measure which directly quantifies a model's tendency to overfit. To fully understand the intuition and advantages of this new approach, we illustrate it in the simple linear regression model ($Y=X\beta+\xi$) where we develop a new criterion. We highlight how this criterion is a good proxy for the true generalization risk. Next, we derive different procedures which tackle several structures simultaneously (correlation, sparsity,...). Noticeably, these procedures \textbf{concomitantly} train the model and calibrate the hyperparameters. In addition, these procedures can be implemented via classical gradient descent methods when the criterion is differentiable w.r.t. the hyperparameters. Our numerical experiments reveal that our procedures are computationally feasible and compare favorably to the popular approach (Ridge, LASSO and Elastic-Net combined with grid-search cross-validation) in term of generalization. They also outperform the baseline on two additional tasks: estimation and support recovery of $\beta$. Moreover, our procedures do not require any expertise for the calibration of the initial parameters which remain the same for all the datasets we experimented on.
翻訳日:2021-02-18 14:52:00 公開日:2021-02-17
# 時系列予測・画像・映像分類のための深部エコー状態ネットワークのポストホックな説明可能性について

On the Post-hoc Explainability of Deep Echo State Networks for Time Series Forecasting, Image and Video Classification ( http://arxiv.org/abs/2102.08634v1 )

ライセンス: Link先を確認
Alejandro Barredo Arrieta, Sergio Gil-Lopez, Ibai La\~na, Miren Nekane Bilbao, Javier Del Ser(参考訳) その開始以来、貯水池コンピューティングパラダイムの下での学習技術は、他のアプローチに必要な計算オーバーヘッドなしに、リカレントシステムのための優れたモデリング能力を示してきた。 それらのうち、エコー状態ネットワークの様々なフレーバーは、学習アルゴリズムの単純さと計算効率のために、時間を通じて多くのスターを惹きつけてきた。 しかし、これらの利点は、エコー状態ネットワークが一般的な聴衆に容易に説明できないブラックボックスモデルのままであるという事実を補うものではない。 本研究では,時間系列,画像,映像データを用いた学習タスクに適用した場合のエコー状態ネットワークの説明可能性について検討した。 具体的には,これら再帰モデルが把握する知識,すなわち潜在記憶,時間パターン,画素欠落効果について理解可能な情報を抽出できる3つの手法を提案する。 潜在的なメモリは、時間的情報を格納するモデルの能力における貯水池のサイズの影響に関連する問題に対処する一方、時間的パターンは、モデルが経時的に捉えた反復関係を明らかにする。 最後に、ピクセル不在効果は、画像およびビデオ分類にエコー状態ネットワークモデルを使用する場合、与えられたピクセル不在の効果を評価することを試みます。 時系列モデリング、画像、および関連する文献、ビデオ分類で初めて、適用可能性の3つの異なるドメインで提案された一連の技術の利点を紹介します。 以上の結果から,提案手法は,これらのモデルの動作方法の理解だけでなく,データから受け継がれた問題を検出する診断ツールとしても機能することが明らかとなった。 隠された偏見の存在)。

Since their inception, learning techniques under the Reservoir Computing paradigm have shown a great modeling capability for recurrent systems without the computing overheads required for other approaches. Among them, different flavors of echo state networks have attracted many stares through time, mainly due to the simplicity and computational efficiency of their learning algorithm. However, these advantages do not compensate for the fact that echo state networks remain as black-box models whose decisions cannot be easily explained to the general audience. This work addresses this issue by conducting an explainability study of Echo State Networks when applied to learning tasks with time series, image and video data. Specifically, the study proposes three different techniques capable of eliciting understandable information about the knowledge grasped by these recurrent models, namely, potential memory, temporal patterns and pixel absence effect. Potential memory addresses questions related to the effect of the reservoir size in the capability of the model to store temporal information, whereas temporal patterns unveils the recurrent relationships captured by the model over time. Finally, pixel absence effect attempts at evaluating the effect of the absence of a given pixel when the echo state network model is used for image and video classification. We showcase the benefits of our proposed suite of techniques over three different domains of applicability: time series modeling, image and, for the first time in the related literature, video classification. Our results reveal that the proposed techniques not only allow for a informed understanding of the way these models work, but also serve as diagnostic tools capable of detecting issues inherited from data (e.g. presence of hidden bias).
翻訳日:2021-02-18 14:51:36 公開日:2021-02-17
# 剛体3次元シーンフローの弱教師付き学習

Weakly Supervised Learning of Rigid 3D Scene Flow ( http://arxiv.org/abs/2102.08945v1 )

ライセンス: Link先を確認
Zan Gojcic, Or Litany, Andreas Wieser, Leonidas J. Guibas, Tolga Birdal(参考訳) 本研究では,剛体体として動くエージェント群によって説明できる3次元シーンを多用したデータ駆動シーンフロー推定アルゴリズムを提案する。 提案手法のコアとなるのは,他の3次元タスクと連動して3次元シーンフローを考慮し,‘textbf{object-level}’を推論できる深層アーキテクチャである。 このオブジェクトレベルの抽象化により、単純なバイナリバックグラウンドセグメンテーションマスクとエゴモーションアノテーションにより、密なシーンフロー監視の要件を緩和できます。 我々の軽度の監視要件は、最近リリースされた高密度なシーンフローアノテーションを含まない自動運転のための大規模データ収集に適している。 結果として,本モデルは,ポイントワイズフローのような低レベルな手掛かりと,剛性のある物体のレベルでの総合的なシーン理解のような高レベルな手掛かりを提供する。 さらに,予測された厳密なシーンフローを精査するテスト時間最適化を提案する。 4種類の自律運転データセットにおいて,提案手法の有効性と一般化能力を示す。 ソースコードとトレーニング済みモデルを \url{github.com/zgojcic/R igid3DSceneFlow} でリリースします。

We propose a data-driven scene flow estimation algorithm exploiting the observation that many 3D scenes can be explained by a collection of agents moving as rigid bodies. At the core of our method lies a deep architecture able to reason at the \textbf{object-level} by considering 3D scene flow in conjunction with other 3D tasks. This object level abstraction, enables us to relax the requirement for dense scene flow supervision with simpler binary background segmentation mask and ego-motion annotations. Our mild supervision requirements make our method well suited for recently released massive data collections for autonomous driving, which do not contain dense scene flow annotations. As output, our model provides low-level cues like pointwise flow and higher-level cues such as holistic scene understanding at the level of rigid objects. We further propose a test-time optimization refining the predicted rigid scene flow. We showcase the effectiveness and generalization capacity of our method on four different autonomous driving datasets. We release our source code and pre-trained models under \url{github.com/zgojcic/R igid3DSceneFlow}.
翻訳日:2021-02-18 14:51:09 公開日:2021-02-17
# S2-BNN: 誘導分布校正による自己監督型実と1ビットニューラルネットワークのギャップを埋める

S2-BNN: Bridging the Gap Between Self-Supervised Real and 1-bit Neural Networks via Guided Distribution Calibration ( http://arxiv.org/abs/2102.08946v1 )

ライセンス: Link先を確認
Zhiqiang Shen and Zechun Liu and Jie Qin and Lei Huang and Kwang-Ting Cheng and Marios Savvides(参考訳) これまでの研究は、実価値ネットワーク上での自己監督学習を主目的とし、多くの有望な結果を達成してきた。 しかし、より困難なバイナリニューラルネットワーク(BNN)では、このタスクはまだコミュニティで十分に検討されていません。 本稿では、重みと活性化の両方がバイナリである学習ネットワーク、人間の注釈付きラベルなしで、このより困難なシナリオに焦点を当てます。 バックボーンネットワークは,比較的限られた能力と表現能力を有するため,BNNの競合精度を満足するものではない。 そこで本研究では, 既存の自己監視手法を直接適用し, 性能の低下を引き起こすのではなく, 最終的な予測分布上で, 実値から2値のネットワークを蒸留する, 損失を最小化し, 望ましい精度を得る, 新たな指導的学習パラダイムを提案する。 提案手法は,bnn上で5.5~15%の絶対利得で,単純なコントラスト学習ベースラインを向上できる。 さらに,ラベルのないトレーニングでは,BNNが実数値モデルと同様の予測分布を復元することは困難であることを明らかにした。 したがって、それらの校正方法は、パフォーマンスの低下に対処するための鍵です。 大規模なImageNetと下流データセットで大規模な実験を行う。 提案手法は、単純なコントラスト学習ベースラインよりも大幅に改善され、多くの主流教師付きBNN手法に匹敵する。 コードは利用可能になる。

Previous studies dominantly target at self-supervised learning on real-valued networks and have achieved many promising results. However, on the more challenging binary neural networks (BNNs), this task has not yet been fully explored in the community. In this paper, we focus on this more difficult scenario: learning networks where both weights and activations are binary, meanwhile, without any human annotated labels. We observe that the commonly used contrastive objective is not satisfying on BNNs for competitive accuracy, since the backbone network contains relatively limited capacity and representation ability. Hence instead of directly applying existing self-supervised methods, which cause a severe decline in performance, we present a novel guided learning paradigm from real-valued to distill binary networks on the final prediction distribution, to minimize the loss and obtain desirable accuracy. Our proposed method can boost the simple contrastive learning baseline by an absolute gain of 5.5~15% on BNNs. We further reveal that it is difficult for BNNs to recover the similar predictive distributions as real-valued models when training without labels. Thus, how to calibrate them is key to address the degradation in performance. Extensive experiments are conducted on the large-scale ImageNet and downstream datasets. Our method achieves substantial improvement over the simple contrastive learning baseline, and is even comparable to many mainstream supervised BNN methods. Code will be made available.
翻訳日:2021-02-18 14:50:51 公開日:2021-02-17
# 対向ロバスト性と最適化バイアスのギャップを埋める

Bridging the Gap Between Adversarial Robustness and Optimization Bias ( http://arxiv.org/abs/2102.08868v1 )

ライセンス: Link先を確認
Fartash Faghri, Cristina Vasconcelos, David J. Fleet, Fabian Pedregosa, Nicolas Le Roux(参考訳) 敵意の強固さは、ディープラーニングにおいてオープンな課題であり、しばしば敵意のトレーニングを用いて取り組まれる。 対数トレーニングは計算コストがかかり、標準一般化と対数ロバスト性の間のトレードオフを伴う交互最適化が伴う。 最大ロバストな分類器と最小ノルム解を連結した既知の結果を再検討し、オプティマイザの暗黙のバイアスに関する最近の結果と組み合わせることで、敵対的なトレーニングなしで堅牢なモデルを訓練する。 まず,特定の条件下では,最適化の暗黙のバイアスを用いて過パラメータモデルのトレーニングを行うことで,完全な標準精度とある程度の堅牢性を達成できることを示す。 その体制では、オプティマイザのタイプとモデルが堅牢である攻撃との間に直接的な関係があります。 次に,ロバストモデルの設計におけるアーキテクチャの役割について検討する。 特に、線形畳み込みモデルの堅牢性を特徴づけ、フーリエ-$\ell_\infty$ノルム上の制約を受ける攻撃に抵抗することを示した。 この結果は、フーリエ領域に集中する傾向にある$\ell_p$-bounded adversarial perturbationsの特性を説明する。 これはフーリエ領域において、人間の知覚の周波数依存性の感度に触発された新しい攻撃に繋がる。 我々は,最近のCIFAR-10モデルのFourier-$\ell_\infty $ロバスト性を評価する。

Adversarial robustness is an open challenge in deep learning, most often tackled using adversarial training. Adversarial training is computationally costly, involving alternated optimization with a trade-off between standard generalization and adversarial robustness. We explore training robust models without adversarial training by revisiting a known result linking maximally robust classifiers and minimum norm solutions, and combining it with recent results on the implicit bias of optimizers. First, we show that, under certain conditions, it is possible to achieve both perfect standard accuracy and a certain degree of robustness without a trade-off, simply by training an overparameterized model using the implicit bias of the optimization. In that regime, there is a direct relationship between the type of the optimizer and the attack to which the model is robust. Second, we investigate the role of the architecture in designing robust models. In particular, we characterize the robustness of linear convolutional models, showing that they resist attacks subject to a constraint on the Fourier-$\ell_\infty $ norm. This result explains the property of $\ell_p$-bounded adversarial perturbations that tend to be concentrated in the Fourier domain. This leads us to a novel attack in the Fourier domain that is inspired by the well-known frequency-dependent sensitivity of human perception. We evaluate Fourier-$\ell_\infty $ robustness of recent CIFAR-10 models with robust training and visualize adversarial perturbations.
翻訳日:2021-02-18 14:50:27 公開日:2021-02-17
# ルールベース対話管理への事前学習モデルの統合

Integrating Pre-trained Model into Rule-based Dialogue Management ( http://arxiv.org/abs/2102.08553v1 )

ライセンス: Link先を確認
Jun Quan, Meng Yang, Qiang Gan, Deyi Xiong, Yiming Liu, Yuchen Dong, Fangxin Ouyang, Jun Tian, Ruiling Deng, Yongzhi Li, Yang Yang and Daxin Jiang(参考訳) ルールベースの対話管理は、その解釈のための産業タスク指向対話システムのための最も人気のあるソリューションです。 しかし、シナリオがますます複雑になると、開発者は対話ロジックを維持するのが難しくなります。 一方で、データ駆動対話システム(通常はエンドツーエンド構造を持つ)は学術研究で人気があり、複雑な会話を扱うのが容易であるが、そのような方法には十分なトレーニングデータが必要であり、その動作は解釈できない。 本稿では,ルールベースとデータ駆動型対話マネージャ(dm)の両方の強みを活用する手法を提案する。 最初にCarina Dialog System(CDS、Microsoftが構築した高度な産業用対話システム)のDMを紹介します。 次に,dm をシナリオ変更に対してスケーラブルにトレーニング可能にする "モデルトリガー" 設計を提案する。 さらに,事前学習したモデルを統合し,dmに限定的な能力を持たせる。 実験結果から,本手法の有効性と有効性を示した。

Rule-based dialogue management is still the most popular solution for industrial task-oriented dialogue systems for their interpretablility. However, it is hard for developers to maintain the dialogue logic when the scenarios get more and more complex. On the other hand, data-driven dialogue systems, usually with end-to-end structures, are popular in academic research and easier to deal with complex conversations, but such methods require plenty of training data and the behaviors are less interpretable. In this paper, we propose a method to leverages the strength of both rule-based and data-driven dialogue managers (DM). We firstly introduce the DM of Carina Dialog System (CDS, an advanced industrial dialogue system built by Microsoft). Then we propose the "model-trigger" design to make the DM trainable thus scalable to scenario changes. Furthermore, we integrate pre-trained models and empower the DM with few-shot capability. The experimental results demonstrate the effectiveness and strong few-shot capability of our method.
翻訳日:2021-02-18 14:50:01 公開日:2021-02-17
# エンティティ中心の視点から見たオープンドメインテーブル・トゥ・テキスト生成の信頼性に向けて

Towards Faithfulness in Open Domain Table-to-text Generation from an Entity-centric View ( http://arxiv.org/abs/2102.08585v1 )

ライセンス: Link先を確認
Tianyu Liu, Xin Zheng, Baobao Chang and Zhifang Sui(参考訳) オープンなドメインテーブル・トゥ・テキスト生成では、不誠実な生成は通常、任意の入力テーブルレコードにアライメントできない幻覚コンテンツを含むことに気づく。 したがって,2つのエンティティ中心の指標による生成忠実性を評価することを試みる。表記録のカバレッジとテキスト中の幻覚的実体の比率であり,どちらも人間の判断と強い一致を示す。 次に,これらの指標に基づいて,忠実な生成におけるエンティティ情報の利用可能性を示す学習データ品質と生成忠実度の関係を定量的に解析する。 本研究の目的は,1) 強化計画ベースモデルと教師なしモデルの両方を含む補助エンティティ情報を組み込んだ強化学習と,2) 忠実度ランキングに基づくトレーニングインスタンス選択という2つの手法を提案することである。 これらのアプローチは,完全なデータセット設定とショット学習設定の両方において,自動評価と人間評価の両方によって,生成精度を向上させる。

In open domain table-to-text generation, we notice that the unfaithful generation usually contains hallucinated content which can not be aligned to any input table record. We thus try to evaluate the generation faithfulness with two entity-centric metrics: table record coverage and the ratio of hallucinated entities in text, both of which are shown to have strong agreement with human judgements. Then based on these metrics, we quantitatively analyze the correlation between training data quality and generation fidelity which indicates the potential usage of entity information in faithful generation. Motivated by these findings, we propose two methods for faithful generation: 1) augmented training by incorporating the auxiliary entity information, including both an augmented plan-based model and an unsupervised model and 2) training instance selection based on faithfulness ranking. We show these approaches improve generation fidelity in both full dataset setting and few shot learning settings by both automatic and human evaluations.
翻訳日:2021-02-18 14:49:46 公開日:2021-02-17
# Sparsely Factored Neural Machine Translation

Sparsely Factored Neural Machine Translation ( http://arxiv.org/abs/2102.08934v1 )

ライセンス: Link先を確認
Noe Casas, Jose A. R. Fonollosa, Marta R. Costa-juss\`a(参考訳) 言語情報をニューラルマシン翻訳システムに組み込む標準的なアプローチは、組み込むべき注釈付き特徴(例えば、)ごとに別々の語彙を維持することである。 POSタグ、依存性関係ラベル)を埋め込んで、各サブワードをその属する単語に集約します。 しかし、この手法は、すべての単語に密でないアノテーションスキームに容易に対応できない。 そこで本研究では,ドメイン外データの大幅な改善と,ドメイン内データに匹敵する品質を示す手法を提案する。 低リソースシナリオの場合、実験はバスク語やドイツ語のような形態素豊かな言語で行われる。

The standard approach to incorporate linguistic information to neural machine translation systems consists in maintaining separate vocabularies for each of the annotated features to be incorporated (e.g. POS tags, dependency relation label), embed them, and then aggregate them with each subword in the word they belong to. This approach, however, cannot easily accommodate annotation schemes that are not dense for every word. We propose a method suited for such a case, showing large improvements in out-of-domain data, and comparable quality for the in-domain data. Experiments are performed in morphologically-rich languages like Basque and German, for the case of low-resource scenarios.
翻訳日:2021-02-18 14:49:30 公開日:2021-02-17
# コンテキストスキップグラム:コンテキスト情報を用いた単語表現のトレーニング

Contextual Skipgram: Training Word Representation Using Context Information ( http://arxiv.org/abs/2102.08565v1 )

ライセンス: Link先を確認
Dongjae Kim, Jong-Kook Kim(参考訳) スキップグラム(SG)モデルは、非構造化テキストデータから中心語を取り巻く単語を予測して単語表現を学習する。 しかし、コンテキストウィンドウ内の全ての単語が中心語の意味に寄与するわけではない。 例えば、関連する単語がコンテキストウィンドウにある場合、sgモデルがより良い品質表現を学ぶことを妨げる可能性がある。 本稿では,文脈情報を利用して単語表現を生成するSGの拡張版を提案する。 提案手法であるコンテキスト・スキップ・グラムは,単語中心と文脈情報の両方を用いて文脈単語を予測できる。 このシンプルなアイデアは、トレーニングプロセスにおける無関係な単語の影響を減らし、最終的なパフォーマンスを高めるのに役立つ

The skip-gram (SG) model learns word representation by predicting the words surrounding a center word from unstructured text data. However, not all words in the context window contribute to the meaning of the center word. For example, less relevant words could be in the context window, hindering the SG model from learning a better quality representation. In this paper, we propose an enhanced version of the SG that leverages context information to produce word representation. The proposed model, Contextual Skip-gram, is designed to predict contextual words with both the center words and the context information. This simple idea helps to reduce the impact of irrelevant words on the training process, thus enhancing the final performance
翻訳日:2021-02-18 14:48:59 公開日:2021-02-17
# エコーチャンバーの外:パフォーマンスリスクを最適化する

Outside the Echo Chamber: Optimizing the Performative Risk ( http://arxiv.org/abs/2102.08570v1 )

ライセンス: Link先を確認
John Miller, Juan C. Perdomo, Tijana Zrnic(参考訳) 実行予測では、予測は意思決定を導くので、将来のデータの分布に影響を与えることができる。 これまでは、反復的再訓練の固定点である、性能的に安定なモデルを見つけることに焦点を当ててきた。 しかし、安定したソリューションは、モデルのデプロイ時に意思決定者が経験する損失、実行リスクの観点から評価した場合の最適とは程遠い。 本稿では,パフォーマンスの安定性よりも注意を移し,パフォーマンスのリスクを直接最適化することに注力する。 本研究では,損失関数の性質の自然集合と,損失のみの凸性から従わない特性である実効的リスクが凸となるモデル誘起分布シフトを同定する。 さらに,我々の構造的仮定を利用して,導関数のない凸最適化法よりも優れたサンプル効率で性能的リスクを最適化するアルゴリズムを開発した。

In performative prediction, predictions guide decision-making and hence can influence the distribution of future data. To date, work on performative prediction has focused on finding performatively stable models, which are the fixed points of repeated retraining. However, stable solutions can be far from optimal when evaluated in terms of the performative risk, the loss experienced by the decision maker when deploying a model. In this paper, we shift attention beyond performative stability and focus on optimizing the performative risk directly. We identify a natural set of properties of the loss function and model-induced distribution shift under which the performative risk is convex, a property which does not follow from convexity of the loss alone. Furthermore, we develop algorithms that leverage our structural assumptions to optimize the performative risk with better sample efficiency than generic methods for derivative-free convex optimization.
翻訳日:2021-02-18 14:48:33 公開日:2021-02-17
# Centroid Transformers: 注意で抽象化を学ぶ

Centroid Transformers: Learning to Abstract with Attention ( http://arxiv.org/abs/2102.08606v1 )

ライセンス: Link先を確認
Lemeng Wu, Xingchao Liu, Qiang Liu(参考訳) トランスフォーマーのキーブロックとしてのセルフアテンションは、入力から特徴を抽出する強力なメカニズムである。 本質的には、入力の要素間のペアワイズ関係を推測し、入力ペア間の情報を伝達することによって入力を修正するために自己注意が行うもの。 その結果、入力を N 出力にマップし、二次 $O(N^2)$ メモリと時間の複雑さをキャストします。 我々は、N の入力を M にマッピングする自己注意の一般化である centroid attention を提案し、入力のキー情報がより少ない出力(centroids と呼ばれる)で要約されるように$(M\leq N)$ を出力する。 本研究では,入力に対するクラスタリング目的関数の勾配降下更新ルールを償却することにより,注意とクラスタリングの基盤となる関係を明らかにする。 入力をセンタロイドに圧縮することにより,予測に有用な鍵情報を抽出するとともに,アテンションモジュールとそれに続くレイヤの計算量を削減する。 本手法は,抽象的テキスト要約,3次元視覚,画像処理など,様々なアプリケーションに適用する。 実験の結果, 標準変圧器に対する提案手法の有効性が実証された。

Self-attention, as the key block of transformers, is a powerful mechanism for extracting features from the inputs. In essence, what self-attention does to infer the pairwise relations between the elements of the inputs, and modify the inputs by propagating information between input pairs. As a result, it maps inputs to N outputs and casts a quadratic $O(N^2)$ memory and time complexity. We propose centroid attention, a generalization of self-attention that maps N inputs to M outputs $(M\leq N)$, such that the key information in the inputs are summarized in the smaller number of outputs (called centroids). We design centroid attention by amortizing the gradient descent update rule of a clustering objective function on the inputs, which reveals an underlying connection between attention and clustering. By compressing the inputs to the centroids, we extract the key information useful for prediction and also reduce the computation of the attention module and the subsequent layers. We apply our method to various applications, including abstractive text summarization, 3D vision, and image processing. Empirical results demonstrate the effectiveness of our method over the standard transformers.
翻訳日:2021-02-18 14:48:20 公開日:2021-02-17
# PACベイズ境界の非ランダム化に関する一般枠組み

A General Framework for the Derandomization of PAC-Bayesian Bounds ( http://arxiv.org/abs/2102.08649v1 )

ライセンス: Link先を確認
Paul Viallard (LHC), Pascal Germain, Amaury Habrard (LHC), Emilie Morvant (LHC)(参考訳) PAC-ベイズ境界は、ランダム化分類器の一般化能力を研究する際に、厳密で情報的であることが知られている。 しかし、ニューラルネットワークのようなある種の決定論的モデルに適用する場合、それらはゆるくコストのかかる非ランダム化ステップを必要とする。 このステップの代替として、3つの新しいpac-ベイズ一般化境界を導入し、これは原点を点的に持つため、通常の平均解析ではなく、1つの仮説に対して保証を提供する。 私たちの境界はかなり一般的で、パラメータ化可能であり、ランダム化アルゴリズムに依存するさまざまな機械学習設定に対して、新しい洞察を提供する。 本研究では,ニューラルネットワークの訓練分析における理論的結果の有用性について述べる。

PAC-Bayesian bounds are known to be tight and informative when studying the generalization ability of randomized classifiers. However, when applied to some family of deterministic models such as neural networks, they require a loose and costly derandomization step. As an alternative to this step, we introduce three new PAC-Bayesian generalization bounds that have the originality to be pointwise, meaning that they provide guarantees over one single hypothesis instead of the usual averaged analysis. Our bounds are rather general, potentially parameterizable, and provide novel insights for various machine learning settings that rely on randomized algorithms. We illustrate the interest of our theoretical result for the analysis of neural network training.
翻訳日:2021-02-18 14:48:02 公開日:2021-02-17
# Binary Classifiersに基づくアンバイアス推定:最大可能性アプローチ

Unbiased Estimations based on Binary Classifiers: A Maximum Likelihood Approach ( http://arxiv.org/abs/2102.08659v1 )

ライセンス: Link先を確認
Marco J.H. Puts and Piet J.H. Daas(参考訳) 正の項目の一定の割合でトレーニングされたバイナリ分類器は、正の項目の比率が異なるデータセットに適用するとバイアスをもたらす。 この問題に対処するためのほとんどのソリューションは、後者の分布に関する情報が知られていると仮定します。 しかし、この比率がターゲット変数である場合、これは必ずしもそうではない。 本稿では,データセットにおける正の正の正の正の正の正の比率を最大で推定し,合成および実世界のデータに対して検証する。

Binary classifiers trained on a certain proportion of positive items introduce a bias when applied to data sets with different proportions of positive items. Most solutions for dealing with this issue assume that some information on the latter distribution is known. However, this is not always the case, certainly when this proportion is the target variable. In this paper a maximum likelihood estimator for the true proportion of positives in data sets is suggested and tested on synthetic and real world data.
翻訳日:2021-02-18 14:47:51 公開日:2021-02-17
# 群同変条件ニューラルプロセス

Group Equivariant Conditional Neural Processes ( http://arxiv.org/abs/2102.08759v1 )

ライセンス: Link先を確認
Makoto Kawano, Wataru Kumagai, Akiyoshi Sannai, Yusuke Iwasawa and Yutaka Matsuo(参考訳) 本論文では、従来の条件神経プロセス(CNP)のようなデータセットにおける置換不変性を持つメタラーニング手法であるEquivCNP(EquivCNP)と、データ空間における変換等価性について述べる。 回転やスケーリング等分散のような群同値を組み込むことで、実世界のデータの対称性を考えることができる。 置換不変写像と群同変写像の分解定理を与え、群対称性を扱うために無限次元の潜在空間を持つ EquivCNP を構成する。 本稿では,リー群畳み込み層を用いたアーキテクチャを実践的に構築する。 翻訳等価性を有するEquivCNPは、従来のCNPと同等の性能を1D回帰タスクで達成できることを示した。 さらに,適切なリー群同値を組み込んだEquivCNPは,適切なリー群同値を選択することにより,画像補完タスクのゼロショット一般化を実現できることを示す。

We present the group equivariant conditional neural process (EquivCNP), a meta-learning method with permutation invariance in a data set as in conventional conditional neural processes (CNPs), and it also has transformation equivariance in data space. Incorporating group equivariance, such as rotation and scaling equivariance, provides a way to consider the symmetry of real-world data. We give a decomposition theorem for permutation-invarian t and group-equivariant maps, which leads us to construct EquivCNPs with an infinite-dimensional latent space to handle group symmetries. In this paper, we build architecture using Lie group convolutional layers for practical implementation. We show that EquivCNP with translation equivariance achieves comparable performance to conventional CNPs in a 1D regression task. Moreover, we demonstrate that incorporating an appropriate Lie group equivariance, EquivCNP is capable of zero-shot generalization for an image-completion task by selecting an appropriate Lie group equivariance.
翻訳日:2021-02-18 14:47:36 公開日:2021-02-17
# 地理統計的学習 : 挑戦と機会

Geostatistical Learning: Challenges and Opportunities ( http://arxiv.org/abs/2102.08791v1 )

ライセンス: Link先を確認
J\'ulio Hoffimann, Maciel Zortea, Breno de Carvalho, Bianca Zadrozny(参考訳) 統計的学習理論は機械学習の応用の基礎となり、コンピュータビジョン、自然言語処理、その他の科学分野における様々な応用が成功した。 しかし、この理論は、地理空間設定における統計的学習のユニークな課題を考慮に入れていない。 例えば、モデル誤差は独立であり、地理空間(a.a.)で同一に分布しているとは仮定できないことはよく知られている。 地域化) 空間的相関による変数、そして、地球物理学的プロセスによって引き起こされるトレンドは、モデルが訓練された領域と適用される領域の間の共変量シフトにつながり、結果としてデータのランダムなサンプルに依存する古典的学習方法論の使用を損なう。 本研究では,共変量シフトと空間相関の下で,学習モデルの一般化誤差を推定するための広く使われている手法を評価し,地理空間データから学習する課題を説明する。 合成ガウス過程データとニュージーランドの地球物理調査の実データを用いた実験は、いずれの手法も地理空間的文脈におけるモデル選択に適していないことを示している。 我々は,新しい手法が積極的に研究されている間,これらの手法の実践的選択に関する一般的なガイドラインを提供する。

Statistical learning theory provides the foundation to applied machine learning, and its various successful applications in computer vision, natural language processing and other scientific domains. The theory, however, does not take into account the unique challenges of performing statistical learning in geospatial settings. For instance, it is well known that model errors cannot be assumed to be independent and identically distributed in geospatial (a.k.a. regionalized) variables due to spatial correlation; and trends caused by geophysical processes lead to covariate shifts between the domain where the model was trained and the domain where it will be applied, which in turn harm the use of classical learning methodologies that rely on random samples of the data. In this work, we introduce the geostatistical (transfer) learning problem, and illustrate the challenges of learning from geospatial data by assessing widely-used methods for estimating generalization error of learning models, under covariate shift and spatial correlation. Experiments with synthetic Gaussian process data as well as with real data from geophysical surveys in New Zealand indicate that none of the methods are adequate for model selection in a geospatial context. We provide general guidelines regarding the choice of these methods in practice while new methods are being actively researched.
翻訳日:2021-02-18 14:47:22 公開日:2021-02-17
# 教師付きコンストラッシブラーニングの分別

Dissecting Supervised Constrastive Learning ( http://arxiv.org/abs/2102.08817v1 )

ライセンス: Link先を確認
Florian Graf, Christoph D. Hofer, Marc Niethammer, Roland Kwitt(参考訳) 高容量エンコーダで構成された線形マップのソフトマックススコアよりもクロスエントロピーを最小化することは、教師付き学習タスクでニューラルネットワークを訓練するための最も一般的な選択肢である。 しかし、近年の研究では、コントラスト目的の教師付き変種を通して等しく(あるいはそれ以上)識別表現を得るために、エンコーダを直接最適化することが示されている。 本研究では,最小損失のエンコーダの出力空間において,表現幾何学に基本的な相違が存在するかという問題に対処する。 具体的には、軽微な仮定の下で、各クラスの表現が超球面に刻まれた正則単純体の頂点に崩壊すると、両者の損失が最小値に達することを証明する。 この構成が実際に達成されていることを示す実証的証拠を提示し、至近状態に達することは一般によい一般化性能を示す。 しかし、この2つの損失は、非常に異なる最適化挙動を示している。 データスケールに完全に適合するために必要なイテレーションの数は、教師付きコントラスト損失のためのランダムに反転したラベルの量と並べ替えられます。 これは、クロスエントロピーで訓練されたネットワークで以前に報告されたほぼ線形スケーリングとは対照的です。

Minimizing cross-entropy over the softmax scores of a linear map composed with a high-capacity encoder is arguably the most popular choice for training neural networks on supervised learning tasks. However, recent works show that one can directly optimize the encoder instead, to obtain equally (or even more) discriminative representations via a supervised variant of a contrastive objective. In this work, we address the question whether there are fundamental differences in the sought-for representation geometry in the output space of the encoder at minimal loss. Specifically, we prove, under mild assumptions, that both losses attain their minimum once the representations of each class collapse to the vertices of a regular simplex, inscribed in a hypersphere. We provide empirical evidence that this configuration is attained in practice and that reaching a close-to-optimal state typically indicates good generalization performance. Yet, the two losses show remarkably different optimization behavior. The number of iterations required to perfectly fit to data scales superlinearly with the amount of randomly flipped labels for the supervised contrastive loss. This is in contrast to the approximately linear scaling previously reported for networks trained with cross-entropy.
翻訳日:2021-02-18 14:47:00 公開日:2021-02-17
# 構造予測における厳密推論の基本限界について

On the Fundamental Limits of Exact Inference in Structured Prediction ( http://arxiv.org/abs/2102.08895v1 )

ライセンス: Link先を確認
Hanbyul Lee and Kevin Bello and Jean Honorio(参考訳) 推論は構造化予測の主要なタスクであり、自然にグラフでモデル化される。 Markovのランダムフィールドの文脈では、ノードとエッジに対応する騒々しい観測は通常関与しており、正確な推論の目標は、各ノードの未知の真のラベルを正確に回復することです。 本論文では,Globersonらによって提案された生成過程を仮定し,計算効率に関係なく正確な回復の基本的な限界に焦点をあてる。 (2015). アルゴリズムに必要な条件と最大確率推定のための十分な条件を導き出し、高い確率で正確な回復を達成し、十分な条件と必要な条件が広範囲のグラフの対数係数までタイトであることを明らかにします。 最後に,bello と honorio (2019) の計算可能な手法の基本的な限界と性能の間にはギャップがあることを示し,正確な推論のためのアルゴリズムのさらなる開発の必要性を示唆する。

Inference is a main task in structured prediction and it is naturally modeled with a graph. In the context of Markov random fields, noisy observations corresponding to nodes and edges are usually involved, and the goal of exact inference is to recover the unknown true label for each node precisely. The focus of this paper is on the fundamental limits of exact recovery irrespective of computational efficiency, assuming the generative process proposed by Globerson et al. (2015). We derive the necessary condition for any algorithm and the sufficient condition for maximum likelihood estimation to achieve exact recovery with high probability, and reveal that the sufficient and necessary conditions are tight up to a logarithmic factor for a wide range of graphs. Finally, we show that there exists a gap between the fundamental limits and the performance of the computationally tractable method of Bello and Honorio (2019), which implies the need for further development of algorithms for exact inference.
翻訳日:2021-02-18 14:46:42 公開日:2021-02-17
# 合成データはどれほど忠実か? 生成モデルの評価と評価のためのサンプルレベルメトリクス

How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating and Auditing Generative Models ( http://arxiv.org/abs/2102.08921v1 )

ライセンス: Link先を確認
Ahmed M. Alaa, Boris van Breugel, Evgeny Saveliev, Mihaela van der Schaar(参考訳) 生成モデルに対するドメインおよびモデルに依存しない評価指標の開発は重要であり、未解決の課題である。 画像合成のセットアップのみに調整された既存のメトリックのほとんどは、幅広いアプリケーションドメインにわたる生成モデルの異なる障害モードを診断する能力に制限がある。 本稿では,任意の生成モデルの忠実度,多様性,一般化性能をドメインに依存しない方法で特徴づける3次元評価指標 ($\alpha$-Precision, $\beta$-Recall, Authenticity) を提案する。 当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。 モデルがトレーニングデータをコピーする範囲を定量化する(忠実度分散トレードオフ)追加の独立した次元として一般化を導入します。これは、機密データをプライバシー要件でモデリングする際に重要なパフォーマンス指標です。 3つの計量成分は(解釈可能な)確率量に対応し、サンプルレベルのバイナリ分類によって推定される。 ここでは,黒箱モデルによって生成された個々のサンプルの品質を判断し,低品質なサンプルを廃棄し,その結果,ポストホックな方法で全体のモデル性能を向上させる。

Devising domain- and model-agnostic evaluation metrics for generative models is an important and as yet unresolved problem. Most existing metrics, which were tailored solely to the image synthesis setup, exhibit a limited capacity for diagnosing the different modes of failure of generative models across broader application domains. In this paper, we introduce a 3-dimensional evaluation metric, ($\alpha$-Precision, $\beta$-Recall, Authenticity), that characterizes the fidelity, diversity and generalization performance of any generative model in a domain-agnostic fashion. Our metric unifies statistical divergence measures with precision-recall analysis, enabling sample- and distribution-level diagnoses of model fidelity and diversity. We introduce generalization as an additional, independent dimension (to the fidelity-diversity trade-off) that quantifies the extent to which a model copies training data -- a crucial performance indicator when modeling sensitive data with requirements on privacy. The three metric components correspond to (interpretable) probabilistic quantities, and are estimated via sample-level binary classification. The sample-level nature of our metric inspires a novel use case which we call model auditing, wherein we judge the quality of individual samples generated by a (black-box) model, discarding low-quality samples and hence improving the overall model performance in a post-hoc manner.
翻訳日:2021-02-18 14:46:26 公開日:2021-02-17
# LambdaNetworks: 注意せずに長距離インタラクションをモデル化する

LambdaNetworks: Modeling Long-Range Interactions Without Attention ( http://arxiv.org/abs/2102.08602v1 )

ライセンス: Link先を確認
Irwan Bello(参考訳) 我々は、入力と構造化されたコンテキスト情報間の長距離相互作用をキャプチャするためのラムダ層 - セルフアテンテンションの代替フレームワーク - を提示する。 他のピクセルに囲まれたピクセル) Lambdaレイヤは、利用可能なコンテキストを線形関数(ラムダと呼ばれる)に変換し、これらの線形関数を各入力に個別に適用することで、そのような相互作用をキャプチャする。 線形アテンションと同様に、ラムダレイヤは高価なアテンションマップをバイパスするが、対照的に、コンテンツと位置ベースのインタラクションの両方をモデル化し、画像などの大きな構造化インプットに応用することができる。 結果として得られたニューラルネットワークアーキテクチャであるLambdaNetworksは、ImageNet分類、COCOオブジェクト検出、COCOインスタンスセグメンテーションにおける畳み込みと注目の対比を大幅に上回り、計算効率が向上した。 さらに、異なるスケールにわたるハイブリッドアーキテクチャのファミリーであるLambdaResNetsを設計し、画像分類モデルの速度-精度トレードオフを大幅に改善する。 LambdaResNetは、最新の機械学習アクセラレータの一般的なEfficientNetよりも3.2 - 4.4倍速く、ImageNetで優れた評価を得ています。 追加の130万の擬似ラベル画像でトレーニングする場合、LambdaResNetは対応するEfficientNetチェックポイントに対して最大9.5倍のスピードアップを達成します。

We present lambda layers -- an alternative framework to self-attention -- for capturing long-range interactions between an input and structured contextual information (e.g. a pixel surrounded by other pixels). Lambda layers capture such interactions by transforming available contexts into linear functions, termed lambdas, and applying these linear functions to each input separately. Similar to linear attention, lambda layers bypass expensive attention maps, but in contrast, they model both content and position-based interactions which enables their application to large structured inputs such as images. The resulting neural network architectures, LambdaNetworks, significantly outperform their convolutional and attentional counterparts on ImageNet classification, COCO object detection and COCO instance segmentation, while being more computationally efficient. Additionally, we design LambdaResNets, a family of hybrid architectures across different scales, that considerably improves the speed-accuracy tradeoff of image classification models. LambdaResNets reach excellent accuracies on ImageNet while being 3.2 - 4.4x faster than the popular EfficientNets on modern machine learning accelerators. When training with an additional 130M pseudo-labeled images, LambdaResNets achieve up to a 9.5x speed-up over the corresponding EfficientNet checkpoints.
翻訳日:2021-02-18 14:46:01 公開日:2021-02-17
# ドメインの一般化は、ドメインシフトのロバスト性に対する確率的ウェイト平均化を必要とする

Domain Generalization Needs Stochastic Weight Averaging for Robustness on Domain Shifts ( http://arxiv.org/abs/2102.08604v1 )

ライセンス: Link先を確認
Junbum Cha, Hancheol Cho, Kyungjae Lee, Seunghyun Park, Yunsung Lee, Sungrae Park(参考訳) ドメイン一般化は、複数のソースドメインからターゲットドメインを非表示にするための一般化モデルを学ぶことを目的としている。 この問題を解決するための様々なアプローチが提案されている。 しかし、最近のベンチマークでは、そのほとんどが実用的なケースでの単純な経験的リスク最小化(erm)と比較して大きな改善を提供していないことが示されている。 本稿では,ermがドメイン不変特徴学習やドメイン固有勾配正規化においてどのように機能するかを分析する。 さらに,複数の訓練領域で共有される損失谷にermが収束するのを観察し,その中心がより一般化しているという知見を得た。 センターの推定には、確率重み平均(SWA)を使用し、SWAが見えない領域に対する一般化をどのようにサポートするかを理論的に分析します。 その結果,pacs,vlcs,officehom e,landscognita,domai nnetなど,広く使用されているすべてのドメイン一般化ベンチマークに対して,最先端のパフォーマンスを実現することができた。 さらに分析すると、SWAがドメイン一般化タスクでどのように動作するかがわかる。

Domain generalization aims to learn a generalizable model to unseen target domains from multiple source domains. Various approaches have been proposed to address this problem. However, recent benchmarks show that most of them do not provide significant improvements compared to the simple empirical risk minimization (ERM) in practical cases. In this paper, we analyze how ERM works in views of domain-invariant feature learning and domain-specific gradient normalization. In addition, we observe that ERM converges to a loss valley shared over multiple training domains and obtain an insight that a center of the valley generalizes better. To estimate the center, we employ stochastic weight averaging (SWA) and provide theoretical analysis describing how SWA supports the generalization bound for an unseen domain. As a result, we achieve state-of-the-art performances over all of widely used domain generalization benchmarks, namely PACS, VLCS, OfficeHome, TerraIncognita, and DomainNet with large margins. Further analysis reveals how SWA operates on domain generalization tasks.
翻訳日:2021-02-18 14:45:36 公開日:2021-02-17
# ガウスVAEにおけるオーバースムーシングによる後部崩壊の予防

Preventing Posterior Collapse Induced by Oversmoothing in Gaussian VAE ( http://arxiv.org/abs/2102.08663v1 )

ライセンス: Link先を確認
Yuhta Takida, Wei-Hsiang Liao, Toshimitsu Uesaka, Shusuke Takahashi and Yuki Mitsufuji(参考訳) 可変自己エンコーダ(VAE)は、しばしば後部崩壊に苦しむが、これは学習された潜在空間が無情報になる現象である。 これはしばしばデータ分散に類似したハイパーパラメータに関連している。 このパラメータの不適切な選択が過滑性を引き起こし、線形近似ケースの後方崩壊につながることが示され、一般的なケースで経験的に検証することができる。 そこで我々は,この分散パラメータを適用してモデルの滑らかさを制御するAR-ELBO(Adaptively Regularized Evidence Lower Bound)を提案する。 さらに、分散パラメータの代替パラメータ化によりVAEを拡張し、非均一または条件付きデータ分散に対処する。 AR-ELBOで訓練されたVAE拡張は、MNISTおよびCelebAデータセットから生成された画像に対するFr\'echet受信距離(FID)を改善した。

Variational autoencoders (VAEs) often suffer from posterior collapse, which is a phenomenon in which the learned latent space becomes uninformative. This is often related to a hyperparameter resembling the data variance. It can be shown that an inappropriate choice of this parameter causes oversmoothness and leads to posterior collapse in the linearly approximated case and can be empirically verified for the general cases. Therefore, we propose AR-ELBO (Adaptively Regularized Evidence Lower BOund), which controls the smoothness of the model by adapting this variance parameter. In addition, we extend VAE with alternative parameterizations on the variance parameter to deal with non-uniform or conditional data variance. The proposed VAE extensions trained with AR-ELBO show improved Fr\'echet inception distance (FID) on images generated from the MNIST and CelebA datasets.
翻訳日:2021-02-18 14:45:19 公開日:2021-02-17
# コントラスト学習はデータ生成プロセスを反転させる

Contrastive Learning Inverts the Data Generating Process ( http://arxiv.org/abs/2102.08850v1 )

ライセンス: Link先を確認
Roland S. Zimmermann, Yash Sharma, Steffen Schneider, Matthias Bethge, Wieland Brendel(参考訳) コントラスト学習は最近、自己監督学習で大きな成功を収めています。 しかし、これまでのところ、なぜ学習された表現が多くの下流タスクに効果的に一般化するのかは、ほとんど不明である。 ここでは,よく使われるインフォアンスファミリーに属する対象を訓練したフィードフォワードモデルが,観測データの基底となる生成モデルを暗黙的に反転させることを実証する。 証明は生成モデルについて一定の統計的仮定を与えるが、これらの仮定が厳しく破られたとしても、我々の発見は実証的に成り立つことを観察する。 本理論は, コントラスト学習, 生成モデル, 非線形独立成分分析の基本的な関係を強調し, 学習表現の理解を深めるとともに, より効果的なコントラスト的損失を導出するための理論的基盤を提供する。

Contrastive learning has recently seen tremendous success in self-supervised learning. So far, however, it is largely unclear why the learned representations generalize so effectively to a large variety of downstream tasks. We here prove that feedforward models trained with objectives belonging to the commonly used InfoNCE family learn to implicitly invert the underlying generative model of the observed data. While the proofs make certain statistical assumptions about the generative model, we observe empirically that our findings hold even if these assumptions are severely violated. Our theory highlights a fundamental connection between contrastive learning, generative modeling, and nonlinear independent component analysis, thereby furthering our understanding of the learned representations as well as providing a theoretical foundation to derive more effective contrastive losses.
翻訳日:2021-02-18 14:45:05 公開日:2021-02-17
# ヘルスケアにおけるチームのメンタルモデルアライメントを推論するAIコーチ

Towards an AI Coach to Infer Team Mental Model Alignment in Healthcare ( http://arxiv.org/abs/2102.08507v1 )

ライセンス: Link先を確認
Sangwon Seo, Lauren R. Kennedy-Metz, Marco A. Zenati, Julie A. Shah, Roger D. Dias, Vaibhav V. Unhelkar(参考訳) 共有メンタルモデルはチームの成功に不可欠です。しかし、実際には、チームメンバーはさまざまな要因のためにモデルが不整合している可能性があります。 安全クリティカルな領域(航空、医療など)では、共有精神モデルの欠如は予防可能なエラーと害につながる可能性がある。 このような予防可能なエラーを緩和する目的に向けて,我々は,複雑な医療タスク実行中のチームメンバーのメンタルモデルの誤用を推測するベイズ的アプローチを提案する。 例示のアプリケーションとして、我々は2つのシミュレーションチームベースのシナリオを用いて、心臓外科における実際のチームワークから得られたアプローチを実証する。 これらのシミュレーション実験では,75%以上のリコールによるモデル誤認を推定し,手術室における人間認知の増強とチームワークの改善のためのコンピュータ支援介入を可能にするビルディングブロックを提供した。

Shared mental models are critical to team success; however, in practice, team members may have misaligned models due to a variety of factors. In safety-critical domains (e.g., aviation, healthcare), lack of shared mental models can lead to preventable errors and harm. Towards the goal of mitigating such preventable errors, here, we present a Bayesian approach to infer misalignment in team members' mental models during complex healthcare task execution. As an exemplary application, we demonstrate our approach using two simulated team-based scenarios, derived from actual teamwork in cardiac surgery. In these simulated experiments, our approach inferred model misalignment with over 75% recall, thereby providing a building block for enabling computer-assisted interventions to augment human cognition in the operating room and improve teamwork.
翻訳日:2021-02-18 14:44:37 公開日:2021-02-17
# チャンス制約強化学習のための分離プロポーショナル・Integral Lagrangian

Separated Proportional-Integra l Lagrangian for Chance Constrained Reinforcement Learning ( http://arxiv.org/abs/2102.08539v1 )

ライセンス: Link先を確認
Baiyu Peng, Yao Mu, Jingliang Duan, Yang Guan, Shengbo Eben Li, Jianyu Chen(参考訳) 安全は、自動運転のような現実世界のタスクに適用される強化学習(RL)に不可欠です。 状態制約の満足度を高い確率で保証する条件制約は、不確実性のある現実環境における要件を表現するのに適している。 既存の確率制約付きRL法(ペナルティ法やラグランジアン法)は周期振動を示すか、あるいは制約を満たすことができない。 本稿では,分離比例積分ラグランジアン(spil)アルゴリズムを提案することで,これらの欠点を解決する。 制御の観点から,まずペナルティ法とラグランジアン法を比例フィードバックと積分フィードバック制御として解釈する。 次に,安全を向上しながら安定した学習プロセスを実現する比例積分ラグランジアン法を提案する。 積分オーバーシュートを防止し,保守性を低下させるために,PID制御にインスパイアされた積分分離技術を導入する。 最後に、確率制約の分析勾配をモデルに基づくポリシー最適化に活用する。 SPILの有効性は狭い車追従作業によって実証される。 実験の結果、SPILは従来の手法と比較して、安定した学習プロセスで安全性を確保しながら性能を向上させることが示された。

Safety is essential for reinforcement learning (RL) applied in real-world tasks like autonomous driving. Chance constraints which guarantee the satisfaction of state constraints at a high probability are suitable to represent the requirements in real-world environment with uncertainty. Existing chance constrained RL methods like the penalty method and the Lagrangian method either exhibit periodic oscillations or cannot satisfy the constraints. In this paper, we address these shortcomings by proposing a separated proportional-integra l Lagrangian (SPIL) algorithm. Taking a control perspective, we first interpret the penalty method and the Lagrangian method as proportional feedback and integral feedback control, respectively. Then, a proportional-integra l Lagrangian method is proposed to steady learning process while improving safety. To prevent integral overshooting and reduce conservatism, we introduce the integral separation technique inspired by PID control. Finally, an analytical gradient of the chance constraint is utilized for model-based policy optimization. The effectiveness of SPIL is demonstrated by a narrow car-following task. Experiments indicate that compared with previous methods, SPIL improves the performance while guaranteeing safety, with a steady learning process.
翻訳日:2021-02-18 14:44:22 公開日:2021-02-17
# 例に基づく説明とモデル入力の編集による直感的なMLモデル信頼性評価

Intuitively Assessing ML Model Reliability through Example-Based Explanations and Editing Model Inputs ( http://arxiv.org/abs/2102.08540v1 )

ライセンス: Link先を確認
Harini Suresh, Kathleen M. Lewis, John V. Guttag, Arvind Satyanarayan(参考訳) 解釈可能性メソッドは、機械学習モデルの能力に対する信頼の構築と理解を支援することを目的とする。 しかし、既存のアプローチはしばしば抽象的で複雑な視覚化に依存しており、手元のタスクにマッピングできないか、解釈に非自明なMLの専門知識を必要とする。 ここでは、モデル信頼性をより直感的に評価するための2つのインターフェースモジュールを紹介します。 モデルの不確実性をよりよく特徴づけ、推論するために、トレーニングデータセット内の特定の入力の最寄りの隣人に関する情報を生で集計します。 インタラクティブエディタを使用すると、ユーザーはこの入力を意味的に操作し、出力への影響を決定し、以前の期待と比較することができます。 心電図ビート分類ケーススタディを用いてインターフェースを評価する。 基本的特徴重視インタフェースと比較すると,9人の医師がモデルの不確実性を臨床的に関係のある要因と整合させ,その能力と限界を直感的に構築できることがわかった。

Interpretability methods aim to help users build trust in and understand the capabilities of machine learning models. However, existing approaches often rely on abstract, complex visualizations that poorly map to the task at hand or require non-trivial ML expertise to interpret. Here, we present two interface modules to facilitate a more intuitive assessment of model reliability. To help users better characterize and reason about a model's uncertainty, we visualize raw and aggregate information about a given input's nearest neighbors in the training dataset. Using an interactive editor, users can manipulate this input in semantically-meaning ful ways, determine the effect on the output, and compare against their prior expectations. We evaluate our interface using an electrocardiogram beat classification case study. Compared to a baseline feature importance interface, we find that 9 physicians are better able to align the model's uncertainty with clinically relevant factors and build intuition about its capabilities and limitations.
翻訳日:2021-02-18 14:44:05 公開日:2021-02-17
# 機能的共同設立者による因果推定

Causal Estimation with Functional Confounders ( http://arxiv.org/abs/2102.08533v1 )

ライセンス: Link先を確認
Aahlad Puli, Adler J. Perotte, Rajesh Ranganath(参考訳) 因果推論は、無知と肯定性の2つの基本的な仮定に依存します。 本研究では,真の共著者の値が観測データの関数として表現される場合の因果推論を,関数的共著者(EFC)によるこの設定推定と呼ぶ。 この設定では、不可知性は満たされるが、肯定性は侵害され、因果推論は一般に不可能である。 因果効果が推定できる2つのシナリオを検討する。 まず、機能的介入と呼ばれる治療の一部に対する介入と、これらの介入に対する効果評価のための十分な条件である機能的ポジティブ性について議論する。 第2に,機能的共著者の勾配場と真の結果関数に基づく非パラメトリック効果推定条件を開発する。 これらの条件下での効果を推定するために,LODE(Level-set Orthogonal Descent Estimation)を開発した。 さらに,lodeの効果推定における誤差境界を証明し,シミュレーションおよび実データに対する評価を行い,efcの価値を実証的に示す。

Causal inference relies on two fundamental assumptions: ignorability and positivity. We study causal inference when the true confounder value can be expressed as a function of the observed data; we call this setting estimation with functional confounders (EFC). In this setting, ignorability is satisfied, however positivity is violated, and causal inference is impossible in general. We consider two scenarios where causal effects are estimable. First, we discuss interventions on a part of the treatment called functional interventions and a sufficient condition for effect estimation of these interventions called functional positivity. Second, we develop conditions for nonparametric effect estimation based on the gradient fields of the functional confounder and the true outcome function. To estimate effects under these conditions, we develop Level-set Orthogonal Descent Estimation (LODE). Further, we prove error bounds on LODE's effect estimates, evaluate our methods on simulated and real data, and empirically demonstrate the value of EFC.
翻訳日:2021-02-18 14:41:46 公開日:2021-02-17
# ガウス過程によるニューラルネットワークの非漸近近似

Non-asymptotic approximations of neural networks by Gaussian processes ( http://arxiv.org/abs/2102.08668v1 )

ライセンス: Link先を確認
Ronen Eldan and Dan Mikulincer and Tselil Schramm(参考訳) ランダム重み付き初期化において,広範ニューラルネットワークがガウス過程によって近似される範囲について検討する。 ネットワークの幅が無限大に近づくにつれて、その法則はガウス過程の法則に収束する、という確固たる事実である。 自然輸送距離で測量された無限次元関数空間において、中心極限定理の明示的な収束率を定式化する。 活性化関数が多項式であるとき、その程度は収束の速度を決定するが、非多項式活性化の場合、その速度は関数の滑らかさによって支配される。

We study the extent to which wide neural networks may be approximated by Gaussian processes when initialized with random weights. It is a well-established fact that as the width of a network goes to infinity, its law converges to that of a Gaussian process. We make this quantitative by establishing explicit convergence rates for the central limit theorem in an infinite-dimensional functional space, metrized with a natural transportation distance. We identify two regimes of interest; when the activation function is polynomial, its degree determines the rate of convergence, while for non-polynomial activations, the rate is governed by the smoothness of the function.
翻訳日:2021-02-18 14:41:31 公開日:2021-02-17
# Chance-Constrained Active Inference

Chance-Constrained Active Inference ( http://arxiv.org/abs/2102.08792v1 )

ライセンス: Link先を確認
Thijs van de Laar, Ismail Senoz, Ay\c{c}a \"Oz\c{c}elikkale, Henk Wymeersch(参考訳) Active Inference (ActInf) は、ベイジアン・サプライズに縛られた自由エネルギーを最小限に抑えることの観点から、生物学的エージェントの知覚と行動を説明する新しい理論である。 ゴール指向の行動は、基礎となる生成モデルに事前の信念を導入することによって引き起こされる。 確率変数のすべての実現を制約する事前の信念とは対照的に,制約違反の確率(典型的には小さい)を許容する確率制約による代替的アプローチを提案し,そのような制約をactinfにおける目標指向行動の内在的ドライバとしてどのように使用できるかを示す。 本稿では、例えば、ロバスト制御と経験的チャンス制約違反のトレードオフのために、ActInfが生成モデルに(優先的な)制約を課す方法を説明する。 次に、提案した解決策をメッセージパッシングフレームワーク内で解釈する。 興味深いことに、メッセージパッシングの解釈はactinfのコンテキストに関係しているだけでなく、グラフィカルモデルにおける偶然の制約を考慮できる汎用的なアプローチを提供する。 制約のあるメッセージ更新は、カスタムデリバティブを必要とせずに、簡単に他のプリオリジンのメッセージ更新ルールと組み合わせられる。 提案する確率制約付きメッセージパッシングフレームワークは、一般的に動作するモデルの探索を加速し、生成型ニューラルネットワークモデルのメッセージパッシング記述を補完するために使用できる。

Active Inference (ActInf) is an emerging theory that explains perception and action in biological agents, in terms of minimizing a free energy bound on Bayesian surprise. Goal-directed behavior is elicited by introducing prior beliefs on the underlying generative model. In contrast to prior beliefs, which constrain all realizations of a random variable, we propose an alternative approach through chance constraints, which allow for a (typically small) probability of constraint violation, and demonstrate how such constraints can be used as intrinsic drivers for goal-directed behavior in ActInf. We illustrate how chance-constrained ActInf weights all imposed (prior) constraints on the generative model, allowing e.g., for a trade-off between robust control and empirical chance constraint violation. Secondly, we interpret the proposed solution within a message passing framework. Interestingly, the message passing interpretation is not only relevant to the context of ActInf, but also provides a general purpose approach that can account for chance constraints on graphical models. The chance constraint message updates can then be readily combined with other pre-derived message update rules, without the need for custom derivations. The proposed chance-constrained message passing framework thus accelerates the search for workable models in general, and can be used to complement message-passing formulations on generative neural models.
翻訳日:2021-02-18 14:40:30 公開日:2021-02-17
# 線形関数近似による逆mdp学習における最善の後悔

Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function Approximation ( http://arxiv.org/abs/2102.08940v1 )

ライセンス: Link先を確認
Jiafan He and Dongruo Zhou and Quanquan Gu(参考訳) 本研究では,有限水平エピソディックマルコフ決定過程の強化学習について,未知の遷移確率関数が与えられた特徴写像の線形関数である対向報酬と全情報フィードバックを用いて検討する。 本稿では,ベルンシュタインボーナスを用いた楽観的ポリシー最適化アルゴリズムを提案し,$\tilde{O}(dH\sqrt{T})$ regretを達成できることを示し,$H$はエピソードの長さであり,$T$はMDPとの相互作用の数であり,$d$は特徴写像の次元であることを示す。 さらに、対数係数まで、$\tilde{\Omega}(dH\sqrt{T})$の一致する下界も証明する。 我々の知る限り、これは線形関数近似を用いた逆マルコフ決定過程に対する計算効率が良く、ほぼ最小の最適アルゴリズムである。

We study the reinforcement learning for finite-horizon episodic Markov decision processes with adversarial reward and full information feedback, where the unknown transition probability function is a linear function of a given feature mapping. We propose an optimistic policy optimization algorithm with Bernstein bonus and show that it can achieve $\tilde{O}(dH\sqrt{T})$ regret, where $H$ is the length of the episode, $T$ is the number of interaction with the MDP and $d$ is the dimension of the feature mapping. Furthermore, we also prove a matching lower bound of $\tilde{\Omega}(dH\sqrt{T})$ up to logarithmic factors. To the best of our knowledge, this is the first computationally efficient, nearly minimax optimal algorithm for adversarial Markov decision processes with linear function approximation.
翻訳日:2021-02-18 14:40:06 公開日:2021-02-17
# 高品質画像合成のための進化型GAN定式

Evolving GAN Formulations for Higher Quality Image Synthesis ( http://arxiv.org/abs/2102.08578v1 )

ライセンス: Link先を確認
Santiago Gonzalez and Mohak Kant and Risto Miikkulainen(参考訳) generative adversarial networks(gans)は、さまざまなデータモダリティにわたる複雑な生成と翻訳タスクにディープラーニングを拡張した。 トレーニングプロセスにおけるモード崩壊やその他の不安定性は、画像のような生成された結果の品質を劣化させることが多い。 本稿では2つのネットワーク毎にカスタマイズされた損失関数を発見し,GANを改善するためのTaylorGANという新しい手法を提案する。 損失関数はテイラー展開としてパラメータ化され、多目的進化を通じて最適化される。 画像間変換ベンチマークタスクでは,画像の品質を質的に改善し,2つの独立したGANパフォーマンス指標を定量的に改善する。 したがって、将来、より困難なタスクにGANを適用するための有望なアプローチを形成します。

Generative Adversarial Networks (GANs) have extended deep learning to complex generation and translation tasks across different data modalities. However, GANs are notoriously difficult to train: Mode collapse and other instabilities in the training process often degrade the quality of the generated results, such as images. This paper presents a new technique called TaylorGAN for improving GANs by discovering customized loss functions for each of its two networks. The loss functions are parameterized as Taylor expansions and optimized through multiobjective evolution. On an image-to-image translation benchmark task, this approach qualitatively improves generated image quality and quantitatively improves two independent GAN performance metrics. It therefore forms a promising approach for applying GANs to more challenging tasks in the future.
翻訳日:2021-02-18 14:39:50 公開日:2021-02-17
# マルチモーダル医用画像融合のための複合機能学習

Coupled Feature Learning for Multimodal Medical Image Fusion ( http://arxiv.org/abs/2102.08641v1 )

ライセンス: Link先を確認
Farshad G. Veshki, Nora Ouzir, Sergiy A. Vorobyov, Esa Ollila(参考訳) マルチモーダル画像融合は、取得した画像と異なるセンサーの関連情報を組み合わせることを目指しています。 医療画像では、融合画像は、標準および自動診断の両方に不可欠な役割を担います。 本稿では,結合辞書学習に基づく新しいマルチモーダル画像融合法を提案する。 提案方法は一般的であり、異なる医療用イメージングモードに使用することができる。 現在の多くの医療融合法とは異なり、提案手法は強度の減衰や臨界情報の喪失に悩まされない。 具体的には、融合する画像は、同一の支持を持つ疎表現とピアソン相関制約を用いてそれぞれ推定される結合成分と独立成分に分解される。 最適化問題を解くために交互最小化アルゴリズムが設計されている。 最後の融合ステップは、最大絶対値ルールを使用する。 MR-CT画像やMR-PET画像など,様々なマルチモーダル入力を用いて実験を行った。 その結果,最新の医用画像融合法と比較して,提案手法の競争力を示す結果が得られた。

Multimodal image fusion aims to combine relevant information from images acquired with different sensors. In medical imaging, fused images play an essential role in both standard and automated diagnosis. In this paper, we propose a novel multimodal image fusion method based on coupled dictionary learning. The proposed method is general and can be employed for different medical imaging modalities. Unlike many current medical fusion methods, the proposed approach does not suffer from intensity attenuation nor loss of critical information. Specifically, the images to be fused are decomposed into coupled and independent components estimated using sparse representations with identical supports and a Pearson correlation constraint, respectively. An alternating minimization algorithm is designed to solve the resulting optimization problem. The final fusion step uses the max-absolute-value rule. Experiments are conducted using various pairs of multimodal inputs, including real MR-CT and MR-PET images. The resulting performance and execution times show the competitiveness of the proposed method in comparison with state-of-the-art medical image fusion methods.
翻訳日:2021-02-18 14:39:37 公開日:2021-02-17
# CheXternal:胸部X線解析のための深層学習モデルの胸部X線写真への一般化と臨床応用

CheXternal: Generalization of Deep Learning Models for Chest X-ray Interpretation to Photos of Chest X-rays and External Clinical Settings ( http://arxiv.org/abs/2102.08660v1 )

ライセンス: Link先を確認
Pranav Rajpurkar, Anirudh Joshi, Anuj Pareek, Andrew Y. Ng, Matthew P. Lungren(参考訳) 近年の深層学習モデルの訓練は、正確な胸部X線解釈を提供し、放射線学の専門知識へのアクセスを高める可能性を実証している。 しかし, 臨床環境におけるデータ分布シフトによる一般化の低下は, 実装の鍵となる障壁である。 本研究では,(1)胸部X線のスマートフォン写真と(2)外部データセットを微調整することなく,8種類の胸部X線モデルの診断性能を測定した。 すべてのモデルは異なるグループによって開発され、CheXpertチャレンジに提出され、さらにチューニングすることなくデータセットのテストに再適用されました。 その結果, 胸部X線写真では, 全8モデルが, 作業成績が統計的に有意に低下したが, 放射線科医より有意に低下したのは3モデルのみであり, 外部セットでは, いずれも放射線科医より統計的に劣る例はなく, 5モデルでは放射線科医より統計的に優れていた。 胸部X線モデルでは, 臨床的に有意な分布変化がみられ, 放射線医に匹敵するものの, 他のモデルでは有意であった。 今後の作業は、データ分散シフトの存在下での一般化に影響を与えるモデルトレーニング手順とデータセットコレクションの側面を調べるべきです。

Recent advances in training deep learning models have demonstrated the potential to provide accurate chest X-ray interpretation and increase access to radiology expertise. However, poor generalization due to data distribution shifts in clinical settings is a key barrier to implementation. In this study, we measured the diagnostic performance for 8 different chest X-ray models when applied to (1) smartphone photos of chest X-rays and (2) external datasets without any finetuning. All models were developed by different groups and submitted to the CheXpert challenge, and re-applied to test datasets without further tuning. We found that (1) on photos of chest X-rays, all 8 models experienced a statistically significant drop in task performance, but only 3 performed significantly worse than radiologists on average, and (2) on the external set, none of the models performed statistically significantly worse than radiologists, and five models performed statistically significantly better than radiologists. Our results demonstrate that some chest X-ray models, under clinically relevant distribution shifts, were comparable to radiologists while other models were not. Future work should investigate aspects of model training procedures and dataset collection that influence generalization in the presence of data distribution shifts.
翻訳日:2021-02-18 14:39:27 公開日:2021-02-17
# 自己トリガーマルコフ決定過程

Self-Triggered Markov Decision Processes ( http://arxiv.org/abs/2102.08571v1 )

ライセンス: Link先を確認
Yunhan Huang and Quanyan Zhu(参考訳) 本稿では、自己トリガー制御の概念をより汎用的なMDPモデルに拡張する自己トリガー戦略によるマルコフ決定プロセス(MDP)について検討する。 この拡張は、より広い範囲のシステムに自己引き起こすポリシーの適用を広げる。 制御政策とトリガー政策の協調設計問題について検討し、2つの事前定義されたコスト基準を最適化する。 最初のコスト基準は、通信リソースの使用を減らすために、所定の更新ペナルティを従来のmdpコスト基準に組み込むことによって導入された。 この基準の下で、最適化されたルックヘッドを持つDP方程式と呼ばれる新しい動的プログラミング(DP)方程式は、この基準の下で自己トリガ政策の解決を提案した。 第2のセルフトリガー政策は、事前定義されたサブ最適化レベルを保証しながらトリガー時間を最大化することである。 両方の政策の計算と実装のための理論的基盤が確立されている。 グリッドワールドの数値例を通して,資源消費削減における2つの政策の有効性を示し,資源消費とシステム性能のトレードオフを示す。

In this paper, we study Markov Decision Processes (MDPs) with self-triggered strategies, where the idea of self-triggered control is extended to more generic MDP models. This extension broadens the application of self-triggering policies to a broader range of systems. We study the co-design problems of the control policy and the triggering policy to optimize two pre-specified cost criteria. The first cost criterion is introduced by incorporating a pre-specified update penalty into the traditional MDP cost criteria to reduce the use of communication resources. Under this criteria, a novel dynamic programming (DP) equation called DP equation with optimized lookahead to proposed to solve for the self-triggering policy under this criteria. The second self-triggering policy is to maximize the triggering time while still guaranteeing a pre-specified level of sub-optimality. Theoretical underpinnings are established for the computation and implementation of both policies. Through a gridworld numerical example, we illustrate the two policies' effectiveness in reducing sources consumption and demonstrate the trade-offs between resource consumption and system performance.
翻訳日:2021-02-18 14:39:02 公開日:2021-02-17
# 第1ターゲットと第2極性:アスペクト・センチメント・トリプルト抽出のためのターゲット・オピニオン相関の強化

First Target and Opinion then Polarity: Enhancing Target-opinion Correlation for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2102.08549v1 )

ライセンス: Link先を確認
Lianzhe Huang, Peiyi Wang, Sujian Li, Tianyu Liu, Xiaodong Zhang, Zhicong Cheng, Dawei Yin, Houfeng Wang(参考訳) Aspect Sentiment Triplet Extraction(ASTE)は、ターゲットエンティティ、関連する感情極性、および極性を合理化する意見スパンを含む文からトリプレットを抽出することを目的としています。 既存の方法は、目標対の相関関係の構築に短く、異なる感情三重項間の相互干渉を無視する。 これらの課題に対処するため、我々は、ターゲットと意見の相関性を高める新しい2段階の手法を提案する:ステージ1では、シーケンスタギングによりターゲットと意見を抽出し、ターゲットと意見のスパンを示すPerceivable Pairという名前の人工タグ群をシーケンスに挿入し、各候補のターゲットと意見の相関性を確立する。 一方,トークンの注意場を制限することにより,トリプレット間の相互干渉を低減する。 最後に、極性は知覚可能なペアの表現に従って識別される。 4つのデータセットについて実験を行い,本モデルが最先端手法よりも優れていることを示す。

Aspect Sentiment Triplet Extraction (ASTE) aims to extract triplets from a sentence, including target entities, associated sentiment polarities, and opinion spans which rationalize the polarities. Existing methods are short on building correlation between target-opinion pairs, and neglect the mutual interference among different sentiment triplets. To address these issues, we propose a novel two-stage method which enhances the correlation between targets and opinions: at stage one, we extract targets and opinions through sequence tagging; then we insert a group of artificial tags named Perceivable Pair, which indicate the span of the target and the opinion, into the sequence to establish correlation for each candidate target-opinion pair. Meanwhile, we reduce the mutual interference between triplets by restricting tokens' attention field. Finally, the polarity is identified according to the representation of the Perceivable Pair. We conduct experiments on four datasets, and the experimental results show that our model outperforms the state-of-the-art methods.
翻訳日:2021-02-18 14:38:34 公開日:2021-02-17
# 英文の語彙複雑性予測

Predicting Lexical Complexity in English Texts ( http://arxiv.org/abs/2102.08773v1 )

ライセンス: Link先を確認
Matthew Shardlow, Richard Evans and Marcos Zampieri(参考訳) ほとんどのテキスト簡略化の最初のステップは、語彙置換を実行する前に、与えられたターゲット人口のためにどの単語が複雑と見なされるかを予測することです。 このタスクは一般に複雑単語識別(CWI)と呼ばれ、しばしば教師付き分類問題としてモデル化される。 このようなシステムのトレーニングには、複雑度について単語や時折多語表現がラベル付けされる注釈付きデータセットが必要となる。 本稿では,この課題における過去の研究を解析し,複雑な単語識別データセットの特性について検討する。

The first step in most text simplification is to predict which words are considered complex for a given target population before carrying out lexical substitution. This task is commonly referred to as Complex Word Identification (CWI) and it is often modelled as a supervised classification problem. For training such systems, annotated datasets in which words and sometimes multi-word expressions are labelled regarding complexity are required. In this paper we analyze previous work carried out in this task and investigate the properties of complex word identification datasets for English.
翻訳日:2021-02-18 14:38:14 公開日:2021-02-17
# 野生のメトリクスタグ:リズムの特徴を持つ詩のコーポラの構築と注釈付け

Metrical Tagging in the Wild: Building and Annotating Poetry Corpora with Rhythmic Features ( http://arxiv.org/abs/2102.08858v1 )

ライセンス: Link先を確認
Thomas Haider(参考訳) 文学の計算研究の前提条件は、適切にデジタル化されたテキストが利用可能であることであり、理想的には信頼できるメタデータと地上真理のアノテーションがある。 詩のコーポラはいくつかの言語で存在するが、より大きなコレクションは一貫性がなく、様々な標準で符号化されているが、注釈付きコーポラは通常特定のジャンルに制限され、または特定の言語的特徴(韻律など)の分析のために設計されている。 本研究では,英語とドイツ語の大規模な詩コーパスを提供し,より小さなコーパスに韻律的特徴を付加し,ロバストな大規模解析を可能にするコーパス駆動ニューラルモデルを訓練する。 音節埋め込みを用いた BiLSTM-CRF モデルは, CRF ベースラインと異なるBERT ベースアプローチよりも優れていることを示す。 マルチタスクのセットアップでは、特定の有益なタスク関係は詩的特徴の相互依存を示す。 モデルでは, 音節のストレス, 美的感情, 韻律的尺度が相互に有益であることを共同で予測すると, 足の境界がより良く学習される。

A prerequisite for the computational study of literature is the availability of properly digitized texts, ideally with reliable meta-data and ground-truth annotation. Poetry corpora do exist for a number of languages, but larger collections lack consistency and are encoded in various standards, while annotated corpora are typically constrained to a particular genre and/or were designed for the analysis of certain linguistic features (like rhyme). In this work, we provide large poetry corpora for English and German, and annotate prosodic features in smaller corpora to train corpus driven neural models that enable robust large scale analysis. We show that BiLSTM-CRF models with syllable embeddings outperform a CRF baseline and different BERT-based approaches. In a multi-task setup, particular beneficial task relations illustrate the inter-dependence of poetic features. A model learns foot boundaries better when jointly predicting syllable stress, aesthetic emotions and verse measures benefit from each other, and we find that caesuras are quite dependent on syntax and also integral to shaping the overall measure of the line.
翻訳日:2021-02-18 14:38:05 公開日:2021-02-17
# 一般的なヘイトスピーチ検出に向けて : 障害と解決策のレビュー

Towards generalisable hate speech detection: a review on obstacles and solutions ( http://arxiv.org/abs/2102.08886v1 )

ライセンス: Link先を確認
Wenjie Yin, Arkaitz Zubiaga(参考訳) ヘイトスピーチ(英語: Hate speech)とは、民族、宗教、性的指向などのアイデンティティの実際のまたは認識された側面に基づいて、グループや個人に対して憎悪を直接攻撃または促進する有害なオンラインコンテンツの一種である。 オンラインヘイトスピーチの増加に伴い、自然言語処理タスクとしての自動検出が注目を集めている。 しかし、最近になって、既存のモデルが見当たらないデータに対して不十分に一般化していることが判明した。 本稿では,既存のヘイトスピーチ検出モデルがいかに一般化可能か,ヘイトスピーチモデルが一般化に苦しむ理由を要約し,主な障害に対処するための既存の試みを要約するとともに,ヘイトスピーチ検出の一般化を改善するための今後の研究の方向性を提案する。

Hate speech is one type of harmful online content which directly attacks or promotes hate towards a group or an individual member based on their actual or perceived aspects of identity, such as ethnicity, religion, and sexual orientation. With online hate speech on the rise, its automatic detection as a natural language processing task is gaining increasing interest. However, it is only recently that it has been shown that existing models generalise poorly to unseen data. This survey paper attempts to summarise how generalisable existing hate speech detection models are, reason why hate speech models struggle to generalise, sums up existing attempts at addressing the main obstacles, and then proposes directions of future research to improve generalisation in hate speech detection.
翻訳日:2021-02-18 14:37:45 公開日:2021-02-17
# k-Robustマルチエージェントパス探索のための対称性破壊

Symmetry Breaking for k-Robust Multi-Agent Path Finding ( http://arxiv.org/abs/2102.08689v1 )

ライセンス: Link先を確認
Zhe Chen, Daniel Harabor, Jiaoyang Li, Peter J. Stuckey(参考訳) マルチエージェントパス探索(mapf)問題の間、エージェントは予期しないイベントによって遅延する可能性がある。 このような状況に対処するために、最近の研究ではk-robust conflict-basedsearch (k-cbs):最大k遅延に対して頑健な、協調的で衝突のない計画を生成するアルゴリズムである。 本研究では,k-ロバスト計画に特有な様々な対称性の破れ制約を導入し,矛盾するエージェントのペアに対して,効率よく相反する最適な経路を見つける。 新しい制約を徹底的に説明し、(i)古典的なMAPFベンチマーク、(ii)自動化倉庫ドメイン、(iii)k-robust計画をスケジュール列車にフルに適用できる最近導入された鉄道ドメインである2019 Flatland Challengeのマップなど、さまざまなドメインで成功率の大幅な改善を報告します。

During Multi-Agent Path Finding (MAPF) problems, agents can be delayed by unexpected events. To address such situations recent work describes k-Robust Conflict-BasedSearch (k-CBS): an algorithm that produces coordinated and collision-free plan that is robust for up to k delays. In this work we introducing a variety of pairwise symmetry breaking constraints, specific to k-robust planning, that can efficiently find compatible and optimal paths for pairs of conflicting agents. We give a thorough description of the new constraints and report large improvements to success rate ina range of domains including: (i) classic MAPF benchmarks;(ii) automated warehouse domains and; (iii) on maps from the 2019 Flatland Challenge, a recently introduced railway domain where k-robust planning can be fruitfully applied to schedule trains.
翻訳日:2021-02-18 14:37:29 公開日:2021-02-17
# SPAN:手書きパラグラフ認識のための単純な予測とアライグネットワーク

SPAN: a Simple Predict & Align Network for Handwritten Paragraph Recognition ( http://arxiv.org/abs/2102.08742v1 )

ライセンス: Link先を確認
Denis Coquenet, Cl\'ement Chatelain, Thierry Paquet(参考訳) 文書解析において,非拘束手書き認識は重要な課題である。 通常、2つのステップで行われます。 まず、文書はテキスト行に分割されます。 次に、これらの線画像に光学文字認識モデルを適用する。 本研究では,パラグラフレベルでOCRを実行する完全畳み込み畳み込みネットワークであるSimple Predict & Align Networkを提案する。 このフレームワークは、分離された行の認識に使用されるのと同じくらいシンプルで、3つの一般的なデータセット(RIMES、IAM、READ 2016)で競合する結果が得られる。 提案モデルではデータセットの適応は一切必要とせず,スクラッチからトレーニングすることが可能で,セグメンテーションラベルは必要とせず,書き起こしラベルの線分も必要としない。 私たちのコードとトレーニングされたモデルウェイトはhttps://github.com/F actoDeepLearning/SPA Nで入手できます。

Unconstrained handwriting recognition is an essential task in document analysis. It is usually carried out in two steps. First, the document is segmented into text lines. Second, an Optical Character Recognition model is applied on these line images. We propose the Simple Predict & Align Network: an end-to-end recurrence-free Fully Convolutional Network performing OCR at paragraph level without any prior segmentation stage. The framework is as simple as the one used for the recognition of isolated lines and we achieve competitive results on three popular datasets: RIMES, IAM and READ 2016. The proposed model does not require any dataset adaptation, it can be trained from scratch, without segmentation labels, and it does not require line breaks in the transcription labels. Our code and trained model weights are available at https://github.com/F actoDeepLearning/SPA N.
翻訳日:2021-02-18 14:37:12 公開日:2021-02-17
# 長尺物体検出のためのオブジェクト中心画像の簡便かつ効果的利用

A Simple and Effective Use of Object-Centric Images for Long-Tailed Object Detection ( http://arxiv.org/abs/2102.08884v1 )

ライセンス: Link先を確認
Cheng Zhang, Tai-Yu Pan, Yandong Li, Hexiang Hu, Dong Xuan, Soravit Changpinyo, Boqing Gong, Wei-Lun Chao(参考訳) 毎日のシーンのオブジェクト周波数は、ロングテールの分布に従う。 多くのオブジェクトは、シーン中心の画像(例えば、観光、ストリートビュー)に頻繁に現れないため、正確な物体検出器を訓練できます。 対照的に、これらのオブジェクトは対象中心の画像のより高い周波数でキャプチャされ、興味のあるオブジェクトを画像化することを目的としている。 本研究では,この現象に動機づけられた物体中心画像を利用して,シーン中心画像の物体検出を改善することを提案する。 私たちは、シンプルで驚くほど効果的なフレームワークを提示します。 一方,提案手法では,入力空間とラベル空間の両方において2つの画像源間の領域ギャップを緩和し,シーン中心画像における物体検出のための有用なトレーニング例とする。 一方,本手法では,シーン中心画像のアプリケーション領域に縛り付けられながら,オブジェクト中心画像から多様なオブジェクトの外観を学習するように,オブジェクト検出器を訓練するための多段階的な手順を採用している。 LVISデータセットでは、他のクラスのパフォーマンスを犠牲にすることなく、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)精度を比較的50%(および33%)改善することができる。

Object frequencies in daily scenes follow a long-tailed distribution. Many objects do not appear frequently enough in scene-centric images (e.g., sightseeing, street views) for us to train accurate object detectors. In contrast, these objects are captured at a higher frequency in object-centric images, which are intended to picture the objects of interest. Motivated by this phenomenon, we propose to take advantage of the object-centric images to improve object detection in scene-centric images. We present a simple yet surprisingly effective framework to do so. On the one hand, our approach turns an object-centric image into a useful training example for object detection in scene-centric images by mitigating the domain gap between the two image sources in both the input and label space. On the other hand, our approach employs a multi-stage procedure to train the object detector, such that the detector learns the diverse object appearances from object-centric images while being tied to the application domain of scene-centric images. On the LVIS dataset, our approach can improve the object detection (and instance segmentation) accuracy of rare objects by 50% (and 33%) relatively, without sacrificing the performance of other classes.
翻訳日:2021-02-18 14:36:59 公開日:2021-02-17
# 対話型パッセージ検索のためのクエリリゾリューションと可読化の活用

Leveraging Query Resolution and Reading Comprehension for Conversational Passage Retrieval ( http://arxiv.org/abs/2102.08795v1 )

ライセンス: Link先を確認
Svitlana Vakulenko, Nikos Voskarides, Zhucheng Tu, Shayne Longpre(参考訳) 本稿では,TREC CAsT 2020トラックでのUvA.ILPSグループ参加について述べる。 経路探索パイプラインは, (i) BM25を用いた初期検索モジュールと, (ii) BERTランキングモデルのスコアと, 経路探索のために調整された機械理解モデルのスコアとを組み合わせた再ランクモジュールから構成される。 会話の通路検索における重要な課題は、クエリーがしばしば不特定であることだ。 そこで我々は,項分類クエリ解決モデルであるquretecを用いて,会話履歴から現在のターンクエリに欠落したコンテキストを追加してクエリ解決を行う。 最適自動走行とマニュアル走行は、対応する中央値走行を大きなマージンで上回っていることを示す。

This paper describes the participation of UvA.ILPS group at the TREC CAsT 2020 track. Our passage retrieval pipeline consists of (i) an initial retrieval module that uses BM25, and (ii) a re-ranking module that combines the score of a BERT ranking model with the score of a machine comprehension model adjusted for passage retrieval. An important challenge in conversational passage retrieval is that queries are often under-specified. Thus, we perform query resolution, that is, add missing context from the conversation history to the current turn query using QuReTeC, a term classification query resolution model. We show that our best automatic and manual runs outperform the corresponding median runs by a large margin.
翻訳日:2021-02-18 14:36:38 公開日:2021-02-17
# Firefly Neural Architecture Descent: 成長するニューラルネットワークのための一般的なアプローチ

Firefly Neural Architecture Descent: a General Approach for Growing Neural Networks ( http://arxiv.org/abs/2102.08574v1 )

ライセンス: Link先を確認
Lemeng Wu, Bo Liu, Peter Stone, Qiang Liu(参考訳) 本研究では,ネットワークのパラメータとアーキテクチャを協調的に最適化するために,ニューラルネットワークを漸進的かつ動的に成長させる汎用フレームワークであるfirefly neural architecture descendを提案する。 提案手法は最も急な降下方式で動作し,様々な候補ネットワーク構造を含む元のネットワークの機能的近傍において,最適なネットワークを反復的に発見する。 テイラー近似を使用することで、近隣の最適なネットワーク構造を勾配選択手順で見つけることができます。 連続学習における壊滅的な忘れを回避し、より広く、より深いネットワークを柔軟に成長させ、正確かつ資源効率の高い神経アーキテクチャを学習するために適用できることを示した。 経験的に、ハエの降下はニューラルアーキテクチャ探索と連続学習の両方において有望な結果をもたらす。 特に、挑戦的な連続的な画像分類タスクでは、サイズが小さいが最先端の手法で学習したネットワークよりも平均精度が高いネットワークを学習する。

We propose firefly neural architecture descent, a general framework for progressively and dynamically growing neural networks to jointly optimize the networks' parameters and architectures. Our method works in a steepest descent fashion, which iteratively finds the best network within a functional neighborhood of the original network that includes a diverse set of candidate network structures. By using Taylor approximation, the optimal network structure in the neighborhood can be found with a greedy selection procedure. We show that firefly descent can flexibly grow networks both wider and deeper, and can be applied to learn accurate but resource-efficient neural architectures that avoid catastrophic forgetting in continual learning. Empirically, firefly descent achieves promising results on both neural architecture search and continual learning. In particular, on a challenging continual image classification task, it learns networks that are smaller in size but have higher average accuracy than those learned by the state-of-the-art methods.
翻訳日:2021-02-18 14:35:59 公開日:2021-02-17
# Switch Spaces: スパースゲーティングによるプロダクトスペースの学習

Switch Spaces: Learning Product Spaces with Sparse Gating ( http://arxiv.org/abs/2102.08688v1 )

ライセンス: Link先を確認
Shuai Zhang and Yi Tay and Wenqi Jiang and Da-cheng Juan and Ce Zhang(参考訳) 適切なジオメトリの埋め込みスペースの学習は、表現学習に不可欠です。 学習した表現を効果的かつ効率的にするためには、幾何学的帰納的バイアスがデータの基本構造とうまく一致することが理想的である。 本稿では,製品空間における表現を学習するためのデータ駆動アプローチであるswitch spacesを提案する。 具体的には、積空間(または多様体)は混合曲率の空間、すなわち複数のユークリッド多様体と非ユークリッド多様体の組み合わせである。 そのためには、スペースの選択、組み合わせ、切り替えを学習するスパースなゲーティングメカニズムを導入し、専門性のある入力データに応じて切り替えることが可能です。 さらに,提案手法は,モデルのサイズに関わらず,効率が高く,計算量も一定である。 知識グラフの補完と項目レコメンデーションの実験から,提案したスイッチ空間は,新しい最先端のパフォーマンスを実現し,純積空間を上回り,最近提案されたタスク固有モデルを実現している。

Learning embedding spaces of suitable geometry is critical for representation learning. In order for learned representations to be effective and efficient, it is ideal that the geometric inductive bias aligns well with the underlying structure of the data. In this paper, we propose Switch Spaces, a data-driven approach for learning representations in product space. Specifically, product spaces (or manifolds) are spaces of mixed curvature, i.e., a combination of multiple euclidean and non-euclidean (hyperbolic, spherical) manifolds. To this end, we introduce sparse gating mechanisms that learn to choose, combine and switch spaces, allowing them to be switchable depending on the input data with specialization. Additionally, the proposed method is also efficient and has a constant computational complexity regardless of the model size. Experiments on knowledge graph completion and item recommendations show that the proposed switch space achieves new state-of-the-art performances, outperforming pure product spaces and recently proposed task-specific models.
翻訳日:2021-02-18 14:35:43 公開日:2021-02-17
# Aware Sigmoidal Optimizerのトレーニング

Training Aware Sigmoidal Optimizer ( http://arxiv.org/abs/2102.08716v1 )

ライセンス: Link先を確認
David Mac\^edo, Pedro Dreyer, Teresa Ludermir, Cleber Zanchettin(参考訳) 深層ニューラルネットワークの適切な最適化は、トレーニングを通して学習率を変更するための最適な手順がまだ不明であるため、オープンリサーチの問題である。 学習率のスケジュールを手動で定義するには、学習率の崩壊や学習率の崩壊率などのハイパーパラメータを決定するために手間のかかる試行錯誤手順が必要です。 適応学習率オプティマイザはこのプロセスを自動化するが,近年の研究では,微調整学習率スケジュールと比較して過度な改善と性能低下が示唆されている。 深層ニューラルネットワークの損失関数は局所的な最小値よりもはるかにサドルポイントのランドスケープを呈するので,2段階の自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Optimizer)を提案する。 第1段階は高学習率を使用して多数のサドルポイントを高速に横断し、第2段階は低学習率を使用して以前に見つかった局所最小点の中心にゆっくりと近づきます。 提案手法をAdam、RMSProp、Adagradなどの一般的な適応学習率スケジュールと比較した。 我々の実験では、TASOは最適(ハイパーパラメータ検証の実行)と最適(デフォルトハイパーパラメータを使用する)の両方のシナリオですべての競合する手法を上回った。

Proper optimization of deep neural networks is an open research question since an optimal procedure to change the learning rate throughout training is still unknown. Manually defining a learning rate schedule involves troublesome time-consuming try and error procedures to determine hyperparameters such as learning rate decay epochs and learning rate decay rates. Although adaptive learning rate optimizers automatize this process, recent studies suggest they may produce overffiting and reduce performance when compared to fine-tuned learning rate schedules. Considering that deep neural networks loss functions present landscapes with much more saddle points than local minima, we proposed the Training Aware Sigmoidal Optimizer (TASO), which consists of a two-phases automated learning rate schedule. The first phase uses a high learning rate to fast traverse the numerous saddle point, while the second phase uses low learning rate to slowly approach the center of the local minimum previously found. We compared the proposed approach with commonly used adaptive learning rate schedules such as Adam, RMSProp, and Adagrad. Our experiments showed that TASO outperformed all competing methods in both optimal (i.e., performing hyperparameter validation) and suboptimal (i.e., using default hyperparameters) scenarios.
翻訳日:2021-02-18 14:35:26 公開日:2021-02-17
# 離散時間切替システムモデルによる非同期Q-Learningの有限時間解析

Finite-Time Analysis of Asynchronous Q-Learning with Discrete-Time Switching System Models ( http://arxiv.org/abs/2102.08583v1 )

ライセンス: Link先を確認
Donghwan Lee(参考訳) 本稿では、離散時間切替システムの観点からQ-ラーニングアルゴリズムの収束を解析するための新しいフレームワークを開発する。 一定のステップサイズを持つ非同期q-learningを,離散時間確率的スイッチング線形系として自然に定式化できることを実証する。 主に制御理論フレームワークに基づくQ-ラーニングに関する新規かつ直感的な洞察を提供する。 例えば,本解析では,最大化バイアスによるq-learningの過推定現象を説明する。 制御系理論的な議論とq-learningの優れた構造に基づき、新しい誤りバウンドを用いて、q-learningの新しい有限時間解析を行う。

This paper develops a novel framework to analyze the convergence of Q-learning algorithm from a discrete-time switching system perspective. We prove that asynchronous Q-learning with a constant step-size can be naturally formulated as discrete-time stochastic switched linear systems. It offers novel and intuitive insights on Q-learning mainly based on control theoretic frameworks. For instance, the proposed analysis explains the overestimation phenomenon in Q-learning due to the maximization bias. Based on the control system theoretic argument and some nice structures of Q-learning, a new finite-time analysis of the Q-learning is given with a novel error bound.
翻訳日:2021-02-18 14:34:47 公開日:2021-02-17
# 新型コロナウイルスの緊急救急車派遣からの知見発見:名古屋市を事例として

Knowledge discovery from emergency ambulance dispatch during COVID-19: A case study of Nagoya City, Japan ( http://arxiv.org/abs/2102.08628v1 )

ライセンス: Link先を確認
Essam A. Rashed, Sachiko Kodera, Hidenobu Shirakami, Ryotetsu Kawaguchi, Kazuhiro Watanabe, Akimasa Hirata(参考訳) 医療サービス要件の正確な予測は、自然災害やパンデミックといった重要な時期における資源管理にとって重要なビッグデータ問題である。 新型コロナウイルス(COVID-19)の世界的な普及に伴い、医療システムの医療提供者の日常的な突然の変化に対処する能力に関して、いくつかの懸念が高まっています。 一つの大きな問題は、パンデミック時の救急車の派遣と制御の管理である。 本研究は,2014年4月から2020年8月にかけて,名古屋市における救急搬送データの記録を分析した。 全国的に宣言された緊急事態(SoE)を含む、パンデミック中のデータで重要な変化が観察されました。 そこで本研究では,SoEにおける緊急救急搬送回数(EAD)を推定するために,繰り返しニューラルネットワークに基づくディープラーニングフレームワークを提案する。 データの融合は、環境要因、携帯電話ユーザーのローカリゼーションデータ、およびEADの過去の歴史を含むため、知識の発見とより良いリソース管理のための一般的なフレームワークを提供します。 その結果, パンデミックなどの不確実性が高い時期におけるEAD要件の現実世界推定において, トレーニングデータのブレンドを効率的に利用できることが示唆された。

Accurate forecasting of medical service requirements is an important big data problem that is crucial for resource management in critical times such as natural disasters and pandemics. With the global spread of coronavirus disease 2019 (COVID-19), several concerns have been raised regarding the ability of medical systems to handle sudden changes in the daily routines of healthcare providers. One significant problem is the management of ambulance dispatch and control during a pandemic. To help address this problem, we first analyze ambulance dispatch data records from April 2014 to August 2020 for Nagoya City, Japan. Significant changes were observed in the data during the pandemic, including the state of emergency (SoE) declared across Japan. In this study, we propose a deep learning framework based on recurrent neural networks to estimate the number of emergency ambulance dispatches (EADs) during a SoE. The fusion of data includes environmental factors, the localization data of mobile phone users, and the past history of EADs, thereby providing a general framework for knowledge discovery and better resource management. The results indicate that the proposed blend of training data can be used efficiently in a real-world estimation of EAD requirements during periods of high uncertainties such as pandemics.
翻訳日:2021-02-18 14:34:37 公開日:2021-02-17
# 注文データによる市場深層学習

Deep Learning for Market by Order Data ( http://arxiv.org/abs/2102.08811v1 )

ライセンス: Link先を確認
Zihao Zhang, Bryan Lim and Stefan Zohren(参考訳) マーケット・バイ・オーダー(MBO)データ - ある取引所の株式の個々の取引指示の詳細フィード - は、おそらく最も粒度の細かいミクロ構造情報ソースの1つである。 リミットオーダーブック(LOB)は暗黙的にそれに由来するが、MBOデータは主にLOBモデリングに焦点を当てた現在の学術文献によって無視される。 本稿では,LOBスナップショットに直交する情報源を提供し,高周波価格変動予測のためのMBOデータの有用性を実証する。 本稿では,MBOデータに対する第1次予測分析について,データ構造を慎重に導入し,オーダーブックのレベル情報を考慮した特定正規化スキームを提示し,複数の機器によるモデルトレーニングを可能にする。 深層ニューラルネットワークを用いた予測実験により、MBO駆動モデルとLOB駆動モデルがそれぞれ同様の性能を提供する一方で、両者のアンサンブルは予測精度の改善につながることが示される。

Market by order (MBO) data - a detailed feed of individual trade instructions for a given stock on an exchange - is arguably one of the most granular sources of microstructure information. While limit order books (LOBs) are implicitly derived from it, MBO data is largely neglected by current academic literature which focuses primarily on LOB modelling. In this paper, we demonstrate the utility of MBO data for forecasting high-frequency price movements, providing an orthogonal source of information to LOB snapshots. We provide the first predictive analysis on MBO data by carefully introducing the data structure and presenting a specific normalisation scheme to consider level information in order books and to allow model training with multiple instruments. Through forecasting experiments using deep neural networks, we show that while MBO-driven and LOB-driven models individually provide similar performance, ensembles of the two can lead to improvements in forecasting accuracy -- indicating that MBO data is additive to LOB-based features.
翻訳日:2021-02-18 14:34:20 公開日:2021-02-17
# 人間認知に対する非ヒト系の認知評価のための客観的実験プロトコル

An Objective Laboratory Protocol for Evaluating Cognition of Non-Human Systems Against Human Cognition ( http://arxiv.org/abs/2102.08933v1 )

ライセンス: Link先を確認
David J. Jilk(参考訳) 本稿では,実験室環境における人間の認知に対する非人間システムの認知能力を評価するための客観的プロトコルについて述べる。 これは、人間に匹敵する認知能力を持つ非人間システムの存在は、安全と倫理の一度哲学的な質問を迅速かつ緊急にする可能性があるため、重要です。 チューリングテストなど多くの評価手法を考案しようとする過去の試みは、このニーズを満たしておらず、そのほとんどは人間の認知の単一側面や知性理論を強調したり、一般性や新奇性のために人間の能力の獲得に失敗したり、物理的世界での成功を必要としたりしている。 このプロトコルは広くベイジアンであり、その一次出力は請求に関する信頼性統計である。 さらに、特定のシステムが人間の認知に及ばない地域や範囲についての洞察を提供し、さらなる進歩や予防に役立てることができる。

In this paper I describe and reduce to practice an objective protocol for evaluating the cognitive capabilities of a non-human system against human cognition in a laboratory environment. This is important because the existence of a non-human system with cognitive capabilities comparable to those of humans might make once-philosophical questions of safety and ethics immediate and urgent. Past attempts to devise evaluation methods, such as the Turing Test and many others, have not met this need; most of them either emphasize a single aspect of human cognition or a single theory of intelligence, fail to capture the human capacity for generality and novelty, or require success in the physical world. The protocol is broadly Bayesian, in that its primary output is a confidence statistic in relation to a claim. Further, it provides insight into the areas where and to what extent a particular system falls short of human cognition, which can help to drive further progress or precautions.
翻訳日:2021-02-18 14:34:04 公開日:2021-02-17
# ATCSpeechNet:航空交通制御システムのための多言語エンドツーエンド音声認識フレームワーク

ATCSpeechNet: A multilingual end-to-end speech recognition framework for air traffic control systems ( http://arxiv.org/abs/2102.08535v1 )

ライセンス: Link先を確認
Yi Lin, Bo Yang, Linchao Li, Dongyue Guo, Jianwei Zhang, Hu Chen, Yi Zhang(参考訳) 本論文では,ATC(Air Traffic Control)システムにおけるコミュニケーション音声の人間可読テキストへの変換問題に取り組むために,ATCSpeechNet(ATCSpe echNet)と呼ばれる多言語のエンドツーエンドフレームワークを提案する。 提案するフレームワークでは,音声波形を直接テキストに変換するエンドツーエンドのパラダイムを開発して,特徴工学や辞書を使わずにマルチリンガル自動音声認識(ASR)を1つのモデルに統合することに注力する。 ATCの課題に起因する手作業による特徴工学の不足を補うために、生の波から堅牢で差別的な音声表現をキャプチャするために、音声表現学習(SRL)ネットワークが提案される。 自己監視型トレーニング戦略を採用し、ラベルのないデータからSRLネットワークを最適化し、さらに音声機能、すなわち波対機能を予測する。 エンドツーエンドアーキテクチャを改善してASRタスクを完了し、多言語ASR問題に対処するために、Graphemeベースのモデリングユニットを適用する。 ATC領域の小さな転写サンプルの問題に直面し、マスク予測を用いた教師なしアプローチを適用して、特徴-特徴過程によるラベルなしデータ上で、ASRモデルのバックボーンネットワークを事前訓練する。 最後に、SRLとASRを統合することによって、エンドツーエンドの多言語ASRフレームワークが監督された方法で策定され、生の波を1つのモデル、すなわち波対テキストのテキストに変換することができる。 ATCSpeechコーパスの実験結果から,提案手法は,58時間転写コーパスのラベル誤り率の4.20%に留まらず,非常に少ないラベル付きコーパスで高い性能を実現していることが示された。 提案手法は, ベースラインモデルと比較して, 100%以上の相対的性能向上を実現し, 転写サンプルのサイズ拡大によりさらに向上させることができる。

In this paper, a multilingual end-to-end framework, called as ATCSpeechNet, is proposed to tackle the issue of translating communication speech into human-readable text in air traffic control (ATC) systems. In the proposed framework, we focus on integrating the multilingual automatic speech recognition (ASR) into one model, in which an end-to-end paradigm is developed to convert speech waveform into text directly, without any feature engineering or lexicon. In order to make up for the deficiency of the handcrafted feature engineering caused by ATC challenges, a speech representation learning (SRL) network is proposed to capture robust and discriminative speech representations from the raw wave. The self-supervised training strategy is adopted to optimize the SRL network from unlabeled data, and further to predict the speech features, i.e., wave-to-feature. An end-to-end architecture is improved to complete the ASR task, in which a grapheme-based modeling unit is applied to address the multilingual ASR issue. Facing the problem of small transcribed samples in the ATC domain, an unsupervised approach with mask prediction is applied to pre-train the backbone network of the ASR model on unlabeled data by a feature-to-feature process. Finally, by integrating the SRL with ASR, an end-to-end multilingual ASR framework is formulated in a supervised manner, which is able to translate the raw wave into text in one model, i.e., wave-to-text. Experimental results on the ATCSpeech corpus demonstrate that the proposed approach achieves a high performance with a very small labeled corpus and less resource consumption, only 4.20% label error rate on the 58-hour transcribed corpus. Compared to the baseline model, the proposed approach obtains over 100% relative performance improvement which can be further enhanced with the increasing of the size of the transcribed samples.
翻訳日:2021-02-18 14:33:47 公開日:2021-02-17
# 高次元ロジスティック回帰のための分割モデル

Split Modeling for High-Dimensional Logistic Regression ( http://arxiv.org/abs/2102.08591v1 )

ライセンス: Link先を確認
Anthony-Alexander Christidis, Stefan Van Aelst, Ruben Zamar(参考訳) 高次元二項分類の文脈において,ロジスティック分類モデルのアンサンブルを学習するための新しい手法を提案する。 アンサンブルのモデルは、マルチ凸目的関数を最適化することにより同時に構築される。 モデル間の多様性を強制するために、目的関数はアンサンブル内のモデル間の重複を罰する。 本研究では,個々のモデルのバイアスとばらつきと相関性について検討し,アンサンブルモデルの精度と多様性のトレードオフを利用してアンサンブルを学習する方法について議論する。 他のセンシングアプローチとは対照的に、結果として得られるアンサンブルモデルはロジスティック回帰モデルとして完全に解釈可能であると同時に、広範なシミュレーション研究や遺伝子発現データ応用で示されるような優れた予測精度をもたらす。 提案手法を実装したオープンソースコンパイルソフトウェアライブラリについて概説する。

A novel method is proposed to learn an ensemble of logistic classification models in the context of high-dimensional binary classification. The models in the ensemble are built simultaneously by optimizing a multi-convex objective function. To enforce diversity between the models the objective function penalizes overlap between the models in the ensemble. We study the bias and variance of the individual models as well as their correlation and discuss how our method learns the ensemble by exploiting the accuracy-diversity trade-off for ensemble models. In contrast to other ensembling approaches, the resulting ensemble model is fully interpretable as a logistic regression model and at the same time yields excellent prediction accuracy as demonstrated in an extensive simulation study and gene expression data applications. An open-source compiled software library implementing the proposed method is briefly discussed.
翻訳日:2021-02-18 14:33:14 公開日:2021-02-17
# オープンソース環境における要件の実用性に基づく優先順位付けに向けて

Towards Utility-based Prioritization of Requirements in Open Source Environments ( http://arxiv.org/abs/2102.08638v1 )

ライセンス: Link先を確認
Alexander Felfernig and Martin Stettinger and M\"usl\"um Atas and Ralph Samer and Jennifer Nerlich and Simon Scholz and Juha Tiihonen and Mikko Raatikainen(参考訳) eclipseのようなオープンソースプロジェクトにおける要件エンジニアリングは、個々のコントリビュータに対する要件を多かれ少なかれ控えめな方法で優先順位付けしなければならないという課題に直面している。 従来の産業ソフトウェア開発プロジェクトとは対照的に、オープンソースプラットフォームのコントリビュータは、次に実装する要件を自分で決定できる。 この文脈では、優先順位付けの主な役割は、次に実装されるべき最も関連性があり、興味深い要件を見つけ出すコントリビュータを支援することで、時間のかかる、非効率な検索プロセスを回避することです。 本稿では,従来のコントリビュータやオープンソースのRequireements Engineeringシナリオにおいて,ユーティリティベースの優先順位付けアプローチをどのように活用できるかを示す。 オープンソース環境の例として、Bugzillaを使用します。 このコンテキストでは、ユーティリティベースの優先順位付けプロセスにおける依存性の考慮方法も示します。

Requirements Engineering in open source projects such as Eclipse faces the challenge of having to prioritize requirements for individual contributors in a more or less unobtrusive fashion. In contrast to conventional industrial software development projects, contributors in open source platforms can decide on their own which requirements to implement next. In this context, the main role of prioritization is to support contributors in figuring out the most relevant and interesting requirements to be implemented next and thus avoid time-consuming and inefficient search processes. In this paper, we show how utility-based prioritization approaches can be used to support contributors in conventional as well as in open source Requirements Engineering scenarios. As an example of an open source environment, we use Bugzilla. In this context, we also show how dependencies can be taken into account in utility-based prioritization processes.
翻訳日:2021-02-18 14:33:00 公開日:2021-02-17
# 商用無人航空機を用いた能動面前面化

Active Face Frontalization using Commodity Unmanned Aerial Vehicles ( http://arxiv.org/abs/2102.08542v1 )

ライセンス: Link先を確認
Nagashri Lakshminarayana, Yifang Liu, Karthik Dantu, Venu Govindaraju, Nils Napp(参考訳) 本稿では,無人航空機(uavs)が生体認証タスクに使用できる高品質の顔画像の収集を行うシステムについて述べる。 顔ベースの識別の成功は画質に大きく依存し、主な要因は正面の見方がどのようになっているかです。 顔認識ソフトウェアパイプラインは、プロセスコール {\em Frontalization} によって、正面視から正面視を合成することにより、識別率を向上させることができる。 ここでは,uavの高機動性を利用して,合成フロントカライズパイプラインのコンポーネントを用いて,前面画像の積極的な収集を行う。 フロントライゼーションエラーを定義し、UAVを導くためにフロントライゼーションビューをキャプチャするために使用できることを示します。 さらに、得られた画像ストリームにより、典型的な顔認識類似度指標のマッチング品質が向上することを示す。 このシステムは市販のハードウェアとソフトウェアコンポーネントを使って実装されており、どのROS対応UAVにも容易に転送できる。

This paper describes a system by which Unmanned Aerial Vehicles (UAVs) can gather high-quality face images that can be used in biometric identification tasks. Success in face-based identification depends in large part on the image quality, and a major factor is how frontal the view is. Face recognition software pipelines can improve identification rates by synthesizing frontal views from non-frontal views by a process call {\em frontalization}. Here we exploit the high mobility of UAVs to actively gather frontal images using components of a synthetic frontalization pipeline. We define a frontalization error and show that it can be used to guide an UAVs to capture frontal views. Further, we show that the resulting image stream improves matching quality of a typical face recognition similarity metric. The system is implemented using an off-the-shelf hardware and software components and can be easily transfered to any ROS enabled UAVs.
翻訳日:2021-02-18 14:31:31 公開日:2021-02-17
# 深部クロスモーティ(MR-CT)を用いたコーンビームCT肺腫瘍分割のための蒸留学習

Deep cross-modality (MR-CT) educed distillation learning for cone beam CT lung tumor segmentation ( http://arxiv.org/abs/2102.08556v1 )

ライセンス: Link先を確認
Jue Jiang, Sadegh Riyahi Alam, Ishita Chen, Perry Zhang, Andreas Rimner, Joseph O. Deasy, Harini Veeraraghavan(参考訳) In-treatment room cone beam Computeed tomography (CBCT) が広く普及しているにもかかわらず, 信頼性の高いセグメンテーション法が欠如しているため, CBCTは肺放射線治療における総括的修正にのみ用いられている。 正確で信頼性の高い自動分割ツールは、体積応答評価とジオメトリ誘導適応放射線療法を高めることができます。 そこで我々は,新しい深層学習CBCT肺腫瘍セグメンテーション法を開発した。 方法:CMEDLと呼ばれる私たちのアプローチの重要なアイデアは、磁気共鳴イメージング(MRI)を使用してCBCTセグメンテーションネットワークトレーニングをガイドし、トレーニング中により有益な特徴を抽出することです。 我々は,unpaired cbct と mri データセットを用いて,unpaired domain adaptation (uda) とcross-domain segmentation distillation network (sdn) からなるエンドツーエンドネットワークを訓練することでこれを実現する。 特徴蒸留は学生ネットワークを正規化し、教師ネットワークで抽出されたmriの特徴の統計的分布にマッチするcbct特徴を抽出し、背景から腫瘍のより良い分化を得る。」 また, 合成擬似MRI表現に基づいて, UDA と MR セグメンテーションネットワークを用いた別のフレームワークとの比較を行った。 全てのネットワークは毎週216個のCBCTと82個のT2重み付きターボスピンエコーMRIで訓練された。 訓練に使用されていない患者から毎週20回のCBCTで検証を行った。 トレーニングや検証に使用されていない患者から38週間のCBCTで独立したテストが行われました。 セグメンテーション精度はsdsc(surface dice similarity coefficient)とhausdroff distance at 95th percentile (hd95)で測定した。

Despite the widespread availability of in-treatment room cone beam computed tomography (CBCT) imaging, due to the lack of reliable segmentation methods, CBCT is only used for gross set up corrections in lung radiotherapies. Accurate and reliable auto-segmentation tools could potentiate volumetric response assessment and geometry-guided adaptive radiation therapies. Therefore, we developed a new deep learning CBCT lung tumor segmentation method. Methods: The key idea of our approach called cross modality educed distillation (CMEDL) is to use magnetic resonance imaging (MRI) to guide a CBCT segmentation network training to extract more informative features during training. We accomplish this by training an end-to-end network comprised of unpaired domain adaptation (UDA) and cross-domain segmentation distillation networks (SDN) using unpaired CBCT and MRI datasets. Feature distillation regularizes the student network to extract CBCT features that match the statistical distribution of MRI features extracted by the teacher network and obtain better differentiation of tumor from background.} We also compared against an alternative framework that used UDA with MR segmentation network, whereby segmentation was done on the synthesized pseudo MRI representation. All networks were trained with 216 weekly CBCTs and 82 T2-weighted turbo spin echo MRI acquired from different patient cohorts. Validation was done on 20 weekly CBCTs from patients not used in training. Independent testing was done on 38 weekly CBCTs from patients not used in training or validation. Segmentation accuracy was measured using surface Dice similarity coefficient (SDSC) and Hausdroff distance at 95th percentile (HD95) metrics.
翻訳日:2021-02-18 14:31:15 公開日:2021-02-17
# 平行輸送と形状スプラインを用いた心臓運動モデリング

Cardiac Motion Modeling with Parallel Transport and Shape Splines ( http://arxiv.org/abs/2102.08665v1 )

ライセンス: Link先を確認
Nicolas Guigui (UCA, EPIONE), Pamela Moceri (URRIS UR2CA), Maxime Sermesant (UCA, EPIONE), Xavier Pennec (UCA, EPIONE)(参考訳) 圧力や体積過負荷の場合, 形状と変形の相互作用により心機能の予測が困難になる可能性があるが, 本研究では, LDDMMフレームワークと並列輸送を用いて右心室の変形を推定する。 次に、変形の振幅の正規化手順と、完全な心臓収縮を表す第2次スプラインモデルを提案する。 314例の心エコー図から抽出した右心室の3Dメッシュを3つの疾患カテゴリと制御群に分けて適用する。 モデルパラメーターの病理に有意な差異が認められ,各疾患のダイナミックスに関する知見が明らかになった。

In cases of pressure or volume overload, probing cardiac function may be difficult because of the interactions between shape and deformations.In this work, we use the LDDMM framework and parallel transport to estimate and reorient deformations of the right ventricle. We then propose a normalization procedure for the amplitude of the deformation, and a second-order spline model to represent the full cardiac contraction. The method is applied to 3D meshes of the right ventricle extracted from echocardiographic sequences of 314 patients divided into three disease categories and a control group. We find significant differences between pathologies in the model parameters, revealing insights into the dynamics of each disease.
翻訳日:2021-02-18 14:30:45 公開日:2021-02-17
# ShaRF:一視点からの形状条件の放射場

ShaRF: Shape-conditioned Radiance Fields from a Single View ( http://arxiv.org/abs/2102.08860v1 )

ライセンス: Link先を確認
Konstantinos Rematas, Ricardo Martin-Brualla, Vittorio Ferrari(参考訳) 本稿では,単一の画像のみのオブジェクトの神経シーン表現を推定する手法を提案する。 本手法の核となるのは,物体の幾何学的足場の推定と,基礎となる放射場再構築のためのガイドとしての利用である。 我々の定式化は、まず潜在コードをボクセル化された形状にマッピングし、次に画像にレンダリングし、オブジェクトの外観を第2の潜在コードで制御する生成プロセスに基づいている。 推論中は、潜在コードとネットワークの両方を最適化して、新しいオブジェクトのテストイメージに適合させる。 形状と外観の明示的な乱れにより、1つの画像からモデルを微調整することができる。 次に、幾何学的に一貫した方法で新しいビューをレンダリングし、入力オブジェクトを忠実に表現します。 さらに,本手法はトレーニング領域外の画像(よりリアルなレンダリングやリアルな写真)に一般化することができる。 最後に、推論された幾何学的足場は、それ自体が物体の3D形状の正確な推定である。 合成画像と実画像の両方において,提案手法の有効性を示す実験を行った。

We present a method for estimating neural scenes representations of objects given only a single image. The core of our method is the estimation of a geometric scaffold for the object and its use as a guide for the reconstruction of the underlying radiance field. Our formulation is based on a generative process that first maps a latent code to a voxelized shape, and then renders it to an image, with the object appearance being controlled by a second latent code. During inference, we optimize both the latent codes and the networks to fit a test image of a new object. The explicit disentanglement of shape and appearance allows our model to be fine-tuned given a single image. We can then render new views in a geometrically consistent manner and they represent faithfully the input object. Additionally, our method is able to generalize to images outside of the training domain (more realistic renderings and even real photographs). Finally, the inferred geometric scaffold is itself an accurate estimate of the object's 3D shape. We demonstrate in several experiments the effectiveness of our approach in both synthetic and real images.
翻訳日:2021-02-18 14:30:32 公開日:2021-02-17
# 二者分割学習におけるラベル漏洩と保護

Label Leakage and Protection in Two-party Split Learning ( http://arxiv.org/abs/2102.08504v1 )

ライセンス: Link先を確認
Oscar Li and Jiankai Sun and Xin Yang and Weihao Gao and Hongyi Zhang and Junyuan Xie and Virginia Smith and Chong Wang(参考訳) 垂直連合学習では、二者分割学習が重要なトピックとなり、実際のビジネスシナリオで多くのアプリケーションを見つけました。 しかし、参加者の接地ラベルの漏れを防ぐ方法はよく研究されていない。 本稿では,オンラインビジネスアプリケーションにおける共通事例である,不均衡なバイナリ分類設定において,この質問に答えることを検討する。 まず,当事者間のコミュニケーション勾配のノルムを用いた単純な手法であるノームアタックが,参加者の接地ラベルをほとんど明らかにできることを示す。 次に,この問題を軽減するための保護手法について検討する。 そこで我々は,ラベル検出の最悪のエラーを直接最大化する原理的手法を考案した。 これは、通常の攻撃などに対してより効果的であることが証明されている。 提案手法の競合性は,他の複数のベースラインと比較して実験的に検証した。

In vertical federated learning, two-party split learning has become an important topic and has found many applications in real business scenarios. However, how to prevent the participants' ground-truth labels from possible leakage is not well studied. In this paper, we consider answering this question in an imbalanced binary classification setting, a common case in online business applications. We first show that, norm attack, a simple method that uses the norm of the communicated gradients between the parties, can largely reveal the ground-truth labels from the participants. We then discuss several protection techniques to mitigate this issue. Among them, we have designed a principled approach that directly maximizes the worst-case error of label detection. This is proved to be more effective in countering norm attack and beyond. We experimentally demonstrate the competitiveness of our proposed method compared to several other baselines.
翻訳日:2021-02-18 14:29:03 公開日:2021-02-17
# DeepWalkingの後方:埋め込みからグラフへ

DeepWalking Backwards: From Embeddings Back to Graphs ( http://arxiv.org/abs/2102.08532v1 )

ライセンス: Link先を確認
Sudhanshu Chanpuriya, Cameron Musco, Konstantinos Sotiropoulos, and Charalampos E. Tsourakakis(参考訳) 低次元ノード埋め込みはグラフデータセットの解析において重要な役割を果たす。 しかし、一般的な埋め込み手法でエンコードされている情報と、この情報が下流の機械学習タスクのパフォーマンスとどのように相関しているかを正確に研究する研究はほとんどない。 我々は、埋め込みを生成するのに使用されるグラフを(ほぼ)復元できるかどうかを調べることで、この問題に取り組む。 一般的なDeepWalk法(Perozzi et al., 2014; Qiu et al., 2018)の変種に焦点を当てて、正確な埋め込みインバージョンのためのアルゴリズム - すなわち、グラフGの低次元埋め込みから、非常に類似した埋め込みを持つグラフHを見つけることができます。 私たちは現実世界のネットワーク上で数多くの実験を行い、特定のエッジや三角形密度のようなバルク特性などのGに関する重要な情報がしばしばHで失われることを観察しています。 私たちの発見は、入力グラフにエンコードされる情報と、その情報がなぜ学習タスクに役立つのかを、より厳密に理解するための一歩です。

Low-dimensional node embeddings play a key role in analyzing graph datasets. However, little work studies exactly what information is encoded by popular embedding methods, and how this information correlates with performance in downstream machine learning tasks. We tackle this question by studying whether embeddings can be inverted to (approximately) recover the graph used to generate them. Focusing on a variant of the popular DeepWalk method (Perozzi et al., 2014; Qiu et al., 2018), we present algorithms for accurate embedding inversion - i.e., from the low-dimensional embedding of a graph G, we can find a graph H with a very similar embedding. We perform numerous experiments on real-world networks, observing that significant information about G, such as specific edges and bulk properties like triangle density, is often lost in H. However, community structure is often preserved or even enhanced. Our findings are a step towards a more rigorous understanding of exactly what information embeddings encode about the input graph, and why this information is useful for learning tasks.
翻訳日:2021-02-18 14:28:49 公開日:2021-02-17
# DO-GAN: ジェネレーティブ・アドバイザリ・ネットワークのための2つのOracleフレームワーク

DO-GAN: A Double Oracle Framework for Generative Adversarial Networks ( http://arxiv.org/abs/2102.08577v1 )

ライセンス: Link先を確認
Aye Phyu Phyu Aung, Xinrun Wang, Runsheng Yu, Bo An, Senthilnath Jayavelu, Xiaoli Li(参考訳) 本稿では,ジェネレータとディスクリミネータのオーラクルを用いて,2つのオーラクル・フレームワークをデプロイするGAN(Generative Adversarial Networks)の学習手法を提案する。 GANは基本的に発電機と判別器の間の2プレイヤーのゼロサムゲームです。 訓練gansは純粋ナッシュ平衡が存在しない可能性があり、gansが大規模戦略空間を持つため混合ナッシュ平衡を見つけることは困難である。 DO-GANでは、ダブルオラクルフレームワークをGANに拡張します。 まず, プレイヤーの戦略を, 最適応答オラクルからのジェネレータと判別器の訓練モデルとして一般化する。 次に,線形プログラムを用いてメタストラテジーを計算する。 複数生成器と識別器のベストレスポンスをメモリに格納するフレームワークの拡張性について,1) 弱支配者戦略の破砕,2) 連続学習によるネットワークに関する過去の知識の保持,の2つのソリューションを提案する。 我々は、バニラGAN、ディープ・コンボリューショナルGAN、スペクトル正規化GAN、スタックドGANなどの確立されたGANアーキテクチャに適用する。 最後に, MNIST, CIFAR-10, CelebAデータセットを用いて実験を行い, DO-GAN変異体は各GANアーキテクチャと比較して, 主観的質的評価と定量化の両面で有意な改善を示した。

In this paper, we propose a new approach to train Generative Adversarial Networks (GANs) where we deploy a double-oracle framework using the generator and discriminator oracles. GAN is essentially a two-player zero-sum game between the generator and the discriminator. Training GANs is challenging as a pure Nash equilibrium may not exist and even finding the mixed Nash equilibrium is difficult as GANs have a large-scale strategy space. In DO-GAN, we extend the double oracle framework to GANs. We first generalize the players' strategies as the trained models of generator and discriminator from the best response oracles. We then compute the meta-strategies using a linear program. For scalability of the framework where multiple generators and discriminator best responses are stored in the memory, we propose two solutions: 1) pruning the weakly-dominated players' strategies to keep the oracles from becoming intractable; 2) applying continual learning to retain the previous knowledge of the networks. We apply our framework to established GAN architectures such as vanilla GAN, Deep Convolutional GAN, Spectral Normalization GAN and Stacked GAN. Finally, we conduct experiments on MNIST, CIFAR-10 and CelebA datasets and show that DO-GAN variants have significant improvements in both subjective qualitative evaluation and quantitative metrics, compared with their respective GAN architectures.
翻訳日:2021-02-18 14:28:31 公開日:2021-02-17
# egoに基づくグラフ上の構造表現のエントロピー測度

Ego-based Entropy Measures for Structural Representations on Graphs ( http://arxiv.org/abs/2102.08735v1 )

ライセンス: Link先を確認
George Dasoulas, Giannis Nikolentzos, Kevin Scaman, Aladin Virmaux, Michalis Vazirgiannis(参考訳) グラフ構造化データの機械学習は、グラフニューラルネットワーク(GNN)の出現により、高い研究関心を集めている。 提案するgnnのほとんどはノードホモフィリに基づいており、隣接ノードは類似した特性を持つ。 しかし、多くの複雑なネットワークでは、グラフの遠い部分にあるノードは構造的に同等の特性を共有し、同様の役割(例えば、分子内の遠い原子の化学的性質、ソーシャルネットワークユーザーのタイプ)を示す。 成長する文献は、構造的に等価なノードを識別する表現を提案した。 しかし、既存の手法のほとんどは時間と空間の複雑さを必要とする。 本論文では,グラフの摂動に対して時間効率が高く堅牢な低次元構造表現を生成するための,近傍のトポロジのエントロピー測度に基づく単純なアプローチであるVNEstructを提案する。 経験的に、VNEstructは構造的役割識別タスクに堅牢性を示す。 さらに、VNEstructはグラフ構造情報を最適化に組み込むことなく、グラフ分類における最先端のパフォーマンスを実現することができる。

Machine learning on graph-structured data has attracted high research interest due to the emergence of Graph Neural Networks (GNNs). Most of the proposed GNNs are based on the node homophily, i.e neighboring nodes share similar characteristics. However, in many complex networks, nodes that lie to distant parts of the graph share structurally equivalent characteristics and exhibit similar roles (e.g chemical properties of distant atoms in a molecule, type of social network users). A growing literature proposed representations that identify structurally equivalent nodes. However, most of the existing methods require high time and space complexity. In this paper, we propose VNEstruct, a simple approach, based on entropy measures of the neighborhood's topology, for generating low-dimensional structural representations, that is time-efficient and robust to graph perturbations. Empirically, we observe that VNEstruct exhibits robustness on structural role identification tasks. Moreover, VNEstruct can achieve state-of-the-art performance on graph classification, without incorporating the graph structure information in the optimization, in contrast to GNN competitors.
翻訳日:2021-02-18 14:28:06 公開日:2021-02-17
# モビリティデータにおけるオンライン共同移動パターン予測

Online Co-movement Pattern Prediction in Mobility Data ( http://arxiv.org/abs/2102.08870v1 )

ライセンス: Link先を確認
Andreas Tritsarolis, Eva Chondrodima, Panagiotis Tampakis and Aggelos Pikrakis(参考訳) モビリティデータに対する予測分析は、アナリストが衝突、遭遇、交通渋滞などのイベントを予測するのを助けることができるため、非常に重要である。 このような分析の典型的な例は、移動物体の将来の位置を予測することを目的とした将来の位置予測である。 さらに難しいのは、協調移動パターンなど、動きの集団的行動パターンを正確に予測できることです。 本論文では,共動パターンのオンライン予測問題に対する正確な解法を提案する。 さらに詳しくは、元の問題を2つのサブ問題、すなわちFuture Location PredictionとEvolving Cluster Detectionに分割する。 さらに,提案手法の精度を算出するために,予測されたクラスタと実際のクラスタとの一致を容易にする共動パターン類似度測定法を提案する。 最後に,本ソリューションの精度を海事領域からの実際のデータセット上で実験的に実証する。

Predictive analytics over mobility data are of great importance since they can assist an analyst to predict events, such as collisions, encounters, traffic jams, etc. A typical example of such analytics is future location prediction, where the goal is to predict the future location of a moving object,given a look-ahead time. What is even more challenging is being able to accurately predict collective behavioural patterns of movement, such as co-movement patterns. In this paper, we provide an accurate solution to the problem of Online Prediction of Co-movement Patterns. In more detail, we split the original problem into two sub-problems, namely Future Location Prediction and Evolving Cluster Detection. Furthermore, in order to be able to calculate the accuracy of our solution, we propose a co-movement pattern similarity measure, which facilitates us to match the predicted clusters with the actual ones. Finally, the accuracy of our solution is demonstrated experimentally over a real dataset from the maritime domain.
翻訳日:2021-02-18 14:27:48 公開日:2021-02-17
# 平均化による確率近似の偏差不等式

Deviation inequalities for stochastic approximation by averaging ( http://arxiv.org/abs/2102.08685v1 )

ライセンス: Link先を確認
Xiequan Fan, Pierre Alquier, Paul Doukhan(参考訳) 平均化と非平均化による確率近似のモデルを含むマルコフ鎖のクラスを紹介します。 マルティンゲール近似法を用いて、これらの鎖の独立なリプシッツ関数に対する様々な偏差不等式を、マルティンゲール差の確率変数のいくつかの支配モーメント条件で確立し、その不等式を平均化による確率近似に適用する。

We introduce a class of Markov chains, that contains the model of stochastic approximation by averaging and non-averaging. Using martingale approximation method, we establish various deviation inequalities for separately Lipschitz functions of such a chain, with different moment conditions on some dominating random variables of martingale differences.Finally, we apply these inequalities to the stochastic approximation by averaging.
翻訳日:2021-02-18 14:27:35 公開日:2021-02-17
# ACTA:高齢者に対する総合的Nudge-Neurofeedbackトレーニングのためのモバイルヘルスソリューション

ACTA: A Mobile-Health Solution for Integrated Nudge-Neurofeedback Training for Senior Citizens ( http://arxiv.org/abs/2102.08692v1 )

ライセンス: Link先を確認
Giulia Cisotto, Andrea Trentini, Italo Zoppis, Alessio Zanga, Sara Manzoni, Giada Pietrabissa, Anna Guerrini Usubini, and Gianluca Castelnuovo(参考訳) 世界人口の高齢化に伴い、在宅遠隔医療とモバイルヘルスのソリューションは、アクティブで独立した高齢化を促進し、患者中心の医療へのパラダイムシフトに貢献する有望なサービスである。 本稿では,高齢者の軽度認知障害に対する高度な認知訓練を行うための,モバイルヘルスのプロトタイプであるACTA(Advanced Cognitive Training for Aging)を提案する。 ここでは、認知領域からの「ナッジ理論」と神経科学領域からの「神経フィードバック」の2つの有望なリハビリテーション戦略の統合としてのACTAの概念化を明らかにします。 さらに,ACTAでは,エコロジー環境下でのトレーニングにおいて,最も高度な機械学習技術を用いて,高齢者にカスタマイズされた完全適応型サポートを提供する。 ACTAは、現在ロンバルディア州で進行中のNudge理論に基づく認知トレーニングのための初期のモバイルヘルスプロジェクトであるSENIORの次のステップである。 SENIOR以外にも、ACTAは、独立した老化と効果的な運動認知トレーニングサポートを促進するために、高可用性、アクセシビリティ、低コスト、次世代のモバイルヘルスソリューションを表しています。

As the worldwide population gets increasingly aged, in-home telemedicine and mobile-health solutions represent promising services to promote active and independent aging and to contribute to a paradigm shift towards patient-centric healthcare. In this work, we present ACTA (Advanced Cognitive Training for Aging), a prototype mobile-health solution to provide advanced cognitive training for senior citizens with mild cognitive impairments. We disclose here the conceptualization of ACTA as the integration of two promising rehabilitation strategies: the "Nudge theory", from the cognitive domain, and the neurofeedback, from the neuroscience domain. Moreover, in ACTA we exploit the most advanced machine learning techniques to deliver customized and fully adaptive support to the elderly, while training in an ecological environment. ACTA represents the next-step beyond SENIOR, an earlier mobile-health project for cognitive training based on Nudge theory, currently ongoing in Lombardy Region. Beyond SENIOR, ACTA represents a highly-usable, accessible, low-cost, new-generation mobile-health solution to promote independent aging and effective motor-cognitive training support, while empowering the elderly in their own aging.
翻訳日:2021-02-18 14:27:25 公開日:2021-02-17
# 歌唱スタイル転送によるエンドツーエンドの歌詞認識

End-to-end lyrics Recognition with Voice to Singing Style Transfer ( http://arxiv.org/abs/2102.08575v1 )

ライセンス: Link先を確認
Sakya Basak, Shrutina Agarwal, Sriram Ganapathy, Naoya Takahashi(参考訳) モノフォニック/ポリフォニック音楽の自動転写は、大量のデータを読み込むことができないため、難しい作業です。 本論文では,自然音声をボーコーダに基づく音声合成器に基づく歌声に変換するデータ拡張法を提案する。 この手法はV2S(Voice to singing)と呼ばれ、自然な音声のF0輪郭を歌声のそれと調整することで、音声スタイルの変換を行う。 このv2sモデルに基づくスタイル転送は、高品質な歌声を生成することができ、e2e歌詞転写システムを構築するのに有用な、大きな自然音声コーパスを歌声に変換することができる。 モノフォニック歌唱音声データに関する実験では、V2Sスタイルの転送は、E2E歌詞転写システムに有意な利益(相対的に21%の改善)を提供します。 また、トランスファーラーニングや歌詞ベースの言語モデリングなどの追加コンポーネントについても議論し、歌詞の転写システムのパフォーマンスを改善します。

Automatic transcription of monophonic/polyphoni c music is a challenging task due to the lack of availability of large amounts of transcribed data. In this paper, we propose a data augmentation method that converts natural speech to singing voice based on vocoder based speech synthesizer. This approach, called voice to singing (V2S), performs the voice style conversion by modulating the F0 contour of the natural speech with that of a singing voice. The V2S model based style transfer can generate good quality singing voice thereby enabling the conversion of large corpora of natural speech to singing voice that is useful in building an E2E lyrics transcription system. In our experiments on monophonic singing voice data, the V2S style transfer provides a significant gain (relative improvements of 21%) for the E2E lyrics transcription system. We also discuss additional components like transfer learning and lyrics based language modeling to improve the performance of the lyrics transcription system.
翻訳日:2021-02-18 14:26:36 公開日:2021-02-17
# パブリックデータを活用するPrivate Queryの実用的リリース

Leveraging Public Data for Practical Private Query Release ( http://arxiv.org/abs/2102.08598v1 )

ライセンス: Link先を確認
Terrance Liu, Giuseppe Vietri, Thomas Steinke, Jonathan Ullman, Zhiwei Steven Wu(参考訳) 多くの統計的問題では、プリミティブを組み込むことでパフォーマンスが大幅に向上する。 しかし、差動的プライベートクエリリリースにおける事前知識の使用は、前回の米国国勢調査のような公開データセットの形で一般的に利用可能であるにもかかわらず、未調査のままである。 プライベートデータセットに関する統計を公開することを目的として、既存のベースラインとは異なり、PMW^Pubは、関連するディストリビューションから引き出された公開データを事前情報として活用する。 我々は,米国コミュニティ調査(acs)とアダルトデータセットの理論的解析と経験的評価を行い,その手法が最先端の手法よりも優れていることを示した。 さらに、PMW^Pubは高次元データ領域によくスケールし、既存の多くのメソッドを実行することは計算的に不可能である。

In many statistical problems, incorporating priors can significantly improve performance. However, the use of prior knowledge in differentially private query release has remained underexplored, despite such priors commonly being available in the form of public datasets, such as previous US Census releases. With the goal of releasing statistics about a private dataset, we present PMW^Pub, which -- unlike existing baselines -- leverages public data drawn from a related distribution as prior information. We provide a theoretical analysis and an empirical evaluation on the American Community Survey (ACS) and ADULT datasets, which shows that our method outperforms state-of-the-art methods. Furthermore, PMW^Pub scales well to high-dimensional data domains, where running many existing methods would be computationally infeasible.
翻訳日:2021-02-18 14:26:21 公開日:2021-02-17
# ノイズアウェアエンコーダを用いた音声強調のための可変オートエンコーダ

Variational Autoencoder for Speech Enhancement with a Noise-Aware Encoder ( http://arxiv.org/abs/2102.08706v1 )

ライセンス: Link先を確認
Huajian Fang, Guillaume Carbajal, Stefan Wermter, Timo Gerkmann(参考訳) 近年,音声統計をモデル化するための音声強調のための生成変分オートエンコーダ (VAE) が提案されている。 しかし、このアプローチは訓練段階ではクリーンな音声のみを使用し、特に低信号対雑音比(SNR)でノイズの存在に特に敏感な推定を行います。 そこで,このvaeのロバスト性を高めるために,ノイズ対応エンコーダを用いて学習段階における雑音情報を含むことを提案する。 異なる雑音環境および音響環境の実記録に対する2種類のノイズデータセットを用いたアプローチを評価した。 提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。 同時に、我々のモデルは、教師付きフィードフォワードディープニューラルネットワーク(DNN)よりも、目に見えない雑音条件に最適化できることを示した。 さらに、モデル性能の堅牢性を実証し、ノイズのあるクリーンな音声トレーニングデータサイズを低減します。

Recently, a generative variational autoencoder (VAE) has been proposed for speech enhancement to model speech statistics. However, this approach only uses clean speech in the training phase, making the estimation particularly sensitive to noise presence, especially in low signal-to-noise ratios (SNRs). To increase the robustness of the VAE, we propose to include noise information in the training phase by using a noise-aware encoder trained on noisy-clean speech pairs. We evaluate our approach on real recordings of different noisy environments and acoustic conditions using two different noise datasets. We show that our proposed noise-aware VAE outperforms the standard VAE in terms of overall distortion without increasing the number of model parameters. At the same time, we demonstrate that our model is capable of generalizing to unseen noise conditions better than a supervised feedforward deep neural network (DNN). Furthermore, we demonstrate the robustness of the model performance to a reduction of the noisy-clean speech training data size.
翻訳日:2021-02-18 14:26:08 公開日:2021-02-17
# 効果的な動力学の学習による分子系の加速シミュレーション

Accelerated Simulations of Molecular Systems through Learning of their Effective Dynamics ( http://arxiv.org/abs/2102.08810v1 )

ライセンス: Link先を確認
Pantelis R. Vlachas, Julija Zavadlav, Matej Praprotnik, Petros Koumoutsakos(参考訳) 複雑な分子系の進化を理解し予測するにはシミュレーションが不可欠です。 しかし、アルゴリズムと特殊なハードウェアの進歩にもかかわらず、生体分子の構造的進化を捉えるのに必要な時間スケールにアクセスすることは大変な作業である。 本稿では,分子系の有効動力学(led)を学習することにより,最大3桁までのシミュレーション時間スケールを前進させる新しい枠組みを提案する。 ledは混合密度ネットワーク(mdn)オートエンコーダを用いた粗スケールと微スケールの確率的マッピングを採用し、長期短期記憶mdnsを用いた非マルコフ的潜在ダイナミクスを進化させる。 我々は、M\"ueller-Brown電位、Trp Cageタンパク質、およびアラニンジペプチドにおけるLEDの有効性を実証する。 LEDは説明可能な低次表現を識別し、任意の瞬間に各全原子分子軌道を生成することができる。 提案手法はシミュレーション能力の劇的な向上をもたらし,複雑な分子系の効率的なモデリングのための新たな地平線を開くものと考えられる。

Simulations are vital for understanding and predicting the evolution of complex molecular systems. However, despite advances in algorithms and special purpose hardware, accessing the timescales necessary to capture the structural evolution of bio-molecules remains a daunting task. In this work we present a novel framework to advance simulation timescales by up to three orders of magnitude, by learning the effective dynamics (LED) of molecular systems. LED augments the equation-free methodology by employing a probabilistic mapping between coarse and fine scales using mixture density network (MDN) autoencoders and evolves the non-Markovian latent dynamics using long short-term memory MDNs. We demonstrate the effectiveness of LED in the M\"ueller-Brown potential, the Trp Cage protein, and the alanine dipeptide. LED identifies explainable reduced-order representations and can generate, at any instant, the respective all-atom molecular trajectories. We believe that the proposed framework provides a dramatic increase to simulation capabilities and opens new horizons for the effective modeling of complex molecular systems.
翻訳日:2021-02-18 14:25:51 公開日:2021-02-17
# 有限次元におけるSLOPEペナルティシーケンスの効率的な設計

Efficient Designs of SLOPE Penalty Sequences in Finite Dimension ( http://arxiv.org/abs/2102.07211v2 )

ライセンス: Link先を確認
Yiliang Zhang, Zhiqi Bu(参考訳) 線形回帰では、SLOPEはラッソを分類されたL1ペナルティを介して一般化する新しい凸解析手法である:より大きな適合係数はより重くペナルティ化される。 このマグニチュード依存正規化は、Lassoの場合のようにスカラーペナルティではなく、ペナルティシーケンス $\lambda$ の入力を必要とするため、設計は計算において非常に高価である。 本稿では,平均二乗誤差を最小限に抑えるため,高次元SLOPEペナルティを設計するための2つの効率的なアルゴリズムを提案する。 ガウスデータ行列に対しては、近似メッセージパッシング法の下で1次投影勾配降下 (pgd) を提案する。 一般的なデータ行列では、k レベル SLOPE と呼ばれる SLOPE のサブクラスを設計するために 0 番目の順序 Coordinate Descent (CD) を提示する。 私たちのCDは精度と計算速度のトレードオフに役立ちます。 我々は,合成データと実世界のデータセットを広範囲に実験し,slideの性能を実証する。

In linear regression, SLOPE is a new convex analysis method that generalizes the Lasso via the sorted L1 penalty: larger fitted coefficients are penalized more heavily. This magnitude-dependent regularization requires an input of penalty sequence $\lambda$, instead of a scalar penalty as in the Lasso case, thus making the design extremely expensive in computation. In this paper, we propose two efficient algorithms to design the possibly high-dimensional SLOPE penalty, in order to minimize the mean squared error. For Gaussian data matrices, we propose a first order Projected Gradient Descent (PGD) under the Approximate Message Passing regime. For general data matrices, we present a zero-th order Coordinate Descent (CD) to design a sub-class of SLOPE, referred to as the k-level SLOPE. Our CD allows a useful trade-off between the accuracy and the computation speed. We demonstrate the performance of SLOPE with our designs via extensive experiments on synthetic data and real-world datasets.
翻訳日:2021-02-18 12:17:26 公開日:2021-02-17
# CAP-GAN:Cycle-Consis tent Attentional Purificationによる対向性ロバスト性を目指して

CAP-GAN: Towards Adversarial Robustness with Cycle-consistent Attentional Purification ( http://arxiv.org/abs/2102.07304v2 )

ライセンス: Link先を確認
Mingu Kang, Trung Quang Tran, Seungju Cho, Daeyoung Kim(参考訳) 敵対攻撃は、知覚不能な摂動でターゲット分類器をだますことを目的としています。 悪意のある目的によって慎重に作られた敵の例は誤った予測につながり、破滅的な事故に繋がる。 敵攻撃の影響を軽減するため,CAP-GANと呼ばれる新しい浄化モデルを提案する。 CAP-GANは、サイクル一貫性学習の下で適切な浄化を実現するために、ピクセルレベルと特徴レベルの整合性の概念を考慮に入れている。 具体的には, 誘導注意モジュールと知識蒸留を用いて, 浄化モデルに有意義な情報を伝える。 モデルを完全に訓練すると、入力は精製モデルに投影され、クリーンな画像に変換される。 私たちは、さまざまなタイプの攻撃戦略に対する堅牢性を議論するために敵の能力を変えます。 CIFAR-10データセットでは、CAP-GANは他の前処理ベースの防御よりもブラックボックスとホワイトボックスの両方の設定で優れています。

Adversarial attack is aimed at fooling the target classifier with imperceptible perturbation. Adversarial examples, which are carefully crafted with a malicious purpose, can lead to erroneous predictions, resulting in catastrophic accidents. To mitigate the effects of adversarial attacks, we propose a novel purification model called CAP-GAN. CAP-GAN takes account of the idea of pixel-level and feature-level consistency to achieve reasonable purification under cycle-consistent learning. Specifically, we utilize the guided attention module and knowledge distillation to convey meaningful information to the purification model. Once a model is fully trained, inputs would be projected into the purification model and transformed into clean-like images. We vary the capacity of the adversary to argue the robustness against various types of attack strategies. On the CIFAR-10 dataset, CAP-GAN outperforms other pre-processing based defenses under both black-box and white-box settings.
翻訳日:2021-02-18 12:17:09 公開日:2021-02-17
# ポイントクラウド予測のための時空間グラフ-RNN

Spatio-temporal Graph-RNN for Point Cloud Prediction ( http://arxiv.org/abs/2102.07482v2 )

ライセンス: Link先を確認
Pedro Gomes, Silvia Rossi, Laura Toni(参考訳) 本稿では,将来的なクラウドフレーム予測のためのエンドツーエンド学習ネットワークを提案する。 主新規性として、初期層は点雲の位相情報を幾何学的特徴として学習し、代表時空間近傍を形成する。 このモジュールには複数のGraph-RNN細胞が続く。 各セルは、各点を処理する点ダイナミクス(すなわちRNN状態)を時空間近傍点とともに学習する。 我々は,移動桁のMINSTデータセット,合成人体運動,JPEG動体データセットを用いてネットワーク性能を検証した。 シミュレーションの結果,幾何学的特徴を無視するベースラインよりも優れることがわかった。

In this paper, we propose an end-to-end learning network to predict future point cloud frames. As main novelty, an initial layer learns topological information of point clouds as geometric features, to form representative spatio-temporal neighborhoods. This module is followed by multiple Graph-RNN cells. Each cell learns points dynamics (i.e., RNN states) processing each point jointly with the spatio-temporal neighbouring points. We tested the network performance with a MINST dataset of moving digits, a synthetic human bodies motions and JPEG dynamic bodies datasets. Simulation results demonstrate that our method outperforms baseline ones that neglect geometry features information.
翻訳日:2021-02-18 12:16:38 公開日:2021-02-17