このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210614となっている論文です。

PDF登録状況(公開日: 20210614)

TitleAuthorsAbstract論文公表日・翻訳日
# 第2回ABAW2コンペティションにおける影響行動の解析

Analysing Affective Behavior in the second ABAW2 Competition ( http://arxiv.org/abs/2106.15318v1 )

ライセンス: Link先を確認
Dimitrios Kollias and Irene Kotsia and Elnar Hajiyev and Stefanos Zafeiriou(参考訳) ABAW2 2021コンペティションは、IEEE FG 2020-コンペティションと共同で開催された最初の非常に成功したABAWコンペティションに続く第2回である。 abaw2は3つの課題に分かれており、それぞれがvalence-arousal estimation、basic expression classification、action unit detectionの3つの主要な行動課題の1つに対処している。 これら3つの課題はすべて、一般的なベンチマークデータベースであるaf-wild2をベースとしている。 本稿では,ICCV 2021と協調して開催するコンペティションについて述べる。 本稿では,活用コンペティションコーパスを用いた3つのチャレンジを紹介する。 本稿では,評価指標を概説し,ベースラインシステムとその結果を提示する。 https://ibug.doc.ic. ac.uk/resources/iccv -2021-2nd-abaw。

The Affective Behavior Analysis in-the-wild (ABAW2) 2021 Competition is the second -- following the first very successful ABAW Competition held in conjunction with IEEE FG 2020- Competition that aims at automatically analyzing affect. ABAW2 is split into three Challenges, each one addressing one of the three main behavior tasks of valence-arousal estimation, basic expression classification and action unit detection. All three Challenges are based on a common benchmark database, Aff-Wild2, which is a large scale in-the-wild database and the first one to be annotated for all these three tasks. In this paper, we describe this Competition, to be held in conjunction with ICCV 2021. We present the three Challenges, with the utilized Competition corpora. We outline the evaluation metrics and present the baseline system with its results. More information regarding the Competition is provided in the Competition site: https://ibug.doc.ic. ac.uk/resources/iccv -2021-2nd-abaw.
翻訳日:2021-07-04 19:39:37 公開日:2021-06-14
# 米国におけるデータサイエンス求人市場のための知識発見フレームワーク

Toward Knowledge Discovery Framework for Data Science Job Market in the United States ( http://arxiv.org/abs/2106.11077v1 )

ライセンス: Link先を確認
Mojtaba Heidarysafa and Kamran Kowsari and Masoud Bashiri and Donald E. Brown(参考訳) データサイエンス分野の成長は、このような急速に成長する領域を理解するためのより良いツールを必要とする。 さらに、異なる背景を持つ個人は、データサイエンティストとしてのキャリアに興味を持つようになった。 そのため、雇用市場に必要なスキルを個人や組織が理解するための定量的ガイドが不可欠である。 本稿では,米国内におけるデータサイエンス関連のジョブのジョブマーケットを解析し,このマーケットの洞察にアクセスできるインターフェースを提供するためのフレームワークを提案する。 提案するフレームワークは,連続的なデータ収集,情報抽出,Webベースのダッシュボードビジュアライゼーションが可能な3つのサブモジュールから構成され,データサイエンス関連のジョブとスキルの空間的および時間的分布を調査する。 本研究の成果は、データサイエンス業務の主要部門にとって重要なスキルを示し、これらのデータサイエンス部門をスキルベースで定義しようとする試みである。 このアプリケーションの現在のバージョンはweb上にデプロイされ、個人や機関が業界レンズを通してデータサイエンスのポジションに必要なスキルを調査できる。

The growth of the data science field requires better tools to understand such a fast-paced growing domain. Moreover, individuals from different backgrounds became interested in following a career as data scientists. Therefore, providing a quantitative guide for individuals and organizations to understand the skills required in the job market would be crucial. This paper introduces a framework to analyze the job market for data science-related jobs within the US while providing an interface to access insights in this market. The proposed framework includes three sub-modules allowing continuous data collection, information extraction, and a web-based dashboard visualization to investigate the spatial and temporal distribution of data science-related jobs and skills. The result of this work shows important skills for the main branches of data science jobs and attempts to provide a skill-based definition of these data science branches. The current version of this application is deployed on the web and allows individuals and institutes to investigate skills required for data science positions through the industry lens.
翻訳日:2021-06-27 09:07:37 公開日:2021-06-14
# TTSシステムにおけるVAE音響空間の学習条件

A learned conditional prior for the VAE acoustic space of a TTS system ( http://arxiv.org/abs/2106.10229v1 )

ライセンス: Link先を確認
Penny Karanasou, Sri Karlapati, Alexis Moinet, Arnaud Joly, Ammar Abbas, Simon Slangen, Jaime Lorenzo Trueba, Thomas Drugman(参考訳) 多くの要因が、与えられた文の異なる書き起こしを生み出す音声に影響を与える。 変分オートエンコーダ(vaes)のような生成モデルでは、この可変性をキャプチャし、サンプリングによって同じ文の複数のランディションを許容する。 韻律的変動の度合いは、サンプリングで使用される先行値に大きく依存する。 本稿では, ニューラルテキスト音声(TTS)システムにおいて, VAE潜時空間に先行する情報量を求める新しい手法を提案する。 そうすることで、より韻律的な変数でサンプルをサンプリングし、潜在空間の構造に対して可制御性を得る。 話者ベクトル上で条件付けする2次vaeの後方分布を予め使用することにより、条件付けを明示的に考慮し、各条件(すなわち、各条件)に対する潜在空間の特定の領域からのサンプルを一次vaeからサンプリングすることができる。 スピーカー)。 形式的選好テストは、標準条件vaeに対する提案手法の有意な選好を示す。 また,よく区切られた条件固有のクラスタが現れる潜在空間の可視化や,システムの振る舞いをよりよく理解するためのアブレーション研究も提供する。

Many factors influence speech yielding different renditions of a given sentence. Generative models, such as variational autoencoders (VAEs), capture this variability and allow multiple renditions of the same sentence via sampling. The degree of prosodic variability depends heavily on the prior that is used when sampling. In this paper, we propose a novel method to compute an informative prior for the VAE latent space of a neural text-to-speech (TTS) system. By doing so, we aim to sample with more prosodic variability, while gaining controllability over the latent space's structure. By using as prior the posterior distribution of a secondary VAE, which we condition on a speaker vector, we can sample from the primary VAE taking explicitly the conditioning into account and resulting in samples from a specific region of the latent space for each condition (i.e. speaker). A formal preference test demonstrates significant preference of the proposed approach over standard Conditional VAE. We also provide visualisations of the latent space where well-separated condition-specific clusters appear, as well as ablation studies to better understand the behaviour of the system.
翻訳日:2021-06-27 09:06:06 公開日:2021-06-14
# (参考訳) Fair Preprocessing: 機械学習パイプラインにおけるデータ変換器の構成公正性の理解に向けて [全文訳有]

Fair Preprocessing: Towards Understanding Compositional Fairness of Data Transformers in Machine Learning Pipeline ( http://arxiv.org/abs/2106.06054v2 )

ライセンス: CC BY 4.0
Sumon Biswas and Hridesh Rajan(参考訳) 近年では、人種、性別、年齢などに基づいて、機械学習モデルが差別を示す事件が数多く報告されている。 機械学習モデルの不公平さを計測し緩和するために研究が進められている。 機械学習タスクでは、順序付けられたデータ前処理ステージと次に分類器を含むパイプラインを構築するのが一般的である。 しかし、公平性に関するほとんどの研究は、単一の分類子に基づく予測タスクを検討してきた。 機械学習パイプラインにおける前処理ステージの公平性への影響はどのようなものか? さらに、研究は、しばしば不公平の根本原因がモデルではなくデータ自体に浸透していることを示した。 しかし、データ前処理段階での特定の変換による不公平さを測定する研究は行われていない。 本稿では,MLパイプラインにおけるデータ前処理ステージの公平性への影響を判断するために,フェアネスの因果的方法を提案する。 既存のメトリクスを活用して、ステージの公平度尺度を定義しました。 そして,3つの異なるソースから収集した37個のパイプラインにおいて,前処理段階の詳細な公平性評価を行った。 その結果、あるデータトランスフォーマーがモデルに不公平な結果をもたらしていることがわかった。 データトランスフォーマーのいくつかのカテゴリで,公正なパターンをいくつも同定した。 最後に,前処理ステージの局所的フェアネスがパイプラインのグローバルフェアネスにおいてどのように構成されるかを示した。 機械学習パイプラインにおける不公平を緩和する適切な下流変圧器を選択するためにフェアネス構成を用いた。

In recent years, many incidents have been reported where machine learning models exhibited discrimination among people based on race, sex, age, etc. Research has been conducted to measure and mitigate unfairness in machine learning models. For a machine learning task, it is a common practice to build a pipeline that includes an ordered set of data preprocessing stages followed by a classifier. However, most of the research on fairness has considered a single classifier based prediction task. What are the fairness impacts of the preprocessing stages in machine learning pipeline? Furthermore, studies showed that often the root cause of unfairness is ingrained in the data itself, rather than the model. But no research has been conducted to measure the unfairness caused by a specific transformation made in the data preprocessing stage. In this paper, we introduced the causal method of fairness to reason about the fairness impact of data preprocessing stages in ML pipeline. We leveraged existing metrics to define the fairness measures of the stages. Then we conducted a detailed fairness evaluation of the preprocessing stages in 37 pipelines collected from three different sources. Our results show that certain data transformers are causing the model to exhibit unfairness. We identified a number of fairness patterns in several categories of data transformers. Finally, we showed how the local fairness of a preprocessing stage composes in the global fairness of the pipeline. We used the fairness composition to choose appropriate downstream transformer that mitigates unfairness in the machine learning pipeline.
翻訳日:2021-06-20 20:36:27 公開日:2021-06-14
# (参考訳) 新しい信頼できるaiフレームワークのためのプライバシ・リーカウンド、解釈可能性、および転送可能性に関する情報理論的評価 [全文訳有]

Information Theoretic Evaluation of Privacy-Leakage, Interpretability, and Transferability for a Novel Trustworthy AI Framework ( http://arxiv.org/abs/2106.06046v2 )

ライセンス: CC BY 4.0
Mohit Kumar, Bernhard A. Moser, Lukas Fischer, Bernhard Freudenthaler(参考訳) 信頼に値するAIのガイドラインと原則は、実際にAIシステムの開発中に守るべきである。 この研究は、情報理論が、信頼できるAI原則間の固有のトレードオフを研究し、最適化する方法を提供することで、機械学習とディープラーニングモデルの開発中に倫理的AI原則を考慮できるという仮説に基づいて、新しい情報理論の信頼できるAIフレームワークを提案する。 プライバシ・リーキング, 解釈可能性, 伝達可能性に関する情報理論的手法を導入することにより, プライバシー保全・伝達可能な学習」への統一的アプローチを提案する。 条件付き深層オートエンコーダを用いた変分最適化に基づく手法を開発し, プライバシ推論, 解釈可能性, 転送可能性に関する情報理論を実用的に評価する。

Guidelines and principles of trustworthy AI should be adhered to in practice during the development of AI systems. This work suggests a novel information theoretic trustworthy AI framework based on the hypothesis that information theory enables taking into account the ethical AI principles during the development of machine learning and deep learning models via providing a way to study and optimize the inherent tradeoffs between trustworthy AI principles. A unified approach to "privacy-preserving interpretable and transferable learning" is presented via introducing the information theoretic measures for privacy-leakage, interpretability, and transferability. A technique based on variational optimization, employing conditionally deep autoencoders, is developed for practically calculating the defined information theoretic measures for privacy-leakage, interpretability, and transferability.
翻訳日:2021-06-20 19:04:30 公開日:2021-06-14
# (参考訳) 順序問題:グラフ生成のためのノードシーケンスの確率的モデリング [全文訳有]

Order Matters: Probabilistic Modeling of Node Sequence for Graph Generation ( http://arxiv.org/abs/2106.06189v2 )

ライセンス: CC BY 4.0
Xiaohui Chen, Xu Han, Jiajing Hu, Francisco J. R. Ruiz, Liping Liu(参考訳) グラフ生成モデルはグラフ上の分布を定義する。 1つの生成モデルは自己回帰ニューラルネットワークによって構築され、ノードとエッジを逐次追加してグラフを生成する。 しかし、自己回帰モデルの下でのグラフの確率は、与えられたグラフに導かれる多くのシーケンスが存在するため、難解である。 代わりに、この研究において、グラフ上の正確な結合確率とシーケンシャルなプロセスのノード順序を導出する。 共同作業から,ノードの順序付けをほぼ疎外し,変動推論を用いてログライクリフの下位境界を計算する。 我々は,従来の手法のアドホックノード順序を使わずに,この境界を最大化してグラフ生成モデルを訓練する。 実験により, 対数状境界は, 従来のスキームよりもかなり厳密であることがわかった。 さらに,提案アルゴリズムを応用したモデルでは,トレーニング中に見えないターゲットグラフの構造に適合する高品質なグラフを生成することができる。 コードは \hyperref[https://github.com/t ufts-ml/graph-genera tion-vi]{https://github.com/t ufts-ml/graph-genera tion-vi} で公開しました。

A graph generative model defines a distribution over graphs. One type of generative model is constructed by autoregressive neural networks, which sequentially add nodes and edges to generate a graph. However, the likelihood of a graph under the autoregressive model is intractable, as there are numerous sequences leading to the given graph; this makes maximum likelihood estimation challenging. Instead, in this work we derive the exact joint probability over the graph and the node ordering of the sequential process. From the joint, we approximately marginalize out the node orderings and compute a lower bound on the log-likelihood using variational inference. We train graph generative models by maximizing this bound, without using the ad-hoc node orderings of previous methods. Our experiments show that the log-likelihood bound is significantly tighter than the bound of previous schemes. Moreover, the models fitted with the proposed algorithm can generate high-quality graphs that match the structures of target graphs not seen during training. We have made our code publicly available at \hyperref[https://github.com/t ufts-ml/graph-genera tion-vi]{https://github.com/t ufts-ml/graph-genera tion-vi}.
翻訳日:2021-06-20 04:40:33 公開日:2021-06-14
# (参考訳) 説明可能なAIによる決定論的周波数偏差の探索 [全文訳有]

Exploring deterministic frequency deviations with explainable AI ( http://arxiv.org/abs/2106.09538v1 )

ライセンス: CC BY 4.0
Johannes Kruse, Benjamin Sch\"afer, Dirk Witthaut(参考訳) 決定論的周波数偏差(DFD)は電力グリッドの周波数品質と電力系統の安定性に重大な影響を及ぼす。 近年ヨーロッパでは周波数偏差が増加しているため、これらの出来事をより深く理解する必要がある。 DFDは、電力取引の期間を経て、発電の急速な調整によって部分的に説明されるが、この直感的な図は特に昼前後に失敗する。 本稿では,説明可能な人工知能を用いたdfdsの詳細な解析と,その外部特徴との関係について述べる。 dfdの日周期をよく記述し,shapley additive explanations (shap) を用いて重要な相互依存を解明する機械学習モデルを構築した。 これにより、太陽ランプは周波数変化率(RoCoF)のパターンを説明するのに重要であると認識する。

Deterministic frequency deviations (DFDs) critically affect power grid frequency quality and power system stability. A better understanding of these events is urgently needed as frequency deviations have been growing in the European grid in recent years. DFDs are partially explained by the rapid adjustment of power generation following the intervals of electricity trading, but this intuitive picture fails especially before and around noonday. In this article, we provide a detailed analysis of DFDs and their relation to external features using methods from explainable Artificial Intelligence. We establish a machine learning model that well describes the daily cycle of DFDs and elucidate key interdependencies using SHapley Additive exPlanations (SHAP). Thereby, we identify solar ramps as critical to explain patterns in the Rate of Change of Frequency (RoCoF).
翻訳日:2021-06-19 14:31:03 公開日:2021-06-14
# 学会手続 KI4Industry AI for SMEs -- 中小企業向けAIへの実践的参入のためのオンライン会議

Conference proceedings KI4Industry AI for SMEs -- the online congress for practical entry into AI for SMEs ( http://arxiv.org/abs/2106.09455v1 )

ライセンス: Link先を確認
Matthias Feiner, Manuel Schoellhorn(参考訳) ドイツのカールスルーエにある応用科学大学の材料・プロセス研究所は、vdi verein deutscher ingenieure e.v, aen automotive engineering network, and their cooperation partnersと共同で、生産工学の分野でaiベースのソリューションアプローチの能力を提示している。 2020年11月12日と13日に開催されたオンラインコングレスki 4産業は、中規模製造業や中小企業に人工知能がどのような機会を提供するかを示し、応用分野の可能性を示した。 KI4産業の主な目的は、知識、研究、技術が大学から中小規模企業へ移行し、AIという用語を廃し、企業が自身のバリューチェーンや製品にAIベースのソリューションを使うように促すことである。

The Institute of Materials and Processes, IMP, of the University of Applied Sciences in Karlsruhe, Germany in cooperation with VDI Verein Deutscher Ingenieure e.V, AEN Automotive Engineering Network and their cooperation partners present their competences of AI-based solution approaches in the production engineering field. The online congress KI 4 Industry on November 12 and 13, 2020, showed what opportunities the use of artificial intelligence offers for medium-sized manufacturing companies, SMEs, and where potential fields of application lie. The main purpose of KI 4 Industry is to increase the transfer of knowledge, research and technology from universities to small and medium-sized enterprises, to demystify the term AI and to encourage companies to use AI-based solutions in their own value chain or in their products.
翻訳日:2021-06-18 15:55:01 公開日:2021-06-14
# 新生児集中治療室における日中の児童中心録音における音声の感情的内容の自動分析

Automatic Analysis of the Emotional Content of Speech in Daylong Child-Centered Recordings from a Neonatal Intensive Care Unit ( http://arxiv.org/abs/2106.09539v1 )

ライセンス: Link先を確認
Einari Vaaras, Sari Ahlqvist-Bj\"orkroth, Konstantinos Drossos, Okko R\"as\"anen(参考訳) 最近、幼児の感情的な声が発達の成果にどう影響するか、研究が始まっています。 この研究の一環として、フィンランドとエストニアの2つの病院から、幼児のオーディオ環境からの数百時間にわたる記録を、いわゆるAPPLE研究の文脈で収集した。 このような膨大なデータセットで音声の感情内容を分析するためには、自動音声感情認識(ser)システムが必要である。 しかし、この目的のために使用する感情ラベルや既存のドメイン内サーシステムは存在しない。 本稿では,この無注の大規模実世界音声データセットを紹介し,フィンランドのサブセットを対象とした機能的serシステムの開発について述べる。 我々は、SERシステムを新しいドメインにデプロイするための代替技術の有効性について検討し、クロスコーパスの一般化、WGANベースのドメイン適応、タスクにおけるアクティブラーニングを比較した。 その結果、最良性能モデルはそれぞれ73.4%の非重み付き平均リコール(UAR)と73.2%のUARを有価値と覚醒値のバイナリ分類で達成できることが判明した。 その結果、アクティブラーニングは2つの選択肢と比較して最も一貫したパフォーマンスを達成できることが示された。

Researchers have recently started to study how the emotional speech heard by young infants can affect their developmental outcomes. As a part of this research, hundreds of hours of daylong recordings from preterm infants' audio environments were collected from two hospitals in Finland and Estonia in the context of so-called APPLE study. In order to analyze the emotional content of speech in such a massive dataset, an automatic speech emotion recognition (SER) system is required. However, there are no emotion labels or existing indomain SER systems to be used for this purpose. In this paper, we introduce this initially unannotated large-scale real-world audio dataset and describe the development of a functional SER system for the Finnish subset of the data. We explore the effectiveness of alternative state-of-the-art techniques to deploy a SER system to a new domain, comparing cross-corpus generalization, WGAN-based domain adaptation, and active learning in the task. As a result, we show that the best-performing models are able to achieve a classification performance of 73.4% unweighted average recall (UAR) and 73.2% UAR for a binary classification for valence and arousal, respectively. The results also show that active learning achieves the most consistent performance compared to the two alternatives.
翻訳日:2021-06-18 15:35:49 公開日:2021-06-14
# counter-strike: global offensiveにおける地図選択のバンディットモデル

Bandit Modeling of Map Selection in Counter-Strike: Global Offensive ( http://arxiv.org/abs/2106.08888v1 )

ライセンス: Link先を確認
Guido Petri, Michael H. Stanley, Alec B. Hon, Alexander Dong, Peter Xenopoulos, Cl\'audio Silva(参考訳) 多くのeスポーツは、マッチの開始前にパラメータを定義するためにピック・アンド・バンプロセスを使用する。 Counter-Strike: Global Offensive (CSGO) では、2つのチームが最初にマップ(仮想世界)を選択して禁止する。 一般的にチームは、練習しないマップの禁止や、チームの最近のパフォーマンスに基づいたマップの選択など、さまざまな要因に基づいてマップを禁止・選択する。 我々は,csgoにおけるマップ選択の問題に対処し,チームの選択と意思決定の禁止を検討するためのコンテキストバンディットフレームワークを提案する。 3500以上のCSGOマッチと25,000以上のマップ選択決定のデータセットを使用して、問題に対する異なるフレーミング、異なるコンテキスト、異なる報酬メトリクスを検討します。 選択と禁止の両方に関して、チームは最適なマップ選択ポリシーを持っています。 また,バンディット設定では検討されていないバンディット報酬のアプローチを定義し,バンディットを組み込むことでモデルパフォーマンスが向上することを示す。 最後に、このモデルを使用することで、予測したマップウィン確率を最大11%向上させ、均等にマッチしたチームでは全体のマッチウィン確率を19.8%向上させることができると判断した。

Many esports use a pick and ban process to define the parameters of a match before it starts. In Counter-Strike: Global Offensive (CSGO) matches, two teams first pick and ban maps, or virtual worlds, to play. Teams typically ban and pick maps based on a variety of factors, such as banning maps which they do not practice, or choosing maps based on the team's recent performance. We introduce a contextual bandit framework to tackle the problem of map selection in CSGO and to investigate teams' pick and ban decision-making. Using a data set of over 3,500 CSGO matches and over 25,000 map selection decisions, we consider different framings for the problem, different contexts, and different reward metrics. We find that teams have suboptimal map choice policies with respect to both picking and banning. We also define an approach for rewarding bans, which has not been explored in the bandit setting, and find that incorporating ban rewards improves model performance. Finally, we determine that usage of our model could improve teams' predicted map win probability by up to 11% and raise overall match win probabilities by 19.8% for evenly-matched teams.
翻訳日:2021-06-17 17:41:00 公開日:2021-06-14
# ランダム特徴ニューラルネットワークは次元の呪いなしにブラックスクール型PDEを学習する

Random feature neural networks learn Black-Scholes type PDEs without curse of dimensionality ( http://arxiv.org/abs/2106.08900v1 )

ライセンス: Link先を確認
Lukas Gonon(参考訳) 本稿では,コルモゴロフ偏微分方程式とより一般的な指数的L''evyモデルについて,ランダム特徴ニューラルネットワークを用いて学習する。 ランダム特徴ニューラルネットワークは、出力重みのみをトレーニング可能な単層フィードフォワードニューラルネットワークである。 これによってトレーニングは特に簡単になるが、(事前)表現性が低下する。 興味深いことに、これはBlack-ScholesタイプのPDEには当てはまらない。 非退化ブラックスコール型モデルを十分に学習するためのランダムニューラルネットワークの予測誤差を導出する。 完全な誤差解析を行い、導出した境界が次元性の呪いに苦しめられていないことを示す。 また,これらの結果をバスケットオプションに適用し,境界を数値的に検証する。 これらの結果は、ニューラルネットワークが次元の呪いを伴わずに、Black-Scholes型PDEに対するtextit{learn}解を解けることを証明している。 さらに、これは、ランダム特徴ニューラルネットワークが確実に効率的である関連する学習問題の例を提供する。

This article investigates the use of random feature neural networks for learning Kolmogorov partial (integro-)differenti al equations associated to Black-Scholes and more general exponential L\'evy models. Random feature neural networks are single-hidden-layer feedforward neural networks in which only the output weights are trainable. This makes training particularly simple, but (a priori) reduces expressivity. Interestingly, this is not the case for Black-Scholes type PDEs, as we show here. We derive bounds for the prediction error of random neural networks for learning sufficiently non-degenerate Black-Scholes type models. A full error analysis is provided and it is shown that the derived bounds do not suffer from the curse of dimensionality. We also investigate an application of these results to basket options and validate the bounds numerically. These results prove that neural networks are able to \textit{learn} solutions to Black-Scholes type PDEs without the curse of dimensionality. In addition, this provides an example of a relevant learning problem in which random feature neural networks are provably efficient.
翻訳日:2021-06-17 17:33:30 公開日:2021-06-14
# WaveNet-based Deep Neural Networks for the Characteristics of Anomalous Diffusion (WADNet)

WaveNet-Based Deep Neural Networks for the Characterization of Anomalous Diffusion (WADNet) ( http://arxiv.org/abs/2106.08887v1 )

ライセンス: Link先を確認
Dezhong Li, Qiujin Yao, Zihan Huang(参考訳) 標準的なブラウン運動の枠組みから輸送力学の偏りを示す異常拡散は、様々な物理的、化学的、生物学的、経済的システムの進化に関与している。 このようなランダムな過程の研究は、ランダムなウォーカーや複素系の物理的性質を明らかにする上で重要なものである。 しかし、異常拡散を特徴付ける古典的な方法は、個々の短い軌道に対して不適格であり、異常拡散(andi)チャレンジの開始に繋がる。 この課題は, 異常拡散指数の推定, 拡散モデルの分類, 軌道の分割という3つの異なる側面において, 単一軌道特性に対する新しいアプローチを客観的に評価・比較することを目的としている。 本稿では、この課題における推論と分類の課題に対処するため、修正されたWaveNetエンコーダと長い短期記憶ネットワークを組み合わせたWaveNetベースのディープニューラルネットワーク(WADNet)を開発した。 我々のモデルの性能は、すべての次元の2つのタスク(6つのサブタスク)において、現在のリーダーボードの1位を超えているため、WADNetはAnDiデータベースをデコードするための最先端技術の一部である可能性がある。 提案手法は将来の研究のためのベンチマークを示し, 異常拡散特性評価のための汎用ツールの開発を加速させる。

Anomalous diffusion, which shows a deviation of transport dynamics from the framework of standard Brownian motion, is involved in the evolution of various physical, chemical, biological, and economic systems. The study of such random processes is of fundamental importance in unveiling the physical properties of random walkers and complex systems. However, classical methods to characterize anomalous diffusion are often disqualified for individual short trajectories, leading to the launch of the Anomalous Diffusion (AnDi) Challenge. This challenge aims at objectively assessing and comparing new approaches for single trajectory characterization, with respect to three different aspects: the inference of the anomalous diffusion exponent; the classification of the diffusion model; and the segmentation of trajectories. In this article, to address the inference and classification tasks in the challenge, we develop a WaveNet-based deep neural network (WADNet) by combining a modified WaveNet encoder with long short-term memory networks, without any prior knowledge of anomalous diffusion. As the performance of our model has surpassed the current 1st places in the challenge leaderboard on both two tasks for all dimensions (6 subtasks), WADNet could be the part of state-of-the-art techniques to decode the AnDi database. Our method presents a benchmark for future research, and could accelerate the development of a versatile tool for the characterization of anomalous diffusion.
翻訳日:2021-06-17 17:06:10 公開日:2021-06-14
# (参考訳) 計算病理学における敵意の脆弱性は [全文訳有]

Now You See It, Now You Dont: Adversarial Vulnerabilities in Computational Pathology ( http://arxiv.org/abs/2106.08153v1 )

ライセンス: CC BY 4.0
Alex Foote, Amina Asif, Ayesha Azam, Nasir Rajpoot and Fayyaz Minhas(参考訳) 深層学習モデルは、診断と予後の問題を解くために、計算病理学(CPath)に常用される。 通常、CPathモデルの一般化性能は、多中心コホート上でのクロスバリデーションやテストのような評価プロトコルを用いて分析される。 しかし,このようなCPathソリューションが臨床現場での使用に対して堅牢かつ安全であることを保証するためには,その予測性能と敵攻撃に対する脆弱性を批判的に分析する必要がある。 具体的には, 病理画像中の腫瘍パッチを高精度に分類するモデル(auc > 0.95)が, 人間や訓練された病理学者には受け入れられない最小限の摂動で容易に攻撃できることを示す。 分析の結果,高い成功率と低摂動エネルギーで特定の入力画像に対して単一インスタンスのホワイトボックス攻撃を発生できることが示唆された。 さらに、トレーニングデータセットのみを使用した単一の普遍摂動行列も生成し、未認識のテスト画像に付加すると、トレーニングされたニューラルネットワークが84%以上の成功率で高い信頼度で予測ラベルを反転させる結果となる。 本研究は, 対向攻撃の摂動エネルギーと臨床的意義の形態的構成との関係, 訓練された病理学者による受容性, 深層学習モデルを用いて得られた塩分マップとの関係を体系的に解析する。 本分析に基づいて,臨床導入前に提案した逆検証戦略を用いて,計算病理モデルに批判的分析を行うことを強く推奨する。

Deep learning models are routinely employed in computational pathology (CPath) for solving problems of diagnostic and prognostic significance. Typically, the generalization performance of CPath models is analyzed using evaluation protocols such as cross-validation and testing on multi-centric cohorts. However, to ensure that such CPath solutions are robust and safe for use in a clinical setting, a critical analysis of their predictive performance and vulnerability to adversarial attacks is required, which is the focus of this paper. Specifically, we show that a highly accurate model for classification of tumour patches in pathology images (AUC > 0.95) can easily be attacked with minimal perturbations which are imperceptible to lay humans and trained pathologists alike. Our analytical results show that it is possible to generate single-instance white-box attacks on specific input images with high success rate and low perturbation energy. Furthermore, we have also generated a single universal perturbation matrix using the training dataset only which, when added to unseen test images, results in forcing the trained neural network to flip its prediction labels with high confidence at a success rate of > 84%. We systematically analyze the relationship between perturbation energy of an adversarial attack, its impact on morphological constructs of clinical significance, their perceptibility by a trained pathologist and saliency maps obtained using deep learning models. Based on our analysis, we strongly recommend that computational pathology models be critically analyzed using the proposed adversarial validation strategy prior to clinical adoption.
翻訳日:2021-06-17 11:03:15 公開日:2021-06-14
# (参考訳) 深層学習モデルにおける損失景観のグローバルダイナミクスの抽出 [全文訳有]

Extracting Global Dynamics of Loss Landscape in Deep Learning Models ( http://arxiv.org/abs/2106.07683v1 )

ライセンス: CC BY 4.0
Mohammed Eslami, Hamed Eramian, Marcio Gameiro, William Kalies, Konstantin Mischaikow(参考訳) ディープラーニングモデルは、学習を通じて進化し、目的を満たすためにデータが存在する多様体を学ぶ。 進化が、同じテストデータポイントの一貫性のない予測を生成する異なる最終状態につながることはよく知られている。 これにより、軌跡の差を経験的に定量化し、問題領域を強調できる技術が求められている。 モデルがどのように学習するかの発見に多くの焦点が当てられているが、モデルがどのように学習するかという問題は、理論的な景観特性や最適条件に近い局所幾何学的近似を超えては研究されていない。 本稿では,DOODL3 (Dynamical Organization of Deep Learning Loss Landscapes) のツールキットを提案する。 DOODL3は、ニューラルネットワークのトレーニングを動的システムとして定式化し、学習プロセスを分析し、損失ランドスケープにおける軌跡の解釈可能なグローバルビューを示す。 我々のアプローチは、トポロジの粗さを利用して幾何学の粒度を捉え、不安定な状態や長い訓練を緩和する。 全体として,モデル全体のダイナミクスを抽出し,その情報を用いてニューラルネットワークのトレーニングを導くための経験的枠組みを提案する。

Deep learning models evolve through training to learn the manifold in which the data exists to satisfy an objective. It is well known that evolution leads to different final states which produce inconsistent predictions of the same test data points. This calls for techniques to be able to empirically quantify the difference in the trajectories and highlight problematic regions. While much focus is placed on discovering what models learn, the question of how a model learns is less studied beyond theoretical landscape characterizations and local geometric approximations near optimal conditions. Here, we present a toolkit for the Dynamical Organization Of Deep Learning Loss Landscapes, or DOODL3. DOODL3 formulates the training of neural networks as a dynamical system, analyzes the learning process, and presents an interpretable global view of trajectories in the loss landscape. Our approach uses the coarseness of topology to capture the granularity of geometry to mitigate against states of instability or elongated training. Overall, our analysis presents an empirical framework to extract the global dynamics of a model and to use that information to guide the training of neural networks.
翻訳日:2021-06-17 10:53:28 公開日:2021-06-14
# (参考訳) 逆パラフレーズタスクによるパラフレーズ検出の改善 [全文訳有]

Improving Paraphrase Detection with the Adversarial Paraphrasing Task ( http://arxiv.org/abs/2106.07691v1 )

ライセンス: CC BY 4.0
Animesh Nighojkar and John Licato(参考訳) もし2つの文が同じ意味を持つならば、それらの推論的性質、すなわち、各文はテクスチャ的に他方を包含すべきである。 しかし、現在広く使われている多くのパラフレーズデータセットは、単語重複と構文に基づくパラフレーズ感覚に依存している。 文の推論的性質に頼り、文対の語彙的および構文的類似性に過度に依存しない方法でパラフレーズを識別できるように教えることができるか? 本稿では,この課題に逆説的パラダイムを適用し,また,語彙的・統語論的に異なる言い回しを参加者に生成させる,逆説的言い換え課題(APT)を新たに導入する。 これらの文ペアは、パラフレーズ識別モデル(ランダムな精度はほとんど得られない)をテストし、パフォーマンスを向上させるためにも使用できる。 データセット生成を高速化するため、T5を用いてAPTの自動化を検討し、得られたデータセットが精度も向上することを示す。 パラフレーズ検出モデルが文レベルの意味等価性をよりよく検出できるようにするために、パラフレーズ検出の意味を議論し、データセットをリリースする。

If two sentences have the same meaning, it should follow that they are equivalent in their inferential properties, i.e., each sentence should textually entail the other. However, many paraphrase datasets currently in widespread use rely on a sense of paraphrase based on word overlap and syntax. Can we teach them instead to identify paraphrases in a way that draws on the inferential properties of the sentences, and is not over-reliant on lexical and syntactic similarities of a sentence pair? We apply the adversarial paradigm to this question, and introduce a new adversarial method of dataset creation for paraphrase identification: the Adversarial Paraphrasing Task (APT), which asks participants to generate semantically equivalent (in the sense of mutually implicative) but lexically and syntactically disparate paraphrases. These sentence pairs can then be used both to test paraphrase identification models (which get barely random accuracy) and then improve their performance. To accelerate dataset generation, we explore automation of APT using T5, and show that the resulting dataset also improves accuracy. We discuss implications for paraphrase detection and release our dataset in the hope of making paraphrase detection models better able to detect sentence-level meaning equivalence.
翻訳日:2021-06-17 10:41:27 公開日:2021-06-14
# (参考訳) 属性操作による顔年齢の進行 [全文訳有]

Face Age Progression With Attribute Manipulation ( http://arxiv.org/abs/2106.07696v1 )

ライセンス: CC BY 4.0
Sinzith Tatikonda, Athira Nambiar and Anurag Mittal(参考訳) 顔は個人認識の主要な手段の1つである。 老化の過程では、人間の顔は時間、属性、天気、その他の主題固有のバリエーションなど、多くの要因に左右される。 これらの因子の影響は顔の老化の文献ではよく研究されなかった。 本稿では,「FAWAM (Face Age Progression With Attribute Manipulation) 」という,新たな包括的モデルを提案する。 異なる年齢で顔画像を生成すると同時に、属性と他の主題固有の特性を同時に生成する。 タスクはボトムアップ方式、すなわち2つのサブモジュールとして扱う。 顔年齢の進行と顔属性の操作。 顔の老化にはピラミッド生成対向ネットワークを用いた属性意識型顔の老化モデルを用い,本質的な被写体の特徴を維持しつつ,年齢に応じた顔の変化をモデル化する。 顔属性の操作には、年齢処理された顔画像を所望の属性で操作し、他の詳細をそのまま保存し、属性生成対向ネットワークアーキテクチャを活用する。 我々は,標準大規模データセットを広範囲に分析し,定量的・定性的に有意な性能を実現する。

Face is one of the predominant means of person recognition. In the process of ageing, human face is prone to many factors such as time, attributes, weather and other subject specific variations. The impact of these factors were not well studied in the literature of face aging. In this paper, we propose a novel holistic model in this regard viz., ``Face Age progression With Attribute Manipulation (FAWAM)", i.e. generating face images at different ages while simultaneously varying attributes and other subject specific characteristics. We address the task in a bottom-up manner, as two submodules i.e. face age progression and face attribute manipulation. For face aging, we use an attribute-conscious face aging model with a pyramidal generative adversarial network that can model age-specific facial changes while maintaining intrinsic subject specific characteristics. For facial attribute manipulation, the age processed facial image is manipulated with desired attributes while preserving other details unchanged, leveraging an attribute generative adversarial network architecture. We conduct extensive analysis in standard large scale datasets and our model achieves significant performance both quantitatively and qualitatively.
翻訳日:2021-06-17 10:26:51 公開日:2021-06-14
# (参考訳) 半教師付き転写仮説における不均一性を用いた符号切替音声認識の改良 [全文訳有]

Using heterogeneity in semi-supervised transcription hypotheses to improve code-switched speech recognition ( http://arxiv.org/abs/2106.07699v1 )

ライセンス: CC BY 4.0
Andrew Slottje, Shannon Wotherspoon, William Hartmann, Matthew Snover, Owen Kimball(参考訳) コード切替音声のモデリングは,音声認識(ASR)において重要な問題である。 ラベル付き符号切替データは稀であり、単言語データはしばしば符号切替音声のモデル化に用いられる。 これらの単言語データは、コード-スイッチペアの言語のいずれかとより密接に一致する可能性がある。 このような非対称性は、より適合した言語に対してバイアス予測を行い、全体のモデル性能を低下させる可能性がある。 この問題に対処するために,コードスイッチングASRのための半教師付きアプローチを提案する。 英語と中国語のコードスイッチングの事例と,単言語データを用いて,ラベルなしコード切り換えデータのアノテーションのためのバイリンガル「記述モデル」を構築する問題点について考察した。 まず、複数の転写モデルを構築し、それぞれの予測が英語かマンダリンに偏っているようにします。 次に、これらのバイアス付き転写を信頼に基づく選択で組み合わせます。 この戦略は、半教師付きトレーニングにおいて優れた書き起こしを生成し、最も適合した単言語データのみで構築された転写モデルに依存する半教師付きシステムと比較して19%の相対的な改善が得られる。

Modeling code-switched speech is an important problem in automatic speech recognition (ASR). Labeled code-switched data are rare, so monolingual data are often used to model code-switched speech. These monolingual data may be more closely matched to one of the languages in the code-switch pair. We show that such asymmetry can bias prediction toward the better-matched language and degrade overall model performance. To address this issue, we propose a semi-supervised approach for code-switched ASR. We consider the case of English-Mandarin code-switching, and the problem of using monolingual data to build bilingual "transcription models'' for annotation of unlabeled code-switched data. We first build multiple transcription models so that their individual predictions are variously biased toward either English or Mandarin. We then combine these biased transcriptions using confidence-based selection. This strategy generates a superior transcript for semi-supervised training, and obtains a 19% relative improvement compared to a semi-supervised system that relies on a transcription model built with only the best-matched monolingual data.
翻訳日:2021-06-17 10:15:39 公開日:2021-06-14
# (参考訳) ニューラルアーキテクチャ探索による深層形態素ネットワークの学習 [全文訳有]

Learning Deep Morphological Networks with Neural Architecture Search ( http://arxiv.org/abs/2106.07714v1 )

ライセンス: CC BY 4.0
Yufei Hu, Nacim Belkhir, Jesus Angulo, Angela Yao, Gianni Franchi(参考訳) ディープニューラルネットワーク(DNN)は、線形および非線形プロセスの逐次実行によって生成される。 線形手続きと非線形手続きの組み合わせは、十分に深い特徴空間を生成するのに不可欠である。 非線型作用素の大多数は活性化関数やプール関数の導出である。 数学的形態学は、様々な画像処理問題に対して非線形作用素を提供する数学の一分野である。 本稿では,これらの操作をエンドツーエンドのディープラーニングフレームワークに統合する方法について検討する。 DNNは、特定のジョブの現実的な表現を取得するように設計されている。 形態学演算子は、画像に描かれた物体の形状に関する詳細な情報を伝達するトポロジカル記述子を与える。 形態論的演算子をDNNに組み込むメタラーニング法を提案する。 学習アーキテクチャは、画像分類やエッジ検出を含む様々なタスクにおいて、新しい形態的操作によってDNNの性能が著しく向上することを示す。

Deep Neural Networks (DNNs) are generated by sequentially performing linear and non-linear processes. Using a combination of linear and non-linear procedures is critical for generating a sufficiently deep feature space. The majority of non-linear operators are derivations of activation functions or pooling functions. Mathematical morphology is a branch of mathematics that provides non-linear operators for a variety of image processing problems. We investigate the utility of integrating these operations in an end-to-end deep learning framework in this paper. DNNs are designed to acquire a realistic representation for a particular job. Morphological operators give topological descriptors that convey salient information about the shapes of objects depicted in images. We propose a method based on meta-learning to incorporate morphological operators into DNNs. The learned architecture demonstrates how our novel morphological operations significantly increase DNN performance on various tasks, including picture classification and edge detection.
翻訳日:2021-06-17 10:05:51 公開日:2021-06-14
# (参考訳) ハイブリッドPseudotranscriptを用いた低資源系列列列ASRモデルにおけるドメインミスマッチの克服 [全文訳有]

Overcoming Domain Mismatch in Low Resource Sequence-to-Sequence ASR Models using Hybrid Generated Pseudotranscripts ( http://arxiv.org/abs/2106.07716v1 )

ライセンス: CC BY 4.0
Chak-Fai Li, Francis Keith, William Hartmann, Matthew Snover, Owen Kimball(参考訳) sequence-to-sequence (seq2seq)モデルは、大量のトレーニングデータが利用可能である場合、自動音声認識(asr)タスク用のハイブリッドモデルと競合する。 しかし、Seq2seqモデルではデータの分散性とドメイン適応がハイブリッドモデルよりも問題となる。 書き起こされたデータは会話型電話音声(cts)であり、評価データは放送ニュース(bn)であるiarpa資料プログラムから5つの言語のコーパスを調べる。 ハイブリッドモデルとSeq2seqモデルの間には,そのようなデータ条件に大きな初期ギャップがあることが示され,このハイブリッドモデルでは,追加言語モデル(LM)データを用いることで,さらなる改善が可能である。 我々は、BNドメインで主に書き起こされていないデータの追加セットを半教師あり訓練に使用します。 半教師付きトレーニングでは、転写されたデータに基づいて訓練されたシードモデルが、さらなるトレーニングのために未ラベルのドメインマッチングデータの仮説化された転写文を生成する。 擬似書き起こしのための拡張された言語モデルを持つハイブリッドモデルを使用することで、seq2seqモデルを5つの言語で66.7%の平均単語誤り率(wer)から29.0% werに改善することができる。 これにより、Seq2seqモデルは競争力のある運用ポイントとなるが、ハイブリッドモデルはさらなるLMデータを使用して優位性を維持することができる。

Sequence-to-sequence (seq2seq) models are competitive with hybrid models for automatic speech recognition (ASR) tasks when large amounts of training data are available. However, data sparsity and domain adaptation are more problematic for seq2seq models than their hybrid counterparts. We examine corpora of five languages from the IARPA MATERIAL program where the transcribed data is conversational telephone speech (CTS) and evaluation data is broadcast news (BN). We show that there is a sizable initial gap in such a data condition between hybrid and seq2seq models, and the hybrid model is able to further improve through the use of additional language model (LM) data. We use an additional set of untranscribed data primarily in the BN domain for semisupervised training. In semisupervised training, a seed model trained on transcribed data generates hypothesized transcripts for unlabeled domain-matched data for further training. By using a hybrid model with an expanded language model for pseudotranscription, we are able to improve our seq2seq model from an average word error rate (WER) of 66.7% across all five languages to 29.0% WER. While this puts the seq2seq model at a competitive operating point, hybrid models are still able to use additional LM data to maintain an advantage.
翻訳日:2021-06-17 09:46:26 公開日:2021-06-14
# (参考訳) 残留ランダム化による高次元線形モデルのロバスト推論

Robust Inference for High-Dimensional Linear Models via Residual Randomization ( http://arxiv.org/abs/2106.07717v1 )

ライセンス: CC BY 4.0
Y. Samuel Wang, Si Kai Lee, Panos Toulis, Mladen Kolar(参考訳) 高次元設定におけるロバストなラッソ型推論のための残差ランダム化手法を提案する。 サブガウジアンエラーに焦点を当てた以前の作業と比較すると、提案手法はヘビーテールのコヴァリエートやエラーを含む設定で頑健に動作するよう設計されている。 さらに,本手法はクラスタ化エラーの下では有効であり,実際は重要であるが,これまでは概ね見過ごされてきた。 広範囲なシミュレーションを通じて,提案手法の適用範囲を理論的に検討した。 特に,本手法は,共変量の分布が重く,サンプルサイズが小さく,従来文献で研究されていた「よく振る舞う」という標準的設定が競争力を保ちながら,挑戦的かつより現実的な設定において,最先端の手法よりも優れることを示す。

We propose a residual randomization procedure designed for robust Lasso-based inference in the high-dimensional setting. Compared to earlier work that focuses on sub-Gaussian errors, the proposed procedure is designed to work robustly in settings that also include heavy-tailed covariates and errors. Moreover, our procedure can be valid under clustered errors, which is important in practice, but has been largely overlooked by earlier work. Through extensive simulations, we illustrate our method's wider range of applicability as suggested by theory. In particular, we show that our method outperforms state-of-art methods in challenging, yet more realistic, settings where the distribution of covariates is heavy-tailed or the sample size is small, while it remains competitive in standard, ``well behaved" settings previously studied in the literature.
翻訳日:2021-06-17 09:32:33 公開日:2021-06-14
# (参考訳) 双曲的埋め込みを用いた健康レコメンデーションシステムへのドメイン知識の導入 [全文訳有]

Incorporating Domain Knowledge into Health Recommender Systems using Hyperbolic Embeddings ( http://arxiv.org/abs/2106.07720v1 )

ライセンス: CC BY 4.0
Joel Peito, Qiwei Han(参考訳) 他の多くの領域とは対照的に、健康サービスにおけるレコメンダシステムは、個人の健康ニーズに対応する有意義でパーソナライズされたレコメンデーションを提供するのに役立つため、特に健康ドメイン知識の編入から恩恵を受ける可能性がある。 近年,双曲型poincare空間への健康知識の階層的埋め込みを可能にする表現学習の進歩に伴い,トランスファー学習によるicd-9符号の事前学習により強化された患者の健康プロファイルに基づくプライマリケアにおける患者と医師とのマッチングのためのコンテンツベースレコメンダシステムを提案する。 提案モデルは,推奨精度の観点から従来のモデルよりも優れており,患者と医師の関係を改善する上で重要なビジネス上の意味を持つ。

In contrast to many other domains, recommender systems in health services may benefit particularly from the incorporation of health domain knowledge, as it helps to provide meaningful and personalised recommendations catering to the individual's health needs. With recent advances in representation learning enabling the hierarchical embedding of health knowledge into the hyperbolic Poincare space, this work proposes a content-based recommender system for patient-doctor matchmaking in primary care based on patients' health profiles, enriched by pre-trained Poincare embeddings of the ICD-9 codes through transfer learning. The proposed model outperforms its conventional counterpart in terms of recommendation accuracy and has several important business implications for improving the patient-doctor relationship.
翻訳日:2021-06-17 09:31:30 公開日:2021-06-14
# (参考訳) 交渉エージェントの進化のためのターゲットデータ取得 [全文訳有]

Targeted Data Acquisition for Evolving Negotiation Agents ( http://arxiv.org/abs/2106.07728v1 )

ライセンス: CC BY 4.0
Minae Kwon, Siddharth Karamcheti, Mariano-Florentino Cuellar, Dorsa Sadigh(参考訳) 成功する交渉者は、自己利益と協力のために最適化のバランスをとる方法を学ぶ必要がある。 しかし、現在の人工交渉エージェントは、訓練された静的データセットの品質に大きく依存し、自己関心と協力のバランスをとる適応的な応答を形作る能力を制限する。 このため、これらのエージェントは高い実用性または協調性を達成することができるが、両方は達成できない。 これを解決するために,専門家の託宣のアノテーションを用いた強化学習エージェントの探索を指導するターゲットデータ取得フレームワークを導入する。 このガイド付き探索は、学習エージェントに静的データセットを超えて新しい交渉戦略を開発するようインセンティブを与える。 その結果, エージェントは, 通常の教師付き学習法や強化学習法と比較して, シミュレーションおよびヒューマンパートナーとの交渉において, より高位に, よりパレートな最適解を得ることができた。 この傾向は、対象とするデータ取得フレームワークを使用したエージェントを、教師付き学習と強化学習の混合で訓練されたエージェントの亜種と比較する場合や、ユーティリティとパレート最適化を明示的に最適化した報酬関数を使用したエージェントと比較する場合にも有効である。

Successful negotiators must learn how to balance optimizing for self-interest and cooperation. Yet current artificial negotiation agents often heavily depend on the quality of the static datasets they were trained on, limiting their capacity to fashion an adaptive response balancing self-interest and cooperation. For this reason, we find that these agents can achieve either high utility or cooperation, but not both. To address this, we introduce a targeted data acquisition framework where we guide the exploration of a reinforcement learning agent using annotations from an expert oracle. The guided exploration incentivizes the learning agent to go beyond its static dataset and develop new negotiation strategies. We show that this enables our agents to obtain higher-reward and more Pareto-optimal solutions when negotiating with both simulated and human partners compared to standard supervised learning and reinforcement learning methods. This trend additionally holds when comparing agents using our targeted data acquisition framework to variants of agents trained with a mix of supervised learning and reinforcement learning, or to agents using tailored reward functions that explicitly optimize for utility and Pareto-optimality.
翻訳日:2021-06-17 09:21:58 公開日:2021-06-14
# (参考訳) オーディオ・ビジュアル・デバーベレーションの学習 [全文訳有]

Learning Audio-Visual Dereverberation ( http://arxiv.org/abs/2106.07732v1 )

ライセンス: CC BY 4.0
Changan Chen, Wei Sun, David Harwath, Kristen Grauman(参考訳) 環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。 以前の作業では、オーディオモダリティのみに基づいた残響除去を試みた。 私たちのアイデアは、音声と視覚の観察から音声を推論することを学ぶことです。 人間の話者を囲む視覚環境は、部屋の形状、材料、話者の位置に関する重要な手がかりを示し、これらすべてが音声ストリームの正確な残響効果に影響を与えている。 本研究では,音と視覚シーンの両方に基づいて残響除去を学習するエンド・ツー・エンドのアプローチであるvida(visual-informed dereverberation of audio)を提案する。 そこで本研究では,実世界の3dスキャンによる室内音響の実環境における音声のリアルな音響表現を用いた大規模データセットを開発した。 音声強調、音声認識、話者識別のためのシミュレーションと実画像の両方に対する我々のアプローチを実証し、従来の音声のみの手法よりも大幅に改善されていることを示す。 プロジェクトページ: http://vision.cs.ute xas.edu/ projects/learning-au dio-visual-deeverber ation

Reverberation from audio reflecting off surfaces and objects in the environment not only degrades the quality of speech for human perception, but also severely impacts the accuracy of automatic speech recognition. Prior work attempts to remove reverberation based on the audio modality only. Our idea is to learn to dereverberate speech from audio-visual observations. The visual environment surrounding a human speaker reveals important cues about the room geometry, materials, and speaker location, all of which influence the precise reverberation effects in the audio stream. We introduce Visually-Informed Dereverberation of Audio (VIDA), an end-to-end approach that learns to remove reverberation based on both the observed sounds and visual scene. In support of this new task, we develop a large-scale dataset that uses realistic acoustic renderings of speech in real-world 3D scans of homes offering a variety of room acoustics. Demonstrating our approach on both simulated and real imagery for speech enhancement, speech recognition, and speaker identification, we show it achieves state-of-the-art performance and substantially improves over traditional audio-only methods. Project page: http://vision.cs.ute xas.edu/projects/lea rning-audio-visual-d ereverberation.
翻訳日:2021-06-17 09:00:23 公開日:2021-06-14
# (参考訳) BERTはできるのか? --考古学領域における情報検索のためのエンティティ認識 [全文訳有]

Can BERT Dig It? -- Named Entity Recognition for Information Retrieval in the Archaeology Domain ( http://arxiv.org/abs/2106.07742v1 )

ライセンス: CC BY 4.0
Alex Brandsen, Suzan Verberne, Karsten Lambers, Milco Wansleeben(参考訳) 考古学文献の量は急速に増えている。 最近まで、これらのデータはメタデータ検索を通じてのみアクセス可能だった。 我々は、大規模な考古学的テキストコレクションのためのテキスト検索エンジンを実装した($\sim 658$ million words)。 考古学的IRでは、場所、期間、アーティファクトといったドメイン固有の実体が中心的な役割を果たす。 これは、完全なコレクションに考古学的な名前付きエンティティを注釈する名前付きエンティティ認識(ner)モデルの開発を動機付けた。 本稿では,オランダの考古学文献を事前学習した BERT モデルである ArcheoBERTje について述べる。 本稿では,名前付きエンティティ認識タスクにおけるモデルの品質と出力を,汎用多言語モデルと汎用オランダモデルと比較する。 また,複数のBERTモデルを組み合わせて,最適なBERTモデルとドメインシソーラスを条件付きランダム場(CRF)を用いて組み合わせるアンサンブル法についても検討した。 ArcheoBERTjeは、多言語モデルとオランダモデルの両方で、ラン間の標準偏差が小さく、平均F1スコアが0.735に達している。 このモデルは、3つのモデルを組み合わせたアンサンブルメソッドよりも優れています。 ArcheoBERTje予測とthesaurusからの明確なドメイン知識を組み合わせることで、F1スコアは向上しなかった。 我々は,BERTモデルの語彙と出力の違いを定量的に定性的に分析し,特定のドメインに対する微調整の効果について貴重な知見を提供する。 以上の結果から,考古学などの高度に特定のテキスト領域において,ドメイン固有データによる事前学習により,NER上のモデルの品質が,文献の他の領域よりもはるかに大きく向上すること,ドメイン固有事前学習がシソーラスからのドメイン知識の追加を不要にすること,などが示唆された。

The amount of archaeological literature is growing rapidly. Until recently, these data were only accessible through metadata search. We implemented a text retrieval engine for a large archaeological text collection ($\sim 658$ Million words). In archaeological IR, domain-specific entities such as locations, time periods, and artefacts, play a central role. This motivated the development of a named entity recognition (NER) model to annotate the full collection with archaeological named entities. In this paper, we present ArcheoBERTje, a BERT model pre-trained on Dutch archaeological texts. We compare the model's quality and output on a Named Entity Recognition task to a generic multilingual model and a generic Dutch model. We also investigate ensemble methods for combining multiple BERT models, and combining the best BERT model with a domain thesaurus using Conditional Random Fields (CRF). We find that ArcheoBERTje outperforms both the multilingual and Dutch model significantly with a smaller standard deviation between runs, reaching an average F1 score of 0.735. The model also outperforms ensemble methods combining the three models. Combining ArcheoBERTje predictions and explicit domain knowledge from the thesaurus did not increase the F1 score. We quantitatively and qualitatively analyse the differences between the vocabulary and output of the BERT models on the full collection and provide some valuable insights in the effect of fine-tuning for specific domains. Our results indicate that for a highly specific text domain such as archaeology, further pre-training on domain-specific data increases the model's quality on NER by a much larger margin than shown for other domains in the literature, and that domain-specific pre-training makes the addition of domain knowledge from a thesaurus unnecessary.
翻訳日:2021-06-17 08:41:48 公開日:2021-06-14
# (参考訳) 潜在空間における干渉としての対物的説明

Counterfactual Explanations as Interventions in Latent Space ( http://arxiv.org/abs/2106.07754v1 )

ライセンス: CC BY 4.0
Riccardo Crupi, Alessandro Castelnovo, Daniele Regoli, Beatriz San Miguel Gonzalez(参考訳) 説明可能な人工知能(XAI)は、人工知能(AI)システムの技術的側面と非技術的側面の両方を理解するための一連の技術である。 XAIは、人間の自律性、害の予防、透明性、説明責任などの基本的な特徴を特徴とする「emph{trustworthy} Artificial Intelligence」のますます重要な需要を満たすために不可欠である。 XAI技術では、デファクト的な説明は、エンドユーザに望ましい結果を達成するために変更が必要な機能(とその対応する値)セットを提供することを目的としています。 現在のアプローチでは、提案された説明の達成に必要な行動の実現可能性を考慮することはめったになく、特にそのような行動の因果的影響を考慮しない。 本稿では,データから因果関係を設計し,かつ,提案したプロファイルに到達するための実用的なレコメンデーションを提供する手法として,潜伏空間における干渉としての対実的説明(CEILS)を提案する。 さらに,提案手法は,既存のファクトファクトジェネレータアルゴリズム上に設定できるという利点があり,因果制約を課すことの複雑さを最小限に抑えることができる。 提案手法の有効性を,合成データセットと実データ(金融ドメインの独自データセットを含む)を用いて異なる実験群を用いて実証する。

Explainable Artificial Intelligence (XAI) is a set of techniques that allows the understanding of both technical and non-technical aspects of Artificial Intelligence (AI) systems. XAI is crucial to help satisfying the increasingly important demand of \emph{trustworthy} Artificial Intelligence, characterized by fundamental characteristics such as respect of human autonomy, prevention of harm, transparency, accountability, etc. Within XAI techniques, counterfactual explanations aim to provide to end users a set of features (and their corresponding values) that need to be changed in order to achieve a desired outcome. Current approaches rarely take into account the feasibility of actions needed to achieve the proposed explanations, and in particular they fall short of considering the causal impact of such actions. In this paper, we present Counterfactual Explanations as Interventions in Latent Space (CEILS), a methodology to generate counterfactual explanations capturing by design the underlying causal relations from the data, and at the same time to provide feasible recommendations to reach the proposed profile. Moreover, our methodology has the advantage that it can be set on top of existing counterfactuals generator algorithms, thus minimising the complexity of imposing additional causal constrains. We demonstrate the effectiveness of our approach with a set of different experiments using synthetic and real datasets (including a proprietary dataset of the financial domain).
翻訳日:2021-06-17 08:17:20 公開日:2021-06-14
# (参考訳) 境界値問題の線形時間確率解 [全文訳有]

Linear-Time Probabilistic Solutions of Boundary Value Problems ( http://arxiv.org/abs/2106.07761v1 )

ライセンス: CC BY 4.0
Nicholas Kr\"amer and Philipp Hennig(参考訳) 本稿では,境界条件下での常微分方程式である境界値問題(BVP)の確率解に対する高速アルゴリズムを提案する。 従来の研究とは対照的に、我々はガウス-マルコフ先行モデルを導入し、特にBVPに最適化し、線形時間における解の後方分布を、確立された非確率的手法に匹敵する品質とコストで計算できるようにする。 我々のモデルはさらに不確かさの定量化、メッシュの精密化、ハイパーパラメータ適応をもたらす。 これらの実践的考察がスキームの効率に与える影響を実証する。 さらに、これは(確率的でないアルゴリズムとは対照的に)統計的モデリングツールチェーンの他の部分とネイティブに互換性のある、実用的に利用可能な確率的BVPソルバをもたらす。

We propose a fast algorithm for the probabilistic solution of boundary value problems (BVPs), which are ordinary differential equations subject to boundary conditions. In contrast to previous work, we introduce a Gauss--Markov prior and tailor it specifically to BVPs, which allows computing a posterior distribution over the solution in linear time, at a quality and cost comparable to that of well-established, non-probabilistic methods. Our model further delivers uncertainty quantification, mesh refinement, and hyperparameter adaptation. We demonstrate how these practical considerations positively impact the efficiency of the scheme. Altogether, this results in a practically usable probabilistic BVP solver that is (in contrast to non-probabilistic algorithms) natively compatible with other parts of the statistical modelling tool-chain.
翻訳日:2021-06-17 08:16:16 公開日:2021-06-14
# (参考訳) Reweighted Coinのフリップ側:適応型ドロップアウトと正規化の二重性 [全文訳有]

The Flip Side of the Reweighted Coin: Duality of Adaptive Dropout and Regularization ( http://arxiv.org/abs/2106.07769v1 )

ライセンス: CC BY 4.0
Daniel LeJeune and Hamid Javadi and Richard G. Baraniuk(参考訳) 深層(神経)ネットワークをスパース化する最も成功した手法は、トレーニングを通じてネットワークの重みを適応的に隠蔽する手法である。 線形の場合、このマスキングやドロップアウトを調べることで、そのような適応的手法と正規化の双対性を「$\eta$-trick」と呼ばれる、反復的に再重み付けされた最適化として示すことによって明らかにする。 単調な方法で重みに適応するドロップアウト戦略は、効果的な準正則化ペナルティに対応し、スパース解をもたらすことを示す。 スパース最適化によく用いられる古典的罰則に非常によく似た,いくつかの一般的なスパシフィケーション戦略に対する効果的な罰則を得る。 本研究では, 適応型ドロップアウト法と古典的手法の類似した実験的挙動を, ネットワークスペーシフィケーションの課題において実証し, 理論を検証した。

Among the most successful methods for sparsifying deep (neural) networks are those that adaptively mask the network weights throughout training. By examining this masking, or dropout, in the linear case, we uncover a duality between such adaptive methods and regularization through the so-called "$\eta$-trick" that casts both as iteratively reweighted optimizations. We show that any dropout strategy that adapts to the weights in a monotonic way corresponds to an effective subquadratic regularization penalty, and therefore leads to sparse solutions. We obtain the effective penalties for several popular sparsification strategies, which are remarkably similar to classical penalties commonly used in sparse optimization. Considering variational dropout as a case study, we demonstrate similar empirical behavior between the adaptive dropout method and classical methods on the task of deep network sparsification, validating our theory.
翻訳日:2021-06-17 07:56:13 公開日:2021-06-14
# (参考訳) モーションリターゲティングのためのフローガイド変換可能なボトルネックネットワーク [全文訳有]

Flow Guided Transformable Bottleneck Networks for Motion Retargeting ( http://arxiv.org/abs/2106.07771v1 )

ライセンス: CC BY 4.0
Jian Ren, Menglei Chai, Oliver J. Woodford, Kyle Olszewski, Sergey Tulyakov(参考訳) ヒューマンモーションリターゲティング(human motion retargeting)は、ある人の動きを「運転」ビデオまたは画像セットで他の人に転送することを目的としている。 既存の取り組みでは、対象者毎の長いトレーニングビデオを活用して、主題固有のモーショントランスファーモデルをトレーニングしている。 しかし,各モデルが対象対象対象の動画のみを生成できるため,学習ビデオの取得と処理に手間がかかるため,そのような手法のスケーラビリティは限られている。 ターゲットからの1枚または数枚の画像のみを必要とするモーショントランスファー技術が最近注目されている。 この課題に対処する手法は、一般的に2次元または明示的な3次元表現を用いて動きを伝達し、それによって正確な幾何学的モデリングやエンドツーエンドの学習表現の柔軟性を犠牲にする。 剛体オブジェクトの新しいビューと操作を描画するtransformable bottleneck networkに着想を得て,画像コンテンツの暗黙的なボリューム表現に基づくアプローチを提案し,ボリュームフローフィールドを用いて空間的に操作する手法を提案する。 複雑な動作を行う非剛性な被験者の入力画像の適切な領域からのコンテンツを1つの暗黙の容積表現に組み合わせることのできる、異なる身体のポーズにまたがる情報をどのように集約するかという課題に対処する。 これにより、動いている人のビデオだけから3d表現を学べるのです。 3Dオブジェクトの理解とエンドツーエンドのレンダリングを両立させて、この分類学的に新しい表現は、定量的および定性的な評価で示されるように、最先端の画像生成品質を提供する。

Human motion retargeting aims to transfer the motion of one person in a "driving" video or set of images to another person. Existing efforts leverage a long training video from each target person to train a subject-specific motion transfer model. However, the scalability of such methods is limited, as each model can only generate videos for the given target subject, and such training videos are labor-intensive to acquire and process. Few-shot motion transfer techniques, which only require one or a few images from a target, have recently drawn considerable attention. Methods addressing this task generally use either 2D or explicit 3D representations to transfer motion, and in doing so, sacrifice either accurate geometric modeling or the flexibility of an end-to-end learned representation. Inspired by the Transformable Bottleneck Network, which renders novel views and manipulations of rigid objects, we propose an approach based on an implicit volumetric representation of the image content, which can then be spatially manipulated using volumetric flow fields. We address the challenging question of how to aggregate information across different body poses, learning flow fields that allow for combining content from the appropriate regions of input images of highly non-rigid human subjects performing complex motions into a single implicit volumetric representation. This allows us to learn our 3D representation solely from videos of moving people. Armed with both 3D object understanding and end-to-end learned rendering, this categorically novel representation delivers state-of-the-art image generation quality, as shown by our quantitative and qualitative evaluations.
翻訳日:2021-06-17 07:21:24 公開日:2021-06-14
# (参考訳) 音源と直感的知覚量への音楽感情予測の追跡 [全文訳有]

Tracing Back Music Emotion Predictions to Sound Sources and Intuitive Perceptual Qualities ( http://arxiv.org/abs/2106.07787v1 )

ライセンス: CC BY 4.0
Shreyan Chowdhury, Verena Praher, Gerhard Widmer(参考訳) 楽曲感情認識はmir(music information retrieval)研究において重要な課題である。 課題の主観的性質や音楽ジャンル間の感情的手がかりの変化などの要因から、信頼性と一般化可能なモデルを開発する上で、依然として大きな課題がある。 より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるもの、そして特定の入力の予測方法を理解することである。 これまでの研究では,高レベルの感情予測に接続するスペクトル画像セグメントを用いて,容易に解釈可能な知覚的特徴の層を通じてモデル予測の説明を導出する方法を示した。 しかし、このスキームはスペクトログラムレベルで直感的な音楽理解性に欠ける。 本研究では,音源分離に基づく説明器であるaudiolimeと,中間レベルの知覚的特徴を融合することにより,入力音声と出力感情予測との直感的な接続連鎖を形成することにより,このギャップを埋める。 偏りのある感情予測モデルをデバッグするために,本手法の有効性を示す。

Music emotion recognition is an important task in MIR (Music Information Retrieval) research. Owing to factors like the subjective nature of the task and the variation of emotional cues between musical genres, there are still significant challenges in developing reliable and generalizable models. One important step towards better models would be to understand what a model is actually learning from the data and how the prediction for a particular input is made. In previous work, we have shown how to derive explanations of model predictions in terms of spectrogram image segments that connect to the high-level emotion prediction via a layer of easily interpretable perceptual features. However, that scheme lacks intuitive musical comprehensibility at the spectrogram level. In the present work, we bridge this gap by merging audioLIME -- a source-separation based explainer -- with mid-level perceptual features, thus forming an intuitive connection chain between the input audio and the output emotion predictions. We demonstrate the usefulness of this method by applying it to debug a biased emotion prediction model.
翻訳日:2021-06-17 07:05:26 公開日:2021-06-14
# (参考訳) 不完全な文字の区分けにおける韻律の活用の評価 [全文訳有]

Assessing the Use of Prosody in Constituency Parsing of Imperfect Transcripts ( http://arxiv.org/abs/2106.07794v1 )

ライセンス: CC BY 4.0
Trang Tran and Mari Ostendorf(参考訳) 本研究は,会話音声の自動認識書き起こしにおける構成構文解析について検討する。 ニューラルパーサは、韻律特徴を伴う文脈化された単語ベクトルを利用する文エンコーダに基づいており、構文解析を伴う韻律特徴抽出を共同学習する。 我々は不完全な転写文を解析する際の韻律の有用性を評価する。 自動音声認識(ASR)エラーの書き起こしは、N-best再ランクフレームワークにパーサを適用することで行う。 Switchboardでの実験では, 1-best ASR出力のパースに対して, 13-15%のオラクルN-bestゲインが得られ, 単語認識誤り率に大きな影響を与えている。 韻律は利得の大きな部分を提供し、分析の結果、機能語を回復することでより文法的な発話につながることが示唆された。

This work explores constituency parsing on automatically recognized transcripts of conversational speech. The neural parser is based on a sentence encoder that leverages word vectors contextualized with prosodic features, jointly learning prosodic feature extraction with parsing. We assess the utility of the prosody in parsing on imperfect transcripts, i.e. transcripts with automatic speech recognition (ASR) errors, by applying the parser in an N-best reranking framework. In experiments on Switchboard, we obtain 13-15% of the oracle N-best gain relative to parsing the 1-best ASR output, with insignificant impact on word recognition error rate. Prosody provides a significant part of the gain, and analyses suggest that it leads to more grammatical utterances via recovering function words.
翻訳日:2021-06-17 06:53:17 公開日:2021-06-14
# (参考訳) ルール表現によるニューラルネットワークの制御 [全文訳有]

Controlling Neural Networks with Rule Representations ( http://arxiv.org/abs/2106.07804v1 )

ライセンス: CC BY 4.0
Sungyong Seo, Sercan O. Arik, Jinsung Yoon, Xiang Zhang, Kihyuk Sohn, Tomas Pfister(参考訳) 本研究では,ルールを深層学習に統合する新たな学習手法を提案する。 制御可能なルール表現(deepctrl)を備えたディープニューラルネットワークは、ルールエンコーダをルールベースの目標と結合したモデルに組み込んで、意思決定のための共有表現を可能にする。 DeepCTRLはデータ型やモデルアーキテクチャに依存しない。 入力や出力で定義された任意の種類のルールに適用することができる。 DeepCTRLのキーとなる側面は、ルールの強度を調整するために再トレーニングを必要としないことだ。 物理、小売、ヘルスケアなど、ルールを取り入れることが重要である現実世界では、ディープラーニングのルールを教える上でDeepCTRLの有効性が示される。 DeepCTRLは、トレーニングされたモデルの信頼性と信頼性を改善し、ルール検証比率を大幅に高め、下流タスクでの精度向上を提供する。 さらに、DeepCTRLは、データサンプル上のルールの仮説テストや、データセット間の共有ルールに基づいた教師なし適応といった、新しいユースケースを可能にする。

We propose a novel training method to integrate rules into deep learning, in a way their strengths are controllable at inference. Deep Neural Networks with Controllable Rule Representations (DeepCTRL) incorporates a rule encoder into the model coupled with a rule-based objective, enabling a shared representation for decision making. DeepCTRL is agnostic to data type and model architecture. It can be applied to any kind of rule defined for inputs and outputs. The key aspect of DeepCTRL is that it does not require retraining to adapt the rule strength -- at inference, the user can adjust it based on the desired operation point on accuracy vs. rule verification ratio. In real-world domains where incorporating rules is critical -- such as Physics, Retail and Healthcare -- we show the effectiveness of DeepCTRL in teaching rules for deep learning. DeepCTRL improves the trust and reliability of the trained models by significantly increasing their rule verification ratio, while also providing accuracy gains at downstream tasks. Additionally, DeepCTRL enables novel use cases such as hypothesis testing of the rules on data samples, and unsupervised adaptation based on shared rules between datasets.
翻訳日:2021-06-17 06:42:08 公開日:2021-06-14
# (参考訳) Highdicom: 画像アノテーションの標準化と病理学および放射線学における機械学習モデル出力のためのPythonライブラリ

Highdicom: A Python library for standardized encoding of image annotations and machine learning model outputs in pathology and radiology ( http://arxiv.org/abs/2106.07806v1 )

ライセンス: CC BY-SA 4.0
Christopher P. Bridge, Chris Gorman, Steven Pieper, Sean W. Doyle, Jochen K. Lennerz, Jayashree Kalpathy-Cramer, David A. Clunie, Andriy Y. Fedorov, Markus D. Herrmann(参考訳) 機械学習は、病理学と放射線医学における画像ベースの診断に革命をもたらす。 MLモデルは研究環境で有望な結果を示しているが、相互運用性の欠如は臨床統合と評価の大きな障壁となっている。 DICOMの標準は、画像由来のアノテーションや分析結果を含むデジタル画像および関連情報の表現と通信のための情報オブジェクト定義とサービスを指定する。 しかし、標準の複雑さはMLコミュニティにおける採用の障害であり、DICOMフォーマットでのデータセットの操作を簡単にするソフトウェアライブラリやツールの必要性を生み出している。 ここでは、ハイダイコムライブラリを紹介し、Pythonプログラミング言語の高レベルアプリケーションプログラミングインタフェースを提供し、標準の低レベルの詳細を抽象化し、数行のPythonコードでDICOMフォーマットで画像由来情報のエンコーディングと復号を可能にする。 Highdicomライブラリは、画像処理と機械学習のための広範なPythonエコシステムと結びついている。 同時に、DICOM準拠のファイルの作成と解析を単純化することで、HighdicomはMLモデルのトレーニングと実行に使用されるデータを保持する医療イメージングシステムとの相互運用性を実現し、最終的に臨床使用のためにモデル出力を通信し保存する。 これらの2つの生態系をブリッジすることで、ハイディコムは、DICOM標準に準拠し、あらゆる段階において臨床システムと相互運用しながら、病理学および放射線学における最先端MLモデルのトレーニングと評価を可能にする。 ML研究の標準化を促進し,MLモデルの開発と展開プロセスの合理化を図るため,ライブラリを無償かつオープンソースにしました。

Machine learning is revolutionizing image-based diagnostics in pathology and radiology. ML models have shown promising results in research settings, but their lack of interoperability has been a major barrier for clinical integration and evaluation. The DICOM a standard specifies Information Object Definitions and Services for the representation and communication of digital images and related information, including image-derived annotations and analysis results. However, the complexity of the standard represents an obstacle for its adoption in the ML community and creates a need for software libraries and tools that simplify working with data sets in DICOM format. Here we present the highdicom library, which provides a high-level application programming interface for the Python programming language that abstracts low-level details of the standard and enables encoding and decoding of image-derived information in DICOM format in a few lines of Python code. The highdicom library ties into the extensive Python ecosystem for image processing and machine learning. Simultaneously, by simplifying creation and parsing of DICOM-compliant files, highdicom achieves interoperability with the medical imaging systems that hold the data used to train and run ML models, and ultimately communicate and store model outputs for clinical use. We demonstrate through experiments with slide microscopy and computed tomography imaging, that, by bridging these two ecosystems, highdicom enables developers to train and evaluate state-of-the-art ML models in pathology and radiology while remaining compliant with the DICOM standard and interoperable with clinical systems at all stages. To promote standardization of ML research and streamline the ML model development and deployment process, we made the library available free and open-source.
翻訳日:2021-06-17 06:19:48 公開日:2021-06-14
# (参考訳) ラベルなしデータを用いたクロスドメインFew-Shot認識のための動的蒸留ネットワーク [全文訳有]

Dynamic Distillation Network for Cross-Domain Few-Shot Recognition with Unlabeled Data ( http://arxiv.org/abs/2106.07807v1 )

ライセンス: CC BY 4.0
Ashraful Islam, Chun-Fu Chen, Rameswar Panda, Leonid Karlinsky, Rogerio Feris, Richard J. Radke(参考訳) 既存の作業の多くは、ターゲットデータセットと同じドメインの大規模なベースデータセット上で、ネットワークのメタ学習に依存しています。 我々は、ベースドメインとターゲットドメインの間に大きなシフトがあるクロスドメイン・少数ショット学習の問題に取り組む。 ラベルなしのターゲットデータによるクロスドメインの少数ショット認識の問題は、文献にはほとんど見当たらない。 STARTUPは自己学習を用いてこの問題に対処する最初の方法である。 しかし、ラベル付きベースデータセットに事前訓練された固定教師を使用して、ラベルなしターゲットサンプルのソフトラベルを作成する。 ベースデータセットとラベルなしデータセットは異なるドメインのものであるため、固定された事前訓練されたモデルでベースデータセットのクラスドメインにターゲットイメージを投影することは、準最適かもしれない。 本稿では,新規/基礎データセットからのラベルなし画像の簡易な動的蒸留法を提案する。 本稿では,教師ネットワークからのラベルなし画像の弱いバージョンからの予測を計算し,生徒ネットワークからの強化された画像と一致させることで,一貫性の正規化を課す。 教師ネットワークのパラメータは、生徒ネットワークのパラメータの指数的移動平均として更新される。 提案するネットワークは,事前学習段階でターゲット固有のクラスで訓練されていない場合でも,ターゲットドメインに容易に適応できる表現を学習できることを示す。 提案手法は,BSCD-FSLベンチマークにおいて1ショットで4.4%,5ショット分類で3.6%,従来のドメイン内複数ショット学習における競合性能を示す。 私たちのコードは、https://github.com/a srafulashiq/dynamic- cdfslで利用可能です。

Most existing works in few-shot learning rely on meta-learning the network on a large base dataset which is typically from the same domain as the target dataset. We tackle the problem of cross-domain few-shot learning where there is a large shift between the base and target domain. The problem of cross-domain few-shot recognition with unlabeled target data is largely unaddressed in the literature. STARTUP was the first method that tackles this problem using self-training. However, it uses a fixed teacher pretrained on a labeled base dataset to create soft labels for the unlabeled target samples. As the base dataset and unlabeled dataset are from different domains, projecting the target images in the class-domain of the base dataset with a fixed pretrained model might be sub-optimal. We propose a simple dynamic distillation-based approach to facilitate unlabeled images from the novel/base dataset. We impose consistency regularization by calculating predictions from the weakly-augmented versions of the unlabeled images from a teacher network and matching it with the strongly augmented versions of the same images from a student network. The parameters of the teacher network are updated as exponential moving average of the parameters of the student network. We show that the proposed network learns representation that can be easily adapted to the target domain even though it has not been trained with target-specific classes during the pretraining phase. Our model outperforms the current state-of-the art method by 4.4% for 1-shot and 3.6% for 5-shot classification in the BSCD-FSL benchmark, and also shows competitive performance on traditional in-domain few-shot learning task. Our code will be available at: https://github.com/a srafulashiq/dynamic- cdfsl.
翻訳日:2021-06-17 06:18:15 公開日:2021-06-14
# CathAI: ニューラルネットワークを用いた冠動脈造影の完全自動解釈

CathAI: Fully Automated Interpretation of Coronary Angiograms Using Neural Networks ( http://arxiv.org/abs/2106.07708v1 )

ライセンス: Link先を確認
Robert Avram, Jeffrey E. Olgin, Alvin Wan, Zeeshan Ahmed, Louis Verreault-Julien, Sean Abreau, Derek Wan, Joseph E. Gonzalez, Derek Y. So, Krishan Soni, Geoffrey H. Tison(参考訳) 冠動脈疾患 (CHD) は、アメリカ合衆国および世界中の成人死亡の主な原因であり、冠動脈造影が診断および臨床管理決定の主要な入り口である。 冠状血管造影の診断基準は, 医師による補助的視覚評価に依存する。 しかし, 血管造影は再現性に乏しく, 高度に変動し, バイアスが生じる。 ここでは,深部神経回路アルゴリズムを用いて冠動脈狭窄を推定する完全自動血管造影の解釈が可能であることを初めて示す。 私たちが開発したアルゴリズムパイプライン、すなわちCathAIは、選択されていない現実世界のアンジオグラムの自動解釈を実現するために必要な一連のタスクで、最先端のパフォーマンスを達成します。 CathAI (Algorithms 1-2) は, 正の予測値, 感度, F1スコアが90%であり, 投射角度全体, 左冠動脈造影, 右冠動脈造影で93%であった。 閉塞性冠動脈狭窄 (>=70% 狭窄) を予測するため, CathAI (Algorithm 4) は 0.862 (95% CI: 0.843-0.880) の受信部動作特性曲線 (AUC) の領域を示した。 他国の医療システムでは,cati aucは0.869 (95% ci: 0.830-0.907) で閉塞性冠動脈狭窄を予測した。 その結果,複数のニューラルネットワークが連続して機能し,実世界のアンギオグラムの自動解析に必要な複雑なタスクを実現できることがわかった。 カタイの配備は冠動脈狭窄評価の標準化と再現性を高めるのに役立ち、アルゴリズムによる血管造影検査の今後の課題を達成するための強固な基盤を提供する。

Coronary heart disease (CHD) is the leading cause of adult death in the United States and worldwide, and for which the coronary angiography procedure is the primary gateway for diagnosis and clinical management decisions. The standard-of-care for interpretation of coronary angiograms depends upon ad-hoc visual assessment by the physician operator. However, ad-hoc visual interpretation of angiograms is poorly reproducible, highly variable and bias prone. Here we show for the first time that fully-automated angiogram interpretation to estimate coronary artery stenosis is possible using a sequence of deep neural network algorithms. The algorithmic pipeline we developed--called CathAI--achieves state-of-the art performance across the sequence of tasks required to accomplish automated interpretation of unselected, real-world angiograms. CathAI (Algorithms 1-2) demonstrated positive predictive value, sensitivity and F1 score of >=90% to identify the projection angle overall and >=93% for left or right coronary artery angiogram detection, the primary anatomic structures of interest. To predict obstructive coronary artery stenosis (>=70% stenosis), CathAI (Algorithm 4) exhibited an area under the receiver operating characteristic curve (AUC) of 0.862 (95% CI: 0.843-0.880). When externally validated in a healthcare system in another country, CathAI AUC was 0.869 (95% CI: 0.830-0.907) to predict obstructive coronary artery stenosis. Our results demonstrate that multiple purpose-built neural networks can function in sequence to accomplish the complex series of tasks required for automated analysis of real-world angiograms. Deployment of CathAI may serve to increase standardization and reproducibility in coronary stenosis assessment, while providing a robust foundation to accomplish future tasks for algorithmic angiographic interpretation.
翻訳日:2021-06-16 15:36:19 公開日:2021-06-14
# 効率的な(ソフト)Q-Learningによるテキスト生成

Text Generation with Efficient (Soft) Q-Learning ( http://arxiv.org/abs/2106.07704v1 )

ライセンス: Link先を確認
Han Guo, Bowen Tan, Zhengzhong Liu, Eric P. Xing, Zhiting Hu(参考訳) 最大確率推定(MLE)はテキスト生成モデルをトレーニングするための主要なアルゴリズムである。 このパラダイムは直接監督の例に依存しており、敵攻撃や言語モデルを制御するプロンプトの生成など、多くのアプリケーションに適用できない。 一方、強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。 しかし、従来のテキスト生成用RLアルゴリズム(例えば、ポリシー勾配(オンラインRL)やQラーニング(オフラインRL)は、多くの場合、大きなシーケンス空間とスパース報酬がシーケンスの最後にのみ受信されるため、トレーニングに非効率または不安定である。 本稿では,ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を提案する。 さらに、パス一貫性学習のような最新のRLの進歩から、オン・オフ・ポリシーの更新を最大限に組み合わせ、スパース報酬から効果的に学習することができる。 我々は、このアプローチを幅広いタスクに適用し、ノイズ/ネガティブな例からの学習、敵の攻撃、プロンプト生成などに適用する。 実験では、タスク特化アルゴリズムと従来のrlメソッドを一貫して上回っていることを示す。 MLEが普及する標準的な教師付きタスクでは,テキスト生成をゼロからトレーニングすることで,競争性能と安定性を実現する。

Maximum likelihood estimation (MLE) is the predominant algorithm for training text generation models. This paradigm relies on direct supervision examples, which is not applicable to many applications, such as generating adversarial attacks or generating prompts to control language models. Reinforcement learning (RL) on the other hand offers a more flexible solution by allowing users to plug in arbitrary task metrics as reward. Yet previous RL algorithms for text generation, such as policy gradient (on-policy RL) and Q-learning (off-policy RL), are often notoriously inefficient or unstable to train due to the large sequence space and the sparse reward received only at the end of sequences. In this paper, we introduce a new RL formulation for text generation from the soft Q-learning perspective. It further enables us to draw from the latest RL advances, such as path consistency learning, to combine the best of on-/off-policy updates, and learn effectively from sparse reward. We apply the approach to a wide range of tasks, including learning from noisy/negative examples, adversarial attacks, and prompt generation. Experiments show our approach consistently outperforms both task-specialized algorithms and the previous RL methods. On standard supervised tasks where MLE prevails, our approach also achieves competitive performance and stability by training text generation from scratch.
翻訳日:2021-06-16 15:33:20 公開日:2021-06-14
# 機械学習の非現実的説明 - 課題の再考

Counterfactual Explanations for Machine Learning: Challenges Revisited ( http://arxiv.org/abs/2106.07756v1 )

ライセンス: Link先を確認
Sahil Verma, John Dickerson, Keegan Hines(参考訳) 対実的説明(CFE)は、機械学習(ML)モデルの解釈可能性の傘の下に生まれたテクニックである。 入力データポイントが$x$ではなく$x’$であれば、MLモデルの出力は$y’$ではなく$y’$になる。 MLモデルの非現実的な説明可能性はまだ業界で広く採用されていない。 この短い論文では、この普及の鈍化の理由を示唆する。 CFEの望ましい特性と、モデル監視スタートアップのMLウィングを運用した経験を概説した最近の成果を活用して、業界におけるCFEの展開を妨げる優れた障害を特定します。

Counterfactual explanations (CFEs) are an emerging technique under the umbrella of interpretability of machine learning (ML) models. They provide ``what if'' feedback of the form ``if an input datapoint were $x'$ instead of $x$, then an ML model's output would be $y'$ instead of $y$.'' Counterfactual explainability for ML models has yet to see widespread adoption in industry. In this short paper, we posit reasons for this slow uptake. Leveraging recent work outlining desirable properties of CFEs and our experience running the ML wing of a model monitoring startup, we identify outstanding obstacles hindering CFE deployment in industry.
翻訳日:2021-06-16 15:32:06 公開日:2021-06-14
# 説明可能なMLの落とし穴:産業的展望

Pitfalls of Explainable ML: An Industry Perspective ( http://arxiv.org/abs/2106.07758v1 )

ライセンス: Link先を確認
Sahil Verma, Aditya Lahiri, John P. Dickerson, Su-In Lee(参考訳) 機械学習(ML)システムは、人生に影響を及ぼす決定に貢献する上で、より顕著で中心的な役割を担います。 説明は、MLシステムのこれらの望ましい属性の中核に位置する。 新興分野はしばしば「説明可能ai(xai)」または「説明可能ml」と呼ばれる。 説明可能なMLの目標は、さまざまな利害関係者のニーズを守りながら、直感的にMLシステムの予測を説明することである。 アカデミックと産業の両方から貢献を得て、多くの説明技法が開発された。 しかし、十分な関心を集めていない既存の課題がいくつかあり、説明可能なMLを広く採用するための障害となっている。 本稿では,業界の観点から説明可能なMLの課題を列挙する。 これらの課題が将来有望な研究方向として役立ち、説明可能なMLの民主化に寄与することを期待しています。

As machine learning (ML) systems take a more prominent and central role in contributing to life-impacting decisions, ensuring their trustworthiness and accountability is of utmost importance. Explanations sit at the core of these desirable attributes of a ML system. The emerging field is frequently called ``Explainable AI (XAI)'' or ``Explainable ML.'' The goal of explainable ML is to intuitively explain the predictions of a ML system, while adhering to the needs to various stakeholders. Many explanation techniques were developed with contributions from both academia and industry. However, there are several existing challenges that have not garnered enough interest and serve as roadblocks to widespread adoption of explainable ML. In this short paper, we enumerate challenges in explainable ML from an industry perspective. We hope these challenges will serve as promising future research directions, and would contribute to democratizing explainable ML.
翻訳日:2021-06-16 15:31:56 公開日:2021-06-14
# ReTRIEVE: 効率的かつロバストな半教師付き学習のためのコアセット選択

RETRIEVE: Coreset Selection for Efficient and Robust Semi-Supervised Learning ( http://arxiv.org/abs/2106.07760v1 )

ライセンス: Link先を確認
Krishnateja Killamsetty, Xujiang Zhao, Feng Chen, Rishabh Iyer(参考訳) 半教師付き学習(SSL)アルゴリズムは,近年,ラベル付きデータシステムにおいて大きな成功を収めている。 しかし、現在の最先端のSSLアルゴリズムは計算コストが高く、計算時間とエネルギー要求がかなり必要である。 これは、多くの小規模企業や学術グループにとって大きな制限となる可能性がある。 主な洞察は、ラベルなしデータ全体の代わりにラベルなしデータのサブセットをトレーニングすることで、現在のSSLアルゴリズムがより高速に収束し、計算コストを大幅に削減できるということです。 本研究では,効率的な半教師付き学習のためのコアセット選択フレームワークであるRETRIEVEを提案する。 RETRIEVEは、選択されたコアセットがラベル付きセットの損失を最小限に抑えるように、混合離散連続二段階最適化問題を解くことでコアセットを選択する。 一段階勾配近似を用い、離散最適化問題はほぼ部分モジュラーであることを示し、単純なグリードアルゴリズムでコアセットを得る。 我々は、vat, mean-teacher, fixmatch, when used with retrieve, achieve a) fast training time, b) unlabeled dataがout-of-distribution( ood)データと不均衡からなる場合のより良いパフォーマンスを実世界で実証する。 より具体的には、ReTRIEVEは精度の低下を最小限に抑えつつ、従来のSSL設定の約3倍の高速化を実現し、不均衡やOODデータの場合の最先端(SOTA)ロバストSSLアルゴリズムと比較して5倍の高速化を実現する。

Semi-supervised learning (SSL) algorithms have had great success in recent years in limited labeled data regimes. However, the current state-of-the-art SSL algorithms are computationally expensive and entail significant compute time and energy requirements. This can prove to be a huge limitation for many smaller companies and academic groups. Our main insight is that training on a subset of unlabeled data instead of entire unlabeled data enables the current SSL algorithms to converge faster, thereby reducing the computational costs significantly. In this work, we propose RETRIEVE, a coreset selection framework for efficient and robust semi-supervised learning. RETRIEVE selects the coreset by solving a mixed discrete-continuous bi-level optimization problem such that the selected coreset minimizes the labeled set loss. We use a one-step gradient approximation and show that the discrete optimization problem is approximately submodular, thereby enabling simple greedy algorithms to obtain the coreset. We empirically demonstrate on several real-world datasets that existing SSL algorithms like VAT, Mean-Teacher, FixMatch, when used with RETRIEVE, achieve a) faster training times, b) better performance when unlabeled data consists of Out-of-Distribution( OOD) data and imbalance. More specifically, we show that with minimal accuracy degradation, RETRIEVE achieves a speedup of around 3X in the traditional SSL setting and achieves a speedup of 5X compared to state-of-the-art (SOTA) robust SSL algorithms in the case of imbalance and OOD data.
翻訳日:2021-06-16 15:31:44 公開日:2021-06-14
# ニューラル表現の比較のための再検討

Revisiting Model Stitching to Compare Neural Representations ( http://arxiv.org/abs/2106.07682v1 )

ライセンス: Link先を確認
Yamini Bansal, Preetum Nakkiran, Boaz Barak(参考訳) 我々は、ニューラルネットワークの内部表現を研究する方法論として、モデル縫合(Lenc & Vedaldi 2015)を再検討し、拡張する。 トレーニング済みの2つのモデル$a$と$b$が与えられた場合、私たちは、$a$のボトム層と$b$のトップ層を、単純なトレーニング可能なレイヤで接続することによって形成される"スティッチモデル"を考えます。 我々は、モデル縫合は強力で、おそらく未承認のツールであり、中心核アライメント(CKA)のような測度では不可能な表現の側面を明らかにする。 広範な実験を通じて,「良質なネットワークは類似した表現を学習する」というような直感的な言明に対して,モデルステッチリングを用いて定量的な検証を行い,同じアーキテクチャの優れたネットワークが,まったく異なる方法で訓練されていることを示す。 : 指導的対自己指導的学習) は, 成績が低下することなく互いに縫合することができる。 また,(1)より多くのデータ,(2)より大きな幅,(3)より多くのトレーニング時間が,より弱いモデルに"プラグインイン"され,パフォーマンスが向上することを示すことで,直観的に「より良くなる」という証拠を与える。 最後に,本実験では,sgdが到達する典型的なミニマムは,それぞれを最小限の精度で縫い合わせることができるため,モード接続性に類似した「スティッチング接続」と呼ばれるsgdの新たな構造特性を明らかにする。

We revisit and extend model stitching (Lenc & Vedaldi 2015) as a methodology to study the internal representations of neural networks. Given two trained and frozen models $A$ and $B$, we consider a "stitched model'' formed by connecting the bottom-layers of $A$ to the top-layers of $B$, with a simple trainable layer between them. We argue that model stitching is a powerful and perhaps under-appreciated tool, which reveals aspects of representations that measures such as centered kernel alignment (CKA) cannot. Through extensive experiments, we use model stitching to obtain quantitative verifications for intuitive statements such as "good networks learn similar representations' ;', by demonstrating that good networks of the same architecture, but trained in very different ways (e.g.: supervised vs. self-supervised learning), can be stitched to each other without drop in performance. We also give evidence for the intuition that "more is better'' by showing that representations learnt with (1) more data, (2) bigger width, or (3) more training time can be "plugged in'' to weaker models to improve performance. Finally, our experiments reveal a new structural property of SGD which we call "stitching connectivity'', akin to mode-connectivity: typical minima reached by SGD can all be stitched to each other with minimal change in accuracy.
翻訳日:2021-06-16 15:29:40 公開日:2021-06-14
# ヘテロフィリインスパイアされた設計によるグラフニューラルネットワークのロバスト性向上

Improving Robustness of Graph Neural Networks with Heterophily-Inspired Designs ( http://arxiv.org/abs/2106.07767v1 )

ライセンス: Link先を確認
Jiong Zhu, Junchen Jin, Michael T. Schaub, Danai Koutra(参考訳) 近年の研究では、多くのグラフニューラルネットワーク(GNN)が敵の攻撃に敏感であり、グラフ構造が意図的に乱れた場合、性能損失を被る可能性があることが明らかになっている。 別の研究の行では、多くのgnnアーキテクチャが、下位のグラフが相同性(homophily)を示すと暗黙的に仮定していることが示されている。 本研究では, 一見異なる2つの課題の関係を定式化する。 理論的には、ノードの特徴が相同性を示す標準的なシナリオでは、影響のある構造的攻撃は常にヘテロフィリーのレベルを増加させる。 そして、ヘテロフィリーをターゲットとするGNNアーキテクチャにインスパイアされた、2つの設計 -- (i) 隣人埋め込みのための別々のアグリゲータ、(ii) 集約の範囲を縮小することで、GNNの堅牢性を大幅に向上させることができる。 これらの2つの設計を特徴とするGNNは、目標攻撃時の平均性能が24.99%向上し、既存の防御機構よりも計算オーバーヘッドが小さい、最も優れた非ワクチンモデルと比較して、ロバスト性を大幅に向上できることを示す。 さらに、これらの設計は明示的な防御機構と組み合わされ、最も優れた予防接種モデルと比較して18.33%の性能向上を達成できる。

Recent studies have exposed that many graph neural networks (GNNs) are sensitive to adversarial attacks, and can suffer from performance loss if the graph structure is intentionally perturbed. A different line of research has shown that many GNN architectures implicitly assume that the underlying graph displays homophily, i.e., connected nodes are more likely to have similar features and class labels, and perform poorly if this assumption is not fulfilled. In this work, we formalize the relation between these two seemingly different issues. We theoretically show that in the standard scenario in which node features exhibit homophily, impactful structural attacks always lead to increased levels of heterophily. Then, inspired by GNN architectures that target heterophily, we present two designs -- (i) separate aggregators for ego- and neighbor-embeddings, and (ii) a reduced scope of aggregation -- that can significantly improve the robustness of GNNs. Our extensive empirical evaluations show that GNNs featuring merely these two designs can achieve significantly improved robustness compared to the best-performing unvaccinated model with 24.99% gain in average performance under targeted attacks, while having smaller computational overhead than existing defense mechanisms. Furthermore, these designs can be readily combined with explicit defense mechanisms to yield state-of-the-art robustness with up to 18.33% increase in performance under attacks compared to the best-performing vaccinated model.
翻訳日:2021-06-16 15:29:14 公開日:2021-06-14
# マスアート騒音の存在下でのブースティング

Boosting in the Presence of Massart Noise ( http://arxiv.org/abs/2106.07779v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Russell Impagliazzo, Daniel Kane, Rex Lei, Jessica Sorrell, Christos Tzamos(参考訳) 本研究では,マスアートノイズを伴う(分布非依存)pacモデルにおいて,弱い学習者の精度を高める問題について検討する。 massart ノイズモデルでは、各例のラベル $x$ は確率 $\eta(x) \leq \eta$ と独立に分類され、ここで $\eta<1/2$ である。 マスアートモデルは、ランダム分類ノイズモデルと不可知モデルの間にある。 我々の主な肯定的な結果は、Massartノイズの存在下で初めて計算効率のよいブースティングアルゴリズムであり、任意に$\eta$に近い誤分類誤差を実現する。 我々の研究の前には、この設定では非自明なブースターは知られていなかった。 さらに,この誤差上限は,標準暗号仮定の下で多項式時間ブラックボックスブースターに最適であることを示す。 我々の上界と下界はマッサートノイズを伴う分布非依存pacモデルにおけるブースティングの複雑さを特徴付ける。 正の結果の簡単な応用として、高次元矩形の和に対して、最初の効率的なマッサート学習者を与える。

We study the problem of boosting the accuracy of a weak learner in the (distribution-indepe ndent) PAC model with Massart noise. In the Massart noise model, the label of each example $x$ is independently misclassified with probability $\eta(x) \leq \eta$, where $\eta<1/2$. The Massart model lies between the random classification noise model and the agnostic model. Our main positive result is the first computationally efficient boosting algorithm in the presence of Massart noise that achieves misclassification error arbitrarily close to $\eta$. Prior to our work, no non-trivial booster was known in this setting. Moreover, we show that this error upper bound is best possible for polynomial-time black-box boosters, under standard cryptographic assumptions. Our upper and lower bounds characterize the complexity of boosting in the distribution-indepen dent PAC model with Massart noise. As a simple application of our positive result, we give the first efficient Massart learner for unions of high-dimensional rectangles.
翻訳日:2021-06-16 15:28:47 公開日:2021-06-14
# 深層学習に基づく物体検出による空中画像中のジャガイモ作物ストレス同定

Potato Crop Stress Identification in Aerial Images using Deep Learning-based Object Detection ( http://arxiv.org/abs/2106.07770v1 )

ライセンス: Link先を確認
Sujata Butte, Aleksandar Vakanski, Kasia Duellman, Haotian Wang, Amin Mirkouei(参考訳) 精密農業におけるリモートセンシングと深層学習に基づく分析の適用に関する最近の研究は、作物管理の改善と農業生産の環境影響の低減の可能性を示した。 有望な結果にもかかわらず、実地展開におけるこれらの技術の実用的妥当性は、農業画像の解析用にカスタマイズされ、自然地画像の実装に堅牢な新しいアルゴリズムを必要とする。 本稿では, 深層ニューラルネットワークを用いたジャガイモの空中画像解析手法を提案する。 主な目的は、植物レベルでの健康作物とストレス作物の自動空間認識を実証することである。 具体的には,ニワトリバーバンクジャガイモの乾燥ストレスを生じさせる早熟な植物老化について検討する。 提案されているディープラーニングモデルはretina-unet-agと呼ばれ、retina-unet(jaeger et al., 2018)の変種であり、低レベルの意味的密表現マップから特徴ピラミッドネットワークへの接続を含んでいる。 また、Solo無人航空機が運んだParrot Sequoiaカメラで取得したフィールド画像のデータセットも紹介した。 実験により, フィールド画像中の植物とストレス植物を識別し, 平均Diceスコア係数0.74を達成できた。 対象検出のための最先端ディープラーニングモデルとの比較により,提案手法が課題に有効であることを明らかにした。 本手法は,実環境下で収集した自然空中画像におけるジャガイモ作物ストレス(この場合,干ばつストレスによる初期植物老化)の評価と認識をめざすものである。

Recent research on the application of remote sensing and deep learning-based analysis in precision agriculture demonstrated a potential for improved crop management and reduced environmental impacts of agricultural production. Despite the promising results, the practical relevance of these technologies for actual field deployment requires novel algorithms that are customized for analysis of agricultural images and robust to implementation on natural field imagery. The paper presents an approach for analyzing aerial images of a potato crop using deep neural networks. The main objective is to demonstrate automated spatial recognition of a healthy versus stressed crop at a plant level. Specifically, we examine premature plant senescence resulting in drought stress on Russet Burbank potato plants. The proposed deep learning model, named Retina-UNet-Ag, is a variant of Retina-UNet (Jaeger et al., 2018) and includes connections from low-level semantic dense representation maps to the feature pyramid network. The paper also introduces a dataset of field images acquired with a Parrot Sequoia camera carried by a Solo unmanned aerial vehicle. Experimental validation demonstrated the ability for distinguishing healthy and stressed plants in field images, achieving an average Dice score coefficient of 0.74. A comparison to related state-of-the-art deep learning models for object detection revealed that the presented approach is effective for the task at hand. The method applied here is conducive toward the assessment and recognition of potato crop stress (early plant senescence resulting from drought stress in this case) in natural aerial field images collected under real conditions.
翻訳日:2021-06-16 15:26:48 公開日:2021-06-14
# CoDERT:トランスデューサに基づく音声認識のためのコラーニングによる蒸留エンコーダ表現

CoDERT: Distilling Encoder Representations with Co-learning for Transducer-based Speech Recognition ( http://arxiv.org/abs/2106.07734v1 )

ライセンス: Link先を確認
Rupak Vignesh Swaminathan, Brian King, Grant P. Strimel, Jasha Droppo, Athanasios Mouchtaris(参考訳) 本稿では,RNN-Transducer (RNN-T) をよく知られた知識蒸留パラダイムによって圧縮する,シンプルで効果的な方法を提案する。 トランスデューサエンコーダの出力は自然に高いエントロピーを持ち、音響的に類似したワードピースの混乱に関する豊富な情報を含んでいる。 このリッチな情報は、低エントロピーデコーダ出力と組み合わせてジョイントネットワークロジットを生成すると抑制される。 そこで本研究では,教師トランスデューサのエンコーダのロートを蒸留する補助的損失を導入し,このエンコーダ蒸留が効果的に機能するトレーニング戦略を検討する。 インプレースエンコーダ蒸留による教師と生徒のタンデム訓練は,教師の事前訓練および静的トランスデューサの使用よりも優れていた。 また,教師と生徒のエンコーダが同じデコーダを共有した時に生じる,暗黙的蒸留と呼ばれる興味深い現象を報告する。 実験の結果, 社内テストセットでは5.37-8.4%, LibriSpeechテストセットでは5.05-6.18%であった。

We propose a simple yet effective method to compress an RNN-Transducer (RNN-T) through the well-known knowledge distillation paradigm. We show that the transducer's encoder outputs naturally have a high entropy and contain rich information about acoustically similar word-piece confusions. This rich information is suppressed when combined with the lower entropy decoder outputs to produce the joint network logits. Consequently, we introduce an auxiliary loss to distill the encoder logits from a teacher transducer's encoder, and explore training strategies where this encoder distillation works effectively. We find that tandem training of teacher and student encoders with an inplace encoder distillation outperforms the use of a pre-trained and static teacher transducer. We also report an interesting phenomenon we refer to as implicit distillation, that occurs when the teacher and student encoders share the same decoder. Our experiments show 5.37-8.4% relative word error rate reductions (WERR) on in-house test sets, and 5.05-6.18% relative WERRs on LibriSpeech test sets.
翻訳日:2021-06-16 15:23:44 公開日:2021-06-14
# 公平にアロケートする計画:レスレスバンド設定における確率的公正性

Planning to Fairly Allocate: Probabilistic Fairness in the Restless Bandit Setting ( http://arxiv.org/abs/2106.07677v1 )

ライセンス: Link先を確認
Christine Herlihy, Aviva Prins, Aravind Srinivasan, and John Dickerson(参考訳) restless と breakpsing bandits は、患者間の健康介入を割り当てる(whittle, 1988; mate et al., 2020)など、アクション依存の移行確率を伴うアームを特徴とする設定において、制約付きリソース割り当てをモデル化するために一般的に使用される。 しかしながら、この計画問題に対する最先端のホイットル・インデックスに基づくアプローチは、武器間の公平性を考慮しないか、フェアネスを保証せずにインセンティブを与えるかのどちらかである [mate et al., 2021]。 さらに、それらの最適性は、アームがインデックス可能かつしきい値最適である場合にのみ適用される。 本研究では,厳密な公平性制約の組み入れが,トラクタビリティを損なうアームの結合,および拡張によって問題の指数性を必要とすることを示す。 次に、確率論的に公正な定常政策であるProbFairを導入する。これは、予想される全報酬を最大化し、予算制約を満たすとともに、各段階において引き出される確率の厳密な低い境界を確保する。 閉塞性睡眠時無呼吸症候群(OSA)患者に対するCPAP(Continuous positive airway pressure)療法の介入と,より広範な合成遷移行列のシミュレーションを実世界の応用で評価した。

Restless and collapsing bandits are commonly used to model constrained resource allocation in settings featuring arms with action-dependent transition probabilities, such as allocating health interventions among patients [Whittle, 1988; Mate et al., 2020]. However, state-of-the-art Whittle-index-based approaches to this planning problem either do not consider fairness among arms, or incentivize fairness without guaranteeing it [Mate et al., 2021]. Additionally, their optimality guarantees only apply when arms are indexable and threshold-optimal. We demonstrate that the incorporation of hard fairness constraints necessitates the coupling of arms, which undermines the tractability, and by extension, indexability of the problem. We then introduce ProbFair, a probabilistically fair stationary policy that maximizes total expected reward and satisfies the budget constraint, while ensuring a strictly positive lower bound on the probability of being pulled at each timestep. We evaluate our algorithm on a real-world application, where interventions support continuous positive airway pressure (CPAP) therapy adherence among obstructive sleep apnea (OSA) patients, as well as simulations on a broader class of synthetic transition matrices.
翻訳日:2021-06-16 15:23:02 公開日:2021-06-14
# ディープしきい値ネットワークの記憶容量の指数関数的改善

An Exponential Improvement on the Memorization Capacity of Deep Threshold Networks ( http://arxiv.org/abs/2106.07724v1 )

ライセンス: Link先を確認
Shashank Rajput, Kartik Sreenivasan, Dimitris Papailiopoulos, Amin Karbasi(参考訳) 現代のディープニューラルネットワークは、ラベルがランダム化されてもデータセットを記憶できるほど強力なことはよく知られている。 最近、vershynin (2020) は baum (1988) による長い疑問を解決し、\emph{deep threshold} ネットワークは$\widetilde{\mathcal{o}}(e^{1/\delta^2}+\sqrt{n})$ニューロンと$\widetilde{\mathcal{o}}(e^{1/\delta^2}(d+\sqrt{n})+n)$(ここで $\delta$ は点間の最小距離である。 本研究では、指数関数からほぼ線型への$\delta$依存を改善し、$\widetilde{\mathcal{O}}(\frac{1}{\delta}+\sqrt{n})$ニューロンと$\widetilde{\mathcal{O}}(\frac{d}{\delta}+n)$ウェイトが十分であることを証明した。 我々の構成では最初の層でのみガウスのランダム重みを使い、それに続く全ての層はバイナリまたは整数重みを使います。 また,超平面を用いて球面上の点を分離する純粋幾何問題とニューラルネットワークの記憶化を結びつけることで,新たな下界を証明した。

It is well known that modern deep neural networks are powerful enough to memorize datasets even when the labels have been randomized. Recently, Vershynin (2020) settled a long standing question by Baum (1988), proving that \emph{deep threshold} networks can memorize $n$ points in $d$ dimensions using $\widetilde{\mathcal{O}}(e^{1/\delta^2}+\sqrt{n})$ neurons and $\widetilde{\mathcal{O}}(e^{1/\delta^2}(d+\sqrt{n})+n)$ weights, where $\delta$ is the minimum distance between the points. In this work, we improve the dependence on $\delta$ from exponential to almost linear, proving that $\widetilde{\mathcal{O}}(\frac{1}{\delta}+\sqrt{n})$ neurons and $\widetilde{\mathcal{O}}(\frac{d}{\delta}+n)$ weights are sufficient. Our construction uses Gaussian random weights only in the first layer, while all the subsequent layers use binary or integer weights. We also prove new lower bounds by connecting memorization in neural networks to the purely geometric problem of separating $n$ points on a sphere using hyperplanes.
翻訳日:2021-06-16 15:21:51 公開日:2021-06-14
# eurocrops:時系列作物分類のための汎ヨーロッパデータセット

EuroCrops: A Pan-European Dataset for Time Series Crop Type Classification ( http://arxiv.org/abs/2106.08151v1 )

ライセンス: Link先を確認
Maja Schneider, Amelie Broszeit, Marco K\"orner(参考訳) 本研究では,自己宣言型フィールドアノテーションに基づく作物型分類とマッピングの訓練と評価のためのデータセットであるEuroCropsと,その取得と調和のプロセスについて述べる。 これにより、地球観測とリモートセンシングによるデータ駆動型土地被覆分類の研究活動と議論の充実を図る。 さらに、欧州連合(eu)のすべての国から補助金管理の範囲に集まった自己宣言を含めることにより、このデータセットは、トランス国家レベルで運用する場合の困難さと落とし穴を浮き彫りにする。 そこで我々は,行政・機関データベースから得られた参照データのすべての側面を把握しようとする新たな分類体系HCAT-IDを導入する。 リモートセンシングとコンピュータビジョンと機械学習のコミュニティの両方からの研究者に対処するために、データセットを異なるフォーマットと処理レベルで公開します。

We present EuroCrops, a dataset based on self-declared field annotations for training and evaluating methods for crop type classification and mapping, together with its process of acquisition and harmonisation. By this, we aim to enrich the research efforts and discussion for data-driven land cover classification via Earth observation and remote sensing. Additionally, through inclusion of self-declarations gathered in the scope of subsidy control from all countries of the European Union (EU), this dataset highlights the difficulties and pitfalls one comes across when operating on a transnational level. We, therefore, also introduce a new taxonomy scheme, HCAT-ID, that aspires to capture all the aspects of reference data originating from administrative and agency databases. To address researchers from both the remote sensing and the computer vision and machine learning communities, we publish the dataset in different formats and processing levels.
翻訳日:2021-06-16 15:18:43 公開日:2021-06-14
# MedspaCyによる臨床領域への参入 : Pythonの新しい臨床テキスト処理ツールキット

Launching into clinical space with medspaCy: a new clinical text processing toolkit in Python ( http://arxiv.org/abs/2106.07799v1 )

ライセンス: Link先を確認
Hannah Eyre (1 and 2), Alec B Chapman (1 and 2), Kelly S Peterson (1 and 2), Jianlin Shi (2), Patrick R Alba (1 and 2), Makoto M Jones (1 and 2), Tamara L Box (3), Scott L DuVall (1 and 2), Olga V Patterson (1 and 2) ((1) VA Salt Lake City Health Care System, (2) University of Utah, Salt Lake City, UT, USA, (3) Veterans Health Administration Office of Analytics and Performance Integration)(参考訳) 臨床自然言語処理(cnlp)における機械学習アルゴリズムの成功にもかかわらず、ルールベースのアプローチは依然として顕著な役割を担っている。 本稿では,臨床テキストに適応したルールベースおよび機械学習ベースのアルゴリズムの柔軟な統合を可能にする,spurCyフレームワークに基づく拡張可能なオープンソースcNLPライブラリであるmedspaCyを紹介する。 MedspaCyには、コンテキスト分析や標準用語へのマッピングなど、一般的なcNLPのニーズを満たすさまざまなコンポーネントが含まれている。 spaCyの明確で使いやすい規約を利用することで、medspaCyは、他のpaCyベースのモジュールと簡単に統合できるカスタムパイプラインの開発を可能にする。 我々のツールキットはいくつかのコアコンポーネントを含み、臨床テキストのためのパイプラインの迅速な開発を容易にする。

Despite impressive success of machine learning algorithms in clinical natural language processing (cNLP), rule-based approaches still have a prominent role. In this paper, we introduce medspaCy, an extensible, open-source cNLP library based on spaCy framework that allows flexible integration of rule-based and machine learning-based algorithms adapted to clinical text. MedspaCy includes a variety of components that meet common cNLP needs such as context analysis and mapping to standard terminologies. By utilizing spaCy's clear and easy-to-use conventions, medspaCy enables development of custom pipelines that integrate easily with other spaCy-based modules. Our toolkit includes several core components and facilitates rapid development of pipelines for clinical text.
翻訳日:2021-06-16 15:17:49 公開日:2021-06-14
# DFM: 深い特徴マッチングのためのパフォーマンスベースライン

DFM: A Performance Baseline for Deep Feature Matching ( http://arxiv.org/abs/2106.07791v1 )

ライセンス: Link先を確認
Ufuk Efe, Kutalmis Gokalp Ince, A. Aydin Alatan(参考訳) 市販の深層ニューラルネットワークから抽出した学習特徴を利用して,期待できる性能を得る新しい画像マッチング手法を提案する。 提案手法では,事前学習したVGGアーキテクチャを特徴抽出器として使用し,マッチングを改善するために追加の訓練を必要としない。 メンタルローテーションパラダイムのような心理学領域の確立された概念に着想を得て、予備幾何学的変換推定の結果、最初の反りが行われる。 これらの推定は、一致する画像のVGGネットワーク出力の終端層における隣人の密集したマッチングに基づいている。 この最初のアライメントの後、参照画像とアライメント画像の間の同じアプローチを階層的に繰り返し、適切なローカライゼーションとマッチング性能に達する。 提案アルゴリズムは,Hpatchesデータセット上で,平均マッチング精度(MMA)の0.57と0.80のスコアをそれぞれ1ピクセル,2ピクセルの閾値で達成する。

A novel image matching method is proposed that utilizes learned features extracted by an off-the-shelf deep neural network to obtain a promising performance. The proposed method uses pre-trained VGG architecture as a feature extractor and does not require any additional training specific to improve matching. Inspired by well-established concepts in the psychology area, such as the Mental Rotation paradigm, an initial warping is performed as a result of a preliminary geometric transformation estimate. These estimates are simply based on dense matching of nearest neighbors at the terminal layer of VGG network outputs of the images to be matched. After this initial alignment, the same approach is repeated again between reference and aligned images in a hierarchical manner to reach a good localization and matching performance. Our algorithm achieves 0.57 and 0.80 overall scores in terms of Mean Matching Accuracy (MMA) for 1 pixel and 2 pixels thresholds respectively on Hpatches dataset, which indicates a better performance than the state-of-the-art.
翻訳日:2021-06-16 15:14:22 公開日:2021-06-14
# 3次元顔再構成のための弱改良フォトリアリスティックテクスチャ生成

Weakly-Supervised Photo-realistic Texture Generation for 3D Face Reconstruction ( http://arxiv.org/abs/2106.08148v1 )

ライセンス: Link先を確認
Xiangnan Yin, Di Huang, Zehua Fu, Yunhong Wang, Liming Chen(参考訳) 近年, 3次元顔の復元に多くの進歩が見られたが, これまでの研究のほとんどは, 正確な3次元形状の予測に費やされてきた。 対照的に、高忠実な顔のテクスチャを生み出すことに焦点を当てた作品はほとんどない。 フォトリアリスティックな2d顔画像生成の隆盛と比べ、高忠実な3d顔テクスチャ生成はまだ研究されていない。 本稿では,単一の顔画像からUVマップを予測する新しいUVマップ生成モデルを提案する。 モデルはUVサンプリング機とUVジェネレータで構成されている。 入力された顔画像のピクセルを選択的にサンプリングし、相対位置を調整することで、uvサンプラーは元の顔を忠実に再構築できる不完全なuvマップを生成する。 不完全なUVマップの欠落したテクスチャは、UVジェネレータによってさらにフルフィルされる。 トレーニングは、3DMMテクスチャと入力顔テクスチャでブレンドされた擬似地上真実に基づいており、弱教師付きである。 不完全な疑似uvマップのアーティファクトに対処するために、複数の部分的なuvマップ判別器が活用されている。

Although much progress has been made recently in 3D face reconstruction, most previous work has been devoted to predicting accurate and fine-grained 3D shapes. In contrast, relatively little work has focused on generating high-fidelity face textures. Compared with the prosperity of photo-realistic 2D face image generation, high-fidelity 3D face texture generation has yet to be studied. In this paper, we proposed a novel UV map generation model that predicts the UV map from a single face image. The model consists of a UV sampler and a UV generator. By selectively sampling the input face image's pixels and adjusting their relative locations, the UV sampler generates an incomplete UV map that could faithfully reconstruct the original face. Missing textures in the incomplete UV map are further full-filled by the UV generator. The training is based on pseudo ground truth blended by the 3DMM texture and the input face texture, thus weakly supervised. To deal with the artifacts in the imperfect pseudo UV map, multiple partial UV map discriminators are leveraged.
翻訳日:2021-06-16 15:10:39 公開日:2021-06-14
# カイゼン:半教師型音声認識における指数移動平均を用いた教師の継続的改善

Kaizen: Continuously improving teacher using Exponential Moving Average for semi-supervised speech recognition ( http://arxiv.org/abs/2106.07759v1 )

ライセンス: Link先を確認
Vimal Manohar, Tatiana Likhomanenko, Qiantong Xu, Wei-Ning Hsu, Ronan Collobert, Yatharth Saraf, Geoffrey Zweig, Abdelrahman Mohamed(参考訳) 本稿では,教師を継続的に改良し,擬似ラベルを生成するカイゼンフレームワークについて紹介する。 提案手法は,生徒モデルパラメータの指数移動平均として更新された教師モデルを用いている。 これは、半教師付きトレーニングのための反復的擬似ラベルアプローチの継続的バージョンと見なすことができる。 本稿では,フレームレベルハイブリッド型隠れマルコフモデル深層ニューラルネットワーク(hmm-dnn)モデルとシーケンスレベル接続主義時間分類(ctc)モデルについて述べる。 提案手法では,英国英語とイタリア語で大規模な非教師なし公開ビデオを用いた場合,標準的な教師・教師訓練よりも10%以上の単語誤り率 (wer) 削減と10時間以上監督ベースラインを50%以上削減した。

In this paper, we introduce the Kaizen framework that uses a continuously improving teacher to generate pseudo-labels for semi-supervised training. The proposed approach uses a teacher model which is updated as the exponential moving average of the student model parameters. This can be seen as a continuous version of the iterative pseudo-labeling approach for semi-supervised training. It is applicable for different training criteria, and in this paper we demonstrate it for frame-level hybrid hidden Markov model - deep neural network (HMM-DNN) models and sequence-level connectionist temporal classification (CTC) based models. The proposed approach shows more than 10% word error rate (WER) reduction over standard teacher-student training and more than 50\% relative WER reduction over 10 hour supervised baseline when using large scale realistic unsupervised public videos in UK English and Italian languages.
翻訳日:2021-06-16 15:09:39 公開日:2021-06-14
# 相転移、距離関数、暗黙的神経表現

Phase Transitions, Distance Functions, and Implicit Neural Representations ( http://arxiv.org/abs/2106.07689v1 )

ライセンス: Link先を確認
Yaron Lipman(参考訳) 表面をゼロレベルのニューラルネットワークとして表現することは、最近、Implicit Neural Representations (INRs)と呼ばれる強力なモデリングパラダイムとして登場し、幾何学的ディープラーニングと3Dビジョンにおける多くの下流のアプリケーションに役立っている。 トレーニングINRは以前、占有率と距離関数の表現の選択と、未知の制限行動と/またはバイアスで異なる損失を選択する必要があった。 本稿では,流体の相転移の理論から着想を得て,その対数変換が距離関数に収束する間,適切な占有関数に収束する密度関数を学ぶ訓練用インサーの損失を提案する。 さらに, この損失の限界最小化は, 再構成制約を満たし, 表面近傍が最小であり, 表面再構成に望ましいインダクティブバイアスであることを示す。 この新しい損失によるinrsのトレーニングは、標準ベンチマークで最先端の再構築につながる。

Representing surfaces as zero level sets of neural networks recently emerged as a powerful modeling paradigm, named Implicit Neural Representations (INRs), serving numerous downstream applications in geometric deep learning and 3D vision. Training INRs previously required choosing between occupancy and distance function representation and different losses with unknown limit behavior and/or bias. In this paper we draw inspiration from the theory of phase transitions of fluids and suggest a loss for training INRs that learns a density function that converges to a proper occupancy function, while its log transform converges to a distance function. Furthermore, we analyze the limit minimizer of this loss showing it satisfies the reconstruction constraints and has minimal surface perimeter, a desirable inductive bias for surface reconstruction. Training INRs with this new loss leads to state-of-the-art reconstructions on a standard benchmark.
翻訳日:2021-06-16 15:08:50 公開日:2021-06-14
# KLガイドドメイン適応

KL Guided Domain Adaptation ( http://arxiv.org/abs/2106.07780v1 )

ライセンス: Link先を確認
A. Tuan Nguyen, Toan Tran, Yarin Gal, Philip H. S. Torr, At{\i}l{\i}m G\"une\c{s} Baydin(参考訳) ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。 この問題では、i.i.d.の代わりに。 データポイントでは、ソース(トレーニング)データとターゲット(テスト)データが異なる分布を持つと仮定する。 この設定では、分布の変化を考慮しないため、経験的リスク最小化訓練手順がうまく機能しないことが多い。 ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメイン上の同じ分布を持つ入力の表現を学ぶことである。 しかし、これらのアプローチは、しばしば追加のネットワークと/または敵(ミニマックス)の目的を最適化する必要がある。 この問題に対処するために、まず、トレーニング損失と、ソースとターゲット表現分布との逆のKL(Kullback-Leibler) ばらつきに基づいて、目標損失に対する一般化を導出する。 この境界に基づいて、KL項を最小化して対象領域へのより良い一般化を得るアルゴリズムを導出する。 確率的表現ネットワークでは、KL項は、追加のネットワークやミニマックスの目的を持たないミニバッチサンプルによって効率的に推定できることを示す。 これにより、理論上は非常に効率的で安定なアライメント法が導かれる。 また,提案手法が他の表現適応手法よりも優れていることを示す。

Domain adaptation is an important problem and often needed for real-world applications. In this problem, instead of i.i.d. datapoints, we assume that the source (training) data and the target (testing) data have different distributions. With that setting, the empirical risk minimization training procedure often does not perform well, since it does not account for the change in the distribution. A common approach in the domain adaptation literature is to learn a representation of the input that has the same distributions over the source and the target domain. However, these approaches often require additional networks and/or optimizing an adversarial (minimax) objective, which can be very expensive or unstable in practice. To tackle this problem, we first derive a generalization bound for the target loss based on the training loss and the reverse Kullback-Leibler (KL) divergence between the source and the target representation distributions. Based on this bound, we derive an algorithm that minimizes the KL term to obtain a better generalization to the target domain. We show that with a probabilistic representation network, the KL term can be estimated efficiently via minibatch samples without any additional network or a minimax objective. This leads to a theoretically sound alignment method which is also very efficient and stable in practice. Experimental results also suggest that our method outperforms other representation-align ment approaches.
翻訳日:2021-06-16 15:08:35 公開日:2021-06-14
# 次世代貯留層計算

Next Generation Reservoir Computing ( http://arxiv.org/abs/2106.07688v1 )

ライセンス: Link先を確認
Daniel J. Gauthier, Erik Bollt, Aaron Griffith, Wendson A.S. Barbosa(参考訳) 貯留層計算(Reservoir computing)は、観測された時系列データを用いて動的システムによって生成された情報を処理する機械学習アルゴリズムである。 重要なのは、非常に小さなデータセットのトレーニング、線形最適化、従って計算リソースの最小化だ。 しかし、アルゴリズムはランダムにサンプリングされた行列を用いて、基礎となるリカレントニューラルネットワークを定義し、最適化されるべき多数のメタパラメータを持つ。 近年の結果は, 非線形ベクトル自己回帰に対する貯水池計算の等価性を示し, ランダム行列を必要とせず, メタパラメータも少なく, 解釈可能な結果が得られる。 本稿では,貯水池計算のベンチマークタスクにおいて非線形ベクトル自己回帰が優れており,より短いトレーニングデータセットとトレーニング時間が必要であることを実証する。

Reservoir computing is a best-in-class machine learning algorithm for processing information generated by dynamical systems using observed time-series data. Importantly, it requires very small training data sets, uses linear optimization, and thus requires minimal computing resources. However, the algorithm uses randomly sampled matrices to define the underlying recurrent neural network and has a multitude of metaparameters that must be optimized. Recent results demonstrate the equivalence of reservoir computing to nonlinear vector autoregression, which requires no random matrices, fewer metaparameters, and provides interpretable results. Here, we demonstrate that nonlinear vector autoregression excels at reservoir computing benchmark tasks and requires even shorter training data sets and training time, heralding the next generation of reservoir computing.
翻訳日:2021-06-16 15:00:31 公開日:2021-06-14
# HUMAP:階層的一様多様体近似と投影

HUMAP: Hierarchical Uniform Manifold Approximation and Projection ( http://arxiv.org/abs/2106.07718v1 )

ライセンス: Link先を確認
Wilson E. Marc\'ilio-Jr and Danilo M. Eler and Fernando V. Paulovich and Rafael M. Martins(参考訳) 次元減少(DR)技術は、高次元空間におけるパターンを理解するのに役立つ。 これらの手法は、しばしば散乱プロットによって表現され、様々な科学領域で採用され、クラスターとデータサンプル間の類似性分析を容易にする。 多くの粒度を含むデータセットや、分析が情報視覚化マントラに従う場合、階層的なdrテクニックは、前もって主要な構造と需要の詳細を示すので、最も適したアプローチである。 しかし、現在の階層型DR技術は、階層レベルのプロジェクションメンタルマップを保存せず、ほとんどのデータタイプに適さないため、文学的な問題に完全に対処することができない。 HUMAPは、局所的・グローバルな構造を保存し、階層的な探索を通してメンタルマップを保存できるように設計された、新しい階層的次元削減技術である。 本手法の優位性を示す実証的な証拠を,現在の階層的アプローチと比較し,その強みを示す2つのケーススタディを示す。

Dimensionality reduction (DR) techniques help analysts to understand patterns in high-dimensional spaces. These techniques, often represented by scatter plots, are employed in diverse science domains and facilitate similarity analysis among clusters and data samples. For datasets containing many granularities or when analysis follows the information visualization mantra, hierarchical DR techniques are the most suitable approach since they present major structures beforehand and details on demand. However, current hierarchical DR techniques are not fully capable of addressing literature problems because they do not preserve the projection mental map across hierarchical levels or are not suitable for most data types. This work presents HUMAP, a novel hierarchical dimensionality reduction technique designed to be flexible on preserving local and global structures and preserve the mental map throughout hierarchical exploration. We provide empirical evidence of our technique's superiority compared with current hierarchical approaches and show two case studies to demonstrate its strengths.
翻訳日:2021-06-16 15:00:18 公開日:2021-06-14
# in-distribution triggersを用いた深層強化学習エージェントの有毒化

Poisoning Deep Reinforcement Learning Agents with In-Distribution Triggers ( http://arxiv.org/abs/2106.07798v1 )

ライセンス: Link先を確認
Chace Ashcraft, Kiran Karra(参考訳) 本稿では,新たなデータ中毒攻撃を提案し,それを深層強化学習エージェントに適用する。 当社のアタックは、モデルがトレーニングし、デプロイされるデータディストリビューションに固有のトリガである、配信内トリガー(in-distribution triggers)と呼ばれるものに集中しています。 本稿では,これらを組み込むための簡単な手順を,マルチタスク学習パラダイムに従って深層強化学習エージェントにトリガーし,3つの共通強化学習環境で実演する。 この研究は、ディープラーニングモデルのセキュリティに重要な意味を持つと考えています。

In this paper, we propose a new data poisoning attack and apply it to deep reinforcement learning agents. Our attack centers on what we call in-distribution triggers, which are triggers native to the data distributions the model will be trained on and deployed in. We outline a simple procedure for embedding these, and other, triggers in deep reinforcement learning agents following a multi-task learning paradigm, and demonstrate in three common reinforcement learning environments. We believe that this work has important implications for the security of deep learning models.
翻訳日:2021-06-16 15:00:02 公開日:2021-06-14
# お金のない最適化フレンドリーなジェネリックメカニズム

Optimization-friendl y generic mechanisms without money ( http://arxiv.org/abs/2106.07752v1 )

ライセンス: Link先を確認
Mark Braverman(参考訳) 本論文の目的は,現代的な最適化アルゴリズムを自己利己的なエージェントから入力されるメカニズムに変換する汎用フレームワークを開発することである。 私たちは、お金のないコンテキストで、n$プレーヤーの好みを集約することに集中しています。 この設定の特別なケースには、投票、抽選によるアイテムの割り当て、マッチングが含まれる。 私たちの重要な技術的貢献は、新しいメタアルゴリズムである \apex (Adaptive Pricing Equalizing Foreignities) です。 このフレームワークは、ローカル検索に基づくあらゆる最適化アルゴリズムと組み合わせるのに十分一般的である。 本稿では,アルゴリズムの特性とその応用について概説する。 この枠組みを宝くじを用いた一方的な割当問題に適用する特別の事例として、1979年のヒルランドとツェックハウザーによる均等所得からの競争均衡(CEEI)による割当結果の強化が得られる。 hz79]の結果は、(矛盾した)割り当てと、その割り当てが与えられた価格の競争均衡であるような一連のアイテム価格が存在することが示される。 さらに,需要単価vcgを高利得ユーティリティで実行するとhz平衡価格となるような,プレーヤのユーティリティ値が常に緩和されることを示す。 興味深いことに、HZの競争均衡はすべてVCG価格によるものではない。 証明の一部として、ブローワーの不動点定理のみを用いて [HZ79] の結果を再証明する(より一般的な角谷の定理ではない)。 これは独立した関心事かもしれない。

The goal of this paper is to develop a generic framework for converting modern optimization algorithms into mechanisms where inputs come from self-interested agents. We focus on aggregating preferences from $n$ players in a context without money. Special cases of this setting include voting, allocation of items by lottery, and matching. Our key technical contribution is a new meta-algorithm we call \apex (Adaptive Pricing Equalizing Externalities). The framework is sufficiently general to be combined with any optimization algorithm that is based on local search. We outline an agenda for studying the algorithm's properties and its applications. As a special case of applying the framework to the problem of one-sided assignment with lotteries, we obtain a strengthening of the 1979 result by Hylland and Zeckhauser on allocation via a competitive equilibrium from equal incomes (CEEI). The [HZ79] result posits that there is a (fractional) allocation and a set of item prices such that the allocation is a competitive equilibrium given prices. We further show that there is always a reweighing of the players' utility values such that running unit-demand VCG with reweighed utilities leads to a HZ-equilibrium prices. Interestingly, not all HZ competitive equilibria come from VCG prices. As part of our proof, we re-prove the [HZ79] result using only Brouwer's fixed point theorem (and not the more general Kakutani's theorem). This may be of independent interest.
翻訳日:2021-06-16 14:56:23 公開日:2021-06-14
# SynthASR:音声認識のための合成データのロック解除

SynthASR: Unlocking Synthetic Data for Speech Recognition ( http://arxiv.org/abs/2106.07803v1 )

ライセンス: Link先を確認
Amin Fazel, Wei Yang, Yulan Liu, Roberto Barra-Chicote, Yixiong Meng, Roland Maas, Jasha Droppo(参考訳) エンドツーエンド(E2E)自動音声認識(ASR)モデルは,近年,従来のハイブリッドASRモデルよりも優れた性能を示している。 E2E ASRモデルのトレーニングには大量のデータが必要である。 同時に、最先端のテキスト音声(TTS)エンジンによって生成された合成音声は、ほぼ人間に近い自然に進化した。 そこで本研究では,ASRモデルトレーニングのためのデータ不足や取得が困難なアプリケーションにおいて,合成音声を用いたASRトレーニング(SynthASR)を提案する。 さらに,重み付きマルチスタイルのトレーニング,データ拡張,エンコーダの凍結,パラメータの規則化を組み合わせることで得られる,破滅的な忘れ方に対処するために,連続学習を新しい多段階学習戦略に適用する。 医薬名認識のための新しい応用のための社内データセットを用いて, 提案した多段階学習により, ASR RNN-Tモデルを合成音声で訓練することにより, 既存の一般応用を劣化させることなく, 新規アプリケーションの認識性能を65%以上向上した。 我々の観察では、SynthASRは、新しいアプリケーションのための最先端の大規模E2E ASRモデルのトレーニングにおいて、コストと生産データへの依存性を低減しつつ、大きな可能性を秘めている。

End-to-end (E2E) automatic speech recognition (ASR) models have recently demonstrated superior performance over the traditional hybrid ASR models. Training an E2E ASR model requires a large amount of data which is not only expensive but may also raise dependency on production data. At the same time, synthetic speech generated by the state-of-the-art text-to-speech (TTS) engines has advanced to near-human naturalness. In this work, we propose to utilize synthetic speech for ASR training (SynthASR) in applications where data is sparse or hard to get for ASR model training. In addition, we apply continual learning with a novel multi-stage training strategy to address catastrophic forgetting, achieved by a mix of weighted multi-style training, data augmentation, encoder freezing, and parameter regularization. In our experiments conducted on in-house datasets for a new application of recognizing medication names, training ASR RNN-T models with synthetic audio via the proposed multi-stage training improved the recognition performance on new application by more than 65% relative, without degradation on existing general applications. Our observations show that SynthASR holds great promise in training the state-of-the-art large-scale E2E ASR models for new applications while reducing the costs and dependency on production data.
翻訳日:2021-06-16 14:56:00 公開日:2021-06-14
# 低階行列の特異なスパース分解

Unique sparse decomposition of low rank matrices ( http://arxiv.org/abs/2106.07736v1 )

ライセンス: Link先を確認
Dian Jin, Xin Bing and Yuqian Zhang(参考訳) 与えられた行列の特異な低次元分解を見つける問題は、多くの領域において基礎的かつ再帰的な問題であった。 本稿では、疎表現を許容する低階行列 $Y\in \mathbb{R}^{p\times n}$ のユニークな分解を求める問題を考察する。 具体的には、$Y = A X\in \mathbb{R}^{p\times n}$ ここで、行列 $A\in \mathbb{R}^{p\times r}$ は $r < \min\{n,p\}$ の完全列ランクを持ち、行列 $X\in \mathbb{R}^{r\times n}$ は要素的にスパースである。 我々は、この$Y$のスパース分解が固有の符号付き置換まで一意に識別できることを証明した。 提案手法は,単位球面上の非凸最適化問題の解法に依存する。 非凸最適化ランドスケープの幾何学的解析は、任意の厳密な局所解が基底真理解に近づき、単純なデータ駆動初期化とそれに続く二階降下アルゴリズムによって復元可能であることを示している。 最終的に、これらの理論結果を数値実験で裏付ける。

The problem of finding the unique low dimensional decomposition of a given matrix has been a fundamental and recurrent problem in many areas. In this paper, we study the problem of seeking a unique decomposition of a low rank matrix $Y\in \mathbb{R}^{p\times n}$ that admits a sparse representation. Specifically, we consider $Y = A X\in \mathbb{R}^{p\times n}$ where the matrix $A\in \mathbb{R}^{p\times r}$ has full column rank, with $r < \min\{n,p\}$, and the matrix $X\in \mathbb{R}^{r\times n}$ is element-wise sparse. We prove that this sparse decomposition of $Y$ can be uniquely identified, up to some intrinsic signed permutation. Our approach relies on solving a nonconvex optimization problem constrained over the unit sphere. Our geometric analysis for the nonconvex optimization landscape shows that any {\em strict} local solution is close to the ground truth solution, and can be recovered by a simple data-driven initialization followed with any second order descent algorithm. At last, we corroborate these theoretical results with numerical experiments.
翻訳日:2021-06-16 14:53:17 公開日:2021-06-14
# ディスカウント因子のTaylor拡大

Taylor Expansion of Discount Factors ( http://arxiv.org/abs/2106.06170v2 )

ライセンス: Link先を確認
Yunhao Tang, Mark Rowland, R\'emi Munos, Michal Valko(参考訳) 実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。 本研究では,この割引要因の相違が学習中に与える影響について検討し,二つの異なる割引要因の値関数を補間する目的のファミリーを発見する。 分析では、価値関数を推定し、実証的なパフォーマンス向上を示すポリシーの最適化を行う新しい方法を提案する。 このフレームワークは、ポリシー最適化アルゴリズムによく使われる深いrlヒューリスティックな修正に関する新たな洞察をもたらす。

In practical reinforcement learning (RL), the discount factor used for estimating value functions often differs from that used for defining the evaluation objective. In this work, we study the effect that this discrepancy of discount factors has during learning, and discover a family of objectives that interpolate value functions of two distinct discount factors. Our analysis suggests new ways for estimating value functions and performing policy optimization updates, which demonstrate empirical performance gains. This framework also leads to new insights on commonly-used deep RL heuristic modifications to policy optimization algorithms.
翻訳日:2021-06-16 10:33:24 公開日:2021-06-14
# (参考訳) ソーシャルメディアビッグデータからのハリケーン緊急識別とテキスト情報抽出のためのインテリジェントエージェント [全文訳有]

Intelligent Agent for Hurricane Emergency Identification and Text Information Extraction from Streaming Social Media Big Data ( http://arxiv.org/abs/2106.07114v1 )

ライセンス: CC BY 4.0
Jingwei Huang, Wael Khallouli, Ghaith Rabadi, Mamadou Seck(参考訳) 本稿では,ソーシャルメディアのビッグデータとaiを活用したハリケーン災害対応に関する研究について述べる。 現在、救助のためのハリケーン緊急対応の実践は緊急コールセンターに大きく依存している。 最近のハリケーン・ハーヴェイは現在のシステムの限界を明らかにしている。 ハリケーン・ハーヴェイと関連するヒューストン洪水を研究の動機とし、ハリケーン緊急対応の緊急センターを支援するためにインテリジェントエージェントを補完的な役割として使うという概念実証としてプロトタイプを開発した。 このインテリジェントエージェントは、自然災害時のリアルタイムストリーミングツイートの収集、救助要請ツイートの識別、住所や関連するジオコードなどのキー情報抽出、そして、抽出された情報を意思決定支援のインタラクティブマップに可視化する。 本実験は,ハリケーンの緊急対応を支援する研究の有望な成果と潜在的応用を示す。

This paper presents our research on leveraging social media Big Data and AI to support hurricane disaster emergency response. The current practice of hurricane emergency response for rescue highly relies on emergency call centres. The more recent Hurricane Harvey event reveals the limitations of the current systems. We use Hurricane Harvey and the associated Houston flooding as the motivating scenario to conduct research and develop a prototype as a proof-of-concept of using an intelligent agent as a complementary role to support emergency centres in hurricane emergency response. This intelligent agent is used to collect real-time streaming tweets during a natural disaster event, to identify tweets requesting rescue, to extract key information such as address and associated geocode, and to visualize the extracted information in an interactive map in decision supports. Our experiment shows promising outcomes and the potential application of the research in support of hurricane emergency response.
翻訳日:2021-06-16 06:09:12 公開日:2021-06-14
# (参考訳) 潜在相関に基づくマルチビュー学習と自己スーパービジョン:統一的視点

Latent Correlation-Based Multiview Learning and Self-Supervision: A Unifying Perspective ( http://arxiv.org/abs/2106.07115v1 )

ライセンス: CC BY 4.0
Qi Lyu, Xiao Fu, Weiran Wang and Songtao Lu(参考訳) 自然に取得したデータ(画像や音声など)と人工的に生成されたデータ(データサンプルに異なるノイズを追加するなど)の複数のビューは、表現学習の強化に有用であることが証明されている。 自然ビューは、例えば(ディープ)正準相関解析 [(D)CCA] のようなマルチビュー解析ツールによって処理されることが多いが、人工ビューは自己教師付き学習(SSL)パラダイム、例えば \texttt{SimCLR} や \texttt{Barlow Twins} で頻繁に使用される。 どちらのアプローチも、データの埋め込みが高いクロスビュー相関を示すように、ニューラルネットワークの特徴抽出器を学習する。 直感的ではあるが、相関に基づく神経埋め込みの有効性は実証的に検証されるのみである。 この研究は教師なしマルチビュー学習のための理論に基づくフレームワークである。 私たちの開発は、各ビューが共有コンポーネントとプライベートコンポーネントの非線形混合であるマルチビューモデルの提案から始まります。 これにより、学習問題は共有/プライベートコンポーネントの識別と絡み合いに陥る。 このモデルでは、潜在相関最大化はビュー間で共有されたコンポーネント(特定のあいまいさまで)の抽出を保証することが示されている。 さらに、各ビュー内のプライベート情報を適切な正規化設計を用いて共有から確実に切り離すことができる。 この方法は、ダウンストリームクラスタリングなどの一連のタスクでテストされ、いずれも有望なパフォーマンスを示している。 私たちの開発は、様々なDCCAおよびSSLスキームを理解するための統一的な視点も提供します。

Multiple views of data, both naturally acquired (e.g., image and audio) and artificially produced (e.g., via adding different noise to data samples), have proven useful in enhancing representation learning. Natural views are often handled by multiview analysis tools, e.g., (deep) canonical correlation analysis [(D)CCA], while the artificial ones are frequently used in self-supervised learning (SSL) paradigms, e.g., \texttt{SimCLR} and \texttt{Barlow Twins}. Both types of approaches often involve learning neural feature extractors such that the embeddings of data exhibit high cross-view correlations. Although intuitive, the effectiveness of correlation-based neural embedding is only empirically validated. This work puts forth a theory-backed framework for unsupervised multiview learning. Our development starts with proposing a multiview model, where each view is a nonlinear mixture of shared and private components. Consequently, the learning problem boils down to shared/private component identification and disentanglement. Under this model, latent correlation maximization is shown to guarantee the extraction of the shared components across views (up to certain ambiguities). In addition, the private information in each view can be provably disentangled from the shared using proper regularization design. The method is tested on a series of tasks, e.g., downstream clustering, which all show promising performance. Our development also provides a unifying perspective for understanding various DCCA and SSL schemes.
翻訳日:2021-06-16 05:55:01 公開日:2021-06-14
# (参考訳) 多様な前提条件生成に向けて [全文訳有]

Toward Diverse Precondition Generation ( http://arxiv.org/abs/2106.07117v1 )

ライセンス: CC BY 4.0
Heeyoung Kwon, Nathanael Chambers, and Niranjan Balasubramanian(参考訳) 言語理解は、談話におけるイベント間の論理的なつながりを識別しなければならないが、コアイベントは、その常識的な性質のため、しばしば説明されない。 本稿では、これらの欠落イベントをプリコンディションイベントを生成して埋める。 プレ条件生成はシーケンス・ツー・シーケンスの問題としてフレーム化することができる。 しかし、ほとんどの現実世界のシナリオでは、イベントはいくつかの前提条件を持ち、多様な生成を必要とする。 本稿では,多種多様な前提条件を生成可能なディバースプレ条件生成システムであるDiPを提案する。 DiPは3つのコンポーネント(イベントサンプリング、候補ジェネレータ、後処理)で生成プロセスを使用する。 イベントサンプラーは、候補生成器が生成に集中するために使用する制御コード(プリコンディショントリガー)を提供する。 他の条件生成システムとは異なり、DiPは様々な例を訓練せずに制御コードを自動的に生成する。 ベースラインに対する分析により、dipはプリコンディションの多様性を大幅に改善し、さらにプリコンディションを生成することが明らかになった。

Language understanding must identify the logical connections between events in a discourse, but core events are often unstated due to their commonsense nature. This paper fills in these missing events by generating precondition events. Precondition generation can be framed as a sequence-to-sequence problem: given a target event, generate a possible precondition. However, in most real-world scenarios, an event can have several preconditions, requiring diverse generation -- a challenge for standard seq2seq approaches. We propose DiP, a Diverse Precondition generation system that can generate unique and diverse preconditions. DiP uses a generative process with three components -- an event sampler, a candidate generator, and a post-processor. The event sampler provides control codes (precondition triggers) which the candidate generator uses to focus its generation. Unlike other conditional generation systems, DiP automatically generates control codes without training on diverse examples. Analysis against baselines reveals that DiP improves the diversity of preconditions significantly while also generating more preconditions.
翻訳日:2021-06-16 05:53:40 公開日:2021-06-14
# (参考訳) mtc:部分的および粗い観測によるマルチレゾリューションテンソル補完 [全文訳有]

MTC: Multiresolution Tensor Completion from Partial and Coarse Observations ( http://arxiv.org/abs/2106.07135v1 )

ライセンス: CC BY 4.0
Chaoqi Yang, Navjot Singh, Cao Xiao, Cheng Qian, Edgar Solomonik, Jimeng Sun(参考訳) 既存のテンソル完全定式化は、ほとんどが単一のテンソルからの部分的観測に依存している。 しかし、実世界のデータから抽出されたテンソルはしばしばより複雑である: (i) 部分観察: テンソル要素の小さな部分集合(例:5%)のみが利用可能である。 (II)粗い観察:いくつかのテンソルモードは粗いパターンと集約されたパターンのみを示す(例えば、日々の報告の代わりに毎月の要約)。 本稿では,テンソルのサブセットと凝集・粗い観測(モードが1つ以上ある)を付与し,低ランク因子化による元の微細粒状テンソルの復元を試みる。 結合テンソル完備化問題を定式化し,効率的なマルチレゾリューションテンソル補完モデル(MTC)を提案する。 MTCモデルはテンソルモード特性を探索し、解像度階層を利用して最適化設定を再帰的に初期化し、最小二乗の交互化を用いて結合系上で最適化する。 MTCは計算量と空間の複雑さを低くする。 我々は,2つのCOVID-19関連時空間テンソルのモデルについて検討した。 実験の結果、MCCは65.20%と75.79%の適合度(PoF)を、5%の微細な観察しか得られず、最高のベースラインよりも27.96%改善していることがわかった。 学習した低ランク因子を評価するために,MSCが50%のPoFを達成し,30%の相対的改善を最良基準で達成する,日常的および累積的疾患予測のためのテンソル予測タスクを設計した。

Existing tensor completion formulation mostly relies on partial observations from a single tensor. However, tensors extracted from real-world data are often more complex due to: (i) Partial observation: Only a small subset (e.g., 5%) of tensor elements are available. (ii) Coarse observation: Some tensor modes only present coarse and aggregated patterns (e.g., monthly summary instead of daily reports). In this paper, we are given a subset of the tensor and some aggregated/coarse observations (along one or more modes) and seek to recover the original fine-granular tensor with low-rank factorization. We formulate a coupled tensor completion problem and propose an efficient Multi-resolution Tensor Completion model (MTC) to solve the problem. Our MTC model explores tensor mode properties and leverages the hierarchy of resolutions to recursively initialize an optimization setup, and optimizes on the coupled system using alternating least squares. MTC ensures low computational and space complexity. We evaluate our model on two COVID-19 related spatio-temporal tensors. The experiments show that MTC could provide 65.20% and 75.79% percentage of fitness (PoF) in tensor completion with only 5% fine granular observations, which is 27.96% relative improvement over the best baseline. To evaluate the learned low-rank factors, we also design a tensor prediction task for daily and cumulative disease case predictions, where MTC achieves 50% in PoF and 30% relative improvements over the best baseline.
翻訳日:2021-06-16 05:40:09 公開日:2021-06-14
# (参考訳) 低侵襲手術におけるリアルタイムステレオマッチングのためのベイズ密度逆探索アルゴリズム [全文訳有]

Bayesian dense inverse searching algorithm for real-time stereo matching in minimally invasive surgery ( http://arxiv.org/abs/2106.07136v1 )

ライセンス: CC BY 4.0
Jingwei Song, Qiuchen Zhu, Jianyu Lin, and Maani Ghaffari(参考訳) 手術画像のCPUレベルリアルタイムステレオマッチング手法について報告する(i5-9400のコアが1つある640×480画像の10Hz)。 提案手法は,ステレオ画像の差分を推定する高速な'dense inverse search'アルゴリズムに基づいて構築される。 異なるスケールの画像からの重なり合う画像パッチ(arbitrary squared image segment)は、測光一貫性推定に基づいて整列される。 異なるスケールで最適化されたパッチ格差の確率を評価するベイズフレームワークを提案する。 さらに,パッチ内の画素方向確率に対処するため,空間的ガウス混合確率分布を導入する。 In-vivo and synthetic experiment shows that our method can handle ambiguities from the textureless surfaces and the photometric inconsistency caused by the Lambertian reflectance。 ベイズ法はステレオ画像に対するパッチの確率を異なるスケールで正確にバランスさせる。 実験の結果, 推定深さは手術シナリオのベースライン法よりも精度が高く, 外れ値が少ないことが示唆された。

This paper reports a CPU-level real-time stereo matching method for surgical images (10 Hz on 640 * 480 image with a single core of i5-9400). The proposed method is built on the fast ''dense inverse searching'' algorithm, which estimates the disparity of the stereo images. The overlapping image patches (arbitrary squared image segment) from the images at different scales are aligned based on the photometric consistency presumption. We propose a Bayesian framework to evaluate the probability of the optimized patch disparity at different scales. Moreover, we introduce a spatial Gaussian mixed probability distribution to address the pixel-wise probability within the patch. In-vivo and synthetic experiments show that our method can handle ambiguities resulted from the textureless surfaces and the photometric inconsistency caused by the Lambertian reflectance. Our Bayesian method correctly balances the probability of the patch for stereo images at different scales. Experiments indicate that the estimated depth has higher accuracy and fewer outliers than the baseline methods in the surgical scenario.
翻訳日:2021-06-16 05:08:26 公開日:2021-06-14
# (参考訳) 最適停止による学習侵入防止策 [全文訳有]

Learning Intrusion Prevention Policies through Optimal Stopping ( http://arxiv.org/abs/2106.07160v1 )

ライセンス: CC BY-SA 4.0
Kim Hammar and Rolf Stadler(参考訳) 強化学習を用いた自動侵入防止について検討した。 新たなアプローチでは、侵入防止問題を最適停止問題として定式化する。 この定式化により、最適ポリシーの構造についての洞察が得られ、しきい値に基づくことが判明した。 動的計画を用いた最適防衛政策の計算は実用上不可能であるため,シミュレーション環境における強化学習による最適政策の近似を行う。 シミュレーションのダイナミクスを定義するため,対象インフラストラクチャをエミュレートし,測定値の収集を行う。 評価の結果,学習方針は最適に近く,しきい値を用いて表現できることが示唆された。

We study automated intrusion prevention using reinforcement learning. In a novel approach, we formulate the problem of intrusion prevention as an optimal stopping problem. This formulation allows us insight into the structure of the optimal policies, which turn out to be threshold based. Since the computation of the optimal defender policy using dynamic programming is not feasible for practical cases, we approximate the optimal policy through reinforcement learning in a simulation environment. To define the dynamics of the simulation, we emulate the target infrastructure and collect measurements. Our evaluations show that the learned policies are close to optimal and that they indeed can be expressed using thresholds.
翻訳日:2021-06-16 04:59:54 公開日:2021-06-14
# (参考訳) ゴール対応ニューラルSATソルバー [全文訳有]

Goal-Aware Neural SAT Solver ( http://arxiv.org/abs/2106.07162v1 )

ライセンス: CC BY 4.0
Emils Ozolins, Karlis Freivalds, Andis Draguns, Eliza Gaile, Ronalds Zakovskis, Sergejs Kozlovics(参考訳) 現代のニューラルネットワークは問題に関する情報を取得し、入力値からのみ出力を算出する。 ネットワークが実行時にいくつかのソリューション試行を行い,各トライアルにおける損失値に対するフィードバックを得ることで,ネットワークの性能を大幅に向上させることができる,と我々は主張する。 クエリメカニズムの能力を実証するため,ブーリアン満足度問題(SAT)に対する教師なし(ラベルに依存しない)損失関数を定式化し,ネットワークが問題の豊富な情報を抽出できることを理論的に示す。 次に,クエリ機構であるquerysatを用いたニューラルネットワークsatソルバを提案し,幅広いsatタスクのニューラルネットワークベースライン,sha-1前画像攻撃および3satタスクの古典的なベースラインよりも優れることを示す。

Modern neural networks obtain information about the problem and calculate the output solely from the input values. We argue that it is not always optimal, and the network's performance can be significantly improved by augmenting it with a query mechanism that allows the network to make several solution trials at run time and get feedback on the loss value on each trial. To demonstrate the capabilities of the query mechanism, we formulate an unsupervised (not dependant on labels) loss function for Boolean Satisfiability Problem (SAT) and theoretically show that it allows the network to extract rich information about the problem. We then propose a neural SAT solver with a query mechanism called QuerySAT and show that it outperforms the neural baseline on a wide range of SAT tasks and the classical baselines on SHA-1 preimage attack and 3-SAT task.
翻訳日:2021-06-16 04:34:50 公開日:2021-06-14
# (参考訳) 自己学習ガイド付き熱画像領域適応法 [全文訳有]

Self-training Guided Adversarial Domain Adaptation For Thermal Imagery ( http://arxiv.org/abs/2106.07165v1 )

ライセンス: CC BY 4.0
Ibrahim Batuhan Akkaya, Fazil Altinel, Ugur Halici(参考訳) 大規模rgbイメージデータセットでトレーニングされた深層モデルは、大きな成功を収めている。 このような深層モデルを実世界問題に適用することが重要である。 しかし、これらのモデルは照明変更時にパフォーマンスのボトルネックに悩まされる。 サーマル赤外線カメラはこのような変化に対してより堅牢であり、実世界の問題に非常に有用である。 特徴量の多い可視光スペクトルと熱画像モダリティを組み合わせることで、RGB対熱画像ペアを必要としない教師なし領域適応法を提案する。 我々は,大規模RGBデータセットMS-COCOをソースドメインとして,熱データセットFLIR ADASをターゲットドメインとして,本手法の結果を示す。 敵領域適応法は、ソース領域とターゲット領域の分布を整列することを目的としているが、単純に分布を整列させることは、対象領域への完全一般化を保証することはできない。 そこで本研究では,自己学習指導型対向領域適応法を提案し,対向領域適応法の一般化能力を促進する。 自己学習を行うには、ターゲットのサーマルドメインのサンプルに擬似ラベルを割り当てて、ターゲットドメインのより一般的な表現を学ぶ。 実験結果から,提案手法は最先端の対向領域適応法よりも優れた結果が得られることが示された。 コードとモデルは公開されている。

Deep models trained on large-scale RGB image datasets have shown tremendous success. It is important to apply such deep models to real-world problems. However, these models suffer from a performance bottleneck under illumination changes. Thermal IR cameras are more robust against such changes, and thus can be very useful for the real-world problems. In order to investigate efficacy of combining feature-rich visible spectrum and thermal image modalities, we propose an unsupervised domain adaptation method which does not require RGB-to-thermal image pairs. We employ large-scale RGB dataset MS-COCO as source domain and thermal dataset FLIR ADAS as target domain to demonstrate results of our method. Although adversarial domain adaptation methods aim to align the distributions of source and target domains, simply aligning the distributions cannot guarantee perfect generalization to the target domain. To this end, we propose a self-training guided adversarial domain adaptation method to promote generalization capabilities of adversarial domain adaptation methods. To perform self-training, pseudo labels are assigned to the samples on the target thermal domain to learn more generalized representations for the target domain. Extensive experimental analyses show that our proposed method achieves better results than the state-of-the-art adversarial domain adaptation methods. The code and models are publicly available.
翻訳日:2021-06-16 04:19:34 公開日:2021-06-14
# (参考訳) SAS: 言語モデル事前学習のための自己拡張戦略 [全文訳有]

SAS: Self-Augmented Strategy for Language Model Pre-training ( http://arxiv.org/abs/2106.07176v1 )

ライセンス: CC BY 4.0
Yifei Xu, Jingqiao Zhang, Ru He, Liangzhu Ge, Chao Yang, Cheng Yang, Ying Nian Wu(参考訳) 事前学習言語モデルのための自己教師型学習法のコアは、適切なデータ拡張と対応する事前学習タスクの設計を含む。 言語モデルの事前トレーニングにおけるほとんどのデータ拡張は、文脈に依存しない。 electraが最近提案した独創的なコンテキスト化拡張は、別のジェネレータを必要とするため、追加の計算コストと、他のモデルコンポーネントのそれと比較してジェネレータの能力を調整することの難しさをもたらす。 モデルに1つのフォワードパスを用いた自己拡張戦略 (SAS) を提案し, 次の時代におけるモデルトレーニングのための入力データを拡張した。 基本的に、我々の戦略は、別個のジェネレータネットワークを排除し、1つのネットワークのみを使用してデータ拡張を生成し、2つの事前学習タスク(MLMタスクとRTDタスク)を共同で実行することで、ジェネレータの能力調整の課題を自然に回避し、計算コストを低減します。 さらに,我々のSASは,DeBERTaモデルが最近提案した非絡み合いの注意機構など,最近あるいは将来に出現する多くの新しいテクニックをシームレスに組み込むための一般的な戦略である。 我々のSASは, GLUEタスクにおけるELECTRAや他の最先端モデルよりも, あるいはそれ以下の計算コストで性能を向上できることを示す。

The core of a self-supervised learning method for pre-training language models includes the design of appropriate data augmentation and corresponding pre-training task(s). Most data augmentations in language model pre-training are context-independent. The seminal contextualized augmentation recently proposed by the ELECTRA requires a separate generator, which leads to extra computation cost as well as the challenge in adjusting the capability of its generator relative to that of the other model component(s). We propose a self-augmented strategy (SAS) that uses a single forward pass through the model to augment the input data for model training in the next epoch. Essentially our strategy eliminates a separate generator network and uses only one network to generate the data augmentation and undertake two pre-training tasks (the MLM task and the RTD task) jointly, which naturally avoids the challenge in adjusting the generator's capability as well as reduces the computation cost. Additionally, our SAS is a general strategy such that it can seamlessly incorporate many new techniques emerging recently or in the future, such as the disentangled attention mechanism recently proposed by the DeBERTa model. Our experiments show that our SAS is able to outperform the ELECTRA and other state-of-the-art models in the GLUE tasks with the same or less computation cost.
翻訳日:2021-06-16 04:07:58 公開日:2021-06-14
# (参考訳) ニューラルネットを用いた新生児の物体認識のモデル化 [全文訳有]

Modeling Object Recognition in Newborn Chicks using Deep Neural Networks ( http://arxiv.org/abs/2106.07185v1 )

ライセンス: CC BY 4.0
Donsuk Lee, Denizhan Pak, Justin N. Wood(参考訳) 近年、脳と認知科学は、成熟した脳における物体認識の機械的な理解を発展させている。 この進歩にもかかわらず、オブジェクト認識の起源と計算基盤に関する根本的な疑問が残る。 新生児脳における物体認識の学習アルゴリズム 新生児は、ほとんど教師なし学習を通じて学習するので、教師なし学習アルゴリズムが新生児の視差不変物体認識行動を予測できるかどうかを調べた。 具体的には,分類の認知モデルへの入力として,教師なし深層ニューラルネットワーク(dnn)に由来する特徴表現を用いた。 本研究では,教師なしDNNから派生した特徴が,教師付き特徴と比較してニワトリの行動に関する競合予測を行うことを示す。 より一般に、制御学習研究と画像計算可能なdnnモデルとのリンクは、新生児の物体認識の起源と計算基盤を研究するための新しい実験的な道を開くと論じている。

In recent years, the brain and cognitive sciences have made great strides developing a mechanistic understanding of object recognition in mature brains. Despite this progress, fundamental questions remain about the origins and computational foundations of object recognition. What learning algorithms underlie object recognition in newborn brains? Since newborn animals learn largely through unsupervised learning, we explored whether unsupervised learning algorithms can be used to predict the view-invariant object recognition behavior of newborn chicks. Specifically, we used feature representations derived from unsupervised deep neural networks (DNNs) as inputs to cognitive models of categorization. We show that features derived from unsupervised DNNs make competitive predictions about chick behavior compared to supervised features. More generally, we argue that linking controlled-rearing studies to image-computable DNN models opens new experimental avenues for studying the origins and computational basis of object recognition in newborn animals.
翻訳日:2021-06-16 03:49:13 公開日:2021-06-14
# (参考訳) 勾配への直行:ニューラルテキスト生成に新しいトークンを使用するための学習 [全文訳有]

Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation ( http://arxiv.org/abs/2106.07207v1 )

ライセンス: CC BY 4.0
Xiang Lin, Simeng Han, Shafiq Joty(参考訳) 高度な大規模ニューラルネットワークモデルは、多くの言語生成タスクで大きな成功を収めた。 しかしながら、最も一般的に使用されるトレーニング目標である最大度推定(mle)は問題視されており、訓練されたモデルは鈍く反復的なフレーズを使うことを好む。 そこで本研究では,損失関数の勾配を直に修正したScaleGradを導入し,標準MLE目標の劣化問題を改善する。 勾配情報を直接操作することで、ScaleGradはモデルに新しいトークンの使用を学習させる。 実験の結果,提案手法はオープンエンド生成だけでなく,有向生成タスクにおいても有効であることがわかった。 アーキテクチャの単純さにより,本手法は,ニューラルテキスト生成タスクのほとんどに適用可能な汎用的な学習目標として機能する。

Advanced large-scale neural language models have led to significant success in many language generation tasks. However, the most commonly used training objective, Maximum Likelihood Estimation (MLE), has been shown problematic, where the trained model prefers using dull and repetitive phrases. In this work, we introduce ScaleGrad, a modification straight to the gradient of the loss function, to remedy the degeneration issue of the standard MLE objective. By directly maneuvering the gradient information, ScaleGrad makes the model learn to use novel tokens. Empirical results show the effectiveness of our method not only in open-ended generation, but also in directed generation tasks. With the simplicity in architecture, our method can serve as a general training objective that is applicable to most of the neural text generation tasks.
翻訳日:2021-06-16 03:38:26 公開日:2021-06-14
# (参考訳) リカレントニューラルネットワークを用いた英語からバングラ語への機械翻訳 [全文訳有]

English to Bangla Machine Translation Using Recurrent Neural Network ( http://arxiv.org/abs/2106.07225v1 )

ライセンス: CC BY 4.0
Shaykh Siddique, Tahmid Ahmed, Md. Rifayet Azam Talukder, and Md. Mohsin Uddin(参考訳) 機械翻訳におけるリカレントニューラルネットワークの応用は自然言語処理で増加している。 他の言語に加えて、バングラ語は多くの語彙を含んでいる。 英語からバングラ語への機械翻訳の改善は、バングラ語処理に重要な貢献となる。 本稿では,バングラ語機械翻訳システムに対する英語のアーキテクチャについて述べる。 このシステムは、エンコーダ-デコーダリカレントニューラルネットワークで実装されている。 このモデルは英語とバングラ語をマッピングするために知識に基づく文脈ベクトルを用いる。 ここでは、アクティベーション関数に基づくモデルの性能を測定する。 エンコーダ層における線形活性化関数とデコーダ層におけるタンハ活性化関数に対して最高の性能が得られる。 GRUおよびLSTM層の実行から、GRUはLSTMよりも優れた性能を示した。 注意層はソフトマックスとシグモイド活性化関数で実現される。 モデルによるアプローチは、クロスエントロピー損失指標の観点から、従来の最先端システムよりも優れている。 読み手は、英語からバングラ語への機械翻訳の構造と、論文から効率的なアクティベーション機能を容易に見つけることができる。

The applications of recurrent neural networks in machine translation are increasing in natural language processing. Besides other languages, Bangla language contains a large amount of vocabulary. Improvement of English to Bangla machine translation would be a significant contribution to Bangla Language processing. This paper describes an architecture of English to Bangla machine translation system. The system has been implemented with the encoder-decoder recurrent neural network. The model uses a knowledge-based context vector for the mapping of English and Bangla words. Performances of the model based on activation functions are measured here. The best performance is achieved for the linear activation function in encoder layer and the tanh activation function in decoder layer. From the execution of GRU and LSTM layer, GRU performed better than LSTM. The attention layers are enacted with softmax and sigmoid activation function. The approach of the model outperforms the previous state-of-the-art systems in terms of cross-entropy loss metrics. The reader can easily find out the structure of the machine translation of English to Bangla and the efficient activation functions from the paper.
翻訳日:2021-06-16 03:05:49 公開日:2021-06-14
# (参考訳) ディープニューラルネットワークのための完全同型暗号化によるプライバシ保護機械学習 [全文訳有]

Privacy-Preserving Machine Learning with Fully Homomorphic Encryption for Deep Neural Network ( http://arxiv.org/abs/2106.07229v1 )

ライセンス: CC BY 4.0
Joon-Woo Lee, HyungChul Kang, Yongwoo Lee, Woosuk Choi, Jieun Eom, Maxim Deryabin, Eunsang Lee, Junghyun Lee, Donghoon Yoo, Young-Sik Kim, Jong-Seon No(参考訳) 完全同型暗号化(FHE)は、プライバシ保護機械学習(PPML)のための予測ツールの1つであり、様々なFHEスキームとアプローチに基づいて、いくつかのPPMLモデルが提案されている。 FHEのスキームはPPMLモデルを実装するのに適したツールとして知られているが、以前のFHE暗号化データ上のPPMLモデルは、単純な機械学習モデルと非標準的な機械学習モデルに限られていた。 これらの非標準機械学習モデルは、より実用的で高度なデータセットで効率的で正確なものではない。 従来のPPMLスキームは、近似法を使わずに、非算術的アクティベーション関数を単純な算術関数に置き換え、ブートストラップを使用しない。 そのため、標準的なアクティベーション関数は使用できず、多数のレイヤを使用できなかった。 CIFAR-10データセットのFHEを用いた既存のPPMLモデルの最大分類精度は、これまでわずか77%であった。 本研究では、まず、起動ストラップ付きRSS-CKKS FHEを用いて標準ResNet-20モデルを実装し、CIFAR-10データセットと平文モデルパラメータを用いて実装されたモデルを検証する。 単純な算術関数に置き換える代わりに、ReLUのようなこれらの非算術関数を十分精度 [1] で評価するために、最先端の近似法を用いる。 さらに,提案モデルでは,RSS-CKKSスキームのブートストラップ手法を初めて使用し,暗号化データ上でのディープラーニングモデルの評価を可能にする。 CIFAR-10データセットを用いた提案モデルでは,非暗号化データを用いたResNet-20モデルと98.67%の同一結果が得られた。 提案されたモデルの分類精度は90.67%で、オリジナルのResNet-20 CNNモデルにかなり近い。

Fully homomorphic encryption (FHE) is one of the prospective tools for privacypreserving machine learning (PPML), and several PPML models have been proposed based on various FHE schemes and approaches. Although the FHE schemes are known as suitable tools to implement PPML models, previous PPML models on FHE encrypted data are limited to only simple and non-standard types of machine learning models. These non-standard machine learning models are not proven efficient and accurate with more practical and advanced datasets. Previous PPML schemes replace non-arithmetic activation functions with simple arithmetic functions instead of adopting approximation methods and do not use bootstrapping, which enables continuous homomorphic evaluations. Thus, they could not use standard activation functions and could not employ a large number of layers. The maximum classification accuracy of the existing PPML model with the FHE for the CIFAR-10 dataset was only 77% until now. In this work, we firstly implement the standard ResNet-20 model with the RNS-CKKS FHE with bootstrapping and verify the implemented model with the CIFAR-10 dataset and the plaintext model parameters. Instead of replacing the non-arithmetic functions with the simple arithmetic function, we use state-of-the-art approximation methods to evaluate these non-arithmetic functions, such as the ReLU, with sufficient precision [1]. Further, for the first time, we use the bootstrapping technique of the RNS-CKKS scheme in the proposed model, which enables us to evaluate a deep learning model on the encrypted data. We numerically verify that the proposed model with the CIFAR-10 dataset shows 98.67% identical results to the original ResNet-20 model with non-encrypted data. The classification accuracy of the proposed model is 90.67%, which is pretty close to that of the original ResNet-20 CNN model...
翻訳日:2021-06-16 02:58:25 公開日:2021-06-14
# (参考訳) アインシュタインはヒトラーより好意的で神経質か? 歴史人物の感情的・人格的プロファイルの計算による探索 [全文訳有]

Is Einstein more agreeable and less neurotic than Hitler? A computational exploration of the emotional and personality profiles of historical persons ( http://arxiv.org/abs/2106.07237v1 )

ライセンス: CC BY 4.0
Arthur M. Jacobs and Annette Kinder(参考訳) 分散セマンティクスモデル(dsm)の最近の進歩は、表象的および現実的両方のパーソナリティ特性を推定する新しい方法を提供する。 この探索研究では、ヤコブズ(2019)が開発したアルゴリズムの拡張版を用いて、名前がかなり独特な芸術、政治、科学の領域の100人の歴史的人物(アインシュタイン、カーロ、ピカソなど)に対して、類似性スコア、感情的人物プロファイル、およびbig5パーソナリティ特性を計算する。 静的 (word2vec) と動的 (BERT) 言語モデル表現の結果を4つの研究で比較した。 これらのdsmに基づくパーソナリティプロファイルの計算の可能性と限界を示し、このアプローチをさらに発展させ、データサイエンス、心理学、計算およびニューロ認知的詩学(jacobs, 2015)に有用なツールとなることを示す。

Recent progress in distributed semantic models (DSM) offers new ways to estimate personality traits of both fictive and real people. In this exploratory study we applied an extended version of the algorithm developed in Jacobs (2019) to compute the likeability scores, emotional figure profiles and BIG5 personality traits for 100 historical persons from the arts, politics or science domains whose names are rather unique (e.g., Einstein, Kahlo, Picasso). We compared the results produced by static (word2vec) and dynamic (BERT) language model representations in four studies. The results show both the potential and limitations of such DSM-based computations of personality profiles and point ways to further develop this approach to become a useful tool in data science, psychology or computational and neurocognitive poetics (Jacobs, 2015).
翻訳日:2021-06-16 02:45:24 公開日:2021-06-14
# (参考訳) GitTables:リレーショナルテーブルの大規模コーパス [全文訳有]

GitTables: A Large-Scale Corpus of Relational Tables ( http://arxiv.org/abs/2106.07258v1 )

ライセンス: CC BY 4.0
Madelon Hulsebos, \c{C}a\u{g}atay Demiralp, Paul Groth(参考訳) ディープラーニングの実践的な成功は、大規模なテーブルコーパスでトレーニングされたモデルによって、データ検索のようなリレーショナルテーブルタスクの改善への関心を喚起した。 既存のコーパスは、主にHTMLページから抽出されたテーブルを含み、オフラインのデータベーステーブルを表現する能力を制限する。 web以外のアプリケーションの高容量モデルをトレーニングし、評価するには、リレーショナルデータベーステーブルに似たテーブルを持つ追加のリソースが必要です。 これはgithubから抽出された1.7mのリレーショナルテーブルのコーパスである。 私たちの継続的なキュレーションは、コーパスを少なくとも20mのテーブルに拡大することを目的としています。 schema.orgとdbpediaの2k以上のセマンティクスタイプを持つgittablesのテーブル列にアノテートします。 我々の列アノテーションは意味型、階層関係、範囲型、記述からなる。 コーパスはhttps://gittables.gi thub.ioで入手できる。 gittablesの分析の結果,その構造,内容,話題範囲が既存の表コーパスと大きく異なることがわかった。 T2Dv2ベンチマークから手書きのテーブル上でアノテーションパイプラインを評価し,人間のアノテーションと同等の結果が得られた。 意味型検出モデルをトレーニングし,高い予測精度を得ることにより,gittablesのユースケースを実証する。 また、Webからトレーニングされた同じモデルが、あまり一般化していないことも示します。

The practical success of deep learning has sparked interest in improving relational table tasks, like data search, with models trained on large table corpora. Existing corpora primarily contain tables extracted from HTML pages, limiting the capability to represent offline database tables. To train and evaluate high-capacity models for applications beyond the Web, we need additional resources with tables that resemble relational database tables. Here we introduce GitTables, a corpus of currently 1.7M relational tables extracted from GitHub. Our continuing curation aims at growing the corpus to at least 20M tables. We annotate table columns in GitTables with more than 2K different semantic types from Schema.org and DBpedia. Our column annotations consist of semantic types, hierarchical relations, range types and descriptions. The corpus is available at https://gittables.gi thub.io. Our analysis of GitTables shows that its structure, content, and topical coverage differ significantly from existing table corpora. We evaluate our annotation pipeline on hand-labeled tables from the T2Dv2 benchmark and find that our approach provides results on par with human annotations. We demonstrate a use case of GitTables by training a semantic type detection model on it and obtain high prediction accuracy. We also show that the same model trained on tables from theWeb generalizes poorly.
翻訳日:2021-06-16 02:33:27 公開日:2021-06-14
# (参考訳) 分子配座を用いた量子力学的特性予測のためのフレキシブルデュアルブランチメッセージパッシングニューラルネットワーク [全文訳有]

Flexible dual-branched message passing neural network for quantum mechanical property prediction with molecular conformation ( http://arxiv.org/abs/2106.07273v1 )

ライセンス: CC BY 4.0
Jeonghee Jo, Bumju Kwak, Byunghan Lee, Sungroh Yoon(参考訳) 分子は不均一成分の複合体であり、これらの成分の空間配置は分子の性質と特性全体を決定する。 計算化学における深層学習の出現とともに、分子構造に基づく分子特性の予測方法に焦点が当てられている。 メッセージパッシングニューラルネットワークは、分子をグラフとして見ることで分子幾何学的特徴を捉える効果的なフレームワークを提供する。 しかしながら、これらの研究の多くは、原子電荷、結合長、その他の幾何学的特徴のような全ての不均一な分子的特徴は、タスクタイプに関係なく、常にターゲットの予測に等しいものであると仮定した。 本研究では,メッセージパッシングフレームワークに基づく分子特性予測のための2分岐ニューラルネットワークを提案する。 モデルでは,各予測対象に応じて柔軟に訓練された異なるスケールの分子特徴を学習する。 さらに、メッセージパッシングのステップとは別に、単一のatom機能をローカルアグリゲーションなしで学習するための離散ブランチを導入する。 この新しい構造は、ほとんどのターゲットにおいてより高速な収束でモデル性能を向上させることができることを示す。 提案モデルは他のモデルよりもスペーサー表現の方が優れている。 実験の結果, 化学特性予測タスクでは, モデル性能と一般化性の両方について, ターゲットの化学特性を慎重に検討すべきであることが示唆された。

A molecule is a complex of heterogeneous components, and the spatial arrangements of these components determine the whole molecular properties and characteristics. With the advent of deep learning in computational chemistry, several studies have focused on how to predict molecular properties based on molecular configurations. Message passing neural network provides an effective framework for capturing molecular geometric features with the perspective of a molecule as a graph. However, most of these studies assumed that all heterogeneous molecular features, such as atomic charge, bond length, or other geometric features always contribute equivalently to the target prediction, regardless of the task type. In this study, we propose a dual-branched neural network for molecular property prediction based on message-passing framework. Our model learns heterogeneous molecular features with different scales, which are trained flexibly according to each prediction target. In addition, we introduce a discrete branch to learn single atom features without local aggregation, apart from message-passing steps. We verify that this novel structure can improve the model performance with faster convergence in most targets. The proposed model outperforms other recent models with sparser representations. Our experimental results indicate that in the chemical property prediction tasks, the diverse chemical nature of targets should be carefully considered for both model performance and generalizability.
翻訳日:2021-06-16 02:20:31 公開日:2021-06-14
# (参考訳) どの相互情報表現学習の目的が制御に十分か? [全文訳有]

Which Mutual-Information Representation Learning Objectives are Sufficient for Control? ( http://arxiv.org/abs/2106.07278v1 )

ライセンス: CC BY 4.0
Kate Rakelly, Abhishek Gupta, Carlos Florensa, Sergey Levine(参考訳) 相互情報最大化は、データの表現を学習するための魅力的な形式を提供する。 強化学習(RL)の文脈では、このような表現は、制御に必要な情報を保持しながら、無関係かつ冗長な情報を破棄することで学習を加速することができる。 これらの手法に関する先行研究の多くは、高次元観測のサンプルから相互情報を推定する実践的な困難に対処しているが、理論的な観点からは、相互情報の目的がRLに十分な表現をもたらすかは、比較的理解されていない。 本稿では,最適政策の学習と表現のための状態表現の十分性について定式化し,このレンズを通して一般的な相互情報に基づく目的について検討する。 意外なことに、これらの2つの目的は、MDPの構造について軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。 視覚的観察によるシミュレーションゲーム環境における実験結果と理論結果を相関させる。

Mutual information maximization provides an appealing formalism for learning representations of data. In the context of reinforcement learning (RL), such representations can accelerate learning by discarding irrelevant and redundant information, while retaining the information necessary for control. Much of the prior work on these methods has addressed the practical difficulties of estimating mutual information from samples of high-dimensional observations, while comparatively less is understood about which mutual information objectives yield representations that are sufficient for RL from a theoretical perspective. In this paper, we formalize the sufficiency of a state representation for learning and representing the optimal policy, and study several popular mutual-information based objectives through this lens. Surprisingly, we find that two of these objectives can yield insufficient representations given mild and common assumptions on the structure of the MDP. We corroborate our theoretical results with empirical experiments on a simulated game environment with visual observations.
翻訳日:2021-06-16 02:08:46 公開日:2021-06-14
# (参考訳) 単段検出器の注意に基づくドメイン適応 [全文訳有]

Attention-based Domain Adaptation for Single Stage Detectors ( http://arxiv.org/abs/2106.07283v1 )

ライセンス: CC BY 4.0
Vidit and Mathieu Salzmann(参考訳) ドメイン適応は、トレーニングとテストデータが異なる分布に従う場合のオブジェクト検出の性能を改善するために使われてきたが、以前の研究は主に2段階検出器に焦点を当てている。 これは、地域提案を用いることで局所的な適応が可能となり、適応効果が著しく向上することが示されているためである。 これとは対照的に,2段階検出よりもリソース制約のある検出に適しているが,地域提案は提供していないシングルステージアーキテクチャを対象としている。 それにもかかわらず、地域適応の強みの恩恵を受けるため、適応が焦点を置くべき重要な領域を特定するための注意機構を導入する。 我々のアプローチは汎用的で、任意の単段検出器に統合できる。 SSDとYOLOの両方に適用することで、標準的なベンチマークデータセットでこれを実証する。 さらに, 等価な単段アーキテクチャでは, 本手法は特定の検出器用に特別に設計されたにもかかわらず, 最先端のドメイン適応技術に勝る。

While domain adaptation has been used to improve the performance of object detectors when the training and test data follow different distributions, previous work has mostly focused on two-stage detectors. This is because their use of region proposals makes it possible to perform local adaptation, which has been shown to significantly improve the adaptation effectiveness. Here, by contrast, we target single-stage architectures, which are better suited to resource-constrained detection than two-stage ones but do not provide region proposals. To nonetheless benefit from the strength of local adaptation, we introduce an attention mechanism that lets us identify the important regions on which adaptation should focus. Our approach is generic and can be integrated into any single-stage detector. We demonstrate this on standard benchmark datasets by applying it to both SSD and YOLO. Furthermore, for an equivalent single-stage architecture, our method outperforms the state-of-the-art domain adaptation technique even though it was designed specifically for this particular detector.
翻訳日:2021-06-16 01:47:53 公開日:2021-06-14
# (参考訳) 疾患知識のための事前学習言語モデルの提案 [全文訳有]

Probing Pre-Trained Language Models for Disease Knowledge ( http://arxiv.org/abs/2106.07285v1 )

ライセンス: CC BY 4.0
Israa Alghanmi, Luis Espinosa-Anke, Steven Schockaert(参考訳) ClinicalBERTのような事前訓練された言語モデルは、医学的自然言語推論のようなタスクにおいて印象的な成果を上げている。 一見すると、これらのモデルが、症状を病気にマッピングするなど、医学的推論タスクを実行できることを示唆しているかもしれない。 しかし、MedNLIのような標準ベンチマークには、そのような推論を必要とする例が比較的少ないことが分かる。 本稿では,既存の言語モデルの医学的推論能力をよりよく理解するために,疾患知識評価のための新しいベンチマークであるDisKnEを紹介する。 このベンチマークを構築するために、我々は各正のMedNLIサンプルに、必要な医学的推論のタイプをアノテートした。 そして、これらの正の例を逆向きに不正にすることで、負の例を作成しました。 さらに,疾患毎のトレーニング・テスト分割を定義し,その訓練データから検査疾患に関する知識が得られないことを確認し,人工物の存在を避けるために仮説の定式化を正準化する。 これは多くの二分分類問題を引き起こし、1つは推論のタイプと疾患のタイプである。 提案するベンチマークで臨床・バイオメディカル領域の事前学習モデルを分析すると,その性能は大幅に低下することがわかった。

Pre-trained language models such as ClinicalBERT have achieved impressive results on tasks such as medical Natural Language Inference. At first glance, this may suggest that these models are able to perform medical reasoning tasks, such as mapping symptoms to diseases. However, we find that standard benchmarks such as MedNLI contain relatively few examples that require such forms of reasoning. To better understand the medical reasoning capabilities of existing language models, in this paper we introduce DisKnE, a new benchmark for Disease Knowledge Evaluation. To construct this benchmark, we annotated each positive MedNLI example with the types of medical reasoning that are needed. We then created negative examples by corrupting these positive examples in an adversarial way. Furthermore, we define training-test splits per disease, ensuring that no knowledge about test diseases can be learned from the training data, and we canonicalize the formulation of the hypotheses to avoid the presence of artefacts. This leads to a number of binary classification problems, one for each type of reasoning and each disease. When analysing pre-trained models for the clinical/biomedical domain on the proposed benchmark, we find that their performance drops considerably.
翻訳日:2021-06-16 01:34:01 公開日:2021-06-14
# (参考訳) RRULES: RULESルールベースの分類器の改良 [全文訳有]

RRULES: An improvement of the RULES rule-based classifier ( http://arxiv.org/abs/2106.07296v1 )

ライセンス: CC BY 4.0
Rafel Palliser-Sans(参考訳) RRULESは、一連のトレーニング例からIF-THEN規則を抽出する単純な帰納的学習アルゴリズムであるRULESの改良と最適化として提示される。 RRULESは、無関係なルールを検出するためのより効率的なメカニズムを実装してアルゴリズムを最適化すると同時に、停止条件をより頻繁にチェックする。 これにより、より一般的なルールを含むよりコンパクトなルールセットとなり、トレーニングセットのオーバーフィットを防止し、より高いテスト精度が得られる。 さらに、RRULESは、複数のデータセット上で2、3倍高速に実行しながら、カバレッジ率を最大7倍にすることで、元のアルゴリズムよりも優れていた。

RRULES is presented as an improvement and optimization over RULES, a simple inductive learning algorithm for extracting IF-THEN rules from a set of training examples. RRULES optimizes the algorithm by implementing a more effective mechanism to detect irrelevant rules, at the same time that checks the stopping conditions more often. This results in a more compact rule set containing more general rules which prevent overfitting the training set and obtain a higher test accuracy. Moreover, the results show that RRULES outperforms the original algorithm by reducing the coverage rate up to a factor of 7 while running twice or three times faster consistently over several datasets.
翻訳日:2021-06-16 01:18:08 公開日:2021-06-14
# (参考訳) 線形鎖CRFを正規言語に制約する [全文訳有]

Constraining Linear-chain CRFs to Regular Languages ( http://arxiv.org/abs/2106.07306v1 )

ライセンス: CC BY-SA 4.0
Sean Papay, Roman Klinger and Sebastian Pad\'o(参考訳) 構造化予測では、モデルの主な課題は、出力構造内の相互依存を表現することである。 出力がシーケンスとして構造化される一般的な場合、線形鎖条件付きランダムフィールド(CRF)は、出力シーケンスの局所的依存関係を学習できる広く使われているモデルクラスである。 しかし、CRFのマルコフの仮定は、これらのモデルが非局所的な依存関係をキャプチャすることは不可能であり、標準のCRFはデータ(例えば出力ラベルのグローバルアリティ制約)の非局所的な制約を尊重することができない。 出力構造の空間を正規言語 $\mathcal{L}$ として指定することにより、非局所構造を含む幅広い制約を強制できる CRF の一般化を提案する。 結果として得られる正則制約 CRF (RegCCRF) は標準 CRF と同じ形式的性質を持つが、$\mathcal{L}$ でないすべてのラベル列にゼロ確率を割り当てる。 特に、RegCCRFはトレーニング中に制約を組み込むことができ、関連するモデルはデコード時にのみ制約を強制する。 制約付きトレーニングが制約付き復号化よりも悪くないことを証明し、実際にかなり良い結果が得られることを合成データを用いて示す。 さらに,RegCCRFをセマンティックロールラベリングのためのディープニューラルモデルに組み込むことで,ダウンストリームタスクに実用的なメリットを実証する。

In structured prediction, a major challenge for models is to represent the interdependencies within their output structures. For the common case where outputs are structured as a sequence, linear-chain conditional random fields (CRFs) are a widely used model class which can learn local dependencies in output sequences. However, the CRF's Markov assumption makes it impossible for these models to capture nonlocal dependencies, and standard CRFs are unable to respect nonlocal constraints of the data (such as global arity constraints on output labels). We present a generalization of CRFs that can enforce a broad class of constraints, including nonlocal ones, by specifying the space of possible output structures as a regular language $\mathcal{L}$. The resulting regular-constrained CRF (RegCCRF) has the same formal properties as a standard CRF, but assigns zero probability to all label sequences not in $\mathcal{L}$. Notably, RegCCRFs can incorporate their constraints during training, while related models only enforce constraints during decoding. We prove that constrained training is never worse than constrained decoding, and show using synthetic data that it can be substantially better in practice. Additionally, we demonstrate a practical benefit on downstream tasks by incorporating a RegCCRF into a deep neural model for semantic role labeling, exceeding state-of-the-art results on a standard dataset.
翻訳日:2021-06-16 01:12:36 公開日:2021-06-14
# (参考訳) 空中赤外線映像におけるPVモジュールの検出・マッピング・故障分類のためのコンピュータビジョンツール [全文訳有]

Computer Vision Tool for Detection, Mapping and Fault Classification of PV Modules in Aerial IR Videos ( http://arxiv.org/abs/2106.07314v1 )

ライセンス: CC BY-SA 4.0
Lukas Bommes, Tobias Pickel, Claudia Buerhop-Lutz, Jens Hauch, Christoph Brabec, Ian Marius Peters(参考訳) 太陽光発電プラントの設置の増加は、安価で迅速な検査を必要とする。 このタスクの有効なツールは、無人航空機(UAV)による熱画像撮影である。 本研究では,熱画像UAVビデオからPVモジュールを半自動抽出するコンピュータビジョンツールを開発した。 我々は、7つの異なるPVプラントのサーモグラフィービデオから107842 PVモジュールの430万のIR画像を含むデータセットをキュレートする。 PVプラントの自動検査に使用するために、ResNet-50をトレーニングし、90パーセント以上のテスト精度で10の共通モジュール異常を分類する。 実験により, 異なるPVプラントに応用できることが確認された。 561個の植物列のうち512個からPVモジュールを抽出することに成功した。 失敗は主に、不適切なUAV軌道と間違ったモジュールセグメンテーションによるものである。 私たちのツールは、すべての手動ステップを含め、1日3.5 MW pから9 MW pのPVインストールを検査することが可能です。 PVプラントの自動点検に有効な方法を提案する一方で、電力予測や非教師なし欠陥識別といった機械学習タスクにおける大規模サーモグラフィデータセットの需要が増大するのに、我々のアプローチが役立つと確信している。

Increasing deployment of photovoltaics (PV) plants demands for cheap and fast inspection. A viable tool for this task is thermographic imaging by unmanned aerial vehicles (UAV). In this work, we develop a computer vision tool for the semi-automatic extraction of PV modules from thermographic UAV videos. We use it to curate a dataset containing 4.3 million IR images of 107842 PV modules from thermographic videos of seven different PV plants. To demonstrate its use for automated PV plant inspection, we train a ResNet-50 to classify ten common module anomalies with more than 90 % test accuracy. Experiments show that our tool generalizes well to different PV plants. It successfully extracts PV modules from 512 out of 561 plant rows. Failures are mostly due to an inappropriate UAV trajectory and erroneous module segmentation. Including all manual steps our tool enables inspection of 3.5 MW p to 9 MW p of PV installations per day, potentially scaling to multi-gigawatt plants due to its parallel nature. While we present an effective method for automated PV plant inspection, we are also confident that our approach helps to meet the growing demand for large thermographic datasets for machine learning tasks, such as power prediction or unsupervised defect identification.
翻訳日:2021-06-16 00:54:54 公開日:2021-06-14
# (参考訳) データストリームのための自動機械学習技術 [全文訳有]

Automated Machine Learning Techniques for Data Streams ( http://arxiv.org/abs/2106.07317v1 )

ライセンス: CC BY 4.0
Alexandru-Ionut Imbrea(参考訳) 自動化された機械学習技術は、最近の大きな研究の進歩から恩恵を受けた。 これらの開発と機械学習の専門家の継続的な需要は、多数のAutoMLツールの開発につながった。 しかし、これらのツールはトレーニングデータセット全体が事前に利用可能であり、基礎となるディストリビューションは時間とともに変化しないと仮定する。 これらの仮定は、無制限のデータストリームを保存できないデータストリームマイニング設定に保持されず、概念ドリフトを顕示する可能性が高い。 ストリーミングデータに対する機械学習の産業的応用は、IoTやマイクロサービスアーキテクチャ、Webアナリティクスなどの分野におけるリアルタイムストリーミングパターンの採用の増加により、ますます人気が高まっている。 本稿では、最先端のオープンソースautomlツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。 比較のために、バッチ、バッチインクリメンタル、インスタンスインクリメンタル推定が適用され、比較される。 さらに,メタ機能抽出に基づくオンラインアルゴリズム選択のためのメタ学習手法を提案し,モデル置換と連続オートML技術の比較を行った。 その結果, 市販のautomlツールは良好な結果が得られるが, 概念ドリフトの存在下では, 予測精度を維持するためには, 検出や適応手法を適用する必要がある。

Automated machine learning techniques benefited from tremendous research progress in recently. These developments and the continuous-growing demand for machine learning experts led to the development of numerous AutoML tools. However, these tools assume that the entire training dataset is available upfront and that the underlying distribution does not change over time. These assumptions do not hold in a data stream mining setting where an unbounded stream of data cannot be stored and is likely to manifest concept drift. Industry applications of machine learning on streaming data become more popular due to the increasing adoption of real-time streaming patterns in IoT, microservices architectures, web analytics, and other fields. The research summarized in this paper surveys the state-of-the-art open-source AutoML tools, applies them to data collected from streams, and measures how their performance changes over time. For comparative purposes, batch, batch incremental and instance incremental estimators are applied and compared. Moreover, a meta-learning technique for online algorithm selection based on meta-feature extraction is proposed and compared while model replacement and continual AutoML techniques are discussed. The results show that off-the-shelf AutoML tools can provide satisfactory results but in the presence of concept drift, detection or adaptation techniques have to be applied to maintain the predictive accuracy over time.
翻訳日:2021-06-16 00:32:13 公開日:2021-06-14
# (参考訳) 画像符号化機能を有する変分準進化型ニューラルネットワーク [全文訳有]

Variational Quanvolutional Neural Networks with enhanced image encoding ( http://arxiv.org/abs/2106.07327v1 )

ライセンス: CC BY 4.0
Denny Mattern, Darya Martyniuk, Henri Willems, Fabian Bergmann, Adrian Paschke(参考訳) 画像分類は様々な機械学習アプリケーションにおいて重要な課題である。 近年,量子機械学習と異なる量子画像符号化技術に基づく分類手法が数多く提案されている。 本稿では、畳み込みに着想を得たハイブリッド量子古典画像分類アルゴリズム(QNN)の性能に及ぼす3種類の異なる量子画像符号化手法の効果について検討する。 さらに,変分の影響について検討する。 トレーニング可能 - 分類結果の量子回路。 実験により,画像エンコーディングが変動回路に適していることを示す。 しかし,本実験では,最適な画像エンコーディングは1つではなく,そのエンコーディングの選択がアプリケーションの特定の制約に依存することを示した。

Image classification is an important task in various machine learning applications. In recent years, a number of classification methods based on quantum machine learning and different quantum image encoding techniques have been proposed. In this paper, we study the effect of three different quantum image encoding approaches on the performance of a convolution-inspired hybrid quantum-classical image classification algorithm called quanvolutional neural network (QNN). We furthermore examine the effect of variational - i.e. trainable - quantum circuits on the classification results. Our experiments indicate that some image encodings are better suited for variational circuits. However, our experiments show as well that there is not one best image encoding, but that the choice of the encoding depends on the specific constraints of the application.
翻訳日:2021-06-16 00:19:52 公開日:2021-06-14
# (参考訳) 平均回帰基準のためのオンポリシー深層強化学習 [全文訳有]

On-Policy Deep Reinforcement Learning for the Average-Reward Criterion ( http://arxiv.org/abs/2106.07329v1 )

ライセンス: CC BY 4.0
Yiming Zhang, Keith W. Ross(参考訳) 我々は, 平均回帰型強化学習(RL)の理論とアルゴリズムを開発した。 まず,2つの政策に対する長期平均報酬の差について考察する。 我々は、割引リターンに基づく以前の作業(Schulman et al., 2015; Achiam et al., 2017)が、平均リワード設定において意味のないバウンドをもたらすことを示す。 平均回帰基準を直接扱うことによって、我々は2つの政策とケメニー定数の間の平均的分岐に依存する新しい境界を導出する。 この境界に基づいて、平均報酬基準に対する単調に改善されたポリシーのシーケンスを生成する反復手順を開発する。 この反復的な手順を古典的なDRL(Deep Reinforcement Learning)手法と組み合わせることで、長期平均報酬基準をターゲットにした実用的なDRLアルゴリズムを実現する。 特に,Average-Reward TRPO (ATRPO) が平均再帰基準に適応し,最も困難な MuJuCo 環境において TRPO を著しく上回っていることを示す。

We develop theory and algorithms for average-reward on-policy Reinforcement Learning (RL). We first consider bounding the difference of the long-term average reward for two policies. We show that previous work based on the discounted return (Schulman et al., 2015; Achiam et al., 2017) results in a non-meaningful bound in the average-reward setting. By addressing the average-reward criterion directly, we then derive a novel bound which depends on the average divergence between the two policies and Kemeny's constant. Based on this bound, we develop an iterative procedure which produces a sequence of monotonically improved policies for the average reward criterion. This iterative procedure can then be combined with classic DRL (Deep Reinforcement Learning) methods, resulting in practical DRL algorithms that target the long-run average reward criterion. In particular, we demonstrate that Average-Reward TRPO (ATRPO), which adapts the on-policy TRPO algorithm to the average-reward criterion, significantly outperforms TRPO in the most challenging MuJuCo environments.
翻訳日:2021-06-16 00:02:49 公開日:2021-06-14
# (参考訳) 脳磁気共鳴画像マルチクラス分類のための深層伝達学習 [全文訳有]

Deep Transfer Learning for Brain Magnetic Resonance Image Multi-class Classification ( http://arxiv.org/abs/2106.07333v1 )

ライセンス: CC BY 4.0
Yusuf Brima, Mossadek Hossain Kamal Tushar, Upama Kabir, Tariqul Islam(参考訳) MRI(Magnetic Resonance Imaging)は、患者の解剖学的および生理学的構造の画像を作成するために、放射線学の分野で使用される主要な診断手法である。 MRIは軟部組織の異常を見つけるための医用画像撮影法として一般的である。 伝統的に、それらは軟部組織、特に脳の異常を検出するために放射線科医によって分析される。 大量の患者のMRIを解釈する過程は困難である。 したがって、機械学習手法を用いることで、軟部組織の異常をかなり正確に検出することができる。 本研究では、新しいデータセットをキュレートし、Deep Transfer Learningを用いて脳MRI画像中の腫瘍の多重分類を行うフレームワークを開発した。 本稿では,実験にDeep Residual Convolutional Neural Network (ResNet50) アーキテクチャを導入し,モデルを学習するための識別学習手法を提案する。 新しいデータセットと2つのmri脳データセットを用いて、このアプローチは、キュレートされたデータセットで86.40\%、ハーバード全脳アトラスデータセットで93.80\%、生物医学工学データセットで97.05\%の分類精度を得た。 提案するトランスファーラーニングの枠組みは,脳腫瘍のマルチクラス化タスクにおいて有望かつ効果的な手法であることを示す。

Magnetic Resonance Imaging (MRI) is a principal diagnostic approach used in the field of radiology to create images of the anatomical and physiological structure of patients. MRI is the prevalent medical imaging practice to find abnormalities in soft tissues. Traditionally they are analyzed by a radiologist to detect abnormalities in soft tissues, especially the brain. The process of interpreting a massive volume of patient's MRI is laborious. Hence, the use of Machine Learning methodologies can aid in detecting abnormalities in soft tissues with considerable accuracy. In this research, we have curated a novel dataset and developed a framework that uses Deep Transfer Learning to perform a multi-classification of tumors in the brain MRI images. In this paper, we adopted the Deep Residual Convolutional Neural Network (ResNet50) architecture for the experiments along with discriminative learning techniques to train the model. Using the novel dataset and two publicly available MRI brain datasets, this proposed approach attained a classification accuracy of 86.40\% on the curated dataset, 93.80\% on the Harvard Whole Brain Atlas dataset, and 97.05\% accuracy on the School of Biomedical Engineering dataset. Results of our experiments significantly demonstrate our proposed framework for transfer learning is a potential and effective method for brain tumor multi-classification tasks.
翻訳日:2021-06-15 23:30:35 公開日:2021-06-14
# (参考訳) 脳活性化による想像内容の予測 [全文訳有]

Predicting the imagined contents using brain activation ( http://arxiv.org/abs/2106.07355v1 )

ライセンス: CC BY 4.0
Krishna Prasad Miyapuram, Wolfram Schultz, Philippe N. Tobler(参考訳) 精神的イメージとは知覚入力がない場合に知覚的な経験を指す。 脳画像研究は、共通の、モダリティに特有なニューラル相関が画像と知覚に相関していることを示唆している。 我々は、抽象的な視覚刺激と、視覚的に提示されたり、金銭的な報酬やスクランブル画像とを関連づけた。 機能的磁気共鳴画像を用いて12名の被験者の脳像を収集した。 統計的分析により、人間の中脳領域は、想像または視覚的に提示される金銭的報酬に関係なく活性化された。 中脳の活性化パターンに基づいて訓練されたサポートベクターマシンは、参加者が想像した金銭的報酬か、想像力の試練中にスクランブルされた絵かを75%の精度で予測した報酬を視覚的に提示する。 視覚的に提示した実験からトレーニングサンプルを抽出し,想像力試験で分類精度を評価した。 これらの結果は,脳画像データから基礎的認知状態の分類に機械学習を用いたことを示唆する。

Mental imagery refers to percept-like experiences in the absence of sensory input. Brain imaging studies suggest common, modality-specific, neural correlates imagery and perception. We associated abstract visual stimuli with either visually presented or imagined monetary rewards and scrambled pictures. Brain images for a group of 12 participants were collected using functional magnetic resonance imaging. Statistical analysis showed that human midbrain regions were activated irrespective of the monetary rewards being imagined or visually present. A support vector machine trained on the midbrain activation patterns to the visually presented rewards predicted with 75% accuracy whether the participants imagined the monetary reward or the scrambled picture during imagination trials. Training samples were drawn from visually presented trials and classification accuracy was assessed for imagination trials. These results suggest the use of machine learning technique for classification of underlying cognitive states from brain imaging data.
翻訳日:2021-06-15 23:09:37 公開日:2021-06-14
# (参考訳) 顔解析のための品質認識ネットワーク [全文訳有]

Quality-Aware Network for Face Parsing ( http://arxiv.org/abs/2106.07368v1 )

ライセンス: CC BY 4.0
Lu Yang, Qing Song, Xueshi Xin, Zhiwei Liu(参考訳) これは非常に短い技術的レポートで、CVPR 2021の3番目の人物(PIC)ワークショップとチャレンジのショートビデオ顔解析トラックのためのチームBUPT-CASIAのソリューションを紹介します。 顔解析は、アプリケーションの可能性の多さから、最近関心が高まっている。 一般的に言えば、タスク設定、データ特性、カテゴリ数など、ヒューマンパースと多くの共通点がある。 そこで本研究では,最先端のヒューマンパース手法を顔解析タスクに適用し,それらの類似点と相違点を探索する。 我々の応募は86.84%のスコアを獲得し、この挑戦で2位を獲得した。

This is a very short technical report, which introduces the solution of the Team BUPT-CASIA for Short-video Face Parsing Track of The 3rd Person in Context (PIC) Workshop and Challenge at CVPR 2021. Face parsing has recently attracted increasing interest due to its numerous application potentials. Generally speaking, it has a lot in common with human parsing, such as task setting, data characteristics, number of categories and so on. Therefore, this work applies state-of-the-art human parsing method to face parsing task to explore the similarities and differences between them. Our submission achieves 86.84% score and wins the 2nd place in the challenge.
翻訳日:2021-06-15 23:04:08 公開日:2021-06-14
# (参考訳) 関数学習と外挿のための自己監督型フレームワーク [全文訳有]

A Self-Supervised Framework for Function Learning and Extrapolation ( http://arxiv.org/abs/2106.07369v1 )

ライセンス: CC BY 4.0
Simon N. Segert, Jonathan D. Cohen(参考訳) エージェントがどのようにして高次元で自然主義的な環境で一般化し、特に外挿することを学ぶかを理解することは、機械学習と生物学的エージェントの研究の両方にとって課題である。 これに対する1つのアプローチは、滑らかなスカラー関数の一般化に関する人々の経験的パターンを正確に記述できる関数学習パラダイムの使用である。 しかし、このような研究は、人間の経験的研究で観察された一般化のパターンを示すために、関数学習が動作可能な汎用表現の種類を取得するメカニズムの特定に成功していない。 本稿では,学習者がそのような表現をどのように獲得するかを示すフレームワークを提案する。 視覚処理の古典的理論から着想を得て,位相歪み下での不変性の基本帰納バイアスを実装する自己教師付きエンコーダを構築する。 その結果,外挿を含むいくつかの下流関数学習タスクにおいて,教師なし時系列学習のために,他のモデルの表現よりも優れることを示す。

Understanding how agents learn to generalize -- and, in particular, to extrapolate -- in high-dimensional, naturalistic environments remains a challenge for both machine learning and the study of biological agents. One approach to this has been the use of function learning paradigms, which allow peoples' empirical patterns of generalization for smooth scalar functions to be described precisely. However, to date, such work has not succeeded in identifying mechanisms that acquire the kinds of general purpose representations over which function learning can operate to exhibit the patterns of generalization observed in human empirical studies. Here, we present a framework for how a learner may acquire such representations, that then support generalization -- and extrapolation in particular -- in a few-shot fashion. Taking inspiration from a classic theory of visual processing, we construct a self-supervised encoder that implements the basic inductive bias of invariance under topological distortions. We show the resulting representations outperform those from other models for unsupervised time series learning in several downstream function learning tasks, including extrapolation.
翻訳日:2021-06-15 23:00:00 公開日:2021-06-14
# (参考訳) エッジ検出アルゴリズムのための拡張フィルタ [全文訳有]

Dilated filters for edge detection algorithms ( http://arxiv.org/abs/2106.07395v1 )

ライセンス: CC BY 4.0
Ciprian Orhei, Victor Bogdan, Cosmin Bonchis(参考訳) エッジは画像処理の基本的な特徴であり、大量のアプリケーションで直接または間接的に使用される。 画像解像度の拡大と処理パワーの拡張による畳み込み技術が出現した。 拡張畳み込みは機械学習において顕著な結果をもたらすが、ここでは、エッジ検出アルゴリズムで使用される標準フィルタの拡張について論じる。 本研究では,従来の畳み込みフィルタを拡張したフィルタに代えて,従来の結果と現在の結果をすべてまとめる。 提案した拡張フィルタを用いて,エッジ検出アルゴリズムの結果を,元のフィルタやカスタム変種と比較する。 実験の結果,フィルタの拡張がエッジ検出アルゴリズムに有意な影響を与えることが明らかとなった。

Edges are a basic and fundamental feature in image processing, that are used directly or indirectly in huge amount of applications. Inspired by the expansion of image resolution and processing power dilated convolution techniques appeared. Dilated convolution have impressive results in machine learning, we discuss here the idea of dilating the standard filters which are used in edge detection algorithms. In this work we try to put together all our previous and current results by using instead of the classical convolution filters a dilated one. We compare the results of the edge detection algorithms using the proposed dilation filters with original filters or custom variants. Experimental results confirm our statement that dilation of filters have positive impact for edge detection algorithms form simple to rather complex algorithms.
翻訳日:2021-06-15 22:44:53 公開日:2021-06-14
# (参考訳) PI-GNN:ノイズラベルに対する半監督ノード分類の新しい視点 [全文訳有]

PI-GNN: A Novel Perspective on Semi-Supervised Node Classification against Noisy Labels ( http://arxiv.org/abs/2106.07451v1 )

ライセンス: CC BY 4.0
Xuefeng Du, Tian Bian, Yu Rong, Bo Han, Tongliang Liu, Tingyang Xu, Wenbing Huang, Junzhou Huang(参考訳) グラフ学習の基本的な問題である半教師付きノード分類では、ラベル付きノードと少数のラベル付きノードをトレーニングに利用している。 既存の手法は高品質なラベルに大きく依存するが、特定のノイズがラベリングの過程で必然的に関与するため、現実のアプリケーションで入手するのに費用がかかる。 したがって、学習アルゴリズムがうまく一般化することは避けられない課題となる。 本稿では,グラフニューラルネットワーク (GNN) のようなモデルのためのペアワイズ・インタラクション (PI) と呼ばれる,雑音のあるラベルに対処する新しい頑健な学習目標を提案する。 ノードとクラスラベルのペア間のポイントワイドな相互作用を操作する古典的な堅牢なトレーニングアプローチとは異なり、PIは正のPIラベルを持つノードペアの埋め込みを明示的に強制し、ラベル付きノードとラベルなしノードの両方に適用することができる。 グラフ構造とノードクラスラベルに基づくpiラベルのインスタンス化をいくつか設計し,さらに,サブオプティカルpiラベルの悪影響を緩和する新たな不確実性認識トレーニング手法を提案する。 異なるデータセットとGNNアーキテクチャに関する大規模な実験は、PIの有効性を示し、最先端の手法よりも有望な改善をもたらす。

Semi-supervised node classification, as a fundamental problem in graph learning, leverages unlabeled nodes along with a small portion of labeled nodes for training. Existing methods rely heavily on high-quality labels, which, however, are expensive to obtain in real-world applications since certain noises are inevitably involved during the labeling process. It hence poses an unavoidable challenge for the learning algorithm to generalize well. In this paper, we propose a novel robust learning objective dubbed pairwise interactions (PI) for the model, such as Graph Neural Network (GNN) to combat noisy labels. Unlike classic robust training approaches that operate on the pointwise interactions between node and class label pairs, PI explicitly forces the embeddings for node pairs that hold a positive PI label to be close to each other, which can be applied to both labeled and unlabeled nodes. We design several instantiations for PI labels based on the graph structure and the node class labels, and further propose a new uncertainty-aware training technique to mitigate the negative effect of the sub-optimal PI labels. Extensive experiments on different datasets and GNN architectures demonstrate the effectiveness of PI, yielding a promising improvement over the state-of-the-art methods.
翻訳日:2021-06-15 22:20:08 公開日:2021-06-14
# (参考訳) 協調フィルタリングのための効率的なデータ固有モデル探索 [全文訳有]

Efficient Data-specific Model Search for Collaborative Filtering ( http://arxiv.org/abs/2106.07453v1 )

ライセンス: CC BY 4.0
Chen Gao and Quanming Yao and Depeng Jin and Yong Li(参考訳) コラボレーティブフィルタリング(cf、collaborative filtering)は、レコメンダシステムの基本アプローチとして、学習可能なパラメータを持つ潜在因子モデルに基づいて、アイテムに対するユーザの好みを予測する。 しかし、データセットの特性は非常に多様であるため、与えられたデータに対する適切なcfモデルの設計は容易ではない。 本稿では,機械学習(AutoML)の最近の進歩を動機として,データ固有のCFモデルをAutoML技術により設計することを提案する。 ここでのキーは、最先端(SOTA)のCFメソッドを統一し、それらを入力エンコーディング、埋め込み関数、相互作用関数、予測関数の非結合ステージに分割する新しいフレームワークである。 さらに, ランダム検索と性能予測器を用いて, より使いやすく, 堅牢で, 効率的な検索戦略を構築した。 このようにして、文献にないデータ固有のcfモデルをsomaモデルから組合せ的に一般化することができる。 5つの実世界のデータセットに対する大規模な実験により、我々の手法は様々なCFタスクにおいてSOTAよりも一貫して優れていることが示された。 さらに,提案手法の合理性と探索戦略の効率性を検証する実験を行った。 検索されたCFモデルは、将来より効果的な方法を探究するための洞察を提供することができる

Collaborative filtering (CF), as a fundamental approach for recommender systems, is usually built on the latent factor model with learnable parameters to predict users' preferences towards items. However, designing a proper CF model for a given data is not easy, since the properties of datasets are highly diverse. In this paper, motivated by the recent advances in automated machine learning (AutoML), we propose to design a data-specific CF model by AutoML techniques. The key here is a new framework that unifies state-of-the-art (SOTA) CF methods and splits them into disjoint stages of input encoding, embedding function, interaction function, and prediction function. We further develop an easy-to-use, robust, and efficient search strategy, which utilizes random search and a performance predictor for efficient searching within the above framework. In this way, we can combinatorially generalize data-specific CF models, which have not been visited in the literature, from SOTA ones. Extensive experiments on five real-world datasets demonstrate that our method can consistently outperform SOTA ones for various CF tasks. Further experiments verify the rationality of the proposed framework and the efficiency of the search strategy. The searched CF models can also provide insights for exploring more effective methods in the future
翻訳日:2021-06-15 22:01:29 公開日:2021-06-14
# (参考訳) $f$-GANによるブリッジ推定器の改善

Improving Bridge estimators via $f$-GAN ( http://arxiv.org/abs/2106.07462v1 )

ライセンス: CC BY 4.0
Hanwen Xing(参考訳) ブリッジサンプリングは、正規化定数の比率を推定する強力なモンテカルロ法である。 効率を向上させるために様々な方法が導入された。 これらの方法は、正規化定数を変更することなく、適切な変換を適用することで密度間の重なりを増大させることを目的としている。 本稿では,まず2つの密度間のf$-divergenceを等価に推定することにより,最適ブリッジ推定器の漸近相対平均二乗誤差(rmse)の新しい推定器を提案する。 次に、このフレームワークを利用し、一方の密度を他方にマップする単射変換に基づいて、$f$-GAN-Bridge estimator (f$-GB)を提案する。 そのような変換は、$f$-GAN \citep{nowozin2016f} を用いて、それらの間の特定の$f$-divergenceを最小化する。 最適橋梁推定器の漸近的rmseを密度に対して最小化することと同値であることを示す。 言い換えれば、$f$-GB は漸近的に、候補変換によって生成される密度のクラス内の変換密度に基づいてブリッジ推定器が達成した値よりも低い RMSE を達成することができるという意味で最適である。 数値実験によれば、$f$-gbはシミュレーションや実世界の例では既存の方法よりも優れている。 さらに,$f$-divergence推定の問題から橋梁推定器が自然に発生するかについて議論する。

Bridge sampling is a powerful Monte Carlo method for estimating ratios of normalizing constants. Various methods have been introduced to improve its efficiency. These methods aim to increase the overlap between the densities by applying appropriate transformations to them without changing their normalizing constants. In this paper, we first give a new estimator of the asymptotic relative mean square error (RMSE) of the optimal Bridge estimator by equivalently estimating an $f$-divergence between the two densities. We then utilize this framework and propose $f$-GAN-Bridge estimator ($f$-GB) based on a bijective transformation that maps one density to the other. Such transformation is chosen to minimize a specific $f$-divergence between them using an $f$-GAN \citep{nowozin2016f}. We show it is equivalent to minimizing the asymptotic RMSE of the optimal Bridge estimator with respect to the densities. In other words, $f$-GB is optimal in the sense that asymptotically, it can achieve an RMSE lower than that achieved by Bridge estimators based on any transformed density within the class of densities generated by the candidate transformations. Numerical experiments show that $f$-GB outperforms existing methods in simulated and real-world examples. In addition, we discuss how Bridge estimators naturally arise from the problem of $f$-divergence estimation.
翻訳日:2021-06-15 21:40:51 公開日:2021-06-14
# (参考訳) S$^2$-MLP:視覚のための空間シフト型MLPアーキテクチャ [全文訳有]

S$^2$-MLP: Spatial-Shift MLP Architecture for Vision ( http://arxiv.org/abs/2106.07477v1 )

ライセンス: CC BY 4.0
Tan Yu, Xu Li, Yunfeng Cai, Mingming Sun, Ping Li(参考訳) 近年、visual transformer (vit) とその次の作品は畳み込みを放棄し、自己着脱操作を活用し、cnnと同等またはそれ以上の精度を達成する。 最近では、MLP-Mixerは畳み込みと自己注意操作の両方を捨て、MLP層のみを含むアーキテクチャを提案する。 クロスパッチ通信を実現するため、チャネルミキシング MLP に加えて、トークンミキシング MLP も考案した。 非常に大規模なデータセットでトレーニングすると、有望な結果が得られる。 しかし、ImageNet1KやImageNet21Kのような中規模のデータセットのトレーニングでは、CNNやViTほど優れたパフォーマンスを達成できない。 MLP-Mixerの性能低下は、トークンミキシングMLPを再考する動機となっている。 MLP-Mixerにおけるトークンミキシング操作は,大域的な受信フィールドと空間固有の構成を持つ深部的な畳み込みの変種であることがわかった。 しかし、グローバル受信フィールドと空間特性により、トークン混合MLPは過度に適合する傾向にある。 本稿では,空間シフト型MLP(S$^2$-MLP)を提案する。 MLP-Mixerとは異なり、S$^2$-MLP はチャネル混合 MLP のみを含む。 パッチ間の通信を実現するための空間シフト操作を考案する。 局所的な受信フィールドを持ち、空間に依存しない。 一方、パラメータフリーであり、計算に効率的である。 提案したS$^2$-MLPは、ImageNet-1Kデータセットのトレーニングにおいて、MLP-Mixerよりも高い認識精度を実現する。 一方、s$^2$-mlp は imagenet-1k データセットの vit と同等の性能を達成し、かなり単純なアーキテクチャとより少ないフラップとパラメータを持つ。

Recently, visual Transformer (ViT) and its following works abandon the convolution and exploit the self-attention operation, attaining a comparable or even higher accuracy than CNN. More recently, MLP-Mixer abandons both the convolution and the self-attention operation, proposing an architecture containing only MLP layers. To achieve cross-patch communications, it devises an additional token-mixing MLP besides the channel-mixing MLP. It achieves promising results when training on an extremely large-scale dataset. But it cannot achieve as outstanding performance as its CNN and ViT counterparts when training on medium-scale datasets such as ImageNet1K and ImageNet21K. The performance drop of MLP-Mixer motivates us to rethink the token-mixing MLP. We discover that token-mixing operation in MLP-Mixer is a variant of depthwise convolution with a global reception field and spatial-specific configuration. But the global reception field and the spatial-specific property make token-mixing MLP prone to over-fitting. In this paper, we propose a novel pure MLP architecture, spatial-shift MLP (S$^2$-MLP). Different from MLP-Mixer, our S$^2$-MLP only contains channel-mixing MLP. We devise a spatial-shift operation for achieving the communication between patches. It has a local reception field and is spatial-agnostic. Meanwhile, it is parameter-free and efficient for computation. The proposed S$^2$-MLP attains higher recognition accuracy than MLP-Mixer when training on ImageNet-1K dataset. Meanwhile, S$^2$-MLP accomplishes as excellent performance as ViT on ImageNet-1K dataset with considerably simpler architecture and fewer FLOPs and parameters.
翻訳日:2021-06-15 21:39:41 公開日:2021-06-14
# (参考訳) Graph Domain Adaptation: ジェネレーティブなビュー [全文訳有]

Graph Domain Adaptation: A Generative View ( http://arxiv.org/abs/2106.07482v1 )

ライセンス: CC BY 4.0
Ruichu Cai, Fengzhu Wu, Zijian Li, Pengfei Wei, Lingling Yi, Kun Zhang(参考訳) 近年、グラフ構造化データの深層学習への関心が高まっている。 ラベル付きグラフ構造化データの収集コストが高いため、限られたサンプルで教師ありグラフ学習タスクにはドメイン適応が重要である。 しかし、現在のグラフ領域適応法は一般に従来の領域適応法から採用されており、グラフ構造化データの特性は十分に利用されていない。 例えば、異なるプラットフォーム上の観測されたソーシャルネットワークは、異なる集団やコミュニティだけでなく、ドメイン固有のポリシーやバックグラウンドノイズによって制御される。 グラフ構造データにおけるこれらの特性に基づき、まず、グラフ構造データ生成プロセスは3つの独立した潜在変数、すなわち意味的潜在変数、ドメイン的潜在変数、ランダムな潜在変数によって制御されていると仮定する。 そこで本研究では,これらの潜在変数を復元するために変分グラフオートエンコーダを適用し,これらを3つの教師あり学習モジュールで分離する,グラフ構造データに対する非教師なし領域適応法を提案する。 グラフ分類タスクにおける2つの実世界のデータセットの広範な実験結果から,従来のドメイン適応法と異方性に基づくドメイン適応法を大幅に上回るだけでなく,最先端のグラフドメイン適応アルゴリズムも上回ることがわかった。

Recent years have witnessed tremendous interest in deep learning on graph-structured data. Due to the high cost of collecting labeled graph-structured data, domain adaptation is important to supervised graph learning tasks with limited samples. However, current graph domain adaptation methods are generally adopted from traditional domain adaptation tasks, and the properties of graph-structured data are not well utilized. For example, the observed social networks on different platforms are controlled not only by the different crowd or communities but also by the domain-specific policies and the background noise. Based on these properties in graph-structured data, we first assume that the graph-structured data generation process is controlled by three independent types of latent variables, i.e., the semantic latent variables, the domain latent variables, and the random latent variables. Based on this assumption, we propose a disentanglement-base d unsupervised domain adaptation method for the graph-structured data, which applies variational graph auto-encoders to recover these latent variables and disentangles them via three supervised learning modules. Extensive experimental results on two real-world datasets in the graph classification task reveal that our method not only significantly outperforms the traditional domain adaptation methods and the disentangled-based domain adaptation methods but also outperforms the state-of-the-art graph domain adaptation algorithms.
翻訳日:2021-06-15 21:24:39 公開日:2021-06-14
# (参考訳) 説明可能なAIは不公平を説明できるのか? 説明可能なAIを評価するためのフレームワーク [全文訳有]

Can Explainable AI Explain Unfairness? A Framework for Evaluating Explainable AI ( http://arxiv.org/abs/2106.07483v1 )

ライセンス: CC0 1.0
Kiana Alikhademi, Brianna Richardson, Emma Drobina, and Juan E. Gilbert(参考訳) 多くのMLモデルは人間には不透明であり、人間が容易に理解するには決定が複雑すぎる。 これに対し、モデルの内部動作を分析する説明可能な人工知能(XAI)ツールが作成されている。 これらのツールがモデルビヘイビアの翻訳に長けているにもかかわらず、批判はXAIツールが「フェアウォッシング」ツールとして影響を与えていることを懸念している。 本稿では、バイアスや公平性の問題を検知し、対処する能力と、これらの結果をユーザに明確に伝える能力に関して、説明可能なAIツールを評価するためのフレームワークを作成しました。 モデルの振る舞いを単純化し、説明する能力があるにもかかわらず、多くの著名なXAIツールはバイアスを検出するのに重要な機能を欠いています。 開発者は私たちのフレームワークを使ってツールキットに必要な修正を提案し、フェアウォッシングのような問題を軽減できます。

Many ML models are opaque to humans, producing decisions too complex for humans to easily understand. In response, explainable artificial intelligence (XAI) tools that analyze the inner workings of a model have been created. Despite these tools' strength in translating model behavior, critiques have raised concerns about the impact of XAI tools as a tool for `fairwashing` by misleading users into trusting biased or incorrect models. In this paper, we created a framework for evaluating explainable AI tools with respect to their capabilities for detecting and addressing issues of bias and fairness as well as their capacity to communicate these results to their users clearly. We found that despite their capabilities in simplifying and explaining model behavior, many prominent XAI tools lack features that could be critical in detecting bias. Developers can use our framework to suggest modifications needed in their toolkits to reduce issues likes fairwashing.
翻訳日:2021-06-15 21:03:19 公開日:2021-06-14
# (参考訳) pix2rule: エンドツーエンドのニューロシンボリックルール学習

pix2rule: End-to-end Neuro-symbolic Rule Learning ( http://arxiv.org/abs/2106.07487v1 )

ライセンス: CC BY 4.0
Nuri Cingillioglu, Alessandra Russo(参考訳) 人間は、低レベルの視覚入力と高レベルの象徴的推論をシームレスに組み合わせ、物体を認識し、それらの関係を学習し、規則を適用することができる。 ニューロシンボリックシステムは、視覚処理と抽象推論のための接続主義と論理に基づく原則にそれぞれ統一的なアプローチをもたらすことを目的としている。 本稿では,物体への画像処理,学習関係,論理規則をエンドツーエンドに行うための完全なニューロシンボリック手法を提案する。 主な貢献は、プルーニングとしきい値付けによってシンボリックリレーションとルールを抽出できるディープラーニングアーキテクチャにおける差別化可能なレイヤである。 シンボルルール学習のためのサブグラフ同型タスクと,学習対象,関係,規則に関する複合関係を持つ画像分類領域の2つを用いて,本モデルを評価する。 我々のモデルは最先端のシンボリックラーナーを超えてスケールし、ディープリレーショナルニューラルネットワークアーキテクチャよりも優れています。

Humans have the ability to seamlessly combine low-level visual input with high-level symbolic reasoning often in the form of recognising objects, learning relations between them and applying rules. Neuro-symbolic systems aim to bring a unifying approach to connectionist and logic-based principles for visual processing and abstract reasoning respectively. This paper presents a complete neuro-symbolic method for processing images into objects, learning relations and logical rules in an end-to-end fashion. The main contribution is a differentiable layer in a deep learning architecture from which symbolic relations and rules can be extracted by pruning and thresholding. We evaluate our model using two datasets: subgraph isomorphism task for symbolic rule learning and an image classification domain with compound relations for learning objects, relations and rules. We demonstrate that our model scales beyond state-of-the-art symbolic learners and outperforms deep relational neural network architectures.
翻訳日:2021-06-15 20:53:13 公開日:2021-06-14
# (参考訳) NLPにおける限定データ学習のためのデータ拡張に関する実証的研究 [全文訳有]

An Empirical Survey of Data Augmentation for Limited Data Learning in NLP ( http://arxiv.org/abs/2106.07499v1 )

ライセンス: CC BY 4.0
Jiaao Chen, Derek Tam, Colin Raffel, Mohit Bansal and Diyi Yang(参考訳) NLPは、ニューラルモデルと大きなラベル付きデータセットを使用することで、過去10年間で大きな進歩を遂げた。 豊富なデータへの依存は、大量のテキストデータをラベル付けするためにかなりの時間、お金、専門知識を必要とする低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。 近年,NLPのデータ効率向上手法としてデータ拡張手法が検討されている。 現在までに、制限付きラベル付きデータ設定において、NLPのデータ拡張に関する体系的な実証的な概要は存在せず、どのメソッドがどの設定で機能するかを理解することは困難である。 本稿では,限定ラベル付きデータセットにおけるnlpのデータ拡張の最近の進展に関する実証調査を行い,手法の展望(トークンレベルの拡張,文レベルの拡張,adversarial augmentation,hidden- space拡張など)を要約し,トピック/ニュース分類,推論タスク,パラフレージングタスク,シングルセンテンスタスクを含む11のデータセットについて実験を行った。 これらの結果をもとに,実践者が異なる設定で適切な拡張を選択するのに役立ついくつかの結論を導き,NLPにおける限られたデータ学習の現在の課題と今後の方向性について議論する。

NLP has achieved great progress in the past decade through the use of neural models and large labeled datasets. The dependence on abundant data prevents NLP models from being applied to low-resource settings or novel tasks where significant time, money, or expertise is required to label massive amounts of textual data. Recently, data augmentation methods have been explored as a means of improving data efficiency in NLP. To date, there has been no systematic empirical overview of data augmentation for NLP in the limited labeled data setting, making it difficult to understand which methods work in which settings. In this paper, we provide an empirical survey of recent progress on data augmentation for NLP in the limited labeled data setting, summarizing the landscape of methods (including token-level augmentations, sentence-level augmentations, adversarial augmentations, and hidden-space augmentations) and carrying out experiments on 11 datasets covering topics/news classification, inference tasks, paraphrasing tasks, and single-sentence tasks. Based on the results, we draw several conclusions to help practitioners choose appropriate augmentations in different settings and discuss the current challenges and future directions for limited data learning in NLP.
翻訳日:2021-06-15 20:51:46 公開日:2021-06-14
# (参考訳) wassersteinの不一致によるマルチレベルハイパーグラフ分割のためのバランスのとれた粗さ処理 [全文訳有]

Balanced Coarsening for Multilevel Hypergraph Partitioning via Wasserstein Discrepancy ( http://arxiv.org/abs/2106.07501v1 )

ライセンス: CC BY 4.0
Zhicheng Guo, Jiaxuan Zhao, Licheng Jiao, Xu Liu(参考訳) マルチレベルハイパーグラフ分割のためのバランスの取れた粗大化方式を提案する。 さらに,k方向ハイパーグラフ分割の品質向上のために,初期分割アルゴリズムが設計された。 LPTアルゴリズムにより頂点重みを割り当てることで、緩和バランス制約の下で先行ハイパーグラフを生成する。 先行ハイパーグラフを用いて,粗粒化過程の最適移動をコーディネートするために,wassersteinの不一致を定義した。 そして、最適輸送行列をシンクホーンアルゴリズムにより解く。 我々の粗面化スキームは接続距離(目的関数)の最小化を十分に考慮している。 最初の分割の段階では、フィドラーベクトルによって誘導される正規化カット関数を定義し、理論的には凹関数であることが証明される。 これにより、バランス制約の下で最適なカットを見つけるための3点アルゴリズムが設計される。

We propose a balanced coarsening scheme for multilevel hypergraph partitioning. In addition, an initial partitioning algorithm is designed to improve the quality of k-way hypergraph partitioning. By assigning vertex weights through the LPT algorithm, we generate a prior hypergraph under a relaxed balance constraint. With the prior hypergraph, we have defined the Wasserstein discrepancy to coordinate the optimal transport of coarsening process. And the optimal transport matrix is solved by Sinkhorn algorithm. Our coarsening scheme fully takes into account the minimization of connectivity metric (objective function). For the initial partitioning stage, we define a normalized cut function induced by Fiedler vector, which is theoretically proved to be a concave function. Thereby, a three-point algorithm is designed to find the best cut under the balance constraint.
翻訳日:2021-06-15 20:23:58 公開日:2021-06-14
# (参考訳) アラビア文字分類のための様々なトケナイザの評価 [全文訳有]

Evaluating Various Tokenizers for Arabic Text Classification ( http://arxiv.org/abs/2106.07540v1 )

ライセンス: CC BY 4.0
Zaid Alyafeai, Maged S. Al-shaibani, Mustafa Ghaleb, Irfan Ahmad(参考訳) NLPパイプラインの最初のステップは、ワードベクトル表現を学習することだ。 しかし、大きなテキストコーパスがあると、すべての単語を表現するのは効率的ではない。 文献では、全てのテキストコーパスの語彙サイズを制限するサブワードを作成することで、この問題に取り組むために多くのトークン化アルゴリズムが登場している。 しかし、そのようなアルゴリズムは主に言語に依存しず、意味のあるトークンをキャプチャする適切な方法がない。 このようなテクニックを実際に評価することの難しさは言うまでもない。 本稿ではアラビア語に対する3つの新しいトークン化アルゴリズムを導入し、教師なし評価を用いて他の3つのベースラインと比較する。 それに加えて,感情分析,ニュース分類,詩分類という3つのタスクで6つのアルゴリズムを比較して評価した。 実験の結果,このようなトークン化アルゴリズムの性能は,データセットのサイズ,タスクの種類,データセットに存在する形態素量に依存することがわかった。

The first step in any NLP pipeline is learning word vector representations. However, given a large text corpus, representing all the words is not efficient. In the literature, many tokenization algorithms have emerged to tackle this problem by creating subwords which in turn limits the vocabulary size in any text corpus. However such algorithms are mostly language-agnostic and lack a proper way of capturing meaningful tokens. Not to mention the difficulty of evaluating such techniques in practice. In this paper, we introduce three new tokenization algorithms for Arabic and compare them to three other baselines using unsupervised evaluations. In addition to that, we compare all the six algorithms by evaluating them on three tasks which are sentiment analysis, news classification and poetry classification. Our experiments show that the performance of such tokenization algorithms depends on the size of the dataset, type of the task, and the amount of morphology that exists in the dataset.
翻訳日:2021-06-15 20:10:12 公開日:2021-06-14
# (参考訳) polarstream: 極柱を用いたストリーミングlidarオブジェクト検出とセグメンテーション [全文訳有]

PolarStream: Streaming Lidar Object Detection and Segmentation with Polar Pillars ( http://arxiv.org/abs/2106.07545v1 )

ライセンス: CC BY 4.0
Qi Chen, Sourabh Vora and Oscar Beijbom(参考訳) 最近の研究はlidarsを本質的にストリーミングデータソースとして認識しており、lidar知覚モデルのエンドツーエンドのレイテンシは、wedge型のポイントクラウドセクタで操作することで大幅に削減できることを示した。 しかし、デカルト座標系の使用により、これらの方法はセクタを矩形領域として表現し、メモリを浪費し計算する。 本研究では,極座標系を用い,この設計を2つの重要な改良点とする。 まず,従来のスキャンから前のセクタ,過去スキャンから次のセクタまで,隣接セクタからのマルチスケールパディングを用いて,空間的コンテキストを増大させる。 第2に、特徴の歪みと範囲の階層化畳み込みを導入することにより、コア極性畳み込み構造を改善する。 nuScenesデータセットの実験結果は、他のストリーミングベースの方法よりも大幅に改善されている。 また,既存の非ストリーミング方式と同等の結果を得たが,レイテンシは低かった。

Recent works recognized lidars as an inherently streaming data source and showed that the end-to-end latency of lidar perception models can be reduced significantly by operating on wedge-shaped point cloud sectors rather then the full point cloud. However, due to use of cartesian coordinate systems these methods represent the sectors as rectangular regions, wasting memory and compute. In this work we propose using a polar coordinate system and make two key improvements on this design. First, we increase the spatial context by using multi-scale padding from neighboring sectors: preceding sector from the current scan and/or the following sector from the past scan. Second, we improve the core polar convolutional architecture by introducing feature undistortion and range stratified convolutions. Experimental results on the nuScenes dataset show significant improvements over other streaming based methods. We also achieve comparable results to existing non-streaming methods but with lower latencies.
翻訳日:2021-06-15 19:56:49 公開日:2021-06-14
# (参考訳) エッジ重み更新ニューラルネットワークを用いたエンティティ正規化モデル:知識駆動グラフとデータ駆動グラフの同化 [全文訳有]

Named Entity Normalization Model Using Edge Weight Updating Neural Network: Assimilation Between Knowledge-Driven Graph and Data-Driven Graph ( http://arxiv.org/abs/2106.07549v1 )

ライセンス: CC BY 4.0
Sung Hwan Jeon and Sungzoon Cho(参考訳) マッチした名前付きエンティティペアの識別や、エンティティの標準フォームの識別は、テキストマイニングタスクにおいて重要である。 テキストマイニングにおけるより正確な名前付きエンティティの正規化は、後続のテキスト分析アプリケーションに役立つだろう。 We built the named entity normalization model with a novel Edge Weight Updating Neural Network。 提案モデルでは,4つの異なるデータセットでテストした結果を得た。 次に,生物情報学分野におけるエンティティ正規化データセットとして広く使用されているNCBI病,BC5CDR病,BC5CDRケミカルデータベースの性能を検証する。 また、より一般的なアプリケーションの有効性を検証するために、独自のファイナンシャル名称のエンティティ正規化データセットでモデルをテストしました。 構築されたデータセットを用いて、名前付きエンティティペアを区別する。 本モデルでは,様々な評価指標を用いて,最上位のエンティティ正規化性能を達成した。

Discriminating the matched named entity pairs or identifying the entities' canonical forms are critical in text mining tasks. More precise named entity normalization in text mining will benefit other subsequent text analytic applications. We built the named entity normalization model with a novel Edge Weight Updating Neural Network. Our proposed model when tested on four different datasets achieved state-of-the-art results. We, next, verify our model's performance on NCBI Disease, BC5CDR Disease, and BC5CDR Chemical databases, which are widely used named entity normalization datasets in the bioinformatics field. We also tested our model with our own financial named entity normalization dataset to validate the efficacy for more general applications. Using the constructed dataset, we differentiate named entity pairs. Our model achieved the highest named entity normalization performances in terms of various evaluation metrics.
翻訳日:2021-06-15 19:53:18 公開日:2021-06-14
# (参考訳) 非ガウス分解拡散モデル [全文訳有]

Non Gaussian Denoising Diffusion Models ( http://arxiv.org/abs/2106.07582v1 )

ライセンス: CC BY 4.0
Eliya Nachmani, Robin San Roman, Lior Wolf(参考訳) 生成拡散プロセスは、画像および音声生成のための新しく効果的なツールである。 既存手法では拡散過程の下線雑音分布はガウス雑音である。 しかし、分布をより多くの自由度に適合させることで、そのような生成モデルの性能を高めることができる。 本研究では拡散過程における他の種類のノイズ分布について検討する。 具体的には,ガンマ分布からの雑音が画像および音声生成に改善をもたらすことを示す。 さらに, 拡散過程におけるガウス雑音変数の混合を用いることで, 単一分布に基づく拡散過程よりも性能が向上することを示す。 提案手法は,ガンマノイズと混合雑音を用いて,トレーニング拡散過程の状態を効率的にサンプリングする能力を保持する。

Generative diffusion processes are an emerging and effective tool for image and speech generation. In the existing methods, the underline noise distribution of the diffusion process is Gaussian noise. However, fitting distributions with more degrees of freedom, could help the performance of such generative models. In this work, we investigate other types of noise distribution for the diffusion process. Specifically, we show that noise from Gamma distribution provides improved results for image and speech generation. Moreover, we show that using a mixture of Gaussian noise variables in the diffusion process improves the performance over a diffusion process that is based on a single distribution. Our approach preserves the ability to efficiently sample state in the training diffusion process while using Gamma noise and a mixture of noise.
翻訳日:2021-06-15 19:36:35 公開日:2021-06-14
# (参考訳) no more glowing in the dark: 深層学習が熱ルミネッセンス線量計の露光日推定を改善する方法 [全文訳有]

No more glowing in the dark: How deep learning improves exposure date estimation in thermoluminescence dosimetry ( http://arxiv.org/abs/2106.07592v1 )

ライセンス: CC BY 4.0
F. Mentzel, E. Derugin, H. Jansen, K. Kr\"oninger, O. Nackenhorst, J. Walbersloh and J. Weingarten(参考訳) 熱ルミネッセンス線量計からの時間または温度分解検出器信号は、電離放射線への曝露状況に関する追加情報を明らかにすることができる。 TU Dortmund Universityと共同でMaterialpr\"ufungsamt NRWによって開発された新しいTL-DOS個人線量計の光度曲線から,42日間の監視間隔内で12mSvの単一照射日を推定するために,ディープニューラルネットワークを用いた研究を行った。 深層畳み込みネットワークを用いて、温度空間への事前変換やその後のグローカーブデコンボリューションを必要とせず、68%の信頼度レベルで約1-2日の不確かさを有する生の時間分解グローカーブデータから照射日を予測できる。 これは、ニューラルネットワークへの入力としてグローカーブデコンボリューションから得られた特徴を用いて、2〜4日間の予測不確実性をもたらす以前の出版と比較して、予測精度の大幅な向上に対応する。

The time- or temperature-resolved detector signal from a thermoluminescence dosimeter can reveal additional information about circumstances of an exposure to ionizing irradiation. We present studies using deep neural networks to estimate the date of a single irradiation with 12 mSv within a monitoring interval of 42 days from glow curves of novel TL-DOS personal dosimeters developed by the Materialpr\"ufungsamt NRW in cooperation with TU Dortmund University. Using a deep convolutional network, the irradiation date can be predicted from raw time-resolved glow curve data with an uncertainty of roughly 1-2 days on a 68% confidence level without the need for a prior transformation into temperature space and a subsequent glow curve deconvolution. This corresponds to a significant improvement in prediction accuracy compared to a prior publication, which yielded a prediction uncertainty of 2-4 days using features obtained from a glow curve deconvolution as input to a neural network.
翻訳日:2021-06-15 19:23:50 公開日:2021-06-14
# (参考訳) 混合精度量子化のための神経進化強化多目的最適化 [全文訳有]

Neuroevolution-Enhan ced Multi-Objective Optimization for Mixed-Precision Quantization ( http://arxiv.org/abs/2106.07611v1 )

ライセンス: CC BY 4.0
Santiago Miret, Vui Seng Chua, Mattias Marder, Mariano Phielipp, Nilesh Jain, Somdeb Majumdar(参考訳) mixed-precision quantizationは、異なるビット幅精度セットを別々の計算操作に配置することで、ニューラルネットワークワークロードのメモリと計算の節約を可能にする強力なツールである。 近年の研究では、様々なワークロードのメモリフットプリントを削減するために混合精度量子化技術を適用し、タスク性能も維持している。 しかし、以前の作業は、ハードウェアへのワークロードのデプロイにおいて重要なビット操作のような追加の目的を無視してきた。 本稿では,複数の目的を最適化する自動混合精度量子化のためのフレキシブルでスケーラブルなフレームワークを提案する。 我々のフレームワークは,新しい探索法であるnemo(neuroevolution- enhanced multi-objective optimization)を用いて,メモリとビット操作の目的に対してparetoの最適混合精度設定を求める。 NEMOでは、集団は構造的に異なるサブ集団(種)に分けられ、多目的問題の解のパレートフロンティアを共同で形成する。 各世代において、種はパレートフロンティアへの貢献の良さに比例して再サイズされる。 これによりNEMOは確立した探索技術と神経進化手法を活用し、パレートフロンティアの良さを継続的に改善することができる。 実験では、基礎となるワークロードを記述するためにグラフベースの表現を適用し、NEMOがトレーニングしたグラフニューラルネットワークをデプロイして、ImageNetでトレーニングされたさまざまなワークロードに対して、Paretoの最適設定を見つけることができます。 現状と比較すると,MobileNet-V2,ResNet 50,ResNeXt-101-32x8d のメモリ圧縮と計算圧縮の競争的な結果が得られる。 NEMOによる結果のより深い分析は、グラフ表現と種に基づくアプローチの両方が、すべてのワークロードに効果的な構成を見つける上で重要であることを示している。

Mixed-precision quantization is a powerful tool to enable memory and compute savings of neural network workloads by deploying different sets of bit-width precisions on separate compute operations. Recent research has shown significant progress in applying mixed-precision quantization techniques to reduce the memory footprint of various workloads, while also preserving task performance. Prior work, however, has often ignored additional objectives, such as bit-operations, that are important for deployment of workloads on hardware. Here we present a flexible and scalable framework for automated mixed-precision quantization that optimizes multiple objectives. Our framework relies on Neuroevolution-Enhan ced Multi-Objective Optimization (NEMO), a novel search method, to find Pareto optimal mixed-precision configurations for memory and bit-operations objectives. Within NEMO, a population is divided into structurally distinct sub-populations (species) which jointly form the Pareto frontier of solutions for the multi-objective problem. At each generation, species are re-sized in proportion to the goodness of their contribution to the Pareto frontier. This allows NEMO to leverage established search techniques and neuroevolution methods to continually improve the goodness of the Pareto frontier. In our experiments we apply a graph-based representation to describe the underlying workload, enabling us to deploy graph neural networks trained by NEMO to find Pareto optimal configurations for various workloads trained on ImageNet. Compared to the state-of-the-art, we achieve competitive results on memory compression and superior results for compute compression for MobileNet-V2, ResNet50 and ResNeXt-101-32x8d. A deeper analysis of the results obtained by NEMO also shows that both the graph representation and the species-based approach are critical in finding effective configurations for all workloads.
翻訳日:2021-06-15 19:07:33 公開日:2021-06-14
# (参考訳) 分散トポロジーによる計量次元の低減 [全文訳有]

Improving Metric Dimensionality Reduction with Distributed Topology ( http://arxiv.org/abs/2106.07613v1 )

ライセンス: CC BY-SA 4.0
Alexander Wagner, Elchanan Solomon, Paul Bendich(参考訳) そこで本研究では,DIPOLEと呼ばれる勾配差に基づく手法を用いて,距離幾何学と分散持続ホモロジーの技法を組み合わせた次元削減手法を提案する。 DIPOLEは、局所的、計量的項と大域的、位相的項の両方で損失関数を最小化し、初期埋め込みを補正する次元推論後処理ステップである。 初期埋込法の修正(Isomapを使用する)により、DIPOLEは全次元縮小パイプラインと見なすこともできる。 このフレームワークは分散持続ホモロジーの強い理論的および計算的性質に基づいており、ほぼ確実な収束を保証する。 DIPOLEは、UMAP、t-SNE、Isomapといった一般的な手法よりも、視覚的にも正確な定量的指標でも、多くの一般的なデータセットで優れています。

We propose a novel approach to dimensionality reduction combining techniques of metric geometry and distributed persistent homology, in the form of a gradient-descent based method called DIPOLE. DIPOLE is a dimensionality-reduc tion post-processing step that corrects an initial embedding by minimizing a loss functional with both a local, metric term and a global, topological term. By fixing an initial embedding method (we use Isomap), DIPOLE can also be viewed as a full dimensionality-reduc tion pipeline. This framework is based on the strong theoretical and computational properties of distributed persistent homology and comes with the guarantee of almost sure convergence. We observe that DIPOLE outperforms popular methods like UMAP, t-SNE, and Isomap on a number of popular datasets, both visually and in terms of precise quantitative metrics.
翻訳日:2021-06-15 18:49:29 公開日:2021-06-14
# (参考訳) magic layouts: ユーザインタフェース設計におけるコンポーネント検出のための構造優先 [全文訳有]

Magic Layouts: Structural Prior for Component Detection in User Interface Designs ( http://arxiv.org/abs/2106.07615v1 )

ライセンス: CC BY 4.0
Dipu Manandhar, Hailin Jin, John Collomosse(参考訳) ユーザインタフェース(UI)レイアウトのスクリーンショットや手書きスケッチを解析する手法であるMagic Layoutsを提示する。 当社のコアコントリビューションは、既存の検出器を拡張して、UI設計の学習前の構造を活用することで、UIコンポーネント、ボタン、テキストボックスなどの堅牢な検出を可能にします。 具体的には、モバイルUIレイアウトよりも先に学習し、異なるUIコンポーネント間の共通空間的共起関係を符号化する。 そこで我々は,ユーザエクスペリエンス(UX)設計のディジタルプロトタイプを迅速に取得するためのインタラクティブなアプリケーションとして,コンテキスト内でのインタラクティブなアプリケーションとして,手書きUIとアプリのスクリーンショットの両方のUIレイアウト解析の性能向上を実証した。

We present Magic Layouts; a method for parsing screenshots or hand-drawn sketches of user interface (UI) layouts. Our core contribution is to extend existing detectors to exploit a learned structural prior for UI designs, enabling robust detection of UI components; buttons, text boxes and similar. Specifically we learn a prior over mobile UI layouts, encoding common spatial co-occurrence relationships between different UI components. Conditioning region proposals using this prior leads to performance gains on UI layout parsing for both hand-drawn UIs and app screenshots, which we demonstrate within the context an interactive application for rapidly acquiring digital prototypes of user experience (UX) designs.
翻訳日:2021-06-15 18:35:13 公開日:2021-06-14
# (参考訳) 階層的正規化深部予測 [全文訳有]

Hierarchically Regularized Deep Forecasting ( http://arxiv.org/abs/2106.07630v1 )

ライセンス: CC BY 4.0
Biswajit Paria, Rajat Sen, Amr Ahmed, Abhimanyu Das(参考訳) 階層的予測は、多くの実用的多変量予測アプリケーションにおいて重要な問題であり、その目標は、あらかじめ指定された集約階層に配置された大量の相関時系列を同時に予測することである。 課題は階層的相関を利用して、階層の異なるレベルにおける時系列の予測精度を向上させることである。 本稿では,時系列のグローバルな集合に沿った時系列の分解と,各時系列に対する基底分解係数を用いた階層的制約のモデル化に基づく階層的予測の新しい手法を提案する。 過去の手法とは異なり、このアプローチは推論時間(特定の時系列に対する予測は、自身のデータへのアクセスのみを必要とする)でスケーラブルであり、(ほぼ)時系列予測の中でコヒーレンスを維持する。 公開データセットをいくつか実験し,既存の階層的調整手法と比較して,階層の異なるレベルでの予測全体のパフォーマンスが著しく向上したことを示す。

Hierarchical forecasting is a key problem in many practical multivariate forecasting applications - the goal is to simultaneously predict a large number of correlated time series that are arranged in a pre-specified aggregation hierarchy. The challenge is to exploit the hierarchical correlations to simultaneously obtain good prediction accuracy for time series at different levels of the hierarchy. In this paper, we propose a new approach for hierarchical forecasting based on decomposing the time series along a global set of basis time series and modeling hierarchical constraints using the coefficients of the basis decomposition for each time series. Unlike past methods, our approach is scalable at inference-time (forecasting for a specific time series only needs access to its own data) while (approximately) preserving coherence among the time series forecasts. We experiment on several publicly available datasets and demonstrate significantly improved overall performance on forecasts at different levels of the hierarchy, compared to existing state-of-the-art hierarchical reconciliation methods.
翻訳日:2021-06-15 18:20:48 公開日:2021-06-14
# (参考訳) 変分因果ネットワーク:因果構造上の近似ベイズ推論 [全文訳有]

Variational Causal Networks: Approximate Bayesian Inference over Causal Structures ( http://arxiv.org/abs/2106.07635v1 )

ライセンス: CC BY 4.0
Yashas Annadani, Jonas Rothfuss, Alexandre Lacoste, Nino Scherrer, Anirudh Goyal, Yoshua Bengio, Stefan Bauer(参考訳) データの根底にある因果構造を学ぶことは、実世界の堅牢な意思決定への重要なステップです。 因果推論における既存の研究の大部分は、1つの有向非巡回グラフ(DAG)またはマルコフ同値類を決定することに焦点を当てている。 しかし、その不確実性を考慮した有限データ要求から推測された因果構造に関する知識に基づいて知的に行動する重要な側面である。 例えば、データを管理する因果メカニズムについてより詳しく知るための計画介入には、dagに対する認識の不確実性を定量化する必要がある。 ベイジアン因果推論はそれを可能にするが、少数の変数に対しても後部DAGは難解となる。 この問題を克服するために,構造因果モデル (Structure Causal Models, SCM) のグラフ上の変分推論形式を提案する。 この目的のために、離散DAGの空間上の自己回帰分布をモデル化したパラメトリック変動族を導入する。 そのパラメータの数は変数の数とともに指数関数的に増加せず、エビデンス・ロウアー・バウンド (ELBO) を最大化することで学習することができる。 実験では,提案した変分後部が真の後部を良好に近似できることを示した。

Learning the causal structure that underlies data is a crucial step towards robust real-world decision making. The majority of existing work in causal inference focuses on determining a single directed acyclic graph (DAG) or a Markov equivalence class thereof. However, a crucial aspect to acting intelligently upon the knowledge about causal structure which has been inferred from finite data demands reasoning about its uncertainty. For instance, planning interventions to find out more about the causal mechanisms that govern our data requires quantifying epistemic uncertainty over DAGs. While Bayesian causal inference allows to do so, the posterior over DAGs becomes intractable even for a small number of variables. Aiming to overcome this issue, we propose a form of variational inference over the graphs of Structural Causal Models (SCMs). To this end, we introduce a parametric variational family modelled by an autoregressive distribution over the space of discrete DAGs. Its number of parameters does not grow exponentially with the number of variables and can be tractably learned by maximising an Evidence Lower Bound (ELBO). In our experiments, we demonstrate that the proposed variational posterior is able to provide a good approximation of the true posterior.
翻訳日:2021-06-15 17:24:47 公開日:2021-06-14
# BoB: BERT over BERT for Training Persona-based Dialogue Models from Limited Personalized Data

BoB: BERT Over BERT for Training Persona-based Dialogue Models from Limited Personalized Data ( http://arxiv.org/abs/2106.06169v2 )

ライセンス: Link先を確認
Haoyu Song, Yan Wang, Kaiyan Zhang, Wei-Nan Zhang, Ting Liu(参考訳) 一貫性のあるパーソナラの維持は対話エージェントにとって不可欠である。 膨大な進歩がもたらされているが、注釈付きペルソナセンスデータの限られた規模は、堅牢で一貫性のあるパーソナベースの対話モデルへの障壁である。 本研究では,新たなBERT-over-BERT(BoB)モデルを用いて,ペルソナに基づく対話生成を2つのサブタスクに分離することで,課題に対処できることを示す。 具体的には、このモデルはbertベースのエンコーダと2つのbertベースのデコーダで構成されており、1つのデコーダが応答生成用であり、もう1つは一貫性の理解用である。 特に,大規模非対話推論データから整合性理解の能力を学ぶために,第2復号器を異なる方法で訓練する。 異なる限られたデータ設定下では、自動評価と人間評価の両方によって、提案モデルが応答品質とペルソナ一貫性において強いベースラインを上回ることが示されている。

Maintaining consistent personas is essential for dialogue agents. Although tremendous advancements have been brought, the limited-scale of annotated persona-dense data are still barriers towards training robust and consistent persona-based dialogue models. In this work, we show how the challenges can be addressed by disentangling persona-based dialogue generation into two sub-tasks with a novel BERT-over-BERT (BoB) model. Specifically, the model consists of a BERT-based encoder and two BERT-based decoders, where one decoder is for response generation, and another is for consistency understanding. In particular, to learn the ability of consistency understanding from large-scale non-dialogue inference data, we train the second decoder in an unlikelihood manner. Under different limited data settings, both automatic and human evaluations demonstrate that the proposed model outperforms strong baselines in response quality and persona consistency.
翻訳日:2021-06-15 16:40:40 公開日:2021-06-14
# 領域一般化のための不変情報ボトルネック

Invariant Information Bottleneck for Domain Generalization ( http://arxiv.org/abs/2106.06333v2 )

ライセンス: Link先を確認
Bo Li, Yifei Shen, Yezhen Wang, Wenzhen Zhu, Colorado J. Reed, Jun Zhang, Dongsheng Li, Kurt Keutzer, Han Zhao(参考訳) ドメイン一般化(DG)の主な課題は、複数のトレーニングドメインと目に見えないテストドメインの間の潜在的分散シフトを克服することである。 dgアルゴリズムの一般的なクラスの一つは、トレーニング領域にまたがる不変因果関係を持つ表現を学習することである。 しかし、いくつかの特徴は \emph{pseudo-invariant features} と呼ばれ、訓練領域では不変であるがテスト領域では存在せず、既存のアルゴリズムの性能を大幅に低下させることができる。 この問題に対処するため,我々は,トレーニング領域とテスト領域間で不変である最小の表現を学習する不変情報ボトルネック(iib)と呼ばれる新しいアルゴリズムを提案する。 表現と入力の相互情報を最小化することにより、IIBはDGに望ましい擬似不変特徴への依存を緩和する。 IIB の原理の有効性を検証するため,大規模な DG ベンチマークで広範な実験を行った。 その結果,IIBは不変学習ベースライン(例)よりも優れていた。 IRM)は2つの評価指標に対して平均2.8\%と3.8\%の精度である。

The main challenge for domain generalization (DG) is to overcome the potential distributional shift between multiple training domains and unseen test domains. One popular class of DG algorithms aims to learn representations that have an invariant causal relation across the training domains. However, certain features, called \emph{pseudo-invariant features}, may be invariant in the training domain but not the test domain and can substantially decreases the performance of existing algorithms. To address this issue, we propose a novel algorithm, called Invariant Information Bottleneck (IIB), that learns a minimally sufficient representation that is invariant across training and testing domains. By minimizing the mutual information between the representation and inputs, IIB alleviates its reliance on pseudo-invariant features, which is desirable for DG. To verify the effectiveness of the IIB principle, we conduct extensive experiments on large-scale DG benchmarks. The results show that IIB outperforms invariant learning baseline (e.g. IRM) by an average of 2.8\% and 3.8\% accuracy over two evaluation metrics.
翻訳日:2021-06-15 16:40:24 公開日:2021-06-14
# 注意に基づく部分顔認識

Attention-based Partial Face Recognition ( http://arxiv.org/abs/2106.06415v2 )

ライセンス: Link先を確認
Stefan H\"ormann and Zeyuan Zhang and Martin Knoche and Torben Teepe and Gerhard Rigoll(参考訳) 群衆のような制約のない環境で撮影された顔の写真は、しばしば前景の物や人によって隠されているため、現在の顔認識アプローチの課題となっている。 しかし、部分的な顔の認識に関する研究はほとんど行われていない。 そこで本研究では,異なる領域の異なる顔を認識することのできる部分的顔認識手法を提案する。 本稿では,resnetの中間特徴マップの注意プーリングと分離アグリゲーションモジュールを組み合わせることにより,これを実現する。 さらに,注意マップが多様であり,オクルードされた部分を扱うために,部分的な顔に共通の損失を適応させる。 我々の徹底的な分析は、自然および合成的に隠蔽された部分面を含む、複数のベンチマークプロトコルの下で全てのベースラインを上回ります。 本手法は,隠蔽面の関連部分に焦点をあてることが可能である。

Photos of faces captured in unconstrained environments, such as large crowds, still constitute challenges for current face recognition approaches as often faces are occluded by objects or people in the foreground. However, few studies have addressed the task of recognizing partial faces. In this paper, we propose a novel approach to partial face recognition capable of recognizing faces with different occluded areas. We achieve this by combining attentional pooling of a ResNet's intermediate feature maps with a separate aggregation module. We further adapt common losses to partial faces in order to ensure that the attention maps are diverse and handle occluded parts. Our thorough analysis demonstrates that we outperform all baselines under multiple benchmark protocols, including naturally and synthetically occluded partial faces. This suggests that our method successfully focuses on the relevant parts of the occluded face.
翻訳日:2021-06-15 16:40:07 公開日:2021-06-14
# 点雲のオクター表現符号化における確率のニューラルネットワークモデリング

Neural Network Modeling of Probabilities for Coding the Octree Representation of Point Clouds ( http://arxiv.org/abs/2106.06482v2 )

ライセンス: Link先を確認
Emre Can Kaya, Ioan Tabus(参考訳) 本稿では,ボクセル周辺の広い3次元の状況に応じて,ボクセルの占有状況の符号化確率をニューラルネットワークを用いて推定する,新しいロスレスポイントクラウド圧縮アルゴリズムについて述べる。 ポイントクラウドはoctreeとして表現され、各解像度層はシーケンシャルにエンコードされ、最下位の解像度から最終解像度に到達するまで算術符号化によってデコードされる。 octreeの各ノードにおける分割パターンの各ボクセルの占有確率はニューラルネットワークによってモデル化され、入力時にエンコードされるノードを取り巻く3dコンテキストに対応する複数のoctreeノードの既にエンコードされた占有状態(過去と現在の解像度)を有する。 アルゴリズムは高速で遅いバージョンを持ち、コンテキストの異なるボクセルを選択する高速バージョンは、エンコーダとデコーダの両方で、ニューラルネットワークによって推定される大きなテンプレートのバッチを送信することで並列化を増加させる。 提案したアルゴリズムは、ベンチマークデータセット上で最先端の結果を得る。 実装はhttps://github.com/m armus12/nnctxで公開される。

This paper describes a novel lossless point cloud compression algorithm that uses a neural network for estimating the coding probabilities for the occupancy status of voxels, depending on wide three dimensional contexts around the voxel to be encoded. The point cloud is represented as an octree, with each resolution layer being sequentially encoded and decoded using arithmetic coding, starting from the lowest resolution, until the final resolution is reached. The occupancy probability of each voxel of the splitting pattern at each node of the octree is modeled by a neural network, having at its input the already encoded occupancy status of several octree nodes (belonging to the past and current resolutions), corresponding to a 3D context surrounding the node to be encoded. The algorithm has a fast and a slow version, the fast version selecting differently several voxels of the context, which allows an increased parallelization by sending larger batches of templates to be estimated by the neural network, at both encoder and decoder. The proposed algorithms yield state-of-the-art results on benchmark datasets. The implementation will be made available at https://github.com/m armus12/nnctx
翻訳日:2021-06-15 16:39:54 公開日:2021-06-14
# ソフトマックスのクロスエントロピーと負サンプリングの統一解釈:知識グラフ埋め込みを事例として

Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding ( http://arxiv.org/abs/2106.07250v1 )

ライセンス: Link先を確認
Hidetaka Kamigaito, Katsuhiko Hayashi(参考訳) 知識グラフ埋め込みでは、ソフトマックスクロスエントロピーと負サンプリング損失関数の理論的関係は研究されていない。 これにより、2つの異なる損失関数の結果を正確に比較することは困難である。 本研究では,bregman divergenceを用いて,ソフトマックスクロスエントロピーと負サンプリング損失関数の統一解釈を試みた。 この解釈の下では、公正な比較のための理論的発見を導き出すことができる。 FB15k-237とWN18RRのデータセットによる実験結果は、理論的な発見が実用的な設定で有効であることを示している。

In knowledge graph embedding, the theoretical relationship between the softmax cross-entropy and negative sampling loss functions has not been investigated. This makes it difficult to fairly compare the results of the two different loss functions. We attempted to solve this problem by using the Bregman divergence to provide a unified interpretation of the softmax cross-entropy and negative sampling loss functions. Under this interpretation, we can derive theoretical findings for fair comparison. Experimental results on the FB15k-237 and WN18RR datasets show that the theoretical findings are valid in practical settings.
翻訳日:2021-06-15 16:39:35 公開日:2021-06-14
# 文書接地ダイアログのカスケードスパン抽出と応答生成

Cascaded Span Extraction and Response Generation for Document-Grounded Dialog ( http://arxiv.org/abs/2106.07275v1 )

ライセンス: Link先を確認
Nico Daheim, David Thulke, Christian Dugast, Hermann Ney(参考訳) 本稿では,目標指向文書グラウンデッドダイアログにおけるエージェント応答予測タスクに着目した最初のdiarddoc共有タスクの2つのサブタスクへのエントリを要約する。 タスクは2つのサブタスクに分割される: エージェントのターンを根拠とするドキュメントのスパンを予測し、ダイアログとグラウンドングドキュメントに基づいてエージェント応答を生成する。 最初のサブタスクでは、データセットで定義されたものに有効なスパンのセットを制限し、モデルスパンにバイアフィン分類器を使用し、最終的に異なるモデルのアンサンブルを使用する。 第2のサブタスクでは、完全なドキュメントではなく、予測されたスパンに応答予測を基礎付けるカスケードモデルを用いる。 これらの手法により,ベースラインと比較して両サブタスクに大きな改善が得られた。

This paper summarizes our entries to both subtasks of the first DialDoc shared task which focuses on the agent response prediction task in goal-oriented document-grounded dialogs. The task is split into two subtasks: predicting a span in a document that grounds an agent turn and generating an agent response based on a dialog and grounding document. In the first subtask, we restrict the set of valid spans to the ones defined in the dataset, use a biaffine classifier to model spans, and finally use an ensemble of different models. For the second subtask, we use a cascaded model which grounds the response prediction on the predicted span instead of the full document. With these approaches, we obtain significant improvements in both subtasks compared to the baseline.
翻訳日:2021-06-15 16:39:26 公開日:2021-06-14
# HuBERT:隠れたユニットのマスド予測による自己教師付き音声表現学習

HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units ( http://arxiv.org/abs/2106.07447v1 )

ライセンス: Link先を確認
Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed(参考訳) 音声表現学習の自己指導的アプローチは,(1)入力発話毎に複数の音声単位が存在すること,(2)事前学習期間中に入力音単位の語彙が存在しないこと,(3)音声単位が明瞭なセグメンテーションのない可変長を持つこと,の3つの特徴的問題に挑戦する。 これら3つの問題に対処するために、オフラインクラスタリングのステップを利用して、BERTのような予測損失に対してアライメントされたターゲットラベルを提供する、自己教師付き音声表現学習のためのHuBERT(Hidden-Unit BERT)アプローチを提案する。 提案手法の重要な要素は,マスキング領域にのみ予測損失を適用し,連続的な入力に対して音響モデルと言語モデルの組み合わせを学習させることである。 HuBERTは主に、割り当てられたクラスタラベルの固有の品質ではなく、教師なしクラスタリングステップの一貫性に依存している。 単純なk平均100クラスタの教師から始め、クラスタリングの2つのイテレーションを使用して、HuBERTモデルは、10min, 1h, 10h, 100h, 960hの微調整サブセットを持つLibrispeech (960h)とLibri-light (60,000h)のベンチマークで最先端のwav2vec 2.0のパフォーマンスにマッチするか改善する。 1Bパラメータモデルを使用することで、より困難なdev-otherおよびtest-other評価サブセットに対して最大19%と13%の相対的なWER削減を示す。

Self-supervised approaches for speech representation learning are challenged by three unique problems: (1) there are multiple sound units in each input utterance, (2) there is no lexicon of input sound units during the pre-training phase, and (3) sound units have variable lengths with no explicit segmentation. To deal with these three problems, we propose the Hidden-Unit BERT (HuBERT) approach for self-supervised speech representation learning, which utilizes an offline clustering step to provide aligned target labels for a BERT-like prediction loss. A key ingredient of our approach is applying the prediction loss over the masked regions only, which forces the model to learn a combined acoustic and language model over the continuous inputs. HuBERT relies primarily on the consistency of the unsupervised clustering step rather than the intrinsic quality of the assigned cluster labels. Starting with a simple k-means teacher of 100 clusters, and using two iterations of clustering, the HuBERT model either matches or improves upon the state-of-the-art wav2vec 2.0 performance on the Librispeech (960h) and Libri-light (60,000h) benchmarks with 10min, 1h, 10h, 100h, and 960h fine-tuning subsets. Using a 1B parameter model, HuBERT shows up to 19% and 13% relative WER reduction on the more challenging dev-other and test-other evaluation subsets.
翻訳日:2021-06-15 16:38:54 公開日:2021-06-14
# カールのないDAG:効率的なDAG構造学習手法

DAGs with No Curl: An Efficient DAG Structure Learning Approach ( http://arxiv.org/abs/2106.07197v1 )

ライセンス: Link先を確認
Yue Yu, Tian Gao, Naiyu Yin, Qiang Ji(参考訳) 近年,連続的非巡回性制約付き制約付き連続最適化問題としてDAG構造学習が定式化され,サブプロブレム最適化により反復的に解かれた。 そこで本研究では,DAG空間の重み付き隣接行列を直接モデル化し,学習するための新しい学習フレームワークを提案する。 具体的には、DAGの重み付き隣接行列の集合がグラフポテンシャル関数の重み付き勾配の集合と等価であることを示し、この等価なDAGの集合を探索することにより構造学習を行うことができる。 このアイデアをインスタンス化するために, 1 つの手順で最適化問題を効率的に解く新しいアルゴリズム DAG-NoCurl を提案する: 1) まず最適化問題に対する初期巡回解を見つけ, 2) グラフのホッジ分解を用いて、巡回グラフをポテンシャル関数の勾配に投影することで非巡回グラフを学習する。 ベンチマークデータセットに関する実験的研究は、線形および一般化構造方程式モデルの両方において、ベースラインdag構造学習法よりも精度は高いが効率が良いことを証明している。

Recently directed acyclic graph (DAG) structure learning is formulated as a constrained continuous optimization problem with continuous acyclicity constraints and was solved iteratively through subproblem optimization. To further improve efficiency, we propose a novel learning framework to model and learn the weighted adjacency matrices in the DAG space directly. Specifically, we first show that the set of weighted adjacency matrices of DAGs are equivalent to the set of weighted gradients of graph potential functions, and one may perform structure learning by searching in this equivalent set of DAGs. To instantiate this idea, we propose a new algorithm, DAG-NoCurl, which solves the optimization problem efficiently with a two-step procedure: 1) first we find an initial cyclic solution to the optimization problem, and 2) then we employ the Hodge decomposition of graphs and learn an acyclic graph by projecting the cyclic graph to the gradient of a potential function. Experimental studies on benchmark datasets demonstrate that our method provides comparable accuracy but better efficiency than baseline DAG structure learning methods on both linear and generalized structural equation models, often by more than one order of magnitude.
翻訳日:2021-06-15 16:38:04 公開日:2021-06-14
# 一般関数近似を用いた強化学習のためのオンラインサブサンプリング

Online Sub-Sampling for Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2106.07203v1 )

ライセンス: Link先を確認
Dingwen Kong, Ruslan Salakhutdinov, Ruosong Wang, Lin F. Yang(参考訳) 一般関数近似を用いた有効効率なアルゴリズムの設計は強化学習において重要なオープン問題である。 最近、Wang et al.~[2020c]は、対数係数を抑えるために$\widetilde{O}(\mathrm{poly}(dH)\sqrt{K})$\footnote{Throughout the paper, we use $\widetilde{O}(\cdot)$. } を楽しむ一般関数近似を用いた値ベースのアルゴリズムを確立している。 残念なことに、$d$ は関数クラスの複雑さに依存し、$h$ は計画の地平線であり、$k$ はエピソードの総数である。 しかし、それらのアルゴリズムは1ラウンドあたり$\Omega(K)$計算時間を必要とし、このアルゴリズムは実用上非効率である。 本稿では,オンラインサブサンプリング手法を適用して,平均1ラウンドあたりの計算時間を$\widetilde{O}(\mathrm{poly}(dH))$$$\widetilde{O}(\mathrm{poly}(dH))とすることで,ほぼ同じ後悔点を持つアルゴリズムを開発した。 さらに、アルゴリズムは低スイッチングコスト、すなわち、実行中に$\widetilde{O}(\mathrm{poly}(dH))$時間だけポリシーを変更し、実際のシナリオで実装することをアピールする。 さらに, 高信頼度に基づく探索駆動報酬関数を用いて, 報奨条件下での環境を良好に探索する。 特に、$\widetilde{o}(\mathrm{poly}(dh))/\epsilon^2$ rounds of explorationの後、アルゴリズムは与えられた報酬関数に対して$\epsilon$-optimalポリシーを出力する。

Designing provably efficient algorithms with general function approximation is an important open problem in reinforcement learning. Recently, Wang et al.~[2020c] establish a value-based algorithm with general function approximation that enjoys $\widetilde{O}(\mathrm{poly}(dH)\sqrt{K})$\footnote{Throughout the paper, we use $\widetilde{O}(\cdot)$ to suppress logarithm factors. } regret bound, where $d$ depends on the complexity of the function class, $H$ is the planning horizon, and $K$ is the total number of episodes. However, their algorithm requires $\Omega(K)$ computation time per round, rendering the algorithm inefficient for practical use. In this paper, by applying online sub-sampling techniques, we develop an algorithm that takes $\widetilde{O}(\mathrm{poly}(dH))$ computation time per round on average, and enjoys nearly the same regret bound. Furthermore, the algorithm achieves low switching cost, i.e., it changes the policy only $\widetilde{O}(\mathrm{poly}(dH))$ times during its execution, making it appealing to be implemented in real-life scenarios. Moreover, by using an upper-confidence based exploration-driven reward function, the algorithm provably explores the environment in the reward-free setting. In particular, after $\widetilde{O}(\mathrm{poly}(dH))/\epsilon^2$ rounds of exploration, the algorithm outputs an $\epsilon$-optimal policy for any given reward function.
翻訳日:2021-06-15 16:37:44 公開日:2021-06-14
# Meta Two-Sample Testing: 限られたデータでテストするカーネルを学ぶ

Meta Two-Sample Testing: Learning Kernels for Testing with Limited Data ( http://arxiv.org/abs/2106.07636v1 )

ライセンス: Link先を確認
Feng Liu and Wenkai Xu and Jie Lu and Danica J. Sutherland(参考訳) 現代のカーネルベースの2サンプルテストは、適切な学習されたカーネルで複雑な高次元分布を区別することに成功した。 以前の研究は、各分布からかなりの数の観測サンプルを仮定して、このカーネル学習が成功することを示した。 しかし、非常に限られた数のデータサンプルを持つ現実的なシナリオでは、複雑な分布を識別できるほど強力なカーネルを特定するのは困難である。 本稿では,メタ2サンプルテスト(Meta Two-sample Testing, M2ST)の課題に対処する。これは,関連するタスクの補助的データを利用して,新しいターゲットタスクの強力なテストを素早く特定できるアルゴリズムを見つけることを目的としている。 我々は,このタスクに対して,ベースラインよりも改良した汎用スキームと,さらによく機能するよりカスタマイズされたアプローチという2つのアルゴリズムを提案する。 提案するメタテスト方式は,カーネルベースの試験を少ない観測結果から直接的に評価し,いつその手法が成功するかを示す理論的正当性と実証的証拠の両方を提供する。

Modern kernel-based two-sample tests have shown great success in distinguishing complex, high-dimensional distributions with appropriate learned kernels. Previous work has demonstrated that this kernel learning procedure succeeds, assuming a considerable number of observed samples from each distribution. In realistic scenarios with very limited numbers of data samples, however, it can be challenging to identify a kernel powerful enough to distinguish complex distributions. We address this issue by introducing the problem of meta two-sample testing (M2ST), which aims to exploit (abundant) auxiliary data on related tasks to find an algorithm that can quickly identify a powerful test on new target tasks. We propose two specific algorithms for this task: a generic scheme which improves over baselines and amore tailored approach which performs even better. We provide both theoretical justification and empirical evidence that our proposed meta-testing schemes out-perform learning kernel-based tests directly from scarce observations, and identify when such schemes will be successful.
翻訳日:2021-06-15 16:37:03 公開日:2021-06-14
# 深層学習のためのマルチステップ行列生成自然勾配法NG+

NG+ : A Multi-Step Matrix-Product Natural Gradient Method for Deep Learning ( http://arxiv.org/abs/2106.07454v1 )

ライセンス: Link先を確認
Minghan Yang, Dong Xu, Qiwen Cui, Zaiwen Wen and Pengxiang Xu(参考訳) 本稿では,NG+と呼ばれる新しい二階法を提案する。 勾配の形状はパラメータの形状と等しい」という規則に従うことによって、従来のベクトル化ではなく、行列形式の勾配の積を用いた一般化漁業情報行列(GFIM)を定義する。 そして、一般化された自然勾配方向は単にGFIMの逆数であり、行列形式の勾配を乗算する。 さらに、GFIMとその逆は、計算コストを制御できるように複数のステップで同じであり、一階法と同等である。 ある程度の温和な条件下でグローバル収束が確立され、オンライン学習環境にも後悔の念が与えられる。 ResNet50による画像分類、Schnetによる量子化学モデリング、Transformerによるニューラルネットワーク翻訳、DLRMによるレコメンデーションシステムは、GN+が最先端の手法と競合していることを示している。

In this paper, a novel second-order method called NG+ is proposed. By following the rule ``the shape of the gradient equals the shape of the parameter", we define a generalized fisher information matrix (GFIM) using the products of gradients in the matrix form rather than the traditional vectorization. Then, our generalized natural gradient direction is simply the inverse of the GFIM multiplies the gradient in the matrix form. Moreover, the GFIM and its inverse keeps the same for multiple steps so that the computational cost can be controlled and is comparable with the first-order methods. A global convergence is established under some mild conditions and a regret bound is also given for the online learning setting. Numerical results on image classification with ResNet50, quantum chemistry modeling with Schnet, neural machine translation with Transformer and recommendation system with DLRM illustrate that GN+ is competitive with the state-of-the-art methods.
翻訳日:2021-06-15 16:36:45 公開日:2021-06-14
# Sejong Face Database: マルチモーダルな顔データベース

Sejong Face Database: A Multi-Modal Disguise Face Database ( http://arxiv.org/abs/2106.07186v1 )

ライセンス: Link先を確認
Usman Cheema and Seungbin Moon(参考訳) 顔認識の商業的応用は、照明、閉塞、偽装、変装などの様々な課題に対して堅牢性を要求する。 顔認証は、国境におけるセキュリティチェックポイントなど、アクセス制御システムにおける新たな問題のひとつである。 しかし、様々な偽のアドオンを用いた顔データベースが利用できないため、この地域における学術研究の発展は制限される。 本稿では,偽顔認識研究を容易にするために,マルチモーダル変装顔データセットを提案する。 提示されたデータベースには8つの顔アドオンと7つの追加のアドオンが含まれている。 各顔画像は可視、可視、赤外線、赤外線、熱スペクトルで撮影される。 具体的には、100の被写体がサブセットa(30の被写体、1のモダリティ)と、サブセットb(70の被写体、5+のモダリティ)に分けられる。 また,提案するデータベース上でのベースライン顔検出結果を示し,参照結果を提供し,異なるモーダル性での性能を比較する。 擬似アドオンの難易度を評価するための定性的および定量的解析を行う。 データセットは研究論文の受理とともに公開される予定だ。 データベースはhttps://github.com/u smancheema89/sejongf acedatabase。

Commercial application of facial recognition demands robustness to a variety of challenges such as illumination, occlusion, spoofing, disguise, etc. Disguised face recognition is one of the emerging issues for access control systems, such as security checkpoints at the borders. However, the lack of availability of face databases with a variety of disguise addons limits the development of academic research in the area. In this paper, we present a multimodal disguised face dataset to facilitate the disguised face recognition research. The presented database contains 8 facial add-ons and 7 additional combinations of these add-ons to create a variety of disguised face images. Each facial image is captured in visible, visible plus infrared, infrared, and thermal spectra. Specifically, the database contains 100 subjects divided into subset-A (30 subjects, 1 image per modality) and subset-B (70 subjects, 5 plus images per modality). We also present baseline face detection results performed on the proposed database to provide reference results and compare the performance in different modalities. Qualitative and quantitative analysis is performed to evaluate the challenging nature of disguise addons. The dataset will be publicly available with the acceptance of the research article. The database is available at: https://github.com/u smancheema89/SejongF aceDatabase.
翻訳日:2021-06-15 16:35:59 公開日:2021-06-14
# 人間と機械の視界のギャップを埋める部分的成功

Partial success in closing the gap between human and machine vision ( http://arxiv.org/abs/2106.07411v1 )

ライセンス: Link先を確認
Robert Geirhos, Kantharaju Narayanappa, Benjamin Mitzkus, Tizian Thieringer, Matthias Bethge, Felix A. Wichmann, Wieland Brendel(参考訳) 数年前、最初のCNNがImageNetで人間のパフォーマンスを上回った。 しかしすぐに、マシンはより困難なテストケースに堅牢性を持たず、マシンを"野生"に展開し、人間の視覚知覚のより良い計算モデルを得るための大きな障害であることが明らかになった。 人間のビジョンとマシンビジョンのギャップを埋める作業は進んでいますか? この疑問に答えるために、90人を対象に85,120人のサイコ物理実験を録音し、「人間のベースラインを欠く」ことを付け加えた。 次に,目標関数(自己教師あり,敵意訓練,クリップ言語画像訓練),アーキテクチャ(例)の3軸に沿って,標準教師ありcnnから大きく逸脱する有望な機械学習開発について検討した。 vision transformer)とデータセットサイズ(1Mから1Bまで)。 私たちの発見は3倍です。 (1.) 人間とCNNの長年の堅牢性ギャップは閉ざされており、最高のモデルがほとんどのOODデータセットで人間のパフォーマンスにマッチまたは超えている。 (2.) 画像レベルの一貫性のギャップは依然として大きいため、人間はモデルとは異なるエラーを犯すことになる。 対照的に、ほとんどのモデルは分類誤差において体系的に一致しており、対照的な自己教師付きモデルと標準教師付きモデルとでは実質的に異なるモデルである。 (3.) 多くの場合、トレーニングデータセットのサイズが1~3桁に大きくなると、人間とモデル間の一貫性が向上する。 私たちの結果は、慎重な楽観主義の理由を与えます。改善の余地はまだまだありますが、人間とマシンビジョンの行動の違いは狭まっているのです。 今後の進捗を測定するため、画像レベルの人間の行動データを含む17のOODデータセットがベンチマークとして提供されている。

A few years ago, the first CNN surpassed human performance on ImageNet. However, it soon became clear that machines lack robustness on more challenging test cases, a major obstacle towards deploying machines "in the wild" and towards obtaining better computational models of human visual perception. Here we ask: Are we making progress in closing the gap between human and machine vision? To answer this question, we tested human observers on a broad range of out-of-distribution (OOD) datasets, adding the "missing human baseline" by recording 85,120 psychophysical trials across 90 participants. We then investigated a range of promising machine learning developments that crucially deviate from standard supervised CNNs along three axes: objective function (self-supervised, adversarially trained, CLIP language-image training), architecture (e.g. vision transformers), and dataset size (ranging from 1M to 1B). Our findings are threefold. (1.) The longstanding robustness gap between humans and CNNs is closing, with the best models now matching or exceeding human performance on most OOD datasets. (2.) There is still a substantial image-level consistency gap, meaning that humans make different errors than models. In contrast, most models systematically agree in their categorisation errors, even substantially different ones like contrastive self-supervised vs. standard supervised models. (3.) In many cases, human-to-model consistency improves when training dataset size is increased by one to three orders of magnitude. Our results give reason for cautious optimism: While there is still much room for improvement, the behavioural difference between human and machine vision is narrowing. In order to measure future progress, 17 OOD datasets with image-level human behavioural data are provided as a benchmark here: https://github.com/b ethgelab/model-vs-hu man/
翻訳日:2021-06-15 16:35:40 公開日:2021-06-14
# Exhale と Inhale CT スキャン間の変形性肺登録のための再帰的リファインメントネットワーク

Recursive Refinement Network for Deformable Lung Registration between Exhale and Inhale CT Scans ( http://arxiv.org/abs/2106.07608v1 )

ライセンス: Link先を確認
Xinzi He, Jia Guo, Xuzhe Zhang, Hanwen Bi, Sarah Gerard, David Kaczka, Amin Motahari, Eric Hoffman, Joseph Reinhardt, R. Graham Barr, Elsa Angelini, Andrew Laine(参考訳) 教師なし学習に基づく医療画像登録手法は近年急速に発展している。 本稿では, 変形ベクトル場の再帰的改善という, 単純かつ確立された原理を, 一般に無視されるように再検討することを提案する。 本稿では,非教師付き医用画像登録のための再帰的リファインメントネットワーク(rrn)を導入し,マルチスケール特徴を抽出し,正規化された局所コスト相関ボリュームを構築し,再帰的に体積変形ベクトルフィールドを精製する。 RRNは、CT肺スキャンの呼吸-呼吸対の3D登録のためのアートパフォーマンスの状態を達成している。 DirLab COPDGeneデータセットでは、RRNは平均的なターゲット登録エラー(TRE)を0.83mmで返します。 従来の手法との比較に加えて、RRNはディープラーニングベースのピアアプローチと比較して89%のエラー削減につながる。

Unsupervised learning-based medical image registration approaches have witnessed rapid development in recent years. We propose to revisit a commonly ignored while simple and well-established principle: recursive refinement of deformation vector fields across scales. We introduce a recursive refinement network (RRN) for unsupervised medical image registration, to extract multi-scale features, construct normalized local cost correlation volume and recursively refine volumetric deformation vector fields. RRN achieves state of the art performance for 3D registration of expiratory-inspirato ry pairs of CT lung scans. On DirLab COPDGene dataset, RRN returns an average Target Registration Error (TRE) of 0.83 mm, which corresponds to a 13% error reduction from the best result presented in the leaderboard. In addition to comparison with conventional methods, RRN leads to 89% error reduction compared to deep-learning-based peer approaches.
翻訳日:2021-06-15 16:35:11 公開日:2021-06-14
# PopSkipJump: 確率的分類のための決定に基づく攻撃

PopSkipJump: Decision-Based Attack for Probabilistic Classifiers ( http://arxiv.org/abs/2106.07445v1 )

ライセンス: Link先を確認
Carl-Johann Simon-Gabriel and Noman Ahmed Sheikh and Andreas Krause(参考訳) 現在の分類器のほとんどは、分類出力を変える小さな入力摂動の逆例に弱い。 多くの既存の攻撃アルゴリズムは、ホワイトボックスからブラックボックスの分類器まで様々な設定をカバーしているが、通常、答えは決定論的であり、多くの場合失敗する。 そこで本研究では,確率的アウトプットを持つ分類器を対象とする新たな攻撃手法を提案する。 これはChenらによるHopSkipJump攻撃に基づいている。 (2019, arXiv:1904.02144v5)は、決定論的分類器用に設計された、強力でクエリの効率的な決定ベースの攻撃である。 我々のP(robabilisticH)opSk ipJump攻撃は、HopSkipJumpの出力品質を様々なノイズレベルにわたって維持し、ノイズレベルが減少するにつれてクエリ効率に収束する。 我々は、最先端の無作為防御を含む様々なノイズモデルに対する我々の攻撃をテストし、決定に基づく攻撃にほとんど強固さがないことを示した。 コードはhttps://github.com/c jsg/PopSkipJumpで入手できる。

Most current classifiers are vulnerable to adversarial examples, small input perturbations that change the classification output. Many existing attack algorithms cover various settings, from white-box to black-box classifiers, but typically assume that the answers are deterministic and often fail when they are not. We therefore propose a new adversarial decision-based attack specifically designed for classifiers with probabilistic outputs. It is based on the HopSkipJump attack by Chen et al. (2019, arXiv:1904.02144v5 ), a strong and query efficient decision-based attack originally designed for deterministic classifiers. Our P(robabilisticH)opSk ipJump attack adapts its amount of queries to maintain HopSkipJump's original output quality across various noise levels, while converging to its query efficiency as the noise level decreases. We test our attack on various noise models, including state-of-the-art off-the-shelf randomized defenses, and show that they offer almost no extra robustness to decision-based attacks. Code is available at https://github.com/c jsg/PopSkipJump .
翻訳日:2021-06-15 16:34:46 公開日:2021-06-14
# GPT3-to-plan: GPT-3 を用いたテキストからのプラン抽出

GPT3-to-plan: Extracting plans from text using GPT-3 ( http://arxiv.org/abs/2106.07131v1 )

ライセンス: Link先を確認
Alberto Olmo, Sarath Sreedharan, Subbarao Kambhampati(参考訳) 金融や銀行を含む多くの重要な産業における業務は、しばしば反復的な業務を行う必要性によって特徴づけられる。 ビジネスへの批判にもかかわらず、ワークフローが完全に自動化されることはめったにないが、会社の従業員のためにこれらの手順を記述する自然言語文書が多数存在するかもしれない。 計画抽出手法は,そのような自然言語記述から計画/作業フローから構造計画を抽出する可能性を提供し,自動化システムによって活用できる。 本稿では,そのようなテキストから直接抽出する汎用言語モデルの有用性について検討する。 このようなモデルは、すでに複数の翻訳タスクにおいて非常に効果的であることが示されており、最初の結果は、計画抽出の文脈においても有効であることを示している。 特に, GPT-3は, アートプラン抽出手法の現在の多くの状況に匹敵するプラン抽出結果を生成することができることを示す。

Operations in many essential industries including finance and banking are often characterized by the need to perform repetitive sequential tasks. Despite their criticality to the business, workflows are rarely fully automated or even formally specified, though there may exist a number of natural language documents describing these procedures for the employees of the company. Plan extraction methods provide us with the possibility of extracting structure plans from such natural language descriptions of the plans/workflows, which could then be leveraged by an automated system. In this paper, we investigate the utility of generalized language models in performing such extractions directly from such texts. Such models have already been shown to be quite effective in multiple translation tasks, and our initial results seem to point to their effectiveness also in the context of plan extractions. Particularly, we show that GPT-3 is able to generate plan extraction results that are comparable to many of the current state of the art plan extraction methods.
翻訳日:2021-06-15 16:33:45 公開日:2021-06-14
# 事前学習モデル:過去・現在・未来

Pre-Trained Models: Past, Present and Future ( http://arxiv.org/abs/2106.07139v1 )

ライセンス: Link先を確認
Han Xu, Zhang Zhengyan, Ding Ning, Gu Yuxian, Liu Xiao, Huo Yuqi, Qiu Jiezhong, Zhang Liang, Han Wentao, Huang Minlie, Jin Qin, Lan Yanyan, Liu Yang, Liu Zhiyuan, Lu Zhiwu, Qiu Xipeng, Song Ruihua, Tang Jie, Wen Ji-Rong, Yuan Jinhui, Zhao Wayne Xin, Zhu Jun(参考訳) BERTやGPTのような大規模事前学習モデル(PTM)は、最近大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。 高度な事前学習目標と巨大なモデルパラメータにより、大規模PTMは大量のラベル付きおよびラベルなしデータから知識を効果的に取得することができる。 知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的に符号化された豊富な知識は、様々な下流タスクの恩恵を受けることができる。 AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今や合意されている。 本稿では,プレトレーニングの歴史,特にトランスファーラーニングと自己教師型学習との関係を深く考察し,AI開発スペクトルにおけるPTMの重要位置を明らかにする。 さらに, PTMの最新のブレークスルーを概観する。 これらのブレークスルーは、効率的なアーキテクチャの設計、リッチなコンテキストの利用、計算効率の向上、解釈と理論解析の実行の4つの重要な方向に向かって、計算能力の急上昇とデータの可用性の向上によって引き起こされる。 最後に, PTM の一連のオープンな問題と研究方向性について論じるとともに, PTM の今後の研究に刺激を与え, 進展を期待する。

Large-scale pre-trained models (PTMs) such as BERT and GPT have recently achieved great success and become a milestone in the field of artificial intelligence (AI). Owing to sophisticated pre-training objectives and huge model parameters, large-scale PTMs can effectively capture knowledge from massive labeled and unlabeled data. By storing knowledge into huge parameters and fine-tuning on specific tasks, the rich knowledge implicitly encoded in huge parameters can benefit a variety of downstream tasks, which has been extensively demonstrated via experimental verification and empirical analysis. It is now the consensus of the AI community to adopt PTMs as backbone for downstream tasks rather than learning models from scratch. In this paper, we take a deep look into the history of pre-training, especially its special relation with transfer learning and self-supervised learning, to reveal the crucial position of PTMs in the AI development spectrum. Further, we comprehensively review the latest breakthroughs of PTMs. These breakthroughs are driven by the surge of computational power and the increasing availability of data, towards four important directions: designing effective architectures, utilizing rich contexts, improving computational efficiency, and conducting interpretation and theoretical analysis. Finally, we discuss a series of open problems and research directions of PTMs, and hope our view can inspire and advance the future study of PTMs.
翻訳日:2021-06-15 16:33:32 公開日:2021-06-14
# ディープラーニングに基づく自然言語処理におけるモデル説明可能性

Model Explainability in Deep Learning Based Natural Language Processing ( http://arxiv.org/abs/2106.07410v1 )

ライセンス: Link先を確認
Shafie Gholizadeh and Nengfeng Zhou(参考訳) 機械学習(ML)モデル説明容易性は特にモデルリスクと規制に関連する領域で注目されている。 本稿では,一般的なMLモデル説明可能性方法論,特に自然言語処理(NLP)モデルについてレビューし,比較する。 次に, nlp分類モデルに対して, 層間相関伝播法 (lrp) を適用した。 我々は,LRP法を用いて,各単語の関連点の導出を行った。 次に関連性スコアを集約し、モデルのグローバル変数重要度を達成する。 ケーススタディを通じて,NLPモデルの弱点を発見するために,局所的説明可能性法を偽陽性および偽陰性事例に適用する方法を実証した。 これらの分析は、NLPモデルのブラックボックスの性質により、NLPモデルをよりよく理解し、リスクを低減するのに役立つ。 また,NLPモデルの特殊性に起因する一般的な問題を明らかにし,モデルが訓練された後にこれらの問題を検出する制御として,説明可能性分析がどのように機能するかについて議論した。

Machine learning (ML) model explainability has received growing attention, especially in the area related to model risk and regulations. In this paper, we reviewed and compared some popular ML model explainability methodologies, especially those related to Natural Language Processing (NLP) models. We then applied one of the NLP explainability methods Layer-wise Relevance Propagation (LRP) to a NLP classification model. We used the LRP method to derive a relevance score for each word in an instance, which is a local explainability. The relevance scores are then aggregated together to achieve global variable importance of the model. Through the case study, we also demonstrated how to apply the local explainability method to false positive and false negative instances to discover the weakness of a NLP model. These analysis can help us to understand NLP models better and reduce the risk due to the black-box nature of NLP models. We also identified some common issues due to the special natures of NLP models and discussed how explainability analysis can act as a control to detect these issues after the model has been trained.
翻訳日:2021-06-15 16:33:08 公開日:2021-06-14
# 機械学習に基づく組込みシステムの認証:調査

Certification of embedded systems based on Machine Learning: A survey ( http://arxiv.org/abs/2106.07221v1 )

ライセンス: Link先を確認
Guillaume Vidot (IRIT-ARGOS), Christophe Gabreau, Ileana Ober (IRIT-ARGOS), Iulian Ober (IRIT-ARGOS)(参考訳) 機械学習(ML)の進歩は、ナビゲーション/監視支援(例)のようなアビオニクス領域の機能革新への道を開く。 視覚ベースのナビゲーション、障害物検知、仮想センシング、音声テキストアプリケーション、自律飛行、予測メンテナンス、コックピットアシスト。 現在の認定基準とプラクティスは、古典的なプログラミングを念頭に数十年にわたって定義され、洗練されてきましたが、この新しい開発パラダイムをサポートしていません。 本稿では、規制要件の遵守を示す上でMLがもたらした主な課題の概要と、これらの課題に関連する文献の調査、特にML結果の堅牢性や説明可能性に関する課題について概説する。

Advances in machine learning (ML) open the way to innovating functions in the avionic domain, such as navigation/surveilla nce assistance (e.g. vision-based navigation, obstacle sensing, virtual sensing), speechto-text applications, autonomous flight, predictive maintenance or cockpit assistance. Current certification standards and practices, which were defined and refined decades over decades with classical programming in mind, do not however support this new development paradigm. This article provides an overview of the main challenges raised by the use ML in the demonstration of compliance with regulation requirements, and a survey of literature relevant to these challenges, with particular focus on the issues of robustness and explainability of ML results.
翻訳日:2021-06-15 16:32:52 公開日:2021-06-14
# ビデオ超解像のためのグループベース双方向リカレントウェーブレットニューラルネットワーク

Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video Super-Resolution ( http://arxiv.org/abs/2106.07190v1 )

ライセンス: Link先を確認
Young-Ju Choi, Young-Woon Lee, Byung-Gyu Kim(参考訳) ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。 VSRの重要な課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。 しかし,従来の手法のほとんどは異なる空間的特徴を同一に扱い,分離したモジュールから空間的特徴と時間的特徴を抽出する。 意味のある情報を得ることができず、細部が強化される。 vsrには、2d convolutional neural networks (cnn)、3d cnn、recurrent neural networks (rnn)の3種類の時間モデリングフレームワークがある。 その中でも、RNNベースのアプローチはシーケンシャルデータに適している。 これにより、隣接フレームの隠れ状態を用いることでsr性能を大幅に向上させることができる。 しかしながら、リカレント構造の各時間ステップにおいて、rnnベースの以前の作品は、隣り合う特徴を制限的に利用する。 タイムステップあたりのアクセシビリティな動きの範囲は狭いため、ダイナミックな動きや大きな動きの欠如した詳細を復元する制限がある。 本稿では,グループベース双方向リカレントウェーブレットニューラルネットワーク(GBR-WNN)を提案する。 グループベース双方向RNN (GBR) 時間モデリングフレームワークは,画像群 (GOP) を用いた構造化プロセス上に構築されている。 本稿では,空間的特徴と時間的特徴の両方に注意をあてる時間的ウェーブレットアテンション(TWA)モジュールを提案する。 実験結果から,提案手法は定量評価と定性評価の両方において,最先端の手法と比較して優れた性能を示すことが示された。

Video super-resolution (VSR) aims to estimate a high-resolution (HR) frame from a low-resolution (LR) frames. The key challenge for VSR lies in the effective exploitation of spatial correlation in an intra-frame and temporal dependency between consecutive frames. However, most of the previous methods treat different types of the spatial features identically and extract spatial and temporal features from the separated modules. It leads to lack of obtaining meaningful information and enhancing the fine details. In VSR, there are three types of temporal modeling frameworks: 2D convolutional neural networks (CNN), 3D CNN, and recurrent neural networks (RNN). Among them, the RNN-based approach is suitable for sequential data. Thus the SR performance can be greatly improved by using the hidden states of adjacent frames. However, at each of time step in a recurrent structure, the RNN-based previous works utilize the neighboring features restrictively. Since the range of accessible motion per time step is narrow, there are still limitations to restore the missing details for dynamic or large motion. In this paper, we propose a group-based bi-directional recurrent wavelet neural networks (GBR-WNN) to exploit the sequential data and spatio-temporal information effectively for VSR. The proposed group-based bi-directional RNN (GBR) temporal modeling framework is built on the well-structured process with the group of pictures (GOP). We propose a temporal wavelet attention (TWA) module, in which attention is adopted for both spatial and temporal features. Experimental results demonstrate that the proposed method achieves superior performance compared with state-of-the-art methods in both of quantitative and qualitative evaluations.
翻訳日:2021-06-15 16:32:22 公開日:2021-06-14
# オーバーフィット:オーバーフィットモデル特性に基づくノイズラベル検出

Over-Fit: Noisy-Label Detection based on the Overfitted Model Property ( http://arxiv.org/abs/2106.07217v1 )

ライセンス: Link先を確認
Seulki Park, Dae Ung Jo, and Jin Young Choi(参考訳) 大規模データセットにおけるノイズラベル問題に対処する必要性が高まっているため,近年,ノイズラベルを用いた学習が注目されている。 有望なアプローチとして、ディープニューラルネットワークがノイズラベルデータに適合する前に、小さなロスインスタンスを見つけることによって、クリーンなトレーニングデータを選択する研究が最近行われている。 しかし、過剰フィットを防ぐことは困難である。 本稿では,個々のデータ点に過度に適合する特性を利用した新しいノイズラベル検出アルゴリズムを提案する。 そこで本研究では,各トレーニングサンプルがモデルにどの程度異常に影響を及ぼすかを統計的に測定する2つの新しい基準を提案する。 この基準を用いて,本アルゴリズムはノイズラベルサンプルを除去し,さらなる性能向上が得られないまでの間,モデルを交互に再訓練する。 複数のベンチマークデータセットの実験では,アルゴリズムの有効性を実証し,正確なノイズ率が与えられていない場合,アルゴリズムが最先端の手法より優れていることを示す。 さらに,本手法は実世界のビデオデータセットに拡張できるだけでなく,オーバーフィッティングによる問題を解決するための正規化手法として見ることもできる。

Due to the increasing need to handle the noisy label problem in a massive dataset, learning with noisy labels has received much attention in recent years. As a promising approach, there have been recent studies to select clean training data by finding small-loss instances before a deep neural network overfits the noisy-label data. However, it is challenging to prevent overfitting. In this paper, we propose a novel noisy-label detection algorithm by employing the property of overfitting on individual data points. To this end, we present two novel criteria that statistically measure how much each training sample abnormally affects the model and clean validation data. Using the criteria, our iterative algorithm removes noisy-label samples and retrains the model alternately until no further performance improvement is made. In experiments on multiple benchmark datasets, we demonstrate the validity of our algorithm and show that our algorithm outperforms the state-of-the-art methods when the exact noise rates are not given. Furthermore, we show that our method can not only be expanded to a real-world video dataset but also can be viewed as a regularization method to solve problems caused by overfitting.
翻訳日:2021-06-15 16:31:57 公開日:2021-06-14
# 潜在空間におけるモデルベース計画のための時間予測符号化

Temporal Predictive Coding For Model-Based Planning In Latent Space ( http://arxiv.org/abs/2106.07156v1 )

ライセンス: Link先を確認
Tung Nguyen, Rui Shu, Tuan Pham, Hung Bui, Stefano Ermon(参考訳) 高次元観測は、実環境へのモデルベース強化学習(MBRL)の適用において大きな課題である。 高次元の感覚入力を扱うために、既存のアプローチでは表現学習を用いて高次元の観測結果をよりダイナミックス推定や計画に適した低次元の潜在空間にマッピングしている。 本研究では,時間的に予測可能な環境要素を符号化するために時間的予測符号化を用いる情報理論的手法を提案する。 本手法は,時間予測可能な情報をエンコーディングすることに焦点を当てているため,タスク関連コンポーネントのエンコーディングを,タスク関連ではない環境内のニュアンス情報よりも暗黙的に優先する。 この表現をリカレント状態空間モデルと組み合わせて学習することで、潜在空間で計画を実行することができる。 本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。 実験の結果,本モデルは従来の手法よりも複雑背景設定が優れているが,標準設定では現状モデルとの競争力は保たれていることがわかった。

High-dimensional observations are a major challenge in the application of model-based reinforcement learning (MBRL) to real-world environments. To handle high-dimensional sensory inputs, existing approaches use representation learning to map high-dimensional observations into a lower-dimensional latent space that is more amenable to dynamics estimation and planning. In this work, we present an information-theoreti c approach that employs temporal predictive coding to encode elements in the environment that can be predicted across time. Since this approach focuses on encoding temporally-predictab le information, we implicitly prioritize the encoding of task-relevant components over nuisance information within the environment that are provably task-irrelevant. By learning this representation in conjunction with a recurrent state space model, we can then perform planning in latent space. We evaluate our model on a challenging modification of standard DMControl tasks where the background is replaced with natural videos that contain complex but irrelevant information to the planning task. Our experiments show that our model is superior to existing methods in the challenging complex-background setting while remaining competitive with current state-of-the-art models in the standard setting.
翻訳日:2021-06-15 16:29:42 公開日:2021-06-14
# 配電シフト下におけるスプリアスの特徴の検証と対策

Examining and Combating Spurious Features under Distribution Shift ( http://arxiv.org/abs/2106.07171v1 )

ライセンス: Link先を確認
Chunting Zhou, Xuezhe Ma, Paul Michel, Graham Neubig(参考訳) 機械学習の主な目標は、入力特徴と出力ラベルの間の因果関係をキャプチャする堅牢な表現を学習することである。 しかし、有限または偏りのあるデータセットに対する経験的リスクを最小化することは、しばしば、問題に基礎的でないトレーニングの入出力ペア間の相関を分散させるモデルをもたらす。 本稿では,最小限の統計量の情報理論的概念を用いて,ロバスト表現とスプリアス表現を定義し,解析する。 入力分布(すなわち、入力分布)のバイアスしか存在しない場合でも、我々は証明する。 covariate shift)モデルでは、トレーニングデータからスプリアスな特徴を拾うことができる。 群分散ロバスト最適化(DRO)は、一組の事前定義されたグループに対する最悪のトレーニング損失を最小限に抑えることで、共変量シフトを軽減する効果的なツールを提供する。 我々の分析から着想を得た結果、グループDROは、データに発生する様々な突発的相関を直接考慮しない場合に失敗することを示した。 これを解決するために、最適化時に各グループ全体を扱うのではなく、グループとインスタンスの合同分布で定義されるより柔軟な分布の集合に対する最悪の損失を最小限に抑えることを提案する。 1つの画像と2つの言語タスクに関する広範な実験を通じて、我々のモデルは様々な分割の下で同等のベースラインよりもかなり堅牢であることを示した。 私たちのコードはhttps://github.com/v iolet-zct/group-cond itional-DROで公開しています。

A central goal of machine learning is to learn robust representations that capture the causal relationship between inputs features and output labels. However, minimizing empirical risk over finite or biased datasets often results in models latching on to spurious correlations between the training input/output pairs that are not fundamental to the problem at hand. In this paper, we define and analyze robust and spurious representations using the information-theoreti c concept of minimal sufficient statistics. We prove that even when there is only bias of the input distribution (i.e. covariate shift), models can still pick up spurious features from their training data. Group distributionally robust optimization (DRO) provides an effective tool to alleviate covariate shift by minimizing the worst-case training loss over a set of pre-defined groups. Inspired by our analysis, we demonstrate that group DRO can fail when groups do not directly account for various spurious correlations that occur in the data. To address this, we further propose to minimize the worst-case losses over a more flexible set of distributions that are defined on the joint distribution of groups and instances, instead of treating each group as a whole at optimization time. Through extensive experiments on one image and two language tasks, we show that our model is significantly more robust than comparable baselines under various partitions. Our code is available at https://github.com/v iolet-zct/group-cond itional-DRO.
翻訳日:2021-06-15 16:29:25 公開日:2021-06-14
# ノード分類で知識グラフのリンク予測が可能に

Node Classification Meets Link Prediction on Knowledge Graphs ( http://arxiv.org/abs/2106.07297v1 )

ライセンス: Link先を確認
Ralph Abboud, \.Ismail \.Ilkan Ceylan(参考訳) ノード分類とリンク予測はグラフ表現学習において広く研究されている。 トランスダクティブノードの分類とリンク予測はどちらも単一の入力グラフ上で動作しますが、それらは単独で研究されています。 ノード分類モデルは、ノードの特徴と不完全なノードラベルを持つグラフを入力とし、暗黙的に入力グラフが関係的に完備であると仮定する。 これは、ノードの特徴を持たない入力グラフのリレーショナル不完全性によってのみ動機付けられるリンク予測モデルとは対照的である。 本稿では,不完全グラフ上の (i) トランスダクティブノード分類と (ii) ノード特徴を持つグラフ上のリンク予測の問題点について考察する。 我々は,既存のボックス埋め込みモデルの拡張を提案し,このモデルが完全に表現力があり,両タスクをエンドツーエンドで解決できることを示す。 このモデルを実証的に評価するために,ノードの特徴を持つ知識グラフを構築し,ノード分類とリンク予測の両面での課題を解決した。 本モデルでは,ノード分類とリンク予測のための各最先端モデルと比較し,ノード分類とナレッジグラフにおけるリンク予測の統一的視点の重要性を示す。

Node classification and link prediction are widely studied tasks in graph representation learning. While both transductive node classification and link prediction operate over a single input graph, they are studied in isolation so far, which leads to discrepancies. Node classification models take as input a graph with node features and incomplete node labels, and implicitly assume that the input graph is relationally complete, i.e., no edges are missing from the input graph. This is in sharp contrast with link prediction models that are solely motivated by the relational incompleteness of the input graph which does not have any node features. We propose a unifying perspective and study the problems of (i) transductive node classification over incomplete graphs and (ii) link prediction over graphs with node features. We propose an extension to an existing box embedding model, and show that this model is fully expressive, and can solve both of these tasks in an end-to-end fashion. To empirically evaluate our model, we construct a knowledge graph with node features, which is challenging both for node classification and link prediction. Our model performs very strongly when compared to the respective state-of-the-art models for node classification and link prediction on this dataset and shows the importance of a unified perspective for node classification and link prediction on knowledge graphs.
翻訳日:2021-06-15 16:29:03 公開日:2021-06-14
# 幾何学的安定性をもつ学習のサンプル複雑性について

On the Sample Complexity of Learning with Geometric Stability ( http://arxiv.org/abs/2106.07148v1 )

ライセンス: Link先を確認
Alberto Bietti, Luca Venturi, Joan Bruna(参考訳) 多くの教師付き学習問題は、画像、テキスト、グラフなどの高次元データを含む。 データの効率的な利用のために、翻訳への不変性、置換部分群、小さな変形に対する安定性などの問題における幾何的先行性を利用するのが有用である。 本研究では,球面上の関数の球面調和分解を考慮し,対象関数がそのような不変性と安定性特性を示す学習問題のサンプル複雑性について検討する。 我々は、カーネル法における非パラメトリック収束率を示し、対応する非不変カーネルと比較して、グループ上の不変カーネルを使用する場合の、グループのサイズに等しい係数によるサンプル複雑性の改善を示す。 これらの改善は、サンプルサイズが十分に大きい場合に有効であり、群のスペクトル特性に依存する漸近的な挙動を持つ。 最後に、これらのゲインは不変群を超えて拡張され、幾何学的安定性を小さな変形までカバーし、ここで置換の部分集合(必ずしも部分群ではない)としてモデル化される。

Many supervised learning problems involve high-dimensional data such as images, text, or graphs. In order to make efficient use of data, it is often useful to leverage certain geometric priors in the problem at hand, such as invariance to translations, permutation subgroups, or stability to small deformations. We study the sample complexity of learning problems where the target function presents such invariance and stability properties, by considering spherical harmonic decompositions of such functions on the sphere. We provide non-parametric rates of convergence for kernel methods, and show improvements in sample complexity by a factor equal to the size of the group when using an invariant kernel over the group, compared to the corresponding non-invariant kernel. These improvements are valid when the sample size is large enough, with an asymptotic behavior that depends on spectral properties of the group. Finally, these gains are extended beyond invariance groups to also cover geometric stability to small deformations, modeled here as subsets (not necessarily subgroups) of permutations.
翻訳日:2021-06-15 16:27:16 公開日:2021-06-14
# ワンショットコミュニケーションによるフェデレーションミオピックコミュニティの検出

Federated Myopic Community Detection with One-shot Communication ( http://arxiv.org/abs/2106.07255v1 )

ライセンス: Link先を確認
Chuyang Ke, Jean Honorio(参考訳) 本稿では,フェデレーション・ミオピック学習におけるネットワークのコミュニティ構造回復の課題について考察する。 このパラダイムの下では、いくつかのクライアントが存在し、それぞれが筋電図ビュー、すなわちネットワークの小さなサブグラフを観察する。 各クライアントは、検閲された証拠グラフを中央サーバに送信する。 クライアントのエビデンスから合意署名付き重み付きグラフを計算し、中央サーバの基盤となるネットワーク構造を復元する効率的なアルゴリズムを提案する。 ネットワークのトポロジ的構造条件と,ネットワーク構造の回復を可能にするクライアントの信号および雑音レベルを解析する。 本分析は, 正確な回復が可能であり, 多項式時間で達成可能であることを示す。 また、中央サーバが単一のクライアント証拠からネットワーク構造を復元するための情報理論上の制限も提供します。 最後に,本解析の副産物として,一般符号付き重み付きグラフに対する新しいチーガー型不等式を提案する。

In this paper, we study the problem of recovering the community structure of a network under federated myopic learning. Under this paradigm, we have several clients, each of them having a myopic view, i.e., observing a small subgraph of the network. Each client sends a censored evidence graph to a central server. We provide an efficient algorithm, which computes a consensus signed weighted graph from clients evidence, and recovers the underlying network structure in the central server. We analyze the topological structure conditions of the network, as well as the signal and noise levels of the clients that allow for recovery of the network structure. Our analysis shows that exact recovery is possible and can be achieved in polynomial time. We also provide information-theoreti c limits for the central server to recover the network structure from any single client evidence. Finally, as a byproduct of our analysis, we provide a novel Cheeger-type inequality for general signed weighted graphs.
翻訳日:2021-06-15 16:27:00 公開日:2021-06-14
# オンライン実験における分散化のための機械学習

Machine Learning for Variance Reduction in Online Experiments ( http://arxiv.org/abs/2106.07263v1 )

ライセンス: Link先を確認
Yongyi Guo, Dominic Coey, Mikael Konutgan, Wenting Li, Chris Schoener, Matt Goldman(参考訳) 本研究では,無作為化実験における分散低減の問題点を,結果と相関するが治療とは無関係な共変量を用いて検討する。 そこで,我々はmlrateと呼ぶ機械学習回帰調整治療効果推定器を提案する。 MLRATEは、結果の機械学習予測器を使用して推定値の分散を低減する。 バイアスの過度な適合を避けるためにクロスフィッティングを採用し、一般的な条件下での一貫性と漸近正規性を証明する。 mlrateは、機械学習のステップから低い予測に堅牢である:もし予測が結果と無関係なら、推定者は標準の差分推定器よりも漸近的に実行され、予測が結果と高い相関関係にある場合、効率向上は大きい。 A/Aテストでは、Facebook実験で一般的に監視される48の結果指標のセットに対して、推定器は単純な差分推定器よりも70%以上分散し、結果の事前実験値にのみ適応する一般的な単変量法よりも約19パーセント低い分散を有する。

We consider the problem of variance reduction in randomized controlled trials, through the use of covariates correlated with the outcome but independent of the treatment. We propose a machine learning regression-adjusted treatment effect estimator, which we call MLRATE. MLRATE uses machine learning predictors of the outcome to reduce estimator variance. It employs cross-fitting to avoid overfitting biases, and we prove consistency and asymptotic normality under general conditions. MLRATE is robust to poor predictions from the machine learning step: if the predictions are uncorrelated with the outcomes, the estimator performs asymptotically no worse than the standard difference-in-means estimator, while if predictions are highly correlated with outcomes, the efficiency gains are large. In A/A tests, for a set of 48 outcome metrics commonly monitored in Facebook experiments the estimator has over 70\% lower variance than the simple difference-in-means estimator, and about 19\% lower variance than the common univariate procedure which adjusts only for pre-experiment values of the outcome.
翻訳日:2021-06-15 16:26:45 公開日:2021-06-14
# ベイズ四面体を用いた定常カーネル上のMarginalising

Marginalising over Stationary Kernels with Bayesian Quadrature ( http://arxiv.org/abs/2106.07452v1 )

ライセンス: Link先を確認
Saad Hamid, Sebastian Schulze, Michael A. Osborne, Stephen J. Roberts(参考訳) ガウス過程カーネルの族に対するマージンは、十分な不確実性推定を持つ柔軟なモデルクラスを生成する。 既存のアプローチでは、多くのカーネルを潜在的に評価する必要がある。 本稿では,この限界化をより効率的かつ実用的なベイズ二次スキームを提案する。 分布間の平均誤差を最大化することにより、スペクトル混合(SM)カーネル間の不変性を捉えるカーネル上のカーネルを定義する。 歪ベイズ二次の情報理論的取得関数を一般化して、カーネルサンプルを選択する。 我々は,最先端のベースラインよりも校正の不確実性が向上し,より正確な予測を実現することを実証する。

Marginalising over families of Gaussian Process kernels produces flexible model classes with well-calibrated uncertainty estimates. Existing approaches require likelihood evaluations of many kernels, rendering them prohibitively expensive for larger datasets. We propose a Bayesian Quadrature scheme to make this marginalisation more efficient and thereby more practical. Through use of the maximum mean discrepancies between distributions, we define a kernel over kernels that captures invariances between Spectral Mixture (SM) Kernels. Kernel samples are selected by generalising an information-theoreti c acquisition function for warped Bayesian Quadrature. We show that our framework achieves more accurate predictions with better calibrated uncertainty than state-of-the-art baselines, especially when given limited (wall-clock) time budgets.
翻訳日:2021-06-15 16:26:19 公開日:2021-06-14
# 不分散学習のためのラスト層限界確率

Last Layer Marginal Likelihood for Invariance Learning ( http://arxiv.org/abs/2106.07512v1 )

ライセンス: Link先を確認
Pola Elisabeth Schw\"obel, Martin J{\o}rgensen, Sebastian W. Ober, Mark van der Wilk(参考訳) データ拡張はしばしば、帰納バイアスをモデルに組み込むために使われる。 伝統的に、これらは手作りで、クロス検証で調整される。 モデル選択のためのベイズパラダイムは、限界確率を最適化することにより、トレーニングデータのみを用いて不変性をエンドツーエンドに学習する道を提供する。 我々は、このアプローチをニューラルネットワークに導入するために、最終層にガウス過程を持つアーキテクチャを用いて、限界確率を計算できるモデルを構築している。 実験では,標準ベンチマーク,低データレジーム,医用イメージングタスクの適切な不分散を学習することにより,性能を向上させる。 invariant deep kernel gaussian processの最適化課題を同定し、堅牢なトレーニングスキームに到達するための体系的分析を行った。 これにより、従来よりも大きな可能性関数のクラスを推論することが可能となり、それによって、以前のアプローチで存在したトレーニング課題のいくつかを克服することができる。

Data augmentation is often used to incorporate inductive biases into models. Traditionally, these are hand-crafted and tuned with cross validation. The Bayesian paradigm for model selection provides a path towards end-to-end learning of invariances using only the training data, by optimising the marginal likelihood. We work towards bringing this approach to neural networks by using an architecture with a Gaussian process in the last layer, a model for which the marginal likelihood can be computed. Experimentally, we improve performance by learning appropriate invariances in standard benchmarks, the low data regime and in a medical imaging task. Optimisation challenges for invariant Deep Kernel Gaussian processes are identified, and a systematic analysis is presented to arrive at a robust training scheme. We introduce a new lower bound to the marginal likelihood, which allows us to perform inference for a larger class of likelihood functions than before, thereby overcoming some of the training challenges that existed with previous approaches.
翻訳日:2021-06-15 16:26:07 公開日:2021-06-14
# 画家の手を識別する:表面トポグラフィーによる機械学習

Discerning the painter's hand: machine learning on surface topography ( http://arxiv.org/abs/2106.07134v1 )

ライセンス: Link先を確認
F. Ji, M. S. McMaster, S. Schwab, G. Singh, L. N. Smith, S. Adhikari, M. O'Dwyer, F. Sayed, A. Ingrisano, D. Yoder, E. S. Bolman, I. T. Martin, M. Hinczewski, K. D. Singer(参考訳) 絵画の帰属は美術史において重要な問題である。 本研究は,絵画表面のトポグラフィーに機械学習解析を応用した。 正の帰属に関する統制的な研究は、美術学生の集団が制作した絵画でデザインされた。 絵画は、表面データを生成するために共焦点光学プロファイロメーターを用いてスキャンされた。 表面データは仮想パッチに分割され、帰属のために畳み込みニューラルネットワーク(CNN)のアンサンブルをトレーニングするために使用された。 パッチサイズは0.5mmから60mmの範囲で、結果として生じる帰属は60から96%の精度で、異なる色の領域を比較すると、絵画の色画像を用いたcnnのほぼ2倍の精度を示した。 注目すべきは、細い直径の2倍の短い長さのスケールが、アーティストの間で確実に区別する鍵であったことである。 これらの結果は,特にワークショップ実践において,実世界の帰属への期待を示す。

Attribution of paintings is a critical problem in art history. This study extends machine learning analysis to surface topography of painted works. A controlled study of positive attribution was designed with paintings produced by a class of art students. The paintings were scanned using a confocal optical profilometer to produce surface data. The surface data were divided into virtual patches and used to train an ensemble of convolutional neural networks (CNNs) for attribution. Over a range of patch sizes from 0.5 to 60 mm, the resulting attribution was found to be 60 to 96% accurate, and, when comparing regions of different color, was nearly twice as accurate as CNNs using color images of the paintings. Remarkably, short length scales, as small as twice a bristle diameter, were the key to reliably distinguishing among artists. These results show promise for real-world attribution, particularly in the case of workshop practice.
翻訳日:2021-06-15 16:24:05 公開日:2021-06-14
# 情報源画像の選択は敵攻撃の有効性に大きく影響する

Selection of Source Images Heavily Influences the Effectiveness of Adversarial Attacks ( http://arxiv.org/abs/2106.07141v1 )

ライセンス: Link先を確認
Utku Ozbulak, Esla Timothy Anzaku, Wesley De Neve, Arnout Van Messem(参考訳) 近年、ディープニューラルネットワーク(DNN)の採用率は大幅に増加しているが、敵の例に対する脆弱性の解決策はまだ見つかっていない。 結果として、この弱点を解決するためにかなりの研究努力が費やされ、多くの研究は典型的にソースイメージのサブセットを使用して逆例を生成し、このサブセット内のすべてのイメージを等しいものとして扱う。 実際、すべてのソースイメージがこの種の評価に等しく適しているわけではないことを実証する。 そこで我々は,ImageNetの適切なソース画像から生成した敵例の特性を,最も頻繁にデプロイされる攻撃の2つを巧みに分析する大規模モデル間転送可能性シナリオを考案した。 最近提案されたビジョントランスフォーマーを含む7つの異なるDNNモデルを含むトランスファービリティシナリオでは、モデルからモデルへのトランスファービリティの成功で最大$2.5\%、平均$L_2$摂動で$1.01$、平均$L_{\infty}$摂動で$0.03$(8/225$)の差がある可能性がある。 次に,実例作成に使用する画像のロバスト性を評価するための第一歩を踏み出し,不適切なソース画像を特定するための単純かつ効果的な手法を多数提案し,実験の極端なケースを軽減し,高品質なベンチマークをサポートする。

Although the adoption rate of deep neural networks (DNNs) has tremendously increased in recent years, a solution for their vulnerability against adversarial examples has not yet been found. As a result, substantial research efforts are dedicated to fix this weakness, with many studies typically using a subset of source images to generate adversarial examples, treating every image in this subset as equal. We demonstrate that, in fact, not every source image is equally suited for this kind of assessment. To do so, we devise a large-scale model-to-model transferability scenario for which we meticulously analyze the properties of adversarial examples, generated from every suitable source image in ImageNet by making use of two of the most frequently deployed attacks. In this transferability scenario, which involves seven distinct DNN models, including the recently proposed vision transformers, we reveal that it is possible to have a difference of up to $12.5\%$ in model-to-model transferability success, $1.01$ in average $L_2$ perturbation, and $0.03$ ($8/225$) in average $L_{\infty}$ perturbation when $1,000$ source images are sampled randomly among all suitable candidates. We then take one of the first steps in evaluating the robustness of images used to create adversarial examples, proposing a number of simple but effective methods to identify unsuitable source images, thus making it possible to mitigate extreme cases in experimentation and support high-quality benchmarking.
翻訳日:2021-06-15 16:23:52 公開日:2021-06-14
# 複素相対ラジオメトリック正規化モザイク化シナリオにおけるポアソン編集によるシーム線の自動除去

Automatically eliminating seam lines with Poisson editing in complex relative radiometric normalization mosaicking scenarios ( http://arxiv.org/abs/2106.07441v1 )

ライセンス: Link先を確認
Shiqi Liu, Jie Lian, Xuchen Zhan, Cong Liu, Yuze Tian, Hongwei Duan(参考訳) 複数のリモートセンシング画像間の相対ラジオメトリック正規化(RRN)モザイクは、地図作成、画像認識、セマンティックセグメンテーション、変化検出などの下流タスクに不可欠である。 しかし、モザイク境界と放射能コントラストには、特に複雑なシナリオでは、しばしばシーム線があり、モザイク画像の出現を不明瞭にし、後者の分類/認識アルゴリズムの精度を低下させる。 本稿では,複雑なRCNモザイクシナリオにおいて,シームラインを除去するための新しい自動アプローチを示す。 重なり領域のヒストグラムマッチングを利用して放射能コントラストを緩和し、ポアソン編集によりシーム線を除去し、マージ手順により正規化転送順序を決定する。 提案手法では, 任意の形状のモザイク線と, 極端に位相的関係のある画像(交叉面積が小さい)を扱える。 これらの条件により、線形重み付きブレンディングやラプラシアピラミッドブレンディングなど、主な羽毛やブレンディング方法が利用できない。 実験では,Poisson編集やGIMPソフトウェアを用いた手作業のぼやけや羽化を伴わない自動手法を視覚的に超えた。

Relative radiometric normalization (RRN) mosaicking among multiple remote sensing images is crucial for the downstream tasks, including map-making, image recognition, semantic segmentation, and change detection. However, there are often seam lines on the mosaic boundary and radiometric contrast left, especially in complex scenarios, making the appearance of mosaic images unsightly and reducing the accuracy of the latter classification/recog nition algorithms. This paper renders a novel automatical approach to eliminate seam lines in complex RRN mosaicking scenarios. It utilizes the histogram matching on the overlap area to alleviate radiometric contrast, Poisson editing to remove the seam lines, and merging procedure to determine the normalization transfer order. Our method can handle the mosaicking seam lines with arbitrary shapes and images with extreme topological relationships (with a small intersection area). These conditions make the main feathering or blending methods, e.g., linear weighted blending and Laplacian pyramid blending, unavailable. In the experiment, our approach visually surpasses the automatic methods without Poisson editing and the manual blurring and feathering method using GIMP software.
翻訳日:2021-06-15 16:23:22 公開日:2021-06-14
# インライン座標を用いた2次元の完全解釈型機械学習

Full interpretable machine learning in 2D with inline coordinates ( http://arxiv.org/abs/2106.07568v1 )

ライセンス: Link先を確認
Boris Kovalerchuk, Hoang Phan(参考訳) 本稿では,2次元空間(2次元ml)のインライン座標における機械学習の新しい手法を提案する。 これは、n次元空間におけるn次元データを扱う必要がない完全な機械学習アプローチである。 2次元空間におけるn-Dパターンの発見は、2次元空間におけるn-Dデータのグラフ表現を用いてn-D情報を失うことなく可能である。 具体的には、静的座標や動的座標を含む、異なる修正のインラインベースの座標で行うことができる。 これらのインライン座標に基づく分類と回帰アルゴリズムを導入した。 ベンチマークデータに基づくケーススタディは、このアプローチの実現可能性を示した。 このアプローチは、有望なML方法論として、完全な2次元機械学習のまったく新しい領域を統合するのに役立つ。 モデルの発見とその正当化にエンドユーザーを積極的に巻き込む能力の利点がある。 もうひとつのメリットは、解釈可能なMLモデルを提供することだ。

This paper proposed a new methodology for machine learning in 2-dimensional space (2-D ML) in inline coordinates. It is a full machine learning approach that does not require to deal with n-dimensional data in n-dimensional space. It allows discovering n-D patterns in 2-D space without loss of n-D information using graph representations of n-D data in 2-D. Specifically, it can be done with the inline based coordinates in different modifications, including static and dynamic ones. The classification and regression algorithms based on these inline coordinates were introduced. A successful case study based on a benchmark data demonstrated the feasibility of the approach. This approach helps to consolidate further a whole new area of full 2-D machine learning as a promising ML methodology. It has advantages of abilities to involve actively the end-users into the discovering of models and their justification. Another advantage is providing interpretable ML models.
翻訳日:2021-06-15 16:23:00 公開日:2021-06-14
# 視覚と聴覚の感覚置換のための新しいマッピング

A Novel mapping for visual to auditory sensory substitution ( http://arxiv.org/abs/2106.07448v1 )

ライセンス: Link先を確認
Ezsan Mehrbani, Sezedeh Fatemeh Mirhoseini, Noushin Riahi(参考訳) 視覚情報は感覚置換デバイスを介して音声ストリームに変換でき、視覚障害者が日常の作業に容易に同時に周囲を知覚する機会を与えることができる。 本研究では,視覚環境特性であるコーディネート,物体の種類,大きさを,周波数,持続時間,音符の順列といった音楽音に関する音声特徴に割り当てる。 その結果, 本手法は, 正弦波トーンを応用した従来のVBTones法と比較して, 訓練時間効率が向上した。 さらに,実物に対する視覚的物体認識の結果は平均88.05であった。

visual information can be converted into audio stream via sensory substitution devices in order to give visually impaired people the chance of perception of their surrounding easily and simultaneous to performing everyday tasks. In this study, visual environmental features namely, coordinate, type of objects and their size are assigned to audio features related to music tones such as frequency, time duration and note permutations. Results demonstrated that this new method has more training time efficiency in comparison with our previous method named VBTones which sinusoidal tones were applied. Moreover, results in blind object recognition for real objects was achieved 88.05 on average.
翻訳日:2021-06-15 16:22:49 公開日:2021-06-14
# 1000層からなるグラフニューラルネットワークのトレーニング

Training Graph Neural Networks with 1000 Layers ( http://arxiv.org/abs/2106.07476v1 )

ライセンス: Link先を確認
Guohao Li, Matthias M\"uller, Bernard Ghanem, Vladlen Koltun(参考訳) ディープグラフニューラルネットワーク(GNN)は、数百万のノードとエッジを持つ大規模グラフデータセットのさまざまなタスクにおいて、優れた結果を得た。 しかし,ノード数,エッジ数,中間的アクティベーション数が多いため,実用化のための深部GNNのトレーニングでは,メモリ複雑性が大きな障害となっている。 gnnのスケーラビリティを改善するために、より小さなノードまたはサブグラフでgnnをトレーニングするためのスマートグラフサンプリングまたはパーティショニング戦略を提案する。 本研究では,GNNのメモリとパラメータ効率を向上させるために,可逆接続,グループ畳み込み,重み付け,平衡モデルについて検討する。 深いネットワークアーキテクチャと組み合わさった可逆接続により、複数のデータセット上の既存のメソッドを大幅に上回る、過パラメータ化されたGNNのトレーニングが可能になる。 我々のモデルであるRevGNN-Deep(それぞれ80のチャネルを持つ1001層)とRevGNN-Wide(それぞれ224のチャネルを持つ448層)は、いずれも単一のコモディティGPUでトレーニングされ、ogbn-oproteinsデータセット上で87.74 \pm 0.13$と8.14 \pm 0.15$のROC-AUCを達成した。 我々の知る限りでは、RevGNN-Deepは文学で最も深いGNNである。 詳細はプロジェクトのwebサイトhttps://www.deepgcns .org/arch/gnn1000を参照してください。

Deep graph neural networks (GNNs) have achieved excellent results on various tasks on increasingly large graph datasets with millions of nodes and edges. However, memory complexity has become a major obstacle when training deep GNNs for practical applications due to the immense number of nodes, edges, and intermediate activations. To improve the scalability of GNNs, prior works propose smart graph sampling or partitioning strategies to train GNNs with a smaller set of nodes or sub-graphs. In this work, we study reversible connections, group convolutions, weight tying, and equilibrium models to advance the memory and parameter efficiency of GNNs. We find that reversible connections in combination with deep network architectures enable the training of overparameterized GNNs that significantly outperform existing methods on multiple datasets. Our models RevGNN-Deep (1001 layers with 80 channels each) and RevGNN-Wide (448 layers with 224 channels each) were both trained on a single commodity GPU and achieve an ROC-AUC of $87.74 \pm 0.13$ and $88.14 \pm 0.15$ on the ogbn-proteins dataset. To the best of our knowledge, RevGNN-Deep is the deepest GNN in the literature by one order of magnitude. Please visit our project website https://www.deepgcns .org/arch/gnn1000 for more information.
翻訳日:2021-06-15 16:20:35 公開日:2021-06-14
# 中華人民共和国の国家支援情報運用におけるプロパガンダ手法のデータセット

Dataset of Propaganda Techniques of the State-Sponsored Information Operation of the People's Republic of China ( http://arxiv.org/abs/2106.07544v1 )

ライセンス: Link先を確認
Rong-Ching Chang, Chun-Ming Lai, Kai-Lai Chang, Chu-Hsing Lin(参考訳) デジタルメディアは、計算プロパガンダとして認識され、プロパガンダが限界なくリーチを拡張する経路を提供する。 国家支援のプロパガンダは、ある政党や権威を支持する団体に対する観客の認識を形作ることを目的としている。 さらに、敵に有利になるために使われた近代的な情報戦の一部となった。 現在の研究では、ソーシャルメディア上の特定の情報がプロパガンダであるかどうかを識別するために、機械学習、量的、質的な手法を使うことに焦点が当てられている。 主に英語のコンテンツを扱うが、中国語のマンダリンのコンテンツを扱う研究はほとんどない。 プロパガンダ検出からさらに一歩進んで、適用されるプロパガンダ技術についてより詳細な情報を提供したいと思っています。 本研究では,twitterが提供する国の支援情報運用データセットに基づいて,マンダリンにおけるマルチラベルプロパガンダ技術データセットを提供することにより,情報ギャップの橋渡しを図る。 データセットの提示に加えて、微調整されたbertを用いたマルチラベルテキスト分類を適用する。 これは、国家が支援するプロパガンダを、特に言語間のコンテキストとプラットフォーム間のアイデンティティ統合で検出する将来の研究に役立つ可能性がある。

The digital media, identified as computational propaganda provides a pathway for propaganda to expand its reach without limit. State-backed propaganda aims to shape the audiences' cognition toward entities in favor of a certain political party or authority. Furthermore, it has become part of modern information warfare used in order to gain an advantage over opponents. Most of the current studies focus on using machine learning, quantitative, and qualitative methods to distinguish if a certain piece of information on social media is propaganda. Mainly conducted on English content, but very little research addresses Chinese Mandarin content. From propaganda detection, we want to go one step further to provide more fine-grained information on propaganda techniques that are applied. In this research, we aim to bridge the information gap by providing a multi-labeled propaganda techniques dataset in Mandarin based on a state-backed information operation dataset provided by Twitter. In addition to presenting the dataset, we apply a multi-label text classification using fine-tuned BERT. Potentially this could help future research in detecting state-backed propaganda online especially in a cross-lingual context and cross platforms identity consolidation.
翻訳日:2021-06-15 16:20:11 公開日:2021-06-14
# 線形関数近似を用いたターゲットベースアクタ臨界アルゴリズムの解析

Analysis of a Target-Based Actor-Critic Algorithm with Linear Function Approximation ( http://arxiv.org/abs/2106.07472v1 )

ライセンス: Link先を確認
Anas Barakat, Pascal Bianchi, Julien Lehmann(参考訳) ターゲットネットワークを統合するアクター・クリティカルな手法は、深層強化学習において非常に成功した。 しかし、アクタ批判的手法における標的ネットワークの使用に関する理論的理解は文献にはほとんど欠落している。 本稿では,この理論と実践のギャップを,リニア関数近似を用いたオンラインターゲットベースアクター批判アルゴリズムの最初の理論的解析を割引報酬設定で提案することで橋渡しする。 私たちのアルゴリズムは3つのタイムスケールを使用します。1つはアクター、2つは批評家です。 標準的な単一時間スケール時間差(TD)学習アルゴリズムを批判として使用する代わりに、ターゲットネットワークを実装する実践的アクター批判アルゴリズムに強くインスパイアされた2つの時間スケール目標学習を使用する。 まず,マルコフサンプリング下の批評家と俳優の両方に対して漸近収束結果を確立する。 次に,対象ネットワークをアクタ批判手法に組み込むことが与える影響を,有限時間解析で示す。

Actor-critic methods integrating target networks have exhibited a stupendous empirical success in deep reinforcement learning. However, a theoretical understanding of the use of target networks in actor-critic methods is largely missing in the literature. In this paper, we bridge this gap between theory and practice by proposing the first theoretical analysis of an online target-based actor-critic algorithm with linear function approximation in the discounted reward setting. Our algorithm uses three different timescales: one for the actor and two for the critic. Instead of using the standard single timescale temporal difference (TD) learning algorithm as a critic, we use a two timescales target-based version of TD learning closely inspired from practical actor-critic algorithms implementing target networks. First, we establish asymptotic convergence results for both the critic and the actor under Markovian sampling. Then, we provide a finite-time analysis showing the impact of incorporating a target network into actor-critic methods.
翻訳日:2021-06-15 16:18:32 公開日:2021-06-14
# 混合線形回帰のためのWasserstein Minimaxフレームワーク

A Wasserstein Minimax Framework for Mixed Linear Regression ( http://arxiv.org/abs/2106.07537v1 )

ライセンス: Link先を確認
Theo Diamandis, Yonina C. Eldar, Alireza Fallah, Farzan Farnia, Asuman Ozdaglar(参考訳) マルチモーダル分布は、統計的学習タスクでクラスタ化されたデータをモデル化するために一般的に使用される。 本稿では,Mixed Linear Regression (MLR)問題について考察する。 本稿では,学習と目標混合回帰モデル間のwasserstein距離を最小化する,mlr問題の最適トランスポートベースフレームワークであるwasserstein mixed linear regression (wmlr)を提案する。 モデルに基づく双対性解析により、WMLR は基礎となる MLR タスクを非凸-凹極小最適化問題に還元し、グラディエント・Descent Ascent (GDA) アルゴリズムによりミニマックス定常点を求めることを証明可能とした。 2つの線形回帰モデルの混合の場合、WMLRが大域収束と一般化の保証を享受していることが示される。 We prove that WMLR's sample complexity growly with the dimension of data。 最後に、ネットワーク内の複数のエージェントがトレーニングサンプルを収集するフェデレート学習タスクへのWMLRの適用について論じる。 expectation Maximizationアルゴリズムとは異なり、WMLRは分散されたフェデレーション学習設定に直接拡張する。 我々はいくつかの数値実験を通じて理論的結果をサポートし、混合モデルを用いて統合学習環境を扱うフレームワークの能力を強調した。

Multi-modal distributions are commonly used to model clustered data in statistical learning tasks. In this paper, we consider the Mixed Linear Regression (MLR) problem. We propose an optimal transport-based framework for MLR problems, Wasserstein Mixed Linear Regression (WMLR), which minimizes the Wasserstein distance between the learned and target mixture regression models. Through a model-based duality analysis, WMLR reduces the underlying MLR task to a nonconvex-concave minimax optimization problem, which can be provably solved to find a minimax stationary point by the Gradient Descent Ascent (GDA) algorithm. In the special case of mixtures of two linear regression models, we show that WMLR enjoys global convergence and generalization guarantees. We prove that WMLR's sample complexity grows linearly with the dimension of data. Finally, we discuss the application of WMLR to the federated learning task where the training samples are collected by multiple agents in a network. Unlike the Expectation Maximization algorithm, WMLR directly extends to the distributed, federated learning setting. We support our theoretical results through several numerical experiments, which highlight our framework's ability to handle the federated learning setting with mixture models.
翻訳日:2021-06-15 16:18:17 公開日:2021-06-14
# MIA-COV19D : 3次元胸部CT画像解析によるCOVID-19検出

MIA-COV19D: COVID-19 Detection through 3-D Chest CT Image Analysis ( http://arxiv.org/abs/2106.07524v1 )

ライセンス: Link先を確認
Dimitrios Kollias and Anastasios Arsenos and Levon Soukissian and Stefanos Kollias(参考訳) 胸部3次元ctスキャンに基づく早期かつ信頼性の高い新型コロナウイルス診断は、重要な状況で医療専門家を助ける。 深層学習法は胸部CTスキャン解析と疾患予測の主要なアプローチである。 しかし、さまざまな国の様々な医療環境に新型コロナウイルスの診断を提供することができるディープラーニングモデルを開発するためには、大きな注釈付きデータベースが必要である。 プライバシー上の問題により、公開されているCOVID-19 CTデータセットの入手は非常に困難であり、CTスキャンに基づいたAI対応診断方法の研究と開発を妨げる。 本稿では,covid-19対応のcov19-ct-dbデータベースを,約5,000の3次元ctスキャンから作成し,トレーニング,検証,テストデータセットでデータベースを分割した。 前者の2つのデータセットは、機械学習モデルのトレーニングと検証に使用され、後者は、開発したモデルの評価に使用される。 また,CNN-RNNネットワークに基づく深層学習手法を提案し,その性能をCOVID19-CT-DBデータベース上で報告する。

Early and reliable COVID-19 diagnosis based on chest 3-D CT scans can assist medical specialists in vital circumstances. Deep learning methodologies constitute a main approach for chest CT scan analysis and disease prediction. However, large annotated databases are necessary for developing deep learning models that are able to provide COVID-19 diagnosis across various medical environments in different countries. Due to privacy issues, publicly available COVID-19 CT datasets are highly difficult to obtain, which hinders the research and development of AI-enabled diagnosis methods of COVID-19 based on CT scans. In this paper we present the COV19-CT-DB database which is annotated for COVID-19, consisting of about 5,000 3-D CT scans, We have split the database in training, validation and test datasets. The former two datasets can be used for training and validation of machine learning models, while the latter will be used for evaluation of the developed models. We also present a deep learning approach, based on a CNN-RNN network and report its performance on the COVID19-CT-DB database.
翻訳日:2021-06-15 16:16:29 公開日:2021-06-14
# 制御のための視覚的3次元キーポイントの教師なし学習

Unsupervised Learning of Visual 3D Keypoints for Control ( http://arxiv.org/abs/2106.07643v1 )

ライセンス: Link先を確認
Boyuan Chen, Pieter Abbeel, Deepak Pathak(参考訳) 高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。 先行研究では、視覚キーポイントのような構造化された潜在空間が、ロボット制御のための非構造化表現よりも優れていることが示されている。 しかしながら、これらの表現のほとんどは、通常3次元環境で実行されるにもかかわらず、2次元空間で学習される。 本研究では,画像から3次元の幾何学構造を直接教師なしで学習するフレームワークを提案する。 入力画像は、多視点整合性損失と下流タスク目的の両方を最適化するように訓練された微分可能なエンコーダを介して、潜在3Dキーポイントに埋め込まれる。 これらの発見済みの3dキーポイントは、時間と3d空間の両方において、ロボットの関節や物体の動きを一貫して捉える傾向にあります。 提案手法は,様々な強化学習ベンチマークにおいて,先行手法よりも優れている。 https://buoyancy99.g ithub.io/unsup-3d-ke ypoints/

Learning sensorimotor control policies from high-dimensional images crucially relies on the quality of the underlying visual representations. Prior works show that structured latent space such as visual keypoints often outperforms unstructured representations for robotic control. However, most of these representations, whether structured or unstructured are learned in a 2D space even though the control tasks are usually performed in a 3D environment. In this work, we propose a framework to learn such a 3D geometric structure directly from images in an end-to-end unsupervised manner. The input images are embedded into latent 3D keypoints via a differentiable encoder which is trained to optimize both a multi-view consistency loss and downstream task objective. These discovered 3D keypoints tend to meaningfully capture robot joints as well as object movements in a consistent manner across both time and 3D space. The proposed approach outperforms prior state-of-art methods across a variety of reinforcement learning benchmarks. Code and videos at https://buoyancy99.g ithub.io/unsup-3d-ke ypoints/
翻訳日:2021-06-15 16:16:13 公開日:2021-06-14
# マルチビューデータにおける自己教師付きメトリック学習:下流タスクの視点から

Self-Supervised Metric Learning in Multi-View Data: A Downstream Task Perspective ( http://arxiv.org/abs/2106.07138v1 )

ライセンス: Link先を確認
Shulei Wang(参考訳) 自己教師付きメトリック学習は、ラベルのないデータセットから距離を学習するアプローチとして成功している。 得られた距離は、計量学習段階において下流タスクからの情報が使われなくても、様々な距離ベースの下流タスクを改善するのに広く有用である。 本研究では,マルチビューデータの文脈において,自己教師付きメトリック学習が下流課題にどのように役立つかを理論的に研究するための統計的枠組みを考案する。 この枠組みの下では、メトリック学習の目標距離が下流タスクに必要ないくつかの特性を満たすことを示す。 一方,本研究では,各方向の重みを緩和することにより,目標距離をさらに改善できることを示す。 さらに,本分析では,サンプル識別,2サンプルテスト,$k$-meansクラスタリング,$k$-nearest近隣分類の4つのダウンストリームタスクに対して,自己教師付きメトリック学習による改善を正確に特徴付ける。 副産物として,目標距離の推定に最適で計算効率のよい自己教師付き距離学習のための簡易スペクトル法を提案する。 最後に,論文の理論的結果を支持する数値実験を行った。

Self-supervised metric learning has been a successful approach for learning a distance from an unlabeled dataset. The resulting distance is broadly useful for improving various distance-based downstream tasks, even when no information from downstream tasks is utilized in the metric learning stage. To gain insights into this approach, we develop a statistical framework to theoretically study how self-supervised metric learning can benefit downstream tasks in the context of multi-view data. Under this framework, we show that the target distance of metric learning satisfies several desired properties for the downstream tasks. On the other hand, our investigation suggests the target distance can be further improved by moderating each direction's weights. In addition, our analysis precisely characterizes the improvement by self-supervised metric learning on four commonly used downstream tasks: sample identification, two-sample testing, $k$-means clustering, and $k$-nearest neighbor classification. As a by-product, we propose a simple spectral method for self-supervised metric learning, which is computationally efficient and minimax optimal for estimating target distance. Finally, numerical experiments are presented to support the theoretical results in the paper.
翻訳日:2021-06-15 16:15:25 公開日:2021-06-14
# なぜ首を落とせるのか? BERTヘッドの転送方法の調査

Why Can You Lay Off Heads? Investigating How BERT Heads Transfer ( http://arxiv.org/abs/2106.07137v1 )

ライセンス: Link先を確認
Ting-Rui Chiang, Yun-Nung Chen(参考訳) 広く使われているBERTファミリーモデルの巨大なサイズは、近年のモデル蒸留への取り組みにつながっている。 蒸留の主な目的は、ダウンストリームタスクで微調整できるタスクに依存しない事前訓練モデルを作ることである。 蒸留の進展にもかかわらず、どの程度や理由から、蒸留からタスク非依存モデルを作成することができるかは、十分に研究されていない。 また,これらのBERTモデルの伝達学習のメカニズムについてもよく研究されていない。 そこで本研究は, 今後の蒸留法を導くため, 蒸留時の許容量の分析に重点を置いている。 具体的には、まず、RoBERTaおよびALBERTにおけるトランスフォーマーヘッドの刈取性について、Michelらの提案した頭部重み付け推定を用いて検討する。 (2019)、事前訓練されたタスクと下流タスクの間の重要なヘッドのコヒーレンスをチェックする。 したがって、モデル蒸留時の予め訓練したタスクにおける性能の許容的な推論を結果から導き出すことができ、さらに微調整前後における刈り込みモデルの挙動を比較できる。 本研究は,BERTファミリーモデル蒸留の今後の方向性に関するガイダンスを提供する。

The huge size of the widely used BERT family models has led to recent efforts about model distillation. The main goal of distillation is to create a task-agnostic pre-trained model that can be fine-tuned on downstream tasks without fine-tuning its full-sized version. Despite the progress of distillation, to what degree and for what reason a task-agnostic model can be created from distillation has not been well studied. Also, the mechanisms behind transfer learning of those BERT models are not well investigated either. Therefore, this work focuses on analyzing the acceptable deduction when distillation for guiding the future distillation procedure. Specifically, we first inspect the prunability of the Transformer heads in RoBERTa and ALBERT using their head importance estimation proposed by Michel et al. (2019), and then check the coherence of the important heads between the pre-trained task and downstream tasks. Hence, the acceptable deduction of performance on the pre-trained task when distilling a model can be derived from the results, and we further compare the behavior of the pruned model before and after fine-tuning. Our studies provide guidance for future directions about BERT family model distillation.
翻訳日:2021-06-15 16:12:20 公開日:2021-06-14
# エンドツーエンドのニューラルネットワークダイアリゼーション:transformerからconformerへ

End-to-end Neural Diarization: From Transformer to Conformer ( http://arxiv.org/abs/2106.07167v1 )

ライセンス: Link先を確認
Yi Chieh Liu and Eunjung Han and Chul Lee and Andreas Stolcke(参考訳) 我々は、畳み込みマッピングとTransformerを組み合わせて音声の局所的およびグローバル的依存関係をモデル化する、Conformerに基づく新しいエンドツーエンドニューラルダイアリゼーション(EEND)システムを提案する。 まず、データ拡張と畳み込みサブサンプリングレイヤにより、TransformerベースのEENDにおけるオリジナルの自己注意型EENDが向上し、ConformerはTransformerベースのEENDよりもさらに向上することを示す。 しかし,コンフォーメータベースeendは,トランスフォーメータベースモデルのようにシミュレーションデータから実会話データへの一般化には至っていない。 これにより,話者間のターンテイクを反映する時間統計量の観点から,シミュレーションデータと実話者行動のミスマッチを定量化し,ダイアリゼーション誤差との関連性を検討することができる。 EENDトレーニングにおけるシミュレーションデータと実データを組み合わせることで、さらにミスマッチを緩和し、コンバータベースのEENDはベースラインSA-EENDシステムに対して24%のエラー低減を実現し、2話者CALLHOMEデータ上で最高の拡張トランスフォーマベースのシステムよりも10%改善した。

We propose a new end-to-end neural diarization (EEND) system that is based on Conformer, a recently proposed neural architecture that combines convolutional mappings and Transformer to model both local and global dependencies in speech. We first show that data augmentation and convolutional subsampling layers enhance the original self-attentive EEND in the Transformer-based EEND, and then Conformer gives an additional gain over the Transformer-based EEND. However, we notice that the Conformer-based EEND does not generalize as well from simulated to real conversation data as the Transformer-based model. This leads us to quantify the mismatch between simulated data and real speaker behavior in terms of temporal statistics reflecting turn-taking between speakers, and investigate its correlation with diarization error. By mixing simulated and real data in EEND training, we mitigate the mismatch further, with Conformer-based EEND achieving 24% error reduction over the baseline SA-EEND system, and 10% improvement over the best augmented Transformer-based system, on two-speaker CALLHOME data.
翻訳日:2021-06-15 16:12:04 公開日:2021-06-14
# 弱教師付き質問応答におけるスプリアス解問題に対する相互情報最大化アプローチ

A Mutual Information Maximization Approach for the Spurious Solution Problem in Weakly Supervised Question Answering ( http://arxiv.org/abs/2106.07174v1 )

ライセンス: Link先を確認
Zhihong Shao, Lifeng Shang, Qun Liu, Minlie Huang(参考訳) 弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つが、正しい解は提供されない。 偶然に正しい答えを導き出す散発的な解が多数存在するかもしれないが、そのような解に対するトレーニングはモデルのパフォーマンスを損なう可能性がある(例えば、間違った解や答えを生み出す)。 例えば、DROPのような離散的推論タスクに対しては、数値解を導出する方程式が多数存在し、典型的にはそのうちの1つのみが正しい。 従来の学習手法は、主にヒューリスティックスやモデル信頼を用いて急激な解をフィルタリングするが、質問とその解のセマンティックな相関を明示的に利用しない。 本稿では,スプリアス解問題を軽減するために,質問応答対と予測解の相互情報を最大化することにより,これらの意味相関を明示的に活用することを提案する。 4つの質問応答データセットの広範囲な実験により,本手法は従来の学習方法よりもタスク性能に優れており,正しい解を生成するためのモデルの訓練に有効であることが示された。

Weakly supervised question answering usually has only the final answers as supervision signals while the correct solutions to derive the answers are not provided. This setting gives rise to the spurious solution problem: there may exist many spurious solutions that coincidentally derive the correct answer, but training on such solutions can hurt model performance (e.g., producing wrong solutions or answers). For example, for discrete reasoning tasks as on DROP, there may exist many equations to derive a numeric answer, and typically only one of them is correct. Previous learning methods mostly filter out spurious solutions with heuristics or using model confidence, but do not explicitly exploit the semantic correlations between a question and its solution. In this paper, to alleviate the spurious solution problem, we propose to explicitly exploit such semantic correlations by maximizing the mutual information between question-answer pairs and predicted solutions. Extensive experiments on four question answering datasets show that our method significantly outperforms previous learning methods in terms of task performance and is more effective in training models to produce correct solutions.
翻訳日:2021-06-15 16:11:43 公開日:2021-06-14
# 自動文書スケッチ: アナログテキストからドラフトを生成する

Automatic Document Sketching: Generating Drafts from Analogous Texts ( http://arxiv.org/abs/2106.07192v1 )

ライセンス: Link先を確認
Zeqiu Wu, Michel Galley, Chris Brockett, Yizhe Zhang, Bill Dolan(参考訳) 大規模な事前訓練された言語モデルの出現により、文書中の文の追加や変更方法に関する高品質な予測が可能になる。 しかし、テキスト生成に固有の高い分岐係数は、よりグローバルまたはドキュメントレベルで有用な編集提案を提供するための最強の言語モデルさえも含んでいる。 著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。 これらのドラフトは、再利用可能なテキストの大きなセグメントを共有するという形で重複するドキュメントセットから構築されている。 この課題をサポートするために,wikipediaを用いた類似文書のデータセットを導入し,トランスフォーマーに基づく専門家の混合と強化学習の併用を含む,弱い教師付き手法の適用について検討する。 自動評価手法と人間評価手法を用いた実験を報告し,これらのモデルの相対的メリットについて考察する。

The advent of large pre-trained language models has made it possible to make high-quality predictions on how to add or change a sentence in a document. However, the high branching factor inherent to text generation impedes the ability of even the strongest language models to offer useful editing suggestions at a more global or document level. We introduce a new task, document sketching, which involves generating entire draft documents for the writer to review and revise. These drafts are built from sets of documents that overlap in form - sharing large segments of potentially reusable text - while diverging in content. To support this task, we introduce a Wikipedia-based dataset of analogous documents and investigate the application of weakly supervised methods, including use of a transformer-based mixture of experts, together with reinforcement learning. We report experiments using automated and human evaluation methods and discuss relative merits of these models.
翻訳日:2021-06-15 16:11:23 公開日:2021-06-14
# 不変合理化による有害言語検出におけるバイアス緩和

Mitigating Biases in Toxic Language Detection through Invariant Rationalization ( http://arxiv.org/abs/2106.07240v1 )

ライセンス: Link先を確認
Yung-Sung Chuang, Mingye Gao, Hongyin Luo, James Glass, Hung-yi Lee, Yun-Nung Chen, Shang-Wen Li(参考訳) 有害言語の自動検出は、ソーシャルメディア利用者、特に少数民族を言葉による虐待から守る上で重要な役割を担っている。 しかしながら、性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在している。 バイアスは学習したモデルを不公平にし、人々の限界化をさらに悪化させる。 一般自然言語理解タスクにおける現在のデバイアス手法は,毒性検出器のバイアスを効果的に軽減することができないことを考慮し,合理的生成器と予測器からなるゲーム理論の枠組みであるinvariant rationalization (invrat) を用いて,特定の構文パターン(例えば同一性参照,方言)と毒性ラベルとのスパーラスな相関を除外する。 本手法は,従来のデバイアス法よりも語彙特性および方言特性の偽陽性率が低いことを実証的に示す。

Automatic detection of toxic language plays an essential role in protecting social media users, especially minority groups, from verbal abuse. However, biases toward some attributes, including gender, race, and dialect, exist in most training datasets for toxicity detection. The biases make the learned models unfair and can even exacerbate the marginalization of people. Considering that current debiasing methods for general natural language understanding tasks cannot effectively mitigate the biases in the toxicity detectors, we propose to use invariant rationalization (InvRat), a game-theoretic framework consisting of a rationale generator and a predictor, to rule out the spurious correlation of certain syntactic patterns (e.g., identity mentions, dialect) to toxicity labels. We empirically show that our method yields lower false positive rate in both lexical and dialectal attributes than previous debiasing methods.
翻訳日:2021-06-15 16:11:10 公開日:2021-06-14
# 現代アンモリックコーパス:自動形態素合成タグ付きアンモリックコーパス

Contemporary Amharic Corpus: Automatically Morpho-Syntactically Tagged Amharic Corpus ( http://arxiv.org/abs/2106.07241v1 )

ライセンス: Link先を確認
Andargachew Mekonnen Gezmu, Binyam Ephrem Seyoum, Michael Gasser and Andreas N\"urnberger(参考訳) 我々は,モルフォシンタクティック情報にタグ付けされた現代アンハリックコーパスを導入した。 テキストは、異なるドメインの25,199件の文書から収集され、約2400万語がトークン化されている。 一部はウェブコーパスであるため,スペル誤りの自動修正を行った。 また,既存の形態素解析器である hornmorpho を改良して,自動タグ付けに用いた。

We introduced the contemporary Amharic corpus, which is automatically tagged for morpho-syntactic information. Texts are collected from 25,199 documents from different domains and about 24 million orthographic words are tokenized. Since it is partly a web corpus, we made some automatic spelling error correction. We have also modified the existing morphological analyzer, HornMorpho, to use it for the automatic tagging.
翻訳日:2021-06-15 16:10:53 公開日:2021-06-14
# 行列式ビーム探索

Determinantal Beam Search ( http://arxiv.org/abs/2106.07400v1 )

ライセンス: Link先を確認
Clara Meister, Martina Forster, Ryan Cotterell(参考訳) ビームサーチは、ニューラルシーケンスモデルをデコードするためのゴーツー戦略である。 このアルゴリズムは、対応する集合関数が候補間の相互作用を反映しないにもかかわらず、自然に部分最適化問題と見なすことができる。 経験上、これはしばしば高い重なりを示す集合に繋がる、例えば、文字列は1つの単語だけによって異なるかもしれない。 しかし、複数のソリューションを要求するユースケースでは、多様あるいは代表的なセットが望まれることが多い。 この問題に対処するために,我々は行列式ビーム探索と呼ぶビーム探索の再構成を提案する。 決定的ビーム探索は、本質的にセット内相互作用を符号化する集合上のモデルである決定的ポイントプロセス(DPP)と自然な関係を持つ。 ビームサーチを一連の行列式最大化問題として繰り返すことにより、アルゴリズムを多種多様なサブセット選択プロセスに変換することができる。 ケーススタディでは、文字列サブシーケンスカーネルを使用して、シーケンスモデルから生成されたテキストのn-gramカバレッジを明示的に奨励する。 我々のアルゴリズムは、言語生成の文脈において、他の多様な集合生成戦略と競合する性能を提供し、多様性を最適化するためのより一般的なアプローチを提供する。

Beam search is a go-to strategy for decoding neural sequence models. The algorithm can naturally be viewed as a subset optimization problem, albeit one where the corresponding set function does not reflect interactions between candidates. Empirically, this leads to sets often exhibiting high overlap, e.g., strings may differ by only a single word. Yet in use-cases that call for multiple solutions, a diverse or representative set is often desired. To address this issue, we propose a reformulation of beam search, which we call determinantal beam search. Determinantal beam search has a natural relationship to determinantal point processes (DPPs), models over sets that inherently encode intra-set interactions. By posing iterations in beam search as a series of subdeterminant maximization problems, we can turn the algorithm into a diverse subset selection process. In a case study, we use the string subsequence kernel to explicitly encourage n-gram coverage in text generated from a sequence model. We observe that our algorithm offers competitive performance against other diverse set generation strategies in the context of language generation, while providing a more general approach to optimizing for diversity.
翻訳日:2021-06-15 16:10:46 公開日:2021-06-14
# 意味サブスペースを用いたソーシャルメディアにおける嫌悪とヘイトスピーチのモデル化

Modeling Profanity and Hate Speech in Social Media with Semantic Subspaces ( http://arxiv.org/abs/2106.07505v1 )

ライセンス: Link先を確認
Vanessa Hahn, Dana Ruiter, Thomas Kleinbauer, Dietrich Klakow(参考訳) 特に英語以外の言語では、タスクの主観的な性質と既存のコーパスの注釈の互換性が原因で、憎しみの言葉や誇張検出はデータ疎結合に悩まされる。 本研究では,単語と文の表現における代名詞部分空間を同定し,その一般化能力について,ゼロショット設定で検討する。 これはモノリンガル語(ドイツ語)と、近縁語(英語)、遠縁語(フランス語)、非関連語(アラビア語)のタスクと交互に行われる。 類似のタスクと遠方のタスクの両方、および全ての言語において、サブスペースベースの表現はゼロショット設定の標準bert表現よりも効果的に転送され、テストされた全ての単言語およびクロスリンガルシナリオのベースラインよりもf1 +10.9とf1 +42.9が改善された。

Hate speech and profanity detection suffer from data sparsity, especially for languages other than English, due to the subjective nature of the tasks and the resulting annotation incompatibility of existing corpora. In this study, we identify profane subspaces in word and sentence representations and explore their generalization capability on a variety of similar and distant target tasks in a zero-shot setting. This is done monolingually (German) and cross-lingually to closely-related (English), distantly-related (French) and non-related (Arabic) tasks. We observe that, on both similar and distant target tasks and across all languages, the subspace-based representations transfer more effectively than standard BERT representations in the zero-shot setting, with improvements between F1 +10.9 and F1 +42.9 over the baselines across all tested monolingual and cross-lingual scenarios.
翻訳日:2021-06-15 16:10:28 公開日:2021-06-14
# コントラストコンテキストマッチングによるバイオメディカルエンティティリンク

Biomedical Entity Linking via Contrastive Context Matching ( http://arxiv.org/abs/2106.07583v1 )

ライセンス: Link先を確認
Shogo Ujiie, Hayate Iso, Eiji Aramaki(参考訳) バイオコムは,小型辞書と生の生の生物医学記事という2つの資源のみを用いた,生物医学的エンティティリンクのための対比学習フレームワークである。 具体的には、辞書マッチングによって生のPubMed記事からトレーニングインスタンスを構築し、コンテクスト対応エンティティリンクモデルとコントラスト学習のトレーニングに使用する。 最寄りのサーチにより,生物医学の正規化を推論時に予測する。 その結果、BioCoMは、特に低リソース環境において、エンティティのコンテキストを効果的に利用することにより、最先端モデルを大幅に上回ることがわかった。

We introduce BioCoM, a contrastive learning framework for biomedical entity linking that uses only two resources: a small-sized dictionary and a large number of raw biomedical articles. Specifically, we build the training instances from raw PubMed articles by dictionary matching and use them to train a context-aware entity linking model with contrastive learning. We predict the normalized biomedical entity at inference time through a nearest-neighbor search. Results found that BioCoM substantially outperforms state-of-the-art models, especially in low-resource settings, by effectively using the context of the entities.
翻訳日:2021-06-15 16:10:10 公開日:2021-06-14
# モーフィズムに基づく変形可能なバックボーンアーキテクチャを用いた微分可能なニューラルアーキテクチャ探索

Differentiable Neural Architecture Search with Morphism-based Transformable Backbone Architectures ( http://arxiv.org/abs/2106.07211v1 )

ライセンス: Link先を確認
Renlong Jie and Junbin Gao(参考訳) 本研究の目的は,アーキテクチャ検索プロセスをワンショットやオンライントレーニングに適応させることである。 既存のニューラルネットワーク探索研究から拡張され、トレーニングプロセス中に固定されるのではなく、バックボーンアーキテクチャを変換可能にしました。 既知のように、微分可能なニューラルネットワーク検索(darts)は事前定義されたオーバーパラメータのバックボーンアーキテクチャを必要とするが、サイズは手動で決定する必要がある。 また、DARTSのバックボーンでは、2つの元素のアダマール生成物は導入されず、LSTM細胞とGRU細胞の両方に存在する。 本研究では,ネットワーク・アモルファスに基づく微分可能なニューラルネットワーク探索のための成長メカニズムを提案する。 細胞構造を小さなサイズから大きなサイズまで、ワンショットトレーニングで成長させることができる。 成長およびオリジナルプルーニングプロセスの統合には2つのモードが適用できる。 また,最近提案されている再帰ニューラルネットワークのための2入力バックボーンアーキテクチャを実装した。 最初の実験結果から,多変量時系列予測や言語モデリングなどの学習タスクにおいて,LSTMを含む他のベースラインアーキテクチャと比較して,我々のアプローチと2入力バックボーン構造は極めて効果的であることが示唆された。 一方、動的ネットワーク変換は、微分可能なアーキテクチャ探索の効率を改善する上で有望であることがわかった。

This study aims at making the architecture search process more adaptive for one-shot or online training. It is extended from the existing study on differentiable neural architecture search, and we made the backbone architecture transformable rather than fixed during the training process. As is known, differentiable neural architecture search (DARTS) requires a pre-defined over-parameterized backbone architecture, while its size is to be determined manually. Also, in DARTS backbone, Hadamard product of two elements is not introduced, which exists in both LSTM and GRU cells for recurrent nets. This study introduces a growing mechanism for differentiable neural architecture search based on network morphism. It enables growing of the cell structures from small size towards large size ones with one-shot training. Two modes can be applied in integrating the growing and original pruning process. We also implement a recently proposed two-input backbone architecture for recurrent neural networks. Initial experimental results indicate that our approach and the two-input backbone structure can be quite effective compared with other baseline architectures including LSTM, in a variety of learning tasks including multi-variate time series forecasting and language modeling. On the other hand, we find that dynamic network transformation is promising in improving the efficiency of differentiable architecture search.
翻訳日:2021-06-15 16:08:28 公開日:2021-06-14
# 記憶システムの学習支援ヒューリスティックス設計

Learning-Aided Heuristics Design for Storage System ( http://arxiv.org/abs/2106.07288v1 )

ライセンス: Link先を確認
Yingtian Tang, Han Lu, Xijun Li, Lei Chen, Mingxuan Yuan and Jia Zeng(参考訳) ストレージシステムのようなコンピュータシステムは通常、人間の専門家が解釈可能な透明なホワイトボックスアルゴリズムを必要とする。 本研究では,深層強化学習 (drl) エージェントから人間が読める戦略を自動的に生成する学習支援ヒューリスティック設計手法を提案する。 この方法は深層学習の力の恩恵を受けるが、ブラックボックス特性の欠点を避ける。 ホワイトボックスのアドバンテージに加えて、storage productionsのリソース割り当てシナリオの実験では、このソリューションがシステムのデフォルト設定や、人間の専門家による精巧な手作り戦略よりも優れています。

Computer systems such as storage systems normally require transparent white-box algorithms that are interpretable for human experts. In this work, we propose a learning-aided heuristic design method, which automatically generates human-readable strategies from Deep Reinforcement Learning (DRL) agents. This method benefits from the power of deep learning but avoids the shortcoming of its black-box property. Besides the white-box advantage, experiments in our storage productions resource allocation scenario also show that this solution outperforms the systems default settings and the elaborately handcrafted strategy by human experts.
翻訳日:2021-06-15 16:08:07 公開日:2021-06-14
# 2次最適化による3次元rna折り畳みパターンの予測

Predicting 3D RNA Folding Patterns via Quadratic Binary Optimization ( http://arxiv.org/abs/2106.07527v1 )

ライセンス: Link先を確認
Mark W. Lewis, Amit Verma, Rick Hennig(参考訳) RNA分子の構造は、その生物学的機能に重要な役割を果たす。 RNAヌクレオチド塩基の1次元配列が与えられた予測構造は、困難かつ重要な問題である。 シリコ(英語版)として知られる多くのコンピュータプログラムは2次元(二次)構造を予測することができるが、3次元(二次)構造の予測は、主に3次元構造の熱力学的エネルギーに関する実験データが少ないため、はるかに困難である。 また、高度なX線結晶学と核磁気共鳴イメージング技術が利用可能であっても、最も可能性の高い3次元構造を検証することも困難である。 本稿では,擬似非拘束バイナリ最適化(QUBO)モデルに基づく従来の2次元アプローチにペナルティと報酬パラメータを加えることで,3次元RNAの折り畳み予測を開発する。 これらのパラメータは、3次元の折りたたみを許容する量の柔軟性を提供する。 本研究では,新しい重み付き相似構造測度による複数の近接最適構造の問題に対処し,局所最適解を漸進的に改善することで折りたたみ経路を説明する。 これらの問題は、何十万ものバイナリ変数を持つ問題を解く新しい商用QUBOソルバAlphaQUBO(Meta-Analy tics, 2020)によって解決される。

The structure of an RNA molecule plays a significant role in its biological function. Predicting structure given a one dimensional sequence of RNA nucleotide bases is a difficult and important problem. Many computer programs (known as in silico) are available for predicting 2-dimensional (secondary) structures however 3-dimensional (tertiary) structure prediction is much more difficult mainly due to the far greater number of feasible solutions and fewer experimental data on the thermodynamic energies of 3D structures. It is also challenging to verify the most likely three dimensional structure even with the availability of sophisticated x-ray crystallography and nuclear magnetic resonance imaging technologies. In this paper we develop three dimensional RNA folding predictions by adding penalty and reward parameters to a previous two dimensional approach based on Quadratic Unconstrained Binary Optimization (QUBO) models. These parameters provide flexibility in the amount of three dimensional folding allowed. We address the problem of multiple near-optimal structures via a new weighted similarity structure measure and illustrate folding pathways via progressively improving local optimal solutions. The problems are solved via a new commercial QUBO solver AlphaQUBO (Meta-Analytics, 2020) that solves problems having hundreds of thousands of binary variables.
翻訳日:2021-06-15 16:07:57 公開日:2021-06-14
# 探索的学習環境における準最適ユーザ行動に対抗する枠組み:MOOCへの適用

A Framework to Counteract Suboptimal User-Behaviors in Exploratory Learning Environments: an Application to MOOCs ( http://arxiv.org/abs/2106.07555v1 )

ライセンス: Link先を確認
S\'ebastien Lall\'e and Cristina Conati(参考訳) ユーザ適応型サポートが教育システムの有効性を大幅に向上できるという証拠はあるが、そのような探索的学習環境(シミュレーションなど)へのサポートの設計は、インタラクションの開放的な性質から依然として困難である。 特に,このような環境下での学習には,学生の行動が有害な先入観がほとんどない。 この問題に対処するために、ログ化されたインタラクションデータを使用して、特定の学習環境とのインタラクション中にどの行動パターンやアクティビティパターンをトリガーすべきかを学習するデータ駆動型ユーザモデリングフレームワークに焦点を当てる。 このフレームワークはインタラクティブな学習シミュレーションにおいて適応的なサポートを提供するのに成功している。 本稿では,このフレームワークの新たな応用について紹介する。例えばmoocs(massive open online courses)とは,利用者の多様性が大きいが,その適応性に乏しい,適応型サポートのメリットを享受できる探索型環境の形式である。 本研究は,適応を正当化し,予備的な結果を報告できる学生の行動を特定するための枠組みの価値調査を目的とした実験である。

While there is evidence that user-adaptive support can greatly enhance the effectiveness of educational systems, designing such support for exploratory learning environments (e.g., simulations) is still challenging due to the open-ended nature of their interaction. In particular, there is little a priori knowledge of which student's behaviors can be detrimental to learning in such environments. To address this problem, we focus on a data-driven user-modeling framework that uses logged interaction data to learn which behavioral or activity patterns should trigger help during interaction with a specific learning environment. This framework has been successfully used to provide adaptive support in interactive learning simulations. Here we present a novel application of this framework we are working on, namely to Massive Open Online Courses (MOOCs), a form of exploratory environment that could greatly benefit from adaptive support due to the large diversity of their users, but typically lack of such adaptation. We describe an experiment aimed at investigating the value of our framework to identify student's behaviors that can justify adapting to, and report some preliminary results.
翻訳日:2021-06-15 16:07:38 公開日:2021-06-14
# SinIR: 単一画像再構成による画像操作の効率化

SinIR: Efficient General Image Manipulation with Single Image Reconstruction ( http://arxiv.org/abs/2106.07140v1 )

ライセンス: Link先を確認
Jihyeong Yoo and Qifeng Chen(参考訳) 超解像,編集,調和,ペイント・ツー・イメージ,フォトリアリスティック・スタイル・トランスファー,芸術的スタイル・トランスファーなどを含む,単一の自然なイメージをトレーニングした,効率的な再構成ベースのフレームワークであるSinIRを提案する。 各スケールのネットワークが画像再構成の責任を負うような,カスケードされたマルチスケール学習によって,単一のイメージ上でモデルをトレーニングする。 この再構成目的は、GAN目標と比較して、トレーニングの複雑さと実行時間を大幅に削減する。 しかし、復元目標もまた出力品質を悪化させる。 そこで,この問題を解決するために,デノージングオートエンコーダにインスパイアされた操作を制御できる単純なランダム画素シャッフルを用いる。 定量的評価により、SinIRは様々な画像操作タスクにおいて競合性能を有することを示す。 さらに、より単純な訓練目標(すなわち再構成)により、SinIRは同様の課題を解決するSinGAN(500 X 500画像)よりも33.5倍速く訓練される。 私たちのコードはgithub.com/YooJiHyeo ng/SinIRで公開されています。

We propose SinIR, an efficient reconstruction-based framework trained on a single natural image for general image manipulation, including super-resolution, editing, harmonization, paint-to-image, photo-realistic style transfer, and artistic style transfer. We train our model on a single image with cascaded multi-scale learning, where each network at each scale is responsible for image reconstruction. This reconstruction objective greatly reduces the complexity and running time of training, compared to the GAN objective. However, the reconstruction objective also exacerbates the output quality. Therefore, to solve this problem, we further utilize simple random pixel shuffling, which also gives control over manipulation, inspired by the Denoising Autoencoder. With quantitative evaluation, we show that SinIR has competitive performance on various image manipulation tasks. Moreover, with a much simpler training objective (i.e., reconstruction), SinIR is trained 33.5 times faster than SinGAN (for 500 X 500 images) that solves similar tasks. Our code is publicly available at github.com/YooJiHyeo ng/SinIR.
翻訳日:2021-06-15 15:59:02 公開日:2021-06-14
# 生体画像のための補助的特徴分割を用いたオブジェクト誘導インスタンスセグメンテーション

Object-Guided Instance Segmentation With Auxiliary Feature Refinement for Biological Images ( http://arxiv.org/abs/2106.07159v1 )

ライセンス: Link先を確認
Jingru Yi, Pengxiang Wu, Hui Tang, Bo Liu, Qiaoying Huang, Hui Qu, Lianyi Han, Wei Fan, Daniel J. Hoeppner, Dimitris N. Metaxas(参考訳) サンプルセグメンテーションは、神経細胞相互作用の研究、植物の表現型化、細胞が薬物治療にどう反応するかを定量的に測定するなど、多くの生物学的応用において非常に重要である。 本稿では,新しいボックスベースのインスタンスセグメンテーション手法を提案する。 Boxベースのインスタンスセグメンテーションメソッドは、バウンディングボックスを介してオブジェクトをキャプチャし、各バウンディングボックス領域内で個々のセグメンテーションを実行する。 しかし,既存の手法では,類似したテクスチャと低コントラスト境界のため,同一境界域内の隣接物体との区別が困難である。 本稿では,この問題に対処するため,オブジェクト誘導型インスタンスセグメンテーション手法を提案する。 提案手法は,まずオブジェクトの中心点を検出し,そこから境界ボックスパラメータが予測される。 セグメンテーションを行うには、検出ブランチとともにオブジェクト誘導粗分別分岐を構築する。 セグメンテーションブランチは、同じバウンディングボックス領域内の隣接するオブジェクトからターゲットオブジェクトを分離するためのガイダンスとしてオブジェクト機能を再利用する。 セグメンテーションの品質をさらに向上するため,我々は境界領域の点的特徴を高密度にサンプリングし,精錬する補助機能改善モジュールを設計した。 3つの生物学的画像データセットに関する実験結果は,本手法の利点を示している。 コードはhttps://github.com/y ijingru/ObjGuided-In stance-Segmentationで入手できる。

Instance segmentation is of great importance for many biological applications, such as study of neural cell interactions, plant phenotyping, and quantitatively measuring how cells react to drug treatment. In this paper, we propose a novel box-based instance segmentation method. Box-based instance segmentation methods capture objects via bounding boxes and then perform individual segmentation within each bounding box region. However, existing methods can hardly differentiate the target from its neighboring objects within the same bounding box region due to their similar textures and low-contrast boundaries. To deal with this problem, in this paper, we propose an object-guided instance segmentation method. Our method first detects the center points of the objects, from which the bounding box parameters are then predicted. To perform segmentation, an object-guided coarse-to-fine segmentation branch is built along with the detection branch. The segmentation branch reuses the object features as guidance to separate target object from the neighboring ones within the same bounding box region. To further improve the segmentation quality, we design an auxiliary feature refinement module that densely samples and refines point-wise features in the boundary regions. Experimental results on three biological image datasets demonstrate the advantages of our method. The code will be available at https://github.com/y ijingru/ObjGuided-In stance-Segmentation.
翻訳日:2021-06-15 15:58:42 公開日:2021-06-14
# 第2位 hc-stvg track of person in context challenge 2021

2rd Place Solutions in the HC-STVG track of Person in Context Challenge 2021 ( http://arxiv.org/abs/2106.07166v1 )

ライセンス: Link先を確認
YiYu and XinyingWang and WeiHu and XunLuo and ChengLi(参考訳) 本技術報告では,文章に基づくビデオ中の時空間人物をローカライズする手法を提案する。 HC-STVGの3rd Person in Context(PIC) Challengeにおける第2のvIOU(0.30025)を達成した。 1) 人間の属性情報は文から抽出され, 試験段階の管の提案をフィルタリングし, 分類器を監督し, 訓練段階の外観情報を学習することが有用である。 2) We detect human with YoloV5 and track human based on the DeepSort framework but then the original ReID network with FastReID。 3) 対象者の時空間的チューブを局在化するためのクロスモーダル表現を抽出するのに視覚トランスフォーマーを用いる。

In this technical report, we present our solution to localize a spatio-temporal person in an untrimmed video based on a sentence. We achieve the second vIOU(0.30025) in the HC-STVG track of the 3rd Person in Context(PIC) Challenge. Our solution contains three parts: 1) human attributes information is extracted from the sentence, it is helpful to filter out tube proposals in the testing phase and supervise our classifier to learn appearance information in the training phase. 2) we detect humans with YoloV5 and track humans based on the DeepSort framework but replace the original ReID network with FastReID. 3) a visual transformer is used to extract cross-modal representations for localizing a spatio-temporal tube of the target person.
翻訳日:2021-06-15 15:58:21 公開日:2021-06-14
# 教師なしクロスドメイン人物再同定のためのハードサンプル整定法

Hard Samples Rectification for Unsupervised Cross-domain Person Re-identification ( http://arxiv.org/abs/2106.07204v1 )

ライセンス: Link先を確認
Chih-Ting Liu, Man-Yu Lee, Tsai-Shien Chen, Shao-Yi Chien(参考訳) 人物再識別(re-ID)は教師付き学習法で大きな成功を収めている。 しかし、教師なしのクロスドメイン・リIDの課題はまだ難しい。 本稿では,対象データセットの強正および負のサンプルに対して,元のクラスタリング手法の弱点を解消するHSR学習手法を提案する。 当社のhsrには,異なる視点の人物を認識するためのカメラ間マイニング手法(ハード・ポジティブ)と,モデルが異なる人物を識別するが類似した外観(ハード・ネガティブ)を持つ部分的均質性(part-based homogeneity)技術という2つの部分が含まれている。 これら2つのハードケースを修正することで、re-IDモデルは効果的に学習し、2つの大規模ベンチマークで有望な結果が得られる。

Person re-identification (re-ID) has received great success with the supervised learning methods. However, the task of unsupervised cross-domain re-ID is still challenging. In this paper, we propose a Hard Samples Rectification (HSR) learning scheme which resolves the weakness of original clustering-based methods being vulnerable to the hard positive and negative samples in the target unlabelled dataset. Our HSR contains two parts, an inter-camera mining method that helps recognize a person under different views (hard positive) and a part-based homogeneity technique that makes the model discriminate different persons but with similar appearance (hard negative). By rectifying those two hard cases, the re-ID model can learn effectively and achieve promising results on two large-scale benchmarks.
翻訳日:2021-06-15 15:58:07 公開日:2021-06-14
# セマンティック事前学習による文脈認識画像の表現

Context-Aware Image Inpainting with Learned Semantic Priors ( http://arxiv.org/abs/2106.07220v1 )

ライセンス: Link先を確認
Wendong Zhang, Junwei Zhu, Ying Tai, Yunbo Wang, Wenqing Chu, Bingbing Ni, Chengjie Wang and Xiaokang Yang(参考訳) 画像インペインティングの最近の進歩は、かなり単純な背景に分かりやすい視覚詳細を生成する素晴らしい結果を示している。 しかし,複雑な場面では,不足領域内の文脈情報が曖昧になりがちであるため,合理的な内容の復元は依然として困難である。 この問題に対処するために,不足しているコンテンツの推定に意味的に意味のあるプリテキストタスクを導入する。 特に,プレテキストモデルによる知識蒸留を行い,画像のインペイントに適応する。 学習されたセマンティック先行は、高レベルのプリテキストタスクと低レベルのイメージインペイントの間に部分的に不変であるべきであり、これはグローバルな文脈を理解するのに役立つだけでなく、局所的なテクスチャの復元のための構造的ガイダンスを提供する。 さらに,このセマンティクスの優先順位に基づいて,グローバルセマンティクスと局所的な特徴を統一画像生成器に適応的に統合する,コンテキスト認識型イメージインパインティングモデルを提案する。 意味学習者と画像生成者は、エンドツーエンドで訓練される。 セマンティックプリエントを学習し活用する能力を強調するために、モデルSPLを命名する。 Places2、CelebA、Paris StreetViewデータセット上のアートの状態を達成している。

Recent advances in image inpainting have shown impressive results for generating plausible visual details on rather simple backgrounds. However, for complex scenes, it is still challenging to restore reasonable contents as the contextual information within the missing regions tends to be ambiguous. To tackle this problem, we introduce pretext tasks that are semantically meaningful to estimating the missing contents. In particular, we perform knowledge distillation on pretext models and adapt the features to image inpainting. The learned semantic priors ought to be partially invariant between the high-level pretext task and low-level image inpainting, which not only help to understand the global context but also provide structural guidance for the restoration of local textures. Based on the semantic priors, we further propose a context-aware image inpainting model, which adaptively integrates global semantics and local features in a unified image generator. The semantic learner and the image generator are trained in an end-to-end manner. We name the model SPL to highlight its ability to learn and leverage semantic priors. It achieves the state of the art on Places2, CelebA, and Paris StreetView datasets.
翻訳日:2021-06-15 15:57:54 公開日:2021-06-14
# SGEnet:圧縮GRUと情報エントロピーマップを用いたビデオオブジェクト検出

SGE net: Video object detection with squeezed GRU and information entropy map ( http://arxiv.org/abs/2106.07224v1 )

ライセンス: Link先を確認
Rui Su, Wenjing Huang, Haoyu Ma, Xiaowei Song, Jinglu Hu(参考訳) 近年,深層学習に基づくビデオ物体検出が注目されている。 静止画像の物体検出と比較すると,映像物体検出は物体の動きにより困難であり,時間的情報も豊富である。 RNNに基づくアルゴリズムは、時間情報付きビデオにおける検出性能を高める効果的な方法である。 しかし、この分野のほとんどの研究は計算コストとパラメータの数を無視しながら精度にのみ焦点をあてている。 本稿では,チャネル再生畳み込みGRU(Squeezed GRU)と映像オブジェクト検出のための情報エントロピーマップ(SGE-Net)を組み合わせた効率的な手法を提案する。 実験の結果, 情報エントロピー注意機構の精度向上, 圧縮された gru の計算節約, および識別性能の優越性が検証された。 mAPはベースラインと対照的に3.7増加し、パラメータの数は標準のGRUに比べて6.33万から0.67万に減少した。

Recently, deep learning based video object detection has attracted more and more attention. Compared with object detection of static images, video object detection is more challenging due to the motion of objects, while providing rich temporal information. The RNN-based algorithm is an effective way to enhance detection performance in videos with temporal information. However, most studies in this area only focus on accuracy while ignoring the calculation cost and the number of parameters. In this paper, we propose an efficient method that combines channel-reduced convolutional GRU (Squeezed GRU), and Information Entropy map for video object detection (SGE-Net). The experimental results validate the accuracy improvement, computational savings of the Squeezed GRU, and superiority of the information entropy attention mechanism on the classification performance. The mAP has increased by 3.7 contrasted with the baseline, and the number of parameters has decreased from 6.33 million to 0.67 million compared with the standard GRU.
翻訳日:2021-06-15 15:57:36 公開日:2021-06-14
# 畳み込みニューラルネットワークを用いた駐車空間の自動検出

Automated Parking Space Detection Using Convolutional Neural Networks ( http://arxiv.org/abs/2106.07228v1 )

ライセンス: Link先を確認
Julien Nyambal, Richard Klein(参考訳) 今日駐車スペースを見つけることは、無視すべきではなく、時間とエネルギーを消費する問題になっている。 We have used computer vision technique to infer the state of the parking lot because the data collected from the University of The Witwatersrand。 本稿では,CaffeとNvidia DiGITSフレームワークを用いた畳み込みニューラルネットワーク(CNN)に基づくリアルタイム駐車空間分類手法を提案する。 トレーニングプロセスはDigiTSを使用して行われており、出力は空き地や占有する駐車場を検出するための予測に使用されるカフェモデルである。 システムは、駐車場(システムの初期化時に定義された境界ボックス)が車(占有または空き地)を含むか否かを所定領域をチェックする。 それらのバウンディングボックス座標は、駐車場のビデオのフレームからJSON形式で保存され、その後、システムによって各駐車場のシーケンシャルな予測に使用される。 このシステムは、Nesterov Accelerated GradientをソルバとしてLeNetネットワーク、Stochastic Gradient DescentをソルバとしてAlexNetネットワークを使用してトレーニングされている。 両方のネットワークで99\%の検証セットの精度を得ることができたのです。 外部データセット(pklot)の精度も99\%で返された。 これらは、トレーニングセットに基づく実験結果であり、異なる駐車スペースで予測を行う必要がある場合、システムの堅牢性を示す。

Finding a parking space nowadays becomes an issue that is not to be neglected, it consumes time and energy. We have used computer vision techniques to infer the state of the parking lot given the data collected from the University of The Witwatersrand. This paper presents an approach for a real-time parking space classification based on Convolutional Neural Networks (CNN) using Caffe and Nvidia DiGITS framework. The training process has been done using DiGITS and the output is a caffemodel used for predictions to detect vacant and occupied parking spots. The system checks a defined area whether a parking spot (bounding boxes defined at initialization of the system) is containing a car or not (occupied or vacant). Those bounding box coordinates are saved from a frame of the video of the parking lot in a JSON format, to be later used by the system for sequential prediction on each parking spot. The system has been trained using the LeNet network with the Nesterov Accelerated Gradient as solver and the AlexNet network with the Stochastic Gradient Descent as solver. We were able to get an accuracy on the validation set of 99\% for both networks. The accuracy on a foreign dataset(PKLot) returned as well 99\%. Those are experimental results based on the training set shows how robust the system can be when the prediction has to take place in a different parking space.
翻訳日:2021-06-15 15:57:19 公開日:2021-06-14
# 決定論的lidar深度マップの完成

Deterministic Guided LiDAR Depth Map Completion ( http://arxiv.org/abs/2106.07256v1 )

ライセンス: Link先を確認
Bryan Krauss, Gregory Schroeder, Marko Gustke, Ahmed Hussein(参考訳) 自動運転車の環境分析には正確な深度推定が不可欠である。 本稿では,誘導型rgb画像を用いた疎lidarに基づく奥行きマップの非深層学習に基づく解法を提案する。 この目標を達成するために、RGB画像は最初、カメラとLiDARのミスアライメントアーティファクトの大部分からクリアされる。 その後、オーバーセグメンテーションされ、各スーパーピクセルの平面が近似される。 スーパーピクセルが平面でうまく表現されていない場合、平面は最も入射率の高い凸殻に対して近似される。 最後に、ピンホールカメラモデルを用いて補間処理を行い、残りの領域を補間する。 本研究の評価は,KITTI深度補完ベンチマークを用いて行われ,提案手法の有効性を検証し,最先端の非深度学習法や深度学習法よりも優れていることを示す。

Accurate dense depth estimation is crucial for autonomous vehicles to analyze their environment. This paper presents a non-deep learning-based approach to densify a sparse LiDAR-based depth map using a guidance RGB image. To achieve this goal the RGB image is at first cleared from most of the camera-LiDAR misalignment artifacts. Afterward, it is over segmented and a plane for each superpixel is approximated. In the case a superpixel is not well represented by a plane, a plane is approximated for a convex hull of the most inlier. Finally, the pinhole camera model is used for the interpolation process and the remaining areas are interpolated. The evaluation of this work is executed using the KITTI depth completion benchmark, which validates the proposed work and shows that it outperforms the state-of-the-art non-deep learning-based methods, in addition to several deep learning-based methods.
翻訳日:2021-06-15 15:56:58 公開日:2021-06-14
# TimeLens:イベントベースのビデオフレーム補間

TimeLens: Event-based Video Frame Interpolation ( http://arxiv.org/abs/2106.07286v1 )

ライセンス: Link先を確認
Stepan Tulyakov, Daniel Gehrig, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza(参考訳) State-of-the-art frame interpolation Methods generated intermediate frames by Infering object motions in the image from continuous key-frames。 追加情報がない場合は、一階近似、すなわち、 光の流れを使う必要があるが、この選択はモデル化可能な動きの種類を制限するため、非常にダイナミックなシナリオにおけるエラーにつながる。 イベントカメラは、フレーム間のブラインドタイムに補助的な視覚情報を提供することで、この制限に対処する新しいセンサーである。 ピクセル毎の輝度変化を非同期に測定し、高い時間分解能と低レイテンシでこれを行う。 イベントベースのフレーム補間法は通常、予測されたフレーム残差がキーフレームに直接適用される合成ベースのアプローチを採用する。 しかし、これらのアプローチは非線形な動きを捉えることができるが、ゴーストに苦しめられ、少ない事象で低テクスチュア領域で性能が低下する。 したがって、合成ベースおよびフローベースアプローチは相補的である。 本稿では,両者の長所を生かした均等な寄与法を示すtime lensを紹介する。 提案手法は,最新のフレームベースおよびイベントベース手法に比べて,PSNRにおいて最大5.21dBの改善を示す3つの実ベンチマークと2つの実ベンチマークで広く評価されている。 最後に、既存のメソッドの限界を押し上げることを目的とした、非常にダイナミックなシナリオで新しい大規模データセットをリリースします。

State-of-the-art frame interpolation methods generate intermediate frames by inferring object motions in the image from consecutive key-frames. In the absence of additional information, first-order approximations, i.e. optical flow, must be used, but this choice restricts the types of motions that can be modeled, leading to errors in highly dynamic scenarios. Event cameras are novel sensors that address this limitation by providing auxiliary visual information in the blind-time between frames. They asynchronously measure per-pixel brightness changes and do this with high temporal resolution and low latency. Event-based frame interpolation methods typically adopt a synthesis-based approach, where predicted frame residuals are directly applied to the key-frames. However, while these approaches can capture non-linear motions they suffer from ghosting and perform poorly in low-texture regions with few events. Thus, synthesis-based and flow-based approaches are complementary. In this work, we introduce Time Lens, a novel indicates equal contribution method that leverages the advantages of both. We extensively evaluate our method on three synthetic and two real benchmarks where we show an up to 5.21 dB improvement in terms of PSNR over state-of-the-art frame-based and event-based methods. Finally, we release a new large-scale dataset in highly dynamic scenarios, aimed at pushing the limits of existing methods.
翻訳日:2021-06-15 15:56:44 公開日:2021-06-14
# 顔ポーズ編集のスタイル保存のための画素サンプリング

Pixel Sampling for Style Preserving Face Pose Editing ( http://arxiv.org/abs/2106.07310v1 )

ライセンス: Link先を確認
Xiangnan Yin, Di Huang, Hongyu Yang, Zehua Fu, Yunhong Wang, Liming Chen(参考訳) 既存の自動エンコーダベースの顔ポーズ編集法は、主にポーズ合成時のアイデンティティ保存能力のモデル化に重点を置いているが、色、明るさ、彩度などのイメージスタイルを適切に保存できない。 本稿では、よく知られた前頭/目立たしい錯視を利用して、上記のジレンマを解決するための新しい2段階のアプローチを提案する。 入力面から画素を選択的にサンプリングし、提案した ``Pixel Attention Sampling" モジュールで相対位置をわずかに調整することにより、顔編集結果が画像スタイルとともにアイデンティティ情報を忠実に保持する。 塗装段階での高次元埋め込みを利用して、より微細な細部を生成する。 さらに、3D顔のランドマークをガイダンスとして、3自由度(ヨー、ピッチ、ロール)で顔のポーズを操作でき、現在の最先端技術で達成されるようなヨーの角度を単に制御するよりも、より柔軟な顔のポーズを編集できる。 定性評価と定量的評価の両方が提案手法の優位性を検証する。

The existing auto-encoder based face pose editing methods primarily focus on modeling the identity preserving ability during pose synthesis, but are less able to preserve the image style properly, which refers to the color, brightness, saturation, etc. In this paper, we take advantage of the well-known frontal/profile optical illusion and present a novel two-stage approach to solve the aforementioned dilemma, where the task of face pose manipulation is cast into face inpainting. By selectively sampling pixels from the input face and slightly adjust their relative locations with the proposed ``Pixel Attention Sampling" module, the face editing result faithfully keeps the identity information as well as the image style unchanged. By leveraging high-dimensional embedding at the inpainting stage, finer details are generated. Further, with the 3D facial landmarks as guidance, our method is able to manipulate face pose in three degrees of freedom, i.e., yaw, pitch, and roll, resulting in more flexible face pose editing than merely controlling the yaw angle as usually achieved by the current state-of-the-art. Both the qualitative and quantitative evaluations validate the superiority of the proposed approach.
翻訳日:2021-06-15 15:56:22 公開日:2021-06-14
# ショートビデオ顔解析チャレンジのための3位解法

3rd Place Solution for Short-video Face Parsing Challenge ( http://arxiv.org/abs/2106.07409v1 )

ライセンス: Link先を確認
Xiao Liu, XiaoFei Si, JiangTao Xie(参考訳) ショートビデオにはファッショントレンド、ホットスポット、ストリートインタビュー、公共教育、クリエイティブ広告など多くの応用がある。 本稿では,エッジ情報を用いてセグメント化エッジを洗練するエッジアウェアネットワーク(eanet)を提案する。 そして,提案したEANetが顔解析結果を起動することを示す実験を行った。 また、グリップカットのようなポストプロセスを使って解析結果を洗練し、マージします。

Short videos have many applications on fashion trends, hot spots, street interviews, public education, and creative advertising. We propose an Edge-Aware Network(EANet) that uses edge information to refine the segmentation edge. And experiments show our proposed EANet boots up the facial parsing results. We also use post-process like grab cut to refine and merge the parsing results.
翻訳日:2021-06-15 15:56:02 公開日:2021-06-14
# 分布シフト下における視覚トランスフォーマの一般化

Delving Deep into the Generalization of Vision Transformers under Distribution Shifts ( http://arxiv.org/abs/2106.07617v1 )

ライセンス: Link先を確認
Chongzhi Zhang, Mingyuan Zhang, Shanghang Zhang, Daisheng Jin, Qiang Zhou, Zhongang Cai, Haiyu Zhao, Shuai Yi, Xianglong Liu, Ziwei Liu(参考訳) 近年、視覚変換器(ViT)は様々な視覚タスクにおいて印象的な成果を上げている。 しかし,分布シフトの違いによる一般化能力の理解は稀である。 本研究では,ViTの分布外一般化に関する総合的研究を行う。 組織的な調査を支援するために,まず,これらを5つの概念群(汚職シフト,背景シフト,テクスチャシフト,破壊シフト,スタイルシフト)に分類し,分布シフトの分類を提示する。 次に,分布シフトの異なる群におけるvit変異の広範な評価を行い,その一般化能力とcnnとの比較を行った。 1) ViTsは複数の分布シフトの下でCNNsよりも一般化される。 同じまたは少ないパラメータで、ViTは、ほとんどの分散シフトの下で、トップ1の精度で、対応するCNNよりも5%以上進んでいる。 2) より大きなvitは, 徐々に分布内および分布外性能ギャップを狭くする。 さらに,vitsの一般化をさらに高めるために,敵対的学習,情報理論,自己教師付き学習を統合した一般化型vitの設計を行う。 3種類の一般化型vitを探索することにより,その勾配感受性を観察し,安定したトレーニングプロセスを実現するためのスムースな学習戦略を設計する。 トレーニングスキームの修正により,バニラVTからディストリビューションデータへの性能改善を4%向上する。 我々は3つの一般化されたViTと対応するCNNを包括的に比較し、次のことを観察する。 2) 一般化増強型VTは, 対応するCNNよりも過度パラメータに敏感である。 総合的な研究が,より一般化可能な学習アーキテクチャの設計に光を当ててくれることを願っています。

Recently, Vision Transformers (ViTs) have achieved impressive results on various vision tasks. Yet, their generalization ability under different distribution shifts is rarely understood. In this work, we provide a comprehensive study on the out-of-distribution generalization of ViTs. To support a systematic investigation, we first present a taxonomy of distribution shifts by categorizing them into five conceptual groups: corruption shift, background shift, texture shift, destruction shift, and style shift. Then we perform extensive evaluations of ViT variants under different groups of distribution shifts and compare their generalization ability with CNNs. Several important observations are obtained: 1) ViTs generalize better than CNNs under multiple distribution shifts. With the same or fewer parameters, ViTs are ahead of corresponding CNNs by more than 5% in top-1 accuracy under most distribution shifts. 2) Larger ViTs gradually narrow the in-distribution and out-of-distribution performance gap. To further improve the generalization of ViTs, we design the Generalization-Enhan ced ViTs by integrating adversarial learning, information theory, and self-supervised learning. By investigating three types of generalization-enhan ced ViTs, we observe their gradient-sensitivity and design a smoother learning strategy to achieve a stable training process. With modified training schemes, we achieve improvements on performance towards out-of-distribution data by 4% from vanilla ViTs. We comprehensively compare three generalization-enhan ced ViTs with their corresponding CNNs, and observe that: 1) For the enhanced model, larger ViTs still benefit more for the out-of-distribution generalization. 2) generalization-enhan ced ViTs are more sensitive to the hyper-parameters than corresponding CNNs. We hope our comprehensive study could shed light on the design of more generalizable learning architectures.
翻訳日:2021-06-15 15:55:58 公開日:2021-06-14
# 3次元プロットの自動解釈に向けて

Toward Automatic Interpretation of 3D Plots ( http://arxiv.org/abs/2106.07627v1 )

ライセンス: Link先を確認
Laura E. Brandt and William T. Freeman(参考訳) 本稿では,2変数関数の3次元曲面プロットにおけるデータ表現に用いる格子マーク付き表面のリバースエンジニアリングを機械に教えることの課題について検討する。 これらは科学や経済の出版物では一般的であり、曲線の単純な収集から、人間はそれらを容易かつ迅速に一般的な形や曲がりくねった情報を引き出すことができる。 機械にはそのような視覚的な直感はないが、表面の構造を導いたより詳細な定量的データを正確に抽出する能力がある。 我々は,3次元グリッドマーク付き表面の新たなデータセット(SurfaceGrid)を合成し,その形状を推定するために深層ニューラルネットワークを訓練することにより,この問題に対処する。 本アルゴリズムは,軸とシェーディング情報を除去した合成3次元表面プロットから形状情報を復元し,様々なグリッドタイプで描画し,様々な視点から見ることに成功した。

This paper explores the challenge of teaching a machine how to reverse-engineer the grid-marked surfaces used to represent data in 3D surface plots of two-variable functions. These are common in scientific and economic publications; and humans can often interpret them with ease, quickly gleaning general shape and curvature information from the simple collection of curves. While machines have no such visual intuition, they do have the potential to accurately extract the more detailed quantitative data that guided the surface's construction. We approach this problem by synthesizing a new dataset of 3D grid-marked surfaces (SurfaceGrid) and training a deep neural net to estimate their shape. Our algorithm successfully recovers shape information from synthetic 3D surface plots that have had axes and shading information removed, been rendered with a variety of grid types, and viewed from a range of viewpoints.
翻訳日:2021-06-15 15:55:33 公開日:2021-06-14
# 高分解能gan用改良トランス

Improved Transformer for High-Resolution GANs ( http://arxiv.org/abs/2106.07631v1 )

ライセンス: Link先を確認
Long Zhao, Zizhao Zhang, Ting Chen, Dimitris N. Metaxas, Han Zhang(参考訳) Transformerによって実証されたアテンションベースモデルは、効果的に長距離依存性をモデル化できるが、自己アテンション操作の二次的な複雑さに悩まされ、ジェネレーティブ・アディショナル・ネットワーク(GAN)に基づく高解像度画像生成には採用が難しい。 本稿では,この課題に対処するために,トランスフォーマーに2つの重要な要素を導入する。 第一に, 生成過程の低分解能段階では, 標準グローバルセルフアテンションを, 局所的およびグローバル的アテンションの効率的な混合を可能にする多軸ブロックセルフアテンションに置き換える。 第二に、高解像度の段階では、暗黙の神経機能を思い出させる多層パーセプトロンのみを保ちながら自己注意を落とします。 さらに性能を向上させるため,クロスアテンションに基づく付加的な自己変調コンポーネントを導入する。 HiTと呼ばれる結果のモデルは、画像サイズに関して線形計算の複雑さを持ち、したがって、高定義画像を合成するために直接スケールする。 実験では,無条件イメージネットでは31.87点と2.95点のfidスコアを達成し,それぞれ128 \times 128$とffhq $256 \times 256$をそれぞれ適度なスループットで達成した。 我々は、提案されたHiTが、完全に畳み込みのないGANのジェネレータにとって重要なマイルストーンであると考えている。

Attention-based models, exemplified by the Transformer, can effectively model long range dependency, but suffer from the quadratic complexity of self-attention operation, making them difficult to be adopted for high-resolution image generation based on Generative Adversarial Networks (GANs). In this paper, we introduce two key ingredients to Transformer to address this challenge. First, in low-resolution stages of the generative process, standard global self-attention is replaced with the proposed multi-axis blocked self-attention which allows efficient mixing of local and global attention. Second, in high-resolution stages, we drop self-attention while only keeping multi-layer perceptrons reminiscent of the implicit neural function. To further improve the performance, we introduce an additional self-modulation component based on cross-attention. The resulting model, denoted as HiT, has a linear computational complexity with respect to the image size and thus directly scales to synthesizing high definition images. We show in the experiments that the proposed HiT achieves state-of-the-art FID scores of 31.87 and 2.95 on unconditional ImageNet $128 \times 128$ and FFHQ $256 \times 256$, respectively, with a reasonable throughput. We believe the proposed HiT is an important milestone for generators in GANs which are completely free of convolutions.
翻訳日:2021-06-15 15:55:18 公開日:2021-06-14
# 文法方程式

Grammar Equations ( http://arxiv.org/abs/2106.07485v1 )

ライセンス: Link先を確認
Bob Coecke and Vincent Wang(参考訳) 文法的には、前グループのような文法計算は、その相互作用を解明するために単語間のワイヤーを提供し、句や文の文法的正しさを検証することができる。 本稿では,単語内の配線も提供する。 これにより、同じあるいは密接に関連していると思われる文法的構造を特定できる。 それゆえ、我々の作品は新しい文法理論への道を開き、新しい「文法的真理」を提供する。 単語の配線が事前注文されたモノイドには意味がないという事実に対して、私たちはノゴ理論を与えます。 その代わり、ダイアグラム、または(自由)モノイドのカテゴリが必要です。

Diagrammatically speaking, grammatical calculi such as pregroups provide wires between words in order to elucidate their interactions, and this enables one to verify grammatical correctness of phrases and sentences. In this paper we also provide wirings within words. This will enable us to identify grammatical constructs that we expect to be either equal or closely related. Hence, our work paves the way for a new theory of grammar, that provides novel `grammatical truths'. We give a nogo-theorem for the fact that our wirings for words make no sense for preordered monoids, the form which grammatical calculi usually take. Instead, they require diagrams -- or equivalently, (free) monoidal categories.
翻訳日:2021-06-15 15:54:11 公開日:2021-06-14
# ディープラーニングを用いたグラフ異常検出に関する総合的調査

A Comprehensive Survey on Graph Anomaly Detection with Deep Learning ( http://arxiv.org/abs/2106.07178v1 )

ライセンス: Link先を確認
Xiaoxiao Ma, Jia Wu, Shan Xue, Jian Yang, Quan Z. Sheng, Hui Xiong(参考訳) 異常は稀な観測(例えば、データ記録や出来事)であり、他のものとは大きく異なる。 過去40年間にわたり、異常の研究は多くの分野(コンピュータ科学、化学、生物学など)における重要性から大きな関心を集めてきた。 これらの稀な観測を識別することを目的とした異常検出は、最も重要な課題の一つであり、金融詐欺やネットワーク侵入などの有害事象の発生を防ぐ力を示している。 検出タスクは通常、特徴空間内の外部データポイントを検出し、実世界のデータの構造情報を本質的に見落としることで解決される。 グラフは構造情報を保存するために広く使われており、これは異常グラフオブジェクト(ノード、エッジ、サブグラフ)を識別するグラフ異常検出問題を引き起こす。 しかし、グラフデータの複雑さ(不規則構造、非独立構造、大規模構造など)のため、従来の異常検出技術ではこの問題をうまく解決できない。 これらの制限を破る深層学習の適性については、近年、深層学習によるグラフ異常検出が強化された研究を受けている。 本研究では,グラフ異常検出のための現代的深層学習手法の体系的かつ包括的レビューを行う。 具体的には、タスク駆動型戦略に従い、検出可能な異常グラフオブジェクトに従って既存の作業を分類する。 特に、既存の作品のモチベーション、キー直観、技術的な詳細に焦点を当てています。 また、オープンソース実装、パブリックデータセット、そして将来の研究で一般的に使用される評価指標についても要約する。 最後に, グラフデータや異常検出, 実アプリケーションで発生した問題について, 調査結果に基づいて, 今後の研究方向性を12点強調する。

Anomalies represent rare observations (e.g., data records or events) that are deviating significantly from others. Over the last forty years, researches on anomalies have received great interests because of their significance in many disciplines (e.g., computer science, chemistry, and biology). Anomaly detection, which aims to identify these rare observations, is among the most vital tasks and has shown its power in preventing detrimental events, such as financial fraud and network intrusion, from happening. The detection task is typically solved by detecting outlying data points in the features space and inherently overlooks the structural information in real-world data. Graphs have been prevalently used to preserve the structural information, and this raises the graph anomaly detection problem - identifying anomalous graph objects (i.e., nodes, edges and sub-graphs). However, conventional anomaly detection techniques cannot well solve this problem because of the complexity of graph data (e.g., irregular structures, non-independent and large-scale). For the aptitudes of deep learning in breaking these limitations, graph anomaly detection with deep learning has received intensified studies recently. In this survey, we aim to provide a systematic and comprehensive review of the contemporary deep learning techniques for graph anomaly detection. Specifically, our categorization follows a task-driven strategy and classifies existing works according to the anomalous graph objects they can detect. We especially focus on the motivations, key intuitions and technical details of existing works. We also summarize open-sourced implementations, public datasets, and commonly-used evaluation metrics for future studies. Finally, we highlight twelve future research directions according to our survey results covering emerging problems introduced by graph data, anomaly detection and real applications.
翻訳日:2021-06-15 15:46:20 公開日:2021-06-14
# バックドア学習曲線:影響関数を超えてバックドア中毒を説明する

Backdoor Learning Curves: Explaining Backdoor Poisoning Beyond Influence Functions ( http://arxiv.org/abs/2106.07214v1 )

ライセンス: Link先を確認
Antonio Emanuele Cin\`a, Kathrin Grosse, Sebastiano Vascon, Ambra Demontis, Battista Biggio, Fabio Roli, Marcello Pelillo(参考訳) バックドアアタックはトレーニング中に毒物サンプルを注入し、テスト時に特定のトリガーを提示すると、機械学習モデルにアタック・チョーゼンクラスを出力させる。 バックドア攻撃は様々な設定や異なるモデルで実証されているが、その成功に影響する要因はまだよく分かっていない。 本研究では,インクリメンタルな学習と影響関数のレンズ下でのバックドア学習の過程を研究するための統一的な枠組みを提供する。 バックドア攻撃の成功は,(i)ハイパーパラメータによって制御される学習アルゴリズムの複雑さ,および(ii)トレーニングセットに注入されたバックドアサンプルのごく一部に依存することを示した。 これらの要因は、機械学習モデルが学習し、バックドアトリガーの存在とターゲットクラスとの相関性に影響する。 興味深いことに, バックドア攻撃が有効でない場合, クリーンテスト試料の精度が依然として高いハイパーパラメータ領域が存在することを示し, 既存の防御を改善するための新たな基準を提案する。

Backdoor attacks inject poisoning samples during training, with the goal of enforcing a machine-learning model to output an attacker-chosen class when presented a specific trigger at test time. Although backdoor attacks have been demonstrated in a variety of settings and against different models, the factors affecting their success are not yet well understood. In this work, we provide a unifying framework to study the process of backdoor learning under the lens of incremental learning and influence functions. We show that the success of backdoor attacks inherently depends on (i) the complexity of the learning algorithm, controlled by its hyperparameters, and (ii) the fraction of backdoor samples injected into the training set. These factors affect how fast a machine-learning model learns to correlate the presence of a backdoor trigger with the target class. Interestingly, our analysis shows that there exists a region in the hyperparameter space in which the accuracy on clean test samples is still high while backdoor attacks become ineffective, thereby suggesting novel criteria to improve existing defenses.
翻訳日:2021-06-15 15:45:56 公開日:2021-06-14
# スケーラブルフラッドモデリングのための深層学習による物理認識ダウンサンプリング

Physics-Aware Downsampling with Deep Learning for Scalable Flood Modeling ( http://arxiv.org/abs/2106.07218v1 )

ライセンス: Link先を確認
Niv Giladi, Zvika Ben-Haim, Sella Nevo, Yossi Matias, Daniel Soudry(参考訳) 背景:洪水は世界でもっとも一般的な自然災害であり、数億人の命に影響を与えている。 したがって、洪水予測は重要な取り組みであり、通常は正確な地形標高図に依存する物理水流シミュレーションを用いて達成される。 しかし、偏微分方程式の解法に基づくそのようなシミュレーションは、大規模に計算的に禁止されている。 この拡張性の問題は通常、標高マップの粗いグリッド表現を使って軽減されるが、この表現は重要な地形の詳細を歪め、シミュレーションにおいて重大な不正確性をもたらす可能性がある。 コントリビューション:我々は、物理インフォームドされた地形図のダウンサンプリングを行うために、深層ニューラルネットワークを訓練する:我々は、地形図の粗い格子表現を最適化し、洪水予測が微細格子解に一致するようにする。 学習プロセスが成功するには、このタスク専用のデータセットを設定します。 この方法では, 正確な解法を維持しつつ, 計算コストを大幅に削減できることを示す。 参照実装は、論文とデータセットの再生のためのドキュメントとコードとを伴います。

Background: Floods are the most common natural disaster in the world, affecting the lives of hundreds of millions. Flood forecasting is therefore a vitally important endeavor, typically achieved using physical water flow simulations, which rely on accurate terrain elevation maps. However, such simulations, based on solving partial differential equations, are computationally prohibitive on a large scale. This scalability issue is commonly alleviated using a coarse grid representation of the elevation map, though this representation may distort crucial terrain details, leading to significant inaccuracies in the simulation. Contributions: We train a deep neural network to perform physics-informed downsampling of the terrain map: we optimize the coarse grid representation of the terrain maps, so that the flood prediction will match the fine grid solution. For the learning process to succeed, we configure a dataset specifically for this task. We demonstrate that with this method, it is possible to achieve a significant reduction in computational cost, while maintaining an accurate solution. A reference implementation accompanies the paper as well as documentation and code for dataset reproduction.
翻訳日:2021-06-15 15:45:35 公開日:2021-06-14
# RAPTOR: エンドツーエンドのリスク対応型MDP計画とバックプロパゲーションによる政策学習

RAPTOR: End-to-end Risk-Aware MDP Planning and Policy Learning by Backpropagation ( http://arxiv.org/abs/2106.07260v1 )

ライセンス: Link先を確認
Noah Patton, Jihwan Jeong, Michael Gimelfarb, Scott Sanner(参考訳) 計画は複雑な環境でシーケンシャルな決定を最適化するためのフレームワークを提供する。 連続的な作用空間を持つ決定的あるいは確率的高次元領域における効率的な計画の最近の進歩は、行動を直接最適化するために環境のモデルを通してバックプロパゲーションを活用する。 しかし、既存の手法は確率的領域を最適化する際にリスクを考慮せず、リターンのエントロピー的ユーティリティを最適化することでMDPに効率的に組み込むことができる。 我々は,エントロピー目的のエンドツーエンド最適化によるリスクセンシティブ計画のための新しいフレームワークであるpytorch(raptor)を用いて,リスク対応計画を導入することで,このギャップを埋める。 本手法の重要な技術的困難は,環境確率性が存在するため,バックプロパゲーションによるエントロピーユーティリティの直接的最適化は不可能である。 RAPTORの新規性は状態分布の再パラメータ化にあり、前方サンプリング軌道から計算されたエントロピーユーティリティの十分な統計により確率的バックプロパゲーションを適用することができる。 この経験的目的をエンドツーエンドに直接最適化することはリスク逆直線計画と呼ばれ、これは前もって一連の行動にコミットし、高度確率領域では準最適である。 当社のフレームワークでは,リスク対応のDeep Reactive Policies(RaDRP)を最適化することで,この問題に対処しています。 非線形ナビゲーション, HVAC 制御, 線形貯水池制御を含む3つの高度確率的ドメインに対して, これらの2種類のRAPTORを評価し比較し, 複雑なMDPのリスク管理能力を示す。

Planning provides a framework for optimizing sequential decisions in complex environments. Recent advances in efficient planning in deterministic or stochastic high-dimensional domains with continuous action spaces leverage backpropagation through a model of the environment to directly optimize actions. However, existing methods typically not take risk into account when optimizing in stochastic domains, which can be incorporated efficiently in MDPs by optimizing the entropic utility of returns. We bridge this gap by introducing Risk-Aware Planning using PyTorch (RAPTOR), a novel framework for risk-sensitive planning through end-to-end optimization of the entropic utility objective. A key technical difficulty of our approach lies in that direct optimization of the entropic utility by backpropagation is impossible due to the presence of environment stochasticity. The novelty of RAPTOR lies in the reparameterization of the state distribution, which makes it possible to apply stochastic backpropagatation through sufficient statistics of the entropic utility computed from forward-sampled trajectories. The direct optimization of this empirical objective in an end-to-end manner is called the risk-averse straight-line plan, which commits to a sequence of actions in advance and can be sub-optimal in highly stochastic domains. We address this shortcoming by optimizing for risk-aware Deep Reactive Policies (RaDRP) in our framework. We evaluate and compare these two forms of RAPTOR on three highly stochastic do-mains, including nonlinear navigation, HVAC control, and linear reservoir control, demonstrating the ability to manage risk in complex MDPs.
翻訳日:2021-06-15 15:45:19 公開日:2021-06-14
# 並列座標における解釈可能な機械学習モデルの発見

Discovering Interpretable Machine Learning Models in Parallel Coordinates ( http://arxiv.org/abs/2106.07474v1 )

ライセンス: Link先を確認
Boris Kovalerchuk, Dustin Hayes(参考訳) 本稿では,並列座標における視覚知識発見による解釈可能な機械学習に寄与する。 ハイパーキューブとハイパーブロックの概念は、パラレル座標の視覚形態のエンドユーザによって容易に理解できる。 混合および純超ブロック(HBs)を用いた分類のためのハイパーアルゴリズムを提案し、個別、複数、重複、重複しない設定において、ハイパーブロックを対話的に、かつ自動的に発見する。 ハイパーブロックと視覚パターンの言語記述の組み合わせについても述べる。 ハイパーモデルは決定木を一般化する。 ハイパーアルゴリズムはUCI MLリポジトリのベンチマークデータでテストされた。 すべてのデータで純粋な混合HBを発見し、10倍のクロスバリデーションを実現できる。 ハイパーブロック,次元縮小,可視化のリンクを確立する。 ハイパーブロック技術とハイパーアルゴリズムの主な利点は、すべてのクラスでパターンを可視化するサイドバイサイドの可視化を含む、エンドユーザーによるハイパーブロックの検出と観察を可能にすることである。 決定木に対するHBsのもう1つの利点は、データの過一般化と過適合の両方を避ける能力である。

This paper contributes to interpretable machine learning via visual knowledge discovery in parallel coordinates. The concepts of hypercubes and hyper-blocks are used as easily understandable by end-users in the visual form in parallel coordinates. The Hyper algorithm for classification with mixed and pure hyper-blocks (HBs) is proposed to discover hyper-blocks interactively and automatically in individual, multiple, overlapping, and non-overlapping setting. The combination of hyper-blocks with linguistic description of visual patterns is presented too. It is shown that Hyper models generalize decision trees. The Hyper algorithm was tested on the benchmark data from UCI ML repository. It allowed discovering pure and mixed HBs with all data and then with 10-fold cross validation. The links between hyper-blocks, dimension reduction and visualization are established. Major benefits of hyper-block technology and the Hyper algorithm are in their ability to discover and observe hyper-blocks by end-users including side by side visualizations making patterns visible for all classes. Another advantage of sets of HBs relative to the decision trees is the ability to avoid both data overgeneralization and overfitting.
翻訳日:2021-06-15 15:44:52 公開日:2021-06-14
# 遊びのようなトレーニング:医療分野における自動相談システム構築のための強化学習と知識グラフベースのフレームワーク

Training like Playing: A Reinforcement Learning And Knowledge Graph-based framework for building Automatic Consultation System in Medical Field ( http://arxiv.org/abs/2106.07502v1 )

ライセンス: Link先を確認
Yining Huang, Meilian Chen, Keke Tang(参考訳) 本稿では,知識グラフ埋め込みと強化学習コンポーネントを用いたaiベースの医療相談システムとその実装について紹介する。 本手法は,知識をグラフとして活用し,患者から収集されたエビデンスに従って,かつ動的に診断を行う。 性能を評価するために設計した実験によると、良い結果をアーカイブしています。 さらに重要なのは、より優れたパフォーマンスを得るために、研究者たちが革新的なアイデア、よく設計された実験、さらには臨床試験に基づいて、このフレームワークを実装できることだ。

We introduce a framework for AI-based medical consultation system with knowledge graph embedding and reinforcement learning components and its implement. Our implement of this framework leverages knowledge organized as a graph to have diagnosis according to evidence collected from patients recurrently and dynamically. According to experiment we designed for evaluating its performance, it archives a good result. More importantly, for getting better performance, researchers can implement it on this framework based on their innovative ideas, well designed experiments and even clinical trials.
翻訳日:2021-06-15 15:44:31 公開日:2021-06-14
# フェアウォッシングのリスクを特徴づける

Characterizing the risk of fairwashing ( http://arxiv.org/abs/2106.07504v1 )

ライセンス: Link先を確認
Ulrich A\"ivodji, Hiromi Arai, S\'ebastien Gambs, Satoshi Hara(参考訳) フェアウォッシング(Fairwashing)とは、不公平なブラックボックスモデルが、ポストホックな説明の操作を通じてフェアラーモデルによって説明できるリスクを指す。 しかし、これを実現するために、ポストホックの説明モデルは、いくつかの入力において元のブラックボックスとは異なる予測をしなければなりません。 本稿では,フェアウォッシング攻撃のリスクを,特に忠実・不公平なトレードオフを調査して特徴付けることを目的とする。 まず,実世界のデータセットでトレーニングされたブラックボックスモデルと,不公平さの低い高忠実な説明モデルを構築することができるという公平性に関するいくつかの統計的概念について,詳細な実証研究を行った。 例えば、フェアウォッシュされた説明モデルは、説明するブラックボックスモデルに対して最大99.20\%$不公平であると同時に、50\%$不公平であることを示すことができる。 これらの結果から,ブラックボックスの説明の質の指標として,忠実度だけでは使用すべきでないことが示唆された。 第二に、フェアウォッシュされた説明モデルは、訴訟群(\emph{i.e。 これは、より安定したフェアネスメソッドが開発されるにつれて、さらに悪化するだけである。 最後に,ブラックボックスモデル間でフェアウォッシング攻撃が移動可能であること,つまり,ブラックボックスモデルが予測を明示的に使わずにフェアウォッシングを行うことができることを実証する。

Fairwashing refers to the risk that an unfair black-box model can be explained by a fairer model through post-hoc explanations' manipulation. However, to realize this, the post-hoc explanation model must produce different predictions than the original black-box on some inputs, leading to a decrease in the fidelity imposed by the difference in unfairness. In this paper, our main objective is to characterize the risk of fairwashing attacks, in particular by investigating the fidelity-unfairness trade-off. First, we demonstrate through an in-depth empirical study on black-box models trained on several real-world datasets and for several statistical notions of fairness that it is possible to build high-fidelity explanation models with low unfairness. For instance, we find that fairwashed explanation models can exhibit up to $99.20\%$ fidelity to the black-box models they explain while being $50\%$ less unfair. These results suggest that fidelity alone should not be used as a proxy for the quality of black-box explanations. Second, we show that fairwashed explanation models can generalize beyond the suing group (\emph{i.e.}, data points that are being explained), which will only worsen as more stable fairness methods get developed. Finally, we demonstrate that fairwashing attacks can transfer across black-box models, meaning that other black-box models can perform fairwashing without explicitly using their predictions.
翻訳日:2021-06-15 15:44:21 公開日:2021-06-14
# フェデレーションドメイン適応のための動的勾配アグリゲーション

Dynamic Gradient Aggregation for Federated Domain Adaptation ( http://arxiv.org/abs/2106.07578v1 )

ライセンス: Link先を確認
Dimitrios Dimitriadis, Kenichi Kumatani, Robert Gmyr, Yashesh Gaur and Sefik Emre Eskimez(参考訳) 本稿では,フェデレーション学習(fl)のための新しい学習アルゴリズムを提案する。 提案手法は,2段階最適化を用いた重み付き勾配集約に基づいてフレキシブルなトレーニングパイプラインを提供する。 ここでは,BMUFやFedAvgのような他の分散またはFLトレーニングアルゴリズムと比較して,収束速度が大幅に向上することを示す。 さらに、集約アルゴリズムは勾配品質の正則化として機能する。 本研究では,制御・教師なし音声認識(SR)におけるFLアルゴリズムの効果について検討する。 実験的な検証は3つのタスクに基づいて行われる: まず、ベースライン結果と比較して、7xと6%の単語誤り率削減(WERR)のスピードアップを示すLibriSpeechタスク。 第2のタスクは、強力なLASモデルに対して20%のWERRを提供するセッション適応に基づいている。 最後に、教師なしパイプラインを会話SRタスクに適用する。 提案するflシステムは、収束速度とモデル全体の性能の両方においてベースラインシステムを上回る。

In this paper, a new learning algorithm for Federated Learning (FL) is introduced. The proposed scheme is based on a weighted gradient aggregation using two-step optimization to offer a flexible training pipeline. Herein, two different flavors of the aggregation method are presented, leading to an order of magnitude improvement in convergence speed compared to other distributed or FL training algorithms like BMUF and FedAvg. Further, the aggregation algorithm acts as a regularizer of the gradient quality. We investigate the effect of our FL algorithm in supervised and unsupervised Speech Recognition (SR) scenarios. The experimental validation is performed based on three tasks: first, the LibriSpeech task showing a speed-up of 7x and 6% word error rate reduction (WERR) compared to the baseline results. The second task is based on session adaptation providing 20% WERR over a powerful LAS model. Finally, our unsupervised pipeline is applied to the conversational SR task. The proposed FL system outperforms the baseline systems in both convergence speed and overall model performance.
翻訳日:2021-06-15 15:44:00 公開日:2021-06-14
# コミュニケーションは普遍的な溶媒である - atreya bot - 化学科学者のための対話型ボット

Communication is the universal solvent: atreya bot -- an interactive bot for chemical scientists ( http://arxiv.org/abs/2106.07257v1 )

ライセンス: Link先を確認
Mahak Sharma (1), Abhishek Kaushik (2), Rajesh Kumar (3), Sushant Kumar Rai (3), Harshada Hanumant Desai (3) and Sargam Yadav (3) ((1) Vidhya Bhawan Gandhiyan Institute of Educational Studies,(2) Dublin City University, Ireland,(3) Dublin Business School, Dublin, Ireland)(参考訳) 会話エージェントは、ユーザを支援するために複数の分野のアプリケーションにデプロイされる、人間とコンピュータのインタラクションの最近のトレンドである。 本稿では,化学愛好家,研究者,学生を対象に,ChEMBLデータベースの研究を行う対話型ボット「Atreya」を紹介する。 Atreyaは、人気のクラウドベースのインスタントメッセージングアプリケーションTelegramがホストしている。 このユーザフレンドリーなボットは、ChEMBLデータベースをクェリし、特定の疾患、その薬物に関連するターゲットなどの詳細を検索する。 本稿では,化学生や化学科学者の複雑な情報探索プロセスを支援する対話型エージェントの可能性について検討する。

Conversational agents are a recent trend in human-computer interaction, deployed in multidisciplinary applications to assist the users. In this paper, we introduce "Atreya", an interactive bot for chemistry enthusiasts, researchers, and students to study the ChEMBL database. Atreya is hosted by Telegram, a popular cloud-based instant messaging application. This user-friendly bot queries the ChEMBL database, retrieves the drug details for a particular disease, targets associated with that drug, etc. This paper explores the potential of using a conversational agent to assist chemistry students and chemical scientist in complex information seeking process.
翻訳日:2021-06-15 15:43:02 公開日:2021-06-14
# AEDシステムに対するオーディオ攻撃と防御 -実践的研究-

Audio Attacks and Defenses against AED Systems - A Practical Study ( http://arxiv.org/abs/2106.07428v1 )

ライセンス: Link先を確認
Rodrigo dos Santos and Shirin Nilizadeh(参考訳) オーディオイベント検出(aed)システムは、環境から音声をキャプチャし、特定の興味のある音の存在を検出するためにディープラーニングアルゴリズムを使用する。 本稿では,深層学習に基づくaedシステムにおける回避攻撃に対する攻撃事例の評価を行う。 複数のセキュリティクリティカルなaedタスクを実行し、cnns分類器として実装し、検出を避けるために敵が使用できるバックグラウンドとホワイトノイズの2つの異なるタイプのノイズを使用して、オーディオ敵の例を生成します。 また、Googleが製造するNestデバイスなど、既存のサードパーティのAED有能デバイスが、独自のブラックボックスディープラーニングモデルを実行することの堅牢性についても検討する。 本稿では,AED システムに対して,画像領域の敵対的事例に焦点をあてた作業と同様に,AED システムに誤分類を生じさせるような,音声の敵対的入力に集中できることを示す。 次に,攻撃対策を通じて分類器の堅牢性の向上を図る。 我々は、敵対的訓練とカスタム・デノージング技術を用いている。 これらの対策が,音声入力に適用された場合,単独でも組み合わせでも成功し,攻撃を受けた場合の分類器の性能が50%近く向上することを示す。

Audio Event Detection (AED) Systems capture audio from the environment and employ some deep learning algorithms for detecting the presence of a specific sound of interest. In this paper, we evaluate deep learning-based AED systems against evasion attacks through adversarial examples. We run multiple security critical AED tasks, implemented as CNNs classifiers, and then generate audio adversarial examples using two different types of noise, namely background and white noise, that can be used by the adversary to evade detection. We also examine the robustness of existing third-party AED capable devices, such as Nest devices manufactured by Google, which run their own black-box deep learning models. We show that an adversary can focus on audio adversarial inputs to cause AED systems to misclassify, similarly to what has been previously done by works focusing on adversarial examples from the image domain. We then, seek to improve classifiers' robustness through countermeasures to the attacks. We employ adversarial training and a custom denoising technique. We show that these countermeasures, when applied to audio input, can be successful, either in isolation or in combination, generating relevant increases of nearly fifty percent in the performance of the classifiers when these are under attack.
翻訳日:2021-06-15 15:42:50 公開日:2021-06-14
# crash:raw audio scoreに基づく高分解能ドラム合成のための生成モデル

CRASH: Raw Audio Score-based Generative Modeling for Controllable High-resolution Drum Sound Synthesis ( http://arxiv.org/abs/2106.07431v1 )

ライセンス: Link先を確認
Simon Rouard and Ga\"etan Hadjeres(参考訳) 本稿では,無条件生音声合成のための新しいスコアベース生成モデルを提案する。 本提案は, 確率微分方程式を用いた拡散過程モデリングの最新展開を基礎とし, すでに画像生成に有望な結果が得られている。 音声生成に適した拡散過程を選択するための新しいヒューリスティックスを動機付け、スコア関数を近似するための条件付きu-netの利用を検討する。 音声の拡散モデルに対する従来のアプローチは、主に中分解能の音声ボコーダとして設計されていたが、本手法はcrash (controllable raw audio synthesis with high- resolution) と呼ばれ、44.1khzの短い打楽器音を制御可能な方法で生成できる。 幅広い実験を通じて,本手法で提供される多数のサンプリング方式(無条件生成,決定論的生成,インパインティング,補間,バリエーション,クラス条件サンプリング)をドラム音生成タスクで紹介し,「ハイブリッド」音を生成する新しい手法であるクラス混合サンプリングを提案する。 提案手法は生オーディオにおけるgan方式とのギャップを解消すると同時に,より軽量で容易に学習できるモデルでより柔軟な生成機能を実現する。

In this paper, we propose a novel score-base generative model for unconditional raw audio synthesis. Our proposal builds upon the latest developments on diffusion process modeling with stochastic differential equations, which already demonstrated promising results on image generation. We motivate novel heuristics for the choice of the diffusion processes better suited for audio generation, and consider the use of a conditional U-Net to approximate the score function. While previous approaches on diffusion models on audio were mainly designed as speech vocoders in medium resolution, our method termed CRASH (Controllable Raw Audio Synthesis with High-resolution) allows us to generate short percussive sounds in 44.1kHz in a controllable way. Through extensive experiments, we showcase on a drum sound generation task the numerous sampling schemes offered by our method (unconditional generation, deterministic generation, inpainting, interpolation, variations, class-conditional sampling) and propose the class-mixing sampling, a novel way to generate "hybrid" sounds. Our proposed method closes the gap with GAN-based methods on raw audio, while offering more flexible generation capabilities with lighter and easier-to-train models.
翻訳日:2021-06-15 15:42:29 公開日:2021-06-14
# 現実よりも現実的:合成顔の人間の視覚知覚に関する研究

More Real than Real: A Study on Human Visual Perception of Synthetic Faces ( http://arxiv.org/abs/2106.07226v1 )

ライセンス: Link先を確認
Federica Lago, Cecilia Pasquini, Rainer B\"ohme, H\'el\`ene Dumont, Val\'erie Goffaux and Giulia Boato(参考訳) ディープフェイクは、現実主義の高まりにより、ここ数年で非常に人気を博した。 したがって、最先端の創造技術に直面すると、実際の顔画像と合成顔画像とを区別する人間の能力を測定する必要がある。 本研究は,最先端の創発的敵ネットワーク(pg-gan,stylegan,sty legan2)が生成する合成顔画像に対して,多種多様なボランティア群が露出した知覚実験の設計と結果について述べる。 実験の結果は、現代のAIによって生成された合成顔と実際の顔を区別する人間の能力に疑問を投げかけるべきかどうかを明らかにしている。

Deep fakes became extremely popular in the last years, also thanks to their increasing realism. Therefore, there is the need to measures human's ability to distinguish between real and synthetic face images when confronted with cutting-edge creation technologies. We describe the design and results of a perceptual experiment we have conducted, where a wide and diverse group of volunteers has been exposed to synthetic face images produced by state-of-the-art Generative Adversarial Networks (namely, PG-GAN, StyleGAN, StyleGAN2). The experiment outcomes reveal how strongly we should call into question our human ability to discriminate real faces from synthetic ones generated through modern AI.
翻訳日:2021-06-15 15:41:14 公開日:2021-06-14
# 深層強化学習に基づくユーザ誘導型パーソナライズ画像美的評価

User-Guided Personalized Image Aesthetic Assessment based on Deep Reinforcement Learning ( http://arxiv.org/abs/2106.07488v1 )

ライセンス: Link先を確認
Pei Lv, Jianqi Fan, Xixi Nie, Weiming Dong, Xiaoheng Jiang, Bing Zhou, Mingliang Xu and Changsheng Xu(参考訳) 近年,写真,映画,テレビ,電子商取引,ファッションデザインなど多岐にわたる応用において,個人化画像美的評価(PIAA)が注目されている。 このタスクは、ユーザが提供する主観的要因やサンプルによってより深刻な影響を受ける。 少量のサンプルで正確なパーソナライズされた美的分布を得るため,新たなユーザ誘導型パーソナライズ画像美的評価フレームワークを提案する。 本フレームワークは,ユーザ間のインタラクションを活用して,深層強化学習(DRL)に基づく審美評価のための画像のリタッチとランク付けを行い,異なるユーザの美的嗜好に合わせたパーソナライズされた審美分布を生成する。 主に2つの段階からなる。 第1段階では、インタラクティブな画像強調と手動ランキングによってパーソナライズされた審美的ランキングが生成され、2つのポリシーネットワークがトレーニングされる。 イメージは手作業でリタッチするためにユーザにプッシュされ、同時に強化ポリシーネットワークにもプッシュされる。 拡張ネットワークは、DRLの最適化目標として手動修正結果を利用する。 その後、ランキング処理は、前述したリタッチと同様の操作を実行する。 これら2つのネットワークは反復的かつ代替的にトレーニングされ、パーソナライズされた審美評価が自動的に完了する。 第2段階では、これらの修正された画像を1つのスタイル固有の分類器で美的属性にラベル付けし、それらの画像の複数の美的属性に基づいてパーソナライズされた美的分布を生成する。

Personalized image aesthetic assessment (PIAA) has recently become a hot topic due to its usefulness in a wide variety of applications such as photography, film and television, e-commerce, fashion design and so on. This task is more seriously affected by subjective factors and samples provided by users. In order to acquire precise personalized aesthetic distribution by small amount of samples, we propose a novel user-guided personalized image aesthetic assessment framework. This framework leverages user interactions to retouch and rank images for aesthetic assessment based on deep reinforcement learning (DRL), and generates personalized aesthetic distribution that is more in line with the aesthetic preferences of different users. It mainly consists of two stages. In the first stage, personalized aesthetic ranking is generated by interactive image enhancement and manual ranking, meanwhile two policy networks will be trained. The images will be pushed to the user for manual retouching and simultaneously to the enhancement policy network. The enhancement network utilizes the manual retouching results as the optimization goals of DRL. After that, the ranking process performs the similar operations like the retouching mentioned before. These two networks will be trained iteratively and alternatively to help to complete the final personalized aesthetic assessment automatically. In the second stage, these modified images are labeled with aesthetic attributes by one style-specific classifier, and then the personalized aesthetic distribution is generated based on the multiple aesthetic attributes of these images, which conforms to the aesthetic preference of users better.
翻訳日:2021-06-15 15:41:01 公開日:2021-06-14
# ソーシャルメディア分析のためのレシピ

A Recipe for Social Media Analysis ( http://arxiv.org/abs/2106.07307v1 )

ライセンス: Link先を確認
Shahid Alam, Juvariya Khan(参考訳) スマートフォンのユビキタスな性質は、公共、政府、企業の間でFacebook、Twitter、TikTok、LinkedInなどのソーシャルメディアプラットフォームの利用を著しく増加させてきた。 facebookの2019年の売上は700億ドルで、前年同期比で27%増だった。 ソーシャルメディアは、異なる国の政治的変化に責任を持つ社会抗議のアウトブレイクにも大きな役割を果たしている。 上記の例からわかるように、ソーシャルメディアはビジネスインテリジェンスと国際政治において大きな役割を果たす。 本稿では,ソーシャルメディア分析(SMA)の高レベルの機能的インテリジェンスモデル(レシピ)について述べる。 このモデルは入力データを合成し、操作可能なレコメンデーションを提供するために運用インテリジェンスを使用する。 さらに、環境から得られる経験と学習の合成機能とも一致します。 提示されるSMAモデルはアプリケーションドメインとは独立しており、教育、ヘルスケア、政府など、さまざまなドメインに適用することができる。 最後に、SMAが直面している課題と、本稿で提示したSMAモデルがどのように解決するかを示す。

The Ubiquitous nature of smartphones has significantly increased the use of social media platforms, such as Facebook, Twitter, TikTok, and LinkedIn, etc., among the public, government, and businesses. Facebook generated ~70 billion USD in 2019 in advertisement revenues alone, a ~27% increase from the previous year. Social media has also played a strong role in outbreaks of social protests responsible for political changes in different countries. As we can see from the above examples, social media plays a big role in business intelligence and international politics. In this paper, we present and discuss a high-level functional intelligence model (recipe) of Social Media Analysis (SMA). This model synthesizes the input data and uses operational intelligence to provide actionable recommendations. In addition, it also matches the synthesized function of the experiences and learning gained from the environment. The SMA model presented is independent of the application domain, and can be applied to different domains, such as Education, Healthcare and Government, etc. Finally, we also present some of the challenges faced by SMA and how the SMA model presented in this paper solves them.
翻訳日:2021-06-15 15:39:59 公開日:2021-06-14
# 汚染混合モデルによる多変量関数データの異常検出

Outlier detection in multivariate functional data through a contaminated mixture model ( http://arxiv.org/abs/2106.07222v1 )

ライセンス: Link先を確認
Martial Amovin-Assagba (ERIC, AMK), Ir\`ene Gannaz, Julien Jacques (ERIC)(参考訳) この研究は、センサーのアクティビティを高頻度で記録する産業環境での応用によって動機付けられている。 目的は、異常な測定行動を自動的に検出することである。 センサ測度を機能データとして考慮し,多変量関数データセットにおける異常値の検出に正式に関心を持っている。 このデータセットの不均一性のため、提案した汚染混合モデルの両方が多変量関数データを同種群にクラスタリングし、外れ値を検出する。 この手続きの競合相手に対する大きな利点は、外れ値の比率を指定する必要がないことである。 モデル推論は期待-決定的最大化アルゴリズムを用いて行われ、BIC基準を用いてクラスタ数を選択する。 シミュレーションデータを用いた数値実験により, 推定アルゴリズムの高性能化が示された。 特に、提案されたモデルは競合より優れている。 本研究の動機となった実データへの応用は,異常行動を正確に検出することを可能にする。

This work is motivated by an application in an industrial context, where the activity of sensors is recorded at a high frequency. The objective is to automatically detect abnormal measurement behaviour. Considering the sensor measures as functional data, we are formally interested in detecting outliers in a multivariate functional data set. Due to the heterogeneity of this data set, the proposed contaminated mixture model both clusters the multivariate functional data into homogeneous groups and detects outliers. The main advantage of this procedure over its competitors is that it does not require us to specify the proportion of outliers. Model inference is performed through an Expectation-Conditio nal Maximization algorithm, and the BIC criterion is used to select the number of clusters. Numerical experiments on simulated data demonstrate the high performance achieved by the inference algorithm. In particular, the proposed model outperforms competitors. Its application on the real data which motivated this study allows us to correctly detect abnormal behaviours.
翻訳日:2021-06-15 15:39:23 公開日:2021-06-14
# 未知外乱位相をもつネットワーク識別のためのスケーラブルなマルチステップ最小二乗法

A scalable multi-step least squares method for network identification with unknown disturbance topology ( http://arxiv.org/abs/2106.07548v1 )

ライセンス: Link先を確認
Stefanie J.M. Fonken, Karthik R. Ramaswamy, Paul M.J. Van den Hof(参考訳) 動的ネットワークの同定法は一般にネットワークと外乱トポロジーの事前知識を必要とし、しばしばスケーラビリティの低い非凸最適化問題を解くことに依存する。 ネットワークトポロジーを推定する方法は文献で利用可能であるが、外乱トポロジー、すなわち(空間的)ノイズ相関構造と雑音ランクの推定にはあまり注意が払われていない。 本稿では,外乱トポロジーの推定が既知のネットワークトポロジーを持つフルダイナミックネットワークの同定に先行する動的ネットワークの同定手法を提案する。 この目的のために,多段階逐次線形回帰法と重み付きヌル空間フィッティング法を拡張し,ランクノイズの低減に対応し,これらの手法を用いて外乱トポロジーとネットワークダイナミクスを推定する。 その結果、並列計算能力を持ち、明示的な解析解のみに依存するマルチステップ最小二乗アルゴリズムを提供することにより、通常の非凸最適化を回避できる。 これにより、計算負担を低く抑えつつ、Box Jenkinsモデル構造の動的ネットワークを一貫して推定する。 実験設計における励起信号の割り当てのための経路に基づくデータ情報化条件を含む整合性証明を提供する。 ランクノイズを低減した動的ネットワーク上で行う数値シミュレーションは,この手法の可能性を明らかに示している。

Identification methods for dynamic networks typically require prior knowledge of the network and disturbance topology, and often rely on solving poorly scalable non-convex optimization problems. While methods for estimating network topology are available in the literature, less attention has been paid to estimating the disturbance topology, i.e., the (spatial) noise correlation structure and the noise rank. In this work we present an identification method for dynamic networks, in which an estimation of the disturbance topology precedes the identification of the full dynamic network with known network topology. To this end we extend the multi-step Sequential Linear Regression and Weighted Null Space Fitting methods to deal with reduced rank noise, and use these methods to estimate the disturbance topology and the network dynamics. As a result, we provide a multi-step least squares algorithm with parallel computation capabilities and that rely only on explicit analytical solutions, thereby avoiding the usual non-convex optimizations involved. Consequently we consistently estimate dynamic networks of Box Jenkins model structure, while keeping the computational burden low. We provide a consistency proof that includes path-based data informativity conditions for allocation of excitation signals in the experimental design. Numerical simulations performed on a dynamic network with reduced rank noise clearly illustrate the potential of this method.
翻訳日:2021-06-15 15:39:09 公開日:2021-06-14
# cfedavg:非iid連合学習における効率的なコミュニケーションと高速収束の実現

CFedAvg: Achieving Efficient Communication and Fast Convergence in Non-IID Federated Learning ( http://arxiv.org/abs/2106.07155v1 )

ライセンス: Link先を確認
Haibo Yang, Jia Liu, Elizabeth S. Bentley(参考訳) フェデレートラーニング(Federated Learning, FL)は、多くの労働者がトレーニングデータを共有せずにモデルを共同で学習する分散ラーニングパラダイムである。 しかし、FLでは大規模(深層)学習モデルと帯域幅制限接続により通信コストが高くなる可能性がある。 本稿では,非i.i.dを持つflのためのcfedavgと呼ばれる通信効率の高いアルゴリズムフレームワークを提案する。 データセットは、一般的な(バイアス付きまたはバイアスなし)SNR制約圧縮機で動作する。 非凸関数に対するCFedAvgの収束速度を一定かつ減衰する学習速度で解析する。 cfedavgアルゴリズムは、一定の学習率で$\mathcal{o}(1 / \sqrt{mkt} + 1 / t)$の収束率を達成でき、労働者の数が増えるにつれて収束の線形速度が向上し、そこでは$k$が局所的なステップ数、$t$が総通信ラウンド数、$m$が総ワーカー数となる。 これは圧縮を伴わずに分散/フェデレート学習の収束率に一致し、flの学習精度を犠牲にすることなく高い通信効率を実現している。 さらにcfedavgを異種ローカルステップのケースにも拡張し,各作業者が異なるローカルステップを実行して,自身の状況に適応できるようにした。 一般に興味深い観察は、圧縮機によって導入されたノイズ/分散が、非i.dの全体的な収束率順序に影響しないことである。 FL。 異なる圧縮比の勾配圧縮スキームを持つ3つのデータセットに対するcfedavgアルゴリズムの有効性を検証する。

Federated learning (FL) is a prevailing distributed learning paradigm, where a large number of workers jointly learn a model without sharing their training data. However, high communication costs could arise in FL due to large-scale (deep) learning models and bandwidth-constraine d connections. In this paper, we introduce a communication-effici ent algorithmic framework called CFedAvg for FL with non-i.i.d. datasets, which works with general (biased or unbiased) SNR-constrained compressors. We analyze the convergence rate of CFedAvg for non-convex functions with constant and decaying learning rates. The CFedAvg algorithm can achieve an $\mathcal{O}(1 / \sqrt{mKT} + 1 / T)$ convergence rate with a constant learning rate, implying a linear speedup for convergence as the number of workers increases, where $K$ is the number of local steps, $T$ is the number of total communication rounds, and $m$ is the total worker number. This matches the convergence rate of distributed/federate d learning without compression, thus achieving high communication efficiency while not sacrificing learning accuracy in FL. Furthermore, we extend CFedAvg to cases with heterogeneous local steps, which allows different workers to perform a different number of local steps to better adapt to their own circumstances. The interesting observation in general is that the noise/variance introduced by compressors does not affect the overall convergence rate order for non-i.i.d. FL. We verify the effectiveness of our CFedAvg algorithm on three datasets with two gradient compression schemes of different compression ratios.
翻訳日:2021-06-15 15:35:43 公開日:2021-06-14
# annotator co-occurrence imputation と provable symmetric non negative matrix factorization によるクラウドソーシング

Crowdsourcing via Annotator Co-occurrence Imputation and Provable Symmetric Nonnegative Matrix Factorization ( http://arxiv.org/abs/2106.07193v1 )

ライセンス: Link先を確認
Shahana Ibrahim, Xiao Fu(参考訳) Dawid-Skene(D&S)モデルのノイズ、不完全、クラウドソースアノテーションからの教師なし学習は長年にわたる課題であり、大量のデータを確実にラベル付けするための重要なステップである。 最近の研究は、結合非負行列分解(CNMF)の観点を採り、魅力的な特徴を示している: これはD\&Sモデルの識別可能性を確保し、アノテータラベルの共起点の推定のみを含むため、サンプルの複雑さを低くする。 しかしながら、特定性は、クラウドソーシングの文脈である程度制限的な条件が満たされる場合にのみ保持される。 cnmfの基準を最適化するコストも高く、収束保証は理解できない。 この研究は、ペアの共起に基づくD&Sモデル学習問題を対称NMF(SymNMF)問題として再放送する。 実際には、SymNMFモデルはしばしば(大部分は)不完全である。 共起計算のための2つの軽量アルゴリズムを提案する。 そこで,低複雑性シフト整流線形ユニット(ReLU)を用いたSymNMFアルゴリズムを提案し,D&Sモデルの同定を行った。 様々な性能特性(例えば、共起回復性の欠如、安定性、収束性)と評価も提示される。

Unsupervised learning of the Dawid-Skene (D&S) model from noisy, incomplete and crowdsourced annotations has been a long-standing challenge, and is a critical step towards reliably labeling massive data. A recent work takes a coupled nonnegative matrix factorization (CNMF) perspective, and shows appealing features: It ensures the identifiability of the D\&S model and enjoys low sample complexity, as only the estimates of the co-occurrences of annotator labels are involved. However, the identifiability holds only when certain somewhat restrictive conditions are met in the context of crowdsourcing. Optimizing the CNMF criterion is also costly -- and convergence assurances are elusive. This work recasts the pairwise co-occurrence based D&S model learning problem as a symmetric NMF (SymNMF) problem -- which offers enhanced identifiability relative to CNMF. In practice, the SymNMF model is often (largely) incomplete, due to the lack of co-labeled items by some annotators. Two lightweight algorithms are proposed for co-occurrence imputation. Then, a low-complexity shifted rectified linear unit (ReLU)-empowered SymNMF algorithm is proposed to identify the D&S model. Various performance characterizations (e.g., missing co-occurrence recoverability, stability, and convergence) and evaluations are also presented.
翻訳日:2021-06-15 15:35:13 公開日:2021-06-14
# 境界コスト下での公平なクラスタリング

Fair Clustering Under a Bounded Cost ( http://arxiv.org/abs/2106.07239v1 )

ライセンス: Link先を確認
Seyed A. Esmaeili, Brian Brubach, Aravind Srinivasan, John P. Dickerson(参考訳) クラスタリングは、データセットをメトリクス空間内の近くのポイントで構成されるクラスタに分割する、基本的な教師なし学習問題である。 最近の変種であるフェアクラスタリング(fair clustering)は、その色とそのグループメンバーシップを表す各点を関連付け、各色がグループフェアネスを満たすために各クラスタに(ほぼ)等しい表現を持つ必要がある。 このモデルでは, クラスタリング目標のコストは, アルゴリズムの公平性によって増大する。 コストの相対的な増加である「公正の価格」は、実際には非有界である。 そこで本稿では,クラスタリング問題に対する制約として,クラスタリング対象の上限を扱い,それに基づく表現の等式を最大化することを提案する。 我々は,2つの公平性目標,すなわち,グループ実用性目標とグループ平等性目標,およびグループ平等性目標を一般化するグループレキシミン目標を考える。 我々は、実用的および平等主義的目的の近似に関する根本的な下限を導き、証明可能な保証付きアルゴリズムを導入する。 レキシミンの目的のために、有効なヒューリスティックアルゴリズムを導入する。 我々はさらに、他の自然の公平性目標に対する不可能性結果も導出する。 提案アルゴリズムの有効性を実証する実世界のデータセットに関する実験結果について結論付けた。

Clustering is a fundamental unsupervised learning problem where a dataset is partitioned into clusters that consist of nearby points in a metric space. A recent variant, fair clustering, associates a color with each point representing its group membership and requires that each color has (approximately) equal representation in each cluster to satisfy group fairness. In this model, the cost of the clustering objective increases due to enforcing fairness in the algorithm. The relative increase in the cost, the ''price of fairness,'' can indeed be unbounded. Therefore, in this paper we propose to treat an upper bound on the clustering objective as a constraint on the clustering problem, and to maximize equality of representation subject to it. We consider two fairness objectives: the group utilitarian objective and the group egalitarian objective, as well as the group leximin objective which generalizes the group egalitarian objective. We derive fundamental lower bounds on the approximation of the utilitarian and egalitarian objectives and introduce algorithms with provable guarantees for them. For the leximin objective we introduce an effective heuristic algorithm. We further derive impossibility results for other natural fairness objectives. We conclude with experimental results on real-world datasets that demonstrate the validity of our algorithms.
翻訳日:2021-06-15 15:34:50 公開日:2021-06-14
# FastICARL: 音声センシングにおける効率的な予算割当を用いた高速インクリメンタル分類と表現学習

FastICARL: Fast Incremental Classifier and Representation Learning with Efficient Budget Allocation in Audio Sensing Applications ( http://arxiv.org/abs/2106.07268v1 )

ライセンス: Link先を確認
Young D. Kwon, Jagmohan Chauhan, and Cecilia Mascolo(参考訳) さまざまなインクリメンタル学習(il)アプローチが提案されており、ディープラーニングモデルが新しいタスクやクラスを継続的に学習するのに役立つ。 新たなタスクを動的に取り入れ、ユーザからの入力分布を変更する必要があるデプロイされたオーディオセンシングアプリケーションが増えているため、ILオンデバイス機能は、効率とユーザのプライバシの両方に不可欠である。 しかし、以前の作業は高い計算コストとストレージ要求に苦しむため、デバイスへのilのデプロイが妨げられる。 本稿では,これらの制約を克服するために,音声ベースのアプリケーションにおいて,例題ベースのilと量子化を組み込んだ,エンドツーエンドでオンデバイスなilフレームワークであるfasticarlを開発した。 まずk-nearest-neighborを用いてILのレイテンシを低減する。 そして,ilの保存要件を減らすために,量子化手法を併用した。 我々は,FastICARLを2種類のモバイルデバイスに実装し,FastICARLが性能を犠牲にすることなく,IL時間を78~92%,ストレージ要求を2~4倍減少させることを示した。 FastICARLはデバイス上の完全なILを可能にし、ユーザデータがデバイスを離れる必要がないため、ユーザのプライバシを確保する。

Various incremental learning (IL) approaches have been proposed to help deep learning models learn new tasks/classes continuously without forgetting what was learned previously (i.e., avoid catastrophic forgetting). With the growing number of deployed audio sensing applications that need to dynamically incorporate new tasks and changing input distribution from users, the ability of IL on-device becomes essential for both efficiency and user privacy. However, prior works suffer from high computational costs and storage demands which hinders the deployment of IL on-device. In this work, to overcome these limitations, we develop an end-to-end and on-device IL framework, FastICARL, that incorporates an exemplar-based IL and quantization in the context of audio-based applications. We first employ k-nearest-neighbor to reduce the latency of IL. Then, we jointly utilize a quantization technique to decrease the storage requirements of IL. We implement FastICARL on two types of mobile devices and demonstrate that FastICARL remarkably decreases the IL time up to 78-92% and the storage requirements by 2-4 times without sacrificing its performance. FastICARL enables complete on-device IL, ensuring user privacy as the user data does not need to leave the device.
翻訳日:2021-06-15 15:34:32 公開日:2021-06-14
# データサイエンス方法論の現状と今後の課題

Data Science Methodologies: Current Challenges and Future Approaches ( http://arxiv.org/abs/2106.07287v1 )

ライセンス: Link先を確認
I\~nigo Martinez, Elisabeth Viles, Igor G. Olaizola(参考訳) データサイエンスは高度な分析の開発、データモデルの改善、新しいアルゴリズムの育成に多大な研究を続けてきた。 しかし、データサイエンスプロジェクトを実行する際に生じる組織的および社会技術的課題には、多くの著者が遭遇していない: ビジョンと明確な目的の欠如、技術的な問題への偏り、アドホックなプロジェクトの成熟度が低いこと、データサイエンスにおける役割の曖昧さ。 この種の課題に取り組む文献について提案されている方法論はほとんどなく、1990年中頃までさかのぼるものもあるため、現在のパラダイムやビッグデータや機械学習技術の最新の発展には更新されていない。 さらに、チーム、プロジェクト、データおよび情報管理の完全なガイドラインを提供する方法論は少ない。 この記事では、データサイエンスプロジェクトを実行するためのより包括的なアプローチを開発する必要性について検討する。 データサイエンスプロジェクトに取り組むための文献に提示された方法論をまずレビューし,その対象であるプロジェクト,チーム,データおよび情報管理に従って分類する。 最後に、総合的な視点でデータサイエンスプロジェクトを管理する方法論が持つべき一般的な特徴を含む概念的枠組みを提案する。 このフレームワークは、他の研究者によって、新しいデータサイエンス方法論の設計や既存手法の更新のロードマップとして使用することができる。

Data science has employed great research efforts in developing advanced analytics, improving data models and cultivating new algorithms. However, not many authors have come across the organizational and socio-technical challenges that arise when executing a data science project: lack of vision and clear objectives, a biased emphasis on technical issues, a low level of maturity for ad-hoc projects and the ambiguity of roles in data science are among these challenges. Few methodologies have been proposed on the literature that tackle these type of challenges, some of them date back to the mid-1990, and consequently they are not updated to the current paradigm and the latest developments in big data and machine learning technologies. In addition, fewer methodologies offer a complete guideline across team, project and data & information management. In this article we would like to explore the necessity of developing a more holistic approach for carrying out data science projects. We first review methodologies that have been presented on the literature to work on data science projects and classify them according to the their focus: project, team, data and information management. Finally, we propose a conceptual framework containing general characteristics that a methodology for managing data science projects with a holistic point of view should have. This framework can be used by other researchers as a roadmap for the design of new data science methodologies or the updating of existing ones.
翻訳日:2021-06-15 15:34:10 公開日:2021-06-14
# 非線形次元低減のための量子拡散マップ

Quantum diffusion map for nonlinear dimensionality reduction ( http://arxiv.org/abs/2106.07302v1 )

ライセンス: Link先を確認
Apimuk Sornsaeng, Ninnat Dangniam, Pantita Palittapongarnpim, Thiparat Chotibut(参考訳) グラフ上のランダムウォークにインスパイアされた拡散マップ(DM)は、高次元データセットに隠された低次元データ構造の自動識別を提供する教師なし機械学習のクラスである。 近年、多くの応用において、DMは多体系における関連する秩序パラメータの発見に成功し、物質の量子位相の自動分類を可能にしている。 しかし、古典的DMアルゴリズムは大規模データセットでは計算が禁止されており、時間複雑性の低減が望ましい。 量子計算の高速化を念頭に置いて,量子拡散マップ(qdm)と呼ばれるdmのための量子アルゴリズムを提案する。 我々のqDMは、入力Nの古典的データベクトルとして、時間$O(\log^3 N)$でマルコフ遷移行列の固有分解を行い、古典的には固有ベクトルの読み出し(トモグラフィ)を通して拡散マップを構築し、合計ランタイムは$O(N^2 \text{polylog}\, N)$である。 最後に、マルコフ遷移作用素を構成するためのqDMの量子サブルーチンとそのスペクトル特性の分析は、他のランダムウォークベースのアルゴリズムにも有用である。

Inspired by random walk on graphs, diffusion map (DM) is a class of unsupervised machine learning that offers automatic identification of low-dimensional data structure hidden in a high-dimensional dataset. In recent years, among its many applications, DM has been successfully applied to discover relevant order parameters in many-body systems, enabling automatic classification of quantum phases of matter. However, classical DM algorithm is computationally prohibitive for a large dataset, and any reduction of the time complexity would be desirable. With a quantum computational speedup in mind, we propose a quantum algorithm for DM, termed quantum diffusion map (qDM). Our qDM takes as an input N classical data vectors, performs an eigen-decomposition of the Markov transition matrix in time $O(\log^3 N)$, and classically constructs the diffusion map via the readout (tomography) of the eigenvectors, giving a total runtime of $O(N^2 \text{polylog}\, N)$. Lastly, quantum subroutines in qDM for constructing a Markov transition operator, and for analyzing its spectral properties can also be useful for other random walk-based algorithms.
翻訳日:2021-06-15 15:33:48 公開日:2021-06-14
# 低次元ユークリッド空間における制約付きk中間およびk平均クラスタリングのコアセット

Coresets for constrained k-median and k-means clustering in low dimensional Euclidean space ( http://arxiv.org/abs/2106.07319v1 )

ライセンス: Link先を確認
Melanie Schmidt and Julian Wargalla(参考訳) 私たちはストリーミングモデルに制約付きで、k$medianとk$-means(euclidean)を調べました。 制約の下で実現可能性の多項式計算可能性(もしクラスタリングが制約を満たすなら計算する)や効率的な割当オラクルの存在(センターの集合を配置し、制約を満たすセンターへの最適なポイントの割り当てを生成する)といった穏やかな仮定を除いて、手元に特定の制約の知識を用いることなく、制約付き$k$-means問題を解くための統一アルゴリズムの設計が近年行われている。 これらのアルゴリズムは、実行時間は$k$で指数関数的であるが、幅広い制約に適用できる。 2019年に提案された制限付きストリーミング$k$-means問題の解法、すなわちフェア$k$-meansクラスタリングは、実際にこれらの制約すべてに対してストリーミングアルゴリズムを暗示している。 これらは低次元ユークリッド空間に作用する。 [なお、現在、k$-meansをストリーミングするためのアルゴリズムが増えていることに注意してください。特に、高次元空間にも存在します。]

We study (Euclidean) $k$-median and $k$-means with constraints in the streaming model. There have been recent efforts to design unified algorithms to solve constrained $k$-means problems without using knowledge of the specific constraint at hand aside from mild assumptions like the polynomial computability of feasibility under the constraint (compute if a clustering satisfies the constraint) or the presence of an efficient assignment oracle (given a set of centers, produce an optimal assignment of points to the centers which satisfies the constraint). These algorithms have a running time exponential in $k$, but can be applied to a wide range of constraints. We demonstrate that a technique proposed in 2019 for solving a specific constrained streaming $k$-means problem, namely fair $k$-means clustering, actually implies streaming algorithms for all these constraints. These work for low dimensional Euclidean space. [Note that there are more algorithms for streaming fair $k$-means today, in particular they exist for high dimensional spaces now as well.]
翻訳日:2021-06-15 15:33:27 公開日:2021-06-14
# MLPerf Tinyベンチマーク

MLPerf Tiny Benchmark ( http://arxiv.org/abs/2106.07597v1 )

ライセンス: Link先を確認
Colby Banbury, Vijay Janapa Reddi, Peter Torelli, Jeremy Holleman, Nat Jeffries, Csaba Kiraly, Pietro Montino, David Kanter, Sebastian Ahmed, Danilo Pau, Urmish Thakker, Antonio Torrini, Peter Warden, Jay Cordaro, Giuseppe Di Guglielmo, Javier Duarte, Stephen Gibellini, Videet Parekh, Honson Tran, Nhan Tran, Niu Wenxu, Xu Xuesong(参考訳) 超低消費電力の小さな機械学習(TinyML)システムの進歩は、まったく新しいタイプのスマートアプリケーションをアンロックすることを約束する。 しかし、これらのシステムに対する広く受け入れられ、容易に再現可能なベンチマークが欠如しているため、継続的な進歩は限られている。 このニーズを満たすために、超低消費電力の小型機械学習システムのための業界標準ベンチマークスイートであるmlperf tinyを紹介します。 ベンチマークスイートは、業界や学界から50以上の組織による協力作業であり、コミュニティのニーズを反映している。 MLPerf Tinyは、機械学習推論の正確性、レイテンシ、エネルギーを測定し、システム間のトレードオフを適切に評価する。 さらに、MLPerf Tinyは、ベンチマーク提出者がMLデプロイメントスタックのどこに落ちても、公平かつ再現可能な方法で、製品のメリットを示すことができるモジュール設計を実装している。 このスイートには、キーワードスポッティング、視覚覚醒語、画像分類、異常検出の4つのベンチマークがある。

Advancements in ultra-low-power tiny machine learning (TinyML) systems promise to unlock an entirely new class of smart applications. However, continued progress is limited by the lack of a widely accepted and easily reproducible benchmark for these systems. To meet this need, we present MLPerf Tiny, the first industry-standard benchmark suite for ultra-low-power tiny machine learning systems. The benchmark suite is the collaborative effort of more than 50 organizations from industry and academia and reflects the needs of the community. MLPerf Tiny measures the accuracy, latency, and energy of machine learning inference to properly evaluate the tradeoffs between systems. Additionally, MLPerf Tiny implements a modular design that enables benchmark submitters to show the benefits of their product, regardless of where it falls on the ML deployment stack, in a fair and reproducible manner. The suite features four benchmarks: keyword spotting, visual wake words, image classification, and anomaly detection.
翻訳日:2021-06-15 15:32:53 公開日:2021-06-14
# 曲面上のベクトル場の比較:皮質の折りたたみの向きを特徴付けるための興味

Comparing vector fields across surfaces: interest for characterizing the orientations of cortical folds ( http://arxiv.org/abs/2106.07470v1 )

ライセンス: Link先を確認
Amine Bohi, Guillaume Auzias and Julien Lef\`evre(参考訳) 曲面上で定義されるベクトル場は、関連性があり有用な表現を構成するが、ほとんど使われない。 一つの理由は、同じ属の2つの曲面でベクトル場を比較することは自明なものではなく、元の曲面から共通の領域へベクトル場を輸送する必要があるからかもしれない。 本稿では,ベクトル場を共通空間にマッピングし,微分幾何学の概念を用いて,この課題を達成するための枠組みを提案する。 提案フレームワークはベクトル場上の統計の計算を可能にする。 我々は,皮質の折りたたみパターンの複雑な幾何学を記述した曲率方向の再現性を定量的に評価し,実データに適用することに興味を示した。 提案するフレームワークは汎用的であり,様々な種類のベクトル場や表面に適用することができる。

Vectors fields defined on surfaces constitute relevant and useful representations but are rarely used. One reason might be that comparing vector fields across two surfaces of the same genus is not trivial: it requires to transport the vector fields from the original surfaces onto a common domain. In this paper, we propose a framework to achieve this task by mapping the vector fields onto a common space, using some notions of differential geometry. The proposed framework enables the computation of statistics on vector fields. We demonstrate its interest in practice with an application on real data with a quantitative assessment of the reproducibility of curvature directions that describe the complex geometry of cortical folding patterns. The proposed framework is general and can be applied to different types of vector fields and surfaces, allowing for a large number of high potential applications in medical imaging.
翻訳日:2021-06-15 15:32:38 公開日:2021-06-14
# 機械学習の分子動力学への応用

Machine Learning Implicit Solvation for Molecular Dynamics ( http://arxiv.org/abs/2106.07492v1 )

ライセンス: Link先を確認
Yaoyi Chen, Andreas Kr\"amer, Nicholas E. Charron, Brooke E. Husic, Cecilia Clementi, Frank No\'e(参考訳) 生物分子の溶媒環境の正確なモデリングは、計算生物学と薬物設計に不可欠である。 システムサイズの長いシミュレーション時間スケールを達成するための一般的なアプローチは、溶媒の効果を暗黙の溶媒モデルで平均場に組み込むことである。 しかしながら、既存の暗黙溶媒モデルにおける課題は、無視された溶媒分子の多体効果が平均場としてモデル化することが困難であるため、明示溶媒モデルと比較して精度や特定の物理的性質が欠けていることである。 そこで,我々は機械学習 (ml) と多スケール粗粒化 (cg) を利用して,与えられた明示的な溶媒モデルのエネルギー的および熱力学的性質を十分に訓練されたデータから任意の精度で近似できる暗黙の溶媒モデルを学習する。 従来の ml-cg モデル cgnet と cgschnet に続いて,グラフニューラルネットワークである issnet を導入し,平均力の暗黙の溶媒ポテンシャルをモデル化する。 ISSNetは明示的な溶媒シミュレーションデータから学習でき、MDシミュレーションにも容易に適用できる。 2つのペプチド系に対する溶解処理における溶質配座分布の比較を行った。 その結果, ISSNetモデルでは, 顕在溶媒に対する小タンパク質系の熱力学の再現において, 広く用いられている一般化ボルンモデルや表面積モデルよりも優れることが示された。 この手法の成功は、シリコ研究および生物医学応用における溶媒効果の正確なモデリングに機械学習手法を適用する潜在的な利点を示している。

Accurate modeling of the solvent environment for biological molecules is crucial for computational biology and drug design. A popular approach to achieve long simulation time scales for large system sizes is to incorporate the effect of the solvent in a mean-field fashion with implicit solvent models. However, a challenge with existing implicit solvent models is that they often lack accuracy or certain physical properties compared to explicit solvent models, as the many-body effects of the neglected solvent molecules is difficult to model as a mean field. Here, we leverage machine learning (ML) and multi-scale coarse graining (CG) in order to learn implicit solvent models that can approximate the energetic and thermodynamic properties of a given explicit solvent model with arbitrary accuracy, given enough training data. Following the previous ML--CG models CGnet and CGSchnet, we introduce ISSNet, a graph neural network, to model the implicit solvent potential of mean force. ISSNet can learn from explicit solvent simulation data and be readily applied to MD simulations. We compare the solute conformational distributions under different solvation treatments for two peptide systems. The results indicate that ISSNet models can outperform widely-used generalized Born and surface area models in reproducing the thermodynamics of small protein systems with respect to explicit solvent. The success of this novel method demonstrates the potential benefit of applying machine learning methods in accurate modeling of solvent effects for in silico research and biomedical applications.
翻訳日:2021-06-15 15:32:25 公開日:2021-06-14
# プライベートシンセティックデータの反復的手法:フレームワークの統一と新しい手法

Iterative Methods for Private Synthetic Data: Unifying Framework and New Methods ( http://arxiv.org/abs/2106.07153v1 )

ライセンス: Link先を確認
Terrance Liu, Giuseppe Vietri, Zhiwei Steven Wu(参考訳) そこで我々は,大量の統計クエリに対する回答を概ね保存する,機密性の高いデータセットのサニタイズバージョンを構築することを目的とした,クエリリリースのためのプライベートな合成データ生成について検討した。 まず、文献における反復アルゴリズムの長い行を統一するアルゴリズムフレームワークを提案する。 この枠組みでは2つの新しい手法を提案する。 第1の手法であるプライベートエントロピープロジェクション(PEP)は、過去のクエリ測定を適応的に再利用して精度を高めるMWEMの高度な変種と見なすことができる。 第2の手法である指数関数機構(GEM)による生成ネットワークは,ニューラルネットワークによってパラメータ化される生成モデルを最適化することにより,MWEMやPEPといったアルゴリズムの計算ボトルネックを回避する。 我々は、PEPとGEMが既存のアルゴリズムを実証的に上回ることを示した。 さらに、GEMは、公開データを利用した既存の最先端手法であるPMW^Pubの限界を克服しつつ、公開データからの事前情報をうまく取り入れていることを示す。

We study private synthetic data generation for query release, where the goal is to construct a sanitized version of a sensitive dataset, subject to differential privacy, that approximately preserves the answers to a large collection of statistical queries. We first present an algorithmic framework that unifies a long line of iterative algorithms in the literature. Under this framework, we propose two new methods. The first method, private entropy projection (PEP), can be viewed as an advanced variant of MWEM that adaptively reuses past query measurements to boost accuracy. Our second method, generative networks with the exponential mechanism (GEM), circumvents computational bottlenecks in algorithms such as MWEM and PEP by optimizing over generative models parameterized by neural networks, which capture a rich family of distributions while enabling fast gradient-based optimization. We demonstrate that PEP and GEM empirically outperform existing algorithms. Furthermore, we show that GEM nicely incorporates prior information from public data while overcoming limitations of PMW^Pub, the existing state-of-the-art method that also leverages public data.
翻訳日:2021-06-15 15:30:14 公開日:2021-06-14
# ニューラルプログラム合成のためのサンプルごとの解の組み合わせ学習

Learning to Combine Per-Example Solutions for Neural Program Synthesis ( http://arxiv.org/abs/2106.07175v1 )

ライセンス: Link先を確認
Disha Shrivastava, Hugo Larochelle, Daniel Tarlow(参考訳) 例からのプログラム合成の目標は、与えられた入出力例のセットと一致するコンピュータプログラムを見つけることである。 ほとんどの学習ベースのアプローチは、一度にすべての例を満たすプログラムを見つけようとします。 対照的に、我々の研究は問題を2段階に分割するアプローチを考察している: (a) 1つの例のみを満たすプログラムを見つけ、 (b) 例ごとのソリューションを活用して全ての例を満たすプログラムを得る。 マルチヘッドアテンション機構をベースとしたCross Aggregatorニューラルネットモジュールを導入し、これらのサンプルごとのソリューションに存在するキューを組み合わせることで、グローバルなソリューションを合成する。 異なる長さのプログラムと2つの異なる実験環境での評価により、同じ時間予算が与えられると、pccoder arxiv:1809.04682v2[cs.lg]や他のアブレーションベースラインよりも成功率が著しく向上することが明らかとなった。 私たちの仕事のコード、データ、トレーニングされたモデルは、https://github.com/s hrivastavadisha/n-pe psにあります。

The goal of program synthesis from examples is to find a computer program that is consistent with a given set of input-output examples. Most learning-based approaches try to find a program that satisfies all examples at once. Our work, by contrast, considers an approach that breaks the problem into two stages: (a) find programs that satisfy only one example, and (b) leverage these per-example solutions to yield a program that satisfies all examples. We introduce the Cross Aggregator neural network module based on a multi-head attention mechanism that learns to combine the cues present in these per-example solutions to synthesize a global solution. Evaluation across programs of different lengths and under two different experimental settings reveal that when given the same time budget, our technique significantly improves the success rate over PCCoder arXiv:1809.04682v2 [cs.LG] and other ablation baselines. The code, data and trained models for our work can be found at https://github.com/s hrivastavadisha/N-PE PS.
翻訳日:2021-06-15 15:29:56 公開日:2021-06-14
# 多層ネットワークにおける最適輸送

Optimal transport in multilayer networks ( http://arxiv.org/abs/2106.07202v1 )

ライセンス: Link先を確認
Abdullahi Adinoyi Ibrahim, Alessandro Lonardi and Caterina De Bacco(参考訳) 多層ネットワークにおけるトラフィック分布のモデル化と最適フローの抽出は、効率的なマルチモーダルネットワークインフラストラクチャを設計する上で最も重要である。 最適輸送理論に基づく最近の結果は、この問題に対処するための強力で計算効率の良い手法を提供するが、それらは主に単層ネットワークのモデリングに焦点を当てている。 本稿では,多層ネットワーク上での最適流れの分散について検討する。 本稿では,各層上の最適フローが,コストの最小化に寄与するモデルを提案する。 これは、レイヤによって異なるパラメータによって行われるため、様々なレイヤのトラフィック混雑に対する感度を柔軟に調整することができる。 アプリケーションとして,各層が異なる輸送システムと関連づけられた輸送ネットワークを考察し,このパラメータをレイヤ間でチューニングすることで,トラフィック分布がどのように変化するかを示す。 この結果は、バスと路面電車のあるボルドー市の実際の2層ネットワークに例を示し、ある地域では路面電車網の存在が道路網の交通を著しく損なうことを発見した。 本モデルは, 実マルチ層ネットワークにおける最適流れと航法性戦略のさらなる解析方法である。

Modeling traffic distribution and extracting optimal flows in multilayer networks is of utmost importance to design efficient multi-modal network infrastructures. Recent results based on optimal transport theory provide powerful and computationally efficient methods to address this problem, but they are mainly focused on modeling single-layer networks. Here we adapt these results to study how optimal flows distribute on multilayer networks. We propose a model where optimal flows on different layers contribute differently to the total cost to be minimized. This is done by means of a parameter that varies with layers, which allows to flexibly tune the sensitivity to traffic congestion of the various layers. As an application, we consider transportation networks, where each layer is associated to a different transportation system and show how the traffic distribution varies as we tune this parameter across layers. We show an example of this result on the real 2-layer network of the city of Bordeaux with bus and tram, where we find that in certain regimes the presence of the tram network significantly unburdens the traffic on the road network. Our model paves the way to further analysis of optimal flows and navigability strategies in real multilayer networks.
翻訳日:2021-06-15 15:29:35 公開日:2021-06-14
# 分散化連帯型min-max問題

Decentralized Personalized Federated Min-Max Problems ( http://arxiv.org/abs/2106.07289v1 )

ライセンス: Link先を確認
Aleksandr Beznosikov and Vadim Sushko and Abdurakhmon Sadiev and Alexander Gasnikov(参考訳) パーソナライズド・フェデレートド・ラーニング(Personalized Federated Learning)は、最近大きく進歩し、トレーニングに使用されるデータのプライバシを保存する新しい機械学習アプリケーションの設計を可能にした。 この分野での既存の理論結果は、主に最小化問題の下での分散最適化に焦点を当てている。 本論文は,より広範な最適化タスクを網羅し,最小化よりも応用性が高い,サドル点問題に対するPFLを初めて研究したものである。 本研究では,グローバルモデルの学習をローカル分散学習者と組み合わせた手法である混合目的関数を用いた最近提案されたPFLについて考察する。 中央集権的な設定のみを考慮した以前のほとんどの論文とは異なり、より一般的で分散化された設定で作業しています。 これにより、デバイスとネットワークを接続するより実用的で連合した方法の設計と分析が可能になる。 我々はこの問題に対して2つの新しいアルゴリズムを提案する。 この手法の理論的解析は滑らかな(強い)凸-(強い)凹点問題に対して提示される。 また,逆方向雑音を持つニューラルネットワーク実験における問題定式化と提案アルゴリズムの有効性を実証した。

Personalized Federated Learning has recently seen tremendous progress, allowing the design of novel machine learning applications preserving privacy of the data used for training. Existing theoretical results in this field mainly focus on distributed optimization under minimization problems. This paper is the first to study PFL for saddle point problems, which cover a broader class of optimization tasks and are thus of more relevance for applications than the minimization. In this work, we consider a recently proposed PFL setting with the mixing objective function, an approach combining the learning of a global model together with local distributed learners. Unlike most of the previous papers, which considered only the centralized setting, we work in a more general and decentralized setup. This allows to design and to analyze more practical and federated ways to connect devices to the network. We present two new algorithms for our problem. A theoretical analysis of the methods is presented for smooth (strongly-)convex-(s trongly-)concave saddle point problems. We also demonstrate the effectiveness of our problem formulation and the proposed algorithms on experiments with neural networks with adversarial noise.
翻訳日:2021-06-15 15:29:16 公開日:2021-06-14
# INNformant: 境界サンプルを透かしとして

iNNformant: Boundary Samples as Telltale Watermarks ( http://arxiv.org/abs/2106.07303v1 )

ライセンス: Link先を確認
Alexander Schl\"ogl, Tobias Kupek, Rainer B\"ohme(参考訳) 境界サンプルは、結果のアウトプットラベルによって推論に使用される実行環境を特定するために作られた人工ニューラルネットワークへの特別な入力である。 本論文は,透明境界サンプル生成のためのアルゴリズムを提示し,評価する。 透明性とは、ホスト信号(すなわち、自然な入力サンプル)の小さな知覚的歪みを指す。 FMNIST 上の ResNet と CIFAR10 の2つの画像分類器に対して,テストされた4つのマイクロアーキテクチャのいずれかを識別できる境界サンプルセットを生成することができることを示す。 これらのセットは70dbより低いピーク信号対ノイズ比のサンプルを含まないように構築できる。 検索複雑性と結果の透明性の関係を解析する。

Boundary samples are special inputs to artificial neural networks crafted to identify the execution environment used for inference by the resulting output label. The paper presents and evaluates algorithms to generate transparent boundary samples. Transparency refers to a small perceptual distortion of the host signal (i.e., a natural input sample). For two established image classifiers, ResNet on FMNIST and CIFAR10, we show that it is possible to generate sets of boundary samples which can identify any of four tested microarchitectures. These sets can be built to not contain any sample with a worse peak signal-to-noise ratio than 70dB. We analyze the relationship between search complexity and resulting transparency.
翻訳日:2021-06-15 15:29:01 公開日:2021-06-14
# バロン空間における楕円型PDE解の表現について

On the Representation of Solutions to Elliptic PDEs in Barron Spaces ( http://arxiv.org/abs/2106.07539v1 )

ライセンス: Link先を確認
Ziang Chen, Jianfeng Lu, Yulong Lu(参考訳) ニューラルネットワークに基づく高次元偏微分方程式(PDE)の数値解は、エキサイティングな発展を遂げている。 本稿では、バロン空間における$d$次元2階楕円型PDEの解の複雑性推定を導出する。これはパラメータ上の確率測度に対してあるパラメトリックリッジ関数の積分を許容する関数の集合である。 いくつかの適切な仮定の下で、楕円型PDEの係数と原項がバロン空間にあるなら、PDEの解はバロン函数のノルムに対して$H^1$-閉である。 さらに、この近似解のバロンノルムの次元-明示境界は、PDEの次元$d$の多項式によって証明される。 複雑性推定の直接的な結果として、pdeの解は次元指数収束率の$h^1$ノルムに関する2層ニューラルネットワークによって任意の有界領域上で近似することができる。

Numerical solutions to high-dimensional partial differential equations (PDEs) based on neural networks have seen exciting developments. This paper derives complexity estimates of the solutions of $d$-dimensional second-order elliptic PDEs in the Barron space, that is a set of functions admitting the integral of certain parametric ridge function against a probability measure on the parameters. We prove under some appropriate assumptions that if the coefficients and the source term of the elliptic PDE lie in Barron spaces, then the solution of the PDE is $\epsilon$-close with respect to the $H^1$ norm to a Barron function. Moreover, we prove dimension-explicit bounds for the Barron norm of this approximate solution, depending at most polynomially on the dimension $d$ of the PDE. As a direct consequence of the complexity estimates, the solution of the PDE can be approximated on any bounded domain by a two-layer neural network with respect to the $H^1$ norm with a dimension-explicit convergence rate.
翻訳日:2021-06-15 15:28:50 公開日:2021-06-14
# 汎用ネットワーク上での分散最適化のための圧縮勾配追従法

Compressed Gradient Tracking for Decentralized Optimization Over General Directed Networks ( http://arxiv.org/abs/2106.07243v1 )

ライセンス: Link先を確認
Zhuoqing Song, Lei Shi, Shi Pu, Ming Yan(参考訳) 本稿では,汎用的なネットワークトポロジを持つマルチエージェントネットワーク上での分散最適化のための2つの通信効率アルゴリズムを提案する。 まず,Push-Pull法とPush-Pull法を組み合わせた,CPP(Compressed Push-Pull)と呼ばれる通信効率の高い勾配追跡手法を提案する。 その結果, cpp は非バイアス圧縮作用素の一般クラスに適用可能であり, 強凸および滑らかな対象関数に対して線形収束を実現する。 第2部では、目的関数の同じ条件下での線形収束率も達成するCPP(B-CPP)の放送様バージョンを提案する。 B-CPPは非同期ブロードキャスト設定に適用でき、CPPと比較して通信コストをさらに削減できる。 数値実験は理論解析を補完し,提案手法の有効性を確認する。

In this paper, we propose two communication-effici ent algorithms for decentralized optimization over a multi-agent network with general directed network topology. In the first part, we consider a novel communication-effici ent gradient tracking based method, termed Compressed Push-Pull (CPP), which combines the Push-Pull method with communication compression. We show that CPP is applicable to a general class of unbiased compression operators and achieves linear convergence for strongly convex and smooth objective functions. In the second part, we propose a broadcast-like version of CPP (B-CPP), which also achieves linear convergence rate under the same conditions for the objective functions. B-CPP can be applied in an asynchronous broadcast setting and further reduce communication costs compared to CPP. Numerical experiments complement the theoretical analysis and confirm the effectiveness of the proposed methods.
翻訳日:2021-06-15 15:28:05 公開日:2021-06-14
# 単純錯体の信号処理

Signal processing on simplicial complexes ( http://arxiv.org/abs/2106.07471v1 )

ライセンス: Link先を確認
Michael T. Schaub, Jean-Baptiste Seby, Florian Frantzen, T. Mitchell Roddenberry, Yu Zhu, Santiago Segarra(参考訳) これまで、高階ネットワークは、主に複雑なシステムの構造、すなわち構成体を接続する高階関係やマルチウェイ関係の研究の文脈において検討されてきた。 最近では、流行の広がりや意見形成といった文脈で、そのような高次依存関係を明示的にacカウントする動的過程を多くの研究が検討している。 本章では,高次ネットワーク構造をサポートする信号やデータを処理するために,高次関係をどのように利用できるか,という,密接に関連するが明確な第3の視点に焦点を当てる。 特に、時系列や画像といった正規ドメインでサポートされているデータの信号処理からのアイデアをグラフや簡素なコンプレックスに拡張する方法について調査する。 本稿では, ニューラルネットワークを用いたフーリエ解析, 信号復号化, 信号補間, 非線形処理について述べる。 我々の発展の鍵はホッジラプラシアン行列(hodge laplacian matrix)であり、単純複体の特殊構造を利用してグラフ信号処理においてラプラシアン行列の望ましい性質を一般化する多項作用素である。

Higher-order networks have so far been considered primarily in the context of studying the structure of complex systems, i.e., the higher-order or multi-way relations connecting the constituent entities. More recently, a number of studies have considered dynamical processes that explicitly ac- count for such higher-order dependencies, e.g., in the context of epidemic spreading processes or opinion formation. In this chapter, we focus on a closely related, but distinct third perspective: how can we use higher-order relationships to process signals and data supported on higher-order network structures. In particular, we survey how ideas from signal processing of data supported on regular domains, such as time series or images, can be extended to graphs and simplicial complexes. We discuss Fourier analysis, signal denois- ing, signal interpolation, and nonlinear processing through neural networks based on simplicial complexes. Key to our developments is the Hodge Laplacian matrix, a multi-relational operator that leverages the special structure of simplicial complexes and generalizes desirable properties of the Laplacian matrix in graph signal processing.
翻訳日:2021-06-15 15:27:52 公開日:2021-06-14