このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201023となっている論文です。

PDF登録状況(公開日: 20201023)

TitleAuthorsAbstract論文公表日・翻訳日
# Pinned QMA: 証明における数量子ビットの修正の力

Pinned QMA: The power of fixing a few qubits in proofs ( http://arxiv.org/abs/2001.03636v2 )

ライセンス: Link先を確認
Daniel Nagaj, Dominik Hangleiter, Jens Eisert, and Martin Schwarz(参考訳) システムの1量子ビットを固定して、それを特定の状態に固定すればどうなるでしょう? まず, 局所ハミルトニアン問題の基底状態特性である静的質問の複雑性を大幅に増加させることができることを示す。 特に、Pinned commutingとPinned Stoquastic Local Hamiltonianの問題はQMA完備であることを示す。 第2に、しばしば繰り返し測定される1つの量子ビットをピン止めすることで、既に可換および確率的ハミルトニアンの普遍的な量子計算ができることを示す。 最後に、ピンニングの観点から、GSCON問題の変種について論じ、Stoquastic GSCONがQCMA完了であることを示す。 そこで我々は1つのクリーンな量子ビットモデルのパワーを思い起こさせるピンニングの計算能力の包括的イメージを同定する。

What could happen if we pinned a single qubit of a system and fixed it in a particular state? First, we show that this can greatly increase the complexity of static questions -- ground state properties of local Hamiltonian problems with restricted types of terms. In particular, we show that the Pinned commuting and Pinned Stoquastic Local Hamiltonian problems are QMA complete. Second, we show that pinning a single qubit via often repeated measurements also results in universal quantum computation already with commuting and stoquastic Hamiltonians. Finally, we discuss variants of the Ground State Connectivity (GSCON) problem in light of pinning, and show that Stoquastic GSCON is QCMA complete. We hence identify a comprehensive picture of the computational power of pinning, reminiscent of the power of the one clean qubit model.
翻訳日:2023-01-12 23:32:03 公開日:2020-10-23
# 確率的非凸強凸ミニマックス問題に対する確率的再帰的勾配降下上昇

Stochastic Recursive Gradient Descent Ascent for Stochastic Nonconvex-Strongly-Concave Minimax Problems ( http://arxiv.org/abs/2001.03724v2 )

ライセンス: Link先を確認
Luo Luo, Haishan Ye, Zhichao Huang, Tong Zhang(参考訳) ここで、$f$ は $\bf y$ の強凸であるが、$\bf x$ と ${\mathcal Y}$ の非凸であれば $\bf x$ と ${\mathcal Y}$ は凸コンパクト集合である。 私たちは確率的設定に注目し、各イテレーションでバイアスのない確率的勾配の見積もりにのみアクセスできる。 この定式化には、堅牢な最適化や逆トレーニングといった特別なケースとして、多くの機械学習アプリケーションが含まれている。 我々は、函数 $\Phi(\cdot)=\max_{\bf y\in{\mathcal Y}} f(\cdot, {\bf y})$ の ${\mathcal O}(\varepsilon)$-定常点を見つけることに興味がある。 この問題を解くための最も一般的なアルゴリズムは確率勾配の上昇であり、$\mathcal O(\kappa^3\varepsilon^{-4})$ 確率勾配の評価が必要であり、$\kappa$は条件数である。 本稿では,分散還元法を用いてより効率的に勾配を推定する,確率的再帰的勾配降下上昇法(sreda)という新しい手法を提案する。 この方法は${\mathcal O}(\kappa^3\varepsilon^{-3})$の確率勾配複雑性を最もよく知られており、$\varepsilon$への依存はこの問題に最適である。

We consider nonconvex-concave minimax optimization problems of the form $\min_{\bf x}\max_{\bf y\in{\mathcal Y}} f({\bf x},{\bf y})$, where $f$ is strongly-concave in $\bf y$ but possibly nonconvex in $\bf x$ and ${\mathcal Y}$ is a convex and compact set. We focus on the stochastic setting, where we can only access an unbiased stochastic gradient estimate of $f$ at each iteration. This formulation includes many machine learning applications as special cases such as robust optimization and adversary training. We are interested in finding an ${\mathcal O}(\varepsilon)$-stationary point of the function $\Phi(\cdot)=\max_{\bf y\in{\mathcal Y}} f(\cdot, {\bf y})$. The most popular algorithm to solve this problem is stochastic gradient decent ascent, which requires $\mathcal O(\kappa^3\varepsilon^{-4})$ stochastic gradient evaluations, where $\kappa$ is the condition number. In this paper, we propose a novel method called Stochastic Recursive gradiEnt Descent Ascent (SREDA), which estimates gradients more efficiently using variance reduction. This method achieves the best known stochastic gradient complexity of ${\mathcal O}(\kappa^3\varepsilon^{-3})$, and its dependency on $\varepsilon$ is optimal for this problem.
翻訳日:2023-01-12 09:25:36 公開日:2020-10-23
# 異なる粒度の文脈知覚的特徴摂動に対するロバスト性の評価

Evaluating Robustness to Context-Sensitive Feature Perturbations of Different Granularities ( http://arxiv.org/abs/2001.11055v3 )

ライセンス: Link先を確認
Isaac Dunn, Laura Hanu, Hadrien Pouget, Daniel Kroening, Tom Melham(参考訳) トレーニングデータセットが、デプロイメント中に遭遇するインプットの分布を表すものであることは保証できません。 ですから、この仮定ではモデルが過度に信頼されません。 そこで本稿では,画像分類器の入力に対するコンテキスト依存的特徴摂動(形状,位置,テクスチャ,色など)を識別する新しい手法を提案する。 訓練された生成ニューラルネットワークの異なるレイヤのアクティベーション値に小さな調整を行うことで、これらの変化を生み出す。 ジェネレータの早い段階でのレイヤの摂動は粒度の粗い特徴に変化をもたらし、さらに粒度の細かい変化を引き起こす。 当然のことながら、最先端の分類器はそのような変化に対して堅牢ではない。 より驚くべきことに、粗大な特徴の変化に関して言えば、ピクセル空間の摂動に対する敵対的なトレーニングは、単に非生産的ではない。

We cannot guarantee that training datasets are representative of the distribution of inputs that will be encountered during deployment. So we must have confidence that our models do not over-rely on this assumption. To this end, we introduce a new method that identifies context-sensitive feature perturbations (e.g. shape, location, texture, colour) to the inputs of image classifiers. We produce these changes by performing small adjustments to the activation values of different layers of a trained generative neural network. Perturbing at layers earlier in the generator causes changes to coarser-grained features; perturbations further on cause finer-grained changes. Unsurprisingly, we find that state-of-the-art classifiers are not robust to any such changes. More surprisingly, when it comes to coarse-grained feature changes, we find that adversarial training against pixel-space perturbations is not just unhelpful: it is counterproductive.
翻訳日:2023-01-05 20:53:22 公開日:2020-10-23
# BERTを用いたアスペクトベース感性分析のための逆トレーニング

Adversarial Training for Aspect-Based Sentiment Analysis with BERT ( http://arxiv.org/abs/2001.11316v4 )

ライセンス: Link先を確認
Akbar Karimi, Leonardo Rossi, Andrea Prati(参考訳) Aspect-Based Sentiment Analysis (ABSA) は感情とその対象の抽出を扱う。 このタスクのためのラベル付きデータ収集は、ニューラルネットワークの一般化を支援するため、手間と時間がかかります。 代替として、実世界の例と類似したデータは、埋め込み空間で実行される逆プロセスを通じて人工的に生成することができる。 これらの例は実際の文ではないが、ニューラルネットワークをより堅牢にするための正規化手法として機能することが示されている。 本研究は,Goodfellow et al. (2014), Xu et al. (2019) が提案したポストトレーニング後のBERT (BERT-PT) 言語モデルに対して,感情分析におけるアスペクト抽出とアスペクト知覚分類の2つの主要なタスクに適用する。 Ablation study を用いて, BERT の術後成績を改善した上で, ABSA の対人訓練を利用する BERT Adversarial Training (BAT) と呼ばれる新しいアーキテクチャを提案する。 提案されたモデルは、両方のタスクでトレーニング後のbertよりも優れています。 我々の知る限りでは、ABSAにおける対人訓練の適用に関する最初の研究である。

Aspect-Based Sentiment Analysis (ABSA) deals with the extraction of sentiments and their targets. Collecting labeled data for this task in order to help neural networks generalize better can be laborious and time-consuming. As an alternative, similar data to the real-world examples can be produced artificially through an adversarial process which is carried out in the embedding space. Although these examples are not real sentences, they have been shown to act as a regularization method which can make neural networks more robust. In this work, we apply adversarial training, which was put forward by Goodfellow et al. (2014), to the post-trained BERT (BERT-PT) language model proposed by Xu et al. (2019) on the two major tasks of Aspect Extraction and Aspect Sentiment Classification in sentiment analysis. After improving the results of post-trained BERT by an ablation study, we propose a novel architecture called BERT Adversarial Training (BAT) to utilize adversarial training in ABSA. The proposed model outperforms post-trained BERT in both tasks. To the best of our knowledge, this is the first study on the application of adversarial training in ABSA.
翻訳日:2023-01-05 11:27:23 公開日:2020-10-23
# サンプル化ランダム化アダマール変換を用いた最適反復スケッチ

Optimal Iterative Sketching with the Subsampled Randomized Hadamard Transform ( http://arxiv.org/abs/2002.00864v5 )

ライセンス: Link先を確認
Jonathan Lacotte, Sifan Liu, Edgar Dobriban and Mert Pilanci(参考訳) ランダム投影やスケッチは多くのアルゴリズムや学習の文脈で広く使われている。 ここでは,最小二乗問題に対する反復ヘッセンスケッチの性能について検討する。 ランダムマトリクス理論の最近の結果を、ランダム化アダマール変換と断続ハール行列でランダムに投影された行列の限界スペクトルに利用し、拡張することにより、その結果得られるアルゴリズムを、これまで不可能だった精度のレベルと比較することができる。 我々の技術的な貢献には、射影行列の逆の第二の瞬間に対する新しい公式が含まれる。 また,漸近的に最適なステップサイズと収束率に対する単純な閉形式式を求める。 これらの結果は、ハール行列とランダムアダマール行列の収束率は同一であり、ガウスランダム射影によって漸近的に改善されることを示している。 これらの手法は、ランダム次元還元を用いる他のアルゴリズムにも適用できる。

Random projections or sketching are widely used in many algorithmic and learning contexts. Here we study the performance of iterative Hessian sketch for least-squares problems. By leveraging and extending recent results from random matrix theory on the limiting spectrum of matrices randomly projected with the subsampled randomized Hadamard transform, and truncated Haar matrices, we can study and compare the resulting algorithms to a level of precision that has not been possible before. Our technical contributions include a novel formula for the second moment of the inverse of projected matrices. We also find simple closed-form expressions for asymptotically optimal step-sizes and convergence rates. These show that the convergence rate for Haar and randomized Hadamard matrices are identical, and asymptotically improve upon Gaussian random projections. These techniques may be applied to other algorithms that employ randomized dimension reduction.
翻訳日:2023-01-04 09:22:35 公開日:2020-10-23
# 図形モデルにおける推論問題としてのドメイン適応

Domain Adaptation as a Problem of Inference on Graphical Models ( http://arxiv.org/abs/2002.03278v4 )

ライセンス: Link先を確認
Kun Zhang, Mingming Gong, Petar Stojanov, Biwei Huang, Qingsong Liu, Clark Glymour(参考訳) 本論文は,データ駆動型非教師なしドメイン適応に関するもので,データ分散がドメイン間でどのように変化するか,すなわち,データ分散のどの要素やモジュールが不変か,あるいはドメイン間でどのように変化するか,事前には分かっていない。 本研究では,複数ソースドメインによるドメイン適応の自動手法を開発するために,データから学習可能なジョイント分布の変化特性をエンコードするためのコンパクトな手法としてグラフィカルモデルを用いることを提案し,ベイズ推定の問題としてドメイン適応を考察する。 このようなグラフィカルモデルは、分布の定数と様々なモジュールを区別し、対象の変数の後方を目的のドメインで$Y$から導出する目的で、変化するモジュールの事前知識として機能する領域間の変化の特性を特定する。 これにより、ドメイン適応のエンドツーエンドのフレームワークが提供され、共同配布が利用可能であれば、グラフィカル表現を改善するために直接組み込むことができる。 因果関係に基づくドメイン適応をこの傘の下に置く方法について論じる。 合成データと実データの両方に関する実験結果から,提案手法の有効性が示された。 コードはhttps://github.com/mgong2/da_inferで入手できる。

This paper is concerned with data-driven unsupervised domain adaptation, where it is unknown in advance how the joint distribution changes across domains, i.e., what factors or modules of the data distribution remain invariant or change across domains. To develop an automated way of domain adaptation with multiple source domains, we propose to use a graphical model as a compact way to encode the change property of the joint distribution, which can be learned from data, and then view domain adaptation as a problem of Bayesian inference on the graphical models. Such a graphical model distinguishes between constant and varied modules of the distribution and specifies the properties of the changes across domains, which serves as prior knowledge of the changing modules for the purpose of deriving the posterior of the target variable $Y$ in the target domain. This provides an end-to-end framework of domain adaptation, in which additional knowledge about how the joint distribution changes, if available, can be directly incorporated to improve the graphical representation. We discuss how causality-based domain adaptation can be put under this umbrella. Experimental results on both synthetic and real data demonstrate the efficacy of the proposed framework for domain adaptation. The code is available at https://github.com/mgong2/DA_Infer .
翻訳日:2023-01-02 14:17:26 公開日:2020-10-23
# 線形文脈帯域に対する逆攻撃

Adversarial Attacks on Linear Contextual Bandits ( http://arxiv.org/abs/2002.03839v3 )

ライセンス: Link先を確認
Evrard Garcelon, Baptiste Roziere, Laurent Meunier, Jean Tarbouriech, Olivier Teytaud, Alessandro Lazaric, Matteo Pirotta(参考訳) コンテキストバンディットアルゴリズムは、広告からレコメンデーターシステム、臨床試験から教育まで幅広い分野に適用されている。 これらのドメインの多くでは、悪質なエージェントがbanditアルゴリズムを攻撃して、望ましい振る舞いをするよう誘導するインセンティブを持つ可能性がある。 例えば、不愉快な広告出版社は広告主を犠牲にして利益を上げようとするかもしれないし、売り手は商品の露出を増やそうとするかもしれないし、ライバルの広告キャンペーンを妨害するかもしれない。 本稿では,いくつかの攻撃シナリオを調査し,悪意のあるエージェントが,任意の所望のarm $t - o(t)$ を$t$ ステップの水平線上で引き出すようにリニアコンテクストバンディットアルゴリズムを強制することができること,また,対数的に$o(\log t)$ でしか成長しない報奨や文脈に対して,逆修正を適用すること,等を示す。 また,悪意のあるエージェントが単一コンテキスト(例えば,特定のユーザ)におけるバンディットアルゴリズムの動作に影響を与えることに関心がある場合についても検討する。 まず,攻撃実現のために十分な条件を提示し,攻撃を行うための効率的なアルゴリズムを提案する。 合成データと実世界データの両方で行った実験で理論的結果を検証する。

Contextual bandit algorithms are applied in a wide range of domains, from advertising to recommender systems, from clinical trials to education. In many of these domains, malicious agents may have incentives to attack the bandit algorithm to induce it to perform a desired behavior. For instance, an unscrupulous ad publisher may try to increase their own revenue at the expense of the advertisers; a seller may want to increase the exposure of their products, or thwart a competitor's advertising campaign. In this paper, we study several attack scenarios and show that a malicious agent can force a linear contextual bandit algorithm to pull any desired arm $T - o(T)$ times over a horizon of $T$ steps, while applying adversarial modifications to either rewards or contexts that only grow logarithmically as $O(\log T)$. We also investigate the case when a malicious agent is interested in affecting the behavior of the bandit algorithm in a single context (e.g., a specific user). We first provide sufficient conditions for the feasibility of the attack and we then propose an efficient algorithm to perform the attack. We validate our theoretical results on experiments performed on both synthetic and real-world datasets.
翻訳日:2023-01-02 07:50:30 公開日:2020-10-23
# 機械学習によるマルチショップスキーレンタルのオンラインアルゴリズム

Online Algorithms for Multi-shop Ski Rental with Machine Learned Advice ( http://arxiv.org/abs/2002.05808v2 )

ライセンス: Link先を確認
Shufan Wang, Jian Li, Shiqiang Wang(参考訳) 機械学習(ML)によるオンラインアルゴリズムの強化問題について検討する。 特に,古典的なスキーレンタル問題を一般化した「emph{multi-shop ski rent} (MSSR)」問題を考える。 mssrでは、各店舗はスキーの購入とレンタルの料金が異なるため、スキーヤーはいつどこで購入するかを決定する必要がある。 我々は、決定に1つまたは複数のML予測を使用する場合、決定論的およびランダム化されたオンラインアルゴリズムの両方の性能を確実に向上させる。 これらのオンラインアルゴリズムは、ML予測の品質や予測エラータイプについて知識を持たない。 これらのオンラインアルゴリズムのパフォーマンスは、予測器の貧弱な性能に対して堅牢であるが、より良い予測により改善されている。 合成データと実世界のデータトレースの両方を用いた広範な実験は、我々の理論的観察を検証し、純粋にオンライン意思決定に依存するアルゴリズムに対する優れた性能を示す。

We study the problem of augmenting online algorithms with machine learned (ML) advice. In particular, we consider the \emph{multi-shop ski rental} (MSSR) problem, which is a generalization of the classical ski rental problem. In MSSR, each shop has different prices for buying and renting a pair of skis, and a skier has to make decisions on when and where to buy. We obtain both deterministic and randomized online algorithms with provably improved performance when either a single or multiple ML predictions are used to make decisions. These online algorithms have no knowledge about the quality or the prediction error type of the ML prediction. The performance of these online algorithms are robust to the poor performance of the predictors, but improve with better predictions. Extensive experiments using both synthetic and real world data traces verify our theoretical observations and show better performance against algorithms that purely rely on online decision making.
翻訳日:2023-01-01 13:47:34 公開日:2020-10-23
# 敵の例防衛に対する適応攻撃について

On Adaptive Attacks to Adversarial Example Defenses ( http://arxiv.org/abs/2002.08347v2 )

ライセンス: Link先を確認
Florian Tramer, Nicholas Carlini, Wieland Brendel, Aleksander Madry(参考訳) 適応攻撃は(当然のことながら)敵の例に対する防御を評価するデファクトスタンダードになっている。 しかし、典型的な適応的評価は不完全である。 ICLR, ICML, NeurIPSで最近公開された13のディフェンスが, イラストや教育目的で選択され, 適応攻撃による評価を試みながら回避可能であることを実証した。 先行評価論文では, 防御が効果的でないことを示す最終結果を中心に, 適応攻撃を行うために必要な方法論とアプローチを整理することに焦点を当てた。 これらの分析が、攻撃例に対する防御に対する適切なアダプティブアタックの実行方法のガイダンスとなり、それによってコミュニティがより堅牢なモデルの構築をさらに前進させることを望んでいる。

Adaptive attacks have (rightfully) become the de facto standard for evaluating defenses to adversarial examples. We find, however, that typical adaptive evaluations are incomplete. We demonstrate that thirteen defenses recently published at ICLR, ICML and NeurIPS---and chosen for illustrative and pedagogical purposes---can be circumvented despite attempting to perform evaluations using adaptive attacks. While prior evaluation papers focused mainly on the end result---showing that a defense was ineffective---this paper focuses on laying out the methodology and the approach necessary to perform an adaptive attack. We hope that these analyses will serve as guidance on how to properly perform adaptive attacks against defenses to adversarial examples, and thus will allow the community to make further progress in building more robust models.
翻訳日:2022-12-30 13:45:17 公開日:2020-10-23
# 個人化フェデレーション学習 : メタラーニングアプローチ

Personalized Federated Learning: A Meta-Learning Approach ( http://arxiv.org/abs/2002.07948v4 )

ライセンス: Link先を確認
Alireza Fallah, Aryan Mokhtari, Asuman Ozdaglar(参考訳) フェデレーション学習では、複数のコンピューティングユニット(ユーザ)にまたがってモデルをトレーニングすることを目的としていますが、データサンプルを交換することなく、ユーザーは共通の中央サーバとしか通信できません。 このメカニズムは、すべてのユーザの計算能力を活用し、モデルがより大きなデータポイントのセットでトレーニングされることにより、よりリッチなモデルを得ることができる。 しかし、この方式はすべてのユーザに対して共通の出力しか開発しないため、各ユーザに対してモデルを適用できない。 特に、さまざまなユーザに対する基盤となるデータ分散の多様性を考えると、これは欠落している重要な機能である。 本稿では,現在あるいは新規利用者が自身のデータに対して1段階ないし数段階の勾配降下を実行することで,ローカルデータセットに容易に適応できるような,初期共有モデルを見つけることを目的とする,連邦学習のパーソナライズされたバリエーションについて検討する。 このアプローチは、連合学習アーキテクチャのすべての利点を保ち、構造上、各ユーザに対してよりパーソナライズされたモデルをもたらす。 この問題をモデル非依存メタ学習(maml)フレームワークで研究できることを示します。 この関係に触発されて,よく知られたフェデレーション平均化アルゴリズムのパーソナライズされた変種を調査し,非凸損失関数の勾配ノルムの観点からその性能を評価する。 さらに,総変動や1-wasserstein計量などの分布距離から測定したユーザデータの基盤分布の密接性が,この性能に与える影響を特徴付ける。

In Federated Learning, we aim to train models across multiple computing units (users), while users can only communicate with a common central server, without exchanging their data samples. This mechanism exploits the computational power of all users and allows users to obtain a richer model as their models are trained over a larger set of data points. However, this scheme only develops a common output for all the users, and, therefore, it does not adapt the model to each user. This is an important missing feature, especially given the heterogeneity of the underlying data distribution for various users. In this paper, we study a personalized variant of the federated learning in which our goal is to find an initial shared model that current or new users can easily adapt to their local dataset by performing one or a few steps of gradient descent with respect to their own data. This approach keeps all the benefits of the federated learning architecture, and, by structure, leads to a more personalized model for each user. We show this problem can be studied within the Model-Agnostic Meta-Learning (MAML) framework. Inspired by this connection, we study a personalized variant of the well-known Federated Averaging algorithm and evaluate its performance in terms of gradient norm for non-convex loss functions. Further, we characterize how this performance is affected by the closeness of underlying distributions of user data, measured in terms of distribution distances such as Total Variation and 1-Wasserstein metric.
翻訳日:2022-12-30 13:36:50 公開日:2020-10-23
# NYTWIT:ニューヨークタイムズの新しい単語のデータセット

NYTWIT: A Dataset of Novel Words in the New York Times ( http://arxiv.org/abs/2003.03444v3 )

ライセンス: Link先を確認
Yuval Pinter and Cassandra L. Jacobs and Max Bittker(参考訳) 我々は、2017年11月から2019年3月までにニューヨーク・タイムズで発行された2500以上の小説英語単語のコレクションであるnew york timesのinnovation types dataset(nytwit)を紹介する。 本研究は,非文脈的・文脈的ノベルティクラス予測のベースラインとして,最先端のNLPシステムにも改善の余地があることを示す。 私たちは、このリソースが言語学者やnlp実践者にとって、新しい単語の出現の現実世界の環境を提供することで役に立つことを望んでいる。

We present the New York Times Word Innovation Types dataset, or NYTWIT, a collection of over 2,500 novel English words published in the New York Times between November 2017 and March 2019, manually annotated for their class of novelty (such as lexical derivation, dialectal variation, blending, or compounding). We present baseline results for both uncontextual and contextual prediction of novelty class, showing that there is room for improvement even for state-of-the-art NLP systems. We hope this resource will prove useful for linguists and NLP practitioners by providing a real-world environment of novel word appearance.
翻訳日:2022-12-26 01:19:46 公開日:2020-10-23
# 分子忠実性を有する非ニュートン流体モデルによる機械学習

Machine learning based non-Newtonian fluid model with molecular fidelity ( http://arxiv.org/abs/2003.03672v2 )

ライセンス: Link先を確認
Huan Lei, Lei Wu and Weinan E(参考訳) マイクロスケール記述から直接連続体非ニュートン流体力学モデルを構築するための機械学習フレームワークを提案する。 ダンベルポリマー溶液は本質的なアイデアを示す例として用いられる。 分子の忠実性を保つために, マイクロスケールポリマー構成のエンコーダの集合と, それらのマクロスケールに対応する非線形配座テンソルの集合によるマイクロマクロ対応を確立する。 これらの配座テンソルのダイナミクスは、マイクロスケールモデルから導き出され、関連する用語は機械学習を用いてパラメータ化することができる。 ディープ非ニュートンモデル (DeePN$^2$) と呼ばれる最終モデルは、従来の非ニュートン流体力学モデルの形式を、目的テンソル微分の新しい形式として取り込む。 動的方程式の定式化とニューラルネットワーク表現はどちらも回転不変性を厳格に保ち、構築されたモデルの許容性を保証する。 数値結果はdeepn$^2$の精度を示し、経験的閉包に基づくモデルは限界を示す。

We introduce a machine-learning-based framework for constructing continuum non-Newtonian fluid dynamics model directly from a micro-scale description. Dumbbell polymer solutions are used as examples to demonstrate the essential ideas. To faithfully retain molecular fidelity, we establish a micro-macro correspondence via a set of encoders for the micro-scale polymer configurations and their macro-scale counterparts, a set of nonlinear conformation tensors. The dynamics of these conformation tensors can be derived from the micro-scale model and the relevant terms can be parametrized using machine learning. The final model named the deep non-Newtonian model (DeePN$^2$), takes the form of conventional non-Newtonian fluid dynamics models, with a new form of the objective tensor derivative. Both the formulation of the dynamic equation and the neural network representation rigorously preserve the rotational invariance, which ensures the admissibility of the constructed model. Numerical results demonstrate the accuracy of DeePN$^2$, where models based on empirical closures show limitations.
翻訳日:2022-12-25 20:06:40 公開日:2020-10-23
# 神経分類器の無限幅極限の一般理論に向けて

Towards a General Theory of Infinite-Width Limits of Neural Classifiers ( http://arxiv.org/abs/2003.05884v3 )

ライセンス: Link先を確認
Eugene A. Golikov(参考訳) ニューラルネットワークトレーニングの理論的保証を得ることは、一般的なケースでは難しい問題である。 近年、この問題を無限幅の極限で研究することに焦点を当て、平均場(MF)と定数核(NTK)の2つの異なる理論が開発されている。 本稿では、これらの明らかに異なる理論の関連性を示す一般的な枠組みを提案する。 我々のフレームワークは、これまで文献で研究されていなかった離散時間 MF の限界をもたらす。 収束定理を証明し、学習率があまり小さい場合のNTK限界と比較して有限幅ネットに対してより合理的な近似を与えることを示す。 また,本フレームワークでは,MF制限やNTK制限と一致しない制限モデルを提案する。 隠れ層が2つ以上あるネットワークの場合、RMSPropトレーニングは非自明な離散時間MF制限を持つが、GDトレーニングは1つを持たない。 全体として、mf と ntk の限界は有限サイズのニューラルネットの近似にかなりの制限があることを示し、より正確な無限幅近似を設計する必要性を示している。

Obtaining theoretical guarantees for neural networks training appears to be a hard problem in a general case. Recent research has been focused on studying this problem in the limit of infinite width and two different theories have been developed: a mean-field (MF) and a constant kernel (NTK) limit theories. We propose a general framework that provides a link between these seemingly distinct theories. Our framework out of the box gives rise to a discrete-time MF limit which was not previously explored in the literature. We prove a convergence theorem for it and show that it provides a more reasonable approximation for finite-width nets compared to the NTK limit if learning rates are not very small. Also, our framework suggests a limit model that coincides neither with the MF limit nor with the NTK one. We show that for networks with more than two hidden layers RMSProp training has a non-trivial discrete-time MF limit but GD training does not have one. Overall, our framework demonstrates that both MF and NTK limits have considerable limitations in approximating finite-sized neural nets, indicating the need for designing more accurate infinite-width approximations for them.
翻訳日:2022-12-24 13:55:19 公開日:2020-10-23
# 多クラスニューラルネットワークのキャリブレーションのためのイントラオーダー保存機能

Intra Order-preserving Functions for Calibration of Multi-Class Neural Networks ( http://arxiv.org/abs/2003.06820v2 )

ライセンス: Link先を確認
Amir Rahimi, Amirreza Shaban, Ching-An Cheng, Richard Hartley, Byron Boots(参考訳) 多クラスディープネットワークの校正信頼度を推定することは、稀だがコストのかかる誤りを避けるために重要である。 一般的なアプローチは、ネットワークの精度を維持しつつ、元のネットワークの出力を校正された信頼度スコアに変換するポストホックキャリブレーション関数を学ぶことである。 しかし、従来のポストホックキャリブレーション技術は単純なキャリブレーション機能のみで動作し、深層ネットワークの複雑な機能ランドスケープを校正するのに十分な表現を欠いている可能性がある。 本研究では,どの深層ネットワークでもトップkの予測を保存できる一般的なポストホックキャリブレーション関数を学習することを目的とする。 私たちはこの関数のファミリーを順序保存関数と呼ぶ。 本稿では,ニューラルネットワークの共通成分を組み合わせて順序保存関数のクラスを表現するニューラルネットワークアーキテクチャを提案する。 さらに,訓練データサイズが小さい場合には,より一般化するための正規化として機能する,順序不変および対角部分ファミリを導入する。 提案手法は,幅広いデータセットと分類器において有効であることを示す。 本手法は温度スケーリングやディリクレキャリブレーションといった最先端のポストホックキャリブレーション法よりも,タスクの評価指標として優れている。

Predicting calibrated confidence scores for multi-class deep networks is important for avoiding rare but costly mistakes. A common approach is to learn a post-hoc calibration function that transforms the output of the original network into calibrated confidence scores while maintaining the network's accuracy. However, previous post-hoc calibration techniques work only with simple calibration functions, potentially lacking sufficient representation to calibrate the complex function landscape of deep networks. In this work, we aim to learn general post-hoc calibration functions that can preserve the top-k predictions of any deep network. We call this family of functions intra order-preserving functions. We propose a new neural network architecture that represents a class of intra order-preserving functions by combining common neural network components. Additionally, we introduce order-invariant and diagonal sub-families, which can act as regularization for better generalization when the training data size is small. We show the effectiveness of the proposed method across a wide range of datasets and classifiers. Our method outperforms state-of-the-art post-hoc calibration methods, namely temperature scaling and Dirichlet calibration, in several evaluation metrics for the task.
翻訳日:2022-12-23 08:28:23 公開日:2020-10-23
# クロスモーダルエンティティ一貫性尺度を用いた実世界ニュースのマルチモーダル分析

Multimodal Analytics for Real-world News using Measures of Cross-modal Entity Consistency ( http://arxiv.org/abs/2003.10421v2 )

ライセンス: Link先を確認
Eric M\"uller-Budack, Jonas Theiner, Sebastian Diering, Maximilian Idahl, Ralph Ewerth(参考訳) world wide webは、情報やニュースを集めるための人気ソースとなっている。 例えば、写真でテキストを豊かにするといったマルチモーダル情報は、ニュースをより効果的に伝達したり、注目を集めるために使われる。 写真の内容は装飾から付加的な重要な情報、あるいは誤解を招く情報まで様々である。 したがって、エンティティ表現のクロスモーダル一貫性を定量化する自動アプローチは、例えばバイアスや感情に関して、人間の評価者が全体的なマルチモーダルメッセージを評価するのに役立つ。 このような措置は、現代の社会でますます重要になっている偽ニュースを検出するヒントを与える可能性がある。 本稿では,実世界ニュースにおけるクロスモーダル一貫性検証の新たなタスクを紹介し,画像とテキスト間のエンティティコヒーレンスを定量化するマルチモーダルアプローチを提案する。 名前付きエンティティリンクは、ニューステキストから人、場所、イベントを抽出するために適用される。 これらの要素の相互類似性を計算するためにいくつかの手法が提案されている。 先行研究とは対照的に,本システムはwebからサンプルデータを自動的に収集し,実世界ニュースに適用する。 異なる言語、トピック、ドメインをカバーする2つの新しいデータセットの結果は、我々のアプローチの可能性を示している。 データセットとコードは、この新しい方向性の研究を促進するために公開されています。

The World Wide Web has become a popular source for gathering information and news. Multimodal information, e.g., enriching text with photos, is typically used to convey the news more effectively or to attract attention. Photo content can range from decorative, depict additional important information, or can even contain misleading information. Therefore, automatic approaches to quantify cross-modal consistency of entity representation can support human assessors to evaluate the overall multimodal message, for instance, with regard to bias or sentiment. In some cases such measures could give hints to detect fake news, which is an increasingly important topic in today's society. In this paper, we introduce a novel task of cross-modal consistency verification in real-world news and present a multimodal approach to quantify the entity coherence between image and text. Named entity linking is applied to extract persons, locations, and events from news texts. Several measures are suggested to calculate cross-modal similarity for these entities using state of the art approaches. In contrast to previous work, our system automatically gathers example data from the Web and is applicable to real-world news. Results on two novel datasets that cover different languages, topics, and domains demonstrate the feasibility of our approach. Datasets and code are publicly available to foster research towards this new direction.
翻訳日:2022-12-21 00:33:28 公開日:2020-10-23
# solov2: 動的および高速インスタンスセグメンテーション

SOLOv2: Dynamic and Fast Instance Segmentation ( http://arxiv.org/abs/2003.10152v3 )

ライセンス: Link先を確認
Xinlong Wang, Rufeng Zhang, Tao Kong, Lei Li, Chunhua Shen(参考訳) この作業では、パフォーマンスの高いシンプルで直接的で高速なインスタンスセグメンテーションフレームワークの構築を目指しています。 我々は、wangらによるソロメソッドの原則に従う。 「SOLO:場所ごとにオブジェクトを分割する」。 重要なことは、マスクヘッドが位置に配置されるようにオブジェクトセグメンタのマスクヘッドを動的に学習することで、さらに一歩前進する。 具体的には、マスク分岐をマスクカーネル分岐とマスク特徴分岐とに分離し、それぞれ、畳み込みカーネルと連結された特徴を学習する責任を負う。 さらに,マスクのnmsによる推定時間のオーバーヘッドを大幅に削減するために,行列nms(non maximum suppression)を提案する。 我々のマトリックスNMSは1ショットで並列行列演算でNMSを実行し、より良い結果を得る。 単純な直接インスタンスセグメンテーションシステムを示し,速度と精度の両方において,最先端の手法に勝ることを示した。 SOLOv2の軽量版は31.3 FPSで実行され、37.1%のAPが得られる。 さらに,本研究の現状から,オブジェクト検出(マスク副生成物)やパノプティックセグメンテーションは,インスタンスセグメンテーション以外の多くのインスタンスレベルの認識タスクにおいて,新たな強力なベースラインとして機能する可能性を示している。 コードは、https://git.io/AdelaiDet.comで入手できる。

In this work, we aim at building a simple, direct, and fast instance segmentation framework with strong performance. We follow the principle of the SOLO method of Wang et al. "SOLO: segmenting objects by locations". Importantly, we take one step further by dynamically learning the mask head of the object segmenter such that the mask head is conditioned on the location. Specifically, the mask branch is decoupled into a mask kernel branch and mask feature branch, which are responsible for learning the convolution kernel and the convolved features respectively. Moreover, we propose Matrix NMS (non maximum suppression) to significantly reduce the inference time overhead due to NMS of masks. Our Matrix NMS performs NMS with parallel matrix operations in one shot, and yields better results. We demonstrate a simple direct instance segmentation system, outperforming a few state-of-the-art methods in both speed and accuracy. A light-weight version of SOLOv2 executes at 31.3 FPS and yields 37.1% AP. Moreover, our state-of-the-art results in object detection (from our mask byproduct) and panoptic segmentation show the potential to serve as a new strong baseline for many instance-level recognition tasks besides instance segmentation. Code is available at: https://git.io/AdelaiDet
翻訳日:2022-12-21 00:15:47 公開日:2020-10-23
# マルチモーダル同時ニューラルマシン翻訳に向けて

Towards Multimodal Simultaneous Neural Machine Translation ( http://arxiv.org/abs/2004.03180v2 )

ライセンス: Link先を確認
Aizhan Imankulova, Masahiro Kaneko, Tosho Hirasawa and Mamoru Komachi(参考訳) 同時翻訳は、複数の言語でリアルタイム理解を実現するために、話者の発話が完了する前に文を翻訳することを含む。 このタスクは、デコード中に入力情報が不足しているため、一般的な全文翻訳よりもかなり困難である。 この不足を軽減するために,視覚情報を付加的モダリティとして活用するマルチモーダル同時ニューラルマシン翻訳(msnmt)を提案する。 Multi30kデータセットを用いた実験により、MSNMTは低レイテンシでよりタイムリーな翻訳状況において、テキストのみよりも大幅に優れていた。 さらに,msnmtの逆評価を行い,デコード中の視覚情報の重要性を検証し,不正確な入力モダリティを用いてモデルがどのように振る舞うかを検討し,ソース言語とターゲット言語間の異なる単語順の影響を解析した。

Simultaneous translation involves translating a sentence before the speaker's utterance is completed in order to realize real-time understanding in multiple languages. This task is significantly more challenging than the general full sentence translation because of the shortage of input information during decoding. To alleviate this shortage, we propose multimodal simultaneous neural machine translation (MSNMT), which leverages visual information as an additional modality. Our experiments with the Multi30k dataset showed that MSNMT significantly outperforms its text-only counterpart in more timely translation situations with low latency. Furthermore, we verified the importance of visual information during decoding by performing an adversarial evaluation of MSNMT, where we studied how models behaved with incongruent input modality and analyzed the effect of different word order between source and target languages.
翻訳日:2022-12-15 23:47:44 公開日:2020-10-23
# SciWing - 科学文書処理のためのソフトウェアツールキット

SciWING -- A Software Toolkit for Scientific Document Processing ( http://arxiv.org/abs/2004.03807v2 )

ライセンス: Link先を確認
Abhinav Ramesh Kashyap, Min-Yen Kan(参考訳) 我々は,科学文書処理タスクの事前学習モデルへのアクセスを提供するオープンソースソフトウェアツールキットであるsciwingを紹介し,引用文字列解析と論理構造復元を包含する。 SciWingを使えば、研究者は異なるモジュールを交換して積み重ねることで、異なるモデルで迅速に実験できる。 また、設定ファイルからモデルを宣言および実行することもできる。 研究者は、一般的な、トレーニング済みのトランスフォーマー(BERT、SciBERTなど)からプロダクション対応のトランスフォーメーション学習を実行でき、エンドユーザーアプリケーションの開発を支援する。 使えるWebアプリケーションとターミナルベースのアプリケーションとデモ(http://sciwing.io.comから利用可能)が含まれている。

We introduce SciWING, an open-source software toolkit which provides access to pre-trained models for scientific document processing tasks, inclusive of citation string parsing and logical structure recovery. SciWING enables researchers to rapidly experiment with different models by swapping and stacking different modules. It also enables them declare and run models from a configuration file. It enables researchers to perform production-ready transfer learning from general, pre-trained transformers (i.e., BERT, SciBERT etc), and aids development of end-user applications. It includes ready-to-use web and terminal-based applications and demonstrations (Available from http://sciwing.io).
翻訳日:2022-12-15 09:21:48 公開日:2020-10-23
# 自己ペース深層強化学習

Self-Paced Deep Reinforcement Learning ( http://arxiv.org/abs/2004.11812v5 )

ライセンス: Link先を確認
Pascal Klink, Carlo D'Eramo, Jan Peters, Joni Pajarinen(参考訳) カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。 実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。 本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習して対象タスクにアプローチする解を提案する。 このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。 実験では,提案手法を用いて生成したカリキュラムは,既存のcrlアルゴリズムとマッチングあるいは性能を上回って,複数の環境と深いrlアルゴリズムの学習性能を大幅に向上させた。

Curriculum reinforcement learning (CRL) improves the learning speed and stability of an agent by exposing it to a tailored series of tasks throughout learning. Despite empirical successes, an open question in CRL is how to automatically generate a curriculum for a given reinforcement learning (RL) agent, avoiding manual design. In this paper, we propose an answer by interpreting the curriculum generation as an inference problem, where distributions over tasks are progressively learned to approach the target task. This approach leads to an automatic curriculum generation, whose pace is controlled by the agent, with solid theoretical motivation and easily integrated with deep RL algorithms. In the conducted experiments, the curricula generated with the proposed algorithm significantly improve learning performance across several environments and deep RL algorithms, matching or outperforming state-of-the-art existing CRL algorithms.
翻訳日:2022-12-10 02:50:30 公開日:2020-10-23
# 名前付きエンティティ認識に関する厳密な研究:細調整事前学習モデルが約束地へ導くか?

A Rigorous Study on Named Entity Recognition: Can Fine-tuning Pretrained Model Lead to the Promised Land? ( http://arxiv.org/abs/2004.12126v2 )

ライセンス: Link先を確認
Hongyu Lin, Yaojie Lu, Jialong Tang, Xianpei Han, Le Sun, Zhicheng Wei, Nicholas Jing Yuan(参考訳) 微調整事前訓練モデルは標準のNERベンチマークで有望な性能を達成した。 一般的に、これらのベンチマークは、強い名前の規則性、高い言及カバレッジ、十分なコンテキスト多様性に恵まれている。 残念ながら、NERをオープンな状況にスケールする場合、これらの利点はもはや存在しないかもしれない。 それゆえ、これらの課題に直面した場合でも、これまでのクレジット可能なアプローチがうまく機能するかどうかという重要な疑問を提起する。 この問題を調査するためのデータセットが現在存在しないため,本研究では,標準ベンチマーク上でランダム化テストを実施することを提案する。 具体的には、モデルの一般化能力への影響を調べるため、各ベンチマークから名前の正則性、カバレッジ、コンテキストの多様性を消去する。 結論をさらに検証するために、より弱い名前の規則性と低い参照カバレッジを持つエンティティタイプに焦点を当てた新しいオープンnerデータセットを構築し、結論を検証します。 ランダム化テストと経験実験の両方から、我々は結論を導き出す。 1) 名称の正則性は,モデルが未確認の言及を一般化するために重要である。 2)モデル一般化能力を損なうおそれがあり得ること。 3) プリトレーニングエンコーダを使用する場合,コンテキストパターンには膨大なデータを必要としない場合がある。

Fine-tuning pretrained model has achieved promising performance on standard NER benchmarks. Generally, these benchmarks are blessed with strong name regularity, high mention coverage and sufficient context diversity. Unfortunately, when scaling NER to open situations, these advantages may no longer exist. And therefore it raises a critical question of whether previous creditable approaches can still work well when facing these challenges. As there is no currently available dataset to investigate this problem, this paper proposes to conduct randomization test on standard benchmarks. Specifically, we erase name regularity, mention coverage and context diversity respectively from the benchmarks, in order to explore their impact on the generalization ability of models. To further verify our conclusions, we also construct a new open NER dataset that focuses on entity types with weaker name regularity and lower mention coverage to verify our conclusion. From both randomization test and empirical experiments, we draw the conclusions that 1) name regularity is critical for the models to generalize to unseen mentions; 2) high mention coverage may undermine the model generalization ability and 3) context patterns may not require enormous data to capture when using pretrained encoders.
翻訳日:2022-12-09 21:42:34 公開日:2020-10-23
# すべての単語が1つの埋め込みから埋め込まれる

All Word Embeddings from One Embedding ( http://arxiv.org/abs/2004.12073v3 )

ライセンス: Link先を確認
Sho Takase and Sosuke Kobayashi(参考訳) ニューラルネットワークによる自然言語処理(NLP)モデルでは、パラメータの最大の部分は単語の埋め込みであることが多い。 従来のモデルは、語彙のサイズに依存する大きな埋め込み行列を作成する。 したがって、これらのモデルをメモリとディスクストレージに格納することはコストがかかる。 本研究では,パラメータの総数を削減するために,すべての単語に対する埋め込みを共有埋め込みを変換することによって表現する。 提案手法であるALONE (all word embeddings from one) は,単語固有だが訓練不能なフィルタベクトルを用いて,単語の埋め込みを改良し,単語の埋め込みを構築する。 そして、構築された埋め込みをフィードフォワードニューラルネットワークに入力し、その表現性を高める。 一般に、フィルタベクトルは、語彙サイズに依存する従来の埋め込み行列と同じメモリサイズを占める。 この問題を解決するために,メモリ効率のよいフィルタ構築手法も導入する。 我々は,事前学習した単語埋め込みの再構築実験を通じて,単語表現として十分に使用できることを示す。 さらに,機械翻訳や要約といったNLPアプリケーションタスクについても実験を行った。 ALONEを現在の最先端エンコーダデコーダモデルであるTransformerと組み合わせて、WMT 2014の英語-ドイツ語翻訳とDUC 2004では、パラメータの少ない非常に短い要約を実現した。

In neural network-based models for natural language processing (NLP), the largest part of the parameters often consists of word embeddings. Conventional models prepare a large embedding matrix whose size depends on the vocabulary size. Therefore, storing these models in memory and disk storage is costly. In this study, to reduce the total number of parameters, the embeddings for all words are represented by transforming a shared embedding. The proposed method, ALONE (all word embeddings from one), constructs the embedding of a word by modifying the shared embedding with a filter vector, which is word-specific but non-trainable. Then, we input the constructed embedding into a feed-forward neural network to increase its expressiveness. Naively, the filter vectors occupy the same memory size as the conventional embedding matrix, which depends on the vocabulary size. To solve this issue, we also introduce a memory-efficient filter construction approach. We indicate our ALONE can be used as word representation sufficiently through an experiment on the reconstruction of pre-trained word embeddings. In addition, we also conduct experiments on NLP application tasks: machine translation and summarization. We combined ALONE with the current state-of-the-art encoder-decoder model, the Transformer, and achieved comparable scores on WMT 2014 English-to-German translation and DUC 2004 very short summarization with less parameters.
翻訳日:2022-12-09 21:16:40 公開日:2020-10-23
# VTGNet:都市環境における自律走行車のための視覚に基づく軌道生成ネットワーク

VTGNet: A Vision-based Trajectory Generation Network for Autonomous Vehicles in Urban Environments ( http://arxiv.org/abs/2004.12591v3 )

ライセンス: Link先を確認
Peide Cai, Yuxiang Sun, Hengli Wang, Ming Liu(参考訳) 従来の自動運転の方法は、知覚、計画、制御から多くのビルディングブロックで実装されており、複雑な仮定と相互依存性のために様々なシナリオに一般化することが困難である。 近年,輸出提供データから直接学習することで,新たな環境への一般化を実現するエンドツーエンド運転法が登場している。 しかしながら、この話題に関する既存の方法の多くは、運転行動の信頼性と、運転ミスから回復する能力の確認を怠っている。 本稿では,模倣学習に基づく不確実性を考慮した終端軌道生成手法を提案する。 前面カメラ画像から時空間的特徴を抽出してシーン理解し、今後数秒以内に衝突のない軌跡を生成することができる。 実験結果から, 各種気象・照明条件下では, 交差点の曲がり角や衝突回避の減速など, 都市環境の異なる軌道を確実に生成できることが示唆された。 さらに, 閉ループ運転試験の結果から, モデルがオフセンタおよびオフオリエンテーション誤差から回復し, 80%の危険事例を高い不確実性評価で捕捉できるSOTA(State-of-the-art-end-to-end Control)法よりも, クロスシーン/プラットフォーム運転結果が良好であることが示唆された。

Traditional methods for autonomous driving are implemented with many building blocks from perception, planning and control, making them difficult to generalize to varied scenarios due to complex assumptions and interdependencies. Recently, the end-to-end driving method has emerged, which performs well and generalizes to new environments by directly learning from export-provided data. However, many existing methods on this topic neglect to check the confidence of the driving actions and the ability to recover from driving mistakes. In this paper, we develop an uncertainty-aware end-to-end trajectory generation method based on imitation learning. It can extract spatiotemporal features from the front-view camera images for scene understanding, and then generate collision-free trajectories several seconds into the future. The experimental results suggest that under various weather and lighting conditions, our network can reliably generate trajectories in different urban environments, such as turning at intersections and slowing down for collision avoidance. Furthermore, closed-loop driving tests suggest that the proposed method achieves better cross-scene/platform driving results than the state-of-the-art (SOTA) end-to-end control method, where our model can recover from off-center and off-orientation errors and capture 80% of dangerous cases with high uncertainty estimations.
翻訳日:2022-12-09 05:03:08 公開日:2020-10-23
# 条件付き相互情報に基づく一般化境界のシャープ化と雑音反復アルゴリズムへの応用

Sharpened Generalization Bounds based on Conditional Mutual Information and an Application to Noisy, Iterative Algorithms ( http://arxiv.org/abs/2004.12983v2 )

ライセンス: Link先を確認
Mahdi Haghifam, Jeffrey Negrea, Ashish Khisti, Daniel M. Roy, Gintare Karolina Dziugaite(参考訳) russo and j. zou (2016) と xu and raginsky (2017) の情報理論の枠組みは、アルゴリズムの出力とトレーニングサンプルの間の相互情報の観点から学習アルゴリズムの一般化誤差の境界を提供する。 本研究では,Steinke と Zakynthinou (2020) が提案した学習アルゴリズムの一般化誤差を,トレーニングサンプルをランダムなサブセットとして含むスーパーサンプルを導入し,そのスーパーサンプル上での相互情報条件の計算によって解析する手法を提案する。 まず,条件付き相互情報に基づく新たな境界が,条件付き相互情報に基づく境界よりも厳密であることを示す。 さらに,bu,s. zou,veeravalli(2019)の"individual sample"概念と,negrea et al.(2019)の"data dependent"概念に基づいて,分解された相互情報を用いて,より厳密な境界を導入する。 最後に、これらの境界をランゲヴィン力学アルゴリズムの研究に適用し、スーパーサンプルの条件付けにより最適化軌道の情報を利用して仮説テストに基づいてより厳密な境界を求めることができることを示した。

The information-theoretic framework of Russo and J. Zou (2016) and Xu and Raginsky (2017) provides bounds on the generalization error of a learning algorithm in terms of the mutual information between the algorithm's output and the training sample. In this work, we study the proposal, by Steinke and Zakynthinou (2020), to reason about the generalization error of a learning algorithm by introducing a super sample that contains the training sample as a random subset and computing mutual information conditional on the super sample. We first show that these new bounds based on the conditional mutual information are tighter than those based on the unconditional mutual information. We then introduce yet tighter bounds, building on the "individual sample" idea of Bu, S. Zou, and Veeravalli (2019) and the "data dependent" ideas of Negrea et al. (2019), using disintegrated mutual information. Finally, we apply these bounds to the study of Langevin dynamics algorithm, showing that conditioning on the super sample allows us to exploit information in the optimization trajectory to obtain tighter bounds based on hypothesis tests.
翻訳日:2022-12-09 04:54:40 公開日:2020-10-23
# マルチリレーショナルグラフのためのサンプル外表現学習

Out-of-Sample Representation Learning for Multi-Relational Graphs ( http://arxiv.org/abs/2004.13230v2 )

ライセンス: Link先を確認
Marjan Albooyeh, Rishab Goel, Seyed Mehran Kazemi(参考訳) 多くの重要な問題は知識グラフの推論として定式化できる。 表現学習はトランスダクティブ推論において極めて効果的であることが証明されており、すでに観察されている実体に対する新しい予測を行う必要がある。 これは、(各エンティティが初期特徴ベクトルを持つ)帰属グラフと(他のエンティティとの既知の関係から唯一の初期情報を引き出す)非帰属グラフの両方に当てはまる。 トレーニング時に見つからないエンティティの予測を行う必要がある、サンプル外推論では、以前の作業は属性付きグラフを考慮する。 しかし、この問題は非帰属グラフに対して驚くほど未解決である。 本稿では,非帰属ナレッジグラフのサンプル表現学習問題を調査し,このタスクのためのベンチマークデータセットを作成し,いくつかのモデルとベースラインを開発し,提案するモデルとベースラインの実証的分析と比較を行う。

Many important problems can be formulated as reasoning in knowledge graphs. Representation learning has proved extremely effective for transductive reasoning, in which one needs to make new predictions for already observed entities. This is true for both attributed graphs(where each entity has an initial feature vector) and non-attributed graphs (where the only initial information derives from known relations with other entities). For out-of-sample reasoning, where one needs to make predictions for entities that were unseen at training time, much prior work considers attributed graph. However, this problem is surprisingly under-explored for non-attributed graphs. In this paper, we study the out-of-sample representation learning problem for non-attributed knowledge graphs, create benchmark datasets for this task, develop several models and baselines, and provide empirical analyses and comparisons of the proposed models and baselines.
翻訳日:2022-12-08 21:49:11 公開日:2020-10-23
# 疑わしい言葉を無視しない:単語センスの曖昧さにおける曖昧な言葉の役割について

Don't Neglect the Obvious: On the Role of Unambiguous Words in Word Sense Disambiguation ( http://arxiv.org/abs/2004.14325v3 )

ライセンス: Link先を確認
Daniel Loureiro and Jose Camacho-Collados(参考訳) Word Sense Disambiguation (WSD)の最先端の手法は、事前訓練された言語モデルのパワーと、そのようなモデルのカバレッジを拡張するための伝搬方法の2つの異なる特徴を組み合わせたものである。 この伝搬は、現在のセンスアノテートコーパスは、基礎となるセンスインベントリ(通常WordNet)の多くのインスタンスをカバーしていないため必要である。 同時に、不明瞭な単語はWordNetのすべての単語の大部分を占め、既存の感覚注釈コーパスではカバーされていない。 本稿では,大コーパス内の不明瞭な単語に対してアノテーションを提供するための簡易な手法を提案する。 私たちは、uwa(unmbiguous word annotations)データセットを紹介し、最先端の伝搬ベースモデルが、そのword sense埋め込みのカバレッジと品質をかなりのマージンで拡張し、wsdのオリジナル結果を改善した方法を示します。

State-of-the-art methods for Word Sense Disambiguation (WSD) combine two different features: the power of pre-trained language models and a propagation method to extend the coverage of such models. This propagation is needed as current sense-annotated corpora lack coverage of many instances in the underlying sense inventory (usually WordNet). At the same time, unambiguous words make for a large portion of all words in WordNet, while being poorly covered in existing sense-annotated corpora. In this paper, we propose a simple method to provide annotations for most unambiguous words in a large corpus. We introduce the UWA (Unambiguous Word Annotations) dataset and show how a state-of-the-art propagation-based model can use it to extend the coverage and quality of its word sense embeddings by a significant margin, improving on its original results on WSD.
翻訳日:2022-12-08 13:51:23 公開日:2020-10-23
# 会話型質問応答のための質問書き換え

Question Rewriting for Conversational Question Answering ( http://arxiv.org/abs/2004.14652v3 )

ライセンス: Link先を確認
Svitlana Vakulenko, Shayne Longpre, Zhucheng Tu, Raviteja Anantha(参考訳) 会話型質問応答(QA)は、前の会話のターンのコンテキストで質問を正しく解釈する能力を必要とする。 質問書きと質問応答サブタスクに分解することで、会話型QAタスクに対処する。 質問書き換え(qr)サブタスクは、会話的文脈に依存する曖昧な質問を、会話的文脈の外で正しく解釈できる曖昧でない質問に再編成するために特別に設計されている。 本稿では,TREC CAsT 2019パス検索データセット上で,新たな技術状況を設定する対話型QAアーキテクチャを提案する。 さらに,同じQRモデルによりQACデータセットの応答スパン抽出におけるQA性能が向上することを示す。 評価結果から,提案したQRモデルは,両データセットの人間レベルに近い性能を実現し,エンドツーエンドの会話QAタスクのパフォーマンスの差は,主にQAのエラーに起因することが示唆された。

Conversational question answering (QA) requires the ability to correctly interpret a question in the context of previous conversation turns. We address the conversational QA task by decomposing it into question rewriting and question answering subtasks. The question rewriting (QR) subtask is specifically designed to reformulate ambiguous questions, which depend on the conversational context, into unambiguous questions that can be correctly interpreted outside of the conversational context. We introduce a conversational QA architecture that sets the new state of the art on the TREC CAsT 2019 passage retrieval dataset. Moreover, we show that the same QR model improves QA performance on the QuAC dataset with respect to answer span extraction, which is the next step in QA after passage retrieval. Our evaluation results indicate that the QR model we proposed achieves near human-level performance on both datasets and the gap in performance on the end-to-end conversational QA task is attributed mostly to the errors in QA.
翻訳日:2022-12-08 05:36:06 公開日:2020-10-23
# 反事実的アプローチによる説明可能な分類器に向けて -データバイアス発見のためのグローバル説明-

Towards explainable classifiers using the counterfactual approach -- global explanations for discovering bias in data ( http://arxiv.org/abs/2005.02269v2 )

ライセンス: Link先を確認
Agnieszka Miko{\l}ajczyk, Micha{\l} Grochowski, Arkadiusz Kwasigroch(参考訳) 本稿では,データのバイアスの検出と同定のための属性に基づくポストホックな説明を提案する。 グローバルな説明が提案され、バイアスの検出とテスト方法に関するステップバイステップのフレームワークが導入されている。 不要なバイアスを取り除くことは複雑で大変な作業なので、代わりに自動的に挿入される。 そして,提案手法を用いてバイアス評価を行う。 得られた結果は、サンプル皮膚病変データセット上で検証される。 提案手法を用いて, 皮膚内視鏡画像において, アーティファクトの原因となる多くのバイアスを同定し, 確認した。 特に、黒いフレームが畳み込みニューラルネットワークの予測に強い影響を与えていることが確認され、そのうち22%が良性から悪性へと予測を変更した。

The paper proposes summarized attribution-based post-hoc explanations for the detection and identification of bias in data. A global explanation is proposed, and a step-by-step framework on how to detect and test bias is introduced. Since removing unwanted bias is often a complicated and tremendous task, it is automatically inserted, instead. Then, the bias is evaluated with the proposed counterfactual approach. The obtained results are validated on a sample skin lesion dataset. Using the proposed method, a number of possible bias causing artifacts are successfully identified and confirmed in dermoscopy images. In particular, it is confirmed that black frames have a strong influence on Convolutional Neural Network's prediction: 22% of them changed the prediction from benign to malignant.
翻訳日:2022-12-06 13:06:59 公開日:2020-10-23
# Tree! 俺は木じゃない! 私は低次元双曲的埋め込みです

Tree! I am no Tree! I am a Low Dimensional Hyperbolic Embedding ( http://arxiv.org/abs/2005.03847v4 )

ライセンス: Link先を確認
Rishi Sonthalia, Anna C. Gilbert(参考訳) データが与えられた場合、データの忠実な低次元双曲的埋め込みを見つけることは、階層的な情報を抽出したり、データの代表的な幾何学的特徴を学習できる重要な方法である。 本稿では,メトリックファーストアプローチを用いて,双曲表現を学習する新しい手法について検討する。 低次元双曲埋め込みを直接決定するのではなく、データ上の木構造を学習する。 この木構造は階層的な情報を抽出するために直接使用したり、サーカーの構成である \cite{sarkar} を使って双曲多様体に埋め込んだり、元の計量のツリー近似として使うことができる。 この目的のために、新しい高速アルゴリズム \textsc{TreeRep} を提案し、$\delta$-hyperbolic metric (任意の$\delta \geq 0$) が与えられた場合、アルゴリズムは元の計量を近似する木構造を学ぶ。 $\delta = 0$の場合、解析的に \textsc{TreeRep} が元のツリー構造を正確に復元することを示す。 経験的に、\textsc{treerep} は既知のアルゴリズムよりも桁違いに速いだけでなく、双曲的埋め込みの学習、階層的情報抽出、ツリーメトリクスによるメトリック近似のための従来のアルゴリズムよりも低い平均歪みと高い平均精度を持つメトリクスを生成する。

Given data, finding a faithful low-dimensional hyperbolic embedding of the data is a key method by which we can extract hierarchical information or learn representative geometric features of the data. In this paper, we explore a new method for learning hyperbolic representations by taking a metric-first approach. Rather than determining the low-dimensional hyperbolic embedding directly, we learn a tree structure on the data. This tree structure can then be used directly to extract hierarchical information, embedded into a hyperbolic manifold using Sarkar's construction \cite{sarkar}, or used as a tree approximation of the original metric. To this end, we present a novel fast algorithm \textsc{TreeRep} such that, given a $\delta$-hyperbolic metric (for any $\delta \geq 0$), the algorithm learns a tree structure that approximates the original metric. In the case when $\delta = 0$, we show analytically that \textsc{TreeRep} exactly recovers the original tree structure. We show empirically that \textsc{TreeRep} is not only many orders of magnitude faster than previously known algorithms, but also produces metrics with lower average distortion and higher mean average precision than most previous algorithms for learning hyperbolic embeddings, extracting hierarchical information, and approximating metrics via tree metrics.
翻訳日:2022-12-05 12:07:12 公開日:2020-10-23
# 運動プルーニング:微調整による適応的スパーニング

Movement Pruning: Adaptive Sparsity by Fine-Tuning ( http://arxiv.org/abs/2005.07683v2 )

ライセンス: Link先を確認
Victor Sanh, Thomas Wolf, Alexander M. Rush(参考訳) マグニチュードプルーニングは、純粋な教師付き学習におけるモデルサイズを減らすために広く使われる戦略であるが、最先端の自然言語処理アプリケーションで標準となっている転送学習方式では効果が低い。 本稿では,事前学習モデルの微調整に適応した簡易な一階重み決定法である移動切削法を提案する。 本手法の数学的基礎を与え,既存のゼロ次および1次プルーニング法と比較する。 実験により、大きな事前訓練された言語モデルでプルーニングを行うと、運動プルーニングは高分離性体制において顕著な改善を示すことが示された。 蒸留と組み合わせると、モデルパラメータの3%までしか持たない最小精度の損失が得られる。

Magnitude pruning is a widely used strategy for reducing model size in pure supervised learning; however, it is less effective in the transfer learning regime that has become standard for state-of-the-art natural language processing applications. We propose the use of movement pruning, a simple, deterministic first-order weight pruning method that is more adaptive to pretrained model fine-tuning. We give mathematical foundations to the method and compare it to existing zeroth- and first-order pruning methods. Experiments show that when pruning large pretrained language models, movement pruning shows significant improvements in high-sparsity regimes. When combined with distillation, the approach achieves minimal accuracy loss with down to only 3% of the model parameters.
翻訳日:2022-12-02 22:35:49 公開日:2020-10-23
# マルチエージェント強化学習による乱流自動モデリング

Automating Turbulence Modeling by Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2005.09023v2 )

ライセンス: Link先を確認
Guido Novati, Hugues Lascombes de Laroussilhe, and Petros Koumoutsakos(参考訳) 乱流のモデル化は、航空機の設計から気象予報、気候予報まで、科学や工学の問題に不可欠である。 過去60年間に多くの乱流モデルが提案され、主に物理的洞察と工学的直観に基づいている。 機械学習とデータサイエンスの最近の進歩は、これらのアプローチを補完する新たな取り組みを促している。 これまで、こうした取り組みはすべて教師あり学習に焦点が当てられてきたが、教師あり学習データの分布を超えて一般化することの難しさに遭遇した。 本研究では,乱流モデルの自動検出ツールとしてマルチエージェント強化学習(MARL)を導入する。 直接数値シミュレーションの統計特性の回復に対する報奨として, 同質および等方性乱流の大規模渦シミュレーションにおけるこのアプローチの可能性を示す。 ここでは, 閉鎖モデルを協調エージェントによる制御ポリシとして定式化し, 流れ場の臨界時空間パターンを検出し, 未解決サブグリッドスケール(SGS)物理を推定する。 本研究では,経験リプレイに基づく最先端のアルゴリズムを用いて,既存の動的SGSモデリング手法と比較した。 さらに,現在の乱流モデルは,レイノルズ数で表されるグリッドサイズと流れ条件にまたがって一般化することを示した。

The modeling of turbulent flows is critical to scientific and engineering problems ranging from aircraft design to weather forecasting and climate prediction. Over the last sixty years numerous turbulence models have been proposed, largely based on physical insight and engineering intuition. Recent advances in machine learning and data science have incited new efforts to complement these approaches. To date, all such efforts have focused on supervised learning which, despite demonstrated promise, encounters difficulties in generalizing beyond the distributions of the training data. In this work we introduce multi-agent reinforcement learning (MARL) as an automated discovery tool of turbulence models. We demonstrate the potential of this approach on Large Eddy Simulations of homogeneous and isotropic turbulence using as reward the recovery of the statistical properties of Direct Numerical Simulations. Here, the closure model is formulated as a control policy enacted by cooperating agents, which detect critical spatio-temporal patterns in the flow field to estimate the unresolved sub-grid scale (SGS) physics. The present results are obtained with state-of-the-art algorithms based on experience replay and compare favorably with established dynamic SGS modeling approaches. Moreover, we show that the present turbulence models generalize across grid sizes and flow conditions as expressed by the Reynolds numbers.
翻訳日:2022-12-02 00:33:26 公開日:2020-10-23
# 加速度勾配クリッピングによる重音の確率最適化

Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient Clipping ( http://arxiv.org/abs/2005.10785v2 )

ライセンス: Link先を確認
Eduard Gorbunov, Marina Danilova, Alexander Gasnikov(参考訳) 本稿では,確率勾配の重み付き分散雑音を用いた滑らかな凸確率最適化のためのクリップドsstmと呼ばれる新しい加速確率的一階法を提案し,重み付き雑音を用いた確率最適化理論のギャップを閉じる最初の高確率複雑性境界を導出する。 本手法は,加速度的確率勾配降下 (sgd) の特殊変種と確率勾配のクリップングに基づいている。 我々は,本手法を強凸の場合まで拡張し,この場合の最先端結果を上回る新しい複雑性境界を証明した。 最後に,本手法を拡張し,ノイズの微妙な仮定を伴わないクリッピングによるSGDの非自明な高確率複雑性境界を導出する。

In this paper, we propose a new accelerated stochastic first-order method called clipped-SSTM for smooth convex stochastic optimization with heavy-tailed distributed noise in stochastic gradients and derive the first high-probability complexity bounds for this method closing the gap in the theory of stochastic optimization with heavy-tailed noise. Our method is based on a special variant of accelerated Stochastic Gradient Descent (SGD) and clipping of stochastic gradients. We extend our method to the strongly convex case and prove new complexity bounds that outperform state-of-the-art results in this case. Finally, we extend our proof technique and derive the first non-trivial high-probability complexity bounds for SGD with clipping without light-tails assumption on the noise.
翻訳日:2022-12-01 00:04:36 公開日:2020-10-23
# DAG-Net: 軌跡予測のための二重注意グラフニューラルネットワーク

DAG-Net: Double Attentive Graph Neural Network for Trajectory Forecasting ( http://arxiv.org/abs/2005.12661v2 )

ライセンス: Link先を確認
Alessio Monti, Alessia Bertugli, Simone Calderara, Rita Cucchiara(参考訳) 人間の動きを理解することは、自動運転車やソーシャルロボットのような、いくつかの可能なアプリケーションにとって重要なタスクであり、一般的に、自律エージェントが人間中心の環境の中をナビゲートしなければならないすべての設定において重要である。 人間の動きは本質的にはマルチモーダルであり、人間の動きの経路の歴史を考えると、将来人々が動くためのもっともらしい方法がたくさんあるからです。 さらに、人々の活動は、例えば特定の場所への到達や環境との相互作用など、目標によって駆動されることが多い。 本稿では,個々のエージェントの将来の目標と異なるエージェント間の相互作用を考察した,新たな反復生成モデルを提案する。 このモデルは、二重注意に基づくグラフニューラルネットワークを利用して、異なるエージェント間の相互影響に関する情報を収集し、エージェントの将来的な目的に関するデータと統合する。 提案手法は,都市環境とスポーツの両分野において,最先端の成果を得られるモデルである。

Understanding human motion behaviour is a critical task for several possible applications like self-driving cars or social robots, and in general for all those settings where an autonomous agent has to navigate inside a human-centric environment. This is non-trivial because human motion is inherently multi-modal: given a history of human motion paths, there are many plausible ways by which people could move in the future. Additionally, people activities are often driven by goals, e.g. reaching particular locations or interacting with the environment. We address the aforementioned aspects by proposing a new recurrent generative model that considers both single agents' future goals and interactions between different agents. The model exploits a double attention-based graph neural network to collect information about the mutual influences among different agents and to integrate it with data about agents' possible future objectives. Our proposal is general enough to be applied to different scenarios: the model achieves state-of-the-art results in both urban environments and also in sports applications.
翻訳日:2022-11-28 23:38:05 公開日:2020-10-23
# 異常検出のための事前学習深部特徴量の正規分布のモデル化

Modeling the Distribution of Normal Data in Pre-Trained Deep Features for Anomaly Detection ( http://arxiv.org/abs/2005.14140v2 )

ライセンス: Link先を確認
Oliver Rippel, Patrick Mertens, Dorit Merhof(参考訳) 画像中の異常検出(AD)は、基本的なコンピュータビジョンの問題であり、画像と画像のサブ構造を識別することを指す。 一般的なADアルゴリズムは、通常、タスク固有のデータセットを使用して、スクラッチから正規性のモデルを学習しようとするが、大きなスケールでの異常の到達不能と、異常な外観の曖昧さを兼ね備えた半教師付きアプローチに限られる。 提案手法は,大きな自然画像データセット上での識別モデルにより学習された深い特徴表現が,正規性を記述し,さらに微妙な異常を検出するのに適していることを示す。 通常のデータのみを用いてImageNet上で訓練された分類ネットワークの特徴表現に多変量ガウス(MVG)を組み込むことにより、正規性のモデルを確立した。 その後、マハラノビス距離を異常スコアとして適用することにより、公開MVTec ADデータセット上での芸術の現在の状態を上回り、AUROC値が9,5.8 \pm 1.2$ (mean $\pm$ SEM) となる。 主成分分析を用いて,学習した表現がadタスクと判別される理由についてさらに検討する。 通常のデータにばらつきがほとんどない主成分は、正常なインスタンスと異常なインスタンスを区別するのに不可欠である。 これは、通常データのみを使用してスクラッチからトレーニングされたADアプローチの、しばしばサブパーパフォーマンスを説明できる。 MVGをこれらの最も関連するコンポーネントのみに選択的に適合させることで、AD性能を維持しながらモデルの複雑さをさらに軽減することができる。 また,mvg仮定に基づいて許容偽陽性率閾値を選択することで作業点の設定を検討する。 コードはhttps://github.com/orippler/gaussian-ad-mvtecで利用可能

Anomaly Detection (AD) in images is a fundamental computer vision problem and refers to identifying images and image substructures that deviate significantly from the norm. Popular AD algorithms commonly try to learn a model of normality from scratch using task specific datasets, but are limited to semi-supervised approaches employing mostly normal data due to the inaccessibility of anomalies on a large scale combined with the ambiguous nature of anomaly appearance. We follow an alternative approach and demonstrate that deep feature representations learned by discriminative models on large natural image datasets are well suited to describe normality and detect even subtle anomalies in a transfer learning setting. Our model of normality is established by fitting a multivariate Gaussian (MVG) to deep feature representations of classification networks trained on ImageNet using normal data only. By subsequently applying the Mahalanobis distance as the anomaly score we outperform the current state of the art on the public MVTec AD dataset, achieving an AUROC value of $95.8 \pm 1.2$ (mean $\pm$ SEM) over all 15 classes. We further investigate why the learned representations are discriminative to the AD task using Principal Component Analysis. We find that the principal components containing little variance in normal data are the ones crucial for discriminating between normal and anomalous instances. This gives a possible explanation to the often sub-par performance of AD approaches trained from scratch using normal data only. By selectively fitting a MVG to these most relevant components only, we are able to further reduce model complexity while retaining AD performance. We also investigate setting the working point by selecting acceptable False Positive Rate thresholds based on the MVG assumption. Code available at https://github.com/ORippler/gaussian-ad-mvtec
翻訳日:2022-11-27 05:18:26 公開日:2020-10-23
# 構築済み質問空間を用いたオープンドメイン質問応答

Open-Domain Question Answering with Pre-Constructed Question Spaces ( http://arxiv.org/abs/2006.08337v2 )

ライセンス: Link先を確認
Jinfeng Xiao, Lidan Wang, Franck Dernoncourt, Trung Bui, Tong Sun, Jiawei Han(参考訳) オープンドメイン質問応答は、大量の文書コレクションにおいて、ユーザ生成した質問に対する回答を見つけるタスクを解決することを目的としている。 ソリューションには、レトリバーリーダーとナレッジグラフベースのアプローチの2つのファミリーがある。 検索者リーダーは通常、TF-IDFのような情報検索手法を使用して、質問に関連する可能性のある文書や段落を見つけ出し、検索したテキストをニューラルネットワークリーダーに送って回答を抽出する。 あるいは、知識グラフをコーパスから構築して、ユーザの質問に答えるために照会することもできる。 本稿では,両家系と異なる読み取り構造を持つ新しいアルゴリズムを提案する。 我々の読者検索者はまず、オフラインの読者を用いてコーパスを読み、回答に関連するすべての質問のコレクションを生成し、その後、オンライン検索器を使用して、あらかじめ構築された質問スペースを検索して、所定の方法で質問される可能性が最も高い回答を検索する。 さらに2つのコンポーネント間の整合性を調べることで,レトリバーとレトリバーの結果を1つの回答にまとめる。 提案アルゴリズムは,既存の作業におけるボトルネックを解消し,実世界のデータセット上でより優れた精度を実現することを示す。

Open-domain question answering aims at solving the task of locating the answers to user-generated questions in massive collections of documents. There are two families of solutions available: retriever-readers, and knowledge-graph-based approaches. A retriever-reader usually first uses information retrieval methods like TF-IDF to locate some documents or paragraphs that are likely to be relevant to the question, and then feeds the retrieved text to a neural network reader to extract the answer. Alternatively, knowledge graphs can be constructed from the corpus and be queried against to answer user questions. We propose a novel algorithm with a reader-retriever structure that differs from both families. Our reader-retriever first uses an offline reader to read the corpus and generate collections of all answerable questions associated with their answers, and then uses an online retriever to respond to user queries by searching the pre-constructed question spaces for answers that are most likely to be asked in the given way. We further combine retriever-reader and reader-retriever results into one single answer by examining the consistency between the two components. We claim that our algorithm solves some bottlenecks in existing work, and demonstrate that it achieves superior accuracy on real-world datasets.
翻訳日:2022-11-26 00:29:30 公開日:2020-10-23
# 大規模ランダムグラフ上のグラフ畳み込みネットワークの収束と安定性

Convergence and Stability of Graph Convolutional Networks on Large Random Graphs ( http://arxiv.org/abs/2006.01868v2 )

ライセンス: Link先を確認
Nicolas Keriven and Alberto Bietti and Samuel Vaiter(参考訳) グラフ畳み込みネットワーク(gcns)の特性をランダムグラフの標準モデル上で解析し,ノードをランダムな潜在変数で表現し,エッジを類似性カーネルで描画する。 これにより、より自然な幾何学的側面を考慮して、非常に大きなグラフ上の同型のような離散的な概念を扱うことの難しさを克服することができる。 まず,ノード数の増加に伴い,gcnsの連続的なコンバージェンスについて検討する。 結果は完全に非漸近的であり、ノード数に対数的に増加する平均次数を持つ比較的スパースグラフに対して有効である。 次に、ランダムグラフモデルの小さな変形に対するgcnsの安定性を分析する。 離散的な設定における安定性に関する以前の研究とは対照的に、我々の継続的なセットアップにより、より直感的な変形に基づくメトリクスを提供することで安定性を理解することができ、ユークリッド領域における畳み込み表現の成功を説明するのに有用であることが証明された。

We study properties of Graph Convolutional Networks (GCNs) by analyzing their behavior on standard models of random graphs, where nodes are represented by random latent variables and edges are drawn according to a similarity kernel. This allows us to overcome the difficulties of dealing with discrete notions such as isomorphisms on very large graphs, by considering instead more natural geometric aspects. We first study the convergence of GCNs to their continuous counterpart as the number of nodes grows. Our results are fully non-asymptotic and are valid for relatively sparse graphs with an average degree that grows logarithmically with the number of nodes. We then analyze the stability of GCNs to small deformations of the random graph model. In contrast to previous studies of stability in discrete settings, our continuous setup allows us to provide more intuitive deformation-based metrics for understanding stability, which have proven useful for explaining the success of convolutional representations on Euclidean domains.
翻訳日:2022-11-25 23:47:02 公開日:2020-10-23
# スパイクニューラルネットワークにおけるアクティベーションとタイミングに基づく学習ルールの統合

Unifying Activation- and Timing-based Learning Rules for Spiking Neural Networks ( http://arxiv.org/abs/2006.02642v2 )

ライセンス: Link先を確認
Jinseok Kim, Kyungsu Kim, Jae-Joon Kim(参考訳) スパイキングニューラルネットワーク(SNN)トレーニングにおける時間領域の勾配計算については、2つの異なるアプローチが独立に研究されている。 1つはスパイクアクティベーションの変化(アクティベーションに基づく方法)の勾配を計算し、もう1つはスパイクタイミングの変化(タイピングに基づく方法)の勾配を計算することである。 本研究では,2つの手法の比較研究を行い,それらを組み合わせた新しい教師あり学習法を提案する。 提案手法は,スパイクのタイミングをタイミングベース方式のようにシフトさせ,スパイクの生成と除去をアクティベーションベース方式のように行うことにより,個々のスパイクをより効果的に活用する。 実験の結果,提案手法は従来の手法よりも精度と効率の両面で高い性能を達成できることがわかった。

For the gradient computation across the time domain in Spiking Neural Networks (SNNs) training, two different approaches have been independently studied. The first is to compute the gradients with respect to the change in spike activation (activation-based methods), and the second is to compute the gradients with respect to the change in spike timing (timing-based methods). In this work, we present a comparative study of the two methods and propose a new supervised learning method that combines them. The proposed method utilizes each individual spike more effectively by shifting spike timings as in the timing-based methods as well as generating and removing spikes as in the activation-based methods. Experimental results showed that the proposed method achieves higher performance in terms of both accuracy and efficiency than the previous approaches.
翻訳日:2022-11-25 09:07:22 公開日:2020-10-23
# サイドオブザーバ付きコンテキスト帯域

Contextual Bandits with Side-Observations ( http://arxiv.org/abs/2006.03951v2 )

ライセンス: Link先を確認
Rahul Singh, Fang Liu, Xin Liu, Ness Shroff(参考訳) ソーシャルネットワークを介して接続されたユーザの推薦アルゴリズムを設計するために,両腕にサイドオブザーブメントが存在する場合のコンテキスト帯について検討する。 ソーシャルネットワークのユーザーは友人の活動に反応し、お互いの好みに関する情報を提供する。 我々のモデルでは,学習アルゴリズムがユーザに対して記事を推薦する場合,その反応(例えば広告クリック)を観察するだけでなく,隣人の反応(例えば,同じ記事が提示された場合)も観察する。 これらの観測依存性を,ノードがユーザに対応し,エッジがソーシャルリンクに対応するグラフ$\mathcal{g}$でモデル化する。 一貫性のあるアルゴリズムの後悔に基づく問題/インスタンス依存のローバウンドを導出する。 本稿では,ユーザが推奨する$\mathcal{G}$の構造を活かし,その不備がラウンド数$T\to\infty$と一致するという意味で,漸近的に最適であることを示すために,最適化(線形プログラミング)に基づくデータ駆動学習アルゴリズムを提案する。 この漸近的に最適な後悔は、$o\left(|\chi(\mathcal{g})|\log t\right)$ と上限づけられており、ここで$|\chi(\mathcal{g})|$ は$\mathcal{g}$ の支配数である。 対照的に、既存の学習アルゴリズムのナイーブな応用は、ユーザ数を$n$とする$o\left(n\log t\right)$ regretとなる。

We investigate contextual bandits in the presence of side-observations across arms in order to design recommendation algorithms for users connected via social networks. Users in social networks respond to their friends' activity, and hence provide information about each other's preferences. In our model, when a learning algorithm recommends an article to a user, not only does it observe his/her response (e.g. an ad click), but also the side-observations, i.e., the response of his neighbors if they were presented with the same article. We model these observation dependencies by a graph $\mathcal{G}$ in which nodes correspond to users, and edges correspond to social links. We derive a problem/instance-dependent lower-bound on the regret of any consistent algorithm. We propose an optimization (linear programming) based data-driven learning algorithm that utilizes the structure of $\mathcal{G}$ in order to make recommendations to users and show that it is asymptotically optimal, in the sense that its regret matches the lower-bound as the number of rounds $T\to\infty$. We show that this asymptotically optimal regret is upper-bounded as $O\left(|\chi(\mathcal{G})|\log T\right)$, where $|\chi(\mathcal{G})|$ is the domination number of $\mathcal{G}$. In contrast, a naive application of the existing learning algorithms results in $O\left(N\log T\right)$ regret, where $N$ is the number of users.
翻訳日:2022-11-24 21:04:56 公開日:2020-10-23
# フェデレートからフォグラーニングへ:異種無線ネットワーク上での分散機械学習

From Federated to Fog Learning: Distributed Machine Learning over Heterogeneous Wireless Networks ( http://arxiv.org/abs/2006.03594v3 )

ライセンス: Link先を確認
Seyyedali Hosseinalipour and Christopher G. Brinton and Vaneet Aggarwal and Huaiyu Dai and Mung Chiang(参考訳) 今日のネットワークアプリケーションでは、機械学習(ML)タスクがユビキタスになりつつある。 フェデレートラーニングは、データを収集するノード間の処理能力を活用することで、ネットワークエッジでMLモデルをトレーニングするテクニックとして最近登場した。 デバイス間に存在する計算能力と通信能力の著しい異質性のため、現代のネットワークで従来のフェデレーション学習を採用するにはいくつかの課題がある。 そこで我々は,エッジデバイスからクラウドサーバへのノード連続体にMLモデルのトレーニングをインテリジェントに分散する,フォグラーニングと呼ばれる新たな学習パラダイムを提案する。 フォグ学習は、ネットワーク、異質性、近接という3つの主要な次元に沿って連合学習を強化する。 様々な近性を持つ異種デバイスからなる多層ハイブリッド学習フレームワークを検討する。 各ネットワーク層におけるヘテロジニアスノード間のローカルネットワークのトポロジ構造を考慮し,デバイス間通信(d2d)による協調的・協調的学習を組織化する。 これにより、フェデレーション学習でパラメータ転送に使用されるスターネットワークトポロジから、大規模でより分散したトポロジへと移行する。 霧学習を実現するためのオープン研究の方向性について考察する。

Machine learning (ML) tasks are becoming ubiquitous in today's network applications. Federated learning has emerged recently as a technique for training ML models at the network edge by leveraging processing capabilities across the nodes that collect the data. There are several challenges with employing conventional federated learning in contemporary networks, due to the significant heterogeneity in compute and communication capabilities that exist across devices. To address this, we advocate a new learning paradigm called fog learning which will intelligently distribute ML model training across the continuum of nodes from edge devices to cloud servers. Fog learning enhances federated learning along three major dimensions: network, heterogeneity, and proximity. It considers a multi-layer hybrid learning framework consisting of heterogeneous devices with various proximities. It accounts for the topology structures of the local networks among the heterogeneous nodes at each network layer, orchestrating them for collaborative/cooperative learning through device-to-device (D2D) communications. This migrates from star network topologies used for parameter transfers in federated learning to more distributed topologies at scale. We discuss several open research directions to realizing fog learning.
翻訳日:2022-11-24 07:57:33 公開日:2020-10-23
# シーケンシャルなインタラクション環境としてのロングホリゾンタスクのモデル化

Modeling Long-horizon Tasks as Sequential Interaction Landscapes ( http://arxiv.org/abs/2006.04843v2 )

ライセンス: Link先を確認
S\"oren Pirk, Karol Hausman, Alexander Toshev, Mohi Khansari(参考訳) 複雑なオブジェクト操作タスクは、しばしば操作の長いシーケンスにまたがる。 長時間の地平線でのタスク計画はロボティクスにおいて挑戦的でオープンな問題であり、その複雑さはサブタスクの増加とともに指数関数的に増加する。 本稿では,一連のデモビデオから,サブタスク間の依存関係や遷移を学習する深層学習ネットワークを提案する。 各サブタスクをアクションシンボル(例えばmove cup)として表現し、これらのシンボルを画像観察から直接学習し、予測できることを示します。 デモと視覚的な観察から学ぶことは、私たちのアプローチの2つの柱です。 前者は、(可能なすべての組み合わせを探索する代わりに)サブタスク間の最も頻繁な遷移と関連する依存関係に関する情報をネットワークに提供し、後者は、ネットワークがタスクの進捗を継続的に監視し、環境の変化にインタラクティブに適応できるようにするので、学習を扱いやすくする。 我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作の2つの長期水平作業において,我々の枠組みを評価する。 ロボットタスクの実行時に複雑な計画を実行することができ、ロボットは環境の変化に対話的に適応し、障害ケースから回復することができる。

Complex object manipulation tasks often span over long sequences of operations. Task planning over long-time horizons is a challenging and open problem in robotics, and its complexity grows exponentially with an increasing number of subtasks. In this paper we present a deep learning network that learns dependencies and transitions across subtasks solely from a set of demonstration videos. We represent each subtask as an action symbol (e.g. move cup), and show that these symbols can be learned and predicted directly from image observations. Learning from demonstrations and visual observations are two main pillars of our approach. The former makes the learning tractable as it provides the network with information about the most frequent transitions and relevant dependency between subtasks (instead of exploring all possible combination), while the latter allows the network to continuously monitor the task progress and thus to interactively adapt to changes in the environment. We evaluate our framework on two long horizon tasks: (1) block stacking of puzzle pieces being executed by humans, and (2) a robot manipulation task involving pick and place of objects and sliding a cabinet door with a 7-DoF robot arm. We show that complex plans can be carried out when executing the robotic task and the robot can interactively adapt to changes in the environment and recover from failure cases.
翻訳日:2022-11-24 02:36:09 公開日:2020-10-23
# 高次元における位相検索:統計的および計算的位相遷移

Phase retrieval in high dimensions: Statistical and computational phase transitions ( http://arxiv.org/abs/2006.05228v2 )

ライセンス: Link先を確認
Antoine Maillard, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) m$(おそらく騒がしい)の観測値から$n$の実または複素信号$\mathbf{x}^{\star}$を再構成する位相検索問題を考える。 $m,n\to\infty$の高次元環境では$y_\mu = | \sum_{i=1}^n \phi_{\mu i} x^{\star}_i/\sqrt{n}|$である。 まず、統計的に達成可能な最小推定誤差に対するシャープな漸近を導出し、行列 $\mathbf{\Phi}$ の特異値の関数として弱および完全回復しきい値に対するシャープな位相遷移の存在を明らかにする。 これは、統計力学からレプリカ法によって最初に得られた結果の厳密な証明を提供することによって達成される。 特に、フルランク行列に対する情報理論上の完全回復への遷移は、$\alpha=1$ (実ケース) および $\alpha=2$ (複素ケース) に現れる。 次に,この問題に対する最もよく知られた多項式時間アルゴリズム(近似メッセージパッシング)の性能を解析し,$\mathbf{\phi}$ のスペクトル特性に依存する統計的-代数的ギャップの存在を明らかにした。 本研究は,確率行列の広いクラスに対する高次元位相探索における統計的およびアルゴリズム的しきい値の広範な分類を提供する。

We consider the phase retrieval problem of reconstructing a $n$-dimensional real or complex signal $\mathbf{X}^{\star}$ from $m$ (possibly noisy) observations $Y_\mu = | \sum_{i=1}^n \Phi_{\mu i} X^{\star}_i/\sqrt{n}|$, for a large class of correlated real and complex random sensing matrices $\mathbf{\Phi}$, in a high-dimensional setting where $m,n\to\infty$ while $\alpha = m/n=\Theta(1)$. First, we derive sharp asymptotics for the lowest possible estimation error achievable statistically and we unveil the existence of sharp phase transitions for the weak- and full-recovery thresholds as a function of the singular values of the matrix $\mathbf{\Phi}$. This is achieved by providing a rigorous proof of a result first obtained by the replica method from statistical mechanics. In particular, the information-theoretic transition to perfect recovery for full-rank matrices appears at $\alpha=1$ (real case) and $\alpha=2$ (complex case). Secondly, we analyze the performance of the best-known polynomial time algorithm for this problem -- approximate message-passing -- establishing the existence of a statistical-to-algorithmic gap depending, again, on the spectral properties of $\mathbf{\Phi}$. Our work provides an extensive classification of the statistical and algorithmic thresholds in high-dimensional phase retrieval for a broad class of random matrices.
翻訳日:2022-11-23 15:56:09 公開日:2020-10-23
# 並列多目的ベイズ最適化のための微分可能なハイパーボリューム改善

Differentiable Expected Hypervolume Improvement for Parallel Multi-Objective Bayesian Optimization ( http://arxiv.org/abs/2006.05078v3 )

ライセンス: Link先を確認
Samuel Daulton, Maximilian Balandat, Eytan Bakshy(参考訳) 多くの実世界のシナリオにおいて、意思決定者はサンプル効率の良い方法で複数の競合する目標を効率的に最適化しようとする。 多目的ベイズ最適化(BO)は一般的な手法であるが、最も優れた獲得関数の多くは解析的な勾配が分かっておらず、高い計算オーバーヘッドに悩まされている。 我々は,予測ハイパーボリューム改善(EHVI)を用いた多目的BOのプログラミングモデルとハードウェアアクセラレーションの最近の進歩を活用する。 我々は、EHVIを並列な制約付き評価設定に拡張する取得関数q-Expected Hypervolume Improvement (qEHVI) の新たな定式化を導出する。 qEHVI は q の新しい候補点(モンテカルロ積分誤差まで)の合同 EHVI の正確な計算である。 従来のEHVIの定式化は、勾配なしの取得最適化や近似勾配に依存するが、自動微分によりMC推定器の正確な勾配を計算することにより、一階法と準二階法の効率よく効率的な最適化を可能にする。 実験により,qEHVIは実運用シナリオで計算可能であり,壁面時間の一部で最先端の多目的BOアルゴリズムより優れていた。

In many real-world scenarios, decision makers seek to efficiently optimize multiple competing objectives in a sample-efficient fashion. Multi-objective Bayesian optimization (BO) is a common approach, but many of the best-performing acquisition functions do not have known analytic gradients and suffer from high computational overhead. We leverage recent advances in programming models and hardware acceleration for multi-objective BO using Expected Hypervolume Improvement (EHVI)---an algorithm notorious for its high computational complexity. We derive a novel formulation of q-Expected Hypervolume Improvement (qEHVI), an acquisition function that extends EHVI to the parallel, constrained evaluation setting. qEHVI is an exact computation of the joint EHVI of q new candidate points (up to Monte-Carlo (MC) integration error). Whereas previous EHVI formulations rely on gradient-free acquisition optimization or approximated gradients, we compute exact gradients of the MC estimator via auto-differentiation, thereby enabling efficient and effective optimization using first-order and quasi-second-order methods. Our empirical evaluation demonstrates that qEHVI is computationally tractable in many practical scenarios and outperforms state-of-the-art multi-objective BO algorithms at a fraction of their wall time.
翻訳日:2022-11-23 13:14:34 公開日:2020-10-23
# 正則化最小二乗最適化のための有効次元適応スケッチ法

Effective Dimension Adaptive Sketching Methods for Faster Regularized Least-Squares Optimization ( http://arxiv.org/abs/2006.05874v2 )

ライセンス: Link先を確認
Jonathan Lacotte and Mert Pilanci(参考訳) スケッチに基づくl2正規化最小二乗問題を解くための新しいランダム化アルゴリズムを提案する。 最も一般的なランダム埋め込み(gaussian embeddeds)とサブサンプリングランダムアダマール変換(subsampled randomized hadamard transform:srht)の2つを考える。 最小二乗最適化のための現在のランダム化解法は、少なくともデータ次元よりも大きい埋め込み次元を規定するが、埋め込み次元は最適化問題の有効次元に還元でき、高確率収束保証を保っていることを示す。 この観点から、ガウスおよびSRHTの埋め込みにおける楕円体上の鋭い行列偏差不等式を導出する。 具体的には、古典ガウス濃度境界の定数を改善する一方、SRHT埋め込みでは、偏差の不等式は、新しい技術的アプローチを含む。 これらの境界を利用することで、事前に有効次元を知る必要のない実用的かつ適応的なアルゴリズムを設計できる。 我々の手法は初期埋め込み次元が 1 に等しいことから始まり、反復によって、埋め込み次元が最大で有効なものまで増加する。 したがって,本アルゴリズムは正規化最小二乗問題を解くための最先端計算量を改善する。 さらに,いくつかの標準機械学習データセットにおいて,共役勾配法や事前条件付きバージョンなど,標準的な反復解法よりも優れていることを示す。

We propose a new randomized algorithm for solving L2-regularized least-squares problems based on sketching. We consider two of the most popular random embeddings, namely, Gaussian embeddings and the Subsampled Randomized Hadamard Transform (SRHT). While current randomized solvers for least-squares optimization prescribe an embedding dimension at least greater than the data dimension, we show that the embedding dimension can be reduced to the effective dimension of the optimization problem, and still preserve high-probability convergence guarantees. In this regard, we derive sharp matrix deviation inequalities over ellipsoids for both Gaussian and SRHT embeddings. Specifically, we improve on the constant of a classical Gaussian concentration bound whereas, for SRHT embeddings, our deviation inequality involves a novel technical approach. Leveraging these bounds, we are able to design a practical and adaptive algorithm which does not require to know the effective dimension beforehand. Our method starts with an initial embedding dimension equal to 1 and, over iterations, increases the embedding dimension up to the effective one at most. Hence, our algorithm improves the state-of-the-art computational complexity for solving regularized least-squares problems. Further, we show numerically that it outperforms standard iterative solvers such as the conjugate gradient method and its pre-conditioned version on several standard machine learning datasets.
翻訳日:2022-11-23 04:40:27 公開日:2020-10-23
# comir: 登録のための対照的なマルチモーダル画像表現

CoMIR: Contrastive Multimodal Image Representation for Registration ( http://arxiv.org/abs/2006.06325v2 )

ライセンス: Link先を確認
Nicolas Pielawski, Elisabeth Wetzer, Johan \"Ofverstedt, Jiahao Lu, Carolina W\"ahlby, Joakim Lindblad and Nata\v{s}a Sladoje(参考訳) 本研究では,コミール (contrastive multimodal image representations) と呼ばれる共有画像表現を学習するために,コントラスト符号化を提案する。 CoMIRは、十分に類似した画像構造が欠如しているため、既存の登録方法がしばしば失敗するマルチモーダル画像の登録を可能にする。 CoMIRはマルチモーダル登録問題をモノモーダルに還元し、一般的な強度ベースおよび特徴ベース登録アルゴリズムを適用することができる。 この方法は、ノイズコントラスト推定(infonce)に基づくコントラスト損失を用いて、アライメント画像上のモダリティ毎に1つのニューラルネットワークを訓練することを含む。 他のコントラスト符号化法、例えば分類法とは異なり、この手法はモダリティ間で共有される情報を含む画像のような表現を生成する。 登録タスクに不可欠な特性である学習表現の回転同値を強制するために、InfoNCEに新しいハイパーパラメータフリーな修正を導入する。 本研究では,rgbおよび近赤外画像のリモートセンシングデータセット上で,重み初期化,トレーニングセット,ハイパーパラメータ設定に関して,達成された回転同分散の程度と表現の安定性を評価する。 我々は,鮮視野および第2高調波発生顕微鏡画像のバイオメディカルデータセットの登録による学習表現の評価を行った。 提案手法は,GANをベースとしたイメージ・ツー・イメージ翻訳による表現の登録や,データに関するさらなる知識を考慮に入れた最先端のアプリケーション固有手法よりも優れている。 コードは、https://github.com/MIDA-group/CoMIRで入手できる。

We propose contrastive coding to learn shared, dense image representations, referred to as CoMIRs (Contrastive Multimodal Image Representations). CoMIRs enable the registration of multimodal images where existing registration methods often fail due to a lack of sufficiently similar image structures. CoMIRs reduce the multimodal registration problem to a monomodal one, in which general intensity-based, as well as feature-based, registration algorithms can be applied. The method involves training one neural network per modality on aligned images, using a contrastive loss based on noise-contrastive estimation (InfoNCE). Unlike other contrastive coding methods, used for, e.g., classification, our approach generates image-like representations that contain the information shared between modalities. We introduce a novel, hyperparameter-free modification to InfoNCE, to enforce rotational equivariance of the learnt representations, a property essential to the registration task. We assess the extent of achieved rotational equivariance and the stability of the representations with respect to weight initialization, training set, and hyperparameter settings, on a remote sensing dataset of RGB and near-infrared images. We evaluate the learnt representations through registration of a biomedical dataset of bright-field and second-harmonic generation microscopy images; two modalities with very little apparent correlation. The proposed approach based on CoMIRs significantly outperforms registration of representations created by GAN-based image-to-image translation, as well as a state-of-the-art, application-specific method which takes additional knowledge about the data into account. Code is available at: https://github.com/MIDA-group/CoMIR.
翻訳日:2022-11-22 13:32:46 公開日:2020-10-23
# NanoFlow: 線形パラメータ複雑性を持つスケーラブル正規化フロー

NanoFlow: Scalable Normalizing Flows with Sublinear Parameter Complexity ( http://arxiv.org/abs/2006.06280v4 )

ライセンス: Link先を確認
Sang-gil Lee, Sungwon Kim, Sungroh Yoon(参考訳) 正規化フロー(NF)は、分析確率密度の推定と効率的な合成を可能にする深層生成モデルの顕著な方法となっている。 しかし、フローベースネットワークは、客観的マッピングの表現性を低下させるため、パラメータの複雑さにおいて非効率であると考えられている。 本稿では,単一の神経密度推定器を用いて複数の変換段階をモデル化するnanoflowという代替パラメータ化手法を提案する。 そこで,本研究では,単一のニューラルネットワークから密度推定を可能にする重要な欠落成分である効率的なパラメータ分解法とフロー適応埋め込みの概念を提案する。 音響モデルと画像モデルを用いた実験により,本手法は拡張性のあるNFに対して,パラメータのパラメータがかなり複雑である新しいパラメータ効率のソリューションを提供することを確認した。

Normalizing flows (NFs) have become a prominent method for deep generative models that allow for an analytic probability density estimation and efficient synthesis. However, a flow-based network is considered to be inefficient in parameter complexity because of reduced expressiveness of bijective mapping, which renders the models unfeasibly expensive in terms of parameters. We present an alternative parameterization scheme called NanoFlow, which uses a single neural density estimator to model multiple transformation stages. Hence, we propose an efficient parameter decomposition method and the concept of flow indication embedding, which are key missing components that enable density estimation from a single neural network. Experiments performed on audio and image models confirm that our method provides a new parameter-efficient solution for scalable NFs with significant sublinear parameter complexity.
翻訳日:2022-11-22 09:54:37 公開日:2020-10-23
# 不完全因果知識に基づくアルゴリズム的会話--確率論的アプローチ

Algorithmic recourse under imperfect causal knowledge: a probabilistic approach ( http://arxiv.org/abs/2006.06831v3 )

ライセンス: Link先を確認
Amir-Hossein Karimi, Julius von K\"ugelgen, Bernhard Sch\"olkopf, Isabel Valera(参考訳) 最近の研究は、アルゴリズム的リコースのアクションを推奨する反事実的説明の限界について議論し、特徴間の因果関係を考慮に入れる必要性を論じている。 残念ながら、実際には、真の構造因果モデルが一般に不明である。 本研究では,まず,真の構造方程式にアクセスせずに帰結を保証することは不可能であることを示す。 この制限に対処するため,我々は,限定的な因果知識(例えば因果グラフのみ)を与えられた高い確率で再現する最適な行動を選択するための2つの確率論的アプローチを提案する。 第一は加法ガウス雑音下での構造方程式に対する不確実性を捉え、平均ベイズモデルを用いて反実分布を推定する。 第二は、構造方程式に関する仮定を排除し、代わりに、リコースを求める個人に類似したリコース行動の平均効果を計算し、新しいサブポピュレーションに基づくリコースの介入的概念を生み出す。 提案手法は,非確率的ベースラインよりも不完全な因果的知識の下で,より信頼性の高いレコメンデーションに導かれることを実証的に示す。

Recent work has discussed the limitations of counterfactual explanations to recommend actions for algorithmic recourse, and argued for the need of taking causal relationships between features into consideration. Unfortunately, in practice, the true underlying structural causal model is generally unknown. In this work, we first show that it is impossible to guarantee recourse without access to the true structural equations. To address this limitation, we propose two probabilistic approaches to select optimal actions that achieve recourse with high probability given limited causal knowledge (e.g., only the causal graph). The first captures uncertainty over structural equations under additive Gaussian noise, and uses Bayesian model averaging to estimate the counterfactual distribution. The second removes any assumptions on the structural equations by instead computing the average effect of recourse actions on individuals similar to the person who seeks recourse, leading to a novel subpopulation-based interventional notion of recourse. We then derive a gradient-based procedure for selecting optimal recourse actions, and empirically show that the proposed approaches lead to more reliable recommendations under imperfect causal knowledge than non-probabilistic baselines.
翻訳日:2022-11-22 09:17:23 公開日:2020-10-23
# 核化情報ボトルネックは深層ネットワークにおける生物学的に有望な3因子ヘビー学習をもたらす

Kernelized information bottleneck leads to biologically plausible 3-factor Hebbian learning in deep networks ( http://arxiv.org/abs/2006.07123v2 )

ライセンス: Link先を確認
Roman Pogodin and Peter E. Latham(参考訳) ディープニューラルネットワークのトレーニング、バックプロパゲーションに関する最先端の機械学習アプローチは、実際のニューラルネットワークには当てはまらない – ニューロンは、そのアウトゴーイングウェイトを知る必要がある、ボトムアップフォワードパス(計算)とトップダウンの後方パス(学習)の間の代替のトレーニング、アルゴリズムは多くの場合、多くのデータポイントの正確なラベルを必要とする、といったものだ。 フィードバックアライメントなどのバックプロパゲーションに対する生物学的に妥当な近似は、重量輸送問題を解くが、他の2つは解決しない。 したがって、完全に生物学的に妥当な学習規則は、これまでのところ謎のままである。 ここでは、これらの問題に苦しむことのない学習ルールのファミリーを示す。 ネットワークが出力の予測を犠牲にすることなく可能な限り入力を圧縮することを学習する情報ボトルネック原理(カーネル法で拡張)によって動機付けられている。 これらの規則は3要素のヘビアン構造を持ち、前と後の間の発射速度とエラー信号(第3の要因)はグローバルな教示信号と層固有の用語から成り、どちらもトップダウンパスなしで利用できる。 正確なラベルは必要とせず、代わりに所望の出力のペア間の類似性に依存する。 さらに, 難易度を向上し, 生物学的信頼性を維持するためには, 生物ネットワークの既知の特徴である分割正規化が必要である。 最後に、シミュレーションにより、我々のルールは画像分類タスクのバックプロパゲーションとほぼ同等の性能を示す。

The state-of-the art machine learning approach to training deep neural networks, backpropagation, is implausible for real neural networks: neurons need to know their outgoing weights; training alternates between a bottom-up forward pass (computation) and a top-down backward pass (learning); and the algorithm often needs precise labels of many data points. Biologically plausible approximations to backpropagation, such as feedback alignment, solve the weight transport problem, but not the other two. Thus, fully biologically plausible learning rules have so far remained elusive. Here we present a family of learning rules that does not suffer from any of these problems. It is motivated by the information bottleneck principle (extended with kernel methods), in which networks learn to compress the input as much as possible without sacrificing prediction of the output. The resulting rules have a 3-factor Hebbian structure: they require pre- and post-synaptic firing rates and an error signal - the third factor - consisting of a global teaching signal and a layer-specific term, both available without a top-down pass. They do not require precise labels; instead, they rely on the similarity between pairs of desired outputs. Moreover, to obtain good performance on hard problems and retain biological plausibility, our rules need divisive normalization - a known feature of biological networks. Finally, simulations show that our rules perform nearly as well as backpropagation on image classification tasks.
翻訳日:2022-11-22 03:32:56 公開日:2020-10-23
# テクスチャ型3次元メッシュの畳み込み生成

Convolutional Generation of Textured 3D Meshes ( http://arxiv.org/abs/2006.07660v2 )

ライセンス: Link先を確認
Dario Pavllo, Graham Spinks, Thomas Hofmann, Marie-Francine Moens, Aurelien Lucchi(参考訳) 最近の2d画像生成モデルは印象的な視覚的結果をもたらすが、明らかに3d推論を行う能力が欠けている。 これは、生成されたオブジェクトに対する制御の程度と、そのようなモデルの可能な応用を厳しく制限する。 本研究では,最近の微分可能レンダリングの進歩を活用して,このギャップを埋める。 単視点自然画像からの2次元監視のみを用いて、三角形メッシュとそれに伴う高分解能テクスチャマップを生成できるフレームワークを設計する。 我々の研究の重要な貢献は、メッシュとテクスチャを2D表現として符号化することであり、2D畳み込みGANで簡単にモデル化できる。 本研究では,Pascal3D+カーとCUBにおいて,モデルがクラスラベル,属性,テキストに条件付けされている場合とで,本手法の有効性を示す。 最後に,メッシュとテクスチャの品質を別々に評価する評価手法を提案する。

While recent generative models for 2D images achieve impressive visual results, they clearly lack the ability to perform 3D reasoning. This heavily restricts the degree of control over generated objects as well as the possible applications of such models. In this work, we bridge this gap by leveraging recent advances in differentiable rendering. We design a framework that can generate triangle meshes and associated high-resolution texture maps, using only 2D supervision from single-view natural images. A key contribution of our work is the encoding of the mesh and texture as 2D representations, which are semantically aligned and can be easily modeled by a 2D convolutional GAN. We demonstrate the efficacy of our method on Pascal3D+ Cars and CUB, both in an unconditional setting and in settings where the model is conditioned on class labels, attributes, and text. Finally, we propose an evaluation methodology that assesses the mesh and texture quality separately.
翻訳日:2022-11-21 20:59:38 公開日:2020-10-23
# 半教師付き学習と局所グラフクラスタリングのための強局所pノルムカットアルゴリズム

Strongly local p-norm-cut algorithms for semi-supervised learning and local graph clustering ( http://arxiv.org/abs/2006.08569v2 )

ライセンス: Link先を確認
Meng Liu and David F. Gleich(参考訳) グラフに基づく半教師付き学習は、グラフのエッジがラベルの類似性を示すという仮定の下で、しばしば種と呼ばれるいくつかの例ノードが与えられたグラフノードのラベル付け関数を学習する問題である。 これは、特定の種周辺のクラスタまたはノードのコミュニティを見つけるローカルグラフクラスタリングまたはコミュニティ検出問題と密接に関連している。 そこで本研究では, ランダムウォーキング, 拡散, あるいはスムーズな関数法を凸p-ノルム切断関数に一般化する手法を提案する。 p-ノルム法の必要性は、既存の手法の研究において、固有ベクトル、スペクトル、ランダムウォーク、あるいは線形系に基づく原理的手法が、しばしばターゲットラベルやターゲットクラスタの正確な境界を捉えるのに困難であることである。 対照的に、1-norm または maxflow-mincut ベースの手法は境界を捉えているが、小さなシードセットから成長することはできない。 本稿では, p-ノルムを含むこれらの手法の背後にある目的関数の一般化を提案する。 p-ノルムカット問題を解決するために、強く局所的なアルゴリズムを与える -- 実行時にグラフのサイズよりも出力のサイズに依存するアルゴリズム。 提案手法は, パーソナライズされたPageRankベクトルを効率的に近似するために, Anderson-Chung-Langプッシュ手順の非線形一般化と考えることができる。 本手法は汎用的であり,フーバー損失のp-ノルム変種など他の非線形目的関数を解くことができる。 本手法を用いて植込み対象クラスタを探索する理論的解析を行い,ランダムウォークとスペクトル法の標準的なチーガー不等式によりpノルム切断関数が改善することを示す。 最後に,合成および実世界のデータセットにおける新しい手法の速度と精度を示す。 私たちのコードはhttp://github.com/mengliupurdue/slqで利用可能です。

Graph based semi-supervised learning is the problem of learning a labeling function for the graph nodes given a few example nodes, often called seeds, usually under the assumption that the graph's edges indicate similarity of labels. This is closely related to the local graph clustering or community detection problem of finding a cluster or community of nodes around a given seed. For this problem, we propose a novel generalization of random walk, diffusion, or smooth function methods in the literature to a convex p-norm cut function. The need for our p-norm methods is that, in our study of existing methods, we find those principled methods based on eigenvector, spectral, random walk, or linear system often have difficulty capturing the correct boundary of a target label or target cluster. In contrast, 1-norm or maxflow-mincut based methods capture the boundary, but cannot grow from small seed set; hybrid procedures that use both have many hard to set parameters. In this paper, we propose a generalization of the objective function behind these methods involving p-norms. To solve the p-norm cut problem we give a strongly local algorithm -- one whose runtime depends on the size of the output rather than the size of the graph. Our method can be thought as a nonlinear generalization of the Anderson-Chung-Lang push procedure to approximate a personalized PageRank vector efficiently. Our procedure is general and can solve other types of nonlinear objective functions, such as p-norm variants of Huber losses. We provide a theoretical analysis of finding planted target clusters with our method and show that the p-norm cut functions improve on the standard Cheeger inequalities for random walk and spectral methods. Finally, we demonstrate the speed and accuracy of our new method in synthetic and real world datasets. Our code is available at http://github.com/MengLiuPurdue/SLQ.
翻訳日:2022-11-21 05:10:31 公開日:2020-10-23
# ペシミズムによるクルーシュ・オプティミズム:漸近的オプティミリティを超えた構造的バンド

Crush Optimism with Pessimism: Structured Bandits Beyond Asymptotic Optimality ( http://arxiv.org/abs/2006.08754v2 )

ライセンス: Link先を確認
Kwang-Sung Jun, Chicheng Zhang(参考訳) 後悔を最小限に抑えるために、確率的構成のバンディットを研究した。 一般的な楽観的アルゴリズムが漸近的なインスタンス依存的後悔の最適性(略して漸近的最適性)を達成できないという事実は、近年研究者をほのめかしている。 一方、ある場合において、有界な後悔(すなわち、$n$で無限に成長しない)を達成できることが知られている。 残念ながら、既存の漸近的最適アルゴリズムは、強制サンプリングに依存しており、それは$\omega(1)$ 項 w.r.t. the time horizon $n$ を後悔して導入し、インスタンスの "easiness" に適応できない。 本稿では,有限仮説に焦点をあて,可能な限り有界後悔を楽しみながら漸近的最適性を達成できるかを問う。 我々は、悲観的仮説によって示される情報的アームを引いて楽観的な仮説を除去するCROP(CRush Optimism with Pessimism)と呼ばれる新しいアルゴリズムを導入することで、肯定的な答えを提供する。 有限時間解析の結果、crop $は (i)$は定数要素の漸近最適性を達成し、強制探索のない設計のおかげで$ (ii)$ は限定された後悔に適応し、$ (iii)その後悔束のスケールは$K$ではなく、実際に紹介する腕数$K_\psi$である。 また,既存のアルゴリズムよりもCROPが指数関数的に優れている問題クラスについても論じる。 この問題クラスはまた、漸近的に最適なアームプルスキームに従ってプレーする透視性オラクルでさえ、線形最悪の後悔を被る可能性があるという驚くべき事実も明らかにしている。

We study stochastic structured bandits for minimizing regret. The fact that the popular optimistic algorithms do not achieve the asymptotic instance-dependent regret optimality (asymptotic optimality for short) has recently alluded researchers. On the other hand, it is known that one can achieve bounded regret (i.e., does not grow indefinitely with $n$) in certain instances. Unfortunately, existing asymptotically optimal algorithms rely on forced sampling that introduces an $\omega(1)$ term w.r.t. the time horizon $n$ in their regret, failing to adapt to the "easiness" of the instance. In this paper, we focus on the finite hypothesis case and ask if one can achieve the asymptotic optimality while enjoying bounded regret whenever possible. We provide a positive answer by introducing a new algorithm called CRush Optimism with Pessimism (CROP) that eliminates optimistic hypotheses by pulling the informative arms indicated by a pessimistic hypothesis. Our finite-time analysis shows that CROP $(i)$ achieves a constant-factor asymptotic optimality and, thanks to the forced-exploration-free design, $(ii)$ adapts to bounded regret, and $(iii)$ its regret bound scales not with $K$ but with an effective number of arms $K_\psi$ that we introduce. We also discuss a problem class where CROP can be exponentially better than existing algorithms in \textit{nonasymptotic} regimes. This problem class also reveals a surprising fact that even a clairvoyant oracle who plays according to the asymptotically optimal arm pull scheme may suffer a linear worst-case regret.
翻訳日:2022-11-21 03:24:12 公開日:2020-10-23
# 特徴関数による相互対向学習

Reciprocal Adversarial Learning via Characteristic Functions ( http://arxiv.org/abs/2006.08413v2 )

ライセンス: Link先を確認
Shengxi Li, Zeyang Yu, Min Xiang, Danilo Mandic(参考訳) generative adversarial nets (gans) は複雑な分布を伴うタスクに好まれるツールとなっている。 トレーニングを安定させ、ganのモード崩壊を減らすために、主要な変種の一つは損失関数として積分確率計量(ipm)を用いる。 これは、textit{critic}の埋め込みドメイン内のモーメントを基本的に比較するための理論的サポートを持つ広範なipm-ganを提供する。 分散に関するすべての情報を一意かつ普遍的に構成する特徴関数(英語版)(CF)という強力なツールを通じて、そのモーメントではなく分布を比較することでこれを一般化する。 厳密化のために、まずcfの位相と振幅の物理的意味を定式化し、これは生成の正確性と多様性のバランスをとるための実現可能な方法であることを示す。 そして、cfsを計算するための効率的なサンプリング戦略を考案する。 この枠組み内では、逆数が存在するときの埋め込み領域とデータ領域の等価性をさらに証明し、埋め込み空間(意味論的意味のある多様体)の全てを比較する方法として、自己エンコーダ構造で自然にGANを開発する。 この効率的な構造は、2つのモジュールのみを使用し、単純なトレーニング戦略とともに、相互cf gan(rcf-gan)と呼ばれる、双方向にクリアイメージを生成する。 提案したRCF-GANは, 生成と再構成の両方において優れた性能を示した。

Generative adversarial nets (GANs) have become a preferred tool for tasks involving complicated distributions. To stabilise the training and reduce the mode collapse of GANs, one of their main variants employs the integral probability metric (IPM) as the loss function. This provides extensive IPM-GANs with theoretical support for basically comparing moments in an embedded domain of the \textit{critic}. We generalise this by comparing the distributions rather than their moments via a powerful tool, i.e., the characteristic function (CF), which uniquely and universally comprising all the information about a distribution. For rigour, we first establish the physical meaning of the phase and amplitude in CF, and show that this provides a feasible way of balancing the accuracy and diversity of generation. We then develop an efficient sampling strategy to calculate the CFs. Within this framework, we further prove an equivalence between the embedded and data domains when a reciprocal exists, where we naturally develop the GAN in an auto-encoder structure, in a way of comparing everything in the embedded space (a semantically meaningful manifold). This efficient structure uses only two modules, together with a simple training strategy, to achieve bi-directionally generating clear images, which is referred to as the reciprocal CF GAN (RCF-GAN). Experimental results demonstrate the superior performances of the proposed RCF-GAN in terms of both generation and reconstruction.
翻訳日:2022-11-21 03:05:08 公開日:2020-10-23
# オブジェクトと対話することを学ぶことで、オブジェクトについて学ぶ

Learning About Objects by Learning to Interact with Them ( http://arxiv.org/abs/2006.09306v2 )

ライセンス: Link先を確認
Martin Lohmann, Jordi Salvador, Aniruddha Kembhavi, Roozbeh Mottaghi(参考訳) コンピュータビジョンの顕著な進歩の多くは、様々なタスクのために高度にキュレートされたデータセットに依存する完全な教師付き学習メカニズムに焦点を当てている。 対照的に、人間はしばしば外的監督なしで自分の世界について学ぶ。 幼児が遊びや対話を通じて環境から学ぶことから着想を得て,物体を発見し,その物理的性質を学習するための計算フレームワークを提案する。 我々のエージェントは、近距離フォトリアリスティックで物理対応のAI2-THOR環境の中に置かれると、その世界と相互作用し、外部ガイダンスなしで物体、幾何学的範囲、相対質量について学習する。 実験の結果,このエージェントはこれまでに対話したオブジェクトだけでなく,新たなカテゴリの新規インスタンスや新しいオブジェクトカテゴリについても,効率的かつ効果的に学習できることがわかった。

Much of the remarkable progress in computer vision has been focused around fully supervised learning mechanisms relying on highly curated datasets for a variety of tasks. In contrast, humans often learn about their world with little to no external supervision. Taking inspiration from infants learning from their environment through play and interaction, we present a computational framework to discover objects and learn their physical properties along this paradigm of Learning from Interaction. Our agent, when placed within the near photo-realistic and physics-enabled AI2-THOR environment, interacts with its world and learns about objects, their geometric extents and relative masses, without any external guidance. Our experiments reveal that this agent learns efficiently and effectively; not just for objects it has interacted with before, but also for novel instances from seen categories as well as novel object categories.
翻訳日:2022-11-20 20:49:13 公開日:2020-10-23
# スコアベース生成モデルの訓練手法の改善

Improved Techniques for Training Score-Based Generative Models ( http://arxiv.org/abs/2006.09011v2 )

ライセンス: Link先を確認
Yang Song and Stefano Ermon(参考訳) スコアベースの生成モデルは、逆最適化を必要とせず、gansに匹敵する高品質の画像サンプルを生成することができる。 しかし、既存のトレーニング手順は低解像度の画像(通常32x32未満)に限られており、いくつかの設定では不安定である。 高次元空間におけるスコアモデルからの学習とサンプリングの新たな理論解析を行い、既存の障害モードを説明し、データセットをまたいで一般化する新しい解を動機付ける。 安定性を高めるため,モデル重量の指数移動平均値の維持も提案する。 これらの改良により、64x64から256x256までの前例のない解像度の画像にスコアベースの生成モデルを強制的にスケールすることができる。 我々のスコアベースモデルは、CelebA、FFHQ、および複数のLSUNカテゴリを含む、さまざまな画像データセットにおいて、クラス最高のGANと競合する高忠実度サンプルを生成することができる。

Score-based generative models can produce high quality image samples comparable to GANs, without requiring adversarial optimization. However, existing training procedures are limited to images of low resolution (typically below 32x32), and can be unstable under some settings. We provide a new theoretical analysis of learning and sampling from score models in high dimensional spaces, explaining existing failure modes and motivating new solutions that generalize across datasets. To enhance stability, we also propose to maintain an exponential moving average of model weights. With these improvements, we can effortlessly scale score-based generative models to images with unprecedented resolutions ranging from 64x64 to 256x256. Our score-based models can generate high-fidelity samples that rival best-in-class GANs on various image datasets, including CelebA, FFHQ, and multiple LSUN categories.
翻訳日:2022-11-20 18:52:43 公開日:2020-10-23
# 有限時間保証による選好に基づく強化学習

Preference-based Reinforcement Learning with Finite-Time Guarantees ( http://arxiv.org/abs/2006.08910v2 )

ライセンス: Link先を確認
Yichong Xu, Ruosong Wang, Lin F. Yang, Aarti Singh and Artur Dubrawski(参考訳) 選好ベースの強化学習(pbrl)は、従来の強化学習における報奨値を置き換えることで、特に数値的な報奨値の設計や解釈が難しい場合に、目標とする目標に対する人間の意見をよりよく理解する。 応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。 本稿では,PbRL問題に対する最初の有限時間解析について述べる。 まず,PbRL に対して軌道上の選好が決定論的であれば,一意の最適政策は存在しないことを示す。 選好が確率的であり、選好確率が隠された報奨値に関係している場合、シミュレーターと非シミュレーターの両方でPbRLのアルゴリズムを示し、高い確率で$\varepsilon$の最良のポリシーを特定できる。 提案手法は,探索されていない状態にナビゲートすることで状態空間を探索し,デュエルバンドとポリシーサーチを組み合わせたPbRLを解く。 実世界問題に適用した場合,本手法の有効性を示す実験を行った。

Preference-based Reinforcement Learning (PbRL) replaces reward values in traditional reinforcement learning by preferences to better elicit human opinion on the target objective, especially when numerical reward values are hard to design or interpret. Despite promising results in applications, the theoretical understanding of PbRL is still in its infancy. In this paper, we present the first finite-time analysis for general PbRL problems. We first show that a unique optimal policy may not exist if preferences over trajectories are deterministic for PbRL. If preferences are stochastic, and the preference probability relates to the hidden reward values, we present algorithms for PbRL, both with and without a simulator, that are able to identify the best policy up to accuracy $\varepsilon$ with high probability. Our method explores the state space by navigating to under-explored states, and solves PbRL using a combination of dueling bandits and policy search. Experiments show the efficacy of our method when it is applied to real-world problems.
翻訳日:2022-11-20 18:44:46 公開日:2020-10-23
# 高忠実な生成画像圧縮

High-Fidelity Generative Image Compression ( http://arxiv.org/abs/2006.09965v3 )

ライセンス: Link先を確認
Fabian Mentzer, George Toderici, Michael Tschannen, Eirikur Agustsson(参考訳) 本研究では, 生成的逆数ネットワークと学習的圧縮を併用して, 最先端な生成的損失圧縮システムを実現する方法について検討した。 特に,正規化レイヤ,ジェネレータおよび識別器アーキテクチャ,トレーニング戦略,知覚的損失について検討する。 以前の作品とは対照的に 一 入力と知覚的に類似した視覚的に好感的な再構成を得る。 二 幅広いビットレートで操作し、 iii)この手法は高解像度画像に適用できる。 我々は,様々な知覚指標とユーザスタディの両方を用いて,我々のアプローチを定量的に評価することで,レート歪知覚理論と実践のギャップを埋める。 本研究は,ビットレートが2倍以上であっても,従来の手法よりも好まれることを示す。

We extensively study how to combine Generative Adversarial Networks and learned compression to obtain a state-of-the-art generative lossy compression system. In particular, we investigate normalization layers, generator and discriminator architectures, training strategies, as well as perceptual losses. In contrast to previous work, i) we obtain visually pleasing reconstructions that are perceptually similar to the input, ii) we operate in a broad range of bitrates, and iii) our approach can be applied to high-resolution images. We bridge the gap between rate-distortion-perception theory and practice by evaluating our approach both quantitatively with various perceptual metrics, and with a user study. The study shows that our method is preferred to previous approaches even if they use more than 2x the bitrate.
翻訳日:2022-11-19 20:47:47 公開日:2020-10-23
# Black-Box VI: フローの正規化、重要度、最適化

Advances in Black-Box VI: Normalizing Flows, Importance Weighting, and Optimization ( http://arxiv.org/abs/2006.10343v2 )

ライセンス: Link先を確認
Abhinav Agrawal, Daniel Sheldon, and Justin Domke(参考訳) 近年,ブラックボックスVIに関連するいくつかの進歩が報告されているが,自動後部推論の現状は不明である。 そのような進歩の1つは、深い潜伏変数モデルに対するフレキシブルな後続密度を定義するためにフローを正規化することである。 もう一つの方向はモンテカルロ法の統合であり、第一に最適化のためのより厳密な変分目的を得るため、第二にサンプリングを通してリッチな変分族を定義するためである。 しかし、ブラックボックスVIでは、フローと変分モンテカルロ法の両方が比較的研究されていない。 さらに, 現実的な観点からは, ステップサイズスキーム, パラメータ初期化, 勾配推定器の選択など, 既存の文献に明確なガイダンスが存在しない最適化がいくつかある。 本稿では,ブラックボックスVIが,多数のアルゴリズム成分を慎重に組み合わせることで,最適に対処できることを仮定する。 stanモデルライブラリの30モデルのベンチマークにおいて,最適化,フロー,モンテカルロ法に関連するコンポーネントを評価した。 これらのアルゴリズムコンポーネントの組み合わせは、最先端の"アウト・オブ・ザ・ボックス"変分推論を著しく前進させる。

Recent research has seen several advances relevant to black-box VI, but the current state of automatic posterior inference is unclear. One such advance is the use of normalizing flows to define flexible posterior densities for deep latent variable models. Another direction is the integration of Monte-Carlo methods to serve two purposes; first, to obtain tighter variational objectives for optimization, and second, to define enriched variational families through sampling. However, both flows and variational Monte-Carlo methods remain relatively unexplored for black-box VI. Moreover, on a pragmatic front, there are several optimization considerations like step-size scheme, parameter initialization, and choice of gradient estimators, for which there are no clear guidance in the existing literature. In this paper, we postulate that black-box VI is best addressed through a careful combination of numerous algorithmic components. We evaluate components relating to optimization, flows, and Monte-Carlo methods on a benchmark of 30 models from the Stan model library. The combination of these algorithmic components significantly advances the state-of-the-art "out of the box" variational inference.
翻訳日:2022-11-19 12:40:17 公開日:2020-10-23
# グラフニューラルネットワークにおけるホモフィリーを超えて:現在の限界と効果的な設計

Beyond Homophily in Graph Neural Networks: Current Limitations and Effective Designs ( http://arxiv.org/abs/2006.11468v2 )

ライセンス: Link先を確認
Jiong Zhu, Yujun Yan, Lingxiao Zhao, Mark Heimann, Leman Akoglu, Danai Koutra(参考訳) 半教師付きノード分類タスクにおけるグラフニューラルネットワークの表現力,すなわち連結ノードが異なるクラスラベルと異種特徴を持つネットワークにおいて,その表現力について検討する。 多くの人気のあるGNNはこの設定に一般化できず、グラフ構造(例えば多層パーセプトロン)を無視したモデルでさらに優れる。 この制限に動機づけられ、ヘテロフィア下のグラフ構造からの学習を促進するために、egoとneighbor-embedding分離、高次近傍、中間表現の組み合わせといったキー設計のセットを特定する。 我々はこれらをグラフニューラルネットワークH2GCNに結合し,同定された設計の有効性を実証的に評価する基礎的手法として利用する。 従来型のホモフィリの強いベンチマークを超越した実験分析の結果, 識別された設計により, ヘテロフィリの合成ネットワークや実ネットワークを介さずにgnnの精度が最大40%, 27%向上し, 競合性能が向上することがわかった。

We investigate the representation power of graph neural networks in the semi-supervised node classification task under heterophily or low homophily, i.e., in networks where connected nodes may have different class labels and dissimilar features. Many popular GNNs fail to generalize to this setting, and are even outperformed by models that ignore the graph structure (e.g., multilayer perceptrons). Motivated by this limitation, we identify a set of key designs -- ego- and neighbor-embedding separation, higher-order neighborhoods, and combination of intermediate representations -- that boost learning from the graph structure under heterophily. We combine them into a graph neural network, H2GCN, which we use as the base method to empirically evaluate the effectiveness of the identified designs. Going beyond the traditional benchmarks with strong homophily, our empirical analysis shows that the identified designs increase the accuracy of GNNs by up to 40% and 27% over models without them on synthetic and real networks with heterophily, respectively, and yield competitive performance under homophily.
翻訳日:2022-11-18 22:12:29 公開日:2020-10-23
# グラフニューラルネットワークのための反復的ディープグラフ学習:より良いノード埋め込み

Iterative Deep Graph Learning for Graph Neural Networks: Better and Robust Node Embeddings ( http://arxiv.org/abs/2006.13009v2 )

ライセンス: Link先を確認
Yu Chen, Lingfei Wu and Mohammed J. Zaki(参考訳) 本稿では,グラフ構造とグラフ埋め込みを協調的かつ反復的に学習するための,エンドツーエンドのグラフ学習フレームワーク,すなわちIterative Deep Graph Learning(IDGL)を提案する。 IDGLの重要な根拠は、より良いノード埋め込みに基づくより良いグラフ構造を学ぶことであり、その逆(つまり、より良いグラフ構造に基づくより良いノード埋め込み)である。 学習したグラフ構造が下流予測タスクに最適化されたグラフに近づくと,反復的手法は動的に停止する。 さらに,類似度メトリクス学習問題としてグラフ学習問題を取り上げ,学習したグラフの品質を制御するために適応グラフ正則化を利用する。 最後に、アンカーベースの近似手法を組み合わせることで、IDGLのスケーラビリティ、すなわちIDGL-Anchを提案し、性能を損なうことなくIDGLの時間と空間の複雑さを著しく低減する。 9つのベンチマークに関する広範な実験から,提案するidglモデルは,最先端のベースラインを一貫して上回ったり,一致したりすることが示された。 さらに、IDGLは逆グラフに対してより堅牢になり、帰納的学習と帰納的学習の両方に対応できる。

In this paper, we propose an end-to-end graph learning framework, namely Iterative Deep Graph Learning (IDGL), for jointly and iteratively learning graph structure and graph embedding. The key rationale of IDGL is to learn a better graph structure based on better node embeddings, and vice versa (i.e., better node embeddings based on a better graph structure). Our iterative method dynamically stops when the learned graph structure approaches close enough to the graph optimized for the downstream prediction task. In addition, we cast the graph learning problem as a similarity metric learning problem and leverage adaptive graph regularization for controlling the quality of the learned graph. Finally, combining the anchor-based approximation technique, we further propose a scalable version of IDGL, namely IDGL-Anch, which significantly reduces the time and space complexity of IDGL without compromising the performance. Our extensive experiments on nine benchmarks show that our proposed IDGL models can consistently outperform or match the state-of-the-art baselines. Furthermore, IDGL can be more robust to adversarial graphs and cope with both transductive and inductive learning.
翻訳日:2022-11-18 11:48:15 公開日:2020-10-23
# 一般観測可能なマルコフゲームにおける共有平衡の校正

Calibration of Shared Equilibria in General Sum Partially Observable Markov Games ( http://arxiv.org/abs/2006.13085v5 )

ライセンス: Link先を確認
Nelson Vadori and Sumitra Ganesh and Prashant Reddy and Manuela Veloso(参考訳) リアルな平衡を達成するためのマルチエージェントシステム(MAS)の訓練は,実世界のシステムを理解し,モデル化するための有用なツールとなる。 エージェント固有の情報に基づいて,異なるタイプのエージェントが単一のポリシーネットワークを共有する,一般的な可観測的マルコフゲームを考える。 本稿の目的は 一 当該代理人が到達した平衡を正式に理解すること、及び 二 そのような平衡の創発現象を現実世界の目標と一致させること。 分散実行によるパラメータ共有は、単一のポリシーネットワークを使用して複数のエージェントを訓練する効率的な方法として導入された。 しかし、そのようなエージェントが到達した平衡の性質はまだ研究されていない: ある機能形式ゲーム(FFG)の対称純粋ナッシュ均衡として共有均衡の概念を導入し、自己プレイを用いた特定の種類のゲームに対して後者に収束することを証明する。 さらに,masを実世界のデータに校正するために,一定の制約を満たすことが重要である。我々は,エージェントの創発的挙動を外部に特定された目標と共有平衡に適合させる新しい二重強化学習ベースのアプローチを導入し,この手法をnプレイヤー市場例に適用する。 エージェント間の行動の区別と、複数のエージェントへの共有ポリシネットワークのコヒーレントなスケーリングを可能にするため、個々のエージェントではなく、エージェントタイプの分布を管理するパラメータを調整します。

Training multi-agent systems (MAS) to achieve realistic equilibria gives us a useful tool to understand and model real-world systems. We consider a general sum partially observable Markov game where agents of different types share a single policy network, conditioned on agent-specific information. This paper aims at i) formally understanding equilibria reached by such agents, and ii) matching emergent phenomena of such equilibria to real-world targets. Parameter sharing with decentralized execution has been introduced as an efficient way to train multiple agents using a single policy network. However, the nature of resulting equilibria reached by such agents has not been yet studied: we introduce the novel concept of Shared equilibrium as a symmetric pure Nash equilibrium of a certain Functional Form Game (FFG) and prove convergence to the latter for a certain class of games using self-play. In addition, it is important that such equilibria satisfy certain constraints so that MAS are calibrated to real world data for practical use: we solve this problem by introducing a novel dual-Reinforcement Learning based approach that fits emergent behaviors of agents in a Shared equilibrium to externally-specified targets, and apply our methods to a n-player market example. We do so by calibrating parameters governing distributions of agent types rather than individual agents, which allows both behavior differentiation among agents and coherent scaling of the shared policy network to multiple agents.
翻訳日:2022-11-17 23:56:10 公開日:2020-10-23
# グラフ上での移動可能なアクティブラーニングのためのグラフポリシーネットワーク

Graph Policy Network for Transferable Active Learning on Graphs ( http://arxiv.org/abs/2006.13463v2 )

ライセンス: Link先を確認
Shengding Hu, Zheng Xiong, Meng Qu, Xingdi Yuan, Marc-Alexandre C\^ot\'e, Zhiyuan Liu and Jian Tang(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな分野における単純さと有効性から、人気が高まっている。 しかし、一般にこれらのネットワークのトレーニングには大量のラベル付きデータが必要であるため、一部のドメインでは取得に非常にコストがかかる可能性がある。 本稿では,GNNに対するアクティブラーニング,すなわちグラフ上のノードを効率的にラベル付けして,GNNのトレーニングに要するアノテーションコストを削減する方法について検討する。 本稿では,グラフ上の逐次決定プロセスとして問題を定式化し,gnnベースのポリシーネットワークを学習し,最適なクエリ戦略を学習する。 完全なラベルを持つ複数のソースグラフを共同でトレーニングすることで、ラベルなしのターゲットグラフに直接一般化可能な、転送可能なアクティブラーニングポリシを学習する。 異なるドメインからの複数のデータセットに対する実験結果は、同一ドメイン内のグラフ間および異なるドメイン間でのグラフ転送の設定において、アクティブな学習性能を促進するための学習ポリシーの有効性を証明した。

Graph neural networks (GNNs) have been attracting increasing popularity due to their simplicity and effectiveness in a variety of fields. However, a large number of labeled data is generally required to train these networks, which could be very expensive to obtain in some domains. In this paper, we study active learning for GNNs, i.e., how to efficiently label the nodes on a graph to reduce the annotation cost of training GNNs. We formulate the problem as a sequential decision process on graphs and train a GNN-based policy network with reinforcement learning to learn the optimal query strategy. By jointly training on several source graphs with full labels, we learn a transferable active learning policy which can directly generalize to unlabeled target graphs. Experimental results on multiple datasets from different domains prove the effectiveness of the learned policy in promoting active learning performance in both settings of transferring between graphs in the same domain and across different domains.
翻訳日:2022-11-17 08:56:06 公開日:2020-10-23
# 分岐学習のためのハイブリッドモデル

Hybrid Models for Learning to Branch ( http://arxiv.org/abs/2006.15212v3 )

ライセンス: Link先を確認
Prateek Gupta, Maxime Gasse, Elias B. Khalil, M. Pawan Kumar, Andrea Lodi, Yoshua Bengio(参考訳) 分岐学習のための最近のグラフニューラルネットワーク(GNN)アプローチは、MILP(Mixed Integer Linear Programming)のための分岐とバウンドのアルゴリズムの実行時間をうまく削減できることが示されている。 GNNはGPUに依存しているが、MILPソルバは純粋にCPUベースである。 これにより、多くの実践者がハイエンドGPUにアクセスできないため、アプリケーションは非常に制限される。 この作業では、2つの重要な質問をします。 まず、CPUのみが利用可能なより現実的な環境では、GNNモデルは依然として競争力がありますか? 第二に、GNNアーキテクチャの予測能力を保持する計算コストの代替モデルを考案できるだろうか? 我々は、負の質問の最初の質問に答え、CPUマシン上の効率的な分岐のための新しいハイブリッドアーキテクチャを提案する。 提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。 提案手法をMILP問題の4つのクラスで評価し,GPUのない最先端の手法と比較して最大26%の解法実行時間を短縮できることを示した。 このプロジェクトのコードはhttps://github.com/pg2455/hybrid-learn2branchで公開されている。

A recent Graph Neural Network (GNN) approach for learning to branch has been shown to successfully reduce the running time of branch-and-bound algorithms for Mixed Integer Linear Programming (MILP). While the GNN relies on a GPU for inference, MILP solvers are purely CPU-based. This severely limits its application as many practitioners may not have access to high-end GPUs. In this work, we ask two key questions. First, in a more realistic setting where only a CPU is available, is the GNN model still competitive? Second, can we devise an alternate computationally inexpensive model that retains the predictive power of the GNN architecture? We answer the first question in the negative, and address the second question by proposing a new hybrid architecture for efficient branching on CPU machines. The proposed architecture combines the expressive power of GNNs with computationally inexpensive multi-layer perceptrons (MLP) for branching. We evaluate our methods on four classes of MILP problems, and show that they lead to up to 26% reduction in solver running time compared to state-of-the-art methods without a GPU, while extrapolating to harder problems than it was trained on. The code for this project is publicly available at https://github.com/pg2455/Hybrid-learn2branch.
翻訳日:2022-11-16 21:40:47 公開日:2020-10-23
# 構造的メッセージパッシングを用いた強力で等価なグラフニューラルネットワークの構築

Building powerful and equivariant graph neural networks with structural message-passing ( http://arxiv.org/abs/2006.15107v3 )

ライセンス: Link先を確認
Clement Vignac, Andreas Loukas, Pascal Frossard(参考訳) メッセージパッシングは、適切な一般化を達成するために、置換同値と帰納バイアスの両方を局所構造学習に活用できるため、グラフニューラルネットワークを設計する効果的な方法であることが証明されている。 しかし、現在のメッセージパッシングアーキテクチャは表現能力が限られており、グラフの基本トポロジ特性を学習できない。 この問題に対処し、まず、各ノードの周囲の局所的コンテキスト行列を学習するために、特徴に加えて、ノードの1ホット符号化を伝搬する、という2つのアイデアに基づいて、強力で同変なメッセージパッシングフレームワークを提案する。 このマトリックスには、機能とトポロジーの両方に関する豊富なローカル情報が含まれており、最終的にノード表現を構築するためにプールすることができる。 第2に,メッセージのパラメトリゼーション手法と置換同値性を保証する更新関数を提案する。 ワンホット符号化の特定の選択に依存しない表現を持つことは、帰納的推論を許容し、より良い一般化特性をもたらす。 実験により, 合成データの様々なグラフトポロジ特性を従来手法よりも正確に予測し, ZINCデータセット上での分子グラフ回帰の最先端結果を得ることができた。

Message-passing has proved to be an effective way to design graph neural networks, as it is able to leverage both permutation equivariance and an inductive bias towards learning local structures in order to achieve good generalization. However, current message-passing architectures have a limited representation power and fail to learn basic topological properties of graphs. We address this problem and propose a powerful and equivariant message-passing framework based on two ideas: first, we propagate a one-hot encoding of the nodes, in addition to the features, in order to learn a local context matrix around each node. This matrix contains rich local information about both features and topology and can eventually be pooled to build node representations. Second, we propose methods for the parametrization of the message and update functions that ensure permutation equivariance. Having a representation that is independent of the specific choice of the one-hot encoding permits inductive reasoning and leads to better generalization properties. Experimentally, our model can predict various graph topological properties on synthetic data more accurately than previous methods and achieves state-of-the-art results on molecular graph regression on the ZINC dataset.
翻訳日:2022-11-16 21:14:13 公開日:2020-10-23
# ランダムレビュアー割り当てによるピアレビューにおける操作の軽減

Mitigating Manipulation in Peer Review via Randomized Reviewer Assignments ( http://arxiv.org/abs/2006.16437v2 )

ライセンス: Link先を確認
Steven Jecmen, Hanrui Zhang, Ryan Liu, Nihar B. Shah, Vincent Conitzer, Fei Fang(参考訳) カンファレンスピアレビューでは3つの重要な課題を考えます。 (i) 著者とのクイド・プロ・クオの取決めの一環として、肯定的なレビューを提供するために、ある論文に不当に割り当てようとするレビュワー (二 拒絶するために嫌がる特定の書類に故意に割り振る舞おうとする「トルペド審査」 (iii)類似点の公開に関するレビュアーの非匿名化及びレビュアー・アサインコード 概念的な面では、これらの3つの問題の間のつながりを特定し、これらのすべての課題を共通の傘下に持つフレームワークを提示します。 次に、レビュアーとペーパーのペアの割り当て確率に関する任意の制約の下で、レビュアーとアサインメントの問題を最適に解くことができる(ランダム化)アルゴリズムを提案する。 さらに、ある被疑者のペアが特定の論文に割り当てられているという連立確率を制限する問題を考察し、これらの連立確率の任意の制約に対してNPハードであるが、実用上は効率的に解決可能であることを示す。 最後に,過去のカンファレンスのデータセットに関するアルゴリズムを実験的に評価し,任意の悪意のあるレビュアーが希望する論文に割り当てられる確率を50%に制限し,その90%以上を最適な類似度で割当する可能性を検証した。 我々のアルゴリズムはこの類似性を保ちながら、近縁のレビュアーが同じ論文に割り当てられることを防ぐ。

We consider three important challenges in conference peer review: (i) reviewers maliciously attempting to get assigned to certain papers to provide positive reviews, possibly as part of quid-pro-quo arrangements with the authors; (ii) "torpedo reviewing," where reviewers deliberately attempt to get assigned to certain papers that they dislike in order to reject them; (iii) reviewer de-anonymization on release of the similarities and the reviewer-assignment code. On the conceptual front, we identify connections between these three problems and present a framework that brings all these challenges under a common umbrella. We then present a (randomized) algorithm for reviewer assignment that can optimally solve the reviewer-assignment problem under any given constraints on the probability of assignment for any reviewer-paper pair. We further consider the problem of restricting the joint probability that certain suspect pairs of reviewers are assigned to certain papers, and show that this problem is NP-hard for arbitrary constraints on these joint probabilities but efficiently solvable for a practical special case. Finally, we experimentally evaluate our algorithms on datasets from past conferences, where we observe that they can limit the chance that any malicious reviewer gets assigned to their desired paper to 50% while producing assignments with over 90% of the total optimal similarity. Our algorithms still achieve this similarity while also preventing reviewers with close associations from being assigned to the same paper.
翻訳日:2022-11-15 15:08:22 公開日:2020-10-23
# 共変量シフト適応による共通汚職に対する堅牢性の向上

Improving robustness against common corruptions by covariate shift adaptation ( http://arxiv.org/abs/2006.16971v2 )

ライセンス: Link先を確認
Steffen Schneider, Evgenia Rusak, Luisa Eck, Oliver Bringmann, Wieland Brendel, Matthias Bethge(参考訳) 今日の最先端のマシンビジョンモデルは、ぼやけや圧縮アーティファクトのようなイメージの破損に対して脆弱であり、多くの現実世界のアプリケーションでのパフォーマンスを制限している。 ここでは、一般的な腐敗(ImageNet-Cなど)に対してモデルロバスト性を測定するための一般的なベンチマークが、多くの(すべてではないが)アプリケーションシナリオにおいて、モデルロバスト性を過小評価していることを議論する。 重要な洞察は、多くのシナリオにおいて、汚職のラベル付けされていない複数の例が利用可能であり、教師なしのオンライン適応に使用できることである。 バッチ正規化によって推定されるアクティベーション統計を、劣化した画像の統計に置き換えることで、25種類の一般的なコンピュータビジョンモデル間のロバスト性を一貫して改善する。 修正された統計を用いて、ResNet-50はImageNet-C上で62.2% mCEに達した。 より堅牢なDeepAugment+AugMixモデルにより、ResNet50モデルによって達成されたアートの状態を53.6% mCEから45.4% mCEに改善する。 単一のサンプルに適応しても、resnet-50およびaugmixモデルのロバスト性が向上し、32のサンプルはresnet-50アーキテクチャの現在の技術を改善するのに十分である。 我々は、不正のベンチマークやその他の分散の一般化設定のスコアを報告するたびに、適合統計による結果を含めるべきであると主張する。

Today's state-of-the-art machine vision models are vulnerable to image corruptions like blurring or compression artefacts, limiting their performance in many real-world applications. We here argue that popular benchmarks to measure model robustness against common corruptions (like ImageNet-C) underestimate model robustness in many (but not all) application scenarios. The key insight is that in many scenarios, multiple unlabeled examples of the corruptions are available and can be used for unsupervised online adaptation. Replacing the activation statistics estimated by batch normalization on the training set with the statistics of the corrupted images consistently improves the robustness across 25 different popular computer vision models. Using the corrected statistics, ResNet-50 reaches 62.2% mCE on ImageNet-C compared to 76.7% without adaptation. With the more robust DeepAugment+AugMix model, we improve the state of the art achieved by a ResNet50 model up to date from 53.6% mCE to 45.4% mCE. Even adapting to a single sample improves robustness for the ResNet-50 and AugMix models, and 32 samples are sufficient to improve the current state of the art for a ResNet-50 architecture. We argue that results with adapted statistics should be included whenever reporting scores in corruption benchmarks and other out-of-distribution generalization settings.
翻訳日:2022-11-15 04:27:06 公開日:2020-10-23
# モデルベース強化学習のための適応的離散化

Adaptive Discretization for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2007.00717v2 )

ライセンス: Link先を確認
Sean R. Sinclair, Tianyu Wang, Gauri Jain, Siddhartha Banerjee, Christina Lee Yu(参考訳) 本稿では,大規模(潜在的に連続的な)状態動作空間において,効率的なモデルベースエピソディック強化学習アルゴリズムを設計するための適応的離散化手法を提案する。 本アルゴリズムは,空間の適応的離散化を維持するために拡張された楽観的なワンステップ値反復に基づいている。 理論的観点からは、最先端のモデルベースアルゴリズムと競合するアルゴリズムに対して、最悪の後悔境界を提供する。 さらに,問題に付加的な構造を組み込むために拡張可能なモジュラー証明手法により,その限界を求めることができる。 実装の観点からは、状態空間と行動空間のより効率的な分割を維持するため、我々のアルゴリズムはストレージと計算の要求がはるかに少ない。 提案手法は,複数の正準制御問題に対して実験を行い,より高速な収束と少ないメモリ使用の両方において,固定離散化よりも経験的に有意な性能を示す。 興味深いことに、固定離散化モデルに基づくアルゴリズムはモデルフリーのアルゴリズムを大きく上回っているが、両アルゴリズムは適応離散化と同等の性能を達成している。

We introduce the technique of adaptive discretization to design an efficient model-based episodic reinforcement learning algorithm in large (potentially continuous) state-action spaces. Our algorithm is based on optimistic one-step value iteration extended to maintain an adaptive discretization of the space. From a theoretical perspective we provide worst-case regret bounds for our algorithm which are competitive compared to the state-of-the-art model-based algorithms. Moreover, our bounds are obtained via a modular proof technique which can potentially extend to incorporate additional structure on the problem. From an implementation standpoint, our algorithm has much lower storage and computational requirements due to maintaining a more efficient partition of the state and action spaces. We illustrate this via experiments on several canonical control problems, which shows that our algorithm empirically performs significantly better than fixed discretization in terms of both faster convergence and lower memory usage. Interestingly, we observe empirically that while fixed-discretization model-based algorithms vastly outperform their model-free counterparts, the two achieve comparable performance with adaptive discretization.
翻訳日:2022-11-14 22:18:28 公開日:2020-10-23
# フィッシャーオートエンコーダ

Fisher Auto-Encoders ( http://arxiv.org/abs/2007.06120v2 )

ライセンス: Link先を確認
Khalil Elkhalil, Ali Hasan, Jie Ding, Sina Farsiu, Vahid Tarokh(参考訳) フィッシャーの発散は、従来のクルバック・リブラー(KL)発散よりも不確かさをモデル化するのに強いと推測されている。 これにより、フィッシャーオートエンコーダと呼ばれる、堅牢な生成自動エンコーダ(AE)の新たなクラスが設計された。 提案手法は,観測データと潜伏変数の難解な関節分布と,仮定・モデル化された関節分布とのフィッシャー偏差を最小化し,フィッシャーAEを設計することである。 KLに基づく変分AE(VAEs)とは対照的に、フィッシャーAEは真とモデルに基づく後部分布の間の距離を正確に定量化することができる。 MNIST と celebA の2つのデータセットで定性的かつ定量的な結果が得られ、VAE や Wasserstein AE などの他の AE と比較すると、ロバスト性の観点からフィッシャーAE の競合性能を示す。

It has been conjectured that the Fisher divergence is more robust to model uncertainty than the conventional Kullback-Leibler (KL) divergence. This motivates the design of a new class of robust generative auto-encoders (AE) referred to as Fisher auto-encoders. Our approach is to design Fisher AEs by minimizing the Fisher divergence between the intractable joint distribution of observed data and latent variables, with that of the postulated/modeled joint distribution. In contrast to KL-based variational AEs (VAEs), the Fisher AE can exactly quantify the distance between the true and the model-based posterior distributions. Qualitative and quantitative results are provided on both MNIST and celebA datasets demonstrating the competitive performance of Fisher AEs in terms of robustness compared to other AEs such as VAEs and Wasserstein AEs.
翻訳日:2022-11-11 05:30:45 公開日:2020-10-23
# advflow:正規化フローを用いたブラックボックス逆襲

AdvFlow: Inconspicuous Black-box Adversarial Attacks using Normalizing Flows ( http://arxiv.org/abs/2007.07435v2 )

ライセンス: Link先を確認
Hadi M. Dolatabadi, Sarah Erfani, Christopher Leckie(参考訳) ディープラーニングの分類器は、敵の攻撃として知られる、巧妙で不可避な入力のバリエーションに影響を受けやすい。 この点に関して、強力な攻撃モデルの研究は、これらの分類器の脆弱性の原因を明らかにした。 本稿では,画像分類器における新たなブラックボックス対逆攻撃手法であるAdvFlowを紹介し,正規化フローのパワーを利用して,対象画像の対向例の密度をモデル化する。 提案手法では, クリーンなデータ分布に密接に従う敵が生成され, 検出の可能性が低下する。 また,本実験の結果から,既存の防御型分類器に対する攻撃手法を用いて提案手法の競合性能を示す。 コードはhttps://github.com/hmdolatabadi/advflowで入手できる。

Deep learning classifiers are susceptible to well-crafted, imperceptible variations of their inputs, known as adversarial attacks. In this regard, the study of powerful attack models sheds light on the sources of vulnerability in these classifiers, hopefully leading to more robust ones. In this paper, we introduce AdvFlow: a novel black-box adversarial attack method on image classifiers that exploits the power of normalizing flows to model the density of adversarial examples around a given target image. We see that the proposed method generates adversaries that closely follow the clean data distribution, a property which makes their detection less likely. Also, our experimental results show competitive performance of the proposed approach with some of the existing attack methods on defended classifiers. The code is available at https://github.com/hmdolatabadi/AdvFlow.
翻訳日:2022-11-10 04:33:34 公開日:2020-10-23
# マルチモーダル深層学習のためのメモリベース融合

Memory based fusion for multi-modal deep learning ( http://arxiv.org/abs/2007.08076v3 )

ライセンス: Link先を確認
Darshana Priyasad, Tharindu Fernando, Simon Denman, Sridha Sridharan, Clinton Fookes(参考訳) 深層機械学習におけるマルチモーダルデータの利用は、マルチモーダル機能の融合によるユニモーダルアプローチと比較して、いくつかのアプリケーションでパフォーマンスが向上することを示す。 しかし、最先端のほとんどのメソッドは、独立してストリームを処理し、融合中にデータ内の長期的な依存関係を無視するナイーブ・フュージョンを使っている。 本稿では,データに現在の特徴と長期的依存関係の両方を取り入れることで,モードの相対的重要性を時間とともに理解し,モデムを融合させる新しいメモリベース注意融合層を提案する。 我々は,融合層内に,融合データの長期的依存関係を含む特徴を格納する明示的なメモリブロックを導入する。 ユニモーダルエンコーダからの特徴入力は、注意構成と変換によって融合され、続いて、結果メモリから得られた特徴を層入力で融合する。 最新手法に従い,異なるモーダル性を持つ2つの異なるデータセット上での核融合手法の性能と一般化性を評価した。 実験では,ベンチマークネットワークにおける単純な融合層を,提案した層に置き換え,公正な比較を可能にする。 実験結果から,MBAF層は様々なモダリティやネットワークをまたいだ一般化が可能であり,融合の促進と性能の向上が期待できる。

The use of multi-modal data for deep machine learning has shown promise when compared to uni-modal approaches with fusion of multi-modal features resulting in improved performance in several applications. However, most state-of-the-art methods use naive fusion which processes feature streams independently, ignoring possible long-term dependencies within the data during fusion. In this paper, we present a novel Memory based Attentive Fusion layer, which fuses modes by incorporating both the current features and longterm dependencies in the data, thus allowing the model to understand the relative importance of modes over time. We introduce an explicit memory block within the fusion layer which stores features containing long-term dependencies of the fused data. The feature inputs from uni-modal encoders are fused through attentive composition and transformation followed by naive fusion of the resultant memory derived features with layer inputs. Following state-of-the-art methods, we have evaluated the performance and the generalizability of the proposed fusion approach on two different datasets with different modalities. In our experiments, we replace the naive fusion layer in benchmark networks with our proposed layer to enable a fair comparison. Experimental results indicate that the MBAF layer can generalise across different modalities and networks to enhance fusion and improve performance.
翻訳日:2022-11-09 21:57:41 公開日:2020-10-23
# おそらく一貫性のある部分ラベル学習

Provably Consistent Partial-Label Learning ( http://arxiv.org/abs/2007.08929v2 )

ライセンス: Link先を確認
Lei Feng, Jiaqi Lv, Bo Han, Miao Xu, Gang Niu, Xin Geng, Bo An, Masashi Sugiyama(参考訳) 部分ラベル学習(partment-label learning, pll)は、各トレーニング例が候補ラベルのセットに関連付けられるマルチクラス分類問題である。 過去20年間、多くの実用的なpllメソッドが提案されてきたが、これらのメソッドの一貫性に関する理論的理解が欠けており、hhertoは、候補ラベルセットの生成プロセスを持っている。 本稿では、候補ラベル集合の第1世代モデルを提案し、証明可能な一貫性を保証する2つの新しいPLL手法、すなわちリスク一貫性と分類整合性を提案する。 我々の手法はディープネットワークや確率最適化と互換性があるので有利である。 さらに、生成モデルにより、生成モデルが与えられた候補ラベルセットと一致するかどうかをテストすることによって、上記の2つの質問に答えることができる。 ベンチマークおよび実世界のデータセットの実験は、提案した生成モデルと2つのPLL法の有効性を検証する。

Partial-label learning (PLL) is a multi-class classification problem, where each training example is associated with a set of candidate labels. Even though many practical PLL methods have been proposed in the last two decades, there lacks a theoretical understanding of the consistency of those methods-none of the PLL methods hitherto possesses a generation process of candidate label sets, and then it is still unclear why such a method works on a specific dataset and when it may fail given a different dataset. In this paper, we propose the first generation model of candidate label sets, and develop two novel PLL methods that are guaranteed to be provably consistent, i.e., one is risk-consistent and the other is classifier-consistent. Our methods are advantageous, since they are compatible with any deep network or stochastic optimizer. Furthermore, thanks to the generation model, we would be able to answer the two questions above by testing if the generation model matches given candidate label sets. Experiments on benchmark and real-world datasets validate the effectiveness of the proposed generation model and two PLL methods.
翻訳日:2022-11-09 13:12:07 公開日:2020-10-23
# 高速物体検出器探索のための表現共有

Representation Sharing for Fast Object Detector Search and Beyond ( http://arxiv.org/abs/2007.12075v4 )

ライセンス: Link先を確認
Yujie Zhong, Zelu Deng, Sheng Guo, Matthew R. Scott, Weilin Huang(参考訳) 領域提案ネットワーク(RPN)は、2段階のオブジェクト検出においてオブジェクトのスケール変動を処理するための強力なサポートを提供する。 RPNを持たない一段検出器では、未知の大きさの物体を直接捕捉できる強力なサブネットワークが要求される。 そこで本研究では,1段検出器のサブネットワークにおける受容場と畳み込み型の最適構成を,より効率的に探索する,Fast And Diverse (FAD) という極めて効率的なニューラルネットワーク探索手法を提案する。 FADは設計された検索空間と効率的なアーキテクチャ探索アルゴリズムから構成される。 検索空間には、オブジェクト検出専用に設計された多様な変換の豊富なセットが含まれている。 設計した検索空間に対処するために,Representation Sharing (RepShare) と呼ばれる新しい検索アルゴリズムを提案し,定義した変換の最適な組み合わせを効果的に同定する。 我々の実験では、FADは様々なバックボーンを持つ2種類の1段検出器の顕著な改善を得た。 特に、当社のFAD検出器は、MS-COCO上で46.4 AP(シングルスケールテスト)を達成し、最新のNASベースの検出器、Auto-FPN(GPU日16日)、NAS-FCOS(GPU日28日)など、最先端の検出器よりも優れています。 オブジェクト検出以外にも、より困難なインスタンスセグメンテーションにおけるFADの汎用性をさらに実証し、より多くのタスクに利益をもたらすことを期待しています。

Region Proposal Network (RPN) provides strong support for handling the scale variation of objects in two-stage object detection. For one-stage detectors which do not have RPN, it is more demanding to have powerful sub-networks capable of directly capturing objects of unknown sizes. To enhance such capability, we propose an extremely efficient neural architecture search method, named Fast And Diverse (FAD), to better explore the optimal configuration of receptive fields and convolution types in the sub-networks for one-stage detectors. FAD consists of a designed search space and an efficient architecture search algorithm. The search space contains a rich set of diverse transformations designed specifically for object detection. To cope with the designed search space, a novel search algorithm termed Representation Sharing (RepShare) is proposed to effectively identify the best combinations of the defined transformations. In our experiments, FAD obtains prominent improvements on two types of one-stage detectors with various backbones. In particular, our FAD detector achieves 46.4 AP on MS-COCO (under single-scale testing), outperforming the state-of-the-art detectors, including the most recent NAS-based detectors, Auto-FPN (searched for 16 GPU-days) and NAS-FCOS (28 GPU-days), while significantly reduces the search cost to 0.6 GPU-days. Beyond object detection, we further demonstrate the generality of FAD on the more challenging instance segmentation, and expect it to benefit more tasks.
翻訳日:2022-11-07 12:50:35 公開日:2020-10-23
# 近似に基づく再パラメータ勾配の分散低減

Approximation Based Variance Reduction for Reparameterization Gradients ( http://arxiv.org/abs/2007.14634v2 )

ライセンス: Link先を確認
Tomas Geffner, Justin Domke(参考訳) 柔軟な変分分布は変分推論を改善するが、最適化は困難である。 本研究では,任意の共分散構造を持つガウス行列など,既知平均および共分散行列を持つ任意の再パラメータ分布に適用可能な制御変数を提案する。 制御変数はモデルの二次近似に基づいており、そのパラメータは勾配推定器の分散を最小化することにより2次元スキームで設定される。 我々は、この制御変数が、非分解的変分分布の推論における勾配分散と最適化収束の大幅な改善をもたらすことを実証的に示す。

Flexible variational distributions improve variational inference but are harder to optimize. In this work we present a control variate that is applicable for any reparameterizable distribution with known mean and covariance matrix, e.g. Gaussians with any covariance structure. The control variate is based on a quadratic approximation of the model, and its parameters are set using a double-descent scheme by minimizing the gradient estimator's variance. We empirically show that this control variate leads to large improvements in gradient variance and optimization convergence for inference with non-factorized variational distributions.
翻訳日:2022-11-05 19:44:28 公開日:2020-10-23
# 連続オブジェクト表現ネットワーク:ターゲットビューの監督を伴わない新しいビュー合成

Continuous Object Representation Networks: Novel View Synthesis without Target View Supervision ( http://arxiv.org/abs/2007.15627v2 )

ライセンス: Link先を確認
Nicolai H\"ani, Selim Engin, Jun-Jee Chao and Volkan Isler(参考訳) 新規ビュー合成(NVS)は、1つまたは複数の入力画像からのカメラ視点変換の下でのビューの合成に関するものである。 NVSは、説得力のある結果を合成するために、3Dオブジェクトの構造とシーンの見えない部分について明確な推論を必要とする。 結果として、現在のアプローチは典型的には、3Dモデルまたは複数のターゲット画像を用いた教師付きトレーニングに依存している。 本研究では、入力画像の形状と外観を符号化し、3次元一貫したシーン表現にマッピングする条件付きアーキテクチャである連続オブジェクト表現ネットワーク(CORN)を提案する。 モデルとニューラルレンダラーを組み合わせることで、オブジェクト毎に2つのソースイメージだけでCORNをトレーニングできます。 CORNの重要な特徴は、3Dモデルやターゲットビューの監督を必要としないことである。 にもかかわらず、CORNは、新しいビューの合成やシングルビューの3D再構成のような挑戦的なタスクをうまくこなし、直接監督する最先端のアプローチに匹敵するパフォーマンスを達成する。 最新の情報、データ、コードについては、プロジェクトページを参照してください。

Novel View Synthesis (NVS) is concerned with synthesizing views under camera viewpoint transformations from one or multiple input images. NVS requires explicit reasoning about 3D object structure and unseen parts of the scene to synthesize convincing results. As a result, current approaches typically rely on supervised training with either ground truth 3D models or multiple target images. We propose Continuous Object Representation Networks (CORN), a conditional architecture that encodes an input image's geometry and appearance that map to a 3D consistent scene representation. We can train CORN with only two source images per object by combining our model with a neural renderer. A key feature of CORN is that it requires no ground truth 3D models or target view supervision. Regardless, CORN performs well on challenging tasks such as novel view synthesis and single-view 3D reconstruction and achieves performance comparable to state-of-the-art approaches that use direct supervision. For up-to-date information, data, and code, please see our project page: https://nicolaihaeni.github.io/corn/.
翻訳日:2022-11-05 14:24:15 公開日:2020-10-23
# GANのインスタンス選択

Instance Selection for GANs ( http://arxiv.org/abs/2007.15255v2 )

ライセンス: Link先を確認
Terrance DeVries, Michal Drozdzal and Graham W. Taylor(参考訳) GAN(Generative Adversarial Networks)の最近の進歩は、高品質な合成画像を生成するために広く採用されている。 フォトリアリスティックな画像を生成することができるが、これらのモデルはしばしばデータ多様体の外にある非現実的サンプルを生成する。 最近提案されたいくつかの手法は、生成後のサンプルを拒絶したり、モデルの潜在空間を切断したりすることで、急激なサンプルを避けるよう試みている。 有効ではあるが、これらの手法は非効率であり、トレーニング時間とモデルのキャパシティの大部分は最終的に使われないサンプルに向けられている。 本稿では,サンプル品質を改善するための新しい手法を提案する。モデルトレーニングが行われる前に,インスタンス選択を通じてトレーニングデータセットを変更する。 実験データ分散をトレーニング前に精錬することにより,モデルキャパシティを高密度領域にリダイレクトし,最終的にサンプルの忠実度を改善し,モデルのキャパシティ要件を低くし,トレーニング時間を著しく短縮する。 コードはhttps://github.com/uoguelph-mlrg/instance_selection_for_gansで入手できる。

Recent advances in Generative Adversarial Networks (GANs) have led to their widespread adoption for the purposes of generating high quality synthetic imagery. While capable of generating photo-realistic images, these models often produce unrealistic samples which fall outside of the data manifold. Several recently proposed techniques attempt to avoid spurious samples, either by rejecting them after generation, or by truncating the model's latent space. While effective, these methods are inefficient, as a large fraction of training time and model capacity are dedicated towards samples that will ultimately go unused. In this work we propose a novel approach to improve sample quality: altering the training dataset via instance selection before model training has taken place. By refining the empirical data distribution before training, we redirect model capacity towards high-density regions, which ultimately improves sample fidelity, lowers model capacity requirements, and significantly reduces training time. Code is available at https://github.com/uoguelph-mlrg/instance_selection_for_gans.
翻訳日:2022-11-05 13:14:09 公開日:2020-10-23
# 医用画像のセグメンテーションにおける地中からのヒューマンエラーの遠ざけ

Disentangling Human Error from the Ground Truth in Segmentation of Medical Images ( http://arxiv.org/abs/2007.15963v5 )

ライセンス: Link先を確認
Le Zhang, Ryutaro Tanno, Mou-Cheng Xu, Chen Jin, Joseph Jacob, Olga Ciccarelli, Frederik Barkhof and Daniel C. Alexander(参考訳) 近年,セグメンテーションタスクにおける教師あり学習手法の利用が増加している。 しかし、これらのアルゴリズムの予測性能はラベルの品質に依存する。 この問題は特に、アノテーションコストとオブザーバ間の可変性の両方が高い医療画像領域で発生します。 典型的なラベル取得プロセスにおいて、異なる人間の専門家は、自身のバイアスと能力レベルの影響下で「真の」セグメンテーションラベルの見積もりを提供する。 これらのノイズラベルを基本真実として盲目的に扱うことは、自動セグメンテーションアルゴリズムが達成できる性能を制限する。 本研究では,2つの結合型cnnを用いて,純粋に騒がしい観察のみ,個々の注釈器の信頼性,真のセグメンテーションラベル分布から協調学習を行う手法を提案する。 この2つの分離は、推定アノテータがノイズ訓練データで高い忠実性を達成しつつ、最大信頼できないように促すことによって達成される。 まず,MNISTに基づく玩具セグメンテーションデータセットを定義し,提案アルゴリズムの特性について検討する。 次に,本手法の有用性を,(必要であれば)シミュレートされた3つの医用画像セグメンテーションデータセット上で実証する。 1)mslsc(多発性硬化性病変) 2)BraTS(脳腫瘍) 3)LIDC-IDRI(肺異常)。 いずれの場合においても,提案手法は,特にアノテーション数が少なく不一致が大きい場合に,競合するメソッドや関連するベースラインよりも優れています。 実験はまた、アノテータのミスの複雑な空間特性を捉える強力な能力を示した。

Recent years have seen increasing use of supervised learning methods for segmentation tasks. However, the predictive performance of these algorithms depends on the quality of labels. This problem is particularly pertinent in the medical image domain, where both the annotation cost and inter-observer variability are high. In a typical label acquisition process, different human experts provide their estimates of the "true" segmentation labels under the influence of their own biases and competence levels. Treating these noisy labels blindly as the ground truth limits the performance that automatic segmentation algorithms can achieve. In this work, we present a method for jointly learning, from purely noisy observations alone, the reliability of individual annotators and the true segmentation label distributions, using two coupled CNNs. The separation of the two is achieved by encouraging the estimated annotators to be maximally unreliable while achieving high fidelity with the noisy training data. We first define a toy segmentation dataset based on MNIST and study the properties of the proposed algorithm. We then demonstrate the utility of the method on three public medical imaging segmentation datasets with simulated (when necessary) and real diverse annotations: 1) MSLSC (multiple-sclerosis lesions); 2) BraTS (brain tumours); 3) LIDC-IDRI (lung abnormalities). In all cases, our method outperforms competing methods and relevant baselines particularly in cases where the number of annotations is small and the amount of disagreement is large. The experiments also show strong ability to capture the complex spatial characteristics of annotators' mistakes.
翻訳日:2022-11-04 06:02:48 公開日:2020-10-23
# 並列音声合成のためのスペクトルエネルギー距離

A Spectral Energy Distance for Parallel Speech Synthesis ( http://arxiv.org/abs/2008.01160v2 )

ライセンス: Link先を確認
Alexey A. Gritsenko, Tim Salimans, Rianne van den Berg, Jasper Snoek, Nal Kalchbrenner(参考訳) 音声合成は、ここ数年で大きな進歩を遂げてきた重要な実用的生成モデリング問題である。 このような自己回帰モデルの欠点は、生成されたオーディオの毎秒数万のシーケンシャル操作を実行する必要があるため、専門的なディープラーニングハードウェアへのデプロイには不適当である。 本稿では,解析的確率関数を必要とせず,高度に並列な音声モデルの学習を可能にする新しい学習手法を提案する。 提案手法は,生成音と実音の分布間のエネルギー距離を一般化したものである。 このスペクトルエネルギー距離は、生成された波形音声の等級スペクトルの分布に関する適切なスコアリングルールであり、統計的整合性を保証する。 距離はバイアスのないミニバッチから計算することができ、敵対的な学習を伴わず、暗黙の生成モデルを訓練するための安定で一貫した方法をもたらす。 最近提案されたcFDSD測定値から,暗黙的生成モデル間での最先端の生成品質を実証的に評価した。 また,本手法を敵法と組み合わせることで,人間の評価者によって判断される平均オピニオンスコアの観点から,最近提案されたGAN-TTSモデルを改善した。

Speech synthesis is an important practical generative modeling problem that has seen great progress over the last few years, with likelihood-based autoregressive neural models now outperforming traditional concatenative systems. A downside of such autoregressive models is that they require executing tens of thousands of sequential operations per second of generated audio, making them ill-suited for deployment on specialized deep learning hardware. Here, we propose a new learning method that allows us to train highly parallel models of speech, without requiring access to an analytical likelihood function. Our approach is based on a generalized energy distance between the distributions of the generated and real audio. This spectral energy distance is a proper scoring rule with respect to the distribution over magnitude-spectrograms of the generated waveform audio and offers statistical consistency guarantees. The distance can be calculated from minibatches without bias, and does not involve adversarial learning, yielding a stable and consistent method for training implicit generative models. Empirically, we achieve state-of-the-art generation quality among implicit generative models, as judged by the recently-proposed cFDSD metric. When combining our method with adversarial techniques, we also improve upon the recently-proposed GAN-TTS model in terms of Mean Opinion Score as judged by trained human evaluators.
翻訳日:2022-11-03 06:16:23 公開日:2020-10-23
# 低コンプライアンス環境における個別処理処方効果の推定

Individual Treatment Prescription Effect Estimation in a Low Compliance Setting ( http://arxiv.org/abs/2008.03235v2 )

ライセンス: Link先を確認
Thibaud Rahier, Am\'elie H\'eliou, Matthieu Martin, Christophe Renaudin and Eustache Diemert(参考訳) 個別処理効果(ITE)推定は、様々な領域で応用される広範囲に研究されている問題である。 我々は、ランダムに割り当てられた治療に不均一な非コンプライアンスが存在する場合や、健康状態の典型的状況(処方に従わないため)、デジタル広告(例えば競争や広告ブロッカーなど)をモデル化する。 コンプライアンスが低くなればなるほど、治療処方薬の効果や個別処方薬効果(IPE)が増すほど、信号が消えて推定が困難になる。 我々は,信号の消失を防止するために,観測されたコンプライアンス情報を活用するIPE推定のための新しい手法を提案する。 構造因果モデルフレームワークとdo-calculusを用いて、一般的な因果効果設定を定義し、漸近的分散保証でICPを継続的に回復する対応する推定器を提案する。 最後に,本手法の利点を浮き彫りにした合成データと実世界のデータセットの両方について実験を行い,コンプライアンスの低さを一貫して改善する。

Individual Treatment Effect (ITE) estimation is an extensively researched problem, with applications in various domains. We model the case where there exists heterogeneous non-compliance to a randomly assigned treatment, a typical situation in health (because of non-compliance to prescription) or digital advertising (because of competition and ad blockers for instance). The lower the compliance, the more the effect of treatment prescription, or individual prescription effect (IPE), signal fades away and becomes hard to estimate. We propose a new approach for the estimation of the IPE that takes advantage of observed compliance information to prevent signal fading. Using the Structural Causal Model framework and do-calculus, we define a general mediated causal effect setting and propose a corresponding estimator which consistently recovers the IPE with asymptotic variance guarantees. Finally, we conduct experiments on both synthetic and real-world datasets that highlight the benefit of the approach, which consistently improves state-of-the-art in low compliance settings
翻訳日:2022-11-02 01:01:20 公開日:2020-10-23
# 神経複雑度対策

Neural Complexity Measures ( http://arxiv.org/abs/2008.02953v2 )

ライセンス: Link先を確認
Yoonho Lee, Juho Lee, Sung Ju Hwang, Eunho Yang, Seungjin Choi(参考訳) ディープニューラルネットワークには様々な複雑性尺度が存在するが、ディープネットワークの一般化を予測し説明できる適切な尺度を特定することは困難であることが証明されている。 一般化を予測するメタラーニングフレームワークであるNeural Complexity (NC)を提案する。 我々のモデルは、データ駆動方式で、多くの異種タスクとの相互作用を通じてスカラー複雑性尺度を学習する。 トレーニングされたncモデルは、標準のトレーニング損失に追加でき、標準の教師付き学習シナリオで任意のタスク学習者を規則化することができる。 我々は,既存の手作業による複雑度尺度や他のメタラーニングモデルに対するncのアプローチと対比し,複数の回帰および分類タスクにおけるncの性能を検証する。

While various complexity measures for deep neural networks exist, specifying an appropriate measure capable of predicting and explaining generalization in deep networks has proven challenging. We propose Neural Complexity (NC), a meta-learning framework for predicting generalization. Our model learns a scalar complexity measure through interactions with many heterogeneous tasks in a data-driven way. The trained NC model can be added to the standard training loss to regularize any task learner in a standard supervised learning scenario. We contrast NC's approach against existing manually-designed complexity measures and other meta-learning models, and we validate NC's performance on multiple regression and classification tasks
翻訳日:2022-11-02 00:35:19 公開日:2020-10-23
# HiPPO: 最適多項式投影によるリカレントメモリ

HiPPO: Recurrent Memory with Optimal Polynomial Projections ( http://arxiv.org/abs/2008.07669v2 )

ライセンス: Link先を確認
Albert Gu, Tri Dao, Stefano Ermon, Atri Rudra, Christopher Re(参考訳) 逐次データからの学習における中心的な問題は、より多くのデータが処理されるにつれて累積履歴を漸進的に表現することである。 連続信号と離散時系列を多項式ベースに投影してオンライン圧縮するための一般フレームワーク(HiPPO)を提案する。 過去の各時間ステップの重要性を示す尺度が与えられた場合、HiPPOは自然なオンライン関数近似問題に対する最適解を生成する。 特殊な場合として、我々のフレームワークは、最近のレジェンダーメモリユニット(LMU)を第一原理から短い導出し、GRUのようなリカレントニューラルネットワークのユビキタスゲーティング機構を一般化する。 このフォーマルなフレームワークは、すべての履歴を記憶するために時間をかけてスケールする新しいメモリ更新メカニズム(HiPPO-LegS)を提供する。 HiPPO-LegSは、時間スケールの堅牢性、高速更新、境界勾配の理論的利点を享受している。 メモリダイナミクスをリカレントニューラルネットワークに組み込むことで、HiPPO RNNは複雑な時間的依存関係を経験的にキャプチャすることができる。 ベンチマークパーミュートされたMNISTデータセットでは、HiPPO-LegSは98.3%の新しい最先端の精度を設定できる。 最後に、分布外時間スケールと欠落データに対する堅牢性をテストする新しいトラジェクトリ分類タスクにおいて、HiPPO-LegSはRNNとニューラルODEベースラインを25~40%精度で上回る。

A central problem in learning from sequential data is representing cumulative history in an incremental fashion as more data is processed. We introduce a general framework (HiPPO) for the online compression of continuous signals and discrete time series by projection onto polynomial bases. Given a measure that specifies the importance of each time step in the past, HiPPO produces an optimal solution to a natural online function approximation problem. As special cases, our framework yields a short derivation of the recent Legendre Memory Unit (LMU) from first principles, and generalizes the ubiquitous gating mechanism of recurrent neural networks such as GRUs. This formal framework yields a new memory update mechanism (HiPPO-LegS) that scales through time to remember all history, avoiding priors on the timescale. HiPPO-LegS enjoys the theoretical benefits of timescale robustness, fast updates, and bounded gradients. By incorporating the memory dynamics into recurrent neural networks, HiPPO RNNs can empirically capture complex temporal dependencies. On the benchmark permuted MNIST dataset, HiPPO-LegS sets a new state-of-the-art accuracy of 98.3%. Finally, on a novel trajectory classification task testing robustness to out-of-distribution timescales and missing data, HiPPO-LegS outperforms RNN and neural ODE baselines by 25-40% accuracy.
翻訳日:2022-10-28 03:06:43 公開日:2020-10-23
# 数ショット学習のためのトランスダクティブ情報最大化

Transductive Information Maximization For Few-Shot Learning ( http://arxiv.org/abs/2008.11297v3 )

ライセンス: Link先を確認
Malik Boudiaf, Ziko Imtiaz Masud, J\'er\^ome Rony, Jos\'e Dolz, Pablo Piantanida, Ismail Ben Ayed(参考訳) 数ショット学習のためのTIM(Transductive Infomation Maximization)を提案する。 提案手法は,クエリ特徴とラベル予測との相互情報を最大化し,その支援セットに基づく監督損失を付与する。 さらに,グラデーションベース最適化によるトランスダクティブ・インバージェンスを高速化し,類似精度を生かしながら,相互情報損失に対する新たな交互方向解法を提案する。 TIM推論はモジュラーであり、任意のベーストレーニング機能抽出器上で使用することができる。 TIMは様々なデータセットやネットワークにまたがる最先端の手法よりも優れており、複雑なメタ学習手法を使わずに、ベースクラス上で単純なクロスエントロピーで訓練された固定された特徴抽出器上で使用されている。 優れたパフォーマンスメソッドよりも2%から5%の精度向上を実現している。十分に確立された数ショットベンチマークだけでなく、ドメインシフトや多数のクラスを含む、より困難なシナリオでも実現されている。

We introduce Transductive Infomation Maximization (TIM) for few-shot learning. Our method maximizes the mutual information between the query features and their label predictions for a given few-shot task, in conjunction with a supervision loss based on the support set. Furthermore, we propose a new alternating-direction solver for our mutual-information loss, which substantially speeds up transductive-inference convergence over gradient-based optimization, while yielding similar accuracy. TIM inference is modular: it can be used on top of any base-training feature extractor. Following standard transductive few-shot settings, our comprehensive experiments demonstrate that TIM outperforms state-of-the-art methods significantly across various datasets and networks, while used on top of a fixed feature extractor trained with simple cross-entropy on the base classes, without resorting to complex meta-learning schemes. It consistently brings between 2% and 5% improvement in accuracy over the best performing method, not only on all the well-established few-shot benchmarks but also on more challenging scenarios,with domain shifts and larger numbers of classes.
翻訳日:2022-10-25 02:58:29 公開日:2020-10-23
# 遠近視パッチ構成を用いたトップビュー魚眼画像の効率的な歩行者検出

Efficient Pedestrian Detection in Top-View Fisheye Images Using Compositions of Perspective View Patches ( http://arxiv.org/abs/2009.02711v2 )

ライセンス: Link先を確認
Sheng-Ho Chiang, Tsaipei Wang, Yi-Fu Chen(参考訳) 画像中の歩行者検出は、広く研究されている話題であるが、視点画像用に設計された既存の検出器は、トップビュー魚眼カメラで撮影された画像ではうまく動作しない。 提案手法では,魚眼画像から複数の視点ビューを生成し,結合して合成画像を形成する。 この複合画像の歩行者は直立する傾向が強いため、遠近画像のために設計、訓練された既存の検出器は、追加の訓練なしで直接適用することができる。 また,魚眼フレームの視点から検出境界ボックスをマッピングする手法についても述べる。 いくつかの公開データセットにおける検出性能は、最先端の結果と良好に比較できる。

Pedestrian detection in images is a topic that has been studied extensively, but existing detectors designed for perspective images do not perform as successfully on images taken with top-view fisheye cameras, mainly due to the orientation variation of people in such images. In our proposed approach, several perspective views are generated from a fisheye image and then concatenated to form a composite image. As pedestrians in this composite image are more likely to be upright, existing detectors designed and trained for perspective images can be applied directly without additional training. We also describe a new method of mapping detection bounding boxes from the perspective views to the fisheye frame. The detection performance on several public datasets compare favorably with state-of-the-art results.
翻訳日:2022-10-21 08:20:30 公開日:2020-10-23
# 文書間の照合の合理化:評価とモデリング

Streamlining Cross-Document Coreference Resolution: Evaluation and Modeling ( http://arxiv.org/abs/2009.11032v3 )

ライセンス: Link先を確認
Arie Cattan, Alon Eirew, Gabriel Stanovsky, Mandar Joshi, and Ido Dagan(参考訳) クロスドキュメント(CD)コア参照解決のための最近の評価プロトコルは、しばしば矛盾または寛大であり、作業間での相容れない結果と性能の過大評価をもたらす。 本課題の今後の適切な研究を促進するため,本研究の主な貢献は,金の言及やシングルトン予測を無視し,CDコア参照解決における典型的なターゲット設定に対処するよりも,原文のみへのアクセスを前提とした実用的評価手法を提案することである。 評価手法を踏襲する今後の研究のベースラインとなる結果の設定を目指して,この課題に対する最初のエンドツーエンドモデルを構築した。 我々のモデルは最近のニューラルモデルに適応し、CDコア参照設定に対処するため、文書内コア参照解決のために拡張する。

Recent evaluation protocols for Cross-document (CD) coreference resolution have often been inconsistent or lenient, leading to incomparable results across works and overestimation of performance. To facilitate proper future research on this task, our primary contribution is proposing a pragmatic evaluation methodology which assumes access to only raw text -- rather than assuming gold mentions, disregards singleton prediction, and addresses typical targeted settings in CD coreference resolution. Aiming to set baseline results for future research that would follow our evaluation methodology, we build the first end-to-end model for this task. Our model adapts and extends recent neural models for within-document coreference resolution to address the CD coreference setting, which outperforms state-of-the-art results by a significant margin.
翻訳日:2022-10-15 16:02:01 公開日:2020-10-23
# 標準デコーダを変更せずに画像圧縮を改善するための学習

Learning to Improve Image Compression without Changing the Standard Decoder ( http://arxiv.org/abs/2009.12927v3 )

ライセンス: Link先を確認
Yannick Str\"umpler, Ren Yang, Radu Timofte(参考訳) 近年、画像圧縮の速度歪み性能を改善するためにディープニューラルネットワーク(DNN)を適用することへの関心が高まっている。 しかし、既存のアプローチではデコーダ側で後処理DNNを訓練するか、エンドツーエンドで画像圧縮の学習を提案する。 このように、トレーニングされたDNNはデコーダで必要であり、パーソナルコンピュータやモバイルで標準画像デコーダ(JPEGなど)と互換性がない。 そこで本研究では,標準デコーダによる符号化性能向上のための学習を提案する。 本稿では、JPEGを例として取り上げる。 具体的には、JPEG圧縮を容易にするために、DCT係数の分布を最適化する周波数領域事前編集法を提案する。 さらに,JPEG量子化テーブルと事前編集ネットワークの併用による学習を提案する。 最も重要なことは、JPEGデコーダを変更しないので、広く使われている標準JPEGデコーダで画像を見る際には、我々のアプローチが適用できます。 提案手法はPSNR, MS-SSIM, LPIPSなどの各種品質指標を用いてJPEGの速度歪み性能を向上することを確認した。 視覚的には、特に強い圧縮が適用されると、全体的な色保持性が向上する。 コードはhttps://github.com/YannickStruempler/LearnedJPEGで公開されている。

In recent years we have witnessed an increasing interest in applying Deep Neural Networks (DNNs) to improve the rate-distortion performance in image compression. However, the existing approaches either train a post-processing DNN on the decoder side, or propose learning for image compression in an end-to-end manner. This way, the trained DNNs are required in the decoder, leading to the incompatibility to the standard image decoders (e.g., JPEG) in personal computers and mobiles. Therefore, we propose learning to improve the encoding performance with the standard decoder. In this paper, We work on JPEG as an example. Specifically, a frequency-domain pre-editing method is proposed to optimize the distribution of DCT coefficients, aiming at facilitating the JPEG compression. Moreover, we propose learning the JPEG quantization table jointly with the pre-editing network. Most importantly, we do not modify the JPEG decoder and therefore our approach is applicable when viewing images with the widely used standard JPEG decoder. The experiments validate that our approach successfully improves the rate-distortion performance of JPEG in terms of various quality metrics, such as PSNR, MS-SSIM and LPIPS. Visually, this translates to better overall color retention especially when strong compression is applied. The codes are available at https://github.com/YannickStruempler/LearnedJPEG.
翻訳日:2022-10-14 03:54:16 公開日:2020-10-23
# 感覚運動ロボットの心理的安全性と動作予測を組み合わせた運動計画

Motion Planning Combines Psychological Safety and Motion Prediction for a Sense Motive Robot ( http://arxiv.org/abs/2010.11671v2 )

ライセンス: Link先を確認
Hejing Ling, Guoliang Liu, Guohui Tian(参考訳) 人間の安全は、人間のロボットのインタラクションとコラボレーション(HRIC)にとって最も重要な要求であり、身体的安全性だけでなく、心理的安全性も含んでいる。 構成の異なる多くのロボットが私たちの生活環境や作業環境に入り込んでいますが、人間とロボットが共存するシナリオでは、人間の安全問題は依然として研究中の問題です。 本稿では,身体安全と心理的安全性の両面をカバーすることで,人間の安全問題に対処する。 まず,人間の表情に応じた適応型ロボットの速度制御とステップサイズ調整手法を導入する。 第2に,人間の姿勢や視線方向の急激な変化を検出して人間の動きを予測し,人間の注意が散らばっているかどうかをロボットが推測し,人間の次の動きを予測し,反発力を再構築して衝突を避ける。 最後に、動的HRIC環境下で7 DOF TIAGoロボットを用いて、ロボットが感覚モチベーションとなり、人間の行動や感情への反応が迅速かつ効率的に変化することを示す。

Human safety is the most important demand for human robot interaction and collaboration (HRIC), which not only refers to physical safety, but also includes psychological safety. Although many robots with different configurations have entered our living and working environments, the human safety problem is still an ongoing research problem in human-robot coexistence scenarios. This paper addresses the human safety issue by covering both the physical safety and psychological safety aspects. First, we introduce an adaptive robot velocity control and step size adjustment method according to human facial expressions, such that the robot can adjust its movement to keep safety when the human emotion is unusual. Second, we predict the human motion by detecting the suddenly changes of human head pose and gaze direction, such that the robot can infer whether the human attention is distracted, predict the next move of human and rebuild a repulsive force to avoid potential collision. Finally, we demonstrate our idea using a 7 DOF TIAGo robot in a dynamic HRIC environment, which shows that the robot becomes sense motive, and responds to human action and emotion changes quickly and efficiently.
翻訳日:2022-10-13 07:23:05 公開日:2020-10-23
# 自然言語の理解と生成のための単純だが靭なデータ拡張手法

A Simple but Tough-to-Beat Data Augmentation Approach for Natural Language Understanding and Generation ( http://arxiv.org/abs/2009.13818v2 )

ライセンス: Link先を確認
Dinghan Shen, Mingzhi Zheng, Yelong Shen, Yanru Qu, Weizhu Chen(参考訳) 対人訓練は、より強力な一般化能力を持つ学習された表現を与えるのに効果的であることが示されている。 しかし、通常、注入された摂動の方向を決定するために高価な計算を必要とする。 本稿では,カットオフと呼ばれる単純なデータ拡張戦略を紹介する。そこでは,入力文内の情報の一部を消去して,制限されたビュー(微調整段階)を生成する。 特に、このプロセスは単に確率的サンプリングに依存しており、計算オーバーヘッドがほとんどない。 Jensen-Shannon分散一貫性損失は、これらの強化サンプルを原則的にトレーニング対象に組み込むためにさらに利用される。 提案手法の有効性を検証するため,自然言語理解と生成問題の両方にカットオフを適用した。 GLUEベンチマークでは、カットオフは単純さに拘わらず、いくつかの競合相手ベースのアプローチよりも同等かそれ以上に実行されることが示されている。 さらに、機械翻訳へのカットオフを拡張し、(トランスフォーマーベースモデルに基づく)bleuスコアの大幅な向上を観察する。 さらに、カットオフは敵のトレーニングを一貫して上回り、IWSLT2014ゲルマン英語データセットの最先端の結果を達成する。

Adversarial training has been shown effective at endowing the learned representations with stronger generalization ability. However, it typically requires expensive computation to determine the direction of the injected perturbations. In this paper, we introduce a set of simple yet effective data augmentation strategies dubbed cutoff, where part of the information within an input sentence is erased to yield its restricted views (during the fine-tuning stage). Notably, this process relies merely on stochastic sampling and thus adds little computational overhead. A Jensen-Shannon Divergence consistency loss is further utilized to incorporate these augmented samples into the training objective in a principled manner. To verify the effectiveness of the proposed strategies, we apply cutoff to both natural language understanding and generation problems. On the GLUE benchmark, it is demonstrated that cutoff, in spite of its simplicity, performs on par or better than several competitive adversarial-based approaches. We further extend cutoff to machine translation and observe significant gains in BLEU scores (based upon the Transformer Base model). Moreover, cutoff consistently outperforms adversarial training and achieves state-of-the-art results on the IWSLT2014 German-English dataset.
翻訳日:2022-10-13 05:07:09 公開日:2020-10-23
# 生物シーケンス設計のためのモデル誘導型フィットネスランドスケープ探索のプライマー

A primer on model-guided exploration of fitness landscapes for biological sequence design ( http://arxiv.org/abs/2010.10614v2 )

ライセンス: Link先を確認
Sam Sinai and Eric D Kelsic(参考訳) 機械学習手法は、生物学者が直面する課題に対処するためにますます採用されている。 このクロスポリメーションから大きな恩恵を受ける領域の1つは、生物学的配列設計の問題である。 しかし、これらの分野間のコミュニケーションにおいて重要な非効率性は残っており、その結果、生物学者は機械学習の進歩が到達不能であることを発見し、機械学習科学者がバイオエンジニアリングにおける影響のある問題に寄与するのを妨げている。 シーケンス設計は、各シーケンスが関数に関連付けられている離散的な高次元空間上の探索過程と見なすことができる。 このシーケンス・トゥ・ファンクション・マップは"Fitness Landscape"として知られている。 従って、特定の関数を持つ配列を設計することは、この空間内でそのような(しばしば稀な)配列を「発見」する問題である。 現在では,多数の生物配列の合成とテストの著しい進歩により,補間能力に優れた予測モデルの構築が可能となり,モデルトレーニングと検証が可能になった。 しかし、これらのモデルを使うのが好きな特性を持つ有用なシーケンスを見つけることは、しばしば課題である。 特に、このプライマーでは、実験的な設計のためのアルゴリズム、いわゆる「爆発戦略」は、シーケンス対関数写像のよいモデルを構築することと関連するが、異なる問題である、と強調する。 私たちは、モデル誘導探索の望ましい特徴を強調しながら、現在の文献からの進歩と洞察 -- 決して完全な治療ではありません -- をレビューし、私たちの経験から得られる潜在的な落とし穴をカバーします。 このプライマーは、モデルでシーケンス空間を探索する問題に興味を持つ異なる領域の研究者の出発点として機能するが、おそらく、フィールドの外から派生したアプローチに気づいていない。

Machine learning methods are increasingly employed to address challenges faced by biologists. One area that will greatly benefit from this cross-pollination is the problem of biological sequence design, which has massive potential for therapeutic applications. However, significant inefficiencies remain in communication between these fields which result in biologists finding the progress in machine learning inaccessible, and hinder machine learning scientists from contributing to impactful problems in bioengineering. Sequence design can be seen as a search process on a discrete, high-dimensional space, where each sequence is associated with a function. This sequence-to-function map is known as a "Fitness Landscape". Designing a sequence with a particular function is hence a matter of "discovering" such a (often rare) sequence within this space. Today we can build predictive models with good interpolation ability due to impressive progress in the synthesis and testing of biological sequences in large numbers, which enables model training and validation. However, it often remains a challenge to find useful sequences with the properties that we like using these models. In particular, in this primer we highlight that algorithms for experimental design, what we call "exploration strategies", are a related, yet distinct problem from building good models of sequence-to-function maps. We review advances and insights from current literature -- by no means a complete treatment -- while highlighting desirable features of optimal model-guided exploration, and cover potential pitfalls drawn from our own experience. This primer can serve as a starting point for researchers from different domains that are interested in the problem of searching a sequence space with a model, but are perhaps unaware of approaches that originate outside their field.
翻訳日:2022-10-11 04:19:42 公開日:2020-10-23
# カーレースにおけるランク位置予測

Rank Position Forecasting in Car Racing ( http://arxiv.org/abs/2010.01707v2 )

ライセンス: Link先を確認
Bo Peng, Jiayu Li, Selahattin Akkas, Fugang Wang, Takuya Araki, Ohno Yoshiyuki, Judy Qiu(参考訳) 外因性因子による不確実性が存在するため、予測は困難である。 本研究は、自動車レースにおけるランク位置予測問題を調査し、将来のラップにおけるランク位置を予測する。 ランクに変化をもたらす多くの要因のうち、ピットストップは重要だが不規則で稀である。 統計モデルや機械学習回帰モデル,エンコーダ・デコーダアーキテクチャに基づく最先端の深層予測モデルなど,既存の手法は予測に制限があることがわかった。 ピット停止イベントの実験的解析により、ランク位置シーケンスとピット停止イベントを別々にモデル化した原因分解を含む、深いモデルであるランクネットを提案する。 また、確率予測を組み込んで、各サブモデル内の不確実性をモデル化する。 広範な実験を通じてranknetは、ベースラインよりも強力なパフォーマンス改善を実証している。例えば、maeは一貫して10%以上改善し、新しいデータに適応するとより安定する。 モデル最適化とパフォーマンスプロファイリングの詳細を紹介する。 カーレース分析に有用な予測ツールを提供し、一般的な予測問題における同様の課題に対するソリューションに光を当てることが約束されている。

Forecasting is challenging since uncertainty resulted from exogenous factors exists. This work investigates the rank position forecasting problem in car racing, which predicts the rank positions at the future laps for cars. Among the many factors that bring changes to the rank positions, pit stops are critical but irregular and rare. We found existing methods, including statistical models, machine learning regression models, and state-of-the-art deep forecasting model based on encoder-decoder architecture, all have limitations in the forecasting. By elaborative analysis of pit stops events, we propose a deep model, RankNet, with the cause effects decomposition that modeling the rank position sequence and pit stop events separately. It also incorporates probabilistic forecasting to model the uncertainty inside each sub-model. Through extensive experiments, RankNet demonstrates a strong performance improvement over the baselines, e.g., MAE improves more than 10% consistently, and is also more stable when adapting to unseen new data. Details of model optimization, performance profiling are presented. It is promising to provide useful forecasting tools for the car racing analysis and shine a light on solutions to similar challenging issues in general forecasting problems.
翻訳日:2022-10-11 03:13:39 公開日:2020-10-23
# 条件付き生成モデルによる離散構造のゴール指向生成

Goal-directed Generation of Discrete Structures with Conditional Generative Models ( http://arxiv.org/abs/2010.02311v2 )

ライセンス: Link先を確認
Amina Mollaysa, Brooks Paige, Alexandros Kalousis(参考訳) 近年の進歩にもかかわらず、構造化離散データのゴール指向生成は依然として困難である。 プログラム合成(ソースコード生成)や材料設計(生成分子)などの問題では、望ましい制約を満たすものや望ましい特性を示すものを見つけるのは困難である。 実際には、高価なヒューリスティック検索や強化学習アルゴリズムがよく用いられる。 本稿では,この逆問題に直接対処する条件生成モデルの利用について,興味のある性質を持つ離散構造の分布をモデル化して検討する。 残念ながら、そのようなモデルの最大限の訓練は、入力特性を不十分に尊重する生成モデルからのサンプルで失敗することが多い。 そこで本研究では,強化学習目標を直接最適化し,期待する報酬を最大化する新しい手法を提案する。 近似値から正規化報酬へのサンプリングによって必要となる高分散スコア関数推定器は避け、モデル勾配の単純なモンテカルロ推定を可能にする。 提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。 どちらの場合も、最大推定値や他のベースラインよりも改善されている。

Despite recent advances, goal-directed generation of structured discrete data remains challenging. For problems such as program synthesis (generating source code) and materials design (generating molecules), finding examples which satisfy desired constraints or exhibit desired properties is difficult. In practice, expensive heuristic search or reinforcement learning algorithms are often employed. In this paper we investigate the use of conditional generative models which directly attack this inverse problem, by modeling the distribution of discrete structures given properties of interest. Unfortunately, maximum likelihood training of such models often fails with the samples from the generative model inadequately respecting the input properties. To address this, we introduce a novel approach to directly optimize a reinforcement learning objective, maximizing an expected reward. We avoid high-variance score-function estimators that would otherwise be required by sampling from an approximation to the normalized rewards, allowing simple Monte Carlo estimation of model gradients. We test our methodology on two tasks: generating molecules with user-defined properties and identifying short python expressions which evaluate to a given target value. In both cases, we find improvements over maximum likelihood estimation and other baselines.
翻訳日:2022-10-10 20:58:33 公開日:2020-10-23
# 知識ベースを用いた知識富化・型制約・文法指導型質問生成

Knowledge-enriched, Type-constrained and Grammar-guided Question Generation over Knowledge Bases ( http://arxiv.org/abs/2010.03157v3 )

ライセンス: Link先を確認
Sheng Bi and Xiya Cheng and Yuan-Fang Li and Yongzhen Wang and Guilin Qi(参考訳) 知識ベース上の質問生成(KBQG)は、サブグラフに関する自然言語の質問を生成することを目的としている。 エンコーダ・デコーダに基づく方法の現在の2つの大きな課題、特に小さなサブグラフにおいて、(1)サブグラフに含まれる限られた情報による多様性の低さ、および(2)デコーダが回答エンティティのセマンティクスにこだわっていないことによる意味のドリフトである。 我々は、上記の課題に対処するため、知識豊かで型制約のあるKBQGモデルKTGを提案する。 このモデルでは、エンコーダはkbからの補助情報を備えており、デコーダはqg中にワードタイプによって制約される。 具体的には、エンティティドメインと記述、および関連階層情報は質問コンテキストの構築と見なされ、条件付きコピー機構は現在の単語タイプに応じて質問セマンティクスを変調する。 また、文法的類似性を特徴とする新たな報酬関数は、強化学習による生成的豊かさと構文的正しさの両方を改善するように設計されている。 大規模な実験により,提案手法はSimpleQuestionとPathQuestionの2つのベンチマークデータセットにおいて,既存の手法よりも優れた性能を示した。

Question generation over knowledge bases (KBQG) aims at generating natural-language questions about a subgraph, i.e. a set of (connected) triples. Two main challenges still face the current crop of encoder-decoder-based methods, especially on small subgraphs: (1) low diversity and poor fluency due to the limited information contained in the subgraphs, and (2) semantic drift due to the decoder's oblivion of the semantics of the answer entity. We propose an innovative knowledge-enriched, type-constrained and grammar-guided KBQG model, named KTG, to addresses the above challenges. In our model, the encoder is equipped with auxiliary information from the KB, and the decoder is constrained with word types during QG. Specifically, entity domain and description, as well as relation hierarchy information are considered to construct question contexts, while a conditional copy mechanism is incorporated to modulate question semantics according to current word types. Besides, a novel reward function featuring grammatical similarity is designed to improve both generative richness and syntactic correctness via reinforcement learning. Extensive experiments show that our proposed model outperforms existing methods by a significant margin on two widely-used benchmark datasets SimpleQuestion and PathQuestion.
翻訳日:2022-10-09 22:00:07 公開日:2020-10-23
# HiFi-GAN:高精細・高精細音声合成のための生成逆ネットワーク

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis ( http://arxiv.org/abs/2010.05646v2 )

ライセンス: Link先を確認
Jungil Kong, Jaehyeon Kim, Jaekyoung Bae(参考訳) 音声合成に関する最近の研究は、生波形を生成するためにGAN(Generative Adversarial Network)を用いている。 このような手法はサンプリング効率とメモリ使用量を改善するが、サンプルの品質はまだ自己回帰モデルやフローベース生成モデルには達していない。 本研究では,高忠実度音声合成を実現するHiFi-GANを提案する。 音声は様々な周期の正弦波信号から構成されるため,音声の周期パターンのモデル化がサンプル品質の向上に不可欠であることを示す。 単一話者データセットの主観評価(平均評価スコア, MOS)は, 提案手法が人間の品質と類似性を示し, 単一V100 GPUのリアルタイムよりも22.05kHzの高忠実度オーディオ167.9倍高速であることを示す。 さらに,非可視話者のメル-スペクトログラムインバージョンとエンドツーエンド音声合成に対するHiFi-GANの一般性を示す。 最後に、HiFi-GANの小さなフットプリントバージョンは、CPU上のリアルタイムよりも13.4倍高速なサンプルを生成する。

Several recent work on speech synthesis have employed generative adversarial networks (GANs) to produce raw waveforms. Although such methods improve the sampling efficiency and memory usage, their sample quality has not yet reached that of autoregressive and flow-based generative models. In this work, we propose HiFi-GAN, which achieves both efficient and high-fidelity speech synthesis. As speech audio consists of sinusoidal signals with various periods, we demonstrate that modeling periodic patterns of an audio is crucial for enhancing sample quality. A subjective human evaluation (mean opinion score, MOS) of a single speaker dataset indicates that our proposed method demonstrates similarity to human quality while generating 22.05 kHz high-fidelity audio 167.9 times faster than real-time on a single V100 GPU. We further show the generality of HiFi-GAN to the mel-spectrogram inversion of unseen speakers and end-to-end speech synthesis. Finally, a small footprint version of HiFi-GAN generates samples 13.4 times faster than real-time on CPU with comparable quality to an autoregressive counterpart.
翻訳日:2022-10-08 08:19:37 公開日:2020-10-23
# ほぼミニマックスの最適報酬フリー強化学習

Nearly Minimax Optimal Reward-free Reinforcement Learning ( http://arxiv.org/abs/2010.05901v2 )

ライセンス: Link先を確認
Zihan Zhang, Simon S. Du, Xiangyang Ji(参考訳) 本研究では,バッチ強化学習に特に適する報酬フリー強化学習フレームワークと,複数の報酬関数のポリシーを必要とするシナリオについて検討する。 この枠組みには2つの段階がある。 探索段階では、エージェントは報奨信号を用いずに環境と相互作用して軌道を収集する。 計画段階では、エージェントは任意の報酬関数に対して最適に近いポリシーを返す必要がある。 新しい効率的なアルゴリズムである \textbf{s}taged \textbf{s}ampling + \textbf{t}runcated \textbf{p}lanning (\algoname) を提供し、最大$o\left( \frac{s^2a}{\epsilon^2}\text{poly}\log\left(\frac{sah}{\epsilon}\right) \right)$ episodes in the exploration phase において任意の報酬関数に対して最適に近いポリシーを出力することを保証します。 ここで、$S$は状態空間のサイズ、$A$は行動空間のサイズ、$H$は計画地平線、$\epsilon$は総報酬に対する目標精度である。 特に、サンプル複雑性は、$h$ で \emph{polynomially} をスケールするすべての既存の結果とは対照的に、$h$ で \emph{logarithmically} しかスケールしない。 さらに、この境界はミニマックス下限 $\omega\left(\frac{s^2a}{\epsilon^2}\right)$ から対数因子まで一致する。 1)データセットが$\epsilon$-suboptimal Policyを計画するために必要な新しい条件。 2)ソフトトランク計画を用いた提案条件下での効率的な計画方法 3) 減算した累積報酬を効率的に最大化するために拡張MDPを構築する。

We study the reward-free reinforcement learning framework, which is particularly suitable for batch reinforcement learning and scenarios where one needs policies for multiple reward functions. This framework has two phases. In the exploration phase, the agent collects trajectories by interacting with the environment without using any reward signal. In the planning phase, the agent needs to return a near-optimal policy for arbitrary reward functions. We give a new efficient algorithm, \textbf{S}taged \textbf{S}ampling + \textbf{T}runcated \textbf{P}lanning (\algoname), which interacts with the environment at most $O\left( \frac{S^2A}{\epsilon^2}\text{poly}\log\left(\frac{SAH}{\epsilon}\right) \right)$ episodes in the exploration phase, and guarantees to output a near-optimal policy for arbitrary reward functions in the planning phase. Here, $S$ is the size of state space, $A$ is the size of action space, $H$ is the planning horizon, and $\epsilon$ is the target accuracy relative to the total reward. Notably, our sample complexity scales only \emph{logarithmically} with $H$, in contrast to all existing results which scale \emph{polynomially} with $H$. Furthermore, this bound matches the minimax lower bound $\Omega\left(\frac{S^2A}{\epsilon^2}\right)$ up to logarithmic factors. Our results rely on three new techniques : 1) A new sufficient condition for the dataset to plan for an $\epsilon$-suboptimal policy; 2) A new way to plan efficiently under the proposed condition using soft-truncated planning; 3) Constructing extended MDP to maximize the truncated accumulative rewards efficiently.
翻訳日:2022-10-08 07:43:49 公開日:2020-10-23
# 従属腕を持つ多関節バンド

Multi-Armed Bandits with Dependent Arms ( http://arxiv.org/abs/2010.09478v2 )

ライセンス: Link先を確認
Rahul Singh, Fang Liu, Yin Sun and Ness Shroff(参考訳) 我々は,マルチアームバンディット (multi-armed bandit) 問題 (mabp) の変種について検討した。 より具体的には、複数のアームをグループ化してクラスタを形成し、同じクラスタに属するアームの報酬分布は、クラスタの特徴である未知のパラメータの既知の関数である。 従って、arm $i$を引けば、自身の報酬分布に関する情報だけでなく、arm $i$で同じクラスタを共有するすべてのアームに関する情報も明らかになる。 このアーム間の「相関」は、観測依存性によってアームの最適性に関する複数の仮説を同時にテストできるため、mabpで遭遇する探索・爆発のトレードオフを複雑にする。 探索-探索トレードオフを行いながら,これらの追加の側面観測を適切に活用する,ucb原理に基づく学習アルゴリズムを開発した。 我々のアルゴリズムの後悔は$O(K\log T)$として増大し、そこでは$K$はクラスタの数である。 対照的に、古典的なmabpに最適でこれらの依存関係を使用しないvanilla ucbのようなアルゴリズムでは、後悔は$o(m\log t)$となり、ここで$m$は腕の数である。

We study a variant of the classical multi-armed bandit problem (MABP) which we call as Multi-Armed Bandits with dependent arms. More specifically, multiple arms are grouped together to form a cluster, and the reward distributions of arms belonging to the same cluster are known functions of an unknown parameter that is a characteristic of the cluster. Thus, pulling an arm $i$ not only reveals information about its own reward distribution, but also about all those arms that share the same cluster with arm $i$. This "correlation" amongst the arms complicates the exploration-exploitation trade-off that is encountered in the MABP because the observation dependencies allow us to test simultaneously multiple hypotheses regarding the optimality of an arm. We develop learning algorithms based on the UCB principle which utilize these additional side observations appropriately while performing exploration-exploitation trade-off. We show that the regret of our algorithms grows as $O(K\log T)$, where $K$ is the number of clusters. In contrast, for an algorithm such as the vanilla UCB that is optimal for the classical MABP and does not utilize these dependencies, the regret scales as $O(M\log T)$ where $M$ is the number of arms.
翻訳日:2022-10-08 01:03:05 公開日:2020-10-23
# 参加者の役割によるサイバーいじめの特定強化

Enhancing the Identification of Cyberbullying through Participant Roles ( http://arxiv.org/abs/2010.06640v2 )

ライセンス: Link先を確認
Gathika Ratnayaka, Thushari Atapattu, Mahen Herath, Georgia Zhang, Katrina Falkner(参考訳) サイバーいじめは、精神的苦痛、反社会的行動、自殺などの犠牲者の健康と安全に有害な有害な影響をもたらす社会問題である。 サイバーいじめ検出の自動化は近年広く研究されている問題であり、最近の研究はいじめと非いじめのバイナリ分類に重点を置いている。 本稿では,ロールモデリングによるサイバーいじめ検出を強化する新しい手法を提案する。 我々は、ASKfmからのデータセットを使用して、複数クラスの分類を行い、参加者の役割(例えば、被害者、ハラッサー)を検出する。 予備結果は,F1スコアの0.83と0.76を含む有望な性能を示し,それぞれがベースラインを上回った。

Cyberbullying is a prevalent social problem that inflicts detrimental consequences to the health and safety of victims such as psychological distress, anti-social behaviour, and suicide. The automation of cyberbullying detection is a recent but widely researched problem, with current research having a strong focus on a binary classification of bullying versus non-bullying. This paper proposes a novel approach to enhancing cyberbullying detection through role modeling. We utilise a dataset from ASKfm to perform multi-class classification to detect participant roles (e.g. victim, harasser). Our preliminary results demonstrate promising performance including 0.83 and 0.76 of F1-score for cyberbullying and role classification respectively, outperforming baselines.
翻訳日:2022-10-07 23:48:34 公開日:2020-10-23
# ChemBERTa:分子特性予測のための大規模自己監督プレトレーニング

ChemBERTa: Large-Scale Self-Supervised Pretraining for Molecular Property Prediction ( http://arxiv.org/abs/2010.09885v2 )

ライセンス: Link先を確認
Seyone Chithrananda, Gabriel Grand and Bharath Ramsundar(参考訳) GNNと化学指紋は、特性予測のために分子を表現する主要なアプローチである。 しかし、NLPでは、強力な下流タスク転送のおかげで、トランスフォーマーが表現学習のデファクトスタンダードになっている。 並行して、トランスフォーマーを取り巻くソフトウェアエコシステムは急速に成熟しており、HuggingFaceやBertVizといったライブラリが合理化されたトレーニングとイントロスペクションを可能にしている。 本研究では,ChemBERTaモデルを用いて,分子特性予測タスクにおいてトランスフォーマーを体系的に評価する試みの1つである。 ChemBERTaはトレーニング済みのデータセットサイズに適しており、MoeculeNet上での競争力のあるダウンストリームパフォーマンスと、有用な注意ベースの視覚化モードを提供する。 以上の結果から,トランスフォーマは分子表現学習と特性予測に有望な将来業績をもたらすことが示唆された。 これらの取り組みを容易にするため,PubChemから77M SMILESのキュレートデータセットを公開し,大規模自己監督型事前トレーニングに適合する。

GNNs and chemical fingerprints are the predominant approaches to representing molecules for property prediction. However, in NLP, transformers have become the de-facto standard for representation learning thanks to their strong downstream task transfer. In parallel, the software ecosystem around transformers is maturing rapidly, with libraries like HuggingFace and BertViz enabling streamlined training and introspection. In this work, we make one of the first attempts to systematically evaluate transformers on molecular property prediction tasks via our ChemBERTa model. ChemBERTa scales well with pretraining dataset size, offering competitive downstream performance on MoleculeNet and useful attention-based visualization modalities. Our results suggest that transformers offer a promising avenue of future work for molecular representation learning and property prediction. To facilitate these efforts, we release a curated dataset of 77M SMILES from PubChem suitable for large-scale self-supervised pretraining.
翻訳日:2022-10-05 21:14:46 公開日:2020-10-23
# 標準化された説明可能性の必要性

The Need for Standardized Explainability ( http://arxiv.org/abs/2010.11273v2 )

ライセンス: Link先を確認
Othman Benchekroun, Adel Rahimi, Qini Zhang, Tetiana Kodliuk(参考訳) 説明可能なai(xai)は、業界レベルのaiでは最重要だが、説明可能性の標準化が欠如していることもあって、既存の方法では、この必要性に対処できない。 本研究の目的は,説明可能性領域の現況と,説明可能性と解釈可能性の新しい定義を提供し,この領域を標準化することである。 そこで本稿では,説明可能性に関する文献の概要と,すでに実装済みの既存手法について概説する。 最後に, 異なる説明可能性法を仮分類し, 今後の研究への扉を開く。

Explainable AI (XAI) is paramount in industry-grade AI; however existing methods fail to address this necessity, in part due to a lack of standardisation of explainability methods. The purpose of this paper is to offer a perspective on the current state of the area of explainability, and to provide novel definitions for Explainability and Interpretability to begin standardising this area of research. To do so, we provide an overview of the literature on explainability, and of the existing methods that are already implemented. Finally, we offer a tentative taxonomy of the different explainability methods, opening the door to future research.
翻訳日:2022-10-05 06:21:17 公開日:2020-10-23
# スパースガウス過程変分オートエンコーダ

Sparse Gaussian Process Variational Autoencoders ( http://arxiv.org/abs/2010.10177v2 )

ライセンス: Link先を確認
Matthew Ashman, Jonathan So, Will Tebbutt, Vincent Fortuin, Michael Pearce, Richard E. Turner(参考訳) 大規模で多次元の時空間データセットは、現代の科学と工学において一様である。 このようなデータを扱うための効果的なフレームワークとして、GP-DGM(Gaussian Process Deep Generative Model)がある。 既存のGP-DGMでの推論のアプローチでは、GPの計算効率に不可欠なインジェクションポイントに基づくスパースGP近似をサポートしない。 本稿では,スパースGP近似のパラメータ化に部分推論ネットワークを用いることで特徴付けられる,スパースプロセス変分オートエンコーダ(SGP-VAE)の開発に伴うこれらの欠点に対処する。 償却変分推論の利点を生かして、SGP-VAEは、事前観測されていないデータに対して、追加のトレーニングなしでマルチ出力スパースGPでの推論を可能にする。 SGP-VAEは、マルチ出力GPや構造化VAEなど、様々な実験で評価されている。

Large, multi-dimensional spatio-temporal datasets are omnipresent in modern science and engineering. An effective framework for handling such data are Gaussian process deep generative models (GP-DGMs), which employ GP priors over the latent variables of DGMs. Existing approaches for performing inference in GP-DGMs do not support sparse GP approximations based on inducing points, which are essential for the computational efficiency of GPs, nor do they handle missing data -- a natural occurrence in many spatio-temporal datasets -- in a principled manner. We address these shortcomings with the development of the sparse Gaussian process variational autoencoder (SGP-VAE), characterised by the use of partial inference networks for parameterising sparse GP approximations. Leveraging the benefits of amortised variational inference, the SGP-VAE enables inference in multi-output sparse GPs on previously unobserved data with no additional training. The SGP-VAE is evaluated in a variety of experiments where it outperforms alternative approaches including multi-output GPs and structured VAEs.
翻訳日:2022-10-05 05:36:18 公開日:2020-10-23
# bootleg: 自己教師付き名前付きエンティティの曖昧さ回避で尾を追いかける

Bootleg: Chasing the Tail with Self-Supervised Named Entity Disambiguation ( http://arxiv.org/abs/2010.10363v3 )

ライセンス: Link先を確認
Laurel Orr, Megan Leszczynski, Simran Arora, Sen Wu, Neel Guha, Xiao Ling, Christopher Re(参考訳) 知識ベース内のエンティティにテキストの言及をマッピングするタスクである名前付きエンティティ曖昧化(NED)の課題は、末尾エンティティと呼ばれるトレーニングデータに稀に現れるエンティティを曖昧にする方法である。 人間は、エンティティ事実、関係、タイプに関する知識に基づいて微妙な推論パターンを使用して、不慣れなエンティティを曖昧にします。 これらのパターンにインスパイアされた自己教師型NEDシステムであるBootlegを導入する。 あいまいさに対する中核的推論パターンを定義し、自己教師型モデルにパターンを学習させる学習手順を作成し、弱い監督を用いてトレーニングデータの信号を強化する方法を示す。 単純なTransformerアーキテクチャで推論パターンをエンコードすると、Bootlegは3つのNEDベンチマークで最先端を達成または超える。 さらに、Bootlegから学んだ表現は、エンティティベースの知識を必要とする他の曖昧でないタスクへの変換に成功し、一般的なTACRED関係抽出タスクに1.0F1ポイントを新たに設定し、大手テクノロジー企業において、高度に最適化された製品検索およびアシスタントタスクにおいて最大8%のパフォーマンス向上を示す。

A challenge for named entity disambiguation (NED), the task of mapping textual mentions to entities in a knowledge base, is how to disambiguate entities that appear rarely in the training data, termed tail entities. Humans use subtle reasoning patterns based on knowledge of entity facts, relations, and types to disambiguate unfamiliar entities. Inspired by these patterns, we introduce Bootleg, a self-supervised NED system that is explicitly grounded in reasoning patterns for disambiguation. We define core reasoning patterns for disambiguation, create a learning procedure to encourage the self-supervised model to learn the patterns, and show how to use weak supervision to enhance the signals in the training data. Encoding the reasoning patterns in a simple Transformer architecture, Bootleg meets or exceeds state-of-the-art on three NED benchmarks. We further show that the learned representations from Bootleg successfully transfer to other non-disambiguation tasks that require entity-based knowledge: we set a new state-of-the-art in the popular TACRED relation extraction task by 1.0 F1 points and demonstrate up to 8% performance lift in highly optimized production search and assistant tasks at a major technology company
翻訳日:2022-10-05 05:35:12 公開日:2020-10-23
# ニューラルマシン変換用マルチユニットトランスフォーマー

Multi-Unit Transformers for Neural Machine Translation ( http://arxiv.org/abs/2010.10743v2 )

ライセンス: Link先を確認
Jianhao Yan, Fandong Meng, Jie Zhou(参考訳) トランスフォーマーモデルはニューラルマシン翻訳において顕著な成功を収めた。 トランスフォーマーの強化には、複数のユニット(すなわちマルチヘッド注意とFFNの組み合わせ)をカスケードに積み重ねることに多くの努力が注がれているが、複数の並列ユニットに関する調査はほとんど注目されていない。 本稿では,多様かつ相補的なユニットを導入してトランスフォーマーの表現性を促進することを目的としたMulti-Unit Transformers (MUTE)を提案する。 具体的には、複数の並列ユニットを使用し、複数のユニットによるモデリングがモデルパフォーマンスを改善し、多様性をもたらすことを示す。 さらに,マルチユニット設定の利点をうまく活用するために,バイアスモジュールとシーケンシャル依存性をデザインし,異なるユニット間の相補性を誘導し,促進する。 NIST Chinese-to- English、WMT'14 English-to-German、WMT'18 Chinese-to- Englishという3つの機械翻訳タスクの実験結果から、MUTEモデルはTransformer-Baseを最大で1.52, +1.90, +1.10 BLEU点まで大きく上回り、推論速度はわずかに低下している(約3.1%)。 さらに、我々の手法はトランスフォーマー・ビッグモデルを超え、パラメータの54倍しかありません。 これらの結果は,MUTEの有効性と,推論プロセスとパラメータ利用の両面での有効性を示す。

Transformer models achieve remarkable success in Neural Machine Translation. Many efforts have been devoted to deepening the Transformer by stacking several units (i.e., a combination of Multihead Attentions and FFN) in a cascade, while the investigation over multiple parallel units draws little attention. In this paper, we propose the Multi-Unit Transformers (MUTE), which aim to promote the expressiveness of the Transformer by introducing diverse and complementary units. Specifically, we use several parallel units and show that modeling with multiple units improves model performance and introduces diversity. Further, to better leverage the advantage of the multi-unit setting, we design biased module and sequential dependency that guide and encourage complementariness among different units. Experimental results on three machine translation tasks, the NIST Chinese-to-English, WMT'14 English-to-German and WMT'18 Chinese-to-English, show that the MUTE models significantly outperform the Transformer-Base, by up to +1.52, +1.90 and +1.10 BLEU points, with only a mild drop in inference speed (about 3.1%). In addition, our methods also surpass the Transformer-Big model, with only 54\% of its parameters. These results demonstrate the effectiveness of the MUTE, as well as its efficiency in both the inference process and parameter usage.
翻訳日:2022-10-04 23:42:07 公開日:2020-10-23
# キャッシュを用いた混合精密埋め込み

Mixed-Precision Embedding Using a Cache ( http://arxiv.org/abs/2010.11305v2 )

ライセンス: Link先を確認
Jie Amy Yang, Jianyu Huang, Jongsoo Park, Ping Tak Peter Tang, Andrew Tulloch(参考訳) レコメンデーションシステムでは、組込みテーブルの数とサイズが増加すると、モデルのパフォーマンスが大幅に向上することが多いと、実践者が観察した。 これと、これらのモデルが大手インターネット企業にとって重要なことを考えると、パーソナライズタスク用のテーブルの埋め込みはテラバイト規模に成長し、成長を続けている。 一方、これらの大規模モデルは、ハイパフォーマンスメモリが不足しているgpuでトレーニングされることが多いため、トレーニング中にテーブル圧縮を埋め込む多くの作業が動機となる。 そこで本研究では,キャッシュメモリアーキテクチャを用いて,組込み中の行の大部分が低精度で訓練され,最も頻繁にあるいは最近アクセスされた行がキャッシュされ,完全に精度良く訓練される,組込みテーブルへの新たな変更を提案する。 提案したアーキテクチャ変更は、標準的な精度の低減と量子化や確率的丸めといったコンピュータ演算技術と連携して動作する。 Criteo-Kaggleデータセットで実行されるオープンソースのディープラーニングレコメンデーションモデル(DLRM)では,精度を維持しつつ,組み込みテーブルの5%の大きさのINT8精度の埋め込みテーブルとフル精度のキャッシュで3倍のメモリ削減を実現する。 産業規模のモデルとデータセットでは、精度を維持しつつ、組み込みテーブルの1%をINT4精度とキャッシュサイズで7倍のメモリ削減を実現し、GPUからホストへのデータ転送を減らすことで、エンドツーエンドのトレーニングスピードアップを16%削減する。

In recommendation systems, practitioners observed that increase in the number of embedding tables and their sizes often leads to significant improvement in model performances. Given this and the business importance of these models to major internet companies, embedding tables for personalization tasks have grown to terabyte scale and continue to grow at a significant rate. Meanwhile, these large-scale models are often trained with GPUs where high-performance memory is a scarce resource, thus motivating numerous work on embedding table compression during training. We propose a novel change to embedding tables using a cache memory architecture, where the majority of rows in an embedding is trained in low precision, and the most frequently or recently accessed rows cached and trained in full precision. The proposed architectural change works in conjunction with standard precision reduction and computer arithmetic techniques such as quantization and stochastic rounding. For an open source deep learning recommendation model (DLRM) running with Criteo-Kaggle dataset, we achieve 3x memory reduction with INT8 precision embedding tables and full-precision cache whose size are 5% of the embedding tables, while maintaining accuracy. For an industrial scale model and dataset, we achieve even higher >7x memory reduction with INT4 precision and cache size 1% of embedding tables, while maintaining accuracy, and 16% end-to-end training speedup by reducing GPU-to-host data transfers.
翻訳日:2022-10-04 23:23:50 公開日:2020-10-23
# トランスフォーマーを用いたオープンドメインフレーム意味解析

Open-Domain Frame Semantic Parsing Using Transformers ( http://arxiv.org/abs/2010.10998v2 )

ライセンス: Link先を確認
Aditya Kalyanpur, Or Biran, Tom Breloff, Jennifer Chu-Carroll, Ariel Diertani, Owen Rambow, Mark Sammons(参考訳) フレーム意味解析は複数の下位タスクを含む複雑な問題である。 最近のアプローチでは、サブタスクの合同学習(述語や引数検出など)と、関連するタスクのマルチタスク学習(構文解析や意味解析など)が採用されている。 本稿では,トランスフォーマーモデルを用いた全サブタスクのマルチタスク学習について検討する。 本稿では,純粋に生成するエンコーダ・デコーダアーキテクチャがFrameNet 1.7の構文解析において,従来技術よりも優れていることを示す。 最後に,マルチタスクモデルがCoNLL 2012ベンチマークにおいて,PropBank SRL解析の最先端技術システムよりも優れていることを示す。

Frame semantic parsing is a complex problem which includes multiple underlying subtasks. Recent approaches have employed joint learning of subtasks (such as predicate and argument detection), and multi-task learning of related tasks (such as syntactic and semantic parsing). In this paper, we explore multi-task learning of all subtasks with transformer-based models. We show that a purely generative encoder-decoder architecture handily beats the previous state of the art in FrameNet 1.7 parsing, and that a mixed decoding multi-task approach achieves even better performance. Finally, we show that the multi-task model also outperforms recent state of the art systems for PropBank SRL parsing on the CoNLL 2012 benchmark.
翻訳日:2022-10-04 22:49:51 公開日:2020-10-23
# voxcelebスピーカーダイアリゼーションチャレンジのためのhuaweiスピーカーダイアリゼーションシステム

The HUAWEI Speaker Diarisation System for the VoxCeleb Speaker Diarisation Challenge ( http://arxiv.org/abs/2010.11657v2 )

ライセンス: Link先を確認
Renyu Wang, Ruilin Tong, Yu Ting Yeung, Xiao Chen(参考訳) 本稿では,VoxCeleb Speaker Recognition Challenge 2020の話者ダイアリゼーショントラック(Track 4)のシステム構成について述べる。 このダイアリゼーションシステムは,入力音声信号の前処理として十分に訓練されたニューラルネットワークに基づく音声強調モデルで構成されている。 従来のエネルギーベース音声活動検出(VAD)をニューラルネットワークベースのVADに置き換える。 ニューラルネットワークベースのvadは、バックグラウンド音楽、ノイズ、その他の干渉のみを含む音声セグメントのより正確なアノテーションを提供し、ダイアリゼーション性能に不可欠である。 本稿では,xベクトルの集合的階層的クラスタリング(AHC)と変分ベイズ隠れマルコフモデル(VB-HMM)を用いて話者クラスタリングを行う。 実験結果から,本システムでは,10.45%のダイアリゼーション誤差率 (DER) と22.46%のジャカード誤差率 (JER) を基準系よりも大幅に改善した。

This paper describes system setup of our submission to speaker diarisation track (Track 4) of VoxCeleb Speaker Recognition Challenge 2020. Our diarisation system consists of a well-trained neural network based speech enhancement model as pre-processing front-end of input speech signals. We replace conventional energy-based voice activity detection (VAD) with a neural network based VAD. The neural network based VAD provides more accurate annotation of speech segments containing only background music, noise, and other interference, which is crucial to diarisation performance. We apply agglomerative hierarchical clustering (AHC) of x-vectors and variational Bayesian hidden Markov model (VB-HMM) based iterative clustering for speaker clustering. Experimental results demonstrate that our proposed system achieves substantial improvements over the baseline system, yielding diarisation error rate (DER) of 10.45%, and Jacard error rate (JER) of 22.46% on the evaluation set.
翻訳日:2022-10-04 07:44:13 公開日:2020-10-23
# 非教師付きドメイン適応のための知識蒸留

Knowledge Distillation for BERT Unsupervised Domain Adaptation ( http://arxiv.org/abs/2010.11478v2 )

ライセンス: Link先を確認
Minho Ryu and Kichun Lee(参考訳) トレーニング済みの言語モデルであるBERTは、さまざまな自然言語処理タスクで大幅なパフォーマンス向上を実現している。 モデルは多様なトピックの大規模なコーパスでトレーニングされるため、トレーニング(ソースデータ)とテスト(ターゲットデータ)におけるデータ分散が類似点を共有しながら異なるドメインシフト問題に対する堅牢なパフォーマンスを示す。 以前のモデルに比べて大きな改善があったが、ドメインシフトによるパフォーマンス低下に苦しめられている。 このような問題を緩和するため,本研究では, 逆微分ドメイン適応(ADDA)フレームワークと知識蒸留を組み合わせた, 簡易かつ効果的な非教師付きドメイン適応手法である蒸留(AAD)を提案する。 テキスト感情分類における教師なしドメイン適応の最先端性能を向上し,30のドメイン対のクロスドメイン感情分類タスクにおけるアプローチを評価した。

A pre-trained language model, BERT, has brought significant performance improvements across a range of natural language processing tasks. Since the model is trained on a large corpus of diverse topics, it shows robust performance for domain shift problems in which data distributions at training (source data) and testing (target data) differ while sharing similarities. Despite its great improvements compared to previous models, it still suffers from performance degradation due to domain shifts. To mitigate such problems, we propose a simple but effective unsupervised domain adaptation method, adversarial adaptation with distillation (AAD), which combines the adversarial discriminative domain adaptation (ADDA) framework with knowledge distillation. We evaluate our approach in the task of cross-domain sentiment classification on 30 domain pairs, advancing the state-of-the-art performance for unsupervised domain adaptation in text sentiment classification.
翻訳日:2022-10-04 06:33:33 公開日:2020-10-23
# 音声認識のための注意型系列列列モデルの信頼度推定

Confidence Estimation for Attention-based Sequence-to-sequence Models for Speech Recognition ( http://arxiv.org/abs/2010.11428v2 )

ライセンス: Link先を確認
Qiujia Li, David Qiu, Yu Zhang, Bo Li, Yanzhang He, Philip C. Woodland, Liangliang Cao, Trevor Strohman(参考訳) 音声関連タスクにおいて、音声認識器からの信頼度スコアは、転写品質を評価する上で有用な尺度である。 従来のマルコフモデルに基づく自動音声認識(ASR)システムでは、デコード格子における単語後部から信頼性スコアを確実に得ることができる。 しかし、アテンションベースシーケンス・ツー・シーケンスモデルのような自動回帰デコーダを持つASRシステムでは、ワード後処理の計算が困難である。 明らかな代替手段は、モデルの信頼性としてデコーダソフトマックス確率を使用することである。 本稿では,一般的な正規化手法がソフトマックスに基づく信頼度にどのように影響するかを考察し,エンド・ツー・エンドモデルの過信行動について検討する。 そこで我々は,既存のエンドツーエンドASRモデルに基づいて,信頼度推定モジュール(CEM)という軽量で効果的な手法を提案する。 LibriSpeechの実験では、CEMは過信問題を軽減し、言語モデルの浅い融合なしにより信頼性の高い信頼性スコアを生成することができる。 さらなる分析により、CEMは適度にミスマッチしたドメインからの音声を一般化し、半教師付き学習のような下流のタスクを改善する可能性が示唆された。

For various speech-related tasks, confidence scores from a speech recogniser are a useful measure to assess the quality of transcriptions. In traditional hidden Markov model-based automatic speech recognition (ASR) systems, confidence scores can be reliably obtained from word posteriors in decoding lattices. However, for an ASR system with an auto-regressive decoder, such as an attention-based sequence-to-sequence model, computing word posteriors is difficult. An obvious alternative is to use the decoder softmax probability as the model confidence. In this paper, we first examine how some commonly used regularisation methods influence the softmax-based confidence scores and study the overconfident behaviour of end-to-end models. Then we propose a lightweight and effective approach named confidence estimation module (CEM) on top of an existing end-to-end ASR model. Experiments on LibriSpeech show that CEM can mitigate the overconfidence problem and can produce more reliable confidence scores with and without shallow fusion of a language model. Further analysis shows that CEM generalises well to speech from a moderately mismatched domain and can potentially improve downstream tasks such as semi-supervised learning.
翻訳日:2022-10-04 05:56:46 公開日:2020-10-23
# 時空間データにおける異常検出のためのグラフと時空間スパース分解の低ランク化

Low-rank on Graphs plus Temporally Smooth Sparse Decomposition for Anomaly Detection in Spatiotemporal Data ( http://arxiv.org/abs/2010.12633v1 )

ライセンス: Link先を確認
Seyyid Emre Sofuoglu and Selin Aviyente(参考訳) 時空間データにおける異常検出は、ハイパースペクトルイメージング、ビデオ監視、都市交通監視など、様々なアプリケーションで直面する課題である。 既存の異常検出法は、シーケンスデータの点異常に最も適しており、時空間データに発生する時間的および空間的依存関係に対処できない。 近年,この問題に対処する異常検出のためのテンソル法が提案されている。 これらの手法は従来のテンソル分解モデルに依存しており、異常の構造を考慮していない。 本稿では,非教師付きテンソルに基づく異常検出法を提案する。 特に、異常検出問題は、スパース部の時間的変動を最小限に抑える正規化項を持つロバストなローランク + スパーステンソル分解として定式化され、抽出された異常が時間的に持続する。 また,最適化アルゴリズムの複雑さを軽減するために,グラフ総変動最小化によるランク最小化を近似する。 結果として生じる最適化問題は凸性があり、スケーラブルであり、欠落したデータやノイズに対して堅牢である。 提案手法は, 合成および実時空間交通データに基づいて評価し, ベースライン法との比較を行った。

Anomaly detection in spatiotemporal data is a challenging problem encountered in a variety of applications including hyperspectral imaging, video surveillance, and urban traffic monitoring. Existing anomaly detection methods are most suited for point anomalies in sequence data and cannot deal with temporal and spatial dependencies that arise in spatiotemporal data. In recent years, tensor-based methods have been proposed for anomaly detection to address this problem. These methods rely on conventional tensor decomposition models, not taking the structure of the anomalies into account, and are supervised or semi-supervised. We introduce an unsupervised tensor-based anomaly detection method that takes the sparse and temporally continuous nature of anomalies into account. In particular, the anomaly detection problem is formulated as a robust lowrank + sparse tensor decomposition with a regularization term that minimizes the temporal variation of the sparse part, so that the extracted anomalies are temporally persistent. We also approximate rank minimization with graph total variation minimization to reduce the complexity of the optimization algorithm. The resulting optimization problem is convex, scalable, and is shown to be robust against missing data and noise. The proposed framework is evaluated on both synthetic and real spatiotemporal urban traffic data and compared with baseline methods.
翻訳日:2022-10-04 00:30:58 公開日:2020-10-23
# 異種グラフレット

Heterogeneous Graphlets ( http://arxiv.org/abs/2010.14058v1 )

ライセンス: Link先を確認
Ryan A. Rossi, Nesreen K. Ahmed, Aldo Carranza, David Arbour, Anup Rao, Sungchul Kim, Eunyee Koh(参考訳) 本稿では,型付きグラフレットと呼ばれる異種ネットワークへのグラフレットの一般化を提案する。 形式的には、型付きグラフレットは小さな型付き誘導サブグラフである。 型付きグラフレットは、そのようなネットワークの高次型付き接続パターンを明示的に捉えるため、豊富な異種ネットワークにグラフレットを一般化する。 この問題に対処するために,このような型付きグラフレットの発生をカウントする一般的なフレームワークについて述べる。 提案アルゴリズムは,異なる型付きグラフレットの組合せ関係を利用する。 各エッジに対して、いくつかの型付きグラフレットをカウントし、これらのカウントと組合せ関係を合わせて、o(1)定数時間で他の型付きグラフレットの正確なカウントを得る。 特に、提案手法の最悪の時間複雑性は、最もよく知られた非型付けアルゴリズムの時間複雑性と一致する。 さらにこのアプローチは,効率的なロックフリーかつ非同期並列実装を実現する。 型付きグラフレットには既存の方法はないが、色付きグラフレットと呼ばれる異なるより単純な概念を計算することに焦点を当てた研究がいくつかある。 実験により,提案手法はより単純な色付きグラフレットの概念の計算方法よりも桁違いに高速で空間効率が高いことを確認した。 小さなネットワークでは時間を要するこれらの方法とは異なり、提案手法は数百万のエッジを持つ大規模ネットワークでは数秒しかかからない。 特に、型付きグラフレットは色付きグラフレット(および型なしグラフレット)よりも一般的であるため、様々な型付きグラフレットのカウントを組み合わせることで、色付きグラフレットのより単純な概念のカウントを得ることができる。 提案手法は、型付きグラフレットの新しい機会と応用をもたらす。

In this paper, we introduce a generalization of graphlets to heterogeneous networks called typed graphlets. Informally, typed graphlets are small typed induced subgraphs. Typed graphlets generalize graphlets to rich heterogeneous networks as they explicitly capture the higher-order typed connectivity patterns in such networks. To address this problem, we describe a general framework for counting the occurrences of such typed graphlets. The proposed algorithms leverage a number of combinatorial relationships for different typed graphlets. For each edge, we count a few typed graphlets, and with these counts along with the combinatorial relationships, we obtain the exact counts of the other typed graphlets in o(1) constant time. Notably, the worst-case time complexity of the proposed approach matches the time complexity of the best known untyped algorithm. In addition, the approach lends itself to an efficient lock-free and asynchronous parallel implementation. While there are no existing methods for typed graphlets, there has been some work that focused on computing a different and much simpler notion called colored graphlet. The experiments confirm that our proposed approach is orders of magnitude faster and more space-efficient than methods for computing the simpler notion of colored graphlet. Unlike these methods that take hours on small networks, the proposed approach takes only seconds on large networks with millions of edges. Notably, since typed graphlet is more general than colored graphlet (and untyped graphlets), the counts of various typed graphlets can be combined to obtain the counts of the much simpler notion of colored graphlets. The proposed methods give rise to new opportunities and applications for typed graphlets.
翻訳日:2022-10-04 00:29:51 公開日:2020-10-23
# スケーラブルな非教師なしマルチクリトリア軌道セグメンテーションと運転嗜好マイニング

Scalable Unsupervised Multi-Criteria Trajectory Segmentation and Driving Preference Mining ( http://arxiv.org/abs/2011.03331v1 )

ライセンス: Link先を確認
Florian Barth and Stefan Funke and Tobias Skovgaard Jepsen and Claudius Proissl(参考訳) 本研究では,時間と空間の点列に到達した軌跡を意味的に理解することを目的とした,大規模軌道データセットの解析手法を提案する。 提案手法は、走行時間や距離などの道路セグメントの走行コストを駆動選好モデルを用いて、軌道の分析と説明を行う。 特に, トラジェクトリーマイニング技術について紹介する。 (a)例えば、透視点を示す軌道内の興味深い点を見つけ、 (b)選択した軌道に基づいて運転者の運転嗜好を回復する。 デンマーク全土で3年間に収集された100万件以上の車両軌跡のデータセットを用いて,バイポイント識別とパーソナライズドルーティングのタスクに関する技術評価を行った。 我々の技術は効率的に実装でき、高度に並列化でき、数百万から数十億の軌道にスケールできる。

We present analysis techniques for large trajectory data sets that aim to provide a semantic understanding of trajectories reaching beyond them being point sequences in time and space. The presented techniques use a driving preference model w.r.t. road segment traversal costs, e.g., travel time and distance, to analyze and explain trajectories. In particular, we present trajectory mining techniques that can (a) find interesting points within a trajectory indicating, e.g., a via-point, and (b) recover the driving preferences of a driver based on their chosen trajectory. We evaluate our techniques on the tasks of via-point identification and personalized routing using a data set of more than 1 million vehicle trajectories collected throughout Denmark during a 3-year period. Our techniques can be implemented efficiently and are highly parallelizable, allowing them to scale to millions or billions of trajectories.
翻訳日:2022-10-04 00:29:28 公開日:2020-10-23
# $f$分離ブルグマン歪みの非バイアス推定式

Unbiased Estimation Equation under $f$-Separable Bregman Distortion Measures ( http://arxiv.org/abs/2010.12286v1 )

ライセンス: Link先を確認
Masahiro Kobayashi, Kazuho Watanabe(参考訳) 単調に増大する関数$f$とブレグマン発散を用いた対象関数のクラスにおける非バイアス推定方程式について議論する。 関数 $f$ の選択は、外れ値に対する堅牢性のような望ましい性質を与える。 偏りのない推定方程式を得るためには、解析的に難解な積分は一般にバイアス補正項として必要となる。 本研究では,ブレグマンの発散,統計モデル,およびバイアス補正項が消失する関数$f$の組み合わせを明らかにする。 マハラノビスと板倉-斎藤距離に着目して、基本的既存の結果の一般化と、ガンマ分布を特別な場合として含むスケールパラメータによる正実数の分布のクラスを特徴づける。 本稿では, バイアス補正項の消滅によって引き起こされる外れ値の割合が大きい場合, 潜伏バイアス最小化の可能性について論じる。

We discuss unbiased estimation equations in a class of objective function using a monotonically increasing function $f$ and Bregman divergence. The choice of the function $f$ gives desirable properties such as robustness against outliers. In order to obtain unbiased estimation equations, analytically intractable integrals are generally required as bias correction terms. In this study, we clarify the combination of Bregman divergence, statistical model, and function $f$ in which the bias correction term vanishes. Focusing on Mahalanobis and Itakura-Saito distances, we provide a generalization of fundamental existing results and characterize a class of distributions of positive reals with a scale parameter, which includes the gamma distribution as a special case. We discuss the possibility of latent bias minimization when the proportion of outliers is large, which is induced by the extinction of the bias correction term.
翻訳日:2022-10-04 00:28:54 公開日:2020-10-23
# 個人分散学習のためのグラフ正則摂動

Graph-Homomorphic Perturbations for Private Decentralized Learning ( http://arxiv.org/abs/2010.12288v1 )

ライセンス: Link先を確認
Stefan Vlaski, Ali H. Sayed(参考訳) 確率的最適化と学習のための分散アルゴリズムは、中間推定の繰り返し局所的な交換の結果、情報の拡散に依存する。 このような構造は、プライバシの懸念からエージェントが生データを共有することをためらう可能性がある状況において特に魅力的である。 それでも、追加のプライバシー保護機構がないため、プライベートデータに基づいて生成されるローカルな推定値の交換は、データ自体の推測を可能にする。 プライバシーを保証する最も一般的なメカニズムは、放送前にローカルな推定値に摂動を追加することである。 これらの摂動は通常、各エージェントで独立に選択されるため、パフォーマンスが著しく低下する。 本稿では,特定のヌルスペース条件に従って摂動を構成し,プライバシー保証を保ちながら,ネットワークセントロイドを(ステップサイズで)目に見えないようにするための代替スキームを提案する。 この分析により、一般の非凸損失関数が可能となり、深層学習を含む多くの機械学習および信号処理問題に適用できる。

Decentralized algorithms for stochastic optimization and learning rely on the diffusion of information as a result of repeated local exchanges of intermediate estimates. Such structures are particularly appealing in situations where agents may be hesitant to share raw data due to privacy concerns. Nevertheless, in the absence of additional privacy-preserving mechanisms, the exchange of local estimates, which are generated based on private data can allow for the inference of the data itself. The most common mechanism for guaranteeing privacy is the addition of perturbations to local estimates before broadcasting. These perturbations are generally chosen independently at every agent, resulting in a significant performance loss. We propose an alternative scheme, which constructs perturbations according to a particular nullspace condition, allowing them to be invisible (to first order in the step-size) to the network centroid, while preserving privacy guarantees. The analysis allows for general nonconvex loss functions, and is hence applicable to a large number of machine learning and signal processing problems, including deep learning.
翻訳日:2022-10-04 00:28:40 公開日:2020-10-23
# ディープニューラル・モバイル・ネットワーク

Deep Neural Mobile Networking ( http://arxiv.org/abs/2011.05267v1 )

ライセンス: Link先を確認
Chaoyun Zhang(参考訳) 次世代のモバイルネットワークは、スループット、レイテンシ、信頼性の点でさまざまなパフォーマンス要件を持つ、より接続されたデバイスが生み出す膨大なデータトラフィックの需要に対応するために、ますます複雑化する。 これにより、既存のツールと手作りの機能エンジニアリングに依存する従来の機械学習アルゴリズムでは、さまざまなネットワーク要素の監視と管理が不可能になる。 このような状況下では,モバイルネットワークにマシンインテリジェンスを組み込む必要がある。これは,モバイルビッグデータから貴重な情報を体系的にマイニングし,人手による抽出が困難であったような相関関係の自動発見を可能にするためである。 特にディープラーニングベースのソリューションは、人間の専門知識なしに、生データから自動的に特徴を抽出することができる。 人工知能(AI)の他の分野でのパフォーマンスは、モバイルネットワークの技術的な課題に対処するためにディープラーニングアプローチを採用する際に、学界と産業の両方から前例のない関心を集めている。 この論文は、ディープニューラルネットワークの最近の進歩を利用して、モバイルネットワーク分野の重要な問題を様々な観点から攻撃している。

The next generation of mobile networks is set to become increasingly complex, as these struggle to accommodate tremendous data traffic demands generated by ever-more connected devices that have diverse performance requirements in terms of throughput, latency, and reliability. This makes monitoring and managing the multitude of network elements intractable with existing tools and impractical for traditional machine learning algorithms that rely on hand-crafted feature engineering. In this context, embedding machine intelligence into mobile networks becomes necessary, as this enables systematic mining of valuable information from mobile big data and automatically uncovering correlations that would otherwise have been too difficult to extract by human experts. In particular, deep learning based solutions can automatically extract features from raw data, without human expertise. The performance of artificial intelligence (AI) has achieved in other domains draws unprecedented interest from both academia and industry in employing deep learning approaches to address technical challenges in mobile networks. This thesis attacks important problems in the mobile networking area from various perspectives by harnessing recent advances in deep neural networks.
翻訳日:2022-10-04 00:22:37 公開日:2020-10-23
# 双対空間情報の融合によるハイパースペクトル画像分類

Fusion of Dual Spatial Information for Hyperspectral Image Classification ( http://arxiv.org/abs/2010.12337v1 )

ライセンス: Link先を確認
Puhong Duan and Pedram Ghamisi and Xudong Kang and Behnood Rasti and Shutao Li and Richard Gloaguen(参考訳) ファインレゾリューションハイパースペクトル画像のためのスペクトル分類器への空間情報の導入は、分類性能の大幅な改善をもたらした。 スペクトル-空間超スペクトル画像分類の課題は、高いクラス内スペクトル変動と低いクラス間スペクトル変動のため、いまだに困難である。 この事実は空間情報の抽出を活発にしている。 本研究では,前処理特徴抽出と後処理空間最適化の両方を利用して,両空間情報の融合を利用した新しいハイパースペクトル画像分類フレームワークを提案する。 特徴抽出段階において,高スペクトル画像から識別的特徴を正確に抽出できる構造プロファイル(SP)を構築するために,適応的なテクスチャ平滑化法を提案する。 リモートセンシングコミュニティでは,SP抽出法が初めて使用される。 そして、抽出したspをスペクトル分類器に供給する。 空間最適化段階では、クラス確率を得るために画素レベル分類器を使用し、拡張ランダムウォーカに基づく空間最適化手法を用いる。 最後に、2つの異なる段階から得られるクラス確率を融合するために、決定融合規則を用いる。 異なるシーンからの3つのデータセットで行った実験は、提案手法が他の最先端の分類手法より優れていることを示している。 また,提案する特徴抽出法であるspは,異なる土地被覆の識別を効果的に改善することができる。

The inclusion of spatial information into spectral classifiers for fine-resolution hyperspectral imagery has led to significant improvements in terms of classification performance. The task of spectral-spatial hyperspectral image classification has remained challenging because of high intraclass spectrum variability and low interclass spectral variability. This fact has made the extraction of spatial information highly active. In this work, a novel hyperspectral image classification framework using the fusion of dual spatial information is proposed, in which the dual spatial information is built by both exploiting pre-processing feature extraction and post-processing spatial optimization. In the feature extraction stage, an adaptive texture smoothing method is proposed to construct the structural profile (SP), which makes it possible to precisely extract discriminative features from hyperspectral images. The SP extraction method is used here for the first time in the remote sensing community. Then, the extracted SP is fed into a spectral classifier. In the spatial optimization stage, a pixel-level classifier is used to obtain the class probability followed by an extended random walker-based spatial optimization technique. Finally, a decision fusion rule is utilized to fuse the class probabilities obtained by the two different stages. Experiments performed on three data sets from different scenes illustrate that the proposed method can outperform other state-of-the-art classification techniques. In addition, the proposed feature extraction method, i.e., SP, can effectively improve the discrimination between different land covers.
翻訳日:2022-10-04 00:21:59 公開日:2020-10-23
# 点特異性と端特異性に対する指数ReLUニューラルネットワーク近似率

Exponential ReLU Neural Network Approximation Rates for Point and Edge Singularities ( http://arxiv.org/abs/2010.12217v1 )

ライセンス: Link先を確認
Carlo Marcati and Joost A. A. Opschoor and Philipp C. Petersen and Christoph Schwab(参考訳) 空間次元$d=2,3$のポリトープ領域における重み付き解析関数クラスに対して、安定なReLUニューラルネットワーク(ReLU NN)を$H^1(\Omega)$で指数表現する。 これらのクラス内の関数は開部分ドメイン $d\subset \omega$ 上で局所解析されるが、$\omega$ の内部で孤立点特異点または$\partial \omega$ の境界で辺特異点を示すことがある。 ここでの指数表現率境界は、いくつかの楕円境界と解析データによる固有値問題に対する解族ReLU NNによる一様指数表現性を示す。 指数近似速度は、直線面を持つリプシッツ多角形の空間次元$d = 2$、平面面を持つフィチェラ型多面体領域における空間次元$d=3$で表される。 構築的証明は、特に、ターゲットNN近似精度$\varepsilon>0$ in $H^1(\Omega)$に対して、NN深さとサイズが多値的に増加することを示す。 結果は、解析的データと解析的非線形性と特異な重み付き分析ポテンシャルを持つある種の非線形楕円固有値問題を持つ線形二階楕円PDEの特定の解集合を電子構造モデルで表す。 後者の場合、これらの関数は核の位置において孤立点特異性を示す電子密度に対応する。 本研究は,最近報告された,変動型電子構造アルゴリズムにおけるディープニューラルネットワークの利用の数学的基礎を提供する。

We prove exponential expressivity with stable ReLU Neural Networks (ReLU NNs) in $H^1(\Omega)$ for weighted analytic function classes in certain polytopal domains $\Omega$, in space dimension $d=2,3$. Functions in these classes are locally analytic on open subdomains $D\subset \Omega$, but may exhibit isolated point singularities in the interior of $\Omega$ or corner and edge singularities at the boundary $\partial \Omega$. The exponential expression rate bounds proved here imply uniform exponential expressivity by ReLU NNs of solution families for several elliptic boundary and eigenvalue problems with analytic data. The exponential approximation rates are shown to hold in space dimension $d = 2$ on Lipschitz polygons with straight sides, and in space dimension $d=3$ on Fichera-type polyhedral domains with plane faces. The constructive proofs indicate in particular that NN depth and size increase poly-logarithmically with respect to the target NN approximation accuracy $\varepsilon>0$ in $H^1(\Omega)$. The results cover in particular solution sets of linear, second order elliptic PDEs with analytic data and certain nonlinear elliptic eigenvalue problems with analytic nonlinearities and singular, weighted analytic potentials as arise in electron structure models. In the latter case, the functions correspond to electron densities that exhibit isolated point singularities at the positions of the nuclei. Our findings provide in particular mathematical foundation of recently reported, successful uses of deep neural networks in variational electron structure algorithms.
翻訳日:2022-10-04 00:21:22 公開日:2020-10-23
# 建築管理のための状態空間モデル: どこまで深く行くべきか?

State space models for building control: how deep should you go? ( http://arxiv.org/abs/2010.12257v1 )

ライセンス: Link先を確認
Baptiste Schubnel, Rafael E. Carrillo, Paolo Taddeo, Lluc Canals Casals, Jaume Salom, Yves Stauffer and Pierre-Jean Alet(参考訳) 建物内の電力消費は線形モデルではキャプチャできない非線形挙動を示し、recurrent neural network (rnn) では実現可能である。 この能力により、RNNは建物のモデル予測制御(MPC)に魅力的な代替手段となる。 しかし、rnnモデルには数学的正則性が欠けているため、最適化問題での使用は困難である。 そこで本研究では, ビルディング制御に RNN を用いることで, MPC フレームワークでネットゲインが得られるかどうかを系統的に検討する。 完全な非線形RNNアーキテクチャと非線形回帰器を備えた線形状態空間モデルという、2つのアーキテクチャの表現力と制御性能を比較する。 比較は、同じ条件下での2ヶ月間のシミュレート操作で、各アーキテクチャの5つのインスタンスをカバーする。 温度の1時間予測の誤差は、rnnモデルでは線形モデルよりも69%低い。 線形状態空間モデルは、目的関数で10%向上し、2.8倍の温度違反を示し、RNNモデルに必要な計算時間の3分の1を必要とする。 したがって、現在の形式ではRNNは精度を向上するが、非線形回帰器を持つよく設計された線形状態空間モデルはMPCのほとんどの場合において最適であることを示す。

Power consumption in buildings show non-linear behaviors that linear models cannot capture whereas recurrent neural networks (RNNs) can. This ability makes RNNs attractive alternatives for the model-predictive control (MPC) of buildings. However RNN models lack mathematical regularity which makes their use challenging in optimization problems. This work therefore systematically investigates whether using RNNs for building control provides net gains in an MPC framework. It compares the representation power and control performance of two architectures: a fully non-linear RNN architecture and a linear state-space model with non-linear regressor. The comparison covers five instances of each architecture over two months of simulated operation in identical conditions. The error on the one-hour forecast of temperature is 69% lower with the RNN model than with the linear one. In control the linear state-space model outperforms by 10% on the objective function, shows 2.8 times higher average temperature violations, and needs a third of the computation time the RNN model requires. This work therefore demonstrates that in their current form RNNs do improve accuracy but on balance well-designed linear state-space models with non-linear regressors are best in most cases of MPC.
翻訳日:2022-10-04 00:20:31 公開日:2020-10-23
# グラフ畳み込みニューラルネットワークにおける半精度の探索

Not Half Bad: Exploring Half-Precision in Graph Convolutional Neural Networks ( http://arxiv.org/abs/2010.12635v1 )

ライセンス: Link先を確認
John Brennan, Stephen Bonner, Amir Atapour-Abarghouei, Philip T Jackson, Boguslaw Obara, Andrew Stephen McGough(参考訳) 多くのアプリケーションにおけるデータ表現としてのグラフの重要性の高まりに伴い、現代の機械学習を用いた効率的なグラフ解析が注目を集めている。 入力層と中間層は、すべて隣接層のサイズに比例して設計されているため、ディープラーニングアプローチは、グラフのサイズが大きくなるにつれて、集約的な計算と大きなメモリ要求をもたらす。 したがって、最大のグラフを解析できるように、実行時間とメモリ要求の両方を削減できる効率的な尺度を同定することが望ましい。 ディープニューラルネットワークの前方および後方パス内での精度の低下操作と、最新のGPUにおける新たな特殊ハードウェアの使用は、効率性への有望な道を提供する。 本稿では,高度に普及しているpytorchフレームワークに容易に統合可能な減算演算の利用について詳細に検討し,グラフ畳み込みニューラルネットワークにおけるテンソルコアの影響について解析する。 3つのgpuアーキテクチャと2つの広く使われているグラフ分析タスク(vertex分類とリンク予測)を、よく知られたベンチマークと合成生成されたデータセットを用いて広範囲に実験的に評価する。 したがって、グラフ畳み込みニューラルネットワークの計算とメモリ使用量に対する減算演算とテンソルコアの影響について重要な観察を行うことができる。

With the growing significance of graphs as an effective representation of data in numerous applications, efficient graph analysis using modern machine learning is receiving a growing level of attention. Deep learning approaches often operate over the entire adjacency matrix -- as the input and intermediate network layers are all designed in proportion to the size of the adjacency matrix -- leading to intensive computation and large memory requirements as the graph size increases. It is therefore desirable to identify efficient measures to reduce both run-time and memory requirements allowing for the analysis of the largest graphs possible. The use of reduced precision operations within the forward and backward passes of a deep neural network along with novel specialised hardware in modern GPUs can offer promising avenues towards efficiency. In this paper, we provide an in-depth exploration of the use of reduced-precision operations, easily integrable into the highly popular PyTorch framework, and an analysis of the effects of Tensor Cores on graph convolutional neural networks. We perform an extensive experimental evaluation of three GPU architectures and two widely-used graph analysis tasks (vertex classification and link prediction) using well-known benchmark and synthetically generated datasets. Thus allowing us to make important observations on the effects of reduced-precision operations and Tensor Cores on computational and memory usage of graph convolutional neural networks -- often neglected in the literature.
翻訳日:2022-10-04 00:12:38 公開日:2020-10-23
# 逆機械学習を用いたスマートメータの動作検出

Avoiding Occupancy Detection from Smart Meter using Adversarial Machine Learning ( http://arxiv.org/abs/2010.12640v1 )

ライセンス: Link先を確認
ibrahim Yilmaz and Ambareen Siraj(参考訳) 電力サービスとエンドユーザ間の双方向通信の高速化,需要応答の直接負荷制御,省エネ化など,多くのメリットがあるため,従来型の電気機械計をスマートメータに置き換えている。 しかし、smartmeterが提供するきめ細かい利用データは、ユーザから企業へのさらなる脆弱性をもたらす。 占有者検出は、スマートメータユーザのプライバシー侵害を引き起こすような例である。 住まいと電気利用との間に強い相関関係があるため、住宅の占有状況の検知は、使用時情報とともに簡単である。 この作業では、主要な貢献が2つあります。 まず,long short term memory (lstm) 法と呼ばれる機械学習手法に基づき,占有者検出攻撃の有効性を検証するとともに,改善効果を示す。 さらに,エネルギー消費の悪用を防止するために,対向攻撃として,敵対的機械学習による占有検知回避(amloda)フレームワークを導入する。 提案するプライバシ保護フレームワークは,ユーザの請求システム機能を損なうことなく,計算した最適雑音を用いてリアルタイム・近距離電力利用情報を隠蔽するように設計されている。 以上の結果から,提案手法はユーザのプライバシを強く支持することを示す。

More and more conventional electromechanical meters are being replaced with smart meters because of their substantial benefits such as providing faster bi-directional communication between utility services and end users, enabling direct load control for demand response, energy saving, and so on. However, the fine-grained usage data provided by smart meter brings additional vulnerabilities from users to companies. Occupancy detection is one such example which causes privacy violation of smart meter users. Detecting the occupancy of a home is straightforward with time of use information as there is a strong correlation between occupancy and electricity usage. In this work, our major contributions are twofold. First, we validate the viability of an occupancy detection attack based on a machine learning technique called Long Short Term Memory (LSTM) method and demonstrate improved results. In addition, we introduce an Adversarial Machine Learning Occupancy Detection Avoidance (AMLODA) framework as a counter attack in order to prevent abuse of energy consumption. Essentially, the proposed privacy-preserving framework is designed to mask real-time or near real-time electricity usage information using calculated optimum noise without compromising users' billing systems functionality. Our results show that the proposed privacy-aware billing technique upholds users' privacy strongly.
翻訳日:2022-10-04 00:12:17 公開日:2020-10-23
# 音楽音源分離における転送学習に関する研究

A Study of Transfer Learning in Music Source Separation ( http://arxiv.org/abs/2010.12650v1 )

ライセンス: Link先を確認
Andreas Bugler, Bryan Pardo, Prem Seetharaman(参考訳) オーディオソース分離を行うための改良されたディープラーニング手法は、大量のトレーニングデータが存在する領域で非常に効果的である。 一部の音楽ドメインは、ロックやポップのジャンルのような分離システムの訓練に適した十分なデータを持っているが、クラシック音楽、合唱音楽、非西洋音楽の伝統など、多くの音楽ドメインはそうではない。 関連するドメインから学習を移すことは,ディープラーニングシステムの性能向上につながることが知られているが,事前学習の方法が必ずしも明確ではない。 本研究では,事前トレーニング中のデータ拡張の有効性,同じコンテントドメインを持つ前トレーニングおよび下流データセットによるパフォーマンスへの影響について検討するとともに,事前トレーニングされた最終目標タスクにおいて,モデルがどの程度再トレーニングされなければならないかを検討する。

Supervised deep learning methods for performing audio source separation can be very effective in domains where there is a large amount of training data. While some music domains have enough data suitable for training a separation system, such as rock and pop genres, many musical domains do not, such as classical music, choral music, and non-Western music traditions. It is well known that transferring learning from related domains can result in a performance boost for deep learning systems, but it is not always clear how best to do pretraining. In this work we investigate the effectiveness of data augmentation during pretraining, the impact on performance as a result of pretraining and downstream datasets having similar content domains, and also explore how much of a model must be retrained on the final target task, once pretrained.
翻訳日:2022-10-04 00:11:56 公開日:2020-10-23
# ショートビデオに基づく広告評価システム:自己組織化学習アプローチ

Short Video-based Advertisements Evaluation System: Self-Organizing Learning Approach ( http://arxiv.org/abs/2010.12662v1 )

ライセンス: Link先を確認
Yunjie Zhang, Fei Tao, Xudong Liu, Runze Su, Xiaorong Mei, Weicong Ding, Zhichen Zhao, Lei Yuan, Ji Liu(参考訳) TikTok、Snapchat、Kwaiなどのショートビデオアプリの増加に伴い、短期ユーザー生成ビデオ(UGVs)の広告は広告のトレンドとなっている。 コールドスタートのシナリオにおいて,広告主が事前に広告パフォーマンスを取得するためには,特定のユーザプロファイルのないユーザ行動の予測が必要である。 現在のレコメンデータシステムは生のビデオを入力として取り込まないが、Multi-Modal Machine Learningのこれまでの作業は、UGVのような制約のないビデオには対応していない。 本稿では,ユーザ行動予測のためのエンドツーエンドの自己組織化フレームワークを提案する。 我々のモデルは、トレーニングデータを通じて、ニューラルネットワークアーキテクチャの最適トポロジと最適な重みを学習することができる。 提案手法を社内データセット上で評価した。 実験結果から,本モデルが全実験で最高の性能を発揮できることが判明した。

With the rising of short video apps, such as TikTok, Snapchat and Kwai, advertisement in short-term user-generated videos (UGVs) has become a trending form of advertising. Prediction of user behavior without specific user profile is required by advertisers, as they expect to acquire advertisement performance in advance in the scenario of cold start. Current recommender system do not take raw videos as input; additionally, most previous work of Multi-Modal Machine Learning may not deal with unconstrained videos like UGVs. In this paper, we proposed a novel end-to-end self-organizing framework for user behavior prediction. Our model is able to learn the optimal topology of neural network architecture, as well as optimal weights, through training data. We evaluate our proposed method on our in-house dataset. The experimental results reveal that our model achieves the best performance in all our experiments.
翻訳日:2022-10-04 00:11:43 公開日:2020-10-23
# 株式市場における体系的行動のイベント駆動学習

Event-Driven Learning of Systematic Behaviours in Stock Markets ( http://arxiv.org/abs/2010.15586v1 )

ライセンス: Link先を確認
Xianchao Wu(参考訳) 金融ニュース、特にニュースで表現された金融イベントは投資家の長期的・短期的な決定に情報を提供し、株式市場の動きに影響を与えると報告されている。 これにより、金融イベントストリームを利用して、米国株式市場における潜在イベント-ストック連鎖と株式市場の体系的行動を検出する分類ニューラルネットワークを訓練する。 提案するパイプラインは,(1)オープン情報抽出とニューラルコリファレンス解像度を用いた複合イベント抽出手法,(2)イベントのbert/albert拡張表現,(3)イベント,ニュース,時間レベルの注意を含む拡張階層的注意ネットワークを含む。 当社のパイプラインは、standard\&poor 500、dow jones、nasdaq indices、および10株の予測に適用される場合、最先端のモデルよりも高いアキュラリティとシミュレートされた年間リターンを達成します。

It is reported that financial news, especially financial events expressed in news, provide information to investors' long/short decisions and influence the movements of stock markets. Motivated by this, we leverage financial event streams to train a classification neural network that detects latent event-stock linkages and stock markets' systematic behaviours in the U.S. stock market. Our proposed pipeline includes (1) a combined event extraction method that utilizes Open Information Extraction and neural co-reference resolution, (2) a BERT/ALBERT enhanced representation of events, and (3) an extended hierarchical attention network that includes attentions on event, news and temporal levels. Our pipeline achieves significantly better accuracies and higher simulated annualized returns than state-of-the-art models when being applied to predicting Standard\&Poor 500, Dow Jones, Nasdaq indices and 10 individual stocks.
翻訳日:2022-10-04 00:10:54 公開日:2020-10-23
# DualNet: ディープアテンションネットワークで効果的なペイロードを検出

DualNet: Locate Then Detect Effective Payload with Deep Attention Network ( http://arxiv.org/abs/2010.12171v1 )

ライセンス: Link先を確認
Shiyi Yang, Peilun Wu, Hui Guo(参考訳) ネットワーク侵入検知(NID)は,大規模サイバー空間における疑わしいユーザ行動の痕跡を発見するための重要な防衛戦略であり,機械学習(ML)は,その自動化と知能の能力から近年,主流の狩猟法として徐々に採用されている。 しかし、従来のMLベースのネットワーク侵入検知システム(NIDS)は未知の脅威を認識するには効果がなく、その高い検出率は高い誤報のコストが伴うことが多く、アラーム疲労が問題となる。 本稿では,これらの問題に対処するために,一般特徴抽出段階と重要な特徴学習段階を備えた,ニューラルネットワークに基づく新しい検出システムであるdualnetを提案する。 DualNetは、学習プロセス全体の促進と、ディープラーニング(DL)で発生したいくつかの最適化問題を緩和することの重要性に応じて、空間的特徴を迅速に再利用することができる。 我々は,NSL-KDDとUNSW-NB15という2つのベンチマークサイバー攻撃データセット上でDualNetを評価する。 実験により,dualnet は従来の ml ベースの nids よりも優れており,精度,検出率,誤報率の点で既存の dl 法よりも有効であることを示した。

Network intrusion detection (NID) is an essential defense strategy that is used to discover the trace of suspicious user behaviour in large-scale cyberspace, and machine learning (ML), due to its capability of automation and intelligence, has been gradually adopted as a mainstream hunting method in recent years. However, traditional ML based network intrusion detection systems (NIDSs) are not effective to recognize unknown threats and their high detection rate often comes with the cost of high false alarms, which leads to the problem of alarm fatigue. To address the above problems, in this paper, we propose a novel neural network based detection system, DualNet, which is constructed with a general feature extraction stage and a crucial feature learning stage. DualNet can rapidly reuse the spatial-temporal features in accordance with their importance to facilitate the entire learning process and simultaneously mitigate several optimization problems occurred in deep learning (DL). We evaluate the DualNet on two benchmark cyber attack datasets, NSL-KDD and UNSW-NB15. Our experiment shows that DualNet outperforms classical ML based NIDSs and is more effective than existing DL methods for NID in terms of accuracy, detection rate and false alarm rate.
翻訳日:2022-10-04 00:05:19 公開日:2020-10-23
# 乱流モデリングにおける機械学習手法の展望

A Perspective on Machine Learning Methods in Turbulence Modelling ( http://arxiv.org/abs/2010.12226v1 )

ライセンス: Link先を確認
Andrea Beck, Marius Kurz(参考訳) 本研究では,データ駆動型乱流閉鎖モデルの研究の現状を概観する。 課題やオープンな問題に対する視点を提供するだけでなく、パラメータ推定、モデル同定、クロージャ項の再構築などに適用する機械学習手法の利点と期待についても、主に大きな渦のシミュレーションや関連する技術の観点から示している。 トレーニングデータ、モデル、基礎となる物理、離散化の一貫性は、ML強化モデリング戦略の成功のために考慮すべき重要な問題である、と強調する。 この議論を両分野の非専門家に有効にするために,乱流におけるモデリング問題と,簡潔で自己一貫性のある方法で著名なmlパラダイムと手法を紹介する。 次に,現在のデータ駆動型モデルの概念と手法に関する調査を行い,重要な開発を強調し,議論された課題の文脈に置く。

This work presents a review of the current state of research in data-driven turbulence closure modeling. It offers a perspective on the challenges and open issues, but also on the advantages and promises of machine learning methods applied to parameter estimation, model identification, closure term reconstruction and beyond, mostly from the perspective of Large Eddy Simulation and related techniques. We stress that consistency of the training data, the model, the underlying physics and the discretization is a key issue that needs to be considered for a successful ML-augmented modeling strategy. In order to make the discussion useful for non-experts in either field, we introduce both the modeling problem in turbulence as well as the prominent ML paradigms and methods in a concise and self-consistent manner. Following, we present a survey of the current data-driven model concepts and methods, highlight important developments and put them into the context of the discussed challenges.
翻訳日:2022-10-04 00:04:26 公開日:2020-10-23
# 線形収束誤差補償SGD

Linearly Converging Error Compensated SGD ( http://arxiv.org/abs/2010.12292v1 )

ライセンス: Link先を確認
Eduard Gorbunov, Dmitry Kovalev, Dmitry Makarenko, Peter Richt\'arik(参考訳) 本稿では,任意の圧縮と遅延更新による分散SGDの変種を統一的に解析する。 我々のフレームワークは、量子化されたSGD、エラー補償SGD(EC-SGD)、遅延更新(D-SGD)の様々な変種をカバーするのに十分である。 一つの定理によって、フレームワークに適合するすべてのメソッドの複雑さの結果を導出します。 既存の方法では、この定理は最もよく知られた複雑性の結果を与える。 さらに,本手法を用いて,誤差の低減や任意のサンプリングを誤差フィードバックと量子化と組み合わせたSGDの新たな変種を開発し,これらの手法の収束率を導出する。 フレームワークの強みを説明するために、我々はこれに適合する16の新しい方法を開発した。 特に、偏りのある圧縮演算子に対する誤差フィードバックと勾配差の量子化に基づくEC-SGD-DIANAと呼ばれる最初の手法を提案し、EC-SGD-DIANAは、労働者が損失関数の完全な勾配を計算する際に、凸と強凸の両方の目標に対して一定の学習率で漸近的に正確な最適値に収束することを示す収束保証を証明した。 さらに, 労働者の損失関数が有限和である場合, 本手法を修正し, 一定の学習率で予測された正確な最適漸近値に収束する誤差フィードバックと分散縮小を伴う最初の分散確率的手法である EC-LSVRG-DIANA を新たに得た。

In this paper, we propose a unified analysis of variants of distributed SGD with arbitrary compressions and delayed updates. Our framework is general enough to cover different variants of quantized SGD, Error-Compensated SGD (EC-SGD) and SGD with delayed updates (D-SGD). Via a single theorem, we derive the complexity results for all the methods that fit our framework. For the existing methods, this theorem gives the best-known complexity results. Moreover, using our general scheme, we develop new variants of SGD that combine variance reduction or arbitrary sampling with error feedback and quantization and derive the convergence rates for these methods beating the state-of-the-art results. In order to illustrate the strength of our framework, we develop 16 new methods that fit this. In particular, we propose the first method called EC-SGD-DIANA that is based on error-feedback for biased compression operator and quantization of gradient differences and prove the convergence guarantees showing that EC-SGD-DIANA converges to the exact optimum asymptotically in expectation with constant learning rate for both convex and strongly convex objectives when workers compute full gradients of their loss functions. Moreover, for the case when the loss function of the worker has the form of finite sum, we modified the method and got a new one called EC-LSVRG-DIANA which is the first distributed stochastic method with error feedback and variance reduction that converges to the exact optimum asymptotically in expectation with a constant learning rate.
翻訳日:2022-10-04 00:03:34 公開日:2020-10-23
# 悪い予測モデルで市場を打ち負かす

Beating the market with a bad predictive model ( http://arxiv.org/abs/2010.12508v1 )

ライセンス: Link先を確認
Ond\v{r}ej Hub\'a\v{c}ek, Gustav \v{S}\'ir(参考訳) トレーダとして一貫した利益を得るためには、現在の市場価格に反映されるよりも資産価値の推定に繋がる余分な情報を投入する必要があるという一般的な誤解である。 このアイデアは直感的な意味を持ち、また広く普及しているケリー基準にもよく裏付けられているが、概して価格予測モデルが全く劣る体系的な利益を得られることを証明している。 鍵となる考え方は、予測モデルのトレーニング目標を変更して、それを市場から明示的にデコレーションし、市場メーカの価格に不明瞭な偏見を生かし、市場保有者固有の利益を生かすことである。 我々は、株式取引およびスポーツ賭けの多様な分野にまたがる問題の設定を導入し、利益の出る予測モデルの共通特性、標準ポートフォリオ最適化戦略との関連、そして一般的に見過ごされがちなマーケットテイクの利点について洞察を提供する。 その結果,共通の市場分布にまたがる非相関目標が望ましいことを証明し,概念を実用的な機械学習環境に翻訳し,現実の市場データを用いてその実現可能性を示す。

It is a common misconception that in order to make consistent profits as a trader, one needs to posses some extra information leading to an asset value estimation more accurate than that reflected by the current market price. While the idea makes intuitive sense and is also well substantiated by the widely popular Kelly criterion, we prove that it is generally possible to make systematic profits with a completely inferior price-predicting model. The key idea is to alter the training objective of the predictive models to explicitly decorrelate them from the market, enabling to exploit inconspicuous biases in market maker's pricing, and profit on the inherent advantage of the market taker. We introduce the problem setting throughout the diverse domains of stock trading and sports betting to provide insights into the common underlying properties of profitable predictive models, their connections to standard portfolio optimization strategies, and the, commonly overlooked, advantage of the market taker. Consequently, we prove desirability of the decorrelation objective across common market distributions, translate the concept into a practical machine learning setting, and demonstrate its viability with real world market data.
翻訳日:2022-10-04 00:02:35 公開日:2020-10-23
# 画像復調のためのマルチレベルウェーブレット残差ネットワークのプログレッシブトレーニング

Progressive Training of Multi-level Wavelet Residual Networks for Image Denoising ( http://arxiv.org/abs/2010.12422v1 )

ライセンス: Link先を確認
Yali Peng, Yue Cao, Shigang Liu, Jian Yang, and Wangmeng Zuo(参考訳) 近年、画像復調における深層畳み込みニューラルネットワーク(CNN)の大きな成功を目撃している。 深いネットワークとより大きなモデルキャパシティは、一般的にパフォーマンスにメリットがありますが、非常に深い画像のデノジングネットワークをトレーニングすることは、依然として難しい課題です。 マルチレベルwavelet-cnn (mwcnn) を例にとると,ウェーブレット分解レベルの増加や畳み込み層の増加により,ノイズ除去性能が著しく改善できないことがわかった。 本稿では,マルチレベルウェーブレット残差ネットワーク(MWRN)アーキテクチャと,画像復調性能向上のためのプログレッシブトレーニング(PTMWRN)スキームを提案する。 MWCNNとは対照的に、MWRNは離散ウェーブレット変換(DWT)と逆離散ウェーブレット変換(IDWT)の各レベルの後、いくつかの残留ブロックを導入する。 訓練難易度を緩和するために、中間出力を必要とし、対応する地中清浄画像のウェーブレットサブバンドを近似することにより、mwrnの各レベルにスケール特異的な損失を適用する。 スケール特異的損失の有効性を確保するため、ノイズ画像のウェーブレットサブバンドをエンコーダの各スケールへの入力として用いる。 さらに, MWRNの下位レベルを訓練し, 上位レベルを段階的に訓練することで, MWRNの学習性を向上させるためのプログレッシブトレーニング手法が採用されている。 合成画像と実世界のノイズ画像の両方で実験した結果,pt-mwrnは定量的指標と視覚品質の両面で最先端のノイズ除去法に好適な効果を示した。

Recent years have witnessed the great success of deep convolutional neural networks (CNNs) in image denoising. Albeit deeper network and larger model capacity generally benefit performance, it remains a challenging practical issue to train a very deep image denoising network. Using multilevel wavelet-CNN (MWCNN) as an example, we empirically find that the denoising performance cannot be significantly improved by either increasing wavelet decomposition levels or increasing convolution layers within each level. To cope with this issue, this paper presents a multi-level wavelet residual network (MWRN) architecture as well as a progressive training (PTMWRN) scheme to improve image denoising performance. In contrast to MWCNN, our MWRN introduces several residual blocks after each level of discrete wavelet transform (DWT) and before inverse discrete wavelet transform (IDWT). For easing the training difficulty, scale-specific loss is applied to each level of MWRN by requiring the intermediate output to approximate the corresponding wavelet subbands of ground-truth clean image. To ensure the effectiveness of scale-specific loss, we also take the wavelet subbands of noisy image as the input to each scale of the encoder. Furthermore, progressive training scheme is adopted for better learning of MWRN by beigining with training the lowest level of MWRN and progressively training the upper levels to bring more fine details to denoising results. Experiments on both synthetic and real-world noisy images show that our PT-MWRN performs favorably against the state-of-the-art denoising methods in terms both quantitative metrics and visual quality.
翻訳日:2022-10-03 23:55:34 公開日:2020-10-23
# CLOUD: 教師なしダイナミクスの対照的な学習

CLOUD: Contrastive Learning of Unsupervised Dynamics ( http://arxiv.org/abs/2010.12488v1 )

ライセンス: Link先を確認
Jianren Wang, Yujie Lu, Hang Zhao(参考訳) ピクセルのような高次元の観察から複雑な制御タスクを実行できるエージェントの開発は、効率的に学習するダイナミクスの難しさから困難である。 本研究では, コントラスト推定により, 完全に教師なしの方法でフォワードと逆ダイナミクスを学ぶことを提案する。 具体的には,ランダム探索から収集したデータを用いて,状態と動作の特徴空間におけるフォワードダイナミクスモデルと逆ダイナミクスモデルを訓練する。 既存の決定論的モデルとは異なり、我々のエネルギーベースモデルはエージェント-環境相互作用の確率的性質を考慮に入れている。 ゴール指向の計画や観察からの模倣など,さまざまなタスクにわたるアプローチの有効性を実証する。 プロジェクトビデオとコードはhttps://jianrenw.github.io/cloud/。

Developing agents that can perform complex control tasks from high dimensional observations such as pixels is challenging due to difficulties in learning dynamics efficiently. In this work, we propose to learn forward and inverse dynamics in a fully unsupervised manner via contrastive estimation. Specifically, we train a forward dynamics model and an inverse dynamics model in the feature space of states and actions with data collected from random exploration. Unlike most existing deterministic models, our energy-based model takes into account the stochastic nature of agent-environment interactions. We demonstrate the efficacy of our approach across a variety of tasks including goal-directed planning and imitation from observations. Project videos and code are at https://jianrenw.github.io/cloud/.
翻訳日:2022-10-03 23:55:04 公開日:2020-10-23
# リカレントニューラルネットワークを用いた3次元点雲データによる手話の位置・回転変化認識

Position and Rotation Invariant Sign Language Recognition from 3D Point Cloud Data with Recurrent Neural Networks ( http://arxiv.org/abs/2010.12669v1 )

ライセンス: Link先を確認
Prasun Roy and Saumik Bhattacharya and Partha Pratim Roy and Umapada Pal(参考訳) 手話は、音声・聴覚障害者間のジェスチャーに基づく象徴的コミュニケーション媒体である。 また、障害のない人口と障害のある人口の間のコミュニケーションブリッジとしても機能する。 残念なことに、この2つのカテゴリー間の自然情報の流れを制限する象徴的な言語では、ほとんどの状況では、非障害者はよく会話できない。 したがって、手話から自然言語への翻訳をシームレスに行える自動翻訳機構は非常に有用である。 本稿では,30個の基本インド手指ジェスチャの認識を試みる。 ジェスチャーは、20体の関節の3d座標からなる3d深度マップの時間系列として表現される。 リカレントニューラルネットワーク(RNN)が分類器として使用される。 分類器の性能を向上させるために,深度フレームのアライメント補正に幾何変換を用いる。 実験では84.81%の精度が得られた。

Sign language is a gesture based symbolic communication medium among speech and hearing impaired people. It also serves as a communication bridge between non-impaired population and impaired population. Unfortunately, in most situations a non-impaired person is not well conversant in such symbolic languages which restricts natural information flow between these two categories of population. Therefore, an automated translation mechanism can be greatly useful that can seamlessly translate sign language into natural language. In this paper, we attempt to perform recognition on 30 basic Indian sign gestures. Gestures are represented as temporal sequences of 3D depth maps each consisting of 3D coordinates of 20 body joints. A recurrent neural network (RNN) is employed as classifier. To improve performance of the classifier, we use geometric transformation for alignment correction of depth frames. In our experiments the model achieves 84.81% accuracy.
翻訳日:2022-10-03 23:54:54 公開日:2020-10-23
# デジタルバックプロパゲーションとpmd補償のためのモデルベース機械学習

Model-Based Machine Learning for Joint Digital Backpropagation and PMD Compensation ( http://arxiv.org/abs/2010.12313v1 )

ライセンス: Link先を確認
Rick M. B\"utler, Christian H\"ager, Henry D. Pfister, Gabriele Liga, Alex Alvarado(参考訳) 本論文では,マナコフ-PMD方程式の分割ステップフーリエ法をパラメータ化することにより,二分極系に対するモデルベース機械学習手法を提案する。 その結果,最近提案するldbpと偏波モード分散(pmd)の分散補償を組み合わせることで,ハードウェアフレンドリーな時間領域非線形性低減を実現する。 この手法をLDBP-PMDと呼ぶ。 LDBP-PMD を複数の PMD 実効化で訓練し、平均 428 回のトレーニングを繰り返した後、ピーク dB 性能の 1% 以内に収束し、ピーク有効信号-雑音比が 0.30 dB となることを示す。 実システムにおける最先端の集中型pmd補償アルゴリズムと同様に,本手法はリンクに沿った特定のpmd実現に関する知識や蓄積されたpmdに関する知識を想定していない。 これは、通常蓄積されたpmdに関する知識が想定される分散pmd補償の以前の作業と比べて大幅に改善される。 また,性能,複雑性,収束挙動の観点から異なるパラメータ化選択を比較した。 最後に,pmdが繊維に沿って突然変化した後,学習モデルの再訓練を成功させることを実証する。

In this paper, we propose a model-based machine-learning approach for dual-polarization systems by parameterizing the split-step Fourier method for the Manakov-PMD equation. The resulting method combines hardware-friendly time-domain nonlinearity mitigation via the recently proposed learned digital backpropagation (LDBP) with distributed compensation of polarization-mode dispersion (PMD). We refer to the resulting approach as LDBP-PMD. We train LDBP-PMD on multiple PMD realizations and show that it converges within 1% of its peak dB performance after 428 training iterations on average, yielding a peak effective signal-to-noise ratio of only 0.30 dB below the PMD-free case. Similar to state-of-the-art lumped PMD compensation algorithms in practical systems, our approach does not assume any knowledge about the particular PMD realization along the link, nor any knowledge about the total accumulated PMD. This is a significant improvement compared to prior work on distributed PMD compensation, where knowledge about the accumulated PMD is typically assumed. We also compare different parameterization choices in terms of performance, complexity, and convergence behavior. Lastly, we demonstrate that the learned models can be successfully retrained after an abrupt change of the PMD realization along the fiber.
翻訳日:2022-10-03 23:54:23 公開日:2020-10-23
# defuzz: ディープラーニングによる直接ファジング

DeFuzz: Deep Learning Guided Directed Fuzzing ( http://arxiv.org/abs/2010.12149v1 )

ライセンス: Link先を確認
Xiaogang Zhu, Shigang Liu, Xian Li, Sheng Wen, Jun Zhang, Camtepe Seyit, Yang Xiang(参考訳) ファジィングは、潜在的なソフトウェア脆弱性を特定する最も効果的なテクニックの1つである。 ファジィザのほとんどはコードカバレッジの改善を目標としており、指向性(ソフトウェア内の特定のパスをファジィズするなど)が欠如している。 本稿では,DeFuzz(DeFuzz)というソフトウェア脆弱性検出のための,ディープラーニング(DL)誘導型ファズリングを提案する。 DeFuzzには2つの主要なスキームがある: 1) 潜在的に脆弱な機能と位置(脆弱性のあるアドレス)を特定するために、トレーニング済みのDL予測モデルを使用する。 正確には、Bidirectional-LSTM (BiLSTM) を用いて注意語を識別し、その脆弱性はこれらの注意語に関連付けられている。 2) 直接ファジィングを用いて潜在的な脆弱性をファジィングし、予測された場所に到達しがちな入力を生成する。 提案手法の有効性と実用性を評価するため,実世界のデータセットを用いて実験を行った。 実験の結果、DeFuzzはAFLよりも早くカバレッジを発見できることがわかった。 さらに、DeFuzzは現実世界のアプリケーションでAFLよりも43以上のバグを公開する。

Fuzzing is one of the most effective technique to identify potential software vulnerabilities. Most of the fuzzers aim to improve the code coverage, and there is lack of directedness (e.g., fuzz the specified path in a software). In this paper, we proposed a deep learning (DL) guided directed fuzzing for software vulnerability detection, named DeFuzz. DeFuzz includes two main schemes: (1) we employ a pre-trained DL prediction model to identify the potentially vulnerable functions and the locations (i.e., vulnerable addresses). Precisely, we employ Bidirectional-LSTM (BiLSTM) to identify attention words, and the vulnerabilities are associated with these attention words in functions. (2) then we employ directly fuzzing to fuzz the potential vulnerabilities by generating inputs that tend to arrive the predicted locations. To evaluate the effectiveness and practical of the proposed DeFuzz technique, we have conducted experiments on real-world data sets. Experimental results show that our DeFuzz can discover coverage more and faster than AFL. Moreover, DeFuzz exposes 43 more bugs than AFL on real-world applications.
翻訳日:2022-10-03 23:53:30 公開日:2020-10-23
# 非凸スパース制約最適化のための許容レベル近点法

A Feasible Level Proximal Point Method for Nonconvex Sparse Constrained Optimization ( http://arxiv.org/abs/2010.12169v1 )

ライセンス: Link先を確認
Digvijay Boob, Qi Deng, Guanghui Lan, Yilin Wang(参考訳) 非凸スパースモデルは高次元機械学習において大きな注目を集めている。 本稿では,一般凸あるいは非凸の目的と,連続した非凸の空間性誘導制約からなる新しいモデルについて検討する。 この制約付きモデルのために, 徐々に緩和された制約レベルを持つ凸部分問題列を解く新しい近近点アルゴリズムを提案する。 各サブプロブレムは、近点目標と凸サロゲート制約とを有し、サロゲート制約に投射する高速ルーチンに基づいて効率よく解決することができる。 我々は提案アルゴリズムをKKT(Karush-Kuhn-Tucker)解に漸近収束させる。 また,目的が滑らか/非滑らか,決定論的/確率的,凸/非凸で,各場合の非拘束最適化問題に対する勾配降下と同等の複雑性を持つ場合,近似kkt解を実現するための新しい収束複素性を確立する。 我々の知る限り、これは非凸スパース制約問題に対する複雑性を保証する一階法の最初の研究である。 提案手法の有効性を実証するために数値実験を行い,大規模問題に対する提案アルゴリズムの有効性を示す。

Nonconvex sparse models have received significant attention in high-dimensional machine learning. In this paper, we study a new model consisting of a general convex or nonconvex objectives and a variety of continuous nonconvex sparsity-inducing constraints. For this constrained model, we propose a novel proximal point algorithm that solves a sequence of convex subproblems with gradually relaxed constraint levels. Each subproblem, having a proximal point objective and a convex surrogate constraint, can be efficiently solved based on a fast routine for projection onto the surrogate constraint. We establish the asymptotic convergence of the proposed algorithm to the Karush-Kuhn-Tucker (KKT) solutions. We also establish new convergence complexities to achieve an approximate KKT solution when the objective can be smooth/nonsmooth, deterministic/stochastic and convex/nonconvex with complexity that is on a par with gradient descent for unconstrained optimization problems in respective cases. To the best of our knowledge, this is the first study of the first-order methods with complexity guarantee for nonconvex sparse-constrained problems. We perform numerical experiments to demonstrate the effectiveness of our new model and efficiency of the proposed algorithm for large scale problems.
翻訳日:2022-10-03 23:53:13 公開日:2020-10-23
# 分散型連立チームを支援するヒューマンエージェント知識融合(HAKF)を目指して

Towards human-agent knowledge fusion (HAKF) in support of distributed coalition teams ( http://arxiv.org/abs/2010.12327v1 )

ライセンス: Link先を確認
Dave Braines, Federico Cerutti, Marc Roig Vilamala, Mani Srivastava, Lance Kaplan Alun Preece, Gavin Pearson(参考訳) 将来の連立運用は、人間とマシンエージェントのアジャイルチームによって大幅に強化されるが、連立環境では、これらのエージェントは人間のユーザと馴染みがなく、特定の目的のために狭義に定義されるのではなく、幅広いシナリオで運用されることが期待される。 このような環境では、例えば説明を通じて、人間のエージェントが適切な行動の透明性を通じて、マシンエージェントに対する信頼を迅速に構築することが不可欠である。 ヒューマンエージェントは、ローカルな知識をチームにもたらすことができ、その状況を観察し、どのキー情報をマシンエージェントに伝えるべきかを決めて、特定の環境をよりよく説明することができる。 本稿では,このヒューマンエージェント・ナレッジ・フュージョン(HAKF)環境への最初のステップについて,重要な要件を再カプセル化して説明する。 HAKFが、不確実なソースを持つ複雑なイベント処理設定において、分散連立チームの一員として働く人間と機械エージェントの両方に価値をもたらす可能性を示す。

Future coalition operations can be substantially augmented through agile teaming between human and machine agents, but in a coalition context these agents may be unfamiliar to the human users and expected to operate in a broad set of scenarios rather than being narrowly defined for particular purposes. In such a setting it is essential that the human agents can rapidly build trust in the machine agents through appropriate transparency of their behaviour, e.g., through explanations. The human agents are also able to bring their local knowledge to the team, observing the situation unfolding and deciding which key information should be communicated to the machine agents to enable them to better account for the particular environment. In this paper we describe the initial steps towards this human-agent knowledge fusion (HAKF) environment through a recap of the key requirements, and an explanation of how these can be fulfilled for an example situation. We show how HAKF has the potential to bring value to both human and machine agents working as part of a distributed coalition team in a complex event processing setting with uncertain sources.
翻訳日:2022-10-03 23:46:16 公開日:2020-10-23
# 自律走行車のためのソフトウェアアーキテクチャ:最初のCARLA自動運転チャレンジへのチームLRM-B参加

A Software Architecture for Autonomous Vehicles: Team LRM-B Entry in the First CARLA Autonomous Driving Challenge ( http://arxiv.org/abs/2010.12598v1 )

ライセンス: Link先を確認
Luis Alberto Rosero, Iago Pacheco Gomes, J\'unior Anderson Rodrigues da Silva, Tiago Cesar dos Santos, Angelica Tiemi Mizuno Nakamura, Jean Amaro, Denis Fernando Wolf and Fernando Santos Os\'orio(参考訳) 最初のcarla自動運転チャレンジの目的は、全ての参加者が同じ困難な交通状況に直面した複雑な交通シナリオに導くために、自動運転システムを展開することであった。 主催者によると、このコンペティションは、自動運転車分野の開発に寄与するcarlaシミュレータを使用して、世界中の自動運転車の研究と開発を民主化し加速する方法として浮上する。 そこで,本論文では,自律走行用CaRINA 2の基盤となる,最小限の交通違反を犯そうとする都市環境下での自動運転車のナビゲーションのアーキテクチャ設計について述べる。 我々のエージェントは、シミュレーションシナリオで数時間かけて、彼の能力を示し、挑戦の4つのトラックのうち3つを勝ち取り、残りのトラックで2番目にランクインした。 我々のアーキテクチャは,CARLA自律走行チャレンジの要件を満たし,3次元点雲を用いた障害物検出,畳み込みニューラルネットワーク(CNN)と深度情報を用いた交通標識検出と分類,短期運動予測を用いた衝突検出によるリスク評価,マルコフ決定プロセス(MDP)による意思決定,モデル予測制御(MPC)を用いた制御などのコンポーネントを備えている。

The objective of the first CARLA autonomous driving challenge was to deploy autonomous driving systems to lead with complex traffic scenarios where all participants faced the same challenging traffic situations. According to the organizers, this competition emerges as a way to democratize and to accelerate the research and development of autonomous vehicles around the world using the CARLA simulator contributing to the development of the autonomous vehicle area. Therefore, this paper presents the architecture design for the navigation of an autonomous vehicle in a simulated urban environment that attempts to commit the least number of traffic infractions, which used as the baseline the original architecture of the platform for autonomous navigation CaRINA 2. Our agent traveled in simulated scenarios for several hours, demonstrating his capabilities, winning three out of the four tracks of the challenge, and being ranked second in the remaining track. Our architecture was made towards meeting the requirements of CARLA Autonomous Driving Challenge and has components for obstacle detection using 3D point clouds, traffic signs detection and classification which employs Convolutional Neural Networks (CNN) and depth information, risk assessment with collision detection using short-term motion prediction, decision-making with Markov Decision Process (MDP), and control using Model Predictive Control (MPC).
翻訳日:2022-10-03 23:45:58 公開日:2020-10-23
# 区間エネルギーデータの超解像再構成

Super-Resolution Reconstruction of Interval Energy Data ( http://arxiv.org/abs/2010.12678v1 )

ライセンス: Link先を確認
Jieyi Lu and Baihong Jin(参考訳) 多くのデータ駆動型アプリケーションでは高解像度のデータが望まれるが、多くの場合、様々な理由で解像度が期待より低いデータしか利用できない。 そして、低解像度のデータからできるだけ多くの有用な情報を得る方法が課題となる。 本稿では,AMI(Advanced Metering Infrastructure)が収集した区間エネルギーデータを対象に,低分解能(時間)間隔データをディープラーニングを用いて高分解能(15分)データにアップサンプリングする超解像再構成(SRR)手法を提案する。 予備実験の結果,提案手法はベースラインモデルに比べて性能が大幅に向上することが示された。

High-resolution data are desired in many data-driven applications; however, in many cases only data whose resolution is lower than expected are available due to various reasons. It is then a challenge how to obtain as much useful information as possible from the low-resolution data. In this paper, we target interval energy data collected by Advanced Metering Infrastructure (AMI), and propose a Super-Resolution Reconstruction (SRR) approach to upsample low-resolution (hourly) interval data into higher-resolution (15-minute) data using deep learning. Our preliminary results show that the proposed SRR approaches can achieve much improved performance compared to the baseline model.
翻訳日:2022-10-03 23:45:20 公開日:2020-10-23
# ライフルで蝶を撃つな - 早期出口変圧器によるマルチチャネル連続音声分離

Don't shoot butterfly with rifles: Multi-channel Continuous Speech Separation with Early Exit Transformer ( http://arxiv.org/abs/2010.12180v1 )

ライセンス: Link先を確認
Sanyuan Chen, Yu Wu, Zhuo Chen, Takuya Yoshioka, Shujie Liu, Jinyu Li(参考訳) マルチヘッドおよびマルチレイヤー構造による強力なモデリング能力を持つtransformerは、シーケンシャル表現を学習するための非常に強力なモデルであり、近年、音声分離にうまく適用されている。 しかし、多チャンネル音声分離は、時として全ての時間フレームにそのような重い構造を必要としないことがある。 例えば、会話のシナリオでは、ほとんどの領域は単一のアクティブ話者のみを含み、分離タスクは単一の話者拡張問題にダウングレードする。 重なり合いの少ない信号を扱うために非常に深いネットワーク構造を用いると、推論効率に悪影響を及ぼすだけでなく、分離性能にも悪影響を及ぼすことがわかった。 そこで本研究では, 変圧器モデルが適応的な深さの異なるケースを処理できる早期脱出機構を提案する。 実験の結果,早期出口機構が推論を加速するだけでなく,精度も向上することが示された。

With its strong modeling capacity that comes from a multi-head and multi-layer structure, Transformer is a very powerful model for learning a sequential representation and has been successfully applied to speech separation recently. However, multi-channel speech separation sometimes does not necessarily need such a heavy structure for all time frames especially when the cross-talker challenge happens only occasionally. For example, in conversation scenarios, most regions contain only a single active speaker, where the separation task downgrades to a single speaker enhancement problem. It turns out that using a very deep network structure for dealing with signals with a low overlap ratio not only negatively affects the inference efficiency but also hurts the separation performance. To deal with this problem, we propose an early exit mechanism, which enables the Transformer model to handle different cases with adaptive depth. Experimental results indicate that not only does the early exit mechanism accelerate the inference, but it also improves the accuracy.
翻訳日:2022-10-03 23:44:42 公開日:2020-10-23
# 自己教師付き離散音声表現を用いた一対一の逐次音声変換

Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised Discrete Speech Representations ( http://arxiv.org/abs/2010.12231v1 )

ライセンス: Link先を確認
Wen-Chin Huang, Yi-Chiao Wu, Tomoki Hayashi, Tomoki Toda(参考訳) シーケンス・ツー・シーケンス(seq2seq)フレームワークにおける任意のA2O音声変換(VC)に対する新しいアプローチを提案する。 A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。 本稿では,Vq-wav2vec(VQW2V)を用いて,話者非依存と推定される大量のラベルのないデータから学習した,音声認識された自己教師型音声表現について述べる。 対象話者の訓練データセットからVQW2Vと音響特徴を抽出し,前者から後者までのセq2seqマッピング関数を推定する。 事前学習法と新たに設計された後処理技術により、我々のモデルは5分のデータに一般化され、並列データで訓練された同じモデルよりも優れる。

We present a novel approach to any-to-one (A2O) voice conversion (VC) in a sequence-to-sequence (seq2seq) framework. A2O VC aims to convert any speaker, including those unseen during training, to a fixed target speaker. We utilize vq-wav2vec (VQW2V), a discretized self-supervised speech representation that was learned from massive unlabeled data, which is assumed to be speaker-independent and well corresponds to underlying linguistic contents. Given a training dataset of the target speaker, we extract VQW2V and acoustic features to estimate a seq2seq mapping function from the former to the latter. With the help of a pretraining method and a newly designed postprocessing technique, our model can be generalized to only 5 min of data, even outperforming the same model trained with parallel data.
翻訳日:2022-10-03 23:44:24 公開日:2020-10-23
# voxceleb speaker diarization challenge 2020のためのemlシステム記述

EML System Description for VoxCeleb Speaker Diarization Challenge 2020 ( http://arxiv.org/abs/2010.12497v1 )

ライセンス: Link先を確認
Omid Ghahabi, Volker Fischer(参考訳) この技術報告では、最初のVoxCeleb話者ダイアリゼーションチャレンジへのEMLの提出について述べる。 この課題の目的は信号のオフライン処理であるが、送信されたシステムは基本的に、約1.2秒毎に実行中の話者ラベルを決定するEMLオンラインアルゴリズムである。 チャレンジの最初のフェーズでは、トレーニングに使用したのはVoxCeleb2開発データセットのみだった。 提供されるVoxConverse開発セットの結果は、チャレンジで提供されるオフラインベースラインと比較して、DERとJERの両方の点ではるかに正確である。 ダイアリゼーションプロセス全体のリアルタイム要因は、単一のcpuマシンを使用して約0.01である。

This technical report describes the EML submission to the first VoxCeleb speaker diarization challenge. Although the aim of the challenge has been the offline processing of the signals, the submitted system is basically the EML online algorithm which decides about the speaker labels in runtime approximately every 1.2 sec. For the first phase of the challenge, only VoxCeleb2 dev dataset was used for training. The results on the provided VoxConverse dev set show much better accuracy in terms of both DER and JER compared to the offline baseline provided in the challenge. The real-time factor of the whole diarization process is about 0.01 using a single CPU machine.
翻訳日:2022-10-03 23:44:09 公開日:2020-10-23
# 超音波画像の特徴マッチング

Feature matching in Ultrasound images ( http://arxiv.org/abs/2010.12216v1 )

ライセンス: Link先を確認
Hang Zhu and Zihao Wang(参考訳) 特徴マッチングは、異なる画像内の単一のオブジェクトを特定するための重要なテクニックである。 複数の視点から特定のオブジェクトの認識を構築するのに役立つ。 長い間、機能マッチングは交通監視、自動運転、その他のシステムなど、様々なコンピュータビジョンアプリケーションでよく使われてきた。 CAD(Computer-Aided Diagnosis)の出現に伴い,医用画像領域にも特徴マッチング技術の必要性が出現する。 本稿では,超音波画像のための深層学習に基づく手法を提案する。 通常の画像に優れた結果をもたらす既存手法について検討する。 超音波画像はテクスチャやノイズタイプ,次元など,多くの分野において通常の画像とは異なるため,従来の手法を評価・最適化して超音波画像に適用する。

Feature matching is an important technique to identify a single object in different images. It helps machines to construct recognition of a specific object from multiple perspectives. For years, feature matching has been commonly used in various computer vision applications, like traffic surveillance, self-driving, and other systems. With the arise of Computer-Aided Diagnosis(CAD), the need for feature matching techniques also emerges in the medical imaging field. In this paper, we present a deep learning-based method specially for ultrasound images. It will be examined against existing methods that have outstanding results on regular images. As the ultrasound images are different from regular images in many fields like texture, noise type, and dimension, traditional methods will be evaluated and optimized to be applied to ultrasound images.
翻訳日:2022-10-03 23:44:01 公開日:2020-10-23
# グラフ幾何相互作用学習

Graph Geometry Interaction Learning ( http://arxiv.org/abs/2010.12135v1 )

ライセンス: Link先を確認
Shichao Zhu, Shirui Pan, Chuan Zhou, Jia Wu, Yanan Cao and Bin Wang(参考訳) グラフをユークリッド空間または双曲空間に埋め込むための多くのアプローチが開発されているが、それらはグラフで利用可能な情報を十分に活用していない。 ユークリッド幾何学と双曲幾何学の両方の強みを利用するため、グラフの豊富な幾何学的性質を学習する優れた代替手段であるグラフのための新しい幾何相互作用学習法(gil)を開発した。 GILは、各空間の共形不変性を保ちながら、低次元のより情報的な内部構造的特徴を捉えている。 さらに,各ノードに自由を与え,フレキシブルな二重特徴相互作用学習と確率合成機構を用いて各幾何学空間の重要性を判定する。 ノード分類とリンク予測タスクに関する5つのベンチマークデータセットについて,実験結果を示す。

While numerous approaches have been developed to embed graphs into either Euclidean or hyperbolic spaces, they do not fully utilize the information available in graphs, or lack the flexibility to model intrinsic complex graph geometry. To utilize the strength of both Euclidean and hyperbolic geometries, we develop a novel Geometry Interaction Learning (GIL) method for graphs, a well-suited and efficient alternative for learning abundant geometric properties in graph. GIL captures a more informative internal structural features with low dimensions while maintaining conformal invariance of each space. Furthermore, our method endows each node the freedom to determine the importance of each geometry space via a flexible dual feature interaction learning and probability assembling mechanism. Promising experimental results are presented for five benchmark datasets on node classification and link prediction tasks.
翻訳日:2022-10-03 23:38:09 公開日:2020-10-23
# モデルベース深層強化学習における想像力と現実の橋渡し

Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning ( http://arxiv.org/abs/2010.12142v1 )

ライセンス: Link先を確認
Guangxiang Zhu, Minghao Zhang, Honglak Lee, Chongjie Zhang(参考訳) サンプル効率は、深層強化学習における大きな課題の1つだ。 近年,学習世界モデルを用いて仮想軌道の計画を行うことにより,この課題に対処するためのモデルベース強化学習が提案されている。 しかし、世界モデル学習は、過度に適合して軌道の訓練に苦しむ可能性があるため、モデルに基づく価値推定と政策探索は、劣った地方政策で悪用されることになる。 本稿では,BIRD(BrIdging Reality and Dream)と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。 虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。 提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。

Sample efficiency has been one of the major challenges for deep reinforcement learning. Recently, model-based reinforcement learning has been proposed to address this challenge by performing planning on imaginary trajectories with a learned world model. However, world model learning may suffer from overfitting to training trajectories, and thus model-based value estimation and policy search will be pone to be sucked in an inferior local policy. In this paper, we propose a novel model-based reinforcement learning algorithm, called BrIdging Reality and Dream (BIRD). It maximizes the mutual information between imaginary and real trajectories so that the policy improvement learned from imaginary trajectories can be easily generalized to real trajectories. We demonstrate that our approach improves sample efficiency of model-based planning, and achieves state-of-the-art performance on challenging visual control benchmarks.
翻訳日:2022-10-03 23:37:55 公開日:2020-10-23
# ロバストなランク1行列完全化による逆クラウドソーシング

Adversarial Crowdsourcing Through Robust Rank-One Matrix Completion ( http://arxiv.org/abs/2010.12181v1 )

ライセンス: Link先を確認
Qianqian Ma and Alex Olshevsky(参考訳) 明らかにされたエントリのサブセットからランク 1 のマトリックスを再構築する問題は、明らかにされたエントリのいくつかが、未知で任意に大きい摂動で腐敗しているときに問題となる。 明らかな記載が損なわれるかは不明である。 本稿では,交互最小化と極値フィルタリングを組み合わせた新しいアルゴリズムを提案する。 特に,提案アルゴリズムは,Erd\H{o}s-R\'enyiランダムグラフの集合が与えられたときに最適であることを示す。 これらの結果は、労働者の大多数が標準のシングルコインDavid-Skeneモデル(すなわち、ある確率で正しい回答を出力する)によって支配されているが、一部の労働者はこのモデルから任意に逸脱できるという仮定の下で、クラウドソースデータから分類する問題に適用される。 特に「敵対的」な労働者は、アルゴリズムが誤った答えを出力するように設計された決定を下すこともできる。 広汎な実験結果から, 摂動を伴うランクワン行列の完備化に基づくこの問題に対するアルゴリズムは, 対角的シナリオにおいて, その他の最先端手法よりも優れていた。

We consider the problem of reconstructing a rank-one matrix from a revealed subset of its entries when some of the revealed entries are corrupted with perturbations that are unknown and can be arbitrarily large. It is not known which revealed entries are corrupted. We propose a new algorithm combining alternating minimization with extreme-value filtering and provide sufficient and necessary conditions to recover the original rank-one matrix. In particular, we show that our proposed algorithm is optimal when the set of revealed entries is given by an Erd\H{o}s-R\'enyi random graph. These results are then applied to the problem of classification from crowdsourced data under the assumption that while the majority of the workers are governed by the standard single-coin David-Skene model (i.e., they output the correct answer with a certain probability), some of the workers can deviate arbitrarily from this model. In particular, the "adversarial" workers could even make decisions designed to make the algorithm output an incorrect answer. Extensive experimental results show our algorithm for this problem, based on rank-one matrix completion with perturbations, outperforms all other state-of-the-art methods in such an adversarial scenario.
翻訳日:2022-10-03 23:37:01 公開日:2020-10-23
# ニューラルネットワークバックドアディフェンスの評価について

On Evaluating Neural Network Backdoor Defenses ( http://arxiv.org/abs/2010.12186v1 )

ライセンス: Link先を確認
Akshaj Veldanda, Siddharth Garg(参考訳) ディープニューラルネットワーク(DNN)は、精査やセキュリティなど、さまざまな分野で優れたパフォーマンスを示している。 しかし、最近の研究では、DNNはバックドア攻撃に弱いことが示されている。 過去に、DNNをバックドア攻撃から守るためにいくつかの防衛策が提案された。 本研究は,既存の防御における共通の落とし穴を批判的分析し,バックドア攻撃の包括的なデータベースを作成し,このデータベースに対する既存防御を並べて評価する。 最後に、研究者が将来より堅牢な防御を開発し、過去の一般的な間違いを避けるために、いくつかの一般的なガイドラインを配置する。

Deep neural networks (DNNs) demonstrate superior performance in various fields, including scrutiny and security. However, recent studies have shown that DNNs are vulnerable to backdoor attacks. Several defenses were proposed in the past to defend DNNs against such backdoor attacks. In this work, we conduct a critical analysis and identify common pitfalls in these existing defenses, prepare a comprehensive database of backdoor attacks, conduct a side-by-side evaluation of existing defenses against this database. Finally, we layout some general guidelines to help researchers develop more robust defenses in the future and avoid common mistakes from the past.
翻訳日:2022-10-03 23:36:36 公開日:2020-10-23
# 知識蒸留を用いた条件変分オートエンコーダを用いた長期財務報告の作成

Generating Long Financial Report using Conditional Variational Autoencoders with Knowledge Distillation ( http://arxiv.org/abs/2010.12188v1 )

ライセンス: Link先を確認
Yunpeng Ren, Ziao Wang, Yiyuan Wang, Xiaofeng Zhang(参考訳) ニュースから財務報告を自動的に生成するのは、かなり難しい作業だ。 このタスクの難しさは、長期の財務報告を効果的に生成する十分なバックグラウンド知識の欠如にあるようだ。 そこで本稿では,ニュースレポートデータのコーパスから外部知識を抽出する条件付き変分オートエンコーダ(CVAE)に基づく手法を提案する。 特に、CVAEのエンコーダおよびデコーダコンポーネントとしてBi-GRUを選択し、入力ニュースから潜在変数分布を学習する。 入力ニュース毎にそれぞれ作用するニュース報告データのコーパスセットから高レベル潜在変数分布を学習し、予め学習した潜在変数分布に背景知識を提供する。 次に、知識を蒸留してデコーダ成分の出力を精錬する教師学習ネットワークを用いる。 提案手法のモデル性能を評価するために,公開データセット上で広範な実験を行い,実験で広く採用されている2つの評価基準,すなわちbleuとrougeを選定した。 有望な実験結果は,提案手法が他の比較手法よりも優れていることを示している。

Automatically generating financial report from a piece of news is quite a challenging task. Apparently, the difficulty of this task lies in the lack of sufficient background knowledge to effectively generate long financial report. To address this issue, this paper proposes the conditional variational autoencoders (CVAE) based approach which distills external knowledge from a corpus of news-report data. Particularly, we choose Bi-GRU as the encoder and decoder component of CVAE, and learn the latent variable distribution from input news. A higher level latent variable distribution is learnt from a corpus set of news-report data, respectively extr acted for each input news, to provide background knowledge to previously learnt latent variable distribution. Then, a teacher-student network is employed to distill knowledge to refine theoutput of the decoder component. To evaluate the model performance of the proposed approach, extensive experiments are preformed on a public dataset and two widely adopted evaluation criteria, i.e., BLEU and ROUGE, are chosen in the experiment. The promising experimental results demonstrate that the proposed approach is superior to the rest compared methods.
翻訳日:2022-10-03 23:36:28 公開日:2020-10-23
# 命令ポインター注意グラフニューラルネットワークによるプログラム実行の学習

Learning to Execute Programs with Instruction Pointer Attention Graph Neural Networks ( http://arxiv.org/abs/2010.12621v1 )

ライセンス: Link先を確認
David Bieber, Charles Sutton, Hugo Larochelle, Daniel Tarlow(参考訳) グラフニューラルネットワーク(GNN)は、コード補完、バグ発見、プログラム修復を含むソフトウェアエンジニアリングタスクを学習するための強力なツールとして登場した。 制御フローグラフのようなプログラム構造を利用するメリットがあるが、GNNの伝播ステップの数よりもはるかにシーケンシャルな推論ステップを必要とするプログラム実行のようなタスクには適していない。 一方、リカレントニューラルネットワーク(RNN)は、長いシーケンシャルな推論の連鎖に適しているが、プログラム構造を自然に組み込んでいないため、上記のタスクでは一般的に悪化する。 我々の目的は両方の世界の長所を達成することであり、制御フローグラフを用いたプログラム実行の学習における体系的な一般化を実現する新しいGNNアーキテクチャであるインストラクションポインターアテンショングラフニューラルネットワーク(IPA-GNN)を導入することで実現している。 このモデルは、プログラムトレースで動作するRNNと、分岐決定を潜時変数として考えることで生まれる。 IPA-GNNは、RNNモデルの継続的緩和か、より実行に適したGNN変種と見なすことができる。 このモデルをテストするために,制御フローグラフを用いて学習の体系的一般化を評価し,逐次的推論とプログラム構造の使用を検証した。 さらに, プログラム合成におけるヒューリスティック関数としてモデルを用いる場合のように, 部分プログラムの実行を学習するタスクでこれらのモデルを評価する。 その結果,IPA-GNN は RNN と GNN の両タスクのベースラインよりも優れていた。

Graph neural networks (GNNs) have emerged as a powerful tool for learning software engineering tasks including code completion, bug finding, and program repair. They benefit from leveraging program structure like control flow graphs, but they are not well-suited to tasks like program execution that require far more sequential reasoning steps than number of GNN propagation steps. Recurrent neural networks (RNNs), on the other hand, are well-suited to long sequential chains of reasoning, but they do not naturally incorporate program structure and generally perform worse on the above tasks. Our aim is to achieve the best of both worlds, and we do so by introducing a novel GNN architecture, the Instruction Pointer Attention Graph Neural Networks (IPA-GNN), which achieves improved systematic generalization on the task of learning to execute programs using control flow graphs. The model arises by considering RNNs operating on program traces with branch decisions as latent variables. The IPA-GNN can be seen either as a continuous relaxation of the RNN model or as a GNN variant more tailored to execution. To test the models, we propose evaluating systematic generalization on learning to execute using control flow graphs, which tests sequential reasoning and use of program structure. More practically, we evaluate these models on the task of learning to execute partial programs, as might arise if using the model as a heuristic function in program synthesis. Results show that the IPA-GNN outperforms a variety of RNN and GNN baselines on both tasks.
翻訳日:2022-10-03 23:35:37 公開日:2020-10-23
# resnet か densenetか? ResNetにDenseショートカットを導入

ResNet or DenseNet? Introducing Dense Shortcuts to ResNet ( http://arxiv.org/abs/2010.12496v1 )

ライセンス: Link先を確認
Chaoning Zhang, Philipp Benz, Dawit Mureja Argaw, Seokju Lee, Junsik Kim, Francois Rameau, Jean-Charles Bazin, In So Kweon(参考訳) resnet か densenetか? 現在、多くのディープラーニングベースのアプローチは、セミナルなバックボーンネットワークで実装されており、最もよく知られているのがResNetとDenseNetである。 その競争力と圧倒的な人気にもかかわらず、両者に固有の欠点が存在する。 ResNetでは、トレーニングを安定化するIDショートカットが表現能力を制限する一方で、DenseNetは多層機能結合で高いキャパシティを持つ。 しかし、密結合は高いgpuメモリとより多くのトレーニング時間を必要とする新しい問題を引き起こす。 部分的には、ResNetとDenseNetの間の簡単な選択ではない。 本稿では,それらを分析するために高密度和の統一的な視点を提供し,そのコア差をよりよく理解する。 さらに,それらのジレンマに対する解として,密重み付き正規化近道を提案する。 提案手法は,resnet と densenet における簡易設計の設計哲学を継承するものである。 いくつかのベンチマークデータセットでは、提案したDSNetはResNetよりもはるかに優れた結果を示し、DenseNetと同等のパフォーマンスを得るが、計算リソースは少ない。

ResNet or DenseNet? Nowadays, most deep learning based approaches are implemented with seminal backbone networks, among them the two arguably most famous ones are ResNet and DenseNet. Despite their competitive performance and overwhelming popularity, inherent drawbacks exist for both of them. For ResNet, the identity shortcut that stabilizes training also limits its representation capacity, while DenseNet has a higher capacity with multi-layer feature concatenation. However, the dense concatenation causes a new problem of requiring high GPU memory and more training time. Partially due to this, it is not a trivial choice between ResNet and DenseNet. This paper provides a unified perspective of dense summation to analyze them, which facilitates a better understanding of their core difference. We further propose dense weighted normalized shortcuts as a solution to the dilemma between them. Our proposed dense shortcut inherits the design philosophy of simple design in ResNet and DenseNet. On several benchmark datasets, the experimental results show that the proposed DSNet achieves significantly better results than ResNet, and achieves comparable performance as DenseNet but requiring fewer computation resources.
翻訳日:2022-10-03 23:29:10 公開日:2020-10-23
# ビデオオブジェクト検出のためのオブジェクト認識機能集約

Object-aware Feature Aggregation for Video Object Detection ( http://arxiv.org/abs/2010.12573v1 )

ライセンス: Link先を確認
Qichuan Geng, Hong Zhang, Na Jiang, Xiaojuan Qi, Liangjun Zhang, Zhong Zhou(参考訳) ビデオオブジェクト検出(VID)のためのOFA(Object-Aware Feature Aggregation)モジュールを提案する。 私たちのアプローチは、ビデオレベルのオブジェクト認識知識がオブジェクト認識に先立って強力なセマンティクスとして活用できるという興味深い特性に動機付けられたものです。 その結果、事前知識による機能強化は、分類とローカライズ性能を効果的に向上させることができる。 ビデオ全体に関するより多くのコンテンツにアクセスするために、私たちはまず提案に関するオブジェクト指向の知識を捉え、その知識を確立されたペアワイズコンテキストに組み込む。 ImageNet VIDデータセットの広範な実験結果から,ResNet-101 と ResNeXt-101 による 83.93% と 86.09% mAP の優れた性能を持つオブジェクト指向知識の有効性を示す。 シークエンスDIoU NMSを更に装備すると、提出された論文から85.07%と86.88%の最も報告されたmAPが得られる。 結果を再現するコードは受理後に解放されます。

We present an Object-aware Feature Aggregation (OFA) module for video object detection (VID). Our approach is motivated by the intriguing property that video-level object-aware knowledge can be employed as a powerful semantic prior to help object recognition. As a consequence, augmenting features with such prior knowledge can effectively improve the classification and localization performance. To make features get access to more content about the whole video, we first capture the object-aware knowledge of proposals and incorporate such knowledge with the well-established pair-wise contexts. With extensive experimental results on the ImageNet VID dataset, our approach demonstrates the effectiveness of object-aware knowledge with the superior performance of 83.93% and 86.09% mAP with ResNet-101 and ResNeXt-101, respectively. When further equipped with Sequence DIoU NMS, we obtain the best-reported mAP of 85.07% and 86.88% upon the paper submitted. The code to reproduce our results will be released after acceptance.
翻訳日:2022-10-03 23:28:53 公開日:2020-10-23
# iris提示攻撃検出のための注意誘導ネットワーク

Attention-Guided Network for Iris Presentation Attack Detection ( http://arxiv.org/abs/2010.12631v1 )

ライセンス: Link先を確認
Cunjian Chen and Arun Ross(参考訳) 畳み込みニューラルネットワーク(cnns)は、アイリス提示攻撃検出の問題を解決するためにますます使われている。 そこで本研究では注意誘導型アイリス提示攻撃検出(ag-pad)を提案する。 2種類の注意モジュールは、バックボーンネットワークの最後の畳み込み層の上に独立して付加される。 具体的には、チャネルアテンションモジュールは特徴間のチャネル間関係をモデル化し、位置アテンションモジュールは特徴間の空間間関係をモデル化する。 これら2つの注目モジュールを融合するために、要素和を用いる。 さらに,新しい階層的注意機構を導入する。 JHU-APLプロプライエタリデータセットとベンチマークのLivDet-Iris-2017データセットの両方を含む実験は、提案手法が有望な結果をもたらすことを示唆している。 我々の知る限りでは、アイリス提示攻撃検出における注意機構の利用を利用した最初の研究である。

Convolutional Neural Networks (CNNs) are being increasingly used to address the problem of iris presentation attack detection. In this work, we propose attention-guided iris presentation attack detection (AG-PAD) to augment CNNs with attention mechanisms. Two types of attention modules are independently appended on top of the last convolutional layer of the backbone network. Specifically, the channel attention module is used to model the inter-channel relationship between features, while the position attention module is used to model inter-spatial relationship between features. An element-wise sum is employed to fuse these two attention modules. Further, a novel hierarchical attention mechanism is introduced. Experiments involving both a JHU-APL proprietary dataset and the benchmark LivDet-Iris-2017 dataset suggest that the proposed method achieves promising results. To the best of our knowledge, this is the first work that exploits the use of attention mechanisms in iris presentation attack detection.
翻訳日:2022-10-03 23:28:37 公開日:2020-10-23
# 3dbooster:3dボディ形状とテクスチャ回復

3DBooSTeR: 3D Body Shape and Texture Recovery ( http://arxiv.org/abs/2010.12670v1 )

ライセンス: Link先を確認
Alexandre Saint, Anis Kacem, Kseniya Cherenkova, Djamila Aouada(参考訳) 本研究では,テクスチャ付き部分3dスキャンからテクスチャ付き3dボディメッシュを回収する新しい手法である3dboosterを提案する。 バーチャルリアリティーと拡張現実(AR)の出現により、現実的で高忠実なデジタル3D表現の創造が求められている。 しかし、3Dスキャンシステムは、体の部分の閉塞、細部の変化、形状の変形、関節の骨格など、その複雑さのために、あるレベルの欠陥まで3Dの人体形状を捉えることができる。 したがって、テクスチャ付き3Dメッシュ補完は、3D取得を強化するために重要である。 提案手法は, 形状とテクスチャの完成度を2つの逐次タスクに分離する。 テンプレート本体メッシュを変形するエンコーダ−デコーダネットワークにより形状を復元する。 その後、対応するテクスチャマップに新しいアプローチを施す前に、部分テクスチャをテンプレートメッシュに投影してテクスチャを得る。 このアプローチは3DBodyTex.v2データセットで検証されている。

We propose 3DBooSTeR, a novel method to recover a textured 3D body mesh from a textured partial 3D scan. With the advent of virtual and augmented reality, there is a demand for creating realistic and high-fidelity digital 3D human representations. However, 3D scanning systems can only capture the 3D human body shape up to some level of defects due to its complexity, including occlusion between body parts, varying levels of details, shape deformations and the articulated skeleton. Textured 3D mesh completion is thus important to enhance 3D acquisitions. The proposed approach decouples the shape and texture completion into two sequential tasks. The shape is recovered by an encoder-decoder network deforming a template body mesh. The texture is subsequently obtained by projecting the partial texture onto the template mesh before inpainting the corresponding texture map with a novel approach. The approach is validated on the 3DBodyTex.v2 dataset.
翻訳日:2022-10-03 23:28:21 公開日:2020-10-23
# 熱カーネルを用いた教師なし密度形状対応

Unsupervised Dense Shape Correspondence using Heat Kernels ( http://arxiv.org/abs/2010.12682v1 )

ライセンス: Link先を確認
Mehmet Ayg\"un, Zorah L\"ahner, Daniel Cremers(参考訳) 本研究では,最近の深層機能マップフレームワークを用いて,形状間の密接な対応を教師なしで学習する手法を提案する。 地対関係や計算コストの高い測地線距離に依存する代わりに、熱核を用いる。 これらは訓練中にスーパーバイザー信号として迅速に計算できる。 さらに,サンプリング機構やハードサンプルマイニングを必要とせず,最適化時の難易度が異なる異なる熱拡散時間を用いたカリキュラム学習手法を提案する。 本手法は,部分性,トポロジカルノイズ,接続性など様々な課題を有するベンチマークを用いて,評価結果を示す。

In this work, we propose an unsupervised method for learning dense correspondences between shapes using a recent deep functional map framework. Instead of depending on ground-truth correspondences or the computationally expensive geodesic distances, we use heat kernels. These can be computed quickly during training as the supervisor signal. Moreover, we propose a curriculum learning strategy using different heat diffusion times which provide different levels of difficulty during optimization without any sampling mechanism or hard example mining. We present the results of our method on different benchmarks which have various challenges like partiality, topological noise and different connectivity.
翻訳日:2022-10-03 23:28:05 公開日:2020-10-23
# R-TOD: 自律走行に最小限のエンド・ツー・エンド遅延を有するリアルタイム物体検出装置

R-TOD: Real-Time Object Detector with Minimized End-to-End Delay for Autonomous Driving ( http://arxiv.org/abs/2011.06372v1 )

ライセンス: Link先を確認
Wonseok Jang, Hansaem Jeong, Kyungtae Kang, Nikil Dutt, Jong-Chan Kim(参考訳) 安全な自動運転を実現するためには、リアルタイム物体検出システムのエンドツーエンド遅延を徹底的に分析し、最小化する必要がある。 しかしながら、推論遅延を最小限に抑えた最近のニューラルネットワークの開発にもかかわらず、オブジェクトの出現から検出が報告されるまでのエンドツーエンドの遅延には驚くほど注意が払われていない。 このモチベーションを生かして,最良・最悪の遅延予測を正確に定式化し,3つの最適化手法を実装した,エンドツーエンドの遅延に関するより包括的な理解を提供することを目的とする。 (i)オンデマンドキャプチャ。 (ii)ゼロスラックパイプライン、及び (iii)コンテンションフリーパイプライン。 実験の結果,Darknet YOLO(You Only Look Once) v3(1070msから261ms)のエンド・ツー・エンド遅延を76%低減し,自動運転におけるエンド・ツー・エンド遅延解析の活用の可能性を示した。 さらに、システムアーキテクチャのみを変更し、ニューラルネットワークアーキテクチャ自体を変更しないので、このアプローチは検出精度にペナルティを課さない。

For realizing safe autonomous driving, the end-to-end delays of real-time object detection systems should be thoroughly analyzed and minimized. However, despite recent development of neural networks with minimized inference delays, surprisingly little attention has been paid to their end-to-end delays from an object's appearance until its detection is reported. With this motivation, this paper aims to provide more comprehensive understanding of the end-to-end delay, through which precise best- and worst-case delay predictions are formulated, and three optimization methods are implemented: (i) on-demand capture, (ii) zero-slack pipeline, and (iii) contention-free pipeline. Our experimental results show a 76% reduction in the end-to-end delay of Darknet YOLO (You Only Look Once) v3 (from 1070 ms to 261 ms), thereby demonstrating the great potential of exploiting the end-to-end delay analysis for autonomous driving. Furthermore, as we only modify the system architecture and do not change the neural network architecture itself, our approach incurs no penalty on the detection accuracy.
翻訳日:2022-10-03 23:27:24 公開日:2020-10-23
# 弱教師付き3次元ポーズ推定における投影モデルの誤差境界

Error Bounds of Projection Models in Weakly Supervised 3D Human Pose Estimation ( http://arxiv.org/abs/2010.12317v1 )

ライセンス: Link先を確認
Nikolas Klug, Moritz Einfalt, Stephan Brehm, Rainer Lienhart(参考訳) 単眼的3次元ポーズ推定における現在の最先端は, 弱教師あり手法の影響を強く受けている。 これにより、2Dラベルは、画像から直接または2Dから3Dのポーズアップリフトを介して、効果的な3Dポーズ回復を学習することができる。 本稿では,推定された3次元ポーズ表現を2次元ラベル(正規化視点と弱い視点投影)に関連付ける,最もよく用いられる簡易投影モデルの詳細解析を行う。 具体的には、一般的な平均結合位置誤差(mpjpe)の下での投影モデルの理論的下限誤差を導出する。 さらに、この保証された最小誤差を避けるために、正規化視点投影をどのように置き換えるかを示す。 最も一般的に使用される3次元ポーズ推定ベンチマークデータセットの導出下限を評価する。 以上の結果から,どちらの射影モデルも位置とスケールの整列後も,19.3mmから54.7mmの誤差が生じることがわかった。 最近の最新結果と比較すると、これはかなりのシェアを占める。 そこで本研究では,弱教師付き3次元ポーズ推定における適切な投影モデルの重要性を示す理論的ベースラインを確立する。

The current state-of-the-art in monocular 3D human pose estimation is heavily influenced by weakly supervised methods. These allow 2D labels to be used to learn effective 3D human pose recovery either directly from images or via 2D-to-3D pose uplifting. In this paper we present a detailed analysis of the most commonly used simplified projection models, which relate the estimated 3D pose representation to 2D labels: normalized perspective and weak perspective projections. Specifically, we derive theoretical lower bound errors for those projection models under the commonly used mean per-joint position error (MPJPE). Additionally, we show how the normalized perspective projection can be replaced to avoid this guaranteed minimal error. We evaluate the derived lower bounds on the most commonly used 3D human pose estimation benchmark datasets. Our results show that both projection models lead to an inherent minimal error between 19.3mm and 54.7mm, even after alignment in position and scale. This is a considerable share when comparing with recent state-of-the-art results. Our paper thus establishes a theoretical baseline that shows the importance of suitable projection models in weakly supervised 3D human pose estimation.
翻訳日:2022-10-03 23:20:45 公開日:2020-10-23
# 形状拘束型3次元セル分割のための球高調波

Spherical Harmonics for Shape-Constrained 3D Cell Segmentation ( http://arxiv.org/abs/2010.12369v1 )

ライセンス: Link先を確認
Dennis Eschweiler and Malte Rethwisch and Simon Koppers and Johannes Stegmaier(参考訳) 最近の顕微鏡イメージング技術は、3D画像データ中の細胞形態を正確に解析することができる。 現在のデジタル画像技術によって生成される膨大な画像データを処理するためには、自動化されたアプローチがこれまで以上に要求される。 しかし、形態学的解析に使用されるセグメンテーションアプローチは、しばしば不自然な形の予測を生み出す傾向があり、結果として不正確な実験結果をもたらす可能性がある。 さらに手動の相互作用を最小限に抑えるため、形状の先行は予測を自然な変動の集合に制約するのに役立つ。 本稿では,球面高調波を3次元顕微鏡画像データにおいて,神経細胞のセグメンテーションに対するニューラルネットワークの予測を本質的に制約する方法として用いる方法を提案する。 球面調和表現の利点と限界を解析し、2つの異なるデータセットに対する他の最先端のアプローチと比較する。

Recent microscopy imaging techniques allow to precisely analyze cell morphology in 3D image data. To process the vast amount of image data generated by current digitized imaging techniques, automated approaches are demanded more than ever. Segmentation approaches used for morphological analyses, however, are often prone to produce unnaturally shaped predictions, which in conclusion could lead to inaccurate experimental outcomes. In order to minimize further manual interaction, shape priors help to constrain the predictions to the set of natural variations. In this paper, we show how spherical harmonics can be used as an alternative way to inherently constrain the predictions of neural networks for the segmentation of cells in 3D microscopy image data. Benefits and limitations of the spherical harmonic representation are analyzed and final results are compared to other state-of-the-art approaches on two different data sets.
翻訳日:2022-10-03 23:20:10 公開日:2020-10-23
# キーポイント検出のための効率的なグループ化

Efficient grouping for keypoint detection ( http://arxiv.org/abs/2010.12390v1 )

ライセンス: Link先を確認
Alexey Sidnev, Ekaterina Krasikova, Maxim Kazakov(参考訳) 従来のキーポイント検出タスクにおけるディープニューラルネットワークの成功により、研究者は新たな問題を解決し、より複雑なデータセットを集めることができる。 deepfashion2データセットのサイズは、キーポイント検出タスクにおいて新たな課題となる。 すべてのキーポイントの直接予測は、巨大なメモリ消費、遅いトレーニング、そして遅い推論時間につながる。 本稿では,キーポイントグループ化手法がCenterNetアーキテクチャの性能に与える影響について検討する。 本稿では,強力なポストプロセッシング手法を用いた簡易かつ効率的な自動グループ化手法を提案し,それをDeepFashion2ファッションランドマークタスクとMS COCOポーズ推定タスクに適用する。 これにより、推論中のメモリ使用量と処理時間が、それぞれ19%と30%削減され、トレーニング段階ではそれぞれ28%と26%削減される。

The success of deep neural networks in the traditional keypoint detection task encourages researchers to solve new problems and collect more complex datasets. The size of the DeepFashion2 dataset poses a new challenge on the keypoint detection task, as it comprises 13 clothing categories that span a wide range of keypoints (294 in total). The direct prediction of all keypoints leads to huge memory consumption, slow training, and a slow inference time. This paper studies the keypoint grouping approach and how it affects the performance of the CenterNet architecture. We propose a simple and efficient automatic grouping technique with a powerful post-processing method and apply it to the DeepFashion2 fashion landmark task and the MS COCO pose estimation task. This reduces memory consumption and processing time during inference by up to 19% and 30% respectively, and during the training stage by 28% and 26% respectively, without compromising accuracy.
翻訳日:2022-10-03 23:19:55 公開日:2020-10-23
# rskdd-net:ランダムサンプルベースキーポイント検出器およびディスクリプタ

RSKDD-Net: Random Sample-based Keypoint Detector and Descriptor ( http://arxiv.org/abs/2010.12394v1 )

ライセンス: Link先を確認
Fan Lu and Guang Chen and Yinlong Liu and Zhongnan Qu and Alois Knoll(参考訳) keypoint detectorとdescriptorは、ポイントクラウド登録の主要な2つのコンポーネントである。 従来の学習に基づくキーポイント検出装置は、大規模シーンでは非効率で適用できない候補点選択のために、各点または最遠点サンプル(FPS)の正当性推定に頼っていた。 本稿では,大規模クラウド登録のためのランダムサンプルベースキーポイント検出器とディスクリプタネットワーク(RSKDD-Net)を提案する。 鍵となるアイデアは、ランダムサンプリングを使って候補点を効率的に選択し、学習ベースの方法を使ってキーポイントと記述子を共同で生成する。 ランダムサンプリングの情報損失に対処するために,各サンプル点の受容場を拡大するための新しいランダム拡張クラスタ戦略と,隣接点の位置と特徴を集約するアテンション機構を利用する。 さらに,弱い教師の方法で記述子を訓練するためのマッチング損失を提案する。 2つの大規模屋外LiDARデータセットの大規模な実験により、提案したRSKDD-Netは、既存の手法の15倍以上の高速で最先端のパフォーマンスを達成することが示された。 私たちのコードはhttps://github.com/ispc-lab/rskdd-netで利用可能です。

Keypoint detector and descriptor are two main components of point cloud registration. Previous learning-based keypoint detectors rely on saliency estimation for each point or farthest point sample (FPS) for candidate points selection, which are inefficient and not applicable in large scale scenes. This paper proposes Random Sample-based Keypoint Detector and Descriptor Network (RSKDD-Net) for large scale point cloud registration. The key idea is using random sampling to efficiently select candidate points and using a learning-based method to jointly generate keypoints and descriptors. To tackle the information loss of random sampling, we exploit a novel random dilation cluster strategy to enlarge the receptive field of each sampled point and an attention mechanism to aggregate the positions and features of neighbor points. Furthermore, we propose a matching loss to train the descriptor in a weakly supervised manner. Extensive experiments on two large scale outdoor LiDAR datasets show that the proposed RSKDD-Net achieves state-of-the-art performance with more than 15 times faster than existing methods. Our code is available at https://github.com/ispc-lab/RSKDD-Net.
翻訳日:2022-10-03 23:19:30 公開日:2020-10-23
# SAHDL: スパースアテンションハイパーグラフ正規化辞書学習

SAHDL: Sparse Attention Hypergraph Regularized Dictionary Learning ( http://arxiv.org/abs/2010.12416v1 )

ライセンス: Link先を確認
Shuai Shao and Rui Xu and Yan-Jiang Wang and Weifeng Liu and Bao-Di Liu(参考訳) 近年,注目メカニズムはハイパーグラフベースのニューラルネットワークに大きく寄与している。 しかし、これらの手法はネットワークの伝搬によって注意重みを更新する。 つまり、このタイプの注意機構は、従来の機械学習アプローチには適用されないが、ディープラーニングベースの手法にのみ適している。 本稿では,この問題に対処し,辞書学習に組み込むためのハイパーグラフに基づくスパースアテンション機構を提案する。 より具体的には、サンプル特徴間の高次関係をマイニングするために$\ell_1$-normのスパース正規化を用いて、サンプルに対するアセットアテンションウェイトであるスパースアテンションハイパーグラフを構築した。 次に,辞書学習における部分空間変換の局所構造を保存するためにハイパーグラフラプラシアン演算子を導入する。 さらに,その識別情報をハイパーグラフに組み込んでサンプルを集約する指導を行う。 先行研究とは異なり,本手法は注意重みを独立に更新し,ディープネットワークに依存しない。 4つのベンチマークデータセットにアプローチの有効性を示す。

In recent years, the attention mechanism contributes significantly to hypergraph based neural networks. However, these methods update the attention weights with the network propagating. That is to say, this type of attention mechanism is only suitable for deep learning-based methods while not applicable to the traditional machine learning approaches. In this paper, we propose a hypergraph based sparse attention mechanism to tackle this issue and embed it into dictionary learning. More specifically, we first construct a sparse attention hypergraph, asset attention weights to samples by employing the $\ell_1$-norm sparse regularization to mine the high-order relationship among sample features. Then, we introduce the hypergraph Laplacian operator to preserve the local structure for subspace transformation in dictionary learning. Besides, we incorporate the discriminative information into the hypergraph as the guidance to aggregate samples. Unlike previous works, our method updates attention weights independently, does not rely on the deep network. We demonstrate the efficacy of our approach on four benchmark datasets.
翻訳日:2022-10-03 23:19:03 公開日:2020-10-23
# DLDL:ハイパーグラフ正規化による動的ラベル辞書学習

DLDL: Dynamic Label Dictionary Learning via Hypergraph Regularization ( http://arxiv.org/abs/2010.12417v1 )

ライセンス: Link先を確認
Shuai Shao and Mengke Wang and Rui Xu and Yan-Jiang Wang and Bao-Di Liu(参考訳) 分類課題については,近年,辞書学習に基づく手法が注目されている。 この目的を達成するための一般的な方法は、ラベル情報を導入して、サンプルを表現する識別辞書を生成することである。 しかし、従来の辞書学習と比較して、この手法は教師あり学習の大幅な改善しか達成せず、半教師なし学習や教師なし学習にはほとんど効果がない。 そこで本研究では,ラベルなしデータに対するソフトラベル行列を生成するために,動的ラベル辞書学習(DLDL)アルゴリズムを提案する。 具体的には、原データ、変換データ、ソフトラベル間の関係を維持するために、ハイパーグラフの正規化を用いる。 本稿では,2つのリモートセンシングデータセットに対するDLDL手法の有効性を示す。

For classification tasks, dictionary learning based methods have attracted lots of attention in recent years. One popular way to achieve this purpose is to introduce label information to generate a discriminative dictionary to represent samples. However, compared with traditional dictionary learning, this category of methods only achieves significant improvements in supervised learning, and has little positive influence on semi-supervised or unsupervised learning. To tackle this issue, we propose a Dynamic Label Dictionary Learning (DLDL) algorithm to generate the soft label matrix for unlabeled data. Specifically, we employ hypergraph manifold regularization to keep the relations among original data, transformed data, and soft labels consistent. We demonstrate the efficiency of the proposed DLDL approach on two remote sensing datasets.
翻訳日:2022-10-03 23:18:44 公開日:2020-10-23
# BP-MVSNet:マルチビューステレオのための信念伝搬層

BP-MVSNet: Belief-Propagation-Layers for Multi-View-Stereo ( http://arxiv.org/abs/2010.12436v1 )

ライセンス: Link先を確認
Christian Sormann (1), Patrick Kn\"obelreiter (1), Andreas Kuhn (2), Mattia Rossi (2), Thomas Pock (1), Friedrich Fraundorfer (1) ((1) Graz University of Technology, (2) Sony Europe B.V.)(参考訳) 本研究では,cnn(convolutional neural network)ベースの多視点ステレオ(multi-view-stereo,mvs)手法であるbp-mvsnetを提案する。 この目的のために、BP層を拡張し、MVS設定でうまく利用するために必要なものを追加することを提案する。 そこで我々は,CRFにおけるラベルジャンプを正規化するために,期待される3次元誤差に基づいて正規化を計算する方法を示す。 MVS設定では、BP層を異なるスケールに不変にする必要がある。 また,分数ラベルのジャンプを可能にするために,ペア項の計算に組み込む微分可能な補間ステップを提案する。 これらの拡張により、BP層をマルチスケールMVSネットワークに統合し、結果として高品質な深度マップが得られるまで、粗い初期推定を継続的に改善できる。 BP-MVSNetをアブレーション実験で評価し,DTU,タンク・アンド・テンプル,ETH3Dデータセットについて広範な実験を行った。 実験の結果,ベースラインを著しく上回り,最先端の結果が得られることがわかった。

In this work, we propose BP-MVSNet, a convolutional neural network (CNN)-based Multi-View-Stereo (MVS) method that uses a differentiable Conditional Random Field (CRF) layer for regularization. To this end, we propose to extend the BP layer and add what is necessary to successfully use it in the MVS setting. We therefore show how we can calculate a normalization based on the expected 3D error, which we can then use to normalize the label jumps in the CRF. This is required to make the BP layer invariant to different scales in the MVS setting. In order to also enable fractional label jumps, we propose a differentiable interpolation step, which we embed into the computation of the pairwise term. These extensions allow us to integrate the BP layer into a multi-scale MVS network, where we continuously improve a rough initial estimate until we get high quality depth maps as a result. We evaluate the proposed BP-MVSNet in an ablation study and conduct extensive experiments on the DTU, Tanks and Temples and ETH3D data sets. The experiments show that we can significantly outperform the baseline and achieve state-of-the-art results.
翻訳日:2022-10-03 23:18:14 公開日:2020-10-23
# 半教師付きビデオオブジェクトセグメンテーションにおける循環機構の解明

Delving into the Cyclic Mechanism in Semi-supervised Video Object Segmentation ( http://arxiv.org/abs/2010.12176v1 )

ライセンス: Link先を確認
Yuxi Li, Ning Xu, Jinlong Peng, John See, Weiyao Lin(参考訳) 本稿では,現在のビデオオブジェクトセグメンテーションパイプラインの不確かさに対処する。 まず、循環機構を標準的な半教師付きプロセスに組み込んでより堅牢な表現を生成する。 開始フレームの正確な参照マスクを頼りにすることで,誤差伝播問題を緩和できることを示す。 次に、オフラインパイプラインをオンラインメソッドに拡張し、前者の効率性を維持しながら、簡単な勾配補正モジュールを導入する。 最後に,傾斜補正に基づくサイクル有効受容場(cycle-erf)を開発し,対象特定対象領域の分析における新たな視点を提供する。 DAVIS17とYoutube-VOSのベンチマークの総合的な実験を行い、循環機構がセグメンテーション品質に有用であることを実証した。

In this paper, we address several inadequacies of current video object segmentation pipelines. Firstly, a cyclic mechanism is incorporated to the standard semi-supervised process to produce more robust representations. By relying on the accurate reference mask in the starting frame, we show that the error propagation problem can be mitigated. Next, we introduce a simple gradient correction module, which extends the offline pipeline to an online method while maintaining the efficiency of the former. Finally we develop cycle effective receptive field (cycle-ERF) based on gradient correction to provide a new perspective into analyzing object-specific regions of interests. We conduct comprehensive experiments on challenging benchmarks of DAVIS17 and Youtube-VOS, demonstrating that the cyclic mechanism is beneficial to segmentation quality.
翻訳日:2022-10-03 23:11:14 公開日:2020-10-23
# 混合スーパービジョンからの半教師型医用画像セグメンテーションのための教師・学生フレームワーク

A Teacher-Student Framework for Semi-supervised Medical Image Segmentation From Mixed Supervision ( http://arxiv.org/abs/2010.12219v1 )

ライセンス: Link先を確認
Liyan Sun, Jianxiong Wu, Xinghao Ding, Yue Huang, Guisheng Wang and Yizhou Yu(参考訳) 完全教師付き畳み込みネットワークに基づく医用画像の標準セグメンテーションは、正確な密接な注釈を必要とする。 このような学習フレームワークは、専門知識の要求を制限した厳格なマニュアルアノテーションに基づいて構築されており、高品質なラベルが不足している。 このような制限を克服し、膨大なラベル付きデータを活用するため、厳密なラベル付け要求を緩和し、部分的な濃密なラベル付き監督と補足的ゆるみ付きボックスによる臓器と病変の分節を教師が指導する手法に基づく半教師付き学習フレームワークを開発した。 臓器の幾何学的関係と内部病変を多く観察し,教師セグメンタ内の階層型オルガン・ツー・レシオン(O2L)アテンションモジュールを提案し,擬似ラベルを生成する。 そして、マニュアルラベルと擬似ラベルアノテーションの組み合わせで学生セグメンタを訓練する。 さらに,深部デコーダにおける高レベル特徴の集約により,臓器や病変の位置を予測し,正確な局所化情報を持つ学生セグメンタを充実させるローカライズブランチを提案する。 litsチャレンジデータセットのモデルにおける各設計をアブレーション研究によって検証し,最近の手法と比較してその最新性能を示した。 我々は,本モデルがバウンディングボックスの品質に対して堅牢であることを示し,フル教師付き学習手法と比較した性能を実現する。

Standard segmentation of medical images based on full-supervised convolutional networks demands accurate dense annotations. Such learning framework is built on laborious manual annotation with restrict demands for expertise, leading to insufficient high-quality labels. To overcome such limitation and exploit massive weakly labeled data, we relaxed the rigid labeling requirement and developed a semi-supervised learning framework based on a teacher-student fashion for organ and lesion segmentation with partial dense-labeled supervision and supplementary loose bounding-box supervision which are easier to acquire. Observing the geometrical relation of an organ and its inner lesions in most cases, we propose a hierarchical organ-to-lesion (O2L) attention module in a teacher segmentor to produce pseudo-labels. Then a student segmentor is trained with combinations of manual-labeled and pseudo-labeled annotations. We further proposed a localization branch realized via an aggregation of high-level features in a deep decoder to predict locations of organ and lesion, which enriches student segmentor with precise localization information. We validated each design in our model on LiTS challenge datasets by ablation study and showed its state-of-the-art performance compared with recent methods. We show our model is robust to the quality of bounding box and achieves comparable performance compared with full-supervised learning methods.
翻訳日:2022-10-03 23:10:32 公開日:2020-10-23
# 視線と頭部リダイレクトを改善する自己学習変換

Self-Learning Transformations for Improving Gaze and Head Redirection ( http://arxiv.org/abs/2010.12307v1 )

ライセンス: Link先を確認
Yufeng Zheng, Seonwook Park, Xucong Zhang, Shalini De Mello, Otmar Hilliges(参考訳) 多くのコンピュータビジョンタスクはラベル付きデータに依存している。 生成モデリングの急速な進歩は、フォトリアリスティックな画像を合成する能力をもたらした。 しかし、下流タスクの監視にデータが使用できるような生成プロセスの特定の側面を制御することは依然として困難である。 本稿では,視線や頭部方向の角度をきめ細かな制御で高品質な画像を生成することのできる,顔画像の新たな生成モデルを提案する。 これには、視線や頭部の向きだけでなく、照明や色合いなど、多くの外観関連要因の分離が必要となる。 本稿では,これらの変分を自己学習で発見・解離・符号化する新しいアーキテクチャを提案する。 さらに,タスクの無関係な要因を明示的に分離することで,視線と頭部方向のより正確なモデリングが可能になることを示す。 新たな評価手法により,視線方向と頭部方向の変化の逆方向精度と絡み合いが向上することを示す。 さらに,実世界の限られたトレーニングデータの存在下では,半教師付きデータセット間視線推定の下流タスクの改善が可能であることを示す。 https://ait.ethz.ch/projects/2020/STED-gaze/

Many computer vision tasks rely on labeled data. Rapid progress in generative modeling has led to the ability to synthesize photorealistic images. However, controlling specific aspects of the generation process such that the data can be used for supervision of downstream tasks remains challenging. In this paper we propose a novel generative model for images of faces, that is capable of producing high-quality images under fine-grained control over eye gaze and head orientation angles. This requires the disentangling of many appearance related factors including gaze and head orientation but also lighting, hue etc. We propose a novel architecture which learns to discover, disentangle and encode these extraneous variations in a self-learned manner. We further show that explicitly disentangling task-irrelevant factors results in more accurate modelling of gaze and head orientation. A novel evaluation scheme shows that our method improves upon the state-of-the-art in redirection accuracy and disentanglement between gaze direction and head orientation changes. Furthermore, we show that in the presence of limited amounts of real-world training data, our method allows for improvements in the downstream task of semi-supervised cross-dataset gaze estimation. Please check our project page at: https://ait.ethz.ch/projects/2020/STED-gaze/
翻訳日:2022-10-03 23:08:46 公開日:2020-10-23
# AQuaMuSe:クエリベースのマルチドキュメント要約のためのデータセットの自動生成

AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization ( http://arxiv.org/abs/2010.12694v1 )

ライセンス: Link先を確認
Sayali Kulkarni, Sheide Chammas, Wan Zhu, Fei Sha, Eugene Ie(参考訳) 要約は、ソースドキュメントをコヒーレントかつ簡潔な文に圧縮するタスクである。 これは、クエリに関連する上位のドキュメントの簡潔で正確なスケッチをユーザに提示する貴重なツールである。 クエリベースのマルチドキュメント要約(qmds)はこの広範なニーズに対応するが、既存のシングルドキュメントとマルチドキュメント要約データセットが形式とスケールで不十分であるため、トレーニングと評価データセットの欠如により、研究は大幅に制限されている。 本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。 私たちのアプローチは、抽出的および抽象的な要約の両方に対して、二重データセットを一般化できるという意味でユニークなものです。 5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。 ベースライン要約モデル実験とともにデータセットの広範囲な評価を行う。

Summarization is the task of compressing source document(s) into coherent and succinct passages. This is a valuable tool to present users with concise and accurate sketch of the top ranked documents related to their queries. Query-based multi-document summarization (qMDS) addresses this pervasive need, but the research is severely limited due to lack of training and evaluation datasets as existing single-document and multi-document summarization datasets are inadequate in form and scale. We propose a scalable approach called AQuaMuSe to automatically mine qMDS examples from question answering datasets and large document corpora. Our approach is unique in the sense that it can general a dual dataset -- for extractive and abstractive summaries both. We publicly release a specific instance of an AQuaMuSe dataset with 5,519 query-based summaries, each associated with an average of 6 input documents selected from an index of 355M documents from Common Crawl. Extensive evaluation of the dataset along with baseline summarization model experiments are provided.
翻訳日:2022-10-03 23:02:31 公開日:2020-10-23
# ラミナ特異的ニューロン特性はフィードフォワードネットワークにおけるロバストで安定なシグナル伝達を促進する

Lamina-specific neuronal properties promote robust, stable signal propagation in feedforward networks ( http://arxiv.org/abs/2010.12127v1 )

ライセンス: Link先を確認
Dongqi Han, Erik De Schutter, Sungho Hong(参考訳) フィードフォワードネットワーク(FFN)は、ニューラルネットワークのユビキタスな構造であり、信頼できる信号と情報伝達のメカニズムを理解するために研究されている。 多くのFFNでは、1層のニューロンは前/後層と異なる固有の性質を持つが、これがネットワークレベルの情報処理にどのように影響するかは未解明のままである。 ここでは,ラミナ特異的な細胞特性から生じる層間不均一性が,FFNのシグナル伝達と情報伝達を促進することを示す。 具体的には、入力駆動のスパイク信号上でニューロンの各層が生成した信号変換が、先行層が導入した信号歪みを復調することを示した。 この機構は、伝播スパイク信号によって運ばれる情報伝達を増強し、信頼性の高いスパイク信号および深いffnにおける情報伝達をサポートする。 本研究は, 神経回路の異なる細胞タイプが, 様々な計算機能を実現し, 全体の情報処理を促進することを示唆している。

Feedforward networks (FFN) are ubiquitous structures in neural systems and have been studied to understand mechanisms of reliable signal and information transmission. In many FFNs, neurons in one layer have intrinsic properties that are distinct from those in their pre-/postsynaptic layers, but how this affects network-level information processing remains unexplored. Here we show that layer-to-layer heterogeneity arising from lamina-specific cellular properties facilitates signal and information transmission in FFNs. Specifically, we found that signal transformations, made by each layer of neurons on an input-driven spike signal, demodulate signal distortions introduced by preceding layers. This mechanism boosts information transfer carried by a propagating spike signal and thereby supports reliable spike signal and information transmission in a deep FFN. Our study suggests that distinct cell types in neural circuits, performing different computational functions, facilitate information processing on the whole.
翻訳日:2022-10-03 23:01:20 公開日:2020-10-23
# マトリックスリカバリによる学生の共通性と個性の検討

Exploring Common and Individual Characteristics of Students via Matrix Recovering ( http://arxiv.org/abs/2010.12290v1 )

ライセンス: Link先を確認
Zhen Wang, Ben Teng, Yun Zhou, Hanshuang Tong and Guangtong Liu(参考訳) グループ指導と個人のメンタリングのバランスは、教育分野において重要な問題である。 本課題の背景には,複数の学生が共有する共通特性と各学生の個人特性について考察する。 バイクラスタ化手法は, 学生の特性に基づくグループ指導の推進を目的とした有意義なパターン検出に成功している。 しかし,これらの手法は,学生の共通特性のみに焦点を当てているため,生徒の個性を無視している。 本稿では,学生の集団特性と個人特性を同時に検出する枠組みを提案する。 学生」の特徴行列は,学生の共通特性を表す低ランク行列と,生徒の個人特性を表すスパース行列の2つの部分から構成されていると仮定する。 そこで我々は,バランス問題を行列回復問題として扱う。 実験の結果,本手法の有効性が示された。 まず、最先端の複クラタリングアルゴリズムに匹敵する有意義な二クラスタを検出できる。 第二に、各生徒の個々の特徴を同時に識別できる。 アルゴリズムのソースコードと実際のデータセットは、要求に応じて利用可能です。

Balancing group teaching and individual mentoring is an important issue in education area. The nature behind this issue is to explore common characteristics shared by multiple students and individual characteristics for each student. Biclustering methods have been proved successful for detecting meaningful patterns with the goal of driving group instructions based on students' characteristics. However, these methods ignore the individual characteristics of students as they only focus on common characteristics of students. In this article, we propose a framework to detect both group characteristics and individual characteristics of students simultaneously. We assume that the characteristics matrix of students' is composed of two parts: one is a low-rank matrix representing the common characteristics of students; the other is a sparse matrix representing individual characteristics of students. Thus, we treat the balancing issue as a matrix recovering problem. The experiment results show the effectiveness of our method. Firstly, it can detect meaningful biclusters that are comparable with the state-of-the-art biclutering algorithms. Secondly, it can identify individual characteristics for each student simultaneously. Both the source code of our algorithm and the real datasets are available upon request.
翻訳日:2022-10-03 23:01:04 公開日:2020-10-23
# DICT-MLM:バイリンガル辞書を用いた多言語事前学習の改善

DICT-MLM: Improved Multilingual Pre-Training using Bilingual Dictionaries ( http://arxiv.org/abs/2010.12566v1 )

ライセンス: Link先を確認
Aditi Chaudhary, Karthik Raman, Krishna Srinivasan, Jiecao Chen(参考訳) mBERTのような事前訓練された多言語モデルでは、特にゼロショット言語間設定において、いくつかの自然言語処理(NLP)タスクが大幅に向上している。 これらの事前訓練されたモデルのほとんどは、主要な言語学習目的として、マスク付き言語モデリング(MLM)の目的に依存している。 これらのアプローチの背後にある原則は、マスキングされた単語を周囲のテキストの助けを借りて予測することは、強力な文脈化表現を学ぶのに役立つ。 MLMの強力な表現学習能力にもかかわらず、多言語表現学習におけるMLMの固有の制限を示す。 特に、モデルに言語固有のトークンを予測することを要求することで、MLMの目標は言語に依存しない表現の学習を非インセンティブにします。 そこで本研究では,DICT-MLM法を提案する。 DICT-MLMは、オリジナルのマスキングされた単語だけでなく、言語間の同義語も予測できるようにモデルにインセンティブを与える。 30以上の言語にまたがる複数の下流タスクに関する実証分析は、提案手法の有効性と、より優れた多言語表現を学習する能力を示す。

Pre-trained multilingual language models such as mBERT have shown immense gains for several natural language processing (NLP) tasks, especially in the zero-shot cross-lingual setting. Most, if not all, of these pre-trained models rely on the masked-language modeling (MLM) objective as the key language learning objective. The principle behind these approaches is that predicting the masked words with the help of the surrounding text helps learn potent contextualized representations. Despite the strong representation learning capability enabled by MLM, we demonstrate an inherent limitation of MLM for multilingual representation learning. In particular, by requiring the model to predict the language-specific token, the MLM objective disincentivizes learning a language-agnostic representation -- which is a key goal of multilingual pre-training. Therefore to encourage better cross-lingual representation learning we propose the DICT-MLM method. DICT-MLM works by incentivizing the model to be able to predict not just the original masked word, but potentially any of its cross-lingual synonyms as well. Our empirical analysis on multiple downstream tasks spanning 30+ languages, demonstrates the efficacy of the proposed approach and its ability to learn better multilingual representations.
翻訳日:2022-10-03 22:53:05 公開日:2020-10-23
# 小さなデータシナリオにおける創造的言語特性のランク付け

Ranking Creative Language Characteristics in Small Data Scenarios ( http://arxiv.org/abs/2010.12613v1 )

ライセンス: Link先を確認
Julia Siekiera, Marius K\"oppel, Edwin Simpson, Kevin Stowe, Iryna Gurevych, Stefan Kramer(参考訳) 創造的な自然言語をランク付けする能力は、下流の言語理解と生成のための重要な汎用ツールを提供する。 しかし、現在のディープランキングモデルでは、異なるドメイン、言語、創造的特徴のために取得するのが困難で高価なラベル付きデータが必要となる。 最近のニューラルアプローチであるdirectrankerは、必要なトレーニングデータの量を減らすことを約束しているが、テキストへの応用は十分に検討されていない。 そこで我々はDirectRankerを採用し、小さなデータでクリエイティブ言語をランク付けするための新しいディープモデルを提供する。 DirectRanker と Bayes のアプローチである Gaussian Process preference Learning (GPPL) を比較した。 スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークランキング手法の性能は小さなトレーニングデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。 DirectRankerとGPPLを組み合わせることで、両方のモデルの相補的な利点を活用することで、異なる設定におけるパフォーマンスが向上することがわかった。 我々のアプローチは過去のユーモアとメタファのノベルティのタスクを上回り、Spearmanの$\rho$を平均で14%、そして16%増やした。

The ability to rank creative natural language provides an important general tool for downstream language understanding and generation. However, current deep ranking models require substantial amounts of labeled data that are difficult and expensive to obtain for different domains, languages and creative characteristics. A recent neural approach, the DirectRanker, promises to reduce the amount of training data needed but its application to text isn't fully explored. We therefore adapt the DirectRanker to provide a new deep model for ranking creative language with small data. We compare DirectRanker with a Bayesian approach, Gaussian process preference learning (GPPL), which has previously been shown to work well with sparse data. Our experiments with sparse training data show that while the performance of standard neural ranking approaches collapses with small training datasets, DirectRanker remains effective. We find that combining DirectRanker with GPPL increases performance across different settings by leveraging the complementary benefits of both models. Our combined approach outperforms the previous state-of-the-art on humor and metaphor novelty tasks, increasing Spearman's $\rho$ by 14% and 16% on average.
翻訳日:2022-10-03 22:52:44 公開日:2020-10-23
# 文脈付き単語表現クラスタによるトピックモデリング

Topic Modeling with Contextualized Word Representation Clusters ( http://arxiv.org/abs/2010.12626v1 )

ライセンス: Link先を確認
Laure Thompson, David Mimno(参考訳) クラスタリングトークンレベルのコンテキスト化ワード表現は、英語テキストコレクションのトピックモデルと多くの類似点を持つ出力を生成する。 語彙レベルの単語埋め込みのクラスタリングとは異なり、結果として得られるモデルはポリセミーをより自然に捉え、文書を整理する方法として使用できる。 人気言語モデルの複数の異なる出力層から学習したトークンクラスタリングを評価する。 BERT と GPT-2 は高品質なクラスタリングを実現するが,RoBERTa は実現しない。 これらのクラスタモデルはシンプルで信頼性が高く、ldaのトピックモデルよりも優れているとしても、ローカルコレクションのサイズに対してトピック数が大きい場合でも高いトピック品質を維持することができる。

Clustering token-level contextualized word representations produces output that shares many similarities with topic models for English text collections. Unlike clusterings of vocabulary-level word embeddings, the resulting models more naturally capture polysemy and can be used as a way of organizing documents. We evaluate token clusterings trained from several different output layers of popular contextualized language models. We find that BERT and GPT-2 produce high quality clusterings, but RoBERTa does not. These cluster models are simple, reliable, and can perform as well as, if not better than, LDA topic models, maintaining high topic quality even when the number of topics is large relative to the size of the local collection.
翻訳日:2022-10-03 22:52:23 公開日:2020-10-23
# あなたは良い質問をしたのか? テキストからSQLへの質問意図分類ベンチマーク

Did You Ask a Good Question? A Cross-Domain Question Intention Classification Benchmark for Text-to-SQL ( http://arxiv.org/abs/2010.12634v1 )

ライセンス: Link先を確認
Yusen Zhang, Xiangyu Dong, Shuaichen Chang, Tao Yu, Peng Shi and Rui Zhang(参考訳) ニューラルモデルは、すべての入力質問が合法であると仮定し、任意の入力に対してSQLクエリを生成する、テキストからSQLへのタスクにおいて重要な結果を得た。 しかし、実際のシナリオでは、ユーザーはsqlクエリで応答できない可能性のあるテキストを入力できる。 本研究では,4種類の疑問を解答可能な質問から区別するモデルを必要とする,最初のクロスドメインテキストからSQLへの質問意図分類ベンチマークであるTriageSQLを提案する。 RoBERTaモデルは、テストセットで60%のF1スコアを獲得し、このタスクをさらに改善する必要性を示している。 私たちのデータセットはhttps://github.com/chatc/TriageSQLで公開されています。

Neural models have achieved significant results on the text-to-SQL task, in which most current work assumes all the input questions are legal and generates a SQL query for any input. However, in the real scenario, users can input any text that may not be able to be answered by a SQL query. In this work, we propose TriageSQL, the first cross-domain text-to-SQL question intention classification benchmark that requires models to distinguish four types of unanswerable questions from answerable questions. The baseline RoBERTa model achieves a 60% F1 score on the test set, demonstrating the need for further improvement on this task. Our dataset is available at https://github.com/chatc/TriageSQL.
翻訳日:2022-10-03 22:51:57 公開日:2020-10-23
# 単言語データを用いた機械翻訳のための高速ドメイン適応

Rapid Domain Adaptation for Machine Translation with Monolingual Data ( http://arxiv.org/abs/2010.12652v1 )

ライセンス: Link先を確認
Mahdis Mahdieh, Mia Xu Chen, Yuan Cao, Orhan Firat(参考訳) 機械翻訳の課題の1つは、新型コロナウイルス(COVID-19)のような急激なイベントに直面した未確認のドメインに迅速に適応する方法である。 本稿では,教師なし翻訳の観点から,迅速なドメイン適応を可能にする手法を提案する。 提案手法はドメイン内モノリンガルデータのみを必要としており、一般ドメインで訓練された既存の翻訳システムに迅速に適用でき、ドメイン内翻訳の品質は一般ドメインではほとんど、あるいは全く低下することなく大幅に向上する。 また,複数のドメインや言語に同時適応する効果的な手法を提案する。 私たちの知る限りでは、これは教師なしの多言語ドメイン適応に対処する最初の試みです。

One challenge of machine translation is how to quickly adapt to unseen domains in face of surging events like COVID-19, in which case timely and accurate translation of in-domain information into multiple languages is critical but little parallel data is available yet. In this paper, we propose an approach that enables rapid domain adaptation from the perspective of unsupervised translation. Our proposed approach only requires in-domain monolingual data and can be quickly applied to a preexisting translation system trained on general domain, reaching significant gains on in-domain translation quality with little or no drop on general-domain. We also propose an effective procedure of simultaneous adaptation for multiple domains and languages. To the best of our knowledge, this is the first attempt that aims to address unsupervised multilingual domain adaptation.
翻訳日:2022-10-03 22:51:34 公開日:2020-10-23
# 複数項目問合せ用アディケートディトラクタの生成

Generating Adequate Distractors for Multiple-Choice Questions ( http://arxiv.org/abs/2010.12658v1 )

ライセンス: Link先を確認
Cheng Zhang, Yicheng Sun, Hejia Chen, Jie Wang(参考訳) 本稿では,ある記事から生成した質問応答対(QAP)に対して,適切な複数選択質問(MCQ)を自動生成する手法を提案する。 提案手法は,文節タギング,名前付きエンティティタギング,セマンティクスロールラベリング,正規表現,ドメイン知識ベース,単語埋め込み,単語編集距離,wordnet,その他のアルゴリズムを組み合わせたものである。 我々は,米国SAT (Scholastic Assessment Test) の実践的読解試験をデータセットとして使用し,QAPを生成し,各QAPに対して3つのイントラクタを生成してMCQを形成する。 人間の判断による実験と評価により,各MCQは少なくとも1つの適切な注意散布器を持ち,84%のMCQは3つの適切な注意散布器を持っていることがわかった。

This paper presents a novel approach to automatic generation of adequate distractors for a given question-answer pair (QAP) generated from a given article to form an adequate multiple-choice question (MCQ). Our method is a combination of part-of-speech tagging, named-entity tagging, semantic-role labeling, regular expressions, domain knowledge bases, word embeddings, word edit distance, WordNet, and other algorithms. We use the US SAT (Scholastic Assessment Test) practice reading tests as a dataset to produce QAPs and generate three distractors for each QAP to form an MCQ. We show that, via experiments and evaluations by human judges, each MCQ has at least one adequate distractor and 84\% of MCQs have three adequate distractors.
翻訳日:2022-10-03 22:51:21 公開日:2020-10-23
# 欧州連合アンダーリソース言語のための言語間イベント中心知識パイプライン内の自然言語処理チェーン

Natural Language Processing Chains Inside a Cross-lingual Event-Centric Knowledge Pipeline for European Union Under-resourced Languages ( http://arxiv.org/abs/2010.12433v1 )

ライセンス: Link先を確認
Diego Alves, Gaurish Thakkar, Marko Tadi\'c(参考訳) 本稿では,EU言語のための言語処理チェーンを含むプラットフォームを開発するための戦略について述べる。 これらのチェーンはイベント中心のナレッジプロセッシングパイプラインの最初のステップの一部であり、ヨーロッパや他の世界に影響を与える可能性のある主要なイベントに関する多言語メディア情報を処理することを目的としている。 各言語のための言語リソースの可用性の面での違いから、私たちはこの戦略を3つのステップで構築しました。 欧州連合のすべての公用語をリソースの観点から分類するために,アノテートされたコーパスのサイズと,メインストリーム言語処理ツールにおける事前学習モデルの存在を分析し,この情報をmeta-netwhitepaperシリーズで公表された分類と組み合わせた。

This article presents the strategy for developing a platform containing Language Processing Chains for European Union languages, consisting of Tokenization to Parsing, also including Named Entity recognition andwith addition ofSentiment Analysis. These chains are part of the first step of an event-centric knowledge processing pipeline whose aim is to process multilingual media information about major events that can cause an impactin Europe and the rest of the world. Due to the differences in terms of availability of language resources for each language, we have built this strategy in three steps, starting with processing chains for the well-resourced languages and finishing with the development of new modules for the under-resourced ones. In order to classify all European Union official languages in terms of resources, we have analysed the size of annotated corpora as well as the existence of pre-trained models in mainstream Language Processing tools, and we have combined this information with the proposed classification published at META-NETwhitepaper series.
翻訳日:2022-10-03 22:44:53 公開日:2020-10-23
# 議論の本質的品質評価

Intrinsic Quality Assessment of Arguments ( http://arxiv.org/abs/2010.12473v1 )

ライセンス: Link先を確認
Henning Wachsmuth and Till Werner(参考訳) 自然言語論のいくつかの品質次元が研究されている。 言語的特徴(例えば、議論の配列)に反映されるものもあれば、文脈(例えば、関連性)や話題知識(例えば、受容可能性)に依存するものもある。 本稿では,15次元内在的計算量評価,すなわち,引数のテキストからのみ学習する手法について検討する。 既存のコーパスに8つの特徴型を持つ体系的な実験では、ほとんどの次元において中程度だが有意な学習成功を観察する。 修辞的品質は評価するのが最も難しく、主観的特徴は強いが、コーパスの長さバイアスは完全な妥当性を阻害する。 また、人間の評価者は、我々のアプローチよりも互いに明確に異なることが分かりました。

Several quality dimensions of natural language arguments have been investigated. Some are likely to be reflected in linguistic features (e.g., an argument's arrangement), whereas others depend on context (e.g., relevance) or topic knowledge (e.g., acceptability). In this paper, we study the intrinsic computational assessment of 15 dimensions, i.e., only learning from an argument's text. In systematic experiments with eight feature types on an existing corpus, we observe moderate but significant learning success for most dimensions. Rhetorical quality seems hardest to assess, and subjectivity features turn out strong, although length bias in the corpus impedes full validity. We also find that human assessors differ more clearly to each other than to our approach.
翻訳日:2022-10-03 22:44:20 公開日:2020-10-23
# 要約評価指標が要約の情報品質を計測する程度を理解する

Understanding the Extent to which Summarization Evaluation Metrics Measure the Information Quality of Summaries ( http://arxiv.org/abs/2010.12495v1 )

ライセンス: Link先を確認
Daniel Deutsch, Dan Roth(参考訳) rougeやbertscoreといった参照ベースのメトリクスは、要約と参照を比較して要約の内容品質を評価する。 理想的には、この比較は要約に共通する情報量を計算することによって要約の情報品質を測定するべきである。 本研究では, rouge と bertscore が使用したトークンアライメントを分析し, 要約の比較を行い, それらのスコアは, 情報の重なりを計測するものとして解釈されるものではなく, 同じ話題について議論する程度であると主張した。 さらに,この結果が他の多くの要約評価指標に当てはまることを示す。 この結果から,研究目標と整合する信頼性の高い自動指標がまだ発見されておらず,高品質な情報の要約が得られていないことが示唆された。 そこで本研究では,情報重複度を直接測定する簡易かつ解釈可能な要約評価手法を提案し,他の手法だけでは提供できないモデル行動に対する洞察を得る方法について示す。

Reference-based metrics such as ROUGE or BERTScore evaluate the content quality of a summary by comparing the summary to a reference. Ideally, this comparison should measure the summary's information quality by calculating how much information the summaries have in common. In this work, we analyze the token alignments used by ROUGE and BERTScore to compare summaries and argue that their scores largely cannot be interpreted as measuring information overlap, but rather the extent to which they discuss the same topics. Further, we provide evidence that this result holds true for many other summarization evaluation metrics. The consequence of this result is that it means the summarization community has not yet found a reliable automatic metric that aligns with its research goal, to generate summaries with high-quality information. Then, we propose a simple and interpretable method of evaluating summaries which does directly measure information overlap and demonstrate how it can be used to gain insights into model behavior that could not be provided by other methods alone.
翻訳日:2022-10-03 22:44:05 公開日:2020-10-23
# 述語構造による学習文の強化によるロバスト性の向上

Improving Robustness by Augmenting Training Sentences with Predicate-Argument Structures ( http://arxiv.org/abs/2010.12510v1 )

ライセンス: Link先を確認
Nafise Sadat Moosavi, Marcel de Boer, Prasetya Ajie Utama, Iryna Gurevych(参考訳) 既存のNLPデータセットには様々なバイアスが含まれており、モデルはこれらのバイアスを素早く学習する傾向にあり、結果的にその堅牢性を制限する。 データセットバイアスに対する堅牢性を改善する既存のアプローチは、主にトレーニング目標の変更に重点を置いている。 さらに、彼らは主に特定のバイアスに対処することに集中し、ターゲットバイアスの敵対的評価セットのパフォーマンスを改善する一方で、他の方法でモデルにバイアスを与える可能性があるため、全体的なロバスト性が損なわれる。 本稿では,学習データ中の入力文を対応する述語-代名詞構造で拡張し,同じ意味の異なる実現に対して高いレベルの抽象化を提供し,モデルの文の重要部分の認識を支援することを提案する。 特定のバイアスを対象とせずに,複数のバイアスに対するトランスフォーマーモデルのロバスト性が向上することを示す。 さらに,学習データにこのバイアスを含まない場合においても,モデルが語彙重複バイアスに対して脆弱であり得ることを示すとともに,このシナリオにおける頑健性も向上することを示す。 このようなシナリオでバイアスを評価するために、敵対的なデータセットをリリースし、https://github.com/ukplab/data-augmentation-for-robustnessで追加スクリプトを作成します。

Existing NLP datasets contain various biases, and models tend to quickly learn those biases, which in turn limits their robustness. Existing approaches to improve robustness against dataset biases mostly focus on changing the training objective so that models learn less from biased examples. Besides, they mostly focus on addressing a specific bias, and while they improve the performance on adversarial evaluation sets of the targeted bias, they may bias the model in other ways, and therefore, hurt the overall robustness. In this paper, we propose to augment the input sentences in the training data with their corresponding predicate-argument structures, which provide a higher-level abstraction over different realizations of the same meaning and help the model to recognize important parts of sentences. We show that without targeting a specific bias, our sentence augmentation improves the robustness of transformer models against multiple biases. In addition, we show that models can still be vulnerable to the lexical overlap bias, even when the training data does not contain this bias, and that the sentence augmentation also improves the robustness in this scenario. We will release our adversarial datasets to evaluate bias in such a scenario as well as our augmentation scripts at https://github.com/UKPLab/data-augmentation-for-robustness.
翻訳日:2022-10-03 22:43:37 公開日:2020-10-23
# ネガティブコントラストを改良したニューラルパス検索

Neural Passage Retrieval with Improved Negative Contrast ( http://arxiv.org/abs/2010.12523v1 )

ライセンス: Link先を確認
Jing Lu, Gustavo Hernandez Abrego, Ji Ma, Jianmo Ni, Yinfei Yang(参考訳) 本稿では,2つのエンコーダモデルにおける負サンプリングの効果について検討する。 我々は、通常、二重エンコーダモデルの訓練に使用される正のランダムサンプリングを補完する4つの負のサンプリング戦略を探求する。 4つの戦略のうち3つは検索に基づいており、1つはヒューリスティックに基づいている。 検索に基づく戦略は,意味的類似性と質問文と文節間の語彙的重複に基づく。 合成データによる事前トレーニングとドメイン固有データによる微調整の2段階において、デュアルエンコーダモデルをトレーニングする。 両段階に負のサンプリングを適用する。 この手法は2つの経路探索タスクで評価される。 全てのタスクに最適な1つのサンプリング戦略が存在することは明らかではないが、我々の戦略が応答と他の全てのパスとのコントラストの改善に寄与していることは明らかである。 さらに、異なる戦略からの負の混合は、すべてのタスクで最高のパフォーマンス戦略と同等のパフォーマンスを達成する。 その結果,我々が評価した2つのオープンドメイン質問応答データセットにおいて,新たな最先端のパフォーマンスが確立された。

In this paper we explore the effects of negative sampling in dual encoder models used to retrieve passages for automatic question answering. We explore four negative sampling strategies that complement the straightforward random sampling of negatives, typically used to train dual encoder models. Out of the four strategies, three are based on retrieval and one on heuristics. Our retrieval-based strategies are based on the semantic similarity and the lexical overlap between questions and passages. We train the dual encoder models in two stages: pre-training with synthetic data and fine tuning with domain-specific data. We apply negative sampling to both stages. The approach is evaluated in two passage retrieval tasks. Even though it is not evident that there is one single sampling strategy that works best in all the tasks, it is clear that our strategies contribute to improving the contrast between the response and all the other passages. Furthermore, mixing the negatives from different strategies achieve performance on par with the best performing strategy in all tasks. Our results establish a new state-of-the-art level of performance on two of the open-domain question answering datasets that we evaluated.
翻訳日:2022-10-03 22:43:13 公開日:2020-10-23
# GiBERT:軽量ゲート注入法による言語知識のBERTへの導入

GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight Gated Injection Method ( http://arxiv.org/abs/2010.12532v1 )

ライセンス: Link先を確認
Nicole Peinelt, Marek Rei and Maria Liakata(参考訳) BERTのような大規模な事前訓練された言語モデルは、最近の多くのNLPタスクの改善の原動力となっている。 しかし、BERTは、マスクの後ろか次の文のどちらかで欠落した単語を予測するためにのみ訓練されており、教師なしの事前訓練によって得られるもの以外の語彙、構文、意味的な情報について知識がない。 本稿では,事前学習したBERTの任意の層に単語埋め込みの形で言語知識を明示的に注入する手法を提案する。 依存性ベースと逆適合の埋め込みを注入する場合、複数のセマンティック類似性データセットのパフォーマンス改善は、そのような情報が有用であり、現在元のモデルから欠落していることを示している。 定性的な分析から,同義語対が関与する症例では,非適合な埋め込み注入が特に有効であることが示唆された。

Large pre-trained language models such as BERT have been the driving force behind recent improvements across many NLP tasks. However, BERT is only trained to predict missing words - either behind masks or in the next sentence - and has no knowledge of lexical, syntactic or semantic information beyond what it picks up through unsupervised pre-training. We propose a novel method to explicitly inject linguistic knowledge in the form of word embeddings into any layer of a pre-trained BERT. Our performance improvements on multiple semantic similarity datasets when injecting dependency-based and counter-fitted embeddings indicate that such information is beneficial and currently missing from the original model. Our qualitative analysis shows that counter-fitted embedding injection particularly helps with cases involving synonym pairs.
翻訳日:2022-10-03 22:42:35 公開日:2020-10-23
# NL$\lambda$の証明論的側面

Proof-theoretic aspects of NL$\lambda$ ( http://arxiv.org/abs/2010.12223v1 )

ライセンス: Link先を確認
Richard Moot (TEXTE, LIRMM, CNRS)(参考訳) 我々は論理 nl$\lambda$ (barker \& shan 2014 barker 2019) の証明論的解析を行う。 特に,証明ネットの新たな計算法を導入し,論理のシークエント計算に関して健全かつ完備であることを証明した。 この新たな計算を用いて論理の決定可能性と複雑性について検討し、論理の複雑さに対する新しい上限(NPである)と形式主義によって生成される形式言語のクラスに対する新しい下位境界(置換クロージャ操作で拡張された文脈に敏感な言語)を証明した。 最後に,この新しい計算法により,nl$\lambda$ と kubota \& levine (2020) のハイブリッド型論理文法の比較を行った。 2つの形式論で提案された自然言語解析の予期せぬ収束があることを示す。 nl$\lambda$ の証明論的性質の研究に加えて、その言語的範囲を大きく広げた。

We present a proof-theoretic analysis of the logic NL$\lambda$ (Barker \& Shan 2014, Barker 2019). We notably introduce a novel calculus of proof nets and prove it is sound and complete with respect to the sequent calculus for the logic. We study decidability and complexity of the logic using this new calculus, proving a new upper bound for complexity of the logic (showing it is in NP) and a new lower bound for the class of formal language generated by the formalism (mildly context-sensitive languages extended with a permutation closure operation). Finally, thanks to this new calculus, we present a novel comparison between NL$\lambda$ and the hybrid type-logical grammars of Kubota \& Levine (2020). We show there is an unexpected convergence of the natural language analyses proposed in the two formalism. In addition to studying the proof-theoretic properties of NL$\lambda$, we greatly extends its linguistic coverage.
翻訳日:2022-10-03 22:35:45 公開日:2020-10-23
# ラトビアツイートの知覚分析のための事前学習と微調整戦略

Pretraining and Fine-Tuning Strategies for Sentiment Analysis of Latvian Tweets ( http://arxiv.org/abs/2010.12401v1 )

ライセンス: Link先を確認
Gaurish Thakkar, Marcis Pinnis(参考訳) 本稿では,感情分類タスクの精度向上を支援する様々な事前学習戦略を提案する。 最初は、これらの戦略を使った事前学習表現モデルを使って、下流タスクでそれらを微調整しました。 時間均衡ツイート評価セットにおける実験結果は,先行手法に対する改善を示す。 我々は,ラトビア語ツイートの76%の精度向上を実現した。

In this paper, we present various pre-training strategies that aid in im-proving the accuracy of the sentiment classification task. We, at first, pre-trainlanguage representation models using these strategies and then fine-tune them onthe downstream task. Experimental results on a time-balanced tweet evaluation setshow the improvement over the previous technique. We achieve 76% accuracy forsentiment analysis on Latvian tweets, which is a substantial improvement over pre-vious work
翻訳日:2022-10-03 22:34:37 公開日:2020-10-23
# UNER:Universal Named-Entity RecognitionFramework

UNER: Universal Named-Entity RecognitionFramework ( http://arxiv.org/abs/2010.12406v1 )

ライセンス: Link先を確認
Diego Alves, Tin Kuculo, Gabriel Amaral, Gaurish Thakkar, and Marko Tadic(参考訳) 本報告では,Universal Named-Entity Recognition (UNER) フレームワーク,4レベル分類階層,および最初の多言語UNERコーパス(SETimesparallel corpus)の作成に採用されている方法論を紹介する。 まず、英語のSETimescorpusは既存のツールと知識ベースを使って注釈付けされる。 クラウドソーシングによるアノテーションの評価の後、se-times corpora内の他の言語に自動的に伝播する。 最後に、外部評価として、UNER Multilin-gualデータセットを使用して、利用可能なNERツールをトレーニングおよびテストする。 今後の研究の方向性として、UNERコーパスの言語数を増やし、UNERを利用可能な知識グラフと統合して名前付き認識を改善する可能性を検討することを目的とする。

We introduce the Universal Named-Entity Recognition (UNER)framework, a 4-level classification hierarchy, and the methodology that isbeing adopted to create the first multilingual UNER corpus: the SETimesparallel corpus annotated for named-entities. First, the English SETimescorpus will be annotated using existing tools and knowledge bases. Afterevaluating the resulting annotations through crowdsourcing campaigns,they will be propagated automatically to other languages within the SE-Times corpora. Finally, as an extrinsic evaluation, the UNER multilin-gual dataset will be used to train and test available NER tools. As part offuture research directions, we aim to increase the number of languages inthe UNER corpus and to investigate possible ways of integrating UNERwith available knowledge graphs to improve named-entity recognition.
翻訳日:2022-10-03 22:34:12 公開日:2020-10-23
# EU公式アントラリソース言語15の言語ツールの評価

Evaluating Language Tools for Fifteen EU-official Under-resourced Languages ( http://arxiv.org/abs/2010.12428v1 )

ライセンス: Link先を確認
Diego Alves, Gaurish Thakkar, Marko Tadi\'c(参考訳) 本稿では、EUの公式なアントラリソース言語15言語を対象に、言語ツールの評価キャンペーンの結果について述べる。 この評価は、少なくとも24のEUの公式言語に対する言語処理チェーン(LPC)の適用に基づいて、言語間イベント中心の知識処理を構築することを目的としたMSC ITN CLEOPATRAアクションで実施された。 このキャンペーンでは、我々は既存の3つのNLPプラットフォーム(Stanford CoreNLP、NLP Cube、UDPipe)に集中し、すべての言語がアンダーリソース言語のためのモデルを提供しています。 本稿では,評価キャンペーンの設計と,その評価結果について考察する。 我々は、報告結果と試験結果の違いを、許容許容許容範囲内である1パーセンテージ内で考慮し、その結果を再現可能なものとした。 しかし、多くの言語では、結果は文献で報告されたものを下回っており、いくつかのケースでは、以前報告したものよりもさらに良い結果が得られている。 特に問題なのはNERCシステムの評価であった。 理由の1つは、構文解析におけるUniversal Dependencyスキームに類似した言語でNERCタスクを機能させる普遍的または言語横断的に適用される名前付きエンティティ分類スキームが存在しないことである。 このような計画を構築することは、将来の研究の方向性の1つになっている。

This article presents the results of the evaluation campaign of language tools available for fifteen EU-official under-resourced languages. The evaluation was conducted within the MSC ITN CLEOPATRA action that aims at building the cross-lingual event-centric knowledge processing on top of the application of linguistic processing chains (LPCs) for at least 24 EU-official languages. In this campaign, we concentrated on three existing NLP platforms (Stanford CoreNLP, NLP Cube, UDPipe) that all provide models for under-resourced languages and in this first run we covered 15 under-resourced languages for which the models were available. We present the design of the evaluation campaign and present the results as well as discuss them. We considered the difference between reported and our tested results within a single percentage point as being within the limits of acceptable tolerance and thus consider this result as reproducible. However, for a number of languages, the results are below what was reported in the literature, and in some cases, our testing results are even better than the ones reported previously. Particularly problematic was the evaluation of NERC systems. One of the reasons is the absence of universally or cross-lingually applicable named entities classification scheme that would serve the NERC task in different languages analogous to the Universal Dependency scheme in parsing task. To build such a scheme has become one of our the future research directions.
翻訳日:2022-10-03 22:33:24 公開日:2020-10-23
# バッチ更新ポリシー下における従属サンプルからのバンディットアルゴリズムのオフポリシー評価

Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under Batch Update Policy ( http://arxiv.org/abs/2010.13554v1 )

ライセンス: Link先を確認
Masahiro Kato and Yusuke Kaneko(参考訳) オフ政治評価(OPE)の目標は,行動政策を通じて得られた履歴データを用いて,新たな政策を評価することである。 しかし、文脈的バンディットアルゴリズムは過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分散している(すなわち、d)。 本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することでこの問題に対処する。 データ生成プロセスでは、ポリシーの収束は想定していないが、ポリシーは特定の期間にアクションを選択する条件付き確率と同じものである。 次に,評価政策の価値を漸近的に正規に推定する指標を導出する。 本手法のもう1つの利点として,バッチベースのアプローチは不足するサポート問題を同時に解決する。 ベンチマークと実世界のデータセットを用いて,提案手法の有効性を実験的に検証した。

The goal of off-policy evaluation (OPE) is to evaluate a new policy using historical data obtained via a behavior policy. However, because the contextual bandit algorithm updates the policy based on past observations, the samples are not independent and identically distributed (i.i.d.). This paper tackles this problem by constructing an estimator from a martingale difference sequence (MDS) for the dependent samples. In the data-generating process, we do not assume the convergence of the policy, but the policy uses the same conditional probability of choosing an action during a certain period. Then, we derive an asymptotically normal estimator of the value of an evaluation policy. As another advantage of our method, the batch-based approach simultaneously solves the deficient support problem. Using benchmark and real-world datasets, we experimentally confirm the effectiveness of the proposed method.
翻訳日:2022-10-03 22:27:20 公開日:2020-10-23
# 臨床の現実を一致させる: 少数のラベルによる正確なoctに基づく診断

Matching the Clinical Reality: Accurate OCT-Based Diagnosis From Few Labels ( http://arxiv.org/abs/2010.12316v1 )

ライセンス: Link先を確認
Valentyn Melnychuk, Evgeniy Faerman, Ilja Manakov and Thomas Seidl(参考訳) ラベルのないデータはクリニックでは豊富であり、半教師付き学習に基づく機械学習手法はこの設定に適合する。 それにもかかわらず、医療画像分析の文献にはほとんど注目されていない。 代わりに、ほとんどの実践者や研究者は学習アプローチを監督または移譲することに集中している。 最近提案されたmixmatchとfixmatchアルゴリズムは、非常に少ないラベルを必要としながら有用な表現を抽出する有望な結果を示している。 近年の成功により, 眼科診断にMixMatchとFixMatchを応用し, 標準転写学習にどう対応しているかを検討した。 いずれのアルゴリズムもラベル付きデータの全ての分数で転送学習ベースラインを上回っていることがわかった。 さらに,両アルゴリズムの構成要素であるモデルパラメータの指数移動平均 (EMA) は,結果が変化しないため,分類問題に必要ではないことを示した。 私たちのコードはオンラインで入手できる。 https://github.com/Valentyn1997/oct-diagn-semi-supervised

Unlabeled data is often abundant in the clinic, making machine learning methods based on semi-supervised learning a good match for this setting. Despite this, they are currently receiving relatively little attention in medical image analysis literature. Instead, most practitioners and researchers focus on supervised or transfer learning approaches. The recently proposed MixMatch and FixMatch algorithms have demonstrated promising results in extracting useful representations while requiring very few labels. Motivated by these recent successes, we apply MixMatch and FixMatch in an ophthalmological diagnostic setting and investigate how they fare against standard transfer learning. We find that both algorithms outperform the transfer learning baseline on all fractions of labelled data. Furthermore, our experiments show that exponential moving average (EMA) of model parameters, which is a component of both algorithms, is not needed for our classification problem, as disabling it leaves the outcome unchanged. Our code is available online: https://github.com/Valentyn1997/oct-diagn-semi-supervised
翻訳日:2022-10-03 22:26:24 公開日:2020-10-23
# 深層学習による心臓弁輪運動の推定

Estimation of Cardiac Valve Annuli Motion with Deep Learning ( http://arxiv.org/abs/2010.12446v1 )

ライセンス: Link先を確認
Eric Kerfoot, Carlos Escudero King, Tefvik Ismail, David Nordsletten, Renee Miller(参考訳) 非侵襲的イメージングで測定された弁輪運動と形態は、健康的および病理学的心臓機能をよりよく理解するために使用できる。 長軸ひずみやピークひずみ速度などの測定は、シストリック機能の指標となる。 同様に、初期および後期ダイアストリック充填速度はダイアストリック関数の指標として用いられる。 しかし、大域的なひずみの定量化には、心臓周期を通して長軸運動を高速かつ正確に追跡する手法が必要である。 心筋壁へのリーフレットの挿入のような弁のランドマークは、グローバルな長軸運動を測定するために追跡できる特徴を提供する。 特徴追跡には初期化が必要であり、大きなコホートを持つ研究では時間を要する。 そこで本研究では,3つの長軸からの6つの僧帽弁点,2つの大動脈弁点および2つの三尖弁点から,ラベル付き長軸MR画像から10つの特徴を同定するニューラルネットワークを開発した。 本研究は, 2-, 3- and 4-chamber長軸画像における弁目印の手動アノテーションを用いてネットワークをトレーニングした。 これらの10個の特徴をピクセル距離で識別する精度は, 普通に用いられている2つの特徴追跡手法の精度と, マニュアルアノテーションのサーバ間変動性と比較した。 この方法の有用性と堅牢性を示すため, 弁の目印ひずみや, エンド-ジストールとエンド-シストールの運動などの臨床的指標も提示された。

Valve annuli motion and morphology, measured from non-invasive imaging, can be used to gain a better understanding of healthy and pathological heart function. Measurements such as long-axis strain as well as peak strain rates provide markers of systolic function. Likewise, early and late-diastolic filling velocities are used as indicators of diastolic function. Quantifying global strains, however, requires a fast and precise method of tracking long-axis motion throughout the cardiac cycle. Valve landmarks such as the insertion of leaflets into the myocardial wall provide features that can be tracked to measure global long-axis motion. Feature tracking methods require initialisation, which can be time-consuming in studies with large cohorts. Therefore, this study developed and trained a neural network to identify ten features from unlabeled long-axis MR images: six mitral valve points from three long-axis views, two aortic valve points and two tricuspid valve points. This study used manual annotations of valve landmarks in standard 2-, 3- and 4-chamber long-axis images collected in clinical scans to train the network. The accuracy in the identification of these ten features, in pixel distance, was compared with the accuracy of two commonly used feature tracking methods as well as the inter-observer variability of manual annotations. Clinical measures, such as valve landmark strain and motion between end-diastole and end-systole, are also presented to illustrate the utility and robustness of the method.
翻訳日:2022-10-03 22:26:10 公開日:2020-10-23
# 初歩的メッシュ畳み込みニューラルネットワーク

Primal-Dual Mesh Convolutional Neural Networks ( http://arxiv.org/abs/2010.12455v1 )

ライセンス: Link先を確認
Francesco Milano, Antonio Loquercio, Antoni Rosinol, Davide Scaramuzza, Luca Carlone(参考訳) 幾何深層学習における最近の研究は、畳み込み(convolution)を定義し、時には三角メッシュ上の操作をプールすることで三次元幾何学データ上で推論タスクを実行できるニューラルネットワークを導入した。 しかしながら、これらの方法は、入力メッシュをグラフとみなすか、特徴集約やダウンサンプリングのためにメッシュの特定の幾何学的性質を活用しないか、メッシュに特化しているが、メッシュの局所トポロジーを適切に捉えない畳み込みの厳格な定義に依存している。 グラフニューラル・ネットワークの文献から引き出された原始双対のフレームワークを三角形メッシュに拡張し、入力メッシュから構築された2種類のグラフ上の畳み込みを定義する。 本手法は,3次元メッシュのエッジと顔の特徴を入力として取り,アテンション機構を用いて動的に集約する。 同時に,メッシュ顔のクラスタリングによるメッシュ接続のばらつきをタスク駆動方式で処理可能にする,正確な幾何学的解釈によるプーリング操作を導入する。 メッシュ単純化文献のツールを用いて,アプローチに関する理論的洞察を提供する。 さらに, 形状分類と形状分割のタスクにおいて, 本手法を実験的に検証し, 最先端技術に匹敵する性能を得る。

Recent works in geometric deep learning have introduced neural networks that allow performing inference tasks on three-dimensional geometric data by defining convolution, and sometimes pooling, operations on triangle meshes. These methods, however, either consider the input mesh as a graph, and do not exploit specific geometric properties of meshes for feature aggregation and downsampling, or are specialized for meshes, but rely on a rigid definition of convolution that does not properly capture the local topology of the mesh. We propose a method that combines the advantages of both types of approaches, while addressing their limitations: we extend a primal-dual framework drawn from the graph-neural-network literature to triangle meshes, and define convolutions on two types of graphs constructed from an input mesh. Our method takes features for both edges and faces of a 3D mesh as input and dynamically aggregates them using an attention mechanism. At the same time, we introduce a pooling operation with a precise geometric interpretation, that allows handling variations in the mesh connectivity by clustering mesh faces in a task-driven fashion. We provide theoretical insights of our approach using tools from the mesh-simplification literature. In addition, we validate experimentally our method in the tasks of shape classification and shape segmentation, where we obtain comparable or superior performance to the state of the art.
翻訳日:2022-10-03 22:25:48 公開日:2020-10-23
# 畳み込みニューラルネットワークを用いた高速画像ベースプラント数推定

High-Throughput Image-Based Plant Stand Count Estimation Using Convolutional Neural Networks ( http://arxiv.org/abs/2010.12552v1 )

ライセンス: Link先を確認
Saeed Khaki, Hieu Pham, Ye Han, Wade Kent and Lizhi Wang(参考訳) 現代農業と植物育種の未来は、社会の複雑なニーズによって急速に変化している。 収集可能なデータの爆発は農業に革命を巻き起こし、イノベーションを起こさなければならない。 商業組織では、繁殖サイクルの要点において最適な決定を下すためには、正確かつ効率的な情報の収集が必要である。 しかし、育種プログラムのせん断サイズと現在の資源制限のため、個々の植物について正確なデータを収集することは不可能である。 特に、作物の色、形状、化学的性質、病原性などを記録するための効率的な表現型付けは、労働条件や専門分野の知識によって著しく制限されている。 本稿では,画像ベースのコーンスタンド数を初期表現論的にカウントするdeepstandという深層学習手法を提案する。 提案手法では,vgg-16ネットワークをバックボーン特徴抽出器として採用し,複数の特徴マップを異なるスケールにマージすることで,ネットワークをスケール変動に対して頑健にする。 計算実験の結果,提案手法はコーンスタンドを数えることができ,他の最先端手法よりも優れていたことが示唆された。 広範囲な時間と労働条件を使わずに、高スループット表現を可能にする手段として、大規模農業社会で活用することが目的である。

The future landscape of modern farming and plant breeding is rapidly changing due to the complex needs of our society. The explosion of collectable data has started a revolution in agriculture to the point where innovation must occur. To a commercial organization, the accurate and efficient collection of information is necessary to ensure that optimal decisions are made at key points of the breeding cycle. However, due to the shear size of a breeding program and current resource limitations, the ability to collect precise data on individual plants is not possible. In particular, efficient phenotyping of crops to record its color, shape, chemical properties, disease susceptibility, etc. is severely limited due to labor requirements and, oftentimes, expert domain knowledge. In this paper, we propose a deep learning based approach, named DeepStand, for image-based corn stand counting at early phenological stages. The proposed method adopts a truncated VGG-16 network as a backbone feature extractor and merges multiple feature maps with different scales to make the network robust against scale variation. Our extensive computational experiments suggest that our proposed method can successfully count corn stands and out-perform other state-of-the-art methods. It is the goal of our work to be used by the larger agricultural community as a way to enable high-throughput phenotyping without the use of extensive time and labor requirements.
翻訳日:2022-10-03 22:25:26 公開日:2020-10-23
# Kvasir-Instrument:消化器内視鏡における診断・治療ツールセグメンテーションデータセット

Kvasir-Instrument: Diagnostic and therapeutic tool segmentation dataset in gastrointestinal endoscopy ( http://arxiv.org/abs/2011.08065v1 )

ライセンス: Link先を確認
Debesh Jha, Sharib Ali, Krister Emanuelsen, Steven A. Hicks, VajiraThambawita, Enrique Garcia-Ceja, Michael A. Riegler, Thomas de Lange, Peter T. Schmidt, H{\aa}vard D. Johansen, Dag Johansen, and P{\aa}l Halvorsen(参考訳) 消化器疾患(GI)は外科的ツールを用いて定期的にスクリーニングされ、生検され、切除される。 通常、処置と治療または切除された領域は、結腸手術中または術後に特に追跡または分析されることはない。 検疫区域の病界, 発生量, 大きさに関する情報は失われる。 これは、フォローアップが悪く、治療後の再評価が困難になる可能性がある。 現在の標準を改善し、トピックに関するさらなる研究を促進するために、私たちは‘kvasir-instrument’データセットをリリースした。 画像の他に、データセットには地上の真理マスクとバウンディングボックスが含まれており、2人の専門家GI内科医によって検証されている。 さらに,GIツールのセグメンテーションのベースラインを提供し,研究とアルゴリズム開発を促進する。 従来のu-netアーキテクチャを用いて,dice係数スコア 0.9158 と jaccard index 0.8578 を得た。 DoubleUNetでは同様のダイス係数が観測された。 定性的な結果から, このモデルでは, 特異性のある画像や複数の楽器のフレームが動作せず, どちらの手法も他の種類の画像に対して最良の結果が得られた。 定性的かつ定量的な結果から、このモデルは合理的に優れた性能を示すが、さらなる改善の可能性は大きい。 このデータセットを用いたベンチマークは、GI内視鏡のための自動内視鏡診断および治療ツールセグメンテーションの分野に研究者が貢献する機会を提供する。

Gastrointestinal (GI) pathologies are periodically screened, biopsied, and resected using surgical tools. Usually the procedures and the treated or resected areas are not specifically tracked or analysed during or after colonoscopies. Information regarding disease borders, development and amount and size of the resected area get lost. This can lead to poor follow-up and bothersome reassessment difficulties post-treatment. To improve the current standard and also to foster more research on the topic we have released the ``Kvasir-Instrument'' dataset which consists of $590$ annotated frames containing GI procedure tools such as snares, balloons and biopsy forceps, etc. Beside of the images, the dataset includes ground truth masks and bounding boxes and has been verified by two expert GI endoscopists. Additionally, we provide a baseline for the segmentation of the GI tools to promote research and algorithm development. We obtained a dice coefficient score of 0.9158 and a Jaccard index of 0.8578 using a classical U-Net architecture. A similar dice coefficient score was observed for DoubleUNet. The qualitative results showed that the model did not work for the images with specularity and the frames with multiple instruments, while the best result for both methods was observed on all other types of images. Both, qualitative and quantitative results show that the model performs reasonably good, but there is a large potential for further improvements. Benchmarking using the dataset provides an opportunity for researchers to contribute to the field of automatic endoscopic diagnostic and therapeutic tool segmentation for GI endoscopy.
翻訳日:2022-10-03 22:25:05 公開日:2020-10-23
# アスペクトレベルの感性分類のための注意伝達ネットワーク

Attention Transfer Network for Aspect-level Sentiment Classification ( http://arxiv.org/abs/2010.12156v1 )

ライセンス: Link先を確認
Fei Zhao, Zhen Wu, Xinyu Dai(参考訳) アスペクトレベルの感情分類(ASC)は、文中の特定の意見対象の感情極性を検出することを目的としている。 ASCのニューラルネットワークに基づく手法では、ほとんどの研究は、注目メカニズムを使用して、意見対象の感情語をキャプチャし、対象者の感情を推測する証拠として集約する。 しかし、アスペクトレベルのデータセットはすべてアノテーションの複雑さのため比較的小規模である。 データ不足により、注意機構がターゲットの対応する感情語に集中できない場合があり、最終的にはニューラルモデルの性能が低下する。 そこで本論文では,資源に富んだ文書レベルの感情分類データセットから注目知識をうまく活用し,アスペクトレベルの感情分類タスクの注意力を向上させる新しい意識伝達ネットワーク(ATN)を提案する。 ATNモデルでは、注意を伝達する2つの異なる手法を設計し、2つのASCベンチマークデータセット上で実験を行う。 実験結果から,本手法が常に最先端の作業より優れていることが示された。 さらに分析はATNの有効性も検証する。

Aspect-level sentiment classification (ASC) aims to detect the sentiment polarity of a given opinion target in a sentence. In neural network-based methods for ASC, most works employ the attention mechanism to capture the corresponding sentiment words of the opinion target, then aggregate them as evidence to infer the sentiment of the target. However, aspect-level datasets are all relatively small-scale due to the complexity of annotation. Data scarcity causes the attention mechanism sometimes to fail to focus on the corresponding sentiment words of the target, which finally weakens the performance of neural models. To address the issue, we propose a novel Attention Transfer Network (ATN) in this paper, which can successfully exploit attention knowledge from resource-rich document-level sentiment classification datasets to improve the attention capability of the aspect-level sentiment classification task. In the ATN model, we design two different methods to transfer attention knowledge and conduct experiments on two ASC benchmark datasets. Extensive experimental results show that our methods consistently outperform state-of-the-art works. Further analysis also validates the effectiveness of ATN.
翻訳日:2022-10-03 22:24:41 公開日:2020-10-23
# 潜在ブロックモデルを用いた欠落データからの学習

Learning from missing data with the Latent Block Model ( http://arxiv.org/abs/2010.12222v1 )

ライセンス: Link先を確認
Gabriel Frisch (Heudiasyc), Jean-Benoist L\'eger (Heudiasyc), Yves Grandvalet (Heudiasyc)(参考訳) データの欠落は有益である。 この情報を無視すると、データモデルが欠落したデータから情報を抽出できない場合、誤った結論につながる可能性がある。 我々は,無作為データ(mnar)における欠落(missing not at random data)として知られる,非無視的な非応答の活用を目的とした,潜在ブロックモデルに基づく共クラスタモデルを提案する。 変分期待最大化アルゴリズムを導出して推論を行い、モデル選択基準を提示する。 提案手法をシミュレーション実験で評価し,フランス議会の議決記録をモデルとし,非投票者の行動の賢明な解釈とともに,関連する議員グループとテキストを提示する手法について検討した。

Missing data can be informative. Ignoring this information can lead to misleading conclusions when the data model does not allow information to be extracted from the missing data. We propose a co-clustering model, based on the Latent Block Model, that aims to take advantage of this nonignorable nonresponses, also known as Missing Not At Random data (MNAR). A variational expectation-maximization algorithm is derived to perform inference and a model selection criterion is presented. We assess the proposed approach on a simulation study, before using our model on the voting records from the lower house of the French Parliament, where our analysis brings out relevant groups of MPs and texts, together with a sensible interpretation of the behavior of non-voters.
翻訳日:2022-10-03 22:18:15 公開日:2020-10-23
# リスク回避強化学習によるオプションヘッジ

Option Hedging with Risk Averse Reinforcement Learning ( http://arxiv.org/abs/2010.12245v1 )

ライセンス: Link先を確認
Edoardo Vittori, Michele Trapletti, Marcello Restelli(参考訳) 本稿では,リスク回避型強化学習がヘッジオプションにどのように役立つかを示す。 信頼領域変動最適化(trvo:trust region volatility optimization)をバニラオプションヘッジ環境に適用し、離散時間やトランザクションコストといった現実的な要因を考慮に入れる。 エージェントはボラティリティを最小限に抑え、トランザクションコストを抑えなければならない。 このアルゴリズムを用いて,異なるリスク回避によって特徴付けられるエージェントの層をトレーニングし,ボラティリティ-p\&l空間上の効率的なフロンティアを分散させることができる。 その結果、派生したヘッジ戦略はブラック・アンド・ショルズ・デルタ・ヘッジを上回るだけでなく、非常に堅牢で柔軟なものであり、異なる特性の選択肢を効率的にヘッジし、トレーニングで使われたものと異なる振る舞いの市場で働くことができることがわかった。

In this paper we show how risk-averse reinforcement learning can be used to hedge options. We apply a state-of-the-art risk-averse algorithm: Trust Region Volatility Optimization (TRVO) to a vanilla option hedging environment, considering realistic factors such as discrete time and transaction costs. Realism makes the problem twofold: the agent must both minimize volatility and contain transaction costs, these tasks usually being in competition. We use the algorithm to train a sheaf of agents each characterized by a different risk aversion, so to be able to span an efficient frontier on the volatility-p\&l space. The results show that the derived hedging strategy not only outperforms the Black \& Scholes delta hedge, but is also extremely robust and flexible, as it can efficiently hedge options with different characteristics and work on markets with different behaviors than what was used in training.
翻訳日:2022-10-03 22:18:00 公開日:2020-10-23
# オンラインレコメンデーションシステムにおける後悔

Regret in Online Recommendation Systems ( http://arxiv.org/abs/2010.12363v1 )

ライセンス: Link先を確認
Kaito Ariu, Narae Ryu, Se-Young Yun, Alexandre Prouti\`ere(参考訳) 本稿では,オンライン環境におけるレコメンデーションシステムの理論的分析について提案する。 各ラウンドでは、ユーザがランダムに$m$のユーザから選択され、レコメンデーションが要求される。 意思決定者は、ユーザを観察し、$n$アイテムのカタログからアイテムを選択する。 重要なことに、アイテムを同じユーザに2回推奨することはできない。 ユーザが各アイテムを気に入る確率は未知である。 推奨アルゴリズムのパフォーマンスは、これらの可能性を認識したOracleアルゴリズムを参照して、その後悔を通じて取得される。 これらの確率に関する様々な構造的仮定を考察し、各構造は下限を後悔し、これらの限界を達成するアルゴリズムを考案する。 興味深いことに,本分析では,同じ項目を同じユーザに対して2度提示しないという制約によるコンポーネント,ユーザがアイテムを好む可能性の学習,そして基盤となる構造を学習する際に生じるコンポーネントの相対重みを明らかにした。

This paper proposes a theoretical analysis of recommendation systems in an online setting, where items are sequentially recommended to users over time. In each round, a user, randomly picked from a population of $m$ users, requests a recommendation. The decision-maker observes the user and selects an item from a catalogue of $n$ items. Importantly, an item cannot be recommended twice to the same user. The probabilities that a user likes each item are unknown. The performance of the recommendation algorithm is captured through its regret, considering as a reference an Oracle algorithm aware of these probabilities. We investigate various structural assumptions on these probabilities: we derive for each structure regret lower bounds, and devise algorithms achieving these limits. Interestingly, our analysis reveals the relative weights of the different components of regret: the component due to the constraint of not presenting the same item twice to the same user, that due to learning the chances users like items, and finally that arising when learning the underlying structure.
翻訳日:2022-10-03 22:17:41 公開日:2020-10-23
# バンディット問題に対するオフポリシー評価の実際的指針

A Practical Guide of Off-Policy Evaluation for Bandit Problems ( http://arxiv.org/abs/2010.12470v1 )

ライセンス: Link先を確認
Masahiro Kato, Kenshi Abe, Kaito Ariu, Shota Yasui(参考訳) オフ政治評価(OPE)とは、異なる政策によって得られたサンプルから対象政策の価値を推定する問題である。 近年,盗賊問題に対するOPE法の適用が注目されている。 ポリシー値の推定子の理論的保証のために、ope法は、サンプルを生成するのに使用されるターゲットポリシーとポリシーの様々な条件を必要とする。 しかし、既存の研究はそのような状況の実態を慎重に議論せず、両者のギャップは残っている。 本稿では,そのギャップを埋めるための新しい結果を示す。 評価方針の特性に基づいて,OPEの状況を分類する。 そこで,本論文では,最も優れた政策選択について論じる。 そこで我々は,既存のOPE推定器に基づくメタアルゴリズムを提案する。 提案する概念を合成およびオープンな実世界データセットを用いて実験により検討する。

Off-policy evaluation (OPE) is the problem of estimating the value of a target policy from samples obtained via different policies. Recently, applying OPE methods for bandit problems has garnered attention. For the theoretical guarantees of an estimator of the policy value, the OPE methods require various conditions on the target policy and policy used for generating the samples. However, existing studies did not carefully discuss the practical situation where such conditions hold, and the gap between them remains. This paper aims to show new results for bridging the gap. Based on the properties of the evaluation policy, we categorize OPE situations. Then, among practical applications, we mainly discuss the best policy selection. For the situation, we propose a meta-algorithm based on existing OPE estimators. We investigate the proposed concepts using synthetic and open real-world datasets in experiments.
翻訳日:2022-10-03 22:17:24 公開日:2020-10-23
# 共通クラスタセンターへの複数のソースの量子化:漸近解析

Quantizing Multiple Sources to a Common Cluster Center: An Asymptotic Analysis ( http://arxiv.org/abs/2010.12546v1 )

ライセンス: Link先を確認
Erdem Koyuncu(参考訳) 我々は、$l$のベクトルを$d$次元のベクトルのデータセットから$d$次元のクラスタセンターに連結して得られる$ld$次元のサンプルを定量化することを検討する。 歪測度は、クラスター中心とサンプルの間の距離 r$th の重み付き和である。 l=1$ の場合、通常のセンターベースのクラスタリングの定式化を復元する。 一般的な場合、$L>1$は、各メンバーのノイズの多い観測を通してデータセットをクラスタしたいときに現れる。 我々は,クラスター中心数が多い漸近的環境における平均歪み性能の式を見出した。 また、クラスタセンターを数値的に最適化し、実データと人工データセットの分析結果を検証するアルゴリズムも提供する。 元の(ノイズのない)データセットへの忠実性に関して、我々のクラスタリングアプローチは、$Ld$次元ノイズ観測ベクトルを$Ld$次元中心に量子化することに依拠する単純アプローチよりも優れている。

We consider quantizing an $Ld$-dimensional sample, which is obtained by concatenating $L$ vectors from datasets of $d$-dimensional vectors, to a $d$-dimensional cluster center. The distortion measure is the weighted sum of $r$th powers of the distances between the cluster center and the samples. For $L=1$, one recovers the ordinary center based clustering formulation. The general case $L>1$ appears when one wishes to cluster a dataset through $L$ noisy observations of each of its members. We find a formula for the average distortion performance in the asymptotic regime where the number of cluster centers are large. We also provide an algorithm to numerically optimize the cluster centers and verify our analytical results on real and artificial datasets. In terms of faithfulness to the original (noiseless) dataset, our clustering approach outperforms the naive approach that relies on quantizing the $Ld$-dimensional noisy observation vectors to $Ld$-dimensional centers.
翻訳日:2022-10-03 22:17:12 公開日:2020-10-23
# 列車を同時に一般化する:勾配に基づくミニマックス学習者の安定性

Train simultaneously, generalize better: Stability of gradient-based minimax learners ( http://arxiv.org/abs/2010.12561v1 )

ライセンス: Link先を確認
Farzan Farnia, Asuman Ozdaglar(参考訳) GAN(Generative Adversarial Network)のミニマックス学習問題の成功は、トレーニングに使用されるミニマックス最適化アルゴリズムに依存することが観察されている。 この依存性は一般に、基礎となる最適化アルゴリズムの収束速度とロバスト性に起因する。 本稿では,訓練されたミニマックスモデルの一般化性能において,最適化アルゴリズムが重要な役割を果たすことを示す。 この目的のために、凸凹および非凸凹のミニマックス設定下でのアルゴリズム安定性のレンズを用いて、標準勾配降下勾配法(GDA)および近点法(PPM)アルゴリズムの一般化特性を解析した。 GDAアルゴリズムは凸凹問題において余剰リスクが消滅することが保証されていないが、PPMアルゴリズムが同じ設定で有界余剰リスクを享受していることを示す。 非凸非凸問題に対して、確率的GDAアルゴリズムとGDmaxアルゴリズムの一般化性能を比較する。 一般化分析により,GDAの優位性が示唆され,最小化と最大化のサブプロブレムが同様の学習速度で同時に解決される。 学習したミニマックスモデルの一般化における最適化アルゴリズムの役割を示す数値的な結果について議論する。

The success of minimax learning problems of generative adversarial networks (GANs) has been observed to depend on the minimax optimization algorithm used for their training. This dependence is commonly attributed to the convergence speed and robustness properties of the underlying optimization algorithm. In this paper, we show that the optimization algorithm also plays a key role in the generalization performance of the trained minimax model. To this end, we analyze the generalization properties of standard gradient descent ascent (GDA) and proximal point method (PPM) algorithms through the lens of algorithmic stability under both convex concave and non-convex non-concave minimax settings. While the GDA algorithm is not guaranteed to have a vanishing excess risk in convex concave problems, we show the PPM algorithm enjoys a bounded excess risk in the same setup. For non-convex non-concave problems, we compare the generalization performance of stochastic GDA and GDmax algorithms where the latter fully solves the maximization subproblem at every iteration. Our generalization analysis suggests the superiority of GDA provided that the minimization and maximization subproblems are solved simultaneously with similar learning rates. We discuss several numerical results indicating the role of optimization algorithms in the generalization of the learned minimax models.
翻訳日:2022-10-03 22:16:55 公開日:2020-10-23
# 累積分布関数を用いたサンプリングバイアスのロバスト補正

Robust Correction of Sampling Bias Using Cumulative Distribution Functions ( http://arxiv.org/abs/2010.12687v1 )

ライセンス: Link先を確認
Bijan Mazaheri, Siddharth Jain, Jehoshua Bruck(参考訳) 変数ドメインとバイアス付きデータセットは、コバリアントシフト(covariate shift)として知られる、トレーニングとターゲット分布の違いにつながる可能性がある。 これを緩和するための現在のアプローチは、しばしばトレーニングとターゲット確率密度関数の比率を推定することに依存する。 これらのテクニックはパラメータチューニングを必要とし、異なるデータセット間で不安定になる可能性がある。 本稿では,vapnik とizmailov が提唱した最近のアイデアの厳密な一般化による目標分布の累積分布関数推定を用いた共変量シフトの処理法を提案する。 さらに,本手法は予測においてより堅牢であり,パラメータチューニングに依存しないことを示すとともに,合成および実データセットの最先端技術と類似した分類性能を示す。

Varying domains and biased datasets can lead to differences between the training and the target distributions, known as covariate shift. Current approaches for alleviating this often rely on estimating the ratio of training and target probability density functions. These techniques require parameter tuning and can be unstable across different datasets. We present a new method for handling covariate shift using the empirical cumulative distribution function estimates of the target distribution by a rigorous generalization of a recent idea proposed by Vapnik and Izmailov. Further, we show experimentally that our method is more robust in its predictions, is not reliant on parameter tuning and shows similar classification performance compared to the current state-of-the-art techniques on synthetic and real datasets.
翻訳日:2022-10-03 22:15:45 公開日:2020-10-23
# 統合勾配における飽和効果の研究

Investigating Saturation Effects in Integrated Gradients ( http://arxiv.org/abs/2010.12697v1 )

ライセンス: Link先を確認
Vivek Miglani and Narine Kokhlikyan and Bilal Alsallakh and Miguel Martin and Orion Reblitz-Richardson(参考訳) 統合勾配はポストホックモデル解釈可能性の一般的な方法となっている。 その人気を落として、積分経路の異なる領域の構成と相対的な影響はよく分かっていない。 これらの効果を考察し、モデル出力が最小に変化するこの経路の飽和領域の勾配が計算された帰属に不釣り合いに寄与することを発見した。 本研究では,不飽和領域の勾配を主に捉える統合勾配の変種を提案し,この手法をimagenet分類ネットワーク上で評価する。 この帰属的手法は,標準積分勾配と組み合わせたモデル忠実度が高く,雑音に対する感度が低いことを示す。 計算結果を示すノートブックはhttps://github.com/vivekmig/captum-1/tree/ExpandedIGで公開されている。

Integrated Gradients has become a popular method for post-hoc model interpretability. De-spite its popularity, the composition and relative impact of different regions of the integral path are not well understood. We explore these effects and find that gradients in saturated regions of this path, where model output changes minimally, contribute disproportionately to the computed attribution. We propose a variant of IntegratedGradients which primarily captures gradients in unsaturated regions and evaluate this method on ImageNet classification networks. We find that this attribution technique shows higher model faithfulness and lower sensitivity to noise com-pared with standard Integrated Gradients. A note-book illustrating our computations and results is available at https://github.com/vivekmig/captum-1/tree/ExpandedIG.
翻訳日:2022-10-03 22:10:22 公開日:2020-10-23
# KINNEWS と KIRNEWS: Kinyarwanda と Kirundi の言語間テキスト分類のベンチマーク

KINNEWS and KIRNEWS: Benchmarking Cross-Lingual Text Classification for Kinyarwanda and Kirundi ( http://arxiv.org/abs/2010.12174v1 )

ライセンス: Link先を確認
Rubungo Andre Niyongabo and Hong Qu and Julia Kreutzer and Li Huang(参考訳) テキスト分類の最近の進歩は、英語や中国語などの高リソース言語に焦点を当てている。 低リソース言語では、多くのアフリカ言語の中で、十分な注釈付きデータと効果的な事前処理が欠如しているため、メソッドの進歩と転送が妨げられている。 本稿では,アフリカの低リソース言語kiyarwandaとkirundiにおけるニュース記事のマルチクラス分類のための2つのニュースデータセット(kinnewsとkirnews)を紹介する。 2つの言語は相互に理解可能であるが、キンヤルワンダは自然言語処理(NLP)においてある程度研究されてきたが、この研究はキルンディに関する最初の研究である。 データセットとともに、統計、前処理のためのガイドライン、および単言語および言語間ベースラインモデルを提供する。 我々の実験では、比較的高いリソースを持つkinyarwandaへのトレーニング埋め込みが、kirundiへの言語間移行を成功させることが示された。 さらに、生成されたデータセットの設計により、表現学習、より遠い言語での言語間学習、構文解析、POSタグ付け、NERといったタスクのための新しいアノテーションの基盤など、将来の研究におけるテキスト分類を超えて、NLPを広く使用することができる。 データセット、ストップワード、事前トレーニングされた埋め込みはhttps://github.com/Andrews2017/KINNEWS-and-KIRNEWS-Corpusで公開されている。

Recent progress in text classification has been focused on high-resource languages such as English and Chinese. For low-resource languages, amongst them most African languages, the lack of well-annotated data and effective preprocessing, is hindering the progress and the transfer of successful methods. In this paper, we introduce two news datasets (KINNEWS and KIRNEWS) for multi-class classification of news articles in Kinyarwanda and Kirundi, two low-resource African languages. The two languages are mutually intelligible, but while Kinyarwanda has been studied in Natural Language Processing (NLP) to some extent, this work constitutes the first study on Kirundi. Along with the datasets, we provide statistics, guidelines for preprocessing, and monolingual and cross-lingual baseline models. Our experiments show that training embeddings on the relatively higher-resourced Kinyarwanda yields successful cross-lingual transfer to Kirundi. In addition, the design of the created datasets allows for a wider use in NLP beyond text classification in future studies, such as representation learning, cross-lingual learning with more distant languages, or as base for new annotations for tasks such as parsing, POS tagging, and NER. The datasets, stopwords, and pre-trained embeddings are publicly available at https://github.com/Andrews2017/KINNEWS-and-KIRNEWS-Corpus .
翻訳日:2022-10-03 22:10:10 公開日:2020-10-23
# 教師教育のための文脈特化対話エージェント開発における弱監督による分類の改善

Improving Classification through Weak Supervision in Context-specific Conversational Agent Development for Teacher Education ( http://arxiv.org/abs/2010.12710v1 )

ライセンス: Link先を確認
Debajyoti Datta, Maria Phillips, Jennifer Chiu, Ginger S. Watson, James P. Bywater, Laura Barnes, and Donald Brown(参考訳) 会話エージェント開発における自然言語処理(nlp)コンポーネントに適用する機械学習技術は、対話エージェントが提供できる精度とフィードバックの質を向上させる有望な結果を示す。 教育シナリオに特化した会話エージェントを開発するのに必要な労力は、ドメインの専門家が教室のビデオのような騒がしいデータソースをラベル付けし注釈をつける必要があるため、時間がかかります。 アノテーションをモデル化する以前のアプローチは、数千の例をラベル付けし、アノテーション間の合意と多数票を計算することで、必要なシナリオをモデル化していた。 この方法は成功したが、データポイントをラベル付けする際の個々のアノテータの強みを無視し、ラベル付けに過半数の票を持たない例を過小評価する。 これらの問題に対処するために,マルチタスク弱監視手法とアクティブラーニングの組み合わせを提案する。 このアプローチは従来の手法よりもラベル付けが少なく、多数決方式(ratner 2019)よりも正確性、効率性、時間要件が大幅に改善されている。 提案手法の有効性をGoogle Jigsawデータセットに示すとともに,インストラクショナル・クオリティ・アセスメント(IQA)を用いてラベル付けのカテゴリを定義するシナリオを提案する。 本稿では,アノテータラベリングの確率的モデリングを用いて,アクティブな学習例を生成し,さらにデータラベリングを行う。 アクティブラーニングは、元の分類モデルのトレーニング性能と精度を反復的に改善することができる。 このアプローチは、弱い監督とアクティブラーニングの最先端のラベリング技術を組み合わせて、教育領域における結果を最適化し、トランスファーラーニングを通じて、教育領域内の拡張シナリオのデータ要求を減らすためにさらに使用できる。

Machine learning techniques applied to the Natural Language Processing (NLP) component of conversational agent development show promising results for improved accuracy and quality of feedback that a conversational agent can provide. The effort required to develop an educational scenario specific conversational agent is time consuming as it requires domain experts to label and annotate noisy data sources such as classroom videos. Previous approaches to modeling annotations have relied on labeling thousands of examples and calculating inter-annotator agreement and majority votes in order to model the necessary scenarios. This method, while proven successful, ignores individual annotator strengths in labeling a data point and under-utilizes examples that do not have a majority vote for labeling. We propose using a multi-task weak supervision method combined with active learning to address these concerns. This approach requires less labeling than traditional methods and shows significant improvements in precision, efficiency, and time-requirements than the majority vote method (Ratner 2019). We demonstrate the validity of this method on the Google Jigsaw data set and then propose a scenario to apply this method using the Instructional Quality Assessment(IQA) to define the categories for labeling. We propose using probabilistic modeling of annotator labeling to generate active learning examples to further label the data. Active learning is able to iteratively improve the training performance and accuracy of the original classification model. This approach combines state-of-the art labeling techniques of weak supervision and active learning to optimize results in the educational domain and could be further used to lessen the data requirements for expanded scenarios within the education domain through transfer learning.
翻訳日:2022-10-03 22:09:19 公開日:2020-10-23
# 予防接点追跡における感染予測

Predicting Infectiousness for Proactive Contact Tracing ( http://arxiv.org/abs/2010.12536v1 )

ライセンス: Link先を確認
Yoshua Bengio, Prateek Gupta, Tegan Maharaj, Nasim Rahaman, Martin Weiss, Tristan Deleu, Eilif Muller, Meng Qu, Victor Schmidt, Pierre-Luc St-Charles, Hannah Alsdurf, Olexa Bilanuik, David Buckeridge, G\'aetan Marceau Caron, Pierre-Luc Carrier, Joumana Ghosn, Satya Ortiz-Gagne, Chris Pal, Irina Rish, Bernhard Sch\"olkopf, Abhinav Sharma, Jian Tang, Andrew Williams(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中で急速に広がり、多くの国で手動接触の追跡が圧倒的に多い。 大規模デジタル接触追跡(dct)は、ウイルスの感染拡大を最小限に抑えつつ経済活動や社会活動を再開する潜在的な解決策として浮上している。 プライバシ、モビリティ制限、公衆衛生のトレードオフを行う様々なDCT手法が提案されている。 最も一般的なアプローチであるbct(binary contact tracing)は、感染をバイナリイベントとしてモデル化し、個人のテスト結果によってのみ通知される。 BCTは、コンタクトや感染プロセスに固有の不確実性を無視しており、リスクの高い個人へのメッセージの調整や、前向きな検査や早期の警告に利用できる。 また、症状や既往の医学的症状などの症状は使用せず、より正確な感染症予測に使用することができる。 本稿では、最近発表された新型コロナウイルス疫学シミュレータを用いて、強いプライバシー制約を尊重しつつ、接触履歴やその他の情報に基づいて、個人の感染(他者への感染リスク)を局所的かつ積極的に予測できる方法を開発し、テストする。 予測は、アプリを通じて個人にパーソナライズされたレコメンデーションを提供するために使用され、また、個人の連絡先に匿名のメッセージを送信するために使われます。 平均移動度を同等にするためにBCTよりも優れた深層学習に基づくPCT法が提案され,PCTが安全な再オープンと第2波防止に役立つことが示唆された。

The COVID-19 pandemic has spread rapidly worldwide, overwhelming manual contact tracing in many countries and resulting in widespread lockdowns for emergency containment. Large-scale digital contact tracing (DCT) has emerged as a potential solution to resume economic and social activity while minimizing spread of the virus. Various DCT methods have been proposed, each making trade-offs between privacy, mobility restrictions, and public health. The most common approach, binary contact tracing (BCT), models infection as a binary event, informed only by an individual's test results, with corresponding binary recommendations that either all or none of the individual's contacts quarantine. BCT ignores the inherent uncertainty in contacts and the infection process, which could be used to tailor messaging to high-risk individuals, and prompt proactive testing or earlier warnings. It also does not make use of observations such as symptoms or pre-existing medical conditions, which could be used to make more accurate infectiousness predictions. In this paper, we use a recently-proposed COVID-19 epidemiological simulator to develop and test methods that can be deployed to a smartphone to locally and proactively predict an individual's infectiousness (risk of infecting others) based on their contact history and other information, while respecting strong privacy constraints. Predictions are used to provide personalized recommendations to the individual via an app, as well as to send anonymized messages to the individual's contacts, who use this information to better predict their own infectiousness, an approach we call proactive contact tracing (PCT). We find a deep-learning based PCT method which improves over BCT for equivalent average mobility, suggesting PCT could help in safe re-opening and second-wave prevention.
翻訳日:2022-10-03 22:07:06 公開日:2020-10-23
# Bandit Feedbackを用いたオンライン半教師付き学習

Online Semi-Supervised Learning with Bandit Feedback ( http://arxiv.org/abs/2010.12574v1 )

ライセンス: Link先を確認
Sohini Upadhyay, Mikhail Yurochkin, Mayank Agarwal, Yasaman Khazaeni and DjallelBouneffouf(参考訳) 半教師付き学習と文脈的バンディットの交点に新たな問題を定式化し,クリニカルトライアルや広告レコメンデーションなどの応用を動機付ける。 半教師付き学習手法であるグラフ畳み込みネットワーク(GCN)が,新たな問題定式化に適応できることを実証する。 また,半教師付き報酬計算を欠いた線形文脈帯域の変種も提案する。 次に,マルチGCN組込みコンテキスト帯域の開発において,両手法の利点を生かした。 我々のアルゴリズムはいくつかの実世界のデータセットで検証されている。

We formulate a new problem at the intersectionof semi-supervised learning and contextual bandits,motivated by several applications including clini-cal trials and ad recommendations. We demonstratehow Graph Convolutional Network (GCN), a semi-supervised learning approach, can be adjusted tothe new problem formulation. We also propose avariant of the linear contextual bandit with semi-supervised missing rewards imputation. We thentake the best of both approaches to develop multi-GCN embedded contextual bandit. Our algorithmsare verified on several real world datasets.
翻訳日:2022-10-03 22:00:10 公開日:2020-10-23
# ラベル平滑化が一般化に及ぼす影響の検討

An Investigation of how Label Smoothing Affects Generalization ( http://arxiv.org/abs/2010.12648v1 )

ライセンス: Link先を確認
Blair Chen, Liu Ziyin, Zihao Wang, Paul Pu Liang(参考訳) ラベルの平滑化は過剰フィッティングを減少させ、一般化を改善できると仮定されており、現在の実証的証拠はこれらの効果を共生しているようである。 しかし、そのような経験的改善が起こる時期と理由に関する数学的理解が欠如している。 本稿では,ラベルの平滑化がなぜ有効かを理解するために,ラベルの平滑化が一般化損失の制御にどのように役立つかを示す理論的枠組みを提案する。 特に、この利点はラベルノイズ設定において正確に定式化され、トレーニングの一部が誤ラベルされている場合に識別可能であることを示す。 我々の理論はまた、一般化損失を最小限に抑えるラベル平滑化ハイパーパラメータの単一の値である最適ラベル平滑化点の存在を予測する。 我々の理論の予測を確認するために広範な実験が行われた。 我々の発見は、理論家や実践者がラベルの平滑化を理解し、それらを現実世界のデータセットに適用するのに役立ちます。

It has been hypothesized that label smoothing can reduce overfitting and improve generalization, and current empirical evidence seems to corroborate these effects. However, there is a lack of mathematical understanding of when and why such empirical improvements occur. In this paper, as a step towards understanding why label smoothing is effective, we propose a theoretical framework to show how label smoothing provides in controlling the generalization loss. In particular, we show that this benefit can be precisely formulated and identified in the label noise setting, where the training is partially mislabeled. Our theory also predicts the existence of an optimal label smoothing point, a single value for the label smoothing hyperparameter that minimizes generalization loss. Extensive experiments are done to confirm the predictions of our theory. We believe that our findings will help both theoreticians and practitioners understand label smoothing, and better apply them to real-world datasets.
翻訳日:2022-10-03 21:59:09 公開日:2020-10-23
# ドロップアウトトレーニングの収束と一般化について

On Convergence and Generalization of Dropout Training ( http://arxiv.org/abs/2010.12711v1 )

ライセンス: Link先を確認
Poorya Mianjy and Raman Arora(参考訳) 整流線形単位(relu)アクティベーションを持つ2層ニューラルネットワークにおけるドロップアウトについて検討した。 軽度な過パラメータ化と限界カーネルが正のマージンでデータ分布を分離できると仮定すると、ロジスティック損失を伴うドロップアウトトレーニングは、o(1//\epsilon)$イテレーションでテストエラーにおいて$\epsilon$-suboptimalityを達成する。

We study dropout in two-layer neural networks with rectified linear unit (ReLU) activations. Under mild overparametrization and assuming that the limiting kernel can separate the data distribution with a positive margin, we show that dropout training with logistic loss achieves $\epsilon$-suboptimality in test error in $O(1/\epsilon)$ iterations.
翻訳日:2022-10-03 21:58:53 公開日:2020-10-23
# 軌道空間平滑化による学習指導

Learning Guidance Rewards with Trajectory-space Smoothing ( http://arxiv.org/abs/2010.12718v1 )

ライセンス: Link先を確認
Tanmay Gangwani, Yuan Zhou, Jian Peng(参考訳) 長期クレジット割り当ては、深層強化学習(rl)において重要な課題である。 これは、長時間の間隔で発生する可能性のある結果に、エージェントがアクションを属性する能力を指す。 既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、一般的に、豊富な短期監督と信用割当の支援を提供する密集した環境報酬に依存している。 しかし、アクションとそれに対応する報奨フィードバックの間の遅延を伴うタスクの解決に苦労する。 クレジット割り当てを容易にするために、近年の研究では、環境報酬の不足や遅延に代えて使用できる、密集した「誘導」報酬を学習するためのアルゴリズムが提案されている。 この論文は、軌道空間の滑らか化を伴う代理的なRL目標から始まり、ガイダンスの報酬を学習するための新しいアルゴリズムに到達した。 指導報酬は直感的な解釈が可能であり、追加のニューラルネットワークをトレーニングすることなく得られることを示した。 統合の容易さのため、いくつかの一般的なアルゴリズム(Q-learning, Actor-Critic, Distributional-RL)でガイダンス報酬を使用し、環境報酬が不足または遅れた場合のアプローチの利点を解明する単一エージェントおよび複数エージェントタスクで結果を示す。

Long-term temporal credit assignment is an important challenge in deep reinforcement learning (RL). It refers to the ability of the agent to attribute actions to consequences that may occur after a long time interval. Existing policy-gradient and Q-learning algorithms typically rely on dense environmental rewards that provide rich short-term supervision and help with credit assignment. However, they struggle to solve tasks with delays between an action and the corresponding rewarding feedback. To make credit assignment easier, recent works have proposed algorithms to learn dense "guidance" rewards that could be used in place of the sparse or delayed environmental rewards. This paper is in the same vein -- starting with a surrogate RL objective that involves smoothing in the trajectory-space, we arrive at a new algorithm for learning guidance rewards. We show that the guidance rewards have an intuitive interpretation, and can be obtained without training any additional neural networks. Due to the ease of integration, we use the guidance rewards in a few popular algorithms (Q-learning, Actor-Critic, Distributional-RL) and present results in single-agent and multi-agent tasks that elucidate the benefit of our approach when the environmental rewards are sparse or delayed.
翻訳日:2022-10-03 21:58:41 公開日:2020-10-23
# 軽量推論コンパイルによるメトロポリスハスティングの高速化

Accelerating Metropolis-Hastings with Lightweight Inference Compilation ( http://arxiv.org/abs/2010.12128v1 )

ライセンス: Link先を確認
Feynman Liang, Nimar Arora, Nazanin Tehrani, Yucen Li, Michael Tingley, Erik Meijer(参考訳) metropolis-hastings markov chain monte carloの正確な提案器を構築するために、確率的グラフィカルモデルとニューラルネットワークのアイデアを、私たちがlightweight inference compilation(lic)と呼ぶオープンソースフレームワークに統合します。 licはopen-universe declarative probabilistic programming language (ppl) でamortized inferenceを実装している。 グラフニューラルネットワークは、マルコフブランケットの関数として提案分布をパラメータ化するために使用され、"コンパイル"中にシングルサイトギブスサンプリング分布を近似するように最適化される。 従来の推論コンパイル(IC)とは異なり、licはベイズネットワーク上で直接動作することを優先して線形実行トレースのサンプリングを重要視していた。 宣言型PLPを用いて、ノードのマルコフ毛布(静的ではないかもしれない)を推論時にクエリしてプロポーラを生成する実験結果により、licはパラメータが少なく、ニュアンス確率変数に対するロバスト性が高く、ベイジアンロジスティック回帰および$n$schools推論アプリケーションで後続サンプリングを改善することができることを示した。

In order to construct accurate proposers for Metropolis-Hastings Markov Chain Monte Carlo, we integrate ideas from probabilistic graphical models and neural networks in an open-source framework we call Lightweight Inference Compilation (LIC). LIC implements amortized inference within an open-universe declarative probabilistic programming language (PPL). Graph neural networks are used to parameterize proposal distributions as functions of Markov blankets, which during "compilation" are optimized to approximate single-site Gibbs sampling distributions. Unlike prior work in inference compilation (IC), LIC forgoes importance sampling of linear execution traces in favor of operating directly on Bayesian networks. Through using a declarative PPL, the Markov blankets of nodes (which may be non-static) are queried at inference-time to produce proposers Experimental results show LIC can produce proposers which have less parameters, greater robustness to nuisance random variables, and improved posterior sampling in a Bayesian logistic regression and $n$-schools inference application.
翻訳日:2022-10-03 21:51:22 公開日:2020-10-23
# 転校学習におけるコンビネート的視点

A Combinatorial Perspective on Transfer Learning ( http://arxiv.org/abs/2010.12268v1 )

ライセンス: Link先を確認
Jianan Wang, Eren Sezener, David Budden, Marcus Hutter, Joel Veness(参考訳) 人間の知性は、複雑なスキルを学ぶ能力だけでなく、変化し続ける環境の中で素早く適応し、新しいスキルを獲得する能力によって特徴づけられる。 本研究では、モジュラーソリューションの学習によって、目に見えないデータと潜在的に異なる分散データの両方を効果的に一般化する方法について研究する。 タスクセグメンテーション,モジュール型学習,メモリベースアンサンブルの組み合わせによって,指数関数的に増加する多くの未確認タスクの一般化がもたらされる。 1)タスクセグメンテーションとメモリベースのセンシングのためのleath-me-notプロセス、(2)現代のディープラーニング技術がモジュラーでローカルな学習メカニズムを使用しているのとは対照的にゲート付き線形ネットワークという組み合わせを用いて、このアイデアを具体化する。 本システムでは, 破滅的な記憶への頑健性, 負の伝達がないこと, 正の伝達レベルが増加することなど, 望ましい連続学習特性を数多く示している。 標準連続学習ベンチマークにおいて,オフライン・オンライン両手法の競合性能を示す。

Human intelligence is characterized not only by the capacity to learn complex skills, but the ability to rapidly adapt and acquire new skills within an ever-changing environment. In this work we study how the learning of modular solutions can allow for effective generalization to both unseen and potentially differently distributed data. Our main postulate is that the combination of task segmentation, modular learning and memory-based ensembling can give rise to generalization on an exponentially growing number of unseen tasks. We provide a concrete instantiation of this idea using a combination of: (1) the Forget-Me-Not Process, for task segmentation and memory based ensembling; and (2) Gated Linear Networks, which in contrast to contemporary deep learning techniques use a modular and local learning mechanism. We demonstrate that this system exhibits a number of desirable continual learning properties: robustness to catastrophic forgetting, no negative transfer and increasing levels of positive transfer as more tasks are seen. We show competitive performance against both offline and online methods on standard continual learning benchmarks.
翻訳日:2022-10-03 21:50:10 公開日:2020-10-23
# 文脈情報を用いた教師なしシーケンス選択のためのオンラインアルゴリズム

Online Algorithm for Unsupervised Sequential Selection with Contextual Information ( http://arxiv.org/abs/2010.12353v1 )

ライセンス: Link先を確認
Arun Verma, Manjesh K. Hanawal, Csaba Szepesv\'ari, Venkatesh Saligrama(参考訳) 本稿では,観測されたフィードバックからアームの損失を推測できない確率的文脈的バンディット問題の新たな変種である文脈的非教師なし逐次選択(uss)について検討する。 私たちの設定では、アームは固定コストと関連付けられて、カスケードを形成します。 各ラウンドでコンテキストが提示され、学習者が一定の深さまで順次アームを選択する。 腕の停止による総コストは、選択された腕の固定コストと腕に関連する確率損失の合計である。 学習者の目標は、コンテキストをアームにマップする決定ルールを学習し、期待される損失を最小化することである。 総損失を見積もることができないため、教師なしの設定に直面しているため、問題は難しい。 明らかに、学習は最適な腕が問題構造から(明示的または暗黙的に)推論できる場合にのみ実現可能である。 問題インスタンスがいわゆる"コンテキスト弱支配(Contextual Weak Dominance)"(CWD)特性を満たす場合,学習は依然として可能である。 CWDでは,文脈的 USS 問題に対するアルゴリズムを提案し,サブ線形後悔が存在することを示す。 合成および実データセットの実験は、我々のアルゴリズムを検証する。

In this paper, we study Contextual Unsupervised Sequential Selection (USS), a new variant of the stochastic contextual bandits problem where the loss of an arm cannot be inferred from the observed feedback. In our setup, arms are associated with fixed costs and are ordered, forming a cascade. In each round, a context is presented, and the learner selects the arms sequentially till some depth. The total cost incurred by stopping at an arm is the sum of fixed costs of arms selected and the stochastic loss associated with the arm. The learner's goal is to learn a decision rule that maps contexts to arms with the goal of minimizing the total expected loss. The problem is challenging as we are faced with an unsupervised setting as the total loss cannot be estimated. Clearly, learning is feasible only if the optimal arm can be inferred (explicitly or implicitly) from the problem structure. We observe that learning is still possible when the problem instance satisfies the so-called 'Contextual Weak Dominance' (CWD) property. Under CWD, we propose an algorithm for the contextual USS problem and demonstrate that it has sub-linear regret. Experiments on synthetic and real datasets validate our algorithm.
翻訳日:2022-10-03 21:49:49 公開日:2020-10-23
# 悪いMLEからニューラルスパイクトレインモデルを救う

Rescuing neural spike train models from bad MLE ( http://arxiv.org/abs/2010.12362v1 )

ライセンス: Link先を確認
Diego M. Arribas, Yuan Zhao and Il Memming Park(参考訳) 自己回帰スパイクトレインモデルに適合する標準的なアプローチは、ワンステップ予測の可能性の最大化である。 この最大度推定(mle)は、サンプルを1回以上再帰的に生成する場合に性能の悪いモデルにつながることが多い。 さらに、生成されたスパイク列車はデータの重要な特徴を捉えられず、発火率のばらつきも示さない。 そこで本研究では,スパイクトレインカーネルを用いたニューラル記録とモデル生成スパイク列の発散を最小化する手法を提案する。 カーネルによって誘導される最大平均誤差を統計的に最適化する手法を開発した。 実データと合成ニューラルデータの両方で実施された実験は、提案されたアプローチを検証する。 スパイクトレインカーネルの異なる組み合わせを用いて、モデルミスマッチを扱う上で重要な異なる特徴間のトレードオフを制御できることが示される。

The standard approach to fitting an autoregressive spike train model is to maximize the likelihood for one-step prediction. This maximum likelihood estimation (MLE) often leads to models that perform poorly when generating samples recursively for more than one time step. Moreover, the generated spike trains can fail to capture important features of the data and even show diverging firing rates. To alleviate this, we propose to directly minimize the divergence between neural recorded and model generated spike trains using spike train kernels. We develop a method that stochastically optimizes the maximum mean discrepancy induced by the kernel. Experiments performed on both real and synthetic neural data validate the proposed approach, showing that it leads to well-behaving models. Using different combinations of spike train kernels, we show that we can control the trade-off between different features which is critical for dealing with model-mismatch.
翻訳日:2022-10-03 21:49:28 公開日:2020-10-23
# データ並列SGDのための適応型勾配量子化

Adaptive Gradient Quantization for Data-Parallel SGD ( http://arxiv.org/abs/2010.12460v1 )

ライセンス: Link先を確認
Fartash Faghri, Iman Tabrizian, Ilia Markov, Dan Alistarh, Daniel Roy, Ali Ramezani-Kebrya(参考訳) 多くの通信効率の良いSGD変種は勾配量子化スキームを使用する。 これらのスキームはしばしばヒューリスティックであり、訓練の過程で固定される。 深層モデルの勾配の統計がトレーニング中に変化することを実証的に観察する。 そこで本研究では,alqとamqの2つの適応量子化方式を提案する。 どちらの方式でも、プロセッサはパラメトリック分布の十分な統計を効率的に計算することで、圧縮スキームを並列に更新する。 CIFAR-10では約2%,ImageNetでは1%の精度で検証精度を向上し,低コスト通信に挑戦する。 私たちの適応法はハイパーパラメータの選択に対してかなり頑健です。

Many communication-efficient variants of SGD use gradient quantization schemes. These schemes are often heuristic and fixed over the course of training. We empirically observe that the statistics of gradients of deep models change during the training. Motivated by this observation, we introduce two adaptive quantization schemes, ALQ and AMQ. In both schemes, processors update their compression schemes in parallel by efficiently computing sufficient statistics of a parametric distribution. We improve the validation accuracy by almost 2% on CIFAR-10 and 1% on ImageNet in challenging low-cost communication setups. Our adaptive methods are also significantly more robust to the choice of hyperparameters.
翻訳日:2022-10-03 21:48:44 公開日:2020-10-23
# NLNDE at CANTEMIST:Neural Sequence Labeling and Parsing Approachs for Clinical Concept extract

NLNDE at CANTEMIST: Neural Sequence Labeling and Parsing Approaches for Clinical Concept Extraction ( http://arxiv.org/abs/2010.12322v1 )

ライセンス: Link先を確認
Lukas Lange, Xiang Dai, Heike Adel, Jannik Str\"otgen(参考訳) 腫瘍形態学のような臨床情報の認識と正規化は重要だが、複数のサブタスクからなる複雑なプロセスである。 本稿では,CANTEMIST共有タスクのニューラルネットワークラベリングとコンテキスト認識埋め込みを用いた解析手法を用いて,スペインの電子健康記録からICDコードを抽出,正規化,ランク付けできるシステムについて述べる。 最適システムは3つのタスクに対してそれぞれ85.3 F1,76.7 F1,77.0 MAPを達成する。

The recognition and normalization of clinical information, such as tumor morphology mentions, is an important, but complex process consisting of multiple subtasks. In this paper, we describe our system for the CANTEMIST shared task, which is able to extract, normalize and rank ICD codes from Spanish electronic health records using neural sequence labeling and parsing approaches with context-aware embeddings. Our best system achieves 85.3 F1, 76.7 F1, and 77.0 MAP for the three tasks, respectively.
翻訳日:2022-10-03 21:41:25 公開日:2020-10-23
# AMR解析のためのグラフ分割とアライメントの微分緩和

A Differentiable Relaxation of Graph Segmentation and Alignment for AMR Parsing ( http://arxiv.org/abs/2010.12676v1 )

ライセンス: Link先を確認
Chunchuan Lyu, Shay B. Cohen, Ivan Titov(参考訳) 抽象意味表現 (abstract meaning representations, amr) は、文の意味を有向非巡回グラフとして表現する幅広い意味形式である。 ほとんどのAMRパーサーを訓練するには、グラフをサブグラフに分割し、各サブグラフを文中の単語にアライメントする必要がある。 対照的に、アライメントとセグメンテーションをモデル内の潜在変数として扱い、それらをエンドツーエンドトレーニングの一部として誘導する。 構造化潜在変数の辺縁化は不可能であるため、変分自動符号化フレームワークを用いる。 エンドツーエンドの微分可能最適化を実現するために,セグメンテーション問題とアライメント問題の連続的微分可能緩和を導入する。 セグメンテーションの誘導は「グリーディ」セグメンテーションヒューリスティックの使用よりもかなりの利得が得られることを観察する。 また,本手法の性能は,個々のAMR構造を扱うために手作りされた \citet{Lyu2018AMRPA} のセグメンテーションルールに依存するモデルにアプローチする。

Abstract Meaning Representations (AMR) are a broad-coverage semantic formalism which represents sentence meaning as a directed acyclic graph. To train most AMR parsers, one needs to segment the graph into subgraphs and align each such subgraph to a word in a sentence; this is normally done at preprocessing, relying on hand-crafted rules. In contrast, we treat both alignment and segmentation as latent variables in our model and induce them as part of end-to-end training. As marginalizing over the structured latent variables is infeasible, we use the variational autoencoding framework. To ensure end-to-end differentiable optimization, we introduce a continuous differentiable relaxation of the segmentation and alignment problems. We observe that inducing segmentation yields substantial gains over using a `greedy' segmentation heuristic. The performance of our method also approaches that of a model that relies on \citet{Lyu2018AMRPA}'s segmentation rules, which were hand-crafted to handle individual AMR constructions.
翻訳日:2022-10-03 21:40:42 公開日:2020-10-23
# 時間知識グラフのためのワンショット学習

One-shot Learning for Temporal Knowledge Graphs ( http://arxiv.org/abs/2010.12144v1 )

ライセンス: Link先を確認
Mehrnoosh Mirtaheri, Mohammad Rostami, Xiang Ren, Fred Morstatter, Aram Galstyan(参考訳) ほとんどの実世界の知識グラフは、少数の関係がわずか数回しか発生しない長いテール関係周波数分布によって特徴づけられる。 この観察は、ごく少数の例から一般化できるローショット学習手法への近年の関心を生んでいる。 しかし、既存のアプローチは静的な知識グラフに適合し、データ不足が新しい、以前は目に見えない関係の出現によってさらに大きな問題を引き起こすような時間的設定に容易に一般化されない。 本稿では,時間的知識グラフにおけるリンク予測のためのワンショット学習フレームワークを提案する。 提案手法は,エンティティ間の時間的相互作用を効果的にエンコードするセルフアテンション機構と,与えられたクエリと(ワンショット)例との類似度スコアを計算するネットワークを用いる。 実験により,提案アルゴリズムが2つのよく研究されたベンチマークのベースラインを上回り,スパース関係に対する性能が大幅に向上したことを示す。

Most real-world knowledge graphs are characterized by a long-tail relation frequency distribution where a significant fraction of relations occurs only a handful of times. This observation has given rise to recent interest in low-shot learning methods that are able to generalize from only a few examples. The existing approaches, however, are tailored to static knowledge graphs and not easily generalized to temporal settings, where data scarcity poses even bigger problems, e.g., due to occurrence of new, previously unseen relations. We address this shortcoming by proposing a one-shot learning framework for link prediction in temporal knowledge graphs. Our proposed method employs a self-attention mechanism to effectively encode temporal interactions between entities, and a network to compute a similarity score between a given query and a (one-shot) example. Our experiments show that the proposed algorithm outperforms the state of the art baselines for two well-studied benchmarks while achieving significantly better performance for sparse relations.
翻訳日:2022-10-03 21:40:24 公開日:2020-10-23
# 集団勾配はオブジェクト分類におけるデータセットとアーキテクチャのパフォーマンスを改善する

Population Gradients improve performance across data-sets and architectures in object classification ( http://arxiv.org/abs/2010.12260v1 )

ライセンス: Link先を確認
Yurika Sakai, Andrey Kormilitzin, Qiang Liu, Alejo Nevado-Holgado(参考訳) relu転送関数、バッチ正規化、xavier初期化、ドロップアウト、学習率減衰、ダイナミックオプティマイザといった最も成功した手法は、特にニューラルネットワーク(nns)の性能を著しく向上させる能力が、ほぼすべての状況において、この分野において標準となっている。 本稿では,NNのトレーニング中に勾配を計算する新しい手法を提案するとともに,アーキテクチャ,データセット,ハイパーパラメータ値,トレーニング長,モデルサイズなど,他の一般的な性能改善手法(上記のような)と組み合わせた場合を含む最終性能を著しく向上させることを示す。 テスト対象の広範囲な状況において有効であることに加えて、パフォーマンスの向上(例えばF1)は、私たちが比較した他の広範なパフォーマンス改善手法のどれよりも高く、あるいは高くなっています。 我々はこの手法を人口勾配 (pg) と呼び, nns の集団を用いて, 理論的厳密な勾配 (すなわち, 無限大データセットでのみ得られる) に近い勾配の非局所推定を計算し, 経験的勾配 (すなわち, 実有限データセットで得られる) よりも誤差関数の計算を行う。

The most successful methods such as ReLU transfer functions, batch normalization, Xavier initialization, dropout, learning rate decay, or dynamic optimizers, have become standards in the field due, particularly, to their ability to increase the performance of Neural Networks (NNs) significantly and in almost all situations. Here we present a new method to calculate the gradients while training NNs, and show that it significantly improves final performance across architectures, data-sets, hyper-parameter values, training length, and model sizes, including when it is being combined with other common performance-improving methods (such as the ones mentioned above). Besides being effective in the wide array situations that we have tested, the increase in performance (e.g. F1) it provides is as high or higher than this one of all the other widespread performance-improving methods that we have compared against. We call our method Population Gradients (PG), and it consists on using a population of NNs to calculate a non-local estimation of the gradient, which is closer to the theoretical exact gradient (i.e. this one obtainable only with an infinitely big data-set) of the error function than the empirical gradient (i.e. this one obtained with the real finite data-set).
翻訳日:2022-10-03 21:34:18 公開日:2020-10-23
# S2cGAN:低ラベル条件付きガンの半監督訓練

S2cGAN: Semi-Supervised Training of Conditional GANs with Fewer Labels ( http://arxiv.org/abs/2010.12622v1 )

ライセンス: Link先を確認
Arunava Chakraborty, Rahul Ragesh, Mahir Shah, Nipun Kwatra(参考訳) generative adversarial network (gans) は複雑な高次元実単語分布を学習し、現実的なサンプルを生成することに成功した。 しかし、これらは生成過程を限定的に制御する。 条件付きGAN(cGAN)は、ユーザ定義入力に出力を条件付けすることで生成プロセスを制御するメカニズムを提供する。 GANのトレーニングには教師なしのデータのみが必要であるが、cGANのトレーニングにはラベル付きデータが必要である。 スパースラベルを用いて条件付きマッピングを学習するcgansの半教師付き学習のためのフレームワークを提案すると同時に,無条件分布を学習するために大量の教師なしデータを活用する。 提案手法の有効性を複数のデータセットと異なる条件タスクで示す。

Generative adversarial networks (GANs) have been remarkably successful in learning complex high dimensional real word distributions and generating realistic samples. However, they provide limited control over the generation process. Conditional GANs (cGANs) provide a mechanism to control the generation process by conditioning the output on a user defined input. Although training GANs requires only unsupervised data, training cGANs requires labelled data which can be very expensive to obtain. We propose a framework for semi-supervised training of cGANs which utilizes sparse labels to learn the conditional mapping, and at the same time leverages a large amount of unsupervised data to learn the unconditional distribution. We demonstrate effectiveness of our method on multiple datasets and different conditional tasks.
翻訳日:2022-10-03 21:33:55 公開日:2020-10-23
# 固有パラメータとシナプス重みトレーニングを併用したスキップ接続型自己回帰スパイクニューラルネットワーク

Skip-Connected Self-Recurrent Spiking Neural Networks with Joint Intrinsic Parameter and Synaptic Weight Training ( http://arxiv.org/abs/2010.12691v1 )

ライセンス: Link先を確認
Wenrui Zhang, Peng Li(参考訳) スパイクニューラルネットワーク(SNN)の重要なクラスとして、リカレントスパイクニューラルネットワーク(RSNN)は計算能力が高く、音声やテキストなどのシーケンシャルなデータ処理に広く利用されている。 しかし、ほとんどのRSNNは2つの問題を抱えている。 1.アーキテクチャ上のガイダンスの欠如により、ランダムなリカレント接続がしばしば採用され、優れた性能が保証されない。 2. RSNNの訓練は一般に困難であり、達成可能なモデルの精度をボトルネックにしている。 これらの問題に対処するために,ScSr-SNN(Skip-Connected Self-Recurrent SNN)と呼ばれる新しいタイプのRSNNを提案する。 ScSr-SNNにおける再帰は、局所記憶を実装したスパイキングニューロンに自己再帰接続を追加することでステレオタイプ化される。 ネットワークのダイナミクスは非隣接層間のスキップ接続によって強化される。 単純化された自己再帰接続とスキップ接続によって構成されたScSr-SNNは、より複雑なRSNNと同様の繰り返し挙動を実現できる一方、ネットワークの主にフィードフォワードの性質のため、エラー勾配はより簡単に計算できる。 さらに,本研究では,ScSr-SNNの性能を高めるために,BIP (backpropagated Intrinsic Plasticity) と呼ばれる新しいバックプロパゲーション手法を提案する。 ニューロンの内因性パラメータをニューロンの活動に応じて調節する標準的な内因性可塑性規則とは異なり、BIP法では、シナプス重量トレーニングに加えて、適切に定義された大域的損失関数のバックプロパゲートエラー勾配に基づいて内因性パラメータを最適化する。 TI46-Alpha、TI46-Digits、N-TIDIGITSなどの挑戦的な音声およびニューロモルフィック音声データセットに基づいて、提案されたScSr-SNNは、最先端BP法で訓練された他のタイプのRSNNと比較して、パフォーマンスを最大2.55%向上させることができる。

As an important class of spiking neural networks (SNNs), recurrent spiking neural networks (RSNNs) possess great computational power and have been widely used for processing sequential data like audio and text. However, most RSNNs suffer from two problems. 1. Due to a lack of architectural guidance, random recurrent connectivity is often adopted, which does not guarantee good performance. 2. Training of RSNNs is in general challenging, bottlenecking achievable model accuracy. To address these problems, we propose a new type of RSNNs called Skip-Connected Self-Recurrent SNNs (ScSr-SNNs). Recurrence in ScSr-SNNs is introduced in a stereotyped manner by adding self-recurrent connections to spiking neurons, which implements local memory. The network dynamics is enriched by skip connections between nonadjacent layers. Constructed by simplified self-recurrent and skip connections, ScSr-SNNs are able to realize recurrent behaviors similar to those of more complex RSNNs while the error gradients can be more straightforwardly calculated due to the mostly feedforward nature of the network. Moreover, we propose a new backpropagation (BP) method called backpropagated intrinsic plasticity (BIP) to further boost the performance of ScSr-SNNs by training intrinsic model parameters. Unlike standard intrinsic plasticity rules that adjust the neuron's intrinsic parameters according to neuronal activity, the proposed BIP methods optimize intrinsic parameters based on the backpropagated error gradient of a well-defined global loss function in addition to synaptic weight training. Based upon challenging speech and neuromorphic speech datasets including TI46-Alpha, TI46-Digits, and N-TIDIGITS, the proposed ScSr-SNNs can boost performance by up to 2.55% compared with other types of RSNNs trained by state-of-the-art BP methods.
翻訳日:2022-10-03 21:33:42 公開日:2020-10-23
# ファイナンシャルテキスト分類における深層変圧器の可塑性逆記述の生成

Generating Plausible Counterfactual Explanations for Deep Transformers in Financial Text Classification ( http://arxiv.org/abs/2010.12512v1 )

ライセンス: Link先を確認
Linyi Yang, Eoin M. Kenny, Tin Lok James Ng, Yi Yang, Barry Smyth, and Ruihai Dong(参考訳) 企業合併と買収(M&A)は、毎年何十億ドルもの投資をカバーし、人工知能の興味深い挑戦的な分野を提供する。 しかし、これらの高度に敏感なドメインでは、高度に堅牢で正確なモデルを持つだけでなく、ユーザの自動化システムに対する信頼を惹きつけるための有用な説明を生成できることが不可欠である。 金融テキスト分類におけるeXplainable AI(XAI)に関する最近の研究は、ほとんど注目されず、テキストベースの説明を生成するための多くの方法が、ユーザのシステムに対する信頼を損なう、非常に疑わしい説明をもたらす。 そこで本研究では,フィンテックの領域における言語モデルに対する敵対的学習の正規化の利点を探求しながら,妥当な対実的説明を生み出す新しい手法を提案する。 実証的な定量的実験は、このアプローチが現在の最先端と人間のパフォーマンスと比較してモデル精度を向上するだけでなく、人間の試行に基づいてはるかに妥当な反実的な説明を生成することを示した。

Corporate mergers and acquisitions (M&A) account for billions of dollars of investment globally every year, and offer an interesting and challenging domain for artificial intelligence. However, in these highly sensitive domains, it is crucial to not only have a highly robust and accurate model, but be able to generate useful explanations to garner a user's trust in the automated system. Regrettably, the recent research regarding eXplainable AI (XAI) in financial text classification has received little to no attention, and many current methods for generating textual-based explanations result in highly implausible explanations, which damage a user's trust in the system. To address these issues, this paper proposes a novel methodology for producing plausible counterfactual explanations, whilst exploring the regularization benefits of adversarial training on language models in the domain of FinTech. Exhaustive quantitative experiments demonstrate that not only does this approach improve the model accuracy when compared to the current state-of-the-art and human performance, but it also generates counterfactual explanations which are significantly more plausible based on human trials.
翻訳日:2022-10-03 21:33:02 公開日:2020-10-23
# クエリ指向スパーストランスフォーマーによる長文ランク付け

Long Document Ranking with Query-Directed Sparse Transformer ( http://arxiv.org/abs/2010.12683v1 )

ライセンス: Link先を確認
Jyun-Yu Jiang, Chenyan Xiong, Chia-Jung Lee and Wei Wang(参考訳) 変圧器自己着脱の計算コストは、しばしば文書ランキングタスクで事前訓練されたモデルに適合するために長い文書を壊す必要がある。 本稿では,変換器自己アテンションにおけるIR-アキシマティック構造を誘導するクエリ指向スパースアテンションを設計する。 私たちのモデルであるqds-transformerは、局所的なコンテキスト化、階層表現、クエリ指向の近接マッチングといったランク付けに必要な原則プロパティを強制します。 完全な教師付きと3つのTREC文書ランキングベンチマークの実験では、従来のアプローチに比べてQDS-Transformerの一貫性と堅牢性を実証している。 我々はさらに計算の複雑さを定量化し、TVM実装による細かな注意が完全に接続された自己注意よりも2倍効率が高いことを示す。 すべてのソースコード、トレーニングされたモデル、そしてこの作業の予測はhttps://github.com/hallogameboy/QDS-Transformer.comで入手できる。

The computing cost of transformer self-attention often necessitates breaking long documents to fit in pretrained models in document ranking tasks. In this paper, we design Query-Directed Sparse attention that induces IR-axiomatic structures in transformer self-attention. Our model, QDS-Transformer, enforces the principle properties desired in ranking: local contextualization, hierarchical representation, and query-oriented proximity matching, while it also enjoys efficiency from sparsity. Experiments on one fully supervised and three few-shot TREC document ranking benchmarks demonstrate the consistent and robust advantage of QDS-Transformer over previous approaches, as they either retrofit long documents into BERT or use sparse attention without emphasizing IR principles. We further quantify the computing complexity and demonstrates that our sparse attention with TVM implementation is twice more efficient than the fully-connected self-attention. All source codes, trained model, and predictions of this work are available at https://github.com/hallogameboy/QDS-Transformer.
翻訳日:2022-10-03 21:32:21 公開日:2020-10-23
# 単純規範的ネットワークは大脳皮質における局所的非ヘビアン学習を近似する

A simple normative network approximates local non-Hebbian learning in the cortex ( http://arxiv.org/abs/2010.12660v1 )

ライセンス: Link先を確認
Siavash Golkar, David Lipshutz, Yanis Bahroun, Anirvan M. Sengupta, Dmitri B. Chklovskii(参考訳) 行動を導くため、脳は感覚器官が流れる高次元データから関連する特徴を抽出する。 神経科学実験により、皮質ニューロンによる感覚入力の処理は、文脈やタスク関連情報を提供する指示信号によって変調されることが示された。 ここでは,規範的手法を用いて,フィードフォワードデータの投影を導く監督入力として,これらの指示的信号をモデル化する。 数学的には、還元ランク(最小)平均角誤差(RRMSE)と正準相関解析(CCA)を含むRRR(Reduceed-Rank Regression)の目的関数のファミリーから始まり、新しいオフラインおよびオンライン最適化アルゴリズムを導出し、Bio-RRRと呼ぶ。 オンラインアルゴリズムは、シナプス学習規則が皮質で観察されるカルシウムプラトー電位依存可塑性に似ているニューラルネットワークによって実装できる。 本モデルでは,カルシウムプラトー電位を逆伝播誤差信号として解釈する方法について詳述する。 我々は,生物学的に妥当な局所学習ルールにのみ依存しているにもかかわらず,既存のrrmseとccaの実装と競合してアルゴリズムが機能することを示す。

To guide behavior, the brain extracts relevant features from high-dimensional data streamed by sensory organs. Neuroscience experiments demonstrate that the processing of sensory inputs by cortical neurons is modulated by instructive signals which provide context and task-relevant information. Here, adopting a normative approach, we model these instructive signals as supervisory inputs guiding the projection of the feedforward data. Mathematically, we start with a family of Reduced-Rank Regression (RRR) objective functions which include Reduced Rank (minimum) Mean Square Error (RRMSE) and Canonical Correlation Analysis (CCA), and derive novel offline and online optimization algorithms, which we call Bio-RRR. The online algorithms can be implemented by neural networks whose synaptic learning rules resemble calcium plateau potential dependent plasticity observed in the cortex. We detail how, in our model, the calcium plateau potential can be interpreted as a backpropagating error signal. We demonstrate that, despite relying exclusively on biologically plausible local learning rules, our algorithms perform competitively with existing implementations of RRMSE and CCA.
翻訳日:2022-10-03 21:31:47 公開日:2020-10-23
# 潜在トピックとメタデータを用いたロバスト文書表現

Robust Document Representations using Latent Topics and Metadata ( http://arxiv.org/abs/2010.12681v1 )

ライセンス: Link先を確認
Natraj Raman, Armineh Nourbakhsh, Sameena Shah, Manuela Veloso(参考訳) カスタムのsoftmax出力層を用いた事前学習されたニューラルネットワークモデルのタスク固有の微調整は、文書分類問題を扱う場合の遅延のデファクトアプローチである。 このテクニックは、ラベル付きサンプルがトレーニング時に利用できない場合や、ドキュメントのメタデータアーティファクトを悪用する必要がある場合では不十分である。 タスクに依存しない方法でテキストとメタデータのアーティファクトをキャプチャするドキュメント表現を生成することで、これらの課題に対処する。 従来の自己回帰学習や自動符号化学習の代わりに,本手法はテキスト埋め込み生成時に入力空間のソフトパーティションを学習する。 具体的には,予め学習した話題モデルの分布をラベルとして,klの発散に基づく損失関数を構築する。 私たちのソリューションでは、単にテキストで拡張するのではなく、メタデータを明示的に組み込んでいます。 生成された文書埋め込みは、構成特性を示し、下流の分類タスクによって直接使用され、少数のラベル付き例から決定境界を作成し、複雑な認識方法を作成する。 提案するクロスモデル融合ソリューションが,複数のデータセットの競合ベースラインを上回っていることを示す。

Task specific fine-tuning of a pre-trained neural language model using a custom softmax output layer is the de facto approach of late when dealing with document classification problems. This technique is not adequate when labeled examples are not available at training time and when the metadata artifacts in a document must be exploited. We address these challenges by generating document representations that capture both text and metadata artifacts in a task agnostic manner. Instead of traditional auto-regressive or auto-encoding based training, our novel self-supervised approach learns a soft-partition of the input space when generating text embeddings. Specifically, we employ a pre-learned topic model distribution as surrogate labels and construct a loss function based on KL divergence. Our solution also incorporates metadata explicitly rather than just augmenting them with text. The generated document embeddings exhibit compositional characteristics and are directly used by downstream classification tasks to create decision boundaries from a small number of labeled examples, thereby eschewing complicated recognition methods. We demonstrate through extensive evaluation that our proposed cross-model fusion solution outperforms several competitive baselines on multiple datasets.
翻訳日:2022-10-03 21:24:36 公開日:2020-10-23
# Slow Feature Analysisのための生物可塑性ニューラルネットワーク

A biologically plausible neural network for Slow Feature Analysis ( http://arxiv.org/abs/2010.12644v1 )

ライセンス: Link先を確認
David Lipshutz, Charlie Windolf, Siavash Golkar, Dmitri B. Chklovskii(参考訳) 時系列データから潜在機能を学ぶことは、機械学習と脳機能の両方において重要な問題である。 Slow Feature Analysis (SFA)と呼ばれる1つのアプローチは、急速に変化する入力信号に対する多くの有能な特徴の遅さを活用する。 さらに、自然主義的な刺激を訓練すると、SFAは一次視覚野と海馬の細胞の興味深い性質を再現し、脳は潜伏した特徴を学習するための計算原理として時間的緩やかさを用いることを示唆している。 しかし、sfaが脳機能のモデリングに有用である可能性はあるが、現在、生物学的に妥当なニューラルネットワークの実装を持つsfaアルゴリズムは存在せず、これはアルゴリズムがオンライン環境で動作し、局所的なシナプス更新を伴うニューラルネットワークにマッピングできることを意味する。 本研究は,sfaの目的から,生物学的に妥当なニューラルネットワークを実装したbio-sfaと呼ばれるsfaアルゴリズムを導出する。 自然主義的刺激に対するバイオSFAの有効性を検証した。

Learning latent features from time series data is an important problem in both machine learning and brain function. One approach, called Slow Feature Analysis (SFA), leverages the slowness of many salient features relative to the rapidly varying input signals. Furthermore, when trained on naturalistic stimuli, SFA reproduces interesting properties of cells in the primary visual cortex and hippocampus, suggesting that the brain uses temporal slowness as a computational principle for learning latent features. However, despite the potential relevance of SFA for modeling brain function, there is currently no SFA algorithm with a biologically plausible neural network implementation, by which we mean an algorithm operates in the online setting and can be mapped onto a neural network with local synaptic updates. In this work, starting from an SFA objective, we derive an SFA algorithm, called Bio-SFA, with a biologically plausible neural network implementation. We validate Bio-SFA on naturalistic stimuli.
翻訳日:2022-10-03 21:23:43 公開日:2020-10-23
# RobotSlangベンチマーク: 対話誘導型ロボットのローカライゼーションとナビゲーション

The RobotSlang Benchmark: Dialog-guided Robot Localization and Navigation ( http://arxiv.org/abs/2010.12639v1 )

ライセンス: Link先を確認
Shurjo Banerjee, Jesse Thomason, Jason J. Corso(参考訳) 検索・救助から支援指導まで,自律型ロボットシステムは,人と自然言語対話を行うことができるはずである。 このような協調的なコミュニケーションを研究するために,ロボットドライバとナビゲーション目標へのガイダンスを提供する人間コマンドとの間の169の自然言語ダイアログのベンチマークであるRobotSlang(Robot Simultaneous Localization and Mapping with Natural Language)を紹介した。 各試行で、まず2人は協力して、指揮官が見えるグローバルマップ上にロボットをローカライズし、その後、ドライバーは司令命令に従ってロボットを目標の一連のオブジェクトに移動させる。 対話履歴(ldh)からのローカライズと、学習エージェントが入力としてダイアログを与えられる対話履歴(ndh)タスクからのナビゲーションと、ロボットプラットフォームから視覚的な観察を行い、それぞれグローバルマップにローカライズするか、あるいは次のターゲットオブジェクトに向かってナビゲートする必要がある。 RobotSlangは、約5kの発話と1k分以上のロボットカメラと制御ストリームで構成されている。 NDHタスクの初期モデルを示し、シミュレーションで訓練されたエージェントが、物理ロボットプラットフォームを制御するためのRobotSlangダイアログベースのナビゲーション指示に従うことができることを示す。 コードとデータはhttps://umrobotslang.github.io/で入手できる。

Autonomous robot systems for applications from search and rescue to assistive guidance should be able to engage in natural language dialog with people. To study such cooperative communication, we introduce Robot Simultaneous Localization and Mapping with Natural Language (RobotSlang), a benchmark of 169 natural language dialogs between a human Driver controlling a robot and a human Commander providing guidance towards navigation goals. In each trial, the pair first cooperates to localize the robot on a global map visible to the Commander, then the Driver follows Commander instructions to move the robot to a sequence of target objects. We introduce a Localization from Dialog History (LDH) and a Navigation from Dialog History (NDH) task where a learned agent is given dialog and visual observations from the robot platform as input and must localize in the global map or navigate towards the next target object, respectively. RobotSlang is comprised of nearly 5k utterances and over 1k minutes of robot camera and control streams. We present an initial model for the NDH task, and show that an agent trained in simulation can follow the RobotSlang dialog-based navigation instructions for controlling a physical robot platform. Code and data are available at https://umrobotslang.github.io/.
翻訳日:2022-10-03 21:23:26 公開日:2020-10-23
# 階層的特徴強化知識トレースのエクササイズ

Exercise Hierarchical Feature Enhanced Knowledge Tracing ( http://arxiv.org/abs/2011.09867v1 )

ライセンス: Link先を確認
Hanshuang Tong, Yun Zhou and Zhen Wang(参考訳) 知識追跡はコンピュータ支援教育システムにおける基本的な課題である。 本稿では,知識分布,意味的特徴,難易度の特徴をエクササイズテキストから取り入れることで,知識追跡能力を高めることができる階層型演習機能拡張型知識追跡フレームワークを提案する。 大規模な実験は、我々のフレームワークの性能を示している。

Knowledge tracing is a fundamental task in the computer-aid educational system. In this paper, we propose a hierarchical exercise feature enhanced knowledge tracing framework, which could enhance the ability of knowledge tracing by incorporating knowledge distribution, semantic features, and difficulty features from exercise text. Extensive experiments show the high performance of our framework.
翻訳日:2022-10-03 21:22:52 公開日:2020-10-23
# 深層強化学習によるジョブショップスケジューリングのための派遣学習

Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning ( http://arxiv.org/abs/2010.12367v1 )

ライセンス: Link先を確認
Cong Zhang, Wen Song, Zhiguang Cao, Jie Zhang, Puay Siew Tan, Chi Xu(参考訳) プライオリティディスパッチルール(PDR)は、現実世界のジョブショップスケジューリング問題(JSSP)の解決に広く用いられている。 しかし、効果的なPDRの設計は面倒な作業であり、多くの専門知識を必要とし、しばしば限られた性能を提供する。 本稿では,エンドツーエンドの深部強化学習エージェントを用いてPDRを自動的に学習する手法を提案する。 本稿では,JSSPの解離グラフ表現を利用して,解答時に遭遇する状態を埋め込むグラフニューラルネットワーク方式を提案する。 結果として得られるポリシネットワークはサイズ非依存で、大規模インスタンスの一般化を効果的に実現します。 実験により, 原形質を用いて, 高品質PDRをスクラッチから学習し, 既存のPDRに対して高い性能を示すことができた。 学習したポリシーは、トレーニングで目に見えないより大きなインスタンスでもうまく機能します。

Priority dispatching rule (PDR) is widely used for solving real-world Job-shop scheduling problem (JSSP). However, the design of effective PDRs is a tedious task, requiring a myriad of specialized knowledge and often delivering limited performance. In this paper, we propose to automatically learn PDRs via an end-to-end deep reinforcement learning agent. We exploit the disjunctive graph representation of JSSP, and propose a Graph Neural Network based scheme to embed the states encountered during solving. The resulting policy network is size-agnostic, effectively enabling generalization on large-scale instances. Experiments show that the agent can learn high-quality PDRs from scratch with elementary raw features, and demonstrates strong performance against the best existing PDRs. The learned policies also perform well on much larger instances that are unseen in training.
翻訳日:2022-10-03 21:22:10 公開日:2020-10-23
# テキスト誘導画像マニピュレーションのための軽量生成逆数ネットワーク

Lightweight Generative Adversarial Networks for Text-Guided Image Manipulation ( http://arxiv.org/abs/2010.12136v1 )

ライセンス: Link先を確認
Bowen Li, Xiaojuan Qi, Philip H. S. Torr, Thomas Lukasiewicz(参考訳) 本稿では,自然言語記述を用いた効率的な画像操作のための軽量な生成対向ネットワークを提案する。 これを実現するために,テキストに記述されていない他の内容に影響を与えずに,画像の特定の視覚的属性に的を絞ることのできる軽量な生成器の訓練を容易にするために,単語レベルでのきめ細かい訓練フィードバックを提供する新しい単語レベル判別器を提案する。 さらに、各単語に関する明示的な訓練信号により、判別器を軽量な構造に単純化することもできる。 現状と比較すると,本手法はパラメータがはるかに少ないが,競合操作性能は依然として達成されている。 広範な実験結果から,本手法は,異なる視覚属性を分離し,それに対応する意味語に正しくマッピングし,自然言語記述を用いたより正確な画像修正を実現することができることが示された。

We propose a novel lightweight generative adversarial network for efficient image manipulation using natural language descriptions. To achieve this, a new word-level discriminator is proposed, which provides the generator with fine-grained training feedback at word-level, to facilitate training a lightweight generator that has a small number of parameters, but can still correctly focus on specific visual attributes of an image, and then edit them without affecting other contents that are not described in the text. Furthermore, thanks to the explicit training signal related to each word, the discriminator can also be simplified to have a lightweight structure. Compared with the state of the art, our method has a much smaller number of parameters, but still achieves a competitive manipulation performance. Extensive experimental results demonstrate that our method can better disentangle different visual attributes, then correctly map them to corresponding semantic words, and thus achieve a more accurate image modification using natural language descriptions.
翻訳日:2022-10-03 21:21:57 公開日:2020-10-23