このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210203となっている論文です。

PDF登録状況(公開日: 20210203)

TitleAuthorsAbstract論文公表日・翻訳日
# グラフ上のリプシッツ学習の継続限界

Continuum Limit of Lipschitz Learning on Graphs ( http://arxiv.org/abs/2012.03772v2 )

ライセンス: Link先を確認
Tim Roith, Leon Bungert(参考訳) グラフがあらゆる種類のデータを表現でき、例えば微分作用素の連続極限を研究するのに適したフレームワークを提供するため、グラフに基づく手法による半教師付き学習問題への対処は近年トレンドとなっている。 一般的な戦略は$p$-laplacian learningで、ラベルなしデータのセットで求めた推論関数に滑らかさ条件を与える。 このアプローチの連続極限である$p<\infty$は、$\Gamma$-convergence のツールを用いて研究された。 リプシッツ学習と呼ばれる$p=\infty$の場合、関連する無限大-ラプラシアン方程式の連続極限は粘性解の概念を用いて研究された。 本研究では,$\gamma$-convergenc eを用いてリプシッツ学習の連続限界を証明する。 特に、グラフ関数の最大の局所リプシッツ定数を近似する関数列を定義し、グラフがより密になるにつれて勾配の超越ノルムに対する$l^\infty$位相論において$\gamma$-convergence を証明する。 さらに、最小化器の収束を意味する関数のコンパクト性を示す。 我々の分析では、ハウスドルフ距離の一般閉集合に収束する様々なラベル付きデータの集合を許容する。 その結果を非線形基底状態に適用し,その副産物として測地距離関数へのグラフ距離関数の収束を証明する。

Tackling semi-supervised learning problems with graph-based methods have become a trend in recent years since graphs can represent all kinds of data and provide a suitable framework for studying continuum limits, e.g., of differential operators. A popular strategy here is $p$-Laplacian learning, which poses a smoothness condition on the sought inference function on the set of unlabeled data. For $p<\infty$ continuum limits of this approach were studied using tools from $\Gamma$-convergence . For the case $p=\infty$, which is referred to as Lipschitz learning, continuum limits of the related infinity-Laplacian equation were studied using the concept of viscosity solutions. In this work, we prove continuum limits of Lipschitz learning using $\Gamma$-convergence . In particular, we define a sequence of functionals which approximate the largest local Lipschitz constant of a graph function and prove $\Gamma$-convergence in the $L^\infty$-topology to the supremum norm of the gradient as the graph becomes denser. Furthermore, we show compactness of the functionals which implies convergence of minimizers. In our analysis we allow a varying set of labeled data which converges to a general closed set in the Hausdorff distance. We apply our results to nonlinear ground states and, as a by-product, prove convergence of graph distance functions to geodesic distance functions.
翻訳日:2021-05-16 21:33:31 公開日:2021-02-03
# (参考訳) 非IIDデータに基づく階層型フェデレーション学習の解析と最適エッジ割り当て [全文訳有]

Analysis and Optimal Edge Assignment For Hierarchical Federated Learning on Non-IID Data ( http://arxiv.org/abs/2012.05622v2 )

ライセンス: CC BY 4.0
Naram Mhaisen, Alaa Awad, Amr Mohamed, Aiman Erbad, Mohsen Guizani(参考訳) 分散学習アルゴリズムは、ユーザのデバイスに格納された分散データを利用して、参加するデバイス間でトレーニングを行い、定期的にローカルモデルのパラメータをグローバルモデルに集約することで、グローバルな現象を学習することを目的としている。 フェデレーション学習は、パラメータを集約する前に参加者デバイス間のローカルトレーニングを拡大し、コミュニケーション効率を向上する有望なパラダイムである。 しかしながら、参加者のデータが強く歪んだ場合(例えば、非iidの場合)、ローカルモデルはローカルデータに過剰に適合し、低パフォーマンスなグローバルモデルに繋がる。 本稿では,まず,性能低下の主な原因として,ユーザのデバイス上のクラス間の分布とグローバルな分布との重み付き距離について述べる。 そして、この課題に直面するために、エッジコンピューティングパラダイムを利用して、ユーザ・エッジ層でフェデレーション勾配降下を行い、エッジ・クラウド層で平均フェデレーションを行う階層的学習システムを設計する。 この階層アーキテクチャでは、エッジレベルのデータ分散が類似する(IIDに近い)ようなユーザエッジ割り当て問題を形式化し、最適化し、フェデレーション平均化性能を向上させる。 複数の実世界のデータセットにおける実験により,提案する最適化された割り当ては扱いやすく,より精度の高い値へとモデルの収束が速くなることが示された。

Distributed learning algorithms aim to leverage distributed and diverse data stored at users' devices to learn a global phenomena by performing training amongst participating devices and periodically aggregating their local models' parameters into a global model. Federated learning is a promising paradigm that allows for extending local training among the participant devices before aggregating the parameters, offering better communication efficiency. However, in the cases where the participants' data are strongly skewed (i.e., non-IID), the local models can overfit local data, leading to low performing global model. In this paper, we first show that a major cause of the performance drop is the weighted distance between the distribution over classes on users' devices and the global distribution. Then, to face this challenge, we leverage the edge computing paradigm to design a hierarchical learning system that performs Federated Gradient Descent on the user-edge layer and Federated Averaging on the edge-cloud layer. In this hierarchical architecture, we formalize and optimize this user-edge assignment problem such that edge-level data distributions turn to be similar (i.e., close to IID), which enhances the Federated Averaging performance. Our experiments on multiple real-world datasets show that the proposed optimized assignment is tractable and leads to faster convergence of models towards a better accuracy value.
翻訳日:2021-05-15 18:00:49 公開日:2021-02-03
# (参考訳) Riiid! answer correctness prediction kaggle challenge: 4位ソリューション概要 [全文訳有]

Riiid! Answer Correctness Prediction Kaggle Challenge: 4th Place Solution Summary ( http://arxiv.org/abs/2102.04250v1 )

ライセンス: CC BY 4.0
Duc Kinh Le Tran(参考訳) 本稿では,課題「riiid! Riiid Labs(2020年)が主催するKaggleの"Answer Correctness Prediction"は、0.817(AUC)を記録し、最後のプライベートリーダーボードで4位にランクインしている。 これは、SAKT、SAINT、SAINT+といった以前の作品に強くインスパイアされた単一のトランスフォーマーベースのモデルである。 私が違いを作ったと信じていた新しい材料は、時を意識した注意機構、入力シーケンスの埋め込みの結合、連続的な特徴の埋め込みです。

This paper presents my solution to the challenge "Riiid! Answer Correctness Prediction" on Kaggle hosted by Riiid Labs (2020), which scores 0.817 (AUC) and ranks 4th on the final private leaderboard. It is a single transformer-based model heavily inspired from previous works such as SAKT, SAINT and SAINT+. Novel ingredients that I believed to have made a difference are the time-aware attention mechanism, the concatenation of the embeddings of the input sequences and the embedding of continuous features.
翻訳日:2021-04-06 07:25:09 公開日:2021-02-03
# (参考訳) 動的環境における自律的ナビゲーション:深層学習に基づくアプローチ

Autonomous Navigation in Dynamic Environments: Deep Learning-Based Approach ( http://arxiv.org/abs/2102.08758v1 )

ライセンス: CC BY 4.0
Omar Mohamed, Zeyad Mohsen, Mohamed Wageeh, Mohamed Hegazy(参考訳) モバイルロボティクスは、過去数十年の驚くべき進歩を目の当たりにした研究分野だ。 ロボットナビゲーションは、移動ロボットにとって不可欠なタスクである。 ロボットが様々な環境で移動できるように、多くの方法が提案されている。 本論文は,各スキームの長所と短所を浮き彫りにした深層学習に基づくアプローチを考察する。 実際、これらのアプローチは、未知の、ダイナミックな環境でロボットをナビゲートできることを約束している。 この論文では、畳み込みニューラルネットワーク(CNN)に基づくディープラーニング手法の1つをソフトウェア実装によって実現している。 linuxの導入、ロボットオペレーティングシステム(ros)、c++、python、gazboシミュレータなど、この論文を完成させるためのさまざまな準備研究がある。 この作業の中で、異なるケースで地上ロボットを使用することで、屋内環境で使用されるように、ドローンネットワーク(すなわちdrone)のアプローチを変更しました。 実際、DroNetのアプローチはゴール指向の動作が欠如している。 そこで本論文は,同時局在化マッピング(slam)を用いたマッピングと,dijkstraを用いた経路計画手法によってこの問題に取り組むことに焦点を当てている。 その後、dronetの地上ロボットとマッピングと経路計画の組み合わせは、ダイナミックな障害物を避けながら最短経路をたどりながらゴール指向の動きに繋がる。 最後に,レーザースキャナに代えて単眼カメラを応用し,レストランや博物館などの屋内アプリケーションに対して,低コストなアプローチを提案する。

Mobile robotics is a research area that has witnessed incredible advances for the last decades. Robot navigation is an essential task for mobile robots. Many methods are proposed for allowing robots to navigate within different environments. This thesis studies different deep learning-based approaches, highlighting the advantages and disadvantages of each scheme. In fact, these approaches are promising that some of them can navigate the robot in unknown and dynamic environments. In this thesis, one of the deep learning methods based on convolutional neural network (CNN) is realized by software implementations. There are different preparation studies to complete this thesis such as introduction to Linux, robot operating system (ROS), C++, python, and GAZEBO simulator. Within this work, we modified the drone network (namely, DroNet) approach to be used in an indoor environment by using a ground robot in different cases. Indeed, the DroNet approach suffers from the absence of goal-oriented motion. Therefore, this thesis mainly focuses on tackling this problem via mapping using simultaneous localization and mapping (SLAM) and path planning techniques using Dijkstra. Afterward, the combination between the DroNet ground robot-based, mapping, and path planning leads to a goal-oriented motion, following the shortest path while avoiding the dynamic obstacle. Finally, we propose a low-cost approach, for indoor applications such as restaurants, museums, etc, on the base of using a monocular camera instead of a laser scanner.
翻訳日:2021-04-06 07:19:43 公開日:2021-02-03
# バイオリン製造におけるデータ駆動アプローチ

A Data-Driven Approach to Violin Making ( http://arxiv.org/abs/2102.04254v1 )

ライセンス: Link先を確認
Sebastian Gonzalez, Davide Salvi, Daniel Baeza, Fabio Antonacci, Augusto Sarti(参考訳) ヴァイオリンの全ての特性のうち、その形状を気にするものはおそらく最も重要なものであり、ヴァイオリンメーカーはそれらを完全にコントロールしている。 しかし、現代のヴァイオリンの製作は、理解よりも伝統に基づいているため、形状と振動特性の間に存在する特定の関係に関する決定的な科学的研究はまだ行われていない。 本稿では, 標準統計学習ツールを用いて, バイオリントップのモーダル周波数を幾何学的パラメータから予測し, 従来のヴァイオリン製造に人工知能がうまく適用可能であることを示す。 また,モード周波数が板の厚さによってどのように変化するかについても検討し,この依存性の複雑さについて考察した。 最後に,材料と幾何学的パラメータを考慮したプレートチューニングの予測ツールを提案する。

Of all the characteristics of a violin, those that concern its shape are probably the most important ones, as the violin maker has complete control over them. Contemporary violin making, however, is still based more on tradition than understanding, and a definitive scientific study of the specific relations that exist between shape and vibrational properties is yet to come and sorely missed. In this article, using standard statistical learning tools, we show that the modal frequencies of violin tops can, in fact, be predicted from geometric parameters, and that artificial intelligence can be successfully applied to traditional violin making. We also study how modal frequencies vary with the thicknesses of the plate (a process often referred to as {\em plate tuning}) and discuss the complexity of this dependency. Finally, we propose a predictive tool for plate tuning, which takes into account material and geometric parameters.
翻訳日:2021-04-05 00:32:31 公開日:2021-02-03
# 問題マシン動作:アルゴリズム監査に関する体系的文献レビュー

Problematic Machine Behavior: A Systematic Literature Review of Algorithm Audits ( http://arxiv.org/abs/2102.04256v1 )

ライセンス: Link先を確認
Jack Bandy(参考訳) アルゴリズム監査は、共通性と公的な重要性において急速に成長しているが、比較的学術的な研究は、先行研究の合成と、この分野における将来の研究の戦略に向かっている。 この体系的な文献レビューは、PRISMAガイドラインに従って、62のアルゴリズム監査研究を得た500以上の英語記事のレビューを行う。 これらの研究は、主に行動(差別、歪曲、搾取、誤判断)によって合成され組織化され、ドメイン(例えば、コード)も提供される。 検索、ビジョン、広告など。 )、組織(例)。 Google、Facebook、Amazonなど。 )と監査方法(例)。 sock puppet、direct scrape、crowdsourcingなど)。 このレビューは、従来の監査研究が、歪みの少ない検索アルゴリズムや差別の少ない広告アルゴリズムなど、問題のある行動を示す公的なアルゴリズムを公開する方法を示している。 レビューされた研究に基づいて、いくつかの行動(例)も示唆している。 交差点のアイデンティティに基づく差別、領域(例) 広告アルゴリズム、手法(例:広告アルゴリズム) コード監査)と組織(例えば、) Twitter、TikTok、LinkedIn)は将来の監査の注意を呼びかけている。 この論文は、成功監査の共通要素を提供し、アルゴリズムの正義に向けた幅広い研究の文脈において、アルゴリズム監査について議論することで締めくくっている。

While algorithm audits are growing rapidly in commonality and public importance, relatively little scholarly work has gone toward synthesizing prior work and strategizing future research in the area. This systematic literature review aims to do just that, following PRISMA guidelines in a review of over 500 English articles that yielded 62 algorithm audit studies. The studies are synthesized and organized primarily by behavior (discrimination, distortion, exploitation, and misjudgement), with codes also provided for domain (e.g. search, vision, advertising, etc.), organization (e.g. Google, Facebook, Amazon, etc.), and audit method (e.g. sock puppet, direct scrape, crowdsourcing, etc.). The review shows how previous audit studies have exposed public-facing algorithms exhibiting problematic behavior, such as search algorithms culpable of distortion and advertising algorithms culpable of discrimination. Based on the studies reviewed, it also suggests some behaviors (e.g. discrimination on the basis of intersectional identities), domains (e.g. advertising algorithms), methods (e.g. code auditing), and organizations (e.g. Twitter, TikTok, LinkedIn) that call for future audit attention. The paper concludes by offering the common ingredients of successful audits, and discussing algorithm auditing in the context of broader research working toward algorithmic justice.
翻訳日:2021-04-05 00:30:52 公開日:2021-02-03
# プロトタイプ中心の注意学習によるアクション認識

Few-shot Action Recognition with Prototype-centered Attentive Learning ( http://arxiv.org/abs/2101.08085v2 )

ライセンス: Link先を確認
Xiatian Zhu and Antoine Toisoul and Juan-Manuel Prez-Ra and Li Zhang and Brais Martinez and Tao Xiang(参考訳) アクション認識は、少数のトレーニングサンプルでアクションクラスを認識することを目的としている。 既存の手法のほとんどは、エピソディクストレーニングを伴うメタラーニングアプローチを採用している。 各エピソードでは、メタトレーニングタスクの少数のサンプルがサポートとクエリセットに分割される。 前者は分類器の構築に使用され、後者はモデル更新にクエリ中心の損失を使用して評価される。 しかし、2つの大きな制限がある。クエリ中心の損失設計によるデータ効率の欠如と、サンプルのアウトライディングとクラス間の分散が重複する問題に対処することができないことだ。 本稿では,2つの新しい構成要素からなるpalモデルを提案することにより,両者の限界を克服する。 まず、各エピソードの限られたトレーニングサンプルをフル活用するために、従来のクエリ中心学習目標を補完するために、プロトタイプ中心のコントラスト学習損失を導入する。 第2に、PALはさらに、オフレーヤの負の影響を最小限に抑え、クラス分離を促進するハイブリッド注意学習機構を統合している。 提案手法は従来手法よりも明らかに優れており,最も難易度の高いアクション認識ベンチマークでは特に10+\%の精度向上が見られた。

Few-shot action recognition aims to recognize action classes with few training samples. Most existing methods adopt a meta-learning approach with episodic training. In each episode, the few samples in a meta-training task are split into support and query sets. The former is used to build a classifier, which is then evaluated on the latter using a query-centered loss for model updating. There are however two major limitations: lack of data efficiency due to the query-centered only loss design and inability to deal with the support set outlying samples and inter-class distribution overlapping problems. In this paper, we overcome both limitations by proposing a new Prototype-centered Attentive Learning (PAL) model composed of two novel components. First, a prototype-centered contrastive learning loss is introduced to complement the conventional query-centered learning objective, in order to make full use of the limited training samples in each episode. Second, PAL further integrates a hybrid attentive learning mechanism that can minimize the negative impacts of outliers and promote class separation. Extensive experiments on four standard few-shot action benchmarks show that our method clearly outperforms previous state-of-the-art methods, with the improvement particularly significant (10+\%) on the most challenging fine-grained action recognition benchmark.
翻訳日:2021-03-22 01:23:31 公開日:2021-02-03
# (参考訳) 最適および適応的なラグランジアンヘッジ [全文訳有]

Optimistic and Adaptive Lagrangian Hedging ( http://arxiv.org/abs/2101.09603v2 )

ライセンス: CC BY 4.0
Ryan D'Orazio and Ruitong Huang(参考訳) オンライン学習では、アルゴリズムは各ラウンドの敵によって選択される可能性のある損失のある環境と対戦する。 このフレームワークの一般性には、例えばオフライン最適化やサドル点問題(つまり)など、逆でない問題が含まれる。 min max optimization)。 しかし、オンラインアルゴリズムは通常、非敵問題に存在する追加構造を利用するように設計されていない。 近年、オンライン学習を加速するために、楽観主義や適応的ステップサイズといった有名なオンラインアルゴリズムのわずかな変更が、オンライン学習を加速するために、いくつかのドメインで使用されています。 本研究では,後悔マッチングを含むオンラインアルゴリズムのクラスである lagrangian hedging に対して,楽観主義と適応的ステップズを導入する。 multiplicative weights (複数形 multiplicative weights) 以上の結果から, 一般的な後悔境界, 一定の円滑な損失に対するパス長さの後悔境界, 後悔マッチングと後悔マッチング+の楽観的な変種に適用可能, 遺書$\Phi$の楽観的な後悔境界, 外部, 内部, スワップ後悔を含むフレームワーク, 特別ケースとして後悔マッチング+を含むアルゴリズム群に対する楽観的な後悔境界が得られた。

In online learning an algorithm plays against an environment with losses possibly picked by an adversary at each round. The generality of this framework includes problems that are not adversarial, for example offline optimization, or saddle point problems (i.e. min max optimization). However, online algorithms are typically not designed to leverage additional structure present in non-adversarial problems. Recently, slight modifications to well-known online algorithms such as optimism and adaptive step sizes have been used in several domains to accelerate online learning -- recovering optimal rates in offline smooth optimization, and accelerating convergence to saddle points or social welfare in smooth games. In this work we introduce optimism and adaptive stepsizes to Lagrangian hedging, a class of online algorithms that includes regret-matching, and hedge (i.e. multiplicative weights). Our results include: a general general regret bound; a path length regret bound for a fixed smooth loss, applicable to an optimistic variant of regret-matching and regret-matching+; optimistic regret bounds for $\Phi$ regret, a framework that includes external, internal, and swap regret; and optimistic bounds for a family of algorithms that includes regret-matching+ as a special case.
翻訳日:2021-03-19 13:31:06 公開日:2021-02-03
# アルゴリズムによる抑圧に関する黒人フェミニストの運動

Black Feminist Musings on Algorithmic Oppression ( http://arxiv.org/abs/2101.09869v2 )

ライセンス: Link先を確認
Lelia Marie Hampton(参考訳) この論文は、黒人フェミニズムがアルゴリズムによる抑圧を廃止する上で重要な役割を不当に反映している。 フェミニスト科学と技術研究の幅広い分野におけるアルゴリズム的抑圧を位置づけ、フェミニストの科学とテクノロジーの哲学的批判を取り上げ、歴史的に辺境化した人々に対する科学的抑圧の履歴と継続性について議論する。 さらに、圧縮技術における可視性と超可視性の概念を標準二重結合 l'a で検討する。 さらに,アルゴリズムによる暴力に対する解決策として多様性とは何か,公平性,説明責任,透明性コミュニティについて弁証論を批判する。 最後に、抑圧的なシステムを廃止し、アルゴリズム開発プラクティスをシフトさせることで、アルゴリズムの抑圧を廃止する闘争を想像し想像すること、例えば、科学プロセスへのコミュニティの関与、デザインにおける限界化されたコミュニティの集中、コンセンサスなデータとアルゴリズムの実践などです。

This paper unapologetically reflects on the critical role that Black feminism can and should play in abolishing algorithmic oppression. Positioning algorithmic oppression in the broader field of feminist science and technology studies, I draw upon feminist philosophical critiques of science and technology and discuss histories and continuities of scientific oppression against historically marginalized people. Moreover, I examine the concepts of invisibility and hypervisibility in oppressive technologies a l\'a the canonical double bind. Furthermore, I discuss what it means to call for diversity as a solution to algorithmic violence, and I critique dialectics of the fairness, accountability, and transparency community. I end by inviting you to envision and imagine the struggle to abolish algorithmic oppression by abolishing oppressive systems and shifting algorithmic development practices, including engaging our communities in scientific processes, centering marginalized communities in design, and consensual data and algorithmic practices.
翻訳日:2021-03-14 19:17:41 公開日:2021-02-03
# エネルギー効率の高い人工知能のためのAdderNetとそのミニマリストハードウェア設計

AdderNet and its Minimalist Hardware Design for Energy-Efficient Artificial Intelligence ( http://arxiv.org/abs/2101.10015v2 )

ライセンス: Link先を確認
Yunhe Wang, Mingqiang Huang, Kai Han, Hanting Chen, Wei Zhang, Chunjing Xu, Dacheng Tao(参考訳) 畳み込みニューラルネットワーク(CNN)は、多くのマシンインテリジェンスタスクのパフォーマンス向上に広く利用されている。 しかし、cnnモデルは通常計算集約的かつエネルギー消費的であり、その正確性のために多くの乗算演算とかなりのパラメータで設計される。 そのため、IoT(Internet of Things)デバイスやスマートフォンなど、リソース制約のある環境に直接適用することは困難である。 本稿では,計算の複雑さとエネルギー負担を軽減するために,加算のみを用いて元の畳み込みを加算核に置き換える加算畳み込みニューラルネットワーク(addernet)を用いた,新しいミニマリストハードウェアアーキテクチャを提案する。 潜在的なエネルギー消費を最大化するために、共有スケーリングファクタ法によるAdderNetの低ビット量子化アルゴリズムを探索し、AderNetの特定および汎用ハードウェアアクセラレータの両方を設計します。 実験の結果、int8/int16量子化を持つ加算カーネルも高性能を示し、リソースをはるかに少なくする(理論的には約81%オフ)。 さらに、FPGA(Field Programmable Gate Array)プラットフォームに量子化されたAdderNetをデプロイします。 アダネット全体の速度は16%向上し、67.6%-71.4%の論理資源利用が減少し、47.85%-77.9%の消費電力が同じ回路アーキテクチャのcnnより減少した。 性能,消費電力,ハードウェアリソース消費,ネットワークの一般化能力について総合的に比較した結果,AdderNetは従来のCNN,新しいmemristor-network,XN OR-Net,シフトカーネルベースのネットワークなど,他のすべての競合を抜いて,将来的な高性能でエネルギー効率の高い人工知能アプリケーションにおいて大きな可能性を示唆している。

Convolutional neural networks (CNN) have been widely used for boosting the performance of many machine intelligence tasks. However, the CNN models are usually computationally intensive and energy consuming, since they are often designed with numerous multiply-operations and considerable parameters for the accuracy reason. Thus, it is difficult to directly apply them in the resource-constrained environments such as 'Internet of Things' (IoT) devices and smart phones. To reduce the computational complexity and energy burden, here we present a novel minimalist hardware architecture using adder convolutional neural network (AdderNet), in which the original convolution is replaced by adder kernel using only additions. To maximally excavate the potential energy consumption, we explore the low-bit quantization algorithm for AdderNet with shared-scaling-facto r method, and we design both specific and general-purpose hardware accelerators for AdderNet. Experimental results show that the adder kernel with int8/int16 quantization also exhibits high performance, meanwhile consuming much less resources (theoretically ~81% off). In addition, we deploy the quantized AdderNet on FPGA (Field Programmable Gate Array) platform. The whole AdderNet can practically achieve 16% enhancement in speed, 67.6%-71.4% decrease in logic resource utilization and 47.85%-77.9% decrease in power consumption compared to CNN under the same circuit architecture. With a comprehensive comparison on the performance, power consumption, hardware resource consumption and network generalization capability, we conclude the AdderNet is able to surpass all the other competitors including the classical CNN, novel memristor-network, XNOR-Net and the shift-kernel based network, indicating its great potential in future high performance and energy-efficient artificial intelligence applications.
翻訳日:2021-03-14 19:12:49 公開日:2021-02-03
# (参考訳) 低用量CTプロジェクションの非参照 denoising [全文訳有]

No-reference denoising of low-dose CT projections ( http://arxiv.org/abs/2102.02662v1 )

ライセンス: CC BY 4.0
Elvira Zainulina, Alexey Chernyavskiy, Dmitry V. Dylov(参考訳) 低線量CT (LDCT) は放射線学において明らかな傾向を呈し, 患者への過剰なX線照射の回避が望まれる。 放射線量の減少は患者へのリスクを減少させるが、ノイズレベルを上昇させ、画像の品質と最終的な診断値に影響を与える。 緩和の1つの選択肢は、低用量および高用量ct投影のペアを、ディープラーニングアルゴリズムを使用してノイズモデルを訓練するために考慮することである。 本稿では,CTデノイジングのための新しい自己監視法を提案する。 既存の自己教師ありアプローチとは異なり,提案手法ではノイズの多いct投影のみが必要となり,隣接画像間の接続を活用できる。 ldctデータセット上で行った実験により,本手法は教師あり手法とほぼ同等の精度を示し,自己教師あり弁別法を上回った。

Low-dose computed tomography (LDCT) became a clear trend in radiology with an aspiration to refrain from delivering excessive X-ray radiation to the patients. The reduction of the radiation dose decreases the risks to the patients but raises the noise level, affecting the quality of the images and their ultimate diagnostic value. One mitigation option is to consider pairs of low-dose and high-dose CT projections to train a denoising model using deep learning algorithms; however, such pairs are rarely available in practice. In this paper, we present a new self-supervised method for CT denoising. Unlike existing self-supervised approaches, the proposed method requires only noisy CT projections and exploits the connections between adjacent images. The experiments carried out on an LDCT dataset demonstrate that our method is almost as accurate as the supervised approach, while also outperforming the considered self-supervised denoising methods.
翻訳日:2021-02-06 03:19:27 公開日:2021-02-03
# (参考訳) Cleora: シンプルで強力でスケーラブルなグラフ埋め込みスキーム [全文訳有]

Cleora: A Simple, Strong and Scalable Graph Embedding Scheme ( http://arxiv.org/abs/2102.02302v1 )

ライセンス: CC BY 4.0
Barbara Rychalska, Piotr B\k{a}bel, Konrad Go{\l}uchowski, Andrzej Micha{\l}owski, Jacek D\k{a}browski(参考訳) グラフ埋め込みの領域は現在、明示的な客観的関数の定式化と正と負の例のサンプリングを要求する対比学習法によって支配されている。 これは概念的および計算的オーバーヘッドを生み出す。 多次元スケーリング(MSD)やLaplacian eigenmapのような、シンプルで古典的な監視されていないアプローチは、退屈な客観的最適化の必要性をスキップし、データジオメトリを直接利用します。 残念ながら、行列固有分解のような非常にコストのかかる演算への依存は、今日のデジタル世界において一般的な大きなグラフにスケールできない。 本稿では,教師なしと高度にスケーラブルな2つの世界のベストを得られるアルゴリズムであるCleoraについて述べる。 サンプルサンプリングによる一般的なステップワイズ学習フレームワークを使わずに高品質な埋め込みを実現できることを示す。 このアルゴリズムの直感的な学習目的は、ノードが切断されたノードを明示的に押すことなく、隣接ノードと類似すべきであるということです。 この目標は、node neigborsの埋め込みの反復的な重み付け平均化と、次元をまたいだ正規化によって達成される。 平均演算のおかげで、アルゴリズムは埋め込み空間を素早く進み、通常はほんの数回のイテレーションで最適な埋め込みに到達する。 Cleoraは他の最先端のCPUアルゴリズムよりも高速に動作し、下流タスクで測定された競合品質の埋め込みを生成する。 cleoraは対照的な手法に類似したデータ抽象化を学習するが、計算コストははるかに低い。 私たちはMITライセンスでCleoraをオープンソースとして公開し、https://github.com/S ynerise/cleoraで商用利用できるようにしました。

The area of graph embeddings is currently dominated by contrastive learning methods, which demand formulation of an explicit objective function and sampling of positive and negative examples. This creates a conceptual and computational overhead. Simple, classic unsupervised approaches like Multidimensional Scaling (MSD) or the Laplacian eigenmap skip the necessity of tedious objective optimization, directly exploiting data geometry. Unfortunately, their reliance on very costly operations such as matrix eigendecomposition make them unable to scale to large graphs that are common in today's digital world. In this paper we present Cleora: an algorithm which gets the best of two worlds, being both unsupervised and highly scalable. We show that high quality embeddings can be produced without the popular step-wise learning framework with example sampling. An intuitive learning objective of our algorithm is that a node should be similar to its neighbors, without explicitly pushing disconnected nodes apart. The objective is achieved by iterative weighted averaging of node neigbors' embeddings, followed by normalization across dimensions. Thanks to the averaging operation the algorithm makes rapid strides across the embedding space and usually reaches optimal embeddings in just a few iterations. Cleora runs faster than other state-of-the-art CPU algorithms and produces embeddings of competitive quality as measured on downstream tasks: link prediction and node classification. We show that Cleora learns a data abstraction that is similar to contrastive methods, yet at much lower computational cost. We open-source Cleora under the MIT license allowing commercial use under https://github.com/S ynerise/cleora.
翻訳日:2021-02-06 03:10:22 公開日:2021-02-03
# (参考訳) 近隣の重要度重み付け [全文訳有]

Nearest Neighbor-based Importance Weighting ( http://arxiv.org/abs/2102.02291v1 )

ライセンス: CC BY 4.0
Marco Loog(参考訳) 重要度重み付けは、一般的に機械学習や、特にデータ共変シフト問題を扱う技術に広く適用されます。 このような重み付けの重要度を決定するための新しい直接的アプローチが提示される。 最寄りの分類スキームに依存しており、実装は比較的簡単である。 各種分類課題の比較実験により, 近距離重み付け(NNeW)方式の有効性が示された。 その性能を考慮すると,本手法は重み付けの簡便で効果的なベースラインとして機能する。

Importance weighting is widely applicable in machine learning in general and in techniques dealing with data covariate shift problems in particular. A novel, direct approach to determine such importance weighting is presented. It relies on a nearest neighbor classification scheme and is relatively straightforward to implement. Comparative experiments on various classification tasks demonstrate the effectiveness of our so-called nearest neighbor weighting (NNeW) scheme. Considering its performance, our procedure can act as a simple and effective baseline method for importance weighting.
翻訳日:2021-02-06 02:28:27 公開日:2021-02-03
# (参考訳) プッシュフレーム衛星画像のパララックス推定:Skysat製品からの超解像と3次元表面モデリングへの応用 [全文訳有]

Parallax estimation for push-frame satellite imagery: application to super-resolution and 3D surface modeling from Skysat products ( http://arxiv.org/abs/2102.02301v1 )

ライセンス: CC BY 4.0
J\'er\'emy Anger, Thibaud Ehret, Gabriele Facciolo(参考訳) スカイサット星座を含む最近の衛星の星座は、画像のバーストを取得することができる。 この新たな取得モードは、マルチフレーム超解像を含む最新の画像復元技術を可能にする。 バーストの取得中に衛星が移動すると、シーンの高度の変化は顕著なパララックスに変換される。 このパララックスは修復の結果を妨げている。 そこで本研究では,新しい視差推定手法を提案する。 この方法は、視運動の線形平面+パララックス分解と、全てのフレームを同時に利用するマルチフレーム光フローアルゴリズムからなる。 skysat l1a画像を用いて,高度変化を含むシーンにマルチフレームの超解像を施すには画素単位の変位が重要であり,粗い3次元表面モデルの推定にも利用できることを示す。

Recent constellations of satellites, including the Skysat constellation, are able to acquire bursts of images. This new acquisition mode allows for modern image restoration techniques, including multi-frame super-resolution. As the satellite moves during the acquisition of the burst, elevation changes in the scene translate into noticeable parallax. This parallax hinders the results of the restoration. To cope with this issue, we propose a novel parallax estimation method. The method is composed of a linear Plane+Parallax decomposition of the apparent motion and a multi-frame optical flow algorithm that exploits all frames simultaneously. Using SkySat L1A images, we show that the estimated per-pixel displacements are important for applying multi-frame super-resolution on scenes containing elevation changes and that can also be used to estimate a coarse 3D surface model.
翻訳日:2021-02-05 23:23:52 公開日:2021-02-03
# (参考訳) 複雑な金融商品のモデリング

Modeling Complex Financial Products ( http://arxiv.org/abs/2102.02329v1 )

ライセンス: CC BY 4.0
Margret Bjarnadottir and Louiqa Raschid(参考訳) 本稿では,複雑な金融商品のモデル化と理解に,金融ビッグデータと機械学習手法をどのように適用できるかを検討することを目的とする。 2008年の米国金融危機の中心となった住宅ローン担保証券(resMBS)に重点を置いています。 証券は先入観に含まれており、複雑なペイオフ構造を有している。 複数の金融機関がサプライチェーンを形成し、見通しを創出する。 我々は、より複雑な一連のモデルを通じて、resMBS証券のパフォーマンスに関する洞察を提供する。 まず、セキュリティレベルにおけるモデルは、パフォーマンスに影響を与えるresMBS証券の健全な特徴を直接識別する。 第二に、予測レベル機能を含むようにモデルを拡張します。 我々は、見通しの構成が証券のパフォーマンスと関係していることを示す最初の例である。 最後に,サプライチェーンの役割をより深く理解するために,教師なし確率的手法,特に動的トピックモデル(dtm)を用いて,サプライチェーンに沿ったコミュニティ形成と時間的進化を理解する。 包括的モデルは、DTMコミュニティが予見の発行と進化、そして最終的にはresMBS証券のパフォーマンスに与える影響についての洞察を提供する。

The objective of this paper is to explore how financial big data and machine learning methods can be applied to model and understand complex financial products. We focus on residential mortgage backed securities, resMBS, that were at the heart of the 2008 US financial crisis. The securities are contained within a prospectus and have a complex payoff structure. Multiple financial institutions form a supply chain to create the prospectuses. We provide insight into the performance of the resMBS securities through a series of increasingly complex models. First, models at the security level directly identify salient features of resMBS securities that impact their performance. Second, we extend the model to include prospectus level features. We are the first to demonstrate that the composition of the prospectus is associated with the performance of securities. Finally, to develop a deeper understanding of the role of the supply chain, we use unsupervised probabilistic methods, in particular, dynamic topics models (DTM), to understand community formation and temporal evolution along the chain. A comprehensive model provides insight into the impact of DTM communities on the issuance and evolution of prospectuses, and eventually the performance of resMBS securities.
翻訳日:2021-02-05 22:32:04 公開日:2021-02-03
# (参考訳) 失業モデルのための変動ベイズ生存解析 [全文訳有]

Variational Bayes survival analysis for unemployment modelling ( http://arxiv.org/abs/2102.02295v1 )

ライセンス: CC BY 4.0
Pavle Bo\v{s}koski and Matija Perne and Martina Rame\v{s}a and Biljana Mileva Boshkoska(参考訳) 失業動態の数学的モデリングは、時間関数として仕事を見つける求職者の確率を予測しようとする。 これは通常、失業記録に情報を使用することによって達成される。 これらの記録は正しく検閲され、生存分析はパラメータ推定に適したアプローチとなる。 提案モデルは,非線形ハザード関数として深層ニューラルネットワーク(ANN)を用いる。 埋め込みにより、高心性カテゴリの特徴を効率的に分析する。 ANNパラメータの後方分布は、変動ベイズ法を用いて推定される。 このモデルは、スロベニア公共雇用サービス(slovenian public employment service)が提供する2011年から2020年までの期間の雇用データに基づいて評価されている。 記録上の個人ごとの雇用確率を経時的に決定するために使用される。 類似したモデルは、検閲された記録を含む多次元、高カーディナリティの分類データを持つ他の質問にも適用できる。 このようなデータは、例えば医療記録など、個人記録にしばしば見受けられる。

Mathematical modelling of unemployment dynamics attempts to predict the probability of a job seeker finding a job as a function of time. This is typically achieved by using information in unemployment records. These records are right censored, making survival analysis a suitable approach for parameter estimation. The proposed model uses a deep artificial neural network (ANN) as a non-linear hazard function. Through embedding, high-cardinality categorical features are analysed efficiently. The posterior distribution of the ANN parameters are estimated using a variational Bayes method. The model is evaluated on a time-to-employment data set spanning from 2011 to 2020 provided by the Slovenian public employment service. It is used to determine the employment probability over time for each individual on the record. Similar models could be applied to other questions with multi-dimensional, high-cardinality categorical data including censored records. Such data is often encountered in personal records, for example in medical records.
翻訳日:2021-02-05 21:44:25 公開日:2021-02-03
# (参考訳) 自動運転車のリアルタイム最適軌道計画と機械学習によるラップタイムシミュレーション [全文訳有]

Real-Time Optimal Trajectory Planning for Autonomous Vehicles and Lap Time Simulation Using Machine Learning ( http://arxiv.org/abs/2102.02315v1 )

ライセンス: CC BY 4.0
Sam Garlick and Andrew Bradley(参考訳) ドライバーレス車両の広範な開発は、モータースポーツの高速と激しい競争が技術開発を加速するためのテストベッドを提供する自律レース競争の形成をもたらしました。 自動運転車の特に課題は、目標の軌道を識別することである - あるいは、レーシングカーの場合、理想的なレースラインである。 レースラインを特定するための既存のアプローチの多くは、時間最適化ソリューションではないか、あるいは計算コストのかかるソリューション時間を持っているため、オンボード処理ハードウェアを使用したリアルタイムアプリケーションには適さない。 本稿では,デスクトップ処理ハードウェア上でリアルタイムにレースラインを正確に予測する機械学習手法について述べる。 提案アルゴリズムは,従来の最適制御ラップタイムシミュレーションにより計算された多数の回路のレースラインを含むデータセットを用いて学習する,高密度なフィードフォワードニューラルネットワークである。 このネットワークは、平均絶対誤差+/-0.27mでレースラインを予測できるので、精度は人間のドライバーより優れており、自動運転車制御システムの他の部分と同等である。 システムは33ms以内の予測を生成し、最適なレースラインを見つける従来の方法の9000倍以上高速になります。 結果から,データ駆動型アプローチは従来の計算手法よりも,ほぼ最適なレースラインのリアルタイム生成に好適であることが示唆された。

The widespread development of driverless vehicles has led to the formation of autonomous racing competitions, where the high speeds and fierce rivalry in motorsport provide a testbed to accelerate technology development. A particular challenge for an autonomous vehicle is that of identifying a target trajectory - or in the case of a racing car, the ideal racing line. Many existing approaches to identifying the racing line are either not the time-optimal solutions, or have solution times which are computationally expensive, thus rendering them unsuitable for real-time application using on-board processing hardware. This paper describes a machine learning approach to generating an accurate prediction of the racing line in real-time on desktop processing hardware. The proposed algorithm is a dense feed-forward neural network, trained using a dataset comprising racing lines for a large number of circuits calculated via a traditional optimal control lap time simulation. The network is capable of predicting the racing line with a mean absolute error of +/-0.27m, meaning that the accuracy outperforms a human driver, and is comparable to other parts of the autonomous vehicle control system. The system generates predictions within 33ms, making it over 9,000 times faster than traditional methods of finding the optimal racing line. Results suggest that a data-driven approach may therefore be favourable for real-time generation of near-optimal racing lines than traditional computational methods.
翻訳日:2021-02-05 21:22:14 公開日:2021-02-03
# (参考訳) Factual Knowledge Graphsにおけるタイピングエラー:深刻さと可能性 [全文訳有]

Typing Errors in Factual Knowledge Graphs: Severity and Possible Ways Out ( http://arxiv.org/abs/2102.02307v1 )

ライセンス: CC BY-SA 4.0
Peiran Yao and Denilson Barbosa(参考訳) DBpediaやWikidataなどのFactual knowledge graph(KG)は、さまざまな下流タスクの一部として機能し、ベンチマークデータセットとして人工知能研究コミュニティにも広く採用されている。 しかし、これらのKGは驚くほどうるさいことがわかった。 本研究では,これらのKGの品質に疑問を呈し,入力誤り率の平均値は粗粒型が27%,特定の細粒型が73%と推定された。 そこで本研究では,ゴールドラベルとノイズラベルの両方の利用を最大化するアクティブタイピング誤り検出アルゴリズムを提案する。 また、非監視、半監督、および監督されたパラダイムを包括的に議論し、実際のKGにおけるタイプミスに対処するために比較します。 この研究の結果は、研究者が騒々しい事実KGを使用するためのガイドラインを提供します。 実践者が技術を展開し、さらなる研究を行うのを助けるために、私たちはコードとデータを公開しました。

Factual knowledge graphs (KGs) such as DBpedia and Wikidata have served as part of various downstream tasks and are also widely adopted by artificial intelligence research communities as benchmark datasets. However, we found these KGs to be surprisingly noisy. In this study, we question the quality of these KGs, where the typing error rate is estimated to be 27% for coarse-grained types on average, and even 73% for certain fine-grained types. In pursuit of solutions, we propose an active typing error detection algorithm that maximizes the utilization of both gold and noisy labels. We also comprehensively discuss and compare unsupervised, semi-supervised, and supervised paradigms to deal with typing errors in factual KGs. The outcomes of this study provide guidelines for researchers to use noisy factual KGs. To help practitioners deploy the techniques and conduct further research, we published our code and data.
翻訳日:2021-02-05 20:15:36 公開日:2021-02-03
# (参考訳) 連続性から離散性への模擬アニール:アイリング・クラマース法による収束解析 [全文訳有]

Simulated annealing from continuum to discretization: a convergence analysis via the Eyring--Kramers law ( http://arxiv.org/abs/2102.02339v1 )

ライセンス: CC BY 4.0
Wenpin Tang and Xun Yu Zhou(参考訳) 与えられた関数 $f$ のグローバル最適を近似するための連続時間シミュレートアニール $(X_t; \, t \ge 0)$ とその離散 $(x_k; \, k =0,1, \ldots)$ の収束速度を研究する。 テール確率 $\mathbb{P}(f(X_t) > \min f +\delta)$ (resp) が証明される。 $\mathbb{P}(f(x_k) > \min f +\delta)$) 時間の多項式を減衰させる(resp)。 累積ステップサイズでは)モデルパラメータの関数として明示的なレートを提供する。 我々の議論は、低温におけるギブス測度の機能的不等式(アイリング・クラマーズの法則)の最近の発展に適用している。 離散的な設定では、収束を保証するためにステップサイズに関する条件を得る。

We study the convergence rate of continuous-time simulated annealing $(X_t; \, t \ge 0)$ and its discretization $(x_k; \, k =0,1, \ldots)$ for approximating the global optimum of a given function $f$. We prove that the tail probability $\mathbb{P}(f(X_t) > \min f +\delta)$ (resp. $\mathbb{P}(f(x_k) > \min f +\delta)$) decays polynomial in time (resp. in cumulative step size), and provide an explicit rate as a function of the model parameters. Our argument applies the recent development on functional inequalities for the Gibbs measure at low temperatures -- the Eyring-Kramers law. In the discrete setting, we obtain a condition on the step size to ensure the convergence.
翻訳日:2021-02-05 18:22:58 公開日:2021-02-03
# MUFASA:電子健康記録のためのマルチモーダル融合アーキテクチャ検索

MUFASA: Multimodal Fusion Architecture Search for Electronic Health Records ( http://arxiv.org/abs/2102.02340v1 )

ライセンス: Link先を確認
Zhen Xu, David R. So, Andrew M. Dai(参考訳) 深層学習を電子健康記録(EHR)に適用する重要な課題の1つは、そのマルチモーダル構造の複雑さである。 EHRは通常、構造化(コード)と非構造化(フリーテキスト)のデータと、不規則で不規則な縦方向の特徴が混在しています。 ディープラーニングの体制では、異なるモダリティ表現を融合させる方法を決定することは難しい問題であり、これはしばしば手作業によるモデリングと直感によって対処される。 本研究では、最新のニューラルアーキテクチャ探索(NAS)手法を拡張し、マルチモーダル融合戦略とモダリティ固有アーキテクチャを同時に探索するMUFASA(MUltimodal Fusion Architecture SeArch)を提案する。 提案手法は,計算コストに比較し,公開ehrデータ上で確立したユニモーダルnasよりも優れることを示す。 さらに、MUFASAはTransformerとEvolved Transformerを上回ったアーキテクチャを生成します。 CCS診断コード予測のこれらのベースラインと比較して、発見モデルは0.88から0.91にトップ5リコールを改善し、他のEHRタスクに一般化する能力を示しています。 トップアーキテクチャを深く研究し、MUFASAの改善は、各データモダリティのモデリングをカスタマイズし、効果的な融合戦略を見つける能力から導かれる、実証的な証拠を提供する。

One important challenge of applying deep learning to electronic health records (EHR) is the complexity of their multimodal structure. EHR usually contains a mixture of structured (codes) and unstructured (free-text) data with sparse and irregular longitudinal features -- all of which doctors utilize when making decisions. In the deep learning regime, determining how different modality representations should be fused together is a difficult problem, which is often addressed by handcrafted modeling and intuition. In this work, we extend state-of-the-art neural architecture search (NAS) methods and propose MUltimodal Fusion Architecture SeArch (MUFASA) to simultaneously search across multimodal fusion strategies and modality-specific architectures for the first time. We demonstrate empirically that our MUFASA method outperforms established unimodal NAS on public EHR data with comparable computation costs. In addition, MUFASA produces architectures that outperform Transformer and Evolved Transformer. Compared with these baselines on CCS diagnosis code prediction, our discovered models improve top-5 recall from 0.88 to 0.91 and demonstrate the ability to generalize to other EHR tasks. Studying our top architecture in depth, we provide empirical evidence that MUFASA's improvements are derived from its ability to both customize modeling for each data modality and find effective fusion strategies.
翻訳日:2021-02-05 16:50:07 公開日:2021-02-03
# FICによる製品データのハイブリッド一貫性と妥当性検証

Hybrid consistency and plausibility verification of product data according to FIC ( http://arxiv.org/abs/2102.02665v1 )

ライセンス: Link先を確認
Christian Schorr(参考訳) EUの食品のラベルは、顧客の食品情報(FIC)によって規制されています。 企業は栄養素やアレルゲンなどについて対応する情報を提供する必要がある。 電子商取引の興隆に伴い、より多くの食品がオンラインで販売されるようになった。 FIC関連情報に関するオンライン製品記述には、ベンダーの製品データベースにおけるデータ品質が低いため、しばしば誤りがある。 本稿では,FIC要求に応じて栄養素宣言とアレルゲンラベリングを検証するために,ルールベースと機械学習のハイブリッドアプローチを提案する。 これは顧客に重大な健康リスクをもたらすため、アレルゲン予測における偽陰性の問題に特に重点が置かれています。 結果は、製品の成分のサブセットで訓練されたニューラルネットワークが、高い信頼性を含むアレルゲンを予測できることを示しています。

The labelling of food products in the EU is regulated by the Food Information of Customers (FIC). Companies are required to provide the corresponding information regarding nutrients and allergens among others. With the rise of e-commerce more and more food products are sold online. There are often errors in the online product descriptions regarding the FIC-relevant information due to low data quality in the vendors' product data base. In this paper we propose a hybrid approach of both rule-based and machine learning to verify nutrient declaration and allergen labelling according to FIC requirements. Special focus is given to the problem of false negatives in allergen prediction since this poses a significant health risk to customers. Results show that a neural net trained on a subset of the ingredients of a product is capable of predicting the allergens contained with a high reliability.
翻訳日:2021-02-05 16:45:46 公開日:2021-02-03
# 機械学習アプリケーションにおける実行可能な説明可能性の指示的説明

Directive Explanations for Actionable Explainability in Machine Learning Applications ( http://arxiv.org/abs/2102.02671v1 )

ライセンス: Link先を確認
Ronal Singh, Paul Dourish, Piers Howe, Tim Miller, Liz Sonenberg, Eduardo Velloso and Frank Vetere(参考訳) 本稿では,機械学習による意思決定のやり直しを支援するための指示的説明の利用の展望について検討する。 指示的な説明は、個人が望ましい結果を達成するために取るべき特定のアクションをリストアップする。 機械学習モデルが個人にとって有害である決定を下す場合(例)。 ローン申請を拒否する)そして、それがその決定をした理由を説明し、個人が(可能であれば)望ましい結果を得る方法を説明する必要があります。 現在、これはしばしば反実的な説明を用いて行われるが、そのような説明は一般に個人にどのように振る舞うかを教えてくれない。 目的を達成するために使用可能なアクションを明確に提供することで、反事実的説明を改善することができる、と我々は主張する。 この論文には2つの貢献がある。 まず,指示的説明に対する人々の認識に関するオンライン研究の結果について述べる。 次に,そのような説明を生成する概念モデルを提案する。 オンライン調査では、ディレクティブの説明($p<0.001$)が有意な選択であった。 しかし, 参加者の好む説明タイプは, 個人の嗜好, 社会的要因, ディレクティブの実現可能性など, 複数の要因に影響された。 本研究は,指示的説明を作成するための人間中心的かつ文脈特異的なアプローチの必要性を浮き彫りにする。

This paper investigates the prospects of using directive explanations to assist people in achieving recourse of machine learning decisions. Directive explanations list which specific actions an individual needs to take to achieve their desired outcome. If a machine learning model makes a decision that is detrimental to an individual (e.g. denying a loan application), then it needs to both explain why it made that decision and also explain how the individual could obtain their desired outcome (if possible). At present, this is often done using counterfactual explanations, but such explanations generally do not tell individuals how to act. We assert that counterfactual explanations can be improved by explicitly providing people with actions they could use to achieve their desired goal. This paper makes two contributions. First, we present the results of an online study investigating people's perception of directive explanations. Second, we propose a conceptual model to generate such explanations. Our online study showed a significant preference for directive explanations ($p<0.001$). However, the participants' preferred explanation type was affected by multiple factors, such as individual preferences, social factors, and the feasibility of the directives. Our findings highlight the need for a human-centred and context-specific approach for creating directive explanations.
翻訳日:2021-02-05 16:45:17 公開日:2021-02-03
# 自動ファクトチェックのための自己監督クレーム同定

Self-Supervised Claim Identification for Automated Fact Checking ( http://arxiv.org/abs/2102.02335v1 )

ライセンス: Link先を確認
Archita Pathak, Mohammad Abuzar Shaikh, Rohini Srihari(参考訳) ファクトチェックの自動化の第一歩として,偽ニュース記事中の「主張に値する」文を識別するための,注意に基づく新しい自己教師付きアプローチを提案する。 本課題には注意機構を用いた見出しとコンテンツの「関係性」を活用する。 特定されたクレームは、手動で選択した説得力のある記事と関連する証拠のベンチマークデータセットをリリースする、クレーム検証の下流タスクに使用することができる。 この研究は、スタイル分析を超えて、読者の信念に影響を与えるコンテンツを識別します。 3つのデータセットを用いた実験は、モデルの強みを示しています。 https://github.com/a rchitapathak/Self-Su pervised-ClaimIdenti ficationで利用可能なデータとコード

We propose a novel, attention-based self-supervised approach to identify "claim-worthy" sentences in a fake news article, an important first step in automated fact-checking. We leverage "aboutness" of headline and content using attention mechanism for this task. The identified claims can be used for downstream task of claim verification for which we are releasing a benchmark dataset of manually selected compelling articles with veracity labels and associated evidence. This work goes beyond stylistic analysis to identifying content that influences reader belief. Experiments with three datasets show the strength of our model. Data and code available at https://github.com/a rchitapathak/Self-Su pervised-ClaimIdenti fication
翻訳日:2021-02-05 16:44:40 公開日:2021-02-03
# マルチエージェント強化学習におけるニューラル再帰的信念

Neural Recursive Belief States in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2102.02274v1 )

ライセンス: Link先を確認
Pol Moreno, Edward Hughes, Kevin R. McKee, Bernardo Avila Pires, Th\'eophane Weber(参考訳) マルチエージェント強化学習では、共同演奏者の方針が観察される情報に重く依存する可能性があるため、行動する学習の問題は特に困難である。 一方、人間は仲間が持つ知識についての信念を容易に形成し、信念を利用して意思決定を知らせる。 このような能力は、ポーカーのブラフリングから囚人のジレンマにおける条件付き協力、ブリッジでのコンベンションビルディングまで、幅広いマルコフゲームで個々の成功を裏付ける。 古典的な方法は通常、階層的信念(すなわち)の難解な性質のために複雑なドメインには適用されない。 他のエージェントの信念の信念)。 再帰的深生成モデルを用いてこれらの信念構造を近似するスケーラブルな手法を提案し,その信念モデルを用いて複雑なタスクにおいて有用な表現を得る。 信念モデルで訓練されたエージェントは、共通のトレーニングパラダイムを使用して同等の表現能力を持つモデルフリーベースラインを上回ります。 また、高次信条モデルが低次モデルでエージェントを上回っていることも示します。

In multi-agent reinforcement learning, the problem of learning to act is particularly difficult because the policies of co-players may be heavily conditioned on information only observed by them. On the other hand, humans readily form beliefs about the knowledge possessed by their peers and leverage beliefs to inform decision-making. Such abilities underlie individual success in a wide range of Markov games, from bluffing in Poker to conditional cooperation in the Prisoner's Dilemma, to convention-building in Bridge. Classical methods are usually not applicable to complex domains due to the intractable nature of hierarchical beliefs (i.e. beliefs of other agents' beliefs). We propose a scalable method to approximate these belief structures using recursive deep generative models, and to use the belief models to obtain representations useful to acting in complex tasks. Our agents trained with belief models outperform model-free baselines with equivalent representational capacity using common training paradigms. We also show that higher-order belief models outperform agents with lower-order models.
翻訳日:2021-02-05 16:40:19 公開日:2021-02-03
# 自己重み付き三重項損失を伴うマルチモーダルアウェア重み付き計量学習

Multimodal-Aware Weakly Supervised Metric Learning with Self-weighting Triplet Loss ( http://arxiv.org/abs/2102.02670v1 )

ライセンス: Link先を確認
Huiyuan Deng, Xiangzhu Meng, Lin Feng(参考訳) 近年、我々は弱い監督されたデータから適切な距離メトリックを学ぶための関心の急増を目撃しました。 既存のほとんどのメソッドは、類似のサンプルをできるだけ遠くまで押しながら、類似のサンプルを近づけることを目指しています。 しかし、データセットのいくつかのクラスがマルチモーダル分布を示す場合、これらのゴールは相反するので、同時に満足できない。 さらに、有効な計量を保証するために、多くの手法は、高価で数値的に不安定な繰り返し固有値分解プロセスを必要とする。 したがって、弱い教師付きデータから適切な距離距離を学習する方法は、オープンだが難しい問題である。 本稿では,mdaml(multimodal aware weakly supervised metric learning)と呼ばれる,新しい弱教師付きメトリック学習アルゴリズムを提案する。 MDaMLは、データ空間を複数のクラスタに分割し、各サンプルのローカルクラスタセンターとウェイトを割り当てる。 そして、重み付き三重項損失と組み合わせることで、局所分離性がさらに向上し、局所的異種試料が局所類似試料との距離を大きく保つことができる。 一方、MDaMLは、計量学習問題をSPD多様体上の制約のない最適化にキャストし、リーマン共役勾配 Descent (RCGD) によって効率的に解ける。 13のデータセット上で実施された広範な実験は、提案されたMDaMLの優位性を検証する。

In recent years, we have witnessed a surge of interests in learning a suitable distance metric from weakly supervised data. Most existing methods aim to pull all the similar samples closer while push the dissimilar ones as far as possible. However, when some classes of the dataset exhibit multimodal distribution, these goals conflict and thus can hardly be concurrently satisfied. Additionally, to ensure a valid metric, many methods require a repeated eigenvalue decomposition process, which is expensive and numerically unstable. Therefore, how to learn an appropriate distance metric from weakly supervised data remains an open but challenging problem. To address this issue, in this paper, we propose a novel weakly supervised metric learning algorithm, named MultimoDal Aware weakly supervised Metric Learning (MDaML). MDaML partitions the data space into several clusters and allocates the local cluster centers and weight for each sample. Then, combining it with the weighted triplet loss can further enhance the local separability, which encourages the local dissimilar samples to keep a large distance from the local similar samples. Meanwhile, MDaML casts the metric learning problem into an unconstrained optimization on the SPD manifold, which can be efficiently solved by Riemannian Conjugate Gradient Descent (RCGD). Extensive experiments conducted on 13 datasets validate the superiority of the proposed MDaML.
翻訳日:2021-02-05 16:38:31 公開日:2021-02-03
# ランダムReLUの2層ネットワークの近似力について

On the Approximation Power of Two-Layer Networks of Random ReLUs ( http://arxiv.org/abs/2102.02336v1 )

ライセンス: Link先を確認
Daniel Hsu, Clayton Sanford, Rocco A. Servedio, Emmanouil-Vasileios Vlatakis-Gkaragkouni s(参考訳) 本稿では,ランダム初期化ボトムレベル重み付き深度2ReLUネットワークがスムーズな関数をどれだけうまく表現できるかを考察する。 リプシッツ定数、所望の精度、および問題の次元の点での$L_2$-近似に対して、近似上および下限の近似を与えるとともに、ソボレフノルムの観点からも同様の結果を与える。 我々の肯定的な結果は調和解析とリッジレット表現理論のツールを使用し、下限は(ロバストなバージョンの)次元論に基づく。

This paper considers the following question: how well can depth-two ReLU networks with randomly initialized bottom-level weights represent smooth functions? We give near-matching upper- and lower-bounds for $L_2$-approximation in terms of the Lipschitz constant, the desired accuracy, and the dimension of the problem, as well as similar results in terms of Sobolev norms. Our positive results employ tools from harmonic analysis and ridgelet representation theory, while our lower-bounds are based on (robust versions of) dimensionality arguments.
翻訳日:2021-02-05 16:37:06 公開日:2021-02-03
# 因果不全と実際の因果関係

Causal Sufficiency and Actual Causation ( http://arxiv.org/abs/2102.02311v1 )

ライセンス: Link先を確認
Sander Beckers(参考訳) パールは因果モデルを使って実際の因果関係を正式に定義する扉を開いた。 第一に、X=xがY=y iff X=xを引き起こすという広範な直感をY=yの十分集合の必要要素として捉え、第二に、彼の定義が幅広い問題ケースに対して直感的な答えを与えることを示す。 このことがハーパーン・アンド・パール(Halpern & Pearl)による実際の因果関係の定義の数十のバリエーションに影響を与えた。 しかし、いずれもパールの第1戦略を無視しており、パール自身による第2戦略は合意を得られない。 この論文は、最初の戦略に戻る方法を提供します:それは6つの公式な因果不全の定義と2つの必要の解釈を提供します。 2つの組み合わせは、実際の因果関係の12の新しい定義を与える。 これらの定義とその様々なハルパーン・パールの定義との関係に関する興味深い結果が提示される。 その後、第2戦略も評価される。 中立性を最大化するために、論文はHalpern & Pearlの例と直感に大きく依存しています。 1つの定義は、他のすべての定義よりも優れており、したがって、実際の因果関係の新しい定義として提案される。

Pearl opened the door to formally defining actual causation using causal models. His approach rests on two strategies: first, capturing the widespread intuition that X=x causes Y=y iff X=x is a Necessary Element of a Sufficient Set for Y=y, and second, showing that his definition gives intuitive answers on a wide set of problem cases. This inspired dozens of variations of his definition of actual causation, the most prominent of which are due to Halpern & Pearl. Yet all of them ignore Pearl's first strategy, and the second strategy taken by itself is unable to deliver a consensus. This paper offers a way out by going back to the first strategy: it offers six formal definitions of causal sufficiency and two interpretations of necessity. Combining the two gives twelve new definitions of actual causation. Several interesting results about these definitions and their relation to the various Halpern & Pearl definitions are presented. Afterwards the second strategy is evaluated as well. In order to maximize neutrality, the paper relies mostly on the examples and intuitions of Halpern & Pearl. One definition comes out as being superior to all others, and is therefore suggested as a new definition of actual causation.
翻訳日:2021-02-05 16:31:18 公開日:2021-02-03
# DEFT: トラッキングのための検出埋め込み

DEFT: Detection Embeddings for Tracking ( http://arxiv.org/abs/2102.02267v1 )

ライセンス: Link先を確認
Mohamed Chaabane, Peter Zhang, J. Ross Beveridge and Stephen O'Hara(参考訳) ほとんどの現代のマルチオブジェクトトラッキング(MOT)システムは、検出をトラックに関連付ける方法が続く検出器からなるトラッキングバイ検出パラダイムに従います。 動きと外観の機能を組み合わせて閉塞やその他の課題に堅牢性を提供するために追跡する長い歴史がありますが、通常、これはより複雑で遅い実装のトレードオフに付属しています。 人気のある2dトラッキングベンチマークの成功は、トップスコアが最先端の検出器と、シングルフレームの空間的オフセットに依存する比較的単純な関連を使って達成可能であることを示している。 本稿では,「トラッキングのための検出埋め込み」と呼ばれる効率的な共同検出・追跡モデルを提案する。 提案手法は,基盤となる物体検出ネットワークを併用した外観ベースオブジェクトマッチングネットワークに依拠する。 動きの制約をキャプチャするためにLSTMも追加されます。 DEFTは、2Dオンライントラッキングリーダーボード上のトップメソッドと同等の精度とスピードを持ち、より困難なトラッキングデータに適用すると堅牢性に大きな利点があります。 deftは、以前のトップメソッドのパフォーマンスを2倍に増やす以上の、nuscenes monocular 3d tracking challengeのバーを上げる。 コードは公開されている。

Most modern multiple object tracking (MOT) systems follow the tracking-by-detectio n paradigm, consisting of a detector followed by a method for associating detections into tracks. There is a long history in tracking of combining motion and appearance features to provide robustness to occlusions and other challenges, but typically this comes with the trade-off of a more complex and slower implementation. Recent successes on popular 2D tracking benchmarks indicate that top-scores can be achieved using a state-of-the-art detector and relatively simple associations relying on single-frame spatial offsets -- notably outperforming contemporary methods that leverage learned appearance features to help re-identify lost tracks. In this paper, we propose an efficient joint detection and tracking model named DEFT, or "Detection Embeddings for Tracking." Our approach relies on an appearance-based object matching network jointly-learned with an underlying object detection network. An LSTM is also added to capture motion constraints. DEFT has comparable accuracy and speed to the top methods on 2D online tracking leaderboards while having significant advantages in robustness when applied to more challenging tracking data. DEFT raises the bar on the nuScenes monocular 3D tracking challenge, more than doubling the performance of the previous top method. Code is publicly available.
翻訳日:2021-02-05 16:30:03 公開日:2021-02-03
# 生体内エージェントの環境予測符号化

Environment Predictive Coding for Embodied Agents ( http://arxiv.org/abs/2102.02337v1 )

ライセンス: Link先を確認
Santhosh K. Ramakrishnan, Tushar Nagarajan, Ziad Al-Halah, Kristen Grauman(参考訳) 環境予測符号化は,エージェントの環境レベルの表現を学習するための自己教師付き手法である。 画像に対する自己監督学習の先行作業とは対照的に、エージェントが3D環境で動きながら集めた一連の画像を共同でエンコードすることを目指しています。 我々はゾーン予測タスクを通じてこれらの表現を学習し、エージェントの軌跡の一部をインテリジェントにマスキングし、エージェントのカメラのポーズに調整された未加工部分から予測する。 このような表現をビデオのコレクションで学習することで、複数の下流ナビゲーション指向タスクへの成功した転送を実証します。 GibsonとMatterport3Dの光リアルな3D環境に関する私たちの実験は、私たちの方法が経験の限られた予算で挑戦的なタスクの最先端を上回っていることを示しています。

We introduce environment predictive coding, a self-supervised approach to learn environment-level representations for embodied agents. In contrast to prior work on self-supervised learning for images, we aim to jointly encode a series of images gathered by an agent as it moves about in 3D environments. We learn these representations via a zone prediction task, where we intelligently mask out portions of an agent's trajectory and predict them from the unmasked portions, conditioned on the agent's camera poses. By learning such representations on a collection of videos, we demonstrate successful transfer to multiple downstream navigation-oriented tasks. Our experiments on the photorealistic 3D environments of Gibson and Matterport3D show that our method outperforms the state-of-the-art on challenging tasks with only a limited budget of experience.
翻訳日:2021-02-05 16:29:24 公開日:2021-02-03
# 畳み込み層のフィルタ数が音声認識モデル精度に及ぼす影響

Effects of Number of Filters of Convolutional Layers on Speech Recognition Model Accuracy ( http://arxiv.org/abs/2102.02326v1 )

ライセンス: Link先を確認
James Mou, Jun Li(参考訳) 本稿では,asrモデル(自動音声認識)のためのcnn+rnn(convolutional neural networks adding to recurrent neural networks)のモデル予測精度に及ぼす畳み込み層のフィルタ数の影響を体系的に検討する。 実験結果から,フィルタのCNN数が一定のしきい値を超えた場合のみ,CNN+RNN音声認識モデルの性能向上が可能なCNNをRNNに追加した場合,そうでなければ,CNNのパラメータ範囲によっては,CNNをRNNモデルに追加することができないことがわかった。 その結果,畳み込み層のフィルタ数に対する単語精度の強い依存性が示された。 実験結果に基づいて, 上記の観測を説明するために, 音場2-ベクトル埋め込み(畳み込み)の仮説を提案した。 本稿では,この埋め込み仮説とパラメータの最適化に基づき,単語の精度が高く,軽量なモデル重みを持つエンドツーエンド音声認識システムを開発した。 開発したLVCSR(Large Vocabulary Continuous Speech Recognition)モデルは、中音韻表現と言語モデルの援助なしに、音響モデルだけで90.2%の非常に高い単語精度を達成しました。 deepspeech2 [2](最先端のlvcsrモデルの1つ)の音響モデル重量パラメータ35~6800万に対して、その音響モデルはわずか440万の重量パラメータしか含んでおらず、91.5%の単語精度を達成している。 軽量モデルは、トランスクリプティングコンピューティングの効率を改善するのに適しており、モバイルデバイスや無人運転車などにも役立ちます。 モデル重量はDeepSpeech2の約10%に削減されるが、モデルの精度はDeepSpeech2のそれに近いままである。 言語モデルと組み合わせると、当社のLVCSRシステムは91.5%の単語精度を達成できます。

Inspired by the progress of the End-to-End approach [1], this paper systematically studies the effects of Number of Filters of convolutional layers on the model prediction accuracy of CNN+RNN (Convolutional Neural Networks adding to Recurrent Neural Networks) for ASR Models (Automatic Speech Recognition). Experimental results show that only when the CNN Number of Filters exceeds a certain threshold value is adding CNN to RNN able to improve the performance of the CNN+RNN speech recognition model, otherwise some parameter ranges of CNN can render it useless to add the CNN to the RNN model. Our results show a strong dependency of word accuracy on the Number of Filters of convolutional layers. Based on the experimental results, the paper suggests a possible hypothesis of Sound-2-Vector Embedding (Convolutional Embedding) to explain the above observations. Based on this Embedding hypothesis and the optimization of parameters, the paper develops an End-to-End speech recognition system which has a high word accuracy but also has a light model-weight. The developed LVCSR (Large Vocabulary Continuous Speech Recognition) model has achieved quite a high word accuracy of 90.2% only by its Acoustic Model alone, without any assistance from intermediate phonetic representation and any Language Model. Its acoustic model contains only 4.4 million weight parameters, compared to the 35~68 million acoustic-model weight parameters in DeepSpeech2 [2] (one of the top state-of-the-art LVCSR models) which can achieve a word accuracy of 91.5%. The light-weighted model is good for improving the transcribing computing efficiency and also useful for mobile devices, Driverless Vehicles, etc. Our model weight is reduced to ~10% the size of DeepSpeech2, but our model accuracy remains close to that of DeepSpeech2. If combined with a Language Model, our LVCSR system is able to achieve 91.5% word accuracy.
翻訳日:2021-02-05 16:22:20 公開日:2021-02-03
# horizontally fused training array: 新しいディープラーニングモデルのトレーニングに有効なハードウェア利用シュイーサー

Horizontally Fused Training Array: An Effective Hardware Utilization Squeezer for Training Novel Deep Learning Models ( http://arxiv.org/abs/2102.02344v1 )

ライセンス: Link先を確認
Shang Wang, Peiming Yang, Yuxuan Zheng, Xin Li, Gennady Pekhimenko(参考訳) 新しいディープラーニング(DL)アルゴリズムの研究に多大な努力によって、新しいモデルを開発するためのトレーニングコストは近年驚くほど増加しています。 このトレーニングコストを削減し、クラスタ全体のハードウェアリソース使用を最適化するために、有名な研究機関からGPUクラスタ使用統計を分析します。 本研究では,シングルアクセラレータのトレーニングジョブが,ハードウェアを過度に活用しながら,繰り返し起動時のクラスタ全体のリソース消費量(ハイパーパラメータチューニングなど)を支配できることを明らかにする。 これは、DL研究者や実践者が独自のワークロードを独自に最適化するために必要な専門知識を欠いているためです。 幸いなことに、このような作業負荷は、(i)ジョブ間のモデルは、同じ形状のオペレータの同じタイプを持っていることが多く、(ii)そのようなオペレータのモデル間水平融合は、他のすでに最適化された演算子と数学的に等価である。 そこで本研究では,DL研究者や実践者が,新たなDLトレーニング作業のハードウェア利用を効果的かつ容易に向上するために,Horizontally Fused Training Array (HFTA)を提案する。 HFTAは新しいDLフレームワーク拡張ライブラリで、異なる繰り返しジョブから演算子までモデルを水平方向に融合させ、それらのモデルを共有アクセラレータで同時にトレーニングする。 新興のDLトレーニングワークロードと最先端のアクセラレータ(GPUとTPU)の3つにおいて、HFTAはハードウェアの利用を絞り込むのに強力な効果を発揮し、各ジョブを別々のアクセラレータ上で実行する標準的なプラクティスと比較して最大15.1 \times$高いトレーニングスループットを達成します。

Driven by the tremendous effort in researching novel deep learning (DL) algorithms, the training cost of developing new models increases staggeringly in recent years. To reduce this training cost and optimize the cluster-wide hardware resource usage, we analyze GPU cluster usage statistics from a well-known research institute. Our study reveals that single-accelerator training jobs can dominate the cluster-wide resource consumption when launched repetitively (e.g., for hyper-parameter tuning) while severely underutilizing the hardware. This is because DL researchers and practitioners often lack the required expertise to independently optimize their own workloads. Fortunately, we observe that such workloads have the following unique characteristics: (i) the models among jobs often have the same types of operators with the same shapes, and (ii) the inter-model horizontal fusion of such operators is mathematically equivalent to other already well-optimized operators. Thus, to help DL researchers and practitioners effectively and easily improve the hardware utilization of their novel DL training workloads, we propose Horizontally Fused Training Array (HFTA). HFTA is a new DL framework extension library that horizontally fuses the models from different repetitive jobs deeply down to operators, and then trains those models simultaneously on a shared accelerator. On three emerging DL training workloads and state-of-the-art accelerators (GPUs and TPUs), HFTA demonstrates strong effectiveness in squeezing out hardware utilization and achieves up to $15.1 \times$ higher training throughput vs. the standard practice of running each job on a separate accelerator.
翻訳日:2021-02-05 16:21:28 公開日:2021-02-03
# 共通信号の爆発による協調改善

Improved Cooperation by Exploiting a Common Signal ( http://arxiv.org/abs/2102.02304v1 )

ライセンス: Link先を確認
Panayiotis Danassis, Zeki Doruk Erden, Boi Faltings(参考訳) 人工エージェントは人間の慣習から利益を得られるか? 人間社会は、非協調ゲーム理論の暗黙の予測にもかかわらず、共通プール資源におけるコモンズの悲劇を自己組織し解決することに成功している。 その上、現実世界の問題は本質的に大規模なもので、可観測性が低い。 このような設定での人間の協調を促進する重要な概念の1つは、規約の使用である。 人間の行動にインスパイアされた我々は,共通プール資源に着目し,時間的慣行の学習力学と出現を考察した。 a)環境ダイナミクスは実世界の漁業に基づいてモデル化され、(b)エージェントは自分の歴史だけを観察できる分散型学習を想定し、(c)大規模シミュレーション(最大64エージェント)を実行する。 非結合ポリシーと低可観測性は協力を困難にし、エージェントの数が増えるにつれて、正しい勾配方向を取る確率は指数関数的に減少する。 学習過程を結合する手段として任意の共通信号(例えば、日付、時間、周期的な数集合)を導入することにより、時間的慣行が出現し、持続的な収穫戦略に到達することを示す。 この信号の導入により、社会福祉(平均258%、最大3306%)、持続可能性を達成することができる環境パラメータの範囲(平均46%、平均300%)、低存在量設定での収束速度(平均13%、最大53%)が一貫して改善される。

Can artificial agents benefit from human conventions? Human societies manage to successfully self-organize and resolve the tragedy of the commons in common-pool resources, in spite of the bleak prediction of non-cooperative game theory. On top of that, real-world problems are inherently large-scale and of low observability. One key concept that facilitates human coordination in such settings is the use of conventions. Inspired by human behavior, we investigate the learning dynamics and emergence of temporal conventions, focusing on common-pool resources. Extra emphasis was given in designing a realistic evaluation setting: (a) environment dynamics are modeled on real-world fisheries, (b) we assume decentralized learning, where agents can observe only their own history, and (c) we run large-scale simulations (up to 64 agents). Uncoupled policies and low observability make cooperation hard to achieve; as the number of agents grow, the probability of taking a correct gradient direction decreases exponentially. By introducing an arbitrary common signal (e.g., date, time, or any periodic set of numbers) as a means to couple the learning process, we show that temporal conventions can emerge and agents reach sustainable harvesting strategies. The introduction of the signal consistently improves the social welfare (by 258% on average, up to 3306%), the range of environmental parameters where sustainability can be achieved (by 46% on average, up to 300%), and the convergence speed in low abundance settings (by 13% on average, up to 53%).
翻訳日:2021-02-05 16:17:38 公開日:2021-02-03
# Confusion2vec 2.0: さまざまな言語表現をサブワードで強化

Confusion2vec 2.0: Enriching Ambiguous Spoken Language Representations with Subwords ( http://arxiv.org/abs/2102.02270v1 )

ライセンス: Link先を確認
Prashanth Gurunath Shivakumar, Panayiotis Georgiou, Shrikanth Narayanan(参考訳) 単語ベクター表現は、機械が言語理解と処理のために人間の言語をエンコードすることを可能にする。 confusion2vecは、人間の音声生成と知覚から動機付けられた単語ベクトル表現であり、意味論と構文情報に加えて、人間の音声言語に存在するあいまいさを符号化する。 Confusion2vecは、人間固有の言語あいまいさを考慮し、堅牢な音声言語表現を提供する。 本稿では,自動音声認識(ASR)システムによって出力される格子の教師なし学習による新しい単語ベクトル空間推定を提案する。 我々は,各単語をそのサブワード文字n-gramで混同した2vecベクトル空間に符号化する。 格子構造ASR出力をモデルとした情報を用いて,音声言語の音響的知覚的あいまいさをよりよく表現するサブワード符号化法を示す。 The usefulness of the Confusion2vec representation is evaluate using semantic, syntactic and acoustic analogy and word similarity tasks。 また,音声言語意図検出タスクにおける音響曖昧性表現のためのサブワードモデリングの利点を示す。 その結果, 誤りasr出力で評価した場合, 既存の単語ベクトル表現を有意に上回った。 mess2vecサブワードモデリングにより,自然言語理解モデルの再学習/適応の必要性が排除された。

Word vector representations enable machines to encode human language for spoken language understanding and processing. Confusion2vec, motivated from human speech production and perception, is a word vector representation which encodes ambiguities present in human spoken language in addition to semantics and syntactic information. Confusion2vec provides a robust spoken language representation by considering inherent human language ambiguities. In this paper, we propose a novel word vector space estimation by unsupervised learning on lattices output by an automatic speech recognition (ASR) system. We encode each word in confusion2vec vector space by its constituent subword character n-grams. We show the subword encoding helps better represent the acoustic perceptual ambiguities in human spoken language via information modeled on lattice structured ASR output. The usefulness of the proposed Confusion2vec representation is evaluated using semantic, syntactic and acoustic analogy and word similarity tasks. We also show the benefits of subword modeling for acoustic ambiguity representation on the task of spoken language intent detection. The results significantly outperform existing word vector representations when evaluated on erroneous ASR outputs. We demonstrate that Confusion2vec subword modeling eliminates the need for retraining/adapting the natural language understanding models on ASR transcripts.
翻訳日:2021-02-05 16:13:50 公開日:2021-02-03
# Echo-SyncNet:エコー心電図における自己監視型心電図同期

Echo-SyncNet: Self-supervised Cardiac View Synchronization in Echocardiography ( http://arxiv.org/abs/2102.02287v1 )

ライセンス: Link先を確認
Fatemeh Taheri Dezaki, Christina Luong, Tom Ginsberg, Robert Rohling, Ken Gin, Purang Abolmaesumi, Teresa Tsang(参考訳) 心エコー法(echo)では、心電図(ECG)を用いて、心電図を時間的に調整し、臨界測定値を評価する。 しかし、緊急時やケアの状況では、ECGの取得はオプションではないことが多いため、代替の時間同期方法の必要性を動機付けている。 本稿では,外部入力なしで様々な断面2Dエコー系列を同期する自己教師型学習フレームワークであるEcho-SyncNetを提案する。 提案するフレームワークは、ビュー内およびビュー間自己監督の両方を活用する。 前者は1つのエコーシネのフレーム間の時空間パターンと、後者は複数のシネ間の相互依存性に依存する。 複合監督は、複数のエコーシネが時間的に同期できる機能豊富な埋め込み空間を学ぶために使用される。 本研究では,998名の患者から得られたデータを用いて,Apical 2のチャンバーとApical 4のチャンバービューを同期させる有望な結果を示すとともに,3070名の患者から得られたデータを用いて,Echo-SyncNetの学習結果が,微細な心筋相の自動検出に最適化された教師付き深層学習法よりも優れていることを明らかにした。 微調整なしで、1188検証患者の研究のキーフレームは、1つのラベル付き参照研究と同期することによって識別されます。 特定の心のビューがトレーニングに何に使われるのかを事前に仮定することはせず、echo-syncnetがそのトレーニングセットに存在しないビューに正確に一般化できることを示しています。 プロジェクトリポジトリ:github.com/fatemeht d/Echo-SyncNet

In echocardiography (echo), an electrocardiogram (ECG) is conventionally used to temporally align different cardiac views for assessing critical measurements. However, in emergencies or point-of-care situations, acquiring an ECG is often not an option, hence motivating the need for alternative temporal synchronization methods. Here, we propose Echo-SyncNet, a self-supervised learning framework to synchronize various cross-sectional 2D echo series without any external input. The proposed framework takes advantage of both intra-view and inter-view self supervisions. The former relies on spatiotemporal patterns found between the frames of a single echo cine and the latter on the interdependencies between multiple cines. The combined supervisions are used to learn a feature-rich embedding space where multiple echo cines can be temporally synchronized. We evaluate the framework with multiple experiments: 1) Using data from 998 patients, Echo-SyncNet shows promising results for synchronizing Apical 2 chamber and Apical 4 chamber cardiac views; 2) Using data from 3070 patients, our experiments reveal that the learned representations of Echo-SyncNet outperform a supervised deep learning method that is optimized for automatic detection of fine-grained cardiac phase; 3) We show the usefulness of the learned representations in a one-shot learning scenario of cardiac keyframe detection. Without any fine-tuning, keyframes in 1188 validation patient studies are identified by synchronizing them with only one labeled reference study. We do not make any prior assumption about what specific cardiac views are used for training and show that Echo-SyncNet can accurately generalize to views not present in its training set. Project repository: github.com/fatemehtd /Echo-SyncNet.
翻訳日:2021-02-05 16:09:40 公開日:2021-02-03
# 10億の顔というラベル:コンピュータビジョンにおける人種カテゴリの使用と一貫性

One Label, One Billion Faces: Usage and Consistency of Racial Categories in Computer Vision ( http://arxiv.org/abs/2102.02320v1 )

ライセンス: Link先を確認
Zaid Khan and Yun Fu(参考訳) コンピュータビジョンは広くデプロイされ、可視性が高く、アプリケーションを変え、バイアスと表現に関する問題を文書化している。 データセットは、公正なコンピュータビジョンの進捗をベンチマークするために重要であり、しばしば集団の公平さを測定するために、幅広い人種的カテゴリーを用いる。 同様に、多様性はしばしば分類的人種ラベルを記述し数えることでコンピュータビジョンデータセットで測定される。 しかし、人種分類は不定義であり、時間的にも地理的にも不安定であり、科学的利用の歴史に問題がある。 データセット全体で使用される人種分類は表面的に類似しているが、人間の人種認識の複雑さは、あるデータセットで符号化された人種システムは、他のデータセットと実質的に矛盾している可能性を示唆している。 分類器がデータセットにエンコードされた人種システムを学習できるという洞察を用いて、顔画像に分類的人種ラベルを供給するコンピュータビジョンデータセットの実証研究を行い、人種カテゴリの横断的一貫性と一般化を判定する。 各データセットは、名目上同等の人種分類にもかかわらず、実質的に一意な人種体系を符号化しており、いくつかの人種分類は、他のデータセットよりも系統的に一貫性が低い。 人種的カテゴリーがステレオタイプを符号化し、非共形性からステレオタイプに基いて民族集団をカテゴリーから除外する証拠を見いだす。 1つの人種カテゴリーの下で10億人の人間を表現することは、人種システムのステレオタイプをエンコードすることで、格差を曖昧にし、新しいものを創造するかもしれない。 人種の抽象概念を公平性を測定するためのツールに適切に変換することは困難であり、人種圏よりも柔軟で文化的に認識される方法の必要性を強調している。

Computer vision is widely deployed, has highly visible, society altering applications, and documented problems with bias and representation. Datasets are critical for benchmarking progress in fair computer vision, and often employ broad racial categories as population groups for measuring group fairness. Similarly, diversity is often measured in computer vision datasets by ascribing and counting categorical race labels. However, racial categories are ill-defined, unstable temporally and geographically, and have a problematic history of scientific use. Although the racial categories used across datasets are superficially similar, the complexity of human race perception suggests the racial system encoded by one dataset may be substantially inconsistent with another. Using the insight that a classifier can learn the racial system encoded by a dataset, we conduct an empirical study of computer vision datasets supplying categorical race labels for face images to determine the cross-dataset consistency and generalization of racial categories. We find that each dataset encodes a substantially unique racial system, despite nominally equivalent racial categories, and some racial categories are systemically less consistent than others across datasets. We find evidence that racial categories encode stereotypes, and exclude ethnic groups from categories on the basis of nonconformity to stereotypes. Representing a billion humans under one racial category may obscure disparities and create new ones by encoding stereotypes of racial systems. The difficulty of adequately converting the abstract concept of race into a tool for measuring fairness underscores the need for a method more flexible and culturally aware than racial categories.
翻訳日:2021-02-05 16:08:47 公開日:2021-02-03
# 公共交通サービスの確実な計画に向けたバス走行時間の確率分布の予測

Predicting the probability distribution of bus travel time to move towards reliable planning of public transport services ( http://arxiv.org/abs/2102.02292v1 )

ライセンス: Link先を確認
L\'ea Ricard, Guy Desaulniers, Andrea Lodi, Louis-Martin Rousseau(参考訳) 公共交通サービスの品質の重要な側面は、その信頼性であり、それはサービス属性の不変性として定義される。 計画中の予防措置は、運用中の信頼できないリスクを減らすことができます。 サービス計画段階での信頼性に取り組むために、重要な情報の一つは、旅行時間の不確実性を伝える旅行時間密度の長期予測である。 本稿では,公共交通機関におけるサービス計画問題,すなわち,一連の旅行と確率密度関数(p.d.f.)を入力とする多目的車両スケジューリング問題(MDVSP)に対する信頼性の高いアプローチを提案する。 遅延耐性車両のスケジュールを出力するために、各旅行の移動時間の。 この研究は、条件 p.d.f の予測のための確率モデルを経験的に比較する。 旅行時間の、信頼できるMDVSPの解決への第一歩として。 2種類の確率モデル(類似度に基づく密度推定モデルと確率的分類モデルのための滑らかなロジスティック回帰モデル)を41,000以上の旅行と50のバス路線のデータセットで比較した。 確率モデルの大部分の結果は、本質的に確率的ではないランダムフォレストモデルよりも優れており、条件 p.d.f をモデル化する付加価値を強調している。 確率論的モデルによる旅行時間です k$近傍法とカーネル密度推定を用いた類似度に基づく密度推定モデルは、真の条件付きp.d.fの最適推定を予測した。 このデータセットで

An important aspect of the quality of a public transport service is its reliability, which is defined as the invariability of the service attributes. Preventive measures taken during planning can reduce risks of unreliability throughout operations. In order to tackle reliability during the service planning phase, a key piece of information is the long-term prediction of the density of the travel time, which conveys the uncertainty of travel times. We introduce a reliable approach to one of the problems of service planning in public transport, namely the Multiple Depot Vehicle Scheduling Problem (MDVSP), which takes as input a set of trips and the probability density function (p.d.f.) of the travel time of each trip in order to output delay-tolerant vehicle schedules. This work empirically compares probabilistic models for the prediction of the conditional p.d.f. of the travel time, as a first step towards reliable MDVSP solutions. Two types of probabilistic models, namely similarity-based density estimation models and a smoothed Logistic Regression for probabilistic classification model, are compared on a dataset of more than 41,000 trips and 50 bus routes of the city of Montr\'eal. The result of a vast majority of probabilistic models outperforms that of a Random Forests model, which is not inherently probabilistic, thus highlighting the added value of modeling the conditional p.d.f. of the travel time with probabilistic models. A similarity-based density estimation model using a $k$ Nearest Neighbors method and a Kernel Density Estimation predicted the best estimate of the true conditional p.d.f. on this dataset.
翻訳日:2021-02-05 16:06:30 公開日:2021-02-03
# ロバスト一様収束による最小絶対偏差回帰の問合せ複雑性

Query Complexity of Least Absolute Deviation Regression via Robust Uniform Convergence ( http://arxiv.org/abs/2102.02322v1 )

ライセンス: Link先を確認
Xue Chen, Micha{\l} Derezi\'nski(参考訳) 学習者が$d$次元のデータポイントの大規模なコレクションを与えられる回帰問題を考えるが、実数値ラベルの小さなサブセットにのみ問い合わせることができる。 最適値の相対誤差近似を1+\epsilon$で得られるクエリはいくつ必要か? この問題は少なくとも2乗回帰について広く研究されているが、他の損失についてはほとんど知られていない。 重要な例は、最小偏差回帰($\ell_1$ regression)であり、最小二乗に比べ、アウトレーヤに対して優れた堅牢性を持つ。 回帰問題における重要サンプリング手法を解析するための新しいフレームワークを開発し、最小絶対偏差回帰のクエリ複雑性が対数因子まで$\Theta(d/\epsilon^2)$であることを示す。 さらに、$p\in(1,2)$ の任意の $\ell_p$ 損失に対するクエリの複雑さの最初の境界を示す技術を拡張します。 分析において重要な新規性として、実験損失に対する新たな近似保証である、頑健な一様収束の概念を導入する。 統計的学習における一様収束に着想を得ているが,本手法では,異常値による不必要な分散を避けるために補正項も取り入れている。 これは統計的学習理論と確率的最適化における分散還元手法との新たな関係と見なすことができ、独立興味を持つべきである。

Consider a regression problem where the learner is given a large collection of $d$-dimensional data points, but can only query a small subset of the real-valued labels. How many queries are needed to obtain a $1+\epsilon$ relative error approximation of the optimum? While this problem has been extensively studied for least squares regression, little is known for other losses. An important example is least absolute deviation regression ($\ell_1$ regression) which enjoys superior robustness to outliers compared to least squares. We develop a new framework for analyzing importance sampling methods in regression problems, which enables us to show that the query complexity of least absolute deviation regression is $\Theta(d/\epsilon^2)$ up to logarithmic factors. We further extend our techniques to show the first bounds on the query complexity for any $\ell_p$ loss with $p\in(1,2)$. As a key novelty in our analysis, we introduce the notion of robust uniform convergence, which is a new approximation guarantee for the empirical loss. While it is inspired by uniform convergence in statistical learning, our approach additionally incorporates a correction term to avoid unnecessary variance due to outliers. This can be viewed as a new connection between statistical learning theory and variance reduction techniques in stochastic optimization, which should be of independent interest.
翻訳日:2021-02-05 16:05:44 公開日:2021-02-03
# 新型コロナウイルスのモデル化のための双方向LSTMとGANに基づくデジタルツイン

Digital twins based on bidirectional LSTM and GAN for modelling COVID-19 ( http://arxiv.org/abs/2102.02664v1 )

ライセンス: Link先を確認
C\'esar Quilodr\'an-Casas, Vinicius Santos Silva, Rossella Arcucci, Claire E. Heaney, Yike Guo, Christopher C. Pain(参考訳) 2019年の新型コロナウイルス(COVID-19)の流行は、世界中で1億人以上が感染し、2200万人以上が死亡しています。 したがって、これらの疾患がどのように広がるのかをよりよく理解するために、疫学モデルのダイナミクスを研究する必要がある。 疫学モデルは計算コストが高いが、機械学習技術の最近の進歩は、計算コストの低減で複雑なダイナミクスを学習し予測する能力を持つニューラルネットワークを生み出している。 ここでは、理想都市に適用されたSEIRSモデルの2つのデジタルツインを紹介する。 SEIRSモデルは、空間的変動を考慮して修正され、可能であれば、そのモデルパラメータは、英国からの公式なウイルス拡散データに基づいている。 データ補正された双方向長期記憶ネットワークと予測的汎用ネットワークからの予測を比較します。 これら2つのフレームワークによる予測は、オリジナルのSEIRSモデルデータと比較すると正確である。 さらに、これらのフレームワークはデータ非依存であり、英国や他の国で、理想的または現実的に町に適用することができます。 また、より現実的な疫学的行動を研究するために、SEIRSモデルにより多くの区画を含めることができる。

The outbreak of the coronavirus disease 2019 (COVID-19) has now spread throughout the globe infecting over 100 million people and causing the death of over 2.2 million people. Thus, there is an urgent need to study the dynamics of epidemiological models to gain a better understanding of how such diseases spread. While epidemiological models can be computationally expensive, recent advances in machine learning techniques have given rise to neural networks with the ability to learn and predict complex dynamics at reduced computational costs. Here we introduce two digital twins of a SEIRS model applied to an idealised town. The SEIRS model has been modified to take account of spatial variation and, where possible, the model parameters are based on official virus spreading data from the UK. We compare predictions from a data-corrected Bidirectional Long Short-Term Memory network and a predictive Generative Adversarial Network. The predictions given by these two frameworks are accurate when compared to the original SEIRS model data. Additionally, these frameworks are data-agnostic and could be applied to towns, idealised or real, in the UK or in other countries. Also, more compartments could be included in the SEIRS model, in order to study more realistic epidemiological behaviour.
翻訳日:2021-02-05 16:01:37 公開日:2021-02-03
# 最大エントロピー法による疾患予測

Disease Prediction with a Maximum Entropy Method ( http://arxiv.org/abs/2102.02668v1 )

ライセンス: Link先を確認
Michael Shub, Qing Xu, Xiaohua (Michael) Xuan(参考訳) 本稿では,疾患リスクを予測するための最大エントロピー法を提案する。 ICD-10にコードされた疾患を持つ患者の医療歴に基づいており、さまざまなケースで使用できます。 厳密な数学的導出を伴う完全アルゴリズムが与えられる。 また,本手法が将来の疾患リスク予測に有効であることを実証し,従来の手法の2倍の精度が得られることを示した。 また,疾患の本質的関連性を明らかにするために,共生分析を行う。

In this paper, we propose a maximum entropy method for predicting disease risks. It is based on a patient's medical history with diseases coded in ICD-10 which can be used in various cases. The complete algorithm with strict mathematical derivation is given. We also present experimental results on a medical dataset, demonstrating that our method performs well in predicting future disease risks and achieves an accuracy rate twice that of the traditional method. We also perform a comorbidity analysis to reveal the intrinsic relation of diseases.
翻訳日:2021-02-05 16:00:58 公開日:2021-02-03
# OmiEmbed:マルチタスク深層学習を用いたマルチオミクスデータからの包括的表現型情報再構成

OmiEmbed: reconstruct comprehensive phenotypic information from multi-omics data using multi-task deep learning ( http://arxiv.org/abs/2102.02669v1 )

ライセンス: Link先を確認
Xiaoyu Zhang, Kai Sun, Yike Guo(参考訳) 高次元オミスデータは、個人化医療に不可欠な内在的な生体医学情報を含んでいる。 それにもかかわらず、機械学習の「次元の呪い」とも呼ばれる多数の分子機能と少数の利用可能なサンプルのために、ゲノム全体のデータからそれらをキャプチャすることは困難です。 そこで我々は,この問題に対処し,機械学習による精密医療を支援するために,OmiEmbedと呼ばれるマルチタスク深層学習フレームワークを提案し,高次元オミクスデータから表現型の全体的かつ比較的正確なプロファイルを抽出した。 omiembed の深い埋め込みモジュールは、複数の omics データ型を低次元の潜在空間にマッピングした omics 埋め込みを学習した。 マルチオミクスデータの新たな表現に基づいて,各サンプルの包括的表現型プロファイルを予測するためのマルチタスク戦略とともに,オメムベッドの異なる下流ネットワークを訓練した。 そこで我々は,OmiEmbedの性能を評価するために,2つの公開オミクスデータセットを用いてモデルを訓練した。 OmiEmbed モデルは, 次元減少, 腫瘍型分類, マルチオミクス統合, 人口統計学的, 臨床的特徴再構成, 生存予測など, 複数の下流課題に対して有望な結果を得た。 異なるダウンストリームネットワークを個別にトレーニングして適用する代わりに、マルチタスク戦略はそれらを組み合わせることで、同時に効率的に複数のタスクを実行した。 このモデルは、個々のトレーニングと比較してマルチタスク戦略でより良いパフォーマンスを達成しました。 OmiEmbedは、高次元オミクスデータから包括的表現型情報を正確に取得する強力なツールであり、より正確でパーソナライズされた臨床意思決定を促進する大きな可能性を秘めている。

High-dimensional omics data contains intrinsic biomedical information that is crucial for personalised medicine. Nevertheless, it is challenging to capture them from the genome-wide data due to the large number of molecular features and small number of available samples, which is also called "the curse of dimensionality" in machine learning. To tackle this problem and pave the way for machine learning aided precision medicine, we proposed a unified multi-task deep learning framework called OmiEmbed to capture a holistic and relatively precise profile of phenotype from high-dimensional omics data. The deep embedding module of OmiEmbed learnt an omics embedding that mapped multiple omics data types into a latent space with lower dimensionality. Based on the new representation of multi-omics data, different downstream networks of OmiEmbed were trained together with the multi-task strategy to predict the comprehensive phenotype profile of each sample. We trained the model on two publicly available omics datasets to evaluate the performance of OmiEmbed. The OmiEmbed model achieved promising results for multiple downstream tasks including dimensionality reduction, tumour type classification, multi-omics integration, demographic and clinical feature reconstruction, and survival prediction. Instead of training and applying different downstream networks separately, the multi-task strategy combined them together and conducted multiple tasks simultaneously and efficiently. The model achieved better performance with the multi-task strategy comparing to training them individually. OmiEmbed is a powerful tool to accurately capture comprehensive phenotypic information from high-dimensional omics data and has a great potential to facilitate more accurate and personalised clinical decision making.
翻訳日:2021-02-05 16:00:32 公開日:2021-02-03
# 不確かさ非線形システムの動的出力予測制御設計のためのヒューリスティック

A Heuristic for Dynamic Output Predictive Control Design for Uncertain Nonlinear Systems ( http://arxiv.org/abs/2102.02268v1 )

ライセンス: Link先を確認
Mazen Alamir(参考訳) 本論文では,不確実パラメータを含む非線形モデルに対する不確実性認識予測制御器の設計のための簡単なヒューリスティックを提案する。 この方法は、完全に既知のパラメータを持つ理想的な決定論的MPCソリューションの機械学習に基づく近似に依存する。 これらのオフラインソリューションから設定した学習データセットを効率的に構築し、各ソリューションが学習データに多くのサンプルを提供する。 これにより、パラメータ分散の統計を明示的に活用しながら、オフラインで必要な非線形プログラミング問題の数を大幅に削減することができる。 学習データは、パラメータ分散の統計情報を明示的に組み込む高速なオンライン出力動的フィードバックを設計するために使用されます。 提案したフレームワークの効率性と妥当性を説明するための例を挙げる。 特に, 提案手法は, パラメータの完全知識を, 名目設計と比較して最大78 %まで回復できることが示唆された。

In this paper, a simple heuristic is proposed for the design of uncertainty aware predictive controllers for nonlinear models involving uncertain parameters. The method relies on Machine Learning-based approximation of ideal deterministic MPC solutions with perfectly known parameters. An efficient construction of the learning data set from these off-line solutions is proposed in which each solution provides many samples in the learning data. This enables a drastic reduction of the required number of Non Linear Programming problems to be solved off-line while explicitly exploiting the statistics of the parameters dispersion. The learning data is then used to design a fast on-line output dynamic feedback that explicitly incorporate information of the statistics of the parameters dispersion. An example is provided to illustrate the efficiency and the relevance of the proposed framework. It is in particular shown that the proposed solution recovers up to 78\% of the expected advantage of having a perfect knowledge of the parameters compared to nominal design.
翻訳日:2021-02-05 15:59:42 公開日:2021-02-03
# テンポ不変畳み込みニューラルネットワークによるダウンビート追跡

Downbeat Tracking with Tempo-Invariant Convolutional Neural Networks ( http://arxiv.org/abs/2102.02282v1 )

ライセンス: Link先を確認
Bruno Di Giorgi, Matthias Mauch, Mark Levy(参考訳) 音楽のダウンビートを追跡する人間の能力はテンポの変化に対して頑丈であり、それまで遭遇したことのないテンピにまで拡張される。 本稿では,ネットワークがテンポとは無関係にリズムパターンを学習できるようにすることで,畳み込みニューラルネットワーク(CNN)におけるこのスキルを実現するための決定論的時間ワープ演算を提案する。 トレーニングデータセットに存在するテンポのリズムパターンを学習する従来のディープラーニングアプローチとは異なり、我々のモデルで学んだパターンはテンポ不変であり、テンポの一般化とネットワーク容量の効率的な利用に繋がる。 本研究では,ddiデータセットをfluidsynthを用いてレンダリングして作成した合成データセットの一般化特性を,オリジナルパフォーマンスを含むトレーニングセットと,音素の異なるテンポスケールバージョンを含むテストセットに分割する(テスト時間補完)。 提案されたモデルは、ほぼ完全に見えないテンピ(トレーニングセットとテストセットの両方で0.89のF測定)に一般化されるが、同等の従来のCNNはトレーニングセット(0.89)でのみ同様の精度を達成し、テストセットで0.54に低下する。 提案モデルの一般化の利点は、GTZANとBallroomのデータセットで示されているように、実際の音楽に拡張される。

The human ability to track musical downbeats is robust to changes in tempo, and it extends to tempi never previously encountered. We propose a deterministic time-warping operation that enables this skill in a convolutional neural network (CNN) by allowing the network to learn rhythmic patterns independently of tempo. Unlike conventional deep learning approaches, which learn rhythmic patterns at the tempi present in the training dataset, the patterns learned in our model are tempo-invariant, leading to better tempo generalisation and more efficient usage of the network capacity. We test the generalisation property on a synthetic dataset created by rendering the Groove MIDI Dataset using FluidSynth, split into a training set containing the original performances and a test set containing tempo-scaled versions rendered with different SoundFonts (test-time augmentation). The proposed model generalises nearly perfectly to unseen tempi (F-measure of 0.89 on both training and test sets), whereas a comparable conventional CNN achieves similar accuracy only for the training set (0.89) and drops to 0.54 on the test set. The generalisation advantage of the proposed model extends to real music, as shown by results on the GTZAN and Ballroom datasets.
翻訳日:2021-02-05 15:59:09 公開日:2021-02-03
# (参考訳) 文脈的単語アライメントによる多言語AMRのブートストラップ [全文訳有]

Bootstrapping Multilingual AMR with Contextual Word Alignments ( http://arxiv.org/abs/2102.02189v1 )

ライセンス: CC BY-SA 4.0
Janaki Sheth and Young-Suk Lee and Ramon Fernandez Astudillo and Tahira Naseem and Radu Florian and Salim Roukos and Todd Ward(参考訳) 英語のAMRアノテーションを他の言語にプロジェクションすることで, ハイパフォーマンスな多言語抽象的意味表現(AMR)システムを開発した。 トランスフォーマーベースの多言語単語埋め込みをブートストラップすることで、この目標を達成している。 英文間アライメントのための新しい手法を開発し,en-glishと外国語トークン間の文脈的単語アライメントを用いた。 我々は,ドイツ語,イタリア語,スペイン語,中国語の最も優れた結果を上回る,高度に競争力のある性能を達成している。

We develop high performance multilingualAbstract Meaning Representation (AMR) sys-tems by projecting English AMR annotationsto other languages with weak supervision. Weachieve this goal by bootstrapping transformer-based multilingual word embeddings, in partic-ular those from cross-lingual RoBERTa (XLM-R large). We develop a novel technique forforeign-text-to-E nglish AMR alignment, usingthe contextual word alignment between En-glish and foreign language tokens. This wordalignment is weakly supervised and relies onthe contextualized XLM-R word embeddings.We achieve a highly competitive performancethat surpasses the best published results forGerman, Italian, Spanish and Chinese.
翻訳日:2021-02-05 05:25:25 公開日:2021-02-03
# (参考訳) 記憶と一般化: nlp性能評価におけるデータ漏洩の定量化 [全文訳有]

Memorization vs. Generalization: Quantifying Data Leakage in NLP Performance Evaluation ( http://arxiv.org/abs/2102.01818v1 )

ライセンス: CC BY 4.0
Aparna Elangovan, Jiayuan He, Karin Verspoor(参考訳) パブリックデータセットは、自然言語処理(nlp)における多くのタスクにおける最先端手法の有効性と一般化性を評価するためにしばしば使用される。 しかし、列車とテストデータセットの重なりがあるため、結果が膨らみ、モデルの記憶能力が不注意に評価され、一般化する能力として解釈される。 さらに、このようなデータセットは、現実のシナリオにおけるこれらのメソッドのパフォーマンスの効果的な指標を提供しないかもしれない。 名前付きエンティティ認識や関係抽出など、NLPタスクを評価するために使用されるいくつかの公開データセットの試験データへのトレーニングデータの漏洩を特定し、その漏洩がモデルが記憶する能力と一般化に対する影響を評価する。

Public datasets are often used to evaluate the efficacy and generalizability of state-of-the-art methods for many tasks in natural language processing (NLP). However, the presence of overlap between the train and test datasets can lead to inflated results, inadvertently evaluating the model's ability to memorize and interpreting it as the ability to generalize. In addition, such data sets may not provide an effective indicator of the performance of these methods in real world scenarios. We identify leakage of training data into test data on several publicly available datasets used to evaluate NLP tasks, including named entity recognition and relation extraction, and study them to assess the impact of that leakage on the model's ability to memorize versus generalize.
翻訳日:2021-02-05 05:09:52 公開日:2021-02-03
# (参考訳) 閉ループ制御によるロバストニューラルネットワーク [全文訳有]

Towards Robust Neural Networks via Close-loop Control ( http://arxiv.org/abs/2102.01862v1 )

ライセンス: CC BY 4.0
Zhuotong Chen, Qianxiao Li, Zheng Zhang(参考訳) 大規模なエンジニアリング応用の成功にもかかわらず、深層ニューラルネットワークはブラックボックスの性質のため、様々な摂動に弱い。 近年の研究では、入力データが知覚不可能な量で摂動しても、ディープニューラルネットワークがデータを誤分類できることが示されている。 本稿では,ニューラルネットワークのロバスト性問題に対して,動的システムの観点から,新しい閉ループ制御法を提案する。 固定ニューラルネットワークアーキテクチャのパラメータを変更する代わりに、閉ループ制御プロセスを追加して、乱流または破損したデータに適応的に制御信号を生成する。 基礎データの幾何学的情報を用いて,ニューラルネットワークのロバスト性と最適制御を結び,制御目標の設計を行う。 詳細な解析は, 状態軌道の埋め込み多様体が提案手法の誤差推定にどのように影響するかを示す。 当社のアプローチでは,クリーンデータの性能を同時に維持し,さまざまな種類のデータ摂動に対する堅牢性を向上させる。 また、異なる摂動に対するロバストに訓練されたニューラルネットワークの性能をさらに改善することができる。 私たちの知る限りでは、これは近接ループ制御によるニューラルネットワークの堅牢性を改善する最初の仕事です。

Despite their success in massive engineering applications, deep neural networks are vulnerable to various perturbations due to their black-box nature. Recent study has shown that a deep neural network can misclassify the data even if the input data is perturbed by an imperceptible amount. In this paper, we address the robustness issue of neural networks by a novel close-loop control method from the perspective of dynamic systems. Instead of modifying the parameters in a fixed neural network architecture, a close-loop control process is added to generate control signals adaptively for the perturbed or corrupted data. We connect the robustness of neural networks with optimal control using the geometrical information of underlying data to design the control objective. The detailed analysis shows how the embedding manifolds of state trajectory affect error estimation of the proposed method. Our approach can simultaneously maintain the performance on clean data and improve the robustness against many types of data perturbations. It can also further improve the performance of robustly trained neural networks against different perturbations. To the best of our knowledge, this is the first work that improves the robustness of neural networks with close-loop control.
翻訳日:2021-02-05 04:33:04 公開日:2021-02-03
# (参考訳) ハイパーグラフニューラルネットワークによるノイズロバスト分類 [全文訳有]

Noise-robust classification with hypergraph neural network ( http://arxiv.org/abs/2102.01934v1 )

ライセンス: CC0 1.0
Nguyen Trinh Vu Dang, Loc Tran, Linh Tran(参考訳) 本論文では,ハイパーグラフニューラルネットワークの新しい手法を提案する。 雑音ラベル学習問題を解くためにこの手法を用いる。 まず,画像データセットの特徴行列にPCA次元還元手法を適用し,画像データセットの特徴行列における「ノイズ」と冗長な特徴を低減し,ハイパーグラフニューラルネットワーク手法のハイパーグラフ構築ランタイムを削減した。 そこで,従来のグラフに基づく半教師付き学習法,古典的ハイパーグラフに基づく半教師付き学習法,グラフニューラルネットワーク,ハイパーグラフニューラルネットワーク,提案したハイパーグラフニューラルネットワークを用いて,ノイズの多いラベル学習問題を解決する。 これら5つの手法の精度を評価し,比較した。 実験の結果、ハイパーグラフニューラルネットワーク法はノイズレベルが増加すると最高の性能が得られることがわかった。 さらに、ハイパーグラフニューラルネットワークの手法は、グラフニューラルネットワークと少なくとも同等である。

This paper presents a novel version of the hypergraph neural network method. This method is utilized to solve the noisy label learning problem. First, we apply the PCA dimensional reduction technique to the feature matrices of the image datasets in order to reduce the "noise" and the redundant features in the feature matrices of the image datasets and to reduce the runtime constructing the hypergraph of the hypergraph neural network method. Then, the classic graph-based semi-supervised learning method, the classic hypergraph based semi-supervised learning method, the graph neural network, the hypergraph neural network, and our proposed hypergraph neural network are employed to solve the noisy label learning problem. The accuracies of these five methods are evaluated and compared. Experimental results show that the hypergraph neural network methods achieve the best performance when the noise level increases. Moreover, the hypergraph neural network methods are at least as good as the graph neural network.
翻訳日:2021-02-05 03:18:42 公開日:2021-02-03
# (参考訳) シェイプレット変換による不確定時系列分類 [全文訳有]

Uncertain Time Series Classification With Shapelet Transform ( http://arxiv.org/abs/2102.02090v1 )

ライセンス: CC BY 4.0
Michael Franklin Mbouopda and Engelbert Mephu Nguifo(参考訳) 時系列分類は時系列データの分類を目的としたタスクである。 気象学、医学、物理学など様々な分野で用いられている。 過去10年間で、このタスクを実行するために多くのアルゴリズムが構築されています。 しかし、時系列が不確実性を持つアプリケーションは未検討である。 不確実性伝播法を用いて,ユークリッド距離に基づく新しい不確実性不一致測定法を提案する。 そこで,不確実な時系列の分類のための不確実な形状変換アルゴリズムを提案する。 アートデータセットの状態に関する大規模な実験は、我々の貢献の有効性を示している。 私たちのコントリビューションのソースコードと使用したデータセットは、すべて公開リポジトリで入手可能です。

Time series classification is a task that aims at classifying chronological data. It is used in a diverse range of domains such as meteorology, medicine and physics. In the last decade, many algorithms have been built to perform this task with very appreciable accuracy. However, applications where time series have uncertainty has been under-explored. Using uncertainty propagation techniques, we propose a new uncertain dissimilarity measure based on Euclidean distance. We then propose the uncertain shapelet transform algorithm for the classification of uncertain time series. The large experiments we conducted on state of the art datasets show the effectiveness of our contribution. The source code of our contribution and the datasets we used are all available on a public repository.
翻訳日:2021-02-05 03:07:48 公開日:2021-02-03
# (参考訳) Trusted Multi-View Classification [全文訳有]

Trusted Multi-View Classification ( http://arxiv.org/abs/2102.02051v1 )

ライセンス: CC BY 4.0
Zongbo Han, Changqing Zhang, Huazhu Fu, Joey Tianyi Zhou(参考訳) マルチビュー分類(mvc:multi-view classification)は一般的に、異なるビューからの情報を使用して分類精度を向上させることに焦点を当てている。 しかし、予測が信頼できるかどうかを示す信頼性の高い不確実性推定を行うためには、異なるサンプルのビューの品質を動的に評価することも重要である。 そこで本研究では,異なる視点をエビデンスレベルで動的に統合することにより,多視点学習のための新しいパラダイムを提供する,信頼型多視点分類法を提案する。 このアルゴリズムは複数のビューを共同利用し、各ビューから証拠を統合して分類信頼性と堅牢性の両方を促進する。 これを達成するために、ディリクレ分布はクラス確率の分布をモデル化するために使用され、異なる視点からの証拠でパラメータ化され、デンプスター・シェーファー理論と統合される。 統一学習フレームワークは正確な不確実性を引き起こし、分散サンプルの信頼性と堅牢性の両方でモデルを内包する。 大規模実験により,提案モデルの有効性,信頼性,ロバスト性を検証した。

Multi-view classification (MVC) generally focuses on improving classification accuracy by using information from different views, typically integrating them into a unified comprehensive representation for downstream tasks. However, it is also crucial to dynamically assess the quality of a view for different samples in order to provide reliable uncertainty estimations, which indicate whether predictions can be trusted. To this end, we propose a novel multi-view classification method, termed trusted multi-view classification, which provides a new paradigm for multi-view learning by dynamically integrating different views at an evidence level. The algorithm jointly utilizes multiple views to promote both classification reliability and robustness by integrating evidence from each view. To achieve this, the Dirichlet distribution is used to model the distribution of the class probabilities, parameterized with evidence from different views and integrated with the Dempster-Shafer theory. The unified learning framework induces accurate uncertainty and accordingly endows the model with both reliability and robustness for out-of-distribution samples. Extensive experimental results validate the effectiveness of the proposed model in accuracy, reliability and robustness.
翻訳日:2021-02-05 02:44:35 公開日:2021-02-03
# (参考訳) 埋め込みプラットフォーム上での量子推論のための畳み込みニューラルネットワークの固定点量子化

Fixed-point Quantization of Convolutional Neural Networks for Quantized Inference on Embedded Platforms ( http://arxiv.org/abs/2102.02147v1 )

ライセンス: CC BY 4.0
Rishabh Goyal, Joaquin Vanschoren, Victor van Acht, Stephan Nijssen(参考訳) 畳み込みニューラルネットワーク(cnns)は、画像分類タスクの強力な最先端手法であることが証明されている。 しかし1つの欠点は、CNNの計算の複雑さと高メモリ消費であり、CNNをサポートするのに必要な物理的リソースに制限されている組み込みプラットフォームでの実行が不可能である。 量子化は、予測精度の損失を犠牲にして、メモリと計算複雑性のためにcnnを効率的に最適化するためにしばしば用いられる。 そこで本研究では,事前学習したCNNの各レイヤーの重み,バイアス,アクティベーションを最適に定量化し,推論精度の低下を制御し,量子化推論を可能にする手法を提案する。 32ビット浮動小数点精度パラメータを低ビット幅定点表現に定量化し、与えられたCNNの各レイヤのパラメータに最適なビット幅と分数オフセットを見つける。 CNNポストトレーニングのパラメータを、再トレーニングすることなく定量化します。 この方法は、他の量子化パラメータによる量子化誤差を無視して最大50%の精度損失を持つ低精度CNNにつながるため、他のパラメータの量子化方法を考慮してCNNのパラメータを定量化するように設計されています。 そこで本手法では,精度の低下が1%未満のcnnを低精度で提供する。 すべてのパラメータを8ビットに量子化する商用ツールが使用する方法と比較すると、この手法は、我々がテストした4つのデータセットでトレーニングされた2つのcnnに対して、平均53%のメモリ消費と77.5%のコストで量子化されたcnnを提供する。 このプロセスでは,パラメータの層別量子化が大いに役立ちます。

Convolutional Neural Networks (CNNs) have proven to be a powerful state-of-the-art method for image classification tasks. One drawback however is the high computational complexity and high memory consumption of CNNs which makes them unfeasible for execution on embedded platforms which are constrained on physical resources needed to support CNNs. Quantization has often been used to efficiently optimize CNNs for memory and computational complexity at the cost of a loss of prediction accuracy. We therefore propose a method to optimally quantize the weights, biases and activations of each layer of a pre-trained CNN while controlling the loss in inference accuracy to enable quantized inference. We quantize the 32-bit floating-point precision parameters to low bitwidth fixed-point representations thereby finding optimal bitwidths and fractional offsets for parameters of each layer of a given CNN. We quantize parameters of a CNN post-training without re-training it. Our method is designed to quantize parameters of a CNN taking into account how other parameters are quantized because ignoring quantization errors due to other quantized parameters leads to a low precision CNN with accuracy losses of up to 50% which is far beyond what is acceptable. Our final method therefore gives a low precision CNN with accuracy losses of less than 1%. As compared to a method used by commercial tools that quantize all parameters to 8-bits, our approach provides quantized CNN with averages of 53% lower memory consumption and 77.5% lower cost of executing multiplications for the two CNNs trained on the four datasets that we tested our work on. We find that layer-wise quantization of parameters significantly helps in this process.
翻訳日:2021-02-05 01:59:27 公開日:2021-02-03
# (参考訳) 高速概念マッピング: 身体的・自己監督的学習におけるニューラルネットワークの人間の能力の出現 [全文訳有]

Fast Concept Mapping: The Emergence of Human Abilities in Artificial Neural Networks when Learning Embodied and Self-Supervised ( http://arxiv.org/abs/2102.02153v1 )

ライセンス: CC BY 4.0
Viviane Clay, Peter K\"onig, Gordon Pipa, Kai-Uwe K\"uhnberger(参考訳) オブジェクト検出と認識に使用されるほとんどの人工ニューラルネットワークは、完全な教師付きセットアップでトレーニングされる。 これは、ラベル付きサンプルの大きなデータセットを必要とするため、非常にリソースを消費するだけでなく、人間の学習方法と非常に異なる。 人工エージェントが自己監督による探索を通じて、シミュレーションされた世界で最初に学習するセットアップを紹介します。 この後、世界との対話を通じて学んだ表現は、様々な種類のドアのような意味概念を関連付けるのに利用できる。 そこで我々は,ニューロンの相関的な発火パターンを用いて意味概念を定義し,検出する高速概念マッピングと呼ぶ手法を提案する。 この協会は、人間がファストマッピングと呼ばれる現象で観察したものと同様、ラベル付き例がほとんどなく、瞬時に機能する。 驚くべきことに、この手法はすでに、キュリオシティ駆動探索による具体化によって学習された自己教師付きエンコーディングの品質を強調する、ラベル付きサンプルを1つしか持たないオブジェクトを識別している。 そこでは, 概念の学習をあまり監督せずに実現可能な戦略を示し, 世界の意味のある環境表現と純粋に相互作用することで, 学習できることを示す。

Most artificial neural networks used for object detection and recognition are trained in a fully supervised setup. This is not only very resource consuming as it requires large data sets of labeled examples but also very different from how humans learn. We introduce a setup in which an artificial agent first learns in a simulated world through self-supervised exploration. Following this, the representations learned through interaction with the world can be used to associate semantic concepts such as different types of doors. To do this, we use a method we call fast concept mapping which uses correlated firing patterns of neurons to define and detect semantic concepts. This association works instantaneous with very few labeled examples, similar to what we observe in humans in a phenomenon called fast mapping. Strikingly, this method already identifies objects with as little as one labeled example which highlights the quality of the encoding learned self-supervised through embodiment using curiosity-driven exploration. It therefor presents a feasible strategy for learning concepts without much supervision and shows that through pure interaction with the world meaningful representations of an environment can be learned.
翻訳日:2021-02-05 01:58:15 公開日:2021-02-03
# (参考訳) 教師付き学習におけるデータ処理が公正性に及ぼす影響 [全文訳有]

Impact of Data Processing on Fairness in Supervised Learning ( http://arxiv.org/abs/2102.01867v1 )

ライセンス: CC BY 4.0
Sajad Khodadadian, AmirEmad Ghassami, Negar Kiyavash(参考訳) データ駆動意思決定者における差別を減らすための前処理と後処理の影響について検討する。 まず,事前処理手法における公平性と正確性との根本的なトレードオフを分析し,元の分類器に先立って追加可能な凸最適化プログラムに基づく前処理モジュールの設計を提案する。 これにより、結果に許容できる歪みが与えられると、到達可能な識別に関する基本的な下界が生まれる。 さらに,前処理法と後処理法を比較した精度と公平性の観点から,既存の後処理法を再構成した。 軽度な条件下では,前処理が後処理に勝ることを示す。 最後に, 識別尺度の適切な選択により, 前処理アプローチと後処理アプローチの両方の最適化問題は線形プログラムに減少し, 効率的に解くことができることを示す。

We study the impact of pre and post processing for reducing discrimination in data-driven decision makers. We first analyze the fundamental trade-off between fairness and accuracy in a pre-processing approach, and propose a design for a pre-processing module based on a convex optimization program, which can be added before the original classifier. This leads to a fundamental lower bound on attainable discrimination, given any acceptable distortion in the outcome. Furthermore, we reformulate an existing post-processing method in terms of our accuracy and fairness measures, which allows comparing post-processing and pre-processing approaches. We show that under some mild conditions, pre-processing outperforms post-processing. Finally, we show that by appropriate choice of the discrimination measure, the optimization problem for both pre and post processing approaches will reduce to a linear program and hence can be solved efficiently.
翻訳日:2021-02-05 01:46:08 公開日:2021-02-03
# (参考訳) 学習アルゴリズムの一般化誤差のモーメントに関する情報理論的境界 [全文訳有]

Information-Theoreti c Bounds on the Moments of the Generalization Error of Learning Algorithms ( http://arxiv.org/abs/2102.02016v1 )

ライセンス: CC BY-SA 4.0
Gholamali Aminian, Laura Toni, Miguel R. D. Rodrigues(参考訳) 一般化エラー境界は、機械学習モデルのパフォーマンスを理解する上で重要である。 本研究では,集団の任意の関数の期待値と学習アルゴリズムの経験的リスクの新たなバウンダリに基づいて,機械学習モデルの一般化挙動を,その一般化誤差モーメントに対する特徴付け(バウンダリ)に基づいてより洗練された分析を行う。 提案する境界(期待された一般化誤差に対する新たな境界も含む)が文献上の既存の境界とどのように関係しているかを考察する。 また,提案する一般化誤差モーメント境界を用いて,新しい一般化誤差高確率境界を構築する方法について述べる。

Generalization error bounds are critical to understanding the performance of machine learning models. In this work, building upon a new bound of the expected value of an arbitrary function of the population and empirical risk of a learning algorithm, we offer a more refined analysis of the generalization behaviour of a machine learning models based on a characterization of (bounds) to their generalization error moments. We discuss how the proposed bounds -- which also encompass new bounds to the expected generalization error -- relate to existing bounds in the literature. We also discuss how the proposed generalization error moment bounds can be used to construct new generalization error high-probability bounds.
翻訳日:2021-02-05 00:58:18 公開日:2021-02-03
# (参考訳) Dermo-DOCTOR:Deep Convolutional Neural Networkを用いた皮膚病変の検出と認識のためのWebアプリケーション

Dermo-DOCTOR: A web application for detection and recognition of the skin lesion using a deep convolutional neural network ( http://arxiv.org/abs/2102.01824v1 )

ライセンス: CC BY 4.0
Md. Kamrul Hasan, Shidhartho Roy, Chayan Mondal, Md. Ashraful Alam, Md.Toufick E Elahi, Aishwariya Dutta, S. M. Taslim Uddin Raju, Mohiuddin Ahmad(参考訳) 検出と認識のための自動皮膚病変分析は、クラス間の多様性とクラス内の類似性、および限られたデータセットを持つ単一の畳み込みニューラルネットワーク(CNN)の低汎用性のためにまだ困難です。 本稿では,2つのエンコーダで構成され,各エンコーダの特徴をチャネル毎に融合し,ffm(fused feature map)と呼ぶ,皮膚病変の同時検出と認識を行うための,エンド・ツー・エンドの深層cnnベースのマルチタスクwebアプリケーションを提案する。 検出サブネットワークにおいて、2つのエンコーダの各ステージの出力と同一のスケールデコーダ出力とを連結し、エンコーダのプールによる空間情報の喪失を回復させる出力障害マスクの入力解像度を得るために、FFMがデコードに使用される。 認識サブネットワークでは、2つのエンコーダとFFMの特徴マップをアグリゲーションに使用して最終病変クラスを得る。 我々は、isic-2016とisic-2017の2つのベンチマークデータセットを使用してdermo-doctorをトレーニングし、評価する。 検出サブネットワークのためのユニオン上の平均交差は85.0%および80.0%であるが、ISIC-2016およびISIC-2017テストデータセットでは、受信機の動作特性曲線下の領域はそれぞれ0.98および0.91である。 The experimental results showed that the proposed Dermo-DOCTOR are outperforming the alternative method in the literature, designed for skin lesion detection and recognition。 Dermo-DOCTORは、限られたトレーニングデータであっても、2つの異なるテストデータセットにより良い結果を提供するため、皮膚科医を支援するための便利なコンピュータ支援スクリーニングツールです。

Automated skin lesion analysis for detection and recognition is still challenging for inter-class diversity and intra-class similarity, and the low generic capability of a single Convolutional Neural Network (CNN) with limited datasets. This article proposes an end-to-end deep CNN-based multi-task web application for concurrent detection and recognition of skin lesion, named Dermo-DOCTOR, consisting of two encoders, where the features from each encoder are fused in channel-wise, called Fused Feature Map (FFM). For the detection sub-network, the FFM is used for decoding to obtain the input resolution of the output lesion masks, where the outputs of each stage of two encoders are concatenated with the same scale decoder output to regain the lost spatial information due to pooling in encoders. For the recognition sub-network, feature maps of two encoders and FFM are used for the aggregation to obtain a final lesion class. We train and evaluate the Dermo-Doctor utilizing two publicly available benchmark datasets, such as ISIC-2016 and ISIC-2017. The obtained mean intersection over unions, for detection sub-network, are 85.0 % and 80.0 %, whereas the areas under the receiver operating characteristic curve, for recognition sub-network, are 0.98 and 0.91, respectively, for ISIC-2016 and ISIC-2017 test datasets. The experimental results demonstrate that the proposed Dermo-DOCTOR outperforms the alternative methods mentioned in the literature, designed for skin lesion detection and recognition. As the Dermo-DOCTOR provides better-results on two different test datasets, even with limited training data, it can be an auspicious computer-aided screening tool to assist the dermatologists.
翻訳日:2021-02-05 00:45:24 公開日:2021-02-03
# (参考訳) シーケンスラベリングによるトップダウン対話解析 [全文訳有]

Top-down Discourse Parsing via Sequence Labelling ( http://arxiv.org/abs/2102.02080v1 )

ライセンス: CC BY 4.0
Fajri Koto and Jey Han Lau and Timothy Baldwin(参考訳) 本稿では,従来のものよりも概念的にシンプルである談話解析へのトップダウンアプローチ(小林ら,2020年,張ら,2020年)を紹介する。 文書を個別の談話単位に反復的に分割することを目的としたシーケンスラベリング問題としてタスクをフレーミングすることで,デコーダを取り除き,分割点の探索空間を削減できる。 従来のリカレントモデルと最新のトレーニング済みトランスモデルの両方を検討し、さらにトップダウン解析のための新しい動的オーラクルを導入します。 提案するLSTMモデルでは, フルメトリックに基づいて, RST解析のための新しい最先端モデルを構築した。

We introduce a top-down approach to discourse parsing that is conceptually simpler than its predecessors (Kobayashi et al., 2020; Zhang et al., 2020). By framing the task as a sequence labelling problem where the goal is to iteratively segment a document into individual discourse units, we are able to eliminate the decoder and reduce the search space for splitting points. We explore both traditional recurrent models and modern pre-trained transformer models for the task, and additionally introduce a novel dynamic oracle for top-down parsing. Based on the Full metric, our proposed LSTM model sets a new state-of-the-art for RST parsing.
翻訳日:2021-02-05 00:43:58 公開日:2021-02-03
# (参考訳) テキスト分類のためのトランスファー学習アプローチにおけるバイアス検出 [全文訳有]

Detecting Bias in Transfer Learning Approaches for Text Classification ( http://arxiv.org/abs/2102.02114v1 )

ライセンス: CC0 1.0
Irene Li(参考訳) 分類は機械学習において不可欠で基本的なタスクであり、自然言語処理(NLP)とコンピュータビジョン(CV)の分野における基幹的役割を担う。 教師付き学習設定では、分類タスクにはラベルが常に必要です。 特に深層神経モデルでは、トレーニングには大量の高品質のラベル付きデータが必要である。 しかし、新しいドメインが出てくると、ラベルを取得するのは通常困難またはコストがかかる。 転送学習は、ソースドメインからターゲットドメインに知識を転送するオプションになり得る。 課題は、これらの2つのドメインが、特徴分布またはサンプルの性質のクラス分布で異なる可能性があることである。 本研究では,従来のモデルや深層モデルを含む不均衡クラスのバイアスを検出するための,既存のトランスファー学習手法を評価する。 さらに、ドメインクラスの不均衡問題のギャップを埋めるためのアプローチを提案する。

Classification is an essential and fundamental task in machine learning, playing a cardinal role in the field of natural language processing (NLP) and computer vision (CV). In a supervised learning setting, labels are always needed for the classification task. Especially for deep neural models, a large amount of high-quality labeled data are required for training. However, when a new domain comes out, it is usually hard or expensive to acquire the labels. Transfer learning could be an option to transfer the knowledge from a source domain to a target domain. A challenge is that these two domains can be different, either on the feature distribution, or the class distribution for the nature of the samples. In this work, we evaluate some existing transfer learning approaches on detecting the bias of imbalanced classes including traditional and deep models. Besides, we propose an approach to bridge the gap of the domain class imbalance issue.
翻訳日:2021-02-05 00:10:27 公開日:2021-02-03
# (参考訳) サヒ・ブハリのハディス・ナレーターのソーシャルネットワーク分析 [全文訳有]

Social Network Analysis of Hadith Narrators from Sahih Bukhari ( http://arxiv.org/abs/2102.02009v1 )

ライセンス: CC BY 4.0
Tanvir Alam, Jens Schneider(参考訳) アハディート(ahadith)は、世界中のムスリムの預言者の伝統であり、預言者ムハンマド(muhammad, pbuh)の言説と行為に由来する。 彼らはクルアーンと共にイスラム法の基本的源の1つと考えられている。 それぞれのハディースのナレーションに関わる人物の一覧は、ハディースの評判と真正性に関して、各ハディースを研究する学者によって慎重に精査されている。 これは、イスラム原理における立法上の重要性によるものである。 何世紀にもわたって、預言的なナレーションを保存する責任を担ったナレーターが数多くいた。 しかし、これまで、ソーシャルネットワークに基づく体系的かつ包括的な研究は、初期のハディスナレーターの貢献と世代を超えてハディスの伝播を理解するために適応されていません。 本研究では,サヒフ・ブハリ(Sahih Bukhari)のハディスコレクションのナレーターの連鎖をソーシャルグラフとして表現した。 このグラフに基づくsna(social network analysis)に基づいて,ナレーターのネットワークはスケールフリーネットワークであることを見出した。 我々は,サヒフブハリで収集されたハディスの伝播に大きく貢献する第2世代,第3世代のナレーターとともに,同伴者の影響力のあるナレーターのリストを同定した。 我々はSahih Bukhariのナレーターから16のコミュニティを発見した。 これらのコミュニティには、預言的なナレーションの伝播に大きく貢献した他のナレーターがいます。 また,多くのナレーターはマッカやマディナを中心に仲間の時代に活動しており,その後,ハディスのナレーターの中心は徐々にクファ、バグダッド、中央アジアへと移っていった。 我々の知る限りでは、ナレーターを社会グラフとして表現し、ハディースの保存と伝播への貢献を分析する、SNAに基づく初めての包括的かつ体系的な研究である。

The ahadith, prophetic traditions for the Muslims around the world, are narrations originating from the sayings and the deeds of Prophet Muhammad (pbuh). They are considered one of the fundamental sources of Islamic legislation along with the Quran. The list of persons involved in the narration of each hadith is carefully scrutinized by scholars studying the hadith, with respect to their reputation and authenticity of the hadith. This is due to the its legislative importance in Islamic principles. There were many narrators who contributed to this responsibility of preserving prophetic narrations over the centuries. But to date, no systematic and comprehensive study, based on the social network, has been adapted to understand the contribution of early hadith narrators and the propagation of hadith across generations. In this study, we represented the chain of narrators of the hadith collection from Sahih Bukhari as a social graph. Based on social network analysis (SNA) on this graph, we found that the network of narrators is a scale-free network. We identified a list of influential narrators from the companions as well as the narrators from the second and third-generation who contribute significantly in the propagation of hadith collected in Sahih Bukhari. We discovered sixteen communities from the narrators of Sahih Bukhari. In each of these communities, there are other narrators who contributed significantly to the propagation of prophetic narrations. We also found that most narrators were centered in Makkah and Madinah in the era of companions and, then, gradually the center of hadith narrators shifted towards Kufa, Baghdad and central Asia over a period of time. To the best of our knowledge, this the first comprehensive and systematic study based on SNA, representing the narrators as a social graph to analyze their contribution to the preservation and propagation of hadith.
翻訳日:2021-02-05 00:02:47 公開日:2021-02-03
# (参考訳) Archerfish Hunting Optimizer:グローバル最適化のための新しいメタヒューリスティックアルゴリズム

The Archerfish Hunting Optimizer: a novel metaheuristic algorithm for global optimization ( http://arxiv.org/abs/2102.02134v1 )

ライセンス: CC BY 4.0
Farouq Zitouni, Saad Harous, Abdelghani Belkeram, Lokman Elhakim Baba Hammou(参考訳) グローバル最適化は、目的関数を最小化することにより、現実の問題を数値的にあるいは分析的に解決する。 解析アルゴリズムのほとんどは欲求的であり、計算的に難解である。 メタヒューリスティックは自然由来の最適化アルゴリズムである。 彼らは妥当な時間で最適化問題に対する準最適解を数値的に見つける。 グローバル最適化のための新しいメタヒューリスティックアルゴリズムを提案する。 これは、空中昆虫を狩るアーチャーフィッシュの射撃行動とジャンプ行動に基づいている。 私たちはそれをArcherfish Hunting Optimizer (AHO)と名付けた。 提案するアルゴリズムの性能を検証するために,2種類の比較を行う。 第一に、ahoはベンチマークcec 2020の10つのテスト関数における最近の12のメタヒューリスティックアルゴリズム(2020年の単一目的境界制約数値最適化のコンペティションで受け入れられたアルゴリズム)と比較される。 第二に、AHOと最近の3つのメタヒューリスティックアルゴリズムのパフォーマンスは、非凸制約最適化のためのベンチマークCEC 2020から取られた5つのエンジニアリング設計問題を用いて評価される。 実験結果はウィルコクソン署名ランクとフリードマン試験を用いて評価した。 統計指標は、Archerfish Hunting Optimizerは、確立されたオプティマイザとの競争において高いパフォーマンスを達成する優れた能力を持っていることを示している。

Global optimization solves real-world problems numerically or analytically by minimizing their objective functions. Most of the analytical algorithms are greedy and computationally intractable. Metaheuristics are nature-inspired optimization algorithms. They numerically find a near-optimal solution for optimization problems in a reasonable amount of time. We propose a novel metaheuristic algorithm for global optimization. It is based on the shooting and jumping behaviors of the archerfish for hunting aerial insects. We name it the Archerfish Hunting Optimizer (AHO). We Perform two sorts of comparisons to validate the proposed algorithm's performance. First, AHO is compared to the 12 recent metaheuristic algorithms (the accepted algorithms for the 2020's competition on single objective bound-constrained numerical optimization) on ten test functions of the benchmark CEC 2020 for unconstrained optimization. Second, the performance of AHO and 3 recent metaheuristic algorithms, is evaluated using five engineering design problems taken from the benchmark CEC 2020 for non-convex constrained optimization. The experimental results are evaluated using the Wilcoxon signed-rank and the Friedman tests. The statistical indicators illustrate that the Archerfish Hunting Optimizer has an excellent ability to accomplish higher performance in competition with the well-established optimizers.
翻訳日:2021-02-04 23:48:54 公開日:2021-02-03
# (参考訳) 大規模種分類のための深部CNN [全文訳有]

Deep CNNs for large scale species classification ( http://arxiv.org/abs/2102.01863v1 )

ライセンス: CC BY 4.0
Raj Prateek Kosaraju(参考訳) 大規模画像分類はコンピュータビジョンの分野において難しい問題である。 現実世界には何十億もの異なるオブジェクトが含まれているため、現実世界のタスクに適用するには、一般的な技術やモデルのパフォーマンスを理解することが不可欠です。 本稿では,inaturalist 2019 challengeのデータセット上で大規模種分類を行うための,cnnベースのディープラーニングアーキテクチャと手法を評価する。 データセットの刈り取りと転送学習を利用する手法は、2つの手法のいずれかを使わずにトレーニングされたモデルを上回る。 ResNextベースの分類器は10エポック以上の他のモデルアーキテクチャより優れており、1,010種に分類すると0.68の検証誤差が最上位となる。

Large Scale image classification is a challenging problem within the field of computer vision. As the real world contains billions of different objects, understanding the performance of popular techniques and models is vital in order to apply them to real world tasks. In this paper, we evaluate techniques and popular CNN based deep learning architectures to perform large scale species classification on the dataset from iNaturalist 2019 Challenge. Methods utilizing dataset pruning and transfer learning are shown to outperform models trained without either of the two techniques. The ResNext based classifier outperforms other model architectures over 10 epochs and achieves a top-one validation error of 0.68 when classifying amongst the 1,010 species.
翻訳日:2021-02-04 23:47:52 公開日:2021-02-03
# (参考訳) ダイレクトアクションプロポーザル生成のためのリラクゼーショントランスデコーダ [全文訳有]

Relaxed Transformer Decoders for Direct Action Proposal Generation ( http://arxiv.org/abs/2102.01894v1 )

ライセンス: CC BY 4.0
Jing Tan, Jiaqi Tang, Limin Wang, Gangshan Wu(参考訳) 時間アクション提案生成は、ビデオ理解において重要かつ困難なタスクであり、関心のあるアクションインスタンスを含むすべての時間セグメントを検出することを目的とする。 既存の提案生成アプローチは、一般的に事前に定義されたアンカーウィンドウまたはヒューリスティックボトムアップバウンダリマッチング戦略に基づいています。 本稿では,transformer-alikeアーキテクチャを再提案することにより,直接アクションプロポーザル生成のための簡易かつエンドツーエンドな学習フレームワーク(rtd-net)を提案する。 時間と空間の視覚的相違に対処するため,元の変換器検出フレームワーク(DETR)に対して3つの重要な改良を行った。 まず、ビデオの遅延に対処するために、最初のTransformerエンコーダを境界減衰モジュールに置き換えて、時間的情報をよりよくキャプチャする。 第2に,曖昧な時間的境界と比較的希薄なアノテーションにより,各接地に対する単一割当の厳格な基準を緩和するために,緩やかに一致した損失を提示する。 最後に,提案手法の完全性を明示的に予測することで,提案手法の信頼性を更に向上する3分岐ヘッドを考案する。 THUMOS14とActivityNet-1.3ベンチマークの大規模な実験は、時間的行動提案生成と時間的行動検出の両方のタスクにおいてRTD-Netの有効性を示す。 また,rtd-netは設計が単純であるため,処理後の最大化を伴わない提案生成手法よりも効率的である。 コードは \url{https://github.com/M CG-NJU/RTD-Action} で入手できる。

Temporal action proposal generation is an important and challenging task in video understanding, which aims at detecting all temporal segments containing action instances of interest. The existing proposal generation approaches are generally based on pre-defined anchor windows or heuristic bottom-up boundary matching strategies. This paper presents a simple and end-to-end learnable framework (RTD-Net) for direct action proposal generation, by re-purposing a Transformer-alike architecture. To tackle the essential visual difference between time and space, we make three important improvements over the original transformer detection framework (DETR). First, to deal with slowness prior in videos, we replace the original Transformer encoder with a boundary attentive module to better capture temporal information. Second, due to the ambiguous temporal boundary and relatively sparse annotations, we present a relaxed matching loss to relieve the strict criteria of single assignment to each groundtruth. Finally, we devise a three-branch head to further improve the proposal confidence estimation by explicitly predicting its completeness. Extensive experiments on THUMOS14 and ActivityNet-1.3 benchmarks demonstrate the effectiveness of RTD-Net, on both tasks of temporal action proposal generation and temporal action detection. Moreover, due to its simplicity in design, our RTD-Net is more efficient than previous proposal generation methods without non-maximum suppression post-processing. The code will be available at \url{https://github.com/M CG-NJU/RTD-Action}.
翻訳日:2021-02-04 23:44:20 公開日:2021-02-03
# (参考訳) ステレオマッチングのためのマルチスケールコストボリュームカスケードネットワーク [全文訳有]

Multi-Scale Cost Volumes Cascade Network for Stereo Matching ( http://arxiv.org/abs/2102.01940v1 )

ライセンス: CC BY 4.0
Xiaogang Jia, Wei Chen, Zhengfa Liang, Yusong Tan, Mingfei Wu(参考訳) ステレオマッチングはロボットナビゲーションに不可欠である。 しかし、現在広く使われている従来の手法の精度は低く、CNNに基づく手法は高価な計算コストと実行時間を必要とする。 これは、異なるコストボリュームが速度と精度のバランスにおいて重要な役割を果たすためである。 そこで、従来の手法とCNNを組み合わせたMSCVNetを提案し、コストボリュームの質を向上させます。 具体的には、まず異なる解像度で複数の3Dコストボリュームを生成し、次に2D畳み込みを用いてコストアグリゲーションのための新しいカスケード時間ガラスネットワークを構築する。 一方,不連続な不連続領域の損失を識別し計算するアルゴリズムを設計した。 KITTIの公式ウェブサイトによると、我々のネットワークは、ほとんどのトップパフォーマンスメソッド(24*than CSPN、44*than GANetなど)よりもはるかに高速です。 一方、従来の方法(SPS-St、SGM)や他のリアルタイムステレオマッチングネットワーク(Fast DS-CS、DispNetC、RTSNetなど)と比較して。 また,提案手法の有効性を示すため,ネットワークの精度が大幅に向上した。

Stereo matching is essential for robot navigation. However, the accuracy of current widely used traditional methods is low, while methods based on CNN need expensive computational cost and running time. This is because different cost volumes play a crucial role in balancing speed and accuracy. Thus we propose MSCVNet, which combines traditional methods and CNN to improve the quality of cost volume. Concretely, our network first generates multiple 3D cost volumes with different resolutions and then uses 2D convolutions to construct a novel cascade hourglass network for cost aggregation. Meanwhile, we design an algorithm to distinguish and calculate the loss for discontinuous areas of disparity result. According to the KITTI official website, our network is much faster than most top-performing methods(24*than CSPN, 44*than GANet, etc.). Meanwhile, compared to traditional methods(SPS-St, SGM) and other real-time stereo matching networks(Fast DS-CS, DispNetC, and RTSNet, etc.), our network achieves a big improvement in accuracy, demonstrating the effectiveness of our proposed method.
翻訳日:2021-02-04 23:30:24 公開日:2021-02-03
# (参考訳) ディープニューラルネットワークのモデル並列学習のための局所批判訓練 [全文訳有]

Local Critic Training for Model-Parallel Learning of Deep Neural Networks ( http://arxiv.org/abs/2102.01963v1 )

ライセンス: CC BY 4.0
Hojung Lee, Cho-Jui Hsieh, Jong-Seok Lee(参考訳) 本稿では,ローカル批判ネットワークと呼ばれる追加モジュールを用いてニューラルネットワークを訓練する,新しいモデル並列学習手法であるlocal critic trainingを提案する。 主ネットワークは複数の層群に分けられ、各層群は対応する局所批評家ネットワークによって推定される誤差勾配によって更新される。 提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。 さらに,提案手法は臨界点に収束することが保証されていることを示す。 また,提案手法により学習したネットワークを構造最適化に利用できることを示す。 実験の結果,本手法は良好な性能を示し,トレーニング時間を大幅に短縮し,マシン当たりのメモリ消費量を削減できることがわかった。 コードはhttps://github.com/h jdw2/Local-critic-tr ainingで入手できる。

In this paper, we propose a novel model-parallel learning method, called local critic training, which trains neural networks using additional modules called local critic networks. The main network is divided into several layer groups and each layer group is updated through error gradients estimated by the corresponding local critic network. We show that the proposed approach successfully decouples the update process of the layer groups for both convolutional neural networks (CNNs) and recurrent neural networks (RNNs). In addition, we demonstrate that the proposed method is guaranteed to converge to a critical point. We also show that trained networks by the proposed method can be used for structural optimization. Experimental results show that our method achieves satisfactory performance, reduces training time greatly, and decreases memory consumption per machine. Code is available at https://github.com/h jdw2/Local-critic-tr aining.
翻訳日:2021-02-04 23:18:48 公開日:2021-02-03
# (参考訳) 社会科学テキスト解析のためのトランスフォーマーを用いた神経伝達学習

Neural Transfer Learning with Transformers for Social Science Text Analysis ( http://arxiv.org/abs/2102.02111v1 )

ライセンス: CC BY 4.0
Sandra Wankm\"uller(参考訳) 近年,テキストベースの教師付き学習タスクにおいて,自然言語処理モデルの予測性能が大幅に向上している。 特にトランスフォーマーアーキテクチャ(vaswani et al., 2017)に基づいたディープラーニングモデルが、トランスフォーマー学習設定で使用されていることが、この開発に寄与している。 トランスフォーマーベースのトランスフォーメーション学習モデルは、比較的少ないトレーニングデータインスタンスで高い予測精度を達成する可能性があるため、可能な限り正確なテキストベースの測定をしようとするが、トレーニングデータの注釈付けに限られたリソースしか持たない社会科学者にとってはメリットがある。 社会科学者がこれらの潜在的利益を研究に活用できるようにするために、これらの手法がどのように機能するか、なぜ利点があるのか、その限界は何かを説明します。 さらに,変換学習のためのトランスフォーマモデルであるbert (devlin et al., 2019), roberta (liu et al., 2019), the longformer (beltagy et al., 2020) を,従来の3つの社会科学応用における機械学習アルゴリズムと比較した。 全ての評価されたタスク、テキストスタイル、トレーニングデータセットサイズにおいて、従来のモデルはTransformerベースのモデルによるトランスファーラーニングによって一貫してパフォーマンスが向上し、これらのモデルがテキストベースの社会科学研究にもたらす潜在的な利点を示す。

During the last years, there have been substantial increases in the prediction performances of natural language processing models on text-based supervised learning tasks. Especially deep learning models that are based on the Transformer architecture (Vaswani et al., 2017) and are used in a transfer learning setting have contributed to this development. As Transformer-based models for transfer learning have the potential to achieve higher prediction accuracies with relatively few training data instances, they are likely to benefit social scientists that seek to have as accurate as possible text-based measures but only have limited resources for annotating training data. To enable social scientists to leverage these potential benefits for their research, this paper explains how these methods work, why they might be advantageous, and what their limitations are. Additionally, three Transformer-based models for transfer learning, BERT (Devlin et al., 2019), RoBERTa (Liu et al., 2019), and the Longformer (Beltagy et al., 2020), are compared to conventional machine learning algorithms on three social science applications. Across all evaluated tasks, textual styles, and training data set sizes, the conventional models are consistently outperformed by transfer learning with Transformer-based models, thereby demonstrating the potential benefits these models can bring to text-based social science research.
翻訳日:2021-02-04 22:21:12 公開日:2021-02-03
# (参考訳) ガスネットワークにおける意思決定のための生成的深層学習

Generative deep learning for decision making in gas networks ( http://arxiv.org/abs/2102.02125v1 )

ライセンス: CC BY 4.0
Lovis Anderson, Mark Turner, Thorsten Koch(参考訳) 意思決定支援システムは、同様の問題の頻繁な解決に依存している。 一般的な構造は対応するアプリケーションで同じだが、入力パラメータは定期的に更新される。 これらの問題に対する混合整数線形プログラミング(MILP)定式化の整数決定変数を学習するための生成ニューラルネットワーク設計を提案する。 深層ニューラルネットワークの判別器とMILPソルバを私たちのオラクルとして利用し、再生ニューラルネットワークを訓練します。 本稿では,過渡的ガス最適化問題に適用した設計結果について述べる。 訓練されたネットワークにより、2.5sで実現可能なソリューションを生成し、ウォームスタートソリューションとして使用し、グローバルな最適ソリューションの解決時間を60.5%削減します。

A decision support system relies on frequent re-solving of similar problem instances. While the general structure remains the same in corresponding applications, the input parameters are updated on a regular basis. We propose a generative neural network design for learning integer decision variables of mixed-integer linear programming (MILP) formulations of these problems. We utilise a deep neural network discriminator and a MILP solver as our oracle to train our generative neural network. In this article, we present the results of our design applied to the transient gas optimisation problem. With the trained network we produce a feasible solution in 2.5s, use it as a warm-start solution, and thereby decrease global optimal solution solve time by 60.5%.
翻訳日:2021-02-04 21:36:55 公開日:2021-02-03
# (参考訳) 心臓ctおよびmriにおけるマルチクラス確率的atlas-based all heart segmentation法 [全文訳有]

Multi-class probabilistic atlas-based whole heart segmentation method in cardiac CT and MRI ( http://arxiv.org/abs/2102.01822v1 )

ライセンス: CC BY 4.0
Tarun Kanti Ghosh, Md. Kamrul Hasan, Shidhartho Roy, Md. Ashraful Alam, Eklas Hossain, Mohiuddin Ahmad(参考訳) コンピュータ支援診断やコンピュータ支援手術などの臨床応用のためには、正確で堅牢な全心サブ構造セグメンテーションが重要である。 しかし, エッジ情報や境界情報, 背景やテクスチャの複雑さ, 異なるサブ構造の大きさや形状の多様性から, 異なるハートサブ構造のセグメンテーションは困難である。 本稿では、ベイズフレームワークを組み込んだ非リジッド登録に基づく確率論的アトラスを用いたマルチクラス全心セグメンテーションの枠組みを提案する。 また、移動画像と固定画像の最適な相互情報を得るためのマルチリゾリューション戦略を活用した非リジッド登録パイプラインも提案します。 さらに、予測最大化アルゴリズムに非剛性登録を組み込み、アブレーション研究のための深層畳み込みニューラルネットワークベースのエンコーダデコーダネットワークを実装した。 全実験は、20個のMRIと20個のCT心筋画像を含む全心セグメントの公開データセットを用いて行われた。 提案手法では, CTスキャンの平均体積重複誤差14.5%と, 最新の結果を超えるマージン1.3%と, 平均体積重複誤差14.5%を算出した。 提案したアプローチは、心臓の異なる部分構造をより正確に記述するのに役立つため、より迅速で正確な結果を専門家に伝えるための医療診断支援ツールとなる可能性がある。

Accurate and robust whole heart substructure segmentation is crucial in developing clinical applications, such as computer-aided diagnosis and computer-aided surgery. However, segmentation of different heart substructures is challenging because of inadequate edge or boundary information, the complexity of the background and texture, and the diversity in different substructures' sizes and shapes. This article proposes a framework for multi-class whole heart segmentation employing non-rigid registration-based probabilistic atlas incorporating the Bayesian framework. We also propose a non-rigid registration pipeline utilizing a multi-resolution strategy for obtaining the highest attainable mutual information between the moving and fixed images. We further incorporate non-rigid registration into the expectation-maximiza tion algorithm and implement different deep convolutional neural network-based encoder-decoder networks for ablation studies. All the extensive experiments are conducted utilizing the publicly available dataset for the whole heart segmentation containing 20 MRI and 20 CT cardiac images. The proposed approach exhibits an encouraging achievement, yielding a mean volume overlapping error of 14.5 % for CT scans exceeding the state-of-the-art results by a margin of 1.3 % in terms of the same metric. As the proposed approach provides better-results to delineate the different substructures of the heart, it can be a medical diagnostic aiding tool for helping experts with quicker and more accurate results.
翻訳日:2021-02-04 21:35:57 公開日:2021-02-03
# (参考訳) 分割型畳み込みニューラルネットワークを用いた頭頸部ctによる臓器自動分節化 [全文訳有]

Automatic Segmentation of Organs-at-Risk from Head-and-Neck CT using Separable Convolutional Neural Network with Hard-Region-Weighted Loss ( http://arxiv.org/abs/2102.01897v1 )

ライセンス: CC0 1.0
Wenhui Lei, Haochen Mei, Zhengwentai Sun, Shan Ye, Ran Gu, Huan Wang, Rui Huang, Shichuan Zhang, Shaoting Zhang, Guotai Wang(参考訳) 鼻咽頭癌 (Nasopharyngeal Carcinoma, NPC) は, 北極, 中国, 東南アジア, 中東/北アフリカにおける頭頸部癌(HAN)の進行型である。 npc治療のための放射線治療の効果的な計画には不確かさ情報を有するct画像からの臓器・リスク(oar)の正確な分割が重要である。 コンボリューションニューラルネットワーク(CNN)がOARの自動セグメンテーションのために達成した最新のパフォーマンスにもかかわらず、既存の方法は治療計画のためのセグメンテーション結果の不確実性推定を提供しておらず、その精度はCTにおける軟部組織の低コントラスト、OARの高度に不均衡なサイズ、および大きなスライス間間隔を含むいくつかの要因によって制限されています。 これらの問題に対処するため,信頼性の高い不確実性推定を行うための新しいOARセグメンテーションフレームワークを提案する。 まず,SLF(Segmental Linear Function)を用いてCT画像の強度を変換し,複数の臓器を従来の方法よりも識別しやすくする手法を提案する。 第2に,大規模なスライス間スペーシングに対処するために,臨床用ハンctスキャンと異方性スペーシングを扱うために特別に設計された2.5dネットワーク(3d-sepnet)を導入する。 第3に,既存の硬度認識損失関数はクラスレベルの硬さに対処することが多いが,本提案した硬度ボクセル(ATH)に対する注意は,対応するクラスが容易であるにもかかわらず,いくつかの硬度領域を扱うのに適したボクセルレベルの硬さ戦略を用いている。 コードはhttps://github.com/H iLab-git/SepNetで入手できます。

Nasopharyngeal Carcinoma (NPC) is a leading form of Head-and-Neck (HAN) cancer in the Arctic, China, Southeast Asia, and the Middle East/North Africa. Accurate segmentation of Organs-at-Risk (OAR) from Computed Tomography (CT) images with uncertainty information is critical for effective planning of radiation therapy for NPC treatment. Despite the stateof-the-art performance achieved by Convolutional Neural Networks (CNNs) for automatic segmentation of OARs, existing methods do not provide uncertainty estimation of the segmentation results for treatment planning, and their accuracy is still limited by several factors, including the low contrast of soft tissues in CT, highly imbalanced sizes of OARs and large inter-slice spacing. To address these problems, we propose a novel framework for accurate OAR segmentation with reliable uncertainty estimation. First, we propose a Segmental Linear Function (SLF) to transform the intensity of CT images to make multiple organs more distinguishable than existing methods based on a simple window width/level that often gives a better visibility of one organ while hiding the others. Second, to deal with the large inter-slice spacing, we introduce a novel 2.5D network (named as 3D-SepNet) specially designed for dealing with clinic HAN CT scans with anisotropic spacing. Thirdly, existing hardness-aware loss function often deal with class-level hardness, but our proposed attention to hard voxels (ATH) uses a voxel-level hardness strategy, which is more suitable to dealing with some hard regions despite that its corresponding class may be easy. Our code is now available at https://github.com/H iLab-git/SepNet.
翻訳日:2021-02-04 21:00:49 公開日:2021-02-03
# (参考訳) リカレントニューラルネットワークにおける不規則な輪郭知覚の予測的符号化フィードバック [全文訳有]

Predictive coding feedback results in perceived illusory contours in a recurrent neural network ( http://arxiv.org/abs/2102.01955v1 )

ライセンス: CC BY 4.0
Zhaoyang Pang, Callum Biggs O'May, Bhavin Choksi, Rufin VanRullen(参考訳) 最近のfeedforward convolutional neural networks(cnns)は、スーパーヒューマンレベルでコンピュータビジョンのタスクを解決できる。 しかし、これらのネットワークは人間の視覚知覚を大まかに模倣するだけである。 人間の視覚との1つの違いは、幻想的な輪郭(例えば)を知覚していないことである。 カニッサ広場)人間と同じように。 視覚野からの生理学的証拠は、幻の輪郭の知覚がフィードバック接続を伴う可能性があることを示唆している。 繰り返しフィードバックニューラルネットワークは、人間のような幻の輪郭を知覚するだろうか? 本研究では、脳に触発された反復ダイナミクスを用いたディープフィードフォワード畳み込みネットワークを装備する。 ネットワークは最初、自然画像データセット上の教師なしの再構築目的で事前訓練され、自然オブジェクトの輪郭統計に公開された。 次に、分類決定層を追加し、正方形対無作為なインデューサ形状(照明輪郭なし)という形式識別タスクに基づいてモデルを微調整した。 最後に、モデルは、不慣れな「幻の輪郭」構成でテストされた:誘導体形状は、幻の正方形を形成するように指向。 feedforwardのベースラインと比較すると、反復的な"予測的コーディング"のフィードバックは、より説明的な輪郭を物理的な正方形に分類した。 照明輪郭の知覚は、モデルが生成した画像再構成の輝度プロファイルにおいて測定可能であり、モデルが本当に錯覚を「見る」ことを実証した。 アブレーション研究により、自然画像の事前学習とフィードバックの誤り訂正が錯覚の知覚に重要であることが明らかとなった。 最後に、より深いネットワーク(VGG)で結論を検証しました。同じ予測的コーディングフィードバックダイナミクスを追加すると、再び幻の輪郭の認識につながります。

Modern feedforward convolutional neural networks (CNNs) can now solve some computer vision tasks at super-human levels. However, these networks only roughly mimic human visual perception. One difference from human vision is that they do not appear to perceive illusory contours (e.g. Kanizsa squares) in the same way humans do. Physiological evidence from visual cortex suggests that the perception of illusory contours could involve feedback connections. Would recurrent feedback neural networks perceive illusory contours like humans? In this work we equip a deep feedforward convolutional network with brain-inspired recurrent dynamics. The network was first pretrained with an unsupervised reconstruction objective on a natural image dataset, to expose it to natural object contour statistics. Then, a classification decision layer was added and the model was finetuned on a form discrimination task: squares vs. randomly oriented inducer shapes (no illusory contour). Finally, the model was tested with the unfamiliar "illusory contour" configuration: inducer shapes oriented to form an illusory square. Compared with feedforward baselines, the iterative "predictive coding" feedback resulted in more illusory contours being classified as physical squares. The perception of the illusory contour was measurable in the luminance profile of the image reconstructions produced by the model, demonstrating that the model really "sees" the illusion. Ablation studies revealed that natural image pretraining and feedback error correction are both critical to the perception of the illusion. Finally we validated our conclusions in a deeper network (VGG): adding the same predictive coding feedback dynamics again leads to the perception of illusory contours.
翻訳日:2021-02-04 20:25:30 公開日:2021-02-03
# (参考訳) 大規模神経記録のための集団モデルの構築 : 機会と落とし穴 [全文訳有]

Building population models for large-scale neural recordings: opportunities and pitfalls ( http://arxiv.org/abs/2102.01807v1 )

ライセンス: CC0 1.0
Cole Hurwitz, Nina Kudryashova, Arno Onken, Matthias H. Hennig(参考訳) 現代の細胞外記録技術は、多数のニューロンからの同時記録を可能にする。 これにより、神経集団活動の分析と解釈のための新しい統計モデルの開発が進められた。 ここでは、この分野における最近の開発の概要を紹介します。 異なるアプローチを比較して対比し、強みと限界を強調し、これらの手法が提供する生物学的および機械的な洞察について論じる。 まだ活発な開発領域だが、複雑な実験環境でも大規模な神経記録を解釈するための強力なモデルが数多く存在する。

Modern extracellular recording technologies now enable simultaneous recording from large numbers of neurons. This has driven the development of new statistical models for analyzing and interpreting neural population activity. Here we provide a broad overview of recent developments in this area. We compare and contrast different approaches, highlight strengths and limitations, and discuss biological and mechanistic insights that these methods provide. While still an area of active development, there are already a number of powerful models for interpreting large scale neural recordings even in complex experimental settings.
翻訳日:2021-02-04 20:04:14 公開日:2021-02-03
# (参考訳) ZX計算による量子ニューラルネットワークのトレーニングにおけるバレンプラトー現象の解析

Analyzing the barren plateau phenomenon in training quantum neural network with the ZX-calculus ( http://arxiv.org/abs/2102.01828v1 )

ライセンス: CC BY 4.0
Chen Zhao and Xiao-Shan Gao(参考訳) 本論文では,ZX計算を用いた量子ニューラルネットワークの訓練におけるバレン高原現象を解析するための一般スキームを提案する。 より正確には、バレンプラトース定理(Barren Plateaus theorem)をユニタリ2設計回路から任意のパラメータ化量子回路に拡張する。 本論文の主な技術的貢献は、特定の積分をZX-ダイアグラムとして表し、それらをZX-計算で計算することである。 この方法は、異なる構造を持つ4つのコンクリート量子ニューラルネットワークを分析するために使用されます。 ハードウェア効率の良いアンサーツとMPSに触発されたアンサーツに対しては、バレン台地が存在し、QCNNやツリーテンソルネットワーク台地では、バレン台地は存在しないことが示されている。

In this paper, we propose a general scheme to analyze the barren plateau phenomenon in training quantum neural networks with the ZX-calculus. More precisely, we extend the barren plateaus theorem from unitary 2-design circuits to any parameterized quantum circuits under certain reasonable assumptions. The main technical contribution of this paper is representing certain integrations as ZX-diagrams and computing them with the ZX-calculus. The method is used to analyze four concrete quantum neural networks with different structures. It is shown that, for the hardware efficient ansatz and the MPS-inspired ansatz, there exist barren plateaus, while for the QCNN and the tree tensor network ansatz, there exists no barren plateau.
翻訳日:2021-02-04 19:30:20 公開日:2021-02-03
# (参考訳) グラフ表現の学習 [全文訳有]

Learning Graph Representations ( http://arxiv.org/abs/2102.02026v1 )

ライセンス: CC BY 4.0
Rucha Bhalchandra Joshi and Subhankar Mishra(参考訳) 社会や情報ネットワークは、近年、様々な用途で大きな人気を得ています。 ノードとエッジの形でのグラフによる知識表現は、元のデータの特徴をできるだけ多く保持する必要があります。 これらのグラフに関する興味深い有用な応用としては、グラフ分類、ノード分類、リンク予測などがある。 Graph Neural Networksはここ数年で進化してきた。 グラフニューラルネットワーク(GNNs)は、知識グラフとも呼ばれる数十億のエンティティ間の関係をキャプチャする大規模でダイナミックなグラフデータセットへの洞察を得る効率的な方法です。 本稿では,グラフ畳み込みニューラルネットワークのオートエンコーダと時空間グラフニューラルネットワークについて論じる。 低次元のグラフの表現はこれらの方法を用いて学べる。 低次元の表現は、下流の機械学習タスクでさらに使うことができる。

Social and information networks are gaining huge popularity recently due to their various applications. Knowledge representation through graphs in the form of nodes and edges should preserve as many characteristics of the original data as possible. Some of the interesting and useful applications on these graphs are graph classification, node classification, link prediction, etc. The Graph Neural Networks have evolved over the last few years. Graph Neural Networks (GNNs) are efficient ways to get insight into large and dynamic graph datasets capturing relationships among billions of entities also known as knowledge graphs. In this paper, we discuss the graph convolutional neural networks graph autoencoders and spatio-temporal graph neural networks. The representations of the graph in lower dimensions can be learned using these methods. The representations in lower dimensions can be used further for downstream machine learning tasks.
翻訳日:2021-02-04 19:27:46 公開日:2021-02-03
# (参考訳) 高次元判別分析における未観測クラスと余剰変数 [全文訳有]

Unobserved classes and extra variables in high-dimensional discriminant analysis ( http://arxiv.org/abs/2102.01982v1 )

ライセンス: CC BY 4.0
Michael Fop, Pierre-Alexandre Mattei, Charles Bouveyron, Thomas Brendan Murphy(参考訳) 教師付き分類問題では、テストセットは学習段階では観察されないクラスに属するデータポイントを含むことができる。 さらに、学習サンプルが収集された時点に関して、テストデータの同じ単位を、その後の段階で記録された追加変数のセットで測定することができる。 このような状況では、学習段階に組み込まれた分類器は、潜在的な未知のクラスと余分な次元を扱うために適応する必要がある。 D-AMDA(Dimension-Ada ptive Mixture Discriminant Analysis)という,モデルに基づく識別的手法を提案する。 モデル推定は、EMアルゴリズムに基づく完全な帰納的アプローチによって行われる。 この方法は、大次元のデータに適した適応変数選択と分類のためのより一般的な枠組みに組み込まれる。 シミュレーション研究と成熟ハチミツサンプルの分類に関連する人工実験を使用して、提案されたフレームワークが複雑な状況に対処する能力を検証する。

In supervised classification problems, the test set may contain data points belonging to classes not observed in the learning phase. Moreover, the same units in the test data may be measured on a set of additional variables recorded at a subsequent stage with respect to when the learning sample was collected. In this situation, the classifier built in the learning phase needs to adapt to handle potential unknown classes and the extra dimensions. We introduce a model-based discriminant approach, Dimension-Adaptive Mixture Discriminant Analysis (D-AMDA), which can detect unobserved classes and adapt to the increasing dimensionality. Model estimation is carried out via a full inductive approach based on an EM algorithm. The method is then embedded in a more general framework for adaptive variable selection and classification suitable for data of large dimensions. A simulation study and an artificial experiment related to classification of adulterated honey samples are used to validate the ability of the proposed framework to deal with complex situations.
翻訳日:2021-02-04 19:12:17 公開日:2021-02-03
# (参考訳) 学習と進化による体型知能 [全文訳有]

Embodied Intelligence via Learning and Evolution ( http://arxiv.org/abs/2102.02202v1 )

ライセンス: CC BY 4.0
Agrim Gupta, Silvio Savarese, Surya Ganguli, Li Fei-Fei(参考訳) 複雑な環境ニッチにおける学習と進化の中間過程は、形態学的形態の顕著な多様性をもたらした。 さらに、動物知能の多くの側面は、進化した形態学に深く浸透している。 しかしながら、進化と学習に関するシリコ実験において、環境複雑性、進化形態、知的制御の学習可能性の関係を規定する原則は、部分的には大きな課題である。 我々は,多種多様なエージェント形態を進化させ,低レベルの自己中心的感覚情報のみを用いて複雑な環境におけるロコモーションと操作タスクを学習できる新しい計算フレームワークであるdeep evolution reinforcement learning (derl)を提案する。 DERLを活用することで、環境の複雑さ、形態的知性、制御の学習性の間にいくつかの関係が示される。 まず、環境複雑性は、新しいタスクの学習を促進する形態素の能力によって定量化される形態素知の進化を促進する。 第二に、進化は速く学習する形態を素早く選び、初期の祖先の生後遅くに学んだ行動が子孫の生後早期に表現されるようにする。 複雑な環境で学習および進化するエージェントでは、この結果は長期予想ボルドウィン効果の最初の実証を構成する。 第三に、我々の実験は、より物理的に安定でエネルギー効率のよい形態学の進化を通じて、ボールドウィン効果と形態学知性の出現の両方の力学基盤を示唆している。

The intertwined processes of learning and evolution in complex environmental niches have resulted in a remarkable diversity of morphological forms. Moreover, many aspects of animal intelligence are deeply embodied in these evolved morphologies. However, the principles governing relations between environmental complexity, evolved morphology, and the learnability of intelligent control, remain elusive, partially due to the substantial challenge of performing large-scale in silico experiments on evolution and learning. We introduce Deep Evolutionary Reinforcement Learning (DERL): a novel computational framework which can evolve diverse agent morphologies to learn challenging locomotion and manipulation tasks in complex environments using only low level egocentric sensory information. Leveraging DERL we demonstrate several relations between environmental complexity, morphological intelligence and the learnability of control. First, environmental complexity fosters the evolution of morphological intelligence as quantified by the ability of a morphology to facilitate the learning of novel tasks. Second, evolution rapidly selects morphologies that learn faster, thereby enabling behaviors learned late in the lifetime of early ancestors to be expressed early in the lifetime of their descendants. In agents that learn and evolve in complex environments, this result constitutes the first demonstration of a long-conjectured morphological Baldwin effect. Third, our experiments suggest a mechanistic basis for both the Baldwin effect and the emergence of morphological intelligence through the evolution of morphologies that are more physically stable and energy efficient, and can therefore facilitate learning and control.
翻訳日:2021-02-04 18:14:31 公開日:2021-02-03
# モデルはいつ説明から学べるのか? 説明データの役割を理解するための形式的枠組み

When Can Models Learn From Explanations? A Formal Framework for Understanding the Roles of Explanation Data ( http://arxiv.org/abs/2102.02201v1 )

ライセンス: Link先を確認
Peter Hase, Mohit Bansal(参考訳) タスク命令のモデル出力のコンディショニング、ドキュメントの取得、ユーザが提供する説明とフィードバックのための多くのメソッドが現在存在している。 これらの手法は、タスク入力やアウトプットの例にのみ依存するのではなく、モデルの正確性を改善し、学習したモデルを人間の事前と整合させることを目的として、モデリングに貴重な追加データを使用できる。 一方,いくつかの言語モデルでは,(1)パラメータに大量の知識を格納し,(2)非構造化テキストにおけるタスクを推測することで,新しいタスクをテスト時に解くことが可能であることが示唆されている。 これらの結果は、一部のタスクでは、人間が既に知っている、あるいは自分で推測できる以上のタスクについてモデルに説明できない可能性を示しています。 本論文では,個々のデータポイントの説明がモデリング性能を向上できる(あるいは改善できない)状況について検討する。 データと説明の重要な特性を慎重に制御するために、実験用の合成データセットを導入し、e-SNLI、TACRED、SemEvalの3つの既存のデータセットも使用しています。 まず,説明データをモデル入力として,ラベルとして,あるいは事前として使用できる,利用可能なモデリングアプローチのための形式的フレームワークを提示する。 説明データの最も有望な役割はモデル入力であるとの議論を経て,検索に基づく手法を用いて,説明データを持たないベースラインが65%未満の精度で,95%以上の精度で合成タスクを解くことを提案する。 次に、検索に基づくモデリングが失敗するデータセットの特性を特定する。 既存の3つのデータセットでは,説明検索による改善は見られない。 総合的なタスクから得られた知見から,モデリング成功のための6つの前提条件のうち,少なくとも1つがこれらのデータセットを保持できないことを示唆する。

Many methods now exist for conditioning model outputs on task instructions, retrieved documents, and user-provided explanations and feedback. Rather than relying solely on examples of task inputs and outputs, these approaches allow for valuable additional data to be used in modeling with the purpose of improving model correctness and aligning learned models with human priors. Meanwhile, a growing body of evidence suggests that some language models can (1) store a large amount of knowledge in their parameters, and (2) perform inference over tasks in unstructured text to solve new tasks at test time. These results raise the possibility that, for some tasks, humans cannot explain to a model any more about the task than it already knows or could infer on its own. In this paper, we study the circumstances under which explanations of individual data points can (or cannot) improve modeling performance. In order to carefully control important properties of the data and explanations, we introduce a synthetic dataset for experiments, and we also make use of three existing datasets with explanations: e-SNLI, TACRED, SemEval. We first give a formal framework for the available modeling approaches, in which explanation data can be used as model inputs, as labels, or as a prior. After arguing that the most promising role for explanation data is as model inputs, we propose to use a retrieval-based method and show that it solves our synthetic task with accuracies upwards of 95%, while baselines without explanation data achieve below 65% accuracy. We then identify properties of datasets for which retrieval-based modeling fails. With the three existing datasets, we find no improvements from explanation retrieval. Drawing on our findings from our synthetic task, we suggest that at least one of six preconditions for successful modeling fails to hold with these datasets.
翻訳日:2021-02-04 17:53:26 公開日:2021-02-03
# 最適状態値関数の線形実現性を考慮したMDPのクエリ効率プランニングについて

On Query-efficient Planning in MDPs under Linear Realizability of the Optimal State-value Function ( http://arxiv.org/abs/2102.02049v1 )

ライセンス: Link先を確認
Gellert Weisz, Philip Amortila, Barnab\'as Janzer, Yasin Abbasi-Yadkori, Nan Jiang, Csaba Szepesv\'ari(参考訳) 生成モデルを用いた固定正則マルコフ決定プロセス(MDP)における局所計画の問題点を,生成モデルを通じてアクセス可能な特徴マップのスパンに最適値関数が存在することを前提として検討する。 すべてのポリシーの線形実現可能性を仮定する以前の研究とは対照的に、単一の線形実現可能な(決定論的)ポリシーの非常に緩やかな仮定を考える。 最近の下界は、最適ポリシーの作用値関数が線形実現可能である場合に、H(MDPの地平線)またはd(特徴写像の次元)の指数的な数のクエリを必要とすることを証明した。 彼らの構成は指数関数的に大きなアクションセットを持つことに大きく依存している。 対照的に、本研究では、アクション集合が小さい場合(すなわち、)にpoly$(h, d)$学習が可能(状態値関数実現可能性)となることを定めている。 O(1))。 特に,ポリ$((dH/\delta)^A)$クエリを用いて,値関数がゼロ付近の固定半径球からのパラメータと線形に実現可能な任意の決定的ポリシに対して,$\delta$-optimal Policyを求めるTensorPlanアルゴリズムを提案する。 これは、単一の競合値関数の線形実現性のみを使用して多項式クエリの複雑性を保証する最初のアルゴリズムである。 計算コストが同じように有界であるかどうかは、まだ興味深い疑問である。 上界は下界で補われ、無限ホリゾンエピソディック設定では、一定の部分最適化性を達成するプランナーは、次元やアクションの数において指数関数的に多くのクエリを必要とする。

We consider the problem of local planning in fixed-horizon Markov Decision Processes (MDPs) with a generative model under the assumption that the optimal value function lies in the span of a feature map that is accessible through the generative model. As opposed to previous work where linear realizability of all policies was assumed, we consider the significantly relaxed assumption of a single linearly realizable (deterministic) policy. A recent lower bound established that the related problem when the action-value function of the optimal policy is linearly realizable requires an exponential number of queries, either in H (the horizon of the MDP) or d (the dimension of the feature mapping). Their construction crucially relies on having an exponentially large action set. In contrast, in this work, we establish that poly$(H, d)$ learning is possible (with state value function realizability) whenever the action set is small (i.e. O(1)). In particular, we present the TensorPlan algorithm which uses poly$((dH/\delta)^A)$ queries to find a $\delta$-optimal policy relative to any deterministic policy for which the value function is linearly realizable with a parameter from a fixed radius ball around zero. This is the first algorithm to give a polynomial query complexity guarantee using only linear-realizability of a single competing value function. Whether the computation cost is similarly bounded remains an interesting open question. The upper bound is complemented by a lower bound which proves that in the infinite-horizon episodic setting, planners that achieve constant suboptimality need exponentially many queries, either in the dimension or the number of actions.
翻訳日:2021-02-04 17:51:41 公開日:2021-02-03
# unbox the black-box the medical explainedable ai via multi-modal and multi-centre data fusion: a mini-review, two showcases and beyond

Unbox the Black-box for the Medical Explainable AI via Multi-modal and Multi-centre Data Fusion: A Mini-Review, Two Showcases and Beyond ( http://arxiv.org/abs/2102.01998v1 )

ライセンス: Link先を確認
Guang Yang, Qinghao Ye, Jun Xia(参考訳) 説明可能な人工知能(XAI)は、AIシステムのブラックボックス選択方法の解読を目的とした機械学習の新たな研究テーマです。 本研究分野は、意思決定に関わる措置やモデルを検査し、それを明確に説明するための解決策を求める。 機械学習アルゴリズムの多くは、意思決定の方法と理由を明らかにしない。 これは特に、現在使われている最も人気のあるディープニューラルネットワークアプローチに当てはまる。 その結果、これらのブラックボックスモデルの説明能力の欠如によって、AIシステムに対する私たちの信頼が妨げられる可能性があります。 XAIは、ディープラーニングを活用したアプリケーション、特に医療および医療研究にとってますます重要になっていますが、一般的にこれらのディープニューラルネットワークは、パフォーマンスの停止配当を返すことができます。 既存のほとんどのAIシステムにおける説明力と透明性が不十分であることは、通常の臨床実践へのAIツールの導入と統合が成功している主な理由の1つです。 本研究では,XAIの現況,特に医療応用の進歩について調査した。 次に、マルチモーダル・マルチセントデータ融合を利用したXAIソリューションを導入し、実際の臨床シナリオに従って2つのショーケースで検証した。 総合的な定量的および定性的な分析は,提案したXAIソリューションの有効性を証明できる。

Explainable Artificial Intelligence (XAI) is an emerging research topic of machine learning aimed at unboxing how AI systems' black-box choices are made. This research field inspects the measures and models involved in decision-making and seeks solutions to explain them explicitly. Many of the machine learning algorithms can not manifest how and why a decision has been cast. This is particularly true of the most popular deep neural network approaches currently in use. Consequently, our confidence in AI systems can be hindered by the lack of explainability in these black-box models. The XAI becomes more and more crucial for deep learning powered applications, especially for medical and healthcare studies, although in general these deep neural networks can return an arresting dividend in performance. The insufficient explainability and transparency in most existing AI systems can be one of the major reasons that successful implementation and integration of AI tools into routine clinical practice are uncommon. In this study, we first surveyed the current progress of XAI and in particular its advances in healthcare applications. We then introduced our solutions for XAI leveraging multi-modal and multi-centre data fusion, and subsequently validated in two showcases following real clinical scenarios. Comprehensive quantitative and qualitative analyses can prove the efficacy of our proposed XAI solutions, from which we can envisage successful applications in a broader range of clinical questions.
翻訳日:2021-02-04 17:50:49 公開日:2021-02-03
# 静的言語モデリングの落とし穴

Pitfalls of Static Language Modelling ( http://arxiv.org/abs/2102.01951v1 )

ライセンス: Link先を確認
Angeliki Lazaridou, Adhiguna Kuncoro, Elena Gribovskaya, Devang Agrawal, Adam Liska, Tayfun Terzi, Mai Gimenez, Cyprien de Masson d'Autume, Sebastian Ruder, Dani Yogatama, Kris Cao, Tomas Kocisky, Susannah Young, Phil Blunsom(参考訳) 私たちの世界はオープンエンドで、非定常的で、常に進化しています。 この言語の固有の動的な性質は、重複した期間からトレーニングと評価セットを構築する現在の静的言語モデリングパラダイムとは全く対照的である。 近年の進歩にもかかわらず、最先端トランスフォーマーモデルでは、トレーニング期間を超えて将来の発話を予測するという現実的な設定でパフォーマンスが低下していることが示されています。 最近の進歩の背後にある重要な要因であるモデルサイズのみの増加は、時間的一般化問題に対する解決策を提供していないが、新しい情報で自身の知識を継続的に更新するモデルは、時間の経過とともに明らかに劣化を遅らせている。 したがって、より大規模な言語モデリングトレーニングデータセットのコンパイルと、世界に関する最新の知識を必要とする言語モデルベースのnlpアプリケーションの増加とを組み合わせることで、現在、静的言語モデリング評価プロトコルを再考し、変わらず変わらず変化しない世界に対して最新のままでいられる適応型言語モデルを開発するのが適切なタイミングである、と主張する。

Our world is open-ended, non-stationary and constantly evolving; thus what we talk about and how we talk about it changes over time. This inherent dynamic nature of language comes in stark contrast to the current static language modelling paradigm, which constructs training and evaluation sets from overlapping time periods. Despite recent progress, we demonstrate that state-of-the-art Transformer models perform worse in the realistic setup of predicting future utterances from beyond their training period -- a consistent pattern across three datasets from two domains. We find that, while increasing model size alone -- a key driver behind recent progress -- does not provide a solution for the temporal generalization problem, having models that continually update their knowledge with new information can indeed slow down the degradation over time. Hence, given the compilation of ever-larger language modelling training datasets, combined with the growing list of language-model-based NLP applications that require up-to-date knowledge about the world, we argue that now is the right time to rethink our static language modelling evaluation protocol, and develop adaptive language models that can remain up-to-date with respect to our ever-changing and non-stationary world.
翻訳日:2021-02-04 17:50:04 公開日:2021-02-03
# L2C: 個々人の意味的理解を必要とする視覚的差異を記述

L2C: Describing Visual Differences Needs Semantic Understanding of Individuals ( http://arxiv.org/abs/2102.01860v1 )

ライセンス: Link先を確認
An Yan, Xin Eric Wang, Tsu-Jui Fu, William Yang Wang(参考訳) 言語と視覚の最近の進歩は、イメージペア間の視覚的差異を記述するために単一のイメージをキャプションする研究を推し進めている。 i_1 と i_2 の2つの画像があり、それらを比較するための記述 w_{1,2} を生成するのがタスクであり、既存のメソッドは個人の意味的な理解なしに { i_1, i_2 } -> w_{1,2} マッピングを直接モデル化する。 本稿では,これら2つの画像の意味構造を理解し,それぞれを記述しながら比較する学習・比較モデル(l2c)を提案する。 我々は,L2Cが明示的な意味表現と単一イメージのキャプションの比較から得られる利点を実証し,新しいテスト画像対をよりよく一般化することを示した。 Birds-to-Wordsデータセットの自動評価と人的評価の両方でベースラインを上回ります。

Recent advances in language and vision push forward the research of captioning a single image to describing visual differences between image pairs. Suppose there are two images, I_1 and I_2, and the task is to generate a description W_{1,2} comparing them, existing methods directly model { I_1, I_2 } -> W_{1,2} mapping without the semantic understanding of individuals. In this paper, we introduce a Learning-to-Compare (L2C) model, which learns to understand the semantic structures of these two images and compare them while learning to describe each one. We demonstrate that L2C benefits from a comparison between explicit semantic representations and single-image captions, and generalizes better on the new testing image pairs. It outperforms the baseline on both automatic evaluation and human evaluation for the Birds-to-Words dataset.
翻訳日:2021-02-04 17:49:23 公開日:2021-02-03
# 分散刑罰のオン・ポリシーとオフ・ポリシー・アクタ-クリティック

Variance Penalized On-Policy and Off-Policy Actor-Critic ( http://arxiv.org/abs/2102.01985v1 )

ライセンス: Link先を確認
Arushi Jain, Gandharv Patil, Ayush Jain, Khimya Khetarpal, Doina Precup(参考訳) 強化学習アルゴリズムは、通常、エージェントの期待されるリターンを最適化する。 しかし、多くの実用的な応用において、アルゴリズムの信頼性を確保するためにリターンのばらつきが低いことが望まれる。 本稿では,平均値と分散値の両方を含むパフォーマンス基準を最適化するオンポリシーおよびオフポリシーアクタークリティカルアルゴリズムを提案する。 以前の仕事は、間接的に分散を推定するために戻りの2番目の瞬間を使用します。 代わりに,最近提案されているより単純な直接分散推定器を用いて,時間差法を用いて推定値を漸進的に更新する。 分散ペナライズド基準を用いて,有限状態マルコフ決定過程に対する局所最適ポリシーへのアルゴリズムの収束を保証する。 表および連続MuJoCoドメインにおけるアルゴリズムの有用性を実証する。 私たちのアプローチは、期待されるリターンの点でアクター・クリティカルおよび以前の分散・ペナライゼーションのベースラインと同等に機能するだけでなく、リターンの分散度が低い軌道も生成します。

Reinforcement learning algorithms are typically geared towards optimizing the expected return of an agent. However, in many practical applications, low variance in the return is desired to ensure the reliability of an algorithm. In this paper, we propose on-policy and off-policy actor-critic algorithms that optimize a performance criterion involving both mean and variance in the return. Previous work uses the second moment of return to estimate the variance indirectly. Instead, we use a much simpler recently proposed direct variance estimator which updates the estimates incrementally using temporal difference methods. Using the variance-penalized criterion, we guarantee the convergence of our algorithm to locally optimal policies for finite state action Markov decision processes. We demonstrate the utility of our algorithm in tabular and continuous MuJoCo domains. Our approach not only performs on par with actor-critic and prior variance-penalizatio n baselines in terms of expected return, but also generates trajectories which have lower variance in the return.
翻訳日:2021-02-04 17:48:03 公開日:2021-02-03
# トポロジカルデータ分析による時系列分類

Time Series Classification via Topological Data Analysis ( http://arxiv.org/abs/2102.01956v1 )

ライセンス: Link先を確認
Alperen Karan, Atabey Kaygun(参考訳) 本稿では,一変時間系列における分類タスクのトポロジカルデータ解析手法を提案する。 アプリケーションとして,ストレスおよび非ストレス条件下で収集された生理的信号からなる2つの公開データセット上で,バイナリおよび3次分類タスクを行う。 我々は,固定長の窓を使わずに,信号の遅延埋め込みとサブワインドウを行うことにより,安定な位相的特徴を設計できる永続的ホモロジーを用いて目標を達成する。 私たちが使用するメソッドの組み合わせは、任意の一変時間系列に適用することができ、このアプリケーションでは、余分な計算コストを課すことなく、ノイズを削減し、長いウィンドウサイズを使用することができます。 次に、アルゴリズムで設計した機能に基づいて機械学習モデルを使用し、より少ない機能でより高い精度を得る。

In this paper, we develop topological data analysis methods for classification tasks on univariate time series. As an application we perform binary and ternary classification tasks on two public datasets that consist of physiological signals collected under stress and non-stress conditions. We accomplish our goal by using persistent homology to engineer stable topological features after we use a time delay embedding of the signals and perform a subwindowing instead of using windows of fixed length. The combination of methods we use can be applied to any univariate time series and in this application allows us to reduce noise and use long window sizes without incurring an extra computational cost. We then use machine learning models on the features we algorithmically engineered to obtain higher accuracies with fewer features.
翻訳日:2021-02-04 17:47:25 公開日:2021-02-03
# 対向ロバストネスのための多変数ネットワークの学習

Learning Diverse-Structured Networks for Adversarial Robustness ( http://arxiv.org/abs/2102.01886v1 )

ライセンス: Link先を確認
Xuefeng Du, Jingfeng Zhang, Bo Han, Tongliang Liu, Yu Rong, Gang Niu, Junzhou Huang, Masashi Sugiyama(参考訳) 対戦型トレーニング(AT)では、モデルがあまり研究されていない間、客観性と最適化が主な焦点であり、使用しているモデルは標準トレーニング(ST)における古典的なモデルである。 古典的なネットワークアーキテクチャ(NA)は、STで検索されたNAよりも一般的に悪いです。 本稿では、データセットが与えられた場合、STにおける最適なNAはATにおいてもはや最適ではないため、NAとATは独立に処理できないと論じる。 とはいえ、ATは時間を要するので、大規模な検索空間上でATでNAを直接検索すると、計算は事実上不可能になります。 そこで我々は,低レベルな演算ではなく,原子ブロックが残留ブロックのような時間テストされたビルディングブロックであるような,事前定義された原子ブロックのみを考慮し,探索空間の規模を大幅に削減する多様構造ネットワーク(DS-Net)を提案する。 原子ブロックは数個しかないので、ds-netの探索ブロックの中で最良の原子ブロックを見つけるのではなく、すべての原子ブロックを重み付けすることができる。 実験結果はDS-Netの利点、すなわち原子ブロックの重み付けを示す。

In adversarial training (AT), the main focus has been the objective and optimizer while the model is less studied, so that the models being used are still those classic ones in standard training (ST). Classic network architectures (NA) are generally worse than searched NA in ST, which should be the same in AT. In this paper, we argue that NA and AT cannot be handled independently, since given a dataset, the optimal NA in ST would be no longer optimal in AT. That being said, AT is time-consuming itself; if we directly search NA in AT over large search spaces, the computation will be practically infeasible. Thus, we propose a diverse-structured network (DS-Net), to significantly reduce the size of the search space: instead of low-level operations, we only consider predefined atomic blocks, where an atomic block is a time-tested building block like the residual block. There are only a few atomic blocks and thus we can weight all atomic blocks rather than find the best atomic block in a searched block of DS-Net, which is an essential trade-off between exploring diverse structures and exploiting the best structures. Empirical results demonstrate the advantages of DS-Net, i.e., weighting the atomic blocks.
翻訳日:2021-02-04 17:46:17 公開日:2021-02-03
# インスタンス間の構造的関係を利用したマルチインスタンス学習

Multi-Instance Learning by Utilizing Structural Relationship among Instances ( http://arxiv.org/abs/2102.01889v1 )

ライセンス: Link先を確認
Yangling Ma, Zhouwang Yang(参考訳) マルチインスタンス学習(MIL)は、インスタンスの袋とバッグレベルのラベルの間のマッピングを学習することを目的としている。 したがって、インスタンス間の関係はマッピングを学ぶために非常に重要です。 本稿では,バッグ内のインスタンス間の構造的関係から構築したグラフに基づくMILアルゴリズムを提案する。 次に、グラフ畳み込みネットワーク(gcn)とグラフアテンション機構を用いて、バッグエンベディングを学習する。 医用画像分類の課題では, 医用画像領域におけるパッチ間の構造的関係をGCNベースのMILアルゴリズムでフル活用し, 実験結果から, 医用高解像度画像の処理に適した方法であることが確認された。 また,提案手法が従来の5つのベンチマークMILデータセットと4つの医療画像データセットよりも良好な結果が得られることを実験的に検証した。

Multi-Instance Learning(MIL) aims to learn the mapping between a bag of instances and the bag-level label. Therefore, the relationships among instances are very important for learning the mapping. In this paper, we propose an MIL algorithm based on a graph built by structural relationship among instances within a bag. Then, Graph Convolutional Network(GCN) and the graph-attention mechanism are used to learn bag-embedding. In the task of medical image classification, our GCN-based MIL algorithm makes full use of the structural relationships among patches(instances) in an original image space domain, and experimental results verify that our method is more suitable for handling medical high-resolution images. We also verify experimentally that the proposed method achieves better results than previous methods on five bechmark MIL datasets and four medical image datasets.
翻訳日:2021-02-04 17:45:37 公開日:2021-02-03
# 不確実性への注意を忘れることなく, カタストロフィック・フォーミングを緩和する

Do Not Forget to Attend to Uncertainty while Mitigating Catastrophic Forgetting ( http://arxiv.org/abs/2102.01906v1 )

ライセンス: Link先を確認
Vinod K Kurmi, Badri N. Patro, Venkatesh K. Subramanian, Vinay P. Namboodiri(参考訳) ディープラーニングモデルの大きな制限の1つは、漸進的な学習シナリオにおいて壊滅的な忘れに直面することだ。 インクリメンタル学習の問題に取り組むために、いくつかのアプローチが提案されている。 これらの手法の多くは知識蒸留に基づいており、予測の不確実性推定のような古いタスクモデルが提供する情報を適切に利用していない。 予測の不確実性は、深層学習フレームワークにおける破滅的な忘れを緩和するために、分布情報を適用することができる。 提案手法では,データとモデルの不確実性を得るためにベイズ式を考える。 インクリメンタルな学習問題に対処するために、セルフアテンションフレームワークも取り入れています。 蒸留の損失を,アレータリック不確実性と自己注意の観点から定義する。 本研究では,これらの損失について異なるアブレーション解析を行った。 さらに、標準ベンチマークの精度の観点から、より良い結果を得ることができる。

One of the major limitations of deep learning models is that they face catastrophic forgetting in an incremental learning scenario. There have been several approaches proposed to tackle the problem of incremental learning. Most of these methods are based on knowledge distillation and do not adequately utilize the information provided by older task models, such as uncertainty estimation in predictions. The predictive uncertainty provides the distributional information can be applied to mitigate catastrophic forgetting in a deep learning framework. In the proposed work, we consider a Bayesian formulation to obtain the data and model uncertainties. We also incorporate self-attention framework to address the incremental learning problem. We define distillation losses in terms of aleatoric uncertainty and self-attention. In the proposed work, we investigate different ablation analyses on these losses. Furthermore, we are able to obtain better results in terms of accuracy on standard benchmarks.
翻訳日:2021-02-04 17:45:02 公開日:2021-02-03
# 一般化ゼロショット学習のための等尺伝播ネットワーク

Isometric Propagation Network for Generalized Zero-shot Learning ( http://arxiv.org/abs/2102.02038v1 )

ライセンス: Link先を確認
Lu Liu, Tianyi Zhou, Guodong Long, Jing Jiang, Xuanyi Dong, Chengqi Zhang(参考訳) Zero-shot Learning (ZSL) は、クラスを記述するいくつかの属性に基づいてのみ、未確認クラスのイメージを分類することを目的としている。 一般的な戦略は、見たクラスとそのデータに基づいて、クラス属性の意味空間とイメージの視覚空間の間のマッピングを学ぶことである。 したがって、見当たらないクラスイメージは、その対応するクラス属性に理想的にマッピングできる。 主な課題は、2つの空間で表現をどのように整列させるかです。 ほとんどのzsl設定では、各 see/unseen クラスの属性はベクターでのみ表現され、seet-class データはより多くの情報を提供する。 したがって、セマンティクスと視覚空間からの不均衡な監督は、学習されたマッピングを見掛けたクラスに簡単にオーバーフィットさせることができる。 この問題を解決するために,各空間内のクラス間の関係を強化し,2つの空間におけるクラス依存性を整合させるIsometric Propagation Network (IPN)を提案する。 具体的には、IPNは各空間内の自動生成グラフ上のクラス表現を伝搬することを学ぶ。 結果の静的表現のみを整合させるのとは対照的に,2つの動的伝播手順を1ステップあたりの2つのグラフのエッジ重みから等性的に定式化し,それらの間の一貫性損失を最小化する。 IPNは3つの人気のあるZSLベンチマークで最先端のパフォーマンスを達成する。 IPNの一般化能力を評価するために、より多様な未確認クラスを持つ2つの大きなベンチマークを構築し、IPNの利点を実証する。

Zero-shot learning (ZSL) aims to classify images of an unseen class only based on a few attributes describing that class but no access to any training sample. A popular strategy is to learn a mapping between the semantic space of class attributes and the visual space of images based on the seen classes and their data. Thus, an unseen class image can be ideally mapped to its corresponding class attributes. The key challenge is how to align the representations in the two spaces. For most ZSL settings, the attributes for each seen/unseen class are only represented by a vector while the seen-class data provide much more information. Thus, the imbalanced supervision from the semantic and the visual space can make the learned mapping easily overfitting to the seen classes. To resolve this problem, we propose Isometric Propagation Network (IPN), which learns to strengthen the relation between classes within each space and align the class dependency in the two spaces. Specifically, IPN learns to propagate the class representations on an auto-generated graph within each space. In contrast to only aligning the resulted static representation, we regularize the two dynamic propagation procedures to be isometric in terms of the two graphs' edge weights per step by minimizing a consistency loss between them. IPN achieves state-of-the-art performance on three popular ZSL benchmarks. To evaluate the generalization capability of IPN, we further build two larger benchmarks with more diverse unseen classes and demonstrate the advantages of IPN on them.
翻訳日:2021-02-04 17:44:29 公開日:2021-02-03
# TAD:AIのトリガ近似に基づくブラックボックストロイの木馬検出

TAD: Trigger Approximation based Black-box Trojan Detection for AI ( http://arxiv.org/abs/2102.01815v1 )

ライセンス: Link先を確認
Xinqiao Zhang, Huili Chen and Farinaz Koushanfar(参考訳) 機械学習(ML)の台頭とともに、新たな量のインテリジェントアプリケーションが開発されている。 深層ニューラルネットワーク(DNN)は、医療診断や自動運転など、さまざまな分野で前例のない性能を発揮しています。 dnnはセキュリティに敏感な分野で広く使われているが、ステルストリガーによって制御され活性化される神経トロイの木馬(nt)攻撃に対して脆弱である。 この脆弱なモデルをAI(AI)と呼んでいます。 本稿では,事前学習したAIモデルがトロイの木馬に配備される前に検査されるロバストなトロイの木馬検出手法を設計することを目的とする。 先行研究はトリガー分布の本質的性質を欠き、単純なヒューリスティック、すなわち与えられたモデルを間違った出力に刺激することでトリガーパターンを再構築しようとする。 その結果、検出時間と有効性は限られている。 ピクセルトリガは通常空間依存性を特徴とする観察を活用し、入力空間におけるトリガの高速かつスケーラブルな探索を可能にする最初のトリガ近似ベースのトロイの木馬検出フレームワークであるTADを提案する。 さらに、TADは、特定のフィルタ変換を用いてトロイの木を活性化する特徴空間に埋め込まれたトロイの木を検出できる。 私たちは、さまざまなデータセットとMLモデルにわたるTADのパフォーマンスを調査するための広範な実験を行います。 実験の結果,TADはパブリックなTrojAIデータセット1においてLOC-AUCスコア0:91を達成し,平均検出時間は7:1分であった。

An emerging amount of intelligent applications have been developed with the surge of Machine Learning (ML). Deep Neural Networks (DNNs) have demonstrated unprecedented performance across various fields such as medical diagnosis and autonomous driving. While DNNs are widely employed in security-sensitive fields, they are identified to be vulnerable to Neural Trojan (NT) attacks that are controlled and activated by the stealthy trigger. We call this vulnerable model adversarial artificial intelligence (AI). In this paper, we target to design a robust Trojan detection scheme that inspects whether a pre-trained AI model has been Trojaned before its deployment. Prior works are oblivious of the intrinsic property of trigger distribution and try to reconstruct the trigger pattern using simple heuristics, i.e., stimulating the given model to incorrect outputs. As a result, their detection time and effectiveness are limited. We leverage the observation that the pixel trigger typically features spatial dependency and propose TAD, the first trigger approximation based Trojan detection framework that enables fast and scalable search of the trigger in the input space. Furthermore, TAD can also detect Trojans embedded in the feature space where certain filter transformations are used to activate the Trojan. We perform extensive experiments to investigate the performance of the TAD across various datasets and ML models. Empirical results show that TAD achieves a ROC-AUC score of 0:91 on the public TrojAI dataset 1 and the average detection time per model is 7:1 minutes.
翻訳日:2021-02-04 17:43:46 公開日:2021-02-03
# 因果的協調フィルタリング

Causal Collaborative Filtering ( http://arxiv.org/abs/2102.01868v1 )

ライセンス: Link先を確認
Shuyuan Xu, Yingqiang Ge, Yunqi Li, Zuohui Fu, Xu Chen, Yongfeng Zhang(参考訳) リコメンダーシステムは、多くのパーソナライズされたサービスにとって重要で価値のあるツールです。 協調フィルタリング(CF)アルゴリズムは、パーソナライズされたレコメンデーションの基盤となるメカニズムを駆動する基本的なアルゴリズムである。 従来のCFアルゴリズムの多くは、ユーザ/アイテムベースのCFなどのメモリベースの方法、マトリックスファクタリゼーションやディープラーニングモデルなどの学習ベースの方法など、マッチングのためのデータから相関パターンをマイニングまたは学習するという基本的なアイデアに基づいて設計されています。 しかし,相関学習から因果学習への移行は重要な問題であり,因果モデリングはユーザモデリングとパーソナライズのための観察データを超えるのに役立つ。 本研究では,協調フィルタリングとレコメンダーシステムの因果関係をモデル化する汎用フレームワークであるCausal Collaborative Filtering (CCF)を提案する。 まず,協調フィルタリングの統一因果ビューを提供し,従来のcfアルゴリズムの多くが単純な因果グラフの下でccfの特殊ケースであることを示す。 次に,観測データに基づいて因果関係を推定できるように,do-calculusに対する条件付き介入手法を提案する。 最後に,ユーザの嗜好を推定する汎用的な反事実制約学習フレームワークを提案する。 実験は2種類の実世界のデータセット – 従来型とランダム化された試験データ -- で行われ、その結果、フレームワークは多くのCFアルゴリズムの推奨性能を向上させることができることが示された。

Recommender systems are important and valuable tools for many personalized services. Collaborative Filtering (CF) algorithms -- among others -- are fundamental algorithms driving the underlying mechanism of personalized recommendation. Many of the traditional CF algorithms are designed based on the fundamental idea of mining or learning correlative patterns from data for matching, including memory-based methods such as user/item-based CF as well as learning-based methods such as matrix factorization and deep learning models. However, advancing from correlative learning to causal learning is an important problem, since causal/counterfactua l modeling helps us to go beyond the observational data for user modeling and personalized. In this work, we propose Causal Collaborative Filtering (CCF) -- a general framework for modeling causality in collaborative filtering and recommender systems. We first provide a unified causal view of collaborative filtering and mathematically show that many of the traditional CF algorithms are actually special cases of CCF under simplified causal graphs. We then propose a conditional intervention approach for do-calculus so that we can estimate the causal relations based on observational data. Finally, we further propose a general counterfactual constrained learning framework for estimating the user-item preferences. Experiments are conducted on two types of real-world datasets -- traditional and randomized trial data -- and results show that our framework can improve the recommendation performance of many CF algorithms.
翻訳日:2021-02-04 17:42:59 公開日:2021-02-03
# 最適決定集合計算のためのスケーラブルな2段階アプローチ

A Scalable Two Stage Approach to Computing Optimal Decision Sets ( http://arxiv.org/abs/2102.01904v1 )

ライセンス: Link先を確認
Alexey Ignatiev, Edward Lam, Peter J. Stuckey, and Joao Marques-Silva(参考訳) 機械学習(ML)は現代社会に広く普及している。 プライバシーと安全性に影響を与えるテクノロジーに導入されているため、意思決定の背後にある理由を理解し、説明可能なAIの必要性を保証することが重要です。 決定木、決定リスト、決定セットといったルールベースのモデルは、伝統的に最も解釈可能なものとみなされる。 最近の研究は、命題満足度(SAT)の解法(および最適化の変種)を用いて最小サイズの決定セットを生成する。 本稿は,これらの手法の実用的スケーラビリティの制限に動機づけられ,目標決定の個々のルールをそれぞれ独立に列挙し,ルールのサブセットを選択するための集合被覆問題を解くことにより,最小サイズの決定集合を学習するための新しい手法を提案する。 このアプローチは、現代の最大満足度と整数線形プログラミング技術を利用する。 公開データセットの広い範囲に関する実験は、SATベースの意思決定セット学習における最新技術よりも新しいアプローチの利点を示しています。

Machine learning (ML) is ubiquitous in modern life. Since it is being deployed in technologies that affect our privacy and safety, it is often crucial to understand the reasoning behind its decisions, warranting the need for explainable AI. Rule-based models, such as decision trees, decision lists, and decision sets, are conventionally deemed to be the most interpretable. Recent work uses propositional satisfiability (SAT) solving (and its optimization variants) to generate minimum-size decision sets. Motivated by limited practical scalability of these earlier methods, this paper proposes a novel approach to learn minimum-size decision sets by enumerating individual rules of the target decision set independently of each other, and then solving a set cover problem to select a subset of rules. The approach makes use of modern maximum satisfiability and integer linear programming technologies. Experiments on a wide range of publicly available datasets demonstrate the advantage of the new approach over the state of the art in SAT-based decision set learning.
翻訳日:2021-02-04 17:42:14 公開日:2021-02-03
# 多変量ガウス積を用いたベイズ連合学習フレームワーク

A Bayesian Federated Learning Framework with Multivariate Gaussian Product ( http://arxiv.org/abs/2102.01936v1 )

ライセンス: Link先を確認
Liangxi Liu and Feng Zheng(参考訳) フェデレーション学習(fl)により、複数のクライアントは、データを共有することなく、モデル集約とローカルモデルトレーニングのサイクルを通じて、グローバルな共有モデルを共同学習することができる。 本論文では,サーバ上のモデル集約段階から生じる,クライアントデータの不均一性によって主に引き起こされる新たなアグリゲーションエラー(AE)を総合的に検討する。 局所モデル間の大きな相違により、伴う大きなAEは一般的には収束が遅く、FLの精度が低下すると予想される。 AEを低減するために,ベイズの観点から,多変量ガウス積分機構を用いて局所モデルを集約する,新たな連合学習フレームワークを提案する。 ガウスの積がまだガウスの積であることは注目に値する。 この性質により、局所的な期待と共分散を直接絶対凸形式に集約することができ、その結果、AEは大幅に減少する。 そこで,クライアント側では,前処理を繰り返し蓄積することで,後部のパラメータを推定できる新しいフェデレートオンラインラプラス近似法(fola)を開発した。 具体的には、各ラウンドにおいて、サーバから配布されたグローバル後方をプリエントとして扱うことができ、したがって局所後方をフォラを用いてガウス式で効果的に近似することができる。 ベンチマーク実験の結果は最先端性能に達し,提案手法の利点を明確に示している。

Federated learning (FL) allows multiple clients to collaboratively learn a globally shared model through cycles of model aggregation and local model training without the need to share data. In this paper, we comprehensively study a new problem named aggregation error (AE), arising from the model aggregation stage on a server, which is mainly induced by the heterogeneity of the client data. Due to the large discrepancies between local models, the accompanying large AE generally results in a slow convergence and an expected reduction of accuracy for FL. In order to reduce AE, we propose a novel federated learning framework from a Bayesian perspective, in which a multivariate Gaussian product mechanism is employed to aggregate the local models. It is worth noting that the product of Gaussians is still a Gaussian. This property allows us to directly aggregate local expectations and covariances in a definitely convex form, thereby greatly reducing the AE. Accordingly, on the clients, we develop a new Federated Online Laplace Approximation (FOLA) method, which can estimate the parameters of the local posterior by repeatedly accumulating priors. Specifically, in every round, the global posterior distributed from the server can be treated as the priors, and thus the local posterior can also be effectively approximated by a Gaussian using FOLA. Experimental results on benchmarks reach state-of-the-arts performance and clearly demonstrate the advantages of the proposed method.
翻訳日:2021-02-04 17:41:37 公開日:2021-02-03
# ドロップアウト制御に基づくベイズ型ニューラルネットワーク

A Bayesian Neural Network based on Dropout Regulation ( http://arxiv.org/abs/2102.01968v1 )

ライセンス: Link先を確認
Claire Theobald (LORIA), Fr\'ed\'eric Pennerath (LORIA), Brieuc Conan-Guez (LORIA), Miguel Couceiro (LORIA), Amedeo Napoli (LORIA)(参考訳) Bayesian Neural Networks(BNN)は最近、分類タスクにおける不確実性推定を扱うためにディープラーニングの世界に登場し、天体物理学、自動運転などの多くのアプリケーションドメインで使用されています。BNNは、ポイント推定ではなくニューラルネットワークの重みを優先して想定し、モデル予測のアレータ性および骨粗さの両方の不確実性の両方の推定を可能にし、さらに、特定のタイプのBNN、すなわちMC Dropoutは、ドロップアウトを使用して重みのBernoulli分布を仮定します。 本稿では,新しい手法「ドロップアウト・レギュレーション(dr)」を提案する。この手法は,自動化に使用されるコントローラを用いて,トレーニング中のドロップアウト率を自動的に調整することで,実装が容易でありながら,最先端に匹敵する不確実性を正確に推定する。

Bayesian Neural Networks (BNN) have recently emerged in the Deep Learning world for dealing with uncertainty estimation in classification tasks, and are used in many application domains such as astrophysics, autonomous driving...BNN assume a prior over the weights of a neural network instead of point estimates, enabling in this way the estimation of both aleatoric and epistemic uncertainty of the model prediction.Moreover, a particular type of BNN, namely MC Dropout, assumes a Bernoulli distribution on the weights by using Dropout.Several attempts to optimize the dropout rate exist, e.g. using a variational approach.In this paper, we present a new method called "Dropout Regulation" (DR), which consists of automatically adjusting the dropout rate during training using a controller as used in automation.DR allows for a precise estimation of the uncertainty which is comparable to the state-of-the-art while remaining simple to implement.
翻訳日:2021-02-04 17:40:54 公開日:2021-02-03
# トピックモデリングによる知識に基づくグラフ引数マイニング

Focusing Knowledge-based Graph Argument Mining via Topic Modeling ( http://arxiv.org/abs/2102.02086v1 )

ライセンス: Link先を確認
Patrick Abels, Zahra Ahmadi, Sophie Burkhardt, Benjamin Schiller, Iryna Gurevych, Stefan Kramer(参考訳) 意思決定は通常、問題の特定、データ収集、証拠の抽出、プロとコンの議論の特定、意思決定の5つのステップを踏む。 本論文では,潜在ディリクレ割り当てと単語埋め込みを組み合わせて,構造化データと非構造化データから外部知識を得るハイブリッドモデルを提案する。 議論は主に特定・理解するためにある程度の世界知識を必要とするため,文レベルの議論マイニングの課題について検討する。 トピックと文を与えられると、目的は、文章がそのトピックに関する引数を表すかどうかを分類することである。 我々は、Wikidataのエンティティワードベクトルと与えられた文のベクトルとの間の余分な類似性に基づくグラフを構築し、構造化知識ベースWikidataからトピックと文固有のエビデンスを抽出するためにトピックモデルを用いる。 また,構造化知識基盤の全般的不完全性に取り組むために,google によるトピック固有記事に基づく第2のグラフを構築した。 これらのグラフを組み合わせることで,構造化データと非構造化データの両方をうまく活用できるグラフモデルを得る。

Decision-making usually takes five steps: identifying the problem, collecting data, extracting evidence, identifying pro and con arguments, and making decisions. Focusing on extracting evidence, this paper presents a hybrid model that combines latent Dirichlet allocation and word embeddings to obtain external knowledge from structured and unstructured data. We study the task of sentence-level argument mining, as arguments mostly require some degree of world knowledge to be identified and understood. Given a topic and a sentence, the goal is to classify whether a sentence represents an argument in regard to the topic. We use a topic model to extract topic- and sentence-specific evidence from the structured knowledge base Wikidata, building a graph based on the cosine similarity between the entity word vectors of Wikidata and the vector of the given sentence. Also, we build a second graph based on topic-specific articles found via Google to tackle the general incompleteness of structured knowledge bases. Combining these graphs, we obtain a graph-based model which, as our evaluation shows, successfully capitalizes on both structured and unstructured data.
翻訳日:2021-02-04 17:40:11 公開日:2021-02-03
# プッシュ効果予測のためのオブジェクトとリレーションセントリック表現

Object and Relation Centric Representations for Push Effect Prediction ( http://arxiv.org/abs/2102.02100v1 )

ライセンス: Link先を確認
Ahmet E. Tekden, Aykut Erdem, Erkut Erdem, Tamim Asfour, Emre Ugur(参考訳) プッシュは、プレグレープ操作からシーン再構成、シーン内のオブジェクトの関係の推論、そしてロボット工学において広く研究されている作業において、必要不可欠な非包括的操作技術である。 プッシュアクションの効果的な使用には、しばしば操作対象のダイナミクスを理解し、予測と現実の相違に適応する必要がある。 このため、押しアクションによる効果予測とパラメータ推定は、文献で大きく研究されています。 しかし、現在のアプローチは、一定数のオブジェクトを持つシステムをモデル化するか、出力があまり解釈不能で迅速にエラーを蓄積するイメージベース表現を使用するため、制限されている。 本稿では,接触や調音に基づく対象関係のモデル化によるプッシュ動作の効果予測とパラメータ推定のためのグラフニューラルネットワークに基づくフレームワークを提案する。 我々のフレームワークは実環境とシミュレーション環境の両方で検証され、異なるタイプのジョイントと異なる質量のオブジェクトを介して接続される異なる形状のマルチパートオブジェクトを含んでいる。 私たちのアプローチは、ロボットがシーンを観察しながらプッシュアクションの効果を予測および適応することを可能にします。 さらに,ロボットによるハードディスク分解の文脈におけるレバーアップ動作における6次元効果予測を示す。

Pushing is an essential non-prehensile manipulation skill used for tasks ranging from pre-grasp manipulation to scene rearrangement, reasoning about object relations in the scene, and thus pushing actions have been widely studied in robotics. The effective use of pushing actions often requires an understanding of the dynamics of the manipulated objects and adaptation to the discrepancies between prediction and reality. For this reason, effect prediction and parameter estimation with pushing actions have been heavily investigated in the literature. However, current approaches are limited because they either model systems with a fixed number of objects or use image-based representations whose outputs are not very interpretable and quickly accumulate errors. In this paper, we propose a graph neural network based framework for effect prediction and parameter estimation of pushing actions by modeling object relations based on contacts or articulations. Our framework is validated both in real and simulated environments containing different shaped multi-part objects connected via different types of joints and objects with different masses. Our approach enables the robot to predict and adapt the effect of a pushing action as it observes the scene. Further, we demonstrate 6D effect prediction in the lever-up action in the context of robot-based hard-disk disassembly.
翻訳日:2021-02-04 17:39:31 公開日:2021-02-03
# Frank-Wolfe が Oracle に近づいた

Frank-Wolfe with a Nearest Extreme Point Oracle ( http://arxiv.org/abs/2102.02029v1 )

ライセンス: Link先を確認
Dan Garber, Noam Wolf(参考訳) 制約付き滑らかな凸最小化のための古典的なフランク・ウルフアルゴリズムの変種を考えると、実現可能集合上の線型関数を最小化するための標準オラクルにアクセスする代わりに、与えられたベクトルとユークリッド距離で最も近い実現可能集合の極端点を見つけることができるオラクルにアクセスする。 まず、多くの実効性のある集合に対して、そのようなオラクルは標準的な線形最適化オラクルと同じ複雑さで実装できることを示す。 すると、そのようなオラクルを用いて、最適解の集合が小径の極小点の部分集合(例えばポリトープの低次元面)の凸包にある場合の複雑性境界を著しく改善したフランク=ウルフ多様体を設計できることを示す。 特に、多くの$0\text{--}1$ポリトープにおいて、2次成長と厳密な相補性条件の下で、最適な面の次元のみに依存し、周囲次元に依存しない最初の線形収束型が得られる。

We consider variants of the classical Frank-Wolfe algorithm for constrained smooth convex minimization, that instead of access to the standard oracle for minimizing a linear function over the feasible set, have access to an oracle that can find an extreme point of the feasible set that is closest in Euclidean distance to a given vector. We first show that for many feasible sets of interest, such an oracle can be implemented with the same complexity as the standard linear optimization oracle. We then show that with such an oracle we can design new Frank-Wolfe variants which enjoy significantly improved complexity bounds in case the set of optimal solutions lies in the convex hull of a subset of extreme points with small diameter (e.g., a low-dimensional face of a polytope). In particular, for many $0\text{--}1$ polytopes, under quadratic growth and strict complementarity conditions, we obtain the first linearly convergent variant with rate that depends only on the dimension of the optimal face and not on the ambient dimension.
翻訳日:2021-02-04 17:38:53 公開日:2021-02-03
# PARAFAC2 AO-ADMM:すべてのモードの制約

PARAFAC2 AO-ADMM: Constraints in all modes ( http://arxiv.org/abs/2102.02087v1 )

ライセンス: Link先を確認
Marie Roald, Carla Schenker, Jeremy E. Cohen, Evrim Acar(参考訳) PARAFAC2モデルはテンソル分解のための一般的なCANDECOMP/PARAFAC(CP )モデルに代わる柔軟な代替を提供する。 CPとは異なり、PARAFAC2は1つのモード(すなわち進化モード)の因子行列をテンソルスライスで変化させ、ケモメトリックスや神経科学などの異なる領域の応用に有用であることが証明されている。 しかし、PARAFAC2モデルの進化モードは伝統的に暗黙的にモデル化されているため、規則化は困難である。 現在、このモードで正規化を適用する唯一の方法は柔軟な結合アプローチであり、規則化された最小二乗サブプロブレムを通じてソリューションを見つける。 そこで本研究では, PARAFAC2 を適合させる乗算器 (ADMM) ベースのアルゴリズムの交互方向法を提案し, 任意の近似関数に対して正則化の罰則を拡大する。 数値実験により, PARAFAC2 に対する ADMM に基づく提案手法により, シミュレーションデータから基礎となる成分を精度良く回収できることを示した。

The PARAFAC2 model provides a flexible alternative to the popular CANDECOMP/PARAFAC (CP) model for tensor decompositions. Unlike CP, PARAFAC2 allows factor matrices in one mode (i.e., evolving mode) to change across tensor slices, which has proven useful for applications in different domains such as chemometrics, and neuroscience. However, the evolving mode of the PARAFAC2 model is traditionally modelled implicitly, which makes it challenging to regularise it. Currently, the only way to apply regularisation on that mode is with a flexible coupling approach, which finds the solution through regularised least-squares subproblems. In this work, we instead propose an alternating direction method of multipliers (ADMM)-based algorithm for fitting PARAFAC2 and widen the possible regularisation penalties to any proximable function. Our numerical experiments demonstrate that the proposed ADMM-based approach for PARAFAC2 can accurately recover the underlying components from simulated data while being both computationally efficient and flexible in terms of imposing constraints.
翻訳日:2021-02-04 17:38:13 公開日:2021-02-03
# 加速度勾配降下の不安定性

The Instability of Accelerated Gradient Descent ( http://arxiv.org/abs/2102.02167v1 )

ライセンス: Link先を確認
Amit Attia and Tomer Koren(参考訳) ネステロフの加速度勾配法のアルゴリズム安定性について検討した。 凸二次目的に対して、 \citet{chen2018stability} は、方法の均一な安定性が最適化ステップの数で二次的に成長することを証明し、一般凸と滑らかな場合にも同じことが当てはまると仮定した。 この予想を否定し、安定性の2つの概念に対して、ネステロフの加速法の安定性は、実際には勾配のステップの数で\emph{exponentially fast} を劣化させることを示した。 これは二次の場合の境界に対して鋭い反面、安定度が通常ステップ数とともに線形に増加する非加速勾配法に対する既知の結果とも対照的である。

We study the algorithmic stability of Nesterov's accelerated gradient method. For convex quadratic objectives, \citet{chen2018stability} proved that the uniform stability of the method grows quadratically with the number of optimization steps, and conjectured that the same is true for the general convex and smooth case. We disprove this conjecture and show, for two notions of stability, that the stability of Nesterov's accelerated method in fact deteriorates \emph{exponentially fast} with the number of gradient steps. This stands in sharp contrast to the bounds in the quadratic case, but also to known results for non-accelerated gradient methods where stability typically grows linearly with the number of steps.
翻訳日:2021-02-04 17:37:33 公開日:2021-02-03
# CountSketches, feature Hashing, and the Median of Three

CountSketches, Feature Hashing and the Median of Three ( http://arxiv.org/abs/2102.02193v1 )

ライセンス: Link先を確認
Kasper Green Larsen, Rasmus Pagh, Jakub T\v{e}tek(参考訳) 本稿では、(高次元)ユークリッドベクトル $v$ を、$t, s > 0$ が整数パラメータである次元 $(2t-1) s$ のベクトルに変換する、スパースでランダムなプロジェクションである古典的なCountSketchメソッドを再検討する。 たとえ$t=1$であっても、CountSketchは$v$の座標を$\|v\|_2^2/s$で有界で推定できる。 t > 1$の場合、見積もりは$t-1$の独立した見積もりの中央値を取り、見積もりが$t$で2 \|v\|_2/\sqrt{s}$以上オフになる確率は指数的に小さい。 これは、所望の逆失敗確率において対数として$t$を選択することを示唆する。 しかし、CountSketchの実装は小さな定数$t$を使うことが多い。 前の作業は、この設定で一定の要因の改善を予測します。 私たちの主な貢献は、$O(\min\{\|v\|_1^2/s^2,\|v\|_2^2/s\})$に対する分散性の改善を示すCount-Sketchの新しい分析である。 すなわち、分散は比例的に$s^{-2}$に減少し、漸近的に$s$となる。 また、2つのCountSketchesから内積を推定する設定におけるばらつきについても検討する。 この発見は、本質的にcountsketchと同一であるが、中央値推定器を使用しない特徴ハッシュ法は、中央値推定器の使用が可能な設定において、少ないコストでより信頼性を高めることができることを示唆している。 私たちは、実験における理論的発見を確認し、なぜ少数の見積もりが実際に十分であるのかを正当化します。 改良された分散境界は、i.d.の中央値の分散と高次モーメントに関する新しい一般定理に基づいている。 独立した関心を持つ可能性のあるランダム変数。

In this paper, we revisit the classic CountSketch method, which is a sparse, random projection that transforms a (high-dimensional) Euclidean vector $v$ to a vector of dimension $(2t-1) s$, where $t, s > 0$ are integer parameters. It is known that even for $t=1$, a CountSketch allows estimating coordinates of $v$ with variance bounded by $\|v\|_2^2/s$. For $t > 1$, the estimator takes the median of $2t-1$ independent estimates, and the probability that the estimate is off by more than $2 \|v\|_2/\sqrt{s}$ is exponentially small in $t$. This suggests choosing $t$ to be logarithmic in a desired inverse failure probability. However, implementations of CountSketch often use a small, constant $t$. Previous work only predicts a constant factor improvement in this setting. Our main contribution is a new analysis of Count-Sketch, showing an improvement in variance to $O(\min\{\|v\|_1^2/s^2,\|v\|_2^2/s\})$ when $t > 1$. That is, the variance decreases proportionally to $s^{-2}$, asymptotically for large enough $s$. We also study the variance in the setting where an inner product is to be estimated from two CountSketches. This finding suggests that the Feature Hashing method, which is essentially identical to CountSketch but does not make use of the median estimator, can be made more reliable at a small cost in settings where using a median estimator is possible. We confirm our theoretical findings in experiments and thereby help justify why a small constant number of estimates often suffice in practice. Our improved variance bounds are based on new general theorems about the variance and higher moments of the median of i.i.d. random variables that may be of independent interest.
翻訳日:2021-02-04 17:36:59 公開日:2021-02-03
# ドブルシン条件下でのIsingモデルのアウトリーヤ・ロバスト学習

Outlier-Robust Learning of Ising Models Under Dobrushin's Condition ( http://arxiv.org/abs/2102.02171v1 )

ライセンス: Link先を確認
Ilias Diakonikolas and Daniel M. Kane and Alistair Stewart and Yuxin Sun(参考訳) 本研究では,試料の一定割合が敵対的に破損している外乱設定において,ドブルシンの条件を満たす学習イジングモデルの問題について検討する。 私たちの主な結果は、最適に近いエラー保証でこの問題のための最初の計算効率の高い堅牢な学習アルゴリズムを提供することです。 我々のアルゴリズムは、一般指数族から分布を頑健に学習するアルゴリズムの特別な場合と見なすことができる。 イジングモデルの正しさを証明するため、独立な関心を持つかもしれないイジングモデルの次数 2$ の多項式に対する新しい反集中結果を確立する。

We study the problem of learning Ising models satisfying Dobrushin's condition in the outlier-robust setting where a constant fraction of the samples are adversarially corrupted. Our main result is to provide the first computationally efficient robust learning algorithm for this problem with near-optimal error guarantees. Our algorithm can be seen as a special case of an algorithm for robustly learning a distribution from a general exponential family. To prove its correctness for Ising models, we establish new anti-concentration results for degree-$2$ polynomials of Ising models that may be of independent interest.
翻訳日:2021-02-04 17:35:17 公開日:2021-02-03
# Slang生成のための計算フレームワーク

A Computational Framework for Slang Generation ( http://arxiv.org/abs/2102.01826v1 )

ライセンス: Link先を確認
Zhewei Sun, Richard Zemel, Yang Xu(参考訳) Slangは一般的な非公式言語であるが、その柔軟性とデータ資源の質は、既存の自然言語システムに課題をもたらす。 slangコンテキストにおける話者の単語選択をモデル化するフレームワークを開発することにより、slangのマシン生成に向けて最初の一歩を踏み出します。 本フレームワークは,構文的および文脈的知識をスラングの用法に取り入れつつ,単語の従来のスラング感覚とスラング感覚を関連付けることで,新しいスラング意味を符号化する。 確率的推論とニューラルネットワークのコントラスト学習を組み合わせたフレームワークを構築した。 3つのスラング辞書で厳密な評価を行い、私たちのアプローチは最先端の言語モデルを上回るだけでなく、1960年代から2000年代までのスラング語の使用法の歴史的出現をより良く予測することを示しています。 提案したモデルを解釈し,比較学習されたセマンティック空間は,スラングと従来の単語感覚の類似性に敏感であることを示す。 私たちの仕事は、非公式言語の自動生成と解釈の機会を生み出します。

Slang is a common type of informal language, but its flexible nature and paucity of data resources present challenges for existing natural language systems. We take an initial step toward machine generation of slang by developing a framework that models the speaker's word choice in slang context. Our framework encodes novel slang meaning by relating the conventional and slang senses of a word while incorporating syntactic and contextual knowledge in slang usage. We construct the framework using a combination of probabilistic inference and neural contrastive learning. We perform rigorous evaluations on three slang dictionaries and show that our approach not only outperforms state-of-the-art language models, but also better predicts the historical emergence of slang word usages from 1960s to 2000s. We interpret the proposed models and find that the contrastively learned semantic space is sensitive to the similarities between slang and conventional senses of words. Our work creates opportunities for the automated generation and interpretation of informal language.
翻訳日:2021-02-04 17:34:14 公開日:2021-02-03
# スキーマリンクとテキスト間SQL性能の検討

An Investigation Between Schema Linking and Text-to-SQL Performance ( http://arxiv.org/abs/2102.01847v1 )

ライセンス: Link先を確認
Yasufumi Taniguchi, Hiroki Nakayama, Kubo Takahiro, Jun Suzuki(参考訳) テキストからsqlへの変換は,自然言語をコンピュータで理解する上で重要な課題である。 最近のニューラルアプローチは優れたパフォーマンスを提供するが、解釈が難しいモデルは将来の発展を阻害する。 そこで本研究では,ニューラルネットワークの解釈に対するより良いアプローチを提案する。 我々は,スキーマリンクの詳細な性能をテキスト・トゥ・SQLパフォーマンスの付加情報として同時に特定した場合,手前のモデルの内部挙動を解析しやすくする仮説を立てた。 Spiderデータセットに情報をリンクするスキーマの基本的なアノテーションを提供します。 本稿では,アノテートデータの有用性と現状のニューラルモデルの解析方法について述べる。

Text-to-SQL is a crucial task toward developing methods for understanding natural language by computers. Recent neural approaches deliver excellent performance; however, models that are difficult to interpret inhibit future developments. Hence, this study aims to provide a better approach toward the interpretation of neural models. We hypothesize that the internal behavior of models at hand becomes much easier to analyze if we identify the detailed performance of schema linking simultaneously as the additional information of the text-to-SQL performance. We provide the ground-truth annotation of schema linking information onto the Spider dataset. We demonstrate the usefulness of the annotated data and how to analyze the current state-of-the-art neural models.
翻訳日:2021-02-04 17:33:36 公開日:2021-02-03
# HeBERT & HebEMO:ヘブライ語BERTモデルと極性分析と感情認識のためのツール

HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition ( http://arxiv.org/abs/2102.01909v1 )

ライセンス: Link先を確認
Avihay Chriqui, Inbal Yahav(参考訳) 異なる自然言語処理(NLP)タスク、特に感情分析のための変換器(BERT)モデルからの双方向エンコーダ表現の使用は、近年において非常に人気があり、無駄である。 ソーシャルメディアの利用は、常に増加傾向にある。 われわれの生活のあらゆる領域に対する影響はほとんど考えられない。 研究によると、ソーシャルメディアは人々が自分の考え、意見、感情を自由に表現する主要なツールの1つになっている。 現在のCovid-19パンデミックの間、意見や感情を共鳴させるツールとしてのソーシャルメディアの役割はさらに顕著になった。 本稿では,HeBERTとHebEMOを紹介する。 HeBERTは現代ヘブライ語テキストのトランスフォーマーベースのモデルである。 ヘブライ語はモルフォロジカルリッチ言語(MRL)と見なされ、適切なヘブライ語NLPモデルを開発する上で大きな課題となる独特の特徴を持つ。 BERTアーキテクチャの複数の仕様を分析し、既存のすべてのHebrew代替案を複数の言語タスクで上回る言語モデルを思いついた。 HebEMOは、HeBERTを使用して、ヘブライ語のユーザー生成コンテンツ(UGC)から極性を検出し、感情を抽出するツールです。 データ収集とアノテーションは、予測可能性の最大化を目的とした革新的な反復的な半監視プロセスに続きました。 HebEMOは極性分類のための重み付き平均F1スコア=0.96の性能を得た。 感情検出は「textit{surprise}」を除いて0.78-0.97のF1スコアに達した(F1 = 0.41)。 これらの結果は、英語と比較しても、最も報告されたパフォーマンスよりも優れている。

The use of Bidirectional Encoder Representations from Transformers (BERT) models for different natural language processing (NLP) tasks, and for sentiment analysis in particular, has become very popular in recent years and not in vain. The use of social media is being constantly on the rise. Its impact on all areas of our lives is almost inconceivable. Researches show that social media nowadays serves as one of the main tools where people freely express their ideas, opinions, and emotions. During the current Covid-19 pandemic, the role of social media as a tool to resonate opinions and emotions, became even more prominent. This paper introduces HeBERT and HebEMO. HeBERT is a transformer-based model for modern Hebrew text. Hebrew is considered a Morphological Rich Language (MRL), with unique characteristics that pose a great challenge in developing appropriate Hebrew NLP models. Analyzing multiple specifications of the BERT architecture, we come up with a language model that outperforms all existing Hebrew alternatives on multiple language tasks. HebEMO is a tool that uses HeBERT to detect polarity and extract emotions from Hebrew user-generated content (UGC), which was trained on a unique Covid-19 related dataset that we collected and annotated for this study. Data collection and annotation followed an innovative iterative semi-supervised process that aimed to maximize predictability. HebEMO yielded a high performance of weighted average F1-score = 0.96 for polarity classification. Emotion detection reached an F1-score of 0.78-0.97, with the exception of \textit{surprise}, which the model failed to capture (F1 = 0.41). These results are better than the best-reported performance, even when compared to the English language.
翻訳日:2021-02-04 17:33:06 公開日:2021-02-03
# マルチスケールネガティブサンプリングによる外部知識選択の学習

Learning to Select External Knowledge with Multi-Scale Negative Sampling ( http://arxiv.org/abs/2102.02096v1 )

ライセンス: Link先を確認
Huang He, Hua Lu, Siqi Bao, Fan Wang, Hua Wu, Zhengyu Niu, Haifeng Wang(参考訳) DSTC9のトラック1は、API/DBの範囲外のタスク指向の対話中に、ユーザーの要求や質問に効果的に答えることを目指しています。 外部のナレッジリソースを活用することで、関連する情報をAPI外のクエリのレスポンス生成に取得およびエンコードすることができる。 本研究では,外部知識の利用性向上と応答生成の質向上を目的として,スキーマ誘導型知識決定,否定的知識選択,知識基盤型応答生成など,いくつかの先進的手法を検討した。 提案手法の性能を評価するため,公開データセットを用いた総合的な実験を行った。 提案手法はdstc9トラック1のヒト評価において最良であった。

The Track-1 of DSTC9 aims to effectively answer user requests or questions during task-oriented dialogues, which are out of the scope of APIs/DB. By leveraging external knowledge resources, relevant information can be retrieved and encoded into the response generation for these out-of-API-coverage queries. In this work, we have explored several advanced techniques to enhance the utilization of external knowledge and boost the quality of response generation, including schema guided knowledge decision, negatives enhanced knowledge selection, and knowledge grounded response generation. To evaluate the performance of our proposed method, comprehensive experiments have been carried out on the publicly available dataset. Our approach was ranked as the best in human evaluation of DSTC9 Track-1.
翻訳日:2021-02-04 17:32:17 公開日:2021-02-03
# 数学的ステートメントと証明をマッチングする学習

Learning to Match Mathematical Statements with Proofs ( http://arxiv.org/abs/2102.02110v1 )

ライセンス: Link先を確認
Maximin Coavoux, Shay B. Cohen(参考訳) 与えられた数学的ステートメントに証明を割り当てることからなる新しいタスクを導入する。 このタスクは、研究レベルの数学的テキストの処理を改善するために設計されている。 自然言語処理(NLP)ツールを研究レベルの数学的記事に適用することは、自然言語と数学的公式を混合する非常に専門性の高い領域であるため、どちらも困難です。 また、数学的情報検索とコンピュータ支援定理証明のためのツールを開発するための重要な要件である。 数学的研究論文から抽出した180k以上の文対からなるタスク用データセットを作成した。 我々は課題の難易度を評価する予備実験を行う。 まず2つの単語のベースラインを実験した。 課題をグローバルに検討し,重み付き二部マッチングアルゴリズムを用いることで,課題に対処できることが示唆された。 最後に,ローカルあるいはグローバルにトレーニング可能な自己追跡ベースのモデルを導入し,ベースラインを高いマージンで上回ります。

We introduce a novel task consisting in assigning a proof to a given mathematical statement. The task is designed to improve the processing of research-level mathematical texts. Applying Natural Language Processing (NLP) tools to research level mathematical articles is both challenging, since it is a highly specialized domain which mixes natural language and mathematical formulae. It is also an important requirement for developing tools for mathematical information retrieval and computer-assisted theorem proving. We release a dataset for the task, consisting of over 180k statement-proof pairs extracted from mathematical research articles. We carry out preliminary experiments to assess the difficulty of the task. We first experiment with two bag-of-words baselines. We show that considering the assignment problem globally and using weighted bipartite matching algorithms helps a lot in tackling the task. Finally, we introduce a self-attention-based model that can be trained either locally or globally and outperforms baselines by a wide margin.
翻訳日:2021-02-04 17:31:43 公開日:2021-02-03
# 単語初期位置における曖昧な信号はより強い

Disambiguatory Signals are Stronger in Word-initial Positions ( http://arxiv.org/abs/2102.02183v1 )

ライセンス: Link先を確認
Tiago Pimentel, Ryan Cotterell, Brian Roark(参考訳) 人間の単語処理と語彙アクセスに関する心理学的な研究は、例えば、聞き手(より大きい)の注意や話者(より低い)による還元の可能性といった、単語初期と単語最終セグメントの好ましい性質についての十分な証拠を提供する。 これは、Wedel et alのように、予想につながりました。 (2019b) 言語が遅かれ早かれ多くの情報を提供するよう進化してきたことは、他の場所では一般的である。 このような辞書の傾向を確立する情報理論的手法は、この高い単語初性が実際に辞書の性質であるか、あるいは単に認識の段階的な性質のアーティファクトであるかという疑問を解き放ついくつかの方法論的欠点に苦しんでいる。 本稿では,単語の初期段階と単語の後半におけるセグメントの情報度を比較する既存手法の問題点を指摘し,これらの欠点を避けるためのいくつかの新しい手段を提案する。 これらの混乱のために制御するとき、我々はまだ言葉で情報をフロントロードするクロス言語的傾向がある何百もの言語にまたがる証拠を見つけます。

Psycholinguistic studies of human word processing and lexical access provide ample evidence of the preferred nature of word-initial versus word-final segments, e.g., in terms of attention paid by listeners (greater) or the likelihood of reduction by speakers (lower). This has led to the conjecture -- as in Wedel et al. (2019b), but common elsewhere -- that languages have evolved to provide more information earlier in words than later. Information-theoreti c methods to establish such tendencies in lexicons have suffered from several methodological shortcomings that leave open the question of whether this high word-initial informativeness is actually a property of the lexicon or simply an artefact of the incremental nature of recognition. In this paper, we point out the confounds in existing methods for comparing the informativeness of segments early in the word versus later in the word, and present several new measures that avoid these confounds. When controlling for these confounds, we still find evidence across hundreds of languages that indeed there is a cross-linguistic tendency to front-load information in words.
翻訳日:2021-02-04 17:31:10 公開日:2021-02-03
# DiSCoL:会話線誘導応答生成による対話システムの拡張に向けて

DiSCoL: Toward Engaging Dialogue Systems through Conversational Line Guided Response Generation ( http://arxiv.org/abs/2102.02191v1 )

ライセンス: Link先を確認
Sarik Ghazarian, Zixi Liu, Tuhin Chakrabarty, Xuezhe Ma, Aram Galstyan, and Nanyun Peng(参考訳) ユーザとのエンゲージメントとインフォメーションを持った会話は、オープンドメインの会話システムにとって最大の目標です。 トランスフォーマティブ言語モデルの最近の進歩と対話システムへの応用は, フルーエントかつヒューマンライクな応答の生成に成功している。 しかし、彼らは、満足のいく反応を生み出し、活発な会話を達成するための生成プロセスの制御をいまだに欠いている。 この目標を達成するために、 \textbf{DiSCoL} (\textbf{Di}alogue \textbf{S}ystems through \textbf{Co}versational \textbf{L}ine guideed response generation) を提示する。 discolは、対話的線(briefly \textbf{convlines})を制御可能かつ情報的コンテンツ計画要素として活用するオープンドメイン対話システムである。 DiSCoLのパイプラインの2つの主要なモジュールは、1)対話コンテキストの関連性および有益なconvlinesを予測するために訓練された条件付きジェネレータと2)予測されたconvlinesに基づいて調整された高品質のレスポンスを生成する。 ユーザーは、返されたconvlinesを、より興味深いトピックに向けた会話の方向を \textit{control} に変更することもできます。 自動評価と人間評価により,会話の対話生成におけるコンボラインの効率性を示す。

Having engaging and informative conversations with users is the utmost goal for open-domain conversational systems. Recent advances in transformer-based language models and their applications to dialogue systems have succeeded to generate fluent and human-like responses. However, they still lack control over the generation process towards producing contentful responses and achieving engaging conversations. To achieve this goal, we present \textbf{DiSCoL} (\textbf{Di}alogue \textbf{S}ystems through \textbf{Co}versational \textbf{L}ine guided response generation). DiSCoL is an open-domain dialogue system that leverages conversational lines (briefly \textbf{convlines}) as controllable and informative content-planning elements to guide the generation model produce engaging and informative responses. Two primary modules in DiSCoL's pipeline are conditional generators trained for 1) predicting relevant and informative convlines for dialogue contexts and 2) generating high-quality responses conditioned on the predicted convlines. Users can also change the returned convlines to \textit{control} the direction of the conversations towards topics that are more interesting for them. Through automatic and human evaluations, we demonstrate the efficiency of the convlines in producing engaging conversations.
翻訳日:2021-02-04 17:30:26 公開日:2021-02-03
# 科学出版物における画像操作の学習

Learning to identify image manipulations in scientific publications ( http://arxiv.org/abs/2102.01874v1 )

ライセンス: Link先を確認
Ghazal Mazaheri, Kevin Urrutia Avila, Amit K. Roy-Chowdhury(参考訳) 科学コミュニティ標準の遵守は、客観性、明確性、再現性を確保し、バイアス、製造、偽造、盗作を防ぐのに役立つ。 科学的完全性(scientific integrity)の役員や、研究者がこれらの基準に固執するならば、学術論文における最も頻繁な操作の1つとして重複を検出するための確固たる手順を持つことが重要である。 科学論文のイメージは、実験的な記述と発見の議論を支援するために使用される。 そこで本研究では,論文の最も重要な部分のひとつとして,画像中の重複を検出することに焦点を当てた。 本稿では,画像処理と深層学習を組み合わせることで,論文中の画像を重複あるいは非重複と分類する枠組みを提案する。 本手法は重複画像の検出精度を90%向上させ,他の操作検出法と比較して検出精度が約13%向上することを示す。 また,本手法を,これらのステップを欠いた他の最先端操作検出器と比較することにより,前処理ステップがいかに効果的かを示す。

Adherence to scientific community standards ensures objectivity, clarity, reproducibility, and helps prevent bias, fabrication, falsification, and plagiarism. To help scientific integrity officers and journal/publisher reviewers monitor if researchers stick with these standards, it is important to have a solid procedure to detect duplication as one of the most frequent types of manipulation in scientific papers. Images in scientific papers are used to support the experimental description and the discussion of the findings. Therefore, in this work we focus on detecting the duplications in images as one of the most important parts of a scientific paper. We propose a framework that combines image processing and deep learning methods to classify images in the articles as duplicated or unduplicated ones. We show that our method leads to a 90% accuracy rate of detecting duplicated images, a ~ 13% improvement in detection accuracy in comparison to other manipulation detection methods. We also show how effective the pre-processing steps are by comparing our method to other state-of-art manipulation detectors which lack these steps.
翻訳日:2021-02-04 17:29:40 公開日:2021-02-03
# ランダム有限集合フレームワークにおける欠陥異常検出のための点パターン特性の評価

Evaluation of Point Pattern Features for Anomaly Detection of Defect within Random Finite Set Framework ( http://arxiv.org/abs/2102.01882v1 )

ライセンス: Link先を確認
Ammar Mansoor Kamoona, Amirali Khodadadian Gostar, Alireza Bab-Hadiashar, Reza Hoseinnezhad(参考訳) 製造業界の欠陥検出は製品品質検査において極めて重要である。 近年,様々な深層学習手法を用いた異常検出として光学的欠陥検出が研究されている。 しかし、近年の研究では、最近開発されたセットベース手法を用いた異常検出のためのsiftなど、ポイントパターン機能の使用は検討されていない。 本稿では、欠陥検出アプリケーションのための異なる点パターン特徴検出器とディスクリプタの評価について述べる。 評価はランダム有限集合フレームワーク内で実行される。 この評価には、SIFTなどの手づくりのポイントパターンの特徴と深い特徴が用いられます。 ランダムな有限集合に基づく欠陥検出を最先端異常検出法と比較する。 その結果、SIFTなどの点パターンを乱有限集合に基づく異常検出のデータポイントとして用いることにより、MVTec-ADデータセット上で最も一貫した欠陥検出精度が得られることがわかった。

Defect detection in the manufacturing industry is of utmost importance for product quality inspection. Recently, optical defect detection has been investigated as an anomaly detection using different deep learning methods. However, the recent works do not explore the use of point pattern features, such as SIFT for anomaly detection using the recently developed set-based methods. In this paper, we present an evaluation of different point pattern feature detectors and descriptors for defect detection application. The evaluation is performed within the random finite set framework. Handcrafted point pattern features, such as SIFT as well as deep features are used in this evaluation. Random finite set-based defect detection is compared with state-of-the-arts anomaly detection methods. The results show that using point pattern features, such as SIFT as data points for random finite set-based anomaly detection achieves the most consistent defect detection accuracy on the MVTec-AD dataset.
翻訳日:2021-02-04 17:28:59 公開日:2021-02-03
# 正しい画像領域で質問に答える:視覚的注意の正規化アプローチ

Answer Questions with Right Image Regions: A Visual Attention Regularization Approach ( http://arxiv.org/abs/2102.01916v1 )

ライセンス: Link先を確認
Yibing Liu, Yangyang Guo, Jianhua Yin, Xuemeng Song, Weifeng Liu, Liqiang Nie(参考訳) VQA(Visual Question Answering)の視覚的注意は、回答予測に関する適切な画像領域の特定を目標とする。 しかし、近年の研究では、視覚的注意からの強調画像領域は、しばしば与えられた質問や回答とは無関係であり、正しい視覚的推論のためのモデル混乱をもたらすことが指摘されている。 この問題に対処するため、既存の手法は主に視覚的注意重みと人間の注意を一致させることに頼っている。 それでも、このような人的データの収集は手間とコストがかかり、データセットにまたがって十分に開発されたモデルを適用するのに負担がかかる。 そこで本論文では,VQAの視覚的基礎化を改善するために,新しい視覚的注意規則化手法であるAttRegを考案した。 特に、AttRegは、まず、バックボーンモデルによって、疑問応答に不可欠な画像領域を予期せず無視する(すなわち、低い注意重みが割り当てられる)。 そして、マスク誘導学習方式を利用して視覚的注意を規則化し、これらの無視された鍵領域に集中する。 提案手法は非常に柔軟でモデル非依存であり,視覚注意に基づくvqaモデルと統合でき,人間の注意の監視を必要としない。 VQA-CP v2、VQA-CP v1、VQA v2の3つのベンチマークデータセットに関する広範な実験が行われ、AttRegの有効性が評価された。 副産物として、強力なベースラインLMHにAttRegを組み込むことで、VQA-CP v2ベンチマークデータセットで6.93%の絶対的なパフォーマンス向上と59.92%の新しい最先端精度を実現することができる。 有効性検証に加えて,VQAにおける視覚的注意の忠実さが文献でよく研究されていないことも認識している。 そこで本研究では,視覚的注意の性質を実証的に検証し,一般的な勾配に基づくアプローチと比較する。

Visual attention in Visual Question Answering (VQA) targets at locating the right image regions regarding the answer prediction. However, recent studies have pointed out that the highlighted image regions from the visual attention are often irrelevant to the given question and answer, leading to model confusion for correct visual reasoning. To tackle this problem, existing methods mostly resort to aligning the visual attention weights with human attentions. Nevertheless, gathering such human data is laborious and expensive, making it burdensome to adapt well-developed models across datasets. To address this issue, in this paper, we devise a novel visual attention regularization approach, namely AttReg, for better visual grounding in VQA. Specifically, AttReg firstly identifies the image regions which are essential for question answering yet unexpectedly ignored (i.e., assigned with low attention weights) by the backbone model. And then a mask-guided learning scheme is leveraged to regularize the visual attention to focus more on these ignored key regions. The proposed method is very flexible and model-agnostic, which can be integrated into most visual attention-based VQA models and require no human attention supervision. Extensive experiments over three benchmark datasets, i.e., VQA-CP v2, VQA-CP v1, and VQA v2, have been conducted to evaluate the effectiveness of AttReg. As a by-product, when incorporating AttReg into the strong baseline LMH, our approach can achieve a new state-of-the-art accuracy of 59.92% with an absolute performance gain of 6.93% on the VQA-CP v2 benchmark dataset. In addition to the effectiveness validation, we recognize that the faithfulness of the visual attention in VQA has not been well explored in literature. In the light of this, we propose to empirically validate such property of visual attention and compare it with the prevalent gradient-based approaches.
翻訳日:2021-02-04 17:28:28 公開日:2021-02-03
# 厳密混合サンプルによるポイントクラウドの正規化戦略

Regularization Strategy for Point Cloud via Rigidly Mixed Sample ( http://arxiv.org/abs/2102.01929v1 )

ライセンス: Link先を確認
Dogyoon Lee, Jaeha Lee, Junhyeop Lee, Hyeongmin Lee, Minhyeok Lee, Sungmin Woo, and Sangyoun Lee(参考訳) データ拡張は、ディープニューラルネットワークの固有の欠点であるオーバーフィッティングを軽減する効果的な正規化戦略である。 しかし,画像データの様々な拡張手法が提案されているにもかかわらず,ポイントクラウド処理ではデータ拡張が考慮されることは稀である。 実際、小さなデータセットのため、ポイントクラウドでは汎用性の欠如がより起こりやすいため、ポイントクラウドには正規化が不可欠である。 本稿では,そのサンプルの一部を他のサンプルから形状保存されたサブセットに置き換え,仮想混合サンプルを生成する点群のための新しいデータ拡張法であるhardid subset mix (rsmix)を提案する。 RSMixは、隣接する関数を用いて各サンプルからサブセットを変形せずに抽出することにより、点雲サンプルの構造情報を保存する。 隣接する関数は、ポイントクラウド、非順序構造、非グリッドのユニークな性質を考慮して慎重に設計されている。 実験の結果、RSMixは深部ニューラルネットワークの正規化に成功し、形状分類が大幅に改善された。 また,大量のアブレーション研究に基づいて,rsmixとsingle およびmulti-view 評価を含む様々なデータ拡張の組み合わせを分析した。

Data augmentation is an effective regularization strategy to alleviate the overfitting, which is an inherent drawback of the deep neural networks. However, data augmentation is rarely considered for point cloud processing despite many studies proposing various augmentation methods for image data. Actually, regularization is essential for point clouds since lack of generality is more likely to occur in point cloud due to small datasets. This paper proposes a Rigid Subset Mix (RSMix), a novel data augmentation method for point clouds that generates a virtual mixed sample by replacing part of the sample with shape-preserved subsets from another sample. RSMix preserves structural information of the point cloud sample by extracting subsets from each sample without deformation using a neighboring function. The neighboring function was carefully designed considering unique properties of point cloud, unordered structure and non-grid. Experiments verified that RSMix successfully regularized the deep neural networks with remarkable improvement for shape classification. We also analyzed various combinations of data augmentations including RSMix with single and multi-view evaluations, based on abundant ablation studies.
翻訳日:2021-02-04 17:27:29 公開日:2021-02-03
# 構成ゼロショット学習のための学習グラフ埋め込み

Learning Graph Embeddings for Compositional Zero-shot Learning ( http://arxiv.org/abs/2102.01987v1 )

ライセンス: Link先を確認
Muhammad Ferjad Naeem, Yongqin Xian, Federico Tombari, Zeynep Akata(参考訳) 作曲ゼロショット学習の目標は、目に見えない構成(例えば)を認識することである。 老犬) 観察された視覚原始状態(例) 古くてかわいい)とオブジェクト(例えば、) 車、犬) トレーニングセットで。 これは、例えば同じ状態が犬の視覚的外観を車と劇的に異なる変更することができるため、挑戦的です。 解法として,画像特徴,構成分類器,視覚的プリミティブの潜在表現をエンドツーエンドで学習する,コンポジショングラフ埋め込み(Compositional Graph Embedding, CGE)と呼ばれる新しいグラフ定式化を提案する。 私たちのアプローチの鍵は、状態、オブジェクト、およびグラフ構造内のそれらの構成間の依存関係を利用して、関連する知識転送を目に見えない構成に強制することです。 概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。 難易度の高い構成ゼロショット設定において,我々のcgeはmit-states と ut-zappos の最先端技術を大きく上回っている。 また、最近のGQAデータセットに基づいて、このタスクの新しいベンチマークを提案する。

In compositional zero-shot learning, the goal is to recognize unseen compositions (e.g. old dog) of observed visual primitives states (e.g. old, cute) and objects (e.g. car, dog) in the training set. This is challenging because the same state can for example alter the visual appearance of a dog drastically differently from a car. As a solution, we propose a novel graph formulation called Compositional Graph Embedding (CGE) that learns image features, compositional classifiers, and latent representations of visual primitives in an end-to-end manner. The key to our approach is exploiting the dependency between states, objects, and their compositions within a graph structure to enforce the relevant knowledge transfer from seen to unseen compositions. By learning a joint compatibility that encodes semantics between concepts, our model allows for generalization to unseen compositions without relying on an external knowledge base like WordNet. We show that in the challenging generalized compositional zero-shot setting our CGE significantly outperforms the state of the art on MIT-States and UT-Zappos. We also propose a new benchmark for this task based on the recent GQA dataset.
翻訳日:2021-02-04 17:26:51 公開日:2021-02-03
# 低レベルビジョンのための一般化機能

A generalised feature for low level vision ( http://arxiv.org/abs/2102.02000v1 )

ライセンス: Link先を確認
Dr David Sinclair and Dr Christopher Town(参考訳) 本稿では、エッジ検出器、MSERスタイル領域検出器およびコーナー検出器の両方のロールを仮定する新しい量子変換(シンクレア・タウ変換またはST変換)を提案する。 この変換は$unsharp$変換に似ているが、局所平均との差は3値(ダークニュートラル光)に量子化される。 この変換は自然に適切な局所的スケールの定義に繋がる。 変換された画像から形状特徴を抽出する一連の方法を示す。 一般化された特徴は、画像間の対応を確立するための堅牢な基盤を提供する。 この変換は、より短いスケールまたは指向する局所的特徴を好むために、マルチスケールおよび非対称要素を含むより複雑なカーネルの振る舞いを容易に受け入れる。

This papers presents a novel quantised transform (the Sinclair-Town or ST transform for short) that subsumes the rolls of both edge-detector, MSER style region detector and corner detector. The transform is similar to the $unsharp$ transform but the difference from the local mean is quantised to 3 values (dark-neutral-light) . The transform naturally leads to the definition of an appropriate local scale. A range of methods for extracting shape features form the transformed image are presented. The generalized feature provides a robust basis for establishing correspondence between images. The transform readily admits more complicated kernel behaviour including multi-scale and asymmetric elements to prefer shorter scale or oriented local features.
翻訳日:2021-02-04 17:26:12 公開日:2021-02-03
# 合成画像を用いた熱画像中のロバスト歩行者検出

Robust pedestrian detection in thermal imagery using synthesized images ( http://arxiv.org/abs/2102.02005v1 )

ライセンス: Link先を確認
My Kieu, Lorenzo Berlincioni, Leonardo Galteri, Marco Bertini, Andrew D. Bagdanov, Alberto Del Bimbo(参考訳) 本論文では,熱領域における歩行者検出を改善する方法として,第1段階では,生成データを用いた領域適応手法を用いて,RGB歩行者検出器を適応させる手法を提案する。 我々のモデルは,Last-Squares Generative Adversarial Networkをベースとして,入力されたRGB画像のリアルな熱バージョンを合成し,ラベル付き熱歩行者画像の限られた量をトレーニングに用いるように訓練されている。 我々は,前訓練されたyolov3歩行者検出器を熱のみ領域に適応させるために,生成的データ拡張戦略を適用する。 実験により,本手法の有効性が示された: 実測熱データのうち50%未満を使用でき, ドメイン適応段階でモデルによって生成された合成データに頼って, KAISTマルチスペクトルペデストリアン検出ベンチマークにおいて, 実測熱データが利用可能であっても, GAN 生成した画像がトレーニングデータに付加されて, 性能が向上し, これらの画像がデータ拡張の有効な形態として機能することを示す。 我々の知る限り、我々の検出器は、最先端技術に関して、KAIST上で最高の単一モダリティ検出結果を達成する。

In this paper we propose a method for improving pedestrian detection in the thermal domain using two stages: first, a generative data augmentation approach is used, then a domain adaptation method using generated data adapts an RGB pedestrian detector. Our model, based on the Least-Squares Generative Adversarial Network, is trained to synthesize realistic thermal versions of input RGB images which are then used to augment the limited amount of labeled thermal pedestrian images available for training. We apply our generative data augmentation strategy in order to adapt a pretrained YOLOv3 pedestrian detector to detection in the thermal-only domain. Experimental results demonstrate the effectiveness of our approach: using less than 50\% of available real thermal training data, and relying on synthesized data generated by our model in the domain adaptation phase, our detector achieves state-of-the-art results on the KAIST Multispectral Pedestrian Detection Benchmark; even if more real thermal data is available adding GAN generated images to the training data results in improved performance, thus showing that these images act as an effective form of data augmentation. To the best of our knowledge, our detector achieves the best single-modality detection results on KAIST with respect to the state-of-the-art.
翻訳日:2021-02-04 17:25:39 公開日:2021-02-03
# 肝癌予測における臨界危険因子の検討

Investigating Critical Risk Factors in Liver Cancer Prediction ( http://arxiv.org/abs/2102.02088v1 )

ライセンス: Link先を確認
Jinpeng Li, Yaling Tao, Ting Cai(参考訳) 2014年から現在までの5万5千人以上の疫学的データに基づく機械学習アルゴリズムを用いた肝癌予測モデルを活用します。 最高のパフォーマンスはAUC 0.71である。 モデルパラメータを分析し,予測に最も寄与する危険因子について検討した。

We exploit liver cancer prediction model using machine learning algorithms based on epidemiological data of over 55 thousand peoples from 2014 to the present. The best performance is an AUC of 0.71. We analyzed model parameters to investigate critical risk factors that contribute the most to prediction.
翻訳日:2021-02-04 17:24:25 公開日:2021-02-03
# 医療提供者及び患者に対する適切な計算支援を提示しない共有医療意思決定の倫理的意味

The Ethical Implications of Shared Medical Decision Making without Providing Adequate Computational Support to the Care Provider and to the Patient ( http://arxiv.org/abs/2102.01811v1 )

ライセンス: Link先を確認
Yuval Shahar(参考訳) 医療決定に患者を巻き込む明確な必要性があります。 しかし、認知心理学研究は、人間の1.1に対する認知的限界を強調している。 患者状態の確率的評価と様々な意思決定の結果の可能性, 2。 患者のユーティリティ機能の消去、および3。 最適な戦略を決定するための確率的知識と患者の好みの統合。 したがって、適切な計算支援がなければ、現在の共有決定モデルは重大な倫理的欠陥を有する。 情報化された同意モデルは、必要な知識や統合能力を持たない患者に責任を不当に譲渡します。 患者好みを意識していないかもしれない医師が誇張された力を持つ父性モデル内耳は、複数の認知バイアスを起こし、計算統合能力が境界づけられる。 人工知能の最近の進歩は、第3のエージェントを追加することを示唆している: コンピュータ、あらゆる審議的な医療判断: 複数の選択肢が存在する非緊急医学的決定において、患者の好みが引き起こされ、治療的な選択肢がこれらの選好に影響され、医学的な知識が決定結果の可能性を考慮し、十分な意思決定時間が存在する。 倫理医は、計算決定支援技術を利用して、単独で決定したり、義務を隠したり、通知された同意の名前で患者に責任を移したりするべきではない。 私たちが提案する3つの方法(患者、介護提供者、コンピュータ)のヒューマンマシンモデルは、患者の好み、医師の知識、両方の側面の計算統合を強調し、医師の役割を低下させるのではなく、人間と機械で最高のものを引き出す。

There is a clear need to involve patients in medical decisions. However, cognitive psychological research has highlighted the cognitive limitations of humans with respect to 1. Probabilistic assessment of the patient state and of potential outcomes of various decisions, 2. Elicitation of the patient utility function, and 3. Integration of the probabilistic knowledge and of patient preferences to determine the optimal strategy. Therefore, without adequate computational support, current shared decision models have severe ethical deficiencies. An informed consent model unfairly transfers the responsibility to a patient who does not have the necessary knowledge, nor the integration capability. A paternalistic model endows with exaggerated power a physician who might not be aware of the patient preferences, is prone to multiple cognitive biases, and whose computational integration capability is bounded. Recent progress in Artificial Intelligence suggests adding a third agent: a computer, in all deliberative medical decisions: Non emergency medical decisions in which more than one alternative exists, the patient preferences can be elicited, the therapeutic alternatives might be influenced by these preferences, medical knowledge exists regarding the likelihood of the decision outcomes, and there is sufficient decision time. Ethical physicians should exploit computational decision support technologies, neither making the decisions solely on their own, nor shirking their duty and shifting the responsibility to patients in the name of informed consent. The resulting three way (patient, care provider, computer) human machine model that we suggest emphasizes the patient preferences, the physician knowledge, and the computational integration of both aspects, does not diminish the physician role, but rather brings out the best in human and machine.
翻訳日:2021-02-04 17:21:04 公開日:2021-02-03
# では、私たちは何を見るのか? 心理語彙的アプローチによる音声インタフェースのパートナーモデルの次元同定

What Do We See in Them? Identifying Dimensions of Partner Models for Speech Interfaces Using a Psycholexical Approach ( http://arxiv.org/abs/2102.02094v1 )

ライセンス: Link先を確認
Philip R Doyle, Leigh Clark and Benjamin R Cowan(参考訳) パートナーモデルと呼ばれるシステム能力とコミュニケーション能力の知覚は、音声インタフェースの相互作用において重要な役割を果たす。 しかし、この概念のコア寸法が何であるかはわかりません。 本論文は、音声エージェントの相互作用におけるパートナーモデルを定義する重要な寸法を特定するための最初のアプローチである。 主観的質問紙調査 (n=21) , 主観的質問紙調査, 得られた単語対のエキスパートレビュー, 356名の音声インタフェース使用者のオンライン調査を通じて, ユーザのパートナーモデルを構成する3つの重要な次元, 1) 能力と能力に対する認識, 2) 人間の類似性の評価, 3) システムの認知的柔軟性を同定した。 パートナーモデリングのコンセプトとしての意義を論じ,サリエンスの重要性とこれらの知覚のダイナミックな性質を強調した。

Perceptions of system competence and communicative ability, termed partner models, play a significant role in speech interface interaction. Yet we do not know what the core dimensions of this concept are. Taking a psycholexical approach, our paper is the first to identify the key dimensions that define partner models in speech agent interaction. Through a repertory grid study (N=21), a review of key subjective questionnaires, an expert review of resulting word pairs and an online study of 356 user of speech interfaces, we identify three key dimensions that make up a users' partner model: 1) perceptions toward competence and capability; 2) assessment of human-likeness; and 3) a system's perceived cognitive flexibility. We discuss the implications for partner modelling as a concept, emphasising the importance of salience and the dynamic nature of these perceptions.
翻訳日:2021-02-04 17:20:16 公開日:2021-02-03
# UPHDR-GAN:不対データを用いた高ダイナミックレンジイメージングのためのジェネレーティブ・アドバーサリー・ネットワーク

UPHDR-GAN: Generative Adversarial Network for High Dynamic Range Imaging with Unpaired Data ( http://arxiv.org/abs/2102.01850v1 )

ライセンス: Link先を確認
Ru Li, Chuan Wang, Shuaicheng Liu, Jue Wang, Guanghui Liu, Bing Zeng(参考訳) 本稿では,マルチ露光入力を効果的に融合し,未ペアデータセットを用いた高品質高ダイナミックレンジ(HDR)画像を生成する手法を提案する。 ディープラーニングベースのHDR画像生成方法は、ペアデータセットに大きく依存します。 地上の真実は、ゴーストなしでHDR画像を取得するネットワークのための情報を提供します。 根拠のないデータセットは、ディープニューラルネットワークのトレーニングには適用しにくい。 近年、GAN (Generative Adversarial Networks) は、ペアの例がない場合に、ソースドメインXからターゲットドメインYに画像を変換する可能性を実証している。 本稿では,この問題を解決するために,UPHDR-GANという,楽しいHDR結果を生成しながらGANベースのネットワークを提案する。 提案手法は、ペアデータセットの制約を緩和し、LDRドメインからHDRドメインへのマッピングを学ぶ。 ペアデータは欠落していますが、変更されたGAN損失、改善された識別ネットワーク、および有用な初期化フェーズの助けを借りて、オブジェクトまたは不整合の移動によって引き起こされるゴーストアーティファクトを適切に処理できます。 提案手法では,重要領域の詳細を保存し,全体の画像知覚品質を向上させる。 他の方法との質的および定量的比較は、この方法の優位性を示した。

The paper proposes a method to effectively fuse multi-exposure inputs and generates high-quality high dynamic range (HDR) images with unpaired datasets. Deep learning-based HDR image generation methods rely heavily on paired datasets. The ground truth provides information for the network getting HDR images without ghosting. Datasets without ground truth are hard to apply to train deep neural networks. Recently, Generative Adversarial Networks (GAN) have demonstrated their potentials of translating images from source domain X to target domain Y in the absence of paired examples. In this paper, we propose a GAN-based network for solving such problems while generating enjoyable HDR results, named UPHDR-GAN. The proposed method relaxes the constraint of paired dataset and learns the mapping from LDR domain to HDR domain. Although the pair data are missing, UPHDR-GAN can properly handle the ghosting artifacts caused by moving objects or misalignments with the help of modified GAN loss, improved discriminator network and useful initialization phase. The proposed method preserves the details of important regions and improves the total image perceptual quality. Qualitative and quantitative comparisons against other methods demonstrated the superiority of our method.
翻訳日:2021-02-04 17:18:21 公開日:2021-02-03
# haar様特徴と統計的学習を用いた1秒1000個の瞳孔分割

1000 Pupil Segmentations in a Second using Haar Like Features and Statistical Learning ( http://arxiv.org/abs/2102.01921v1 )

ライセンス: Link先を確認
Wolfgang Fuhl(参考訳) 本稿では,瞳孔分割に対する新しいアプローチを提案する。 これは非常に効率的に計算・訓練することができ、高速アイトラッカーのオンライン利用や、モバイルアイトラッキングにおける瞳孔検出の省エネに最適である。 この手法はBOREアルゴリズムとCBFアルゴリズムにインスパイアされ、Haar機能によるバイナリ比較を一般化する。 これらの特徴は内在的にノイズやゆらぎのある光条件に非常に敏感であるため、条件付き瞳孔形状の確率と組み合わせる。 また,各特徴を,瞳孔形状決定における重要度に応じてランク付けする。 この方法のもう1つの利点は、非常に効率的でオンラインでも利用できる統計学習の利用である。 https://atreus.infor matik.uni-tuebingen. de/seafile/d/8e2ab8c 3fdd444e1a135/?p=%2FStatsPupil&mode=list

In this paper we present a new approach for pupil segmentation. It can be computed and trained very efficiently, making it ideal for online use for high speed eye trackers as well as for energy saving pupil detection in mobile eye tracking. The approach is inspired by the BORE and CBF algorithms and generalizes the binary comparison by Haar features. Since these features are intrinsically very susceptible to noise and fluctuating light conditions, we combine them with conditional pupil shape probabilities. In addition, we also rank each feature according to its importance in determining the pupil shape. Another advantage of our method is the use of statistical learning, which is very efficient and can even be used online. https://atreus.infor matik.uni-tuebingen. de/seafile/d/8e2ab8c 3fdd444e1a135/?p=%2FStatsPupil&mode=list
翻訳日:2021-02-04 17:17:39 公開日:2021-02-03
# 定量的ct画像における大腿骨近位部および内膜輪郭の深部学習に基づく抽出法

A Deep Learning-Based Approach to Extracting Periosteal and Endosteal Contours of Proximal Femur in Quantitative CT Images ( http://arxiv.org/abs/2102.01990v1 )

ライセンス: Link先を確認
Yu Deng, Ling Wang, Chen Zhao, Shaojie Tang, Xiaoguang Cheng, Hong-Wen Deng, Weihua Zhou(参考訳) 整形外科疾患の診断とリスク層化には, 大腿骨近位部の自動CTセグメンテーションが重要であるが, 現在では, 手動の対話的セグメンテーションが中心であり, 精度と再現性に限界がある。 そこで本研究では,大腿骨近位部の骨膜および骨内輪郭の自動抽出法として,深層学習に基づくアプローチを提案する。 3次元(3次元)のエンドツーエンドの完全畳み込みニューラルネットワークは,隣接スライス間の情報をよりよく結合し,より正確なセグメンテーション結果を得ることができる。 対象は50歳から87歳までの100例で, 大腿骨近位部CT像は24,399スライスであった。 QCTソフトウェアMIAF-Femurから派生した皮質骨とトラベキュラー骨の分離をセグメンテーションリファレンスとして使用しました。 データセット全体を10倍のクロスバリデーションのための85項目のトレーニングセットと,モデルの性能評価のための15項目のテストセットにランダムに分割した。 同じネットワーク構造を持つ2つのモデルが訓練され、それぞれ周骨および内骨輪郭に対して97.87%および96.49%のダイス類似係数(DSC)を達成した。 大腿骨セグメンテーションモデルの優れた性能を検証するために,大腿骨の異なる部位の体積を測定し,基底真理と比較し,予測結果と基底真偽の相対誤差は5%以下であった。 股関節骨折のリスク予測や有限要素分析など,臨床応用への強力な可能性を示した。

Automatic CT segmentation of proximal femur is crucial for the diagnosis and risk stratification of orthopedic diseases; however, current methods for the femur CT segmentation mainly rely on manual interactive segmentation, which is time-consuming and has limitations in both accuracy and reproducibility. In this study, we proposed an approach based on deep learning for the automatic extraction of the periosteal and endosteal contours of proximal femur in order to differentiate cortical and trabecular bone compartments. A three-dimensional (3D) end-to-end fully convolutional neural network, which can better combine the information between neighbor slices and get more accurate segmentation results, was developed for our segmentation task. 100 subjects aged from 50 to 87 years with 24,399 slices of proximal femur CT images were enrolled in this study. The separation of cortical and trabecular bone derived from the QCT software MIAF-Femur was used as the segmentation reference. We randomly divided the whole dataset into a training set with 85 subjects for 10-fold cross-validation and a test set with 15 subjects for evaluating the performance of models. Two models with the same network structures were trained and they achieved a dice similarity coefficient (DSC) of 97.87% and 96.49% for the periosteal and endosteal contours, respectively. To verify the excellent performance of our model for femoral segmentation, we measured the volume of different parts of the femur and compared it with the ground truth and the relative errors between predicted result and ground truth are all less than 5%. It demonstrated a strong potential for clinical use, including the hip fracture risk prediction and finite element analysis.
翻訳日:2021-02-04 17:17:05 公開日:2021-02-03
# 単発医用画像分割のためのラベルなしデータの確率分布のモデル化

Modeling the Probabilistic Distribution of Unlabeled Data forOne-shot Medical Image Segmentation ( http://arxiv.org/abs/2102.02033v1 )

ライセンス: Link先を確認
Yuhang Ding, Xin Yu, Yi Yang(参考訳) 既存の画像セグメンテーションネットワークは、主に大規模ラベル付きデータセットを活用して高い精度を実現する。 しかし、専門知識を必要とするため、医用画像のラベル付けは非常に高価である。 したがって、高いセグメンテーション性能の追求において、ラベル付きデータのみを用いる方が望ましい。 本稿では,1つのラベル付きMRI画像(アトラス)と数個のラベルなし画像のみを利用する,ワンショット脳MRI画像セグメント化のためのデータ拡張手法を開発する。 特に,3次元変分オートエンコーダ(VAE)を用いて,アトラスに対して異なるラベル付きMRI画像の変形(形状や強度を含む)の確率分布を学習することを提案する。 この方法では, 画像変形の学習分布を活用し, 新たな脳mri画像を生成することが可能であり, 生成されたサンプルの数が, ディープセグメンテーションネットワークを訓練するのに十分である。 さらに、セグメンテーションネットワークの一般化性能を評価するための新しい標準セグメンテーションベンチマークを、クロスデータセット設定(異なるソースから収集)を通じて導入する。 広汎な実験により,本手法は最先端のワンショット医療セグメンテーション法より優れていることが示された。 私たちのコードはhttps://github.com/d yh127/Modeling-the-P robabilistic-Distrib ution-of-Unlabeled-D ataでリリースされました。

Existing image segmentation networks mainly leverage large-scale labeled datasets to attain high accuracy. However, labeling medical images is very expensive since it requires sophisticated expert knowledge. Thus, it is more desirable to employ only a few labeled data in pursuing high segmentation performance. In this paper, we develop a data augmentation method for one-shot brain magnetic resonance imaging (MRI) image segmentation which exploits only one labeled MRI image (named atlas) and a few unlabeled images. In particular, we propose to learn the probability distributions of deformations (including shapes and intensities) of different unlabeled MRI images with respect to the atlas via 3D variational autoencoders (VAEs). In this manner, our method is able to exploit the learned distributions of image deformations to generate new authentic brain MRI images, and the number of generated samples will be sufficient to train a deep segmentation network. Furthermore, we introduce a new standard segmentation benchmark to evaluate the generalization performance of a segmentation network through a cross-dataset setting (collected from different sources). Extensive experiments demonstrate that our method outperforms the state-of-the-art one-shot medical segmentation methods. Our code has been released at https://github.com/d yh127/Modeling-the-P robabilistic-Distrib ution-of-Unlabeled-D ata.
翻訳日:2021-02-04 17:16:16 公開日:2021-02-03
# teyed: 瞳孔, まぶた, iris 2dおよび3dセグメンテーション, 2dおよび3dランドマーク, 3d眼球, 視線ベクトル, 眼球運動タイプによる2000万以上の実世界の眼球画像

TEyeD: Over 20 million real-world eye images with Pupil, Eyelid, and Iris 2D and 3D Segmentations, 2D and 3D Landmarks, 3D Eyeball, Gaze Vector, and Eye Movement Types ( http://arxiv.org/abs/2102.02115v1 )

ライセンス: Link先を確認
Wolfgang Fuhl and Gjergji Kasneci and Enkelejda Kasneci(参考訳) TEyeDは、ヘッドマウントデバイスで撮影された、世界最大のアイ画像集合である。 TEyeDは7つの異なるヘッドマウントアイトラッカーで買収された。 そのうち2つのアイトラッカーは、仮想現実(VR)または拡張現実(AR)デバイスに統合された。 TEyeDの画像は、カーライド、シミュレーターライド、アウトドアスポーツ活動、毎日の屋内活動など、さまざまなタスクから得られました。 データセットには、2D\&3Dランドマーク、セマンティックセグメンテーション、3Dアイボールアノテーション、全画像の視線ベクトルと眼球運動タイプが含まれている。 目印と意味的なセグメンテーションは、瞳孔、虹彩、まぶたに提供される。 ビデオの長さは数分から数時間まで様々である。 TEyeDは2000万以上の注意深い注釈付き画像とともに、ユニークなコヒーレントなリソースを提供し、現代のVRおよびARアプリケーションにおけるコンピュータビジョン、視線追跡、および視線推定の分野で研究を進めるための貴重な基盤を提供する。 data and code at https://unitc-my.sha repoint.com/:f:/g/pe rsonal/iitfu01_cloud _uni-tuebingen_de/ev rnpdtigfvhtcmefksyll ubepocbx0nekamweeza0 s9sq?e=fwevpp

We present TEyeD, the world's largest unified public data set of eye images taken with head-mounted devices. TEyeD was acquired with seven different head-mounted eye trackers. Among them, two eye trackers were integrated into virtual reality (VR) or augmented reality (AR) devices. The images in TEyeD were obtained from various tasks, including car rides, simulator rides, outdoor sports activities, and daily indoor activities. The data set includes 2D\&3D landmarks, semantic segmentation, 3D eyeball annotation and the gaze vector and eye movement types for all images. Landmarks and semantic segmentation are provided for the pupil, iris and eyelids. Video lengths vary from a few minutes to several hours. With more than 20 million carefully annotated images, TEyeD provides a unique, coherent resource and a valuable foundation for advancing research in the field of computer vision, eye tracking and gaze estimation in modern VR and AR applications. Data and code at https://unitc-my.sha repoint.com/:f:/g/pe rsonal/iitfu01_cloud _uni-tuebingen_de/Ev rNPdtigFVHtCMeFKSyLl UBepOcbX0nEkamweeZa0 s9SQ?e=fWEvPp
翻訳日:2021-02-04 17:15:34 公開日:2021-02-03
# AHAR:低消費電力エッジデバイスにおけるエネルギー効率人間活動認識のための適応型CNN

AHAR: Adaptive CNN for Energy-efficient Human Activity Recognition in Low-power Edge Devices ( http://arxiv.org/abs/2102.01875v1 )

ライセンス: Link先を確認
Nafiul Rashid, Berken Utku Demirel, Mohammad Abdullah Al Faruque(参考訳) 人間の活動認識(HAR)は、毎日の活動を追跡するためにウェアラブルデバイスの継続的な使用を必要とする健康監視の重要なアプリケーションの1つです。 ウェアラブルデバイスを使った最先端の作業は、携帯電話/リモートサーバでデータを分類するフォグ/クラウドコンピューティングアーキテクチャに従っている。 この種のアプローチは、エネルギー、レイテンシ、およびプライバシの問題に苦しむ。 したがって、ウェアラブルデバイスソリューションがエネルギーとメモリ効率を高めながら、適切なパフォーマンスを提供するエッジコンピューティングアーキテクチャに従います。 本稿では,低消費電力エッジデバイスに適したエネルギー効率HAR(AHAR)用Adaptive CNNを提案する。 AHARは、推論フェーズで使用するベースラインアーキテクチャの一部を選択する新しい適応アーキテクチャを使用します。 我々は2つのデータセット(オポチュニティとw-HAR)からロコモーションアクティビティを分類する手法を検証する。 Opportunityデータセットのフォグ/クラウドコンピューティングアプローチと比較して、ベースラインとアダプティブアーキテクチャは、それぞれ91.79%、91.57%の重み付きF1スコアを示している。 w-HARデータセットでは、ベースラインと適応アーキテクチャは、それぞれ97.55%、97.64%の重み付きF1スコアで最先端の作品よりも優れています。 実際のハードウェアでの評価では、我々のベースラインアーキテクチャはOpportunityデータセットの作業に比べてエネルギー効率が著しく(422.38倍)、メモリ効率が14.29倍低い。 w-harデータセットのベースラインアーキテクチャは、最先端の処理に比べて2.04倍のエネルギーと2.18倍のメモリを必要とする。 さらに, 適応型アーキテクチャは12.32% (Opportunity) であり, 11.14% (w-HAR) のエネルギー効率がベースラインよりも優れており, 類似の(Opportunity) や優れた(w-HAR) 性能はメモリオーバーヘッドを伴わない。

Human Activity Recognition (HAR) is one of the key applications of health monitoring that requires continuous use of wearable devices to track daily activities. State-of-the-art works using wearable devices have been following fog/cloud computing architecture where the data is classified at the mobile phones/remote servers. This kind of approach suffers from energy, latency, and privacy issues. Therefore, we follow edge computing architecture where the wearable device solutions provide adequate performance while being energy and memory-efficient. This paper proposes an Adaptive CNN for energy-efficient HAR (AHAR) suitable for low-power edge devices. AHAR uses a novel adaptive architecture that selects a portion of the baseline architecture to use during the inference phase. We validate our methodology in classifying locomotion activities from two datasets- Opportunity and w-HAR. Compared to the fog/cloud computing approaches for the Opportunity dataset, our baseline and adaptive architecture shows a comparable weighted F1 score of 91.79%, and 91.57%, respectively. For the w-HAR dataset, our baseline and adaptive architecture outperforms the state-of-the-art works with a weighted F1 score of 97.55%, and 97.64%, respectively. Evaluation on real hardware shows that our baseline architecture is significantly energy-efficient (422.38x less) and memory-efficient (14.29x less) compared to the works on the Opportunity dataset. For the w-HAR dataset, our baseline architecture requires 2.04x less energy and 2.18x less memory compared to the state-of-the-art work. Moreover, experimental results show that our adaptive architecture is 12.32% (Opportunity) and 11.14% (w-HAR) energy-efficient than our baseline while providing similar (Opportunity) or better (w-HAR) performance with no significant memory overhead.
翻訳日:2021-02-04 17:11:17 公開日:2021-02-03
# LinkLouvain: リンク対応A/Bテストとオンラインマーケティングキャンペーンへの応用

LinkLouvain: Link-Aware A/B Testing and Its Application on Online Marketing Campaign ( http://arxiv.org/abs/2102.01902v1 )

ライセンス: Link先を確認
Tianchi Cai, Daxi Cheng, Chen Liang, Ziqi Liu, Lihong Gu, Huizhi Xie, Zhiqiang Zhang, Xiaodong Zeng, Jinjie Gu(参考訳) 多くのオンラインマーケティングキャンペーンはユーザーインタラクションを促進することを目的としている。 キャンペーン戦略の平均治療効果(ATE)は、キャンペーン全体で監視する必要があります。 このようなニーズに対してA/Bテストが実施されるのに対して、ユーザインタラクションの存在は通常のA/Bテストに干渉をもたらす可能性がある。 リンク予測の助けを借りて,ネットワークa/bテスト手法linklouvainを設計,グラフ干渉を最小限に抑え,キャンペーンのateの正確かつ健全な推定を行う。 本論文では,実世界オンラインマーケティングキャンペーンにおけるネットワークA/Bテスト問題を解析し,提案したLinkLouvain手法を記述し,実世界データを用いて評価する。 本手法は他の手法に比べて大きな性能を発揮し,オンラインマーケティングキャンペーンに展開する。

A lot of online marketing campaigns aim to promote user interaction. The average treatment effect (ATE) of campaign strategies need to be monitored throughout the campaign. A/B testing is usually conducted for such needs, whereas the existence of user interaction can introduce interference to normal A/B testing. With the help of link prediction, we design a network A/B testing method LinkLouvain to minimize graph interference and it gives an accurate and sound estimate of the campaign's ATE. In this paper, we analyze the network A/B testing problem under a real-world online marketing campaign, describe our proposed LinkLouvain method, and evaluate it on real-world data. Our method achieves significant performance compared with others and is deployed in the online marketing campaign.
翻訳日:2021-02-04 17:10:24 公開日:2021-02-03
# ben stokes氏:パーソナライズされたディープニューラルネットワークを用いたクリケットのショットタイプを動的に予測する

You Cannot Do That Ben Stokes: Dynamically Predicting Shot Type in Cricket Using a Personalized Deep Neural Network ( http://arxiv.org/abs/2102.01952v1 )

ライセンス: Link先を確認
Will G\"urp{\i}nar-Morgan, Daniel Dinsdale, Joe Gallagher, Aditya Cherukumudi and Patrick Lucey(参考訳) バットマンがボールの種類とマッチ状況から何を撃とうと試みるかを予測する能力は、クリケットにおいて最も困難で戦略的に重要なタスクの1つです。 打者のゴールは、外されることなく多くのランを得点することであり、ボーラーのゴールはランの流れを抑え、理想的には相手を外すことである。 最高のバットマン対ボウラーの対決は最も重要なことだ。 例えば、フィールディングチームでは、対戦相手のスターバッターに対するボウラーの選択が勝利と敗戦の主な違いとなる可能性がある。 そのため、NFLのように事前に定義されたプレイブックを持つことができ、試合のコンテキストやバトマン、ボウルを処分するボウラーによって、チームがフィールドダーを設定するのがいかに最適かを予測することができるため、大きな戦略的優位性が得られる。 そこで本研究では,特定のゲームシナリオにおいて,特定の打者が特定のボウラーやボウルタイプを打つ確率を予測するための,パーソナライズされたディープニューラルネットワークアプローチを提案する。 イングランドとニュージーランドの2019ワールドカップ決勝戦をケーススタディの例として、当社のパーソナライズされた予測がどのようにコーチとキャプテンの意思決定をプリマッチとゲーム内戦術の両面で通知する重要な情報を提供するかを示しています。

The ability to predict what shot a batsman will attempt given the type of ball and match situation is both one of the most challenging and strategically important tasks in cricket. The goal of the batsman is to score as many runs without being dismissed, whilst for bowlers their goal is to stem the flow of runs and ideally to dismiss their opponent. Getting the best batsman vs bowler match-up is of paramount importance. For example, for the fielding team, the choice of bowler against the opposition star batsman could be the key difference between winning or losing. Therefore, the ability to have a predefined playbook (as in the NFL) which would allow a team to predict how best to set their fielders given the context of the game, the batsman they are bowling to and bowlers at their disposal would give them a significant strategic advantage. To this end, we present a personalized deep neural network approach which can predict the probabilities of where a specific batsman will hit a specific bowler and bowl type, in a specific game-scenario. We demonstrate how our personalized predictions provide vital information to inform the decision-making of coaches and captains, both in terms of pre-match and in-game tactical choices, using the 2019 World Cup final between England and New Zealand as a case study example.
翻訳日:2021-02-04 17:09:51 公開日:2021-02-03
# 臨床放射線学実習における機械学習モデルの開発と展開に関する技術的考察

Key Technology Considerations in Developing and Deploying Machine Learning Models in Clinical Radiology Practice ( http://arxiv.org/abs/2102.01979v1 )

ライセンス: Link先を確認
Viraj Kulkarni, Manish Gawali, Amit Kharat(参考訳) 近年,放射線画像の解釈のためのインテリジェントなソフトウェアツールの開発に機械学習を用いることが注目されている。 しかし、臨床実践におけるこれらのモデルの開発、展開、そして最終的な採用は、依然として困難に満ちている。 本稿では,機械学習研究者が認識し,そのモデルが正確で堅牢で実際に利用できるようにするための重要な考慮事項のリストを提案する。 具体的には,不十分なトレーニングデータ,分散データセット,アノテーションの高コスト,曖昧な根拠の真実,クラス表現の不均衡,非対称な誤分類コスト,関連するパフォーマンス指標,未発見データセットへのモデルの一般化,モデル崩壊,敵対的攻撃,説明可能性,公平性とバイアス,臨床検証について論じる。 それぞれの考察を記述し,それに対処する手法を同定する。 これらの技術は、以前の研究文献では議論されてきたが、医療画像の文脈で新しい検査を行い、洗濯物リストの形でそれらをコンパイルすることで、研究者、ソフトウェア開発者、放射線科医、その他の利害関係者にもっとアクセスできるようにすることを望んでいる。

The use of machine learning to develop intelligent software tools for interpretation of radiology images has gained widespread attention in recent years. The development, deployment, and eventual adoption of these models in clinical practice, however, remains fraught with challenges. In this paper, we propose a list of key considerations that machine learning researchers must recognize and address to make their models accurate, robust, and usable in practice. Namely, we discuss: insufficient training data, decentralized datasets, high cost of annotations, ambiguous ground truth, imbalance in class representation, asymmetric misclassification costs, relevant performance metrics, generalization of models to unseen datasets, model decay, adversarial attacks, explainability, fairness and bias, and clinical validation. We describe each consideration and identify techniques to address it. Although these techniques have been discussed in prior research literature, by freshly examining them in the context of medical imaging and compiling them in the form of a laundry list, we hope to make them more accessible to researchers, software developers, radiologists, and other stakeholders.
翻訳日:2021-02-04 17:09:05 公開日:2021-02-03
# 強化学習に基づくマルチUAVモバイルエッジコンピューティングとパスプランニングプラットフォーム

Multi-UAV Mobile Edge Computing and Path Planning Platform based on Reinforcement Learning ( http://arxiv.org/abs/2102.02078v1 )

ライセンス: Link先を確認
Huan Chang, Yicheng Chen, Baochang Zhang, David Doermann(参考訳) UAV(Unmanned Aerial Vehicle)は、モバイルネットワークのネットワークプロセッサとして広く使用されていますが、最近ではモバイルエッジコンピューティングでモバイルサーバーとして使用されています。 しかし、複雑な環境でのUAVの使用には障害やUAV間の協調といった大きな課題がある。 我々は、強化学習に基づくより良いサービス品質と経路計画を提供することを目的とした、新しいマルチuavモバイルエッジコンピューティングプラットフォームを導入する。 本研究の貢献は,1) モバイルエッジコンピューティングにおけるサービス品質の最適化と,同じ強化学習フレームワークにおける経路計画,2) 端末利用者のサービス品質確保のためのシグミド様機能の利用,3) 端末利用者のサービス品質,リスク回避,コスト削減を確保するために,強化学習報酬行列における端末利用者の需要,リスクと幾何学的距離を総合的に検討することである。 シミュレーションは、関連する研究を進めるのに役立つ当社のプラットフォームの有効性と実現可能性を示しています。

Unmanned Aerial vehicles (UAVs) are widely used as network processors in mobile networks, but more recently, UAVs have been used in Mobile Edge Computing as mobile servers. However, there are significant challenges to use UAVs in complex environments with obstacles and cooperation between UAVs. We introduce a new multi-UAV Mobile Edge Computing platform, which aims to provide better Quality-of-Service and path planning based on reinforcement learning to address these issues. The contributions of our work include: 1) optimizing the quality of service for mobile edge computing and path planning in the same reinforcement learning framework; 2) using a sigmoid-like function to depict the terminal users' demand to ensure a higher quality of service; 3) applying synthetic considerations of the terminal users' demand, risk and geometric distance in reinforcement learning reward matrix to ensure the quality of service, risk avoidance, and the cost-savings. Simulations have shown the effectiveness and feasibility of our platform, which can help advance related researches.
翻訳日:2021-02-04 17:08:25 公開日:2021-02-03
# 非IIDデータサイロのフェデレーション学習:実験的研究

Federated Learning on Non-IID Data Silos: An Experimental Study ( http://arxiv.org/abs/2102.02079v1 )

ライセンス: Link先を確認
Qinbin Li, Yiqun Diao, Quan Chen, Bingsheng He(参考訳) 機械学習サービスは多くのデータ集約型アプリケーションで登場しており、その効果は大量の高品質のトレーニングデータに大きく依存しています。 しかし、プライバシーの懸念やデータ規制の高まりにより、トレーニングデータは断片化され、複数のデータサイロ(例えば、異なる組織や国内で)の分散データベースを形成している。 効率的な機械学習サービスを開発するには、生データを交換することなく、このような分散データベースのデータを利用する必要がある。 近年、フェデレーテッド・ラーニング(FL)は関心が高まり、複数のパーティがローカルデータを交換することなく機械学習モデルを協調的にトレーニングできるソリューションとなっている。 分散データベースにおける重要かつ共通の課題は、当事者間のデータ分散(すなわち非IID)の不均一性である。 非IIDデータ設定下での学習効率に対処するFLアルゴリズムは数多く存在する。 しかし,従来の研究では,代表的かつ徹底的ではないパーティ間でのデータ分割戦略が非常に厳格なため,そのメリットとデメリットを体系的に理解する実験的な研究が欠落している。 本論文では,フェデレーション学習における非IIDデータ設定の理解と研究を支援するために,非IIDデータケースをカバーする包括的なデータ分割戦略を提案する。 さらに,最先端flアルゴリズムを評価するための広範囲な実験を行った。 非IIDはFLアルゴリズムの精度を学習する上で大きな課題をもたらしており、既存のFLアルゴリズムが他のどの場合よりも優れているものはない。 我々の実験は、データサイロの課題に対処するための将来の研究のための洞察を提供する。

Machine learning services have been emerging in many data-intensive applications, and their effectiveness highly relies on large-volume high-quality training data. However, due to the increasing privacy concerns and data regulations, training data have been increasingly fragmented, forming distributed databases of multiple data silos (e.g., within different organizations and countries). To develop effective machine learning services, there is a must to exploit data from such distributed databases without exchanging the raw data. Recently, federated learning (FL) has been a solution with growing interests, which enables multiple parties to collaboratively train a machine learning model without exchanging their local data. A key and common challenge on distributed databases is the heterogeneity of the data distribution (i.e., non-IID) among the parties. There have been many FL algorithms to address the learning effectiveness under non-IID data settings. However, there lacks an experimental study on systematically understanding their advantages and disadvantages, as previous studies have very rigid data partitioning strategies among parties, which are hardly representative and thorough. In this paper, to help researchers better understand and study the non-IID data setting in federated learning, we propose comprehensive data partitioning strategies to cover the typical non-IID data cases. Moreover, we conduct extensive experiments to evaluate state-of-the-art FL algorithms. We find that non-IID does bring significant challenges in learning accuracy of FL algorithms, and none of the existing state-of-the-art FL algorithms outperforms others in all cases. Our experiments provide insights for future studies of addressing the challenges in data silos.
翻訳日:2021-02-04 17:07:45 公開日:2021-02-03
# 2D-Lidarスキャンの自動符号化によるナビゲーションタスクのコンパクト状態表現の学習

Learning a Compact State Representation for Navigation Tasks by Autoencoding 2D-Lidar Scans ( http://arxiv.org/abs/2102.02127v1 )

ライセンス: Link先を確認
Christopher Gebauer and Maren Bennewitz(参考訳) 本稿では,ナビゲーションタスクにおける強化学習のための2次元ライダースキャンのコンパクト表現生成の問題に対処する。 現時点では、ナビゲーションエージェントを効果的かつ効率的に訓練するのに必要な条件である提供された状態のコンパクト性にのみ焦点をあてる作業は少ない。 私たちのアプローチは3段階で機能します。 まず, 距離測定の新たな前処理を提案し, 局所的, エゴセントリックな, バイナリグリッドマップを現在の距離計測に基づいて計算する。 次に、潜在空間が状態表現として機能する変分オートエンコーダを使用してローカルマップを自動エンコードする。 コンパクトかつ同時に有意義な表現のための重要な鍵は、各潜在次元間の相関を記述する非絡み合いの度合いである。 そこで我々は最後に,表現力を向上させるために最先端の解離手法を適用した。 さらに、時間依存的な情報を潜在空間に組み込む可能性を探ります。 特に,連続走査,特にエゴモーションの関係を,メモリモデルを適用して考察する。 tensorflowを使ってpythonでこのアプローチを実装しました。 我々のデータセットはpybulletでシミュレートされ、slamtec rplidar A3で記録されます。 実験では,lidarデータを高度に圧縮し,潜在空間の有意義な分布を維持し,時間に依存する情報も取り入れる手法の有用性を示す。

In this paper, we address the problem of generating a compact representation of 2D-lidar scans for reinforcement learning in navigation tasks. By now only little work focuses on the compactness of the provided state, which is a necessary condition to successfully and efficiently train a navigation agent. Our approach works in three stages. First, we propose a novel preprocessing of the distance measurements and compute a local, egocentric, binary grid map based on the current range measurements. We then autoencode the local map using a variational autoencoder, where the latent space serves as state representation. An important key for a compact and, at the same time, meaningful representation is the degree of disentanglement, which describes the correlation between each latent dimension. Therefore, we finally apply state-of-the-art disentangling methods to improve the representation power. Furthermore, we investige the possibilities of incorporating time-dependent information into the latent space. In particular, we incorporate the relation of consecutive scans, especially ego-motion, by applying a memory model. We implemented our approach in python using tensorflow. Our datasets are simulated with pybullet as well as recorded using a slamtec rplidar A3. The experiments show the capability of our approach to highly compress lidar data, maintain a meaningful distribution of the latent space, and even incorporate time-depended information.
翻訳日:2021-02-04 17:06:56 公開日:2021-02-03
# IWA: 深層ニューラルネットワークのための統合グラディエントベースのホワイトボックス攻撃

IWA: Integrated Gradient based White-box Attacks for Fooling Deep Neural Networks ( http://arxiv.org/abs/2102.02128v1 )

ライセンス: Link先を確認
Yixiang Wang, Jiqiang Liu, Xiaolin Chang, Jelena Mi\v{s}i\'c, and Vojislav B. Mi\v{s}i\'c(参考訳) ディープニューラルネットワーク(DNN)技術の広範な適用は、DNNテスト/展開段階で容易にDNNをだますことができる知覚不能でよく設計された摂動で追加された正当な入力、逆の例によって挑戦されています。 敵のホワイトボックス攻撃に対する以前の逆例生成アルゴリズムは、ジャコビアン勾配情報を用いて摂動を追加する。 この情報は不正確で不正確であり、逆の例を生成する際に不要な摂動を引き起こす。 本稿ではこの問題に対処することを目的とする。 まず,より情報的かつ蒸留された勾配情報,すなわち統合勾配を応用し,逆例を生成することを提案する。 さらに摂動をより知覚しにくくするため, 摂動点と摂動点を同時に制限できる$L_0$と$L_1/L_2$の制限の組み合わせを提案する。 一方,$l_1$の非微分問題に対処するために,$l_1$の近値演算を三度に検討する。 これら3つの研究に基づき,2つの統合勾配に基づくWhite-box Adversarial Example Generation Algorithm (IWA)を提案する。 IFPAは、パーチュアされるポイントの決定された数がある状況に適しています。 IUAは、より逆の例を得るために摂動点数が予め設定されていない状況に適している。 提案手法の有効性を構造化データセットと非構造化データセットの両方で検証し,5つのベースライン生成アルゴリズムと比較した。 その結果,提案するアルゴリズムは,より不可視な摂動と満足のいく手技率で逆行例を示すことができた。 L_2$制限は非構造化データセットにより適しており、$L_1$制限は構造化データセットでよりよく機能する。

The widespread application of deep neural network (DNN) techniques is being challenged by adversarial examples, the legitimate input added with imperceptible and well-designed perturbations that can fool DNNs easily in the DNN testing/deploying stage. Previous adversarial example generation algorithms for adversarial white-box attacks used Jacobian gradient information to add perturbations. This information is too imprecise and inexplicit, which will cause unnecessary perturbations when generating adversarial examples. This paper aims to address this issue. We first propose to apply a more informative and distilled gradient information, namely integrated gradient, to generate adversarial examples. To further make the perturbations more imperceptible, we propose to employ the restriction combination of $L_0$ and $L_1/L_2$ secondly, which can restrict the total perturbations and perturbation points simultaneously. Meanwhile, to address the non-differentiable problem of $L_1$, we explore a proximal operation of $L_1$ thirdly. Based on these three works, we propose two Integrated gradient based White-box Adversarial example generation algorithms (IWA): IFPA and IUA. IFPA is suitable for situations where there are a determined number of points to be perturbed. IUA is suitable for situations where no perturbation point number is preset in order to obtain more adversarial examples. We verify the effectiveness of the proposed algorithms on both structured and unstructured datasets, and we compare them with five baseline generation algorithms. The results show that our proposed algorithms do craft adversarial examples with more imperceptible perturbations and satisfactory crafting rate. $L_2$ restriction is more suitable for unstructured dataset and $L_1$ restriction performs better in structured dataset.
翻訳日:2021-02-04 17:06:16 公開日:2021-02-03
# BeFair:銀行セクターの公平性への取り組み

BeFair: Addressing Fairness in the Banking Sector ( http://arxiv.org/abs/2102.02137v1 )

ライセンス: Link先を確認
Riccardo Crupi, Giulia Del Gamba, Greta Greco, Aisha Naseer, Daniele Regoli, Beatriz San Miguel Gonzalez(参考訳) アルゴリズムバイアスの軽減は、データサイエンスコミュニティと機械学習(ML)の専門家にとって最も困難な混乱の1つです。 数年間にわたり、MLの公平性分野に多大な努力が注がれている。 バイアスの特定と公正なアルゴリズムの設計の進歩にもかかわらず、それらを業界に翻訳することは大きな課題です。 本稿では,銀行セクターにおける産業的オープンイノベーションプロジェクトの初期成果として,MLの公平性に関する一般的なロードマップと,バイアスの特定と緩和を支援するBeFairと呼ばれるツールキットの実装を提案する。 その結果、明示的な制約のないモデルのトレーニングは、予測におけるバイアスの悪化につながる可能性がある。

Algorithmic bias mitigation has been one of the most difficult conundrums for the data science community and Machine Learning (ML) experts. Over several years, there have appeared enormous efforts in the field of fairness in ML. Despite the progress toward identifying biases and designing fair algorithms, translating them into the industry remains a major challenge. In this paper, we present the initial results of an industrial open innovation project in the banking sector: we propose a general roadmap for fairness in ML and the implementation of a toolkit called BeFair that helps to identify and mitigate bias. Results show that training a model without explicit constraints may lead to bias exacerbation in the predictions.
翻訳日:2021-02-04 17:05:25 公開日:2021-02-03
# 3次元点雲上の音楽音源分離条件

Music source separation conditioned on 3D point clouds ( http://arxiv.org/abs/2102.02028v1 )

ライセンス: Link先を確認
Francesc Llu\'is, Vasileios Chatziioannou, Alex Hofmann(参考訳) 近年,深層学習技術の適用により音源分離が著しく進展している。 音声と視覚情報を組み合わせる現在の手法では、画像などの2次元表現を使用して分離プロセスを導く。 ただし、実際の音楽アンサンブルの録音から3D仮想/拡張現実アプリケーションのための音響的補正シーンを(再)作成するには、3D環境内の各音源に関する詳細な情報が必要です。 この需要は、lidarやrgb-depthカメラのような3d視覚取得システムの急増とともに、3d視覚情報を使用してオーディオ分離を導くモデルの作成を促進する。 本稿では,音楽演奏記録の3次元点雲に条件付き音源分離を行うマルチモーダル深層学習モデルを提案する。 このモデルは3次元スパース畳み込みを用いて視覚的特徴を抽出し、音声特徴は密畳み込みを用いて抽出する。 融合モジュールは抽出した特徴を組み合わせて、最終的に音源分離を行う。 提示されたモデルは、単一の3Dポイントクラウドフレームから楽器を区別し、手動で割り当てられた楽器ラベルが提供される基準ケースと定性的に類似したソース分離を行うことができる。

Recently, significant progress has been made in audio source separation by the application of deep learning techniques. Current methods that combine both audio and visual information use 2D representations such as images to guide the separation process. However, in order to (re)-create acoustically correct scenes for 3D virtual/augmented reality applications from recordings of real music ensembles, detailed information about each sound source in the 3D environment is required. This demand, together with the proliferation of 3D visual acquisition systems like LiDAR or rgb-depth cameras, stimulates the creation of models that can guide the audio separation using 3D visual information. This paper proposes a multi-modal deep learning model to perform music source separation conditioned on 3D point clouds of music performance recordings. This model extracts visual features using 3D sparse convolutions, while audio features are extracted using dense convolutions. A fusion module combines the extracted features to finally perform the audio source separation. It is shown, that the presented model can distinguish the musical instruments from a single 3D point cloud frame, and perform source separation qualitatively similar to a reference case, where manually assigned instrument labels are provided.
翻訳日:2021-02-04 17:04:54 公開日:2021-02-03
# ランク2マルコフ鎖の欠落質量

Missing Mass of Rank-2 Markov Chains ( http://arxiv.org/abs/2102.01938v1 )

ライセンス: Link先を確認
Prafulla Chandra, Andrew Thangaraj and Nived Rajaraman(参考訳) サンプルが独立で同一分布(iid)の場合,GT推定器の欠落質量の推定はよく理解されている。 この記事では、iidケースの最も単純な拡張の1つであるランク2遷移行列を持つ固定マルコフ鎖からサンプルが来るとき、同じ問題を検討します。 我々は、鎖のスペクトルギャップと状態の占有率に縛られた尾の点でGT推定器の絶対バイアス上の上限を開発します。 マルコフ連鎖の既知濃度値からテール境界を導出し, 鎖の他のパラメータを用いてバウンドを評価する。 シミュレーションによって支持された解析は、ランク2の既約鎖に対して、GT推定器は、鎖内の状態の接続性にゆるく依存する速度でサンプル数でバイアスと平均2乗誤差を減少させることを示唆している。

Estimation of missing mass with the popular Good-Turing (GT) estimator is well-understood in the case where samples are independent and identically distributed (iid). In this article, we consider the same problem when the samples come from a stationary Markov chain with a rank-2 transition matrix, which is one of the simplest extensions of the iid case. We develop an upper bound on the absolute bias of the GT estimator in terms of the spectral gap of the chain and a tail bound on the occupancy of states. Borrowing tail bounds from known concentration results for Markov chains, we evaluate the bound using other parameters of the chain. The analysis, supported by simulations, suggests that, for rank-2 irreducible chains, the GT estimator has bias and mean-squared error falling with number of samples at a rate that depends loosely on the connectivity of the states in the chain.
翻訳日:2021-02-04 17:04:15 公開日:2021-02-03
# マルチスケール領域アテンションとデータ拡張による音声感情認識

Speech Emotion Recognition with Multiscale Area Attention and Data Augmentation ( http://arxiv.org/abs/2102.01813v1 )

ライセンス: Link先を確認
Mingke Xu, Fan Zhang, Xiaodong Cui, Wei Zhang(参考訳) 音声感情認識(SER)では、感情的特徴はしばしばスペクトルにおけるエネルギーパターンの多様な形で現れる。 SERの典型的な注意ニューラルネットワーク分類器は、通常、固定注意粒度で最適化される。 本稿では, 深部畳み込みニューラルネットワークにおいて, 様々な粒度の感情特性に対応するために, マルチスケール領域の注意を応用し, 異なるスケールの注意の集まりから, 分類器の利点を享受する。 データ疎度に対処するため,声道長摂動(VTLP)を用いたデータ拡張を行い,分類器の一般化能力を向上させる。 実験は、Interactive Emotional Dyadic Motion Capture (IEMOCAP)データセット上で実施される。 私たちは79.34%の重み付き精度(WA)と77.54%の非重み付き精度(UA)を達成しました。

In Speech Emotion Recognition (SER), emotional characteristics often appear in diverse forms of energy patterns in spectrograms. Typical attention neural network classifiers of SER are usually optimized on a fixed attention granularity. In this paper, we apply multiscale area attention in a deep convolutional neural network to attend emotional characteristics with varied granularities and therefore the classifier can benefit from an ensemble of attentions with different scales. To deal with data sparsity, we conduct data augmentation with vocal tract length perturbation (VTLP) to improve the generalization capability of the classifier. Experiments are carried out on the Interactive Emotional Dyadic Motion Capture (IEMOCAP) dataset. We achieved 79.34% weighted accuracy (WA) and 77.54% unweighted accuracy (UA), which, to the best of our knowledge, is the state of the art on this dataset.
翻訳日:2021-02-04 17:02:44 公開日:2021-02-03
# 航法データを用いたBAE/GANにおける潜時空間構造の組織化

Organization of a Latent Space structure in VAE/GAN trained by navigation data ( http://arxiv.org/abs/2102.01852v1 )

ライセンス: Link先を確認
Hiroki Kojima and Takashi Ikegami(参考訳) 本稿では,入力画像を潜在ベクトルにマッピングし,内部で時間系列を生成する,生成型深層ニューラルネットワーク(vae/gan)を用いた新しい人工認知マッピングシステムを提案する。 その結果、予測画像の距離はトレーニング後の対応する潜伏ベクトルの距離に反映されることがわかった。 これは、潜在空間がデータセットの近接構造を反映して構築されていることを示し、認知の多くの側面が空間的に表現されるメカニズムを提供する。 本研究は,海馬のリプレイ/プレプレイに類似した時間的シーケンスを内部的に生成し,vaeは過去の経験のほぼ正確なリプレイのみを生成するが,ganを導入することにより,時間的近接画像の潜在ベクトルが密結合し,いくつかの不安定性を得た。 これは、海馬に見られる新しい配列の生成の起源である可能性があります。

We present a novel artificial cognitive mapping system using generative deep neural networks (VAE/GAN), which can map input images to latent vectors and generate temporal sequences internally. The results show that the distance of the predicted image is reflected in the distance of the corresponding latent vector after training. This indicates that the latent space is constructed to reflect the proximity structure of the data set, and may provide a mechanism by which many aspects of cognition are spatially represented. The present study allows the network to internally generate temporal sequences analogous to hippocampal replay/pre-play, where VAE produces only near-accurate replays of past experiences, but by introducing GANs, latent vectors of temporally close images are closely aligned and sequence acquired some instability. This may be the origin of the generation of the new sequences found in the hippocampus.
翻訳日:2021-02-04 17:02:08 公開日:2021-02-03
# 悪意あるクライアントに対する安全なフェデレーションラーニング

Provably Secure Federated Learning against Malicious Clients ( http://arxiv.org/abs/2102.01854v1 )

ライセンス: Link先を確認
Xiaoyu Cao, Jinyuan Jia, Neil Zhenqiang Gong(参考訳) フェデレーションラーニングにより、クライアントはローカルトレーニングデータをクラウドサーバーと共有することなく、共有グローバルモデルを共同で学習できます。 しかし、悪意のあるクライアントはグローバルモデルを破損して、テスト例の誤ったラベルを予測できます。 悪意のあるクライアントに対する既存の防御は、Byzantine-robustフェデレーション学習方法を活用します。 しかし、これらの方法は、テスト例の予測ラベルが悪意のあるクライアントの影響を受けないことを保証できません。 このギャップをアンサンブル連合学習によって橋渡しします。 特に,任意のベースフェデレーション学習アルゴリズムを用いて,複数のグローバルモデルを学習し,それぞれがランダムに選択されたクライアントのサブセットを用いて学習する。 テスト例のラベルを予測する場合、私たちは、グローバルモデルに多数票を投じます。 我々は,任意のベースフェデレーション学習アルゴリズムを用いたアンサンブルフェデレーション学習が,悪意のあるクライアントに対して確実に安全であることを示す。 具体的には、テスト例のためのアンサンブルグローバルモデルによって予測されたラベルは、悪意のあるクライアントの限定された数に影響されない。 さらに、導出境界は密接であることが示される。 本手法をMNISTおよびヒューマンアクティビティ認識データセット上で評価する。 例えば、1000件のクライアントのうち20件が悪意がある場合、mnistの認証精度は88%である。

Federated learning enables clients to collaboratively learn a shared global model without sharing their local training data with a cloud server. However, malicious clients can corrupt the global model to predict incorrect labels for testing examples. Existing defenses against malicious clients leverage Byzantine-robust federated learning methods. However, these methods cannot provably guarantee that the predicted label for a testing example is not affected by malicious clients. We bridge this gap via ensemble federated learning. In particular, given any base federated learning algorithm, we use the algorithm to learn multiple global models, each of which is learnt using a randomly selected subset of clients. When predicting the label of a testing example, we take majority vote among the global models. We show that our ensemble federated learning with any base federated learning algorithm is provably secure against malicious clients. Specifically, the label predicted by our ensemble global model for a testing example is provably not affected by a bounded number of malicious clients. Moreover, we show that our derived bound is tight. We evaluate our method on MNIST and Human Activity Recognition datasets. For instance, our method can achieve a certified accuracy of 88% on MNIST when 20 out of 1,000 clients are malicious.
翻訳日:2021-02-04 17:01:31 公開日:2021-02-03
# エッジ検出:ディープニューラルネットワークを用いたエッジ中心ネットワーク侵入検出

Edge-Detect: Edge-centric Network Intrusion Detection using Deep Neural Network ( http://arxiv.org/abs/2102.01873v1 )

ライセンス: Link先を確認
Praneet Singh, Jishnu Jaykumar, Akhil Pankaj, Reshmi Mitra(参考訳) エッジノードは、internet-of-thingsエンドポイントにおける多種多様なサイバー攻撃の検出に不可欠であり、数十億の産業の一部である。 この新しいネットワークインフラストラクチャ層におけるリソース制約は、既存のネットワーク侵入検出システムとディープラーニングモデル(DLM)の展開を制限する。 DLM技術を用いて,エッジノードに対する分散型サービス攻撃を検知する,軽量で高速かつ高精度なEdge-Detectモデルを開発することで,この問題に対処する。 私たちのモデルは、リソース制限、すなわち、機能します。 低い電力、記憶および処理の機能、意味のあるペースで正確な結果を作り出すため。 時系列データの優れた表現で知られるLong Short-Term MemoryまたはGated Recurrent Unitベースセルのレイヤを作成することで構築される。 我々はRecurring Neural Networkを用いた実用的なデータサイエンスパイプラインを設計し、ネットワークパケットの動作から学習し、それが正常か攻撃指向かを特定する。 モデル評価は、現在のサイバーセキュリティデータセット(UNSW2015)を使用してRaspberry Piで表現された実際のエッジノードへの展開からである。 以上の結果から,従来のDLM技術と比較して,資源利用率の低いcpuやメモリにおいても,高い試験精度を99%維持できることが示された。 さらに、それは最先端のモデルよりほぼ3倍小さいですが、まだはるかに低いテスト時間を必要とします。

Edge nodes are crucial for detection against multitudes of cyber attacks on Internet-of-Things endpoints and is set to become part of a multi-billion industry. The resource constraints in this novel network infrastructure tier constricts the deployment of existing Network Intrusion Detection System with Deep Learning models (DLM). We address this issue by developing a novel light, fast and accurate 'Edge-Detect' model, which detects Distributed Denial of Service attack on edge nodes using DLM techniques. Our model can work within resource restrictions i.e. low power, memory and processing capabilities, to produce accurate results at a meaningful pace. It is built by creating layers of Long Short-Term Memory or Gated Recurrent Unit based cells, which are known for their excellent representation of sequential data. We designed a practical data science pipeline with Recurring Neural Network to learn from the network packet behavior in order to identify whether it is normal or attack-oriented. The model evaluation is from deployment on actual edge node represented by Raspberry Pi using current cybersecurity dataset (UNSW2015). Our results demonstrate that in comparison to conventional DLM techniques, our model maintains a high testing accuracy of 99% even with lower resource utilization in terms of cpu and memory. In addition, it is nearly 3 times smaller in size than the state-of-art model and yet requires a much lower testing time.
翻訳日:2021-02-04 17:00:55 公開日:2021-02-03
# 平面ユークリッド曲線の長さ学習

Length Learning for Planar Euclidean Curves ( http://arxiv.org/abs/2102.01895v1 )

ライセンス: Link先を確認
Barak Or and Liam Hazan(参考訳) 本研究では,深層ニューラルネットワーク(dnn)を用いて,微分幾何学における基本問題を解く。 曲率、長さ、その他の幾何学的性質を計算する多くの閉形式式を文献で見つけることができる。 これらの概念を知っているように、我々はディープニューラルネットワークを使用してそれらを再構築するモチベーションが高い。 このフレームワークでは、例から幾何学的性質を学ぶことが目標です。 最も単純な幾何学対象は曲線である。 そこで本研究では,正弦波データセットが生成する平面サンプリング曲線の長さを学習する。 このため,教師付き学習手法を用いて基本長公理を再構成した。 これらの公理に続いて、簡略化されたDNNモデルArcLengthNetが確立されました。 添加ノイズと離散誤差に対する堅牢性をテストした。

In this work, we used deep neural networks (DNNs) to solve a fundamental problem in differential geometry. One can find many closed-form expressions for calculating curvature, length, and other geometric properties in the literature. As we know these concepts, we are highly motivated to reconstruct them by using deep neural networks. In this framework, our goal is to learn geometric properties from examples. The simplest geometric object is a curve. Therefore, this work focuses on learning the length of planar sampled curves created by a sine waves dataset. For this reason, the fundamental length axioms were reconstructed using a supervised learning approach. Following these axioms a simplified DNN model, we call ArcLengthNet, was established. The robustness to additive noise and discretization errors were tested.
翻訳日:2021-02-04 17:00:14 公開日:2021-02-03
# 自己監督型マルチグラニュラリティフレームワークによる汎用音声表現学習

General-Purpose Speech Representation Learning through a Self-Supervised Multi-Granularity Framework ( http://arxiv.org/abs/2102.01930v1 )

ライセンス: Link先を確認
Yucheng Zhao, Dacheng Yin, Chong Luo, Zhiyuan Zhao, Chuanxin Tang, Wenjun Zeng, Zheng-Jun Zha(参考訳) 本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。 MGFの設計では、音声階層を考慮に入れている。 具体的には,細粒度情報を小さな時間スケールで捉えるための生成的学習手法と,粗粒度や意味的情報を大規模に蒸留する識別的学習手法を提案する。 音素スケール学習では、マスク付き言語モデルからアイデアを借りるが、分類損失を対照的な損失に置き換えることで連続的な音声信号に合わせる。 我々は, 音素分類, 話者分類, 音声認識, 感情分類など, 下流課題のmgf表現を評価することにより, 設計を裏付ける。 実験は、異なる時間スケールでのトレーニングには異なるトレーニング目標と損失関数が必要であることを検証し、一般的に互いに補完し、より良いパフォーマンスにつながります。

This paper presents a self-supervised learning framework, named MGF, for general-purpose speech representation learning. In the design of MGF, speech hierarchy is taken into consideration. Specifically, we propose to use generative learning approaches to capture fine-grained information at small time scales and use discriminative learning approaches to distill coarse-grained or semantic information at large time scales. For phoneme-scale learning, we borrow idea from the masked language model but tailor it for the continuous speech signal by replacing classification loss with a contrastive loss. We corroborate our design by evaluating MGF representation on various downstream tasks, including phoneme classification, speaker classification, speech recognition, and emotion classification. Experiments verify that training at different time scales needs different training targets and loss functions, which in general complement each other and lead to a better performance.
翻訳日:2021-02-04 16:59:44 公開日:2021-02-03
# attentionflow:時系列ネットワークへの影響の可視化

AttentionFlow: Visualising Influence in Networks of Time Series ( http://arxiv.org/abs/2102.01974v1 )

ライセンス: Link先を確認
Minjeong Shin, Alasdair Tran, Siqi Wu, Alexander Mathews, Rong Wang, Georgiana Lyall, Lexing Xie(参考訳) webページ、検索語、ビデオなどのオンラインアイテムに対する集合的注目は、社会的、文化的、経済的関心の傾向を反映している。 さらに、各項目の注目傾向は、ハイパーリンクやレコメンデーションなどのメカニズムを介して相互に影響を示す。 時系列、ネットワークの進化、ネットワークの影響など、多くの可視化ツールが存在するが、これら3つをつなぐシステムはほとんどない。 本研究では,時系列のネットワークと,それらが相互に持つ動的影響を可視化する新しいシステムであるAttentionFlowを紹介する。 本システムは,エゴノードを中心に,各ノードの時系列を2つの視覚的エンコーディング(概観のためのツリーリングと細部のためのラインチャート)で同時に表示する。 AttentionFlowは、時間系列の影響のオーバーレイや、時間やフラックスによる近隣のフィルタリングなどのインタラクションをサポートします。 実世界の2つのデータセットであるVevoMusicとWikiTrafficを使ってAttentionFlowを実証する。 曲の注目度は、大賞などの外部イベントや、新曲のリリースなどのネットワークの変化によって説明できることを示しています。 異なるケーススタディでは、アーティストのキャリアにどう影響するかが示され、関連するウィキペディアのトラフィックは文化的な関心によって引き起こされる。 より広範に、AttentionFlowは、道路ネットワークのような物理的なインフラ上の時系列のネットワークや、気象や地質測定のような自然現象を可視化するために一般化することができる。

The collective attention on online items such as web pages, search terms, and videos reflects trends that are of social, cultural, and economic interest. Moreover, attention trends of different items exhibit mutual influence via mechanisms such as hyperlinks or recommendations. Many visualisation tools exist for time series, network evolution, or network influence; however, few systems connect all three. In this work, we present AttentionFlow, a new system to visualise networks of time series and the dynamic influence they have on one another. Centred around an ego node, our system simultaneously presents the time series on each node using two visual encodings: a tree ring for an overview and a line chart for details. AttentionFlow supports interactions such as overlaying time series of influence and filtering neighbours by time or flux. We demonstrate AttentionFlow using two real-world datasets, VevoMusic and WikiTraffic. We show that attention spikes in songs can be explained by external events such as major awards, or changes in the network such as the release of a new song. Separate case studies also demonstrate how an artist's influence changes over their career, and that correlated Wikipedia traffic is driven by cultural interests. More broadly, AttentionFlow can be generalised to visualise networks of time series on physical infrastructures such as road networks, or natural phenomena such as weather and geological measurements.
翻訳日:2021-02-04 16:59:10 公開日:2021-02-03
# ニューラルTTSモデルと音声後部図に基づく自然および制御可能なクロスリンガル音声変換に向けて

Towards Natural and Controllable Cross-Lingual Voice Conversion Based on Neural TTS Model and Phonetic Posteriorgram ( http://arxiv.org/abs/2102.01991v1 )

ライセンス: Link先を確認
Shengkui Zhao, Hao Wang, Trung Hieu Nguyen, Bin Ma(参考訳) 言語間音声変換 (VC) は, 音素集合のかなりのミスマッチと, 言語間の韻律の相違により, 重要かつ困難な問題である。 本稿では、FastSpeech-VCと呼ばれる新しい言語間VCフレームワークを設計するために、ニューラルテキスト音声(TTS)モデル、すなわちFastSpeechとLPCNetのニューラルボコーダを構築する。 話者と言語の境界を橋渡しすることが証明された音韻後部図(ppg)を適用し,音声集合と音声韻律のミスマッチに対処した。 さらに,正規化対数スケール基本周波数(Log-F0)を加え,韻律的ミスマッチを補うとともに,自然性を大幅に向上させる。 英語とマンダリン言語における実験により,提案するfastspeech-vcは,単言語コーパスのみを用いて,話者の類似性を維持しつつ,プロのレコードに近い平均意見スコア(mos)で高品質な変換音声を実現できることが示された。 Tacotron2とTransformer TTSモデルを用いたベースラインと比較して、FastSpeech-VCは制御可能な変換音声レートとはるかに高速な推論速度を達成することができる。 さらに重要なことに、fastspeech-vcは限られた訓練発話で簡単にスピーカーに適応できる。

Cross-lingual voice conversion (VC) is an important and challenging problem due to significant mismatches of the phonetic set and the speech prosody of different languages. In this paper, we build upon the neural text-to-speech (TTS) model, i.e., FastSpeech, and LPCNet neural vocoder to design a new cross-lingual VC framework named FastSpeech-VC. We address the mismatches of the phonetic set and the speech prosody by applying Phonetic PosteriorGrams (PPGs), which have been proved to bridge across speaker and language boundaries. Moreover, we add normalized logarithm-scale fundamental frequency (Log-F0) to further compensate for the prosodic mismatches and significantly improve naturalness. Our experiments on English and Mandarin languages demonstrate that with only mono-lingual corpus, the proposed FastSpeech-VC can achieve high quality converted speech with mean opinion score (MOS) close to the professional records while maintaining good speaker similarity. Compared to the baselines using Tacotron2 and Transformer TTS models, the FastSpeech-VC can achieve controllable converted speech rate and much faster inference speed. More importantly, the FastSpeech-VC can easily be adapted to a speaker with limited training utterances.
翻訳日:2021-02-04 16:58:27 公開日:2021-02-03
# 複合畳み込みブロック注意モジュールと同時時間周波数損失を用いたモナラ音声強調

Monaural Speech Enhancement with Complex Convolutional Block Attention Module and Joint Time Frequency Losses ( http://arxiv.org/abs/2102.01993v1 )

ライセンス: Link先を確認
Shengkui Zhao, Trung Hieu Nguyen, Bin Ma(参考訳) 複合U-Net構造と畳み込みリカレントネットワーク(CRN)構造は、モノラル音声強調のための最先端性能を実現する。 深い複素U-NetとCRNはどちらもスキップ接続を持つエンコーダとデコーダ構造であり、複素値畳み込み層の表現力に大きく依存している。 本稿では、より有益な特徴を構築することにより、複雑値の畳み込み層の表現力を高めるための複合畳み込みブロック注意モジュール(CCBAM)を提案する。 CCBAMは、任意の複雑な値の畳み込み層に簡単に統合できる軽量で一般的なモジュールです。 CCBAM と深い複雑な U-Net と CRN を統合し、音声強調のためのパフォーマンスを高めます。 さらに、時間周波数(TF)領域と時間領域の両方で複雑なモデルを共同最適化する混合損失関数を提案します。 CCBAMと混合損失を統合することで、我々は新しいエンドツーエンド(E2E)複合音声強調フレームワークを形成する。 アブレーション実験と客観的評価は,提案手法の優れた性能を示す。

Deep complex U-Net structure and convolutional recurrent network (CRN) structure achieve state-of-the-art performance for monaural speech enhancement. Both deep complex U-Net and CRN are encoder and decoder structures with skip connections, which heavily rely on the representation power of the complex-valued convolutional layers. In this paper, we propose a complex convolutional block attention module (CCBAM) to boost the representation power of the complex-valued convolutional layers by constructing more informative features. The CCBAM is a lightweight and general module which can be easily integrated into any complex-valued convolutional layers. We integrate CCBAM with the deep complex U-Net and CRN to enhance their performance for speech enhancement. We further propose a mixed loss function to jointly optimize the complex models in both time-frequency (TF) domain and time domain. By integrating CCBAM and the mixed loss, we form a new end-to-end (E2E) complex speech enhancement framework. Ablation experiments and objective evaluations show the superior performance of the proposed approaches.
翻訳日:2021-02-04 16:57:42 公開日:2021-02-03
# パスフレーズ依存ディープオートエンコーダを用いたテキスト依存話者検証のためのデータ生成

Data Generation Using Pass-phrase-dependen t Deep Auto-encoders for Text-Dependent Speaker Verification ( http://arxiv.org/abs/2102.02074v1 )

ライセンス: Link先を確認
Achintya Kumar Sarkar, Md Sahidullah, Zheng-Hua Tan(参考訳) 本稿では,テキスト依存話者照合(td-sv)のための拡張データを作成するために,pp-dnn(pass-phrase specific deep neural network)ベースの自動エンコーダを訓練する新しい手法を提案する。 各pp-dnnオートエンコーダは、(i)転送学習と(ii)スクラッチからトレーニングという2つの方法で、ターゲット登録で利用可能な特定のパスフレーズの発話を用いて訓練される。 次に、所定の発話の特徴ベクトルをPP-DNNに供給し、フレームレベルでの各PP-DNNからの出力を生成データの新しいセットと考える。 各PP-DNNから生成されたデータは、利用可能な評価データのみを考慮する従来の方法とは対照的に、TD-SVシステムを構築するために使用されます。 提案手法は,各PP-DNNで学習した非線形変換を用いて,データからパスフレーズ特定空間への変換とみなすことができる。 本手法は,各パスフレーズに対して個別に訓練されたPP-DNNの数に等しい数のTD-SVシステムを開発する。 最後に、異なるTD-SVシステムのスコアは意思決定のために融合される。 短い発話を用いたtd-sv用reddots challenge 2016データベースで実験を行った。 提案手法は,ガウス混合モデル (GMM-UBM) と i-vector フレームワークの両方を用いて,従来のケプストラム特徴と深いボトルネック特徴の両方の性能を改善した。

In this paper, we propose a novel method that trains pass-phrase specific deep neural network (PP-DNN) based auto-encoders for creating augmented data for text-dependent speaker verification (TD-SV). Each PP-DNN auto-encoder is trained using the utterances of a particular pass-phrase available in the target enrollment set with two methods: (i) transfer learning and (ii) training from scratch. Next, feature vectors of a given utterance are fed to the PP-DNNs and the output from each PP-DNN at frame-level is considered one new set of generated data. The generated data from each PP-DNN is then used for building a TD-SV system in contrast to the conventional method that considers only the evaluation data available. The proposed approach can be considered as the transformation of data to the pass-phrase specific space using a non-linear transformation learned by each PP-DNN. The method develops several TD-SV systems with the number equal to the number of PP-DNNs separately trained for each pass-phrases for the evaluation. Finally, the scores of the different TD-SV systems are fused for decision making. Experiments are conducted on the RedDots challenge 2016 database for TD-SV using short utterances. Results show that the proposed method improves the performance for both conventional cepstral feature and deep bottleneck feature using both Gaussian mixture model - universal background model (GMM-UBM) and i-vector framework.
翻訳日:2021-02-04 16:57:05 公開日:2021-02-03
# (参考訳) 未知摂動集合を用いた逆ロバスト学習 [全文訳有]

Adversarially Robust Learning with Unknown Perturbation Sets ( http://arxiv.org/abs/2102.02145v1 )

ライセンス: CC BY 4.0
Omar Montasser, Steve Hanneke, Nathan Srebro(参考訳) 本研究では、未知の摂動集合に対する敵の例に頑健な学習予測器の問題について検討し、その代わりに敵の攻撃者との相互作用や攻撃口へのアクセスに依存し、そのような相互作用の異なるモデルを調べる。 我々は、予測器の仮説クラスのVCとリトルストーンの寸法の観点から、異なる相互作用モデルにおいて、必要な相互作用の数、または成功した攻撃の数、および摂動セットに関する仮定なしに、サンプルの複雑さと上下の境界の上限を取得します。

We study the problem of learning predictors that are robust to adversarial examples with respect to an unknown perturbation set, relying instead on interaction with an adversarial attacker or access to attack oracles, examining different models for such interactions. We obtain upper bounds on the sample complexity and upper and lower bounds on the number of required interactions, or number of successful attacks, in different interaction models, in terms of the VC and Littlestone dimensions of the hypothesis class of predictors, and without any assumptions on the perturbation set.
翻訳日:2021-02-04 16:56:09 公開日:2021-02-03
# (参考訳) GEMベンチマーク:自然言語生成とその評価とメトリクス [全文訳有]

The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics ( http://arxiv.org/abs/2102.01672v2 )

ライセンス: CC BY 4.0
Sebastian Gehrmann, Tosin Adewumi, Karmanya Aggarwal, Pawan Sasanka Ammanamanchi, Aremu Anuoluwapo, Antoine Bosselut, Khyathi Raghavi Chandu, Miruna Clinciu, Dipanjan Das, Kaustubh D. Dhole, Wanyu Du, Esin Durmus, Ond\v{r}ej Du\v{s}ek, Chris Emezue, Varun Gangal, Cristina Garbacea, Tatsunori Hashimoto, Yufang Hou, Yacine Jernite, Harsh Jhamtani, Yangfeng Ji, Shailza Jolly, Dhruv Kumar, Faisal Ladhak, Aman Madaan, Mounica Maddela, Khyati Mahajan, Saad Mahamood, Bodhisattwa Prasad Majumder, Pedro Henrique Martins, Angelina McMillan-Major, Simon Mille, Emiel van Miltenburg, Moin Nadeem, Shashi Narayan, Vitaly Nikolaev, Rubungo Andre Niyongabo, Salomey Osei, Ankur Parikh, Laura Perez-Beltrachini, Niranjan Ramesh Rao, Vikas Raunak, Juan Diego Rodriguez, Sashank Santhanam, Jo\~ao Sedoc, Thibault Sellam, Samira Shaikh, Anastasia Shimorina, Marco Antonio Sobrevilla Cabezudo, Hendrik Strobelt, Nishant Subramani, Wei Xu, Diyi Yang, Akhila Yerukola, Jiawei Zhou(参考訳) 自然言語生成(NLG)のための生きたベンチマークであるGEM、その評価、およびメトリクスを紹介します。 NLGの進捗測定は、自動メトリクス、データセット、および人間の評価基準の絶え間なく進化するエコシステムに依存しています。 しかし、この移動目標のため、新しいモデルは、よく確立されているが欠陥のあるメトリクスを持つ分散アングロ中心のコーパスで評価されることが多い。 この切断は、現在のモデルと進歩の機会の限界を特定するのを難しくする。 この制限に対処するため、GEMは幅広いコーポラにモデルを簡単に適用でき、評価戦略をテストすることができる環境を提供します。 ベンチマークの定期的なアップデートにより、NLGの研究はより多言語化され、モデルとともに課題を進化させる。 この論文は、ACL 2021ワークショップで共有タスクを組織し、NLGコミュニティ全体を参加するよう招待する最初のリリースの説明として機能します。

We introduce GEM, a living benchmark for natural language Generation (NLG), its Evaluation, and Metrics. Measuring progress in NLG relies on a constantly evolving ecosystem of automated metrics, datasets, and human evaluation standards. However, due to this moving target, new models often still evaluate on divergent anglo-centric corpora with well-established, but flawed, metrics. This disconnect makes it challenging to identify the limitations of current models and opportunities for progress. Addressing this limitation, GEM provides an environment in which models can easily be applied to a wide set of corpora and evaluation strategies can be tested. Regular updates to the benchmark will help NLG research become more multilingual and evolve the challenge alongside models. This paper serves as the description of the initial release for which we are organizing a shared task at our ACL 2021 Workshop and to which we invite the entire NLG community to participate.
翻訳日:2021-02-04 15:02:10 公開日:2021-02-03
# (参考訳) ニューラルセマンティックパーサーのロバスト性について [全文訳有]

On Robustness of Neural Semantic Parsers ( http://arxiv.org/abs/2102.01563v2 )

ライセンス: CC BY 4.0
Shuo Huang, Zhuang Li, Lizhen Qu, Lei Pan(参考訳) 意味解析は自然言語(NL)の発話を論理形式(LF)に写し、多くの高度なNLP問題を支えている。 セマンティックパーサーはディープニューラルネットワークでパフォーマンスが向上するが、逆の例に対する脆弱性を継承する。 本論文では,逆アタックの存在下でのセマンティックパーサーの堅牢性に関する実証的研究について述べる。 形式的には、意味解析の敵は摂動的発話-LF対と見なされ、その発話は原語と全く同じ意味を持つ。 既存のベンチマークコーパスに基づくロバストネステストセットを構築するために,スケーラブルな手法を提案する。 本研究は,ロバスト性テストセットにおけるサーテ・オブ・ザ・アーツ・パーサーの性能評価と,データ拡張の効果評価に関する5つの研究課題に答えた。

Semantic parsing maps natural language (NL) utterances into logical forms (LFs), which underpins many advanced NLP problems. Semantic parsers gain performance boosts with deep neural networks, but inherit vulnerabilities against adversarial examples. In this paper, we provide the empirical study on the robustness of semantic parsers in the presence of adversarial attacks. Formally, adversaries of semantic parsing are considered to be the perturbed utterance-LF pairs, whose utterances have exactly the same meanings as the original ones. A scalable methodology is proposed to construct robustness test sets based on existing benchmark corpora. Our results answered five research questions in measuring the sate-of-the-art parsers' performance on robustness test sets, and evaluating the effect of data augmentation.
翻訳日:2021-02-04 14:27:50 公開日:2021-02-03
# (参考訳) ビデオキャプションのためのセマンティックグループネットワーク [全文訳有]

Semantic Grouping Network for Video Captioning ( http://arxiv.org/abs/2102.00831v2 )

ライセンス: CC BY 4.0
Hobin Ryu, Sunghun Kang, Haeyong Kang, and Chang D. Yoo(参考訳) 本論文では,(1)部分的に符号化されたキャプションの単語フレーズを区別してビデオフレームをグループ化しようとするセマンティックグループネットワーク(Semantic Grouping Network, SGN)と呼ばれるビデオキャプション生成ネットワークを検討し,(2)セマンティックアライメント群を復号して次の単語を予測する。 連続するフレームがユニークな情報を提供する可能性は低いため、以前の手法は入力ビデオのみに基づいて繰り返し情報を破棄またはマージすることに重点を置いていた。 SGNは、部分的にデコードされたキャプションの最も識別された単語フレーズをキャプチャするアルゴリズムと、関連するビデオフレームに各フレーズを関連付けるマッピングを学習する。 従来の手法とは対照的に、復号された単語からの連続的なフィードバックにより、SGNは部分的に復号されたキャプションに対応するビデオ表現を動的に更新することができる。 さらに、マニュアルアノテーションなしで単語句とビデオフレームの正確な整合を容易にするために、コントラストの注意損失が提案される。 SGNは、MSVDおよびMSR-VTTデータセット上のCIDEr-Dスコアの2.1%pおよび2.4%pのマージンでランナーアップ方法を上回ることにより、最新のパフォーマンスを実現します。 広範な実験は、SGNの有効性と解釈可能性を示しています。

This paper considers a video caption generating network referred to as Semantic Grouping Network (SGN) that attempts (1) to group video frames with discriminating word phrases of partially decoded caption and then (2) to decode those semantically aligned groups in predicting the next word. As consecutive frames are not likely to provide unique information, prior methods have focused on discarding or merging repetitive information based only on the input video. The SGN learns an algorithm to capture the most discriminating word phrases of the partially decoded caption and a mapping that associates each phrase to the relevant video frames - establishing this mapping allows semantically related frames to be clustered, which reduces redundancy. In contrast to the prior methods, the continuous feedback from decoded words enables the SGN to dynamically update the video representation that adapts to the partially decoded caption. Furthermore, a contrastive attention loss is proposed to facilitate accurate alignment between a word phrase and video frames without manual annotations. The SGN achieves state-of-the-art performances by outperforming runner-up methods by a margin of 2.1%p and 2.4%p in a CIDEr-D score on MSVD and MSR-VTT datasets, respectively. Extensive experiments demonstrate the effectiveness and interpretability of the SGN.
翻訳日:2021-02-04 13:59:50 公開日:2021-02-03
# (参考訳) 時間適応ガウスモデル [全文訳有]

Time Adaptive Gaussian Model ( http://arxiv.org/abs/2102.01238v2 )

ライセンス: CC BY 4.0
Federico Ciech, Veronica Tozzo(参考訳) 多変量時系列分析は、データ分析パイプラインの不可欠な部分になりつつある。 コ変数間の個々のタイムポイント接続と、これらの接続が時間内でどのように変化するかを理解することは簡単ではない。 そこで本研究では,隠れマルコフモデルとガウスグラフィックモデル-時間適応ガウスモデル(TAGM)を活用した新しい手法を提案する。 本モデルは時間的グラフィカルモデルの推論のための最先端手法の一般化であり,その定式化は,現在の手法よりも優れた結果を提供するモデルの両側面を活用している。 特に、時間内にデータポイントをクラスタリングすることでパターン認識を行い、観察された変数間の確率的(そしておそらく因果関係)の関係を見出す。 時間的ネットワーク推論の現在の方法と比較して、良い推論性能を示しながら基本的な仮定を減らします。

Multivariate time series analysis is becoming an integral part of data analysis pipelines. Understanding the individual time point connections between covariates as well as how these connections change in time is non-trivial. To this aim, we propose a novel method that leverages on Hidden Markov Models and Gaussian Graphical Models -- Time Adaptive Gaussian Model (TAGM). Our model is a generalization of state-of-the-art methods for the inference of temporal graphical models, its formulation leverages on both aspects of these models providing better results than current methods. In particular,it performs pattern recognition by clustering data points in time; and, it finds probabilistic (and possibly causal) relationships among the observed variables. Compared to current methods for temporal network inference, it reduces the basic assumptions while still showing good inference performances.
翻訳日:2021-02-04 13:45:12 公開日:2021-02-03
# (参考訳) ライン描画による顔写真とスケッチの橋渡し [全文訳有]

Bridging Unpaired Facial Photos And Sketches By Line-drawings ( http://arxiv.org/abs/2102.00635v2 )

ライセンス: CC BY 4.0
Meimei Shang, Fei Gao, Xiang Li, Jingjie Zhu, Lingna Dai(参考訳) 本論文では,不対データを用いて顔スケッチ合成モデルを学習する新しい手法を提案する。 私たちの主なアイデアは、写真ドメイン $\mathcal{X}$ とスケッチドメイン $Y$ を線引きドメイン $\mathcal{Z}$ を使ってブリッジすることです。 特に,画像とスケッチの両方を,ニューラルスタイルの転送手法を用いて線画にマッピングする。 F: \mathcal{X}/\mathcal{Y} \mapsto \mathcal{Z}$ である。 その結果、 \textit{pseudo paired data} $(\mathcal{z}, \mathcal{y})$ を得ることができ、マッピング $g:\mathcal{z} \mapsto \mathcal{y}$ を教師あり学習方法で学習することができる。 推論段階では、顔写真が与えられたら、まずラインドローイングに転送し、次に$G \circ F$でスケッチに転送できます。 さらに,異なるタイプのストロークを生成するための新しいストローク損失を提案する。 sRenderと呼ばれる私たちの方法は、人間のアーティストのレンダリングプロセスとよく一致します。 実験結果は、sRenderがマルチスタイルのスケッチを生成し、既存の不対画像から画像への変換方法を大幅に上回ることを実証した。

In this paper, we propose a novel method to learn face sketch synthesis models by using unpaired data. Our main idea is bridging the photo domain $\mathcal{X}$ and the sketch domain $Y$ by using the line-drawing domain $\mathcal{Z}$. Specially, we map both photos and sketches to line-drawings by using a neural style transfer method, i.e. $F: \mathcal{X}/\mathcal{Y} \mapsto \mathcal{Z}$. Consequently, we obtain \textit{pseudo paired data} $(\mathcal{Z}, \mathcal{Y})$, and can learn the mapping $G:\mathcal{Z} \mapsto \mathcal{Y}$ in a supervised learning manner. In the inference stage, given a facial photo, we can first transfer it to a line-drawing and then to a sketch by $G \circ F$. Additionally, we propose a novel stroke loss for generating different types of strokes. Our method, termed sRender, accords well with human artists' rendering process. Experimental results demonstrate that sRender can generate multi-style sketches, and significantly outperforms existing unpaired image-to-image translation methods.
翻訳日:2021-02-04 13:32:55 公開日:2021-02-03
# (参考訳) Occluded Video Instance Segmentation [全文訳有]

Occluded Video Instance Segmentation ( http://arxiv.org/abs/2102.01558v2 )

ライセンス: CC BY 4.0
Jiyang Qi, Yan Gao, Yao Hu, Xinggang Wang, Xiaoyu Liu, Xiang Bai, Serge Belongie, Alan Yuille, Philip H.S. Torr, Song Bai(参考訳) 映像理解システムは,シーン内に重い咬合が存在する場合,物体を知覚できるのか? この質問に答えるために、OVISと呼ばれる大規模データセットを収集し、ビデオインスタンスのセグメンテーション、すなわち、インクルードされたシーンでインスタンスを検出し、セグメンテーションし、追跡します。 OVISは25のセマンティックカテゴリから296kの高品質のインスタンスマスクで構成されており、オブジェクト閉塞は通常発生します。 人間の視覚システムは文脈的推論と関連づけによってこれらを理解できるが、実験は現在の映像理解システムが満足していないことを示唆する。 OVISデータセットでは、最先端のアルゴリズムによって達成された最高のAPはわずか14.4であり、実際のシナリオでオブジェクト、インスタンス、ビデオを理解するための初期段階にあることを明らかにしています。 また,閉塞による物体の欠落を補うために,時間的特徴キャリブレーションと呼ばれるプラグアンドプレイモジュールを提案する。 MaskTrack R-CNN と SipMask をベースに構築され、AP はそれぞれ 15.2 と 15.0 である。 OVISデータセットはhttp://songbai.site/ ovis でリリースされる。

Can our video understanding systems perceive objects when a heavy occlusion exists in a scene? To answer this question, we collect a large scale dataset called OVIS for occluded video instance segmentation, that is, to simultaneously detect, segment, and track instances in occluded scenes. OVIS consists of 296k high-quality instance masks from 25 semantic categories, where object occlusions usually occur. While our human vision systems can understand those occluded instances by contextual reasoning and association, our experiments suggest that current video understanding systems are not satisfying. On the OVIS dataset, the highest AP achieved by state-of-the-art algorithms is only 14.4, which reveals that we are still at a nascent stage for understanding objects, instances, and videos in a real-world scenario. Moreover, to complement missing object cues caused by occlusion, we propose a plug-and-play module called temporal feature calibration. Built upon MaskTrack R-CNN and SipMask, we report an AP of 15.2 and 15.0 respectively. The OVIS dataset is released at http://songbai.site/ ovis , and the project code will be available soon.
翻訳日:2021-02-04 13:09:19 公開日:2021-02-03
# M2FN:マルチステップモダリティ融合による画像評価

M2FN: Multi-step Modality Fusion for Advertisement Image Assessment ( http://arxiv.org/abs/2102.00441v3 )

ライセンス: Link先を確認
Kyung-Wha Park (1), Jung-Woo Ha (2), JungHoon Lee (3), Sunyoung Kwon (4), Kyung-Min Kim (2), Byoung-Tak Zhang (1 and 5 and 6) ((1) Interdisciplinary Program in Neuroscience, Seoul National University., (2) NAVER AI LAB, NAVER CLOVA., (3) Statistics and Actuarial Science, Soongsil University., (4) School of Biomedical Convergence Engineering, Pusan National University., (5) Department of Computer Science and Engineering, Seoul National University., (6) Surromind Robotics.)(参考訳) 特にユーザーの嗜好と広告品質に基づいて広告を評価することは、マーケティング業界にとって重要です。 近年の研究では、ディープニューラルネットワークの利用を試みているが、これらの研究では画像関連補助属性(ad画像に頻繁に見られる埋め込みテキストを含む)は使用されていない。 そこで,これらの属性が広告イメージの嗜好に与える影響を検討した。 まず, 大規模実世界の広告ログデータを分析し, 本研究に基づいて, ユーザの好みにアピールしそうな広告画像を決定する新しいマルチステップモダリティ融合ネットワーク (m2fn) を提案する。 本手法は,条件付きバッチ正規化に基づく低レベル融合と注意に基づく高レベル融合を含む,ネットワーク内の複数のステップを通じて補助属性を利用する。 M2FNは、美的画像評価に広く使用されているAVAデータセット上で検証し、豊富な補助属性を持つ実世界の広告データセットを用いて、嗜好予測における最先端のパフォーマンスを達成できることを実証しました。

Assessing advertisements, specifically on the basis of user preferences and ad quality, is crucial to the marketing industry. Although recent studies have attempted to use deep neural networks for this purpose, these studies have not utilized image-related auxiliary attributes, which include embedded text frequently found in ad images. We, therefore, investigated the influence of these attributes on ad image preferences. First, we analyzed large-scale real-world ad log data and, based on our findings, proposed a novel multi-step modality fusion network (M2FN) that determines advertising images likely to appeal to user preferences. Our method utilizes auxiliary attributes through multiple steps in the network, which include conditional batch normalization-based low-level fusion and attention-based high-level fusion. We verified M2FN on the AVA dataset, which is widely used for aesthetic image assessment, and then demonstrated that M2FN can achieve state-of-the-art performance in preference prediction using a real-world ad dataset with rich auxiliary attributes.
翻訳日:2021-02-04 12:55:21 公開日:2021-02-03
# LSTM-Recurrent Neural Networksを用いた車線変化までの時間予測

Predicting the Time Until a Vehicle Changes the Lane Using LSTM-based Recurrent Neural Networks ( http://arxiv.org/abs/2102.01431v2 )

ライセンス: Link先を確認
Florian Wirthm\"uller, Marvin Klimke, Julian Schlechtriemen, Jochen Hipp and Manfred Reichert(参考訳) 高速道路における自動運転車の安全で快適な軌道計画には,交通状況の正確な予測が必要である。 これまでのところ、車線変更が実際に起こる時点を推定するよりも、車線変更操作の検出に多くの研究が費やされてきた。 しかし実際には、この時間情報はもっと役に立つかもしれない。 本論文では,長期記憶型リカレントニューラルネットワークを用いて,高速道路における周辺車両の次の車線変化の時間を正確に予測するシステムの開発について述べる。 大規模実世界のデータセットに基づく広範な評価により,本手法は,最も困難な状況であっても,根平均二乗誤差が0.7秒程度で,信頼性の高い予測を行うことができることが示された。 車線変更の3.5秒前の予測は精度が高くなり、中央値の誤差は0.25秒未満である。 要約すると、この記事は下流の高精度な位置予測のための基本的なステップを形成します。

To plan safe and comfortable trajectories for automated vehicles on highways, accurate predictions of traffic situations are needed. So far, a lot of research effort has been spent on detecting lane change maneuvers rather than on estimating the point in time a lane change actually happens. In practice, however, this temporal information might be even more useful. This paper deals with the development of a system that accurately predicts the time to the next lane change of surrounding vehicles on highways using long short-term memory-based recurrent neural networks. An extensive evaluation based on a large real-world data set shows that our approach is able to make reliable predictions, even in the most challenging situations, with a root mean squared error around 0.7 seconds. Already 3.5 seconds prior to lane changes the predictions become highly accurate, showing a median error of less than 0.25 seconds. In summary, this article forms a fundamental step towards downstreamed highly accurate position predictions.
翻訳日:2021-02-04 12:54:41 公開日:2021-02-03
# CLIP-Guided Generative Latent Space Search によるキャプションからの画像生成とその逆

Generating images from caption and vice versa via CLIP-Guided Generative Latent Space Search ( http://arxiv.org/abs/2102.01645v2 )

ライセンス: Link先を確認
Federico A. Galatolo and Mario G.C.A. Cimino and Gigliola Vaglini(参考訳) 本研究では,与えられたキャプション(または画像)に対応する画像(またはキャプション)を生成する新しいゼロショットフレームワークであるGLaSSを提案する。 GLaSSは、画像と記述キャプションが同様の埋め込みを提供するCLIPニューラルネットワークに基づいている。 別として、GLaSSは入力としてキャプション(または画像)を取り、CLIP埋め込みが入力に最も近い画像(またはキャプション)を生成します。 この最適な画像(またはキャプション)は、遺伝的アルゴリズムによる探索後に生成ネットワークを介して生成される。 画像生成器BigGANおよびStyleGAN2の実験とテキスト生成器GPT2の実験に基づいて、推定結果を示す。

In this research work we present GLaSS, a novel zero-shot framework to generate an image(or a caption) corresponding to a given caption(or image). GLaSS is based on the CLIP neural network which given an image and a descriptive caption provides similar embeddings. Differently, GLaSS takes a caption (or an image) as an input, and generates the image (or the caption) whose CLIP embedding is most similar to the input one. This optimal image (or caption) is produced via a generative network after an exploration by a genetic algorithm. Promising results are shown, based on the experimentation of the image generators BigGAN and StyleGAN2, and of the text generator GPT2.
翻訳日:2021-02-04 12:54:08 公開日:2021-02-03
# ニューラルネットワークによる自然関数の近似におけるサイズと深さの分離

Size and Depth Separation in Approximating Natural Functions with Neural Networks ( http://arxiv.org/abs/2102.00314v2 )

ライセンス: Link先を確認
Gal Vardi, Daniel Reichman, Toniann Pitassi, Ohad Shamir(参考訳) ニューラルネットワークの表現力を調べるとき、ネットワークのサイズと深さが実際の関数を近似する能力にどのように影響するかを理解することが主な課題です。 しかし、すべての函数は実際的な観点から興味深いわけではない: 興味のある函数は通常多項式有界リプシッツ定数を持ち、効率的に計算できる。 これらの条件を満たす関数を「自然」と呼び、ReLUネットワークによる自然関数の近似のためのサイズと深さの利点を探ります。 私たちが示すように、この問題は非自然関数の対応する問題よりも困難です。 深さ4$の多項式サイズのネットワークでは近似できない自然関数の存在を証明すれば、計算の複雑さにおける長年のオープンな問題を解決できる。 深さ4ドルを超えると、一定の深さのネットワークと非定数深さのネットワークの間でも、自然関数の深さ分離を示すための障壁がある。 また、サイズ分離、すなわち、サイズ $o(s(d))$ のネットワークで近似できるが、サイズ $o(s'(d))$ のネットワークで近似できる自然関数が存在するかどうかについても研究した。 このような結果がサイズ $o(d\log^2(d))$ を超えることを証明するための複雑性理論上の障壁を示すとともに、サイズ $o(d)$ で近似でき、サイズ $o(d/\log d)$ のネットワークで近似できる明示的な自然関数も示す。 L_\infty$ の近似に対して、既に$O(d)$ と $o(d)$ の分離が達成されている。 さらに、関数の仮定に応じて、超多項式サイズの下限とそのような下限への障壁を示す。 サイズ分離の結果は,boolean関数のサイズ下限の解析に依存するが,それとは独立に,ニューラルネットワークとしきい値回路を用いた明示的なboolean関数の線形サイズ下限を示す。

When studying the expressive power of neural networks, a main challenge is to understand how the size and depth of the network affect its ability to approximate real functions. However, not all functions are interesting from a practical viewpoint: functions of interest usually have a polynomially-bounded Lipschitz constant, and can be computed efficiently. We call functions that satisfy these conditions "natural", and explore the benefits of size and depth for approximation of natural functions with ReLU networks. As we show, this problem is more challenging than the corresponding problem for non-natural functions. We give barriers to showing depth-lower-bounds: Proving existence of a natural function that cannot be approximated by polynomial-size networks of depth $4$ would settle longstanding open problems in computational complexity. It implies that beyond depth $4$ there is a barrier to showing depth-separation for natural functions, even between networks of constant depth and networks of nonconstant depth. We also study size-separation, namely, whether there are natural functions that can be approximated with networks of size $O(s(d))$, but not with networks of size $O(s'(d))$. We show a complexity-theoretic barrier to proving such results beyond size $O(d\log^2(d))$, but also show an explicit natural function, that can be approximated with networks of size $O(d)$ and not with networks of size $o(d/\log d)$. For approximation in $L_\infty$ we achieve such separation already between size $O(d)$ and size $o(d)$. Moreover, we show superpolynomial size lower bounds and barriers to such lower bounds, depending on the assumptions on the function. Our size-separation results rely on an analysis of size lower bounds for Boolean functions, which is of independent interest: We show linear size lower bounds for computing explicit Boolean functions with neural networks and threshold circuits.
翻訳日:2021-02-04 12:53:33 公開日:2021-02-03
# ラジアル関数を超える深さ分離

Depth separation beyond radial functions ( http://arxiv.org/abs/2102.01621v2 )

ライセンス: Link先を確認
Luca Venturi, Samy Jelassi, Tristan Ozuch, Joan Bruna(参考訳) ニューラルネットワークの高次元深度分離の結果、特定の関数は2重層ネットワークによって効率的に近似できるが、高次元の1重層は$d$であることがわかった。 このタイプの既存の結果は、主に基礎となる放射状または1次元の構造を持つ機能に焦点を当てている。 本稿の最初の貢献は、(Eldan and Shamir, 2016)の証明戦略に基づいて、より一般的な関数のクラス、すなわち、断片的振動構造を持つ関数にその結果を拡張することである。 これらの結果は、ドメイン半径と目的関数の発振速度が一定である場合、任意の固定誤差しきい値に対して$\mathrm{poly}(d)$レートで保持する1つの隠れ層ネットワークによる近似を示すことによって補完する。 このような結果の証明における共通のテーマは、一層ネットワークがフーリエ表現が領域内に広がる高エネルギー関数を近似できないという事実である。 一方、1つの隠れたニューラルネットワークによる関数の既存の近似結果は、スパースなフーリエ表現を持つ関数に依存している。 領域の選択はまた、上値と下値の近似境界の間のギャップの源でもある。 固定近似領域、すなわち次元 $d$ における球面 $\mathbb{s}^{d-1}$ に焦点をあてて、1階層ネットワークで効率的に近似可能な両関数と、フーリエ展開の観点で証明可能でない関数のキャラクタリゼーションを提供する。

High-dimensional depth separation results for neural networks show that certain functions can be efficiently approximated by two-hidden-layer networks but not by one-hidden-layer ones in high-dimensions $d$. Existing results of this type mainly focus on functions with an underlying radial or one-dimensional structure, which are usually not encountered in practice. The first contribution of this paper is to extend such results to a more general class of functions, namely functions with piece-wise oscillatory structure, by building on the proof strategy of (Eldan and Shamir, 2016). We complement these results by showing that, if the domain radius and the rate of oscillation of the objective function are constant, then approximation by one-hidden-layer networks holds at a $\mathrm{poly}(d)$ rate for any fixed error threshold. A common theme in the proof of such results is the fact that one-hidden-layer networks fail to approximate high-energy functions whose Fourier representation is spread in the domain. On the other hand, existing approximation results of a function by one-hidden-layer neural networks rely on the function having a sparse Fourier representation. The choice of the domain also represents a source of gaps between upper and lower approximation bounds. Focusing on a fixed approximation domain, namely the sphere $\mathbb{S}^{d-1}$ in dimension $d$, we provide a characterization of both functions which are efficiently approximable by one-hidden-layer networks and of functions which are provably not, in terms of their Fourier expansion.
翻訳日:2021-02-04 12:52:39 公開日:2021-02-03
# 人工知能を用いた医療画像解析のための医療データセット収集

Medical Datasets Collections for Artificial Intelligence-based Medical Image Analysis ( http://arxiv.org/abs/2102.01549v2 )

ライセンス: Link先を確認
Yang Wen(参考訳) 我々は32の公開データセットを収集し,そのうち28は医用画像,4つは自然画像で,研究を行った。 これらのデータセットの画像は、異なるカメラによってキャプチャされるため、モダリティ、フレームサイズ、容量が異なる。 データアクセシビリティのため、私たちは多くのデータセットのwebサイトも提供しています。

We collected 32 public datasets, of which 28 for medical imaging and 4 for natural images, to conduct study. The images of these datasets are captured by different cameras, thus vary from each other in modality, frame size and capacity. For data accessibility, we also provide the websites of most datasets and hope this will help the readers reach the datasets.
翻訳日:2021-02-04 12:51:52 公開日:2021-02-03
# 編集を楽しむ: 潜在空間ナビゲーションによる画像編集のための制御可能なgan

Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space Navigation ( http://arxiv.org/abs/2102.01187v2 )

ライセンス: Link先を確認
Peiye Zhuang, Oluwasanmi Koyejo, Alexander G. Schwing(参考訳) 制御可能なセマンティック画像編集により、ユーザーはクリック数が少なく画像属性全体を変更できます。例えば、夏のシーンは冬に撮影されたように徐々に見えます。 このタスクの古典的なアプローチは、GAN(Generative Adversarial Net)を使用して、潜在空間と適切な潜在空間変換を学ぶ。 しかし、現在のアプローチはしばしば、絡み合った属性編集、グローバルなイメージアイデンティティの変更、および写真リアリズムの減少に苦しんでいます。 これらの懸念に対処するために,複数の属性変換を同時に学習し,属性回帰を変換関数のトレーニングに統合し,画像のアイデンティティとフォトリアリズムの維持を促進するコンテンツ損失と敵対的損失を適用する。 質的評価を主とした先行作業とは異なり、制御可能な編集性能を測定するための定量的評価戦略を提案します。 本モデルでは,画像の同一性やリアリズムを保ちながら,単一属性と複数属性の編集をよりよく制御することができる。 実画像と合成画像の両方に対して実験結果を提供し,本モデルがターゲット画像操作の最先端性能を達成することを強調した。

Controllable semantic image editing enables a user to change entire image attributes with few clicks, e.g., gradually making a summer scene look like it was taken in winter. Classic approaches for this task use a Generative Adversarial Net (GAN) to learn a latent space and suitable latent-space transformations. However, current approaches often suffer from attribute edits that are entangled, global image identity changes, and diminished photo-realism. To address these concerns, we learn multiple attribute transformations simultaneously, we integrate attribute regression into the training of transformation functions, apply a content loss and an adversarial loss that encourage the maintenance of image identity and photo-realism. We propose quantitative evaluation strategies for measuring controllable editing performance, unlike prior work which primarily focuses on qualitative evaluation. Our model permits better control for both single- and multiple-attribute editing, while also preserving image identity and realism during transformation. We provide empirical results for both real and synthetic images, highlighting that our model achieves state-of-the-art performance for targeted image manipulation.
翻訳日:2021-02-04 12:51:26 公開日:2021-02-03
# 球状星団系の運動学から銀河質量を推定する:深層学習に基づく新しい方法

Estimating galaxy masses from kinematics of globular cluster systems: a new method based on deep learning ( http://arxiv.org/abs/2102.00277v2 )

ライセンス: Link先を確認
Rajvir Kaur, Kenji Bekki, Ghulam Mubashar Hassan, Amitava Datta(参考訳) 本稿では,暗黒物質を含む銀河の総質量を球状星団系(gcss)の運動量から推定する新しい方法を提案する。 提案手法では,畳み込みニューラルネットワーク(cnns)を,円板銀河と楕円銀河の数値シミュレーションにより予測されたgcsの線速度(v$)と速度分散(\sigma$)の二次元(2d)マップに適用する。 この方法では、まず、合成された2Dマップの$\sigma$("1チャネル")、または$\sigma$("2チャネル")の$\sigma$と$V$("2チャネル")の2Dマップの大きい数("\sim 200,000$")でCNNを訓練する。 次に、CNNを使用して、CNNの訓練に使用されていない完全に未知のデータセットについて、銀河の総質量(CNNのテスト)を予測します。 その結果, 1チャネルデータと2チャネルデータの総合的精度は97.6\%, 97.8\%であり, 新手法が期待できることが示唆された。 1チャンネルデータの平均絶対誤差(MAEs)はそれぞれ0.288と0.275であり、根平均二乗誤差(RMSEs)の値は1チャンネルと2チャンネルそれぞれ0.539と0.51である。 これらの2チャネルデータに対するより小さなmaesとrmses(すなわち、より良い性能)は、新しい手法が質量推定におけるgcsのグローバル回転を適切に考慮できることを示唆している。 我々は,新しい質量推定法における予測精度がcnnのアーキテクチャに依存するだけでなく,合成画像にノイズを導入することによっても影響を受けることを強調する。

We present a new method by which the total masses of galaxies including dark matter can be estimated from the kinematics of their globular cluster systems (GCSs). In the proposed method, we apply the convolutional neural networks (CNNs) to the two-dimensional (2D) maps of line-of-sight-veloci ties ($V$) and velocity dispersions ($\sigma$) of GCSs predicted from numerical simulations of disk and elliptical galaxies. In this method, we first train the CNN using either only a larger number ($\sim 200,000$) of the synthesized 2D maps of $\sigma$ ("one-channel") or those of both $\sigma$ and $V$ ("two-channel"). Then we use the CNN to predict the total masses of galaxies (i.e., test the CNN) for the totally unknown dataset that is not used in training the CNN. The principal results show that overall accuracy for one-channel and two-channel data is 97.6\% and 97.8\% respectively, which suggests that the new method is promising. The mean absolute errors (MAEs) for one-channel and two-channel data are 0.288 and 0.275 respectively, and the value of root mean square errors (RMSEs) are 0.539 and 0.51 for one-channel and two-channel respectively. These smaller MAEs and RMSEs for two-channel data (i.e., better performance) suggest that the new method can properly consider the global rotation of GCSs in the mass estimation. We stress that the prediction accuracy in the new mass estimation method not only depends on the architectures of CNNs but also can be affected by the introduction of noise in the synthesized images.
翻訳日:2021-02-04 12:50:47 公開日:2021-02-03
# 機械学習による投票傾向の予測

Predicting Propensity to Vote with Machine Learning ( http://arxiv.org/abs/2102.01535v2 )

ライセンス: Link先を確認
Rebecca D. Pollard, Sara M. Pollard, Scott Streit(参考訳) 機械学習は、過去の行動や属性から投票する個人の傾向を推測する能力を可能にすることを実証します。 これは、投票者のアウトリーチ、投票者教育、govtキャンペーンのマイクロターゲティングに有用である。 政治学者は1940年代後半から選挙結果を推定する高度な技術を発展させた。 2つの先行研究は機械学習を使って将来の投票行動を予測する。 TensorFlowを使った機械学習環境を構築し、2004年から2018年まで投票データを取得し、3つの実験を実施しました。 マシューズ相関係数 0.39 で陽性となった。

We demonstrate that machine learning enables the capability to infer an individual's propensity to vote from their past actions and attributes. This is useful for microtargeting voter outreach, voter education and get-out-the-vote (GOVT) campaigns. Political scientists developed increasingly sophisticated techniques for estimating election outcomes since the late 1940s. Two prior studies similarly used machine learning to predict individual future voting behavior. We built a machine learning environment using TensorFlow, obtained voting data from 2004 to 2018, and then ran three experiments. We show positive results with a Matthews correlation coefficient of 0.39.
翻訳日:2021-02-04 12:48:26 公開日:2021-02-03
# サブサンプル半確定プログラムによるコミュニティ検出

Community Detection with a Subsampled Semidefinite Program ( http://arxiv.org/abs/2102.01419v2 )

ライセンス: Link先を確認
Pedro Abdalla and Afonso S. Bandeira(参考訳) 半定型プログラミングは、クラスタリングやコミュニティ検出など、データサイエンスと信号処理のいくつかの問題に取り組むための重要なツールです。 しかし、半定義のプログラムは実際には遅いことが多いため、スケッチなどの技法の高速化がしばしば考慮される。 確率ブロックモデルにおけるコミュニティ検出の文脈において、Mixon と Xie [9] は、最近、ネットワークのサブサンプリングされたサブグラフにのみ半定値プログラムを解き、計算の大幅な節約をもたらすスケッチフレームワークを提案している。 本稿では,2つの平衡群をもつ確率的ブロックモデルに対するこの手法の統計的限界について,mixon と xie の予想に対する正の答えを提案する。

Semidefinite programming is an important tool to tackle several problems in data science and signal processing, including clustering and community detection. However, semidefinite programs are often slow in practice, so speed up techniques such as sketching are often considered. In the context of community detection in the stochastic block model, Mixon and Xie [9] have recently proposed a sketching framework in which a semidefinite program is solved only on a subsampled subgraph of the network, giving rise to significant computational savings. In this short paper, we provide a positive answer to a conjecture of Mixon and Xie about the statistical limits of this technique for the stochastic block model with two balanced communities.
翻訳日:2021-02-04 12:47:59 公開日:2021-02-03